CN110377513A

CN110377513A - 基于机器学习的循环不变式自动生成方法

Info

Publication number: CN110377513A
Application number: CN201910630164.5A
Authority: CN
Inventors: 路红; 史玉石
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-10-25

Abstract

本发明公开了基于机器学习自动生成循环不变式的方法。首先对含循环语句的计算机程序依据一定的算法得到循环语句的后置条件，构造循环语句对应的Hoare三元组；然后依据循环语句的前置条件随机生成测试数据，以这些测试数据为循环变量的初始值运行循环语句，收集程序状态，构造数据集SV；对数据集SV中的每一组数据依据Hoare三元组进行分类标注形成分类数据集；利用KSVM算法对所收集的分类数据集进行分类，生成候选循环不变式；利用反证法对生成的候选不变式进行有效性验证，得到经验证的有效循环不变式。本发明实现了面向可运行的C程序的自动生成循环不变式，且支持生成提供形式更加丰富的循环不变式，能够大大减少形式化验证中循环语句自动验证的工作量。

Description

基于机器学习的循环不变式自动生成方法

技术领域

本发明属于软件工程、自动验证、形式化方法技术领域，涉及一种循环不变式自动生成方法。

背景技术

软件作为当今信息化社会的重要基础设施，已广泛应用于能源、交通、通信、金融和国防等安全攸关领域中。然而，随着软件集成程度的提高和软件系统结构的日益复杂，各类软件的高可信性质越来越不能保证。软件验证以逻辑和数学为基础，支持软件进行严格的形式规约和验证，是确保软件可信性的一种有效措施。软件验证的目标是证明程序在任何执行路径下均满足一定的形式化规约，即程序在确定的条件下执行结束后便可满足一定的要求。软件验证的一般步骤是针对待验证的程序撰写形式化规约(如前置条件、后置条件和循环不变式)，然后利用自动验证工具或交互式定理证明器验证给定程序是否满足所撰写的形式化规约。根据所使用的验证工具不同，可将形式化验证方法分为人工撰写证明脚本和自动化验证两类。人工撰写形式化证明脚本方法即验证者利用Isabelle、Coq和HOL4等交互式定理证明器，依据待验证程序运行环境建立形式化模型，根据其满足的属性建立形式化规约，并在交互式定理证明器中完成推理验证，其证明开销较大。

为了提高验证效率、简化验证难度，出现了Z3、Danfy和Why3等自动化验证工具。运用自动化验证工具对代码量较少的程序进行验证，无需验证者撰写大量证明脚本，仅需按照自动化验证工具的规范撰写待验证程序的形式化规约，即可快速得到程序是否正确的验证结果。然而，为程序提供合适的形式化规约，尤其是循环不变式，需要验证者依据对程序的深刻理解进行手工撰写，这对于验证者来说是一项任务繁重的工作任务且容易出现错误。

发明内容

本发明所要解决的问题是提供一种基于机器学习的方法实现面向可运行的计算机程序的自动生成循环不变式，以克服自动验证过程需要手工撰写循环不变式的困难，缩短验证周期和避免手工撰写循环不变式出现的错误问题。

为此目的，本发明提供的基于机器学习自动生成循环不变式的方法，包括以下步骤，

步骤一，对含循环语句的计算机程序，如C程序，依据所设计的自动生成后置条件的算法得到循环语句的后置条件，构造计算机程序中循环语句对应的Hoare三元组；

步骤二，依据循环语句的前置条件随机生成测试数据，以这些测试数据为循环变量的初始值运行循环语句，收集程序状态，从而构造数据集SV；

步骤三，对数据集SV中的每一组数据，依据Hoare三元组所定义的关系进行分类标注形成分类数据集；

步骤四，利用所设计的核支持向量机KSVM(Kernel Support Vector Machine)算法对所收集的分类数据集进行分类，从而生成候选循环不变式；

步骤五，利用反证法对生成的候选不变式进行有效性验证，得到经验证的有效循环不变式。

进一步，上述步骤一中，其目标是实现对程序中循环语句后置条件的自动生成，所述含循环语句的程序是具有前置条件、单层循环且循环变量是可归纳类型，以便通过边界值分析法计算出循环次数并结合前置条件生成后置条件。

步骤二中，所述的依据循环语句的前置条件随机生成测试数据是通过随机方式生成满足前置条件的数据集SP和不满足前置条件的数据集SN，两种方式构造测试数据集 SV＝SP∪SN。

所述的程序状态是程序中每个变量名到变量值的映射集合，将所有的程序状态作为测试数据集SV，依据循环条件执行有限次循环语句，并记录每一次循环结束后程序状态，组成数据集SC，并将数据集SC加入到数据集SV中，即SV＝SP∪SN∪SC。

步骤三中，所述分类标注是指依据循环不变式与Hoare三元组中所定义的前置条件、后置条件和循环体的关系，将步骤二所定义的数据集SV标注为：错误的数据、一定满足循环不变式的数据、一定不满足循环不变式的数据和不确定的数据。

步骤四中，所述的核支持向量机KSVM算法是一种由径向基核函数和线性核函数复合而成的多核函数，以使得线性不可分的数据能够在高维空间进行有效划分。所述候选不变式是能够明确划分步骤三所标注的一定满足循环不变式的数据和一定不满足循环不变式的数据的分类器。

步骤五中，所述有效性验证是对候选不变式取反，判断前置条件或后置条件是否存在存在满足候选不变式范围之外的数据，如果有则为无效候选不变式，否则为有效循环不变式。

与现有技术相比，本发明的有益效果：

1，本发明提供的基于机器学习自动生成循环不变式的方法实现了面向可运行的计算机程序的自动生成循环不变式，且支持生成提供形式更加丰富的循环不变式，包含析取和合取这两种谓词逻辑关系的多项式不等式，能够大大减少形式化验证中循环语句自动验证的工作量。

2，本发明同时还复合现有的核函数构造了一种多核函数，使得线性不可分的数据能够在高维空间可分，以提高循环不变式生成效率。

附图说明

图1为本发明所述基于机器学习生成循环不变式的处理流程图。

具体实施方式

下面结合附图对本发明进行详细说明。

本发明所述使用核支持向量机KSVM作为一种“黑箱”来自动生成循环不变式的过程如图1所示，整个过程共分为三个阶段。

第一个阶段是预处理，目标是实现对程序中循环语句后置条件的自动生成，并将前置条件、循环语句和后置条件组成Hoare三元组(文件命名为*.cfg)。

第二个阶段是迭代生成候选不变式，首先依据循环语句的前置条件随机生成测试数据，以这些测试数据作为循环变量的初始值运行循环语句，并收集循环语句执行过程中循环变量的值，组成样本数据集SV，对数据集SV依据所生成的Hoare三元组判定SV 中的每一个数据s是否属于循环不变式的范围进行标注，然后使用KSVM对数据集SV进行分类并生成候选不变式。为了减少迭代次数，在候选不变式的边界线上选择有限个样本数据加入到SV训练候选不变式直到其不再发生变化为止。最后，运用SMT求解器验证候选不变式是否存在不满足霍尔逻辑的反例数据。若存在反例数据，则将其加入到SV 继续进行下一次迭代直到产生一个循环不变式为止。其中数据集SV的收集有两种方法：一种是依据每个变量的定义域随机生成有限个变量。另一种是利用SMT求解器生成满足前置条件P和不满足前置条件P的一些数据。

第三个阶段是验证所求得的循环不变式是否符合Hoare规则的(1)、(2)和(3) 三个条件，输出结果为有效循环不变式或无效循环不变式。

P→I (1)

I∧C→Body_i(v)∧I (2)

现对基于机器学习自动生成循环不变式所涉及的算法做一简要的介绍。

1.自动生成后置条件算法

本发明中所使用的符号界定：符号C表示循环条件，符号B表示循环体，符号 V＝{v₁,v₂,v₃……v_n}表示与循环语句相关的变量集合，符号Body_i(v)＝{v₁–>x_i,v₂ ->y_i,……v_n->m_i}表示执行第i次循环后V中各个变量的值，符号P表示循环语句的前置条件，即在执行某条程序语句前所需要满足的公式集合；符号Q表示循环语句的后置条件，即在执行某条语句后应该要满足的公式集合。

第一步，依据循环的前置条件P、循环条件C和循环体B中所出现的变量构造变量集合V。

第二步，计算执行一次循环后，变量集合V中各个变量的增量Δ(V)。假设执行第 i次循环后变量v的值为v_i,执行第i+1次循环后变量的值为v_i+1,则Δ(v)＝v_i+1-v_i。

第三步，使用边界值分析法计算循环执行次数K。假定给定的循环语句在开始执行前循环变量的值满足前置条件P和循环条件C，当执行K次后终止，则表示该循环语句在K次执行之后循环变量的值不满足循环条件C。因此，在循环语句执行k-1次后，变量v的值v_k-1满足循环条件C，在执行K次循环后，变量的值V_k不满足的循环条件，从这两条件中计算出循环的执行次数K。

第四步，依据第二步和第三步计算的结果合成公式集合。

最后，对第四步得到的公式集合进行简化得到后置条件Q。

2.循环不变式的自动生成算法

第一步，构造循环执行之前变量的测试数据。首先，通过随机方式生成满足前置条件的数据集SP和不满足前置条件的数据集SN，两种方式构造测试数据集SV＝SP∪SN。

第二步，以测试数据集SV作为循环语句的初始值，依据循环条件执行有限次循环语句，并记录每一次循环结束后循环变量的值，组成数据集SC，并将数据集SC加入到数据集SV中，即SV＝SP∪SN∪SC。

第三步，依据数据集SV中的一个数据s是否满足循环不变式的方法，将SV划分为CE(SV)、PE(SV)、NE(SV)和NP(SV)四种分类集。

CE(SV)包含数据集SV中不能通过Hoare逻辑验证程序的数据。公式1表示数据集SV中一个数据点s属于集合CE(SV)的条件为：存在数据点s₀和s’，s₀满足循环前置条件P，执行一次或多次循环体语句B后经过中间某个状态s转换得到s’，但s’不能满足后置条件Q。如果集合CE(SV)非空则表示Hoare三元组不能被验证。

PE(SV)包含数据集SV属于数据集SV⁺，即一定满足循环不变式。公式2表示数据集SV中一个数据点s属于集合PE(SV)的条件为：存在数据点s₀和s’，s₀满足循环前置条件P，执行一次或多次循环体语句B后经过s得到s’，s’不满足循环条件而终止且s’满足后置条件Q。

NE(SV)包含数据集SV属于数据集SV-，即一定满足循环不变式。公式3表示表示数据集SV中一个数据点s属于NE(SV)的条件为：存在数据点s₀和s’，s₀不满足循环前置条件P时，执行一次或多次循环体语句B后经过s得到s’，s’不满足循环条件而终止且s’不满足后置条件Q。

NP(SV)＝SV-CE(SV)-PE(SV)-NE(SV) (公式4)

第四步，运用所设计核支持向量机对数据集SV进行分类得到一个候选不变式CanInv，具体生成步骤如下：

(1)利用所设计多核函数的支持向量机对数据集SV进行分类，生成一个分类器，将它作为初始候选不变式CanInv；

(2)通过选择样本方法提炼候选不变式CanInv；

(3)合成合取式候选不变式。

其中多核函数的支持向量机是由径向基核函数RBF和线性核函数Linear复合而成的多核函数，其公式为：

Kernel＝0.5*RBF+0.5*Linear (公式 5)

第五步，利用公式6候选不变式CanInv是否为有效循环不变式，如果公式6中任意一个公式为真，将会产生一个反例数据，然后再将该反例数据加入到数据集SV中，继续迭代调用KSVM进行分类，直到没有反例为止。如果不满足公式(6)任何一个，则候选不变式为有效循环不变式。

为了便于本领域的普通技术人员实施本发明，现对本发明的实施做如下的说明。

使用本发明所提供的方法能够为带循环语句的计算机程序(如C程序)生成有效的循环不变式，要求程序由前置条件和循环语句组成，且属于单层循环以及循环条件是可归纳的。使用时，如果是带分支的循环，对其生成循环不变式的过程是：首先按照路径分析方法将循环分成多条路径，再对每条路径按照上述使用核支持向量机的方法生成不变式，最后将各个循环不变式组成循环不变式的析取式。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明保护范围。

Claims

1.基于机器学习的循环不变式自动生成方法，其特征在于，包含以下步骤：

步骤一，对含循环语句的计算机程序依据所设计的自动生成后置条件的算法得到所述循环语句的后置条件，构造上述程序中循环语句对应的Hoare三元组；

步骤二，依据所述循环语句的前置条件随机生成测试数据，以这些测试数据为循环变量的初始值运行循环语句，收集程序状态，从而构造数据集SV；

步骤三，对数据集SV中的每一组数据，依据Hoare三元组所定义的关系进行分类标注，形成分类数据集；

步骤四，利用所设计的核向量机KSVM算法对所收集的分类数据集进行分类，从而生成候选循环不变式；

步骤五，利用反证法对生成的候选循环不变式进行有效性验证，得到经验证的有效循环不变式。

2.根据权利要求1所述的基于机器学习的循环不变式自动生成方法，其特征在于：步骤一中，所述的自动生成后置条件的算法是通过边界值分析法计算出循环次数，并与循环语句的前置条件合成得到一些公式集合，并对这些公式集合进行简化得到后置条件。

3.根据权利要求1所述的基于机器学习的循环不变式自动生成方法，其特征在于：步骤二中，所述的依据循环语句的前置条件随机生成测试数据是通过随机方式生成满足前置条件的数据集SP和不满足前置条件的数据集SN，两种方式构造测试数据集SV＝SP∪SN。

4.根据权利要求3所述的基于机器学习的循环不变式自动生成方法，其特征在于：步骤二中，所述程序状态是程序中每个变量名到变量值的映射集合，将所有的程序状态作为测试数据集SV，依据循环条件执行有限次循环语句，并记录每一次循环结束后程序状态，组成数据集SC，并将数据集SC加入到数据集SV中，即SV＝SP∪SN∪SC。

5.根据权利要求1所述的基于机器学习的循环不变式自动生成方法，其特征在于：步骤三中，所述分类标注是指依据循环不变式与Hoare三元组中所定义的前置条件、后置条件和循环体的关系，将步骤二所定义的数据集SV标注为：错误的数据、一定满足循环不变式的数据、一定不满足循环不变式的数据和不确定的数据。

6.根据权利要求5所述的基于机器学习的循环不变式自动生成方法，其特征在于：步骤四中，所述的核支持向量机KSVM算法是一种由径向基核函数和线性核函数复合而成的多核函数，以使得线性不可分的数据能够在高维空间进行有效划分，所述候选循环不变式是能够明确划分步骤三所标注的一定满足循环不变式的数据和一定不满足循环不变式的数据的分类器。

7.根据权利要求1所述的基于机器学习的循环不变式自动生成方法，其特征在于：步骤五中，所述有效性验证是对候选循环不变式取反，判断前置条件或后置条件是否存在存在满足候选循环不变式范围之外的数据，如果有则为无效候选不变式，否则为有效循环不变式。