CN110377513A - 基于机器学习的循环不变式自动生成方法 - Google Patents

基于机器学习的循环不变式自动生成方法 Download PDF

Info

Publication number
CN110377513A
CN110377513A CN201910630164.5A CN201910630164A CN110377513A CN 110377513 A CN110377513 A CN 110377513A CN 201910630164 A CN201910630164 A CN 201910630164A CN 110377513 A CN110377513 A CN 110377513A
Authority
CN
China
Prior art keywords
invariant
data set
statement
data
loop
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910630164.5A
Other languages
English (en)
Inventor
路红
史玉石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201910630164.5A priority Critical patent/CN110377513A/zh
Publication of CN110377513A publication Critical patent/CN110377513A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3604Software analysis for verifying properties of programs
    • G06F11/3608Software analysis for verifying properties of programs using formal methods, e.g. model checking, abstract interpretation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了基于机器学习自动生成循环不变式的方法。首先对含循环语句的计算机程序依据一定的算法得到循环语句的后置条件,构造循环语句对应的Hoare三元组;然后依据循环语句的前置条件随机生成测试数据,以这些测试数据为循环变量的初始值运行循环语句,收集程序状态,构造数据集SV;对数据集SV中的每一组数据依据Hoare三元组进行分类标注形成分类数据集;利用KSVM算法对所收集的分类数据集进行分类,生成候选循环不变式;利用反证法对生成的候选不变式进行有效性验证,得到经验证的有效循环不变式。本发明实现了面向可运行的C程序的自动生成循环不变式,且支持生成提供形式更加丰富的循环不变式,能够大大减少形式化验证中循环语句自动验证的工作量。

Description

基于机器学习的循环不变式自动生成方法
技术领域
本发明属于软件工程、自动验证、形式化方法技术领域,涉及一种循环不变式自动生成方法。
背景技术
软件作为当今信息化社会的重要基础设施,已广泛应用于能源、交通、通信、金融和国防等安全攸关领域中。然而,随着软件集成程度的提高和软件系统结构的日益复杂,各类软件的高可信性质越来越不能保证。软件验证以逻辑和数学为基础,支持软件进行严格的形式规约和验证,是确保软件可信性的一种有效措施。软件验证的目标是证明程序在任何执行路径下均满足一定的形式化规约,即程序在确定的条件下执行结束后便可满足一定的要求。软件验证的一般步骤是针对待验证的程序撰写形式化规约(如前置条件、后置条件和循环不变式),然后利用自动验证工具或交互式定理证明器验证给定程序是否满足所撰写的形式化规约。根据所使用的验证工具不同,可将形式化验证方法分为人工撰写证明脚本和自动化验证两类。人工撰写形式化证明脚本方法即验证者利用Isabelle、Coq和HOL4等交互式定理证明器,依据待验证程序运行环境建立形式化模型,根据其满足的属性建立形式化规约,并在交互式定理证明器中完成推理验证,其证明开销较大。
为了提高验证效率、简化验证难度,出现了Z3、Danfy和Why3等自动化验证工具。运用自动化验证工具对代码量较少的程序进行验证,无需验证者撰写大量证明脚本,仅需按照自动化验证工具的规范撰写待验证程序的形式化规约,即可快速得到程序是否正确的验证结果。然而,为程序提供合适的形式化规约,尤其是循环不变式,需要验证者依据对程序的深刻理解进行手工撰写,这对于验证者来说是一项任务繁重的工作任务且容易出现错误。
发明内容
本发明所要解决的问题是提供一种基于机器学习的方法实现面向可运行的计算机程序的自动生成循环不变式,以克服自动验证过程需要手工撰写循环不变式的困难,缩短验证周期和避免手工撰写循环不变式出现的错误问题。
为此目的,本发明提供的基于机器学习自动生成循环不变式的方法,包括以下步骤,
步骤一,对含循环语句的计算机程序,如C程序,依据所设计的自动生成后置条件的算法得到循环语句的后置条件,构造计算机程序中循环语句对应的Hoare三元组;
步骤二,依据循环语句的前置条件随机生成测试数据,以这些测试数据为循环变量的初始值运行循环语句,收集程序状态,从而构造数据集SV;
步骤三,对数据集SV中的每一组数据,依据Hoare三元组所定义的关系进行分类标注形成分类数据集;
步骤四,利用所设计的核支持向量机KSVM(Kernel Support Vector Machine)算法对所收集的分类数据集进行分类,从而生成候选循环不变式;
步骤五,利用反证法对生成的候选不变式进行有效性验证,得到经验证的有效循环不变式。
进一步,上述步骤一中,其目标是实现对程序中循环语句后置条件的自动生成,所述含循环语句的程序是具有前置条件、单层循环且循环变量是可归纳类型,以便通过边界值分析法计算出循环次数并结合前置条件生成后置条件。
步骤二中,所述的依据循环语句的前置条件随机生成测试数据是通过随机方式生成满足前置条件的数据集SP和不满足前置条件的数据集SN,两种方式构造测试数据集 SV=SP∪SN。
所述的程序状态是程序中每个变量名到变量值的映射集合,将所有的程序状态作为测试数据集SV,依据循环条件执行有限次循环语句,并记录每一次循环结束后程序状态,组成数据集SC,并将数据集SC加入到数据集SV中,即SV=SP∪SN∪SC。
步骤三中,所述分类标注是指依据循环不变式与Hoare三元组中所定义的前置条件、后置条件和循环体的关系,将步骤二所定义的数据集SV标注为:错误的数据、一定满足循环不变式的数据、一定不满足循环不变式的数据和不确定的数据。
步骤四中,所述的核支持向量机KSVM算法是一种由径向基核函数和线性核函数复合而成的多核函数,以使得线性不可分的数据能够在高维空间进行有效划分。所述候选不变式是能够明确划分步骤三所标注的一定满足循环不变式的数据和一定不满足循环不变式的数据的分类器。
步骤五中,所述有效性验证是对候选不变式取反,判断前置条件或后置条件是否存在存在满足候选不变式范围之外的数据,如果有则为无效候选不变式,否则为有效循环不变式。
与现有技术相比,本发明的有益效果:
1,本发明提供的基于机器学习自动生成循环不变式的方法实现了面向可运行的计算机程序的自动生成循环不变式,且支持生成提供形式更加丰富的循环不变式,包含析取和合取这两种谓词逻辑关系的多项式不等式,能够大大减少形式化验证中循环语句自动验证的工作量。
2,本发明同时还复合现有的核函数构造了一种多核函数,使得线性不可分的数据能够在高维空间可分,以提高循环不变式生成效率。
附图说明
图1为本发明所述基于机器学习生成循环不变式的处理流程图。
具体实施方式
下面结合附图对本发明进行详细说明。
本发明所述使用核支持向量机KSVM作为一种“黑箱”来自动生成循环不变式的过程如图1所示,整个过程共分为三个阶段。
第一个阶段是预处理,目标是实现对程序中循环语句后置条件的自动生成,并将前置条件、循环语句和后置条件组成Hoare三元组(文件命名为*.cfg)。
第二个阶段是迭代生成候选不变式,首先依据循环语句的前置条件随机生成测试数据,以这些测试数据作为循环变量的初始值运行循环语句,并收集循环语句执行过程中循环变量的值,组成样本数据集SV,对数据集SV依据所生成的Hoare三元组判定SV 中的每一个数据s是否属于循环不变式的范围进行标注,然后使用KSVM对数据集SV进行分类并生成候选不变式。为了减少迭代次数,在候选不变式的边界线上选择有限个样本数据加入到SV训练候选不变式直到其不再发生变化为止。最后,运用SMT求解器验证候选不变式是否存在不满足霍尔逻辑的反例数据。若存在反例数据,则将其加入到SV 继续进行下一次迭代直到产生一个循环不变式为止。其中数据集SV的收集有两种方法:一种是依据每个变量的定义域随机生成有限个变量。另一种是利用SMT求解器生成满足前置条件P和不满足前置条件P的一些数据。
第三个阶段是验证所求得的循环不变式是否符合Hoare规则的(1)、(2)和(3) 三个条件,输出结果为有效循环不变式或无效循环不变式。
P→I (1)
I∧C→Bodyi(v)∧I (2)
现对基于机器学习自动生成循环不变式所涉及的算法做一简要的介绍。
1.自动生成后置条件算法
本发明中所使用的符号界定:符号C表示循环条件,符号B表示循环体,符号 V={v1,v2,v3……vn}表示与循环语句相关的变量集合,符号Bodyi(v)={v1–>xi,v2 ->yi,……vn->mi}表示执行第i次循环后V中各个变量的值,符号P表示循环语句的前置条件,即在执行某条程序语句前所需要满足的公式集合;符号Q表示循环语句的后置条件,即在执行某条语句后应该要满足的公式集合。
第一步,依据循环的前置条件P、循环条件C和循环体B中所出现的变量构造变量集合V。
第二步,计算执行一次循环后,变量集合V中各个变量的增量Δ(V)。假设执行第 i次循环后变量v的值为vi,执行第i+1次循环后变量的值为vi+1,则Δ(v)=vi+1-vi
第三步,使用边界值分析法计算循环执行次数K。假定给定的循环语句在开始执行前循环变量的值满足前置条件P和循环条件C,当执行K次后终止,则表示该循环语句在K次执行之后循环变量的值不满足循环条件C。因此,在循环语句执行k-1次后,变量v的值vk-1满足循环条件C,在执行K次循环后,变量的值Vk不满足的循环条件,从这两条件中计算出循环的执行次数K。
第四步,依据第二步和第三步计算的结果合成公式集合。
最后,对第四步得到的公式集合进行简化得到后置条件Q。
2.循环不变式的自动生成算法
第一步,构造循环执行之前变量的测试数据。首先,通过随机方式生成满足前置条件的数据集SP和不满足前置条件的数据集SN,两种方式构造测试数据集SV=SP∪SN。
第二步,以测试数据集SV作为循环语句的初始值,依据循环条件执行有限次循环语句,并记录每一次循环结束后循环变量的值,组成数据集SC,并将数据集SC加入到数据集SV中,即SV=SP∪SN∪SC。
第三步,依据数据集SV中的一个数据s是否满足循环不变式的方法,将SV划分为CE(SV)、PE(SV)、NE(SV)和NP(SV)四种分类集。
CE(SV)包含数据集SV中不能通过Hoare逻辑验证程序的数据。公式1表示数据集SV中一个数据点s属于集合CE(SV)的条件为:存在数据点s0和s’,s0满足循环前置条件P,执行一次或多次循环体语句B后经过中间某个状态s转换得到s’,但s’不能满足后置条件Q。如果集合CE(SV)非空则表示Hoare三元组不能被验证。
PE(SV)包含数据集SV属于数据集SV+,即一定满足循环不变式。公式2表示数据集SV中一个数据点s属于集合PE(SV)的条件为:存在数据点s0和s’,s0满足循环前置条件P,执行一次或多次循环体语句B后经过s得到s’,s’不满足循环条件而终止且s’满足后置条件Q。
NE(SV)包含数据集SV属于数据集SV-,即一定满足循环不变式。公式3表示表示数据集SV中一个数据点s属于NE(SV)的条件为:存在数据点s0和s’,s0不满足循环前置条件P时,执行一次或多次循环体语句B后经过s得到s’,s’不满足循环条件而终止且s’不满足后置条件Q。
NP(SV)=SV-CE(SV)-PE(SV)-NE(SV) (公式4)
第四步,运用所设计核支持向量机对数据集SV进行分类得到一个候选不变式CanInv,具体生成步骤如下:
(1)利用所设计多核函数的支持向量机对数据集SV进行分类,生成一个分类器,将它作为初始候选不变式CanInv;
(2)通过选择样本方法提炼候选不变式CanInv;
(3)合成合取式候选不变式。
其中多核函数的支持向量机是由径向基核函数RBF和线性核函数Linear复合而成的多核函数,其公式为:
Kernel=0.5*RBF+0.5*Linear (公式 5)
第五步,利用公式6候选不变式CanInv是否为有效循环不变式,如果公式6中任意一个公式为真,将会产生一个反例数据,然后再将该反例数据加入到数据集SV中,继续迭代调用KSVM进行分类,直到没有反例为止。如果不满足公式(6)任何一个,则候选不变式为有效循环不变式。
为了便于本领域的普通技术人员实施本发明,现对本发明的实施做如下的说明。
使用本发明所提供的方法能够为带循环语句的计算机程序(如C程序)生成有效的循环不变式,要求程序由前置条件和循环语句组成,且属于单层循环以及循环条件是可归纳的。使用时,如果是带分支的循环,对其生成循环不变式的过程是:首先按照路径分析方法将循环分成多条路径,再对每条路径按照上述使用核支持向量机的方法生成不变式,最后将各个循环不变式组成循环不变式的析取式。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明保护范围。

Claims (7)

1.基于机器学习的循环不变式自动生成方法,其特征在于,包含以下步骤:
步骤一,对含循环语句的计算机程序依据所设计的自动生成后置条件的算法得到所述循环语句的后置条件,构造上述程序中循环语句对应的Hoare三元组;
步骤二,依据所述循环语句的前置条件随机生成测试数据,以这些测试数据为循环变量的初始值运行循环语句,收集程序状态,从而构造数据集SV;
步骤三,对数据集SV中的每一组数据,依据Hoare三元组所定义的关系进行分类标注,形成分类数据集;
步骤四,利用所设计的核向量机KSVM算法对所收集的分类数据集进行分类,从而生成候选循环不变式;
步骤五,利用反证法对生成的候选循环不变式进行有效性验证,得到经验证的有效循环不变式。
2.根据权利要求1所述的基于机器学习的循环不变式自动生成方法,其特征在于:步骤一中,所述的自动生成后置条件的算法是通过边界值分析法计算出循环次数,并与循环语句的前置条件合成得到一些公式集合,并对这些公式集合进行简化得到后置条件。
3.根据权利要求1所述的基于机器学习的循环不变式自动生成方法,其特征在于:步骤二中,所述的依据循环语句的前置条件随机生成测试数据是通过随机方式生成满足前置条件的数据集SP和不满足前置条件的数据集SN,两种方式构造测试数据集SV=SP∪SN。
4.根据权利要求3所述的基于机器学习的循环不变式自动生成方法,其特征在于:步骤二中,所述程序状态是程序中每个变量名到变量值的映射集合,将所有的程序状态作为测试数据集SV,依据循环条件执行有限次循环语句,并记录每一次循环结束后程序状态,组成数据集SC,并将数据集SC加入到数据集SV中,即SV=SP∪SN∪SC。
5.根据权利要求1所述的基于机器学习的循环不变式自动生成方法,其特征在于:步骤三中,所述分类标注是指依据循环不变式与Hoare三元组中所定义的前置条件、后置条件和循环体的关系,将步骤二所定义的数据集SV标注为:错误的数据、一定满足循环不变式的数据、一定不满足循环不变式的数据和不确定的数据。
6.根据权利要求5所述的基于机器学习的循环不变式自动生成方法,其特征在于:步骤四中,所述的核支持向量机KSVM算法是一种由径向基核函数和线性核函数复合而成的多核函数,以使得线性不可分的数据能够在高维空间进行有效划分,所述候选循环不变式是能够明确划分步骤三所标注的一定满足循环不变式的数据和一定不满足循环不变式的数据的分类器。
7.根据权利要求1所述的基于机器学习的循环不变式自动生成方法,其特征在于:步骤五中,所述有效性验证是对候选循环不变式取反,判断前置条件或后置条件是否存在存在满足候选循环不变式范围之外的数据,如果有则为无效候选不变式,否则为有效循环不变式。
CN201910630164.5A 2019-07-12 2019-07-12 基于机器学习的循环不变式自动生成方法 Pending CN110377513A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910630164.5A CN110377513A (zh) 2019-07-12 2019-07-12 基于机器学习的循环不变式自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910630164.5A CN110377513A (zh) 2019-07-12 2019-07-12 基于机器学习的循环不变式自动生成方法

Publications (1)

Publication Number Publication Date
CN110377513A true CN110377513A (zh) 2019-10-25

Family

ID=68253042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910630164.5A Pending CN110377513A (zh) 2019-07-12 2019-07-12 基于机器学习的循环不变式自动生成方法

Country Status (1)

Country Link
CN (1) CN110377513A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8584093B2 (en) * 2009-03-16 2013-11-12 Kabushiki Kaisha Toshiba Pre-condition generation device, post-condition generation device, and method for generating these conditions
CN109240907A (zh) * 2018-07-26 2019-01-18 华东师范大学 基于霍尔逻辑的嵌入式实时操作系统的自动化验证方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8584093B2 (en) * 2009-03-16 2013-11-12 Kabushiki Kaisha Toshiba Pre-condition generation device, post-condition generation device, and method for generating these conditions
CN109240907A (zh) * 2018-07-26 2019-01-18 华东师范大学 基于霍尔逻辑的嵌入式实时操作系统的自动化验证方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIAYING LI等: "Automatic Loop Invariant Generation and Refinement through Selective Sampling", 《2017 32ND IEEE/ACM INTERNATIONAL CONFERENCE ON AUTOMATED SOFTWARE ENGINEERING》 *

Similar Documents

Publication Publication Date Title
Wang et al. Software testing with large language models: Survey, landscape, and vision
Wang et al. Search, align, and repair: data-driven feedback generation for introductory programming exercises
Lee et al. Effective white-box testing of deep neural networks with adaptive neuron-selection strategy
Cabot et al. Verification of UML/OCL class diagrams using constraint programming
Ioannides et al. Coverage-directed test generation automated by machine learning--a review
Bhadra et al. A survey of hybrid techniques for functional verification
US7587707B2 (en) Predicate abstraction via symbolic decision procedures
CN108563556A (zh) 基于差分演化算法的软件缺陷预测优化方法
Hajipour et al. SampleFix: learning to correct programs by sampling diverse fixes
Zhong et al. Llm4eda: Emerging progress in large language models for electronic design automation
Yu et al. Learning the relation between code features and code transforms with structured prediction
Chen et al. Let's hear both sides: On combining type-error reporting tools
Siddiq et al. Using large language models to generate junit tests: An empirical study
CN110377513A (zh) 基于机器学习的循环不变式自动生成方法
Nagashima Smart induction for Isabelle/HOL (tool paper)
Vakili Temporal logic model checking as automated theorem proving
Wang et al. A Token‐based Compilation Error Categorization and Its Applications
CN106708595B (zh) 程序语句形式化转换的方法及装置
Pravin et al. An efficient programming rule extraction and detection of violations in software source code using neural networks
Poulos et al. Failure triage in RTL regression verification
Krishnamurthy et al. Design and development paradigm for industrial formal verification CAD tools
Veira et al. Suspect2vec: A suspect prediction model for directed RTL debugging
Yan et al. A survey of human-machine collaboration in fuzzing
Barua et al. A Systematic Derivation of Loop Specifications Using Patterns
Chelliah et al. An optimized and unique methodology for software test case automation strategy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191025