CN106598850B

CN106598850B - 一种基于程序失效聚类分析的错误定位方法

Info

Publication number: CN106598850B
Application number: CN201611097861.1A
Authority: CN
Inventors: 张娜; 王玉森; 包晓安; 赵泽丹
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU
Priority date: 2016-12-03
Filing date: 2016-12-03
Publication date: 2019-05-28
Anticipated expiration: 2036-12-03
Also published as: CN106598850A

Abstract

本发明提出的一种基于程序失效聚类分析的错误定位方法，从同一个错误引起的失效具有相似性触发，首先获取每次失效测试的执行切片，根据杰卡德距离公式计算执行切片之间的距离；根据K‐Means聚类算法对程序失效执行切片进行聚类,得到失效执行切片簇；然后根据跳转指令的运行时程序状态划分方法得到失效执行切片的程序状态序列图；根据程序状态序列图中函数嵌套调用次数的多少分别建立以基本块/行为单位的执行路径覆盖向量和覆盖矩阵；最后分别计算出各基本块/行的可疑度并降序排列、求出以基本块/行为单位的频繁集，根据基本块/行可疑度的大小以及其对应的频繁依次检查各基本块/行是否含有错误。

Description

一种基于程序失效聚类分析的错误定位方法

技术领域

本发明涉及软件工程中软件测试技术领域，尤其涉及程序失效聚类分析的错误定位的技术研究。

背景技术

近年来，软件发展日新月异，覆盖了日常生活、工作等社会各个层次。然而，软件缺陷的存在却经常导致信息系统的失效和崩溃，给系统的可信运行带来挑战。缺陷的产生，很大一部分是由编码阶段注入的软件错误导致的。“软件调试”是定位并排除软件错误的常用手段，也是软件开发过程中繁琐且易出错的过程，具有很高的自动化需求。“错误定位”指的是在已知程序失效的情况下定位错误代码的过程，是软件调试的首要步骤。精确的错误定位方法研究，一方面有利于缺陷的检测、诊断及修复，另一方面则可以降低软件测试及维护成本，对软件质量及可靠性的提高具有重要意义。

聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。聚类分析采用描述个体对(变量对)之间的接近程度的指标，例如“距离”，“距离”越小的个体(变量)越具有相似性。计算聚类距离指标D(distance)的方法非常多：按照数据的不同性质，可选用不同的距离指标。欧氏距离(Euclidean distance)、欧氏距离的平方(Squared Euclidean distance)、曼哈顿距离(Block)、切比雪夫距离(Chebychev distance)、卡方距离(Chi‐Square measure)等。采用聚类算法对程序失效进行聚类后，同一失效簇内的程序代码结构具有很大的相似性。然后对失效簇内的程序代码运用单一错误的错误定位方法进行错误定位，就可以实现扩大错误定位技术的应用范围目的。

本技术是对已有错误定位技术当高可疑代码和错误代码比较分散以及随着程序中错误数量的增多时定位效果不理想进行改进。采用聚类算法把程序失效分为不同的失效簇，同一个失效簇内的失效是由一个错误引起的；然后根据失效的所覆盖代码的状态序列采用不同的代码检查方式进行错误定位，从而提高错误定位的效率。

发明内容

本发明的目的是提供一种基于程序失效聚类分析的错误定位方法，以避免高可疑代码和错误代码跨函数体以及随着程序中错误数量增多错误定位效率降低的问题。

本发明的基于程序失效聚类分析的错误定位方法，包括以下步骤：

S1：收集每次失效执行覆盖的代码信息，一次失效执行所覆盖的代码行数的集合即为一个失效执行切片，采用杰卡德距离公式计算失效执行切片之间的距离；

S2：根据K-Means聚类算法对程序失效执行切片进行聚类，得到失效执行切片簇，同一失效簇内的失效所覆盖的代码具有较高的相似度；

S3：根据跳转指令的运行时程序状态划分方法绘出失效执行切片的程序状态序列图，程序状态序列图反映一次失效执行中函数嵌套调用的次数θ；

S4：根据程序状态序列图中函数嵌套调用次数θ分别建立以行/基本块为单位的执行路径覆盖向量和覆盖矩阵，并分别求其频繁集；频繁集是指失效执行中在所有覆盖向量上对目标基本块/行保持覆盖一致性的分量所对应的基本块/行的集合；

S5：分别计算出各基本块/行的可疑度并降序排列，根据基本块/行可疑度的大小以及其对应的频繁集依次检查各基本块/行是否含有错误。

优选的，所述的步骤S1中失效执行切片之间的距离的量化方法如下：

非空集合A,B表示两个失效执行切片；D(A,B)表示两个失效执行切片之间的

相似度，|A|表示集合中元素的个数。

优选的，所述的步骤S4中根据程序状态序列图中函数嵌套调用次数θ对每条测试用例对应的执行分别建立以行/基本块为单位的执行路径覆盖向量和覆盖矩阵，所述的基本块为中间不存在控制跳转的连续代码语句，覆盖向量的量化方法如下：

设执行轨迹的覆盖向量集合T＝<t₁，₂,…,t_r>，所有覆盖向量的集合构成一个覆盖向量矩阵，其中t_i表示第i次执行覆盖的信息构成的覆盖向量,T根据程序执行结果的不同，将T分为成功执行和失效执行两类，分别标记为T_p和T_f；覆盖向量t_i＝<e₁，e₂,…,e_S>

e_j表示第i次执行覆盖的第j个基本块/行。

步骤S4中建立频繁集的方法为：首先初始化tas(e)为单位向量，然后依次遍历e分量不为0的覆盖向量并将该覆盖向量与tas(e)进行向量的与操作，求得e频繁集，最后可得所有目标基本块/行的频繁集集合TAS，tas(e)表示以e为目标代码的频繁集。求解目标基本块/行的频繁集的算法如下：

OT表示目标基本块/行；TAS表示以OT为目标的基本块/行的频繁集集合，tas(e)表示以e为目标的频繁集；u∧v表示向量的与操作。

优选的，所述的步骤S5中基本块/行的可疑度的计算方法如下：

其中，n_uv(b)＝|{a|x_ab＝u∧r_a＝v}|,u,v∈{0,1}，x_ab＝u，u＝1时表示基本块/行在a执行中被覆盖；u＝0时表示基本块/行在a执行中没有覆盖，r_a＝v，v＝1时表示a执行是失效执行；v＝0时表示a执行不是失效执行。

附图说明

图1是本发明的流程图；

图2是失效测试的执行切片示例图；

图3是与其他方法的对比试验数据图。

具体实施方式

下面结合附图和实施例对本发明技术方案做进一步详细说明，以下实施例不构成对本发明的限定。

本发明利的总体思路是采用聚类算法把程序失效分为不同的失效簇，同一个失效簇内的失效是由一个错误引起的；然后根据失效的所覆盖代码的状态序列采用不同的代码检查方式进行错误定位。本实施例以西门子软件为例来进行说明。

实施例：本实施例的一种程序失效聚类分析的错误定位方法，如图1所示，包括以下步骤：

在本实例中，假设T＝{t₁，t₂,…,t_n}为缺陷程序P的配套测试套件,其中,第j个测试用例t_j可用一个有序对<i_j，c_j>表示,其中,i_j表示测试用例t_j的实际输入,o_j表示t_j的预期输出.假设为测试用例的实际输出,若测试用例的实际输出与预期输出o_j保持一致,则称该测试用例为成功测试用例(passed test case)；否则,称该测试用例为失败测试用例(failed test case),该执行是一次失效执行，简称失效.

程序P的一次执行E所覆盖的一组代码语句称为E的一个执行切片，一次失效执行的执行切片为一个失效集合。如图2,E₁的执行切片为{2,3,4,5,6,12,20},E₂的执行切片为{2,3,4,5,8,16,20}。

本发明中设两个非空失效集合A和B，则这两个失效集合的杰卡德距离(JaccardDistance)为：

其中|A|表示集合A的大小；距离D满足：0≤D(A,B)≤1。

通过杰卡德距离公式计算出执行切片之间的距离，就可以知道执行切片两两之间的相似度。

S2：根据K‐Means聚类算法对程序失效执行切片进行聚类。本发明通过计算失效执行切片之间的距离，得到失效距离矩阵M，

其中，m_i,j表示失效集合A和B之间的距离。K‐means算法是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。通过该算法得到失效执行切片簇，同一失效簇内的失效所覆盖的代码具有较高的相似度。

S3：根据跳转指令的运行时程序状态划分方法(BIP)绘出失效执行切片的程序状态序列图。BIP方法根据跳转指令类型和程序运行时中间数据的变化规律将程序状态划分为如下6种类型:①无条件跳转状态(unconditional‐jump‐state,UJS)；②0条件跳转状态(conditional‐jump‐with‐false‐state,CJFS)；③1条件跳转状态(conditional‐jump‐with‐true‐state,CJTS)；④函数调用状态(CALL‐state,CALLS)；⑤函数返回状态(RET‐state,RETS)；⑥中断状态(INT‐state,INTS)。

不难发现，基于BIP方法得到的程序状态序列片段能够表征程序运行时所体现的程序结构上的特性，如(UJS,CJFS,…,CJFS,…,CJTS,…)的状态序列片段反映出程序正在执行一段具有循环结构特征的程序代码；(CALLS,…,RETS)的状态序列片段表示程序正在完成一次函数调用过程等。

由此得到程序状态序列图，从图中可以直观的看出一次失效执行中函数嵌套调用次数的多少(程序的复杂程度)。

S4：根据程序状态序列图中函数嵌套调用次数的多/少分别建立以行/基本块为单位的执行路径覆盖向量和覆盖矩阵；根据程序结构不同分别求其频繁集。

本发明中设执行轨迹的覆盖向量集合T＝<t₁，t₂,…,t_r>，所有覆盖向量的集合构成一个覆盖向量矩阵，其中t_i表示第i次执行覆盖的信息构成的覆盖向量。T根据程序执行结果的不同，将T分为成功执行和失效执行两类，分别标记为T_p和T_f。覆盖向量t_i＝<e₁，e₂,…,e_s>

e_j表示第i次执行覆盖的第j个基本块/行；T表示全部执行对应的覆盖向量集合，即覆盖矩阵。

频繁集是失效执行中在所有覆盖向量上对目标基本块/行保持覆盖一致性的分量所对应的基本块/行的集合，本发明中求频繁集的算法如下：

由上述算法可以得到对目标基本块/行保持覆盖一致性的分量所对应的基本块/行的集合，即目标基本块/行的频繁集。

S5：分别计算出各基本块/行的可疑度并降序排列。基本块是中间不存在控制跳转的连续代码语句构成一个代码基本块。本发明中基本块/行的可疑度的计算方法如下：

其中，n_uv(b)=|{a|x_ab=u∧r_a＝v}|,u,v∈{0,1}。x_ab＝u，u＝1时表示基本块/行在a执行中被覆盖；u＝0时表示基本块/行在a执行中没有覆盖。r_a＝v，v＝1时表示a执行是失效执行；v＝0时表示a执行不是失效执行。

根据基本块/行可疑度的大小以及其对应的频繁集依次检查各基本块/行是否含有错误的基本思路如下：

1)计算每个基本块/行的可疑度，并根据可疑度的大小降序排列，根据程序状态序列，查看程序函数调用次数是否小于θ，如果是转步骤2)，否则转步骤4)；

2)从排序后的列表中依次检查基本块是否含有错误，如果定位出错误转步骤6)，否则转步骤3)；

3)将没有错误的基本块作为目标基本块，依据覆盖信息矩阵求解其频繁集；将频繁集中的基本块依据其可疑度大小降序排列，依次检查各基本块是否含有错误，如果定位出错误转步骤6)，否则转步骤2)；

4)从排序后的列表中依次检查各行是否含有错误，如果定位出错误转步骤6)，否则转步骤5)；

5)将没有错误的行作为目标行，依据覆盖信息矩阵求解其频繁集；将频繁集中的各行依据其可疑度大小降序排列，依次检查各行是否含有错误，如果定位出错误转步骤6)，否则转步骤4)；

6)统计已检查的基本块/行的数量。

本实例为了检验方法的有效性，选用西门子测试套件进行研究，西门子套件是一个计算机研究领域公认的实验对象，经常被相关研究用来实验，在实验中去掉了那些不能被测试集中的测试用例触发的错误，实际实验中的错误版本数量共计132。图3为程序中含有2‐5个错误的错误定位技术比较图。从图中可以看出本发明的方法即CA‐MFL的错误定位效率比Tarantula、Jaccard和Ochiai方法有所提高，并且当程序中错误数量增多时相同代码检查率定位出的错误数量多于Tarantula、Jaccard和Ochiai方法。

本发明一方面利用面向错误的失效聚类方法对同时存在的多个错误的程序进行失效聚类，改善软件中多个错误同时存在的定位效果；另一方面根据代码的函数嵌套调用次数θ对失效集合构建不区分函数的全局覆盖向量和覆盖矩阵，使得频繁集求解不单独针对某一个函数，从而进一步提高错误定位的准确度。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于程序失效聚类分析的错误定位方法，其特征在于包括以下步骤：

所述的步骤S4中根据程序状态序列图中函数嵌套调用次数θ对每条测试用例对应的执行分别建立以行/基本块为单位的执行路径覆盖向量和覆盖矩阵，所述的基本块为中间不存在控制跳转的连续代码语句，覆盖向量的量化方法如下：

设执行轨迹的覆盖向量集合T＝<t₁,t₂,…,t_r>，所有覆盖向量的集合构成一个覆盖向量矩阵，其中t_i表示第i次执行覆盖的信息构成的覆盖向量,T根据程序执行结果的不同，将T分为成功执行和失效执行两类，分别标记为T_p和T_f；覆盖向量t_i＝<e₁,e₂,…,e_s>

e_j表示第i次执行覆盖的第j个基本块/行；

步骤S4中建立频繁集的方法为：首先初始化tas(e)为单位向量，然后依次遍历e分量不为0的覆盖向量并将该覆盖向量与tas(e)进行向量的与操作，求得e频繁集，最后可得所有目标基本块/行的频繁集集合TAS，tas(e)表示以e为目标代码的频繁集；

S5：分别计算出各基本块/行的可疑度并降序排列，根据基本块/行可疑度的大小以及其对应的频繁集依次检查各基本块/行是否含有错误；

所述的步骤S5中根据基本块/行可疑度的大小以及其对应的频繁集依次检查各基本块/行是否含有错误的步骤如下：

6)统计已检查的基本块/行的数量。

2.根据权利要求1所述的一种基于程序失效聚类分析的错误定位方法，其特征在于：所述的步骤S1中失效执行切片之间的距离的量化方法如下：

非空集合A,B表示两个失效执行切片；D(A,B)表示两个失效执行切片之间的相似度，|A|表示集合中元素的个数。

3.根据权利要求1或2所述的一种基于程序失效聚类分析的错误定位方法，其特征在于：所述的步骤S5中基本块/行的可疑度的计算方法如下：