CN103150254B

CN103150254B - 基于状态依赖概率建模的软件错误定位方法

Info

Publication number: CN103150254B
Application number: CN201310099998.0A
Authority: CN
Inventors: 苏小红; 龚丹丹; 王甜甜; 马培军; 王煜; 赵玲玲
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2013-03-26
Filing date: 2013-03-26
Publication date: 2015-05-13
Anticipated expiration: 2033-03-26
Also published as: CN103150254A

Abstract

基于状态依赖概率建模的软件错误定位方法，本发明涉及计算机程序分析领域。本发明是要解决传统的软件错误定位方法定位精度低的问题，而提供了基于状态依赖概率建模的软件错误定位方法。步骤1：分别执行正确测试用例和错误测试用例，并分别对正确测试用例和错误测试用例建立状态依赖概率模型；步骤2：在步骤1的基础上，根据状态依赖概率模型，计算每个节点的可疑度；步骤3：将错误定位信息按可疑度进行降序排列，可疑度高的节点认定为更有可能出错的节点，即完成了对基于状态依赖概率建模的软件的错误进行定位。本发明应用于计算机程序分析领域。

Description

基于状态依赖概率建模的软件错误定位方法

技术领域

本发明涉及计算机程序分析领域。

背景技术

传统的软件错误定位方法大多采用设置断点等人工分析的方法，人工定位错误不仅难度大，而且极其耗时。要准确定位软件中的错误是极其困难的。当开发人员在程序执行过程中发现软件错误时，一方面，要么错误的症状与导致错误的根源(程序代码)可能相距甚远，要么很难产生完全一样的输入条件，使得“错误的现场”难以恢复，要么错误时隐时现，甚至可能在另一个错误被修正后暂时消失，导致某些错误难以被及时捕捉，而另一方面，在一个大型软件中一个错误的测试用例所覆盖的语句数量又往往是非常庞大的，这就使得程序开发人员需要花费大量的时间和精力来查找和定位产生错误的程序代码。软件错误自动定位的目的就是通过计算机分析程序源代码或程序运行过程中产生的运行时状态，检测程序中的异常情况，并将其独立出来作为需要进一步调试的可疑代码，从而将与软件错误定位无关的代码自动过滤掉，缩小错误代码的搜索范围，辅助开发人员快速有效地定位软件错误。

传统的统计分析方法通常能揭示统计关联(变量的联合分布)，而不能充分分析程序元素间的相互影响。当软件错误涉及多个程序元素间复杂交互的情况下，可能定位不到错误语句。此外，现有方法通常只检测可疑程序语句或谓词，缺少对错误行为状态的描述，需要由开发人员进一步判定是否存在错误。由于错误可能起源于失效点之前的任何位置，因此仅通过孤立的可疑语句或谓词来理解软件错误的产生原因是很困难的，也是不准确的。

发明内容

本发明是要解决传统的软件错误定位方法定位精度低的问题，而提供了基于状态依赖概率建模的软件错误定位方法。

基于状态依赖概率建模的软件错误定位方法包括的具体步骤如下：

步骤1：分别执行正确测试用例和错误测试用例，并分别对正确测试用例和错误测试用例建立状态依赖概率模型；

步骤2：在步骤1的基础上，根据状态依赖概率模型，计算每个节点的可疑度；

步骤3：将错误定位信息按可疑度进行降序排列，可疑度高的节点认定为更有可能出错的节点，即完成了对基于状态依赖概率建模的软件的错误进行定位。

发明效果：

本发明的基于状态依赖概率建模的软件错误定位方法，能够有效定位与控制依赖相关的软件错误。与错误定位方法SBI、SOBER、Tarantula相比，定位精度可提高10％以上，适用于大规模程序代码的错误定位技术领域。

本发明的基本思想是：节点的状态依赖可以很好的表示节点的执行状态以及节点在各状态下的依赖关系，有助于进行错误定位。如果某个节点的状态依赖关系在错误测试用例执行过程中出现的频率较高，而在正确测试用例执行过程中出现的频率较低或没有出现，则该节点的状态依赖关系很可能是错误的。根据这一思想计算各语句在各个状态下的可疑度，进而有效定位软件错误。

附图说明

图1是本发明的流程示意图；

图2是具体实施方式一中步骤1中建立状态依赖概率模型示意图；

图3是具体实施方式一中程序控制流图实例示意图；

图4是具体实施方式一中程序控制依赖路径实例示意图。

具体实施方式

具体实施方式一：结合图1～图4说明本实施方式，本实施方式的基于状态依赖概率建模的软件错误定位方法包括的具体步骤如下：

本实施方式效果：

本实施方式的基于状态依赖概率建模的软件错误定位方法，能够有效定位与控制依赖相关的软件错误。与错误定位方法SBI、SOBER、Tarantula相比，定位精度可提高10％以上，适用于大规模程序代码的错误定位技术领域。

本实施方式的基本思想是：节点的状态依赖可以很好的表示节点的执行状态以及节点在各状态下的依赖关系，有助于进行错误定位。如果某个节点的状态依赖关系在错误测试用例执行过程中出现的频率较高，而在正确测试用例执行过程中出现的频率较低或没有出现，则该节点的状态依赖关系很可能是错误的。根据这一思想计算各语句在各个状态下的可疑度，进而有效定位软件错误。

具体实施方式二：本实施方式与具体实施方式一不同的是：步骤1中的所述建立状态依赖概率模型的方法具体为：

A、首先为程序建立控制流图，记录语句间的控制依赖关系；

B、然后通过运行测试用例，插装捕获节点的控制依赖轨迹，记录每个节点的执行状态；

其中，所述每个节点，执行测试用例时，都具有执行和未被执行两种状态，而分支节点在被执行时，又分为true和false两种状态；

C、最后根据测试用例执行结果，统计每个节点在各状态的依赖概率；其中，所述每个节点被执行的概率记为P(node)，对于分支节点在被执行概率的基础上记录状态为true和false的概率，记为P(node(true))和P(node(false))；

所述每个节点，根据下式计算每个节点node被执行的概率P(node)：

P (node) = \frac{n (node)}{n (para (node))} \times P (para (node)) - - - (1)

其中，所述P(para(node))为节点node的父节点被执行的概率，n(node)为控制依赖路径中节点node被执行的次数，n(para(node))为控制依赖路径中节点node的其父节点被执行的次数；

所述分支节点，在被执行概率的基础上计算节点状态为true和false的概率，即P(node(true))和P(node(false))：

P(node)＝P(node(true))+P(node(false)) (2)

其中，所述

P (node (true)) = \frac{n (node (true))}{n (node)} \times P (node) = \frac{n (node (true))}{n (node (true)) + n (node (false))} \times P (node)

所述

P (node (false)) = \frac{n (node (false))}{n (node)} \times P (node) = \frac{n (node (false))}{n (node (true)) + n (node (false))} \times P (node)

所述n(node(true))为控制依赖路径中节点node的执行状态为true的次数，所述n(node(false))为控制依赖路径中节点node的执行状态为false的次数；

D、建立状态依赖概率模型：

程序代码P的状态依赖概率模型是一个三元组(C，S，R)，它记录了节点在不同状态下的依赖概率，其中：

所述C＝(N，E)是P的控制流图，N为节点集合，E为控制依赖边集合，表示程序的控制依赖信息；

所述S是节点到状态的映射；

所述R是节点各状态的依赖概率，节点状态依赖概率通过步骤B计算得到。其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式二不同的是：步骤2中的所述计算每个节点被执行状态的可疑度的方法，具体为：

所述每个节点，计算每个节点被执行状态的可疑度suspicious_score：

suspicious_score = \frac{P_{failed} (node)}{P_{passed (node)}}

其中，P_passed(node)为执行正确测试用例时节点被执行的概率，P_failed(node)为执行错误测试用例时节点被执行的概率；

所述分支节点，分别计算节点状态为true和false的可疑度suspicious_score_T和suspicious_score_F：

suspicious_scor e_{T} = \frac{P_{failed} (node (true))}{P_{passed} (node (true))}

suspicious_scor e_{F} = \frac{P_{failed} (node (false))}{P_{passed} (node (false))}

其中，P_passed(node(true))和P_passed(node(false))为执行正确测试用例时，节点状态分别为true和false时的状态依赖概率；P_failed(node(true))和P_failed(node(false))为执行错误测试用例时，节点状态分别为true和false时的状态依赖概率。其它步骤及参数与具体实施方式二相同。

具体实施方式四：本实施方式与具体实施方式三不同的是：所述节点为对应于程序中的每条语句。其它步骤及参数与具体实施方式三相同。

具体实施方式五：本实施方式与具体实施方式四不同的是：所述分支节点为对应于程序中的选择语句和循环语句。其它步骤及参数与具体实施方式四相同。

Claims

1.基于状态依赖概率建模的软件错误定位方法，其特征在于基于状态依赖概率建模的软件错误定位方法包括的具体步骤如下：

其中，所述建立状态依赖概率模型的方法具体为：

A、首先为程序建立控制流图，记录语句间的控制依赖关系；

P (node) = \frac{n (node)}{n (para (node))} \times P (para (node)) - - - (1)

P(node)＝P(node(true))+P(node(false)) (2)

其中，所述

P (node (true)) = \frac{n (node (true))}{n (node)} \times P (node) = \frac{n (node (true))}{n (node (true)) + n (node (false))} \times P (node)

所述

P (node (false)) = \frac{n (node (false))}{n (node)} \times P (node) = \frac{n (node (false))}{n (node (true)) + n (node (false))} \times P (node)

D、建立状态依赖概率模型：

程序代码P的状态依赖概率模型是一个三元组(C,S,R)，它记录了节点在不同状态下的依赖概率，其中：

所述C＝(N,E)是P的控制流图，N为节点集合，E为控制依赖边集合，表示程序的控制依赖信息；

所述S是节点到状态的映射；

所述R是节点各状态的依赖概率，节点状态依赖概率通过步骤B计算得到；

步骤2：在步骤1的基础上，根据状态依赖概率模型，计算每个节点的可疑度；步骤3：将错误定位信息按可疑度进行降序排列，可疑度高的节点认定为更有可能出错的节点，即完成了对基于状态依赖概率建模的软件的错误进行定位。

2.根据权利要求1所述的基于状态依赖概率建模的软件错误定位方法，其特征在于步骤2中的所述计算每个节点被执行状态的可疑度的方法，具体为：

suspicious_score = \frac{P_{failed} (node)}{P_{passed} (node)} - - - (3)

suspicious_{score}_{T} = \frac{P_{failed} (node (true))}{P_{passed} (noed (true))} - - - (4)

suspicious_{score}_{F} = \frac{P_{failed} (node (false))}{P_{passed} (node (false))} - - - (5)

其中，P_passed(node(true))和P_passed(node(false))为执行正确测试用例时，节点状态分别为true和false时的状态依赖概率；P_failed(node(true))和P_failed(node(false))为执行错误测试用例时，节点状态分别为true和false时的状态依赖概率。

3.根据权利要求2所述的基于状态依赖概率建模的软件错误定位方法，其特征在于所述节点为对应于程序中的每条语句。

4.根据权利要求3所述的基于状态依赖概率建模的软件错误定位方法，其特征在于所述分支节点为对应于程序中的选择语句和循环语句。