CN107729258B

CN107729258B - 一种面向软件版本问题的程序故障定位方法

Info

Publication number: CN107729258B
Application number: CN201711263642.0A
Authority: CN
Inventors: 孙小兵; 周威; 曹冬玉; 李斌; 李云
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2021-07-23
Anticipated expiration: 2037-11-30
Also published as: CN107729258A

Abstract

本发明涉及一种面向软件版本问题的程序故障定位方法。本发明建立一个与版本相关的库，对提交的bug描述先在建立的库中查找历史相似bug，再在当前软件的源代码中通过规则进行模式匹配，识别相关的源代码，将历史相似bug与识别后的代码并集，基于信息检索技术向量空间模型VSM公式进行相似度计算，推荐相似度高的代码进行定位。本发明克服了以往版本不一致问题以及对版本问题的定位大多由开发人员手动修改与更新，耗时又耗力等缺陷。本发明更有助于软件bug定位的分类，增加了bug定位解决的有效性，根据当前的软件代码和bug描述能直接进行定位。

Description

一种面向软件版本问题的程序故障定位方法

技术领域

本发明涉及一种面向软件版本问题的程序故障定位方法，属于软件测试与调试领域。

背景技术

随着软件应用领域的不断扩大，软件规模变得越来越大，软件产品结构也变得越来越复杂。复杂软件中隐藏的软件故障难以定位，从而导致软件的可靠性得不到保证。软件故障严重影响软件的生产和质量，并且影响在日益加剧。美国国家标准与技术研究所的一项研究表示“软件故障如此普遍并且危害巨大，每年损失美国经济的595亿美元或国民生产总值的0.6％。”试图减少软件中存在的错误的工作在软件开发和维护过程中往往会消耗大量的人力和物力，几乎占了软件开发维护成本的50％-80％。程序调试是一个找出程序代码中存在的错误并纠正错误的过程，它是一项既耗时又耗力的工作，准确地定位出错误代码或是找出出错代码存在的范围是调试人员的目的。为了降低定位过程中的时间和人力成本，自动程序定位方法应运而生。

软件故障定位目的是快速准确定位软件中出现的错误，人工智能领域和软件工程自动化领域出现了各种技术诊断程序故障，比如基于静态分析的故障定位技术，基于测试的故障定位技术，基于距离度量的故障定位技术等，这些技术能够在计算机的辅助下自动找到故障的位置，即定位有问题的语句。

在本发明作出之前，目前主要通过测试用例对软件进行故障定位，但是版本不一致问题无法通过测试用例进行定位，虽然软件产品不断的更新换代，对软件的配置版本的要求不断提高，但对于软件产品版本问题的定位大多由开发人员手动修改与更新，耗时又耗力，而随着软件产品的不断更新，软件版本问题越来越突出。

发明内容

本发明的目的就在于克服上述缺陷，提供一种面向软件版本问题的程序故障定位方法。

本发明的技术方法是：

一种面向软件版本问题的程序故障定位方法，针对与版本相关的bug进行定位，其主要技术特征在于如下步骤：

(1)建立一个与软件版本相关的库，该库中的bug都是与版本相关的，并且都是已修复的bug，包括bug ID，描述，评论，对应的修复源代码；

(2)对于当前提交的bug描述，判断该描述是否是配置的版本出错，若是，则在BV库中查找相似的历史bug，包括相似bug的描述，评论与源代码；

(3)对于当前软件代码，通过规则“version”，“1.1.1”，“dependency”，包括搜索关键字“version”，形如1.1.1格式的数字以及配置的依赖关系，对源代码进行模式匹配，识别相关的源代码；

(4)对历史bug对应的代码与模式匹配识别的代码求并集，基于信息检索的技术，处理并集后的代码；若该代码属于相似历史bug对应的代码，则对该代码所对应的描述，评论以及代码本身进行预处理；若该代码属于模式匹配识别的代码，则对该代码本身进行预处理，也对当前bug的描述进行预处理；所述预处理包括文本正常化，删除停用词，词干处理，其中文本正常化包括删除标点符号，标记术语，拆分标识符；所述删除停用词包括在停用词列表中过滤外来术语，所述词干处理包括将变形或衍生词变成根形式的词

(5)计算上一步骤中处理后的并集代码和当前bug描述的术语出现次数，结合信息检索工具向量空间模型VSM公式计算每段代码与当前bug描述的相似度；若该代码是相似历史bug对应的代码，则1.计算该代码对应的描述与评论和当前bug描述的相似度；2.计算该代码本身与当前bug描述的相似度，设置参数α，β作为两个相似度的系数，这里设置α为0.5，β为0.5，计算α cos1+βcos2的值；若该代码是模式匹配识别的代码，则计算代码本身与当前bug描述的相似度，同时设置参数β即与前文的β值相同的作为cos2的系数，这里设置β为0.5，计算β cos2的值；对并集后的代码计算得到的相似度值进行排列，推荐前10个相似度值对应的代码作为故障定位结果，供开发人员参考和故障修复。

本发明的优点和效果在于从bug的版本问题出发，分析当前bug的历史相似bug与当前软件的源代码，基于信息检索技术向量空间模型VSM公式计算相似度，推荐相似度高的代码进行定位。该方法可有效地提高软件测试与调试的效率，减少了成本与人力。

主要有如下一些优点：

(1)目前的软件自动定位方法很多，如基于静态分析的故障定位技术，基于测试的故障定位技术，基于距离度量的故障定位技术，而本发明提出分析bug描述，历史相似bug，当前软件源代码，从而更有助于软件bug定位的分类。

(2)该发明将与版本相关的bug建立成一个库，对软件bug的多个关键信息进行分析，增加了bug定位解决的有效性。

(3)该定位技术不需要测试用例，而是根据当前的软件代码和bug描述能直接进行定位。

附图说明

图1——本发明的流程示意图。

图2——本发明决策树ID3算法流程示意图。

图3——本发明向量空间模型VSM图，其中有如下术语：

ti：Bug描述，历史相似bug描述与评论中出现的所有术语，

n：Bug描述与历史相似bug描述与评论中出现的所有术语总个数，

W_ti：Bug描述中术语ti的权重，

P_ti：历史相似bug的描述与评论中术语ti的权重，

Ti：Bug描述，历史相似bug对应的代码或当前软件模式匹配的代码中出现的所有术语，

m：Bug描述，历史相似bug对应的代码或当前软件模式匹配的代码中出现的所有术语的总数，

W_Ti：Bug描述中术语Ti的权重.

Q_Ti：历史相似bug对应的代码或当前软件模式匹配的代码中术语Ti的权重。

具体实施方式

本发明的技术思路是：

本发明定位程序时，建立一个与版本相关的库，对于当前提交的bug描述，首先在建立的库中查找历史相似bug，然后在当前软件的源代码中通过规则进行模式匹配，识别相关的源代码。将历史相似bug与识别后的代码并集，基于信息检索技术向量空间模型VSM公式进行相似度计算，推荐相似度高的代码进行定位。

本发明具体有如下步骤：

步骤1).建立一个与软件版本相关的库(简称BV库)，该库中的bug都是与版本相关的，并且都是已修复的bug，包括bug ID，描述，评论，对应的修复源代码。比如，该库中的一条bug和其对应的代码如下：

步骤2).对于当前提交的bug描述，判断该描述是否是配置的版本出错，若是，则在BV库中查找相似的历史bug，包括相似bug的描述，评论与源代码。比如：Bug 1048270的描述是：“Blobber exception：″UnboundLocalError：local vari able′blob_url′referencedbefore assignment″”，该描述中描述了配置Blobber出错，则在BV库中查找相似的历史bug。

步骤3).对于当前软件代码，通过规则((“version”，“1.1.1”，“dependency”)包括搜索关键字“version”，形如1.1.1格式的数字以及配置的依赖关系)对源代码进行模式匹配，识别相关的源代码。比如：通过规则：形如1.1.1格式的数字来匹配软件ReleaseEngineering。的源代码得到的代码片段是：′blobuploader＝＝1.2.1′。

步骤4).对历史bug对应的代码与模式匹配识别的代码求并集，基于信息检索的技术，处理并集后的代码。若该代码属于相似历史bug对应的代码，则对该代码所对应的描述，评论以及代码本身进行预处理；若该代码属于模式匹配识别的代码，则对该代码本身进行预处理。同时也对当前bug的描述进行预处理。预处理包括文本正常化，删除停用词，词干处理。其中文本正常化包括删除标点符号，标记术语，拆分标识符。删除停用词包括在停用词列表中过滤外来术语。词干处理包括将变形或衍生词变成根形式的词。比如，删除Bug1355015中Comment2：Benjamin，f？for this version bump.This serve two purposes：-We know that a number of popular linux distribution are enabling telemetry intheir binaries，and that a number of firefox packagers are compiling with Alsasupport in.中的标点符号：“？”，“：”，“，”，“-”，“.”。删除Comment2中的停用词：“for”，“a”，“of”，“and”。过滤外来术语“Alsa”。词干处理，比如将“going”与“goes”变成根形式的词“go”。

步骤5).计算上一步骤中处理后的并集代码(包括对应的描述与评论)和当前bug描述的术语出现次数，结合信息检索工具向量空间模型VSM公式计算每段代码与当前bug描述的相似度。若该代码是相似历史bug对应的代码，则1.计算该代码对应的描述与评论和当前bug描述的相似度(作为cos1)；2.计算该代码本身与当前bug描述的相似度(作为cos2)，同时设置参数α，β作为两个相似度的系数，这里设置α为0.5，β为0.5，计算α cos1+β cos2的值。若该代码是模式匹配识别的代码，则计算代码本身与当前bug描述的相似度(作为cos2)，同时设置参数β(与前文的β值相同)作为cos2的系数，这里设置β为0.5，计算β cos2的值。对并集后的代码计算得到的相似度值进行排列，推荐前10个相似度值对应的代码作为故障定位结果，供开发人员参考和故障修复。比如，Bug 1048270的描述中术语blob出现的次数是2，blob_url出现的次数是1，利用向量空间模型VSM公式计算当前bug描述与当前软件源代码和相似历史bug的相似度并排序。定位的前10个结果如下：

向量空间模型VSM公式如下：

W_t∈d＝tf_td×idf_t

tf(t.d)＝log(f_td)+1

W_t：第i的术语的权重

tf：bug描述或历史相似bug或当前软件代码术语出现的个数

idf：bug描述与历史相似bug或bug描述与当前软件代码集合中术语出现的次数

t：术语

d：bug描述或历史相似bug或当前软件代码作为一个特定的文档

f_td：bug描述或历史相似bug或当前软件代码中t出现的次数

N：bug描述与历史相似bug分别作为文档的总数或bug描述与当前软件代码分别作为文档的总数

n_t：包含t的文档的数量。

Claims

1.一种面向软件版本问题的程序故障定位方法，针对与版本相关的bug进行定位，其特征在于如下步骤：

(4)对历史bug对应的代码与模式匹配识别的代码求并集，基于信息检索的技术，处理并集后的代码；若该代码属于相似历史bug对应的代码，则对该代码所对应的描述，评论以及代码本身进行预处理；若该代码属于模式匹配识别的代码，则对该代码本身进行预处理，也对当前bug的描述进行预处理；所述预处理包括文本正常化，删除停用词，词干处理，其中文本正常化包括删除标点符号，标记术语，拆分标识符；所述删除停用词包括在停用词列表中过滤外来术语，所述词干处理包括将变形或衍生词变成根形式的词；

(5)计算上一步骤中处理后的并集代码和当前bug描述的术语出现次数，结合信息检索工具向量空间模型VSM公式计算每段代码与当前bug描述的相似度；若该代码是相似历史bug对应的代码，则1.计算该代码对应的描述与评论和当前bug描述的相似度；2.计算该代码本身与当前bug描述的相似度，设置参数α，β作为两个相似度的系数，这里设置α为0.5，β为0.5，计算αcos1+βcos2的值；若该代码是模式匹配识别的代码，则计算代码本身与当前bug描述的相似度，同时设置参数β即与前文的β值相同的作为cos2的系数，这里设置β为0.5，计算βcos2的值；对并集后的代码计算得到的相似度值进行排列，推荐前10个相似度值对应的代码作为故障定位结果，供开发人员参考和故障修复。