CN109376247A

CN109376247A - 一种基于关联规则的软件缺陷自动分类方法

Info

Publication number: CN109376247A
Application number: CN201811346154.0A
Authority: CN
Inventors: 李斌; 周澄; 孙小兵
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2019-02-22
Anticipated expiration: 2038-11-13
Also published as: CN109376247B

Abstract

本发明公开了一种基于关联规则的软件缺陷自动分类方法，包括以下步骤：首先提取缺陷报告中的文本内容，并对其进行预处理；之后随机采样状态为VERIFIED FIXED的缺陷，构建待分类缺陷集；再根据缺陷表象、缺陷发生原因对待分类缺陷集中的每一个缺陷进行缺陷表象类别和缺陷发生原因类别标注，获得缺陷表象类别分类集、缺陷发生原因类别分类集；然后挖掘不同缺陷表象类别、缺陷发生原因类别之间的关联规则，从中筛选出强关联规则并将其转化为关系矩阵；最后利用深度学习方法对缺陷表象类别分类集进行训练，获取缺陷自动分类器。本发明同时从缺陷表象和产生原因两个维度对缺陷进行细粒度的自动分类，解决了现有技术中因缺陷信息量少而无法准确原因分类的短板。

Description

一种基于关联规则的软件缺陷自动分类方法

技术领域

本发明属于软件维护领域，特别是一种基于关联规则的软件缺陷自动分类方法。

背景技术

软件缺陷是软件质量维护过程中所要解决的最严重的问题之一，随着软件规模的不断扩增导致引入大量新缺陷，智能化缺陷修复已经成为业界研究的重点。及时有效的修复缺陷首先需要识别缺陷的表象和缺陷发生的原因，但是用户提交的缺陷报告往往不完整、不准确，只包含了缺陷的重现步骤、实际结果和预期结果，开发人员可以相对轻易地确定缺陷的表象，却需要耗费大量的时间来分析缺陷的产生原因。准确的缺陷分类是提高缺陷修复工作效率的重要手段，它可以降低开发人员分析缺陷产生根本原因的难度。但是目前主要的缺陷跟踪系统没有配备自动分类功能，多数都要依靠人工分类，耗时费力，且主要是单一地从某一个维度对缺陷进行分类，缺陷的分类效率和准确性都受到了限制。

目前，已有一些研究用来分析软件缺陷的不同类别之间的关联关系。如Song等人在“Software defect association mining and defect correction effortprediction”一文中使用Apriori算法挖掘类似关联规则“aΛb→c”，通过关联规则，根据已发生的缺陷来预测相关联的可能会发生的缺陷，实施缺陷修正。IBM公司定义了一个基于定性因果分析的缺陷衡量方法，并通过开发人员的反馈确认了真正的缺陷原因，但对开发人员的研究和分析能力有很高的要求。Tan等人在“Bug characteristics in open sourcesoftware”一文中对三个开源项目进行人工统计，从缺陷来源、影响和组件三个不同维度对软件缺陷进行分类，探究不同类别之间的相关性，以及不同类型缺陷频发趋势。但是上述这些研究均没有挖掘细粒度的缺陷表象和原因类别之间的关联关系，更没有将这些关联关系应用到缺陷自动分类上。另外有一些工作致力于研究缺陷自动分类技术，但这些技术中大多采用人工特征工程和浅层神经网络分类模型，而人工特征工程不具备很强的通用性，往往需要结合对不同软件的理解来选取不同的特征。除此之外，在文本表示上忽略文本上下文关系，每个词之间彼此独立，并且无法表征语义信息。

发明内容

本发明所解决的技术问题在于提供一种通过挖掘缺陷表象和原因类别之间的关联关系的缺陷自动分类方法。

实现本发明目的的技术解决方案为：一种基于关联规则的软件缺陷自动分类方法，包括以下步骤：

步骤1、提取缺陷报告中的文本内容，并对文本内容进行预处理形成缺陷数据集；

步骤2、从所述缺陷数据集中随机采样状态为VERIFIED FIXED的缺陷，构建待分类缺陷集；

步骤3、根据缺陷表象、缺陷发生原因对所述待分类缺陷集中的每一个缺陷进行缺陷表象类别标注和缺陷发生原因类别标注，获得缺陷表象类别分类集、缺陷发生原因类别分类集，分别记为A、B；

步骤4、挖掘不同缺陷表象类别、缺陷发生原因类别之间的关联规则，从中筛选出强关联规则并将其转化为关系矩阵；

步骤5、利用深度学习方法对缺陷表象类别分类集进行训练，获取缺陷自动分类器，从而完成缺陷的自动分类。

本发明与现有技术相比，其显著优点为：1)本发明通过挖掘不同缺陷原因类别和缺陷表象类别之间的关联关系，利于开发人员根据相对容易判断的新缺陷表象预测出该缺陷产生的原因，提高了缺陷修复的效率；2)本发明定义了细粒度的缺陷表象和缺陷产生原因分类标准，该分类标准具有普适性，适合缺陷原因和表象分析，便于挖掘不同缺陷原因类别和表象类别之间的关联关系；3)本发明通过获取不同缺陷原因类别和缺陷表象类别之间的关联规则，并筛选出具有统计学意义的强关联规则，提高了缺陷原因预测的准确性；4)本发明的关联规则抽取方法不仅适用于缺陷表象类别和原因类别，还可以拓展到其他维度缺陷类别之间的关联关系定性分析，可扩展性比较强；5)本发明采用深度学习模型对缺陷进行分类，深度学习模型能够自动获取特征表达能力，去掉繁杂的人工特征工程，端到端的解决问题，充分挖掘缺陷报告文本数据的语义信息，得到准确的缺陷表象分类，为后续的缺陷产生原因预测提供可靠的基础；6)本发明采用深度学习HAN模型具有分层表示和attention(注意力)机制，更加适合缺陷分类，给词和句子赋予不同的权重，不仅能挖掘词之间还挖掘句子之间的语义关系，能够直观地展示整个缺陷报告中更加重要的词和句子；7)本发明对HAN进行了进一步改进，将缺陷因果关联规则转化为关系矩阵，改变HAN输出层，改善为双输出分类模型，同时输出缺陷所属的表象类别和原因类别。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明基于关联规则的软件缺陷自动分类方法的流程示意图，其中(a)为缺陷数据准备过程示意图，(b)为关联规则挖掘过程示意图，(c)为最终缺陷自动分类过程示意图。

图2为本发明实施例中抽取的Mozilla项目VERIFIED FIXED缺陷报告列表示意图。

图3为本发明实施例中抽取的一个缺陷报告截图。

图4为本发明实施例中选用的HAN模型结构图。

具体实施方式

结合图1，本发明一种基于关联规则的软件缺陷自动分类方法，包括以下步骤：

步骤1、提取缺陷报告中的文本内容，并对文本内容进行预处理形成缺陷数据集。其中，文本内容包括标题、描述和评论；预处理为自然语言处理，包括去除噪声、分句分词。

步骤2、从缺陷数据集中随机采样状态为VERIFIED FIXED的缺陷，构建待分类缺陷集。

步骤3、根据缺陷表象、缺陷发生原因对待分类缺陷集中的每一个缺陷进行缺陷表象类别标注和缺陷发生原因类别标注，获得缺陷表象类别分类集、缺陷发生原因类别分类集，分别记为A、B。其中，定义缺陷表象类别包括10种：Security、Performance、Process、Data、Compatibility、Information、User interface、Suggestion、Documentation、Function；定义缺陷发生原因类别包括12种：Compatibility、Environment、Norm、Configuration、Performance、User interface、Function、Interface、Logic、Computation、Assignment、Documentation。

步骤4、挖掘不同缺陷表象类别、缺陷发生原因类别之间的关联规则，从中筛选出强关联规则并将其转化为关系矩阵。具体为：

步骤4-1、求取不同的缺陷表象类别、缺陷发生原因类别两两之间的支持度support、置信度confidence和提升度lift；

步骤4-2、利用Apriori算法挖掘频繁2-项集，形成关联规则其中，A_i为第i个缺陷表象类别，B_j为第j个缺陷发生原因类别，1≤i≤缺陷表象类别的总数，1≤j≤缺陷发生原因类别的总数；

步骤4-3、根据提升度lift、置信度confidence从步骤4-2关联规则中筛选出强关联规则。具体为：

步骤4-3-1、设定提升度lift的阈值为X，置信度confidence的阈值为Y；

步骤4-3-2、若缺陷表象类别、缺陷发生原因类别之间的提升度且置信度则该缺陷表象类别、缺陷发生原因类别之间的关联规则为强关联规则。

步骤5、利用深度学习方法对缺陷表象类别分类集进行训练，获取缺陷自动分类器，从而完成缺陷的自动分类。具体为：

步骤5-1、以深度学习模型为基础，在其输出层引入关系矩阵，获得双输出分类模型；

步骤5-2、将缺陷表象类别分类集划分为训练集和测试集；

步骤5-3、利用word2vec对缺陷数据集进行训练得到词向量模型，将其作为双输出分类模型的embedding输入；

步骤5-4、利用双输出分类模型对训练集进行训练，之后对测试集进行交叉验证从而获得缺陷自动分类器，完成缺陷的自动分类。

进一步地，深度学习模型为HAN。

实施例

基于关联规则的软件缺陷自动分类方法包括以下内容：

步骤1、收集2个开源软件项目的缺陷报告构建缺陷数据集,从每个缺陷报告中提取标题、描述和评论，收集的报告数量分布如下表1所示。将缺陷报告中提取的信息转换为txt文档，使用自然语言处理工具包(NLTK)对缺陷文档进行数据清洗，例如删除链接，代码片段和XML标记等。对文档进一步分句分词，每个文档都被转换为一系列的token。

表1 2个项目上缺陷数据数量分布表

software	Bugset	Document	Sentence	Token
					Mozilla	200K	1000	63452	807534
Eclipse	50K	400	21380	249077
					Total	250K	1400	84832	1056611

步骤2、结合图2，从缺陷数据集中随机采集状态为VERIFIED FIXED的缺陷形成待分类缺陷集。VERIFIED FIXED的缺陷报告信息比较全面，如图3所示，标题和描述中包含缺陷的重现步骤、预期结果和实际结果，易于判别缺陷表象，评论中有修改方案和缺陷可能原因讨论，易于判别缺陷原因。

步骤3、从缺陷发生原因和缺陷表象两个维度定义软件缺陷的分类标准，具体类别和分类标准如下表2、3所示。

表2缺陷发生原因分类标准

表3缺陷表象分类标准

根据上述分类标准，从缺陷发生原因和缺陷表象两个维度对待分类缺陷集进行类别标注，构成缺陷表象类别分类集和缺陷原因类别分类集。

步骤4、挖掘不同缺陷表象类别A_i和原因类别B_j之间的关联关系，计算两两类别之间的支持度(support)、置信度(confidence)和提升度(lift)。使用Apriori算法挖掘频繁2-项集，形成关联规则后项B_j是根据前项A_i进行推荐的。将关联规则根据前项A_i出现的概率P(A_j)从大到小进行排序，首先选取提升度>3的关联规则，再综合考虑提升度和置信度筛选出强关联规则。进一步将强关联规则转换为关系矩阵A_10×12，行代表10个缺陷表象类别，列代表12个缺陷原因类别。如果A_i和B_j之间不存在关联规则，相应的元素a_i,j为0。

步骤5、本实施例中选用的HAN模型结构图如图4所示，以HAN为基础，在其输出层引入关系矩阵，获得双输出分类模型，之后利用word2vec对缺陷数据集进行训练得到词向量模型，并将其作为双输出分类模型的embedding输入。将缺陷表象类别分类集划分为训练集和测试集。利用双输出分类模型对训练集进行训练，对测试集进行交叉验证得到缺陷自动分类器。

缺陷自动分类器是在HAN模型输出层使用softmax作为激活函数，隐含层最终输出10个神经单元代表了10个缺陷表象类别的预测值。对缺陷自动分类器进行改进，在输出层引入关系矩阵A_10×12，在对缺陷表象类别进行分类的同时，将输出层中的缺陷表象预测值行向量X_1×10＝[x₁,x₂,…,x₁₀]转化为缺陷原因预测值行向量Y_1×12＝[y₁,y₂,…,y₁₂]：

Y_1×12＝X_1×10A_10×12

通过softmax函数对预测值进行归一化处理，计算出当前缺陷文档D属于每一个表象类别i的概率：

概率最高的标记为1，其他类别的概率标记为0，最终输出one-hot标签label，例如代表当前缺陷文档D属于第1个原因类别。经过以上步骤最后同时输出缺陷的表象类别标签和原因类别标签,得到双标签输出的缺陷自动分类器。

本发明探索了不同缺陷发生原因和缺陷表象之间的联系，并将这种经验性知识转化为机器学习算法可以理解的形式——关联规则。通过深度学习模型充分挖掘缺陷报告内部的语义信息，同时从缺陷表象和缺陷产生原因两个维度对缺陷进行细粒度的自动分类，解决了现有技术中因缺陷信息量少而无法准确原因分类的短板，帮助开发人员识别缺陷原因，制定修复方案。

Claims

1.一种基于关联规则的软件缺陷自动分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于关联规则的软件缺陷自动分类方法，其特征在于，步骤1所述文本内容包括标题、描述和评论。

3.根据权利要求1所述的基于关联规则的软件缺陷自动分类方法，其特征在于，步骤1所述预处理为自然语言处理，包括去除噪声、分句分词。

4.根据权利要求1所述的基于关联规则的软件缺陷自动分类方法，其特征在于，步骤3所述缺陷表象类别包括Security、Performance、Process、Data、Compatibility、Information、User interface、Suggestion、Documentation、Function；所述缺陷发生原因类别包括Compatibility、Environment、Norm、Configuration、Performance、Userinterface、Function、Interface、Logic、Computation、Assignment、Documentation。

5.根据权利要求1所述的基于关联规则的软件缺陷自动分类方法，其特征在于，步骤4所述挖掘不同缺陷表象类别、缺陷发生原因类别之间的关联规则，从中筛选出强关联规则，具体为：

步骤4-3、根据提升度lift、置信度confidence从步骤4-2所述关联规则中筛选出强关联规则。

6.根据权利要求5所述的基于关联规则的软件缺陷自动分类方法，其特征在于，步骤4-3所述根据提升度lift、置信度confidence从步骤4-2的关联规则中筛选出强关联规则，具体为：

7.根据权利要求1所述的基于关联规则的软件缺陷自动分类方法，其特征在于，

步骤5所述利用深度学习方法对缺陷表象类别分类集进行训练，获取缺陷自动分类器，从而完成缺陷的自动分类，具体为：

步骤5-2、将缺陷表象类别分类集划分为训练集和测试集；

步骤5-3、利用word2vec对缺陷数据集进行训练得到词向量模型，将其作为所述双输出分类模型的embedding输入；

步骤5-4、利用双输出分类模型对所述训练集进行训练，之后对所述测试集进行交叉验证获得缺陷自动分类器，完成缺陷的自动分类。

8.根据权利要求1所述的基于关联规则的软件缺陷自动分类方法，其特征在于，步骤5-1所述深度学习模型为HAN。