CN111177010B

CN111177010B - 一种软件缺陷严重程度识别方法

Info

Publication number: CN111177010B
Application number: CN201911425226.5A
Authority: CN
Inventors: 俞东进; 郭世明; 陈信; 王琳
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-12-15
Anticipated expiration: 2039-12-31
Also published as: CN111177010A

Abstract

本发明公开了一种软件缺陷报告严重程度识别方法。该方法基于卷积神经网络来实现缺陷报告严重程度的识别，利用元启发式算法—遗传算法进行特征选择来提高预测的性能。通过本发明方法能够高效识别软件缺陷报告的严重程度，降低软件维护的成本，对软件开发过程具有非常重要的意义。本发明提出使用遗传算法来进行特征提取，同时结合深度学习模型进行预测。相比于传统的软件缺陷报告严重程度预测方法，本发明利用遗传算法进行特征选择，采用最小化平均绝对偏差作为适应度函数来评估每个个体，大大提高特征选择的效果；使用深度卷积神经网络创建模型，进一步提高特征选择的准确性，增强预测模型的性能。

Description

一种软件缺陷严重程度识别方法

技术领域

本发明涉及软件仓库挖掘领域，尤其涉及一种遗传算法和卷积神经网络的软件缺陷报告严重程度识别方法。

背景技术

在软件开发过程中，不可避免地会出现软件缺陷，软件缺陷会影响软件质量，需要被及时修复，并且软件缺陷的修复在软件开发生命周期中占很大比例。因此，提高软件缺陷修复效率是确保软件质量的关键。目前，为了解决这个问题，很多大型项目都使用软件缺陷报告跟踪系统来记录缺陷信息，以便快速定位和修复缺陷。

软件缺陷报告的严重性主要包括blocker、critical、major、normal、minor、trivial六个级别，其中blocker、critical和major级别的缺陷归类为严重缺陷，其他级别的缺陷归类为非严重缺陷。在对缺陷报告进一步分类时，传统的做法是开发人员手动将用户所提交的软件缺陷报告定性分成两类，来帮助开发人员确定哪些缺陷需要被及时修复以及哪些缺陷可以延迟修复。在实际操作中，首先由于用户之间表达方式的差异性，同类型的软件缺陷也许会被判定为不同级别的严重程度；其次，开发人员手动分类软件缺陷报告时，主观性较强且效率低下，因此人们迫切需要依靠自动化技术实现软件缺陷报告的分类。近年来受到机器学习在预测领域所取得的成果启发，研究人员已经将机器学习技术应用到软件缺陷报告严重程度识别这一问题。然而将传统机器学习技术应用到缺陷报告严重程度识别时，会遇到一个很大的挑战，即无法有效提取文本特征。

传统预测方法对软件缺陷报告严重程度预测的准确率较低，可能会导致开发人员花费大量时间在紧急度低的软件缺陷上，对软件质量造成巨大影响。相比较之下，机器学习算法可以有效识别软件缺陷报告严重程度，极大地降低了软件维护的成本。

发明内容

为了克服现有技术的不足，本发明提供一种结合遗传算法和卷积神经网络的软件缺陷报告严重程度识别方法，可有效解决上述问题。本发明具体采用的技术方案如下：

一种软件缺陷严重程度识别方法，具体包括以下步骤：

步骤(1)定义软件缺陷的严重程度，将normal、trivial和minor级别归为非严重缺陷s₁，将major、blocker和critical级别归为严重缺陷s₂；

步骤(2)给定缺陷报告集合R＝(R₁，R_2，...R_n)，将其中每个软件缺陷报告表示成R_i＝＜reportId，des，severity＞，i＝1，2...，n，其中reportId表示软件缺陷报告编号，des表示软件缺陷报告的描述信息，severity表示软件缺陷报告的严重程度，即s₁或s₂；

步骤(3)对每个软件缺陷的描述信息des进行预处理：首先对des进行标记，用空格区分成单词形式，并删除其中的符号，然后基于停用词列表移除其中的停用词，最后将每个单词转为它的原型(即将每个单词转为它原有的词干或词根)；经过预处理后每个缺陷报告R_i＝＜reportId，preDes，severity＞，其中preDes表示预处理后的描述信息；

步骤(4)首先抽取所有缺陷报告中的描述信息preDes中的不同单词，形成关键词字典Dict＝(w₁，w₂，...，w_k)，即特征集合，其中每一个关键词就是一个特征；然后利用遗传算法进行特征选择，特征选择的步骤如下：

4-1.设定初始化种群X＝(X₁，X₂，...，X_p)，p表示种群大小，以及最大迭代次数MaxIter；种群中的每一个个体X_i可以用一个长度为k的二进制串表示，其中1代表对应的特征被选中，0表示对应的特长度k即关键词的个数；

4-2.对于每个个体X_i，根据关键词字典Dict得到对应的特征子集SD_i(基于个体X_i二进制串过滤得到)，然后根据SD_i去除每个preDes的冗余特征，即只保留在SD_i中存在的特征，得到preDesR；

4-3.利用TF-IDF加权方法计算每个特征的权重，其中TF表示单词频率，IDF表示文档反向频率；TF-IDF公式为TF-IDF_l，i＝TF_l，j×IDF_j，其中TF-IDF_l，j表示第j个单词在第l个文档中的权重，TF_l，j表示第j个单词在第l个文档中的频率，IDF_j＝log(n/DF_j)表示第j个单词的文档反向频率，n表示文档的个数，DF_j表示包含第j个单词的文档的个数；

4-4.对种群中的每一个个体X_i采用最小化平均绝对偏差作为适应度函数进行评估；适应度函数定义如下：

其中，MAD(X_i)表示第i个个体X_i对应的适应度值，a_l是第l个软件缺陷报告中被选中的特征的数量，e_l，j表示第l个软件缺陷报告中第j个特征的权值，即TF-IDF_l，j；然后采用锦标赛选择算法对种群进行选择，被选择的个体进入子代种群；

4-5.对子代种群进行交叉和变异，重复上述步骤4-2到4-4的操作，直到达到最大迭代次数MaxIter；

4-6.输出最优特征子集；

步骤(5)单词向量化，基于最优特征子集将每个缺陷报告的preDes中的冗余特征进行过滤，得到preDesR；然后利用Word2Vec中的Skip-gram模型将每个preDesR中的每个单词转为一个d维向量，即

步骤(6)训练软件缺陷报告严重程度预测的卷积神经网络模型M，将步骤(5)得到的每个单词的向量表示输入至模型M的Embedding层进行训练，具体步骤如下：

第一，设置模型参数：Number of hidden units(隐藏单元数)、IterMax(CNN训练最大迭代次数)、Batch size(批量大小)、L2、Learning rate(学习率)、Dropout和Dimensional of word vectors(单词向量维度)；

第二，将R分为训练数据集合ζ_train与测试数据集合ζ_test；

第三，将训练数据集合ζ_train所有单词的输入至CNN中进行训练；

第四，对于训练数据集合ζ_train中数据，利用三个不同卷积核执行卷积操作，分别对每一个卷积结果进行最大池化1-Max操作，输出Θ₁，Θ₂，Θ₃；

第五，对Θ₁，Θ₂，Θ₃进行Flatten操作，展平成一维向量，并输入到全连接层中，其中激活函数使用Relu，输出

第六，卷积神经网络通过损失函数Loss计算c与之间的损失值，即预测的严重程度与真实的严重程度的差值，不断优化模型参数，其中c是每次迭代对ζ_train中的部分数据的预测结果；

第七，达到设定的损失函数要求值或达到最大迭代次数IterMax后，迭代结束；最后，输出预测模型M；

步骤(7)将测试数据集合ζ_test数据输入至预测模型M，输出预测结果c’，得到类标签s₁或s₂；

步骤(8)进行十折交叉验证，十次预测之后取平均值，作为最终预测结果

本发明提出使用遗传算法来进行特征提取，同时结合深度学习模型进行预测。相比于传统的软件缺陷报告严重程度预测方法，本发明具有如下收益：1、利用遗传算法进行特征选择，采用最小化平均绝对偏差作为适应度函数来评估每个个体，大大提高特征选择的效果；

2、使用深度卷积神经网络创建模型，进一步提高特征选择的准确性，增强预测模型的性能。

附图说明

图1为本发明结合遗传算法和神经网络算法的缺陷报告严重程度识别方法的流程图；

图2为本发明基于遗传算法进行特征选择的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。

为叙述方便，定义相关符号如下：

r：每一个缺陷报告的格式。

R：缺陷报告集合。

w_k：第k个单词。

Dict：基于缺陷报告生成的关键字典。

x_i：第i个个体。

p：初始种群大小。

MaxIter：迭代次数大小。

a_l：第l个软件缺陷报告中被选中的特征的数量。

e_l，j：第l个软件缺陷报告中第j个特征的权值。

v_d：第d个单词所对应的向量。

ζ_train：软件缺陷报告90％的子集作为训练集。

ζ_test：软件缺陷报告10％的子集作为训练集。

数据源获取：本实施例所用的原始数据来自由Lamkanfi整理的公开数据集。该数据集是从两个开源项目Eclipse和Mozilla中提取的。每个项目包含四个产品，每个缺陷报告都有完整的生命周期。从数据集中，我们选择了三个开源产品的缺陷报告集合：Platform，Core和Firefox，其中Platform属于Eclipse，Core和Firefox属于Mozilla。因为其他产品的缺陷报告数量过少，所以我们忽略其他产品的缺陷报告。收集到的缺陷报告总数为168,946，其中每种产品缺陷报告的数量分别占14.66％，43.97％和41.37％。每个缺陷报告主要有以下几部分组成：缺陷报告编号、缺陷报告的描述信息、缺陷报告的严重程度以及缺陷报告所属组件等等。考虑到组件属性对严重程度识别没有作用，我们将每个缺陷报告表示为r＝＜reportId，des，severity＞。

如图1所示，本发明的结合一种遗传算法和卷积神经网络的软件缺陷报告严重程度识别方法，包括以下步骤：

步骤(2)给定缺陷报告集合R＝(R₁，R₂，...R_n)，将其中每个软件缺陷报告表示成R_i＝＜reportId，des，severity＞，i＝1，2...，n，其中reportId表示软件缺陷报告编号，des表示软件缺陷报告的描述信息，severity表示软件缺陷报告的严重程度，即s₁或s₂；

步骤(3)对每一个des进行预处理：首先对des进行标记，用空格区分成单词形式，并删除其中的符号，然后基于停用词列表移除其中的停用词，最后将每个单词转为它的原型；经过预处理后每个缺陷报告R_i＝＜reportId，preDes，severity＞，其中preDes表示预处理后的描述信息；

步骤(4)首先抽取所有缺陷报告的preDes中的不同单词，形成关键词字典Dict＝(w₁，w₂，...，w_k)，即特征集合，其中每一个关键词就是一个特征；然后利用遗传算法进行特征选择，特征选择的步骤如下：

1)设定初始化种群X＝(X₁，X₂，...，X_p)，p表示种群大小，设定为10，以及最大迭代次数MaxIter，设定为100；种群中的每一个个体X_i可以用一个二进制串表示，例如X_i＝(0110010101)，其中1代表对应的特征被选中，0表示对应的特征未被选中；在我们的方法中，二进制串的长度为k，即关键词的个数；

2)对于每个个体X_i，根据Dict得到对应的特征子集SD_i，然后根据SD_i去除每个preDes的冗余特征，得到preDesR；

3)利用TF-IDF加权方法计算每个特征的权重，其中TF表示单词频率，IDF表示文档反向频率；TF-IDF公式为TF-IDF_l，j＝TF_l，j×IDF_j，其中TF-IDF_l，j表示第j个单词在第l个文档中的权重，TF_l，j表示第j个单词在第l个文档中的频率，IDF_j＝log(n/DF_i)，n表示文档的个数，DF_j表示包含第j个单词的文档的个数；

4)对种群中的每一个个体X_i采用最小化平均绝对偏差(mean absolutedifference)作为适应度函数进行评估；适应度函数定义如下：

其中MAD(X_i)表示第i个个体对应的适应度值，a_l是第l个软件缺陷报告中被选中的特征的数量，e_l，j表示第l个软件缺陷报告中第j个特征的权值，即TF-IDF_l，j；然后采用锦标赛选择算法对种群进行选择，被选择的个体进入子代种群；

5)对种群进行交叉和变异，设定交叉概率和变异概率分别为0.9和0.05，重复上述步骤2)-4)操作，直到达到最大迭代次数MaxIter；

6)输出最优特征子集；

步骤(5)单词向量化，基于最优特征子集将每个缺陷报告的preDes中的冗余特征进行过滤，得到preDesR；然后利用Word2Vec中的Skip-gram模型将每个preDesR中的每个单词转为一个d维向量，即输入到卷积神经网络的输入层；

步骤(6)训练软件缺陷报告严重程度预测模型M，具体包含以下步骤：

1)设置模型参数：

·Number of hidden units：256

·IterMax：25

·Batch size：64

·L2：0.01

·Learning rate：0.0001

·Dropout：0.5

·Dimensional of word vectors：100

2)将R分为①训练数据集合ζ_train②测试数据集合ζ_test，其中ζ_train：ζ_test＝9∶1；

3)将ζ_train所有单词的输入至CNN中进行训练；

4)对于ζ_train中数据，利用三个不同卷积核执行卷积操作，卷积核大小为3、4、5，分别对每一个卷积结果进行最大池化1-Max操作，输出Θ₁，Θ₂，Θ₃；

5)对Θ₁，Θ₂，Θ₃进行Flatten操作，展平成一维向量，并输入到全连接层中，其中激活函数使用Relu，输出

6)卷积神经网络通过损失函数Loss迭代c与之间的损失值，即预测的严重程度与真实的严重程度的差值，不断优化模型参数；

7)达到设定的损失函数要求值或达到最大迭代次数IterMax后后，迭代结束；

8)输出预测模型M；

步骤(7)将测试数据集合ζ_test数据输入至预测模型M，输出预测结果c′，得到类标签s₁或s₂；

步骤(8)进行十折交叉验证，十次预测之后取平均值，作为最终预测结果步骤如下：

1)将每个产品的数据集切分成10折，每次取一折作为测试集，其他作为训练集；

2)重复10次，求得平均预测结果

Claims

1.一种软件缺陷严重程度识别方法，其特征在于包括以下步骤：

步骤(2)给定缺陷报告集合R＝(R₁，R₂，...R_n)，将其中每个软件缺陷报告表示成R_i＝<reportId，des，severity>，i＝1，2...，n，其中reportId表示软件缺陷报告编号，des表示软件缺陷报告的描述信息，severity表示软件缺陷报告的严重程度，即s₁或s₂；

步骤(3)对每个软件缺陷的描述信息des进行预处理：首先对des进行标记，用空格区分成单词形式，并删除其中的符号，然后基于停用词列表移除其中的停用词，最后将每个单词转为它的原型；经过预处理后每个缺陷报告R_i＝<reportId，preDes，severity>，其中preDes表示预处理后的描述信息；

4-2.对于每个个体X_i，根据关键词字典Dict得到对应的特征子集SD_i，然后根据SD_i去除每个preDes的冗余特征，即只保留在SD_i中存在的特征，得到preDesR；

4-3.利用TF-IDF加权方法计算每个特征的权重，其中TF表示单词频率，IDF表示文档反向频率；TF-IDF公式为TF-IDF_l，j＝TF_l，j×IDF_j，其中TF-IDF_l，j表示第j个单词在第l个文档中的权重，TF_l，j表示第j个单词在第l个文档中的频率，IDF_j＝log(n/DF_j)表示第j个单词的文档反向频率，n表示文档的个数，DF_j表示包含第j个单词的文档的个数；

4-6.输出最优特征子集；

第一，设置模型参数：Number of hidden units隐藏单元数、IterMax CNN训练最大迭代次数、Batch size批量大小、L2、Learning rate学习率、Dropout和Dimensional of wordvectors单词向量维度；

第二，将R分为训练数据集合ζ_train与测试数据集合ζ_test；