CN110471854B

CN110471854B - 一种基于高维数据混合约简的缺陷报告指派方法

Info

Publication number: CN110471854B
Application number: CN201910770489.3A
Authority: CN
Inventors: 郭世凯; 王佳慧; 郑圣杰; 陈荣; 李辉; 唐文君
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2023-02-03
Anticipated expiration: 2039-08-20
Also published as: CN110471854A

Abstract

本发明公开了一种基于高维数据混合约简的缺陷报告指派方法，包括如下步骤：S1:从缺陷报告系统中获取缺陷报告的故障文本信息、故障元信息和故障触发时间信息；S2:将缺陷报告定义为文本，选择能表现文本信息的词段，并采用分词、去停词、词干化和向量空间表示方法对缺陷报告进行标准化处理，S3:基于差分进化算法采用特征选择、实例选择和二者相结合的方式对缺陷报告进行数据约简；S4:读取缺陷报告的开发人员参与度信息，筛选处理过具有相同产品信息的bug报告的开发人员，对缺陷报告进行再次分类；S5:当有未被分类的缺陷报告提交时，使用结合开发人员参与度的数据约简策略为其分类，分配合适的开发人员处理该缺陷报告。

Description

一种基于高维数据混合约简的缺陷报告指派方法

技术领域

本发明涉及bug报告分派技术领域，尤其涉及一种基于高维数据混合约简的缺陷报告指派方法。

背景技术

软件项目的bug修复在软件维护中占有重要地位。目前缺陷报告自动指派是解决bug修复问题的高效经济方式。缺陷报告指派基于文本分类技术为一个新的缺陷报告分类，匹配一个开发人员进行bug修复。而bug数据的大规模和低质量两个特点降低了软件维护过程中bug仓库的使用效率，影响了新缺陷报告的有效指派。对此，在现有技术结合特征选择和实例选择技术去除了冗余和非信息的缺陷报告和单词，实现了数据约简，这样可以从历史bug数据集中提取属性，利用提取的属性对bug数据集进行二值分类器训练，预测了新的缺陷报告应用特征选择和实例选择的顺序。上述方法中结合特征选择和实例选择对缺陷报告数据进行属性约简的方法得到了规模较小、质量较高的缺陷报告，并且提出了一个应用特征选择和实例选择的顺序的预测模型。但它的属性约简方法的缺陷报告指派准确度并不高，不能有效的约简缺陷报告数据，适用性不强。另外，它的缺陷报告指派只是基于文本信息，没有考虑到开发人员的参与度的问题，最近出现的开发人员可能表现更活跃，而长期任职的开发人员可能会改变职位或离职，这也导致缺陷报告指派准确度下降。

发明内容

根据现有技术存在的问题，本发明公开了一种基于高维数据混合约简的缺陷报告指派方法，具体包括如下步骤：

S1:从缺陷报告系统中获取缺陷报告的故障文本信息、故障元信息和故障触发时间信息，将获取的信息定义为缺陷报告数据集，其中缺陷报告数据集还包括缺陷报告的对应开发人员信息；

S2:将缺陷报告定义为文本，选择能表现文本信息的词段，并采用分词、去停词、词干化和向量空间表示方法对缺陷报告进行标准化处理，获得每条缺陷报告的单词向量形式，将缺陷报告数据集转化为一个词矩阵；

S3:基于差分进化算法采用特征选择、实例选择和二者相结合的方式对缺陷报告进行数据约简；

S4:读取缺陷报告的开发人员参与度信息，筛选处理过具有相同产品信息的bug报告的开发人员，对缺陷报告进行再次分类；

S5:当有未被分类的缺陷报告提交时，使用结合开发人员参与度的数据约简策略为其分类，分配合适的开发人员处理该缺陷报告。

进一步的，S3中：其中特征选择的方式为在样本的特征空间上选择一部分特征对进行数据约简，实例选择方式为在原始样本中选择一部分样本进行数据约简，特征选择和实例选择相结合的方式为同时在特征空间和样本空间上选择样本进行数据约简。上述三种方法的不同之处在于种群初始化方法：

特征选择按照特征的重要程度顺序将不同的特征集合加入到特征选择的初始方案中；实例选择采用随机生成的10种初始化方案；特征选择和实例选择相结合的方式的初始化种群是二者方案的组合。

三种方法的相同之处在于种群初识化之后的操作：种群初始化后，记录适应度函数值最大的初始种群个体及其适应度值；父代种群选择一种变异操作得到子代，变异方法主要包括差分变异、交叉变异和随机变异：

差分变异：判断是否进行差分变异，若进行差分变异则对比选中的变异位置数值与最优个体的相应位置的数值，若相同则将子代变异位置置为1，否则随机生成变异位数值。

交叉变异：判断是否进行交叉变异，若进行交叉变异则选择一段变异位置，按段中点交叉变换。

随机变异：首先判断是否进行随机变异，若进行随机变异则将选中的变异位置数值取反。

种群变异后，按照适应度函数值对父代和子代排序，淘汰后一半个体并重新记录适应度函数值最大的个体及其适应度值。

不断迭代此过程直到达到迭代上限。

进一步的，S4中具体采用如下方式：

S41：在每个开发人员处理的缺陷报告历史数据中找到最近N个缺陷报告的产品信息，将开发人员做表头用链表储存产品信息；

S42：记录当前正在被分派的缺陷报告的产品信息；

S43：使用朴素贝叶斯分类器选择当前正在被分派的缺陷报告最合适的前N个开发人员,采用当前正在被分派的缺陷报告与前N个开发人员中每个开发人员处理过的产品信息链表逐个对比：如果在某个开发人员的产品信息储存链表中找到相同的产品信息则保留这个开发人员，如果没有找到则丢弃这个开发人员，将下一个开发人员顺次向前补位，完成依据开发人员近期参与度进行的筛选工作；

S44：在剩下的满足条件的开发人员中，选择前M个开发人员给出当前缺陷报告的最佳开发者列表。

由于采用了上述技术方案，本发明提供的一种基于高维数据混合约简的缺陷报告指派方法，采用该方法首先按照缺陷报告的ID顺序将缺陷报告数据分为三个部分，可以防止因缺陷报告的时序问题而引起的噪声和信息冗余问题。使用改进的差分进化算法将随机变异和差分变异相结合，通过随机变异扩大搜索范围，而差分变异又保证了算法收敛，最终可以搜索到最优解；在考虑开发人员参与度的基础上结合产品信息对开发人员进行重新排序，从而得到最终的开发人员推荐列表，避免了因开发人员离职等情况导致的缺陷报告分派不准确结果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的流程图。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图1所示的一种基于高维数据混合约简的缺陷报告指派方法，具体包括以下步骤：

S1:从缺陷报告系统中获取缺陷报告的故障文本信息、故障元信息和故障触发时间信息，将获取的信息定义为缺陷报告数据集，包括缺陷报告和对应开发人员；

S2:将缺陷报告看作文本，选择能体现缺陷报告文本信息的词段，并采用分词，去停词，词干化和向量空间表示的方法对缺陷报告进行标准化处理，获得每条缺陷报告的单词向量形式，缺陷报告数据集转化为一个词矩阵；

S3:基于差分进化算法，采用特征选择、实例选择和二者相结合的方式对缺陷报告进行数据约简；

S4:在数据约简的基础上，结合能体现开发人员参与度的bug产品信息，筛选近期处理过拥有相同产品信息的bug报告的开发人员，对缺陷报告进行再次分类；

S5:当有新的未被分类的缺陷报告提交时，使用结合开发人员参与度的数据约简策略为其分类，分配合适的开发人员处理缺陷报告。

进一步的，S1中具体采用如下方式：

S11：从缺陷报告系统中获取缺陷报告的故障文本信息、故障元信息和故障触发时间信息，将获取的信息定义为缺陷报告数据集。

S12：记录每个缺陷报告的文本信息和对应的开发人员，后续算法的验证集合测试集中使用对应开发人员和数据约简策略得到的预测开发人员对比，从而选择最优的数据约简策略。

进一步的，S2中具体采用如下方式：

S21：将缺陷报告数据集中的每个缺陷报告看作文本，每个缺陷报告包含多个不同的词段，每个词段代表的特征不同。针对不同数据集，选择最能体现其数据特征的两个词段，组合成缺陷报告的初始词矩阵，矩阵的行为缺陷报告实例，列为缺陷报告的特征词。

S22：用不同的方法对缺陷报告进行标准化处理，其中分词方法是将初始词矩阵的缺陷报告的两个词段转换成一组单词集合。

S23：去停词是指去掉在bug报告中出现频率较高但没有贡献、不利于缺陷报告分类的词语，这些词语在停词列表中给出，包括“the”、“in”等。

S24：词干化是指根据识别单词的前缀和后缀，把形式不同的词语转化成同一个最简单的基本形式(例如将“computerized”变成“computer”)。

S25：向量空间表示是在前面操作的基础上将一个缺陷报告转化成一个词向量，并且删除词频小于10的单词。

S26：经过处理的缺陷报告文本集合转化成一个多维向量空间，其中每个单词代表一个维度，一个缺陷报告是一个基于单词维度的向量，也是词矩阵的一个行向量，多个缺陷报告共同组成词矩阵。

进一步的，S3中具体采用如下方式：

S31：按照缺陷报告的ID顺序将缺陷报告分为训练集、验证集和测试集，首先将训练集和验证集结合找到最佳数据约简方案，再将训练集和验证集组合成新训练集进行训练；

S32：采用二进制编码方式表示特征组合和实例组合；

S33：采用差分进化算法对特征选择时的种群初始化。其中特征选择的方式是：首先将初始特征提取方案置为空，将训练集分别用四种特征选择算法对所有特征按重要程度从高到低排序，将排序后的属性集合加入到特征选择方案中；

其中实例选择的种群初始化方法是为实例选择方案中的每种方案的二进制串中的每一位置，随机生成一个[0,1]之间的随机数，如果该数大于等于0.5，则将该实例选择方案的对应二进制位置为1，否则将其置为0。随机生成10种实例选择初始方案；

特征选择和实例选择相结合的种群初始化方法是：按照DE_FS、DE_IS中初始种群的生成方式各生成10种初始方案；然后，将生成的属性与实例的二进制串按对应编号进行组合，得到初始种群中的10种提取方案。

S34：根据适应度函数计算初始种群个体的适应度值，记录最大数值和其对应的二进制编码；

S35：对于特征选择、实例选择、特征选择和实例选择相结合的三种数据约简方案，对当前父代种群选择一种变异方法进行变异操作并得到子代，变异方法主要包括三种，分别是差分变异、交叉变异和随机变异。

差分变异的主要过程为：对种群中的每种提取方案，首先随机产生一个[0,1]之间的变异概率Prv，定义动态变化的差分变异率为Pd，动态变化的结果根据迭代次数来判断，公式如下，

P_d＝de(1-index/totalGeneration)

其中de＝0.7，index是当前迭代次数，totalGeneration是迭代总次数，若Prv<Pd时，以该提取方案作为父代个体进行差分变异，生成一个子代个体，否则不对该提取方案进行差分变异。进行差分变异时，在对应提取方案的二进制串中随机选择Variation_Num个变异基因位(Lv)，差分变异规则定义如下，

其中Lv表示当前变异基因位，Lb表示最优个体对应基因位，Ln表示新生成个体对应基因位，Dr表示一个随机数，如果Lv与Lb不同，则Ln为1。如果Lv与Lb相同，则随机生成一个[0,1]之间的随机数Dr，如果Dr>＝0.5，则Ln为1，否则置为0。新生个体的其他基因位与当前所选父代个体完全相同。

交叉变异的主要过程：对种群中的每种提取方案，首先随机产生一个交叉概率Prc，定义动态变化的交叉变异率为Pc，公式如下，

P_c＝aberranceRate(index/totalGeneration)

其中aberranceRate＝0.08，index是当前迭代次数，totalGeneration是迭代总次数，若Prc<Pc时，进行交叉变异生成一个子代个体。交叉变异时，随机生成两个正整数P1,P2(P1<P2 and P1,P2∈[1,length])，然后把P1和P2之间的编码按其中点MID进行交叉操作，其中MID＝(P1+P2)/2。生成新个体其余基因位与父代个体完全相同。

随机变异的主要过程：对种群中的每种提取方案，首先随机产生一个变异概率Prv，定义随机变异率为Pr(同样是动态变化的)，公式如下，

P_r＝heredityDate(1-index/totalGeneration)

其中heredityDate＝0.8，index是当前迭代次数，totalGeneration是迭代总次数，若Prv<Pr时，该提取方案进行随机变异，否则不对该提取方案进行变异。变异时，在对应提取方案的二进制串中随机选择Variation_Num个变异基因位(Lv)，随机变异规则如下，

其中Lv表示当前变异基因位，Ln表示新生成个体对应基因位。如果该基因位上为0则将其变为1，如果该基因位上为1则将其变为0。

S36：将父代个体和新生成的子代个体共同汇总成一个数量大小为原种群大小两倍的新种群，之后个体按适应度数值从大到小进行排序，选择前一半个体进行保留，后一半个体淘汰，并更新最优的适应度和对应的二进制编码。

S37：不断迭代此过程直到达到迭代上限。

S4中具体采用如下方式：

S41：在每个开发人员处理的缺陷报告历史数据中找到最近N个缺陷报告的产品信息，开发人员做表头，用链表储存产品信息。

S42：记录当前正在被分派的缺陷报告的产品信息。

S43：在数据约简算法的基础上，使用朴素贝叶斯分类器选择当前正在被分派的缺陷报告最合适的前30个开发人员，用当前正在被分派的缺陷报告与前30个开发人员中每个开发人员处理过的产品信息链表逐个对比。如果在某个开发人员的产品信息储存链表中找到了相同的产品信息，则保留这个开发人员；反之，若没有找到，则丢弃这个开发人员，随后的开发人员顺次向前补位，完成依据开发人员近期参与度进行的筛选工作。

S44：在剩下的满足条件的开发人员中，选择前10个开发人员给出当前缺陷报告的最佳开发者列表。

进一步的，S5中具体采用如下方式：

S51：从缺陷报告追踪系统中获得新的未被分派的缺陷报告。

S52：对缺陷报告进行标准化处理，得到缺陷报告的词向量形式。

S53：使用差分进化算法训练得到的数据约简最优策略，对新的缺陷报告进行约简

S54：结合开发人员参与度，使用朴素贝叶斯分类器，为新的缺陷报告选择最优的前10个开发人员，完成缺陷报告的自动分派。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于高维数据混合约简的缺陷报告指派方法，其特征在于包括如下步骤：

S32：采用二进制编码方式表示特征组合和实例组合；

S33：采用差分进化算法对特征选择时的种群初始化；

S35：对于特征选择、实例选择、特征选择和实例选择相结合的三种数据约简方案，对当前父代种群选择一种变异方法进行变异操作并得到子代；

S36：将父代个体和新生成的子代个体共同汇总成一个数量大小为原种群大小两倍的新种群，之后个体按适应度数值从大到小进行排序，选择前一半个体进行保留，后一半个体淘汰，并更新最优的适应度和对应的二进制编码；

S37：不断迭代此过程直到达到迭代上限；

2.根据权利要求1所述的一种基于高维数据混合约简的缺陷报告指派方法，其特征还在于：其中特征选择的方式为在样本的特征空间上选择一部分特征对进行数据约简，实例选择方式为在原始样本中选择一部分样本进行数据约简，特征选择和实例选择相结合的方式为同时在特征空间和样本空间上选择样本进行数据约简。

3.根据权利要求1所述的一种基于高维数据混合约简的缺陷报告指派方法，其特征还在于：S4中具体采用如下方式：

S42：记录当前正在被分派的缺陷报告的产品信息；