CN111723010B

CN111723010B - 一种基于稀疏代价矩阵的软件bug分类方法

Info

Publication number: CN111723010B
Application number: CN202010538383.3A
Authority: CN
Inventors: 李辉; 杨溪; 张天伦; 李阳; 陈荣; 李博
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2024-02-23
Anticipated expiration: 2040-06-12
Also published as: CN111723010A

Abstract

本发明公开了一种基于稀疏代价矩阵的软件BUG分类方法，包括以下步骤：S1：获取软件BUG报告；S2：对软件BUG报告数据进行编码操作，S3：初始化稀疏代价矩阵；S4：使用编码后的数据训练加权极限学习机、使其输出正确的报告分类结果；S5：使用训练好的加权极限学习机求出该加权极限学习机的局部泛化误差；S6：使用差分进化算法中的交叉变异策略产生新的软件BUG稀疏权重矩阵；S7：使用新的稀疏权重矩阵在相同不平衡数据集上训练新的加权极限学习机、S8：直至无法得到更低的局部泛化误差；S9：使用能够得到最低的局部泛化误差的加权极限学习机预测未知的软件BUG报告、得到其相应的报告分类结果。

Description

一种基于稀疏代价矩阵的软件BUG分类方法

技术领域

本发明涉及软件BUG分类、进化算法、机器学习以及局部泛化误差，尤其涉及用于软件BUG分类的一种基于稀疏代价矩阵的软件BUG分类方法。

背景技术

尽管软件BUG分类领域有许多的进步，但是当受到形式不平衡的复杂数据集的影响时，现有的工作将无法取得有利的表现。而不平衡数据问题在很多场景下非常常见。偏差的类别分布通常会导致分类学习无法获得少数类样本的特征。然而，包括大多数极限学习机工作在内的标准分类学习假定了两个假设，即平等的错误分类成本和平衡的类别分布，在实践中往往不成立。为了解决这个问题，已经针对不平衡数据提出了代价敏感和加权的极限学习机，在这些解决不平衡分类的极限学习机中，需要手动指定了不同分类错误的各种代价。值得注意的是，为不同的类样本设置合理的代价值至关重要，但是，经验法则并不适用于所有情况，在该领域中迫切需要一种估算这些代价的自适应方法。

发明内容

根据现有技术存在的问题，本发明公开了一种基于稀疏代价矩阵的软件BUG分类方法，包括以下步骤：

S1：获取软件BUG报告，并对报告进行分类操作(如：严重、不严重)，得到类别数C。

S2：对软件BUG报告数据进行编码操作，将每条软件BUG报告处理为一个相同长度的向量，将软件BUG报告的类别编码为one-hot格式。

S3：初始化稀疏代价矩阵，矩阵规模与软件BUG类别C有关。

S4：使用编码后的数据训练加权极限学习机，使其可以输出正确的报告分类结果，加权极限学习机中使用的权值为S3中获得的。

S5：使用S4中训练好的加权极限学习机求出该加权极限学习机的局部泛化误差。

S6：使用差分进化算法中的交叉变异策略产生新的软件BUG稀疏权重矩阵。

S7：使用S6中产生的新的稀疏权重矩阵在相同不平衡数据集上训练新的加权极限学习机，并计算加权极限学习机的局部泛化误差。

S8：重复S6-S7操作，直至无法得到更低的局部泛化误差。

S9：使用能够得到最低的局部泛化误差的加权极限学习机，预测未知的软件BUG报告，得到其相应的报告分类结果。

进一步的，S1中具体采用如下方式：

S11：从Stack Overflow等软件BUG报告网站，收集一定量的数据，主要保存其BUG描述，并将其分为C类(在这里C＝2，表示严重与不严重)。

S2中具体采用如下方式：

S21：对软件BUG报告进行编码操作，即，将不同长度的软件BUG报告使用相同的长度的编码结果表示。在这里我们使用Sentence2vector方法得到编码后的BUG报告，其形式为一个相同长度的向量。在这里我们假设编码后的软件BUG报告数据可以被表示为D＝{d₁,d₂,…,d_N}，其中d_i是一个长度确定的向量。

进一步的，S3中具体采用如下方式：

S31：在我们的方法中我们使用稀疏的代价矩阵，传统的代价矩阵对每个训练样例对每个分类都有一个具体的代价值，即，如果BUG分类数据集中含有C个分类，那么其代价矩阵的规模为：C×C。而我们提出的稀疏代价矩阵，对于每个BUG类别只需要一个代价值，其代价矩阵中为一个对角矩阵，其代价矩阵规模实际为C×1。在这里，我们将稀疏矩阵中的所有权重设为1。

S4中具体采用如下方式：

S41：与其他分类学习类似，相同的错误分类成本是极限学习机持有的基本假设。因此，在存在严重的类别分布偏斜的情况下，原始极限学习机的性能趋于受限，无法得到正确的BUG分类结果。对于软件BUG分类的复杂不平衡数据，加权极限学习机可以达到更好的效果。加权极限学习机的基础是使用一个代价矩阵对不同类的软件BUG报告进行加权，从而使最终的分类器不会受到数据不平衡的影响。如S3中所说，在我们的方法中我们使用稀疏代价矩阵对极限学习机进行加权，该稀疏代价矩阵为对角矩阵，设该代价矩阵为W，其对角线上的每一个值cost_i,i＝1,…,C，且W_ii＝0,i≠j,i,j＝1,…,C。

原极限学习机的优化目标为：

其中公式中的第一项为l₂正则项，H为极限学习机中的隐层输出矩阵，β为隐层与输出层之间的连接权重，Y为数据集标签。

极限学习机加入代价矩阵后，其优化目标为：

加权极限学习机输出层权重矩阵β其解为：

S42：求出输出层权重矩阵后，就可以通过该矩阵与隐层输出矩阵H得到分类结果/>在训练集中，/>理想情况下，在测试集中，该分类器依旧可以得到正确的分类结果。但是，由于数据中类别分布不平衡的干扰，该分类器预测准确率可能很低。

进一步的，S5中具体采用如下方式：

S51：局部泛化误差可以找到BUG报告分类的误差上限，是量化分类模型的泛化能力的有效方法。局部泛化误差可以被定义为：

给定Q＞0和任意一个扰动向量Δx，使代表训练数据x_i的Q近邻，表示除了x_i之外不可见的所有样例。S_Q表示所有S_Q(x_i)的集合。p(x)表示真实的概率密度函数Loss(F(x；θ),f(x))表示求得分布与真实分布之间的差距。

局部泛化误差可以表示为：

以通过随机灵敏度测量来测量，即，A,B,η分别表示目标输出的最大最小值之间的差，损失函数可能的最大值，以及约束的可信度。

此时有

局部泛化误差为：

基于S4中加权极限学习机的定义有：

最终结果即为在该加权极限学习机上的局部泛化误差，该值表示在所有未知的BUG报告上该分类器的误差有多大，即，该值越大，该分类器的分类结果越不准确。

进一步的，S6中具体采用如下方式：

S61：随机初始化多个稀疏代价矩阵，每个稀疏代价矩阵包含与BUG类别个数相同的代价权重；

S62：从初始化后的稀疏代价矩阵中随机选取三个不同的代价矩阵，分别为：cost¹,cost²,cost³；

S63：使用选取的三个代价矩阵做突变操作产生一个新的代价矩阵：

h＝cost¹+P_m·(cost²-cost³)

其中P_m表示突变因子，新产生的代价矩阵为h。

S64：对新产生的代价矩阵做交叉操作，与上一代中相应的个体实现基因遗传：

其中i表示当前个体中的第几位，C表示所有类的个数，P_c表示交叉因子。cost表示上一代中与该新产生的个体相对应的个体。此时就得到了该次进化得到的稀疏权重矩阵。

S7中具体采用如下方式。

S71：使用新产生的稀疏代价矩阵v训练一个新的加权极限学习机，该过程如果S4相同，并如S5中计算其相应的局部泛化误差。

S72：根据局部泛化误差的定义，Q相同时，局部泛化误差越小表示该模型的泛化能力越强，也就是说在BUG分类问题得到的分类结果更加准确。比较新产生的稀疏代价矩阵与上一代相对应的代价矩阵的局部泛化误差，保留较小的那一个。

S8中具体采用如下方式：

S81:重复进行S7-S8操作，直至无法产生新的能取得更小局部泛化误差的代价矩阵。此时该矩阵可以得到最低的局部泛化误差，即，使用该稀疏代价矩阵的分类器完成训练后，可以达到最高的准确率。

S9中具体采用如下方式：

S91:使用S8中得到的最终稀疏代价矩阵，完成加权极限学习机的训练，使用该分类器对输入的软件BUG报告进行预测，输出最终的分类结果(在这里，即判断该软件报告中的BUG是否属于严重BUG)。

由于采用了上述技术方案，本发明提供的一种基于稀疏代价矩阵的软件BUG分类方法，该方法能够解决在数据不平衡的情况下数据分布对分类器的影响问题，并且整个过程不需要人为干扰。稀疏代价矩阵则可以解决大规模权重的存储问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的流程图。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图1所示的一种基于稀疏代价矩阵的软件BUG分类方法，具体包括如下步骤：

S3：初始化稀疏代价矩阵，矩阵规模与软件BUG类别C有关。

S8：重复S6-S7操作，直至无法得到更低的局部泛化误差。

S1中具体采用如下方式：

S11：从stackoverflow等软件BUG报告网站，收集一定量的数据，主要保存其BUG描述，并将其分为C类(在这里C＝2，表示严重与不严重)。

进一步的，S2中具体采用如下方式：

进一步的，S3中具体采用如下方式：

进一步的，S4中具体采用如下方式：

原极限学习机的优化目标为：

极限学习机加入代价矩阵后，其优化目标为：

加权极限学习机输出层权重矩阵β其解为：

进一步的，S5中具体采用如下方式：

给定Q＞0和任意一个扰动向量Δx，使代表训练数据x_i的Q近邻，表示除了x_i之外不可见的所有样例。S_Q表示所有S_Q(x_i)的集合。p(x)表示真实的概率密度函数，Loss(F(x；θ),f(x))表示求得分布与真实分布之间的差距。

局部泛化误差可以表示为：

其中输入扰动引起的输出波动可以通过随机灵敏度测量来测量，即，/>A,B,η分别表示目标输出的最大最小值之间的差，损失函数可能的最大值，以及约束的可信度。

此时有

局部泛化误差为：

基于S4中加权极限学习机的定义有：

S6中具体采用如下方式。

h＝cost¹+P_m·(cost²-cost³)

其中P_m表示突变因子，新产生的代价矩阵为h。

进一步的，S7中具体采用如下方式。

进一步的，S8中具体采用如下方式：

进一步的，S9中具体采用如下方式。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于稀疏代价矩阵的软件BUG分类方法，其特征在于包括：包括以下步骤：

S1：获取软件BUG报告、对BUG报告进行分类得到类别数C；

S2：对软件BUG报告数据进行编码操作，将每条软件BUG报告处理为相同长度的向量，将软件BUG报告的类别编码为one-hot格式；

S3：初始化稀疏代价矩阵，其中矩阵规模与软件BUG类别C有关；

S4：使用编码后的数据训练加权极限学习机、使其输出正确的报告分类结果；

S5：使用训练好的加权极限学习机求出该加权极限学习机的局部泛化误差；

S6：使用差分进化算法中的交叉变异策略产生新的软件BUG稀疏权重矩阵；

S7：使用新的稀疏权重矩阵在相同不平衡数据集上训练新的加权极限学习机、并计算加权极限学习机的局部泛化误差；

S8：重复S6-S7操作直至无法得到更低的局部泛化误差；

S9：使用能够得到最低的局部泛化误差的加权极限学习机预测未知的软件BUG报告、得到其相应的报告分类结果；

S5中具体采用如下方式：

S51：将局部泛化误差定义为：

给定Q＞0和任意一个扰动向量Δx，使代表训练数据x_i的Q近邻，表示除了x_i之外不可见的所有样例，S_Q表示所有S_Q(x_i)的集合，p(x)表示真实的概率密度函数，Loss(F(x；θ),f(x))表示求得分布与真实分布之间的差距；

局部泛化误差表示为：

其中输入扰动引起的输出波动通过随机灵敏度测量，即/>A,B,η分别表示目标输出的最大最小值之间的差、损失函数的最大值、以及约束的可信度；

此时有

局部泛化误差为：

基于S4中加权极限学习机的定义有：

最终结果即为在该加权极限学习机上的局部泛化误差，该值表示在所有未知的BUG报告上分类器的误差有多大，即该值越大则该分类器的分类结果越不准确。

2.根据权利要求1所述的方法，其特征还在于：S4中具体采用如下方式：

使用稀疏代价矩阵对极限学习机进行加权，该稀疏代价矩阵为对角矩阵，设该代价矩阵为W，其对角线上的每一个值cost_i,i＝1,…,C，且W_ii＝0,i≠j,i,j＝1,…,C，

原极限学习机的优化目标为：

其中公式中的第一项为l₂正则项，H为极限学习机中的隐层输出矩阵，β为隐层与输出层之间的连接权重，Y为数据集标签；

极限学习机加入代价矩阵后，其优化目标为：

加权极限学习机输出层权重矩阵β其解为：

求出输出层权重矩阵后通过该矩阵与隐层输出矩阵H得到分类结果/>在训练集中

3.根据权利要求1所述的用于软件BUG分类的基于稀疏代价矩阵的进化极限学习机，其特征还在于：S6中具体采用如下方式：

h＝cost¹+P_m·(cost²-cost³)

其中P_m表示突变因子，新产生的代价矩阵为h；

S64：对新产生的代价矩阵做交叉操作、与上一代中相应的个体实现基因遗传：

其中i表示当前个体中的第几位，C表示所有类的个数，P_c表示交叉因子，cost表示上一代中与该新产生的个体相对应的个体，此时获得该次进化得到的稀疏权重矩阵。