CN112199287B

CN112199287B - 基于强化混合专家模型的跨项目软件缺陷预测方法

Info

Publication number: CN112199287B
Application number: CN202011100263.1A
Authority: CN
Inventors: 潘丽敏; 尹培宇; 罗森林; 王殿元
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2022-03-29
Anticipated expiration: 2040-10-13
Also published as: CN112199287A

Abstract

本发明涉及一种基于强化混合专家模型的软件缺陷预测方法，属于计算机与信息科学技术领域。主要解决跨项目软件缺陷预测中混合专家模型未能学习跨项目软件的全局信息造成软件缺陷预测性能下降的问题。本发明首先全局训练随机森林，由森林中的树经过挑选与强化构成专家，然后经过改进的EM算法计算每个样本的后验概率并迭代执行专家模型的挑选与强化过程，最后根据迭代重构后的子簇训练门控网络，组合优化好的专家模型构成完整的强化混合专家模型，预测本项目待预测软件模块的缺陷。结果表明本发明能达到较好的分类效果，进一步提升了跨项目软件缺陷预测的准确率。

Description

基于强化混合专家模型的跨项目软件缺陷预测方法

技术领域

本发明涉及一种基于强化混合专家模型的跨项目软件缺陷预测方法，属于计算机与信息科学技术领域。

背景技术

软件缺陷是指软件产品中存在的，导致其无法满足软件需求和规格要求，需要进行修复的瑕疵、问题。软件缺陷是软件失效的源头和影响软件可靠性的重要因素，尽早地预测软件中存在的缺陷，以合理分配测试验证资源并保证软件质量在软件工程领域尤为重要。

目前已有很多高效的软件缺陷预测方法被提出，这些方法主要基于项目历史软件模块的度量特征，采用统计学和机器学习的技术构建软件缺陷预测模型，然后将待测软件模块的度量特征输入软件缺陷预测模型，从而得到该软件模块的缺陷预测结果。但是当待预测的软件项目没有充足的历史数据时，很难顺利进行预测，得到可靠结果。

这种情况下需通过引入其他已有软件项目的历史数据，协助进行跨项目软件缺陷预测。不同软件项目既会由于开发过程、编程规范及应用领域不同而存在数据差异性，也会因为采用相同的开发语言、相近的编码风格或相似的体系结构从而存在共性。这些共性能够作为模式和规律传递的桥梁，建立不同概率分布样本集之间的联系，因此从不同软件项目中提取全局的共性信息并分辨局部的特性信息是实现跨项目软件缺陷预测的关键。

混合专家模型常用来处理分布差异的数据，它可以通过门控函数将分布相近的项目软件数据划分到相同的簇中、分布差异的项目软件数据划分到不同的簇中，针对每个簇分别训练专家模型来共同执行软件缺陷预测任务。通过这个过程，混合专家模型能学习到不同项目软件的特性信息，将其应用于待测项目软件模块，从而实现了跨项目软件缺陷预测。

在进行跨项目软件缺陷预测时，混合专家模型虽然可以很好地学习不同项目软件的局部信息，但是未能学到所有项目软件的全局信息，因此不能很好地对局部数据尤其是不同分布交界处的数据进行分类，从而导致跨项目软件缺陷预测性能下降。所以本发明提出了一种基于强化混合专家模型的跨项目软件缺陷预测方法。

发明内容

本发明的目的是为了解决跨项目软件缺陷预测中，混合专家模型未能学习跨项目软件的全局信息造成软件缺陷预测性能下降的问题，提出了一种基于强化混合专家模型的跨项目软件缺陷预测方法。

本发明的设计原理为：首先全局训练随机森林，由森林中的树经过挑选与强化构成专家，然后经过改进的EM算法计算每个样本的后验概率并迭代执行专家模型的挑选与强化过程，最后根据迭代重构后的子簇训练门控网络，组合优化好的专家模型构成完整的强化混合专家模型，预测本项目待预测的软件模块缺陷。

本发明的技术方案是一种基于强化混合专家模型的跨项目软件缺陷预测方法，其特征在于，包括以下步骤：

步骤1，提取跨项目软件模块数据；

步骤1.1，抽取跨项目软件模块的历史数据；

步骤1.2，提取跨项目软件模块的度量特征；

步骤1.3，标注所有跨项目软件模块的缺陷属性；

步骤2，提取跨项目软件模块数据中的全局信息；

步骤2.1，对所有跨项目软件模块数据进行k均值聚类，将全局数据划分为多个子集；

步骤2.2，基于所有跨项目软件模块数据，全局训练随机森林；

步骤3，基于划分得到的不同簇，迭代执行预专家模型的分配和强化，提取跨项目软件模块数据中的局部信息；

步骤3.1，设置阈值，为聚类获得的每个子集分配预专家模型；

步骤3.2，使用每个子集中的局部数据优化预专家模型；

步骤3.3，根据预专家模型的分类性能对样本点重新分配；

步骤3.4，重复执行预专家模型的强化与重构过程，直到模型的性能最优；

步骤4，根据迭代重构后的子集划分结果训练门控网络，组合优化好的预专家模型构成完整的强化混合专家模型；

步骤5，用训练得到的强化混合专家模型预测本项目软件模块是否存在缺陷。

有益效果

相比国内外已有的跨项目软件缺陷预测方法，本发明基于强化混合专家模型进行训练，每个专家模型既能保留通过全局训练学到的不同项目的共性特征，又能通过各自所在的子簇进行局部强化，保留每个项目的局部特性，充分挖掘出跨项目软件历史模块和本项目历史模块中的全局信息和局部信息，提高了跨项目软件缺陷预测的性能。

附图说明

图1为本发明基于强化混合专家模型的跨项目软件缺陷预测方法的原理图。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合实例对本发明方法的实施方式做进一步详细说明。

具体流程为：

步骤1，抽取跨项目软件模块，提取度量特征和缺陷属性；

步骤1.1，从开源软件仓库和历史项目仓库中抽取跨项目软件模块数据作为样本，提取数据内容包括模块名称，模块源代码，代码更改信息，模块测试信息，开发人员数量，开发持续时间，模块缺陷信息；

步骤1.2，提取所有跨项目软件模块的度量特征；

对第i个样本软件模块，使用面向对象的C&K度量方法，提取软件模块的度量特征，分别为：类中方法的个数，类的继承层次，类的直接子类个数，类与其他类存在耦合关系的数量，类的响应集，内聚缺乏度，传入耦合，传出耦合，公共方法的数量，内聚的缺乏度，代码行数，一个类中私有的属性占所有属性的比例，类中的属性类型是类的定义的个数，一个类中继承的方法个数占所有方法个数的比率，每个方法不同参数类型总和除以类中不同参数的个数乘以总的方法个数，继承的方法与该类中新建的方法之间耦合的个数。提取得到共n个度量值(n＝16)，将这些度量值分别标记为x_i1,x_i2,...,x_in，构成样本软件模块的样本向量X_i＝{x_i1,x_i2,...,x_in}，所有的样本向量和缺陷标记一起构成软件缺陷数据集D{(X_i,Y_i)|i＝1,2,...,M}。

步骤1.3，根据缺陷信息对所有样本模块进行缺陷标记处理，对第i个样本软件模块(i＝1，2，...，M)，若存在缺陷，则缺陷标记Y_i＝1，若不存在缺陷，则缺陷标记Y_i＝0；

步骤2，提取跨项目软件模块数据中的全局信息；

步骤2.1，对所有跨项目软件模块数据进行k均值聚类，将全局数据划分为多个子集，分别记为D₁，D₂，D₃，...，D_K；

步骤2.2，基于所有跨项目软件模块数据，全局训练随机森林。

步骤3，基于样本簇的划分，迭代执行预专家模型的分配和强化，提取跨项目软件模块数据中的局部信息；

步骤3.1，设置阈值，为聚类获得的每个子集分配专家模型；

将训练好的随机森林在子集D₁上的准确率作为阈值θ。使用D₁作为测试集，计算森林中所有树模型的分类精确度。采用平均加权策略，将分类精度大于阈值θ的树模型组合成关于D₁的预专家模型，记为M₁。类似地，根据相同的策略为第2到第K个子集分配预专家模型，分别为M₂，M₃，…，M_k。

预专家模型M_j的评选标准如下：

其中θ_j是训练好的随机森林在子集D_j上的准确率，作为属于子集D_j的预专家模型的选择阈值。

步骤3.2，使用每个子集中的局部数据优化预专家模型；

在保留节点特征的前提下，使用子集D₁中的数据，优化为其所分配的预专家模型M₁，通过调整节点特征的顺序，重新计算重排特征下的切割分数，以确保在重排特征下，D₁上的数据得到最好的区分。类似地，根据相同的策略使用其他所有子集(D₂，D₃，…,D_K)，优化其所对应的的预专家模型(M₂，M₃，…,M_K)。

该优化过程对应于EM算法中的M-步骤，训练数据的期望对数似然函数定义为：

步骤3.3，针对任意样本i，计算其属于每个预专家模型的概率，分别记为η_i1，η_i2，…,η_iK。根据η值的大小，将样本重新分配到计算出的η值最大的预专家模型对应的子集中，其中η_ij的计算公式如下：

样本点重新分配的过程对应于EM算法中的E-步骤，其中z为隐变量，对应公式如下：

步骤3.4，重复执行步3.1到步骤3.3，直到步骤3.3中重新分配的样本数量不再减少。

给定输入x，将所有预专家模型的输出结果与门控网络进行线性组合，以获得最终结果y的表示如下：

这里假设子集数为H，使用硬选通策略，x属于子集D_k的后验概率公式如下：

步骤5，用训练得到的强化混合专家模型预测本项目软件模块是否存在缺陷；

步骤5.1，抽取本项目待预测软件模块与步骤1.3中相同的度量特征，构成待测软件模块的度量向量x＝{x₁，x₂，…，x_n}；

步骤5.2，将度量向量x输入到步骤4训练完成的强化混合专家模型中，得到该软件模块是否存在缺陷的预测结果。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于强化混合专家模型的跨项目软件缺陷预测方法，其特征在于，包括以下步骤：

步骤1，提取跨项目软件模块数据，首先抽取跨项目软件模块的历史数据，然后提取跨项目软件模块的度量特征，最后标注所有跨项目软件模块的缺陷属性；

步骤2，提取跨项目软件模块数据中的全局信息，首先对所有跨项目软件模块数据进行k均值聚类，将全局数据划分为多个子集，然后基于所有跨项目软件模块数据，全局训练随机森林；

步骤3，基于划分得到的不同簇，迭代执行预专家模型的分配和强化，提取跨项目软件模块数据中的局部信息，首先使用基于准确率作为阈值的分配方法为每个子集分配预专家模型，然后利用每个子集中的数据通过调整节点特征的顺序和重新计算重排特征下的切割分数优化其对应的预专家模型，然后针对任意样本，分别计算其属于每个预专家模型的概率η，根据所有η值的大小，将样本重新分配到计算出的η值最大的预专家模型对应的子集中，最后重复执行预专家模型的强化与重构过程，直到模型的性能最优；

步骤4，根据迭代重构后的子集划分结果训练门控网络，使用硬选通策略组合优化好的预专家模型构成完整的强化混合专家模型；

2.根据权利要求1所述的基于强化混合专家模型的跨项目软件缺陷预测方法，其特征在于：步骤3中基于准确率作为阈值的分配方法为：采用平均加权策略，将分类精度大于阈值θ_j的树模型组合成关于D_j的预专家模型，记为M_j，预专家模型M_j的评选标准如下：

3.根据权利要求1所述的基于强化混合专家模型的跨项目软件缺陷预测方法，其特征在于：步骤3中基于分类效果的分配方法为：针对任意样本，分别计算其属于每个预专家模型的概率η，根据所有η值的大小，将样本重新分配到计算出的η值最大的预专家模型对应的子集中，其中样本i属于预专家模型M_j的概率η_ij的计算公式如下：