CN113157564B

CN113157564B - 一种基于特征分布对齐和邻域实例选择的跨项目缺陷预测方法

Info

Publication number: CN113157564B
Application number: CN202110285188.9A
Authority: CN
Inventors: 祝义; 赵宇
Original assignee: Jiangsu Normal University
Current assignee: Jiangsu Normal University
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2023-11-07
Anticipated expiration: 2041-03-17
Also published as: CN113157564A

Abstract

一种基于特征分布对齐和邻域实例选择的跨项目缺陷预测方法，具体包括以下步骤：从软件缺陷数据集中选择源项目，合并所有源项目构成源项目集，并选择一个目标项目；计算源项目集的协方差矩阵、目标项目的协方差矩阵；消除源项目集的特征间相关性，并将目标项目的特征相关性填充到至其中，输出特征对齐后的源项目集数据在中选择与目标项目中实例相似度较高的实例构成训练实例集T_S；使用训练实例集T_S训练Logistic模型，再用此对目标项目中的每个实例进行缺陷预测分类。本发明通过采用特征分布对齐方法和邻域实例选择方法实现模型所需的训练数据的选择，有效解决跨项目软件缺陷预测方法中项目之间以及实例之间的差异性，提高缺陷预测性能。

Description

一种基于特征分布对齐和邻域实例选择的跨项目缺陷预测方法

技术邻域

本发明涉及软件工程邻域，具体涉及一种基于特征分布对齐和邻域实例选择的跨项目缺陷预测方法。

背景技术

软件在很多应用邻域的重要性和依赖性日益增长，因此保障软件的可靠性越来越重要。预测软件项目中的缺陷对于软件开发过程至关重要，因为越晚发现软件中的错误，那么修复错误所需要的代价越大。软件缺陷预测的目的是帮助软件开发人员在项目开发早期发现和定位软件缺陷，从而合理分配软件测试资源以提升软件的可靠性。

软件缺陷预测方法是当前机器学习技术和软件测试邻域相结合的前沿研究。软件缺陷预测可以在软件产品发布之前预测出其存在缺陷的程序模块，以便合理地分配测试资源，提升软件质量。软件缺陷预测主要包括三个阶段：数据挖掘及处理、模型构建和模型应用。数据挖掘及处理是软件缺陷预测方法的最重要的阶段，也是保证软件缺陷预测模型性能的主要阶段。

当前绝大部分软件缺陷预测方法是基于同一项目的数据进行模型训练和预测，这种方法被称为项目内缺陷预测。但是如果需要预测的项目是一个新启动的软件项目，这种方法就不再可用。针对这种情况有研究人员提出了跨项目缺陷预测方法。

跨项目缺陷预测方法是基于源项目的已标记数据进行缺陷预测模型的训练，并在目标项目上进行缺陷预测。然而由于源项目和目标项目之间存在较大的数据分布差异性，因此在源项目上训练的模型在目标项目上未必能够取得良好的预测性能。因此如何减小项目之间的差异性，选择与目标项目中实例相似的源项目实例去构建缺陷预测模型是当前软件缺陷预测邻域的一个难点。

发明内容

本发明提供一种基于特征分布对齐和邻域实例选择的跨项目缺陷预测方法，通过采用特征分布对齐方法和邻域实例选择方法实现模型所需的训练数据的选择，有效解决跨项目软件缺陷预测方法中项目之间以及实例之间的差异性，提高缺陷预测性能。

为实现上述目的，本一种基于特征分布对齐和邻域实例选择的跨项目缺陷预测方法，具体包括以下步骤：

步骤1：从软件缺陷数据集中选择源项目和目标项目，合并所有源项目构成源项目集D_S，并选择一个目标项目D_T；

步骤2：计算源项目集D_S的协方差矩阵C_S，计算目标项目D_T的协方差矩阵C_T；

步骤3：消除源项目集D_S的特征间相关性，并将目标项目D_T的特征相关性填充到至其中，进行特征分布对齐，输出特征对齐后的源项目集数据

步骤4：在中选择与D_T中实例相似度较高的实例构成训练实例集T_S，进行邻域实例选择；

步骤5：使用训练实例集T_S训练Logistic模型；

步骤6：使用Logistic模型对目标项目D_T中的每个实例进行缺陷预测分类。

进一步的，步骤1中的源项目集D_S中的每个源目标均与目标项目D_T不属于同一项目的数据。

进一步的，所述步骤2中源项目集D_S的协方差矩阵C_S计算公式、目标项目D_T的协方差矩阵C_T分别为：

C_S＝COV(D_S)

C_T＝COV(D_T)

进一步的，所述步骤3中消除源项目集D_S的特征间相关性计算公式为：

进一步的，所述步骤3中将目标项目D_T的特征相关性填充到消除源项目集D_S的特征间相关性的数据计算公式为：

进一步的，所述步骤4中计算特征对齐后的源项目集数据D_S*中实例与目标项目D_T中实例之间的相似度：

其中和/>分别表示/>中第i个实例和目标项目D_T中第j个实例，/>和/>分别表示/>中第i个实例的第k个属性值和目标项目D_T中第j个实例的第k个属性值。

与现有技术相比，本一种基于特征分布对齐和邻域实例选择的跨项目缺陷预测方法，通过接收未标记的目标项目和多个已标记的源项目作为输入，特征分布对齐模块是将多个源项目与目标项目进行协方差对齐，之后邻域实例选择模块是在对齐后的源项目集中选择与目标项目相似的实例，最后训练模型模块接收选择的源项目实例作为训练数据进行模型训练并返回分类器，有效降低跨项目的训练数据和目标数据的分布差异，提高缺陷预测性能。

附图说明

图1是本发明跨项目缺陷预测方法的流程示意图；

图2是本发明中特征分布对齐方法实施例示意图；

图3是本发明中邻域实例选择方法实施例示意图；其中：箭头来源方为：特征对齐后的源项目集数据D_S*；箭头来源指向方为：目标项目D_T；

图4采用F-measure指标分析方法与Burak过滤法在实施例上的对比图；

图5采用AUC指标分析方法与Burak过滤法在实施例上的对比图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1所示，本发明基于特征分布对齐和邻域实例选择的跨项目缺陷预测方法，最初接收未标记的目标项目和多个已标记的源项目作为输入，特征分布对齐模块是将多个源项目与目标项目进行协方差对齐，之后邻域实例选择模块是在对齐后的源项目集中选择与目标项目相似的实例，最后训练模型模块接收选择的源项目实例作为训练数据进行模型训练并返回分类器，使用该模型在Promise数据集和ReLink数据集上进行缺陷预测，该方法有效降低跨项目的训练数据和目标数据的分布差异。

实施例

本发明在实际应用中的包括以下步骤：

步骤1：从软件缺陷数据集中选择源项目，合并所有源项目构成源项目集D_S，并从软件缺陷数据选择一个目标项目D_T；其中目标项目D_T和所选的源项目集D_S不存在同一个模块数据，即不是同一个项目不同版本的数据集；

步骤2：计算源项目集D_S的协方差矩阵C_S，计算目标项目D_T的协方差矩阵C_T，其采用计算公式相应为：

C_S＝COV(D_S)

C_T＝COV(D_T)

步骤3：如图2所示，进行特征分布对齐，具体为首先消除源项目集D_S的特征间相关性，计算公式为：

再将目标项目D_T的特征相关性填充到消除源项目集D_S的特征间相关性的数据中，然后输出特征对齐后的源项目集数据其计算公式为：

步骤4：如图3所示，进行邻域实例选择，具体为在中选择与目标项目D_T中实例相似度较高的实例构成训练实例集T_S，对于相似度选择，采用以下计算公式：

其中和/>分别表示/>中第i个实例和目标项目D_T中第j个实例。/>和/>分别表示源项目集/>中第i个实例的第k个属性值和目标项目D_T中第j个实例的第k个属性值。

步骤5：使用训练实例集T_S训练Logistic模型；

使用Logistic模型可在Promise数据集和ReLink数据集上进行缺陷预测，通过表1、表2实验数据集进行显示；

表1 ReLink实验数据集

表2 Promise实验数据集

Relink数据集可借助手工方式对数据集中的缺陷信息进行确认，使用Understand工具分析3个项目(Apache、Safe和ZXing)，从源代码中抽取出重要的软件特征指标。Relink数据集有26个复杂度特征，这些特征主要基于代码的复杂度和抽象语法树，总体可以分为两个大类：基于程序复杂度的特征和基于数量的特征。

Promise数据集来自10个不同开源项目(例如ivy-1.1、log4j-1.1、velocity-1.6等)的多个版本，每个项目中实例的特征包括20种不同的度量元和一个缺陷数量标记，这20种度量元均关注的是代码复杂度，其中包括CK度量元。这些度量元综合考虑了面向对象程序固有的封装、继承、多态等特性。由于实验关注的是缺陷的分类问题，即有缺陷和无缺陷问题，因此对于数据集中的缺陷数量标记，需要把项目中缺陷数量大于0的实例标记为有缺陷标签Y，缺陷数量为0的实例标记为无缺陷标签N。

方法使用过程：假设以表2中velocity-1.6作为目标项目D_T，首先将剩余的项目合并成一个源项目集D_S，并根据本方法得到特征分布对齐后的源项目数据集之后进行邻域实例选择，在/>和D_T中计算实例间相似度similarity。通过对目标项目D_T中每个实例与/>中实例的相似度similarity排序，取前5个对应的相似度较高的实例编号，得到训练实例集T_S，最后使用训练实例集T_S训练Logistic模型，并且使用训练好的Logistic模型对目标项目D_T中的每个实例进行缺陷预测分类。

方法性能分析：分别使用F-measure和AUC指标分析方法，对已有的经典实例过滤法--Burak过滤法在实施例上进行性能比较，并将实验结果作成图4和图5所示；其中横轴表示目标项目，ReLink数据集的三个项目为一组，Promise数据集的十个项目为一组，例如横轴为Apache表示以Apache为目标项目，以Safe和Zxing作为源数据集的跨项目缺陷预测实验，而横轴为ivy-1.1表示以ivy-1.1为目标项目，以剩余九个项目作为源数据集的跨项目缺陷预测实验，由于在实验中以ckjm项目作为目标项目的实例选择出现了选择的实例都是同一类的情况，所以将其验排除；纵轴为性能数值；

图4中圆圈点连成折线表示使用F-measure指标分析方法在各个数据集上相关指标的表现，正方形点连成折线表示经典的实例选择方法Burak过滤法各种指标的性能体现，水平直线表示使用F-measure指标分析方法在所有项目上性能平均值，水平虚线表示Burak过滤法在所有项目上的性能平均值。

图5中圆圈点连成折线表示使用AUC指标分析方法在各个数据集上相关指标的表现，正方形点连成折现表示经典的实例选择方法Burak过滤法各种指标的性能体现，水平直线表示使用AUC指标分析方法在所有项目上性能平均值，水平虚线表示Burak过滤法在所有项目上的性能平均值。

可以看出本方法与经典的实例选择方法Burak过滤法相比在F-measure和AUC上在各个项目上皆有优势，从图4、图5中中得出，采用本方法在F-measure和AUC在所有项目上性能平均值比传统Burak过滤法性能均值高出0.1左右。因此本基于特征分布对齐和邻域实例选择的跨项目缺陷预测方法，能够有效降低跨项目的训练数据和目标数据的分布差异，提高缺陷预测性能。

Claims

1.一种基于特征分布对齐和邻域实例选择的跨项目缺陷预测方法，其特征在于，具体包括以下步骤：

源项目集D_S的协方差矩阵C_S计算公式、目标项目D_T的协方差矩阵C_T分别为：

C_S＝COV(D_S)

C_T＝COV(D_T)

消除源项目集D_S的特征间相关性计算公式为：

将目标项目D_T的特征相关性填充到消除源项目集D_S的特征间相关性的数据计算公式为：

计算特征对齐后的源项目集数据中实例与目标项目D_T中实例之间的相似度：

其中和/>分别表示/>中第i个实例和目标项目D_T中第j个实例，/>和/>分别表示/>中第i个实例的第k个属性值和目标项目D_T中第j个实例的第k个属性值；

步骤5：使用训练实例集T_S训练Logistic模型；

2.根据权利要求1所述的一种基于特征分布对齐和邻域实例选择的跨项目缺陷预测方法，其特征在于，步骤1中的源项目集D_S中的每个源目标均与目标项目D_T不属于同一项目的数据。