CN111367801A

CN111367801A - 一种面向跨公司软件缺陷预测的数据变换方法

Info

Publication number: CN111367801A
Application number: CN202010132562.7A
Authority: CN
Inventors: 王兴起; 赵静茹; 邵艳利
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-02-29
Filing date: 2020-02-29
Publication date: 2020-07-03
Anticipated expiration: 2040-02-29

Abstract

本发明涉及一种面向跨公司软件缺陷预测的数据变换方法。本发明首先使用聚类算法提取源项目和目标项目的代表属性，并将代表属性进行一对一属性匹配得到其之间的属性匹配对，使用该匹配对对源项目和目标项目的原始数据进行转化，使用欧式距离作为度量相似的方式，筛选与目标项目样本相似的源项目样本，将筛选出的源项目样本的频次作为训练缺陷预测模型的源项目样本权重。最后使用处理后的源项目样本构建模型预测目标项目中样本的缺陷情况。本发明解决了传统软件缺陷预测方法中源项目与目标项目属性不统一以及属性利用不充分的问题，同时将源项目与目标项目间的异构问题近似的转化为同构问题，对以后的异构缺陷预测研究具有可参考性。

Description

一种面向跨公司软件缺陷预测的数据变换方法

技术领域

本发明涉及一种软件缺陷预测方法，具体涉及一种面向跨公司软件缺陷预测的数据变换方法。

背景技术

软件缺陷预测的一般首先分析软件代码或开发过程，设计与软件缺陷信息相关的度量元，首先统计部分软件代码或开发过程中的数据集及该段代码的缺陷信息作为标签构建缺陷预测模型，以预测其他软件代码模块的软件缺陷信息，最终根据缺陷预测信息优化测试资源分配，达到提高软件产品质量的目的。传统软件缺陷预测旨在利用本项目的历史缺陷数据构造缺陷预测模型预测新项目中的缺陷，这样能够在系统开发初期，及时准确地预测软件模块是否包含缺陷，合理分配测试资源，针对性的对缺陷模块进行分析提高产品质量，进而提高软件项目的可靠性和可维护性。但是由于同项目中历史数据及标签信息的缺乏，同项目缺陷预测缺乏广泛性和通用性。因此很多学者开始研究跨项目缺陷预测和跨公司缺陷预测，以便于充分使用原有历史项目缺陷数据集预测目标项目的缺陷标签信息。

跨项目缺陷预测一般是指在源项目和目标项目的度量元个数和意义均相同的条件下，使用足够的源项目数据构建缺陷预测模型，来预测目标项目中样本数据集的缺陷信息。虽然构建模型和使用模型的数据分别来自数据分布不同的两个项目，可能会一定程度上降低缺陷预测模型的准确率，但是可以通过变换数据分布提高项目间的相似程度以提高缺陷预测的准确率。然而，在很多情况下源项目和目标项目间的度量元个数和意义往往是不同的，即出现了异构问题，跨项目缺陷预测将不再适用。实际上，异构问题普遍存在跨公司缺陷预测中。针对某一个跨公司目标项目，往往没有或者很少有与目标项目有完全一致的度量元的源项目数据集，且源项目与目标项目之间的样本差异性很大，进而难以利用现有项目历史缺陷数据集构建有效的预测模型实现目标项目缺陷的准确预测。

跨公司缺陷预测旨在解决度量元不同、数据集规模不同、样本分布不同的不同公司项目间的缺陷精确预测问题。国内外的研究学者针对跨公司缺陷预测做了大量的相关研究工作，代表算法有NNFilter、TNB、HDP、FMT等，上述算法通过提取源项目和目标项目公有的度量元或者选取特定比例的度量元减小了源项目数据与目标项目数据分布差异，达到了比较好的预测效果。

然而上述算法仍存在一定的局限性，比如NNFilter、TNB只提取了源项目和目标项目的共有属性，对于源项目和目标项目没有共有属性或共有属性很少时不具备通用性。而HDP、FMT属性匹配前只挑选出部分度量元训练模型，可能会忽略掉与构建缺陷模型强相关的属性，进而舍弃掉目标项目中与缺陷预测强相关的属性。

发明内容

本发明旨在使用该技术解决软件缺陷预测中不同公司的项目间度量元不同、数据分布不同引起的数据差异的问题，通过改变源项目与目标项目的数据分布减小源项目与目标项目之间的数据差异，达到能使用历史源项目数据集及时发现目标项目样本中的缺陷信息，达到降低测试成本，提高测试效率的目的。

本发明提出的数据变换方法不局限于共有度量元，且综合考虑项目的原有属性，根据度量元自身数据分布提取度量元的主成分方向作为代表属性，从而解决了仅使用部分属性可能引起的忽略掉与构建缺陷模型强相关的属性。同时本发明提出的数据变换因其变换之后将异构问题近似的转化为了缺陷预测同构问题，在解决异构缺陷预测问题上具有广泛的参考价值和通用性。

本发明方法具体包括以下步骤：

步骤1、归一化源项目和目标项目数据，并分别提取每个度量元的多粒度属性特征向量，具体操作如下：

首先对于源项目和目标项目中的每一个属性列中的每一个数据执行x'＝(x-X_min)/(X_max-X_min)进行数据归一化处理，同时将归一化后的属性列将其按照归一化后的数值从小到大排序后等分成5份，分别提取每一份中的属性特征向量，再将其组合成一个25维的多粒度属性特征向量作为原始属性的代表向量，x'表示归一化后的数值，x表示原始数据，X_min表示该属性列中的最小值，X_max表示该属性列中的最大值。

步骤2、分别对源项目和目标项目的多粒度属性特征向量进行聚类，并分别对每个簇进行代表属性提取，具体操作如下：

对于源项目s的m个属性，将相关距离作为属性间聚类的评价指标，使用K-means聚类方法，将源项目的m个属性分为K个簇，K<m，使得簇内的属性集具有强相关性，但是与其他簇的属性间相关性不大。使用PCA分别对每个簇提取主成分作为该属性类的代表向量参与属性匹配操作。为了保证属性匹配操作的顺利进行，对上述属性的去冗余操作中，将源项目属性和目标项目属性聚类簇数设为相同，以方便下一步的属性一对一匹配操作。

步骤3、对代表属性进行一对一属性匹配，并对归一化后的源项目数据和目标项目数据按照聚类序号和匹配顺序重新排列，具体操作如下：

源项目和目标项目的属性特征向量数据列分别为K，建立一个K*K阶矩阵H，其中H_i,j为源项目的第i个代表属性与目标项目的第j个代表属性的相关度量，遍历矩阵H依次选取矩阵中最小的数值的横纵坐标作为源项目属性特征向量和目标项目属性特征的匹配对，直至选出K个匹配对，匹配完成。接着对归一化后的源项目和目标项目数据按照聚类时的属性选择和匹配对进行数据重新分布，使源项目和目标项目数据分布尽可能地一致。

步骤4、筛性与目标项目相似的源项目数据，并统计筛选的源项目频次，按照频次对源项目样本进行权重设置；

具体步骤如下：

对于目标项目中的每一个样本实例，使用欧式距离找到源项目中与该样本最相似的前N个源项目样本作为它的待选样本。对于一个目标项目样本个数为n的数据集来说，会选出n*N个源项目样本与之对应，在n*N个样本中，会有一部分样本会被重复选择多次，而被重复挑选多次的样本更大程度上表示与源项目样本更为相似，应加大其在训练预测模型时的权重，因此对于被目标项目挑选出来的n*N个源项目样本，分别统计其被选中的频次，将该频次作为该样本构造预测模型时的权重信息。使用设置权重的源项目样本训练缺陷预测模型，预测目标项目样本的缺陷情况。

本发明的有益结果：

1、该技术提出了一种基于聚类的属性匹配算法解决了度量元不一致的问题。首先对源项目和目标项目进行了多粒度的属性特征向量的提取，以统一源项目和目标项目的属性维度，同时从降低属性冗余的角度对多粒度属性特征向量进行聚类操作，分别提取同簇中的代表属性后开始对源项目和目标项目进行属性匹配操作，该方法不仅将数据集的属性进行合理提取和划分，同时对源项目和目标项目的数据集规模并无限制要求。

2、该技术提出了一种基于样本筛选的权重设置算法解决了源项目和目标项目数据分布不一致问题。首先计算源项目样本与目标项目样本的欧式距离，筛选出与目标项目样本相似的源项目样本，并统计筛选出来的源项目样本频次，通过增加高频次的源项目样本在构建模型时的样本权重提高源项目与目标项目数据分布的相似性，进而提高缺陷预测模型的准确率。

3、该技术将跨公司异构软件缺陷预测问题近似的转化为同构的处理方式，对解决其他领域中的异构情况具有一定的参考价值。

附图说明

图1为基于跨公司缺陷预测的数据变换方法的整体流程

图2为源项目和目标项目的数据集介绍

图3为源项目与目标项目的度量元介绍

图4为基于聚类的属性匹配具体流程

图5为基于样本筛选的权重设置具体流程

具体实施方式

下面根据附图结合NASA缺陷预测数据集和PROMISE缺陷预测数据集对本发明进行详细说明。本发明整体流程如附图图1所示，具体步骤如下：

步骤1、归一化源项目和目标项目数据，并分别提取每个度量元的多粒度属性特征向量。

步骤2、对多粒度属性特征向量聚类，并分别对每个类进行代表属性提取。

步骤3、对代表属性进行一对一属性匹配，并对归一化后的源项目数据和目标项目数据按照聚类序号和匹配顺序重新排列。

步骤4、筛选与目标项目样本相似的源项目样本，并根据筛选出的源项目样本频次对源项目样本进行样本权重设置。

进一步，在步骤1中，对NASA和PROMISE中的数据进行归一化处理，其中NASA和PROMISE中的数据的名称、度量元个数、不平衡率如附图图2所示，NASA和PROMISE的度量元信息如附图图3所示。对于源项目中的每一个属性列中的每一个数据，执行x'＝(x-X_min)/(X_max-X_min)进行数据归一化处理，同时为了解决源项目与目标项目维数不同无法计算属性相似度的问题，对源项目和目标项目属性进行属性聚类和属性匹配操作，如附图图4所示。若要计算源项目与目标项目集属性之间的相似度，首先定义多粒度属性特征向量。属性特征向量一般由5个元素组成，分别为数据集中某一属性中的最小值、最大值、平均值、中位值、标准差。即对于源项目或者目标项目中的某一个属性来说，提取该属性列的属性特征向量作为该属性的代表向量进行下一步的属性相似计算。但是由于源项目和目标项目的数据集较大，一个有5个元素的属性特征向量不足以代表整个属性，因此该技术使用改进后的多粒度属性特征向量作为源属性的代表向量。将源项目属性列将其按照归一化后的数值从小到大排序后等分成5份，分别提取每一份中的属性特征向量，再将其组合成一个25维的多粒度属性特征向量作为原始属性的代表向量，对目标项目属性同样执行此操作，则原始的m*1维的源项目属性列和l*1维的目标属性列均变换成了25*1维的列向量，可直接计算其相关系数，作为评价计算属性间的相似度的度量。

进一步，在步骤2中，由于属性之间存在的属性冗余问题，即一个属性与另外一个属性具有强相关性，属性间的强相关性不仅会造成训练模型时间的延长，还会对模型分类的置信度产生影响，因此在属性匹配前需要对属性进行去冗余操作，更大程度的降低属性间的冗余程度，提高模型的精确度。对于源项目s的m个属性，将相关距离作为属性间聚类的评价指标，使用K-means聚类方法，将源项目的m个属性分为K个簇，K<m且K<l，使得簇内的属性集具有强相关性，但是与其他簇的属性间相关性不大。使用PCA分别对每个簇提取主成分作为该属性类的代表向量参与属性匹配操作。为了保证属性匹配操作的顺利进行，对上述属性的去冗余操作中，将源项目属性和目标项目属性聚类簇数设为K簇，以方便下一步的属性一对一匹配操作。

进一步，在步骤3中属性匹配操作采用一对一匹配模式。即对于源项目中的每一个属性，分别计算该属性与目标项目的K个代表属性之间的相关距离作为属性间相似度的度量标准。源项目属性与目标项目属性之间的相关性可以使用一个K*K维的矩阵H来表示，其中H_ij表示源项目第i个属性与目标项目第j个属性之间的相关度量，遍历矩阵H依次选取矩阵中最小的数值的横纵坐标作为源项目属性特征向量和目标项目属性特征的匹配对，直至选出K个匹配对，匹配完成。接着对归一化后的源项目和目标项目数据按照聚类时的属性选择和匹配对进行数据重新分布，使源项目和目标项目数据分布尽可能地一致。

进一步，在步骤4中，虽然已经统一了源项目和目标项目之间的属性个数，并尽量将属性匹配，使其特征分布尽量相同。但是由于源项目样本与目标项目样本的不同，会导致使用源项目样本构造出来的模型在一定程度上会降低跨项目缺陷预测的准确率，因此步骤4要筛选出与目标项目相似的源项目样本，进一步提高源项目与目标项目之间的数据相似性，如附图图5所示。对于目标项目中的每一个实例，使用欧式距离找到源项目中与他最相似的前N个源项目样本作为它的待选样本。对于一个目标项目样本个数为n的数据集来说，会选出n*N个待选源项目样本与之对应，在n*N个样本中，会有一部分样本会被重复选择多次，而被重复挑选多次的样本更大程度上表示与源项目样本更为相似，应加大其在训练预测模型时的权重，因此对于被挑选出来的n*N个样本，分别统计其被选中的频次，将该频次作为该样本构造预测模型时的权重信息。使用设置权重的源项目样本训练缺陷预测模型，预测目标项目样本的缺陷情况。

Claims

1.一种面向跨公司软件缺陷预测的数据变换方法，其特征在于包含如下步骤：

步骤1、归一化源项目和目标项目数据，并分别提取每个度量元的多粒度属性特征向量；

步骤2、分别对源项目和目标项目的多粒度属性特征向量进行聚类，并分别对每个簇进行代表属性提取；

步骤3、对代表属性进行一对一属性匹配，并对归一化后的源项目数据和目标项目数据按照聚类序号和匹配顺序重新排列；

步骤4、筛性与目标项目相似的源项目数据，并统计筛选的源项目频次，按照频次对源项目样本进行权重设置。

2.根据权利要求1所述的面向跨公司软件缺陷预测的数据变换方法，其特征在于步骤1所述的归一化数据并提取属性特征向量的具体实施如下：

3.根据权利要求1所述的面向跨公司软件缺陷预测的数据变换方法，其特征在于步骤2所述的对多粒度属性特征向量聚类并进行代表属性提取，具体实施如下：

对于源项目s的m个属性，将相关距离作为属性间聚类的评价指标，使用K-means聚类方法，将源项目的m个属性分为K个簇，K<m，使得簇内的属性集具有强相关性，但是与其他簇的属性间相关性不大；使用PCA分别对每个簇提取主成分作为该属性类的代表向量参与属性匹配操作；为了保证属性匹配操作的顺利进行，对上述属性的去冗余操作中，将源项目属性和目标项目属性聚类簇数设为相同，以方便下一步的属性一对一匹配操作。

4.根据权利要求1所述的面向跨公司软件缺陷预测的数据变换方法，其特征在于步骤3所述的代表属性的匹配及对归一化后的源项目数据和目标项目数据进行数据变换，具体如下：

属性匹配操作采用一对一匹配模式；即对于源项目中的每一个属性，分别计算该属性与目标项目的K个代表属性之间的相关距离作为属性间相似度的度量标准；源项目属性与目标项目属性之间的相关性使用一个K*K维的矩阵H来表示，其中H_ij表示源项目第i个属性与目标项目第j个属性之间的相关度量，遍历矩阵H依次选取矩阵中最小的数值的横纵坐标作为源项目属性特征向量和目标项目属性特征的匹配对，直至选出K个匹配对，匹配完成；接着对归一化后的源项目和目标项目数据按照聚类时的属性选择和匹配对进行数据重新分布，使源项目和目标项目数据分布尽可能地一致。

5.根据权利要求1所述的面向跨公司软件缺陷预测的数据变换方法，其特征在于，步骤4所述的源项目样本权重设置具体过程如下：

对于目标项目中的每一个样本实例，使用欧式距离找到源项目中与该样本最相似的前N个源项目样本作为它的待选样本；对于一个目标项目样本个数为n的数据集来说，会选出n*N个源项目样本与之对应，在n*N个样本中，会有一部分样本会被重复选择多次，而被重复挑选多次的样本更大程度上表示与源项目样本更为相似，应加大其在训练预测模型时的权重，因此对于被目标项目挑选出来的n*N个源项目样本，分别统计其被选中的频次，将该频次作为该样本构造预测模型时的权重信息；使用设置权重的源项目样本训练缺陷预测模型，预测目标项目样本的缺陷情况。