CN114756461A

CN114756461A - 基于隔离森林的跨项目缺陷预测样本过滤方法及预测方法

Info

Publication number: CN114756461A
Application number: CN202210393192.1A
Authority: CN
Inventors: 崔灿; 王世海; 刘斌; 路云峰
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-07-15

Abstract

本发明公开了一种基于隔离森林的跨项目缺陷预测样本过滤方法及预测方法，包括：提取跨项目软件的缺陷数据集作为源项目数据集并进行数据预处理；采用SMOTE将预处理后的数据平衡化获得平衡数据并划分为正样本数据和负样本数据；构建加权隔离森林并进行样本过滤；将所述过滤后的源数据集输入机器学习算法分类器对所述分类器进行训练，获得缺陷预测模型并将被测软件的目标数据集输入所述缺陷预测模型，获得所述目标数据集的预测结果并采用分类任务的性能评价指标对被测软件进行性能评估；本发明解决了目前样本过滤方法中强依赖于目标项目、效率低、预测模型性能差的问题，并且实现对软件预测模型的数据选择指导，进而缩短软件开发的周期，节约成本。

Description

基于隔离森林的跨项目缺陷预测样本过滤方法及预测方法

技术领域

本发明涉及软件缺陷预测技术领域，更具体的说是涉及一种基于隔离森林的跨项目缺陷预测样本过滤方法及预测方法。

背景技术

近年来，软件缺陷预测已经在软件工程中成为一个活跃的领域。当被测软件没有历史版本或软件历史数据量过少时，采用和被测软件度量元名称和数量一致的其他软件的历史知识(“源数据”)对被测软件(“目标数据”)缺陷情况进行预测，称为“同构跨项目缺陷预测”。预先了解软件的质量状况可以为软件工程相关人员提供一定的指导，使其合理地分配资源，节约成本，提高软件测试效率。

跨项目缺陷预测的数据样本主要来源于其他项目，因此，对被测软件而言，存在一部分噪声数据，而且，跨项目数据样本有严重的数据不平衡性，即缺陷数据远远少于非缺陷数据。数据样本中存在的噪声和数据不平衡这两个特点都会降低构建的软件跨项目缺陷预测模型的性能，从而导致预测被测软件缺陷不准确。因此，如何对数据进行过滤和筛选是提高跨项目缺陷预测模型性能的关键。

目前，已经有很多学者提出了不同的同构跨项目数据处理方法，主要可以分为基于样本选择、基于维度转换和改进算法的三类方法。

基于样本选择的方法有7种：基于k近邻的样本过滤法(Burak Filter，简称BF)、迁移朴素贝叶斯法(Transfer

Bayes，简称TNB)、基于k近邻的混合样本选择方法(Hybrid Instance Selection Using Nearest-Neighbor，HISNN)、基于凝聚聚类的数据过滤方法(data filter by agglomerative clustering，DFAC)、基于选择的层次过滤器(thehierarchical selection-based filter，简称HSBF)、成本感知的监督跨项目缺陷预测(effort-aware supervised cross-project defect prediction，简称EASC)和基于协同过滤的源项目选择(collaborative filtering based source projects selection,简称CFPS)；基于维度转换的方法有2种：迁移主成分分析扩展方法(transfer componentanalysis extension，简称TCA+)和基于双边缘去噪自动编码器的联合特征表示方法(joint feature representation with double marginalized denoisingautoencoders,简称DMDA-JFR)；基于改进算法的方法主要有3种：朴素领头羊方法(

Bellwether，简称BNaive)、迁移主成分分析扩展领头羊方法(Bellwether TCA+，简称BTCA+)和加权朴素贝叶斯领头羊方法(Bellwether TNB，简称BTNB)。

但是，以上方法大部分是通过样本选择(噪声移除)考虑源项目数据和目标数据的样本之间的相似性或通过特征空间变换来缩小源项目数据和目标数据之间的分布差异。但这些方法都是强依赖于目标数据集的。并且，当源项目数据量很大时，样本选择或特征变换的时间成本很高，如BF、HISNN的计算复杂度为指数级，这就导致构建缺陷预测模型效率较低。并且除DMDA-JFR和领头羊方法外，大部分方法没有利用缺陷标签数据，而这一信息在缺陷预测的模糊边界时很重要，可以提升模型的性能。而模型性能、成本和效率在软件工程师最为在意的。

因此，如何提供一种简单、易用、不依赖于目标项目且效率高的跨项目缺陷预测样本过滤方法及预测方法，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于隔离森林的跨项目缺陷预测样本过滤方法及预测方法，旨在解决软件同构跨项目缺陷预测中数据存在噪声、过度依赖目标数据集且构建模型效率低的问题，能够在删除噪声样本和利用缺陷标签数据的同时，提高软件缺陷预测模型的性能和构建模型的效率。

为了实现上述目的，本发明采用如下技术方案：

一种基于隔离森林的跨项目缺陷预测样本过滤方法，包括：

S1.提取同构跨项目软件的数据集作为源项目数据集；

S2.将所述源项目数据集进行平衡化获得平衡数据；

S3.将所述平衡数据划分为正样本数据和负样本数据，所述正样本数据为有缺陷的数据，所述负样本为无缺陷的数据；

S4.分别对所述正样本数据和所述负样本数据构建隔离森林；

S5.对所述隔离森林进行加权处理并进行样本过滤：计算每个样本数据在隔离树上的加权路径长度，根据所述加权路径长度计算每个样本数据在加权隔离森林的平均加权路径长度，根据所述平均加权路径长度计算每个样本数据的异常值，根据预设的异常比例移除加权隔离森林的异常样本并将剩余的正样本数据和负样本数据合成，获得过滤后的源数据集。

优选的，S2中对所述源项目数据平衡化前还包括对所述源项目数据集进行数据预处理，所述数据预处理的具体内容包括：

S21.将所述源项目数据集的数值类型的缺陷标签信息二元化：当缺陷标签大于等于1时，标记为1，表示有缺陷，当缺陷标签为0时，保持不变，表示无缺陷；

S22.选取所述源项目数据集作为源数据样本；

S23.剔除重复样本：当所述源数据样本中存在完全一样的样本时，只保留一个样本；

S24.数据标准化：采用Z-Score标准化技术将去重的源数据样本和目标度量元变为均值为0，方差为1的数据。

优选的，S3中所述将所述平衡数据划分为正样本数据和负样本数据是根据所述缺陷标签信息进行。

优选的，S4的具体内容包括：

S41.分别从所述正样本数据和所述负样本数据中随机选择m个样本作为训练数据集

每个样本由特征F组成，所述隔离森林由t棵隔离树组成，iForest＝{iTree₁,iTree₂,...,iTree_t}，从X中无替换随机抽样选出子样本X'，X'的大小为φ，隔离树的限制高度为h_lim，h_lim＝ceiling(log₂φ)；

S42.初始化iTree：构建一个根节点，所述根节点包含所有的子样本X'；

S43.随机选择所有特征中的一个特征f，f∈F，并随机选择一个划分点p，所述划分点介于选取特征的最值之间，f_min≤p≤f_max；

S44.将输入样本

在当前根节点的特征f的取值与选取的划分点比较，将根节点划分为两个子节点，即：如果f＜p，则样本放在左子节点上，如果f≥p，则样本放在右子节点上；

S45.重复S42-S44直到所有的样本被孤立，所述孤立的条件是：(a)X'只包含一个样本，或者所有的样本具有相同的特征值；(b)iTree达到了限制高度。

优选的，S5的具体内容包括：

S51.计算所述正样本和所述负样本在隔离树iTree上的加权路径长度h_w(x)：

其中，每层节点的加权边计算为：

其中，φ₁是当前节点真实样本的数量，φ₂为当前节点人工合成样本的数量；

h_w(x)为每个样本x在iTree上从根节点到一个外部节点遍历终止时遍历的加权边的数量，即遍历WiTree的总加权边的数量：

其中，当h≤h_lim时，h为WiTree的总高度，当h＞h_lim时，令h＝h_lim，c(φ)为调和参数；

其中，H(i)是谐波数，可以估计为ln(i)+0.5772156649(欧拉常量)；

S52.计算所述正样本和所述负样本的平均加权路径长度E(h_w(x))，即样本在所有WiTree上的平均加权边的数量：

其中，t为WiForest中包含的WiTree的数量；

S53.计算所述正样本和所述负样本标准化后的异常分数s(x)，并判断样本是否异常；

其中，E(h_w(x))取值范围为[0,1]；

S54.设置数据集中的异常比例为α，那么样本集中异常分数为前

的样本为异常样本，其中

表示取整，将正样本构成的森林和负样本构成的森林分别移除异常分数在前α比例的样本，剩余的正样本和负样本合成，构成过滤后的源数据集。

一种基于隔离森林的跨项目缺陷预测方法，基于所述的一种基于隔离森林的跨项目缺陷预测样本过滤方法，包括：

步骤一、随机选取预设比例的同构跨项目软件的源项目数据集作为源数据集进行样本过滤，获得过滤后的源数据集；

步骤二、采用机器学习算法作为分类器，将所述过滤后的源数据集输入所述分类器对所述分类器进行训练，获得缺陷预测模型；

步骤三、将被测软件的目标数据集输入所述缺陷预测模型，获得所述目标数据集的预测结果；

步骤四、根据所述预测结果，采用分类任务的性能评价指标对被测软件进行性能评估。

优选的，步骤三中将被测软件的目标数据输入所述缺陷预测模型前，采用Z-score对所述目标数据集进行数据标准化。

优选的，将步骤一到步骤四重复进行n次，n大于1。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于隔离森林的跨项目缺陷预测样本过滤方法及预测方法，针对软件缺陷预测中的分类任务，以简单、易用的隔离森林方法(iForest)为基础，通过改进隔离森林，过滤源数据集，提升软件缺陷预测中的源项目数据的质量，解决了目前样本过滤方法中强依赖于目标项目、效率低、预测模型性能差的问题，并且实现对软件预测模型的数据选择指导，进而缩短软件开发的周期，节约成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的跨项目缺陷预测方法流程图；

图2附图为本发明实施例提供的36个开源Java项目数据的统计状况；

图3附图为本发明实施例提供的以RF作为分类器，WIFLF方法和基线方法的SkewedF-Measure对比结果；

图4附图为本发明实施例提供的以RF作为分类器，WIFLF方法和基线方法的G-Measure结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于隔离森林的跨项目缺陷预测样本过滤方法，包括：

S1.提取同构跨项目软件的数据集作为源项目数据集；

S2.将源项目数据集进行平衡化获得平衡数据；

S3.将平衡数据划分为正样本数据和负样本数据，正样本数据为有缺陷的数据，负样本为无缺陷的数据；

S4.分别对正样本数据和负样本数据构建隔离森林；

为了进一步实施上述技术方案，S2中对源项目数据平衡化前还包括对源项目数据集进行数据预处理，数据预处理的具体内容包括：

S21.将源项目数据集的数值类型的缺陷标签信息二元化：当缺陷标签大于等于1时，标记为1，表示有缺陷，当缺陷标签为0时，保持不变，表示无缺陷；

S22.选取源项目数据集作为源数据样本；

S23.剔除重复样本：当源数据样本中存在完全一样的样本时，只保留一个样本；

在本实施中，采用SMOTE算法将源项目数据集进行平衡化获得平衡数据。

在本实施例中，采用SMOTE算法将源数据中不平衡的数据增加为平衡的数据，比如源数据中正样本为20个，负样本为15个，通过SMOTE方法，增加负样本为20个。

为了进一步实施上述技术方案，S3中将平衡数据划分为正样本数据和负样本数据是根据缺陷标签信息进行。

为了进一步实施上述技术方案，S4的具体内容包括：

S41.分别从正样本数据和负样本数据中随机选择m个样本作为训练数据集

每个样本由特征F组成，隔离森林由t棵隔离树组成，iForest＝{iTree₁,iTree₂,...,iTree_t}，从X中无替换随机抽样选出子样本X'，X'的大小为φ，隔离树的限制高度为h_lim，h_lim＝ceiling(log₂φ)；

S42.初始化iTree：构建一个根节点，根节点包含所有的子样本X'；

S43.随机选择所有特征中的一个特征f，f∈F，并随机选择一个划分点p，划分点介于选取特征的最值之间，f_min≤p≤f_max；

S44.将输入样本

S45.重复S42-S44直到所有的样本被孤立，孤立的条件是：(a)X'只包含一个样本，或者所有的样本具有相同的特征值；(b)iTree达到了限制高度。

为了进一步实施上述技术方案，S5的具体内容包括：

S51.计算正样本和负样本在隔离树iTree上的加权路径长度h_w(x)：

其中，每层节点的加权边计算为：

其中，φ₁是当前节点真实样本的数量，φ₂为当前节点人工合成样本的数量；真实样本指的是源数据中本来就有的数据，人工合成样本指的是经SMOTE方法后添加的数据。

其中，H(i)是谐波数，可以估计为ln(i)+0.5772156649(欧拉常量)；

S52.计算正样本和负样本的平均加权路径长度E(h_w(x))，即样本在所有WiTree上的平均加权边的数量：

其中，t为WiForest中包含的WiTree的数量；

S53.计算正样本和负样本标准化后的异常分数s(x)，并判断样本是否异常；

其中，E(h_w(x))取值范围为[0,1]；

的样本为异常样本，其中

在本实施例中，异常比例α≤0.5。

传统的隔离森林是将所有的数据构建一个森林，在本实施例中，加权隔离森林在构建加权隔离森林之前，首先根据缺陷标签将源数据分成两组，再构建隔离森林；构建隔离森林完成后评估样本正常异常是根据真实样本和人工合成样本的比例对路径长度进行加权，降低人工合成样本对评估结果的影响，避免评估对所有样本同等对待。

一种基于隔离森林的跨项目缺陷预测方法，基于一种基于隔离森林的跨项目缺陷预测样本过滤方法，包括：

步骤二、采用机器学习算法作为分类器，将过滤后的源数据集输入分类器对分类器进行训练，获得缺陷预测模型；

步骤三、将被测软件的目标数据集输入缺陷预测模型，获得目标数据集的预测结果；

步骤四、根据预测结果，采用分类任务的性能评价指标对被测软件进行性能评估。

为了进一步实施上述技术方案，步骤三中将被测软件的目标数据输入缺陷预测模型前，采用Z-score对目标数据集进行数据标准化。

为了进一步实施上述技术方案，将步骤一到步骤四重复进行n次，n大于1。

在实际应用中，n大于等于30。

在本实施例中，选取90％的源项目数据集作为源数据样本，步骤一到步骤四重复进行30次。

在本实施例中，如图2，采用来源于三个开源的JAVA缺陷数据库进行样本过滤和缺陷预测，分别为PROMISE(JURECZKO M,MADEYSKI L.Towards identifying softwareproject clusters with regard to defect prediction；proceedings of theProceedings of the 6th International Conference on Predictive Models inSoftware Engineering,F,2010[C].)、AEEEM(D'AMBROS M,LANZA M,ROBBES R.Anextensive comparison of bug prediction approaches；proceedings of theProceedings of MSR 2010(7th IEEE Working Conference on Mining SoftwareRepositories),Cape Town,South africa,F,2010[C].IEEE Computer Society.)和ReLink(WU R,ZHANG H,KIM S,et al.ReLink:recovering links between bugs andchanges；proceedings of the Proceedings of the 19th ACM SIGSOFT symposium andthe 13th European conference on Foundations of software engineering,Szeged,Hungary,F,2011[C].ACM:2025120.)。从中选择36个软件项目的缺陷数据集作为源项目数据，分为4组，每个样本代表一个软件类模块，因此，所有的数据集的颗粒度为类级class-level，并且，样本中的度量元为自变量，类标签为因变量，这些缺陷数据集的具体统计信息包括，项目名称和版本、度量元数量、缺陷数量和缺陷率，并将其中的数值型类标签转换为二元类型，即将数据集中的最后一列缺陷数据标签中缺陷数量为0的设置为0(无缺陷)，缺陷数量大于等于1的设置为1(有缺陷)，缺陷数据集的缺陷率是指数据集中有缺陷样本的数目与总的样本数目的比值。

在本实施例中，为了和本发明提出的方法(简称为WIFLF)进行比较，选择了12种对比方法，分别为：BF、HISNN、TNB、DFAC、HSBF、CFPS、EASC、

Bellwether(BNaive)、Bellwether+TNB(BTNB)、TCA+、Bellwether+TCA+(BTCA+)和DMDA_JFR，使用了常见的机器学习算法随机森林(RF)，实验采用数据处理软件Python进行，各个算法均采用默认参数，为了避免算法的随机性带来的影响，每个数据集执行30次，实验结果采用均值。

采用常用的分类模型性能评价指标skewed F-Measure和G-Measure进行评价，分类模型中，将真正的正类的预测结果为正类的称为真正例(TP)，将真正的正类的预测结果为负类的称为假正例(FP)，将真正的负类的预测结果为负类的称为真负例(TN)，将真正的负类的预测结果为正类的称为假负例(FN)。

精确度

表示预测为正例中真正为正例的占比，精确度的取值范围为[0,1]，取值越大，表示模型预测的精确度越高；

召回率

表示真正为正例中预测为正例的占比，召回率的取值范围为[0,1]，取值越大，表示模型预测的召回率越高；

虚警率

取值范围为[0,1]，PF值越小，表示模型越好。

skewed F-Measure的计算方法如下，采用β＝2，用于非平衡数据构建的模型性能评估：

G-Measure是PD和(1-PF)的调和平均数，取值范围为[0,1]，值越大表示模型越好：

为了评估本发明的方法和对比方法在统计学上是否有显著差异，本文分别采用Wilcoxon Signed-Rank test(WILCOXON F.Individual Comparisons by RankingMethods[J].Biometrics,1945,1(6).)来评估WIFLF方法与基线方法的性能；如果两组样本的检验结果的p值小于0.05，则表示本发明的方法和几线方法在95％的置信度上显著不同；同时，在一个数据集上，如果WIFLF显著优于某种方法，记一次“Win”，如果显著劣于某个方法，记一次“Loss”，否则，记一次“Tie”，“W\T\L”表示的是本发明方法和对比方法的显著优劣情况。

部分代表性的结果如图3和图4所示，其中图中的数值除“W\T\L”外，均省略了％；

从图2-图4及分析可以看出本发明提出的一种基于隔离森林的用于同构跨项目缺陷预测的样本过滤方法在这36个项目的随机版本上大部分都取得了很好的效果：

从图3可以看到，WIFLF获得的skewed F-Measure均值为50.54％，与其他方法相比最低提升14.64％。并且，从“W\T\L”的结果上也可以看出，WIFLF是在95％的置信度下是显著优于基线方法的，因为WIFLF与基线中表现最好的方法BNaive相比，在36个数据集上有25个胜出；

从图4可以看到，WIFLF得到的G-Measure均值为63.32％，与其他方法相比最低提升了4.90％。并且，从“W\T\L”的结果上也可以看出，WIFLF是在95％的置信度下是显著优于基线方法的，因为WIFLF与基线中表现最好的方法BNaive相比，在36个数据集上有17个胜出。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。