CN111782548B

CN111782548B - 一种软件缺陷预测数据处理方法、装置及存储介质

Info

Publication number: CN111782548B
Application number: CN202010738033.1A
Authority: CN
Inventors: 燕雪峰; 张雨青
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2022-04-05
Anticipated expiration: 2040-07-28
Also published as: CN111782548A

Abstract

本发明公开了一种软件缺陷预测数据处理方法，该方法通过对缺陷样本的各特征建立独立的特征分布模型，并采用随机变异的方式对部分特征进行替换，从而获得新的缺陷样本，不断补充新样本直至非缺陷样本和缺陷样本比例达到平衡，得到处理后的软件缺陷预测数据集，用于后续模型训练。本发明还提供了基于上述方法的软件缺陷预测数据处理装置及机器存储介质，解决了现有技术中普遍存在的缺陷样本数目少于非缺陷样本数目造成的缺陷样本识别能力不足问题，有效提高软件缺陷预测的精度。

Description

一种软件缺陷预测数据处理方法、装置及存储介质

技术领域

本发明涉及一种补充数据集生成方法及装置，尤其涉及一种软件缺陷预测数据处理方法、装置及存储介质。

背景技术

软件缺陷预测可以帮助开发人员在软件产品进入测试阶段前，定位工程中具有缺陷倾向的模块，更加合理地分配有限的测试资源，提高软件产品的质量。在软件缺陷预测过程中，通常利用历史缺陷数据训练二元分类器将待预测的软件模块分为缺陷类和非缺陷类，以分类结果作为对该模块缺陷倾向的判断依据。然而，在软件缺陷预测数据集中，缺陷样本的数量往往远远少于非缺陷样本的数量，因此生成的模型往往会偏向于数目较多的非缺陷类，导致对于缺陷样本的识别能力不足。因此，在软件缺陷预测模型训练开始之前，有必要对数据集进行一定处理，使缺陷样本与非缺陷样本数目一致。

目前，针对此类问题，大多采用传统的基于样本插值的重采样方法生成新的缺陷样本从而使其数目与非缺陷样本数目一致，其中以SMOTE方法为代表，衍生了一系列邻近插值方法，其基本原理是在邻近的缺陷样本之间线性插值生成新样本。此类方法可以生成与原有样本高度相似的样本，最大限度地保留原始数据特征，但由于在线性插值时只考虑了局部样本信息，且特征之间相互限制(由于新样本只能存在于两个父样本之间的连线上，一旦一个特征确定，其他所有特征都无法改变)，生成的新样本与原有样本过于相似，因此处理后的数据集无法有效提高模型对于不同缺陷样本的识别能力。

发明内容

发明目的：本发明提出一种在维持数据原有特征分布基本不变的前提下合成覆盖范围更广的缺陷样本的方法，可应用于软件缺陷预测中。本发明的另一目的在于提供基于上述方法的装置和可读存储介质。

技术方案：本发明所述的软件缺陷预测数据处理方法，其特征在于，包括步骤：

(1)获取带标签的软件模块的历史缺陷数据集；

(2)计算所述历史缺陷数据集中非缺陷样本与缺陷样本的比例，若比例高于极度不平衡阈值，则随机删除部分非缺陷样本使比例降至阈值，否则直接进行下一步；

(3)计算需要合成的缺陷样本数目，使得合成后的缺陷样本数目与非缺陷样本数目一致；

(4)对缺陷样本中各特征分别建立独立的特征分布模型；

(5)根据所述特征分布模型的采样值，对原始缺陷样本中对应特征的值进行替换，合成新的缺陷样本；重复步骤(5)直至达到需要合成的缺陷样本数目；

(6)将新的缺陷样本与步骤(2)保留下的样本合并，得到处理后的软件缺陷数据集。

本发明在软件缺陷预测数据处理中的样本合成阶段，引入核密度估计为不同特征构建相互独立的特征分布模型，然后基于已有的少数类样本，将其随机选取的部分特征值变异为新的特征值，其余特征值保持不变来合成新样本。

所述步骤(4)通过对每个特征构建互相独立的模型，以避免特征之间的相互限制，扩大覆盖范围。进一步地，所述步骤(4)具体包括：

(41)计算缺陷样本中各特征的独立的概率密度函数，记作f_PDF1(x)，f_PDF2(x)，…,f_PDFm(x)，其中m为特征数，x表示待估算特征的取值；

(42)根据f_PDF1(x)，f_PDF2(x)，…,f_PDFm(x)计算各特征的累计分布函数f_CDF1(x)，f_CDF2(x)，…，f_CDFm(x)，将累计分布函数作为特征分布模型。

进一步地，所述步骤(41)采用核密度估计方法，计算每个特征的概率密度函数，如下公式：

其中，x表示待估算特征的取值，x_i表示第i个原始缺陷样本的对应特征值，

表示特征值为x时对应的概率密度估计值，n表示原始缺陷样本中对应特征的数目，K(·)表示放缩函数。

进一步地，所述放缩函数采用高斯分布函数，如下公式所示：

X＝x-x_i,i＝1,...,n

其中，x表示待估算特征的取值，x_i表示第i个原始缺陷样本的对应特征值，n表示原始缺陷样本中对应特征的数目。

进一步地，所述步骤(42)包括：利用微元法将各个特征的概率密度函数f_PDF1(x),f_PDF1(x),…,f_PDFm(x)转化为对应的累计分布函数f_CDF1(x)，f_CDF2(x)，…，f_CDFm(x)，具体转化公式为：

其中，x表示待估算特征的取值；x_min和x_max分别表示该特征在缺陷样本中的最小取值与最大取值；k表示区间[x_min,x_max]中(x_max-x_min)/Δt个微元的对应序号，Δt表示表示积分变量t对应的微元。

考虑到步骤(4)中建立的特征分布模型互相独立，因而可能造成的特征之间关系破坏过大样本不合理，故采用随机变异和继承的方式对原有样本的特征进行替换。

进一步地，所述步骤(5)包括：

(51)随机选择一个缺陷样本作为模板，然后产生一个0～0.5之间的随机数作为变异率vr，从m个特征中随机选取vr×m个特征作为待变异特征；

(52)对变异特征j，产生一个0到1之间均匀分布的随机数y，令f_CDPj(x)＝y，其中，则此时对应的x值即为变异特征j对应特征分布模型的一个采样点；

(53)重复步骤(51)-(52)，直至所有待变异特征值替换为对应特征分布函数的采样值，得到一个新的缺陷样本。

一种软件缺陷预测数据处理装置，包括：存储器、处理器及在所述存储器上存储并可运行的软件缺陷预测数据处理的程序，所述软件缺陷预测数据处理的程序被处理器执行时实现所述软件缺陷预测数据处理方法的部分或全部步骤。

一种机器可读存储介质，其上存储有软件缺陷预测数据处理的程序，所述软件缺陷预测数据处理的程序被处理器执行时实现所述软件缺陷预测数据处理方法的部分或全部步骤。

有益效果：本发明处理后得到的软件缺陷数据集不仅更加符合缺陷样本的整体分布特征，还能更好地覆盖边缘的缺陷特征空间。在软件缺陷预测模型训练开始之前，使用本发明公开的方法对数据集进行处理，能够有效提高软件缺陷预测模型对于缺陷样本的识别能力，从而提高整体预测精度，具有更好的应用价值。

附图说明

图1为本发明所述方法流程示意图；

图2为本发明所述方法中对特征概率分布函数采样示意图；

图3为本发明所述方法中新样本的组成示意图；

图4为传统插值类方法中新样本在特征空间中的覆盖范围示意图；

图5为本发明所述方法中新样本在特征空间中的覆盖范围示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

请参见图1，其示出了本发明所述的软件缺陷预测数据处理方法的流程图，该方法包括以下步骤：

步骤1，输入带标签的历史缺陷数据D，其中非缺陷样本有D_maj个，缺陷样本有D_min个。本实例中含有50个非缺陷样本与10个缺陷样本，每一个样本都含有共同的10个特征，以及一个用于表示有缺陷或无缺陷的标签。

步骤4，利用核密度估计方法对每一个特征建立独立的概率分布模型。概率分布模型以概率分布函数的形式表示。其中，所述特征为软件模块的一些固有属性，本实施例中使用特征均为数值类特征，如软件代码行数、注释行数、类的数目等。具体方法为：

首先，利用核密度估计方法计算各特征的概率密度函数，公式为：

表示特征值为x时对应的概率密度估计值，n表示原始缺陷样本中对应特征的数目，K(·)表示放缩函数，使用高斯分布函数作为K_h(·)，高斯分布函数公式为：

其中，x对应核密度估计公式中的x-x_i，表示正在估算概率密度的取值点与已有的缺陷样本取值点间的距离。

然后，利用微元法将各个特征的概率密度函数f_PDF(x)转化为累计分布函数f_CDF(x)，具体转化公式为：

其中，x表示待估算特征的取值；x_min和x_max分别表示该特征在缺陷样本中的最小取值与最大取值；k表示区间[x_min,x_max]中(x_max-x_min)/Δt个微元的对应序号，Δt表示表示积分变量t对应的微元。最终可以得到各个特征的分布模型f_CDF1，f_CDF2，…，f_CDF10，分别对应10个特征。

步骤5，将随机选取的原始缺陷样本中的部分特征值替换对应特征分布函数的采样值得到新的缺陷样本。具体方法为：

首先，从原始缺陷样本中随机选取样本a_i作为模板，该模板包含10个特征，随机抽取出部分待变异特征值，变异特征数不超过特征总数的1/2。

然后，从待变异特征对应的概率分布模型中采样得到变异后的特征值并替换模板中的特征值。假设第三个特征(下面记作特征3)的特征值待变异，利用(0,1)区间内的均匀分布生成一个随机数y₃，令f_CDF3(x)＝y₃，如图2所示，此时对应的x取值v₃则为变异后的特征3取值。

假设本实例中对于这一新样本，选择特征3，特征5和特征8作为待变异特征，则最终该新样本的组成如图3所示。

通过这种方式得到的新样本，由于各个特征的概率模型以及各自的变异过程都是相互独立的，所以特征之间不会相互限制，新样本在特征空间中覆盖范围得到了扩展。为了更直观地展示新样本的覆盖范围，这里以二维的特征空间为例进行说明。图4和图5分别对应了传统的插值类方法和本文提出方法中新样本在特征空间中的覆盖范围，其中两个坐标轴分别对应两个特征的取值，点表示已有的样本，虚线围成的部分表示新样本的覆盖范围。对于传统的插值类方法，新样本的覆盖范围局限在所有最外围样本直接连线构成的多边形范围内，而在本文提出的方法中，新样本的覆盖范围为最外围样本分别垂直两条坐标轴做切线所围成的矩阵，因此可以覆盖到一些在插值类方法中无法覆盖到的区域。

步骤6，不断重复S5合成新样本，达到S3中所需新样本数目，然后将新样本与S2保留下的原始样本合并，得到处理后的软件缺陷数据集并输出。得到的软件缺陷数据集可用于软件缺陷预测模型的机器学习训练，可提高整体预测精度。

以上未详细阐述部分属于本领域公知技术。

本发明还公开了一种软件缺陷预测数据处理装置，包括：存储器、处理器及在所述存储器上存储并可运行的软件缺陷预测数据处理的程序，所述软件缺陷预测数据处理的程序被处理器执行时实现所述软件缺陷预测数据处理方法的部分或全部步骤。

Claims

1.一种软件缺陷预测数据处理方法，其特征在于，包括步骤：

(1)获取带标签的软件模块的历史缺陷数据集；

(4)对缺陷样本中各特征分别建立独立的特征分布模型；

所述步骤(4)包括：

(42)根据f_PDF1(x)，f_PDF2(x)，…,fP_DFm(x)计算各特征的累计分布函数f_CDF1(x)，f_CDF2(x)，…，f_CDFm(x)，将累计分布函数作为特征分布模型；

所述步骤(42)包括：

利用微元法将各个特征的概率密度函数f_PDF1(x)，f_PDF2(x)，…,f_PDFm(x)转化为对应的累计分布函数f_CDF1(x)，f_CDF2(x)，…，f_CDFm(x)，转化公式为：

其中，x表示待估算特征的取值；x_min和x_max分别表示该特征在缺陷样本中的最小取值与最大取值；k表示区间[x_min,x_max]中(x_max-x_min)/Δt个微元的对应序号，Δt表示积分变量t对应的微元；

2.根据权利要求1所述的软件缺陷预测数据处理方法，其特征在于，所述步骤(41)采用核密度估计方法，计算每个特征的概率密度函数，如下公式：

3.根据权利要求2所述的软件缺陷预测数据处理方法，其特征在于，所述放缩函数采用高斯分布函数，如下公式所示：

X＝x-x_i,i＝1,...,n

4.根据权利要求1所述的软件缺陷预测数据处理方法，其特征在于，所述步骤(5)包括：

(52)对变异特征j，产生一个0到1之间均匀分布的随机数y，令f_CDFj(x)＝y,其中，x为变异特征j对应特征分布模型的采样点；

(53)重复步骤(51)-(52)，直至所有待变异特征值替换为对应特征分布模型的采样值，得到一个新的缺陷样本。

5.一种软件缺陷预测数据处理装置，其特征在于，该装置包括：存储器、处理器及在所述存储器上存储并可运行的软件缺陷预测数据处理的程序，所述软件缺陷预测数据处理的程序被处理器执行时实现如权利要求1至4中任一项所述软件缺陷预测数据处理方法的步骤。

6.一种机器可读存储介质，其特征在于，所述机器可读存储介质上存储有软件缺陷预测数据处理的程序，所述软件缺陷预测数据处理的程序被处理器执行时实现如权利要求1至4中任一项所述软件缺陷预测数据处理方法的步骤。