CN112015631A

CN112015631A - 一种面向软件缺陷预测的不平衡数据生成方法

Info

Publication number: CN112015631A
Application number: CN201910453107.4A
Authority: CN
Inventors: 张星瑶; 李征
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2020-12-01

Abstract

本发明公开了一种面向软件缺陷预测的不平衡数据生成方法，属于软件测试领域。软件缺陷数据集存在严重的数据不平衡问题，对预测模型的性能产生负面影响。常用处理数据不平衡问题的方法通过调整样本的数量达到类间平衡，但新样本分布通常遵循原有分布，类内平衡没有改善。本发明考虑数据集样本分布情况，对原始数据集进行聚类划分，对划分后的子区域依据不同分布情况采用不同策略进行有缺陷样本数据生成，使数据集样本类间平衡且类内平衡。基于分布进行数据生成能有效改善数据不平衡，显著提高软件缺陷预测模型的准确度。

Description

一种面向软件缺陷预测的不平衡数据生成方法

技术领域

本发明是一种面向软件缺陷预测的不平衡数据生成方法，属于软件开发与测试领域。

背景技术

软件缺陷预测技术(software defect prediction)通过对软件历史数据进行分析，利用分类、排序等模型，识别有缺陷的软件模块。在实际的软件缺陷预测数据集中，有缺陷样本数量通常远小于无缺陷样本数量，即存在类间不平衡问题，此外，数据集内有缺陷样本分布常常不均匀，属于类内不平衡。类间不平衡和类内不平衡问题都会使得预测模型对有缺陷样本预测的性能下降。

现有处理数据不平衡问题的数据生成方法生成的新样本与原始分布相近，虽然通过增加有缺陷样本数量使类间平衡，但是没有解决类内不平衡问题。

发明内容

本发明的目的在于提出一种基于分布的软件缺陷预测方法，在考虑类间不平衡的同时考虑类内不平衡，为数量很少的有缺陷样本生成新样本，并使有缺陷样本内部均匀分布，进而使数据平衡，提高预测模型的性能。

为了减少数据不平衡对软件缺陷预测模型的影响，在模型构建的四个阶段都存在相应的方法对数据不平衡进行修正，包括数据采样、特征提取、分类器优化以及评价标准。其中数据采样是缺陷预测模型构建的初始阶段，在初始阶段对数据不平衡进行修正可直接减小后续阶段执行的复杂度。本发明在软件缺陷预测模型构建的初始阶段数据采样阶段引入新的数据不平衡处理方法，考虑原始数据集的样本分布，对数据集进行划分，对不同分布情况的有缺陷样本采用不同的数据生成策略，使数据集类间平衡的同时类内也平衡，进而提升预测模型对有缺陷样本的预测准确率。

本发明的核心是根据训练数据集内样本分布情况，对样本进行划分，再根据划分结果对不同分布情况的有缺陷样本采取不同的数据生成策略进行数据生成，得到新的训练集样本来生成缺陷预测模型。结合基于分布的数据生成方法的软件缺陷预测模型构建主要包括以下几个部分。

第一，提取原始训练数据集。软件缺陷预测首先要从已有数据集中抽取相关特征，通常是软件代码分析的相关度量，例如代码行数、Halstead 科学度量、McCabe 环路复杂度等，根据这些特征得到特征矩阵，构建出原始的训练数据集。

第二，基于原始样本分布进行数据生成。原始的训练数据集存在数据不平衡，所以需要人工生成有缺陷样本使数据集平衡。基于样本的分布情况，对原始训练集进行划分，对不同分布情况下的有缺陷样本采取不同的策略进行数据生成。新生成样本与原训练集样本共同组成新的训练数据集。

第三，构建软件缺陷预测模型。预测模型的构建可以选取合适的机器学习算法，如：SVM、KNN、C4.5和RF等。训练预测模型使用的训练数据集为第二步中经过数据生成后的新数据集，此时训练数据集内数据平衡。

第四，对测试程序进行预测。使用构建好的软件缺陷预测模型对待测程序进行预测，可得到测试程序是否可能含有缺陷的结果。

附图说明

图1为本发明方法的实验流程图。

具体实施方式

本发明是一种面向软件缺陷预测的不平衡数据生成方法，其目的是通过为不同分布情况的有缺陷样本采取不同策略进行数据生成，使数据集类间平衡和类内平衡，进而提升预测准确率。本发明的具体实施流程可以分为以下几个阶段：

第一阶段，分布情况讨论。对软件缺陷数据集在特征空间上的分布情况进行讨论，发现两类样本的分布情况通常有三种：有缺陷样本数大于无缺陷样本数、有缺陷样本数小于无缺陷样本数和有缺陷样本数远小于无缺陷样本数。

第二阶段，根据分布情况对划分样本。由于样本有多维特征，因此选取一种高效的高维划分算法：K-means算法对数据集进行划分。划分时选取簇数(对应于分区数)为3，在最优情况下即可对应于三种分布情况。为了使结果尽可能接近最优划分结果，在聚类划分时选取距离较远的初始聚类中心。

第三阶段，确定数据生成比例。在第二阶段得到三个根据分布情况划分的子簇，对每一个子簇内样本的分布进行讨论。如果子簇内有缺陷样本数大于无缺陷样本数，那么这一簇内生成的样本数较少；如果子簇内有缺陷样本数小于或远小于无缺陷样本数，那么这一粗内生成的样本数较多。选取每一簇内无缺陷样本数与有缺陷样本数的比作为数据生成比例。根据这一比例可以求得使数据集数量上平衡时，每一簇内需要生成的有缺陷样本数。

第四阶段，确定数据生方法。为了使每一簇内生成的有缺陷样本分布均匀，对不同分布情况的子簇需要采取不同的数据生成方法。对有缺陷样本较多的子簇，采用SMOTE（Synthetic Minority Oversampling Technique）方法进行数据生成，即选取区域内同类近邻样本，两两之间随机生成新样本；对有缺陷样本较少的子簇，采用圆域法进行数据生成，即随机选取一个有缺陷样本及其近邻有缺陷样本，以随机选取的样本为圆心，与其近邻样本间的距离为半径作圆，并在圆内生成新样本。

对各个子簇进行样本生成后，生成的新样本与原始样本组合形成新的训练样本集，使用新的训练样本集训练预测模型，并对测试程序进行预测。

Claims

1.一种面向软件缺陷预测的不平衡数据生成方法，其特征是对软件缺陷预测数据集进行数据生成，根据数据分布情况进行数据集划分，对不同分布情况采用不同的数据生成方法，使数据集类间和类内平衡，使用平衡后的数据集训练生成预测模型，提高预测模型对有缺陷样本的预测准确率。

2.根据权利要求1所述的面向软件缺陷预测的不平衡数据生成方法，构建基于分布的数据生成模型，结合K-means算法进行数据集划分，使用每一子簇内无缺陷样本数与有缺陷样本数的比作为数据生成比例，并在有缺陷样本较多区域采用SMOTE方法进行数据生成，有缺陷样本较少区域采用圆域法进行数据生成，其中原始训练数据集为算法的输入，新生成的训练数据集为算法的输出。

3.根据权利要求1和权利要求2所述的面向软件缺陷预测的不平衡数据生成方法和基于分布的数据生成模型，构建不平衡数据集下的软件缺陷预测模型，通过对原始数据集内样本进行基于分布的数据生成，得到新训练集，训练生成预测模型，对待测程序进行预测。