CN114706751A

CN114706751A - 一种基于改进smote的软件缺陷预测方法

Info

Publication number: CN114706751A
Application number: CN202210221548.3A
Authority: CN
Inventors: 张丽
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing Kexun Ciyuan Information Technology Co ltd
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-07-05
Anticipated expiration: 2042-03-09
Also published as: CN114706751B

Abstract

本发明公开了一种基于改进SMOTE的软件缺陷预测方法，包括：将原始数据集分为训练集和测试集，利用特征选择算法从训练集中选取关键特征集；采用K‑means算法将少数类样本聚类为N个簇，并对簇内每个样本的关键特征权重和距离权重进行计算，得到合成样本数量；基于SMOTE算法合成少数类样本，直至满足设定条件，将合成结果与多数类样本合并，得到平衡数据集；利用AdaBoost算法对平衡数据集进行训练，构建分类器，通过分类器对测试集进行预测；本发明充分考虑到不平衡数据集中少数类样本关键特征和与簇心距离的特性，对经典SMOTE算法进行了改进，能更加准确地合成少数类样本，提高软件缺陷预测的准确性，降低了软件测试的成本。

Description

一种基于改进SMOTE的软件缺陷预测方法

技术领域

本发明涉及软件缺陷预测的技术领域，尤其涉及一种基于改进SMOTE的软件缺陷预测方法。

背景技术

软件缺陷预测根据软件开发过程中的历史度量元数据，利用机器学习的方法构造分类器，预测新开发的软件模块是否存在缺陷，并合理有效地分配测试资源，是软件工程领域的研究热点之一。但是，正类样本数量远小于负类样本，也即缺陷预测数据中存在类不平衡问题。在缺陷预测过程中，一般将存在缺陷的样本称为正类样本或者多数类样本，无缺陷样本称为负类样本或者少数类样本。类不平衡问题严重影响了分类器的性能，由于少数类样本的稀少，分类器无法获得足够的规则，难以保证少数类样本的分类正确性。

解决缺陷预测过程中的不平衡问题，已有研究方法大致分为两类：基于数据层面和基于算法层面。SMOTE是从数据层面解决类不平衡问题的过抽样算法，随机选取少数类样本的近邻样本合成新样本，并且每一个少数类样本合成数量相同，因此，筛选样本时存在一定的盲目性，可能会产生冗余数据。K-means聚类可以将训练集样本划分为多个簇，使得簇中样本相似度较高，簇间样本相似度较低。对聚类后训练集样本，在簇中合成新样本，可以使得新样本位置位于簇中，同时新样本与少数类样本尽量类似。基于聚类的思想可以解决SMOTE算法合成的新样本会位于边界的问题，但是没有解决每个少数类样本在合成样本时权重相同，合成数量相同的问题。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明提供了一种基于改进SMOTE的软件缺陷预测方法，在合成新样本时考虑每个样本的关键特征和与簇心的距离，有效地解决了传统过抽样技术中每个少数类样本合成样本数量相同的问题，进而使数据平衡，提高预测模型的性能。

为解决上述技术问题，本发明提供如下技术方案，包括：将原始数据集分为训练集和测试集，利用特征选择算法从训练集中选取关键特征集；采用K-means算法将少数类样本聚类为N个簇，并对簇内每个样本的关键特征权重和距离权重进行计算，得到合成样本数量；基于SMOTE算法合成少数类样本，直至满足设定条件，将合成结果与多数类样本合并，得到平衡数据集；利用AdaBoost算法对平衡数据集进行训练，构建分类器，通过分类器对测试集进行预测；其中，针对训练集中的样本，将有缺陷样本归为少数类样本，无缺陷样本归为多数类样本。

作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案，其中：包括：关键特征集的索引集合为indexes。

作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案，其中：计算关键特征权重，包括：根据簇内样本数量计算该簇的合成样本数量N_i：

计算样本x_j的每一个关键特征占簇内全部少数类样本的关键特征的比值之和sum_W_f：

根据所述比值之和sum_W_f计算关键特征权重W_f：

其中，j＝1,2,...|C_i|，Num为少数类样本合成总数目，其值为多数类样本与少数类样本的差值，|C_i|为第i个簇中的样本数目，|S_min|为少数类样本的总数目；x_jk为样本x_j的关键特征k对应值。

作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案，其中：距离权重，包括：通过样本x_j与簇心C_i的欧式距离D_ji计算样本x_j的距离权重W_d：

作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案，其中：包括：计算样本x_j的权重W：

W＝αW_f+βW_d

计算样本x_j合成数量，即合成样本数量

其中，α+β＝1，α，β分别为关键特征权重系数和距离权重系数。

作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案，其中：平衡数据集，包括：步骤1：计算样本x_j到簇中其他样本的欧式距离，得到其K个近邻样本；步骤2：从其K个近邻样本中随机选取样本x_i，利用下式生成新样本x_new：

x_new＝x_j+rand(0,1)*(x_i-x_j)

步骤3：重复步骤1和步骤2，直到合成样本数量为

停止合并，得到少数类数据集，与多数类样本合并后得到平衡样本集。

作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案，其中：构建分类器，包括：

假设训练样本集为S＝{(x₁,y₁),(x₂,y₂),...,(x_m,y_m)},y_n∈{-1,+1}，迭代次数为T，基分类器为h；

步骤1：初始化训练样本集权重：D₁(n)＝1/m，其中n＝1,2,...m，m为训练集中样本的数目；

步骤2：选择CART决策树作为弱分类器h_t，利用具有权重D_t的样本集训练弱分类器h_t，其中t＝1,2,...T，T为迭代次数；

步骤3：计算弱分类器h_t的分类误差ε_t：

步骤4：计算弱分类器的权重α_t：

步骤5：更新样本集权重D_t+1(n)：

步骤6：步骤2～步骤5重复T次，构建最终分类器H(x):

其中，

为归一化因子。

作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案，其中：包括：利用十折交叉验证法将原始数据集分为训练集和测试集。

本发明的有益效果：本发明充分考虑到不平衡数据集中少数类样本关键特征和与簇心距离的特性，对经典SMOTE算法进行了改进，能更加准确地合成少数类样本，提高软件缺陷预测的准确性，降低了软件测试的成本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一个实施例所述的基于改进SMOTE的软件缺陷预测方法的流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1，为本发明的第一个实施例，该实施例提供了一种基于改进SMOTE的软件缺陷预测方法，包括：

S1：将原始数据集分为训练集和测试集，利用特征选择算法从训练集中选取关键特征集。

利用十折交叉验证法将原始数据集分为训练集和测试集，进一步的，对训练集采用基于聚类分析的特征选择算法FECAR选取关键特征集，其索引集合为indexes。

S2：采用K-means算法将少数类样本聚类为N个簇，并对簇内每个样本的关键特征权重和距离权重进行计算，得到合成样本数量。

其中需要说明的是，针对训练集中的样本，将有缺陷样本归为少数类样本，无缺陷样本归为多数类样本。

(1)计算关键特征权重的步骤如下：

根据簇内样本数量计算该簇的合成样本数量N_i：

根据比值之和sum_W_f计算样本关键特征权重W_f：

(2)计算距离权重：

通过样本x_j与簇心C_i的欧式距离D_ji计算样本x_j的距离权重W_d：

(3)计算合成样本数量：

计算样本x_j的权重W：

W＝αW_f+βW_d

计算样本x_j合成数量，即合成样本数量

S3：基于SMOTE算法合成少数类样本，直至满足设定条件，将合成结果与多数类样本合并，得到平衡数据集。

步骤1：计算样本x_j到簇中其他样本的欧式距离，得到其K个近邻样本；

步骤2：从其K个近邻样本中随机选取样本x_i，利用下式生成新样本x_new：

x_new＝x_j+rand(0,1)*(x_i-x_j)

步骤3：重复步骤1和步骤2，直到合成样本数量为

停止合并，得到平衡数据集。

优选的，每个样本的生成样本数量取决于其关键特征和与簇心的距离，关键特征值越高，与簇心距离越近，则样本越具有代表性，其权重越高，生成数量也越多。

S4：利用AdaBoost算法对平衡数据集进行训练，构建分类器，通过分类器对测试集进行预测。

假设训练样本集为S＝{(x₁,y₁),(x₂,y₂),...,(x_m,y_m)},y_n∈{-1,+1}，迭代次数为T，基分类器为h；其中，(x_m,y_m)为第m个样本。

步骤3：计算弱分类器h_t的分类误差ε_t：

步骤4：计算弱分类器的权重α_t：

步骤5：更新样本集权重D_t+1(n)：

步骤6：步骤2～步骤5重复T次，构建最终分类器H(x):

其中，

为归一化因子。

实施例2

为了对本方法中采用的技术效果加以验证说明，本实施例选择不同方法(SMOTE、K-means SMOTE、ADASYN、Borderline-SMOTE)和采用本方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

对于本方法，需要说明的是，每次取9份作为训练集，1份作为测试集，针对训练集完成数据平衡，并构建分类器对测试集进行预测；此过程重复10次，最后取10次测试平均值作为分类器最终结果；关键特征权重系数α和距离权重系数β设为0.5。

选择NASA公开数据集进行实验验证，并与传统过抽样算法(SMOTE、K-meansSMOTE、ADASYN、Borderline-SMOTE)进行对比；分别使用本技术与4种算法实现数据集平衡，然后采用AdaBoost算法进行训练，构建分类器，并分别对测试集测试；选取数据集信息如表1所示；本实施例采用F1作为评价指标，指标的计算基于混淆矩阵，如表2所示；获得的实验结果如表3所示。

表1：数据集信息表。

数据集	样本数	少数类样本数	属性个数	不平衡率
					JM1	7720	1612	21	3.79
KC3	194	36	39	4.39
					MC1	1952	36	38	53.22
MW1	250	25	37	9.00
					PC1	679	55	37	11.35
PC4	1270	176	37	6.22

表2：分类结果混淆矩阵。

类别	预测正类	预测负类
			实际正类	TP	FN
实际负类	FP	TN

其中需要说明的是，

是查准率和召回率的调和平均数，查准率

召回率

表3：5种算法F1实验结果对比。

通过表3数据可以看出本方法的F1指标均优于其他过抽样算法，平均F1最高提高了2.45％，具有更好的分类效果，在软件缺陷预测中更有优势。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。