CN114706751A - 一种基于改进smote的软件缺陷预测方法 - Google Patents

一种基于改进smote的软件缺陷预测方法 Download PDF

Info

Publication number
CN114706751A
CN114706751A CN202210221548.3A CN202210221548A CN114706751A CN 114706751 A CN114706751 A CN 114706751A CN 202210221548 A CN202210221548 A CN 202210221548A CN 114706751 A CN114706751 A CN 114706751A
Authority
CN
China
Prior art keywords
samples
sample
calculating
training
smote
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210221548.3A
Other languages
English (en)
Other versions
CN114706751B (zh
Inventor
张丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Kexun Ciyuan Information Technology Co ltd
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210221548.3A priority Critical patent/CN114706751B/zh
Publication of CN114706751A publication Critical patent/CN114706751A/zh
Application granted granted Critical
Publication of CN114706751B publication Critical patent/CN114706751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于改进SMOTE的软件缺陷预测方法,包括:将原始数据集分为训练集和测试集,利用特征选择算法从训练集中选取关键特征集;采用K‑means算法将少数类样本聚类为N个簇,并对簇内每个样本的关键特征权重和距离权重进行计算,得到合成样本数量;基于SMOTE算法合成少数类样本,直至满足设定条件,将合成结果与多数类样本合并,得到平衡数据集;利用AdaBoost算法对平衡数据集进行训练,构建分类器,通过分类器对测试集进行预测;本发明充分考虑到不平衡数据集中少数类样本关键特征和与簇心距离的特性,对经典SMOTE算法进行了改进,能更加准确地合成少数类样本,提高软件缺陷预测的准确性,降低了软件测试的成本。

Description

一种基于改进SMOTE的软件缺陷预测方法
技术领域
本发明涉及软件缺陷预测的技术领域,尤其涉及一种基于改进SMOTE的软件缺陷预测方法。
背景技术
软件缺陷预测根据软件开发过程中的历史度量元数据,利用机器学习的方法构造分类器,预测新开发的软件模块是否存在缺陷,并合理有效地分配测试资源,是软件工程领域的研究热点之一。但是,正类样本数量远小于负类样本,也即缺陷预测数据中存在类不平衡问题。在缺陷预测过程中,一般将存在缺陷的样本称为正类样本或者多数类样本,无缺陷样本称为负类样本或者少数类样本。类不平衡问题严重影响了分类器的性能,由于少数类样本的稀少,分类器无法获得足够的规则,难以保证少数类样本的分类正确性。
解决缺陷预测过程中的不平衡问题,已有研究方法大致分为两类:基于数据层面和基于算法层面。SMOTE是从数据层面解决类不平衡问题的过抽样算法,随机选取少数类样本的近邻样本合成新样本,并且每一个少数类样本合成数量相同,因此,筛选样本时存在一定的盲目性,可能会产生冗余数据。K-means聚类可以将训练集样本划分为多个簇,使得簇中样本相似度较高,簇间样本相似度较低。对聚类后训练集样本,在簇中合成新样本,可以使得新样本位置位于簇中,同时新样本与少数类样本尽量类似。基于聚类的思想可以解决SMOTE算法合成的新样本会位于边界的问题,但是没有解决每个少数类样本在合成样本时权重相同,合成数量相同的问题。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明提供了一种基于改进SMOTE的软件缺陷预测方法,在合成新样本时考虑每个样本的关键特征和与簇心的距离,有效地解决了传统过抽样技术中每个少数类样本合成样本数量相同的问题,进而使数据平衡,提高预测模型的性能。
为解决上述技术问题,本发明提供如下技术方案,包括:将原始数据集分为训练集和测试集,利用特征选择算法从训练集中选取关键特征集;采用K-means算法将少数类样本聚类为N个簇,并对簇内每个样本的关键特征权重和距离权重进行计算,得到合成样本数量;基于SMOTE算法合成少数类样本,直至满足设定条件,将合成结果与多数类样本合并,得到平衡数据集;利用AdaBoost算法对平衡数据集进行训练,构建分类器,通过分类器对测试集进行预测;其中,针对训练集中的样本,将有缺陷样本归为少数类样本,无缺陷样本归为多数类样本。
作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案,其中:包括:关键特征集的索引集合为indexes。
作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案,其中:计算关键特征权重,包括:根据簇内样本数量计算该簇的合成样本数量Ni
Figure BDA0003537610960000021
计算样本xj的每一个关键特征占簇内全部少数类样本的关键特征的比值之和sum_Wf
Figure BDA0003537610960000022
根据所述比值之和sum_Wf计算关键特征权重Wf
Figure BDA0003537610960000023
其中,j=1,2,...|Ci|,Num为少数类样本合成总数目,其值为多数类样本与少数类样本的差值,|Ci|为第i个簇中的样本数目,|Smin|为少数类样本的总数目;xjk为样本xj的关键特征k对应值。
作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案,其中:距离权重,包括:通过样本xj与簇心Ci的欧式距离Dji计算样本xj的距离权重Wd
Figure BDA0003537610960000031
作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案,其中:包括:计算样本xj的权重W:
W=αWf+βWd
计算样本xj合成数量,即合成样本数量
Figure BDA0003537610960000032
Figure BDA0003537610960000033
其中,α+β=1,α,β分别为关键特征权重系数和距离权重系数。
作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案,其中:平衡数据集,包括:步骤1:计算样本xj到簇中其他样本的欧式距离,得到其K个近邻样本;步骤2:从其K个近邻样本中随机选取样本xi,利用下式生成新样本xnew
xnew=xj+rand(0,1)*(xi-xj)
步骤3:重复步骤1和步骤2,直到合成样本数量为
Figure BDA0003537610960000034
停止合并,得到少数类数据集,与多数类样本合并后得到平衡样本集。
作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案,其中:构建分类器,包括:
假设训练样本集为S={(x1,y1),(x2,y2),...,(xm,ym)},yn∈{-1,+1},迭代次数为T,基分类器为h;
步骤1:初始化训练样本集权重:D1(n)=1/m,其中n=1,2,...m,m为训练集中样本的数目;
步骤2:选择CART决策树作为弱分类器ht,利用具有权重Dt的样本集训练弱分类器ht,其中t=1,2,...T,T为迭代次数;
步骤3:计算弱分类器ht的分类误差εt
Figure BDA0003537610960000035
步骤4:计算弱分类器的权重αt
Figure BDA0003537610960000041
步骤5:更新样本集权重Dt+1(n):
Figure BDA0003537610960000042
步骤6:步骤2~步骤5重复T次,构建最终分类器H(x):
Figure BDA0003537610960000043
其中,
Figure BDA0003537610960000044
为归一化因子。
作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案,其中:包括:利用十折交叉验证法将原始数据集分为训练集和测试集。
本发明的有益效果:本发明充分考虑到不平衡数据集中少数类样本关键特征和与簇心距离的特性,对经典SMOTE算法进行了改进,能更加准确地合成少数类样本,提高软件缺陷预测的准确性,降低了软件测试的成本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明第一个实施例所述的基于改进SMOTE的软件缺陷预测方法的流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1,为本发明的第一个实施例,该实施例提供了一种基于改进SMOTE的软件缺陷预测方法,包括:
S1:将原始数据集分为训练集和测试集,利用特征选择算法从训练集中选取关键特征集。
利用十折交叉验证法将原始数据集分为训练集和测试集,进一步的,对训练集采用基于聚类分析的特征选择算法FECAR选取关键特征集,其索引集合为indexes。
S2:采用K-means算法将少数类样本聚类为N个簇,并对簇内每个样本的关键特征权重和距离权重进行计算,得到合成样本数量。
其中需要说明的是,针对训练集中的样本,将有缺陷样本归为少数类样本,无缺陷样本归为多数类样本。
(1)计算关键特征权重的步骤如下:
根据簇内样本数量计算该簇的合成样本数量Ni
Figure BDA0003537610960000061
计算样本xj的每一个关键特征占簇内全部少数类样本的关键特征的比值之和sum_Wf
Figure BDA0003537610960000062
根据比值之和sum_Wf计算样本关键特征权重Wf
Figure BDA0003537610960000063
其中,j=1,2,...|Ci|,Num为少数类样本合成总数目,其值为多数类样本与少数类样本的差值,|Ci|为第i个簇中的样本数目,|Smin|为少数类样本的总数目;xjk为样本xj的关键特征k对应值。
(2)计算距离权重:
通过样本xj与簇心Ci的欧式距离Dji计算样本xj的距离权重Wd
Figure BDA0003537610960000064
(3)计算合成样本数量:
计算样本xj的权重W:
W=αWf+βWd
计算样本xj合成数量,即合成样本数量
Figure BDA0003537610960000065
Figure BDA0003537610960000066
其中,α+β=1,α,β分别为关键特征权重系数和距离权重系数。
S3:基于SMOTE算法合成少数类样本,直至满足设定条件,将合成结果与多数类样本合并,得到平衡数据集。
步骤1:计算样本xj到簇中其他样本的欧式距离,得到其K个近邻样本;
步骤2:从其K个近邻样本中随机选取样本xi,利用下式生成新样本xnew
xnew=xj+rand(0,1)*(xi-xj)
步骤3:重复步骤1和步骤2,直到合成样本数量为
Figure BDA0003537610960000071
停止合并,得到平衡数据集。
优选的,每个样本的生成样本数量取决于其关键特征和与簇心的距离,关键特征值越高,与簇心距离越近,则样本越具有代表性,其权重越高,生成数量也越多。
S4:利用AdaBoost算法对平衡数据集进行训练,构建分类器,通过分类器对测试集进行预测。
假设训练样本集为S={(x1,y1),(x2,y2),...,(xm,ym)},yn∈{-1,+1},迭代次数为T,基分类器为h;其中,(xm,ym)为第m个样本。
步骤1:初始化训练样本集权重:D1(n)=1/m,其中n=1,2,...m,m为训练集中样本的数目;
步骤2:选择CART决策树作为弱分类器ht,利用具有权重Dt的样本集训练弱分类器ht,其中t=1,2,...T,T为迭代次数;
步骤3:计算弱分类器ht的分类误差εt
Figure BDA0003537610960000072
步骤4:计算弱分类器的权重αt
Figure BDA0003537610960000073
步骤5:更新样本集权重Dt+1(n):
Figure BDA0003537610960000074
步骤6:步骤2~步骤5重复T次,构建最终分类器H(x):
Figure BDA0003537610960000075
其中,
Figure BDA0003537610960000076
为归一化因子。
实施例2
为了对本方法中采用的技术效果加以验证说明,本实施例选择不同方法(SMOTE、K-means SMOTE、ADASYN、Borderline-SMOTE)和采用本方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。
对于本方法,需要说明的是,每次取9份作为训练集,1份作为测试集,针对训练集完成数据平衡,并构建分类器对测试集进行预测;此过程重复10次,最后取10次测试平均值作为分类器最终结果;关键特征权重系数α和距离权重系数β设为0.5。
选择NASA公开数据集进行实验验证,并与传统过抽样算法(SMOTE、K-meansSMOTE、ADASYN、Borderline-SMOTE)进行对比;分别使用本技术与4种算法实现数据集平衡,然后采用AdaBoost算法进行训练,构建分类器,并分别对测试集测试;选取数据集信息如表1所示;本实施例采用F1作为评价指标,指标的计算基于混淆矩阵,如表2所示;获得的实验结果如表3所示。
表1:数据集信息表。
数据集 样本数 少数类样本数 属性个数 不平衡率
JM1 7720 1612 21 3.79
KC3 194 36 39 4.39
MC1 1952 36 38 53.22
MW1 250 25 37 9.00
PC1 679 55 37 11.35
PC4 1270 176 37 6.22
表2:分类结果混淆矩阵。
类别 预测正类 预测负类
实际正类 TP FN
实际负类 FP TN
其中需要说明的是,
Figure BDA0003537610960000081
是查准率和召回率的调和平均数,查准率
Figure BDA0003537610960000082
召回率
Figure BDA0003537610960000083
表3:5种算法F1实验结果对比。
Figure BDA0003537610960000084
Figure BDA0003537610960000091
通过表3数据可以看出本方法的F1指标均优于其他过抽样算法,平均F1最高提高了2.45%,具有更好的分类效果,在软件缺陷预测中更有优势。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于改进SMOTE的软件缺陷预测方法,其特征在于,包括:
将原始数据集分为训练集和测试集,利用特征选择算法从训练集中选取关键特征集;
采用K-means算法将少数类样本聚类为N个簇,并对簇内每个样本的关键特征权重和距离权重进行计算,得到合成样本数量;
基于SMOTE算法合成少数类样本,直至满足设定条件,将合成结果与多数类样本合并,得到平衡数据集;
利用AdaBoost算法对平衡数据集进行训练,构建分类器,通过分类器对测试集进行预测;
其中,针对训练集中的样本,将有缺陷样本归为少数类样本,无缺陷样本归为多数类样本。
2.如权利要求1所述的基于改进SMOTE的软件缺陷预测方法,其特征在于,包括:
关键特征集的索引集合为indexes。
3.如权利要求2所述的基于改进SMOTE的软件缺陷预测方法,其特征在于,计算关键特征权重,包括:
根据簇内样本数量计算该簇的合成样本数量Ni
Figure FDA0003537610950000011
计算样本xj的每一个关键特征占簇内全部少数类样本的关键特征的比值之和sum_Wf
Figure FDA0003537610950000012
根据所述比值之和sum_Wf计算关键特征权重Wf
Figure FDA0003537610950000013
其中,j=1,2,...|Ci|,Num为少数类样本合成总数目,其值为多数类样本与少数类样本的差值,|Ci|为第i个簇中的样本数目,|Smin|为少数类样本的总数目;xjk为样本xj的关键特征k对应值。
4.如权利要求3所述的基于改进SMOTE的软件缺陷预测方法,其特征在于,距离权重,包括:
通过样本xj与簇心Ci的欧式距离Dji计算样本xj的距离权重Wd
Figure FDA0003537610950000021
5.如权利要求4所述的基于改进SMOTE的软件缺陷预测方法,其特征在于,包括:
计算样本xj的权重W:
W=αWf+βWd
计算样本xj合成数量,即合成样本数量
Figure FDA0003537610950000022
Figure FDA0003537610950000023
其中,α+β=1,α,β分别为关键特征权重系数和距离权重系数。
6.如权利要求4或5所述的基于改进SMOTE的软件缺陷预测方法,其特征在于,平衡数据集,包括:
步骤1:计算样本xj到簇中其他样本的欧式距离,得到其K个近邻样本;
步骤2:从其K个近邻样本中随机选取样本xi,利用下式生成新样本xnew
xnew=xj+rand(0,1)*(xi-xj)
步骤3:重复步骤1和步骤2,直到合成样本数量为
Figure FDA0003537610950000024
停止合并,得到少数类数据集,与多数类样本合并后得到平衡样本集。
7.如权利要求6所述的基于改进SMOTE的软件缺陷预测方法,其特征在于,构建分类器,包括:
假设训练样本集为S={(x1,y1),(x2,y2),...,(xm,ym)},yn∈{-1,+1},迭代次数为T,基分类器为h;
步骤1:初始化训练样本集权重:D1(n)=1/m,其中n=1,2,...m,m为训练集中样本的数目;
步骤2:选择CART决策树作为弱分类器ht,利用具有权重Dt的样本集训练弱分类器ht,其中t=1,2,...T,T为迭代次数;
步骤3:计算弱分类器ht的分类误差εt
Figure FDA0003537610950000031
步骤4:计算弱分类器的权重αt
Figure FDA0003537610950000032
步骤5:更新样本集权重Dt+1(n):
Figure FDA0003537610950000033
步骤6:步骤2~步骤5重复T次,构建最终分类器H(x):
Figure FDA0003537610950000034
其中,
Figure FDA0003537610950000035
为归一化因子。
8.如权利要求7所述的基于改进SMOTE的软件缺陷预测方法,其特征在于,包括:
利用十折交叉验证法将原始数据集分为训练集和测试集。
CN202210221548.3A 2022-03-09 2022-03-09 一种基于改进smote的软件缺陷预测方法 Active CN114706751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210221548.3A CN114706751B (zh) 2022-03-09 2022-03-09 一种基于改进smote的软件缺陷预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210221548.3A CN114706751B (zh) 2022-03-09 2022-03-09 一种基于改进smote的软件缺陷预测方法

Publications (2)

Publication Number Publication Date
CN114706751A true CN114706751A (zh) 2022-07-05
CN114706751B CN114706751B (zh) 2023-09-15

Family

ID=82169642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210221548.3A Active CN114706751B (zh) 2022-03-09 2022-03-09 一种基于改进smote的软件缺陷预测方法

Country Status (1)

Country Link
CN (1) CN114706751B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764366A (zh) * 2018-06-07 2018-11-06 南京信息职业技术学院 针对非均衡数据的特征选择和聚类抽样集成二分类方法
CN110674846A (zh) * 2019-08-29 2020-01-10 南京理工大学 基于遗传算法和k-means聚类的不平衡数据集过采样方法
CN111488903A (zh) * 2020-02-22 2020-08-04 西安理工大学 基于特征权重的决策树特征选择方法
CN111626336A (zh) * 2020-04-29 2020-09-04 南京理工大学 一种基于不平衡数据集的地铁故障数据分类方法
US20210034645A1 (en) * 2019-07-29 2021-02-04 HCL, Technologies Limited System and method for generating synthetic data for minority classes in a large dataset
CN113360392A (zh) * 2021-06-24 2021-09-07 北京邮电大学 一种跨项目软件缺陷预测方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764366A (zh) * 2018-06-07 2018-11-06 南京信息职业技术学院 针对非均衡数据的特征选择和聚类抽样集成二分类方法
US20210034645A1 (en) * 2019-07-29 2021-02-04 HCL, Technologies Limited System and method for generating synthetic data for minority classes in a large dataset
CN110674846A (zh) * 2019-08-29 2020-01-10 南京理工大学 基于遗传算法和k-means聚类的不平衡数据集过采样方法
CN111488903A (zh) * 2020-02-22 2020-08-04 西安理工大学 基于特征权重的决策树特征选择方法
CN111626336A (zh) * 2020-04-29 2020-09-04 南京理工大学 一种基于不平衡数据集的地铁故障数据分类方法
CN113360392A (zh) * 2021-06-24 2021-09-07 北京邮电大学 一种跨项目软件缺陷预测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘望舒: "软件缺陷预测中基于聚类分析的特征选择方法", vol. 46, no. 9, pages 1298 - 1320 *
陆子豪等: "基于改进SMOTE的半监督极限学习机缺陷预测", 《计算机技术与发展》, vol. 31, no. 12, pages 21 - 25 *

Also Published As

Publication number Publication date
CN114706751B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN111191316B (zh) 一种基于响应面的建筑自然通风性能优化模型及优化方法
CN105488539B (zh) 分类模型的生成方法及装置、系统容量的预估方法及装置
CN112633601B (zh) 疾病事件发生概率的预测方法、装置、设备及计算机介质
CN111861781A (zh) 一种居民用电行为聚类中的特征优选方法及系统
CN111582350A (zh) 一种基于距离加权LSSVM的过滤因子优化AdaBoost方法及系统
CN113240113B (zh) 一种增强网络预测鲁棒性的方法
CN111832796A (zh) 一种针对居民用电负荷模式的精细分类及预测方法及系统
CN111199469A (zh) 用户还款模型生成方法、装置及电子设备
US20080312885A1 (en) Hybrid method for simulation optimization
CN111582645B (zh) 基于因子分解机的app风险评估方法、装置和电子设备
CN115098292B (zh) 应用程序崩溃根原因识别方法、装置及电子设备
CN111582315A (zh) 样本数据处理方法、装置及电子设备
US20080004855A1 (en) Design support apparatus, design support method, and design support program
CN110334720A (zh) 业务数据的特征提取方法、装置、服务器和存储介质
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
CN110378389A (zh) 一种Adaboost分类器计算机创建装置
CN114676749A (zh) 一种基于数据挖掘的配电网运行数据异常判定方法
CN113919432A (zh) 一种分类模型构建方法、数据分类方法及装置
CN112686312A (zh) 一种数据分类方法、装置及系统
CN112200459A (zh) 一种配电网数据质量分析评价方法及系统
CN114706751B (zh) 一种基于改进smote的软件缺陷预测方法
US20230004870A1 (en) Machine learning model determination system and machine learning model determination method
JP4994199B2 (ja) 機械学習装置及び機械学習方法
CN114139802B (zh) 一种基于流域水情变化趋势分析模型的实时优化调度方法
Wang et al. A rapid design optimization framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240402

Address after: Building B4, 8F, No.118 Software Avenue, Yuhuatai District, Nanjing City, Jiangsu Province, 210012

Patentee after: Nanjing Kexun Ciyuan Information Technology Co.,Ltd.

Country or region after: China

Address before: 210023 No.89 Wenlan Road, Qixia District, Nanjing City, Jiangsu Province

Patentee before: NANJING UNIVERSITY OF SCIENCE & TECHNOLOGY ZIJIN College

Country or region before: China

TR01 Transfer of patent right