CN112836735A - 一种优化的随机森林处理不平衡数据集的方法 - Google Patents

一种优化的随机森林处理不平衡数据集的方法 Download PDF

Info

Publication number
CN112836735A
CN112836735A CN202110110757.6A CN202110110757A CN112836735A CN 112836735 A CN112836735 A CN 112836735A CN 202110110757 A CN202110110757 A CN 202110110757A CN 112836735 A CN112836735 A CN 112836735A
Authority
CN
China
Prior art keywords
samples
sample
minority
random forest
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110110757.6A
Other languages
English (en)
Other versions
CN112836735B (zh
Inventor
卢宇彤
邓雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110110757.6A priority Critical patent/CN112836735B/zh
Publication of CN112836735A publication Critical patent/CN112836735A/zh
Application granted granted Critical
Publication of CN112836735B publication Critical patent/CN112836735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明公开了一种优化的随机森林处理不平衡数据集的方法,所述方法包括数据预处理、随机森林模型的构建和分类预测,其中,所述数据预处理部分将找出少数类样本最近邻的k个多数类样本,组成难区分的区域,将这个区域的样本在原始数据集中进行重标签,且在难区分的区域进行少数类样本的生成,将重标签后的原始数据以及新增样本后的难区分区域作为不同的训练集输出;所述随机森林模型的构建将经过所述数据预处理部分处理的2个数据集作为模型的训练集,得到两个随机森林模型,所述分类预测将分两个阶段进入到所述的两个随机森林模型进行验证,最后获得样本的分类预测结果。本发明达到对少数类预测性能提升的同时,对多数类的预测正确率不会下降严重的目的。

Description

一种优化的随机森林处理不平衡数据集的方法
技术领域
本发明属于数据分析、挖掘和机器学习技术领域技术领域,特别涉及一种优化的随机森林处理不平衡数据集的方法。
技术背景
随着大数据时代的到来,数据挖掘成为越来越重要的技术,而分类是数据挖掘中最常见的任务,利用分类算法挖掘数据的潜在信息,有利于对问题提供有效的预测。在现实中的分类场景往往存在许多数据集分布不均衡的情况,而针对不同的问题,不同的分类有着不同的重视程度。一般的分类算法追求提升数据集整体的分类准确率,导致对少数类样本的预测分类准确率远低于对多数类样本的预测分类准确率,即将少数类样本错分为多数类从而偏向于多数类,而在一些领域,少数类样本的分类信息有着更重要的价值。
随机森林算法是一种机器学习的集成算法,利用Bootstrap随机重采样技术和随机特征选择技术构建多棵决策树,通过投票得到分类结果。该算法解决了单棵决策树容易过拟合的缺点,并且随机森林有着良好的鲁棒性及泛化能力,是一种优秀的分类算法。但随机森林处理不均衡数据集也有着一样的缺陷,即更偏向于提高整体的准确率而导致少数类样本的分类性能下降。
为了解决随机森林处理不均衡数据集时对少数类样本的性能较差的问题,如今有着许多的改进方法被提出和使用。
一、在数据处理层面上有过采样和欠采样方法。过采样方法是利用如smote算法等数据合成算法对少数类样本进行合成,从而增加少数类样本的数量达到减少数据集不均衡的程度。欠采样方法是通过减少多数类样本从而减少数据集不均衡的程度。然后利用随机森林对处理后的数据进行训练和预测。
二、ENN算法,通过找出一些多数类样本,假如这些多数类的样本的三个最近邻样本属于少数类,则将这部分多数类样本从原始数据集中移除,达到数据清洗以及数据平衡化的效果,从而利用随机森林对处理后的数据集进行训练和预测,提升对少数类样本的分类正确率。
三、有偏向的随机森林算法。该算法同时在数据处理以及算法层面进行优化,首先将数据集分成多数类样本集和主要关注的少数类样本集,通过k近邻算法找出少数类样本集中每个样本的最近邻的k个多数类样本组成第二个数据集,分别在原始数据集以及新产生的第二个数据集上构建两批随机森林,由于第二个数据集是有少数类样本及其最近邻的多数类样本组成,数据集的不均衡程度较低,构建出来的树对少数类有更好的识别能力。这样一来通过控制在两个数据集上生成的树的数量可以分别识别多数类和少数类,很好的提升分类性能。
上述现有技术仍然存在缺陷:
数据处理层面的缺点有:过采样技术由于未对少数类样本进行分析,直接产生相似的少数类样本容易造成产生冗余样本从而导致模型过拟合。欠采样技术由于减少了多数类样本以达到降低数据集不均衡率的程度,造成多数类类的信息丢失,降低了多数类的分类正确率。
ENN算法的缺点是,该算法即使移除了一些多数类样本,但是数据集的分布可能仍具有较大的不均衡率,并且由于删掉了部分多数类样本,会导致多数类的分类正确率下降。
目前效果最好的有偏向的随机森林算法虽然通过找出易错分区域,通过两个数据集来分别训练随机森林从而达到提升分类性能的目的,但是其少数类信息扔较少,得到的第二个数据集仍可能不均衡分布程度较大,而且由于随机森林采用的是Bootstrap随机重采样技术,这会导致少数类样本被采样到的几率降低而影响少数类样本的分类正确率。
发明内容
鉴于现有技术的缺陷,本发明旨在于提供一种优化的随机森林处理不平衡数据集的方法,该方法先找出少数类样本的k个最近邻多数类样本,这些样本所处区域为较难区分的区域,在原始数据集中将这些区域的样本重新标类为unknown,并且在这些难区分的样本中,通过在少数类样本及其k个最近邻的多数类样本之间进行新样本的合成,生成的数量根据多数类与少数类的样本比例决定,将新生成的样本固定为少数类标签,这样做的目的是将多数类与少数类之间的分类超平面向更能识别少数类的方向扩张,从而达到在不减少多数类样本的情况下赋予少数类更高的权重的目的。最后将生成两片森林,利用样本重标签后的原始数据集训练多棵决策树组成第一片随机森林,利用难区分区域的样本以及新样本组成的第二个数据集训练多棵决策树组成第二片森林。当对数据进行分类时,如果第一片森林对数据分类投票为多数类,则该分类结果就是其最终的分类结果,当第一片森林对数据的分类结果为unknown时,则将这些数据继续放入到第二片森林进行判断其最终结果是属于多数类还是少数类。这样做的目的是在保证多数类分类正确率的情况下,能更好的提升对少数类的分类正确率。
为了实现上述目的,本发明采用的技术方案如下:
一种优化的随机森林处理不平衡数据集的方法,所述方法包括数据预处理、随机森林模型的构建和分类预测,其中,所述数据预处理将找出少数类样本最近邻的k个多数类样本,组成难区分的区域,将这个区域的样本在原始数据集中进行重标签,且在难区分的区域进行少数类样本的生成,将重标签后的原始数据以及新增样本后的难区分区域作为不同的训练集输出;所述随机森林模型的构建将经过所述数据预处理部分处理的2个数据集作为模型的训练集,得到两个随机森林模型;所述分类预测将分两个阶段进入到所述的两个随机森林模型进行验证,最后获得样本的分类预测结果。
需要说明的是,所述据预处理包括:
A:读取原始数据集S;
B:首先将原始数据集S区分为多数类样本集Smaj和少数类样本集 Smin,应用k近邻算法找出少数类样本集中每个样本最近邻的k个多数类样本,这些多数类样本组成Sk-maj样本集,将Smin和Sk-maj样本集组成的区域成为难区分的区域;
C:在原始数据集中将难区分区域中的样本赋予新的类标unknown,但是在难区分区域中,这些样本仍保留其原有类标;
D:在少数类样本与其最近邻的多数类样本之间进行样本的生成,新生成的样本均标为少数类;
E:输出重标签后的原始数据集Snew以及插入新样本后的难区分区域的数据集Sarea
需要进一步说明的是,所述步骤D中还包括:
D1:首先找出少数类样本,通过knn算法找出其最近邻的多数类样本,得到难区分的区域;
D2:在少数类样本与其最近邻的多数类样本之间进行插值产生新的少数类样本的公式为:
xnew=xmin+λ(xmaj-xmin);
其中,新产生的样本数量根据该区域中多数类样本与少数类样本的比例决定。
需要说明的是,所述随机森林模型的构建、所述分类预测包括:
A:将数据预处理后的两个训练数据集:重标签后的原始数据集 Snew和新加入样本后的难区分区域的数据集Sarea输入;
B:训练步骤A中两个随机森林模型,分别利用的是Snew和Sarea当做训练数据集,利用Snew训练出来的模型称为RF1,利用Sarea训练出来的模型称为RF2;
C:将验证数据集首先输入到RF1,得到RF1对每个样本的预测结果;
D:判断RF1对验证数据集的预测结果是否为标签unknown,如果对样本的预测结果不是unknown,则预测的标签作为最后该样本的预测结果,如果对样本的预测结果为unknown则需要进一步判断;
E:将RF1预测为unknown的样本集合输入到RF2进行预测,得到的预测结果作为最后的样本分类结果。
本发明的有益效果在于,找出难区分的区域后,产生了新的少数类样本,提升了少数类的信息,提高了随机森林利用Bootstrap随机重采样技术时少数类被采样到的概率,并且新产生的少数类样本介于少数类和其近邻的多数类之间,通过控制参数λ可以使得分类超平面朝着更能识别少数类的方向扩张,有利于提升少数类的分类正确率。此外,本发明利用了重标签技术,对原始数据集中难区分的区域进行类别重标签,并且构建出两个随机森林模型,分步对样本的分类进行预测,第一个模型保证了对多数类的分类正确率的同时,利用第二个模型对被第一个模型预测为unknown标签的样本进一步进行分类预测,而第二个模型能很好的识别少数类样本,从而达到对少数类预测性能提升的同时,对多数类的预测正确率不会下降严重的目的。
附图说明
图1是本发明数据预处理方法的流程图;
图2是本发明随机森林模型的构建及分类预测的流程图;
图3是本发明的新样本的合成示意图。
具体实施例
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
需要指出的是,为了更好的理解本发明,以下为本发明使用的参数的说明:
S:原始数据集;
N:样本总数;
M:特征总数;
L:少数类的标签;
unknown:样本重标签后的类标签;
Snew:对原始数据及中样本进行重标签后的数据集;
Smaj:原始数据集中多数类样本集;
Smin:原始数据集中少数类样本集;
Sunknown:难区分区域的样本集;
Sk-maj:少数类样本的最近邻k个多数类样本组成的集合;
xmin:少数类样本(向量);
xmaj:多数类样本(向量);
xnew:新产生的样本(向量);
ynew:新产生的样本类标签;
Sarea:插入新样本后的难区分区域的数据集;
RF1:用Snew训练出来的随机森林模型;
RF2:用Sunkown训练出来的随机森林模型;
λ:范围在[0,1]的超参数。
实施例
本发明为一种优化的随机森林处理不平衡数据集的方法,所述方法包括数据预处理、随机森林模型的构建和分类预测,其中,所述数据预处理将找出少数类样本最近邻的k个多数类样本,组成难区分的区域,将这个区域的样本在原始数据集中进行重标签,且在难区分的区域进行少数类样本的生成,将重标签后的原始数据以及新增样本后的难区分区域作为不同的训练集输出;所述随机森林模型的构建将经过所述数据预处理部分处理的2个数据集作为模型的训练集,得到两个随机森林模型;所述分类预测将分两个阶段进入到所述的两个随机森林模型进行验证,最后获得样本的分类预测结果。
如图1所示,本发明的据预处理包括:
A:读取原始数据集S;
B:首先将原始数据集S区分为多数类样本集Smaj和少数类样本集 Smin,应用k近邻算法找出少数类样本集中每个样本最近邻的k个多数类样本,这些多数类样本组成Sk-maj样本集,将Smin和Sk-maj样本集组成的区域成为难区分的区域;
C:在原始数据集中将难区分区域中的样本赋予新的类标unknown,但是在难区分区域中,这些样本仍保留其原有类标;
D:在少数类样本与其最近邻的多数类样本之间进行样本的生成,新生成的样本均标为少数类;
E:输出重标签后的原始数据集Snew以及插入新样本后的难区分区域的数据集Sarea
需要进一步说明的是,所述步骤D中还包括:
D1:首先找出少数类样本,通过knn算法找出其最近邻的多数类样本,得到难区分的区域;
D2:在少数类样本与其最近邻的多数类样本之间进行插值产生新的少数类样本的公式为:
xnew=xmin+λ(xmaj-xmin);
其中,新产生的样本数量根据该区域中多数类样本与少数类样本的比例决定。
如图2所示,本发明的随机森林模型的构建和分类预测包括:
A:将数据预处理后的两个训练数据集:重标签后的原始数据集 Snew和新加入样本后的难区分区域的数据集Sarea输入;
B:训练步骤A中两个随机森林模型,分别利用的是Snew和Sarea当做训练数据集,利用Snew训练出来的模型称为RF1,利用Sarea训练出来的模型称为RF2;
C:将验证数据集首先输入到RF1,得到RF1对每个样本的预测结果;
D:判断RF1对验证数据集的预测结果是否为标签unknown,如果对样本的预测结果不是unknown,则预测的标签作为最后该样本的预测结果,如果对样本的预测结果为unknown则需要进一步判断;
E:将RF1预测为unknown的样本集合输入到RF2进行预测,得到的预测结果作为最后的样本分类结果。
本发明实例中,首先通过对数据集进行预处理,将数据集分成多数类样本和少数类样本,并且通过knn算法找出少数类样本最近邻的多数类样本,组难区分区域,并且在原始数据集中将这部分区域进行重标签为unknown,由于少数类错分的区域往往是处于少数类和多数类的边界,所以这样做有助于将这些区域找到。此外在难区分区域中又提出了一种新的样本生成方法,通过在少数类样本与其最近邻的多数类样本之间生成新的样本,并且将这些样本标为少数类,这样做是为了将分类超平面朝着更能识别少数类的方向扩大,并且通过调节参数λ可以调整新样本的落点,λ为0时相当于对少数类样本进行复制,提高少数类样本被采样到的几率。
通过产生随机森林RF1和RF2,对数据的预测分成了两个阶段, RF1能识别多数类,RF2能很好的识别少数类,这样达到在对少数类预测性能提升的同时,对多数类的预测正确率不会下降严重。
进一步的,如图3所示,圆形为少数类样本,三角形为多数类样本,而分割线为分类超平面,通过控制参数λ∈[0,1]利用公式产生的新样本处于少数类和多数类之间,当λ为0时只是简单复制了少数了样本,提升了抽样时少数类被选中的概率,当0<λ<1时,超平面介于少数类和多数类之间,且λ>0.5时,产生的样本使得分类超平面更易区分少数类,λ=1时,产生的样本是多数类样本的复制,但是标签为少数类L,这样会牺牲一定的多数类正确率但是能很好的识别出少数类样本。通过分析,对少数类预测性能提升的同时,对多数类的预测正确率不会下降严重。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变,而所有的这些改变,都应该包括在本发明权利要求的保护范围之内。

Claims (4)

1.一种优化的随机森林处理不平衡数据集的方法,其特征在于,所述方法包括数据预处理、随机森林模型的构建和分类预测,其中,所述数据预处理将找出少数类样本最近邻的k个多数类样本,组成难区分的区域,将这个区域的样本在原始数据集中进行重标签,且在难区分的区域进行少数类样本的生成,将重标签后的原始数据以及新增样本后的难区分区域作为不同的训练集输出;所述随机森林模型的构建将经过所述数据预处理部分处理的2个数据集作为模型的训练集,得到两个随机森林模型;所述分类预测将分两个阶段进入到所述的两个随机森林模型进行验证,最后获得样本的分类预测结果。
2.根据权利要求1所述的优化的随机森林处理不平衡数据集的方法,其特征在于,所述据预处理包括:
A:读取原始数据集S;
B:首先将原始数据集S区分为多数类样本集Smaj和少数类样本集Smin,应用k近邻算法找出少数类样本集中每个样本最近邻的k个多数类样本,这些多数类样本组成Sk-maj样本集,将Smin和Sk-maj样本集组成的区域成为难区分的区域;
C:在原始数据集中将难区分区域中的样本赋予新的类标unknown,但是在难区分区域中,这些样本仍保留其原有类标;
D:在少数类样本与其最近邻的多数类样本之间进行样本的生成,新生成的样本均标为少数类;
E:输出重标签后的原始数据集Snew以及插入新样本后的难区分区域的数据集Sarea
3.根据权利要求2所述的优化的随机森林处理不平衡数据集的方法,其特征在于,所述步骤D中还包括:
D1:首先找出少数类样本,通过knn算法找出其最近邻的多数类样本,得到难区分的区域;
D2:在少数类样本与其最近邻的多数类样本之间进行插值产生新的少数类样本的公式为:
xnew=xmin+λ(xmaj-xmin);
其中,新产生的样本数量根据该区域中多数类样本与少数类样本的比例决定。
4.根据权利要求1所述的优化的随机森林处理不平衡数据集的方法,其特征在于,所述随机森林模型的构建、所述分类预测包括:
A:将数据预处理后的两个训练数据集:重标签后的原始数据集Snew和新加入样本后的难区分区域的数据集Sarea输入;
B:训练步骤A中两个随机森林模型,分别利用的是Snew和Sarea当做训练数据集,利用Snew训练出来的模型称为RF1,利用Sarea训练出来的模型称为RF2;
C:将验证数据集首先输入到RF1,得到RF1对每个样本的预测结果;
D:判断RF1对验证数据集的预测结果是否为标签unknown,如果对样本的预测结果不是unknown,则预测的标签作为最后该样本的预测结果,如果对样本的预测结果为unknown则需要进一步判断;
E:将RF1预测为unknown的样本集合输入到RF2进行预测,得到的预测结果作为最后的样本分类结果。
CN202110110757.6A 2021-01-27 2021-01-27 一种优化的随机森林处理不平衡数据集的方法 Active CN112836735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110110757.6A CN112836735B (zh) 2021-01-27 2021-01-27 一种优化的随机森林处理不平衡数据集的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110110757.6A CN112836735B (zh) 2021-01-27 2021-01-27 一种优化的随机森林处理不平衡数据集的方法

Publications (2)

Publication Number Publication Date
CN112836735A true CN112836735A (zh) 2021-05-25
CN112836735B CN112836735B (zh) 2023-09-01

Family

ID=75931912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110110757.6A Active CN112836735B (zh) 2021-01-27 2021-01-27 一种优化的随机森林处理不平衡数据集的方法

Country Status (1)

Country Link
CN (1) CN112836735B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689053A (zh) * 2021-09-09 2021-11-23 国网安徽省电力有限公司电力科学研究院 一种基于随机森林的强对流天气架空线停电预测方法
CN113744083A (zh) * 2021-08-27 2021-12-03 暨南大学 一种基于环境不平衡数据的水质预测方法
CN114579631A (zh) * 2022-01-26 2022-06-03 苏州大学 基于概率加权过采样的社区矫正率预测系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484571A (zh) * 2014-12-22 2015-04-01 深圳先进技术研究院 一种基于边缘距离排序的集成学习机修剪方法及系统
CN106446597A (zh) * 2016-09-06 2017-02-22 清华大学 多物种特征选择及鉴定未知基因的方法
CN106897821A (zh) * 2017-01-24 2017-06-27 中国电力科学研究院 一种暂态评估特征选择方法及装置
CN110991653A (zh) * 2019-12-10 2020-04-10 电子科技大学 一种针对不平衡数据集分类的方法
CN111091201A (zh) * 2019-12-23 2020-05-01 北京邮电大学 一种基于数据分区混合采样的不平衡集成分类方法
CN111950645A (zh) * 2020-08-20 2020-11-17 青岛科技大学 一种通过改进随机森林提高类不平衡分类性能的方法
CN112070125A (zh) * 2020-08-19 2020-12-11 西安理工大学 一种基于孤立森林学习的不平衡数据集的预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484571A (zh) * 2014-12-22 2015-04-01 深圳先进技术研究院 一种基于边缘距离排序的集成学习机修剪方法及系统
CN106446597A (zh) * 2016-09-06 2017-02-22 清华大学 多物种特征选择及鉴定未知基因的方法
CN106897821A (zh) * 2017-01-24 2017-06-27 中国电力科学研究院 一种暂态评估特征选择方法及装置
CN110991653A (zh) * 2019-12-10 2020-04-10 电子科技大学 一种针对不平衡数据集分类的方法
CN111091201A (zh) * 2019-12-23 2020-05-01 北京邮电大学 一种基于数据分区混合采样的不平衡集成分类方法
CN112070125A (zh) * 2020-08-19 2020-12-11 西安理工大学 一种基于孤立森林学习的不平衡数据集的预测方法
CN111950645A (zh) * 2020-08-20 2020-11-17 青岛科技大学 一种通过改进随机森林提高类不平衡分类性能的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马海荣,程新文: "一种处理非平衡数据集的优化随机森林分类方法", 《微电子学与计算机》, vol. 35, no. 11, pages 1 - 5 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744083A (zh) * 2021-08-27 2021-12-03 暨南大学 一种基于环境不平衡数据的水质预测方法
CN113744083B (zh) * 2021-08-27 2024-04-23 暨南大学 一种基于环境不平衡数据的水质预测方法
CN113689053A (zh) * 2021-09-09 2021-11-23 国网安徽省电力有限公司电力科学研究院 一种基于随机森林的强对流天气架空线停电预测方法
CN113689053B (zh) * 2021-09-09 2024-03-29 国网安徽省电力有限公司电力科学研究院 一种基于随机森林的强对流天气架空线停电预测方法
CN114579631A (zh) * 2022-01-26 2022-06-03 苏州大学 基于概率加权过采样的社区矫正率预测系统及方法
CN114579631B (zh) * 2022-01-26 2023-04-07 苏州大学 基于概率加权过采样的社区矫正率预测系统及方法

Also Published As

Publication number Publication date
CN112836735B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN112836735A (zh) 一种优化的随机森林处理不平衡数据集的方法
CN109491914B (zh) 基于不平衡学习策略高影响缺陷报告预测方法
CN107577605A (zh) 一种面向软件缺陷预测的特征聚类选择方法
CN112364352A (zh) 可解释性的软件漏洞检测与推荐方法及系统
JP2017004123A (ja) 判定装置、判定方法および判定プログラム
CN117236278B (zh) 一种基于数字孪生技术的芯片生产仿真方法及系统
CN111582315B (zh) 样本数据处理方法、装置及电子设备
Chouaib et al. Feature selection combining genetic algorithm and adaboost classifiers
CN112633346A (zh) 一种基于特征交互性的特征选择方法
CN116150757A (zh) 一种基于cnn-lstm多分类模型的智能合约未知漏洞检测方法
CN111767216A (zh) 一种可缓解类重叠问题的跨版本深度缺陷预测方法
CN109542949B (zh) 一种基于形式向量的决策信息系统知识获取方法
CN110955892B (zh) 一种基于机器学习和电路行为级特征的硬件木马检测方法
CN112817954A (zh) 一种基于多种方法集成学习的缺失值插补方法
CN114301719B (zh) 一种基于变分自编码器的恶意更新检测方法及系统
CN111090859B (zh) 一种基于图编辑距离的恶意软件检测方法
CN110413792B (zh) 一种高影响力缺陷报告识别方法
CN114707151A (zh) 一种基于api调用和网络行为的僵尸软件检测方法
Shao et al. Research on Cross-Company Defect Prediction Method to Improve Software Security
CN114419313A (zh) 影像辨识方法及影像辨识系统
JP2009070321A (ja) 文書分類装置、及び文書分類プログラム
JPS60126784A (ja) パターン識別装置
CN116453032B (zh) 一种海洋生态检测系统
CN117313899B (zh) 用于数据处理的方法、设备和介质
CN117632770B (zh) 一种多路径覆盖测试用例生成方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant