CN114511760A - 一种样本均衡方法、装置、设备及存储介质 - Google Patents

一种样本均衡方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114511760A
CN114511760A CN202210132426.7A CN202210132426A CN114511760A CN 114511760 A CN114511760 A CN 114511760A CN 202210132426 A CN202210132426 A CN 202210132426A CN 114511760 A CN114511760 A CN 114511760A
Authority
CN
China
Prior art keywords
sample
minority
samples
majority
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210132426.7A
Other languages
English (en)
Inventor
刘毅然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202210132426.7A priority Critical patent/CN114511760A/zh
Publication of CN114511760A publication Critical patent/CN114511760A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种样本均衡方法、装置、设备及存储介质。该方法包括:对获取到的初始样本集进行划分,得到多数类样本集和少数类样本集;根据所述多数类样本集和所述少数类样本集包含的样本数量,确定样本生成总数量;基于所述少数类样本集中少数类样本的空间分布情况,确定各所述少数类样本的识别难度;根据各所述识别难度,结合所述样本生成总数量,确定各所述少数类样本对应的样本生成分数量;采用线性插值的方法,针对各所述少数类样本生成对应样本生成分数量个新样本数据,以实现样本均衡。本发明在样本过采样时有效减少噪声,在样本分类边界模糊处生成更多新样本,进而提高分类模型的训练效果,使分类模型更注重在分类边界处的学习。

Description

一种样本均衡方法、装置、设备及存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种样本均衡方法、装置、设备及存储介质。
背景技术
在机器学习分类问题中,样本不均衡问题常常会影响分类模型的分类性能。在金融、医学、入侵检测等领域的分类问题中,异常的数据极少,分类模型通过原始数据往往并不能获得对少数类样本的良好分辨能力。
以金融领域为例,在数据挖掘实践中样本不均衡问题广泛存在,如获取到的风控、入侵检测等方面的历史数据,大部分都是正常值,异常样本极少,但这些异常样本相对正常样本包含更大的信息量,因此,正确识别异常样本成为分类模型的一个学习目标。
通常来说,分类模型的训练目标是获得更高的精度,但分类算法大多只能在样本类型分布差异不大的数据集上获得较好的学习效果。在数据类型分布差异较大的数据集上,高精度并不意味着对少数类样本有较好的识别能力。一个极端的例子是,在一个样本比例为99:1的二分类数据集上,模型将所有的数据判别为多数类,依然有99%的正确率,但这样的模型没有实际意义,因为它没有对少数类样本的识别能力。
由于处理二分类问题的方法容易扩展到多分类问题中,因此可以以处理二分类问题的样本均衡问题为例,二分类问题的混淆矩阵如下,在该矩阵中,定义少数类的标签值为1,多数类为0。
预测类型为1 预测类型为0
实际类型为1 TP FN
实际类型为0 FP TN
分类模型的分类精度可以定义为:
Figure BDA0003503273350000021
此外,模型对少数类样本识别能力的指标准确率(precision)、召回率(recall)可以表示如下:
Figure BDA0003503273350000022
Figure BDA0003503273350000023
模型的总体性能的指标F值可以定义如下:
Figure BDA0003503273350000024
为了提高算法对少数类样本的分类准确率与召回率,对少数类样本进行过采样是一种常用的手段。
目前较为常见的过采样方法有SMOTE与ADASYN两种。
SMOTE算法的基本思想是在一个少数类样本和其近邻的少数类样本之间进行随机线性插值,构造出新的样本,并假定该新样本为少数类型。SMOTE算法的流程如下:
1、确定近邻数K,数据集D,过采样倍率N;
2、搜寻数据集中每个少数类样本的K个少数类近邻;
3、对每个少数类样本xi,重复N次以下流程:随机选择一个少数类近邻xn,通过线性插值的方式随机生成一个新样本xnew=xi+λ(xn-xi),其中λ为0与1之间的一个随机数。
SMOTE算法是随机重复过采样的一种改进,通过线性插值的方式生成了原数据集中不存在的新样本。由于新样本是在两个相同类别的样本中进行线性插值,因此可以认为新样本保留了该类别的基本特征。该算法通过指定近邻数量的方式控制新样本的空间分布,又通过指定采样倍率的方式控制新样本的稠密程度。
但由于SMOTE方法对每个少数类样本都进行同等倍率的采样,生成的新样本数量总是少数类样本的整数倍,对于处理数据集的过采样倍率并不平滑,在一些需要控制少数类与多数类样本之比的情形下会有不适应的情况,这样简单的处理少数类样本使算法忽略了其空间分布信息。同时,样本中的噪声点也会生成新的样本,这样造成了噪声的放大,容易导致分类边界模糊,影响分类器对分类边界的识别。
ADASYN算法是对SMOTE算法的改进,基本思想是通过近邻中少数类样本的数量将这些样本再分为K类,并对不同类样本进行不同倍率的过采样。此外,ADASYN算法还对SMOTE的采样倍率进行了优化。ADASYN算法的流程如下:
1、输入平衡因子β∈(0,1],确定近邻数K,数据集D,过采样阈值α;
2、统计多数类样本与少数类样本的数量值M、m。当m/(m+M)>α时,直接结束算法,否则计算需要生成的样本数量G=(M-m)*β;
3、计算每个少数类样本xi的权重:wi=mi/K,其中mi为该样本的K近邻中多数类的样本数量,然后将这些权值归一化,并计算该样本附近需要生成的新样本数量
Figure BDA0003503273350000031
4、对每个少数类样本xi,重复gi次以下流程:随机选择一个少数类近邻xn,通过线性插值的方式随机生成一个新样本xnew=xi+λ(xn-xi),其中λ为0与1之间的一个随机数。
ADASYN算法在SMOTE算法的基础上进行了一些优化,首先是平衡因子对采样倍率的改进。通过改变平衡因子,ADASYN算法几乎可以生成任意数量的新样本,平衡因子越大,样本越均衡,当其取值为1时,过采样生成的新样本使得少数类与多数类样本数量相同,因此ADASYN算法可以容易的得到少数类与多数类之比为任意值的数据集。其次,ADASYN算法设置了一个过采样阈值,只有在少数类在整个数据集中占比低于这个阈值时,才会进行过采样,这是因为数据集的不均衡度不高时,分类器的效果一般是比较好的。此外,ADASYN算法计算了每个少数类样本的权重值,而计算少数类样本权重值的过程也是识别样本在空间中分布特征的过程,当一个少数类样本近邻均为少数类时,其权值为0,这意味着在后续的过采样过程中,不会通过该样本作为基础样本生成新的样本,这是因为它不在分类边界上,因此对分类器识别分类边界的影响很小,而在分类边界处的样本则会由于权值较高的原因生成较多的新样本。在处理权值的方式上,ADASYN采取归一化的方式将各个样本的权值处理成一个概率分布,用于描述新数据在空间上的分布特点,然后基于这个概率分布控制新样本的生成。
虽然ADASYN方法考虑了少数类与多数类的分布问题,在分类边界处生成更多样本,但是当某个少数类样本的近邻均为多数类时,ADASYN算法会认为该样本的权值是最高的,在这种处理方式下,噪声点的影响也会被放大。
发明内容
本发明提供一种样本均衡方法、装置、设备及存储介质,以实现在样本过采样时有效减少噪声,在样本分类边界模糊处生成更多新样本,从而提高分类模型的训练效果。
第一方面,本发明实施例提供了一种样本均衡方法,包括:
对获取到的初始样本集进行划分,得到多数类样本集和少数类样本集;
根据所述多数类样本集和所述少数类样本集包含的样本数量,确定样本生成总数量;
基于所述少数类样本集中少数类样本的空间分布情况,确定各所述少数类样本的识别难度;
根据各所述识别难度,结合所述样本生成总数量,确定各所述少数类样本对应的样本生成分数量;
采用线性插值的方法,针对各所述少数类样本生成对应样本生成分数量个新样本数据,以实现样本均衡。
第二方面,本发明实施例还提供了一种样本均衡装置,该装置包括:
初始样本划分模块,用于对获取到的初始样本集进行划分,得到多数类样本集和少数类样本集;
生成总数量确定模块,用于根据所述多数类样本集和所述少数类样本集包含的样本数量,确定样本生成总数量;
识别难度确定模块,用于基于所述少数类样本集中少数类样本的空间分布情况,确定各所述少数类样本的识别难度;
生成分数量确定模块,用于根据各所述识别难度,结合所述样本生成总数量,确定各所述少数类样本对应的样本生成分数量;
样本均衡实现模块,用于采用线性插值的方法,针对各所述少数类样本生成对应样本生成分数量个新样本数据,以实现样本均衡。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任意实施例所述的样本均衡方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明任意实施例所述的样本均衡方法。
本发明通过对获取到的初始样本集进行划分,得到多数类样本集和少数类样本集;根据多数类样本集和少数类样本集包含的样本数量,确定样本生成总数量;基于少数类样本集中少数类样本的空间分布情况,确定各少数类样本的识别难度;根据各识别难度,结合样本生成总数量,确定各少数类样本对应的样本生成分数量;采用线性插值的方法,针对各少数类样本生成对应样本生成分数量个新样本数据,以实现样本均衡,解决了现有样本均衡方法实现过程中会造成噪声放大,容易导致分类边界模糊,影响分类模型对分类边界处样本识别的问题。本发明通过确定各少数类样本的识别难度,针对性的生成对应数量的新样本,实现在样本过采样时有效减少噪声,在样本分类边界模糊处生成更多新样本,进而提高分类模型的训练效果,使分类模型更注重在分类边界处的学习。
附图说明
图1是本发明实施例一提供的一种样本均衡方法的流程图;
图2是本发明实施例二提供的一种样本均衡装置的结构框图;
图3是本发明实施例三提供的一种计算机设备的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构,此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
图1为本发明实施例一提供的一种样本均衡方法的流程图,本实施例可适用于对分类模型的训练样本进行过采样的情况,该方法可以由样本均衡装置来执行,该装置可以通过软件和/或硬件实现。
如图1所示,该方法具体包括如下步骤:
步骤110、对获取到的初始样本集进行划分,得到多数类样本集和少数类样本集。
在实际应用中,一般会采用一定数量的样本数据对某一分类模型进行训练,在本实施例中,可以将用于分类模型训练的未经过样本均衡的样本集称为初始样本集。
在金融领域运用的分类模型中,特别是用于风险控制、风险交易识别、异常检测等问题的分类模型,目标主要是准确识别出大量数据中的少数异常数据,但是在训练这些分类模型时,异常样本的数量相对正常样本数据较小,因此需要通过对少数的异常样本进行过采样来实现样本数据的均衡。在本实施例中,可以将这些异常样本划分为少数类样本,正常样本可以划分为多数类样本。
步骤120、根据多数类样本集和少数类样本集包含的样本数量,确定样本生成总数量。
其中,样本生成总数量可以理解为需要生成的新样本的数量。
具体的,可以分别统计多数类样本集和少数类样本集包含的样本数量,通过多数类样本集和少数类样本集之间样本数量的差距,确定样本生成总数量。可以理解的是,一般情况下,当多数类样本集和少数类样本集之间的样本数量差距较大时,样本生成总数量就越大,当多数类样本集和少数类样本集之间的样本数量差距较小时,样本生成总数量就越小,或者不需要重新生成新的样本。
可选的,步骤120可以具体通过以下步骤实现:
S1201、将多数类样本集包含的样本数量确定为多数类样本数量,少数类样本集包含的样本数量确定为少数类样本数量。
S1202、将多数类样本数量与少数类样本数量之和确定为样本数量总值,多数类样本数量与少数类样本数量之差确定为样本数量差值。
S1203、获取过采样阈值和平衡因子,当少数类样本数量与样本数量总值之比小于等于过采样阈值时,将样本数量差值和平衡因子之积确定为样本生成总数量。
示例性的,可以用M表示多数类样本数量,用m表示少数类样本数量,用α表示过采样阈值,用β∈(0,1]表示平衡因子。其中,过采样阈值和平衡因子可以根据实际应用场景具体设定。当m/(m+M)>α时,可以直接结束此次的样本均衡操作,否则样本生成总数量可以表示G=(M-m)*β。
本实施例中采用了平衡因子的机制,可以实现采样率可控的效果。
步骤130、基于少数类样本集中少数类样本的空间分布情况,确定各少数类样本的识别难度。
其中,少数类样本的空间分布情况可以理解为少数类样本与其他样本在特征空间上的距离远近情况。
在本实施例中,可以用少数类样本的识别难度取值表示少数类样本与分类边界的远近程度,少数类样本的识别难度取值越高,可以表示少数类样本与分类边界越近,少数类样本的识别难度取值越低,可以表示少数类样本与分类边界越远。例如当某一少数类样本附近分布的都是少数类样本时,可以认为该少数类样本不在分类边界处,因此可以将其识别难度值确定为较低值;当某一少数类样本附近分布的既有少数类样本、也有多数类样本时,可以认为该少数类样本在分类边界处,因此可以将其识别难度值确定为较高值。特殊的,当某一少数类样本附近分布的全部为多数类样本时,可以认为该少数类样本是处在多数类样本中的噪声点,因此可以将其识别难度值确定为零。
可选的,步骤130可以具体通过以下步骤实现:
S1301、针对每个少数类样本,从初始样本集中确定少数类样本的近邻参数个近邻样本,形成近邻样本集。
S1302、将存在于多数类样本集的近邻样本作为多数类近邻样本,形成多数类近邻样本集,将存在于少数类样本集的近邻样本作为少数类近邻样本,形成少数类近邻样本集。
S1303、确定少数类样本与多数类近邻样本集的多数类空间距离,以及少数类样本与少数类近邻样本集的少数类空间距离。
进一步的,S1303可以具体通过以下方式实现:分别将各多数类近邻样本与少数类样本的空间距离作为各多数类近邻样本对应的多数样本空间距离,确定所有多数样本空间距离的平均值为多数类近邻样本集中的多数类空间距离;分别将各少数类近邻样本与少数类样本的空间距离作为各少数类近邻样本对应的少数样本空间距离,确定所有少数样本空间距离的平均值为少数类近邻样本集中的少数类空间距离。
S1304、根据多数类空间距离与少数类空间距离,确定少数类样本的识别难度。
进一步的,S1304可以具体通过以下方式实现:当多数类空间距离为零时,少数类样本的识别难度为零;当多数类空间距离不为零时,将少数类空间距离与多数类空间距离之比作为少数类样本的识别难度。
示例性的,可以预先设定近邻参数K,也就是从初始样本集中取少数类样本的K近邻的样本作为近邻样本。对于某一个少数类样本xi,其识别难度可以用ui表示:
Figure BDA0003503273350000101
其中,Dl可以表示多数类近邻样本集,Ds可以表示少数类近邻样本集,lenl可以表示多数类近邻样本集中的样本数量,lens可以表示少数类近邻样本集中的样本数量,dil可以表示多数样本空间距离,dis可以表示少数样本空间距离,Dil可以表示多数类空间距离,Dis可以表示少数类空间距离。
当少数类样本xi的K近邻样本均为少数类近邻样本时,由于没有多数类近邻样本,Dil为0,此时识别难度的分母为0,这种情况下,我们令ui=0,原因是该样本的近邻没有多数类样本,因此认为其不在分类边界处。当少数类样本xi的K近邻样本均为多数类样本时,Dis为0,此时亦认为xi不在分类边界,且由于近邻没有少数类样本,因此认为它是处在多数类样本中的噪声点,因此xi的识别难度为0。
其中,空间距离的计算方式可以包括:欧氏距离计算方式、曼氏距离计算方式、切比雪夫距离计算方式和/或闵可夫斯基距离计算方式。
在本实施例中,可以采取上述任意一种距离度量方式或其他任意一种可以实现的距离度量方式计算两个样本之间的空间距离。假设任意两点P={x1,x2,...,xn},Q={y1,y2,...,yn},那么两点的空间距离可以表示如下:
欧氏距离:
Figure BDA0003503273350000111
曼氏距离:
Figure BDA0003503273350000112
切比雪夫距离:
Figure BDA0003503273350000113
闵可夫斯基距离:
Figure BDA0003503273350000114
p为整数。
步骤140、根据各识别难度,结合样本生成总数量,确定各少数类样本对应的样本生成分数量。
在本实施例中,由于少数类样本的识别难度取值表示少数类样本与分类边界的远近程度,某少数类样本的识别难度越高,可以表示该少数类样本与分类边界越近,因此该少数类样本对应的样本生成分数量越多;某少数类样本的识别难度越低,可以表示该少数类样本与分类边界越远,相应的该少数类样本对应的样本生成分数量越少。
可选的,步骤140可以具体通过以下步骤实现:
S1401、对各少数类样本的识别难度进行归一化,得到各少数类样本的过采样数量占比。
S1402、将各过采样数量占比与样本生成总数量之积,确定为对应少数类样本的样本生成分数量。
示例性的,可以对各少数类样本的识别难度进行归一化
Figure BDA0003503273350000121
少数类样本的样本生成分数量则可以表示为
Figure BDA0003503273350000122
步骤150、采用线性插值的方法,针对各少数类样本生成对应样本生成分数量个新样本数据,以实现样本均衡。
示例性的,对任一少数类样本xi,可以重复
Figure BDA0003503273350000123
次以下流程:随机选择一个少数类近邻样本xn,通过线性插值的方式随机生成一个新样本数据xnew=xi+λ(xn-xi),其中λ可以为0与1之间的一个随机数。
本实施例的技术方案,通过对获取到的初始样本集进行划分,得到多数类样本集和少数类样本集;根据多数类样本集和少数类样本集包含的样本数量,确定样本生成总数量;基于少数类样本集中少数类样本的空间分布情况,确定各少数类样本的识别难度;根据各识别难度,结合样本生成总数量,确定各少数类样本对应的样本生成分数量;采用线性插值的方法,针对各少数类样本生成对应样本生成分数量个新样本数据,以实现样本均衡,解决了现有样本均衡方法实现过程中会造成噪声放大,容易导致分类边界模糊,影响分类模型对分类边界处样本识别的问题。本实施例通过确定各少数类样本的识别难度,针对性的生成对应数量的新样本,实现在样本过采样时有效减少噪声,在样本分类边界模糊处生成更多新样本,进而提高分类模型的训练效果,使分类模型更注重在分类边界处的学习。
实施例二
本发明实施例所提供的样本均衡装置可执行本发明任意实施例所提供的样本均衡方法,具备执行方法相应的功能模块和有益效果。图2是本发明实施例二提供的一种样本均衡装置的结构框图,如图2所示,该装置包括:初始样本划分模块210、生成总数量确定模块220、识别难度确定模块230、生成分数量确定模块240和样本均衡实现模块250。
初始样本划分模块210,用于对获取到的初始样本集进行划分,得到多数类样本集和少数类样本集。
生成总数量确定模块220,用于根据所述多数类样本集和所述少数类样本集包含的样本数量,确定样本生成总数量。
识别难度确定模块230,用于基于所述少数类样本集中少数类样本的空间分布情况,确定各所述少数类样本的识别难度。
生成分数量确定模块240,用于根据各所述识别难度,结合所述样本生成总数量,确定各所述少数类样本对应的样本生成分数量。
样本均衡实现模块250,用于采用线性插值的方法,针对各所述少数类样本生成对应样本生成分数量个新样本数据,以实现样本均衡。
本实施例的技术方案,通过对获取到的初始样本集进行划分,得到多数类样本集和少数类样本集;根据多数类样本集和少数类样本集包含的样本数量,确定样本生成总数量;基于少数类样本集中少数类样本的空间分布情况,确定各少数类样本的识别难度;根据各识别难度,结合样本生成总数量,确定各少数类样本对应的样本生成分数量;采用线性插值的方法,针对各少数类样本生成对应样本生成分数量个新样本数据,以实现样本均衡,解决了现有样本均衡方法实现过程中会造成噪声放大,容易导致分类边界模糊,影响分类模型对分类边界处样本识别的问题。本实施例通过确定各少数类样本的识别难度,针对性的生成对应数量的新样本,实现在样本过采样时有效减少噪声,在样本分类边界模糊处生成更多新样本,进而提高分类模型的训练效果,使分类模型更注重在分类边界处的学习。
可选的,所述生成总数量确定模块220,包括:
样本数量确定单元,用于将所述多数类样本集包含的样本数量确定为多数类样本数量,所述少数类样本集包含的样本数量确定为少数类样本数量;
总值差值确定单元,用于将所述多数类样本数量与所述少数类样本数量之和确定为样本数量总值,所述多数类样本数量与所述少数类样本数量之差确定为样本数量差值;
生成总数量确定单元,用于获取过采样阈值和平衡因子,当所述少数类样本数量与所述样本数量总值之比小于等于所述过采样阈值时,将所述样本数量差值和所述平衡因子之积确定为样本生成总数量。
可选的,所述识别难度确定模块230,包括:
近邻样本集确定单元,用于针对每个少数类样本,从所述初始样本集中确定所述少数类样本的近邻参数个近邻样本,形成近邻样本集;
近邻样本集划分单元,用于将存在于所述多数类样本集的近邻样本作为多数类近邻样本,形成多数类近邻样本集,将存在于所述少数类样本集的近邻样本作为少数类近邻样本,形成少数类近邻样本集;
空间距离确定单元,用于确定所述少数类样本与所述多数类近邻样本集的多数类空间距离,以及所述少数类样本与所述少数类近邻样本集的少数类空间距离;
识别难度确定单元,用于根据所述多数类空间距离与所述少数类空间距离,确定所述少数类样本的识别难度。
可选的,所述空间距离确定单元,包括:
多数类空间距离确定子单元,用于分别将各所述多数类近邻样本与所述少数类样本的空间距离作为各所述多数类近邻样本对应的多数样本空间距离,确定所有多数样本空间距离的平均值为所述多数类近邻样本集中的多数类空间距离;
少数类空间距离确定子单元,用于分别将各所述少数类近邻样本与所述少数类样本的空间距离作为各所述少数类近邻样本对应的少数样本空间距离,确定所有少数样本空间距离的平均值为所述少数类近邻样本集中的少数类空间距离。
可选的,所述空间距离的计算方式包括:欧氏距离计算方式、曼氏距离计算方式、切比雪夫距离计算方式和/或闵可夫斯基距离计算方式。
可选的,所述识别难度确定单元,包括:
第一识别难度确定子单元,用于当所述多数类空间距离为零时,所述少数类样本的识别难度为零;
第二识别难度确定子单元,用于当所述多数类空间距离不为零时,将所述少数类空间距离与所述多数类空间距离之比作为所述少数类样本的识别难度。
可选的,所述生成分数量确定模块240,包括:
数量占比确定单元,用于对各所述少数类样本的识别难度进行归一化,得到各所述少数类样本的过采样数量占比;
生成分数量确定单元,用于将各所述过采样数量占比与所述样本生成总数量之积,确定为对应少数类样本的样本生成分数量。
实施例三
图3为本发明实施例三提供的一种计算机设备的结构框图,如图3所示,该计算机设备包括处理器310、存储器320、输入装置330和输出装置340;计算机设备中处理器310的数量可以是一个或多个,图3中以一个处理器310为例;计算机设备中的处理器310、存储器320、输入装置330和输出装置340可以通过总线或其他方式连接,图3中以通过总线连接为例。
存储器320作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的样本均衡方法对应的程序指令/模块(例如,样本均衡装置中的初始样本划分模块210、生成总数量确定模块220、识别难度确定模块230、生成分数量确定模块240和样本均衡实现模块250)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的样本均衡方法。
存储器320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器320可进一步包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置330可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。
实施例四
本发明实施例四还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种样本均衡方法,该方法包括:
对获取到的初始样本集进行划分,得到多数类样本集和少数类样本集;
根据所述多数类样本集和所述少数类样本集包含的样本数量,确定样本生成总数量;
基于所述少数类样本集中少数类样本的空间分布情况,确定各所述少数类样本的识别难度;
根据各所述识别难度,结合所述样本生成总数量,确定各所述少数类样本对应的样本生成分数量;
采用线性插值的方法,针对各所述少数类样本生成对应样本生成分数量个新样本数据,以实现样本均衡。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的样本均衡方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述样本均衡装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种样本均衡方法,其特征在于,包括:
对获取到的初始样本集进行划分,得到多数类样本集和少数类样本集;
根据所述多数类样本集和所述少数类样本集包含的样本数量,确定样本生成总数量;
基于所述少数类样本集中少数类样本的空间分布情况,确定各所述少数类样本的识别难度;
根据各所述识别难度,结合所述样本生成总数量,确定各所述少数类样本对应的样本生成分数量;
采用线性插值的方法,针对各所述少数类样本生成对应样本生成分数量个新样本数据,以实现样本均衡。
2.根据权利要求1所述的样本均衡方法,其特征在于,所述根据所述多数类样本集和所述少数类样本集包含的样本数量,确定样本生成总数量,包括:
将所述多数类样本集包含的样本数量确定为多数类样本数量,所述少数类样本集包含的样本数量确定为少数类样本数量;
将所述多数类样本数量与所述少数类样本数量之和确定为样本数量总值,所述多数类样本数量与所述少数类样本数量之差确定为样本数量差值;
获取过采样阈值和平衡因子,当所述少数类样本数量与所述样本数量总值之比小于等于所述过采样阈值时,将所述样本数量差值和所述平衡因子之积确定为样本生成总数量。
3.根据权利要求1所述的样本均衡方法,其特征在于,所述基于所述少数类样本集中少数类样本的空间分布情况,确定各所述少数类样本的识别难度,包括:
针对每个少数类样本,从所述初始样本集中确定所述少数类样本的近邻参数个近邻样本,形成近邻样本集;
将存在于所述多数类样本集的近邻样本作为多数类近邻样本,形成多数类近邻样本集,将存在于所述少数类样本集的近邻样本作为少数类近邻样本,形成少数类近邻样本集;
确定所述少数类样本与所述多数类近邻样本集的多数类空间距离,以及所述少数类样本与所述少数类近邻样本集的少数类空间距离;
根据所述多数类空间距离与所述少数类空间距离,确定所述少数类样本的识别难度。
4.根据权利要求3所述的样本均衡方法,其特征在于,所述确定所述少数类样本与所述多数类近邻样本集的多数类空间距离,以及所述少数类样本与所述少数类近邻样本集的少数类空间距离,包括:
分别将各所述多数类近邻样本与所述少数类样本的空间距离作为各所述多数类近邻样本对应的多数样本空间距离,确定所有多数样本空间距离的平均值为所述多数类近邻样本集中的多数类空间距离;
分别将各所述少数类近邻样本与所述少数类样本的空间距离作为各所述少数类近邻样本对应的少数样本空间距离,确定所有少数样本空间距离的平均值为所述少数类近邻样本集中的少数类空间距离。
5.根据权利要求4所述的样本均衡方法,其特征在于,所述空间距离的计算方式包括:欧氏距离计算方式、曼氏距离计算方式、切比雪夫距离计算方式和/或闵可夫斯基距离计算方式。
6.根据权利要求3所述的样本均衡方法,其特征在于,所述根据所述多数类空间距离与所述少数类空间距离,确定所述少数类样本的识别难度,包括:
当所述多数类空间距离为零时,所述少数类样本的识别难度为零;
当所述多数类空间距离不为零时,将所述少数类空间距离与所述多数类空间距离之比作为所述少数类样本的识别难度。
7.根据权利要求1所述的样本均衡方法,其特征在于,所述根据各所述识别难度,结合所述样本生成总数量,确定各所述少数类样本对应的样本生成分数量,包括:
对各所述少数类样本的识别难度进行归一化,得到各所述少数类样本的过采样数量占比;
将各所述过采样数量占比与所述样本生成总数量之积,确定为对应少数类样本的样本生成分数量。
8.一种样本均衡装置,其特征在于,包括:
初始样本划分模块,用于对获取到的初始样本集进行划分,得到多数类样本集和少数类样本集;
生成总数量确定模块,用于根据所述多数类样本集和所述少数类样本集包含的样本数量,确定样本生成总数量;
识别难度确定模块,用于基于所述少数类样本集中少数类样本的空间分布情况,确定各所述少数类样本的识别难度;
生成分数量确定模块,用于根据各所述识别难度,结合所述样本生成总数量,确定各所述少数类样本对应的样本生成分数量;
样本均衡实现模块,用于采用线性插值的方法,针对各所述少数类样本生成对应样本生成分数量个新样本数据,以实现样本均衡。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的样本均衡方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的样本均衡方法。
CN202210132426.7A 2022-02-14 2022-02-14 一种样本均衡方法、装置、设备及存储介质 Pending CN114511760A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210132426.7A CN114511760A (zh) 2022-02-14 2022-02-14 一种样本均衡方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210132426.7A CN114511760A (zh) 2022-02-14 2022-02-14 一种样本均衡方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114511760A true CN114511760A (zh) 2022-05-17

Family

ID=81551363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210132426.7A Pending CN114511760A (zh) 2022-02-14 2022-02-14 一种样本均衡方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114511760A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544902A (zh) * 2022-11-29 2022-12-30 四川骏逸富顿科技有限公司 药店风险等级识别模型生成方法及药店风险等级识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544902A (zh) * 2022-11-29 2022-12-30 四川骏逸富顿科技有限公司 药店风险等级识别模型生成方法及药店风险等级识别方法

Similar Documents

Publication Publication Date Title
Curtis et al. Exploiting negative curvature in deterministic and stochastic optimization
US20200286095A1 (en) Method, apparatus and computer programs for generating a machine-learning system and for classifying a transaction as either fraudulent or genuine
Xing et al. Benefit of interpolation in nearest neighbor algorithms
CN110428139A (zh) 基于标签传播的信息预测方法及装置
Martens et al. Ant-based approach to the knowledge fusion problem
Fan et al. Surrogate-based promising area search for Lipschitz continuous simulation optimization
CN112347246B (zh) 一种基于谱分解的自适应文档聚类方法及系统
Grant et al. Adaptive sensor placement for continuous spaces
CN111062431A (zh) 图像聚类方法、图像聚类装置、电子设备及存储介质
CN114511760A (zh) 一种样本均衡方法、装置、设备及存储介质
Duy et al. Exact statistical inference for the Wasserstein distance by selective inference: Selective Inference for the Wasserstein Distance
Buchholz et al. Enhancing evolutionary algorithms with statistical selection procedures for simulation optimization
CN117155701A (zh) 一种网络流量入侵检测方法
CN105991574A (zh) 风险行为监控方法及装置
de Araujo et al. Impact of feature selection methods on the classification of DDoS attacks using XGBoost
CN115496501A (zh) 交易金额核验方法及装置
CN114818369A (zh) 一种连续式跨声速风洞部段设计方法及系统及装置及介质
CN115169455A (zh) 基于改进的社区发现算法的交易数据异常检测方法及装置
Cestnik Revisiting the optimal probability estimator from small samples for data mining
Rahman et al. Iterative Feature Selection Using Information Gain & Naïve Bayes for Document Classification
CN112765236A (zh) 自适应异常设备挖掘方法、存储介质、设备及系统
Bartley et al. A novel technique for integrating monotone domain knowledge into the random forest classifier
Rivier et al. Non‐parametric measure approximations for constrained multi‐objective optimisation under uncertainty
CN113162914B (zh) 一种基于Taylor神经网络的入侵检测方法及系统
Sagar et al. Rough Set and Genetic Based Approach for Maximization of Weighted Association Rules.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination