CN114186605A - 少数类样本处理方法、装置、设备和存储介质 - Google Patents

少数类样本处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN114186605A
CN114186605A CN202111273040.XA CN202111273040A CN114186605A CN 114186605 A CN114186605 A CN 114186605A CN 202111273040 A CN202111273040 A CN 202111273040A CN 114186605 A CN114186605 A CN 114186605A
Authority
CN
China
Prior art keywords
minority
samples
sample
synthesized
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111273040.XA
Other languages
English (en)
Inventor
陈丽娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202111273040.XA priority Critical patent/CN114186605A/zh
Publication of CN114186605A publication Critical patent/CN114186605A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种少数类样本处理方法、装置、设备和存储介质,本申请实施例涉及大数据技术领域。其中,确定少数类训练样本集中不同原始少数类样本之间的距离数据;根据各所述距离数据,分别确定各所述原始少数类样本的采样权重;根据各所述采样权重,分别以相应原始少数类样本为根样本,生成合成少数类样本。本申请实施例的技术方案引入采样权重生成合成少数类样本,从而增加了少数类样本的整体数量,平衡了原有所有样本数据的相对数量;同时,以采样权重为标准,对原有的少数类样本进行筛选,在保证样本分布情况不变的前提下对少数类样本进行合成,提高了少数类样本生成的质量。

Description

少数类样本处理方法、装置、设备和存储介质
技术领域
本申请实施例涉及大数据技术领域,尤其涉及一种少数类样本处理方法、装置、设备和存储介质。
背景技术
随着计算机技术和互联网技术的发展,金融、医疗等社会基础行业的运作模式得到了巨大改进,面对大量数据的处理,技术的改革带来了全新的处理方式。
当前对于少数类样本数据的处理,主要利用SMOTE(Synthetic MinorityOversampling Technique,合成少数类过采样技术)方法,通过线性插值方法生成少数类样本数据,以平衡样本数据的数量。
但是,该方法容易出现噪声样本和边界样本,改变了原有样本数据的分布情况,影响了整体样本的真实性,妨碍了对样本模型的训练。
发明内容
本申请提供一种少数类样本处理方法、装置、设备和存储介质,以实现根据样本之间距离生成合成少数类样本。
第一方面,本申请实施例提供了一种少数类样本处理方法,包括:
确定少数类训练样本集中不同原始少数类样本之间的距离数据;
根据各所述距离数据,分别确定各所述原始少数类样本的采样权重;
根据各所述采样权重,分别以相应原始少数类样本为根样本,生成合成少数类样本。
第二方面,本申请实施例还提供了一种少数类样本处理装置,该装置包括:
距离确定模块,用于确定少数类训练样本集中不同原始少数类样本之间的距离数据;
权重确定模块,用于根据各所述距离数据,分别确定各所述原始少数类样本的采样权重;
样本合成模块,用于根据各所述采样权重,分别以相应原始少数类样本为根样本,生成合成少数类样本。
第三方面,本申请实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本申请任一实施例所述的一种少数类样本处理方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请任一实施例所述的一种少数类样本处理方法。
本申请实施例的技术方案通过原始少数类样本之间的距离确定了采样权重,并根据采样权重生成新的合成少数类样本,从而增加了少数类样本的整体数量,平衡了原有所有样本数据的相对数量;同时,上述技术方案以采样权重为标准,对原有的少数类样本进行筛选,在保证样本分布情况不变的前提下对少数类样本进行合成,提高了少数类样本生成的质量。
附图说明
图1是本申请实施例一中的一种少数类样本处理方法的流程图;
图2是本申请实施例二中的一种少数类样本处理方法的流程图;
图3是本申请实施例三中的一种少数类样本处理方法的流程图;
图4是本申请实施例四中的一种少数类样本处理方法的流程图;
图5是本申请实施例五中的一种少数类样本处理装置的结构图;
图6是本申请实施例六中的一种电子设备的结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
实施例一
图1是本申请实施例一提供的一种少数类样本处理方法的流程图。本申请实施例可适用于平衡样本数量与样本分布的情况,该方法可以由一种少数类样本处理装置来执行,该装置可以采用软件和/或硬件实现,并具体配置于电子设备中。
参考图1所示的少数类样本处理方法,具体包括如下步骤:
S110、确定少数类训练样本集中不同原始少数类样本之间的距离数据。
其中,少数类样本可以是在二分类模型中样本数据中数量较少的一类样本。例如在金融领域中,将无信用风险的用户作为正样本,将有信用风险的用户作为负样本进行二分类,其中正样本数量远大于负样本数量,因此负样本可以作为少数类样本。
原始少数类样本是真实的未经处理的少数类样本,少数类训练样本集可以是针对二分类模型训练所需要的原始少数类样本的集合。不同的原始少数类样本在样本集中位置一般不同,对各原始少数类样本之间的距离进行计算,该距离计算可以采用欧氏距离,还可以采用闵氏距离、曼哈顿距离等,本申请实施例对此不作限定。
S120、根据各所述距离数据,分别确定各所述原始少数类样本的采样权重。
S130、根据各所述采样权重,分别以相应原始少数类样本为根样本,生成合成少数类样本。
某一个原始少数类样本的采样权重是指为生成新的合成少数类样本时,以该原始少数类样本为基础生成的新样本数量,占预设生成的新样本总数的概率。例如,根据某原始少数类样本到其他原始少数类样本的距离,确定该样本的采样权重为5%,当预设生成新样本100个时,以该原始少数类样本为基础,应生成5个新的合成少数类样本。合成少数类样本是以原始少数类样本为基础生成的新的少数类样本,可以补充少数类样本的数量,以平衡整体样本数据。
可选的,可以根据所有原始少数类样本之间的距离数据,确定这批少数类样本数据的样本中心,再根据不同的原始少数类样本相距样本中心的距离确定偏离程度。例如,可以设置偏离程度高的原始少数类样本采样权重低,对原始少数类样本的选择重要程度高;设置偏离程度低的原始少数类样本采样权重高,对原始少数类样本的选择重要程度低。
由于合成少数类样本是由原始少数类样本生成的,所以相应的原始少数类样本是该合成少数类样本的根样本。具体的,根据对原始少数类样本选择的重要程度对所有的原始少数类样本进行选择,以其中部分原始少数类样本为基础,生成新的合成少数类样本,可以选择采样权重高的原始少数类样本作为根样本。
本申请实施例的技术方案通过原始少数类样本之间的距离确定了采样权重,并根据采样权重生成新的合成少数类样本,从而增加了少数类样本的整体数量,平衡了原有所有样本数据的相对数量;同时,上述技术方案以采样权重为标准,对原有的少数类样本进行筛选,在保证样本分布情况不变的前提下对少数类样本进行合成,提高了少数类样本生成的质量。
在一种可选实施方式中,所述根据各所述采样权重,分别以相应原始少数类样本为根样本,生成合成少数类样本,可以包括:根据预设合成样本总量和各所述采样权重,分别确定各原始少数类样本的采样数量;根据各所述采样数量,分别以相应原始少数类样本为根样本,生成合成少数类样本。
预设合成样本总量即预设生成合成少数类样本的数量,预设合成样本总量可以根据整体样本数量中多数类样本和少数类样本数量的差确定。采样数量是指以某原始少数类样本为根样本生成的合成少数类样本的数量。例如,当前多数类样本数量是少数类样本数量的4倍,需要补充少数类样本的数量以平衡整体样本数量,多数类样本比少数类样本多150个,因此可以设置预设合成样本总量为150。某原始少数类样本的采样权重是10%,则以该原始少数类样本为根样本,新生成15个合成少数类样本,即采样数量为15。
本申请实施例的技术方案通过原始少数类样本之间的距离确定了采样权重,并根据采样权重生成新的合成少数类样本,从而增加了少数类样本的整体数量,平衡了原有所有样本数据的相对数量;同时,上述技术方案以采样权重为标准,对原有的少数类样本进行筛选,在保证样本分布情况不变的前提下对少数类样本进行合成,提高了少数类样本生成的质量。
实施例二
图2为本申请实施例二提供的一种少数类样本处理方法的流程图。本申请实施例是在前述实施例各技术方案的基础上,对原始少数类样本采样权重的获取操作进行了优化,以实现根据偏离程度确定采样权重。
参考图2所示的一种少数类样本处理方法,具体包括如下步骤:
S210、确定少数类训练样本集中不同原始少数类样本之间的距离数据。
S220、根据各所述距离数据,分别确定各所述原始少数类样本的累计距离数据。
其中,累计距离数据是少数类样本中的单一样本到其他少数类样本的距离之和,该距离之和可以体现此单一样本在少数类样本中的分布情况,距离之和越大,该单一样本距离样本中心越远,反之距离样本中心越近。
具体的,在确定了不同原始少数类样本之间的距离后,依次计算各少数类样本到其他少数类样本的距离之和。例如,可以选择用欧式距离计算少数类样本之间的距离,并计算各少数类样本到其他少数类样本的欧式距离之和Di,某样本的Di越大,则该样本属于少数类样本分布的边缘区、稀疏区;Di越小,则该样本属于少数类样本分布的中心区、集中区。
具体的,采用以下公式确定各原始少数类样本的累计距离数据:
Figure RE-GDA0003496435130000071
其中,Xi为第i个原始少数类样本,Xi=(xi1,…,xik,…,xim);m为样本维度; i=1,2,…,n;n为原始少数类样本的样本数量。Dij(Xi,Xj)为原始少数类样本Xi与原始少数类样本Xj之间的距离数据;Di为原始少数类样本Xi的累计距离数据。
S230、根据各所述累计距离数据,分别确定各原始少数类样本的边界偏离程度。
原始少数类样本的边界偏离程度,反映了该原始少数类样本全部原始少数类样本的样本边界的距离,距离样本边界越近,也即距离样本中心越远,则边界偏离程度越小,距离样本边界越远,也即距离样本中心越近,边界偏离程度越大。
示例性的,可以基于预设函数,根据各累计距离数据,分别确定各原始少数类样本的边界偏离程度;其中,预设函数自变量为累计距离数据,因变量为累计偏离程度,且预设函数是累计距离数据的减函数。
可选的,根据各累计距离数据,分别确定各原始少数类样本的边界偏离程度,可以是:获取各累计距离数据中的最大值;将最大值与各累计距离数据的差值,作为边界距离值;根据边界距离值,确定对应原始少数类样本的边界偏离程度。
其中,边界距离值用于该原始少数类样本距离少数类样本边界的距离数值。
在一个具体实现方式中,根据边界偏离值,确定对应原始少数类样本的边界偏离程度,可以是:直接将边界距离值,作为对应原始少数类样本的边界偏离程度。
由于不同原始少数类样本距离少数类样本边界的距离数值的差异较大,因此,直接将边界距离值作为边界偏离程度,进行采样权重的确定,将会存在采样权重差异过大,导致后续生成的合成少数类样本分布不均衡的情况。为了避免上述情况的发生,在另一具体实现方式中,根据边界偏离值,确定对应原始少数类样本的边界偏离程度,可以是:确定各累计距离数据中的最大距离差值;根据边界距离值与最大距离差值的比值,确定相应原始少数类样本的边界偏离程度。
可选的,可以直接将边界距离值与最大距离差值的比值,作为相应原始少数类样本的边界偏离程度,从而达到对各原始少数类样本的累计距离数据进行标准化的目的,消除了数据离散带来采样权重分配不合理的情况发生,进而避免了由于采样权重分配不合理使得最终生成的合成少数类样本与原始少数类样本分布不匹配的情况发生。
具体的,可以采用以下公式,确定边界偏离程度:
Figure RE-GDA0003496435130000081
其中,Li为原始少数类样本Xi的边界偏离程度,Dmax为累计距离偏差中的最大值,Dmin为累计距离偏差中的最小值。
S240、根据各所述边界偏离程度,分别确定各所述原始少数类样本的采样权重。
示例性的,根据各所述边界偏离程度,分别确定各所述原始少数类样本的采样权重,可以是:根据各边界偏离程度,确定偏离等级;根据偏离等级,确定原始少数类样本的采样权重。例如,可以预先确定边界偏离区间,并设定不同边界偏离区间对应的数值型采样权重;其中,各边界偏离区间对应的采样权重之和为1。
在一个具体实现方式中,若相同边界偏离区间对应的原始少数类样本数量为至少两个时,可以将该边界偏离区间对应的采样权重均分,将均值作为各原始少数类样本的采样权重。
需要说明的是,通过预先设定边界偏离区间与采样权重对应关系的方式,仅能粗粒度的表征各原始少数类样本的分布情况,为了进一步提高采样权重与原始少数类样本分布情况的匹配度,示例性的,根据各所述边界偏离程度,分别确定各所述原始少数类样本的采样权重,可以是:根据各所述边界偏离程度,确定累计边界偏离程度;根据所述边界偏离程度与所述累计边界偏离程度的比值,确定相应原始少数类样本的采样权重。
通过边界偏离程度与累计边界偏离程度的比值,能够量化不同原始少数类样本与少数类样本边界的相对偏离距离,将该比值作为相应原始少数类样本的采样权重,能够提高采样权重与原始少数类样本的原始分布情况的匹配度。其中,该比值越大,表明距离少数类样本边界的距离越大,距离少数类样本中心的距离越小,相应的采样权重数值也越大;该比值越小,表明距离少数类样本边界的距离越小,距离少数类样本中心的距离越大,相应的采样权重数值也越小。
具体的,可以采用以下公式,确定采样权重:
Figure RE-GDA0003496435130000091
其中,Wi为原始少数类样本Xi的采样权重。
S250、根据各所述采样权重,分别以相应原始少数类样本为根样本,生成合成少数类样本。
示例性的,可以根据预设合成样本总量和各所述采样权重,分别确定各原始少数类样本的采样数量;根据各所述采样数量,分别以相应原始少数类样本为根样本,生成合成少数类样本。
具体的,可以采用以下公式,确定采样数量:
Ni=Wi×N;
其中,Ni为原始少数类样本Xi的采样数量;N为预设合成样本总量。
本申请实施例的技术方案,通过将采样权重的确定操作,细化为根据各距离数据,分别确定各原始少数类样本的累计距离数据;根据各累计距离数据,分别确定各原始少数类样本的边界偏离程度;根据各边界偏离程度,分别确定各原始少数类样本的采样权重。通过上述技术方案进行采样权重的确定,计算边界,数据运算量小。同时,引入边界偏离程度进行采样权重的确定,使得所确定的采样权重能够有效反应原始少数类样本的分布情况,提高了合成少数类样本与原始少数类样本的分布情况的契合度,降低了合成少数类样本对原始少数类样本的分布情况的影响。
实施例三
图3为本申请实施例三提供的一种少数类样本处理方法的流程图。本申请实施例是在前述实施例各技术方案的基础上,对分类模型的训练操作进行了补充,以实现根据生成后的全部少数类样本对分类模型进行训练。
参考图3所示的一种少数类样本处理方法,具体包括如下步骤:
S310、确定少数类训练样本集中不同原始少数类样本之间的距离数据。
S320、根据各所述距离数据,分别确定各所述原始少数类样本的采样权重。
S330、根据各所述采样权重,分别以相应原始少数类样本为根样本,生成合成少数类样本。
S340、将所述至少一个合成少数类样本添加至所述少数类训练样本集中,以更新所述少数类训练样本集。
原有的少数类训练样本集中仅包含原始少数类样本,通过前述实施例的操作,生成了合成少数类样本,将新生成的样本数据补充到少数类训练样本集中,以增加少数类样本的数量。
S350、根据更新后的少数类训练样本集,对待训练分类模型进行训练,得到目标分类模型。
待训练分类模型可以是用以对数据进行分类的模型,通过样本数据对模型的分类能力进行训练。使用补充过样本的少数类训练样本集对待训练分类模型进行训练,将训练得到的有分类能力的模型作为目标分类模型。其中,待训练分类模型通常为进行多数类和少数类的二分类模型。
在一个可选实施方式中,所述少数类样本处理方法还可以包括:识别各所述合成少数类样本中的异常合成样本;从更新后的少数类训练样本集中剔除所述异常合成样本,以再次更新少数类训练样本集;将再次更新后的少数类训练样本集中的样本作为原始少数类样本,返回执行距离数据确定操作,直至满足迭代截止条件。
其中,异常合成样本是指生成的合成少数类样本中不符合少数类样本特性的样本,例如边缘样本和噪声样本。迭代截至条件是指停止迭代操作的预设条件,例如可以是模型的迭代的次数到达了预设数值,还可以根据模型迭代的效果进行截止,比如模型的模型评价参数趋于稳定。其中,模型评价参数可以包括敏感型、特异性、查准率、和准确度等中的至少一种。
上述实施方式对少数类训练样本集中的异常合成样本进行剔除,并通过迭代的方式对分类模型进行训练,解决分类模型训练过程中异常样本对训练结果的负面影响,有助于提升基于剔除异常合成样本后的少数类训练样本集对分类模型的训练效果。
在一个可选实施例中,可以通过对添加合成少数类样本的少数类训练集进行聚类分析,确定聚类中心;将距离聚类中心距离大于预设距离的合成少数类样本作为异常合成样本。
在另一可选实施例中,所述识别各所述合成少数类样本中的异常合成样本,可以包括:将各所述合成少数类样本输入至所述目标分类模型,得到各所述合成少数类样本的合成预测类别;根据所述合成少数类样本的合成预测类别和合成真实类别,确定异常合成样本。
其中,合成预测类别是目标分类模型对输入的少数类样本的分类预测,合成真实类别是合成样本的本身真实的分类,本申请实施例中,合成真实类别是少数类。
具体的,针对每一合成少数类样本,将该合成少数类样本输入至目标分类模型,并将模型输出结果作为合成预测类别;若合成预测类别为少数类,则确定该合成少数类样本为异常样本;若合成预测类别为多数类,则确定该合成少数类样本为异常合成样本。
上述实施方式通过分类模型对合成样本的分类预测,识别出异常合成样本,为少数类训练样本集剔除异常样本提供依据,提高了更新后的少数类训练样本集中的样本质量,有助于提升基于提出异常合成样本后的少数类训练样本集对分类模型的训练效果。
需要说明的是,通过采用目标分类模型进行异常合成样本的剔除,可能存在由于目标分类模型自身性能较差的情况,导致将正常合成样本误识别为异常合成样本的情况。为了避免上述情况的发生,在进行异常合成样本识别之前,还可以追加对目标分类模型的模型评价操作,从容保证目标分类模型的模型性能。在一种可选实施方式中,在所述识别各所述合成少数类样本中的异常合成样本之前,所述少数类样本处理方法还可以包括:对所述目标分类模型进行模型评价。相应的,所述识别各所述合成少数类样本中的异常合成样本,可以包括:若模型评价结果符合优化迭代条件,则识别各所述合成少数类样本中的异常合成样本。
模型评价是在每次迭代过程中对分类模型进行评估,以确定模型是否达到预想的分类效果。评价的指标可以包括但不限于:特异性、敏感性、查准率和准确度等。优化迭代条件即为目标分类模型自身性能较好,需要通过优化少数来样本质量,进一步提升目标分类模型性能的触发条件。在一个具体实现方式中,优化迭代条件可以是评价指标超出预设评价指标阈值、或评价指标趋于平稳、迭代次数超出第一迭代阈值等。需要说明的是,优化迭代条件与前述迭代截止条件不同。迭代介质条件通常较优化迭代条件更为严苛。例如,优化迭代条件和迭代截止条件均为准确度大于对应准确度阈值,则迭代截止条件的准确度阈值高于优化迭代条件的准确度阈值。
具体的,在识别异常合成样本前先对目标分类模型进行模型评价,若符合优化迭代条件,则识别少数类训练样本集中的异常合成样本。
在一种可选实施方式中,所述对所述目标分类模型进行模型评价,可以包括:将测试样本输入至所述目标分类模型,得到测试预测类别;根据所述测试样本的测试预测类别和测试真实类别,对所述目标分类模型进行模型评价。
将测试用的样本输入训练好的目标分类模型中,模型会输出预测类别,根据预测类别和样本的真实类别进行模型评价,例如,可以根据模型分类的判断正确情况对模型进行评价。
在一种可选实施方式中,所述根据所述测试样本的测试预测类别和测试真实类别,对所述目标分类模型进行模型评价,可以包括:根据所述测试样本的测试预测类别和测试真实类别的一致性,确定模型评价指标;其中,所述模型评价指标包括特异性、敏感性和查准率中的至少一种。
设定二分类模型中的多数类为正类别,少数类为负类别:特异性是对负类别预测正确的次数占负类别预测全部次数的比例,可以通过公式
Figure RE-GDA0003496435130000141
进行计算,其中,TN为实际负类别预测负类别的个数,FP为实际负类别预测正类别的个数。
敏感性是对正类别预测正确的次数占正类别预测全部次数的比例,可以通过公式
Figure RE-GDA0003496435130000142
进行计算,其中,TP为实际正类别预测正类别的个数,FN为实际正类别预测负类别的个数。
查准率分为正类别查准率和负类别查准率。正类别查准率即模型判断为正类别时判断正确的次数,占模型判断为正类别全部次数的比例,可以通过公式
Figure RE-GDA0003496435130000143
进行计算;负类别查准率即模型判断为负类别时判断正确的次数,占模型判断为负类别全部次数的比例,可以通过公式
Figure RE-GDA0003496435130000144
进行计算。
多重评价是指至少两种指标的几何平均值作为多重评价的指标。例如,将特异性与敏感性结合进行双重评价,可以通过特异性的数值与敏感性数值相乘再开根号求得该双重评价的参考数值。
上述实施方式对模型评价指标进行了细化,设置了特异性、敏感性、查准率和多重评价等评价指标,有利于从不同的角度对目标分类模型进行评价,从不同的角度反映目标分类模型的分类能力。
本申请实施例通过在少数类训练样本集中引入合成少数类样本,对待训练分类模型进行训练,提高了模型训练过程中的少数类样本占比,从而避免了所训练模型出现少数类样本过拟合情况的发生,从而有助于提高模型的泛化能力,进而提高模型性能。
实施例四
图4为本申请实施例四提供的一种少数类样本处理方法的流程图。本申请实施例实在前述实施例的基础上提供的一种优选实施例,参考图4,其具体实施步骤为:
S401、对所有样本进行筛查,确定不同类型样本的数量。
S402、判断少数类样本的数量与多数类样本的数量之比是否小于预设阈值,若是,则执行S403A;否则,跳转执行S403B。
S403A、计算少数类样本集中各样本到其他样本的欧式距离。
S403B、采用常规方式对预设二分类模型进行训练,得到目标分类模型。
S404、计算少数类样本集中各样本到其他样本的欧氏距离和值。
S405、确定各欧氏距离和值中的最大和值和最小和值。
S406、将最大和值与少数类样本集中各样本的欧氏距离和值之间的差值作为边界距离值;
S407、将最大和值和最小和值的差值作为最大距离差值;
S408、将少数类样本集中各样本的边界距离值与最大距离差值的比值,分别作为对应样本的采样权重。
S409、将少数类样本集中各样本的采样权重与预设合成样本总量的乘积,作为对应样本的采样数量。
S410、以少数类样本集中的各样本为根样本,生成相应采样数量的合成样本。
S411、将合成少数类样本添加至少数类训练样本集中,以更新少数类训练样本集,并采样更新后的少数类训练样本对预设二分类模型进行训练,得到目标分类模型。
S412、采用测试样本对目标分类模型进行评价;
S413、判断评价指标是否大于相应第一预设阈值,则执行S414A;否则执行S414B。
S414A、停止训练目标分类模型。
S414B、判断评价指标是否大于对应第二预设阈值;若是,则执行S415;否则,返回执行S403;
其中,第二预设阈值小于第一预设阈值;
S415、将合成样本输入至目标分类模型中,得到合成预测结果;继续执行 S416。
S416、从少数类样本集中剔除合成预测结果为多数类的合成样本,以更新少数类样本集;
S417、将剔除后的少数类样本集,返回执行S403。
实施例五
图5是本申请实施例五提供的一种少数类样本处理装置的结构图,本申请实施例可适用于平衡样本数量与样本分布的情况,该装置可以由软件和/或硬件的方式来实现,可配置于电子设备中。如图5所示,该装置可以包括:
距离确定模块510,用于确定少数类训练样本集中不同原始少数类样本之间的距离数据;
权重确定模块520,用于根据各所述距离数据,分别确定各所述原始少数类样本的采样权重;
样本合成模块530,用于根据各所述采样权重,分别以相应原始少数类样本为根样本,生成合成少数类样本。
本申请实施例的技术方案通过原始少数类样本之间的距离确定了采样权重,并根据采样权重生成新的合成少数类样本,从而增加了少数类样本的整体数量,平衡了原有所有样本数据的相对数量;同时,上述技术方案以采样权重为标准,对原有的少数类样本进行筛选,在保证样本分布情况不变的前提下对少数类样本进行合成,提高了少数类样本生成的质量。
在一种可选实施方式中,所述权重确定模块520可以包括:
累计距离确定单元,用于根据各所述距离数据,分别确定各所述原始少数类样本的累计距离数据;
边界偏离程度确定单元,用于根据各所述累计距离数据,分别确定各原始少数类样本的边界偏离程度;
采样权重确定单元,用于根据各所述边界偏离程度,分别确定各所述原始少数类样本的采样权重。
在一种可选实施方式中,所述边界偏离程度确定单元可以包括:
最大累计距离获取子单元,用于获取各所述累计距离数据中的最大值;
边界距离值确定子单元,用于将所述最大值与各所述累计距离数据的差值,作为边界距离值;
边界偏离程度确定子单元,用于根据所述边界距离值,确定对应原始少数类样本的所述边界偏离程度。
在一种可选实施方式中,所述边界偏离程度确定子单元可以包括:
最大距离差值确定从单元,用于确定各所述累计距离数据中的最大距离差值;
边界偏离程度确定从单元,用于根据所述边界距离值与所述最大距离差值的比值,确定相应原始少数类样本的所述边界偏离程度。
在一种可选实施方式中,所述采样权重确定单元可以包括:
偏离程度累计子单元,用于根据各所述边界偏离程度,确定累计边界偏离程度;
采样权重确定子单元,用于根据所述边界偏离程度与所述累计边界偏离程度的比值,确定相应原始少数类样本的采样权重。
在一种可选实施方式中,所述权重确定模块520还可以包括:
标准化单元,用于在所述根据各所述累计距离数据,分别确定各原始少数类样本与少数类样本中心的偏离程度之前对各原始少数类样本的累计距离数据,进行标准化处理;
相应的,所述偏离程度确定单元可以包括:
标准化偏离确定子单元,用于根据标准化后的累计距离数据,分别确定各原始少数类样本与少数类样本中心的偏离程度。
在一种可选实施方式中,所述样本合成模块530可以包括:
采样数量确定单元,用于根据预设合成样本总量和各所述采样权重,分别确定各原始少数类样本的采样数量;
合成单元,用于根据各所述采样数量,分别以相应原始少数类样本为根样本,生成合成少数类样本。
在一种可选实施方式中,所述少数类样本处理装置,还可以包括:
样本更新模块,用于将所述至少一个合成少数类样本添加至所述少数类训练样本集中,以更新所述少数类训练样本集;
分类模型发获取模块,用于根据更新后的少数类训练样本集,对待训练分类模型进行训练,得到目标分类模型。
在一种可选实施方式中,所述少数类样本处理装置,还可以包括:
异常识别模块,用于识别各所述合成少数类样本中的异常合成样本;
异常剔除模块,用于从更新后的少数类训练样本集中剔除所述异常合成样本,以再次更新少数类训练样本集;
迭代条件判断模块,用于将再次更新后的少数类训练样本集中的样本作为原始少数类样本,返回执行距离数据确定操作,直至满足迭代截止条件。
在一种可选实施方式中,所述异常识别模块可以包括:
合成预测单元,用于将各所述合成少数类样本输入至所述目标分类模型,得到各所述合成少数类样本的合成预测类别;
异常合成识别单元,用于根据所述合成少数类样本的合成预测类别和合成真实类别,确定异常合成样本。
在一种可选实施方式中,所述异常识别模块,还可以包括:
模型评价单元,用于在所述识别各所述合成少数类样本中的异常合成样本之前对所述目标分类模型进行模型评价;
相应的,所述异常识别模块,可以包括:
优化迭代判断单元,用于若模型评价结果符合优化迭代条件,则识别各所述合成少数类样本中的异常合成样本。
在一种可选实施方式中,所述模型评价单元可以包括:
预测类别获取子单元,用于将测试样本输入至所述目标分类模型,得到测试预测类别;
模型评价子单元,用于根据所述测试样本的测试预测类别和测试真实类别,对所述目标分类模型进行模型评价。
在一种可选实施方式中,所述模型评价子单元具体用于:
根据所述测试样本的测试预测类别和测试真实类别的一致性,确定模型评价指标;
其中,所述模型评价指标包括特异性、敏感性和查准率中的至少一种。
上述少数类样本处理装置可执行本申请任意实施例所提供的少数类样本处理方法,具备执行各少数类样本处理方法相应的功能模块和有益效果。
实施例六
图6是本申请实施例六提供的一种电子设备的结构图。图6示出了适于用来实现本申请实施方式的示例性电子设备612的框图。图6显示的电子设备612 仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,电子设备612以通用计算设备的形式表现。电子设备612的组件可以包括但不限于:一个或者多个处理器或者处理单元616,系统存储器 628,连接不同系统组件(包括系统存储器628和处理单元616)的总线618。
总线618表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构 (ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备612典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备612访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器628可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)630和/或高速缓存存储器632。电子设备612可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统634可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线618相连。存储器628 可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块642的程序/实用工具640,可以存储在例如存储器628中,这样的程序模块642包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块642通常执行本申请所描述的实施例中的功能和/或方法。
电子设备612也可以与一个或多个外部设备614(例如键盘、指向设备、显示器624等)通信,还可与一个或者多个使得用户能与该电子设备612交互的设备通信,和/或与使得该电子设备612能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口622进行。并且,电子设备612还可以通过网络适配器620与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器620通过总线618与电子设备612的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备612使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元616通过运行存储在系统存储器628中的多个程序中其他程序的至少一个,从而执行各种功能应用以及数据处理,例如实现本申请各实施例所提供的少数类样本处理方法。
实施例七
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序 (或称为计算机可执行指令),该程序被处理器执行时用于执行本申请实施例所提供的一种少数类样本处理方法:确定少数类训练样本集中不同原始少数类样本之间的距离数据;根据各所述距离数据,分别确定各所述原始少数类样本的采样权重;根据各所述采样权重,分别以相应原始少数类样本为根样本,生成合成少数类样本。
本申请实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如 Java、Smalltalk、C++,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN) 连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (15)

1.一种少数类样本处理方法,其特征在于,包括:
确定少数类训练样本集中不同原始少数类样本之间的距离数据;
根据各所述距离数据,分别确定各所述原始少数类样本的采样权重;
根据各所述采样权重,分别以相应原始少数类样本为根样本,生成合成少数类样本。
2.根据权利要求1所述的方法,其特征在于,所述根据各所述距离数据,分别确定各所述原始少数类样本的采样权重,包括:
根据各所述距离数据,分别确定各所述原始少数类样本的累计距离数据;
根据各所述累计距离数据,分别确定各原始少数类样本的边界偏离程度;
根据各所述边界偏离程度,分别确定各所述原始少数类样本的采样权重。
3.根据权利要求2所述的方法,其特征在于,所述根据各所述累计距离数据,分别确定各原始少数类样本的边界偏离程度,包括:
获取各所述累计距离数据中的最大值;
将所述最大值与各所述累计距离数据的差值,作为边界距离值;
根据所述边界距离值,确定对应原始少数类样本的所述边界偏离程度。
4.根据权利要求3所述的方法,其特征在于,所述根据所述边界距离值,确定对应原始少数类样本的所述边界偏离程度,包括:
确定各所述累计距离数据中的最大距离差值;
根据所述边界距离值与所述最大距离差值的比值,确定相应原始少数类样本的所述边界偏离程度。
5.根据权利要求2所述的方法,其特征在于,所述根据各所述边界偏离程度,分别确定各所述原始少数类样本的采样权重,包括:
根据各所述边界偏离程度,确定累计边界偏离程度;
根据所述边界偏离程度与所述累计边界偏离程度的比值,确定相应原始少数类样本的采样权重。
6.根据权利要求1所述的方法,其特征在于,所述根据各所述采样权重,分别以相应原始少数类样本为根样本,生成合成少数类样本,包括:
根据预设合成样本总量和各所述采样权重,分别确定各原始少数类样本的采样数量;
根据各所述采样数量,分别以相应原始少数类样本为根样本,生成合成少数类样本。
7.根据权利要求1-6任一项所述的方法,其特征在于,还包括:
将所述至少一个合成少数类样本添加至所述少数类训练样本集中,以更新所述少数类训练样本集;
根据更新后的少数类训练样本集,对待训练分类模型进行训练,得到目标分类模型。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
识别各所述合成少数类样本中的异常合成样本;
从更新后的少数类训练样本集中剔除所述异常合成样本,以再次更新少数类训练样本集;
将再次更新后的少数类训练样本集中的样本作为原始少数类样本,返回执行距离数据确定操作,直至满足迭代截止条件。
9.根据权利要求8所述的方法,其特征在于,所述识别各所述合成少数类样本中的异常合成样本,包括:
将各所述合成少数类样本输入至所述目标分类模型,得到各所述合成少数类样本的合成预测类别;
根据所述合成少数类样本的合成预测类别和合成真实类别,确定异常合成样本。
10.根据权利要求8所述的方法,其特征在于,在所述识别各所述合成少数类样本中的异常合成样本之前,所述方法还包括:
对所述目标分类模型进行模型评价;
相应的,所述识别各所述合成少数类样本中的异常合成样本,包括:
若模型评价结果符合优化迭代条件,则识别各所述合成少数类样本中的异常合成样本。
11.根据权利要求10所述的方法,其特征在于,所述对所述目标分类模型进行模型评价,包括:
将测试样本输入至所述目标分类模型,得到测试预测类别;
根据所述测试样本的测试预测类别和测试真实类别,对所述目标分类模型进行模型评价。
12.根据权利要求11所述的方法,其特征在于,所述根据所述测试样本的测试预测类别和测试真实类别,对所述目标分类模型进行模型评价,包括:
根据所述测试样本的测试预测类别和测试真实类别的一致性,确定模型评价指标;
其中,所述模型评价指标包括特异性、敏感性和查准率中的至少一种。
13.一种少数类样本处理装置,其特征在于,包括:
距离确定模块,用于确定少数类训练样本集中不同原始少数类样本之间的距离数据;
权重确定模块,用于根据各所述距离数据,分别确定各所述原始少数类样本的采样权重;
样本合成模块,用于根据各所述采样权重,分别以相应原始少数类样本为根样本,生成合成少数类样本。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12任一项所述的一种少数类样本处理方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-12任一项所述的一种少数类样本处理方法。
CN202111273040.XA 2021-10-29 2021-10-29 少数类样本处理方法、装置、设备和存储介质 Pending CN114186605A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111273040.XA CN114186605A (zh) 2021-10-29 2021-10-29 少数类样本处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111273040.XA CN114186605A (zh) 2021-10-29 2021-10-29 少数类样本处理方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN114186605A true CN114186605A (zh) 2022-03-15

Family

ID=80601723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111273040.XA Pending CN114186605A (zh) 2021-10-29 2021-10-29 少数类样本处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN114186605A (zh)

Similar Documents

Publication Publication Date Title
US20210224694A1 (en) Systems and Methods for Predictive Coding
US10216558B1 (en) Predicting drive failures
WO2020082734A1 (zh) 文本情感识别方法、装置、电子设备及计算机非易失性可读存储介质
CN112990294B (zh) 行为判别模型的训练方法、装置、电子设备及存储介质
CN112508580A (zh) 基于拒绝推断方法的模型构建方法、装置和电子设备
US11580425B2 (en) Managing defects in a model training pipeline using synthetic data sets associated with defect types
US11775504B2 (en) Computer estimations based on statistical tree structures
CN115034596A (zh) 一种风险传导预测方法、装置、设备和介质
CN112612887A (zh) 日志处理方法、装置、设备和存储介质
CN114444608A (zh) 数据集质量评估方法及装置、电子设备及存储介质
CN113837596A (zh) 一种故障确定方法、装置、电子设备及存储介质
US11593700B1 (en) Network-accessible service for exploration of machine learning models and results
CN113763502A (zh) 一种图表生成方法、装置、设备和存储介质
CN111104400A (zh) 数据归一方法及装置、电子设备、存储介质
CN112905435B (zh) 基于大数据的工作量评估方法、装置、设备及存储介质
CN111738290B (zh) 图像检测方法、模型构建和训练方法、装置、设备和介质
CN111625555B (zh) 一种订单匹配方法、装置、设备及存储介质
CN113408070A (zh) 发动机参数的确定方法、装置、设备及存储介质
CN110826616B (zh) 信息处理方法及装置、电子设备、存储介质
CN110751227A (zh) 数据处理方法、装置、设备及存储介质
CN116245630A (zh) 一种反欺诈检测方法、装置、电子设备及介质
CN114186605A (zh) 少数类样本处理方法、装置、设备和存储介质
CN115762704A (zh) 一种处方审核方法、装置、设备和存储介质
US11640558B2 (en) Unbalanced sample classification method and apparatus
CN113780675A (zh) 一种消耗预测方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination