CN108647727A - 不平衡数据分类欠采样方法、装置、设备及介质 - Google Patents

不平衡数据分类欠采样方法、装置、设备及介质 Download PDF

Info

Publication number
CN108647727A
CN108647727A CN201810453103.1A CN201810453103A CN108647727A CN 108647727 A CN108647727 A CN 108647727A CN 201810453103 A CN201810453103 A CN 201810453103A CN 108647727 A CN108647727 A CN 108647727A
Authority
CN
China
Prior art keywords
samples
sample
classification
unbalanced data
lack sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810453103.1A
Other languages
English (en)
Inventor
韩伟红
李树栋
王乐
方滨兴
贾焰
黄子中
周斌
殷丽华
田志宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN201810453103.1A priority Critical patent/CN108647727A/zh
Publication of CN108647727A publication Critical patent/CN108647727A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种不平衡数据分类欠采样方法,包括:获取待处理不平衡数据中的所有多数样例;根据K近邻算法获取每一所述多数样例最近邻的k个样例中少数样例的个数;根据所述少数样例的个数确定对应多数样例的类别;根据每一所述多数样例的类别进行与所述类别对应的操作。解决不平衡大数据分类过程中多数类样例过多和少数样例过少导致的分类学习算法精度低的问题,提高不平衡大数据的分类准确性。

Description

不平衡数据分类欠采样方法、装置、设备及介质
技术领域
本发明涉及不平衡大数据处理领域,尤其涉及不平衡数据分类欠采样方法、装置、设备及介质。
背景技术
随着技术的不断进步,包括互联网速度提升、移动互联网更新换代、硬件技术不断发展、数据采集技术、存储技术、处理技术得到长足的发展,数据正以前所未有的速度增长,我们已经进入了大数据时代。大数据的数据规模巨大(volume)、产生高速(velocity)、形式多样(variety)、数据不确定(veracity)等特性使得传统的数据分析与挖掘技术在应用到大数据领域时遇到了前所未有的挑战。
数据分类是数据分析和挖掘中的基本算法,具有广泛的应用领域,也是很多其他数据分析和挖掘算法的基础。在大数据中,几乎所有的数据集都是不平衡数据,不平衡数据是指在数据集中至少有一个类别包含相对其它类别更少的样例。数据不平衡问题在现实世界中广泛存在,尤其在大数据应用领域。例如,在互联网文本分类中,各个类别的数据是不均衡的,而我们关注的往往是小类别的数据,如网络上的敏感信息,新出现的话题等;在电子商务应用中,大量的用户交易数据和行为数据都是正常的,而我们关注的往往是电子商务中的欺诈行为以及异常行为,这些数据淹没在大量的正常行为数据中,属于严重倾斜的不平衡数据集。类似的应用还有医疗诊断、卫星遥感数据分类等。因此,不平衡大数据分类是国民经济和社会发展中迫切需要解决的关键技术问题,具有广泛的应用前景。
不平衡大数据由于不同类别数据样例的数量差别过大,导致传统的分类学习算法很难取得好的分类效果,如图1所示的现有技术中不平衡数据分类示例, 其中圆圈为少数类样例,三角为多数类样例,不平衡比为3:1,即多数类样例为少数类样例的3倍,而在实际的大数据集中,不平衡比往往是10000:1,甚至更高,因此在进行分类之前先需要对数据进行预处理。
已有的不平衡大数据预处理方法主要包括针对少数类的过采样和针对多数类的欠采样。欠采样是指采用一定的方法和技术减少多数类样本,通过对样本集的调整减少大数据集的不平衡度,增加分类算法的准确性。
随机欠采样在原始数据集D上对多数类进行随机采样,即随机选取S个多数类样例进行删除,得到一个新的近乎平衡的数据集D'。其中,删除样例的多少可以自由控制,从而D'可以达到任意的不平衡比。图2中圆圈圈中的为采用随机过采样方法选中的多数类样例删除。
启发式欠采样方法中改进最近邻规则(Edited Nearsest Neighbor Rule,ENN)和Tomek Link方法对数据的删除是有选择性的,而不是随机的。
发明人在实施本发明实施例时,发现现有技术存在以下技术问题:随机欠采样由于在选择样本时是随机选择的,容易发生删除了不该删除的样本,或者删除以后样本的分布与实际情况相差较大的情况,从而降低分类学习算法的准确性。改进最近邻规则ENN删除邻居节点中少数类较多的多数类样本,解决了随机欠采样方法可能删除不该删除的节点的问题,但是有少数类样例作为邻居的多数类样例通常位于分类边界上,而少数类样例通常比较少,因此,ENN能够识别并删除的多数类样例比较有限,对大数据集中多数类样本远远大于少数类的情况并不适用,Tomek Link方法删除的也是靠近决策边界的多数类样例,即删除的是距离少数类较近的多数类样本,因此存在与改进最近邻规则ENN算法一样的问题,能够识别并删除的多数类样例比较有限,对大数据集中多数类样本远远大于少数类的情况并不适用,无法解决不平衡大数据分类过程中多数类样例过多和少数样例过少导致的分类学习算法精度低的问题。
发明内容
针对上述问题,本发明的目的在于提供一种不平衡数据分类欠采样方法, 能解决不平衡大数据分类过程中多数类样例过多和少数样例过少导致的分类学习算法精度低的问题,提高不平衡大数据的分类准确性。
第一方面,本发明提供了一种不平衡数据分类欠采样方法,包括:
获取待处理不平衡数据中的所有多数样例;
根据K近邻算法获取每一所述多数样例最近邻的k个样例中少数样例的个数;
根据所述少数样例的个数确定对应多数样例的类别;
根据每一所述多数样例的类别进行与所述类别对应的操作。
在第一方面的第一种可能实现方式中,所述根据所述少数样例的个数确定对应多数样例的类别包括:
根据所述少数样例的个数与预设阈值进行大小比较,以确定所述对应多数样例的类别;其中,所述类别包括噪音样例、边界样例和稳定样例。
结合第一方面的第一种可能实现方式,在第一方面的第二种可能实现方式中,所述预设阈值包括预设第一阈值n;
所述根据所述少数样例的个数与预设阈值比较,以确定所述对应多数样例的类别包括:
所述少数样例的个数大于或等于所述预设第一阈值n时,则所述对应多数样例的类别为所述噪音样例;其中,所述预设第一阈值n取值范围为2k/3<=n<=k;
则所述根据每一所述多数样例的类别进行与所述类别对应的操作包括:
在所述对应多数样例的类别为所述噪音样例时,删除所述多数样例。
结合第一方面的第一种可能实现方式,在第一方面的第三种可能实现方式中,所述预设阈值还包括预设第二阈值p;
所述根据所述少数样例的个数与预设阈值比较,以确定所述对应多数样例 的类别包括:
在所述少数样例的个数小于所述第一阈值n,且大于或等于所述预设第二阈值p时,则所述对应多数样例的类别为所述边界样例;其中,所述预设第二阈值p取值范围为k/3<=p<=n;
则所述根据每一所述多数样例的类别进行与所述类别对应的操作包括:
在所述对应多数样例的类别为所述边界样例时,保留所述多数样例。
结合第一方面的第一种可能实现方式,在第一方面的第四种可能实现方式中,所述根据所述少数样例的个数与预设阈值比较,以确定所述对应多数样例的类别包括:
在所述少数样例的个数小于所述第二阈值p,则所述对应多数样例的类别为所述稳定样例;其中,所述预设第二阈值p取值范围为k/3<=p<=n;
则所述根据每一所述多数样例的类别进行与所述类别对应的操作包括:
在所述对应多数样例的类别为所述稳定样例时,选择性删除所述多数样例。
结合第一方面的第四种可能实现方式,在第一方面的第五种可能实现方式中,所述在所述对应多数样例的类别为所述稳定样例时,选择性删除所述多数样例包括:
检测到已遍历了所述待处理不平衡数据中的每一多数样例,获取稳定样例删除个数e;其中,所述稳定样例删除个数e=所述所有多数样例的个数-目标多数样例个数-所述噪音样例;
获取当前已删除的多数样例的个数f;
根据所述f与所述e的比较,对所述稳定样例进行选择性删除。
结合第一方面的第五种可能实现方式,在第一方面的第六种可能实现方式中,所述根据所述f与所述e的比较,对所述稳定样例进行选择性删除包括:
在所述f大于或等于所述e时,保留所述稳定样例;
在所述f小于所述e时,计算所述稳定样例到最近邻k个样例的平均距离d;
在所述平均距离d小于或等于预设值时,在0至1之间随机选取一个随机数,对所述随机数进行平方运算,得到所述稳定样例的删除概率i,以在所述删除概率i大于所述预设值时,删除所述稳定样例,并更新所述f数值;
在所述平均距离d大于预设值时,在0至1之间随机选取一个随机数,对所述随机数进行立方运算,得到所述稳定样例的删除概率j,以在所述删除概率j大于所述预设值时,删除所述稳定样例,并更新所述f数值。
第二方面,本发明还提供了不平衡数据分类欠采样装置,包括:
多数样例获取模块,用于获取待处理不平衡数据中的若干个多数样例;
少数样例个数获取模块,用于根据K近邻算法获取每一所述多数样例最近邻的k个样例中少数样例的个数;
类别确定模块,用于根据所述少数样例的个数确定对应多数样例的类别;
操作模块,用于根据每一所述多数样例的类别进行与所述类别对应的操作。
第三方面,本发明实施例还提供了一种不平衡数据分类欠采样设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的不平衡数据分类欠采样方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的不平衡数据分类欠采样方法。
上述技术方案具有如下优点:获取待处理不平衡数据中的若干个多数样例,根据K近邻算法获取每一所述多数样例最近邻的k个样例中少数样例的个数,根据所述少数样例的个数确定对应多数样例的类别,通过根据每一所述多数样例的类别进行与所述类别对应的操作,解决了在大数据集中多数类样例远远大 于少数样例时,能进行选择删除的多数样例少,由此引发的分类学习算法精度低的问题,以根据所述类别进行选择多样例进删除,一方面删除了所有噪音样例,保留了更有价值的边界样例,另一方面对稳定样例进行删除时,分布紧密的稳定样例被删除的可能性更大,分布稀疏的稳定样例尽量保存下来,使得欠采样以后的样例集更多的保留了原来样例集的特性,有效解决了删除不该删除的样本的问题,并使得最终得到的样本数据更符合现实规律。
附图说明
图1是现有技术中不平衡数据分类示例图;
图2是现有技术中随机采样删除示例图;
图3是本发明第一实施例提供的不平衡数据分类欠采样方法流程示意图;
图4是本发明第一实施例提供的最近邻的k个样例获取示意图;
图5是现有技术中Tomek Link方法示意图;
图6是本发明第四实施例提供的一种不平衡数据分类欠采样装置结构示意图;
图7是本发明第五实施例提供的不平衡数据分类欠采样设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参见图3,本发明第一实施例提供的不平衡数据分类欠采样方法流程示意图。
需要说明的是,在删除多数样例时,已有的方法或者是对所有的多数类样例采取同一的处理方法,随机选择删除多数类样例,由此会出现删除了不该删除的多数样例,或者是选择删除的多数样例都是以有少数样例作为邻居样例的 多数样例,但是大数据集中多数类样例远远大于少数样例,其能进行删除的多数样例比较有限,无法解决不平衡大数据分类过程中多数类样例过多导致的分类学习算法精度低的问题。
本实施例提供的不平衡数据分类欠采样方法可以由终端设备执行,所述终端设备包括但不限于:手机、笔记本电脑、平板电脑及台式电脑等。
所述不平衡数据分类欠采样方法的具体步骤如下:
S11、获取待处理不平衡数据中的所有多数样例。
需要说明的是,在本发明实施例中,在处理所述待处理不平衡数据中的多数样例时,基于实际的大数据集中,多数样例与少数样例的不平衡比往往是10000:1,甚至更高,为了平衡所述待处理不平衡数据中多数样例与少数样例,则获取待处理不平衡数据中的所有多数样例,以便收集到更多的数据,提高不平衡大数据的分类准确性。
S12、根据K近邻算法获取每一所述多数样例最近邻的k个样例中少数样例的个数。
需要说明的是,所述k取值大于1,且为整数,根据实际情况确定所述k取值,本发明对此不作具体限定。但是,k值设定会影响本方法的性能,随着k值的增加,本方法的性能会呈下降趋势,但k值过小会导致本方法的精度下降。一般k的取值在5-10之间比较合理,本发明对此不作具体限定。
具体的,参见图4,图中三角形是多数样例,圆圈是少数样例,以长方形圈住的多数样例M进行说明,假设k取值为4,则所述多数样例M的最近邻的4个样例以圆圈圈住,圆圈圈主的四个样例中少数样例个数为2。
S13、根据所述少数样例的个数确定对应多数样例的类别。
在本发明实施例中,根据所述多数样例的个数确定对应少数样例的类别,其中,所述类别包括噪音样例、边界样例和稳定样例。
需要说明的是,在本实施例中对所述多数样例的类别确定,实际就是对所 述多数样例在所述待处理不平衡数据集中的性质进行确定,以便根据实际需要对相应的多数样例是进行相应的操作,以保证所述待处理不平衡的数据最终得到想要的效果。
需要说明的是,在所述多数样例是干扰的样例时则所述多数样例为噪音样例,例如其中一个情况是,在所述多数样例的邻居样例中绝大多数是少数样例吗,即少数样例的个数远比多数样例多,则所述多数样例为所述噪音样例;在所述多数样例是处于少数样例集群与多数样例集群之间的,例如,其中一个情况是,在所述多数样例的邻居样例中多数样例与少数样例的个数相当,则所述多数样例为所述边界样例;在所述多数样例是完全在多数样例集群中时为所述稳定样例,例如,其中一个情况是,在所述多数样例的邻居样例中少数样例个数远比多数样例个数少,即所述多数样例的邻居样例中绝大多数是多数样例,则所述多数样例为所述稳定样例。
S14、根据每一所述多数样例的类别进行与所述类别对应的操作。
需要说明的是,在本发明实施例中,对所述待处理不平衡数据中的多数样例进行欠采样,以减少所述多数样例的个数为主要目的,在进行欠采样过程中,在本实施例中,是根据每一所述多数样例的不同类别进行不同操作,而不是现有技术中依靠边界样例中进行选择多数样例删除,从而实现了删除更多的多数样例,其中,所述操作包括删除、保留和选择性删除,其中,选择性删除就是这个多数样例可能会被删除也可能不被删除。
需要说明的是,每一所述多数样例都对应且仅对应一个操作,即每一类别都会有相对应的操作,且只有一个操作,假设类别是b1,b2,b3和b4,则所述b1,所述b2,所述b3和所述b4都会有相应的一个操作,例如,b1对应的是保留,b2对应的是删除,b3对应的也是删除,b4对应的是选择性删除,本发明对此不作具体限定。
具体的,获取待处理不平衡数据中的所有多数样例,得到多数样例集A, A=【a1,a2,…a3,an】,其中,n是所述所有多数样例的个数,假设在所述多数样例a1是噪音样例时,需要对所述多数样例a1进行删除操作,而在有些预处理中,规定对所述噪音样例是进行保留的,则对所述多数样例a1进行保留;假设所述少数样例an是边界样例时,而在有些预处理中,规定对所述边界样例进行删除操作的,则对所述多数样例进行删除,本发明对此不作具体限定。
实施本实施例具有如下有益效果:
获取待处理不平衡数据中的若干个多数样例,根据K近邻算法获取每一所述多数样例最近邻的k个样例中少数样例的个数,根据所述少数样例的个数确定对应多数样例的类别,通过根据每一所述多数样例的类别进行与所述类别对应的操作,解决了在大数据集中多数类样例远远大于少数样例时,能进行选择删除的多数样例少,而引发的分类学习算法精度低的问题,在为每一所述多数样例进行类别区分之后,会对每一多数样例都进行相应的操作,解决了现有技术中依靠边界样例删除多数样例而带来的删除多数样例少的问题,实现了根据所述类别进行选择多样例进删除,一方面删除了所有噪音样例,保留了更有价值的边界样例,另一方面对稳定样例进行删除时,分布紧密的稳定样例被删除的可能性更大,分布稀疏的稳定样例尽量保存下来,使得欠采样以后的样例集更多的保留了原来样例集的特性,有效解决了删除不该删除的样本的问题,并使得最终得到的样本数据更符合现实规律。
实施例二
在实施例一的基础上,
所述根据所述少数样例的个数确定对应多数样例的类别包括:
根据所述少数样例的个数与预设阈值进行大小比较,以确定所述对应多数样例的类别;其中,所述类别包括噪音样例、边界样例和稳定样例。
在本发明实施例中,所述预设阈值为根据实际情况进行设定。
优选地,所述预设阈值包括预设第一阈值n;
所述根据所述少数样例的个数与预设阈值比较,以确定所述对应多数样例的类别包括:
所述少数样例的个数大于或等于所述预设第一阈值n时,则所述对应多数样例的类别为所述噪音样例;其中,所述预设第一阈值n取值范围为2k/3<=n<=k;
在本实施例中,所述预设第一阈值n为判断所述多数样例是否为所述噪音的阈值,其中,所述预设第一阈值n取值范围为2k/3<=n<=k,是本发明实施例的优选范围,是根据大量测试得出的一个合理的噪音样例取值范围。
则所述根据每一所述多数样例的类别进行与所述类别对应的操作包括:
在所述对应多数样例的类别为所述噪音样例时,删除所述多数样例。
在本实施例中,通过对噪音样例进行删除之后,保证最终得到的所述待处理不平衡数据中多数样例的质量,减少了噪音样例对后续的数据处理过程中的噪音影响。
优选地,所述预设阈值还包括预设第二阈值p;
所述根据所述少数样例的个数与预设阈值比较,以确定所述对应多数样例的类别包括:
在所述少数样例的个数小于所述第一阈值n,且大于或等于所述预设第二阈值p时,则所述对应多数样例的类别为所述边界样例;其中,所述预设第二阈值p取值范围为k/3<=p<=n;
在本实施例中,所述预设第二阈值p为判断所述多数样例是否为所述边界样例的阈值,其中,所述预设第二阈值p取值范围为k/2<=p<n,是本发明实施例的优选范围,是根据大量测试得出的一个合理的边界样例取值范围。
则所述根据每一所述多数样例的类别进行与所述类别对应的操作包括:
在所述对应多数样例的类别为所述边界样例时,保留所述多数样例。
在本实施例中,对所述边界样例进行保留,所述边界样例是处于所述待处 理不平衡大数据边界的样本,更有价值,更能体现多数类与少数类之间的区别特征,因此选择对位于分类边界的多数类样例进行处理,即保留处于待处理不平衡大数据边界的样例。
实施本实施例具有如下有益效果:
通过对所述多数样例的类别进行精确的区分确定之后,对比每一所述多数样例最近邻的k个样例中少数样例的个数与预设阈值,判断过程简单,便于快速确定所述多数样例的类别,所述预设阈值是根据每一所述多数样例的不同类别进行不同条件判断设置的,所述预设阈值的严格设置保证了数据处理的精确性,并对不同类别的多数样例进行不同的处理,有效提高不平衡大数据中多数样例的分类准确性。
实施例三
在实施例二的基础上,
在所述少数样例的个数小于所述第二阈值p,则所述对应多数样例的类别为所述稳定样例;其中,所述预设第二阈值p取值范围为k/3<=p<=n;
则所述根据每一所述多数样例的类别进行与所述类别对应的操作包括:
在所述对应多数样例的类别为所述稳定样例时,选择性删除所述多数样例。
在本发明实施例中,在所述多数样例最近邻的k个样例中少数样例的个数小于所述第二阈值p,则说明所述多数样例不是处于多数样例集和少数样例集边界位置,而是处于所述多数样例集中,则所述多数样例就是稳定的。
在本发明实施例中,选择性删除所述多数样例可为根据实际需要删除的多数样例的个数或最终想要得到的多数样例的个数来进行对所述多数样例进行选择性删除。
需要说明的是,在进行选择性删除时,现有的改进最近邻规则(Edited NearsestNeighbor Rule,ENN),该方法的基本假设是拥有更多其它类邻居的样例更可能是噪声。ENN判断如果某个样例任意周围三个邻居中有两个是属于其它 类别的,则该样例可能是噪声,因而将其删除。将ENN应用于不平衡数据欠采样,则对于每一个多数类样例,如果其周围三个邻居中有两个数据少数类样例,则将该多数类样例删除。在实际计算过程中,不一定局限于三个邻居,可根据实际情况选择略加调整,改进最近邻规则ENN删除邻居节点中少数类较多的多数类样本,解决了随机欠采样方法可能删除不该删除的节点的问题,但是有少数类样例作为邻居的多数类样例通常位于分类边界上,而少数类样例通常比较少,因此,ENN能够识别并删除的多数类样例比较有限,对大数据集中多数类样本远远大于少数类的情况并不适用。
在进行选择性删除时,现有的Tomek Link方法。该方法的基本假设是靠近决策边界的样例更有可能是噪声。假定Ei是一个少数类样例,Ej是一个多数类样例,Ei和Ej之间的距离为d(Ei,Ej),则(Ei,Ej)构成一个Tomek Link的条件是:如果不存在样例El,使得d(El,Ej)<d(Ei,Ej)或者d(Ei,El)<d(Ei,Ej)。即一个少数类样例Ei和一个多数类样例Ej之间距离最近,他们之间就构成了一个Tomek Link。Tomek Link的示例如图5所示。当将Tomek Link应用于不平衡数据的欠采样时,首先找出所有的Tomek Link,然后将Tomek Link中的多数类样例删除,达到平衡数据的目的。Tomek Link方法删除的也是靠近决策边界的多数类样例,即删除的是距离少数类较近的多数类样本,因此存在与改进最近邻规则ENN算法一样的问题,能够识别并删除的多数类样例比较有限,对大数据集中多数类样本远远大于少数类的情况并不适用。另外,边界样例往往对区分少数类和多数类特征具有重要意义,删除边界样例会导致分类算法精度下降。
基于上述的问题,优选地,所述在所述对应多数样例的类别为所述稳定样例时,选择性删除所述多数样例包括:
检测到已遍历了所述待处理不平衡数据中的每一多数样例,获取稳定样例删除个数e;其中,所述稳定样例删除个数e=所述所有多数样例的个数-目标多数样例个数-所述噪音样例;
获取当前已删除的多数样例的个数f;
根据所述f与所述e的比较,对所述稳定样例进行选择性删除。
优选地,所述根据所述f与所述e的比较,对所述稳定样例进行选择性删除包括:
在所述f大于或等于所述e时,保留所述稳定样例;
在所述f小于所述e时,计算所述稳定样例到最近邻k个样例的平均距离d;
在本实施例中,在一次循环中,删除的多数样例的个数还没有达到预定要求,则会重新计算样本的分布情况,即重新计算所述待处理不平衡数据中的稳定样例到最近邻k个样例的平均距离d,其中,所述待处理不平衡数据中的稳定样例可为一次循环后重新进行类别确定的稳定样例,也可为循环前已经确定的稳定样例,处于稳定样例的多是多数样例集群中的,对多数样例进行删除对稳定样例的分布影响没有边界样例明显,则计算所述稳定样例到最近邻k个样例的平均距离d可优选为计算循环前确定的稳定样例,本发明对此不作具体限定。
需要说明的是,如果一次循环没有满足删除个数,在重新计算多数样例分布情况后循环执行删除操作,直到删除样例达到了预设值,即使是在大数据集中多数类样本远远大于少数类的情况下,也能不断的进行循环删除,以使得最终得到的多数样例能满足实际需求。
在所述平均距离d小于或等于预设值时,在0至1之间随机选取一个随机数,对所述随机数进行平方运算,得到所述稳定样例的删除概率i,以在所述删除概率i大于所述预设值时,删除所述稳定样例,并更新所述f数值;
在本实施例中,在所述平均距离d小于或等于预设值时,则说明所述多数样例与周围多数样例很紧密,则有更大的概率要删除所述多数样例,在0至1之间随机选取一个随机数,并对所述随机数进行平方运算,得到删除所述多数样例的概率。
在所述平均距离d大于预设值时,在0至1之间随机选取一个随机数,对所述随机数进行立方运算,得到所述稳定样例的删除概率j,以在所述删除概率j大于所述预设值时,删除所述稳定样例,并更新所述f数值。
在本实施例中,在所述平均距离d大于预设值时,则说明所述多数样例与周围多数样例很稀疏,则有更小的概率要删除所述多数样例,在0至1之间随机选取一个随机数,并对所述随机数进行立方运算,得到删除所述多数样例的概率。
在本实施例中,根据样例分布的不同特点采取不同的样本删除概率,对分布紧密的样例,提高其被删除的概率。该方法使得删除以后的样本分布更加均匀,提高了分类学习算法的准确性。
在本实施例中,所述预设值根据所述待处理不平衡数据的分布情况进行设定,在所述待处理不平衡数据的整体分布情况较为稀疏时,则所述预设值可适当性较大,以便能获取到样例;在所述待处理不平衡数据的整体分布情况较为紧密时,则所述预设值可适当性较小,以便保证获取样例个数的合理性,本发明对此不作具体限定。
在实施例中,在进行选择性删除时,检测到删除所述稳定样例,都要进行所述已删除的多数样例的个数f的更新,f=f+1。
实施本实施例具有如下有益效果:
解决了删除以后样本的分布非常不均匀,降低分类学习算法的准确性的问题,解决了能够识别并删除的多数类样例比较有限,对大数据集中多数类样本远远大于少数类的情况并不适用的问题,在选择性删除样例的过程中,本方法根据样例分布的不同特点采取不同的样本删除概率,对分布紧密的样例,提高其被删除的概率。该方法使得删除以后的样本分布更加均匀,提高了分类学习算法的准确性。另外,在选择性删除样例的过程中,首先计算了还需要删除多少样例,如果一次循环没有满足删除个数,重新计算样本分布情况,循环执行删除操作,直到删除样例达到预设值,使得在大数据集中多数类样本远远大于少数类的情况下也可以适用。
参见图6,图6是本发明第四实施例提供的一种不平衡数据分类欠采样装置结构示意图,包括:
多数样例获取模块61,用于获取待处理不平衡数据中的若干个多数样例;
少数样例个数获取模块62,用于根据K近邻算法获取每一所述多数样例最近邻的k个样例中少数样例的个数;
类别确定模块63,用于根据所述少数样例的个数确定对应多数样例的类别;
操作模块64,用于根据每一所述多数样例的类别进行与所述类别对应的操作。
优选地,所述类别确定模块63包括:
类别确定单元,用于根据所述少数样例的个数与预设阈值进行大小比较,以确定所述对应多数样例的类别;其中,所述类别包括噪音样例、边界样例和稳定样例。
优选地,所述预设阈值包括预设第一阈值n;
所述类别确定模块63包括:
所述少数样例的个数大于或等于所述预设第一阈值n时,则所述对应多数样例的类别为所述噪音样例;其中,所述预设第一阈值n取值范围为2k/3<=n<=k;
则操作模块64包括:
删除单元,用于在所述对应多数样例的类别为所述噪音样例时,删除所述多数样例。
优选地,所述预设阈值还包括预设第二阈值p;
所述类别确定模块63包括:
在所述少数样例的个数小于所述第一阈值n,且大于或等于所述预设第二阈值p时,则所述对应多数样例的类别为所述边界样例;其中,所述预设第二阈 值p取值范围为k/3<=p<=n;
则操作模块64包括:
保留单元,用于在所述对应多数样例的类别为所述边界样例时,保留所述多数样例。
优选地,还包括:
在所述少数样例的个数小于所述第二阈值p,则所述对应多数样例的类别为所述稳定样例;其中,所述预设第二阈值p取值范围为k/3<=p<=n;
则操作模块64包括:
选择性删除单元,用于在所述对应多数样例的类别为所述稳定样例时,选择性删除所述多数样例。
优选地,所述选择性删除单元包括:
检测单元,用于检测到已遍历了所述待处理不平衡数据中的每一多数样例,获取稳定样例删除个数e;其中,所述稳定样例删除个数e=所述所有多数样例的个数-目标多数样例个数-所述噪音样例;
个数f获取单元,用于获取当前已删除的多数样例的个数f;
选择性删除单元一,用于根据所述f与所述e的比较,对所述稳定样例进行选择性删除。
优选地,所述选择性删除单元一还包括:
保留单元,用于在所述f大于或等于所述e时,保留所述稳定样例;
计算单元,用于在所述f小于所述e时,计算所述稳定样例到最近邻k个样例的平均距离d;
概率一获取单元,用于在所述平均距离d小于或等于预设值时,在0至1之间随机选取一个随机数,对所述随机数进行平方运算,得到所述稳定样例的 删除概率i,以在所述删除概率i大于所述预设值时,删除所述稳定样例,并更新所述f数值;
概率二获取单元,用于在所述平均距离d大于预设值时,在0至1之间随机选取一个随机数,对所述随机数进行立方运算,得到所述稳定样例的删除概率j,以在所述删除概率j大于所述预设值时,删除所述稳定样例,并更新所述f数值。
实施本实施例具有如下有益效果:
获取待处理不平衡数据中的若干个多数样例,根据K近邻算法获取每一所述多数样例最近邻的k个样例中少数样例的个数,根据所述少数样例的个数确定对应多数样例的类别,通过根据每一所述多数样例的类别进行与所述类别对应的操作,解决了在大数据集中多数类样例远远大于少数样例时,能进行选择删除的多数样例少,由此引发的分类学习算法精度低的问题,以根据所述类别进行选择多样例进删除,一方面删除了所有噪音样例,保留了更有价值的边界样例,另一方面对稳定样例进行删除时,分布紧密的稳定样例被删除的可能性更大,分布稀疏的稳定样例尽量保存下来,使得欠采样以后的样例集更多的保留了原来样例集的特性,有效解决了删除不该删除的样本的问题,并使得最终得到的样本数据更符合现实规律。
请参见图7,图7是本发明第五实施例提供的不平衡数据分类欠采样设备的示意图,用于执行本发明实施例提供的不平衡数据分类欠采样方法,如图7所示,该不平衡数据分类欠采样设备包括:至少一个处理器11,例如CPU,至少一个网络接口14或者其他用户接口13,存储器15,至少一个通信总线12,通信总线12用于实现这些组件之间的连接通信。其中,用户接口13可选的可以包括USB接口以及其他标准接口、有线接口。网络接口14可选的可以包括Wi-Fi接口以及其他无线接口。存储器15可能包含高速RAM存储器,也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器15可选的可以包含至少一个位于远离前述处理器11的存储装置。
在一些实施方式中,存储器15存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作系统151,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;程序152。
具体地,处理器11用于调用存储器15中存储的程序152,执行上述实施例所述的不平衡数据分类欠采样方法。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述不平衡数据分类欠采样方法的控制中心,利用各种接口和线路连接整个所述不平衡数据分类欠采样方法的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现不平衡数据分类欠采样的电子装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述自适应采样不平衡数据分类的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质 中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,在某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。其次,本领域技术人员也应知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模拟一定是本发明所必须的。

Claims (10)

1.一种不平衡数据分类欠采样方法,其特征在于,包括:
获取待处理不平衡数据中的所有多数样例;
根据K近邻算法获取每一所述多数样例最近邻的k个样例中少数样例的个数;
根据所述少数样例的个数确定对应多数样例的类别;
根据每一所述多数样例的类别进行与所述类别对应的操作。
2.根据权利要求1所述的不平衡数据分类欠采样方法,其特征在于,所述根据所述少数样例的个数确定对应多数样例的类别包括:
根据所述少数样例的个数与预设阈值进行大小比较,以确定所述对应多数样例的类别;其中,所述类别包括噪音样例、边界样例和稳定样例。
3.根据权利要求2所述的不平衡数据分类欠采样方法,其特征在于,
所述预设阈值包括预设第一阈值n;
所述根据所述少数样例的个数与预设阈值比较,以确定所述对应多数样例的类别包括:
所述少数样例的个数大于或等于所述预设第一阈值n时,则所述对应多数样例的类别为所述噪音样例;其中,所述预设第一阈值n取值范围为2k/3<=n<=k;
则所述根据每一所述多数样例的类别进行与所述类别对应的操作包括:
在所述对应多数样例的类别为所述噪音样例时,删除所述多数样例。
4.根据权利要求2所述的不平衡数据分类欠采样方法,其特征在于,所述预设阈值还包括预设第二阈值p;
所述根据所述少数样例的个数与预设阈值比较,以确定所述对应多数样例的类别包括:
在所述少数样例的个数小于所述第一阈值n,且大于或等于所述预设第二阈值p时,则所述对应多数样例的类别为所述边界样例;其中,所述预设第二阈值p取值范围为k/3<=p<=n;
则所述根据每一所述多数样例的类别进行与所述类别对应的操作包括:
在所述对应多数样例的类别为所述边界样例时,保留所述多数样例。
5.根据权利要求4所述的不平衡数据分类欠采样方法,其特征在于,还包括:
在所述少数样例的个数小于所述第二阈值p,则所述对应多数样例的类别为所述稳定样例;其中,所述预设第二阈值p取值范围为k/3<=p<=n;
则所述根据每一所述多数样例的类别进行与所述类别对应的操作包括:
在所述对应多数样例的类别为所述稳定样例时,选择性删除所述多数样例。
6.根据权利要求5所述的不平衡数据分类欠采样方法,其特征在于,所述在所述对应多数样例的类别为所述稳定样例时,选择性删除所述多数样例包括:
检测到已遍历了所述待处理不平衡数据中的每一多数样例,获取稳定样例删除个数e;其中,所述稳定样例删除个数e=所述所有多数样例的个数-目标多数样例个数-所述噪音样例;
获取当前已删除的多数样例的个数f;
根据所述f与所述e的比较,对所述稳定样例进行选择性删除。
7.根据权利要求6所述的不平衡数据分类欠采样方法,其特征在于,所述根据所述f与所述e的比较,对所述稳定样例进行选择性删除包括:
在所述f大于或等于所述e时,保留所述稳定样例;
在所述f小于所述e时,计算所述稳定样例到最近邻k个多数类样例的平均距离d;
在所述平均距离d小于或等于预设值时,在0至1之间随机选取一个随机数,对所述随机数进行平方运算,得到所述稳定样例的删除概率i,以在所述删除概率i大于所述预设值时,删除所述稳定样例,并更新所述f数值;
在所述平均距离d大于预设值时,在0至1之间随机选取一个随机数,对所述随机数进行立方运算,得到所述稳定样例的删除概率j,以在所述删除概率j大于所述预设值时,删除所述稳定样例,并更新所述f数值。
8.一种不平衡数据分类欠采样装置,其特征在于,包括:
多数样例获取模块,用于获取待处理不平衡数据中的若干个多数样例;
少数样例个数获取模块,用于根据K近邻算法获取每一所述多数样例最近邻的k个样例中少数样例的个数;
类别确定模块,用于根据所述少数样例的个数确定对应多数样例的类别;
操作模块,用于根据每一所述多数样例的类别进行与所述类别对应的操作。
9.一种不平衡数据分类欠采样设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的不平衡数据分类欠采样方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的不平衡数据分类欠采样方法。
CN201810453103.1A 2018-05-10 2018-05-10 不平衡数据分类欠采样方法、装置、设备及介质 Pending CN108647727A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810453103.1A CN108647727A (zh) 2018-05-10 2018-05-10 不平衡数据分类欠采样方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810453103.1A CN108647727A (zh) 2018-05-10 2018-05-10 不平衡数据分类欠采样方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN108647727A true CN108647727A (zh) 2018-10-12

Family

ID=63754967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810453103.1A Pending CN108647727A (zh) 2018-05-10 2018-05-10 不平衡数据分类欠采样方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN108647727A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635839A (zh) * 2018-11-12 2019-04-16 国家电网有限公司 一种基于机器学习的非平衡数据集的处理方法和装置
CN109726821A (zh) * 2018-11-27 2019-05-07 东软集团股份有限公司 数据均衡方法、装置、计算机可读存储介质及电子设备
CN109740750A (zh) * 2018-12-17 2019-05-10 北京深极智能科技有限公司 数据收集方法及装置
CN110069997A (zh) * 2019-03-22 2019-07-30 北京字节跳动网络技术有限公司 场景分类方法、装置及电子设备
CN112766394A (zh) * 2021-01-26 2021-05-07 维沃移动通信有限公司 建模样本生成方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635839A (zh) * 2018-11-12 2019-04-16 国家电网有限公司 一种基于机器学习的非平衡数据集的处理方法和装置
CN109726821A (zh) * 2018-11-27 2019-05-07 东软集团股份有限公司 数据均衡方法、装置、计算机可读存储介质及电子设备
CN109740750A (zh) * 2018-12-17 2019-05-10 北京深极智能科技有限公司 数据收集方法及装置
CN110069997A (zh) * 2019-03-22 2019-07-30 北京字节跳动网络技术有限公司 场景分类方法、装置及电子设备
CN110069997B (zh) * 2019-03-22 2021-07-20 北京字节跳动网络技术有限公司 场景分类方法、装置及电子设备
CN112766394A (zh) * 2021-01-26 2021-05-07 维沃移动通信有限公司 建模样本生成方法及装置
CN112766394B (zh) * 2021-01-26 2024-03-12 维沃移动通信有限公司 建模样本生成方法及装置

Similar Documents

Publication Publication Date Title
CN108647727A (zh) 不平衡数据分类欠采样方法、装置、设备及介质
CN105224606B (zh) 一种用户标识的处理方法及装置
CN104717124B (zh) 一种好友推荐方法、装置及服务器
CN109948641A (zh) 异常群体识别方法及装置
CN109861953A (zh) 一种异常用户识别方法及装置
CN105917632A (zh) 用于电信中的可扩缩分布式网络业务分析的方法
TW201913522A (zh) 風險特徵篩選、描述報文產生方法、裝置以及電子設備
CN108833139B (zh) 一种基于类别属性划分的ossec报警数据聚合方法
CN108011928A (zh) 一种信息推送方法、终端设备及计算机可读介质
CN107291539B (zh) 基于资源重要程度的集群程序调度方法
CN108694413A (zh) 自适应采样不平衡数据分类处理方法、装置、设备及介质
CN110417607A (zh) 一种流量预测方法、装置及设备
CN109033148A (zh) 一种面向多分类的不平衡数据预处理方法、装置及设备
CN108304371A (zh) 热点内容挖掘的方法、装置、计算机设备及存储介质
CN107645740A (zh) 一种移动监测方法及终端
CN106980538A (zh) 数据处理的方法及装置
CN106648557A (zh) 一种应用程序编程接口api的分享方法和装置
CN109685092A (zh) 基于大数据的聚类方法、设备、存储介质及装置
CN109543891A (zh) 容量预测模型的建立方法、设备及计算机可读存储介质
CN113049963A (zh) 一种基于局部离群因子的锂电池组一致性检测方法及装置
CN108647728B (zh) 不平衡数据分类过采样方法、装置、设备及介质
CN108876644A (zh) 一种基于社交网络的相似账号计算方法及装置
CN106447397A (zh) 基于决策树算法的烟草零售户定价方法
CN104102411B (zh) 一种文本编辑方法和文本编辑装置
CN106021852B (zh) 基于密度聚类算法的血糖数据异常值计算方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181012

RJ01 Rejection of invention patent application after publication