CN109635839B - 一种基于机器学习的非平衡数据集的处理方法和装置 - Google Patents

一种基于机器学习的非平衡数据集的处理方法和装置 Download PDF

Info

Publication number
CN109635839B
CN109635839B CN201811341167.9A CN201811341167A CN109635839B CN 109635839 B CN109635839 B CN 109635839B CN 201811341167 A CN201811341167 A CN 201811341167A CN 109635839 B CN109635839 B CN 109635839B
Authority
CN
China
Prior art keywords
sample
minority
data set
sample set
type image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811341167.9A
Other languages
English (en)
Other versions
CN109635839A (zh
Inventor
王栋
韩庆芝
王波
玄佳兴
王俊生
李丽丽
韩文慧
吕梓童
张宏廷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guowang Xiongan Finance Technology Group Co ltd
State Grid Digital Technology Holdings Co ltd
State Grid Corp of China SGCC
Original Assignee
Guowang Xiongan Finance Technology Group Co ltd
State Grid Corp of China SGCC
State Grid E Commerce Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guowang Xiongan Finance Technology Group Co ltd, State Grid Corp of China SGCC, State Grid E Commerce Co Ltd filed Critical Guowang Xiongan Finance Technology Group Co ltd
Priority to CN201811341167.9A priority Critical patent/CN109635839B/zh
Publication of CN109635839A publication Critical patent/CN109635839A/zh
Application granted granted Critical
Publication of CN109635839B publication Critical patent/CN109635839B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Abstract

本发明实施例公开了一种基于机器学习的非平衡数据集的处理方法和装置,涉及数据处理的技术领域,能够解决SMOTE算法合成“人造”样本过程中造成的分布边缘化问题。该处理方法包括:一种基于机器学习的非平衡数据集的处理方法,包括:根据包含多个多数类图像样本的第一样本集合和包含多个少数类图像样本的初始的第二样本集合,生成中心样本,其中,所述多数类图像样本和所述少数类图像样本均包含有N维属性,所述中心样本是由多个所述多数类图像样本和多个所述少数类图像样本每个维度的属性的平均值组成,N≥1;在所述中心样本与至少一个所述少数类图像样本之间进行随机线性插值,生成新增少数类样本,得到利用所述新增少数类样本更新后的第二样本集合。

Description

一种基于机器学习的非平衡数据集的处理方法和装置
技术领域
本发明涉及数据处理的技术领域,尤其涉及一种基于机器学习的非平衡数据集的处理方法和装置。
背景技术
基于机器学习的非平衡数据集是在数据集数量和分布上的不平衡,这种不平衡是类间不平衡。具有少量样本的类称为少数类(负类),具有大量样本的类称为多数类(正类);各种基于机器学习的非平衡数据集的分类方法应运而生,来实现给非平衡数据的分类。非平衡数据的分类问题可从两个方向解决:一是改变数据分布,二是设计新的分类方法。其中,在改变数据分布是指,改变数据集(训练集)中的样本分布,来改善样本的不平衡程度。
对于如何改变数据分布,现有技术中存在AdaBoost-SVM-OBMS算法,该算法利用错分的样本指导合成新的样本使得错分的样本能够尽可能地被识别。然而,在这种算法中,错分样本点与其近邻间随机产生一定数量“人造”样本,然后添加将其到初始训练集中,使非均衡数据集变的相对均衡,整个过程比较复杂,与SMOTE(英文全称:Synthetic MinorityOversampling Technique,中文释义:合成少数类过采样技术)算法相比,效果提升近邻;在少数类并不明显,处理数据存在较大误差。而SMOTE算法的主要思想是:对于少数类样本数据集X(以下简称为少数类X),遍历每一个样本:对于少数类X中每一个样本x,得到其k个近邻;确定采样倍率sampling_rate,对于每一个少数类样本x,从其k近邻中随机选择sampling_rate个样本x与sampling_rate个近邻之间进行随机线性插值,合成“人造”样本(即新的少数类样本),造成分布边缘化的问题。
发明内容
本申请的实施例提供一种基于机器学习的非平衡数据集的处理方法和装置,用以解决SMOTE算法合成“人造”样本过程中造成的分布边缘化问题。
为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,提供了一种基于机器学习的非平衡数据集的处理方法,包括:
根据包含多个多数类图像样本的第一样本集合和包含多个少数类图像样本的初始的第二样本集合,生成中心样本,其中,所述多数类图像样本和所述少数类图像样本均包含有N维属性,所述中心样本是由多个所述多数类图像样本和多个所述少数类图像样本每个维度的属性的平均值组成,N≥1;
在所述中心样本与至少一个所述少数类图像样本之间进行随机线性插值,以生成新增少数类样本,得到利用所述新增少数类样本更新后的第二样本集合。
可选的,该处理方法还可以包括:在所述更新后的第二样本集合之后,计算所述第一样本集合与所述更新后的第二样本集合的实际平衡率。
可选的,该处理方法还可以包括:根据所述第一样本集合与所述更新后的第二样本集合的预设平衡率确定所述新增少数类样本的个数。
可选的,所述更新后的第二样本集合由将所述新增少数类样本添加到所述初始的第二样本集合中得到。
第二方面,提供了一种基于机器学习的非平衡数据集的处理装置,包括:
生成单元,用于根据包含多个多数类图像样本的第一样本集合和包含多个少数类图像样本的初始的第二样本集合,生成中心样本,其中,所述多数类图像样本和所述少数类图像样本均包含有N维属性,所述中心样本是由多个所述多数类图像样本和多个所述少数类图像样本每个维度的属性的平均值组成,N≥1;
更新单元,用于在所述中心样本与至少一个所述少数类图像样本之间进行随机线性插值,以生成新增少数类样本,得到利用所述新增少数类样本更新后的第二样本集合。
可选的,该处理装置还可以包括:计算单元,用于在所述更新后的第二样本集合之后,计算所述第一样本集合与所述更新后的第二样本集合的实际平衡率。
可选的,该处理装置还可以包括:确定单元,用于根据所述第一样本集合与所述更新后的第二样本集合的预设平衡率确定所述新增少数类样本的个数。
可选的,所述更新后的第二样本集合由将所述新增少数类样本添加到所述初始的第二样本集合中得到。
第三方面,提供了一种基于机器学习的非平衡数据集的处理装置包括:至少一个处理器、存储器和通信总线;
所述处理器与所述存储器通过所述通信总线连接,所述存储器用于存储计算机执行指令,当所述基于机器学习的非平衡数据集处理装置运行时,所述处理器执行所述存储器存储的所述计算机指令,以使所述基于机器学习的非平衡数据集处理装置执行上述任一基于机器学习的非平衡数据集的处理方法。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令,其特征在于,当所述计算机指令在基于机器学习的非平衡数据集处理装置上运行时,使得所述基于机器学习的非平衡数据集处理装置执行上述任一基于机器学习的非平衡数据集的处理方法。
第五方面,提供了一种计算机程序产品,当所述计算机程序产品在基于机器学习的非平衡数据集处理装置上运行时,使得所述基于机器学习的非平衡数据集处理装置执行上述任一基于机器学习的非平衡数据集的处理方法。
本申请的实施例提供的基于机器学习的非平衡数据集的处理方法和装置,在更新第二样本集合的过程中,在一个或多个少数类图像样本与中心样本(即,多个少数类图像样本与多个多数类图像样本所构成数据集合的中心点)之间产生新增少数类图像样本,那么生成的新增少数类图像样本在中心样本附近(即向中心样本靠拢),但更靠近第二样本集合,因此,解决了现有技术中SMOTE算法中分布边缘化的问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于机器学习的非平衡数据集的处理方法的应用场景示意图;
图2为本申请实施例提供的一种基于机器学习的非平衡数据集的处理方法的流程图;
图3为本申请实施例提供的一种基于机器学习的非平衡数据集的处理装置的功能结构示意图之一;
图4为本申请实施例提供的一种基于机器学习的非平衡数据集的处理装置的功能结构示意图之二;
图5为本申请实施例提供的一种基于机器学习的非平衡数据集的处理装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图像分类可应用于很多技术领域,尤其是人工智能领域有着广泛的应用。在图像分类中,往往需要采用合适的训练集(也称为数据集)来生成图像分类器。所谓合适的训练集是指平衡率满足需求(例如:满足设定值)的训练集。然而,通常获取的初始训练集是基于机器学习的非平衡数据集,往往难以满足需求,因此需要对基于机器学习的非平衡数据集进行处理。
然而,在相关技术中SMOTE算法由于少数类样本的分布决定了其可选择的近邻,如果一个少数类样本处在少数类样本集的边缘,由这个少数类样本和它的相邻样本产生的“人造”样本也会处在这个边缘,且会越来越边缘化,进一步模糊了多数类样本和少数类样本的边界,这种模糊性改善了数据集的平衡性,加大了分类算法的分类难度,从而深化分布边缘化的问题。
为解决该技术问题,作为示例的,参考图1,本申请实施例可以先将初始的数据集A输入至基于机器学习的非平衡数据集的处理装置200中,由该处理装置200执行基于机器学习的非平衡数据集的处理方法。其中,基于机器学习的非平衡数据集的处理装置200可以是一种计算机设备,也可以是计算机设备的软件和/或硬件的组合。例如,基于机器学习的非平衡数据集的处理装置包含有通信接口,用于为外部的输入/输出设备(例如键盘、鼠标、外接显示器、外部存储器、触摸屏等)提供各种接口;该通信接口可以用来输入初始的数据集A。例如通过通用串行总线(USB)接口与鼠标或显示器连接,通过Wi-Fi装置的接口、蓝牙模块的接口等与其他设备实现通信功能。本申请实施例提供了一种基于机器学习的非平衡数据集的处理方法,该方法的执行主体是基于机器学习的非平衡数据集的处理装置。如图2所示,该处理方法包括:
S101、根据包含多个多数类图像样本的第一样本集合和包含多个少数类图像样本的初始的第二样本集合,生成中心样本。
这里的第一样本集合和第二样本集合可以作为待处理的数据集输入到非均衡数据集的处理装置中。
示例的,设初始的数据集为A,其包括第一样本集合和第二样本集合,第一样本集合中的多数类图像样本的个数记为n1,第二样本集合中的少数类图像样本的个数记为n2,n1>n2。其中,多数类图像样本和少数类图像样本均包含有N维属性,即每个图像样本的属性个数为N,N≥1,例如N可以是多个(即大于或等于2)。其中,图像样本的属性可以根据实际需要而设定的,例如可以用于表示图像上某一对象的颜色,尺寸、形状等;示例的,若是需要对医学图像进行分类,以确定图像上的器官是否病变,那么属性可以用来表示该器官表面是否光滑、该器官内部是否存在暗区等。基于此,第一样本集合记为X:X={X1,X2,X3,...,Xn1},Xi=(xi1,xi2,xi3,...,xiN),其中Xi表示第一样本集合中的第i个多数类图像样本,i=1,2,3,...,n1;xi1,xi2,xi3,...,xiN分别表示Xi的N维属性;同样的,初始的第二样本集合记为Y:Y={Y1,Y2,Y3,...,Yn2},Yj=(yj1,yj2,yj3,...,yjN),其中,Yj表示第二样本集合中的第j个多数类图像样本,j=1,2,3,...,n2;yj1,yj2,yj3,...,yjN分别表示Yj的N维属性。
中心样本是由多个的多数类图像样本和多个少数类图像样本每个维度的属性的平均值组成。这里的多个的多数类图像样本可以是第一样本集合中的全部或部分,同样的,这里的多个少数类图像样本也可以是初始的第二样本集合中的全部或部分。在下面的示例中以第一样本集合和第二样本集合中全部样本生成中心样本为例进行说明。
示例的,S101可以包含以下步骤:
(1)根据多个多数类图像样本,生成第一均值样本,第一均值样本由多个多数类图像样本每个维度的属性的平均值组成。
具体的,第一均值样本也可称为多数类图像样本的中心点,记为XP
Figure BDA0001862593320000061
(2)根据多个少数类图像样本,生成第二均值样本,第二均值样本由多个少数类图像样本每个维度的属性的平均值组成。
具体的,第二均值样本也可称为少数类图像样本的中心点,记为XT
Figure BDA0001862593320000062
(3)根据第一均值样本XP和第二均值样本XT生成中心样本,所述中心样本由第一均值样本和第二均值样本每个维度的属性的平均值组成。
具体的,中心样本也可称为多数类图像样本的中心点XP和少数类图像样本的中心点XT的中心点,还可称为初始的数据集A的中心点,记为XC:
Xc=(XP+XT)/2
作为示例的,上述图像样本可以是医学图像样本,例如,可以是肺结节图像样本,良性结节图像样本为少数类图像样本,恶性结节图像样本为多数类图像样本。
S102、在中心样本与至少一个少数类图像样本之间进行随机线性插值,以生成新增少数类样本,得到利用新增少数类样本更新后的第二样本集合。
具体的,新增少数类样本有可以称为“人造”少数类样本,记为:Y′z
Y’z=Yj+rand(0,1)×(Xc-Yj)
其中,z=1,2,3,...,k,k≥1,通常k为多个(即k≥2);Yj表示第二样本集合中的第j个多数类图像样本,j=1,2,3,...,n2,这里j可以是n2中的一个或多个;rand(0,1)为0与1之间的随机数。
由上述求取Y’z的公式可知,执行k次该公式,即可得到k个新增少数类样本。
可选的,更新后的第二样本集合由将所述新增少数类样本添加到初始的第二样本集合中得到。其中,更新后的第二样本集合中少数类样本的个数记为n3,此时,n3=n2+k。
示例的,k值可以根据第一样本集合与更新后的第二样本集合的预设平衡率确定。例如,基于上述将新增少数类样本添加到初始的第二样本集合中得到更新后的第二样本集合的这种方式,预设平衡率记为m1,
Figure BDA0001862593320000071
由此,可得到k的取值。若算得的k不是整数,可以向上取整或向下取值,得到k的取值。
可选的,更新后的第二样本集合也将初始的第二样本集合中的全部或部分替换成少数类样本来得到。其中,更新后的第二样本集合中少数类样本的个数记为n3,若k<n2,且k个新增少数类样本全部用于替换,那么n3=n2,此时更新后的第二样本集合中包含k个新增少数类样本和n2-k个原有保留的少数类样本;若k=n2,且k个新增少数类样本全部用于替换,那么n3=n2,此时更新后的第二样本集合包含n2个新增少数类样本,不包含原有的少数类样本;若k大于n2,且k个新增少数类样本全部用于替换,那么n3=k,此时更新后的第二样本集合包含k个新增少数类样本,不包含原有的少数类样本。
S103(可选)、在更新后的第二样本集合之后,计算第一样本集合与更新后的第二样本集合的实际平衡率。
示例的,基于上述将新增少数类样本添加到初始的第二样本集合中得到更新后的第二样本集合的这种方式,实际平衡率记为m2,
Figure BDA0001862593320000081
由此,可以进一步判定更新后的第二样本集合是否满足所需达到的平衡率;例如,可以判定m2是否等于预设平衡率m1。
作为一种可选方式,可以每执行一次S102,得到一个新增少数类样本,添加到当前的第二样本集合(对于第一次执行S102而言,当前的第二样本集合为初始的第二样本集合,对于后续每次执行S102而言,当前的第二样本集合为上一次执行S102后得到的更新后的第二样本集合)中,计算一次实际平衡率m2,直至m2等于m1,或者m2和m1之差小于设定值时结束。这样,当没有预先计算k的情况下,也可以很好的控制最终的实际平衡率。
基于上述方法,可以得到更新后第二样本集合,该更新后的第二样本集合和第一样本集合可作为新的数据集,记为A’,示例的,新的数据集A’可以从非均衡数据集的处理装置中输出。当然,本申请实施例对于第一样本集合是否更新不做限定。由于本申请实施例在更新第二样本集合的过程中,在一个或多个少数类图像样本与初始的数据集A的中心点之间产生新增少数类图像样本,那么生成的新增少数类图像样本在初始的数据集A的中心点附近(即向初始的数据集A的中心点靠拢),但更靠近第二样本集合,因此,解决了现有技术中SMOTE算法中分布边缘化的问题。
上述主要从非均衡数据集的处理装置的角度对本申请实施例提供的方案进行了介绍。可以理解的是,非均衡数据集处理装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的算法步骤,本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本申请实施例可以根据上述方法示例对基于机器学习的非平衡数据集的处理装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图3示出了上述实施例中涉及的基于机器学习的非平衡数据集处理装置的功能结构示意图,如图3所示,该基于机器学习的非平衡数据集的处理装置200包括:生成单元201、更新单元202。
其中,生成单元201,用于根据包含多个多数类图像样本的第一样本集合和包含多个少数类图像样本的初始的第二样本集合,生成中心样本,其中,所述多数类图像样本和所述少数类图像样本均包含有N维属性,所述中心样本是由多个所述多数类图像样本和多个所述少数类图像样本每个维度的属性的平均值组成,N≥1。
更新单元202,用于在所述中心样本与至少一个所述少数类图像样本之间进行随机线性插值,以生成新增少数类样本,得到利用所述新增少数类样本更新后的第二样本集合。
在本申请实施例中,可选的,如图4所示,基于机器学习的非平衡数据集处理装置还可以包括:计算单元203和/或确定单元204。
计算单元203,用于根据所述第一样本集合与所述更新后的第二样本集合的预设平衡率确定所述新增少数类样本的个数。
确定单元204,用于根据所述第一样本集合与所述更新后的第二样本集合的预设平衡率确定所述新增少数类样本的个数。
本申请实施例提供的非均衡数据集处理装置,用于执行上述基于机器学习的非平衡数据集处理方法,因此可以达到与上述基于机器学习的非平衡数据集处理方法相同的效果。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例还提供了一种基于机器学习的非平衡数据集处理装置,如图5所示,基于机器学习的非平衡数据集处理装置300包括:至少一个处理器301、存储器302和通信总线303;其中,所述处理器301与所述存储器302通过所述通信总线303连接,所述存储器302用于存储计算机执行指令,当所述基于机器学习的非平衡数据集处理装置300运行时,所述处理器301执行所述存储器302存储的所述计算机指令,以使所述基于机器学习的非平衡数据集处理装置300执行前面任一实施例中基于机器学习的非平衡数据集的处理方法。
其中,处理器301是基于机器学习的非平衡数据集处理装置300的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器是一个中央处理器(centralprocessing unit,CPU),也可以是特定集成电路(application specific integratedcircuit,ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路,例如:一个或多个数字信号处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)。
在具体的实现中,作为一种实施例,处理器301可以包括一个或多个CPU,例如图5中所示的CPU0和CPU1。且,作为一种实施例,基于机器学习的非平衡数据集处理装置300可以包括多个处理器,例如图5中所示的处理器301和处理器304。这些处理器中的每一个可以是一个单核处理器(single-CPU),也可以是一个多核处理器(multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
存储器302可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器302可以是独立存在,通过通信总线303与处理器相连接。存储器302也可以和处理器集成在一起。
在具体的实现中,存储器302,用于存储本申请中的数据和执行本申请的软件程序。处理器可以通过运行或执行存储在存储器302内的软件程序,以及调用存储在存储器302内的数据,执行主机的各种功能。
通信总线303,可以是工业标准体系结构(industry standard architecture,ISA)总线、外部设备互连(peripheral component interconnect,PCI)总线或扩展工业标准体系结构(extended industry standard architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
进一步的,基于机器学习的非平衡数据集处理装置300还可以包括:通信接口305,包括接收单元实现接收功能,以及发送单元实现发送功能。例如,通信接口305可以用来接收初始的数据集。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机指令,当所述计算机指令在基于机器学习的非平衡数据集处理装置上运行时,使得所述基于机器学习的非平衡数据集处理装置执行前面任一实施例中基于机器学习的非平衡数据集的处理方法。
本申请实施例还提供了一种计算机程序产品,当所述计算机程序产品在基于机器学习的非平衡数据集处理装置上运行时,使得所述基于机器学习的非平衡数据集处理装置执行前面任一实施例中基于机器学习的非平衡数据集的处理方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何在本发明揭露的技术范围内的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于机器学习的非平衡数据集的处理方法,其特征在于,包括:
根据包含多个多数类图像样本的第一样本集合和包含多个少数类图像样本的初始的第二样本集合,生成中心样本,其中,所述多数类图像样本和所述少数类图像样本均包含有N维属性,所述中心样本是由多个所述多数类图像样本和多个所述少数类图像样本每个维度的属性的平均值组成,N≥1;
在所述中心样本与至少一个所述少数类图像样本之间进行随机线性插值,以生成新增少数类样本,得到利用所述新增少数类样本更新后的第二样本集合。
2.根据权利要求1所述的基于机器学习的非平衡数据集的处理方法,其特征在于,还包括:
在所述更新后的第二样本集合之后,根据第一样本集合中的多数类图像样本的个数与更新后的第二样本集合中少数类样本的个数的比值确定所述第一样本集合与所述更新后的第二样本集合的实际平衡率。
3.根据权利要求1所述的基于机器学习的非平衡数据集的处理方法,其特征在于,还包括:
根据所述第一样本集合与所述更新后的第二样本集合的预设平衡率确定所述新增少数类样本的个数。
4.根据权利要求1所述的基于机器学习的非平衡数据集的处理方法,其特征在于,所述更新后的第二样本集合由将所述新增少数类样本添加到所述初始的第二样本集合中得到。
5.一种基于机器学习的非平衡数据集的处理装置,其特征在于,包括:
生成单元,用于根据包含多个多数类图像样本的第一样本集合和包含多个少数类图像样本的初始的第二样本集合,生成中心样本,其中,所述多数类图像样本和所述少数类图像样本均包含有N维属性,所述中心样本是由多个所述多数类图像样本和多个所述少数类图像样本每个维度的属性的平均值组成,N≥1;
更新单元,用于在所述中心样本与至少一个所述少数类图像样本之间进行随机线性插值,以生成新增少数类样本,得到利用所述新增少数类样本更新后的第二样本集合。
6.根据权利要求5所述的基于机器学习的非平衡数据集的处理装置,其特征在于,还包括:
计算单元,用于在所述更新后的第二样本集合之后,根据第一样本集合中的多数类图像样本的个数与更新后的第二样本集合中少数类样本的个数的比值确定所述第一样本集合与所述更新后的第二样本集合的实际平衡率。
7.根据权利要求5所述的基于机器学习的非平衡数据集的处理装置,其特征在于,还包括:
确定单元,用于根据所述第一样本集合与所述更新后的第二样本集合的预设平衡率确定所述新增少数类样本的个数。
8.根据权利要求5所述的基于机器学习的非平衡数据集的处理装置,其特征在于,所述更新后的第二样本集合由将所述新增少数类样本添加到所述初始的第二样本集合中得到。
9.一种基于机器学习的非平衡数据集的处理装置,其特征在于,包括:至少一个处理器、存储器和通信总线;
所述处理器与所述存储器通过所述通信总线连接,所述存储器用于存储计算机执行指令,当所述非平衡数据集的处理装置运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述非平衡数据集的处理装置执行如权利要求1-4中任一项所述的非平衡数据集的处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令,其特征在于,当所述计算机指令在基于机器学习的非平衡数据集处理装置上运行时,使得所述基于机器学习的非平衡数据集处理装置执行如权利要求1-4中任一项所述的基于机器学习的非平衡数据集的处理方法。
CN201811341167.9A 2018-11-12 2018-11-12 一种基于机器学习的非平衡数据集的处理方法和装置 Active CN109635839B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811341167.9A CN109635839B (zh) 2018-11-12 2018-11-12 一种基于机器学习的非平衡数据集的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811341167.9A CN109635839B (zh) 2018-11-12 2018-11-12 一种基于机器学习的非平衡数据集的处理方法和装置

Publications (2)

Publication Number Publication Date
CN109635839A CN109635839A (zh) 2019-04-16
CN109635839B true CN109635839B (zh) 2020-07-14

Family

ID=66067769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811341167.9A Active CN109635839B (zh) 2018-11-12 2018-11-12 一种基于机器学习的非平衡数据集的处理方法和装置

Country Status (1)

Country Link
CN (1) CN109635839B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110806A (zh) * 2019-05-15 2019-08-09 济南浪潮高新科技投资发展有限公司 基于机器学习技术的对中标与非中标数据的平衡方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150107598A (ko) * 2014-03-14 2015-09-23 오므론 가부시키가이샤 화상 처리 장치 및 화상 처리 방법
CN107944460A (zh) * 2016-10-12 2018-04-20 甘肃农业大学 一种应用于生物信息学中类别不平衡分类方法
CN108768946A (zh) * 2018-04-27 2018-11-06 中山大学 一种基于随机森林算法的网络入侵检测模型

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030204507A1 (en) * 2002-04-25 2003-10-30 Li Jonathan Qiang Classification of rare events with high reliability
JP5142135B2 (ja) * 2007-11-13 2013-02-13 インターナショナル・ビジネス・マシーンズ・コーポレーション データを分類する技術
US9224104B2 (en) * 2013-09-24 2015-12-29 International Business Machines Corporation Generating data from imbalanced training data sets
CN104102700A (zh) * 2014-07-04 2014-10-15 华南理工大学 一种面向因特网不平衡应用流的分类方法
CN106294466A (zh) * 2015-06-02 2017-01-04 富士通株式会社 分类模型构建方法、分类模型构建设备和分类方法
CN107273916B (zh) * 2017-05-22 2020-10-16 上海大学 隐写算法未知的信息隐藏检测方法
CN107368611B (zh) * 2017-08-11 2018-06-26 同济大学 一种短文本分类方法
CN108763283A (zh) * 2018-04-13 2018-11-06 南京邮电大学 一种不平衡数据集过采样方法
CN108647727A (zh) * 2018-05-10 2018-10-12 广州大学 不平衡数据分类欠采样方法、装置、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150107598A (ko) * 2014-03-14 2015-09-23 오므론 가부시키가이샤 화상 처리 장치 및 화상 처리 방법
CN107944460A (zh) * 2016-10-12 2018-04-20 甘肃农业大学 一种应用于生物信息学中类别不平衡分类方法
CN108768946A (zh) * 2018-04-27 2018-11-06 中山大学 一种基于随机森林算法的网络入侵检测模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《SMOTE-FRST:A NEW RESAMPLING METHOD USING fUZZY ROUGH SET THEORY》;RAMENTOL E et al;《ResearchGate》;20121001;全文 *

Also Published As

Publication number Publication date
CN109635839A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN108701250B (zh) 数据定点化方法和装置
US8665267B2 (en) System and method for generating 3D surface patches from unconstrained 3D curves
US11151780B2 (en) Lighting estimation using an input image and depth map
US20200151288A1 (en) Deep Learning Testability Analysis with Graph Convolutional Networks
EP3671639A1 (en) Mesh reconstruction using data-driven priors
US9208278B2 (en) Clustering using N-dimensional placement
EP3669301A1 (en) Architecture optimized training of neural networks
US20140306955A1 (en) Voxelization techniques
CN106095563B (zh) 灵活的物理功能和虚拟功能映射
US10936938B2 (en) Method for visualizing neural network models
CN109948680A (zh) 病历数据的分类方法及系统
CN112765867B (zh) 一种基于粒子方法的通用光滑边界建模方法
JPWO2012140910A1 (ja) 曲線描画装置、曲線描画方法、曲線描画プログラム及び集積回路
US11475305B2 (en) Activation function functional block for electronic devices
TWI546743B (zh) 於一影像中之物件選擇技術
CN109635839B (zh) 一种基于机器学习的非平衡数据集的处理方法和装置
US20220006457A1 (en) Glitch-free multiplexer
CN116628600A (zh) 基于随机森林的不平衡数据采样方法及装置
Vetsch et al. Neuralmeshing: Differentiable meshing of implicit neural representations
US20210232366A1 (en) Dynamic directional rounding
CN115293076A (zh) 生成电路的方法、电子设备及存储介质
Burger et al. Nhs: Network‐based hierarchical segmentation for cryo‐electron microscopy density maps
CN114691252B (zh) 屏幕显示方法及装置
CN110489885B (zh) 运算方法、装置以及相关产品
US20220004864A1 (en) Preventing glitch propagation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100031 West Chang'an Avenue, Xicheng District, Xicheng District, Beijing

Applicant after: STATE GRID CORPORATION OF CHINA

Applicant after: STATE GRID ELECTRONIC COMMERCE Co.,Ltd.

Applicant after: Guowang Xiongan Finance Technology Group Co.,Ltd.

Address before: 100031 West Chang'an Avenue, Xicheng District, Xicheng District, Beijing

Applicant before: State Grid Corporation of China

Applicant before: STATE GRID ELECTRONIC COMMERCE Co.,Ltd.

Applicant before: STATE GRID XIONG'AN FINANCIAL TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100031 No. 86 West Chang'an Avenue, Beijing, Xicheng District

Patentee after: STATE GRID CORPORATION OF CHINA

Patentee after: State Grid Digital Technology Holdings Co.,Ltd.

Patentee after: Guowang Xiongan Finance Technology Group Co.,Ltd.

Address before: 100031 No. 86 West Chang'an Avenue, Beijing, Xicheng District

Patentee before: STATE GRID CORPORATION OF CHINA

Patentee before: STATE GRID ELECTRONIC COMMERCE Co.,Ltd.

Patentee before: Guowang Xiongan Finance Technology Group Co.,Ltd.