CN113076438A - 一种不平衡数据集下基于多数类转化为少数类的分类方法 - Google Patents
一种不平衡数据集下基于多数类转化为少数类的分类方法 Download PDFInfo
- Publication number
- CN113076438A CN113076438A CN202110470271.3A CN202110470271A CN113076438A CN 113076438 A CN113076438 A CN 113076438A CN 202110470271 A CN202110470271 A CN 202110470271A CN 113076438 A CN113076438 A CN 113076438A
- Authority
- CN
- China
- Prior art keywords
- classes
- minority
- sample
- samples
- majority
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000006243 chemical reaction Methods 0.000 title claims description 9
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000000513 principal component analysis Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 abstract description 29
- 238000009826 distribution Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种不平衡数据集下基于多数类转化为少数类的分类方法,包括如下步骤:对整体训练数据进行预处理;对每个少数类样在多数类中挑选出一定数量的样本作为伙伴,确定这个数量的取值范围;从多数类中挑选出合适的样本,形成新的样本集合;对集合中样本的标签进行更改;采用新的损失函数对前向加法模型对弱分类器进行提升训练;训练过程中,将最终分类器分布求解,每一步都对目标函数求解最优基分类器和改基分类器的权重;利用分类器进行相关预训练,确定多数类转化为少数类的最终数量。本发明不仅可以应用在图像分类,图像识别,也可以应用在自然语言处理等其他需要分类的场景。
Description
技术领域
本发明涉及一种分类方法,更具体的说,涉及一种不平衡数据集下基于多数类转化为少数类的分类方法。
背景技术
在图片分类或者识别中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,例如医疗、诈骗,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不均匀,都会存在“长尾现象”,这就是不平衡分类问题。通常而言,一个数据集称为不平衡数据集需要具备两个条件:类别数量的不平衡和错分代价的不平衡。以二分类问题为例,假设负类的样本数量远大于正类的样本数量,我们将负类称作为大类,正类称作小类。
不平衡数据集的处理方法主要分为两个方面:一是从数据的角度出发,主要方法为采样,分为欠采样和过采样以及对应的一些改进方法;这些方法都是用来改变数据的分布,使得数据更加平衡。从算法的角度出发,主要是基于代价敏感学习算法(Cost-Sensitive Learning),代表的算法有adacost;另外可以将不平衡数据集的问题考虑为一分类(One Class Learning)或者异常检测(Novelty Detection)问题,代表的算法有One-class SVM。在《Neighbourhood-based undersampling approach for handlingimbalanced and overlapped data》文中明确提出,数据层面的改进方法虽然思路简单,但是增加了计算开销;算法层面的改进方法虽然更加快捷,但缺少灵活性,难以在不同的数据集之间迁移。
鉴于以上这些方法的局限性,因此,提出一种新的方法,可以更加高效地在训练数据不充分不平衡的情况下进行分类,本方法。
发明内容
本发明的目的旨在解决分类问题中的长尾问题,特别是二分类中的不平衡分类问题,本方法不仅可以应用在图像分类,图像识别,也可以应用在自然语言处理等其他需要分类的场景。
本发明至少通过如下技术方案之一实现。
一种不平衡数据集下基于多数类转化为少数类的分类方法,包括以下步骤:
(1)对训练数据进行预处理,提炼出用于训练的样本特征;
(2)对每个少数类样在多数类中挑选出样本作为伙伴,通过不平衡率确定挑选的数量的取值范围;
(3)根据样本特征,通过目标函数从多数类中挑选出样本,形成新的样本集合;
(4)对新的样本集合中样本的标签进行更改,将选中的多数类中的样本,改变标签为少数类,变更后的数据称为假少数类;
(5)采用损失函数,并利用前向加法模型对弱分类器进行训练;训练过程中,将最终分类器分别求解,每一步都对目标函数求解最优基分类器和该基分类器的权重;
(6)利用分类器进行预训练,确定多数类转化为少数类的最终数量;
(7)根据最终数量,确定损失函数中的假少数类的权重数类,利用确定好参数的模型进行数据分类。
优选的,所述预处理包括但不限于去重、降噪;数据的信息以矩阵或者向量的形式给出;若是向量的形式,则将数个向量合并为矩阵,进行主成分分析,选取合适的特征分量组成新的特征向量;若是矩阵形式,则求出特征向量后,多个样本的特征向量合并,进行主成分分析,选取合适的分量形成新的样本数据。
优选的,步骤(2)中,对于少数类样本Dp和多数类Dn,需要从Dn中挑选样本的数量为R×|Dp|,其中|Dp|表示少数类集合的样本数量,R∈[0,Rmax],Rmax如下式所示:
优选的,步骤(3)挑选的目标函数如下:
其中,f(Dn2p)是关于Dn2p的函数;si是少数类集合Dp中的样本,sj是伙伴集合Dn2p中的样本;sj是si的伙伴,每个si对应不止一个sj,distacne(·)是距离函数。
优选的,所述距离函数distacne(·)包括但不限于欧几里得距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离函数。
优选的,所述前向加法模型为:
其中,M是迭代总步数,一般由经验决定,Gm(x)是每一步中采用的基分类器,αm是其权重。
优选的,所述损失函数如下:
其中,λ是假少数类样本的权重参数,y表示样本标签的集合,f(xi)是最终分类器,xi表示Dn2p中的样本,xj表示除去Dn2p外的样本,yi是样本的标签,L(y,f(x))是关于y和f(x)的损失函数。
优选的,步骤(5)中,在每一步求解中,最优基分类器Gm由下式给出:
其中,wmi=exp(-yifm-1(xi)),wmj=exp(-yjfm-1(xi)),G是待定解,其中最优的解就是Gm,i、j分别表示Dn2p中的样本和除去Dn2p外的样本,fm-1是第m-1次迭代中的分类器。
优选的,步骤(5)中,在每一步的求解中,最优基分类器的权重αm由下式给出:
lm=wmI(yi≠Gm(xi))
其中,wm是每次迭代伙伴集合样本所占权重的和,lm是每次迭代过程中伙伴集合的加权误差,em是总体样本的加权误差。
优选的,步骤(6),根据分类器对R从0递增到Rmax的表现,找出效果最好的分类器和最好的R值,作为最终的数量。
与现有的技术相比,本发明的有益效果为:
1、集合了数据层面和算法层面在处理不平衡分类问题上的优势,同时拥有良好可抑制性和针对不同数据的权重参数特异性;
2、本方法不仅可以用在图像分类识别中,也可以用在其他需要进行分类的人工智能场景;
3、本发明不仅可以应用在图像分类,图像识别,也可以应用在自然语言处理等其他需要分类的场景,根据本发明能够有效解决不平衡分类问题,能够对金融、医疗、工业生产等方面提供巨大帮助。
附图说明
图1为实施例的一种不平衡数据集下基于多数类转化为少数类的分类方法流程示意图;
图2为实施例的模型框架图;
图3为实施例采用多数类转少数类方法前的效果图;
图4为实施例采用多数类转少数类方法后的效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不限定本发明。
本部分将详细描述本发明的具体实施例,本发明之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案,但其不能理解为对本发明保护范围的限制。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
如图1、图2所示,一种不平衡数据集下基于多数类转化为少数类的分类方法,包括以下步骤:
(1)对整体训练数据进行预处理,根据已有的数据信息精炼出用于训练的样本特征;
对数据的预处理包括但不限于去重、降噪。数据的信息一般是以矩阵或者向量的形式给出;若是向量的形式,则将数个向量合并为矩阵,进行主成分分析,选取合适的特征分量组成新的特征向量;若是矩阵形式,则求出特征向量后,多个样本的特征向量合并,进行主成分分析,选取合适的分量形成新的样本数据。
作为一个实施例,当对图像进行分类训练的时候,先对图像进行放缩,使其长和宽相等,在本实施例中,将放缩图像的长宽都为600,然后对图像进行灰度处理获得灰度矩阵,求取特征向量,再将600个样本的向量合并为一个矩阵进行主成分分析,选举合适的分量,构造图像的表达向量。
(2)对每个少数类样在多数类中挑选出一定数量的样本作为伙伴,确定这个数量的取值范围;
对于少数类Dp和多数类Dn,为Dp中的每个样本,需要从Dn中挑选样本的数量R×|Dp|,其中|Dp|表示少数类集合的样本数量,R∈[0,Rmax],Rmax下式所示:
作为另一个实施列,可以采用:
(3)从多数类中挑选出合适的样本,形成新的样本集合;
对每个少数类样本需要从多数类Dn中挑选出对整体最合适的样本,挑选的目标函数如下:
其中,f(Dn2p)是关于Dn2p的函数;si少数类集合Dp中的样本,sj是伙伴集合Dn2p中的样本;sj是si的伙伴,每个si可能对应不止一个sj,distacne(·)是距离函数;也就是说,对所有的少数类样本,要在多数类中找到一个集合Dn2p,它能够使得少数类样本与其在Dn2p中的伙伴之间的距离总和,在所有可能的Dn2p中最小。
本步骤中所述的距离函数括但不限于欧几里得距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离等用于计算距离的函数。
作为另一个实施例,可以采用:
distacne(si,sj)=|si-sj|
即,两样本之间的距离等于其向量相减之后的模长。
(4)对新的样本集合中样本的标签进行更改;具体的,遍历每个Dn2p中的每个样本,将其样本标签由原来的多数类改为少数类(大类全部改为小类),即从Dn2p中的样本的标签从大类全部改为小类,这一部分数据可以称为假少数类,这样一来,用于分类训练的多数类样本就变少了,少数类样本变多了,即减少了多数类样本的冗余,由增加了少数类样本的数量,并能够很好地清晰少数类样本的边界。
(5)采用损失函数,并利用前向加法模型对弱分类器进行提升训练;
一般地,对于不平衡分类问题采用前向加法模型有利于挖掘被误分类样本的有效信息。所述前向加法模型为:
其中,M是迭代总步数,一般由经验决定,Gm(x)是每一步中采用的基分类器,αm是其权重;
采用的损失函数如下:
其中,λ是控制参数,y表示样本标签的集合,f(x)是最终分类器,xi表示Dn2p中的样本,xj表示除去Dn2p外的样本,yi是样本的标签。L(y,f(x))是关于y和f(x)的损失函数。
(6)利用分类器进行相关预训练,训练过程中,将最终分类器分别求解,每一步都对目标函数求解最优基分类器和改基分类器的权重;
求得最优基分类器的方法如下,对损失函数进行变形可得每一步的损失函数为:
式子表示,在第m次迭代中,损失函数Lm与Gm、αm的关系,其中:fm-1是第m-1次迭代中的分类器,如下式:
则每一步的目变函数为:
其中,α是待定解,其中最优的解就是αm。
由于αm、Gm相对独立,所以可以先求Gm,在每一步求解中,最优基分类器Gm由下式给出:
其中
求得最优基分类器权重αm的方法如下,目变函数对αm进行求导可得:
其中:
lm=wmI(yi≠Gm(xi))
wm是每次迭代伙伴集合样本所占权重的和,lm是每次迭代过程中伙伴集合的加权误差,em是总体样本的加权误差。
最终可求得αm的表达式:
其中,λ是控制参数,调节损失函数中少数类样本的权重,wm是每次迭代伙伴集合样本所占权重的和,lm是每次迭代过程中伙伴集合的加权误差,em是总体样本的加权误差。
(7)利用分类器进行相关预训练,确定多数类转化为少数类的最终数量。针对每个用于训练的数据集,可以挑选其中20%用于预训练,根据分类器对R从0按步长1递增到Rmax的表现,找出分类器效果最好的R值,作为最终的转化数量。图3、图4展示了实施例采用多数类转少数类方法前后结果对比结果。
作为另一个实施例,可以从样本中挑选其中50%用于预训练,根据分类器对R从0按步长5递增到Rmax的表现,找出分类器效果最好的R值
(8)在确定少数类转为多数类的最终数量后,再对整体样本做一次与训练,寻找最优的损失函数控制参数λ。
作为另一个实施例,可以从训练样本中挑选其中30%用于预训练,根据分类器对λ从0按步长0.1递增到1.5的表现,找出在R值不变的情况下,分类器效果最好的λ值所在区间,再在这个区间内,采用更小的步长0.01来寻找更加合适的λ值。
(8)根据最终数量,确定损失函数中的假少数类的权重数类,利用已经确定的参数和训练好的模型来进行数据分类。
在确定所有的参数之后,最终只需把所得到的每一步中采用的基分类器Gm,权重αm代入模型,再对新样本根据步骤(1)提取特征,即可在短时间内判别新样本的类别属性。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (10)
1.一种不平衡数据集下基于多数类转化为少数类的分类方法,其特征在于,包括以下步骤:
(1)对训练数据进行预处理,提炼出用于训练的样本特征;
(2)对每个少数类样在多数类中挑选出样本作为伙伴,通过不平衡率确定挑选的数量的取值范围;
(3)根据样本特征,通过目标函数从多数类中挑选出样本,形成新的样本集合;
(4)对新的样本集合中样本的标签进行更改,将选中的多数类中的样本,改变标签为少数类,变更后的数据称为假少数类;
(5)采用损失函数,并利用前向加法模型对弱分类器进行训练;训练过程中,将最终分类器分别求解,每一步都对目标函数求解最优基分类器和该基分类器的权重;
(6)利用分类器进行预训练,确定多数类转化为少数类的最终数量;
(7)根据最终数量,确定损失函数中的假少数类的权重数类,利用确定好参数的模型进行数据分类。
2.如权利1所述的不平衡数据集下基于多数类转化为少数类的分类方法,其特征在于,所述预处理包括但不限于去重、降噪;数据的信息以矩阵或者向量的形式给出;若是向量的形式,则将数个向量合并为矩阵,进行主成分分析,选取合适的特征分量组成新的特征向量;若是矩阵形式,则求出特征向量后,多个样本的特征向量合并,进行主成分分析,选取合适的分量形成新的样本数据。
5.如权利要求4所述的不平衡数据集下基于多数类转化为少数类的分类方法,其特征在于,所述距离函数distacne(·)包括但不限于欧几里得距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离函数。
10.如权利要求9所述的不平衡数据集下基于多数类转化为少数类的分类方法,其特征在于,步骤(6),根据分类器对R从0递增到Rmax的表现,找出效果最好的分类器和最好的R值,作为最终的数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110470271.3A CN113076438B (zh) | 2021-04-28 | 2021-04-28 | 一种不平衡数据集下基于多数类转化为少数类的分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110470271.3A CN113076438B (zh) | 2021-04-28 | 2021-04-28 | 一种不平衡数据集下基于多数类转化为少数类的分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113076438A true CN113076438A (zh) | 2021-07-06 |
CN113076438B CN113076438B (zh) | 2023-12-15 |
Family
ID=76619085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110470271.3A Active CN113076438B (zh) | 2021-04-28 | 2021-04-28 | 一种不平衡数据集下基于多数类转化为少数类的分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113076438B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180210944A1 (en) * | 2017-01-26 | 2018-07-26 | Agt International Gmbh | Data fusion and classification with imbalanced datasets |
CN108628971A (zh) * | 2018-04-24 | 2018-10-09 | 深圳前海微众银行股份有限公司 | 不均衡数据集的文本分类方法、文本分类器及存储介质 |
CN110110754A (zh) * | 2019-04-03 | 2019-08-09 | 华南理工大学 | 基于代价局部泛化误差的不平衡问题的分类方法 |
CN112085046A (zh) * | 2019-06-13 | 2020-12-15 | 中国科学院计算机网络信息中心 | 基于采样与特征约简的非平衡数据集转换的入侵检测方法及系统 |
-
2021
- 2021-04-28 CN CN202110470271.3A patent/CN113076438B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180210944A1 (en) * | 2017-01-26 | 2018-07-26 | Agt International Gmbh | Data fusion and classification with imbalanced datasets |
CN108628971A (zh) * | 2018-04-24 | 2018-10-09 | 深圳前海微众银行股份有限公司 | 不均衡数据集的文本分类方法、文本分类器及存储介质 |
CN110110754A (zh) * | 2019-04-03 | 2019-08-09 | 华南理工大学 | 基于代价局部泛化误差的不平衡问题的分类方法 |
CN112085046A (zh) * | 2019-06-13 | 2020-12-15 | 中国科学院计算机网络信息中心 | 基于采样与特征约简的非平衡数据集转换的入侵检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113076438B (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106951825B (zh) | 一种人脸图像质量评估系统以及实现方法 | |
US10002290B2 (en) | Learning device and learning method for object detection | |
US9424493B2 (en) | Generic object detection in images | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
US20200134382A1 (en) | Neural network training utilizing specialized loss functions | |
CN109977895B (zh) | 一种基于多特征图融合的野生动物视频目标检测方法 | |
JP6897749B2 (ja) | 学習方法、学習システム、および学習プログラム | |
CN111783841A (zh) | 基于迁移学习和模型融合的垃圾分类方法、系统及介质 | |
CN108694346A (zh) | 一种基于两级cnn的船舶辐射噪声信号识别方法 | |
US11715288B2 (en) | Optical character recognition using specialized confidence functions | |
CN107194414A (zh) | 一种基于局部敏感哈希的svm快速增量学习算法 | |
Dudi et al. | Optimized threshold-based convolutional neural network for plant leaf classification: a challenge towards untrained data | |
US20240320493A1 (en) | Improved Two-Stage Machine Learning for Imbalanced Datasets | |
Amritraj et al. | An Automated and Fine-Tuned Image Detection and Classification System for Plant Leaf Diseases | |
Kotwal et al. | Yolov5-based convolutional feature attention neural network for plant disease classification | |
CN113076438A (zh) | 一种不平衡数据集下基于多数类转化为少数类的分类方法 | |
CN112270404A (zh) | 一种基于ResNet64网络的紧固件产品鼓包缺陷的检测结构及其方法 | |
CN113627538B (zh) | 训练非对称生成对抗网络产生图像的方法及电子装置 | |
WO2022227512A1 (zh) | 一种单阶段动态位姿识别方法、装置和终端设备 | |
CN113177599A (zh) | 一种基于gan的强化样本生成方法 | |
Verma et al. | Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN) | |
Paterega et al. | Imbalanced data: a comparative analysis of classification enhancements using augmented data | |
CN112270368A (zh) | 基于误分类感知正则化训练的图像分类方法 | |
Sunyoto et al. | Enhanced Classification of Potato Leaf Disease Using Xception and ReduceLROnPlateau Callbacks | |
Nayak et al. | FACIAL EXPRESSION RECOGNITION BASED ON FEATURE ENHANCEMENT AND IMPROVED ALEXNET. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |