CN115859115A - 一种基于高斯分布的智能重采样技术 - Google Patents

一种基于高斯分布的智能重采样技术 Download PDF

Info

Publication number
CN115859115A
CN115859115A CN202211632120.4A CN202211632120A CN115859115A CN 115859115 A CN115859115 A CN 115859115A CN 202211632120 A CN202211632120 A CN 202211632120A CN 115859115 A CN115859115 A CN 115859115A
Authority
CN
China
Prior art keywords
samples
intelligent
data
factors
gaussian distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211632120.4A
Other languages
English (en)
Inventor
吕小毅
左恩光
陈晨
陈程
严紫薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang University
Original Assignee
Xinjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang University filed Critical Xinjiang University
Priority to CN202211632120.4A priority Critical patent/CN115859115A/zh
Publication of CN115859115A publication Critical patent/CN115859115A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明为一种基于高斯分布的智能重采样技术。一种基于高斯分布的智能重采样技术,包括以下步骤:(1)判断原始数据是否平衡;(2)对不平衡的所述的原始数据进行密度因子和距离因子的计算后,合并为权重因子;(3)根据所述的权重因子计算权重概率,选择锚样本;(4)根据所述的锚样本生成少数类样本,以高斯分布的形式进行过采样;(5)再进行随机欠采样。本发明所述的一种基于高斯分布的智能重采样技术,以有效提高食品不平衡数据集的分类性能,从而有效解决食品计算中数据不平衡问题。

Description

一种基于高斯分布的智能重采样技术
技术领域
本发明具体涉及一种基于高斯分布的智能重采样技术。
背景技术
食品计算通常用于通过识别食品中的不合格产品,为改进食品质量提供科学的数据支持。因此,建立良好的分析模型是有效进行食品计算的关键。食品安全分析传统的方法有基于贝叶斯网络的方法、基于人工神经网络的方法和基于机器学习的方法。但是在现实世界的食品领域中,食品数据不合格样本数量较少,混杂在大量合格样本之间,这就导致经常出现食品数据不平衡的问题。传统的分类算法在不平衡数据集上极易产生过拟合现象,这就使得以往的算法在不平衡数据集上难以应用。
由于传统的分类算法在不平衡数据集上会出现过拟合现象,尽管实验可能获得了较高的准确率,但这种高准确率往往是不真实的。算法在分类结果中往往会把绝大多数样本甚至全部样本识别为多数类样本,又因为数据集是不平衡的,多数类样本会占据数据集大部分,所以准确率会显得很高,这种情况在高度不平衡的数据集上更加严重。然而那些少数类样本却没有被真正检测出来,在AUC和G-mean这些专门的不平衡数据集的评价指标中,会综合考虑多数类和少数类样本的识别结果,算法通常会得到很差的结果。在食品领域中,为了食品质量安全的研究,我们往往更注重模型能否检测出数据中的不合格样本,所以传统算法很难应用在食品不平衡数据中。
有鉴于此,本发明提出一种新的智能重采样技术,基于高斯分布过采样结合随机欠采样(GDRS),可以有效解决食品计算中的数据不平衡问题,在食品领域具有较好的应用前景。
发明内容
本发明的目的在于提供一种基于高斯分布的智能重采样技术,可以有效解决食品计算中数据不平衡问题。
为了实现上述目的,所采用的技术方案为:
一种基于高斯分布的智能重采样技术,包括以下步骤:
(1)判断原始数据是否平衡;
(2)对不平衡的所述的原始数据的少数类样本进行密度因子和距离因子的计算后,合并为权重因子;
(3)根据所述的权重因子计算权重概率,选择锚样本;
(4)根据所述的锚样本生成少数类样本,以高斯分布的形式进行过采样;
(5)再进行随机欠采样。
进一步的,所述的步骤(1)中,平衡的所述的原始数据输入到分类器中。
进一步的,所述的步骤(2)中,距离因子D(Xi)的公式为:
Figure BDA0004006202030000021
Figure BDA0004006202030000022
式中,dist(Xi,Xj)表示Xi和Xj之间的Chebyshev Distance,l表示数据集的特征属性,Xi为少数类样本集中的样本。
再进一步的,所述的步骤(2)中,密度因子ρ(Xi)表示为Xi的多数类样本的K-近邻数量在总的K-近邻数量中的比例,其公式为:
Figure BDA0004006202030000023
式中,
Figure BDA0004006202030000024
表示Xi多数类样本的K-近邻数量。
再进一步的,所述的步骤(2)中,综合权重因子I(Xi)的公式为:
I(Xi)=ρ(Xi)+D(Xi)。
进一步的,所述的步骤(3)中,将权重因子归一化后,得到权重概率;再使用轮盘赌算法作为少数类样本中选择锚样本的方法。
进一步的,所述的步骤(4)中,过采样过程中,加入采样率来控制新的少数类样本生成的数量。
与现有技术相比,本发明的有益效果在于:
目前主流的类不平衡方法按照处理阶段不同可分为算法级和数据级:算法级方法通常不太注重对数据集进行预处理,一般通过修改算法,训练模型来识别少数类样本。数据级方法一般会对数据集样本进行处理,通过生成新的少数类样本或者减少多数类样本达到数据的平衡后,再通过传统的分类器进行分类。相比之下,研究人员更注重第二种方法,因为它独立于算法之外,不需要针对原始数据进行复杂的算法设计,将预处理后的数据集使用传统的分类器就可以得到不错的结果。数据级的方法通常使用采样技术,最早的采样技术使用随机过采样和随机欠采样对不平衡数据集进行平衡处理。但是随机过采样和随机欠采样对数据集的样本处理具有随机性,不太稳定,于是SMOTE和基于SMOTE的几个变种,ADASYN被研究者们提出来解决这些问题。SMOTE可以在两个少数类样本之间线性生成新的样本,能在一定程度上克服随机过采样的不稳定性。然而虽然SMOTE可以线性生成新样本,却没有考虑少数类样本之间的差异,即使少数类样本之间混杂着多数类样本,新样本依然在两个少数类样本之间生成,这就会导致新生成的少数类样本会和多数类样本重叠在一起。最近一种新的基于高斯分布的重采样技术(GDO)被人们提出来,这种重采样技术通过密度和距离信息对少数类样本进行加权,再进行基于高斯分布的过采样,可以很好的生成符合原始数据集分布的新样本。
由于SMOTE这些算法的新样本是线性生成的,没有考虑少数类样本之间的差异,而GDO虽然综合考虑了少数类样本的距离和密度信息,但生成新样本后少数类样本数量是和多数类样本数量是一比一的关系,没有加入采样率来控制新样本的数量,少数类样本的扩充会使模型训练复杂度加大,可能会导致错误样本加倍扩大,容易产生过拟合现象。为了弥补以上不足,本发明提出了一种基于高斯分布结合随机欠采样的智能重采样技术GDRS,通过基于高斯分布进行过采样,可以很好的生成符合原始数据集分布的新的数据集,同时加入采样率可以尽量控制新的少数类样本的生成,避免模型训练度加大,错误样本倍生的风险,同时加入了随机欠采样技术,来防止过拟合现象。本发明的创新点如下。
(1)针对现实世界食品领域中,不合格数据掺杂在大量合格数据中这种数据不平衡现象,本发明首次提出了一种智能重采样技术GDRS。其通过过采样以及欠采样技术对食品数据进行了预处理,大大提高了食品数据中不合格样本的检测性能。
(2)本发明提出了的智能重采样技术GDRS分为两步,首先是基于ChebyshevDistance的高斯分布过采样,通过对每个少数类样本的密度和距离因素进行加权,根据权重概率选定锚样本,再在其周围以高斯分布的形式生成新样本。我们对多数类样本再进行随机欠采样可以防止过拟合的产生,所以能更好的解决食品计算中的数据不平衡问题。
(3)为了探索本发明所提出技术在不平衡食品数据集上的应用前景,本发明在UCI中选取5个食品以及其他公共领域的不平衡数据集,通过AUC、G-mean值来与五个常用的重采样技术来比较。结果证明,本发明提出的方法在所有数据集上均取得了最好的性能,为食品计算解决数据不平衡问题提供了新思路。
附图说明
图1为少数类样本密度和距离因子示意图:dmaj和dmin分别表示,锚样本到多数类和少数类样本的Chebyshev Distance;
图2为少数类样本生成示意图;
图3为过采样后的数据集示意图;
图4为欠采样后的数据集示意图
图5为GDRS总体流程图;
图6为原始的人工数据集;
图7为不同的数据不平衡处理方法的可视化结果;
图8为网格搜索的可视化展示,(a)Winequality-red数据集,(b)Wine数据集,(c)Breast-cancer数据集,(d)Heart Disease数据集,(e)Glass数据集,(f)Milk数据集。
具体实施方式
为了进一步阐述本发明一种基于高斯分布的智能重采样技术,达到预期发明目的,以下结合较佳实施例,对依据本发明提出的一种基于高斯分布的智能重采样技术,其具体实施方式、结构、特征及其功效,详细说明如后。在下述说明中,不同的“一实施例”或“实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
在详细阐述本发明一种基于高斯分布的智能重采样技术之前,有必要对本发明中提及的相关背景做进一步说明,以达到更好的效果。
1、基于机器学习的食品质量安全研究模型
快速分类模型的性能是食品质量安全研究的关键。随着人工智能的发展,机器学习技术也被广泛应用于食品质量安全的分析和评估,并取得了显著的成果。具体来说,Li,A等人开发了一种使用MSI的模型和机器学习分类器对牛肉切块进行分类。Magnus,I等人发展一种基于机器学习的算法,能够识别异物,通过结合食物与来自紫外线、可见光、近红外反射光谱和荧光光谱的信息,对产品流进行安全和质量评估。他们实现了使用级联的单个分类器结合两种类型的光谱数据对核桃进行处理的分类方案。Lopes,JF等人提出了一种计算机视觉系统(CVS)与空间金字塔分区集成(SPPe)技术相结合,使用图像特征和机器学习对大麦粉进行分类。Oliveira,AND等人开发了一个平台,使用决策树算法分析质谱数据来分类有机和非有机的西红柿。Mathanker,SK等人研究通过使用准确度机器学习分类器:AdaBoost和支持向量机(SVM)来改善山核桃缺陷分类。Rachineni,Kavitha等人结合核磁共振使用逻辑回归和基于神经网络的光梯度增强机来加速蜂蜜中糖掺假类型的识别。随着科技的发展,越来越多的研究人员成功改进了食品质量安全分析领域的识别模型。然而,现有的研究方法大多针对的都是食品数据类平衡的问题。作为对比,本发明所讨论的方法能够能够对现实生活中大量不平衡的食品数据进行简单、快速地质量安全分类,为食品质量安全检测提供了新的思路。
2、不平衡的学习问题
在实际应用中,数据不平衡问题普遍存在,如疾病检测、欺诈检测、文本分类和网络入侵检测等。在各种重采样技术中,欠采样技术的计算成本较低。Shen,CY等人在计算机断层扫描重建中比较了三种欠采样策略,发现随机欠采样保留了最多的信息,并且在重建质量方面优于其他两种。Seng,Z等人提出了一种名为Neighborhood Under SamplingStacked Ensemble(NUS-SE)的欠采样方法。该方法实现了一个新的欠采样技术-邻里欠采样(NUS),它根据本地邻域信息选择多数实例。所提出的NUS-SE与基于非重采样的堆叠集成相比,能够实现更好的性能。Van Hulse,J等人实现了目前用于处理不平衡数据的三个重复欠采样方法,并使用四种不同的学习器、四种性能指标和来自不同应用领域的15个数据集进行了详细而全面的实证研究。Camacho-Nieto,O等人提出了一种欠采样方法,用于处理不平衡的数据集。该方法基于一种新颖的实例重要性度量,并且能够平衡混合数据和不完整数据。所进行的数值实验表明了所提出的欠采样在众所周知的不平衡数据集中优于其他现有技术的算法。欠采样技术虽然会缩短算法的时间,但往往也会导致信息丢失。
过采样技术在处理数据不平衡问题上最常使用。Liu,CH等人提出一种新的约束方法,通过减少噪音来进行过采样。该算法首先提取数据集中的重叠区域,然后应用蚁群优化来定义少数类区域的边界,在抑制噪声产生的约束条件下通过过采样合成新样本来获得平衡的数据集。实验表明,它优于各种基准测试过采样方法。Rodriguez-Torres,F等人提出了一种不需要k近邻搜索的过采样方法。在对具有不同程度不平衡的大型数据集的实验上,所提出的方法至少是以前文献中的最快方法的两倍,同时获得了相似的过采样质量。Gnip,P等人提出了一种新的选择性过采样方法(SOA),首先通过使用异常值检测技术从少数类中分离出最具代表性的样本,然后利用这些样本进行过采样合成。所提出的方法在四个合成数据集以及四个真实数据集上进行评估,提高了合成少数过采样技术和自适应合成采样这两种最先进过采样方法的预测性能。过采样技术会使模型训练复杂度加大,可能会导致错误样本加倍扩大,容易产生过拟合现象。
混合采样技术能够把过采样和欠采样结合起来,保留二者的优点,更加灵活多变。Park,S等人提出了一种基于慢启动算法结合过采样和欠采样的不平衡网络流量方法,使用KDD99数据集获得的模拟结果表明,提出的方法分别与SMOTE、ADASYN、Borderline-SMOTE和生成对抗网络过采样相比,F1分数均有所提高。Susan,S等人提出一种新颖的智能三步序列,首先欠采样多数类,其次是过采样少数类,最后是智能欠采样已经成为多数类的少数类数据。来自UCI存储库的基准数据集的实验肯定了他们的三步方法SSOMaj-SMOTE-SSOMin的效率,都获得了较高的AUC分数。在食品安全的研究过程中,食品数据不合格样本数量较少,混杂在大量合格样本样本之间,数据不平衡问题十分严重。据我们所知,目前的研究首次提出智能重采样技术作为食品计算模型。
在了解了本发明中提及的相关背景之后,下面将结合具体的实施例,对本发明一种基于高斯分布的智能重采样技术做进一步的详细介绍:
现实世界的食品领域中,少量的食品数据不合格样本混杂在大量合格样本之间,会导致食品数据不平衡的问题。传统的分类算法在食品不平衡数据集上容易产生过拟合现象,难以应用。基于以上问题,本发明提出了一种基于高斯分布过采样结合随机欠采样(GDRS)的智能重采样技术。该技术基于高斯分布进行过采样,可以很好的生成符合原始数据集分布的新的数据集,加入采样率可以控制新的少数类样本的生成数量,避免模型训练度加大,错误样本倍生的风险,同时加入了随机欠采样技术,来防止过拟合现象。将该技术应用于五个UCI食品以及其他公共领域的不平衡数据集上,并通过不平衡数据集的评价指标AUC、G-mean值来评价。大量的实验结果证明,智能重采样技术GDRS可以有效解决食品计算中的数据不平衡问题,在食品领域具有较好的应用前景。
实施例1.
A方法:
1)采样过程:
在本发明中描述了基于ChebyshevDistance的高斯分布过采样和随机欠采样的相互结合的过程,它们是我们提出的智能重采样技术GDRS的基本组成部分。本发明通过独特的连续两步步骤为多数类和少数类进行智能重采样过程:对少数类样本进行过采样,对多数类样本进行欠采样。
本发明通过对每个少数类样本的密度和距离因素进行加权,根据权重概率选定锚样本,再在其周围以高斯分布的形式生成新样本,选择Chebyshev Distance作为距离因素是因为它可以计算样本之间的最大差异,所以能更充分考虑少数类样本之间的差异。选择高斯分布是因为其符合现实世界大部分数据集的分布。
设定Q作为一个不平衡数据集,其中多数类样本集Qmaj={Y1,Y2,…,Ym},少数类样本集Qmin={X1,X2,…,Xn}。本发明从少数类样本集Qmin中选定一个Xi:
Figure BDA0004006202030000081
表示Xi少数类样本的K-近邻数量,/>
Figure BDA0004006202030000082
表示Xi多数类样本的K-近邻数量,/>
Figure BDA0004006202030000083
表示Xi的总体K-近邻数量,Xi总的K-近邻数量为K。以下为智能重采样的具体过程:
①首先,为了生成符合原始数据集分布并且有效的新数据集,必须考虑每个少数类样本间的密度因素及距离因素的差异,如图1所示,对每一个Xi∈Qmin,用D(Xi)来表示其距离因子:
Figure BDA0004006202030000084
其中:
Figure BDA0004006202030000085
dist(Xi,Xj)表示Xi和Xj之间的Chebyshev Distance,l表示数据集的特征属性。
②用ρ(Xi)来表示Xi的密度因子:
Figure BDA0004006202030000086
其中:ρ(Xi)表示为Xi的多数类样本的K-近邻数量在总的K-近邻数量中的比例。
③在得到ρ(Xi)及D(Xi)后,定义一个综合权重因子I(Xi):
I(Xi)=ρ(Xi)+D(Xi) (4)
其中:I(Xi)可以用来衡量每个少数类样本Xi的重要性。
④为了得到权重概率,需要将I(Xi)归一化:
Figure BDA0004006202030000087
其中:|Qmin|代表少数类样本的数量,且
Figure BDA0004006202030000088
我们定义/>
Figure BDA0004006202030000089
为Xi被选择为锚样本的权重概率。
⑤在得到权重概率后,每次使用轮盘赌算法作为少数类样本中选择锚样本的方法,算法的单次权重概率、累计权重概率如表1所示,然后以均匀分布的方式生成一个随机数,并与表1的累计权重概率进行对比。
表1 Roulette Selection
Figure BDA0004006202030000091
⑥在满足以下要求后,我们就可以将一个少数类样本Xe选择为锚样本。
Figure BDA0004006202030000092
⑦定义Xi被选择为锚样本的次数为H(Xi),那么H(Xi)期望为:
Figure BDA0004006202030000093
从H(Xi)期望的关系式可以得到一个结论,
Figure BDA0004006202030000094
与H(Xi)成正比,证明我们会更多的选择权重较大的样本,这样少数类生成新样本的质量就会被极大程度的提高。/>
⑧在得到锚样本后,就可以利用锚样本来生成新的少数类样本。定义一个高斯分布N(μi,τσi),其中,均值μi为0,标准差σi是锚样本Xi与其最近的一个少数类样本X′i的切比雪夫距离,τ是一个相关系数。σi定义为:
Figure BDA0004006202030000095
⑨如图2所示,随机选择一个锚样本Xi的方向作为生成新生成少数类样本Xt的方向,方向向量的终点为V={v1,v2,…,vl},所以,锚样本到新的少数类样本的方向向量
Figure BDA0004006202030000096
被定义为:
Figure BDA0004006202030000097
其中,O代表坐标原点,
Figure BDA0004006202030000098
及/>
Figure BDA0004006202030000099
分别代表V和Xi的位置矢量。
⑩将
Figure BDA00040062020300000910
定义为一个高斯分布的随机数,即
Figure BDA00040062020300000911
Figure BDA00040062020300000914
求得/>
Figure BDA00040062020300000912
与/>
Figure BDA00040062020300000913
的比例γ为:
Figure BDA0004006202030000101
其中:
Figure BDA0004006202030000102
Figure BDA0004006202030000103
Figure BDA0004006202030000107
根据以上关系,得到新样本的位置矢量为:
Figure BDA0004006202030000104
最终,将公式9至公式13合并到公式14中,新样本可以计算为:
Xt={x1+γ(v1-x1),x2+γ(v2-x2),…,xl+γ(vl-xl)} (15)
Figure BDA0004006202030000106
在得到新样本的计算公式后,以高斯分布的形式来生成新的少数类样本,如图3所示。为了防止过采样过程中,可能发生的错误样本加倍扩大,容易产生过拟合现象的问题,加入采样率α来控制新的少数类样本生成的数量,我们定义T+为生成新的少数类样本数量,Qgd为过采样完成后的少数类样本的集合,计算公式如下:
T+=α|Qmaj|-|Qmin| (16)
|Qgd|=α|Qmaj| (17)
Figure BDA0004006202030000108
为了避免对少数类样本过采样后和多数类样本数量差距过多而引起的过拟合问题,同时也为了防止多数类样本中数据重叠造成信息重复等问题,再结合随机欠采样来减少部分多数类样本,让数据更加平衡,如图4所示。定义Qrs为欠采样完成后的多数类样本的集合,需要减少多数类样本的数量T_为:/>
T_=|Qmaj|-|Qrs| (18)
其中:
Figure BDA0004006202030000105
β表示采样过程中的欠采样率
以上过程就是GDRS技术在处理数据不平衡问题的具体细节及原理描述,总体流程图如图5所示。
2)新生成平衡数据集分析
为了展示本发明所提出的方法与其他对比方法的不同,对一个人工的二分类不平衡原始数据集和平衡后的数据集进行可视化。如图6所示,该数据集包含139个多数类样本及21个少数类样本,符合不平衡数据集的要求。
分别选取了目前主流的几种重采样方式来体现本发明所提出的方法和其他方法间的差异。图7展示了使用不同的重采样方法对原始数据集采样得到的结果,黑色圆点代表多数类样本,浅色圆点代表少数类样本。通过观察得到以下几种结果:
第一,发现SMOTE、ADASYN、Borderline-SMOTE、K-Means SMOTE这几种重采样方法的结果非常相似,SMOTE以线性的方式生成了许多重叠在一起的样本,其中更有部分生成的少数类样本和多数类样本重叠在了一起。ADASYN产生了最多与多数类样本重叠的样本,生成的样本可能无法提供有益信息。Borderline-SMOTE在距离较近的少数类样本周围得到了局部最优的结果,远处的少数类样本考虑不足,产生的少数类样本较少。K-Means SMOTE在更靠近边界区域的少数类样本周围生成了更多的样本,但生成的少数类样本有较多重叠在一起。
第二,GDO虽然更充分的考虑了少数类样本原始的分布情况,在距离远和密度大的地方生成了更多的样本。但生成的少数类样本过多,有部分重叠在一起,且没有对原多数类样本进行处理,所以新生成的数据集少数类样本和多数类样本都含有大部分重复信息。
第三,GDRS同时考虑了多数类样本和少数类样本的分布,生成的新样本所构建的形状非常符合原始样本数据的分布形状,同时减轻了部分多数类样本的重叠情况,获得了最好结果。
B实验及结果分析
(1)数据集
本发明所使用的数据集有两种类型。第一种是来自UCI机器学习存储库的两个关于食品以及三个其他领域的公共数据集。第二种是实际检测的乳制品数据集。
①UCI数据集
表2给出了所选的5个UCI数据集的详细属性。它显示了每个数据集的样本数量(instances)、属性数量(attributes)和不平衡比率(IR)。IR是多数类样本和少数类样本的数量之比。IR是对不平衡数据不平衡程度使用最广泛的测量方法,定义如下:
Figure BDA0004006202030000121
其中Qm香j和Qmin分别是多数类和少数类样本的数量。
下表5个UCI公共数据集中Winequality-red、Wine、Glass是多类数据集。根据实际情况,选取Winequality-red中评分最好的两类作为少数类,其余类作为多数类。Wine、Glass这两个数据集样本数较小的类作为少数类,其余类作为多数类。Breast-cancer、Heart Disease这两个数据集是较为平衡的二类数据集,为了测试这些方法的性能,删减了部分少数类的样本来增加数据集的不平衡度,各个数据集详细信息见表2
表2UCI公共数据集信息
Figure BDA0004006202030000122
②乳制品数据集
实际使用的不平衡数据集是中国某省份的乳制品检测数据集,对乳制品数据集根据不同的不平衡程度来分级测试我们的方法的性能。分别对数据集进行5个等级的划分,划分的依据是少数类样本占总样本数的百分比,表3是乳制品数据分级的详细信息。
表3分级乳制品数据集信息
Figure BDA0004006202030000123
Figure BDA0004006202030000131
(2)评价指标
如前所述,准确率并不能真正来衡量不平衡数据集的分类性能,我们通过构造混淆矩阵来确定相应的评价指标,从而能更准确地评价不平衡数据的分类性能。混淆矩阵如表4所示。
表4混淆矩阵
Figure BDA0004006202030000132
其中:TP是被正确分类为正类的正类样本,FN是被错误分类为负类的正类样本。FP是被错误分类为正类的负类样本,TN是被正确分类为负类的负类样本。通过混淆矩阵可以计算出被正确分类为正类的正类样本在总的正类样本中所占的比例Sens,被正确分类为负类的负类样本在总的负类样本中所占的比例Spec,它们分别衡量少数类样本和多数类样本的识别准确性,具体定义如公式21和公式22所示:
Figure BDA0004006202030000133
Figure BDA0004006202030000134
使用AUC及G-mean这两种作为模型的评价指标,AUC是ROC曲线下的面积值。AUC和G-mean都是综合评价多数类样本准确率和少数类样本准确率的综合指标,二者的值越高,说明该模型分类性能越好。具体定义如公
式23和公式24所示:
Figure BDA0004006202030000135
Figure BDA0004006202030000136
(3)基线模型
为了更全面的比较GDRS技术的有效性。在Python中实现了GDRS以及其他主流的数据不平衡重采样方法(包括SMOTE、Borderline-SMOTE、K-Means SMOTE、ADASYN、GDO)来进行评估。
①SMOTE
SMOTE是现在的一种主流的过采样技术,该方法从少数类样本和邻近样本之间,线性生成新的少数类样本,使少数类样本的数量和多数类样本数量保持一致,从而平衡数据集。
②Borderline-SMOTE
Borderline-SMOTE是SMOTE的一种变体方法,与SMOTE不同的是,该方法根据边界样本比远离边界的样本更容易错误分类这一特点,其仅对边界附近的少数样本进行过采样。Borderline-SMOTE会首先寻找到边界样本,再进行过采样,之后加入到原数据集,使之平衡。
③K-Means SMOTE
K-Means SMOTE也是SMOTE的一种变种方法,该方法基于k-means聚类和SMOTE,可以解决以往大多数方法带来不必要噪声这个问题。该方法使用聚类,可以让识别到原数据集中最有效的区域来生成新的样本。
④ADASYN
ADASYN的主要思想是根据学习难度对不同的少数类样本进行加权分布。该方法会更注重那些较难学习的少数类样本,为更难学习的少数类样本生成更多的新样本。
⑤GDO
GDO是一种新的数据重采样技术,该方法会考虑少数类样本所携带的密度和距离信息,以概率的方式从少数类样本中选择锚样本。然后根据高斯分布模型生成新的少数类样本。
(4)实验及结果分析
使用SVC分类器和NuSVC分类器分别来分析所有方法预处理后的数据集。其中,选择AUC及G-mean作为所有方法的性能评价指标,其中SVC分类器和AUC评价指标为一组,NuSVC分类器和G-mean评价指标为一组。之所以不用同一个分类器,是因为在实验中发现采用G-mean为评价指标时,使用SVC分类器的效果很不理想。
利用UCI公共数据集对所有方法进行评估。每个数据集被分为测试集和训练集。所有数据集的30%作为测试集,而其余的数据作为训练集。这种划分是随机进行的,实验重复10轮,可以在很大程度上消除了结果的随机性。表5和表6分别显示了所有方法的AUC及G-mean结果。
表5六种方法在UCI数据集上AUC的结果
Figure BDA0004006202030000151
表6六种方法在UCI数据集上G-mean的结果
Figure BDA0004006202030000152
在表5和表6中我们观察到GDRS技术在UCI数据集上的AUC值及G-mean均获得了最好结果,通过对结果的进一步观察有以下发现。
Ⅰ:从不同的样本类型考虑,本发明在UCI食品和其他公共领域的数据集不平衡问题上均获得了较好的结果,证明了GDRS技术在不同领域的样本类型上的普适性。
Ⅱ:本发明发现,在所有数据集AUC和G-mean的结果中除GDRS外的几种方法在Wine、Breast-cancer、Glass数据集上部分获得了相同的结果,造成该现象的原因是这几个数据集的样本量较小。
Ⅲ:通过观察Wine、Breast-cancer、Glass这几个数据集的结果发现,本发明的方法取得的结果明显好于其他方法,证明了人工智能算法在食品质量安全的分类判别中具有一定的应用价值。在其他领域的公共数据集上,所有方法均获得了较高的AUC和及G-mean,证明了该方法不仅适用于处理食品数据的不平衡问题,同时具有一定的泛化性。
Ⅳ:通过观察Winequality-red、Heart Disease这两个数据集中的结果发现,本发明的方法明显比其他几种方法更适用于处理数据的不平衡问题,在数据集中取得了更好的结果。但结果相对另外三个数据集不是太明显,造成这种结果的原因是样本较多的多类不平衡数据成分较为复杂,没有小样本数据集较为容易分类。
为了研究本发明的方法对食品数据不平衡程度的性能,我们用乳制品数据集对所有方法进行评估。乳制品数据集的测试集和训练集和UCI数据集做了同样的划分处理。表7和表8分别显示了所有方法的AUC及G-mean结果。
表7六种方法在分级乳制品数据集上AUC的结果
Figure BDA0004006202030000161
表8六种方法在分级乳制品数据集上G-mean的结果
Figure BDA0004006202030000162
在表7和表8中我们观察到GDRS技术在分级的乳制品数据集上的AUC值及G-mean也均获得了最好结果,通过对结果的进一步观察我们有以下发现。
Ⅰ:从AUC和G-mean两个总体的评价指标上考虑,本发明的技术方案在五个级别的乳制品数据集不平衡问题上均获得了较好的结果,证明了GDRS技术在不同平衡程度的数据集上有广泛的适应性。
Ⅱ:本发明发现,在所有数据集AUC的结果中除GDRS外的几种方法在五个级别的数据集上呈现随着不平衡程度的增大,分类性能也越来越好的结果,造成该现象的原因是低不平衡的数据集多数类实例和少数类实例数量差别较小,对比方法不能完全发挥性能。而我们方法的结果却较为稳定,证明我们的方法在不同不平衡程度的数据集上均具有有效的分类性能。
Ⅲ:通过观察,在所有数据集G-mean的结果中,几种方法在五个级别的数据集上呈现随着不平衡程度的增大,分类性能也越来越低的结果,与AUC评价指标呈现相反的结果,但都比另外几种方法效果较好。证明本发明的方法在高不平衡程度的数据集上也具有有效的分类性能。造成该现象的原因是几种方法对多数类的召回率较好,对少数类的召回率较差,导致sens较高,spec较低,AUC受sens影响较大,G-mean受spec影响较大,从而呈现这样的结果。
为了进一步研究超参数对GDRS技术的性能影响,通过网格搜索的方式对α和β依次取值进行敏感度分析,旨在确定最优的性能表现。由于数据本身比例以及基于GDO模型的原因,α和β互相限制,且α最大值不能大于β的最小值。具体的寻优过程如图8所示。
通过观察图8.(a)的结果发现,过采样率α在0.2-0.5与AUC值是成正相关的,α越大AUC值就越大,α为0.5时获得了最大的AUC值。而欠采样率β在0.6-0.9范围内是成正相关的,在0.9处AUC获得最大值。两点交汇对应的AUC值在0.77左右。在图8.(b)中,α在0.4-0.7与AUC值是成正相关的,在0.7处有最大的AUC值,AUC在α为0.7时随着β发展较为平缓,当β为0.75时AUC值最大,两点交汇对应的AUC值在0.998左右。在图8.(c)中,α在0.3-0.45间与AUC值成负相关的,其余各处较为平坦,在α为0.3时我们获得了AUC的最大值,此时β为0.65。两点交汇对应的AUC值在0.997-0.998范围内。在图8.(d)中,AUC的变化与图8.(c)有些类似,但α在0.4-0.5间与AUC值是成正相关的,但受β影响较大β在0.85时有最大的AUC值,与之相对应的α为0.4。此时,AUC值略大于0.70。在图8.(e)中,α在0.2-0.5间与AUC值成正相关的,在α为0.5时我们获得了AUC的最大值,此时β为0.7。对应的AUC值在0.97-0.98范围内。在图8.(f)中,α在0.25-0.4间与AUC值是成正相关的,而欠采样率β在0.6-0.9范围内是成负相关的,β在0.5时有最大的AUC值,与之相对应的α为0.35。此时,AUC值略大于0.87。
基于上述观察,发现AUC值对少数类的过采样和多数类的欠采样都有一定的影响,这也证明了本发明在GDRS技术中关注少数类样本的生成和减少部分重复的多数类样本都是必要的。同时,还发现在食品计算的研究中,将数据不平衡比例控制在一定范围内更有助于提升分类识别的精度,减小数据集过拟合的影响。
为了解决食品领域中的数据不平衡问题,本发明提出了一种智能采样技术GDRS。该技术基于高斯分布进行过采样,可以很好的生成符合原始数据集分布的新的数据集,同时加入采样率可以尽量控制新的少数类样本的生成,避免模型训练度加大,错误样本倍生的风险,另外结合了随机欠采样技术,来防止过拟合现象。在UCI公共不平衡数据集和自己采集的分级乳制品数据集上通过比较5个重采样方法的AUC、G-mean值来评估研究所提出技术的性能。结果证明,本发明所提出的技术可以有效提高食品不平衡数据集的分类性能,在食品计算中具有较好的应用前景,另外我们加入了一些其他领域的数据集,对其他领域的相关研究有一定的泛化性能。
以上所述,仅是本发明实施例的较佳实施例而已,并非对本发明实施例作任何形式上的限制,依据本发明实施例的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明实施例技术方案的范围内。

Claims (7)

1.一种基于高斯分布的智能重采样技术,其特征在于,包括以下步骤:
(1)判断原始数据是否平衡;
(2)对不平衡的所述的原始数据进行密度因子和距离因子的计算后,合并为权重因子;
(3)根据所述的权重因子计算权重概率,选择锚样本;
(4)根据所述的锚样本生成少数类样本,以高斯分布的形式进行过采样;
(5)再对多数类样本进行随机欠采样。
2.根据权利要求1所述的智能重采样技术,其特征在于,
所述的步骤(1)中,平衡的所述的原始数据输入到分类器中。
3.根据权利要求1所述的智能重采样技术,其特征在于,
所述的步骤(2)中,距离因子D(Xi)的公式为:
Figure FDA0004006202020000011
Figure FDA0004006202020000012
式中,dist(Xi,Xj)表示Xi和Xj之间的Chebyshev Distance,l表示数据集的特征属性,Xi为少数类样本集中的样本。
4.根据权利要求3所述的智能重采样技术,其特征在于,
所述的步骤(2)中,密度因子ρ(Xi)表示为Xi的多数类样本的K-近邻数量在总的K-近邻数量中的比例,其公式为:
Figure FDA0004006202020000013
式中,
Figure FDA0004006202020000014
表示Ki多数类样本的K-近邻数量。
5.根据权利要求4所述的智能重采样技术,其特征在于,
所述的步骤(2)中,综合权重因子I(Xi)的公式为:
I(Xi)=P(Xi)+D(Xi)。
6.根据权利要求1所述的智能重采样技术,其特征在于,
所述的步骤(3)中,将权重因子归一化后,得到权重概率;再使用轮盘赌算法作为少数类样本中选择锚样本的方法。
7.根据权利要求1所述的智能重采样技术,其特征在于,
所述的步骤(4)中,过采样过程中,加入采样率来控制新的少数类样本生成的数量。
CN202211632120.4A 2022-12-19 2022-12-19 一种基于高斯分布的智能重采样技术 Pending CN115859115A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211632120.4A CN115859115A (zh) 2022-12-19 2022-12-19 一种基于高斯分布的智能重采样技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211632120.4A CN115859115A (zh) 2022-12-19 2022-12-19 一种基于高斯分布的智能重采样技术

Publications (1)

Publication Number Publication Date
CN115859115A true CN115859115A (zh) 2023-03-28

Family

ID=85674102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211632120.4A Pending CN115859115A (zh) 2022-12-19 2022-12-19 一种基于高斯分布的智能重采样技术

Country Status (1)

Country Link
CN (1) CN115859115A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051288A (zh) * 2023-03-30 2023-05-02 华南理工大学 一种基于重采样的金融信用评分数据增强方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051288A (zh) * 2023-03-30 2023-05-02 华南理工大学 一种基于重采样的金融信用评分数据增强方法

Similar Documents

Publication Publication Date Title
Johnson et al. Survey on deep learning with class imbalance
CN107563435A (zh) 基于svm的高维不平衡数据分类方法
Isa et al. Using the self organizing map for clustering of text documents
CN108304316B (zh) 一种基于协同迁移的软件缺陷预测方法
CN106295694A (zh) 一种迭代重约束组稀疏表示分类的人脸识别方法
Wang et al. Pulsar candidate classification with deep convolutional neural networks
Krawczyk et al. Weighted one-class classification for different types of minority class examples in imbalanced data
CN106548041A (zh) 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN110059756A (zh) 一种基于多目标优化的多标签分类系统
Untoro et al. Evaluation of decision tree, k-NN, Naive Bayes and SVM with MWMOTE on UCI dataset
CN106951728B (zh) 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
CN115859115A (zh) 一种基于高斯分布的智能重采样技术
CN109583519A (zh) 一种基于p-Laplacian图卷积神经网络的半监督分类方法
Ai-jun et al. Research on unbalanced data processing algorithm base tomeklinks-smote
Li et al. Feature-balanced loss for long-tailed visual recognition
Menaka et al. Chromenet: A CNN architecture with comparison of optimizers for classification of human chromosome images
CN110177112B (zh) 基于双重子空间采样和置信偏移的网络入侵检测方法
Gillala et al. An efficient chaotic salp swarm optimization approach based on ensemble algorithm for class imbalance problems
Geng et al. CNUSVM: hybrid CNN-uneven SVM model for imbalanced visual learning
Liang et al. ASE: Anomaly scoring based ensemble learning for highly imbalanced datasets
Liang et al. ASE: Anomaly Scoring Based Ensemble Learning for Imbalanced Datasets
Karanjgaokar et al. Comparison of classification methodologies for predicting the stages of diabetic retinopathy
Pang et al. Detection of radio pulsars in single-pulse searches within and across surveys
Xu et al. Predicting the trend of stock index based on feature engineering and CatBoost model
Babalik et al. A pre-processing approach based on artificial bee colony for classification by support vector machine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination