CN117633538A - 类不平衡数据的处理方法、系统、电子装置及存储介质 - Google Patents

类不平衡数据的处理方法、系统、电子装置及存储介质 Download PDF

Info

Publication number
CN117633538A
CN117633538A CN202410101159.6A CN202410101159A CN117633538A CN 117633538 A CN117633538 A CN 117633538A CN 202410101159 A CN202410101159 A CN 202410101159A CN 117633538 A CN117633538 A CN 117633538A
Authority
CN
China
Prior art keywords
samples
data
minority
class
neighbor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410101159.6A
Other languages
English (en)
Inventor
石磊
杨佳鹏
袁璐
杨晓辉
程南昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN202410101159.6A priority Critical patent/CN117633538A/zh
Publication of CN117633538A publication Critical patent/CN117633538A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供的类不平衡数据的处理方法、系统、电子装置及存储介质,其中的处理方法包括对原始数据集进行处理,获取所有的少数类样本的可近邻集合,其中,所述原始数据集包括少数类样本集合;根据所述所有的少数类样本的近邻集合,获取包含所有的可近邻多数类样本的子集合;通过Mixup对所述少数类样本集合和所述可近邻多数类样本的子集合进行数据融合迭代处理,生成无标签数据样本集合;通过预训练的一类支持向量机对所述无标签数据样本集合经过判定,确定停止融合迭代处理。利用本发明,能够解决目前不平衡数据少数类样本的分类效果不明显的问题。

Description

类不平衡数据的处理方法、系统、电子装置及存储介质
技术领域
本发明涉及类不平衡数据处理技术领域,更为具体地,涉及一种面向类不平衡数据的正样本增强的处理方法、系统、电子装置及存储介质。
背景技术
类不平衡问题作为计算机领域备受关注问题,受到了研究者的广泛关注。若数据集中存在着一个类别比另一个类别具有明显的数量占比,称这个数据集就为不平衡数据集。传统方法一般使用的大多为平衡数据集,而在现实生活中,数据集会呈现出多种多样的不规则分布。当分类器在处理不平衡数据集时,可能会将少数类样本视为噪声从而忽略其作为数据的重要性。上述问题导致传统的机器学习方法难以识别少数类样本,无法学习到数据中潜在且可能具有重要作用的知识。在当前的研究中,研究者开展了大量的关于类不平衡的研究,并将其应用于不通领域,如故障诊断、网络入侵检测、文本分类、欺诈检测和区块链等邻域。
目标类相对于其他类具有非常少量的实例时,数据集就会出现类不平衡问题。由于其发生率极低,平凡分类器通常无法检测到少数类别。数据层面的预处理方法通常利用重采样去处理不平衡数据之间的不平衡比,转化数据的类分布,提高分类器的泛化能力和识别能力。
(1)过采样
在最近几年,已经有很多学者开始去通过合成数据来对样本进行扩充,最经典的算法便是SMOTE算法,该算法通过在少数类样本与其最近邻之间的连线上产生新的样本而达到样本的扩充。Nekooeimehr等人就提出了一种自适应半无监督加权过采样(A-SUWO),该算法首先对少数类进行了聚类,并为每个子簇中更接近多数类的实例分配更高的权重来找到在边界上的样本。Georgios等人提出了一种基于自组织映射的过采样方法(SOMO),将高维的特征去映射到二维空间,以二维离散型的数据来表示,并根据少数类的密度来进行分配权重。Enisla等人提出了一种通过构建新样本来预处理不平衡数据集的新混合方法(SMOTE-RSB),使用合成少数过采样技术以及基于粗糙集理论和子集的下近似的编辑技术的应用,所提出的方法以C4.5 作为学习算法显示出良好的结果。jerzy等人提出了一种对不平衡数据进行选择性预处理的新方法,该方法将少数类别的局部过采样与从多数类别中过滤困难的示例相结合并在给予规则和树的分类器上表现出具有很好的泛化能力。过采样主要通过增加少数类的数量从而使得数据集达到平衡,不仅能够使得分类器更好地学习少数类的特征也保持了原有数据的特征信息,但是新产生的少数类样本又会给数据带来新的噪声问题,从而降低分类器的精确能力。
(2)欠采样
过采样的核心思想是扩充少数类从而获得均衡的新数据集,而欠采样的思路与之相反,其核心思想是删除多数类中部分噪声样本从而使得数据集均衡。Gilles等人提出的算法(Stefanowski)在学习过程之前消除或至少减弱类不平衡,然后调整学习算法的偏差,使其能够在数据不平衡的障碍下学习,他们将每个类分解为细粒度的簇,并以簇原型的形式生成人工合成样本,这些合成样本用于驱动初步重采样过程,进而解决不平衡问题。E.Ramentol等人提出一种结合SMOTE和基于模糊粗糙集理论(FRST)的实例选择策略相结合,使用两个不同的阈值来清理SMOTE引入的合成少数实例以及真实多数实例。William 通过建立一个成本效益矩阵去包含不同的应用场景,提出一个降噪先验合成过采样技术(NRAS),该技术在产生新样本之前对少数群体进行噪声消除。被视为噪音的少数群体成员被移除,并从剩余成员中构建新样本。此外,也有学者提出在每一对相邻但不属于同一类别的样本之间设置一个TomeK linK,依次清楚那些靠近两个类别决策边界的多数类样本从而使得决策边界更清晰.这边是对样本数量进行筛选而达到数据平衡的方法。经典的OneSidedSelection方法就是该基础上结合了CNN的策略,利用TomeK LinKs删去多数类,再对剩余的样本使用CNN进行平衡样本。除了使用SMOTE和Tome linK为基础的重采样技术外,还有学者提出利用优化算法来改进重采样技术,jair等人则是在SMOTE提出了一种将PSO和SVM结合算法(SMOTE-PSO),采用PSO来指导合成样本的搜索过程,从支持向量机最关键的区域(边缘)获得新的样本进而消除不良的人工实例。欠采样的优点是在平衡数据的同时减小了数据量,加速了训练并最大程度上保留数据的重要特征,但是数据量的减少又会影响模型特征学习能力和泛化能力。
随着研究的深入,数据增强技术已经广泛用于解决数据不均衡问题。该类方法能够通过对数据进行信息增益或者特征增强来扩大样本的数量,进而有效地解决数据不均衡问题。Zhang等人通过混合不同类别的数据,从而达到数据集扩充的效果。Dai等人提出了一种三系杂交的样本增强技术,该算法通过模仿三系水稻杂交去产生没有标签的恢复系向量,再利用该向量去与保持系进行融合并利用距离约束去产生新的正样本。受上述工作的启发,提出一种新的正样本增强算法,称之为可近邻负样本的向量机分类增强算法。通过K近邻去搜索每个正样本的N个近邻数据,获取所有近邻数据中的负样本组成一个集合作为可近邻负样本,随机选择可近邻负样本与正样本的数据进行融合杂交,生成偏向正样本并具有负样本特征信息的无标签恢复系数据。通过对正样本已经训练好的一类支持向量机对该恢复系数据进行分类,来筛选杂交产生的子代,进而有效解决数据不均衡问题。
(3)混合采样
现有的混合采样使用的过采样方法是对正样本进行处理,这样能够使得产生的正样本数据在特征层面上更加聚集。然而,如果数据集中的类别之间的不平衡比过大,而正样本数量较少时,该采样方法产生的正样本难以满足样本数量的要求,且分类器的分类结果会对正样本呈现过拟合的现象。此外,基于上述过采样方法对数据进行处理后,类之间的边界会偏向少数类,进而导致后续的欠采样效果不佳。
综上所述,目前,为了提升在不平衡数据少数类样本的分类效果,主要是关于重采样方面的;重采样主要分为过采样、欠采样以及混合采样三种方法。其中过采样技术生成的少数类样本很有可能会导致少数类样本的特征空间变得更加稀疏,导致分类器产生的决策边界不具有真实性从而导致分类器呈现过拟合的状态。而欠采样方法会过多的删除多数类样本,这会导致多数类样本的特征信息缺失,使得分类器在正负样本分类效果均不理想。对于混合采样方法,绝大部分学者会使用过采样对正样本进行扩充,并采用欠采样技术对处于边界上的样本进行删除,从而使得类之间能够具有更加明显的特征差异。该类算法更关注数据集的初始化,并试图不断优化数据的分布来优化所有生成的样本。这些算法没有很好的利用丰富的多数类的特征信息,得到的新数据集中正负样本的决策边界不够明显。
发明内容
鉴于上述问题,本发明的目的是提供一种类不平衡数据的处理方法、系统、电子装置及存储介质,以解决目前不平衡数据少数类样本的分类效果不明显的问题。
本发明提供的类不平衡数据的处理方法,包括:
对原始数据集进行处理,获取所有的少数类样本的可近邻集合,其中,所述原始数据集包括少数类样本集合;
根据所述所有的少数类样本的近邻集合,获取包含所有的可近邻多数类样本的子集合;
通过Mixup对所述少数类样本集合和所述可近邻多数类样本的子集合进行数据融合迭代处理,生成无标签数据样本集合;
通过预训练的一类支持向量机对所述无标签数据样本集合经过判定,确定停止融合迭代处理。
此外,优选的方案是,所述对原始数据集进行处理,获取所有的少数类样本的近邻集合,包括如下步骤:
采用K近邻算法遍历训练集中的每个少数类/>,获取少数类样本的近邻集合/>
根据设置的近邻个数和所述少数类样本的近邻集合,获取所有的少数样本的可近邻集合/>
其中,每个样本具有个特征,多数类用/>表示,少数类用/>表示,/>表示多数类样本个数,/>表示少数类样本个数,/>为K近邻选取的近邻个数。
此外,优选的方案是,所述通过Mixup对所述少数类样本集合和所述可近邻多数类样本的子集合进行数据融合处理,生成无标签数据样本集合包括:
从所述多数类随机抽取样本,从所述少数类随机抽取样本
采用基因交叉、基因变异以及Mixup对抽取的两个样本进行融合,形成无标签数据样本集合。
此外,优选的方案是,所述Mixup采用的计算公式为:
其中,表示新生成的样本,/>分别表示在多数类和少数类中随机抽取的两个去除标签的向量,/>则表示两个样本进行计算而生成的随机交叉算子。
此外,优选的方案是,所述基因交叉采用的公式为:
其中,表示多数类样本在第/>维的特征,/>表示少数类样本在第/>维的特征,并进行/>交换特征。
此外,优选的方案是,所述通过预训练的一类支持向量机对所述无标签数据样本集合经过判定,确定停止融合迭代处理,包括如下步骤:
通过所述少数类样本集合训练一类支持向量机,形成向量分类器;
将所述无标签数据样本集合输入到所述向量分类器中;
如果所述无标签数据样本集合的数量与所述少数类样本集合的数量相当,则停止融合迭代处理;
将所述无标签数据样本集合放入到所述少数类样本集合中。
本发明还提供一种类不平衡数据的处理系统,包括:
所有的少数类样本的可近邻集合获取模块,用于对原始数据集进行处理,获取所有的少数类样本的可近邻集合,其中,所述原始数据集包括少数类样本集合;
包含所有的可近邻多数类样本的子集合获取模块,用于根据所述所有的少数类样本的近邻集合,获取包含所有的可近邻多数类样本的子集合;
无标签数据样本集合生成模块,用于通过Mixup对所述少数类样本集合和所述可近邻多数类样本的子集合进行数据融合迭代处理,生成无标签数据样本集合;
判定模块,用于通过预训练的一类支持向量机对所述无标签数据样本集合经过判定,确定停止融合迭代处理。
此外,优选的方案是,所述所有的少数类样本的可近邻集合获取模块,包括:
采用K近邻算法遍历训练集中的每个少数类/>,获取少数类样本的近邻集合/>
根据设置的近邻个数和所述少数类样本的近邻集合,获取所有的少数样本的可近邻集合/>
其中,每个样本具有个特征,多数类用/>表示,少数类用/>表示,/>表示多数类样本个数,/>表示少数类样本个数,/>为K近邻选取的近邻个数。
本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如上所述的类不平衡数据的处理方法的步骤。
本发明还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的类不平衡数据的处理方法。
从上面的技术方案可知,本发明提供的类不平衡数据的处理方法、系统、电子装置及存储介质,相对于现有技术,具有以下有益效果:
1)本发明的算法选择在特征空间上偏向少数类的多数类样本与少数类样本进行融合扩充然后进行数据的筛选,从而使得新生成的少数类样本在特征空间上更加偏向少数类并很好地利用了多数类的特征信息。
2) 将杂交融合与欠采样结合,从而形成一种的新的正样本增强方法。
3)本发明产生的无标签数据集合能够同时具有正样本和负样本的信息并偏向正样本;
4)本发明能够最大化地利用负样本的特征并不会新的正样本带来过多的负样本的特征。
.5)采用本发明的方法能够有效地解决类不平衡问题,并可用于图像识别、文本分类等领域的数据增强技术。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
通过参考以下结合附图的说明,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例的类不平衡数据的处理方法流程示意图;
图2为根据本发明实施例的类不平衡数据的处理系统的逻辑结构示意图;
图3为根据本发明实施例的MLP在各数据集上三个指标的平均值示意图;
图4为根据本发明实施例的ID3在各数据集上三个指标的平均值示意图;
图5为根据本发明实施例的ID3在precision G-mean AUC 的CD值临界图;
图6为根据本发明实施例的MLP在precision G-mean AUC 的CD值临界图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。
本发明实施例可以应用于计算机系统/服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器等电子设备一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦用户机、厚用户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器等电子设备可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。
以下将结合附图对本发明的具体实施例进行详细描述。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
在本发明上述提到,通过修改数据层面的方法已经逐渐成为了解决类不平衡问题的一种通用的方法。而且现实生活中的数据往往都会有不规则的分布,少数类的样本数量与多数类样本的数量经常会出现明显的数量差异。而绝大部分过采样方法都是通过正样本数据去进行数据的扩充,从而忽略了具有丰富特征的多数类。
.其中,Mixup是一种用于图像增强的算法,虽然使用比较简单的混合方式,但是生成的数据确实具有多个类别的特征信息,并且已经在很多领域被广泛使用,具体计算方式如公式(1)和(2)所示。我们受到该算法的启发,计划利用该算法去进行数据的杂交和融合,但是如果随机地去杂交和融合是不可取的,因为我们无法判断生成的样本具有的标签属性,这样生成的样本是属于一种伪样本,这样的数据是不能直接被用来训练的。
(1)
(2)
其中,公式(1)中是原始数据集的两个输入向量,/>是/>对应的标签的独热编码,而/>是使得两个输入向量进行融合的而生成权重系数。
而且受到Dai的启发,Dai等人通过模拟三系杂交将数据分为不育系、保持系和恢复系三种不同的杂交水稻,只有第一种水稻和第三种水稻杂交才能产生新的杂交种,而每个系自交只能产生属于该系的水稻。此外,虽然Dai等人也经过对正负样本的融合,但是他们是直接随机从正负样本集合中抽取,生成的样本具有很高的不确定性和随机性,生成的样本所具有的特征是具有不确定性的,而我们提出的算法融合新生成的样本不仅具有正负样本的特征,而且还更加偏向正样本。
因此,本发明将采取K近邻算法,去选择与少数类样本在特征空间中更为相似的多数类样本作为杂交的对象。在该数据增强过程中,算法能够很好的去融合不同类别的特征,并使得新产生的数据更偏向少数类,为了防止产生近似于多数类的样本选择使用一类支持向量机对新产生的数据进行约束和筛选。
实施例1
为了说明本发明提供的类不平衡数据的处理方法,图1示出了根据本发明实施例的类不平衡数据的处理方法流程。
如图1所示,本发明提供的类不平衡数据的处理方法,包括:
S110:对原始数据集进行处理,获取所有的少数类样本的可近邻集合,其中,所述原始数据集包括少数类样本集合;
S120:根据所述所有的少数类样本的近邻集合,获取包含所有的可近邻多数类样本的子集合;
S130:通过Mixup对所述少数类样本集合和所述可近邻多数类样本的子集合进行数据融合迭代处理,生成无标签数据样本集合;
S140:通过预训练的一类支持向量机对所述无标签数据样本集合经过判定,确定停止融合迭代处理。
本发明是一种受到数据融合杂交的新的正样本增强技术,该算法的计算过程主要分为三步。第一部分,利用K近邻算法去得到少数类的近邻合集,并从该集合找到包含所有多数类的子集合。第二部分,利用Mixup的数据融合思想去随机抽取少数类和可近邻的多数类集合去进行数据融合生成无标签样本。生成的样本只具有特征值,并不属于任何类。第三部分,使用以少数类为数据集,经过训练的一类支持向量机,去筛选生成的样本。当少数类和多数类数量相当时,整个算法停止迭代,并将生成的样本与原始数据集进行融合形成新的数据。
具体地,在步骤S110和S120中,所述对原始数据集进行处理,获取所有的少数类样本的近邻集合,包括如下步骤:
采用K近邻算法遍历训练集中的每个少数类/>,获取少数类样本的近邻集合/>
根据设置的近邻个数和所述少数类样本的近邻集合,获取所有的少数样本的可近邻集合/>
其中,每个样本具有个特征,多数类用/>表示,少数类用/>表示,/>表示多数类样本个数,/>表示少数类样本个数,/>为K近邻选取的近邻个数。
在步骤S130中,所述通过Mixup对所述少数类样本集合和所述可近邻多数类样本的子集合进行数据融合处理,生成无标签数据样本集合包括:
从所述多数类随机抽取样本,从所述少数类随机抽取样本
采用基因交叉、基因变异以及Mixup对抽取的两个样本进行融合,形成无标签数据样本集合。
其中,所述Mixup采用的计算公式(3)为:
(3)
其中,表示新生成的样本,/>分别表示在多数类和少数类中随机抽取的两个去除标签的向量,/>则表示两个样本进行计算而生成的随机交叉算子。
在算法的计算过程中,基因交叉和基因变异两个过程能够进一步去融合两类的特征信息,增加多数类信息的可利用率,扩大生成样本的多样性。
其中,基因交叉:基因交叉是模仿在自然界中基因遗传过程中,包含生物的DNA序列会进行配对并重新进行组合从而形成一条新的序列,这是产生新个体的一种现实过程。算法模拟该过程在自然界的实现方式,去对两个样本之间不同特征进行交叉的选择。在该算法中,假设每个特征被选择去交叉的概率是相同,也就是说每个特征被选中去交叉的概率是,而且我们是允许多个特征被选择的。如下公式(4)所示
(4)
其中,表示多数类样本在第/>维的特征,/>表示少数类样本在第/>维的特征,并进行/>交换特征。
其中,基因变异:基因变异也是自然界基因遗传过程中的一种现象,每条基因都会有发生变异的可能,这也是去生成一个具有随机性的特征的一种手段。在多个优化算法中,很多研究者经常使用高斯变异去获得一个随机值,从而具有难以预判的随机性,会有给数据带来新的数据问题日。而在算法中的随机值只是对需要变异的特征去进行一个权重的相乘然后进行累加,从而得到一条新的特征。同样,假设每个特征发生的变异的概率是相同,概率为。当有特征不要需要发生变异时,对应的/>默认为0.5,若特征需要变异,将随机去选择一个虚拟值作为对应特征的权重/>,其中/>
在步骤S140中,所述通过预训练的一类支持向量机对所述无标签数据样本集合经过判定,确定停止融合迭代处理,包括如下步骤:
通过所述少数类样本集合训练一类支持向量机,形成向量分类器;
将所述无标签数据样本集合输入到所述向量分类器中;
如果所述无标签数据样本集合的数量与所述少数类样本集合的数量相当,则停止融合迭代处理;
将所述无标签数据样本集合放入到所述少数类样本集合中。
在此步骤中,假设新的少数类集合为,一开始为空集。在最后的过程中,首先训练好一个以少数类集合为训练集的一类支持向量机/>,该分类器(向量分类器)是能够对输入的数据进行判断是否与少数类相近。
不断地重复步骤S130去生成样本,然后在S140中利用对该样本去进行判断,若判断与少数类更相近,则将该生成的数据赋予少数类的标签,然后放入/>中,当少数类样本和新的少数类数据与多数类数量相当时,则停止整个算法的迭代。经过算法增强后的训练集/>
其中,算法的伪代码如下:
在实验中,所使用的20个真实不平衡数据集主要来自KEEL不平衡数据集库。这些数据的基本信息如表1所示。这些数据集的不平衡比最小的是3.25,最大的是128.44,%Min和%Maj分别表示少数类和多数类在整个数据集的占比。
.表 1 实验数据集基本信息
对比例:
与本发明提出的算法进行对比的6种重采样算法,分别是TomekLink,OneSidedSelection,SOMO,A_SUWO,SMOTE_PSO,ROSE。
其中,TomekLink通过计算类别之间的欧氏距离从而找到处于边缘的样本点,并从多数类别中删除进而达到一种数据平衡的状态。
其中,OneSidedSelection算法会再TomekLink算法的基础上再使用1NN的分类器去除多数类的多余数据,这样不仅去除了边界样本,也去除了一些噪声样本。
其中,SOMO是一种应用于输入空间的映射去实现聚类的自适应重采样方法,在通过将数据映射生成输入空间的二维表示之后,再生成簇内合成样本,进而生成簇间合成样本。
其中,A_SUWO算法是使用了半无监督分层聚类方法对少数样本进行无监督聚类,之后利用其分布性确定每个子集可以过采样的大小,然后利用欧式距离进行过采样。
其中,SMOTE_PSO在重采样方法中加入优化算法PSO的思想,旨在通过SVM获得数据集中的支持向量进而生成合成样本,并利用PSO算法去消除掉噪声。
其中,ROSE是基于平滑引导重采样技术,利用该技术能够从少数类样本中生成新的少数类,该算法也很好的遵循了平衡类分布的传统方法。
在这次实验当中,为了进一步去评估本文所提算法的有效性,将使用Precision、G-mean、AUC三个评价指标来进行算法之间的对比。并且都是各类重采样方法在同一分类器得到的实验结果。对比实验所使用的算法、分类器以及其余设置均在上一部分已经描述。
另外,实验结果都是使用十倍交叉验证的平均值作为模型的最终结果。为了简单且能更高效的评估本文所提算法的效能,实验结果将根据不平衡比从低到高的顺序进行展示。
其中,表2-3分别展示了MLP和ID3经过不同的重采样方法进行数据增强后在20个数据集上所展示的结果。图3-4展示了两个分类器在所有数据集上的三个指标的平均得分。其中代表Precision,代表G-mean,代表AUC值。然后为了凸显分类器之间的差异,随后利用Friedman和Nemenyi事后检验来验证模型之间的性能。MLP和ID3在实验中的效果分别在表2和表3展示。Friedman和Nemenyi事后检验的结果会在图5和图6展示。
表 2 MLP实验结果对比
根据表2所得,可以看出,本发明所提出的算法在以MLP分类器为基本分类器,在所有数据集中整体性能表现良好,其中在12个数据集中,在Precision、G-mean和AUC三个评价指标上均比其他先进算法有更明显的提升,表现出最佳的性能。在其中6个数据集中的部分指标性能结果表现为所有的先进算法中为最佳的性能,而其余的指标与对应的最佳表现指标结果没有明显的差距。而在其余2个数据集中,提出的算法没有表现出最佳的性能,但是各个指标与最佳性能的结果也没有很明显的差距。而通过图3显示,可以看出,在所有数据集上,两个综合指标G-mean和AUC上,提出的算法比其他算法表现的更加优秀,precision指标也位于前列。因此从总体的角度来看,提出的算法整体上优于其他所提出的先进算法。由于本发明提出的算法是能够生成具有正负样本的融合特征且在特征空间上更加偏向少数类的新样本,能够使得两类之间的决策边界更加清晰准确从而具有更好的性能。
表 3 ID3实验对比结果
根据表3所得,可以看出,本发明提出的算法在以ID3分类器为基本分类器,在所有数据集中整体性能表现良好,其中在14个数据集中,在Precision、G-mean和AUC三个评价指标上均比其他先进算法有更明显的提升,表现出最佳的性能。在其中3个数据集中的部分指标性能结果表现为所有的先进算法中为最佳的性能,而其余的指标与对应的最佳表现指标结果没有明显的差距。而在其余3个数据集中,本发明提出的算法没有表现出最佳的性能,但是各个指标与最佳性能的结果也没有很明显的差距。而通过图3显示,可以看出,在所有数据集上,所有的评价指标在ID3分类器上,本发明提出的算法比其他所有的先进算法都更加优秀,表现出最佳的性能。因此从总体的角度来看,本发明所提出的算法在以ID3为分类器的整体性能上也优于其他所提出的先进算法。
此外,本发明还进行了差异性检验的实验,从图5和图6的附图中,得到了ID3和MLP在20个数据集上的三个评估指标的结果后,为了进一步的评估本发明所提出的算法与其他先进算法的差距,对实验结果进行了Friedman排名和Nemenyi事后检验。首先根据结果进行Friedman检验获得了Friedman的排名,本发明所提出的算法在两个不同分类器山高的三个评估指标都是排名第一,拥有最好的性能。然后按照该排名进行了Nemenyi事后检验。根据图5和图6所示,本申请所提出的算法整体比其余算法有着较为明显的优势。
在本发明的实施例中,本发明的算法会选择在特征空间上偏向少数类的多数类样本与少数类样本进行融合扩充然后进行数据的筛选,从而使得新生成的少数类样本在特征空间上更加偏向少数类并很好地利用了多数类的特征信息。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例2
与上述方法相对应,本发明还提供一种类不平衡数据的处理系统,图2示出了根据本发明实施例的类不平衡数据的处理系统的逻辑结构。
如图2所示,本发明提供类不平衡数据的处理系统,包括:所有的少数类样本的可近邻集合获取模块210,用于对原始数据集进行处理,获取所有的少数类样本的可近邻集合,其中,所述原始数据集包括少数类样本集合;
包含所有的可近邻多数类样本的子集合获取模块220,用于根据所述所有的少数类样本的近邻集合,获取包含所有的可近邻多数类样本的子集合;
无标签数据样本集合生成模块230,用于通过Mixup对所述少数类样本集合和所述可近邻多数类样本的子集合进行数据融合迭代处理,生成无标签数据样本集合;
判定模块240,用于通过预训练的一类支持向量机对所述无标签数据样本集合经过判定,确定停止融合迭代处理。
其中,所述所有的少数类样本的可近邻集合获取模块210包括:
采用K近邻算法遍历训练集中的每个少数类/>,获取少数类样本的近邻集合/>
根据设置的近邻个数和所述少数类样本的近邻集合,获取所有的少数样本的可近邻集合/>
其中,每个样本具有个特征,多数类用/>表示,少数类用/>表示,/>表示多数类样本个数,/>表示少数类样本个数,/>为K近邻选取的近邻个数。
从上面的技术方案可知,本发明的算法会选择在特征空间上偏向少数类的多数类样本与少数类样本进行融合扩充然后进行数据的筛选,从而使得新生成的少数类样本在特征空间上更加偏向少数类并很好地利用了多数类的特征信息。
实施例3
本发明实现类不平衡数据的处理方法的电子设备的结构可以包括处理器、存储器和总线,还可以包括存储在所述存储器中并可在所述处理器上运行的计算机程序,如类不平衡数据的处理程序。
其中,所述存储器至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器不仅可以用于存储安装于电子设备的应用软件及各类数据,例如数据稽核程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。存储器可以存储内容,该内容可由电子设备显示或被发送到其他设备(例如,耳机)以由其他设备来显示或播放。存储器还可以存储从其他设备接收的内容。该来自其他设备的内容可由电子设备显示、播放、或使用,以执行任何必要的可由电子设备和/或无线接入点中的计算机处理器或其他组件实现的任务或操作。
所述处理器在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器内的程序或者模块(例如数据稽核程序等),以及调用存储在所述存储器内的数据,以执行电子设备的各种功能和处理数据。电子还可包括芯片组(未示出),其用于控制一个或多个处理器与用户设备的其他组件中的一个或多个之间的通信。在特定的实施例中,电子设备可基于Intel®架构或ARM®架构,并且处理器和芯片集可来自Intel®处理器和芯片集家族。该一个或多个处理器104还可包括一个或多个专用集成电路(ASIC)或专用标准产品(ASSP),其用于处理特定的数据处理功能或任务。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器以及至少一个处理器等之间的连接通信。
此外,网络和I/O接口可包括一个或多个通信接口或网络接口设备,以提供经由网络(未示出)在电子设备和其他设备(例如,网络服务器)之间的数据传输。通信接口可包括但不限于:人体区域网络(BAN)、个人区域网络(PAN)、有线局域网(LAN)、无线局域网(WLAN)、无线广域网(WWAN)、等等。用户设备可以经由有线连接耦合到网络。然而,无线系统接口可包括硬件或软件以广播和接收消息,其使用Wi-Fi直连标准和/或IEEE 802.11无线标准、蓝牙标准、蓝牙低耗能标准、Wi-Gig标准、和/或任何其他无线标准和/或它们的组合。
无线系统可包括发射器和接收器或能够在由IEEE 802.11无线标准所支配的操作频率的广泛范围内操作的收发器。通信接口可以利用声波、射频、光学、或其他信号来在电子设备与其他设备(诸如接入点、主机、服务器、路由器、读取设备、和类似物)之间交换数据。网络可包括但不限于:因特网、专用网络、虚拟专用网络、无线广域网、局域网、城域网、电话网络、等等。
显示器可包括但不限于液晶显示器、发光二极管显示器、或由在美国马萨诸塞州剑桥城的E Ink公司(E Ink Corp. of Cambridge, Massachusetts)所制造的E-InkTM显示器。该显示器可用于将内容以文本、图像、或视频的形式显示给用户。在特定的实例中,该显示器还可以作为触控屏显示器操作,其可以使得用户能够藉由使用某些手指或手势来触摸屏幕以启动命令或操作。
所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备中的所述存储器存储的类不平衡数据的处理程序是多个指令的组合,在所述处理器中运行时,可以实现:
对原始数据集进行处理,获取所有的少数类样本的可近邻集合,其中,所述原始数据集包括少数类样本集合;
根据所述所有的少数类样本的近邻集合,获取包含所有的可近邻多数类样本的子集合;
通过Mixup对所述少数类样本集合和所述可近邻多数类样本的子集合进行数据融合迭代处理,生成无标签数据样本集合;
通过预训练的一类支持向量机对所述无标签数据样本集合经过判定,确定停止融合迭代处理。
具体地,所述处理器对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明的实施例中,计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现如上所述的类不平衡数据的处理系统的步骤,具体方法如下:
对原始数据集进行处理,获取所有的少数类样本的可近邻集合,其中,所述原始数据集包括少数类样本集合;
根据所述所有的少数类样本的近邻集合,获取包含所有的可近邻多数类样本的子集合;
通过Mixup对所述少数类样本集合和所述可近邻多数类样本的子集合进行数据融合迭代处理,生成无标签数据样本集合;
通过预训练的一类支持向量机对所述无标签数据样本集合经过判定,确定停止融合迭代处理。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
这些计算机可执行程序指令可以被加载到通用计算机、专用计算机、处理器、或其他可编程数据处理装置上以产生特定机器,使得在计算机、处理器、或其他可编程数据处理装置上执行的指令创建用于实现在流程图方框或多个方框中所指定的一个或多个功能的构件。这些计算机程序产品还可以存储在计算机可读存储器中,其可以指导计算机或其他可编程数据处理装置以特定的方式运行,使得存储在计算机可读存储器中的指令产生制品,该制品包括实现在流程图的方框或多个方框中指定的一个或多个功能的指令构件。例如,本发明的实施例可提供计算机程序产品,其包括其中包含有计算机可读程序代码或程序指令的计算机可用介质,所述计算机可读程序代码适于被执行以实现在流程图方框或多个方框中指定的一个或多个功能。计算机程序指令还可以被加载到计算机或其他可编程数据处理装置上,以致使一系列操作元素或步骤在计算机或其他可编程装置上执行易产生计算机实现的程序,使得在计算机或其他可编程装置上执行的指令提供用于实现在流程图方框或多个方框中指定的功能的元素或步骤。
相应地,框图或流程图中的方框支持用以执行指定功能的构件的组合、用于执行指定功能的元素或步骤与用于执行指定功能的程序指令构件的组合。还应当理解的是,框图和流程图中的每个方框以及框图和流程图中的方框的组合可由执行指定功能、元素或步骤的专用的基于硬件的计算机系统实现,或由专用硬件或计算机指令的组合实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。

Claims (10)

1.一种类不平衡数据的处理方法,其特征在于,包括:
对原始数据集进行处理,获取所有的少数类样本的可近邻集合,其中,所述原始数据集包括少数类样本集合;
根据所述所有的少数类样本的近邻集合,获取包含所有的可近邻多数类样本的子集合;
通过Mixup对所述少数类样本集合和所述可近邻多数类样本的子集合进行数据融合迭代处理,生成无标签数据样本集合;
通过预训练的一类支持向量机对所述无标签数据样本集合经过判定,确定停止融合迭代处理。
2.根据权利要求1所述的类不平衡数据的处理方法,其特征在于,所述对原始数据集进行处理,获取所有的少数类样本的近邻集合,包括如下步骤:
采用K近邻算法遍历训练集中的每个少数类/>,获取少数类样本的近邻集合/>
根据设置的近邻个数和所述少数类样本的近邻集合,获取所有的少数样本的可近邻集合/>
其中,每个样本具有个特征,多数类用/>表示,少数类用/>表示,/>表示多数类样本个数,/>表示少数类样本个数,/>为K近邻选取的近邻个数。
3.根据权利要求2所述的类不平衡数据的处理方法,其特征在于,所述通过Mixup对所述少数类样本集合和所述可近邻多数类样本的子集合进行数据融合处理,生成无标签数据样本集合包括:
从所述多数类随机抽取样本,从所述少数类随机抽取样本
采用基因交叉、基因变异以及Mixup对随机抽取的两个样本进行融合,形成无标签数据样本集合。
4.根据权利要求3所述的类不平衡数据的处理方法,其特征在于,所述Mixup采用的计算公式为:
其中,表示新生成的样本,/>分别表示在多数类和少数类中随机抽取的两个去除标签的向量,/>则表示两个样本进行计算而生成的随机交叉算子。
5.根据权利要求4所述的类不平衡数据的处理方法,其特征在于,所述基因交叉采用的公式为:
其中,表示多数类样本在第/>维的特征,/>表示少数类样本在第/>维的特征,并进行交换特征。
6.根据权利要求5所述的类不平衡数据的处理方法,其特征在于,所述通过预训练的一类支持向量机对所述无标签数据样本集合经过判定,确定停止融合迭代处理,包括如下步骤:
通过所述少数类样本集合训练一类支持向量机,形成向量分类器;
将所述无标签数据样本集合输入到所述向量分类器中;
如果所述无标签数据样本集合的数量与所述少数类样本集合的数量相当,则停止融合迭代处理;
将所述无标签数据样本集合放入到所述少数类样本集合中。
7.一种类不平衡数据的处理系统,其特征在于,包括:
所有的少数类样本的可近邻集合获取模块,用于对原始数据集进行处理,获取所有的少数类样本的可近邻集合,其中,所述原始数据集包括少数类样本集合;
包含所有的可近邻多数类样本的子集合获取模块,用于根据所述所有的少数类样本的近邻集合,获取包含所有的可近邻多数类样本的子集合;
无标签数据样本集合生成模块,用于通过Mixup对所述少数类样本集合和所述可近邻多数类样本的子集合进行数据融合迭代处理,生成无标签数据样本集合;
判定模块,用于通过预训练的一类支持向量机对所述无标签数据样本集合经过判定,确定停止融合迭代处理。
8.根据权利要求7所述的类不平衡数据的处理系统,其特征在于,所述所有的少数类样本的可近邻集合获取模块,包括:
采用K近邻算法遍历训练集中的每个少数类/>,获取少数类样本的近邻集合/>
根据设置的近邻个数和所述少数类样本的近邻集合,获取所有的少数样本的可近邻集合/>
其中,每个样本具有个特征,多数类用/>表示,少数类用/>表示,/>表示多数类样本个数,/>表示少数类样本个数,/>为K近邻选取的近邻个数。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1至6中任一所述的类不平衡数据的处理方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一所述的类不平衡数据的处理方法。
CN202410101159.6A 2024-01-25 2024-01-25 类不平衡数据的处理方法、系统、电子装置及存储介质 Pending CN117633538A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410101159.6A CN117633538A (zh) 2024-01-25 2024-01-25 类不平衡数据的处理方法、系统、电子装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410101159.6A CN117633538A (zh) 2024-01-25 2024-01-25 类不平衡数据的处理方法、系统、电子装置及存储介质

Publications (1)

Publication Number Publication Date
CN117633538A true CN117633538A (zh) 2024-03-01

Family

ID=90023747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410101159.6A Pending CN117633538A (zh) 2024-01-25 2024-01-25 类不平衡数据的处理方法、系统、电子装置及存储介质

Country Status (1)

Country Link
CN (1) CN117633538A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160092789A1 (en) * 2014-09-29 2016-03-31 International Business Machines Corporation Category Oversampling for Imbalanced Machine Learning
CN115878999A (zh) * 2022-12-09 2023-03-31 宝鸡文理学院 针对高度不平衡数据集的差分进化的过采样方法及系统
CN117349786A (zh) * 2023-09-11 2024-01-05 国网湖北省电力有限公司宜昌供电公司 基于数据均衡的证据融合变压器故障诊断方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160092789A1 (en) * 2014-09-29 2016-03-31 International Business Machines Corporation Category Oversampling for Imbalanced Machine Learning
CN115878999A (zh) * 2022-12-09 2023-03-31 宝鸡文理学院 针对高度不平衡数据集的差分进化的过采样方法及系统
CN117349786A (zh) * 2023-09-11 2024-01-05 国网湖北省电力有限公司宜昌供电公司 基于数据均衡的证据融合变压器故障诊断方法

Similar Documents

Publication Publication Date Title
Ghareb et al. Hybrid feature selection based on enhanced genetic algorithm for text categorization
CN110443281B (zh) 基于hdbscan聚类的文本分类自适应过采样方法
Zhu et al. EHSO: Evolutionary Hybrid Sampling in overlapping scenarios for imbalanced learning
CN113177132B (zh) 基于联合语义矩阵的深度跨模态哈希的图像检索方法
Chen et al. A new over-sampling method based on cluster ensembles
Lin et al. Towards hybrid over-and under-sampling combination methods for class imbalanced datasets: an experimental study
Dang et al. SPY: A novel resampling method for improving classification performance in imbalanced data
Xiong et al. Diagnose like a pathologist: Transformer-enabled hierarchical attention-guided multiple instance learning for whole slide image classification
Patil et al. Enriched over_sampling techniques for improving classification of imbalanced big data
Wang et al. Open world long-tailed data classification through active distribution optimization
CN115878999A (zh) 针对高度不平衡数据集的差分进化的过采样方法及系统
CN117076871B (zh) 一种基于不平衡半监督对抗训练框架的电池故障分类方法
CN110298451A (zh) 一种基于密度聚类的非均衡数据集的均衡化方法及装置
Prince et al. An Imbalanced Dataset and Class Overlapping Classification Model for Big Data.
Cotta et al. Applying memetic algorithms to the analysis of microarray data
Aparna et al. Comprehensive study and analysis of partitional data clustering techniques
CN112668633A (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN117633538A (zh) 类不平衡数据的处理方法、系统、电子装置及存储介质
Yang et al. Oversampling methods combined clustering and data cleaning for imbalanced network data
Chen et al. HSDP: a hybrid sampling method for imbalanced big data based on data partition
CN114334168A (zh) 结合协同学习策略的粒子群混合优化的特征选择算法
Piyadasa et al. A Review on Oversampling Techniques for Solving the Data Imbalance Problem in Classification
Liu et al. Document categorisation by genetic algorithms
CN111556018A (zh) 一种基于cnn的网络入侵检测方法及电子装置
Sun et al. Value-aware resampling and loss for imbalanced classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination