CN108319967A - 一种对不均衡数据进行处理的方法及系统 - Google Patents

一种对不均衡数据进行处理的方法及系统 Download PDF

Info

Publication number
CN108319967A
CN108319967A CN201711170061.2A CN201711170061A CN108319967A CN 108319967 A CN108319967 A CN 108319967A CN 201711170061 A CN201711170061 A CN 201711170061A CN 108319967 A CN108319967 A CN 108319967A
Authority
CN
China
Prior art keywords
unbalanced
ranking
data
data processing
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711170061.2A
Other languages
English (en)
Inventor
张雪莹
李瑞贤
杨云祥
郭静
吉祥
胡校成
唐先超
宋超
江逸楠
段锐
阳兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electronics Technology Group Corp CETC
Electronic Science Research Institute of CTEC
Original Assignee
China Electronics Technology Group Corp CETC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electronics Technology Group Corp CETC filed Critical China Electronics Technology Group Corp CETC
Priority to CN201711170061.2A priority Critical patent/CN108319967A/zh
Publication of CN108319967A publication Critical patent/CN108319967A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种对不均衡数据进行处理的方法及系统,本发明通过基于实例学习的k‑最近邻算法预测出待学习问题上所有候选不均衡数据处理方法的排名,使得用户可依据推荐的排名及个人使用偏好选取最适用的不均衡数据处理方法,获得最优的不均衡学习性能。从而有效解决了现有技术中不能对给定的不均衡数据集,找到最适用的不均衡数据处理方法的问题。

Description

一种对不均衡数据进行处理的方法及系统
技术领域
本发明涉及通信技术领域,尤其涉及一种对不均衡数据进行处理的方法及系统。
背景技术
不均衡学习问题是数据挖掘与机器学习领域中的一类典型学习问题。类不均衡是指数据集中类分布的先验概率相差悬殊,其中少数类往往是研究人员感兴趣的学习重点。类不均衡数据集广泛存在于现实生活中的各个应用领域,如石油泄漏检测、欺诈检测、医疗诊断、网络入侵检测、缺陷预测及风险评估等。类不均衡分类问题的难点在于它违背了传统分类算法基于类均衡且误分类代价相等的前提假设,类不均衡以及误分类代价不相等使在类均衡数据集上表现较好的传统分类算法,在类不均衡数据集上的分类性能显著下降,特别是少数类样本的分类。近年来,不均衡学习问题已然成为机器学习与数据挖掘领域中的一个极具有挑战性的研究课题。
由于不均衡学习问题以及不均衡数据处理方法多种多样,且实际上并不存在单一的方法在所有不均衡数据集上都能获得最优的分类性能,即不同的不均衡学习问题上,最适用的处理方法也不尽相同。正如“No Free Lunch”(NFL)理论所述:没有一种算法适用于解决所有问题,数据集不同,所适用的方法也不相同。Fulkerson在StatLog项目中进行了充分的实验,全面比较了不同的机器学习、神经网络及统计分类算法在不同领域的数据集上的分类性能,进一步验证了NFL理论。对于给定的不均衡数据集,如何找出该数据集上最适用的不均衡数据处理方法是一个亟待解决的难题。
发明内容
鉴于上述的分析,本发明旨在提供一种对不均衡数据进行处理的方法及系统,用以解决现有技术中不能对给定的不均衡数据集,找到最适用的不均衡数据处理方法的问题。
为解决上述问题,本发明主要是通过以下技术方案实现的:
本发明提供了一种对不均衡数据进行处理的方法,该方法包括:构建元知识数据库;基于实例学习的k-最近邻算法给出未知数据集上所有候选不均衡数据处理方法的排名。
进一步地,构建元知识数据库具体包括:根据历史不均衡数据集,抽取描述数据集本身特征的度量,构建特征向量作为元特征,同时评估各数据集上所有候选不均衡数据处理方法的分类性能,并将所有方法按分类性能排序,获取相应的排名作为元目标;然后,将每个数据集的特征向量与不均衡数据处理方法的排名一一对应,建立数据集特征-不均衡数据处理方法的排名的元知识数据库。
进一步地,构建元知识数据库的步骤之后,基于实例学习的k-最近邻算法给出未知数据集上所有候选不均衡数据处理方法的排名的步骤之前,还包括:
对待处理的不均衡数据集进行元特征提取,并对待处理的不均衡数据集进行元目标识别。
进一步地,对待处理的不均衡数据集进行元特征提取,具体包括:通过数据集特征度量描述不均衡分类问题的本质特征。
进一步地,所述数据集特征度量包括传统的特征度量、问题复杂度、Landmarking度量、基于模型度量以及结构信息度量中的一种或多种。
进一步地,所述对待处理的不均衡数据集进行元目标识别,具体包括:基于不均衡数据集的分类精度AUC以及运行时间衡量不均衡数据处理方法的性能,对待处理的不均衡数据集进行元目标识别。
进一步地,该方法还包括:通过Spearman序列相关系数衡量推荐的不均衡数据处理方法的排名与实际排名之间的一致性,其中,rri和iri分别代表不均衡数据处理方法i的推荐排名和实际排名,m是候选不均衡数据处理方法的个数。rs的取值范围为[-1,1],rs越大,推荐排名与实际排名越相关。当推荐排名与实际排名完全吻合时,则rs=1;当推荐排名与实际排名不完全吻合时,rs≤1;时,当推荐排名与实际排名不相关,则rs=0;当推荐排名与实际排名完全相反,则rs≤-1;
当推荐的不均衡数据处理方法的分类性能落在区间内时,表明推荐的是最优不均衡数据处理方法;否则,表明推荐的方法不可用,其中NT为指测试集大小,ω为置信度。
进一步地,基于实例学习的k-最近邻算法给出未知数据集上所有候选不均衡数据处理方法的排名,具体包括:通过极值法对元知识数据库中的元特征及待分类数据集的特征向量均映射到[0,1]区间;
基于规范化后的元知识数据库,通过公式找出与待分类数据集最相似的k个最近邻,其中,data表示待分类数据集,di代表元知识数据库中第i个数据集,Vx,data和Vx,di分别代表数据集data和di中第x个元特征值。
另一方面,本发明还提供一种对不均衡数据进行处理的系统,所述系统包括处理器、存储器及通信总线;所述通信总线用于实现处理器和存储器之间的连接通信;所述处理器用于执行存储器中存储的计算机指令,以实现上述任一种所述的对不均衡数据进行处理的方法。
本发明有益效果如下:
本发明通过基于实例学习的k-最近邻算法预测出待学习问题上所有候选不均衡数据处理方法的排名,使得用户可依据推荐的排名及个人使用偏好选取最适用的不均衡数据处理方法,获得最优的不均衡学习性能。从而有效解决了现有技术中不能对给定的不均衡数据集,找到最适用的不均衡数据处理方法的问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
图1是本发明实施例的一种对不均衡数据进行处理的方法的流程示意图;
图2是本发明实施例的另一种对不均衡数据进行处理的方法的流程示意图;
图3是本发明实施例的对不均衡数据进行处理的系统的结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理。为了清楚和简化目的,当其可能使本发明的主题模糊不清时,将省略本文所描述的器件中已知功能和结构的详细具体说明。
本发明提供了一种对不均衡数据进行处理的方法,通过基于实例学习的k-最近邻算法预测出待学习问题上所有候选不均衡数据处理方法的排名,使得用户可依据推荐的排名及个人使用偏好选取最适用的不均衡数据处理方法,获得最优的不均衡学习性能。从而有效解决了现有技术中不能对给定的不均衡数据集,找到最适用的不均衡数据处理方法的问题。以下结合附图以及几个实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
本发明实施例提供了一种对不均衡数据进行处理的方法,参见图1,该方法包括:
S101、构建元知识数据库;
S102、基于实例学习的k-最近邻算法给出未知数据集上所有候选不均衡数据处理方法的排名。
也就是说,本发明通过基于实例学习的k-最近邻算法预测出待学习问题上所有候选不均衡数据处理方法的排名,使得用户可依据推荐的排名及个人使用偏好选取最适用的不均衡数据处理方法,获得最优的不均衡学习性能。从而有效解决了现有技术中不能对给定的不均衡数据集,找到最适用的不均衡数据处理方法的问题。
需要说明的是,本发明利用基于实例学习的不均衡数据处理方法推荐算法。该方法并不明确给出一个或多个最优的不均衡数据处理方法,而是利用基于实例学习的k-最近邻算法给出未知数据集上所有候选不均衡数据处理方法的排名。用户可依据排名及个人偏好选择最适用的不均衡数据处理方法。
具体地,本发明实施例所述构建元知识数据库具体包括:根据历史不均衡数据集,抽取描述数据集本身特征的度量,构建特征向量作为元特征,同时评估各数据集上所有候选不均衡数据处理方法的分类性能,并将所有方法按分类性能排序,获取相应的排名作为元目标;然后,将每个数据集的特征向量与不均衡数据处理方法的排名一一对应,建立数据集特征-不均衡数据处理方法的排名的元知识数据库。
具体地,本发明实施例所述构建元知识数据库的步骤之后,基于实例学习的k-最近邻算法给出未知数据集上所有候选不均衡数据处理方法的排名的步骤之前,还包括:对待处理的不均衡数据集进行元特征提取,并对待处理的不均衡数据集进行元目标识别。
其中,本发明实施例对待处理的不均衡数据集进行元特征提取,具体包括:通过数据集特征度量描述不均衡分类问题的本质特征。
本发明实施例所述数据集特征度量包括传统的特征度量、问题复杂度、Landmarking度量、基于模型度量以及结构信息度量中的一种或多种。
具体地,本发明实施例所述对待处理的不均衡数据集进行元目标识别,具体包括:基于不均衡数据集的分类精度AUC以及运行时间衡量不均衡数据处理方法的性能,对待处理的不均衡数据集进行元目标识别。
本发明实施例所述的方法还包括:通过Spearman序列相关系数衡量推荐的不均衡数据处理方法的排名与实际排名之间的一致性,其中,rri和iri分别代表不均衡数据处理方法i的推荐排名和实际排名,m是候选不均衡数据处理方法的个数。rs的取值范围为[-1,1],rs越大,推荐排名与实际排名越相关。当推荐排名与实际排名完全吻合时,则rs=1;当推荐排名与实际排名不完全吻合时,rs≤1;时,当推荐排名与实际排名不相关,则rs=0;当推荐排名与实际排名完全相反,则rs≤-1;
当推荐的不均衡数据处理方法的分类性能落在区间内时,表明推荐的是最优不均衡数据处理方法;否则,表明推荐的方法不可用,其中NT为指测试集大小,ω为置信度。
本发明实施例中,基于实例学习的k-最近邻算法给出未知数据集上所有候选不均衡数据处理方法的排名,具体包括:
通过极值法对元知识数据库中的元特征及待分类数据集的特征向量均映射到[0,1]区间;
基于规范化后的元知识数据库,通过公式找出与待分类数据集最相似的k个最近邻,其中,data表示待分类数据集,di代表元知识数据库中第i个数据集,Vx,data和Vx,di分别代表数据集data和di中第x个元特征值。
图2是本发明另一种对不均衡数据进行处理的方法的流程图,下面将结合图2对本发明所述的方法进行详细的解释和说明:
1、本发明的总体框架主要由以下几部分构成:
1)元知识数据库构建
针对每个历史不均衡数据集,首先,抽取描述数据集本身特征的度量,构建特征向量作为元特征,同时评估各数据集上所有候选不均衡数据处理方法的分类性能,并将所有方法按分类性能排序,获取相应的排名作为元目标;然后,将每个数据集的特征向量与不均衡数据处理方法的排名一一对应,建立“数据集特征-不均衡数据处理方法的排名”元知识库。
2)不均衡数据处理方法推荐
相似的不均衡数据集上最适用的不均衡数据处理方法的分类性能也相似,利用k-最近邻分类方法给出待分类不均衡数据集上不均衡数据处理方法的排名。用户依据推荐的排名及个人偏好选取最适用的不均衡数据处理方法。
当待分类不均衡数据集到来时,首先,抽取该数据集的特征向量;然后,从元知识数据库中找到距离该特征向量最近的k个近邻,将k最近邻上不均衡数据处理方法的排名集成,可得到该数据集上不均衡数据处理方法的排名;最后,依据排名靠前的r个不均衡数据处理方法及用户个人偏好,选取最适用的不均衡数据处理方法。
3)元知识库更新
每次的推荐结果都揭示了新数据集上不均衡数据处理方法与数据集特征之间的内在联系。该信息被添加到元知识数据库,元知识数据库中信息越多,越有利于新问题上不均衡数据处理方法的推荐。因此,每次推荐后,新数据集上的<数据集特征,不均衡数据处理方法的排名>二元关系,都被添加到元知识库,实现了元知识数据库的更新。
2、本发明的方案主要由以下几个关键环节:
1)元特征提取
本发明中提取了一些数据集特征度量用以描述不均衡分类问题的本质特征,主要包括传统的特征度量、问题复杂度、Landmarking度量、基于模型度量以及结构信息度量。
(1)传统特征度量
传统特征度量,包括简单度量、统计度量和信息理论度量。其中,简单度量汇总了数据集的基本信息,如样本数量、属性个数、类别个数及缺失样本数量等;统计度量包括中心趋势、方差分析和相关分析,描述了数据集中数据分布、数值特征及随机变量之间的相关性;信息理论度量则常用于描述数据集中属性特征及属性间的关系,熵是信息理论度量中的一个关键度量,用于量化随机变量的不确定性。
(2)问题复杂度特征度量
问题复杂度主要关注于类边界的复杂度,突出刻画了不同类别之间的关系,如分离或交叉重叠度等特征。
(3)Landmarking特征度量
Landmarking度量旨在利用简单有效的学习算法分类性能上的差异性来描述待分类问题的特征。该度量不仅能够判别不同类型的分类问题,还能突出分类算法的适用范围。本发明利用一组简单有效的分类算法(Bayes,IB1和C4.5)各数据集上的分类性能作为Landmarking度量,从分类算法性能的角度描述不均衡数据集本身的特征。
(4)基于模型的特征度量
基于决策树的数据特征度量,将原始数据集归纳成决策树的形式,而后抽取决策树的模型信息来描述数据集本身特征。本发明采用了C4.5算法为每个数据集构建决策树,用以描述不均衡数据集的特征。
(5)结构信息特征度量
与传统的数据集特征度量不同,结构信息度量并不是从原始的数据集上直接获取,而须将原始数据集转换为二元数据集,获得二元数据集的一项集和二项集。为了统一表示和比较不同的数据集,将两个项集升序排列,并抽取其最小值、八分位数和最大值用以描述数据集特征。
2)元目标识别
不均衡数据处理方法的性能主要通过不均衡数据集上的分类性能来体现。为了评估候选不均衡数据处理方法在不均衡数据集上的排名,本发明采用了接收者操作特征曲线(Receive Operating Characteristics,ROC)曲线下面积(Area of the Curve,AUC)来评价不均衡数据处理方法的分类性能。依据AUC对不均衡数据处理方法进行排序,获取所有候选不均衡数据处理方法在给定数据集上的排名。
ROC曲线是一种用于比较分类模型有效性的可视化工具,它显示了分类模型的真正例率(TPR)与假正例率(FPR)的权衡。其中,TPR和FPR是两个进行比较的操作特征。对于二类不均衡数据集,ROC曲线可用于直观地描述分类模型正确地识别少数类样本的比例与误分多数类样本的比例之间的权衡。ROC曲线下方的面积AUC是分类精度,AUC越大,分类精度越高。计算公式如下:
实际上,除了分类精度AUC外,运行时间也是衡量不均衡数据处理方法性能的一个重要评价指标。不同的不均衡数据处理方法,运行时间也不同,如简单抽样方法的时间复杂度远低于组合方法或混合方法,但组合或混合方法的分类精度更高且更稳定。
综合考虑不均衡数据处理方法的分类精度及运行时间时,二者相互抵消而导致无法区分不均衡数据处理方法的优劣。学者们更注重不均衡数据处理方法在不均衡分类数据集上分类性能的提升,较少关注计算开销。随着分布式与并行计算的发展,组合学习或混合学习方法的效率将会大幅提高。在评估候选不均衡数据处理方法性能时,依据不均衡数据集上的分类性能AUC,评估不均衡数据处理方法的性能。
3)方法推荐
本发明旨在无须对所有候选不均衡数据处理方法进行反复试验评估,而给出待分类问题上所有候选不均衡数据处理方法的排名。
首先,由于各指标度量单位不同,为了能够使各指标能够参与评价计算,需要对元知识数据库中的元特征及待分类数据集的特征向量进行规范化,本发明采用了极值法统一地将特征度量映射到[0,1]区间。
然后,从规范化的元知识数据库中,找出与待分类数据集最相似的k个最近邻。其中,利用无权重的L1范数度量数据集间的相似性,不仅易于计算且便于理解,计算公式如下:
式中,data表示待分类数据集,di代表元知识数据库中第i个数据集,Vx,data和Vx,di分别代表数据集data和di中第x个元特征值。
最后,集成k最近邻上不均衡数据处理方法的排名,可获得待分类数据集上候选不均衡数据处理方法的排名。依据排名靠前的r个不均衡数据处理方法及个人偏好,用户可选取最适用的不均衡数据处理方法。
推荐算法的计算开销主要在于构建“数据集特征-不均衡数据处理方法排名”元知识数据库。假设有n个历史数据集,抽取数据特征的时间复杂度为;评估所有候选不均衡数据处理方法性能的时间复杂度为,其中,为第i种不均衡数据处理方法,为给定分类算法;构建元知识数据库的时间复杂度为。
当待分类不均衡数据集到来时,利用基于实例学习的k-最近邻方法,为其推荐最适用的不均衡数据处理方法。k-最近邻方法的优点在于它不预先构建分类模型,而只是从元知识数据库中,找出离该数据集最近的k个近邻,并依据k最近邻上不均衡数据处理方法的排名,预测出新数据集上不均衡数据处理方法的排名,时间复杂度仅为。
4)性能评估指标
利用k-最近邻方法预测每个不均衡数据集上不均衡数据处理方法的排名。依据排名靠前的3种方法及用户个人的偏好,选取最适用的不均衡数据处理方法。为了全面地评价推荐算法的性能,采用以下3种性能评价指标:Spearman序列相关系数、命中率以及分类性能AUC。
(1)Spearman序列相关系数,用以衡量推荐的不均衡数据处理方法的排名与实际排名之间的一致性。计算公式如下:
式中,rri和iri分别代表不均衡数据处理方法i的推荐排名和实际排名,m是候选不均衡数据处理方法的个数。rs的取值范围为[-1,1],rs越大,推荐排名与实际排名越相关。当推荐排名与实际排名完全吻合时,rs=1;当它们不完全吻合时,rs≤1;时,意味着推荐排名与实际排名不相关;而当两者完全相反时,rs≤-1。
(2)命中率,用以评价推荐算法的准确性。每个不均衡数据集都对应着一个分类性能最优的不均衡数据处理方法。依据最佳分类性能AUCmax,可获得该数据集上所有与最优分类性能无差异的不均衡方法分类性能的取值范围其中NT是指测试集大小,ω的取值决定了置信度。当推荐的不均衡数据处理方法的分类性能落在区间内时,命中,意味着推荐的是最优不均衡数据处理方法;否则,没有命中,即推荐的方法不可用。
(3)分类性能AUC,通过评估推荐的不均衡数据处理方法在不均衡数据集上的分类性能,间接地评价推荐算法的性能。
本发明在80个二元不均衡分类数据集上的进行了充分的实验验证,主要从以下3方面对其性能进行评估与分析:1)Spearman序列相关系数;2)推荐的方法及命中率;3)分类性能。
1)Spearman序列相关系数
表1给出了基于不同类型数据集特征度量的不均衡数据处理方法推荐算法,在80个二元不均衡数据集上的平均Spearman序列相关系数及其对应的最优k值。从表中可以发现:
表1基于不同数据集特征上推荐算法的Spearman相关系数及对应的最优k值
(1)对于C4.5、Ripper、RF及SMO,推荐算法的Spearman序列相关系数均大于0.8,最高可达0.873,这意味着不均衡数据处理方法的推荐排名与实际排名十分相关。对于Bayes和IB1,推荐算法的Spearman序列相关系数大于0.6,最高值为0.678,表明不均衡数据处理方法的推荐排名与实际排名的相关性较弱。
(2)对于NB和SMO,基于传统特征度量的推荐算法对应的最优k值分别14和9,相应的Spearman序列相关系数分别为0.624和0.847。对于C4.5、Ripper和RF,基于Landmakring度量的推荐算法对应的最优k值分别为5、8和11,相应的Spearman序列相关系数分别为0.873、0.868和0.814。对于IB1,基于问题复杂度的推荐算法在k=6时,获得最高Spearman序列相关系数0.678。
2)推荐的方法及命中率
推荐算法能够给出每个不均衡数据集不均衡数据处理方法的排名。Spearman序列相关系数反映了推荐排名与实际排名之间的相关性。实际应用中,更关注推荐排名靠前的方法是否为实际中真正排名靠前的方法。针对每一种分类算法,表2给出了推荐算法给出的排名靠前的Top 3种不均衡数据处理方法的命中率。从表中可以发现:
表2 Top 3推荐算法的命中率(%)
(1)无论采用哪种分类算法对不均衡数据集进行分类,Top 3种不均衡数据处理方法的命中率均高于96%,这意味着推荐的排名前3的方法中至少有96%是真正最优的。特别是,当采用C4.5分类算法进行分类时,Top 3种方法的命中率高达100%,意味着推荐算法能够有效地为C4.5推荐出实际最适用的不均衡数据处理方法。
(2)针对每种分类算法,推荐排名第一的方法命中率均高于91%,最高命中率为98.77%;推荐排名第二的方法的命中率高达100%,最小值为88.89%;推荐排名第三的方法的命中率均高于91%,最高达到98.77%。
3)推荐分类性能
表3给出了采用推荐的Top 3种不均衡数据处理方法时,各个分类算法的平均分类性能AUC与实际最优分类性能之间的误差。
表3 Top 3推荐算法与实际最优方法的分类性能AUC
针对每一种分类算法,推荐的Top 3种方法的分类性能均近似于实际最优的分类性能,仅有少数推荐结果偏离实际最优。推荐的Top 3种方法的AUC与实际最优AUC的差异很小,相对误差仅在0.6-3.7%之间波动,这意味着推荐的前三种方法能够有效地用于处理不均衡数据集,其对应的分类性能接近实际最优的不均衡分类性能。
本发明针对不同的不均衡学习问题,为其推荐最适用的不均衡处理方法。本发明抽取不均衡分类问题的本质特征,并采用经典的不均衡处理方法对各不均衡数据进行预处理,而后采用传统的分类算法构建分类模型,通过分类性能AUC评估所有不均衡处理方法在各个不均衡学习问题上的排名情况,构建“数据集特征-不均衡处理方法排名”知识库。当新的不均衡学习分题到来时,利用基于实例的k-最近邻分类算法为其推荐最优的不均衡处理方法排名,用户可结合推荐排名及个人使用偏好,选取最适用的不均衡处理方法。
本发明针对6种经典的传统分类算法,选用了12种常用的不均衡数据处理方法作为候选不均衡数据处理方法,在80个二元不均衡数据集上,对不均衡方法推荐算法进行了实验验证与评估。实验结果表明,本发明能够有效地为待分类不均衡数据集推荐出最适用的不均衡数据处理方法,其推荐的排名前3的不均衡数据处理方法的命中率为91%,且推荐的不均衡数据处理方法对应的分类性能近似于实际最优的分类性能。
以下是本发明实施例中不均衡处理方法推荐过程,具体包括:
相应的,本发明的实施例还提供一种对不均衡数据进行处理的系统,如图3所示,本发明实施例所述电磁态势成像系统包括处理器、存储器及通信总线;所述通信总线用于实现处理器和存储器之间的连接通信;所述处理器用于执行存储器中存储的计算机指令,以实现上述任一种所述的对不均衡数据进行处理的。相关部分可参照方法实施例进行理解,在此不再详细赘述。
同时,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述实施例提供的任一种对不均衡数据进行处理的,因此也能实现相应的技术效果,相关部分可参照方法实施例进行理解,在此不再详细赘述。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (9)

1.一种对不均衡数据进行处理的方法,其特征在于,包括:
构建元知识数据库;
基于实例学习的k-最近邻算法给出未知数据集上所有候选不均衡数据处理方法的排名。
2.根据权利要求1所述的方法,其特征在于,构建元知识数据库具体包括:
根据历史不均衡数据集,抽取描述数据集本身特征的度量,构建特征向量作为元特征,同时评估各数据集上所有候选不均衡数据处理方法的分类性能,并将所有方法按分类性能排序,获取相应的排名作为元目标;然后,将每个数据集的特征向量与不均衡数据处理方法的排名一一对应,建立数据集特征-不均衡数据处理方法的排名的元知识数据库。
3.根据权利要求1所述的方法,其特征在于,构建元知识数据库的步骤之后,基于实例学习的k-最近邻算法给出未知数据集上所有候选不均衡数据处理方法的排名的步骤之前,还包括:
对待处理的不均衡数据集进行元特征提取,并对待处理的不均衡数据集进行元目标识别。
4.根据权利要求3所述的方法,其特征在于,对待处理的不均衡数据集进行元特征提取,具体包括:
通过数据集特征度量描述不均衡分类问题的本质特征。
5.根据权利要求4所述的方法,其特征在于,
所述数据集特征度量包括传统的特征度量、问题复杂度、Landmarking度量、基于模型度量以及结构信息度量中的一种或多种。
6.根据权利要求3所述的方法,其特征在于,所述对待处理的不均衡数据集进行元目标识别,具体包括:
基于不均衡数据集的分类精度AUC以及运行时间衡量不均衡数据处理方法的性能,对待处理的不均衡数据集进行元目标识别。
7.根据权利要求6所述的方法,其特征在于,还包括:
通过Spearman序列相关系数衡量推荐的不均衡数据处理方法的排名与实际排名之间的一致性,其中,rri和iri分别代表不均衡数据处理方法i的推荐排名和实际排名,m是候选不均衡数据处理方法的个数。rs的取值范围为[-1,1],rs越大,推荐排名与实际排名越相关。当推荐排名与实际排名完全吻合时,则rs=1;当推荐排名与实际排名不完全吻合时,rs≤1;时,当推荐排名与实际排名不相关,则rs=0;当推荐排名与实际排名完全相反,则rs≤-1;
当推荐的不均衡数据处理方法的分类性能落在区间内时,表明推荐的是最优不均衡数据处理方法;否则,表明推荐的方法不可用,其中NT为指测试集大小,ω为置信度。
8.根据权利要求1所述的方法,其特征在于,基于实例学习的k-最近邻算法给出未知数据集上所有候选不均衡数据处理方法的排名,具体包括:
通过极值法对元知识数据库中的元特征及待分类数据集的特征向量均映射到[0,1]区间;
基于规范化后的元知识数据库,通过公式找出与待分类数据集最相似的k个最近邻,其中,data表示待分类数据集,di代表元知识数据库中第i个数据集,Vx,data和Vx,di分别代表数据集data和di中第x个元特征值。
9.一种对不均衡数据进行处理的系统,其特征在于,所述系统包括处理器、存储器及通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的计算机指令,以实现权利要求1至9中任一项所述的对不均衡数据进行处理的方法。
CN201711170061.2A 2017-11-22 2017-11-22 一种对不均衡数据进行处理的方法及系统 Pending CN108319967A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711170061.2A CN108319967A (zh) 2017-11-22 2017-11-22 一种对不均衡数据进行处理的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711170061.2A CN108319967A (zh) 2017-11-22 2017-11-22 一种对不均衡数据进行处理的方法及系统

Publications (1)

Publication Number Publication Date
CN108319967A true CN108319967A (zh) 2018-07-24

Family

ID=62891451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711170061.2A Pending CN108319967A (zh) 2017-11-22 2017-11-22 一种对不均衡数据进行处理的方法及系统

Country Status (1)

Country Link
CN (1) CN108319967A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726821A (zh) * 2018-11-27 2019-05-07 东软集团股份有限公司 数据均衡方法、装置、计算机可读存储介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726821A (zh) * 2018-11-27 2019-05-07 东软集团股份有限公司 数据均衡方法、装置、计算机可读存储介质及电子设备

Similar Documents

Publication Publication Date Title
Mosley A balanced approach to the multi-class imbalance problem
González et al. Validation methods for plankton image classification systems
Stork et al. Open issues in surrogate-assisted optimization
Labatut et al. Evaluation of performance measures for classifiers comparison
CN108549954A (zh) 风险模型训练方法、风险识别方法、装置、设备及介质
Zhang et al. Combined classifier for cross-project defect prediction: an extended empirical study
Malhotra et al. On the application of search-based techniques for software engineering predictive modeling: A systematic review and future directions
CN108229588B (zh) 一种基于深度学习的机器学习识别方法
CN109117380A (zh) 一种软件质量评价方法、装置、设备及可读存储介质
CN107247666B (zh) 一种基于特征选择和集成学习的软件缺陷个数预测方法
Sun et al. Reference line-based estimation of distribution algorithm for many-objective optimization
CN110321493A (zh) 一种社交网络的异常检测与优化方法、系统及计算机设备
Vermetten et al. Bias: A toolbox for benchmarking structural bias in the continuous domain
Rabbi et al. An Approximation For Monitoring The Efficiency Of Cooperative Across Diverse Network Aspects
CN108229692B (zh) 一种基于双重对比学习的机器学习识别方法
Tiruneh et al. Feature selection for construction organizational competencies impacting performance
CN108319967A (zh) 一种对不均衡数据进行处理的方法及系统
Bradshaw et al. The conservation biologist’s toolbox–principles for the design and analysis of conservation studies
Sameki et al. ICORD: Intelligent Collection of Redundant Data-A Dynamic System for Crowdsourcing Cell Segmentations Accurately and Efficiently.
Swan et al. The SMART framework: selection of machine learning algorithms with ReplicaTions—A case study on the microvascular complications of diabetes
CN116415836A (zh) 一种面向智能电网信息系统的安全性评价方法
Pizzi Software quality prediction using fuzzy integration: a case study
Twarish Alhamazani et al. [Retracted] Implementation of Machine Learning Models for the Prevention of Kidney Diseases (CKD) or Their Derivatives
Nikolikj et al. Sensitivity Analysis of RF+ clust for Leave-one-problem-out Performance Prediction
Moustafa Reda et al. Categorization of factors affecting classification algorithms selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180724

RJ01 Rejection of invention patent application after publication