CN107545275A - 重采样与代价敏感学习融合的不平衡数据集成分类方法 - Google Patents

重采样与代价敏感学习融合的不平衡数据集成分类方法 Download PDF

Info

Publication number
CN107545275A
CN107545275A CN201710622978.5A CN201710622978A CN107545275A CN 107545275 A CN107545275 A CN 107545275A CN 201710622978 A CN201710622978 A CN 201710622978A CN 107545275 A CN107545275 A CN 107545275A
Authority
CN
China
Prior art keywords
mrow
msub
sample
msubsup
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710622978.5A
Other languages
English (en)
Inventor
余志文
温馨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201710622978.5A priority Critical patent/CN107545275A/zh
Publication of CN107545275A publication Critical patent/CN107545275A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法,涉及人工智能集成学习领域,主要解决现有技术中利用完整数据信息的不平衡数据分类问题,所述方法步骤为:(1)输入训练数据集;(2)计算样本空间分布的相对密度;(3)重采样生成多个子集并训练基础分类器;(4)计算测试样本的相似性矩阵;(5)使用多目标优化并集成得到先验结果;(6)对测试集进行代价敏感学习预测;(7)使用KL散度将结果进行优化融合。所述方法设计了一种新的采样方法解决数据分布不平衡的问题;利用同时结合重采样技术和代价敏感学习的方法解决信息不完整的问题;并充分利用测试集本身的数据信息提高了集成分类器的性能。

Description

重采样与代价敏感学习融合的不平衡数据集成分类方法
技术领域
本发明涉及计算机人工智能领域,具体涉及不平衡数据的重采样技术和代价敏感学习同时结合的集成分类方法。
背景技术
目前所提出的绝大多数的标准机算法都是在数据分布平衡或者错误代价相等的假设上设计的,因此并不适用于处理类分布不平衡的数据。如果直接将标准的学习算法应用在不平衡数据上,对样本量较少的类所总结出的分类规则比样本量较大的类要少且不可靠。
传统的不平衡学习分类方法主要分类为两类,使用数据层面重采样技术对训练样本的和分布不平衡性进行修正以及算法层面设计代价敏感函数修正训练过程不平衡性带来的不良影响,却较少将二者同时结合处理不平衡问题。由于类别分布不平衡的数据在现实生活中普遍存在,因此越来越多学者开始着眼于将集成学习与不平衡数据的处理相结合的机器学习算法的研究。如Elkan提出的著名的AdaCost算法就是将AdaBoost与不平衡数据处理的常用方法——代价敏感相结合提出的一种针对类别分布不平衡的数据处理的集成算法。近两三年这方面的成果尤为显著,如Peng等人提出的针对不平衡数据二分类问题的AdaOUBoost算法和Sainin等人提出的针对不平衡数据多分类问题的直接集成法(DECIML)等都相继提出。
目前传统的不平衡学习具有局限性:第一,大量研究和实验证明,重采样技术中的基于稀疏采样的方法比过采样的方法更能提升分类性能,然而稀疏采样的方法会丢失一部分原始数据的信息,这些信息并非都是冗余信息。第二,代价敏感学习的效果通常不如重采样处理过后进行分类的效果,而且对离群点和噪声点敏感度极高,只适用于训练标准的不平衡数据。第三,传统的使用集成学习方法处理不平衡数据时,通常只注重对重采样生成新的较为平衡的数据集的步骤进行优化,并没有关注不同测试样本之间的信息。
发明内容
本发明的目的是针对上述现有技术的不足,提供了一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法,获得了比传统单一不平衡数据分类算法以及目前较为成熟的不平衡数据分类集成方法更好的分类效果。
本发明实现上述目标的基本思路是:首先,将不平衡数据即分为训练集和测试集,其中考虑到数据标签的不平衡性,训练集样本量占比为66%。其次,对训练集使用bootstrap技术进行重采样处理,改善其分布不平衡的情况同时增加训练集的多样性,并训练得到多个逻辑回归分类器。然后,对测试集进行测试,根据每个分类器预测出不同的类别分布,并使用多目标优化的方法对多个预测结果进行优化,集成后得到一个先验结果和一些相应的权重参数。紧接着,对原始训练集进行代价敏感学习,得到代价敏感分类器并对测试集进行预测得到代价敏感分类结果。最后,利用先验结果和权重等参数,使用KL散度对代价敏感分类结果进行优化处理得到最终结果,并统计预测标签的准确率。
本发明的目的可以通过如下技术方案实现:
一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法,所述方法包括以下步骤:
(1)输入训练数据集
(2)计算训练样本空间分布的相对密度
2a)找出样本量大的类中每个样本在样本量大和样本量小的两个类中的近邻,并记录每个样本与各个近邻之间的距离;
2b)根据与近邻之间距离期望成反比的关系定义样本分别在两个类中的密度;
(3)重采样生成多个子集并训练基础分类器
3a)根据样本分别在两个类中的密度确定每个样本的采样区间;
3b)使用轮盘采样的方法对原始训练数据集进行重采样处理,即随机生成一个[0,1]的数并与采样区间比较得出被采集的样本;
3c)使用bootstrap技术,重复步骤3b)直到生成d个样本子集,d的数值能够由特定数据集的相关先验信息获取,测试实验时通常取5的倍数,即d∈{5,10,15,20,25,…};
3d)使用这d个样本子集进行训练,得到d个逻辑回归分类器;
(4)计算测试样本的相似性矩阵
4a)使用高斯核函数计算测试样本集中每两个样本之间的相似度;
4b)利用4a)中得到的相似性数据定义综合相似度并构造矩阵元素sij∈[0,1]的相似性矩阵S和元素wij∈(1,∞)的相似性矩阵W;
(5)使用多目标优化分类结果并集成得到先验结果
5a)输入测试样本集,使用已训练好的d个逻辑回归分类器对其进行预测,得到d个预测结果;
5b)将上述d个预测结果代入多目标优化问题的两个目标函数,分别计算得到适应度值;
5c)根据每个预测结果的多个目标函数的值确定其初始的优先级排序rank,并从中找出非支配结果;
5d)基于优先级排序对初始结果进行交叉变换操作,加入原集合得到新的结果集合,并根据设定的策略从中选出d个最佳的结果;
5e)对步骤5b)到步骤5d)进行G次循环迭代,得到d个优化后的结果,其中迭代次数G的取值由测试所得,试图达到G次迭代后能够得到收敛的值,通常取G≥50,以保证得到收敛的结果;
5f)对优化后的结果进行集成,得到先验结果Y0,并求出权重参数ω;
(6)对测试集进行代价敏感学习预测
6a)使用未经过重采样处理的原始训练集进行训练,得到代价敏感分类器;
6b)输入测试集,使用上述代价敏感分类器对测试样本进行预测,得到代价敏感分类预测结果Y;
(7)使用KL散度将重采样后的预测结果和代价敏感学习预测结果进行优化融合
7a)求出步骤(5)中的预测结果Y0和步骤(6)中的预测结果Y基于KL散度的分布差异,利用步骤(5)中所求得的权重参数ω和步骤(4)中所得的相似性矩阵W构造目标函数J;
7b)通过最小化目标函数J得到一个收敛的解为最终预测结果Y*。
进一步地,步骤(2)所述的计算样本空间分布的相对密度的步骤是:定义样本量大的类为negative类,在训练集数据点集合为Tn={x1,x2,…,xl},样本量少的类为positive类,在训练集数据点集合为Tp={xl+1,xl+2,…,xn},其中l>>n-l+1;从Tn中某个特定的数据点xi出发,计算其与在Tp类中的k个近邻之间的距离,记为与Tp类中的h个近邻之间的距离,记为
根据以下公式计算每个训练数据点xi分别在Tn和Tp中的密度:
其中,表示数据点xi在Tn中的密度,表示数据点xi在Tp中的密度。
进一步地,步骤3a)到步骤3c)重采样生成多个子集的步骤是:首先,使用以下公式根据样本分别在两个类中的密度确定每个训练数据点xi被取样的区间范围Ri
其中用于归一化的总体数据分布密度因子δ*和样本xi的采样区间范围边界δi定义如下:
δ0=0
然后,对Tn中的样本进行轮盘采样,随机生成一个位于[0,1]区间的实数r,若r落在区间Rj中,则选取样本xj,循环直到被选取的样本量达到设定的采样数目;最后,根据上述方法进行重采样得到d个不同的Tn的子集Tn′,将其与Tp合并形成多个不同的训练集,即对每个分支,输入训练集T,其中T=TP∪Tn′。
进一步地,步骤(4)计算测试样本的相似性矩阵的步骤是:使用cosine相似度来度量测试样本之间的相似性,代入高斯核函数,即根据以下公式计算测试样本ai与测试样本aj之间的相似性:
其中,sij表示测试样本ai与测试样本aj之间的相似性,σ是控制拟合度的参数,根据特定数据集的先验知识获得;
根据以下规则定义测试样本ai与测试样本aj之间的综合相似度:
得到相似性矩阵:
S=(sij)n×n,W=(wij)n×n
进一步地,步骤5a)到5e)使用多目标优化分类结果的步骤是:首先,输入测试集并使用Kmeans算法对测试样本进行聚类,得到聚类中心c={c1,…,k};紧接着,分别使用步骤(3)中生成的d个分类器对测试样本进行预测,得到d个不同的预测结果,记为序列同时对聚类中心c进行预测得到结果然后,使用NSGA-II多目标优化的方法对预测结果进行优化;首先,将上述d个预测结果作为优化的初始值,然后计算每个结果相对应的目标函数的值,设计两个目标函数如下:
其中,sij是测试样本ai与测试样本aj之间的相似性,rij是使用Kmeans算法对测试样本进行聚类的结果,定义如下:
第一个目标函数表示相似性大的两个样本,其概率分布差异较小,即sij越大,越小,能够优化样本的概率分布第二个目标函数表示在局部范围内进行自我优化;当rij=1时表示样本ai属于第j个簇,即其聚类中心为当rij=0时不影响目标函数结果,因此第二个目标函数保证了在优化过程中,不能过分偏离其聚类中心;
最后,计算得到每个结果的适应度值后,排序并找到其中的非支配解,并根据排序进行遗传算法的交叉和变异处理,得到新的结果加入原始种群中,从中找出更优的前d个结果;循环上述步骤直到达到最大的迭代次数G,获得一个优化完成的结果
进一步地,步骤5f)对优化后的结果进行集成的步骤是,首先对结果 做投票集成,即:
yi=(δz1,δz2)
其中,yi是对测试样本ai的预测结果,若yi=(1,0)则表示样本ai被预测为第1类,若yi=(0,1)则表示样本ai被预测为第2类,表示测试样本ai在第l个分支被预测为第j类的概率,克罗内克符号δzi定义如下:
然后由此得到先验标签Y0={y1,y2,…,yn}和边界权重ω=(ω12,…,ωn),其中边界权重计算公式如下:
进一步地,步骤(6)对测试集进行代价敏感学习预测的步骤是,首先,输入原始训练集T′=TP∪Tn,使用以C4.5决策树为基础分类器的AdaC2算法训练得到代价敏感分类器;然后,输入测试集,使用上述训练得到的代价敏感分类器进行分类,得到测试样本的类别分布和预测标签
进一步地,步骤(7)使用KL散度将重采样后的预测结果和代价敏感学习预测结果进行优化融合的步骤是:首先,构造优化目标函数如下:
其中,取KL散度
P=(p1,…,pk),Q=(q1,…,qk)
然后,初始化目标函数中的各项,yi的初始值为代价敏感分类结果 为先验标签Y0={y1,y2,…,yn},wij为步骤(4)中所求得的综合相似度;最后,实用交替迭代的方法最小化目标函数J,即求minY J的最优解,迭代收敛得到最终结果
本发明与现有技术相比,具有如下优点和有益效果:
本发明与传统的不平衡数据分类算法相比,具有如下创新点:第一,考虑到重采样过程导致的数据信息缺失,本发明不仅仅采用重采样技术来修正数据不平衡性的影响,利用集成学习框架同时融合了使用全部原始数据进行训练的代价敏感学习;第二,本发明在定义重采样规则时同时考虑类内和类间样本的相似性和差异性,选出代表性强的训练样本,在修正不平衡影响的同时增加了训练集的多样性,提高结果的准确率并增加算法的稳定性;第三,传统的分类算法在优化上通常是优化分类器的训练过程以得到更好的分类器,但是本发明则是利用测试样本本身的相关信息(如测试样本间的相似性)进行结果优化,针对不同的测试样本具有较强的普适性;第四,使用KL散度下的重采样和代价敏感两种方法得出的结果的分布差异来构造优化目标函数,实现数据层面重采样技术和算法层面代价敏感函数的有机融合,提高集成学习算法在处理不平衡数据的性能。与传统的单一不平衡数据分类算法相比之下,准确性、稳定性和鲁棒性都有着非常大的优势。
附图说明
图1为本发明实施例一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
本实施例提供了一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法,流程图如图1所示,包括以下步骤:
步骤1、输入训练数据集
输入一个待分类处理的不平衡数据集X,行向量对应样本维,列向量对应属性维,将X随机划分为66%的训练集和34%的测试集。
步骤2、计算训练样本空间分布的相对密度
定义样本量大的类为negative类,在训练集数据点集合为Tn={x1,x2,…,xl},样本量少的类为positive类,在训练集数据点集合为Tp={xl+1,xl+2,…,xn},其中l>>n-l+1;
从Tn中某个特定的数据点xi出发,计算其与在Tp类中的k个近邻之间的距离,记为与Tp类中的h个近邻之间的距离,记为
根据以下公式计算每个训练数据点xi分别在Tn和Tp中的密度:
其中,表示数据点xi在Tn中的密度,表示数据点xi在Tp中的密度。
步骤3、重采样生成多个子集并训练基础分类器
首先,使用以下公式根据样本分别在两个类中的密度确定每个训练数据点xi被取样的区间范围Ri
其中用于归一化的总体数据分布密度因子δ*和样本xi的采样区间范围边界δi定义如下:
δ0=0
然后,对Tn中的样本进行轮盘采样,随机生成一个位于[0,1]区间的实数r,若r落在区间Rj中,则选取样本xj,循环直到被选取的样本量达到设定的采样数目;
最后,根据上述方法进行重采样得到d个不同的Tn的子集Tn′,将其与Tp合并形成多个不同的训练集,即对每个分支,输入训练集T,其中T=TP∪Tn′,基于每个分支输入的训练集,训练得到d个不同的逻辑回归分类器。
步骤4、计算测试样本的相似性矩阵
使用cosine相似度来度量测试样本之间的相似性,代入高斯核函数,即根据以下公式计算测试样本ai与测试样本aj之间的相似性:
其中,sij表示测试样本ai与测试样本aj之间的相似性,σ是控制拟合度的参数,根据特定数据集的先验知识获得;
根据以下规则定义测试样本ai与测试样本aj之间的综合相似度:
得到相似性矩阵:
S=(sij)n×n,W=(wij)n×n
步骤5、使用多目标优化分类结果并集成得到先验结果
首先,输入测试集并使用Kmeans算法对测试样本进行聚类,得到聚类中心c={c1,…,ck};
紧接着,分别使用步骤(3)中生成的d个分类器对测试样本进行预测,得到d个不同的预测结果,记为序列同时对聚类中心c进行预测得到结果
然后,使用NSGA-II多目标优化的方法对预测结果进行优化;首先,将上述d个预测结果作为优化的初始值,然后计算每个结果相对应的目标函数的值,设计两个目标函数如下:
其中,sij是测试样本ai与测试样本aj之间的相似性,rij是使用Kmeans算法对测试样本进行聚类的结果,定义如下:
第一个目标函数表示相似性大的两个样本,其概率分布差异较小,即sij越大,越小,能够优化样本的概率分布第二个目标函数表示在局部范围内进行自我优化;当rij=1时表示样本ai属于第j个簇,即其聚类中心为当rij=0时不影响目标函数结果,因此第二个目标函数保证了在优化过程中,不能过分偏离其聚类中心;
计算得到每个结果的适应度值后,排序并找到其中的非支配解,并根据排序进行遗传算法的交叉和变异处理,得到新的结果加入原始种群中,从中找出更优的前d个结果;循环上述步骤直到达到最大的迭代次数G,获得一个优化完成的结果
对优化后的结果做投票集成,即:
yi=(δz1z2)
其中,yi是对测试样本ai的预测结果,若yi=(1,0)则表示样本ai被预测为第1类,若yi=(0,1)则表示样本ai被预测为第2类,表示测试样本ai在第l个分支被预测为第j类的概率,克罗内克符号δzi定义如下:
然后由此得到先验标签Y0={y1,y2,…,yn}和边界权重ω=(ω12,…,ωn),其中边界权重计算公式如下:
步骤6、对测试集进行代价敏感学习预测
首先,输入原始训练集T′=TP∪Tn,使用以C4.5决策树为基础分类器的AdaC2算法训练得到代价敏感分类器;
然后,输入测试集,使用上述训练得到的代价敏感分类器进行分类,得到测试样本的类别分布和预测标签
步骤7、使用KL散度将重采样后的预测结果和代价敏感学习预测结果进行优化融合
首先,构造优化目标函数如下:
其中,取KL散度
P=(p1,…,pk),Q=(q1,…,qk)
然后,初始化目标函数中的各项,yi的初始值为代价敏感分类结果 为先验标签Y0={y1,y2,…,yn},wij为步骤(4)中所求得的综合相似度;最后,实用交替迭代的方法最小化目标函数J,即求minY J的最优解,迭代收敛得到最终结果
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (7)

1.一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法,其特征在于,所述方法包括以下步骤:
(1)输入训练数据集
(2)计算训练样本空间分布的相对密度
2a)找出样本量大的类中每个样本在样本量大和样本量小的两个类中的近邻,并记录每个样本与各个近邻之间的距离;
2b)根据与近邻之间距离期望成反比的关系定义样本分别在两个类中的密度;
(3)重采样生成多个子集并训练基础分类器
3a)根据样本分别在两个类中的密度确定每个样本的采样区间;
3b)使用轮盘采样的方法对原始训练数据集进行重采样处理,即随机生成一个位于[0,1]区间内的数并与采样区间比较得出被采集的样本;
3c)使用bootstrap技术,重复步骤3b)直到生成d个样本子集,d的数值能够由特定数据集的相关先验信息获取;
3d)使用这d个样本子集进行训练,得到d个逻辑回归分类器;
(4)计算测试样本的相似性矩阵
4a)使用高斯核函数计算测试样本集中每两个样本之间的相似度;
4b)利用4a)中得到的相似性数据定义综合相似度并构造矩阵元素sij∈[0,1]的相似性矩阵S和元素wij∈(1,∞)的相似性矩阵W;
(5)使用多目标优化分类结果并集成得到先验结果
5a)输入测试样本集,使用已训练好的d个逻辑回归分类器对其进行预测,得到d个预测结果;
5b)将上述d个预测结果代入多目标优化问题的两个目标函数,分别计算得到适应度值;
5c)根据每个预测结果的多个目标函数的值确定其初始的优先级排序rank,并从中找出非支配结果;
5d)基于优先级排序对初始结果进行交叉变换操作,加入原集合得到新的结果集合,并根据设定的策略从中选出d个最佳的结果;
5e)对步骤5b)到步骤5d)进行G次循环迭代,得到d个优化后的结果,其中迭代次数G的取值由测试所得,试图达到G次迭代后能够得到收敛的值,取G≥50,以保证得到收敛的结果;
5f)对优化后的结果进行集成,得到先验结果Y0,并求出权重参数ω;
(6)对测试集进行代价敏感学习预测
6a)使用未经过重采样处理的原始训练集进行训练,得到代价敏感分类器;
6b)输入测试集,使用上述代价敏感分类器对测试样本进行预测,得到代价敏感分类预测结果Y;
(7)使用KL散度将重采样后的预测结果和代价敏感学习预测结果进行优化融合
7a)求出步骤(5)中的预测结果Y0和步骤(6)中的预测结果Y基于KL散度的分布差异,利用步骤(5)中所求得的权重参数ω和步骤(4)中所得的相似性矩阵W构造目标函数J;
7b)通过最小化目标函数J得到一个收敛的解为最终预测结果Y*。
2.根据权利要求1所述的一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法,其特征在于,步骤(2)所述的计算样本空间分布的相对密度的步骤是:定义样本量大的类为negative类,在训练集数据点集合为Tn={x1,x2,…,xl},样本量少的类为positive类,在训练集数据点集合为Tp={xl+1,xl+2,…,xn},其中l>>n-l+1;从Tn中某个特定的数据点xi出发,计算其与在Tp类中的k个近邻之间的距离,记为与Tp类中的h个近邻之间的距离,记为
根据以下公式计算每个训练数据点xi分别在Tn和Tp中的密度:
其中,表示数据点xi在Tn中的密度,表示数据点xi在Tp中的密度。
3.根据权利要求2所述的一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法,其特征在于,步骤3a)到步骤3c)重采样生成多个子集的步骤是:首先,使用以下公式根据样本分别在两个类中的密度确定每个训练数据点xi被取样的区间范围Ri
<mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <msub> <mi>&amp;delta;</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>&amp;delta;</mi> <mi>i</mi> </msub> <mo>&amp;rsqb;</mo> </mrow> <msup> <mi>&amp;delta;</mi> <mo>*</mo> </msup> </mfrac> </mrow>
其中用于归一化的总体数据分布密度因子δ*和样本xi的采样区间范围边界δi定义如下:
<mrow> <msup> <mi>&amp;delta;</mi> <mo>*</mo> </msup> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mrow> <mo>(</mo> <msubsup> <mi>&amp;delta;</mi> <mi>i</mi> <mi>p</mi> </msubsup> <mo>+</mo> <msubsup> <mi>&amp;delta;</mi> <mi>i</mi> <mi>n</mi> </msubsup> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mi>&amp;delta;</mi> <mi>i</mi> </msub> <mo>=</mo> <msub> <mi>&amp;delta;</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <mrow> <mo>(</mo> <msubsup> <mi>&amp;delta;</mi> <mi>i</mi> <mi>p</mi> </msubsup> <mo>+</mo> <msubsup> <mi>&amp;delta;</mi> <mi>i</mi> <mi>n</mi> </msubsup> <mo>)</mo> </mrow> </mrow>
δ0=0
然后,对Tn中的样本进行轮盘采样,随机生成一个位于[0,1]区间的实数r,若r落在区间Rj中,则选取样本xj,循环直到被选取的样本量达到设定的采样数目;最后,根据上述方法进行重采样得到d个不同的Tn的子集Tn′,将其与Tp合并形成多个不同的训练集,即对每个分支,输入训练集T,其中T=TP∪T′n
4.根据权利要求1所述的一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法,其特征在于,步骤(4)计算测试样本的相似性矩阵的步骤是:使用cosine相似度来度量测试样本之间的相似性,代入高斯核函数,即根据以下公式计算测试样本ai与测试样本aj之间的相似性:
<mrow> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>a</mi> <mi>j</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mrow> <mn>2</mn> <msup> <mi>&amp;sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>
其中,sij表示测试样本ai与测试样本aj之间的相似性,σ是控制拟合度的参数,根据特定数据集的先验知识获得;
根据以下规则定义测试样本ai与测试样本aj之间的综合相似度:
得到相似性矩阵:
S=(sij)n×n,W=(wij)n×n
5.根据权利要求1所述的一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法,其特征在于,步骤5a)到5e)使用多目标优化分类结果的步骤是:
首先,输入测试集并使用Kmeans算法对测试样本进行聚类,得到聚类中心c={c1,…,ck};紧接着,分别使用步骤(3)中生成的d个分类器对测试样本进行预测,得到d个不同的预测结果,记为序列同时对聚类中心c进行预测得到结果然后,使用NSGA-II多目标优化的方法对预测结果进行优化;首先,将上述d个预测结果作为优化的初始值,然后计算每个结果相对应的目标函数的值,设计两个目标函数如下:
<mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </munder> <mrow> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <mo>|</mo> <msubsup> <mover> <mi>u</mi> <mo>&amp;RightArrow;</mo> </mover> <mi>i</mi> <mi>l</mi> </msubsup> <mo>-</mo> <msubsup> <mover> <mi>u</mi> <mo>&amp;RightArrow;</mo> </mover> <mi>j</mi> <mi>l</mi> </msubsup> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </mrow>
<mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </munder> <mrow> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <mo>|</mo> <msubsup> <mover> <mi>u</mi> <mo>&amp;RightArrow;</mo> </mover> <mi>i</mi> <mi>l</mi> </msubsup> <mo>-</mo> <msubsup> <mover> <mi>q</mi> <mo>&amp;RightArrow;</mo> </mover> <mi>j</mi> <mi>l</mi> </msubsup> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </mrow>
其中,sij是测试样本ai与测试样本aj之间的相似性,rij是使用Kmeans算法对测试样本进行聚类的结果,定义如下:
第一个目标函数表示相似性大的两个样本,其概率分布差异较小,即sij越大,越小,能够优化样本的概率分布第二个目标函数表示在局部范围内进行自我优化;当rij=1时表示样本ai属于第j个簇,即其聚类中心为当rij=0时不影响目标函数结果,因此第二个目标函数保证了在优化过程中,不能过分偏离其聚类中心;
最后,计算得到每个结果的适应度值后,排序并找到其中的非支配解,并根据排序进行遗传算法的交叉和变异处理,得到新的结果加入原始种群中,从中找出更优的前d个结果;循环上述步骤直到达到最大的迭代次数G,获得一个优化完成的结果
6.根据权利要求5所述的一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法,其特征在于,步骤5f)对优化后的结果进行集成的步骤是:
首先对结果做投票集成,即:
<mrow> <mi>z</mi> <mo>=</mo> <msub> <mi>arg</mi> <mi>j</mi> </msub> <msub> <mi>max&amp;Sigma;</mi> <mi>l</mi> </msub> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>l</mi> </msubsup> </mrow>
yi=(δz1z2)
其中,i是对测试样本ai的预测结果,若yi=(1,0)则表示样本ai被预测为第1类,若yi=(0,1)则表示样本ai被预测为第2类,表示测试样本ai在第l个分支被预测为第j类的概率,克罗内克符号δzi定义如下:
<mrow> <msub> <mi>&amp;delta;</mi> <mrow> <mi>z</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mi>z</mi> <mo>=</mo> <mi>i</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>z</mi> <mo>&amp;NotEqual;</mo> <mi>i</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
然后由此得到先验标签Y0={y1,y2,…,yn}和边界权重ω=(ω12,…,ωn),其中边界权重计算公式如下:
<mrow> <msub> <mi>&amp;omega;</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>d</mi> </mfrac> <msub> <mi>&amp;Sigma;</mi> <mi>l</mi> </msub> <mfrac> <msup> <mrow> <mo>(</mo> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> <mi>l</mi> </msubsup> <mo>-</mo> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> <mi>l</mi> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <msub> <mi>&amp;Sigma;</mi> <mi>j</mi> </msub> <msup> <mrow> <mo>(</mo> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> <mi>l</mi> </msubsup> <mo>-</mo> <msubsup> <mi>u</mi> <mrow> <mi>j</mi> <mn>2</mn> </mrow> <mi>l</mi> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mfrac> <mo>.</mo> </mrow>
7.根据权利要求2所述的一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法,其特征在于,步骤(7)使用KL散度将重采样后的预测结果和代价敏感学习预测结果进行优化融合的步骤是:首先,构造优化目标函数如下:
其中,取KL散度
<mrow> <msub> <mi>D</mi> <mrow> <mi>K</mi> <mi>L</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>P</mi> <mo>,</mo> <mi>Q</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mi>i</mi> </munder> <msub> <mi>p</mi> <mi>i</mi> </msub> <msub> <mi>log</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mfrac> <msub> <mi>p</mi> <mi>i</mi> </msub> <msub> <mi>q</mi> <mi>i</mi> </msub> </mfrac> <mo>)</mo> </mrow> </mrow>
P=(p1,…,pk),Q=(q1,…,qk)
然后,初始化目标函数中的各项,yi的初始值为代价敏感分类结果 为先验标签Y0={y1,y2,…,yn},wij为步骤(4)中所求得的综合相似度;最后,实用交替迭代的方法最小化目标函数J,即求minYJ的最优解,迭代收敛得到最终结果
CN201710622978.5A 2017-07-27 2017-07-27 重采样与代价敏感学习融合的不平衡数据集成分类方法 Pending CN107545275A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710622978.5A CN107545275A (zh) 2017-07-27 2017-07-27 重采样与代价敏感学习融合的不平衡数据集成分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710622978.5A CN107545275A (zh) 2017-07-27 2017-07-27 重采样与代价敏感学习融合的不平衡数据集成分类方法

Publications (1)

Publication Number Publication Date
CN107545275A true CN107545275A (zh) 2018-01-05

Family

ID=60970740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710622978.5A Pending CN107545275A (zh) 2017-07-27 2017-07-27 重采样与代价敏感学习融合的不平衡数据集成分类方法

Country Status (1)

Country Link
CN (1) CN107545275A (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764597A (zh) * 2018-04-02 2018-11-06 华南理工大学 一种基于集成学习的产品质量控制方法
CN108768772A (zh) * 2018-05-29 2018-11-06 南京航空航天大学 基于代价敏感的自组织网络的故障探测方法
CN108921604A (zh) * 2018-06-22 2018-11-30 华南理工大学 一种基于代价敏感分类器集成的广告点击率预测方法
CN109614967A (zh) * 2018-10-10 2019-04-12 浙江大学 一种基于负样本数据价值重采样的车牌检测方法
CN109635034A (zh) * 2018-11-08 2019-04-16 北京字节跳动网络技术有限公司 训练数据重采样方法、装置、存储介质及电子设备
CN109840558A (zh) * 2019-01-25 2019-06-04 南京航空航天大学 基于密度峰值-核心融合的自适应聚类方法
CN110009111A (zh) * 2019-03-29 2019-07-12 电子科技大学 一种机器学习逆过程中生成最优训练集的方法
CN110110754A (zh) * 2019-04-03 2019-08-09 华南理工大学 基于代价局部泛化误差的不平衡问题的分类方法
CN110377828A (zh) * 2019-07-22 2019-10-25 腾讯科技(深圳)有限公司 信息推荐方法、装置、服务器及存储介质
CN110378749A (zh) * 2019-07-25 2019-10-25 深圳前海微众银行股份有限公司 用户数据相似性的评估方法、装置、终端设备及存储介质
CN110443281A (zh) * 2019-07-05 2019-11-12 重庆信科设计有限公司 基于hdbscan聚类的自适应过采样方法
CN110689544A (zh) * 2019-09-06 2020-01-14 哈尔滨工程大学 一种遥感图像细弱目标分割方法
CN110986407A (zh) * 2019-11-08 2020-04-10 杭州电子科技大学 一种离心式冷水机组故障诊断方法
CN111414819A (zh) * 2020-03-10 2020-07-14 北京空间飞行器总体设计部 基于非平衡数据分类框架的火点智能检测和分类方法
CN112073227A (zh) * 2020-08-26 2020-12-11 重庆理工大学 利用层叠泛化和代价敏感学习的社交网链路异常检测方法
CN112115335A (zh) * 2019-06-20 2020-12-22 百度(中国)有限公司 数据融合处理方法、装置、设备和存储介质
CN112115956A (zh) * 2019-06-20 2020-12-22 中科聚信信息技术(北京)有限公司 用于样本分类的数据处理方法、数据处理装置和电子设备
CN112382382A (zh) * 2020-10-23 2021-02-19 北京科技大学 一种代价敏感的集成学习分类方法及系统
CN112884028A (zh) * 2021-02-03 2021-06-01 中国工商银行股份有限公司 一种系统资源调整方法、装置及设备
CN114548306A (zh) * 2022-02-28 2022-05-27 西南石油大学 一种基于误分类代价的钻井早期溢流智能监测方法
CN114638336A (zh) * 2021-12-26 2022-06-17 海南大学 聚焦于陌生样本的不平衡学习
WO2022257458A1 (zh) * 2021-06-08 2022-12-15 平安科技(深圳)有限公司 车险理赔行为识别方法、装置、设备及存储介质
CN115953609A (zh) * 2022-08-08 2023-04-11 中国航空油料集团有限公司 一种数据集筛选方法与系统
CN111178897B (zh) * 2019-12-18 2023-08-08 浙江大学 在不平衡数据上快速特征学习的代价敏感的动态聚类方法

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764597A (zh) * 2018-04-02 2018-11-06 华南理工大学 一种基于集成学习的产品质量控制方法
CN108768772A (zh) * 2018-05-29 2018-11-06 南京航空航天大学 基于代价敏感的自组织网络的故障探测方法
CN108768772B (zh) * 2018-05-29 2020-06-09 南京航空航天大学 基于代价敏感的自组织网络的故障探测方法
CN108921604A (zh) * 2018-06-22 2018-11-30 华南理工大学 一种基于代价敏感分类器集成的广告点击率预测方法
CN108921604B (zh) * 2018-06-22 2022-03-29 华南理工大学 一种基于代价敏感分类器集成的广告点击率预测方法
CN109614967A (zh) * 2018-10-10 2019-04-12 浙江大学 一种基于负样本数据价值重采样的车牌检测方法
CN109614967B (zh) * 2018-10-10 2020-07-17 浙江大学 一种基于负样本数据价值重采样的车牌检测方法
CN109635034B (zh) * 2018-11-08 2020-03-03 北京字节跳动网络技术有限公司 训练数据重采样方法、装置、存储介质及电子设备
CN109635034A (zh) * 2018-11-08 2019-04-16 北京字节跳动网络技术有限公司 训练数据重采样方法、装置、存储介质及电子设备
WO2020093718A1 (zh) * 2018-11-08 2020-05-14 北京字节跳动网络技术有限公司 训练数据重采样方法、装置、存储介质及电子设备
CN109840558A (zh) * 2019-01-25 2019-06-04 南京航空航天大学 基于密度峰值-核心融合的自适应聚类方法
CN109840558B (zh) * 2019-01-25 2022-06-17 南京航空航天大学 基于密度峰值-核心融合的自适应聚类方法
CN110009111A (zh) * 2019-03-29 2019-07-12 电子科技大学 一种机器学习逆过程中生成最优训练集的方法
CN110110754A (zh) * 2019-04-03 2019-08-09 华南理工大学 基于代价局部泛化误差的不平衡问题的分类方法
CN110110754B (zh) * 2019-04-03 2022-03-29 华南理工大学 基于代价局部泛化误差的不平衡问题的分类方法
CN112115335B (zh) * 2019-06-20 2024-05-28 百度(中国)有限公司 数据融合处理方法、装置、设备和存储介质
CN112115335A (zh) * 2019-06-20 2020-12-22 百度(中国)有限公司 数据融合处理方法、装置、设备和存储介质
CN112115956A (zh) * 2019-06-20 2020-12-22 中科聚信信息技术(北京)有限公司 用于样本分类的数据处理方法、数据处理装置和电子设备
CN110443281A (zh) * 2019-07-05 2019-11-12 重庆信科设计有限公司 基于hdbscan聚类的自适应过采样方法
CN110443281B (zh) * 2019-07-05 2023-09-26 重庆信科设计有限公司 基于hdbscan聚类的文本分类自适应过采样方法
CN110377828A (zh) * 2019-07-22 2019-10-25 腾讯科技(深圳)有限公司 信息推荐方法、装置、服务器及存储介质
CN110377828B (zh) * 2019-07-22 2023-05-26 腾讯科技(深圳)有限公司 信息推荐方法、装置、服务器及存储介质
CN110378749A (zh) * 2019-07-25 2019-10-25 深圳前海微众银行股份有限公司 用户数据相似性的评估方法、装置、终端设备及存储介质
CN110378749B (zh) * 2019-07-25 2023-09-26 深圳前海微众银行股份有限公司 客户端相似性的评估方法、装置、终端设备及存储介质
CN110689544A (zh) * 2019-09-06 2020-01-14 哈尔滨工程大学 一种遥感图像细弱目标分割方法
CN110986407A (zh) * 2019-11-08 2020-04-10 杭州电子科技大学 一种离心式冷水机组故障诊断方法
CN111178897B (zh) * 2019-12-18 2023-08-08 浙江大学 在不平衡数据上快速特征学习的代价敏感的动态聚类方法
CN111414819A (zh) * 2020-03-10 2020-07-14 北京空间飞行器总体设计部 基于非平衡数据分类框架的火点智能检测和分类方法
CN112073227A (zh) * 2020-08-26 2020-12-11 重庆理工大学 利用层叠泛化和代价敏感学习的社交网链路异常检测方法
CN112382382A (zh) * 2020-10-23 2021-02-19 北京科技大学 一种代价敏感的集成学习分类方法及系统
CN112382382B (zh) * 2020-10-23 2024-04-12 北京科技大学 一种代价敏感的集成学习分类方法及系统
CN112884028A (zh) * 2021-02-03 2021-06-01 中国工商银行股份有限公司 一种系统资源调整方法、装置及设备
WO2022257458A1 (zh) * 2021-06-08 2022-12-15 平安科技(深圳)有限公司 车险理赔行为识别方法、装置、设备及存储介质
CN114638336B (zh) * 2021-12-26 2023-09-22 海南大学 聚焦于陌生样本的不平衡学习
CN114638336A (zh) * 2021-12-26 2022-06-17 海南大学 聚焦于陌生样本的不平衡学习
CN114548306A (zh) * 2022-02-28 2022-05-27 西南石油大学 一种基于误分类代价的钻井早期溢流智能监测方法
CN115953609A (zh) * 2022-08-08 2023-04-11 中国航空油料集团有限公司 一种数据集筛选方法与系统
CN115953609B (zh) * 2022-08-08 2023-08-18 中国航空油料集团有限公司 一种数据集筛选方法与系统

Similar Documents

Publication Publication Date Title
CN107545275A (zh) 重采样与代价敏感学习融合的不平衡数据集成分类方法
WO2022121289A1 (en) Methods and systems for mining minority-class data samples for training neural network
CN112784881B (zh) 网络异常流量检测方法、模型及系统
CN111881342A (zh) 一种基于图孪生网络的推荐方法
CN108960304B (zh) 一种网络交易欺诈行为的深度学习检测方法
Sikandar et al. Decision tree based approaches for detecting protein complex in protein protein interaction network (PPI) via link and sequence analysis
CN113807422B (zh) 融合多特征信息的加权图卷积神经网络评分预测模型
Wei et al. Unsupervised feature selection on networks: a generative view
CN110674940B (zh) 一种基于神经网络的多指标异常检测方法
CN105046323B (zh) 一种正则化rbf网络多标签分类方法
CN115983984A (zh) 一种多模型融合的客户风险评级方法
CN110321492A (zh) 一种基于社区信息的项目推荐方法及系统
CN111584010A (zh) 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
Demirel et al. Meta-tuning loss functions and data augmentation for few-shot object detection
Waqas et al. Robust bag classification approach for multi-instance learning via subspace fuzzy clustering
Acosta-Mendoza et al. Learning to assemble classifiers via genetic programming
CN105844334A (zh) 一种基于径向基神经网络的温度插值算法
CN114997366A (zh) 基于图神经网络的蛋白质结构模型质量评估方法
CN114663770A (zh) 一种基于集成聚类波段选择的高光谱图像分类方法及系统
CN110490234A (zh) 基于聚类分类联合机制的分类器的构建方法以及分类方法
Du et al. Structure tuning method on deep convolutional generative adversarial network with nondominated sorting genetic algorithm II
CN114254738A (zh) 双层演化的动态图卷积神经网络模型构建方法及应用
CN111832645A (zh) 基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法
Wu et al. Localize, assemble, and predicate: Contextual object proposal embedding for visual relation detection
CN116934470A (zh) 一种基于聚类采样和元集成的金融交易风险评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180105