CN107545275A

CN107545275A - 重采样与代价敏感学习融合的不平衡数据集成分类方法

Info

Publication number: CN107545275A
Application number: CN201710622978.5A
Authority: CN
Inventors: 余志文; 温馨
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-07-27
Filing date: 2017-07-27
Publication date: 2018-01-05

Abstract

本发明公开了一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法，涉及人工智能集成学习领域，主要解决现有技术中利用完整数据信息的不平衡数据分类问题，所述方法步骤为：(1)输入训练数据集；(2)计算样本空间分布的相对密度；(3)重采样生成多个子集并训练基础分类器；(4)计算测试样本的相似性矩阵；(5)使用多目标优化并集成得到先验结果；(6)对测试集进行代价敏感学习预测；(7)使用KL散度将结果进行优化融合。所述方法设计了一种新的采样方法解决数据分布不平衡的问题；利用同时结合重采样技术和代价敏感学习的方法解决信息不完整的问题；并充分利用测试集本身的数据信息提高了集成分类器的性能。

Description

重采样与代价敏感学习融合的不平衡数据集成分类方法

技术领域

本发明涉及计算机人工智能领域，具体涉及不平衡数据的重采样技术和代价敏感学习同时结合的集成分类方法。

背景技术

目前所提出的绝大多数的标准机算法都是在数据分布平衡或者错误代价相等的假设上设计的，因此并不适用于处理类分布不平衡的数据。如果直接将标准的学习算法应用在不平衡数据上，对样本量较少的类所总结出的分类规则比样本量较大的类要少且不可靠。

传统的不平衡学习分类方法主要分类为两类，使用数据层面重采样技术对训练样本的和分布不平衡性进行修正以及算法层面设计代价敏感函数修正训练过程不平衡性带来的不良影响，却较少将二者同时结合处理不平衡问题。由于类别分布不平衡的数据在现实生活中普遍存在，因此越来越多学者开始着眼于将集成学习与不平衡数据的处理相结合的机器学习算法的研究。如Elkan提出的著名的AdaCost算法就是将AdaBoost与不平衡数据处理的常用方法——代价敏感相结合提出的一种针对类别分布不平衡的数据处理的集成算法。近两三年这方面的成果尤为显著，如Peng等人提出的针对不平衡数据二分类问题的AdaOUBoost算法和Sainin等人提出的针对不平衡数据多分类问题的直接集成法(DECIML)等都相继提出。

目前传统的不平衡学习具有局限性：第一，大量研究和实验证明，重采样技术中的基于稀疏采样的方法比过采样的方法更能提升分类性能，然而稀疏采样的方法会丢失一部分原始数据的信息，这些信息并非都是冗余信息。第二，代价敏感学习的效果通常不如重采样处理过后进行分类的效果，而且对离群点和噪声点敏感度极高，只适用于训练标准的不平衡数据。第三，传统的使用集成学习方法处理不平衡数据时，通常只注重对重采样生成新的较为平衡的数据集的步骤进行优化，并没有关注不同测试样本之间的信息。

发明内容

本发明的目的是针对上述现有技术的不足，提供了一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法，获得了比传统单一不平衡数据分类算法以及目前较为成熟的不平衡数据分类集成方法更好的分类效果。

本发明实现上述目标的基本思路是：首先，将不平衡数据即分为训练集和测试集，其中考虑到数据标签的不平衡性，训练集样本量占比为66％。其次，对训练集使用bootstrap技术进行重采样处理，改善其分布不平衡的情况同时增加训练集的多样性，并训练得到多个逻辑回归分类器。然后，对测试集进行测试，根据每个分类器预测出不同的类别分布，并使用多目标优化的方法对多个预测结果进行优化，集成后得到一个先验结果和一些相应的权重参数。紧接着，对原始训练集进行代价敏感学习，得到代价敏感分类器并对测试集进行预测得到代价敏感分类结果。最后，利用先验结果和权重等参数，使用KL散度对代价敏感分类结果进行优化处理得到最终结果，并统计预测标签的准确率。

本发明的目的可以通过如下技术方案实现：

一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法，所述方法包括以下步骤：

(1)输入训练数据集

(2)计算训练样本空间分布的相对密度

2a)找出样本量大的类中每个样本在样本量大和样本量小的两个类中的近邻，并记录每个样本与各个近邻之间的距离；

2b)根据与近邻之间距离期望成反比的关系定义样本分别在两个类中的密度；

(3)重采样生成多个子集并训练基础分类器

3a)根据样本分别在两个类中的密度确定每个样本的采样区间；

3b)使用轮盘采样的方法对原始训练数据集进行重采样处理，即随机生成一个[0,1]的数并与采样区间比较得出被采集的样本；

3c)使用bootstrap技术，重复步骤3b)直到生成d个样本子集，d的数值能够由特定数据集的相关先验信息获取，测试实验时通常取5的倍数，即d∈{5,10,15,20,25,…}；

3d)使用这d个样本子集进行训练，得到d个逻辑回归分类器；

(4)计算测试样本的相似性矩阵

4a)使用高斯核函数计算测试样本集中每两个样本之间的相似度；

4b)利用4a)中得到的相似性数据定义综合相似度并构造矩阵元素s_ij∈[0,1]的相似性矩阵S和元素w_ij∈(1,∞)的相似性矩阵W；

(5)使用多目标优化分类结果并集成得到先验结果

5a)输入测试样本集，使用已训练好的d个逻辑回归分类器对其进行预测，得到d个预测结果；

5b)将上述d个预测结果代入多目标优化问题的两个目标函数，分别计算得到适应度值；

5c)根据每个预测结果的多个目标函数的值确定其初始的优先级排序rank，并从中找出非支配结果；

5d)基于优先级排序对初始结果进行交叉变换操作，加入原集合得到新的结果集合，并根据设定的策略从中选出d个最佳的结果；

5e)对步骤5b)到步骤5d)进行G次循环迭代，得到d个优化后的结果，其中迭代次数G的取值由测试所得，试图达到G次迭代后能够得到收敛的值，通常取G≥50，以保证得到收敛的结果；

5f)对优化后的结果进行集成，得到先验结果Y⁰，并求出权重参数ω；

(6)对测试集进行代价敏感学习预测

6a)使用未经过重采样处理的原始训练集进行训练，得到代价敏感分类器；

6b)输入测试集，使用上述代价敏感分类器对测试样本进行预测，得到代价敏感分类预测结果Y；

(7)使用KL散度将重采样后的预测结果和代价敏感学习预测结果进行优化融合

7a)求出步骤(5)中的预测结果Y⁰和步骤(6)中的预测结果Y基于KL散度的分布差异，利用步骤(5)中所求得的权重参数ω和步骤(4)中所得的相似性矩阵W构造目标函数J；

7b)通过最小化目标函数J得到一个收敛的解为最终预测结果Y*。

进一步地，步骤(2)所述的计算样本空间分布的相对密度的步骤是：定义样本量大的类为negative类，在训练集数据点集合为T_n＝{x₁,x₂,…,x_l}，样本量少的类为positive类，在训练集数据点集合为T_p＝{x_l+1,x_l+2,…,x_n}，其中l＞＞n-l+1；从T_n中某个特定的数据点x_i出发，计算其与在T_p类中的k个近邻之间的距离，记为与T_p类中的h个近邻之间的距离，记为

根据以下公式计算每个训练数据点x_i分别在T_n和T_p中的密度：

其中，表示数据点x_i在T_n中的密度，表示数据点x_i在T_p中的密度。

进一步地，步骤3a)到步骤3c)重采样生成多个子集的步骤是：首先，使用以下公式根据样本分别在两个类中的密度确定每个训练数据点x_i被取样的区间范围R_i：

其中用于归一化的总体数据分布密度因子δ^*和样本x_i的采样区间范围边界δ_i定义如下：

δ₀＝0

然后，对T_n中的样本进行轮盘采样，随机生成一个位于[0,1]区间的实数r，若r落在区间R_j中，则选取样本x_j，循环直到被选取的样本量达到设定的采样数目；最后，根据上述方法进行重采样得到d个不同的T_n的子集T_n′，将其与T_p合并形成多个不同的训练集，即对每个分支，输入训练集T，其中T＝T_P∪T_n′。

进一步地，步骤(4)计算测试样本的相似性矩阵的步骤是：使用cosine相似度来度量测试样本之间的相似性，代入高斯核函数，即根据以下公式计算测试样本a_i与测试样本a_j之间的相似性：

其中，s_ij表示测试样本a_i与测试样本a_j之间的相似性，σ是控制拟合度的参数，根据特定数据集的先验知识获得；

根据以下规则定义测试样本a_i与测试样本a_j之间的综合相似度：

得到相似性矩阵：

S＝(s_ij)_n×n，W＝(w_ij)_n×n。

进一步地，步骤5a)到5e)使用多目标优化分类结果的步骤是：首先，输入测试集并使用Kmeans算法对测试样本进行聚类，得到聚类中心c＝{c₁,…,_k}；紧接着，分别使用步骤(3)中生成的d个分类器对测试样本进行预测，得到d个不同的预测结果，记为序列同时对聚类中心c进行预测得到结果然后，使用NSGA-II多目标优化的方法对预测结果进行优化；首先，将上述d个预测结果作为优化的初始值，然后计算每个结果相对应的目标函数的值，设计两个目标函数如下：

其中，s_ij是测试样本a_i与测试样本a_j之间的相似性，r_ij是使用Kmeans算法对测试样本进行聚类的结果，定义如下：

第一个目标函数表示相似性大的两个样本，其概率分布差异较小，即s_ij越大，越小，能够优化样本的概率分布第二个目标函数表示在局部范围内进行自我优化；当r_ij＝1时表示样本a_i属于第j个簇，即其聚类中心为当r_ij＝0时不影响目标函数结果，因此第二个目标函数保证了在优化过程中，不能过分偏离其聚类中心；

最后，计算得到每个结果的适应度值后，排序并找到其中的非支配解，并根据排序进行遗传算法的交叉和变异处理，得到新的结果加入原始种群中，从中找出更优的前d个结果；循环上述步骤直到达到最大的迭代次数G，获得一个优化完成的结果

进一步地，步骤5f)对优化后的结果进行集成的步骤是，首先对结果做投票集成，即：

y_i＝(δ_z1,δ_z2)

其中，y_i是对测试样本a_i的预测结果，若y_i＝(1,0)则表示样本a_i被预测为第1类，若y_i＝(0,1)则表示样本a_i被预测为第2类，表示测试样本a_i在第l个分支被预测为第j类的概率，克罗内克符号δ_zi定义如下：

然后由此得到先验标签Y⁰＝{y₁,y₂,…,y_n}和边界权重ω＝(ω₁,ω₂,…,ω_n)，其中边界权重计算公式如下：

进一步地，步骤(6)对测试集进行代价敏感学习预测的步骤是，首先，输入原始训练集T′＝T_P∪T_n，使用以C4.5决策树为基础分类器的AdaC2算法训练得到代价敏感分类器；然后，输入测试集，使用上述训练得到的代价敏感分类器进行分类，得到测试样本的类别分布和预测标签

进一步地，步骤(7)使用KL散度将重采样后的预测结果和代价敏感学习预测结果进行优化融合的步骤是：首先，构造优化目标函数如下：

其中，取KL散度

P＝(p₁,…,p_k)，Q＝(q₁,…,q_k)

然后，初始化目标函数中的各项，y_i的初始值为代价敏感分类结果为先验标签Y⁰＝{y₁,y₂,…,y_n}，w_ij为步骤(4)中所求得的综合相似度；最后，实用交替迭代的方法最小化目标函数J，即求min_Y J的最优解，迭代收敛得到最终结果

本发明与现有技术相比，具有如下优点和有益效果：

本发明与传统的不平衡数据分类算法相比，具有如下创新点：第一，考虑到重采样过程导致的数据信息缺失，本发明不仅仅采用重采样技术来修正数据不平衡性的影响，利用集成学习框架同时融合了使用全部原始数据进行训练的代价敏感学习；第二，本发明在定义重采样规则时同时考虑类内和类间样本的相似性和差异性，选出代表性强的训练样本，在修正不平衡影响的同时增加了训练集的多样性，提高结果的准确率并增加算法的稳定性；第三，传统的分类算法在优化上通常是优化分类器的训练过程以得到更好的分类器，但是本发明则是利用测试样本本身的相关信息(如测试样本间的相似性)进行结果优化，针对不同的测试样本具有较强的普适性；第四，使用KL散度下的重采样和代价敏感两种方法得出的结果的分布差异来构造优化目标函数，实现数据层面重采样技术和算法层面代价敏感函数的有机融合，提高集成学习算法在处理不平衡数据的性能。与传统的单一不平衡数据分类算法相比之下，准确性、稳定性和鲁棒性都有着非常大的优势。

附图说明

图1为本发明实施例一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

本实施例提供了一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法，流程图如图1所示，包括以下步骤：

步骤1、输入训练数据集

输入一个待分类处理的不平衡数据集X，行向量对应样本维，列向量对应属性维，将X随机划分为66％的训练集和34％的测试集。

步骤2、计算训练样本空间分布的相对密度

定义样本量大的类为negative类，在训练集数据点集合为T_n＝{x₁,x₂,…,x_l}，样本量少的类为positive类，在训练集数据点集合为T_p＝{x_l+1,x_l+2,…,x_n}，其中l＞＞n-l+1；

从T_n中某个特定的数据点x_i出发，计算其与在T_p类中的k个近邻之间的距离，记为与T_p类中的h个近邻之间的距离，记为

步骤3、重采样生成多个子集并训练基础分类器

首先，使用以下公式根据样本分别在两个类中的密度确定每个训练数据点x_i被取样的区间范围R_i：

δ₀＝0

然后，对T_n中的样本进行轮盘采样，随机生成一个位于[0,1]区间的实数r，若r落在区间R_j中，则选取样本x_j，循环直到被选取的样本量达到设定的采样数目；

最后，根据上述方法进行重采样得到d个不同的T_n的子集T_n′，将其与T_p合并形成多个不同的训练集，即对每个分支，输入训练集T，其中T＝T_P∪T_n′，基于每个分支输入的训练集，训练得到d个不同的逻辑回归分类器。

步骤4、计算测试样本的相似性矩阵

使用cosine相似度来度量测试样本之间的相似性，代入高斯核函数，即根据以下公式计算测试样本a_i与测试样本a_j之间的相似性：

得到相似性矩阵：

S＝(s_ij)_n×n，W＝(w_ij)_n×n。

步骤5、使用多目标优化分类结果并集成得到先验结果

首先，输入测试集并使用Kmeans算法对测试样本进行聚类，得到聚类中心c＝{c₁,…,c_k}；

紧接着，分别使用步骤(3)中生成的d个分类器对测试样本进行预测，得到d个不同的预测结果，记为序列同时对聚类中心c进行预测得到结果

然后，使用NSGA-II多目标优化的方法对预测结果进行优化；首先，将上述d个预测结果作为优化的初始值，然后计算每个结果相对应的目标函数的值，设计两个目标函数如下：

计算得到每个结果的适应度值后，排序并找到其中的非支配解，并根据排序进行遗传算法的交叉和变异处理，得到新的结果加入原始种群中，从中找出更优的前d个结果；循环上述步骤直到达到最大的迭代次数G，获得一个优化完成的结果

对优化后的结果做投票集成，即：

y_i＝(δ_z1,δ_z2)

步骤6、对测试集进行代价敏感学习预测

首先，输入原始训练集T′＝T_P∪T_n，使用以C4.5决策树为基础分类器的AdaC2算法训练得到代价敏感分类器；

然后，输入测试集，使用上述训练得到的代价敏感分类器进行分类，得到测试样本的类别分布和预测标签

步骤7、使用KL散度将重采样后的预测结果和代价敏感学习预测结果进行优化融合

首先，构造优化目标函数如下：

其中，取KL散度

P＝(p₁,…,p_k)，Q＝(q₁,…,q_k)

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法，其特征在于，所述方法包括以下步骤：

(1)输入训练数据集

(2)计算训练样本空间分布的相对密度

(3)重采样生成多个子集并训练基础分类器

3b)使用轮盘采样的方法对原始训练数据集进行重采样处理，即随机生成一个位于[0,1]区间内的数并与采样区间比较得出被采集的样本；

3c)使用bootstrap技术，重复步骤3b)直到生成d个样本子集，d的数值能够由特定数据集的相关先验信息获取；

3d)使用这d个样本子集进行训练，得到d个逻辑回归分类器；

(4)计算测试样本的相似性矩阵

(5)使用多目标优化分类结果并集成得到先验结果

5e)对步骤5b)到步骤5d)进行G次循环迭代，得到d个优化后的结果，其中迭代次数G的取值由测试所得，试图达到G次迭代后能够得到收敛的值，取G≥50，以保证得到收敛的结果；

(6)对测试集进行代价敏感学习预测

2.根据权利要求1所述的一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法，其特征在于，步骤(2)所述的计算样本空间分布的相对密度的步骤是：定义样本量大的类为negative类，在训练集数据点集合为T_n＝{x₁,x₂,…,x_l}，样本量少的类为positive类，在训练集数据点集合为T_p＝{x_l+1,x_l+2,…,x_n}，其中l＞＞n-l+1；从T_n中某个特定的数据点x_i出发，计算其与在T_p类中的k个近邻之间的距离，记为与T_p类中的h个近邻之间的距离，记为

3.根据权利要求2所述的一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法，其特征在于，步骤3a)到步骤3c)重采样生成多个子集的步骤是：首先，使用以下公式根据样本分别在两个类中的密度确定每个训练数据点x_i被取样的区间范围R_i：

<mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <msub> <mi>&delta;</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>&delta;</mi> <mi>i</mi> </msub> <mo>&rsqb;</mo> </mrow> <msup> <mi>&delta;</mi> <mo>*</mo> </msup> </mfrac> </mrow>

<mrow> <msup> <mi>&delta;</mi> <mo>*</mo> </msup> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mrow> <mo>(</mo> <msubsup> <mi>&delta;</mi> <mi>i</mi> <mi>p</mi> </msubsup> <mo>+</mo> <msubsup> <mi>&delta;</mi> <mi>i</mi> <mi>n</mi> </msubsup> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>&delta;</mi> <mi>i</mi> </msub> <mo>=</mo> <msub> <mi>&delta;</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <mrow> <mo>(</mo> <msubsup> <mi>&delta;</mi> <mi>i</mi> <mi>p</mi> </msubsup> <mo>+</mo> <msubsup> <mi>&delta;</mi> <mi>i</mi> <mi>n</mi> </msubsup> <mo>)</mo> </mrow> </mrow>

δ₀＝0

然后，对T_n中的样本进行轮盘采样，随机生成一个位于[0,1]区间的实数r，若r落在区间R_j中，则选取样本x_j，循环直到被选取的样本量达到设定的采样数目；最后，根据上述方法进行重采样得到d个不同的T_n的子集T_n′，将其与T_p合并形成多个不同的训练集，即对每个分支，输入训练集T，其中T＝T_P∪T′_n。

4.根据权利要求1所述的一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法，其特征在于，步骤(4)计算测试样本的相似性矩阵的步骤是：使用cosine相似度来度量测试样本之间的相似性，代入高斯核函数，即根据以下公式计算测试样本a_i与测试样本a_j之间的相似性：

<mrow> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>a</mi> <mi>j</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mrow> <mn>2</mn> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

得到相似性矩阵：

S＝(s_ij)_n×n，W＝(w_ij)_n×n。

5.根据权利要求1所述的一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法，其特征在于，步骤5a)到5e)使用多目标优化分类结果的步骤是：

首先，输入测试集并使用Kmeans算法对测试样本进行聚类，得到聚类中心c＝{c₁,…,c_k}；紧接着，分别使用步骤(3)中生成的d个分类器对测试样本进行预测，得到d个不同的预测结果，记为序列同时对聚类中心c进行预测得到结果然后，使用NSGA-II多目标优化的方法对预测结果进行优化；首先，将上述d个预测结果作为优化的初始值，然后计算每个结果相对应的目标函数的值，设计两个目标函数如下：

<mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </munder> <mrow> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <mo>|</mo> <msubsup> <mover> <mi>u</mi> <mo>&RightArrow;</mo> </mover> <mi>i</mi> <mi>l</mi> </msubsup> <mo>-</mo> <msubsup> <mover> <mi>u</mi> <mo>&RightArrow;</mo> </mover> <mi>j</mi> <mi>l</mi> </msubsup> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </mrow>

<mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </munder> <mrow> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <mo>|</mo> <msubsup> <mover> <mi>u</mi> <mo>&RightArrow;</mo> </mover> <mi>i</mi> <mi>l</mi> </msubsup> <mo>-</mo> <msubsup> <mover> <mi>q</mi> <mo>&RightArrow;</mo> </mover> <mi>j</mi> <mi>l</mi> </msubsup> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </mrow>

6.根据权利要求5所述的一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法，其特征在于，步骤5f)对优化后的结果进行集成的步骤是：

首先对结果做投票集成，即：

<mrow> <mi>z</mi> <mo>=</mo> <msub> <mi>arg</mi> <mi>j</mi> </msub> <msub> <mi>max&Sigma;</mi> <mi>l</mi> </msub> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>l</mi> </msubsup> </mrow>

y_i＝(δ_z1,δ_z2)

其中，_i是对测试样本a_i的预测结果，若y_i＝(1,0)则表示样本a_i被预测为第1类，若y_i＝(0,1)则表示样本a_i被预测为第2类，表示测试样本a_i在第l个分支被预测为第j类的概率，克罗内克符号δ_zi定义如下：

<mrow> <msub> <mi>&delta;</mi> <mrow> <mi>z</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mi>z</mi> <mo>=</mo> <mi>i</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>z</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

<mrow> <msub> <mi>&omega;</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>d</mi> </mfrac> <msub> <mi>&Sigma;</mi> <mi>l</mi> </msub> <mfrac> <msup> <mrow> <mo>(</mo> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> <mi>l</mi> </msubsup> <mo>-</mo> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> <mi>l</mi> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <msub> <mi>&Sigma;</mi> <mi>j</mi> </msub> <msup> <mrow> <mo>(</mo> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> <mi>l</mi> </msubsup> <mo>-</mo> <msubsup> <mi>u</mi> <mrow> <mi>j</mi> <mn>2</mn> </mrow> <mi>l</mi> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mfrac> <mo>.</mo> </mrow>

7.根据权利要求2所述的一种将重采样技术与代价敏感学习融合的不平衡数据集成分类方法，其特征在于，步骤(7)使用KL散度将重采样后的预测结果和代价敏感学习预测结果进行优化融合的步骤是：首先，构造优化目标函数如下：

其中，取KL散度

<mrow> <msub> <mi>D</mi> <mrow> <mi>K</mi> <mi>L</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>P</mi> <mo>,</mo> <mi>Q</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <msub> <mi>p</mi> <mi>i</mi> </msub> <msub> <mi>log</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mfrac> <msub> <mi>p</mi> <mi>i</mi> </msub> <msub> <mi>q</mi> <mi>i</mi> </msub> </mfrac> <mo>)</mo> </mrow> </mrow>

P＝(p₁,…,p_k)，Q＝(q₁,…,q_k)

然后，初始化目标函数中的各项，y_i的初始值为代价敏感分类结果为先验标签Y⁰＝{y₁,y₂,…,y_n}，w_ij为步骤(4)中所求得的综合相似度；最后，实用交替迭代的方法最小化目标函数J，即求min_YJ的最优解，迭代收敛得到最终结果