CN108846424A

CN108846424A - 一种代价敏感模糊多核分类器

Info

Publication number: CN108846424A
Application number: CN201810536904.4A
Authority: CN
Inventors: 李冬冬; 王喆; 程阳; 张静; 杜文莉
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2018-11-20

Abstract

本发明公开了一种代价敏感模糊多核分类器模型，包括在训练样本上生成模糊隶属度的方法，将模糊隶属度引入多核算法的过程。该方法通过利用信息熵和代价敏感，生成一种新的模糊隶属度，从而使分类器更加关注于正类样本，使其在不平衡数据集上拥有更好的分类性能。本发明弥补了现有的多核分类器忽视不平衡本身的特性的缺陷，结合样本的分布情况，从算法层面上调整不同样本在分类过程中的重要程度，将多核算法推广至不平衡问题中。

Description

一种代价敏感模糊多核分类器

技术领域

本发明涉及一种代价敏感模糊多核分类器，属于模式识别技术领域。

背景技术

不平衡的问题由于其在现实生活和科学研究的普遍性，已经成为数据挖掘和机器学习中最重要的话题之一。当我们的目标是解决一个罕见并且重要的案例时，就会出现不平衡的问题，即一个类别中的样本数量比另外一个类别的少很多。例如，欺诈检测，疾病诊断和访问控制是典型的不平衡问题。在欺诈检测中，欺诈案件只占正常业务的小部分。而且，门禁系统大多数时间处理家庭成员的请求，而陌生人的记录很少。实际情况中，门禁系统将陌生人误认为家庭成员比将家庭成员误认为陌生人要严重得多。因此，不同阶层在处理这些问题时应该给予不同的关注。了清楚地描述不平衡的问题，有大量样本的类称为多数类或负类，样本数量少的类称为少数类或正类。负类和正类样本数量的比称为不平衡率(IR)，用来描述数据集的不平衡程度。

尽管标准算法在平衡数据集上取得了理想的效果，但它们在不平衡问题中通常会有较低的正类识别率。为了解决这个问题，有两种最常用的技术。首先是数据层面的方法，指的是采样方法。它在预处理阶段使数据尽量平衡且独立于特定的分类器。其次是算法层面的方法，包括阈值方法，单类学习和代价敏感的学习。不同于数据层面，算法层面的方法不改变样本的分布，而是考虑为不平衡问题开发更合适的算法。

本发明从算法层面出发，利用多核学习(MKL)来解决不平衡的问题。MKL不是采用一个核，而是提供一种原则性的方法来整合来自不同数据源或公式的特征表示。虽然MKL在大多数情况下都具有很好的分类性能，但它并没有考虑到不平衡问题的特性，因此在不平衡的问题中，结果仍不尽人意。为了解决这个问题，我们引入了模糊隶属度。总的来说，在我们的工作中，模糊隶属度是由熵和代价敏感决定的。通过这种方式，数据的分布决定了每个样本的模糊隶属度，反之，模糊隶属度决定了每个样本对分类器的贡献。同时，在代价敏感的原则下，确定了不同类之间的模糊隶属度关系，所以正类受到了更多的关注。这种在分类器层面调节不同训练样本重要性的方法，在解决不平衡问题的分类算法研究中具有重要的意义。

发明内容

技术问题：本发明提供一种能够解决不平衡问题的多核分类算法，通过在传统的多核分类器中引入模糊隶属度来控制每个样本在训练过程中的重要程度，能够降低对分类性能不利的样本点的影响，并且能够更加关注于少数类的样本，从而提高多核分类器在不平衡问题中的分类性能。

技术方案：首先，将原始样本数据划分为训练集和测试集两部分；其次，根据新的模糊隶属度生成方法，在原始的训练数据上计算每个样本的模糊隶属度；接着，本方法基于多核学习方法，将训练样本通过多个核映射到不同的特征空间，每组映射后的数据由基分类器处理；同时，将模糊隶属度引入多核框架中，然后得出训练样本的训练结果。在测试步骤中，将经过映射的测试样本代入到该模型对应的判别函数中进行识别。

本发明解决其技术问题所采用的技术方案还可以进一步细化。所述的训练阶段的第二个步骤中，新的模糊隶属度是由训练样本的信息熵和代价敏感来共同决定的。实践中，熵的计算采用近邻方法。为了不增加模型的复杂度，在本发明中采用了无参的固定半径近邻算法。但实际上，可以使用任何近邻方法，如k近邻算法等。最后，在多核框架的选用和核方法的选取中，本发明采用了Multi-KMHKS多核算法和不同参数的径向基核。但根据不同情况，可以使用另外的多核算法及核映射函数。

有益效果：本发明与现有技术相比，具有以下优点：

将现有的多核学习应用到不平衡问题时，由于其没有考虑不平衡问题的特征，导致分类结果对正类样本很不利。而这种结果和不平衡问题本质背道而驰。本发明第一次将从原始训练集上计算的模糊隶属度引入到多核框架中来解决不平衡问题。与现有的计算方法不同，本方法计算样本的模糊隶属度同时考虑样本的分布情况和不平衡问题本身的特点。使用信息熵来衡量样本的分布情况，这样能使分类器区分对待不确定性高的样本。另外，代价敏感思想的引入也使分类器针适应各种不同的不平衡情况。此方法不仅能够使分类器更加关注于正类样本，还能减弱对分类不利的样本的影响，从而生成更为合理的分类边界。它不仅能将多核学习推广到不平衡问题中，还形成了一个比较通用的针对不平衡问题的多核学习框架。

在使用多核算法MultiV-KMHKS实现本方法时，通过引入代价敏感的模糊隶属度，本方法不再相同地对待每个训练样本。那些不确定性高的样本在处理时会拥有更小的权重，并且对于正类样本，此方法会在分类时予以更多的关注。因此相对于传统的多核学习，本方法在不平衡问题中有合理的分类效果。

附图说明

图1是本发明代价敏感多核分类器的训练流程图。

图2是本发明的模糊隶属度生成流程图。

具体实施方式

为了更清楚的描述本发明的的内容，下面结合实例和说明书附图作进一步说明。下文所提的实施例并非用来限制本发明所覆盖的范围。本发明的针对不平衡问题的代价敏感模糊多核分类器算法，包括以下步骤：

步骤1：输入训练样本其中N是训练样本的数量，y_i＝+1 代表样本x_i属于正类，y_i＝-1代表样本x_i属于负类；

步骤2：首先计算每个训练样本的信息熵，其具体不知如下：

步骤2.1：使用固定半径近邻方法在所有样本上计算出半径R：

步骤2.1.1：利用以下公式计算所有样本两两间的欧氏距离：

是样本x_i和x_j的距离，d表示样本维度；

步骤2.1.2：根据上一步计算的距离，按照以下公式计算半径:

步骤2.2：接下来计算每个训练样本的信息熵。样本x_i的信息熵计算公式为：

c是训练样本的类别数，P^j(x_i)是根据近邻规则计算的样本x_i属于某一类的概率。计算概率P^j(x_i)通过以下步骤：

步骤2.2.1：根据上面计算的半径R，利用固定半径最近邻方法，计算P^j(x_i)。其中定半径最近邻方法的表示如以下公式：

x_all是全部训练样本，x_candi是样本x_i对应的近邻样本；

步骤2.2.2：对每个样本x_i，计算其概率：

num_j是x_candi中属于第j类的样本个数，num_candi是x_candi的总个数。

步骤3：将所有训练样本按照其熵的值分为m组。具体操作为：

对于第j组，设定上界：

设定下界：

E_max和E_min分别为所有样本的熵值的最大值和最小值。对于样本x_i，如果lb≤E_i＜ub，则将x_i分到第j组中；

步骤4：为每个组设定一个模糊隶属值，对于第j组，其模糊隶属值为：

F_j＝1-α(j-1),j＝1,2,...,m (8)

参数α用来保持F_j的值在(0,1]的范围之内。参数α要保持F_j的值在(0,1]的范围之内，故α的范围应该在在得到所有样本的熵之后，需要计算每个样本的模糊隶属度。在计算模糊隶属度时，正负类的代价分别设置为C⁺＝1,其中IR称为不平衡率，它用来衡量数据集的不平衡程度，且其定义如下：

N^-和N⁺分别是负类样本和正类样本的数量；

步骤5：使用代价敏感来控制类间的模糊隶属度大小。对于两类问题来说，假设正类和负类的错分代价分别为C⁺和C^-。那么对于样本x_i，其最终的模糊隶属度为：

F_i为步骤4中为样本x_i计算的模糊隶属值。由于模糊隶属度0＜s_i≤1，因此在实际操作中需要控制好代价C⁺和C^-的大小。

步骤6：使用核映射方法将原始训练样本映射到不同的特征空间。核映射的步骤为：

步骤6.1：输入训练样本y_i∈{+1,-1}，其中N是训练样本的数量， y_i＝+1代表样本x_i属于正类，y_i＝-1代表样本x_i属于负类；

步骤6.2：利用核函数计算得出核矩阵，如线性核函数：

k(x,x_i)＝x·x_i (11)

多项式核函数：

k(x,x_i)＝((x·x_i)+1)^d (12)

高斯核函数：

假设使用M个不同的核，那么映射之后会产生M个不同的核矩阵形成M组新的训练集。

步骤7：建立代价敏感模糊多核分类器。使用多核算法MultiV-KMHKS训练M组训练集，并同时引入模糊隶属度。此分类器的目标函数主要包含两个部分，可以表示为：

第一部分包含两个项，是经验风险项，是结构风险项。这两项可以看成是每个基分类器，它保证分类器的分类正确率。第二项R_v(D)使每个核的输出都尽量接近所有核的平均输出。正则化参数c^p和γ均大于或等于零。其中和R_v(D)的D是包含模糊隶属度的矩阵。

定义向量指的是第p个核映射。定义偏移量核矩阵公式(13)的展开形式如下：

1指代的是N×1的向量，并且误差向量b^p∈R^N×1≥0。此处，D∈R^N×N是由模糊隶属度组成的对角矩阵。D的定义如下：

然后利用启发式梯度下降方法求解此优化问题。求解步骤如下：

步骤7.1：J对Γ^p求偏导，并令其为0，得到：

步骤7.2：J对求偏导，并令其为0，得到：

步骤7.3：定义矩阵：

步骤7.4：由于矩阵K^p是一个半正定矩阵，根据式子(22)，(23)可以得到：

k是迭代的轮数；

步骤7.5：J对b^p求偏导，得到：

它即是误差值，要使其尽可能接近于0；

步骤7.6：根据梯度下降方法，初始化考虑到b^p≥0的条件，给出在每一轮的迭代公式为：

ρ^p叫做学习率，它的范围是0＜ρ^p＜1。第p个核的第k轮迭代的误差向量是

步骤7.7：循环迭代达到公式(14)中的条件时，终止迭代并返回当前的Γ^p和

步骤7.8：使用数学方法梯度下降法求解优化问题min J。设定终止条件，当迭代到达条件时停止，并返回训练结果。其中迭代终止条件为：

ξ是一个足够小的正的常量值。

步骤7.9：输入测试样本，将测试样本代入判别函数。使用上述步骤得出的训练结果，计算每个测试样本的类别。此实例的判别函数为：

和均为训练所得，μ_p为每个核对应的基分类器权重。

上文描述了本发明的具体实施方式。但是，本领域中的普通技术人员能够理解，在不脱离本发明的精神和原理的前提下，还可以做出若干改进和等同替换。本发明权利要求进行改进和等同替换后的技术和方案，均落入本发明的保护范围。

实验设计

实验数据集选取：本文使用的现实不平衡数据集选自KEEL不平衡标准数据。它们的详细信息如下表所示。

Dataset	IR	Size	Dimension
				haberman	2.78	306	3
ecoli1	3.36	336	7
				yest0359vs78	9.12	202	7
glass2	11.59	214	9
				glass016vs5	19.44	184	9
yest6	41.40	1484	8

所有算法的参数选择是采用5轮交叉方法，即将数据集先分为两份，一份训练一份测试。然后将训练集再分为1,2,3,4,5这五份。首先将1234训练，5验证，然后1235训练，4 验证，这样共有五次。选取最好的参数后再在测试集上进行测试。

对比模型：本发明提出的系统命名为CFMKL。我们在CFMKL，SimpleMKL， MultiV-KMHKS，KMHKS，EFSVM，SVM-SMOTE和CS-SVM之间进行分类性能比较。

性能度量方式：本实验使用的不平衡数据集的评价标准是ROC曲线下面积(AUC)。ROC是Receiver Operating Characteristic图形的缩写，它显示利益(TP_rate)和成本(FP_rate)之间的权衡。其中TP_rate和FP_rate分别为正确分类的正类样本和正确分类的负类样本数量的比率。因此，在不平衡数据集上，AUC是一个比整体精度更合适的度量标准。AUC的定义如下：

实验结果：

表中数据是AUC指标度量下的预测结果及其均方差，每一行对应一个数据集，每一列对应一个算法。每个数据集上的最好结果都已使用粗体标出，并且每个算法的排名得分都在括号中标记。

由各个算法的分类结果及其得分可知，CFMKL在所有数据集上取得最佳效果，并且在所有数据集上体现的稳定性使其最终拥有最高的平均分类性能和最靠前的平均排名得分。

Claims

1.一种代价敏感模糊多核分类器，其特征在于，该分类器的训练方法包括以下骤：

1)将原始样本数据划分为训练集和测试集两部分；

2)根据新的模糊隶属度生成方法，在原始的训练数据上计算每个样本的模糊隶属度；

3)本方法基于多核学习方法，将训练样本通过多个核映射到不同的特征空间，每组映射后的数据由基分类器处理；

4)将模糊隶属度引入多核框架中，然后得出训练样本的训练结果；

5)测试步骤中，将经过映射的测试样本代入到该模型对应的判别函数中进行识别。

2.根据权利要求1所述的代价敏感模糊多核分类器，其特征在于：步骤2)的模糊隶属度生成方法，同时基于信息熵和代价敏感，样本x_i的信息熵计算公式为：

c是训练样本的类别数，P^j(x_i)是根据近邻规则计算的样本x_i属于某一类的概率；对每个样本x_i，根据近邻方法计算其概率：

num_j是x_candi中属于第j类的样本个数，num_candi是x_i的近邻样本x_candi的总个数；

接下来，将所有训练样本按照其熵的值分为m组，每一组中的样本都对应一个隶属度；然后，为每个组设定一个模糊隶属值，对于第j组，其模糊隶属值为：

F_j＝1-α(j-1),j＝1,2,...,m

参数α用来保持F_j的值在(0,1]的范围之内；参数α要保持F_j的值在(0,1]的范围之内，故α的范围应该在在得到所有样本的熵之后，需要计算每个样本的模糊隶属度；在计算模糊隶属度时，使用代价敏感来控制类间的模糊隶属度大小；对于两类问题来说，假设正类和负类的错分代价分别为C⁺和C^-；那么对于样本x_i，其最终的模糊隶属度为：

F_i为公式(5)样本x_i的隶属值。

3.根据权利要求2所述的模糊隶属度生成方法，样本的信息熵的计算是基于近邻方法，此处采用的是没有任何参数的固定半径近邻方法；计算熵需要利用样本的概率P^j(x_i)；步骤2中计算P^j(x_i)的具体流程如下：

首先，使用固定半径近邻方法在所有样本上计算出半径R；R的计算流程如下：

利用以下公式计算所有样本两两间的欧氏距离：

是样本x_i和x_j的距离，d表示样本维度；

根据上一步计算的距离，按照以下公式计算半径:

接着，根据上面计算的半径R，利用固定半径最近邻方法，计算P^j(x_i)；其中定半径最近邻方法的表示如以下公式：

x_all是全部训练样本，x_candi是样本x_i对应的近邻样本；

最后，对每个样本x_i，计算其概率：

4.根据权利要求2所述的模糊隶属度生成方法，其特征在于，正负类的代价分别设置为C⁺＝1,其中IR称为不平衡率，它用来衡量数据集的不平衡程度，且其定义如下：

N^-和N⁺分别是负类样本和正类样本的数量。

5.权利要求1所述的代价敏感模糊多核分类器，其特征在于，训练步骤中建立目标函数时采用多核算法MultiV-KMHKS，结合模糊隶属度，此分类器的目标函数主要包含两个部分，可以表示为：

第一部分包含两个项，是经验风险项，是结构风险项；这两项可以看成是每个基分类器，它保证分类器的分类正确率；第二项R_v(D)使每个核的输出都尽量接近所有核的平均输出；正则化参数c^p和γ均大于或等于零；其中和R_v(D)的D是包含模糊隶属度的矩阵；它们的具体形式如下：

定义向量p指的是第p个核映射；定义偏移量

核矩阵目标函数为：

1指代的是N×1的向量，并且误差向量b^p∈R^N×1≥0；此处，D∈R^N×N是由模糊隶属度组成的对角矩阵。