CN114692746A

CN114692746A - 一种基于信息熵的模糊半监督支持向量机的分类方法

Info

Publication number: CN114692746A
Application number: CN202210303445.1A
Authority: CN
Inventors: 全靖; 赵胜利; 苏理云; 张凤太
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-07-01

Abstract

本发明公开了一种基于信息熵的模糊半监督支持向量机的分类方法，步骤为，1）数据预处理；2）计算有标签数据模糊隶属度；3）建立基于熵的模糊半监督支持向量机模型及其对偶模型；4）将基于信息熵的模糊半监督支持向量机对偶模型改写为标准的二次规划问题形式，通过序列极小优化算法优化该标准二次规划问题，得到基于信息熵的模糊半监督支持向量机对偶模型的拉格朗日乘子，从而求得基于信息熵的模糊半监督支持向量机模型的优化参数，根据优化参数即可获得分类超平面；5）基于获得的分类超平面，对待处理数据做分类，即可获得分类结果。本发明具有收敛速度非常快，计算轻松容易，最终分类准确率高、效果更好等特点。

Description

一种基于信息熵的模糊半监督支持向量机的分类方法

技术领域

本发明涉及半监督支持向量机、机器学习，具体涉及一种基于信息熵的模糊半监督支持向量机的机器学习方法，可以用于机器学习领域的分类和回归，属于统计学习、机器学习技术领域。

背景技术

支持向量机在1998年由Vapnik提出以来，因为其具有统计学习和优化理论基础、具有稀疏解、非线性性和泛化能力强的特点，得到了迅速的发展。支持向量机在分类和回归方面表现出优越的性能，是实现模式识别、机器视觉、手写字符识别、网页分类、垃圾邮件分类、文本分类、信用风险评估等应用的有力工具。

在现实世界中，需要采用机器学习方法对一些训练集数据集进行分类，然后利用测试集做预测。假定给定特征空间上的训练数据集为

D＝{(x₁,y₁),(x₂,y₂),…,(x_l,y_l)}

其中x_i∈Rⁿ，y_i∈{+1,-1}，i＝1,2,…,l.x_i为第i个特征向量，也称为实例，y_i为x_i的类标记，当y_i＝+1时称x⁽ⁱ⁾为正类或者正例，当y_i＝-1时，称x_i为负类或者负例。(x_i,y_i)为称为样本点。

支持向量机是其中一种比较流行的分类方法，其主要思想是寻求一个分类超平面ω^Tx+b＝0(其中ω超平面的法向量，b为截距)，使得数据集的正负类样本点分别在法平面的两侧，而且在超平面两边具有最大分类间隔，如图1所示。

线性可分支持向量机模型如下：

s.t.y_i(wx_i+b)≥1，i＝1，2，…，l.

解这个优化问题是转化求解其对偶问题：

α_i≥0，i＝1，2，…，l.

如果两类数据不能完全被超平面分开，则支持向量机模型为：

s.t.y_i(ωx_i+b)+ξ_i≥1，

ξ_i≥0，i＝1，2，…，l

其中ξ_i为松弛变量，C＞0称为惩罚参数，其对偶问题形式为：

0≤α_i≤C，i＝1，2，…，l.

其中α_i≥0为拉格朗日乘子。

但是许多实际问题中，有标签的数据很少，获取它往往需要昂贵的代价，而半监督学习就是针对一部分有标签、另一部分没有标签的数据进行的机器学习，在人脸识别、语音识别、文本分类、语义解析、视频监控、蛋白质结构预测等方面都有较好的应用。所以半监督支持向量机(S³VM)应运而生，其模型如下：

s.t. y_i(ωx_i+b)+ξ_i≥1，ξ_i≥0，i＝1，2，…，l，

ωx_j+b+η_j+M(1-f_j)≥1，η_j≥0，d_j＝{0，1}，

-(ωx_j+b)+ζ_j+Md_j≥1，ζ_j≥0，j＝l+1，l+2，…，l+k.

其中ξ_i,η_j,ζ_j为松弛变量，M＞0为一个较大的常数，C₁,C₂＞0为惩罚参数。S³VM模型或者为

s.t.y_i(ωx_i+b)+ξ_i≥1，ξ_i≥0，i＝1，2，…，l，

ωx_j+b+η_j≥1，η_j≥0，j＝l+1，l+2，…，l+k，

-(ωx_j+b)+ζ_j≥1，ζ_j≥0，j＝l+1，l+2，…，l+k.

其中ξ_i,η_j,ζ_j为松弛变量，C₁,C₂＞0为惩罚参数。

但是这两个半监督支持向量机模型分别是混合整数非线性规划问题和非光滑的优化问题，两者都是NP难的。而且现实中的数据具有不平衡性，即正类数据与负类数据数量上极不平衡。这两个问题而且对不平衡数据处理效果差，所以半监督学习那些应用目前很难在半监督支持向量机上实现。

发明内容

针对现有研究主要集中在提高半监督支持向量机模型的优化能力方面，而现在的半监督支持向量机模型是NP难的非光滑优化问题或者混合整数非线性规划问题，而且现有半监督支持向量机技术不能很好处理不平衡数据的问题，本发明提出一种基于信息熵的模糊半监督支持向量机的分类方法，该方法能准确的对不平衡数据、半监督学习数据进行分类或回归学习，通过连续光滑的半监督支持向量机模型的对偶转化为标准二次规划问题，再应用序列极小优化算法求解二次规划问题，求得分类超平面，进而解决不平衡数据的半监督分类问题。

本发明的技术方案是这样实现的：

一种基于信息熵的模糊半监督支持向量机的分类方法，其特征在于：步骤如下：

1)数据预处理；

2)计算有标签数据模糊隶属度；

3)建立基于熵的模糊半监督支持向量机模型及其对偶模型；

根据步骤2)得到的有标签数据的模糊隶属度，提出基于信息熵的模糊半监督支持向量机模型，并进一步通过拉格朗日函数建立基于信息熵的模糊半监督支持向量机对偶模型；

4)基于序列极小优化算法优化基于信息熵的模糊半监督支持向量机对偶模型：

将基于信息熵的模糊半监督支持向量机对偶模型改写为标准的二次规划问题形式，通过序列极小优化算法优化该标准二次规划问题，得到基于信息熵的模糊半监督支持向量机对偶模型的拉格朗日乘子，从而求得基于信息熵的模糊半监督支持向量机模型的优化参数，根据优化参数即可获得分类超平面或分类决策函数；

5)对待处理数据分类基于步骤4)获得的分类超平面或分类决策函数，对待处理数据做分类，即可获得分类结果。

其中，步骤2)计算有标签数据模糊隶属度的步骤为，

2.1)先计算带有标签数据点的信息熵；

2.2)然后根据负类样本信息熵的值，将负类样本分成m个子集

2.3)再按照下式计算样本的模糊隶属度；

其中FM_n＝1.0-β*(n-1),n＝1,2,…,m，β为模糊隶属度参数；

步骤2.1)计算带有标签数据点的信息熵按如下方法进行，

设有标签的数据集表示为如下集合形式，

L＝{x_i，y_i}，i∈{1，2，…，l}，y_i＝+1 or y_i＝-1，

其中x_i为数据向量，y_i为相应的标签；对于其中的每个数据向量x_i，计算出与其欧氏距离最近的N个样本点，N的大小预先设定；根据x_i的N个近邻样本点，按下式计算其信息熵：

H_i＝-p_+iln(p_+i)-p_-iln(p_-i)

其中p_+i＝num_+i/N，p_-i＝num_-i/N，num_+i为N个最近邻样本点中正类的个数，num_-i为N个最近邻样本点中负类的个数，ln为自然对数函数。

步骤2.2)中，将负类样本分成m个子集

时，根据负类样本信息熵的极小值H_min和极大值H_max将信息熵分为间隔相等的m个区间，信息熵的m个区间按下限从小到大排序分别为第1，2，...n，...m个区间，分别对应负类样本的m个子集

每个负类样本信息熵落入某个信息熵区间，对应的负类样本就被分配到对应的子集Sub_n。

相比现有技术，本发明具有如下有益效果：

1、现实实际分类问题中，很多数据是没有标签的、或者获得有标签的数据是需要高昂代价的，而且正类和负类数量上极不平衡，本发明在分类的时候对有标签的数据赋以模糊隶属度，相当于特征向量属于正类或负类的概率赋以相应的权重，处理不平衡数据的分类问题更有效。对于半监督支持向量机，提出的模型是连续光滑的优化问题，而且求解最优化问题采用的是数值计算方法，不用梯度或者随机梯度，用序列极小优化算法求解两个变量的二次规划问题，与现有技术相比，本发明具有收敛速度非常快，计算轻松容易，最终分类准确率高、效果更好等特点。

2、本发明提出基于信息熵的模糊半监督支持向量机模型，是连续的光滑优化问题，通过采用序列极小优化算法，容易求得分类超平面，并可以很好处理不平衡问题，当然就容易应用到人脸识别、语音识别、文本分类、语义解析、视频监控、蛋白质结构预测等方面。

附图说明

图1为超平面分类示意图。

图2为本发明分类流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于信息熵的模糊半监督支持向量机的机器学习方法，包括以下步骤，同时参见图2，

步骤1)：数据预处理

设训练集有标签的部分为L＝{x_i,y_i}，i＝1,2,…,l,x_i∈Rⁿ,y_i∈{1,-1}，没有标签的部分为U＝{x_j},x_j∈Rⁿ,j＝l+1,l+2,…,l+k。首先去除记录重复和特征重复数据；对缺失值和异常值(离群点)采用删除样本点、替换法或插值的方法进行处理，对于样本特征数据采用归一化处理：

步骤2)：有标签数据模糊隶属度计算

通过采用基于熵的模糊隶属度，根据数据特征属于正类或者负类的可能性赋以模糊隶属度，即对特征向量赋以分类权重，具体步骤如下：

Step2.1：计算带有标签数据点的信息熵。设有标签的数据集表示为如下集合形式，

L＝{x_i，y_i}，i∈{1，2，…，l}，y_i＝+1 or y_i＝-1，

其中x_i为数据向量，y_i为相应的标签(标签用+1或者-1表示)。对于其中的每个数据向量x_i，计算出与其欧氏距离最近的N个样本点，N的大小人为设定，比如可以取为7。根据x_i的N个近邻样本点，计算其信息熵，如下所示：

H_i＝-p_+iln(p_+i)-p_-iln(p_-i),

Step2.2：根据信息熵的值，将负类样本数据分成m个子集。根据负类样本信息熵的极小值H_min和极大值H_max将信息熵分为间隔相等的m个区间，

信息熵的m个区间按下限从小到大排序分别为第1，2，...n，...m个区间，分别对应负类样本的m个子集

每个负类样本信息熵落入某个信息熵区间，对应的负类样本就被分配到对应的子集Sub_n。用算法表达即为：

将负类样本信息熵的集合表示为

其中n_-表示负类样本点的个数，并分别记H_min、H_max为负类样本信息熵H集合的极小值和极大值。将负类样本点按照如下算法分成m个子集

①对n＝1:m

②对i＝1:n_-

如果thrLow≤H_-i＜thrUp，则负例x_i被分配到某子集Sub_n。

Step2.3：计算有标签数据的模糊隶属度。根据Step2.2，所有的负类样本都已经被归入到某个子集Sub_n，于是可以按照如下的方式定义样本的模糊隶属度。

其中FM_n＝1.0-β*(n-1),n＝1,2,…,m，

至此，有标签数据模糊隶属度计算完成。

步骤3)：建立基于熵的模糊半监督支持向量机模型及其对偶问题。

采用基于熵的模糊隶属度，提出了基于熵的模糊半监督支持向量机模型(EFS³VM)，为了连续光滑的优化问题，通过拉格朗日函数建立基于信息熵的模糊半监督支持向量机的对偶模型，具体步骤如下：

Step3.1：提出基于熵的模糊半监督支持向量机模型(EFS³VM)。

其中ξ_i,η_j,ζ_j为松弛变量，C₁,C₂＞0为惩罚参数，

为一个将映射到高维特征空间的非线性函数，

就是核函数。

Step3.2：通过拉格朗日函数建立基于信息熵的模糊半监督支持向量机的对偶模型。

0≤α_i≤C₁s_i，i＝1，2，…，l；0≤β_j，γ_j≤C₂，j＝l+1，l+2，…，l+k.

其中α_i,β_j,γ_j≥0为拉格朗日乘子。

此对偶模型为标准的二次规划问题，可以用最优化的二次规划算法程序求解。本发明采用序列极小优化算法求解，不用矩阵和梯度，采用数值的迭代方法训练模型参数。具有速度快，精度高等优点。

步骤4)：SMO算法优化基于熵的模糊半监督支持向量机模型的对偶问题：

为了寻找非线性和不平衡数据集的最优分类超平面ω·Φ(x)+b＝0，或最优分类决策函数f(x)＝sign(ω·Φ(x)+b)，我们应该解决EFS³VM模型相应的对偶问题。首先要根据标记实例计算模糊隶属度，然后采用序列最小优化(SMO)算法对问题进行优化。SMO算法本质上是一种启发式算法，具体步骤如下：

Step4.1：将基于信息熵的模糊半监督支持向量机的对偶模型改写为下面标准二次规划问题形式。

0≤z_i≤U_i，i＝1，…，l，…，l+k，…，l+2k.

其中z_i＝αi，i＝1，2，…，l；z_i＝β_i，i＝l+1，l+2，…，l+k；z_i+k＝γ_i，i＝l+1，l+2，…，l+k；y_i＝1，i＝l+1，l+2，…，l+k；y_i+k＝-1，i＝l+1，l+2，…，l+k，U_i＝C₁s_i，i＝1，2，…，l；U_i＝C₂，i＝l+1，…，l+k，…，l+2k，

核函数可以取成高斯核函数

σ为参数。

Step4.2：选取两个变量进行优化。

0≤z_i≤U_i，i＝1，2.

根据极小化序列优化算法：

输入：l个有标签的数据

k个没有标签的数据

x_i的模糊隶属度s_i，及核函数K(x_i,x_j)。

输出：拉格朗日乘子：

以下为极小化序列优化算法的具体步骤：

①初始化参数z⁽⁰⁾＝(α⁽⁰⁾,β⁽⁰⁾,γ⁽⁰⁾)，b₀＝0，E₀＝0，m＝0，ε＝0.00000001。

②选择变量

对应实例x₁,x₂，x₁是违反KKT条件最严重的点，x₂是由|E₁-E₂|最大所确定的，而E₁,E₂由公式：

E₁＝g(x₁)-y₁，E₂＝g(x₂)-y₂，η＝P_1，1+P_2，2-2P_1，2

所确定，其中KKT条件为

③由更新迭代公式

得两个变量优化问题的解为：

更新

④若KKT条件满足或者||W(z^(m+1))-W(z^(m+2))||＜ε，转⑥；否则进入⑤；

⑤更新b_i，E_i：

⑥m＝m+1；重复步骤②-⑥，直到达到设置的迭代次数；

⑦结束循环；

⑧输出

从而求得基于熵的模糊半监督支持向量机的模型优化参数：

其中S为所有支持向量的个数，进而获得决策函数：

即

步骤5)：对待分类数据做分类

采用获得的分类超平面对待分类数据做分类，获得预测结果或分类标签。该方法也可以做回归，就是最后预测函数取为

其中

为最优解向量；K(x_i,x)为核函数，序列最小优化(SMO)算法可用于解决上述问题。

下面结合具体实施例对本发明作进一步的详细说明。按上述所示流程，对KEEL数据库里面的Wisconsin数据集进行训练测试，包括以下步骤：

Step1：将数据集进行分区。将数据集随机分为训练集和测试集，因为EFS³VM的主要目的是利用不含标签的数据获得更好的分类效果，因此将随机选择的训练集和测试集都需包含有标签的数据和未标签的数据，而且保证有标签数据的每个类至少有一个代表性数据。

Step2：进行实验设置。在此具体实例中，核函数Ker(x_i,x_j)我们选用径向基函数(RBF)

参数σ选自于集合{10^-3,10^-2,10^-1,0,10,100,1000}，而分离子集m的数量设置为10，模糊隶属度参数β设置为0.05，这导致模糊隶属度0.5＜s_i≤1.0。对于负分类模式，我们设置s_i＞0.5，以表示负模式s_i更可能属于负类。此外，用于计算类概率的最近邻k的数目从{1，2，3...,8}中选择。为了衡量在不平衡数据集上的性能，采用ROC曲线下面积(AUC)的值来评估测试集有标签部分数据的分类性能。AUC的确定如下：

其中TP_rate和FP_rate是正类样本被正确分类的比例和负类样本被错误分类的比例。

Step3：进行实例计算。计算是在英特尔Core2处理器上进行的，处理器采用2.66GHz、8G RAM、Microsoft Windows10和Python 3.8环境。

(1)数据集示例：

数据	特征1	特征2		特征n	标签或label
						样本x<sub>1</sub>	x<sub>11</sub>	x<sub>12</sub>	……	x<sub>1n</sub>	y<sub>1</sub>
样本x<sub>2</sub>	x<sub>21</sub>	x<sub>22</sub>	……	x<sub>2n</sub>	y<sub>2</sub>
						……	……	……	……	……	……
样本x<sub>l</sub>	x<sub>l1</sub>	x<sub>l2</sub>	……	x<sub>ln</sub>	y<sub>l</sub>
						样本x<sub>l+1</sub>	x<sub>l+11</sub>	x<sub>l+12</sub>	……	x<sub>l+1n</sub>	unlabeled
……	……	……	……	……	unlabeled
						样本x<sub>l+k</sub>	x<sub>l+k1</sub>	x<sub>l+k2</sub>	……	x<sub>l+kn</sub>	unlabeled

本发明实施例给出18个样本数据，以下每行为一个样本数据，每个样本数据包括9个特征和一个标签，最后一个为标签，标签为2或者4(相当于+1和-1)或者为unlabeled，unlabeled即没有标签。

5,1,1,1,2,1,2,1,1,2

8,8,9,6,6,3,10,10,1,4

3,1,1,1,2,1,1,1,1,2

4,1,1,1,2,3,2,1,1,2

9,8,8,5,6,2,4,10,4,4

1,1,1,1,2,1,3,1,1,2

8,3,8,3,4,9,8,9,8,4

10,10,8,6,4,5,8,10,1,4

6,6,7,10,3,10,8,10,2,4

1,3,1,1,2,1,2,2,1,unlabeled

3,1,1,1,2,1,2,1,1,unlabeled

4,8,7,10,4,10,7,5,1,unlabeled

9,8,8,9,6,3,4,1,1,unlabeled

8,4,4,1,6,10,2,5,2,unlabeled

3,1,1,1,2,1,1,1,1,unlabeled

3,1,1,1,2,1,3,1,1,unlabeled

6,5,5,8,4,10,3,4,1,unlabeled

5,10,10,9,6,10,7,10,5,unlabeled

(2)训练集和测试集分类准确率

(3)本发明通过Python编程、R语言编程容易实现，实施例子如KEEL数据库里面的Wisconsin数据集，测试分类准确率可达96％。而以前的半监督支持向量机模型S³VM的对偶问题是混合整数规划问题或者非光滑问题，不具有全局最优解，是非常难以求解的。

本发明提出的基于信息熵的模糊半监督支持向量机模型，将基于信息熵的模糊隶属度嵌入到半监督支持向量机模型中，可以很好处理数据不平衡性的问题。提出的基于信息熵的模糊半监督支持向量机模型是连续的光滑优化问题，可以通过采用序列极小优化算法，容易求得分类超平面，解决现有模型为混合整数规划和非光滑优化很难求解的问题。当然就容易应用到人脸识别、语音识别、文本分类、语义解析、视频监控、蛋白质结构预测等方面。

最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管申请人参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，均应涵盖在本发明的权利要求范围当中。