CN114692746A - 一种基于信息熵的模糊半监督支持向量机的分类方法 - Google Patents

一种基于信息熵的模糊半监督支持向量机的分类方法 Download PDF

Info

Publication number
CN114692746A
CN114692746A CN202210303445.1A CN202210303445A CN114692746A CN 114692746 A CN114692746 A CN 114692746A CN 202210303445 A CN202210303445 A CN 202210303445A CN 114692746 A CN114692746 A CN 114692746A
Authority
CN
China
Prior art keywords
fuzzy
information entropy
semi
support vector
vector machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210303445.1A
Other languages
English (en)
Inventor
全靖
赵胜利
苏理云
张凤太
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN202210303445.1A priority Critical patent/CN114692746A/zh
Publication of CN114692746A publication Critical patent/CN114692746A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于信息熵的模糊半监督支持向量机的分类方法,步骤为,1)数据预处理;2)计算有标签数据模糊隶属度;3)建立基于熵的模糊半监督支持向量机模型及其对偶模型;4)将基于信息熵的模糊半监督支持向量机对偶模型改写为标准的二次规划问题形式,通过序列极小优化算法优化该标准二次规划问题,得到基于信息熵的模糊半监督支持向量机对偶模型的拉格朗日乘子,从而求得基于信息熵的模糊半监督支持向量机模型的优化参数,根据优化参数即可获得分类超平面;5)基于获得的分类超平面,对待处理数据做分类,即可获得分类结果。本发明具有收敛速度非常快,计算轻松容易,最终分类准确率高、效果更好等特点。

Description

一种基于信息熵的模糊半监督支持向量机的分类方法
技术领域
本发明涉及半监督支持向量机、机器学习,具体涉及一种基于信息熵的模糊半监督支持向量机的机器学习方法,可以用于机器学习领域的分类和回归,属于统计学习、机器学习技术领域。
背景技术
支持向量机在1998年由Vapnik提出以来,因为其具有统计学习和优化理论基础、具有稀疏解、非线性性和泛化能力强的特点,得到了迅速的发展。支持向量机在分类和回归方面表现出优越的性能,是实现模式识别、机器视觉、手写字符识别、网页分类、垃圾邮件分类、文本分类、信用风险评估等应用的有力工具。
在现实世界中,需要采用机器学习方法对一些训练集数据集进行分类,然后利用测试集做预测。假定给定特征空间上的训练数据集为
D={(x1,y1),(x2,y2),…,(xl,yl)}
其中xi∈Rn,yi∈{+1,-1},i=1,2,…,l.xi为第i个特征向量,也称为实例,yi为xi的类标记,当yi=+1时称x(i)为正类或者正例,当yi=-1时,称xi为负类或者负例。(xi,yi)为称为样本点。
支持向量机是其中一种比较流行的分类方法,其主要思想是寻求一个分类超平面ωTx+b=0(其中ω超平面的法向量,b为截距),使得数据集的正负类样本点分别在法平面的两侧,而且在超平面两边具有最大分类间隔,如图1所示。
线性可分支持向量机模型如下:
Figure BDA0003563772300000011
s.t.yi(wxi+b)≥1,i=1,2,…,l.
解这个优化问题是转化求解其对偶问题:
Figure BDA0003563772300000021
Figure BDA0003563772300000022
αi≥0,i=1,2,…,l.
如果两类数据不能完全被超平面分开,则支持向量机模型为:
Figure BDA0003563772300000023
s.t.yi(ωxi+b)+ξi≥1,
ξi≥0,i=1,2,…,l
其中ξi为松弛变量,C>0称为惩罚参数,其对偶问题形式为:
Figure BDA0003563772300000024
Figure BDA0003563772300000025
0≤αi≤C,i=1,2,…,l.
其中αi≥0为拉格朗日乘子。
但是许多实际问题中,有标签的数据很少,获取它往往需要昂贵的代价,而半监督学习就是针对一部分有标签、另一部分没有标签的数据进行的机器学习,在人脸识别、语音识别、文本分类、语义解析、视频监控、蛋白质结构预测等方面都有较好的应用。所以半监督支持向量机(S3VM)应运而生,其模型如下:
Figure BDA0003563772300000026
s.t. yi(ωxi+b)+ξi≥1,ξi≥0,i=1,2,…,l,
ωxj+b+ηj+M(1-fj)≥1,ηj≥0,dj={0,1},
-(ωxj+b)+ζj+Mdj≥1,ζj≥0,j=l+1,l+2,…,l+k.
其中ξijj为松弛变量,M>0为一个较大的常数,C1,C2>0为惩罚参数。S3VM模型或者为
Figure BDA0003563772300000031
s.t.yi(ωxi+b)+ξi≥1,ξi≥0,i=1,2,…,l,
ωxj+b+ηj≥1,ηj≥0,j=l+1,l+2,…,l+k,
-(ωxj+b)+ζj≥1,ζj≥0,j=l+1,l+2,…,l+k.
其中ξijj为松弛变量,C1,C2>0为惩罚参数。
但是这两个半监督支持向量机模型分别是混合整数非线性规划问题和非光滑的优化问题,两者都是NP难的。而且现实中的数据具有不平衡性,即正类数据与负类数据数量上极不平衡。这两个问题而且对不平衡数据处理效果差,所以半监督学习那些应用目前很难在半监督支持向量机上实现。
发明内容
针对现有研究主要集中在提高半监督支持向量机模型的优化能力方面,而现在的半监督支持向量机模型是NP难的非光滑优化问题或者混合整数非线性规划问题,而且现有半监督支持向量机技术不能很好处理不平衡数据的问题,本发明提出一种基于信息熵的模糊半监督支持向量机的分类方法,该方法能准确的对不平衡数据、半监督学习数据进行分类或回归学习,通过连续光滑的半监督支持向量机模型的对偶转化为标准二次规划问题,再应用序列极小优化算法求解二次规划问题,求得分类超平面,进而解决不平衡数据的半监督分类问题。
本发明的技术方案是这样实现的:
一种基于信息熵的模糊半监督支持向量机的分类方法,其特征在于:步骤如下:
1)数据预处理;
2)计算有标签数据模糊隶属度;
3)建立基于熵的模糊半监督支持向量机模型及其对偶模型;
根据步骤2)得到的有标签数据的模糊隶属度,提出基于信息熵的模糊半监督支持向量机模型,并进一步通过拉格朗日函数建立基于信息熵的模糊半监督支持向量机对偶模型;
4)基于序列极小优化算法优化基于信息熵的模糊半监督支持向量机对偶模型:
将基于信息熵的模糊半监督支持向量机对偶模型改写为标准的二次规划问题形式,通过序列极小优化算法优化该标准二次规划问题,得到基于信息熵的模糊半监督支持向量机对偶模型的拉格朗日乘子,从而求得基于信息熵的模糊半监督支持向量机模型的优化参数,根据优化参数即可获得分类超平面或分类决策函数;
5)对待处理数据分类基于步骤4)获得的分类超平面或分类决策函数,对待处理数据做分类,即可获得分类结果。
其中,步骤2)计算有标签数据模糊隶属度的步骤为,
2.1)先计算带有标签数据点的信息熵;
2.2)然后根据负类样本信息熵的值,将负类样本分成m个子集
Figure BDA0003563772300000041
2.3)再按照下式计算样本的模糊隶属度;
Figure BDA0003563772300000042
其中FMn=1.0-β*(n-1),n=1,2,…,m,β为模糊隶属度参数;
Figure BDA0003563772300000043
步骤2.1)计算带有标签数据点的信息熵按如下方法进行,
设有标签的数据集表示为如下集合形式,
L={xi,yi},i∈{1,2,…,l},yi=+1 or yi=-1,
其中xi为数据向量,yi为相应的标签;对于其中的每个数据向量xi,计算出与其欧氏距离最近的N个样本点,N的大小预先设定;根据xi的N个近邻样本点,按下式计算其信息熵:
Hi=-p+iln(p+i)-p-iln(p-i)
其中p+i=num+i/N,p-i=num-i/N,num+i为N个最近邻样本点中正类的个数,num-i为N个最近邻样本点中负类的个数,ln为自然对数函数。
步骤2.2)中,将负类样本分成m个子集
Figure BDA0003563772300000044
时,根据负类样本信息熵的极小值Hmin和极大值Hmax将信息熵分为间隔相等的m个区间,信息熵的m个区间按下限从小到大排序分别为第1,2,...n,...m个区间,分别对应负类样本的m个子集
Figure BDA0003563772300000045
每个负类样本信息熵落入某个信息熵区间,对应的负类样本就被分配到对应的子集Subn
相比现有技术,本发明具有如下有益效果:
1、现实实际分类问题中,很多数据是没有标签的、或者获得有标签的数据是需要高昂代价的,而且正类和负类数量上极不平衡,本发明在分类的时候对有标签的数据赋以模糊隶属度,相当于特征向量属于正类或负类的概率赋以相应的权重,处理不平衡数据的分类问题更有效。对于半监督支持向量机,提出的模型是连续光滑的优化问题,而且求解最优化问题采用的是数值计算方法,不用梯度或者随机梯度,用序列极小优化算法求解两个变量的二次规划问题,与现有技术相比,本发明具有收敛速度非常快,计算轻松容易,最终分类准确率高、效果更好等特点。
2、本发明提出基于信息熵的模糊半监督支持向量机模型,是连续的光滑优化问题,通过采用序列极小优化算法,容易求得分类超平面,并可以很好处理不平衡问题,当然就容易应用到人脸识别、语音识别、文本分类、语义解析、视频监控、蛋白质结构预测等方面。
附图说明
图1为超平面分类示意图。
图2为本发明分类流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于信息熵的模糊半监督支持向量机的机器学习方法,包括以下步骤,同时参见图2,
步骤1):数据预处理
设训练集有标签的部分为L={xi,yi},i=1,2,…,l,xi∈Rn,yi∈{1,-1},没有标签的部分为U={xj},xj∈Rn,j=l+1,l+2,…,l+k。首先去除记录重复和特征重复数据;对缺失值和异常值(离群点)采用删除样本点、替换法或插值的方法进行处理,对于样本特征数据采用归一化处理:
Figure BDA0003563772300000051
步骤2):有标签数据模糊隶属度计算
通过采用基于熵的模糊隶属度,根据数据特征属于正类或者负类的可能性赋以模糊隶属度,即对特征向量赋以分类权重,具体步骤如下:
Step2.1:计算带有标签数据点的信息熵。设有标签的数据集表示为如下集合形式,
L={xi,yi},i∈{1,2,…,l},yi=+1 or yi=-1,
其中xi为数据向量,yi为相应的标签(标签用+1或者-1表示)。对于其中的每个数据向量xi,计算出与其欧氏距离最近的N个样本点,N的大小人为设定,比如可以取为7。根据xi的N个近邻样本点,计算其信息熵,如下所示:
Hi=-p+iln(p+i)-p-iln(p-i),
其中p+i=num+i/N,p-i=num-i/N,num+i为N个最近邻样本点中正类的个数,num-i为N个最近邻样本点中负类的个数,ln为自然对数函数。
Step2.2:根据信息熵的值,将负类样本数据分成m个子集。根据负类样本信息熵的极小值Hmin和极大值Hmax将信息熵分为间隔相等的m个区间,
Figure BDA0003563772300000061
信息熵的m个区间按下限从小到大排序分别为第1,2,...n,...m个区间,分别对应负类样本的m个子集
Figure BDA0003563772300000062
每个负类样本信息熵落入某个信息熵区间,对应的负类样本就被分配到对应的子集Subn。用算法表达即为:
将负类样本信息熵的集合表示为
Figure BDA0003563772300000063
其中n-表示负类样本点的个数,并分别记Hmin、Hmax为负类样本信息熵H集合的极小值和极大值。将负类样本点按照如下算法分成m个子集
Figure BDA0003563772300000064
①对n=1:m
Figure BDA0003563772300000065
②对i=1:n-
如果thrLow≤H-i<thrUp,则负例xi被分配到某子集Subn
Step2.3:计算有标签数据的模糊隶属度。根据Step2.2,所有的负类样本都已经被归入到某个子集Subn,于是可以按照如下的方式定义样本的模糊隶属度。
Figure BDA0003563772300000066
其中FMn=1.0-β*(n-1),n=1,2,…,m,
Figure BDA0003563772300000067
至此,有标签数据模糊隶属度计算完成。
步骤3):建立基于熵的模糊半监督支持向量机模型及其对偶问题。
采用基于熵的模糊隶属度,提出了基于熵的模糊半监督支持向量机模型(EFS3VM),为了连续光滑的优化问题,通过拉格朗日函数建立基于信息熵的模糊半监督支持向量机的对偶模型,具体步骤如下:
Step3.1:提出基于熵的模糊半监督支持向量机模型(EFS3VM)。
Figure BDA0003563772300000071
Figure BDA0003563772300000072
Figure BDA0003563772300000073
Figure BDA0003563772300000074
其中ξijj为松弛变量,C1,C2>0为惩罚参数,
Figure BDA0003563772300000075
为一个将映射到高维特征空间的非线性函数,
Figure BDA0003563772300000076
就是核函数。
Step3.2:通过拉格朗日函数建立基于信息熵的模糊半监督支持向量机的对偶模型。
Figure BDA0003563772300000077
Figure BDA0003563772300000078
Figure BDA0003563772300000079
0≤αi≤C1si,i=1,2,…,l;0≤βj,γj≤C2,j=l+1,l+2,…,l+k.
其中αijj≥0为拉格朗日乘子。
此对偶模型为标准的二次规划问题,可以用最优化的二次规划算法程序求解。本发明采用序列极小优化算法求解,不用矩阵和梯度,采用数值的迭代方法训练模型参数。具有速度快,精度高等优点。
步骤4):SMO算法优化基于熵的模糊半监督支持向量机模型的对偶问题:
为了寻找非线性和不平衡数据集的最优分类超平面ω·Φ(x)+b=0,或最优分类决策函数f(x)=sign(ω·Φ(x)+b),我们应该解决EFS3VM模型相应的对偶问题。首先要根据标记实例计算模糊隶属度,然后采用序列最小优化(SMO)算法对问题进行优化。SMO算法本质上是一种启发式算法,具体步骤如下:
Step4.1:将基于信息熵的模糊半监督支持向量机的对偶模型改写为下面标准二次规划问题形式。
Figure BDA0003563772300000081
Figure BDA0003563772300000082
0≤zi≤Ui,i=1,…,l,…,l+k,…,l+2k.
其中zi=αi,i=1,2,…,l;zi=βi,i=l+1,l+2,…,l+k;zi+k=γi,i=l+1,l+2,…,l+k;yi=1,i=l+1,l+2,…,l+k;yi+k=-1,i=l+1,l+2,…,l+k,Ui=C1si,i=1,2,…,l;Ui=C2,i=l+1,…,l+k,…,l+2k,
Figure BDA0003563772300000083
Figure BDA0003563772300000084
核函数可以取成高斯核函数
Figure BDA0003563772300000085
σ为参数。
Step4.2:选取两个变量进行优化。
Figure BDA0003563772300000086
Figure BDA0003563772300000087
0≤zi≤Ui,i=1,2.
根据极小化序列优化算法:
输入:l个有标签的数据
Figure BDA0003563772300000088
k个没有标签的数据
Figure BDA0003563772300000089
xi的模糊隶属度si,及核函数K(xi,xj)。
输出:拉格朗日乘子:
Figure BDA00035637723000000810
以下为极小化序列优化算法的具体步骤:
①初始化参数z(0)=(α(0)(0)(0)),b0=0,E0=0,m=0,ε=0.00000001。
②选择变量
Figure BDA0003563772300000091
对应实例x1,x2,x1是违反KKT条件最严重的点,x2是由|E1-E2|最大所确定的,而E1,E2由公式:
E1=g(x1)-y1,E2=g(x2)-y2,η=P1,1+P2,2-2P1,2
所确定,其中KKT条件为
Figure BDA0003563772300000092
Figure BDA0003563772300000093
Figure BDA0003563772300000094
③由更新迭代公式
Figure BDA0003563772300000095
得两个变量优化问题的解为:
Figure BDA0003563772300000096
更新
Figure BDA0003563772300000097
④若KKT条件满足或者||W(z(m+1))-W(z(m+2))||<ε,转⑥;否则进入⑤;
⑤更新bi,Ei
Figure BDA0003563772300000098
Figure BDA0003563772300000099
⑥m=m+1;重复步骤②-⑥,直到达到设置的迭代次数;
⑦结束循环;
⑧输出
Figure BDA00035637723000000910
从而求得基于熵的模糊半监督支持向量机的模型优化参数:
Figure BDA0003563772300000101
Figure BDA0003563772300000102
其中S为所有支持向量的个数,进而获得决策函数:
Figure BDA0003563772300000103
Figure BDA0003563772300000104
步骤5):对待分类数据做分类
采用获得的分类超平面对待分类数据做分类,获得预测结果或分类标签。该方法也可以做回归,就是最后预测函数取为
Figure BDA0003563772300000105
其中
Figure BDA0003563772300000106
为最优解向量;K(xi,x)为核函数,序列最小优化(SMO)算法可用于解决上述问题。
下面结合具体实施例对本发明作进一步的详细说明。按上述所示流程,对KEEL数据库里面的Wisconsin数据集进行训练测试,包括以下步骤:
Step1:将数据集进行分区。将数据集随机分为训练集和测试集,因为EFS3VM的主要目的是利用不含标签的数据获得更好的分类效果,因此将随机选择的训练集和测试集都需包含有标签的数据和未标签的数据,而且保证有标签数据的每个类至少有一个代表性数据。
Step2:进行实验设置。在此具体实例中,核函数Ker(xi,xj)我们选用径向基函数(RBF)
Figure BDA0003563772300000107
参数σ选自于集合{10-3,10-2,10-1,0,10,100,1000},而分离子集m的数量设置为10,模糊隶属度参数β设置为0.05,这导致模糊隶属度0.5<si≤1.0。对于负分类模式,我们设置si>0.5,以表示负模式si更可能属于负类。此外,用于计算类概率的最近邻k的数目从{1,2,3...,8}中选择。为了衡量在不平衡数据集上的性能,采用ROC曲线下面积(AUC)的值来评估测试集有标签部分数据的分类性能。AUC的确定如下:
Figure BDA0003563772300000111
其中TPrate和FPrate是正类样本被正确分类的比例和负类样本被错误分类的比例。
Step3:进行实例计算。计算是在英特尔Core2处理器上进行的,处理器采用2.66GHz、8G RAM、Microsoft Windows10和Python 3.8环境。
(1)数据集示例:
数据 特征1 特征2 特征n 标签或label
样本x<sub>1</sub> x<sub>11</sub> x<sub>12</sub> …… x<sub>1n</sub> y<sub>1</sub>
样本x<sub>2</sub> x<sub>21</sub> x<sub>22</sub> …… x<sub>2n</sub> y<sub>2</sub>
…… …… …… …… …… ……
样本x<sub>l</sub> x<sub>l1</sub> x<sub>l2</sub> …… x<sub>ln</sub> y<sub>l</sub>
样本x<sub>l+1</sub> x<sub>l+11</sub> x<sub>l+12</sub> …… x<sub>l+1n</sub> unlabeled
…… …… …… …… …… unlabeled
样本x<sub>l+k</sub> x<sub>l+k1</sub> x<sub>l+k2</sub> …… x<sub>l+kn</sub> unlabeled
本发明实施例给出18个样本数据,以下每行为一个样本数据,每个样本数据包括9个特征和一个标签,最后一个为标签,标签为2或者4(相当于+1和-1)或者为unlabeled,unlabeled即没有标签。
5,1,1,1,2,1,2,1,1,2
8,8,9,6,6,3,10,10,1,4
3,1,1,1,2,1,1,1,1,2
4,1,1,1,2,3,2,1,1,2
9,8,8,5,6,2,4,10,4,4
1,1,1,1,2,1,3,1,1,2
8,3,8,3,4,9,8,9,8,4
10,10,8,6,4,5,8,10,1,4
6,6,7,10,3,10,8,10,2,4
1,3,1,1,2,1,2,2,1,unlabeled
3,1,1,1,2,1,2,1,1,unlabeled
4,8,7,10,4,10,7,5,1,unlabeled
9,8,8,9,6,3,4,1,1,unlabeled
8,4,4,1,6,10,2,5,2,unlabeled
3,1,1,1,2,1,1,1,1,unlabeled
3,1,1,1,2,1,3,1,1,unlabeled
6,5,5,8,4,10,3,4,1,unlabeled
5,10,10,9,6,10,7,10,5,unlabeled
(2)训练集和测试集分类准确率
Figure BDA0003563772300000121
(3)本发明通过Python编程、R语言编程容易实现,实施例子如KEEL数据库里面的Wisconsin数据集,测试分类准确率可达96%。而以前的半监督支持向量机模型S3VM的对偶问题是混合整数规划问题或者非光滑问题,不具有全局最优解,是非常难以求解的。
本发明提出的基于信息熵的模糊半监督支持向量机模型,将基于信息熵的模糊隶属度嵌入到半监督支持向量机模型中,可以很好处理数据不平衡性的问题。提出的基于信息熵的模糊半监督支持向量机模型是连续的光滑优化问题,可以通过采用序列极小优化算法,容易求得分类超平面,解决现有模型为混合整数规划和非光滑优化很难求解的问题。当然就容易应用到人脸识别、语音识别、文本分类、语义解析、视频监控、蛋白质结构预测等方面。
最后需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管申请人参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于信息熵的模糊半监督支持向量机的分类方法,其特征在于:步骤如下:
1)数据预处理;
2)计算有标签数据模糊隶属度;
3)建立基于熵的模糊半监督支持向量机模型及其对偶模型;
根据步骤2)得到的有标签数据的模糊隶属度,提出基于信息熵的模糊半监督支持向量机模型,并进一步通过拉格朗日函数建立基于信息熵的模糊半监督支持向量机对偶模型;
4)基于序列极小优化算法优化基于信息熵的模糊半监督支持向量机对偶模型:
将基于信息熵的模糊半监督支持向量机对偶模型改写为标准的二次规划问题形式,通过序列极小优化算法优化该标准二次规划问题,得到基于信息熵的模糊半监督支持向量机对偶模型的拉格朗日乘子,从而求得基于信息熵的模糊半监督支持向量机模型的优化参数,根据优化参数即可获得分类超平面或分类决策函数;
5)对待处理数据分类
基于步骤4)获得的分类超平面或分类决策函数,对待处理数据做分类,即可获得分类结果。
2.根据权利要求1所述的一种基于信息熵的模糊半监督支持向量机的分类方法,其特征在于:步骤1)所述数据预处理具体方法为,首先去除记录重复和特征重复数据;然后对缺失值和异常值采用删除样本点、替换法或插值的方法进行处理;最后对样本数据按下式归一化处理:
Figure FDA0003563772290000011
3.根据权利要求1所述的一种基于信息熵的模糊半监督支持向量机的分类方法,其特征在于:步骤2)计算有标签数据模糊隶属度的步骤为,
2.1)先计算带有标签数据点的信息熵;
2.2)然后根据负类样本信息熵的值,将负类样本分成m个子集
Figure FDA0003563772290000012
2.3)再按照下式计算样本的模糊隶属度;
Figure FDA0003563772290000013
其中FMn=1.0-β*(n-1),n=1,2,…,m,β为模糊隶属度参数;
Figure FDA0003563772290000021
4.根据权利要求3所述的一种基于信息熵的模糊半监督支持向量机的分类方法,其特征在于:步骤2.1)计算带有标签数据点的信息熵按如下方法进行,
设有标签的数据集表示为如下集合形式,
L={xi,yi},i∈{1,2,…,l},yi=+1 or yi=-1,
其中xi为数据向量,yi为相应的标签;对于其中的每个数据向量xi,计算出与其欧氏距离最近的N个样本点,N的大小预先设定;根据xi的N个近邻样本点,按下式计算其信息熵:
Hi=-p+iln(p+i)-p-iln(p-i)
其中p+i=num+i/N,p-i=num-i/N,num+i为N个最近邻样本点中正类的个数,num-i为N个最近邻样本点中负类的个数,ln为自然对数函数。
5.根据权利要求3所述的一种基于信息熵的模糊半监督支持向量机的分类方法,其特征在于:步骤2.2)中,将负类样本分成m个子集
Figure FDA0003563772290000024
时,根据负类样本信息熵的极小值Hmin和极大值Hmax将信息熵分为间隔相等的m个区间,信息熵的m个区间按下限从小到大排序分别为第1,2,...n,...m个区间,分别对应负类样本的m个子集
Figure FDA0003563772290000025
每个负类样本信息熵落入某个信息熵区间,对应的负类样本就被分配到对应的子集Subn
6.根据权利要求1所述的一种基于信息熵的模糊半监督支持向量机的分类方法,其特征在于:步骤4)中,根据优化参数获得分类超平面或分类决策函数为:
Figure FDA0003563772290000022
即:
Figure FDA0003563772290000023
7.根据权利要求1所述的一种基于信息熵的模糊半监督支持向量机的分类方法,其特征在于:步骤3)中所述基于信息熵的模糊半监督支持向量机模型如下:
Figure FDA0003563772290000031
Figure FDA0003563772290000032
Figure FDA0003563772290000033
Figure FDA0003563772290000034
通过拉格朗日函数建立的基于信息熵的模糊半监督支持向量机的对偶模型如下:
Figure FDA0003563772290000035
Figure FDA0003563772290000036
Figure FDA0003563772290000037
0≤αi≤C1si,i=1,2,…,l;0≤βj,γj≤C2,j=l+1,l+2,…,l+k.。
CN202210303445.1A 2022-03-24 2022-03-24 一种基于信息熵的模糊半监督支持向量机的分类方法 Pending CN114692746A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210303445.1A CN114692746A (zh) 2022-03-24 2022-03-24 一种基于信息熵的模糊半监督支持向量机的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210303445.1A CN114692746A (zh) 2022-03-24 2022-03-24 一种基于信息熵的模糊半监督支持向量机的分类方法

Publications (1)

Publication Number Publication Date
CN114692746A true CN114692746A (zh) 2022-07-01

Family

ID=82138381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210303445.1A Pending CN114692746A (zh) 2022-03-24 2022-03-24 一种基于信息熵的模糊半监督支持向量机的分类方法

Country Status (1)

Country Link
CN (1) CN114692746A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115296933A (zh) * 2022-10-08 2022-11-04 国家工业信息安全发展研究中心 一种工业生产数据风险等级评估方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115296933A (zh) * 2022-10-08 2022-11-04 国家工业信息安全发展研究中心 一种工业生产数据风险等级评估方法及系统

Similar Documents

Publication Publication Date Title
CN111191732B (zh) 一种基于全自动学习的目标检测方法
Bilen et al. Weakly supervised object detection with convex clustering
Azadi et al. Auxiliary image regularization for deep cnns with noisy labels
CN110110080A (zh) 文本分类模型训练方法、装置、计算机设备及存储介质
CN110197286B (zh) 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法
CN109948149B (zh) 一种文本分类方法及装置
CN111539444B (zh) 一种修正式模式识别及统计建模的高斯混合模型方法
CN109063743B (zh) 基于半监督多任务学习的医疗数据分类模型的构建方法
CN111008224B (zh) 一种基于深度多任务表示学习的时间序列分类和检索方法
CN110555459A (zh) 基于模糊聚类和支持向量回归的成绩预测方法
CN110263804B (zh) 一种基于安全半监督聚类的医学影像分割方法
CN116503676B (zh) 一种基于知识蒸馏小样本增量学习的图片分类方法及系统
CN115587207A (zh) 一种基于分类标签的深度哈希检索方法
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
CN112214570A (zh) 一种基于对抗投影学习哈希的跨模态检索方法及装置
Al Zorgani et al. Comparative study of image classification using machine learning algorithms
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
CN114692746A (zh) 一种基于信息熵的模糊半监督支持向量机的分类方法
Delima An enhanced K-nearest neighbor predictive model through metaheuristic optimization
CN117093849A (zh) 一种基于自动生成模型的数字矩阵特征分析方法
Passalis et al. Deep temporal logistic bag-of-features for forecasting high frequency limit order book time series
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN115063374A (zh) 模型训练、人脸图像质量评分方法、电子设备及存储介质
CN112487231B (zh) 一种基于双图正则化约束和字典学习的图像自动标注方法
You et al. Max-affine spline insights into deep network pruning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination