CN107368611A - 一种短文本分类方法 - Google Patents

一种短文本分类方法 Download PDF

Info

Publication number
CN107368611A
CN107368611A CN201710686945.7A CN201710686945A CN107368611A CN 107368611 A CN107368611 A CN 107368611A CN 201710686945 A CN201710686945 A CN 201710686945A CN 107368611 A CN107368611 A CN 107368611A
Authority
CN
China
Prior art keywords
msub
mrow
msubsup
alpha
mtr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710686945.7A
Other languages
English (en)
Other versions
CN107368611B (zh
Inventor
康琦
张量
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201710686945.7A priority Critical patent/CN107368611B/zh
Publication of CN107368611A publication Critical patent/CN107368611A/zh
Application granted granted Critical
Publication of CN107368611B publication Critical patent/CN107368611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种短文本分类方法,该短文本分类方法在超平面分割两类样本后,计算每个多类样本与超平面间的几何间距,根据几何间距划分多个子域,每个子域区间被赋予不同的权重,与超平面距离越远的子域,权重越小,在欠采样阶段,根据权重对数据进行欠采样,此时,得到的采样后样本再导入SVM算法中进行分类。故,该短文本分类方法能有效地解决文本分类中的高维度稀疏性和类别不平衡的问题。

Description

一种短文本分类方法
技术领域
本发明涉及一种短文本分类方法,属于机器学习和数据挖掘领域。
背景技术
近年来,大数据与人工智能技术迅猛发展,语音图像识别、自然语言处理和知识图谱等已成为热点研究领域。文本分类(Text Categorization)是机器学习和数据挖掘领域中最为典型的问题,拥有了众多分类算法,如朴素贝叶斯算法K近邻算法(K-NN),神经网络算法和支持向量机(Support VectorMachine,SVM)等。SVM是一种基于统计学习理论的具有较强泛化能力的代表性分类方法,其以结构风险最小化为目标,通过核函数的引入来克服维数灾难的问题,成为文本分类问题的经典候选方法。然而,现实应用场景中,文本数据集存在明显的类分布不平衡问题,特别是短文本天然的高维度稀疏特性,对现有分类算法带来了挑战。
基于上述原因,有必要提供一种能够处理文本分类中的高维度稀疏性和类别不平衡的算法。
发明内容
本发明的目的在于提供一种组合类降维算法和加权欠采样SVM算法相结合的方式来处理文本分类中的高维度稀疏性和类别不平衡的问题。
为达到上述目的,本发明提供如下技术方案:一种短文本分类方法,包括以下步骤:
S1、设置子域的数目,并初始化训练数据集,使用组合类降维算法为所述训练数据集中的每个样本分配所述子域,并对每个所述子域赋予权重,然后根据所述权重得到排序后的样本向量,再根据所述样本向量进行欠采样,得到重采样数据集;
S2、使用加权欠采样SVM算法对所述重采样数据集进行分类器训练,得到最优分类器参数,输出分类模型。
进一步地:步骤S1具体步骤如下:
S11、设置m个子域,m≥2,并初始化训练数据集X:{x1,x2,…,xn};
S12、得到分割所述训练数据集X:{x1,x2,…,xn}中两类样本的超平面wTx+b=0,计算每个所述样本到所述超平面wTx+b=0的几何间距dj,j∈(1,n);
S13、取所述几何间距dj的最大值dM和最小值dm,并取每个所述子域的长为:γ=(dM-dm)/m;
S14、根据所述几何间距dj、几何间距的最小值dm以及子域的长γ,确定每个所述样本所在的子域,并赋予每个所述子域相应的权重;
S15、根据每个所述权重将所述子域排序并得到排序后的样本向量,再根据每个所述权重和样本向量进行欠采样,得到重采样数据集X’:{x1’,x2’,…,xn’}。
进一步地:步骤S14具体为:通过公式a=(dj-dm)/γ,确定每个所述样本在第a个子域中,并赋予每个所述子域相应的权重Wj=1-a/m,j∈(1,m)。
进一步地:步骤S15中,所述子域排序后为V1:{N1,N2,…,Nm},其中Nj为第j个子域中的样本数,j∈(1,m);每个所述子域的权重为V2:{W1:1,W2:1-1/m,…,Wm-1:1-(m-1)/m,Wm:0};根据所述V1和V2,通过V1·V2得到所述重采样数据集X’:{x1’,x2’,…,xs’}。
进一步地:步骤S2具体步骤如下:
S21、设置相应参数、临时变量α*和训练数据集X:{x1,x2,…,xn},所述相应参数包括惩罚参数C,松弛变流量ξi,核函数参数σ2,迭代停止阈值ε,最大迭代次数IM和迭代次数k=0;
S22、根据所述重采样数据集X’:{x1’,x2’,…,xs’},初始化临时变量x1=x1’,x2=x2’,i,j∈(1,s),以存储每轮迭代的两个样本,并初始化alpha解的集合α(0)={a1 (0),a2 (0),…,as (0)}=0,并设置临时变量α*存储最优alpha解;
S23、使用SMO算法求出最优alpha解,并设定所述临时变量α*存储所述最优alpha解;
S24、根据步骤S23中所述临时变量α*存储的最优alpha解,得出最优分类器参数w和b,并输出所述分类模型。
进一步地:所述alpha解集合α(0)={a1 (0),a2 (0),…,as (0)}=0根据以下方程组确定:
进一步地:步骤S23具体步骤如下:
S231、根据步骤S22中所述临时变量x1和x2,通过所述alpha解集合α(0)={a1 (0),a2 (0),…,as (0)}=0得到alpha解αi (k)和αj (k),并保持其他α(k)为固定值,再根据以下方程组求出所述超平面wTx+b=0中的w和b
S232、根据步骤S22中所述临时变量x1和x2,通过误差公式得到每个样本的训练误差E1和E2
S233、根据所述训练误差E1、E2以及所述迭代停止阈值ε,得出所述最优alpha解,设定所述临时变量α*存储所述最优alpha解。
进一步地:使用所述SMO算法求出所述最优alpha解存在以下约束条件:
进一步地:步骤S232中,所述误差公式为E=(w·x+b)-y。
进一步地:步骤S233中,所述最优alpha解根据以下方式得出:
如果|E1-E2|<ε,则α*=α(k);否则,如果E1<E2,则保存x1,取与xj’距离最远的点xp’,并设定x2=xp’,α*=α(k),如果E1≥E2,则保存x2,取与xi’距离最远的点xp’,并设定x1=xp’,α*=α(k)
本发明的有益效果在于:本发明的一种短文本分类方法在超平面分割两类样本后,计算每个多类样本与超平面间的几何间距,根据几何间距划分多个子域,每个子域区间被赋予不同的权重,与超平面距离越远的子域,权重越小,在欠采样阶段,根据权重对数据进行欠采样,此时,得到的采样后样本再导入SVM算法中进行分类。故,该短文本分类方法能有效地解决文本分类中的高维度稀疏性和类别不平衡的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1为本发明一实施例所示的短文本分类方法中组合类降维算法的流程图;
图2为本发明一实施例所示的短文本分类方法中加权欠采样SVM算法的流程图;
图3至图7为本发明一实施例所示的组合类降维算法的仿真实验数据图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明的一种短文本分类方法提供一种组合类降维算法和加权欠采样SVM算法相结合的方式来处理文本分类中的高维度稀疏性和类别不平衡的问题,该分类方法通过采用组合类降维算法在超平面分割两类样本后,计算每个多类样本与超平面间的几何间距,根据几何间距划分多个子域,每个子域区间被赋予不同的权重,与超平面距离越远的子域,权重越小,在欠采样阶段,根据权重对数据进行欠采样,此时,然后将得到的采样后样本再导入SVM算法中进行分类,以得到最优分类器参数,输出分类模型。
请参见图1,本发明一实施例所示的短文本分类方法中组合类降维算法具体包括以下步骤:
S1、设置子域数m=15,初始化训练数据集X:{x1,x2,…,xn};
S2、得到分割所述训练数据集X:{x1,x2,…,xn}中两类样本的超平面wTx+b=0,计算每个所述样本xj到所述超平面wTx+b=0的几何间距dj,j∈(1,n);
S3、在所有多类样本中,取所述几何间距dj的最大值dM和最小值dm,并取每个所述子域的长为:γ=(dM-dm)/m。对于每个所述多类样本,根据a=(dj-dm)/γ,确定每个所述样本在第a个子域中,并赋予每个所述子域相应的权重Wj=1-a/m,j∈(1,m);
S4、根据每个所述权重将所述多类样本排序,得到向量v1:
v1:{N1,N2,…,Nm},其中Nj为第j个子域中的样本数,j∈(1,m),
且有每个所述子域的权重:
V2:{W1:1,W2:1-1/m,…,Wm-1:1-(m-1)/m,Wm:0};
S5、由v1·v2得到重采样数据集X’:{x1’,x2’,…,xn’}。
请参见图2,本发明一实施例所示的短文本分类方法中加权欠采样SVM算法具体包括以下步骤:
S1’、设置惩罚参数C=0.1,松弛变量ξi=10,核函数参数=1/n_features,迭代停止阈值ε=1e-3,最大迭代次数IM=2000,迭代次数k=0;输入训练数据集X:{x1,x2,…,xn};
S2’、根据组合类降维算法所得到的重采样数据集X’:{x1’,x2’,…,xs’},初始化临时变量x1=x1’,x2=x2’,i,j∈(1,s),以存储每轮迭代的两个样本,再根据方程组
初始化alpha解的集合α(0)={a1 (0),a2 (0),…,as (0)}=0,并设置临时变量α*以存储最优alpha解;
S3’、当迭代次数k<最大迭代次数IM时,根据步骤S2’中所述临时变量x1和x2,通过所述alpha解集合α(0)={a1 (0),a2 (0),…,as (0)}=0得到alpha解αi (k)和αj (k),保持其他α(k)为固定值,并设定所述临时变量α*存储所述最优alpha解,再根据以下方程组求出所述超平面wTx+b=0中的w和b
S4’、根据步骤S2’中所述临时变量x1和x2,通过公式E=(w·x+b)-y计算得到个样本的训练误差E1和E2,根据所述训练误差E1、E2以及所述迭代停止阈值ε进行如下算法判断:
如果|E1-E2|<ε:
α*=α(k)
循环结束
否则如果E1<E2:
保存x1,取与xj’距离最远的点xp’,x2=xp
α*=α(k)
否则如果E1≥E2:
保存x2,取与xi’距离最远的点xp’,x1=xp
α*=α(k)
k=k+1
以得出最优alpha解α*=α(k)
S5’、根据步骤S5’中临时变量α*所存储的最优alpha解,通过公式
求得最优分类器参数w和b,并输出所述分类模型。
在本实施例中,使用SMO算法(Sequential Minimal Optimization,序列最小优化)求出所述最优alpha解时,存在以下约束条件:
诚然,在其他实施例中,该约束条件还可以为其他不同方式的约束条件。同时,本实施例中,设置的惩罚参数C=0.1,松弛变量ξi=10,核函数参数=1/n_features,迭代停止阈值ε=1e-3以及最大迭代次数IM=2000在其他实施例中,还可设置成不同参数,其根据具体需要设置。
下面结合具体的实验数据来对本发明所示的短文本分类方法进行进步一详细说明。
针对文本的高纬度稀疏性问题,本发明所示的组合类降维算法是将PCA(Principal Component Analysis,主成分分析)、SVD(Sigular Value Decomposition,奇异值分解)和CHI(Chi-square test,卡方检测)三种经典降维算法引入SVM,通过仿真实验比较了各算法的性能,考虑到各特征降维算法适用不同数据集,并通过优化SVM核函数来解决数据的高纬度稀疏性问题,提出了基于PCA、SVD和CHI估计结合的P+S+C-SVM算法。在本实施例的仿真实验中,采用表格1所示的具有高纬度稀疏性特征的五个UCI(University ofCaliforniaIrvine,加州大学欧文分校)标准数据集。
数据集 样本数量 维度(特征数) |SM|/|Sm| 不平衡比例
IA 3279 1558 2821/458 6.1
Dexter 2600 20000 10053/9947 1.0
Gisette 13500 5000 2500/2500 1.0
micromass 931 1300 718/213 3.4
P53 16772 5409 9523/7249 1.3
表格1
表格1中,|Sm|和|SM|分别表示两类样本的数量,并选用AUC(Area Under ROCCurve,ROC曲线下方面积)作为评价标准。
请参见图3至图7,本发明所示的组合类降维算法仿真实验将结合与SVM算法的PCA、SVD、CHI、PCA+SVD+CHI以及空白对照五种形式的特征处理方法分别进行仿真,得出基于五种数据集的仿真结果,每组仿真50次。
通过实验结果可以得出结论,对于高维度稀疏性问题,P+S+C-SVM方法明显优于其他几种比较算法,其次是S-SVM,效果仅次于组合算法,P-SVM和C-SVM则效果稍差。
同时,上述几种降维算法所对应的时间复杂度如表格2所示。
数据集 P-SVM S-SVM C-SVM P+S+C-SVM
IA 3.453 4.419 4.551 6.693
Dexter 1.123 1.903 2.001 3.444
Gisette 1.783 3.920 4.913 5.555
Micromass 3.902 4.440 4.981 5.902
P53 1.113 1.893 3.289 4.555
表格2
结果表明,P+S+C-SVM算法花费时间较长,单个算法中,P-SVM算法时间复杂度较小,C-SVM较大。
针对类别不平衡问题,本发明提出基于距离的加权欠采样SVM算法,简称为WU-SVM算法。以UCI的21组二分类数据集进行仿真实验,分别与基本SVM、SMO、U-SVM(Undersampling SVM,随机欠采样SVM)、SMOTE(Synthetic Minority OversamplingTechnique,合成少数类过采样技术)以及EasyEnsemble(多类类别不平衡学习算法)、ESOS-ELM(Ensemble of Subset Online Sequential Extreme Learning Machine,改进型极限学习机)算法进行系统性比较和分析,验证WU-SVM算法在类不平衡数据分类问题中具有最好的性能。在本实施例的仿真实验中,采用表格3所示的UCI不平衡样本数据。
数据集 样本数量 维度(特征数) Target |SM|/|Sm| Ratio
pima 768 8 class 1 500/268 1.9
haberman 306 3 class 2 225/81 2.8
cmc 1473 9 class 2 1140/333 3.4
yeast 1484 8 NUC 1321/146 8.1
zernike 2000 47 class 10 1800/200 9
satimage 6435 36 class 4 5809/626 9.3
balance 625 4 balance 576/49 11.8
letter 20000 16 A 19211/789 16
wilt 4839 5 class=w 4578/261 17.5
housing 49082 14 MEDV 41637/7445 5.6
Ionosphere 351 34 None 326/25 13
Wdbc 569 23 M 503/66 7.6
Wpbc 895 12 F 774/121 6.4
Morph 2000 6 None 1564/436 3.6
wine-white 4898 11 quality=3 4723/10 472.3
wine-red 1599 11 quality=3 1546/20 77.3
pageblock1 5473 10 picture 5358/115 46.6
pageblock2 5473 10 vertline 5385/88 61.2
poker 2075 10 5 2050/25 82
creditcard1 23364 22 age<=60 23121/243 95.1
creditcard2 6636 22 age<=62 6584/52 126.6
表格3
表格3中,Target表示少数类样本类别;|Sm|和|SM|分别表示少数类样本和多数类样本的数量,Ratio为不平衡比例。
在本实施例中,所设置的参数如表格4所示。
参数名 参数含义 参数值/参数计算式
C 惩罚参数 0.1
ξi 松弛变量 10
gamma Rbf核函数参数 1/n_features
IM 最大迭代次数 2000
m 初始化子域数 15
Err 停止训练时误差阈值 1e-3
表格4
本仿真实验先用SVM,SMO,U-SVM算法作为比较算法,进行50次仿真运行,结果去均值和方差,实验结果表格5所示。
表格5
其次再将SMOTE算法,EasyEnsemble和ESOS-ELM作为比较算法,通过50次仿真运算,结果以均值和方差的形式在表格6中表示。
表格6
由于WU算法的预处理过程中,遍历多类样本,计算几何间距的过程能够中耗费了O(n)的时间复杂度,所以在仿真运算时,WU-SVM的时间复杂度和SMO算法相当。时间复杂度从大到小依次为:U-SVM,EasyEnsemble,SMOTE,SVM,WU-SVM,ESOS-ELM,SMO,如表格7所示。
Dataset SVM U-SVM SMO SMOTE EasyEnsemble ESOS-ELM WU-SVM
haberman 2.094 3.399 2.452 1.843 2.963 2.193 2.043
housing 3.503 3.083 1.333 3.294 1.828 1.112 1.054
cmc 1.583 3.208 1.652 2.083 1.999 2.542 2.001
ionosphere 3.602 5.084 3.004 2.532 4.284 2.154 2.003
wdbc 2.673 7.984 2.342 3.553 3.432 2.472 2.043
wpbc 4.403 3.094 1.422 3.468 3.209 1.555 1.834
letter 2.474 4.048 1.624 4.564 2.974 1.033 2.012
zernike 5.404 4.390 1.152 3.833 3.923 2.443 2.281
morph 3.094 5.649 4.225 3.224 3.872 3.332 2.983
balance 1.313 4.390 3.256 1.632 2.984 1.148 1.573
pima 4.843 3.094 1.222 1.302 3.972 1.382 1.832
satimage 3.403 4.390 3.324 1.383 3.082 2.483 2.425
Yeast 2.737 3.443 2.937 1.896 2.344 1.833 1.771
Wilt 3.472 3.637 2.828 2.743 2.743 1.782 2.333
Wine-white 2.888 2.935 2.334 2.123 2.677 2.193 2.001
Wine-red 3.414 3.973 3.776 3.916 3.712 3.291 3.023
Pageblock1 1.776 1.828 1.926 1.274 1.111 2.381 1.033
Pageblock2 1.943 1.888 1.334 1.728 1.482 2.812 1.333
Poker 2.737 2.838 2.617 2.889 2.178 2.183 2.011
Creditcard1 3.121 3.474 3.092 2.887 2.388 2.831 2.103
Creditcard2 2.843 2.993 2.783 2.178 2.389 3.291 2.301
表格7
综上所述:本发明的一种短文本分类方法提供一种组合类降维算法和加权欠采样SVM算法相结合的方式来处理文本分类中的高维度稀疏性和类别不平衡的问题,该分类方法通过采用组合类降维算法在超平面分割两类样本后,计算每个多类样本与超平面间的几何间距,根据几何间距划分多个子域,每个子域区间被赋予不同的权重,与超平面距离越远的子域,权重越小,在欠采样阶段,根据权重对数据进行欠采样,此时,然后将得到的采样后样本再导入SVM算法中进行分类,以得到最优分类器参数,输出分类模型。故,该短文本分类方法能有效地解决文本分类中的高维度稀疏性和类别不平衡的问题。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种短文本分类方法,其特征在于:包括以下步骤:
S1、设置子域的数目,并初始化训练数据集,使用组合类降维算法为所述训练数据集中的每个样本分配所述子域,并对每个所述子域赋予权重,然后根据所述权重得到排序后的样本向量,再根据所述样本向量进行欠采样,得到重采样数据集;
S2、使用加权欠采样SVM算法对所述重采样数据集进行分类器训练,得到最优分类器参数,输出分类模型。
2.如权利要求1所述的短文本分类方法,其特征在于,步骤S1具体步骤如下:
S11、设置m个子域,m≥2,并初始化训练数据集X:{x1,x2,…,xn};
S12、得到分割所述训练数据集X:{x1,x2,…,xn}中两类样本的超平面wTx+b=0,计算每个所述样本到所述超平面wTx+b=0的几何间距dj,j∈(1,n);
S13、取所述几何间距dj的最大值dM和最小值dm,并取每个所述子域的长为:γ=(dM-dm)/m;
S14、根据所述几何间距dj、几何间距的最小值dm以及子域的长γ,确定每个所述样本所在的子域,并赋予每个所述子域相应的权重;
S15、根据每个所述权重将所述子域排序并得到排序后的样本向量,再根据每个所述权重和样本向量进行欠采样,得到重采样数据集X’:{x1’,x2’,…,xn’}。
3.如权利要求2所述的短文本分类方法,其特征在于,步骤S14具体为:通过公式a=(dj-dm)/γ,确定每个所述样本在第a个子域中,并赋予每个所述子域相应的权重Wj=1-a/m,j∈(1,m)。
4.如权利要求2所述的短文本分类方法,其特征在于,步骤S15中,所述子域排序后为V1:{N1,N2,…,Nm},其中Nj为第j个子域中的样本数,j∈(1,m);每个所述子域的权重为V2:{W1:1,W2:1-1/m,…,Wm-1:1-(m-1)/m,Wm:0};根据所述V1和V2,通过V1·V2得到所述重采样数据集X’:{x1’,x2’,…,xs’}。
5.如权利要求1所述的短文本分类方法,其特征在于,步骤S2具体步骤如下:
S21、设置相应参数、临时变量α*和训练数据集X:{x1,x2,…,xn},所述相应参数包括惩罚参数C,松弛变流量ξi,核函数参数σ2,迭代停止阈值ε,最大迭代次数IM和迭代次数k=0;
S22、根据所述重采样数据集X’:{x1’,x2’,…,xs’},初始化临时变量x1=x1’,x2=x2’,i,j∈(1,s),以存储每轮迭代的两个样本,初始化alpha解的集合α(0)={a1 (0),a2 (0),…,as (0)}=0,并设置临时变量α*存储最优alpha解;
S23、使用SMO算法求出最优alpha解,并设定所述临时变量α*存储所述最优alpha解;
S24、根据步骤S23中所述临时变量α*存储的最优alpha解,得出最优分类器参数w和b,并输出所述分类模型。
6.如权利要求5所述的短文本分类方法,其特征在于,所述alpha解集合α(0)={a1 (0),a2 (0),…,as (0)}=0根据以下方程组确定:
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mo>&amp;dtri;</mo> <mi>w</mi> </msub> <mi>L</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>b</mi> <mo>,</mo> <mi>&amp;alpha;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>w</mi> <mo>-</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mo>&amp;dtri;</mo> <mi>b</mi> </msub> <mi>L</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>b</mi> <mo>,</mo> <mi>&amp;alpha;</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>.</mo> </mrow>
7.如权利要求5所述的短文本分类方法,其特征在于,步骤S23具体步骤如下:
S231、根据步骤S22中所述临时变量x1和x2,通过所述alpha解集合α(0)={a1 (0),a2 (0),…,as (0)}=0得到alpha解αi (k)和αj (k),并保持其他α(k)为固定值,再根据以下方程组求出所述超平面wTx+b=0中的w和b
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <msub> <mo>&amp;dtri;</mo> <mi>w</mi> </msub> <mi>L</mi> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>b</mi> <mo>,</mo> <mi>&amp;alpha;</mi> <mo>)</mo> <mo>=</mo> <mi>w</mi> <mo>-</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </msubsup> <msubsup> <mi>&amp;alpha;</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <msup> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>&amp;prime;</mo> </msup> <msup> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&amp;prime;</mo> </msup> <mo>=</mo> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <msub> <mo>&amp;dtri;</mo> <mi>b</mi> </msub> <mi>L</mi> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>b</mi> <mo>,</mo> <mi>&amp;alpha;</mi> <mo>)</mo> <mo>=</mo> <mo>-</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </msubsup> <msubsup> <mi>&amp;alpha;</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <msup> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>&amp;prime;</mo> </msup> <mo>=</mo> <mn>0</mn> </mtd> </mtr> </mtable> </mfenced> <mo>&amp;DoubleRightArrow;</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mi>w</mi> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </msubsup> <msubsup> <mi>&amp;alpha;</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <msup> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>&amp;prime;</mo> </msup> <msup> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&amp;prime;</mo> </msup> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>b</mi> <mo>=</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mo>&amp;prime;</mo> </msubsup> <mo>-</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </msubsup> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </msubsup> <msubsup> <mi>&amp;alpha;</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <msup> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>&amp;prime;</mo> </msup> <mrow> <mo>(</mo> <msup> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&amp;prime;</mo> </msup> <mo>&amp;CenterDot;</mo> <msup> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>&amp;prime;</mo> </msup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>
S232、根据步骤S22中所述临时变量x1和x2,通过误差公式得到每个样本的训练误差E1和E2
S233、根据所述训练误差E1、E2以及所述迭代停止阈值ε,得出所述最优alpha解,设定所述临时变量α*存储所述最优alpha解。
8.如权利要求5或7所述的短文本分类方法,其特征在于,使用所述SMO算法求出所述最优alpha解存在以下约束条件:
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <msub> <mo>&amp;dtri;</mo> <mi>w</mi> </msub> <mi>L</mi> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>b</mi> <mo>,</mo> <mi>&amp;alpha;</mi> <mo>)</mo> <mo>=</mo> <mi>w</mi> <mo>-</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <msub> <mo>&amp;dtri;</mo> <mi>b</mi> </msub> <mi>L</mi> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>b</mi> <mo>,</mo> <mi>&amp;alpha;</mi> <mo>)</mo> <mo>=</mo> <mo>-</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>(</mo> <mi>w</mi> <mo>&amp;CenterDot;</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>+</mo> <mi>b</mi> <mo>)</mo> <mo>-</mo> <mn>1</mn> <mo>+</mo> <msub> <mi>&amp;xi;</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>=</mo> <mn>0</mn> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> </mtd> </mtr> <mtr> <mtd> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>(</mo> <mi>w</mi> <mo>&amp;CenterDot;</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>+</mo> <mi>b</mi> <mo>)</mo> <mo>-</mo> <mn>1</mn> <mo>+</mo> <mi>n</mi> <msub> <mi>&amp;xi;</mi> <mi>i</mi> </msub> <mo>&amp;GreaterEqual;</mo> <mn>0</mn> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> </mtd> </mtr> <mtr> <mtd> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <mo>&amp;GreaterEqual;</mo> <mn>0</mn> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> </mtd> </mtr> </mtable> </mfenced> <mo>.</mo> </mrow>
9.如权利要求7所述的短文本分类方法,其特征在于,步骤S232中,所述误差公式为E=(w·x+b)-y。
10.如权利要求7所述的短文本分类方法,其特征在于,步骤S233中,所述最优alpha解根据以下方式得出:
如果|E1-E2|<ε,则α*=α(k);否则,如果E1<E2,则保存x1,取与xj’距离最远的点xp’,并设定x2=xp’,α*=α(k),如果E1≥E2,则保存x2,取与xi’距离最远的点xp’,并设定x1=xp’,α*=α(k)
CN201710686945.7A 2017-08-11 2017-08-11 一种短文本分类方法 Active CN107368611B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710686945.7A CN107368611B (zh) 2017-08-11 2017-08-11 一种短文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710686945.7A CN107368611B (zh) 2017-08-11 2017-08-11 一种短文本分类方法

Publications (2)

Publication Number Publication Date
CN107368611A true CN107368611A (zh) 2017-11-21
CN107368611B CN107368611B (zh) 2018-06-26

Family

ID=60310144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710686945.7A Active CN107368611B (zh) 2017-08-11 2017-08-11 一种短文本分类方法

Country Status (1)

Country Link
CN (1) CN107368611B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582706A (zh) * 2018-11-14 2019-04-05 重庆邮电大学 基于Spark大数据平台的邻域密度不平衡数据混合采样方法
CN109635839A (zh) * 2018-11-12 2019-04-16 国家电网有限公司 一种基于机器学习的非平衡数据集的处理方法和装置
CN110209758A (zh) * 2019-04-18 2019-09-06 同济大学 一种基于张量分解的文本增量降维方法
CN111159404A (zh) * 2019-12-27 2020-05-15 海尔优家智能科技(北京)有限公司 文本的分类方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1310825A (zh) * 1998-06-23 2001-08-29 微软公司 用于分类文本以及构造文本分类器的方法和装置
CN101876987A (zh) * 2009-12-04 2010-11-03 中国人民解放军信息工程大学 一种面向类间交叠的两类文本分类方法
CN102298646A (zh) * 2011-09-21 2011-12-28 苏州大学 一种主观文本和客观文本分类方法及装置
CN102591988A (zh) * 2012-01-16 2012-07-18 宋胜利 基于语义图的短文本分类方法
CN103345525A (zh) * 2013-07-22 2013-10-09 苏州大学 文本分类方法、装置及处理器
CN104391835A (zh) * 2014-09-30 2015-03-04 中南大学 文本中特征词选择方法及装置
CN104978354A (zh) * 2014-04-10 2015-10-14 中电长城网际系统应用有限公司 文本分类方法和装置
CN105205124A (zh) * 2015-09-11 2015-12-30 合肥工业大学 一种基于随机特征子空间的半监督文本情感分类方法
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1310825A (zh) * 1998-06-23 2001-08-29 微软公司 用于分类文本以及构造文本分类器的方法和装置
CN101876987A (zh) * 2009-12-04 2010-11-03 中国人民解放军信息工程大学 一种面向类间交叠的两类文本分类方法
CN102298646A (zh) * 2011-09-21 2011-12-28 苏州大学 一种主观文本和客观文本分类方法及装置
CN102591988A (zh) * 2012-01-16 2012-07-18 宋胜利 基于语义图的短文本分类方法
CN103345525A (zh) * 2013-07-22 2013-10-09 苏州大学 文本分类方法、装置及处理器
CN104978354A (zh) * 2014-04-10 2015-10-14 中电长城网际系统应用有限公司 文本分类方法和装置
CN104391835A (zh) * 2014-09-30 2015-03-04 中南大学 文本中特征词选择方法及装置
CN105205124A (zh) * 2015-09-11 2015-12-30 合肥工业大学 一种基于随机特征子空间的半监督文本情感分类方法
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A.BASU ETC,: ""Support Vector Machines for Text Categorization"", 《PROCEEDINGS OF THE 36TH HAWAII INTERNATIONAL CONFERENCE ON SYSTEM SCIENCE》 *
戎桐文: ""基于位置子空间重采样的多分类器不平衡分类算法"", 《中国优秀硕士学位论文全文数据库》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635839A (zh) * 2018-11-12 2019-04-16 国家电网有限公司 一种基于机器学习的非平衡数据集的处理方法和装置
CN109582706A (zh) * 2018-11-14 2019-04-05 重庆邮电大学 基于Spark大数据平台的邻域密度不平衡数据混合采样方法
CN110209758A (zh) * 2019-04-18 2019-09-06 同济大学 一种基于张量分解的文本增量降维方法
CN110209758B (zh) * 2019-04-18 2021-09-03 同济大学 一种基于张量分解的文本增量降维方法
CN111159404A (zh) * 2019-12-27 2020-05-15 海尔优家智能科技(北京)有限公司 文本的分类方法及装置
CN111159404B (zh) * 2019-12-27 2023-09-19 海尔优家智能科技(北京)有限公司 文本的分类方法及装置

Also Published As

Publication number Publication date
CN107368611B (zh) 2018-06-26

Similar Documents

Publication Publication Date Title
CN107368611B (zh) 一种短文本分类方法
CN106326984A (zh) 用户意图识别方法和装置、自动应答系统
CN107563410A (zh) 基于局部类别一致聚类和多任务学习的分类方法及设备
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN102521656A (zh) 非平衡样本分类的集成迁移学习方法
EP3879786A1 (en) Scheduling method for request task and scheduling center server
CN103605711B (zh) 支持向量机分类器的构造方法及装置、分类方法及装置
CN105975611A (zh) 自适应组合降采样增强学习机
CN116467443A (zh) 基于主题识别的网络舆情文本分类方法
CN108364030B (zh) 一种基于三层动态粒子群算法的多分类器模型构建方法
Li et al. Research on the application of Naive Bayes and Support Vector Machine algorithm on exercises Classification
Wang et al. Stochastic subgradient descent method for large-scale robust chance-constrained support vector machines
Chen et al. Extreme semi-supervised learning for multiclass classification
CN109034200A (zh) 一种基于联合稀疏表示和多视图字典学习的学习方法
Ciarelli et al. An evolving system based on probabilistic neural network
Bai et al. Conic relaxations for semi-supervised support vector machines
Cowan Topics in statistical data analysis for high-energy physics
CN110427959A (zh) 投诉文本的分类方法、系统和存储介质
Cao et al. Adaptable focal loss for imbalanced text classification
Nakashima et al. Incremental learning of fuzzy rule-based classifiers for large data sets
Gulnashin et al. A new deterministic method of initializing spherical K-means for document clustering
Lu et al. A study on mobile customer churn based on learning from soft label proportions
Laureano et al. Affinity propagation SMOTE approach for imbalanced dataset used in predicting student at risk of low performance
Toutouh et al. Semi-Supervised Learning with Coevolutionary Generative Adversarial Networks
Gao et al. A classification tree method based on belief entropy for evidential data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant