CN104750857A - 自适应向量投影的非线性支持向量选取方法 - Google Patents

自适应向量投影的非线性支持向量选取方法 Download PDF

Info

Publication number
CN104750857A
CN104750857A CN201510180702.7A CN201510180702A CN104750857A CN 104750857 A CN104750857 A CN 104750857A CN 201510180702 A CN201510180702 A CN 201510180702A CN 104750857 A CN104750857 A CN 104750857A
Authority
CN
China
Prior art keywords
sample
sigma
linear
vector
support vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510180702.7A
Other languages
English (en)
Inventor
郭亚琴
秦燕
王青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong Institute of Technology
Original Assignee
Nantong Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong Institute of Technology filed Critical Nantong Institute of Technology
Priority to CN201510180702.7A priority Critical patent/CN104750857A/zh
Publication of CN104750857A publication Critical patent/CN104750857A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了自适应向量投影的非线性支持向量选取方法,方法用于非线性数据的文本分类,包括以下步骤:(1)将原始样本映射到高维空间转化为线性样本;(2)计算线性样本的中心距离;(3)将线性样本投影到线性样本的中心向量后,在一维空间内选取具有原始特征的边界样本;(4)利用支持向量机对边界样本进行训练,得到分类结果。本发明自适应向量投影的非线性支持向量选取方法相较于现有的支持向量机的方法,针对非线性不可分的数据,其分类精度更高,分类速度更快,更适用于人脸识别、手写体识别,文本分类等领域内。

Description

自适应向量投影的非线性支持向量选取方法
技术领域
本发明属于支持向量机的学习方法,具体涉及一种自适应向量投影的非线性支持向量选取方法。
背景技术
统计学习理论最早提出于20世纪60年代,它是针对小样本进行研究,20世纪90年代中期,Vapnik基于此理论提出了新的学习算法——支持向量机。近年来,支持向量机的研究获得了越来越多的关注,支持向量机已经成功应用于许多实际问题,例如人脸识别、手写体识别,文本分类等。文本分类是信息过滤、信息检索、搜索引擎、文本数据库、数字化图书管等领域的技术基础,而支持向量机是文本分类的最主要最简单的手段之一。
然而,标准支持向量机的训练速度比较慢,在实际应用中受到极大限制,通过研究发现,支持向量机在训练的时候,仅仅由位于边界的支持向量决定,因此如果能预先确定支持向量,能够极大的加快支持向量机的训练速度。目前很多相关的算法被提出,例如Chunking算法,Decomposing算法和序列最小最优化算法,这些算法获得支持向量需要多次迭代。为了加快获得支持向量的时间,研究者提出了一种改进的支持向量机BS-SVM(见参考文献1)、基于向量投影的支撑向量预选取方法(见参考文献2)。然而在实际中,由于样本分布难以预测,如何选取边界向量代替支持向量成为研究的关键。在文献2中采用类中心向量作为投影方向,但是当样本分散时,类中心并不能反映该样本的原始特征,降低分类精度。
针对样本分布不均匀和离散度大的问题,在选取支持向量时,难以确定包含原始样本特征的边界向量,从而造成分类速度低下。而随着科技的日益发展,在信息过滤、信息检索、搜索引擎、文本数据库、数字化图书管等领域,都其渴望一种更快速、分类更精确的方法来提高其信息过滤、信息检索、搜索的速率和效果。
故一种分类精度高、分类速度快的自适应向量投影的非线性支持向量选取方法亟待提出。
参考文献1:郭亚琴,王正群,一种改进的支持向量机BS-SVM[J].微电子学与计算机,2010,28(6):54-56。
参考文献2:李青,焦李成,周伟达.基于向量投影的支撑向量预选取[J].计算机学报,2005,28(2):145-151。
发明内容
为了解决上述技术问题,本发明提出了自适应向量投影的非线性支持向量选取方法,该方法相较于现有的支持向量机的方法,针对非线性不可分的数据,其分类精度更高,分类速度更快,更适用于人脸识别、手写体识别,文本分类等领域内。
为了达到上述目的,本发明的技术方案如下:
自适应向量投影的非线性支持向量选取方法,方法用于非线性数据的文本分类,包括以下步骤:
(1)将原始样本映射到高维空间转化为线性样本;
(2)计算线性样本的中心距离;
(3)将线性样本投影到线性样本的中心向量后,在一维空间内选取具有原始特征的边界样本;
(4)利用支持向量机对边界样本进行训练,得到分类结果。
本发明一种自适应向量投影的非线性支持向量选取方法,运用自适应投影方法,从原始样本中提取出包含样本特征的边界样本作为新的训练样本,在保证原始样本所有特征的同时限制边界样本数量,以提高训练速度和分类精度。
在上述技术方案的基础上,还可做如下改进:
作为优选的方案,在步骤(2)中,根据下式来得到线性样本的中心距离D,
D = d ( ψ ( m 1 ) , ψ ( m 2 ) ) = 1 n 1 2 Σ i = 1 n 1 Σ j = 1 n 1 K ( x 1 i , x 1 j ) - 2 n 1 n 2 Σ i = 1 n 1 Σ j = 1 n 2 K ( x 1 i , x 2 j ) + 1 n 2 2 Σ i = 1 n 2 Σ j = 1 n 2 K ( x 2 i , x 2 j )
其中: C 1 = { x 11 , x 12 , Λ , x 1 n 1 } , C 2 = { x 21 , x 22 , Λ , x 2 n 2 } 为两类原始样本, x ij = { x ij 1 , x ij 2 , L , x ij d } ∈ R d ;
m i = 1 n i Σ t = 1 n i x it , ( i = 1,2 ) , m i = { m i 1 , m i 2 ,L, m i d } 为原始样本的均值;
ψ(·)为非线性映射;K(x,y)为核函数。
采用上述优选的方案,可以有效求得线性样本的中心距离。
作为优选的方案,在步骤(3)中:将线性样本投影到中心向量上后,计算ψ(x1i)到ψ(m1)的最大距离D1和ψ(x2j)到ψ(m2)的最大距离D2。
采用上述优选的方案,为选取边界样本做准备。
采用上述优选的方案,利用下式来选取边界样本:
当D1+D2<D时,
D1-λ1≤d(ψ(x1i),ψ(m1))≤D1;
D2-λ2≤d(ψ(x2j),ψ(m2))≤D2;
当D1+D2≥D时,
D-D2+λ1≤D1-d(ψ(x1i),ψ(m1))≤D1-λ1
D-D1+λ2≤D2-d(ψ(x2j),ψ(m2))≤D2-λ2
其中:λ1≠λ2
采用上述优选的方案,选取的边界样本更有效,更快速,更便于分类。
作为优选的方案,采用下式来得到ψ(x1i)到ψ(m1)的最大距离D1,
D 1 = max x 1 i ∈ C 1 ( d ( ψ ( x 1 i ) , ψ ( m 1 ) ) = max x 1 i ∈ C 1 K ( x 1 i , x 1 i ) - 2 n 1 Σ m = 1 n 1 K ( x 1 i , x 1 m ) + 1 n 1 2 Σ m = 1 n 1 Σ n = 1 n 1 K ( x 1 m , x 1 n ) .
采用上述优选的方案,可以有效求得ψ(x1i)到ψ(m1)的最大距离D1。
作为优选的方案,采用下式得到ψ(x2j)到ψ(m2)的最大距离D2,
D 2 = max x 2 i ∈ C 2 ( d ( ψ ( x 2 j ) , ψ ( m 2 ) ) = max x 2 j ∈ C 2 K ( x 2 j , x 2 j ) - 2 n 2 Σ m = 1 n 2 K ( x 2 j , x 2 m ) + 1 n 2 2 Σ m = 1 n 2 Σ n = 1 n 2 K ( x 2 m , x 2 n ) .
采用上述优选的方案,可以有效得到ψ(x2j)到ψ(m2)的最大距离D2。
附图说明
图1为本发明实施例提供的自适应向量投影的非线性支持向量选取方法的流程图。
图2为本发明实施例提供的在原始样本中抽取边界样本的分布图。
具体实施方式
下面结合附图详细说明本发明的优选实施方式。
为了达到本发明的目的,自适应向量投影的非线性支持向量选取方法的其中一些实施例中,
如图1所示,自适应向量投影的非线性支持向量选取方法,方法用于非线性数据的文本分类,包括以下步骤:
(1)将原始样本映射到高维空间转化为线性样本;
(2)计算线性样本的中心距离;
(3)将线性样本投影到线性样本的中心向量后,在一维空间内选取具有原始特征的边界样本;
(4)利用支持向量机对边界样本进行训练,得到分类结果。
在步骤(2)中,根据下式来得到线性样本的中心距离D,
D = d ( ψ ( m 1 ) , ψ ( m 2 ) ) = 1 n 1 2 Σ i = 1 n 1 Σ j = 1 n 1 K ( x 1 i , x 1 j ) - 2 n 1 n 2 Σ i = 1 n 1 Σ j = 1 n 2 K ( x 1 i , x 2 j ) + 1 n 2 2 Σ j = 1 n 2 Σ j = 1 n 2 K ( x 2 i , x 2 j )
其中: C 1 = { x 11 , x 12 , Λ , x 1 n 1 } , C 2 = { x 21 , x 22 , Λ , x 2 n 2 } 为两类原始样本, x ij = { x ij 1 , x ij 2 , L , x ij d } ∈ R d ;
m i = 1 n i Σ t = 1 n i x it , ( i = 1,2 ) , m i = { m i 1 , m i 2 ,L, m i d } 为原始样本的均值;
ψ(·)为非线性映射;K(x,y)为核函数。
在步骤(3)中:将线性样本投影到中心向量上后,根据下式计算ψ(x1i)到ψ(m1)的最大距离D1和ψ(x2j)到ψ(m2)的最大距离D2。
D 1 = max x 1 i ∈ C 1 ( d ( ψ ( x 1 i ) , ψ ( m 1 ) ) = max x 1 i ∈ C 1 K ( x 1 i , x 1 i ) - 2 n 1 Σ m = 1 n 1 K ( x 1 i , x 1 m ) + 1 n 1 2 Σ m = 1 n 1 Σ n = 1 n 1 K ( x 1 m , x 1 n )
D 2 = max x 2 i ∈ C 2 ( d ( ψ ( x 2 j ) , ψ ( m 2 ) ) = max x 2 j ∈ C 2 K ( x 2 j , x 2 j ) - 2 n 2 Σ m = 1 n 2 K ( x 2 j , x 2 m ) + 1 n 2 2 Σ m = 1 n 2 Σ n = 1 n 2 K ( x 2 m , x 2 n )
则根据下式来选取边界样本,再使用支持向量机方法进行训练。
当D1+D2<D时,
D1-λ1≤d(ψ(x1i),ψ(m1))≤D1;
D2-λ2≤d(ψ(x2j),ψ(m2))≤D2;
当D1+D2≥D时,
D-D2+λ1≤D1-d(ψ(x1i),ψ(m1))≤D1-λ1
D-D1+λ2≤D2-d(ψ(x2j),ψ(m2))≤D2-λ2
其中:λ1≠λ2
为了更好的反应本发明一种自适应向量投影的非线性支持向量选取方法的有益效果,故实验结果如下:
首先,为了将本发明提出的自适应向量投影的非线性支持向量选取方法与参考文献2中的方法对比,本发明选取的原始样本与参考文献2中的原始样本相同,产生两类交叉的同心圆样本,如下:
x = ρ cos θ y = ρ sin θ , θ ∈ U [ 0,2 π ] .
第一类样本满足U[0,6],第二类样本满足U[5,10],人工各类随机生成样本数量为800个,其中训练样本为300个,测试样本为500个,应用径向机函数为核函数K(x,y)=exp[-||x-y||2/2p2],其中p=8,参数C=100,根据多次实验,确定实验参数λ1=0.45,λ2=0.4。
图2是实验中在边界样本选取过程中随机选取的一幅图,其中呈“*”的点为取的边界样本,而呈“○”的点和呈“●”的点分别为两个不同类的原始样本。
为了能够验证本发明方法的有效性,在实验中比较了支持向量机和参考文献2中方法的分类结果。
实验结果使用了5倍交叉验证方法,表1给出了实验结果,从表1可以得出,本发明提出的自适应向量投影的线性支持向量选取方法与另外两种方法相比,更加有效,分类精度更高,分类速度更快。
表1 在同心圆的原始样本上分类时间和精度比较
其次,在UCI标准数据集上进行了测试,选用数据集segmen作为原始样本,此数据集是7类19维的特征向量集,共2100个样本,把前3类作为一类,其它的4类作为另一类,实验结果使用了5倍交叉验证方法,核函数使用径向基函数,其中p=0.5,参数C=100。
表2 在segment数据集上分类时间和精度比较
从表2的实验数据,可以发现,本发明的方法相比其他两种方法,其分类精度更高,分类时间更短。同时,与第一组实验相比可以发现,随着原始样本的复杂程度的提高,本发明所提出的一种自适应向量投影的非线性支持向量选取方法的优越性更加显著。将本发明提出的方法应用在文本分类上,可以大大提高分类的精度,节省分类的时间。
本发明一种自适应向量投影的非线性支持向量选取方法,运用自适应投影方法,从原始样本中提取出包含样本特征的边界样本作为新的训练样本,在保证原始样本所有特征的同时限制边界样本数量,以提高训练速度和分类精度,将本发明的方法应用在文本分类领域,分类的精度大大提高,分类的速率大大提升。
新型的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (6)

1.自适应向量投影的非线性支持向量选取方法,所述方法用于非线性数据的文本分类,其特征在于,包括以下步骤:
(1)将原始样本映射到高维空间转化为线性样本;
(2)计算所述线性样本的中心距离;
(3)将线性样本投影到所述线性样本的中心向量后,在一维空间内选取具有原始特征的边界样本;
(4)利用支持向量机对边界样本进行训练,得到分类结果。
2.根据权利要求1所述的自适应向量投影的非线性支持向量选取方法,其特征在于,在所述步骤(2)中,根据下式来得到所述线性样本的中心距离D,
D = d ( ψ ( m 1 ) , ψ ( m 2 ) ) = 1 n 1 2 Σ i = 1 n 1 Σ j = 1 n 1 K ( x 1 i , x 1 j ) - 2 n 1 n 2 Σ i = 1 n 1 Σ j = 1 n 2 K ( x 1 i , x 2 j ) + 1 n 2 2 Σ i = 1 n 2 Σ j = 1 n 2 K ( x 2 i , x 2 j )
其中: C 1 = { x 11 , x 12 , Λ , x 1 n 1 } , C 2 = { x 21 , x 22 , Λ , x 2 n 2 } 为两类原始样本, x ij = { x ij 1 , x ij 2 , L , x ij d } ∈ R d ;
m i = 1 n i Σ t = 1 n i x it , ( i = 1,2 ) , m i = { m i 1 , m i 2 , L , m i d } 为原始样本的均值;
ψ(·)为非线性映射;K(x,y)为核函数。
3.根据权利要求2所述的自适应向量投影的非线性支持向量选取方法,其特征在于,在所述步骤(3)中:将所述线性样本投影到所述中心向量上后,计算ψ(x1i)到ψ(m1)的最大距离D1和ψ(x2j)到ψ(m2)的最大距离D2。
4.根据权利要求3所述的自适应向量投影的非线性支持向量选取方法,其特征在于,利用下式来选取所述边界样本:
当D1+D2<D时,
D1-λ1≤d(ψ(x1i),ψ(m1))≤D1;
D2-λ2≤d(ψ(x2j),ψ(m2))≤D2;
当D1+D2≥D时,
D-D2+λ1≤D1-d(ψ(x1i),ψ(m1))≤D1-λ1
D-D1+λ2≤D2-d(ψ(x2j),ψ(m2))≤D2-λ2
其中:λ1≠λ2
5.根据权利要求3或4所述的自适应向量投影的非线性支持向量选取方法,其特征在于,采用下式来得到ψ(x1i)到ψ(m1)的最大距离D1,
D 1 = max x 1 i ∈ C 1 ( d ( ψ ( x 1 i ) , ψ ( m 1 ) ) = max x 1 i ∈ C 1 K ( x 1 i , x 1 i ) - 2 n 1 Σ m = 1 n 1 k ( x 1 i , x 1 m ) + 1 n 1 2 Σ m = 1 n 1 Σ n = 1 n 1 K ( x 1 m , x 1 n ) .
6.根据权利要求3或4所述的自适应向量投影的非线性支持向量选取方法,其特征在于,采用下式得到ψ(x2j)到ψ(m2)的最大距离D2,
D 2 = max x 2 i ∈ C 2 ( d ( ψ ( x 2 j ) , ψ ( m 2 ) ) = max x 2 j ∈ C 2 K ( x 2 j , x 2 j ) - 2 n 2 Σ m = 1 n 2 k ( x 2 j , x 2 m ) + 1 n 2 2 Σ m = 1 n 2 Σ n = 1 n 2 K ( x 2 m , x 2 n ) .
CN201510180702.7A 2015-04-16 2015-04-16 自适应向量投影的非线性支持向量选取方法 Pending CN104750857A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510180702.7A CN104750857A (zh) 2015-04-16 2015-04-16 自适应向量投影的非线性支持向量选取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510180702.7A CN104750857A (zh) 2015-04-16 2015-04-16 自适应向量投影的非线性支持向量选取方法

Publications (1)

Publication Number Publication Date
CN104750857A true CN104750857A (zh) 2015-07-01

Family

ID=53590541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510180702.7A Pending CN104750857A (zh) 2015-04-16 2015-04-16 自适应向量投影的非线性支持向量选取方法

Country Status (1)

Country Link
CN (1) CN104750857A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382274A (zh) * 2020-03-23 2020-07-07 中南大学 有标签高维数据的最优投影集合方法及情感文本分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030103652A1 (en) * 2001-12-05 2003-06-05 Kyunghee Lee System for registering and authenticating human face using support vector machines and method thereof
CN103279761A (zh) * 2013-05-20 2013-09-04 浙江大学 一种用于支持向量机的在线向量选取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030103652A1 (en) * 2001-12-05 2003-06-05 Kyunghee Lee System for registering and authenticating human face using support vector machines and method thereof
CN103279761A (zh) * 2013-05-20 2013-09-04 浙江大学 一种用于支持向量机的在线向量选取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
李青等: "基于向量投影的支撑向量预选取", 《计算机学报》 *
杨晓敏等: "基于投影中心距离的支持向量预选取", 《四川大学学报(自然科学版)》 *
杨静等: "改进向量投影的支持向量预选取方法", 《计算机学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382274A (zh) * 2020-03-23 2020-07-07 中南大学 有标签高维数据的最优投影集合方法及情感文本分类方法
CN111382274B (zh) * 2020-03-23 2022-06-10 中南大学 有标签高维数据的最优投影集合方法及情感文本分类方法

Similar Documents

Publication Publication Date Title
Yang et al. The research of the fast SVM classifier method
CN105046224A (zh) 基于分块自适应加权梯度方向直方图特征的人脸识别方法
CN105426426A (zh) 一种基于改进的K-Medoids的KNN文本分类方法
CN103745200A (zh) 一种基于词带模型的人脸图像识别方法
CN103226713B (zh) 一种多视角行为识别方法
CN103530645B (zh) 基于局部二值模式和Zernike矩的纹理图像分类方法及系统
Yang et al. Rotation-free online handwritten character recognition using dyadic path signature features, hanging normalization, and deep neural network
CN102411709A (zh) 一种虹膜分割识别方法
CN101807258A (zh) 基于核标度切维数约简的合成孔径雷达图像目标识别方法
CN103279746A (zh) 一种基于支持向量机的人脸识别方法及系统
CN102254191A (zh) 一种基于图像处理的降水粒子相态识别方法
CN103246877B (zh) 基于图像轮廓的人脸识别新方法
CN103337248A (zh) 一种基于时间序列核聚类的机场噪声事件识别方法
CN106295708A (zh) 一种基于Fisher分类器组的连续型数据预处理方法
CN101488182B (zh) 一种用于手写汉字识别的图像特征提取方法
CN102929977A (zh) 一种面向新闻网站的事件跟踪方法
CN104750857A (zh) 自适应向量投影的非线性支持向量选取方法
CN105868778A (zh) 一种基于频域波动特征的中值滤波检测方法
CN105279517A (zh) 基于半监督关系主题模型的弱标签社交图像识别方法
CN103488744A (zh) 一种大数据图像分类方法
CN107122781A (zh) 一种基于叶片形状和边缘特征的植物叶片识别方法
Wang et al. Temperature forecast based on SVM optimized by PSO algorithm
Houmani et al. Quality measures for online handwritten signatures
CN104750867A (zh) 自适应向量投影的线性支持向量选取方法
Sesa-Nogueras et al. Writer recognition enhancement by means of synthetically generated handwritten text

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150701

RJ01 Rejection of invention patent application after publication