CN104750857A

CN104750857A - 自适应向量投影的非线性支持向量选取方法

Info

Publication number: CN104750857A
Application number: CN201510180702.7A
Authority: CN
Inventors: 郭亚琴; 秦燕; 王青
Original assignee: Nantong Institute of Technology
Current assignee: Nantong Institute of Technology
Priority date: 2015-04-16
Filing date: 2015-04-16
Publication date: 2015-07-01

Abstract

本发明公开了自适应向量投影的非线性支持向量选取方法，方法用于非线性数据的文本分类，包括以下步骤：(1)将原始样本映射到高维空间转化为线性样本；(2)计算线性样本的中心距离；(3)将线性样本投影到线性样本的中心向量后，在一维空间内选取具有原始特征的边界样本；(4)利用支持向量机对边界样本进行训练，得到分类结果。本发明自适应向量投影的非线性支持向量选取方法相较于现有的支持向量机的方法，针对非线性不可分的数据，其分类精度更高，分类速度更快，更适用于人脸识别、手写体识别，文本分类等领域内。

Description

自适应向量投影的非线性支持向量选取方法

技术领域

本发明属于支持向量机的学习方法，具体涉及一种自适应向量投影的非线性支持向量选取方法。

背景技术

统计学习理论最早提出于20世纪60年代，它是针对小样本进行研究，20世纪90年代中期，Vapnik基于此理论提出了新的学习算法——支持向量机。近年来，支持向量机的研究获得了越来越多的关注，支持向量机已经成功应用于许多实际问题，例如人脸识别、手写体识别，文本分类等。文本分类是信息过滤、信息检索、搜索引擎、文本数据库、数字化图书管等领域的技术基础，而支持向量机是文本分类的最主要最简单的手段之一。

然而，标准支持向量机的训练速度比较慢，在实际应用中受到极大限制，通过研究发现，支持向量机在训练的时候，仅仅由位于边界的支持向量决定，因此如果能预先确定支持向量，能够极大的加快支持向量机的训练速度。目前很多相关的算法被提出，例如Chunking算法，Decomposing算法和序列最小最优化算法，这些算法获得支持向量需要多次迭代。为了加快获得支持向量的时间，研究者提出了一种改进的支持向量机BS-SVM(见参考文献1)、基于向量投影的支撑向量预选取方法(见参考文献2)。然而在实际中，由于样本分布难以预测，如何选取边界向量代替支持向量成为研究的关键。在文献2中采用类中心向量作为投影方向，但是当样本分散时，类中心并不能反映该样本的原始特征，降低分类精度。

针对样本分布不均匀和离散度大的问题，在选取支持向量时，难以确定包含原始样本特征的边界向量，从而造成分类速度低下。而随着科技的日益发展，在信息过滤、信息检索、搜索引擎、文本数据库、数字化图书管等领域，都其渴望一种更快速、分类更精确的方法来提高其信息过滤、信息检索、搜索的速率和效果。

故一种分类精度高、分类速度快的自适应向量投影的非线性支持向量选取方法亟待提出。

参考文献1：郭亚琴，王正群，一种改进的支持向量机BS-SVM[J].微电子学与计算机，2010，28(6)：54-56。

参考文献2：李青，焦李成，周伟达.基于向量投影的支撑向量预选取[J].计算机学报，2005，28(2)：145-151。

发明内容

为了解决上述技术问题，本发明提出了自适应向量投影的非线性支持向量选取方法，该方法相较于现有的支持向量机的方法，针对非线性不可分的数据，其分类精度更高，分类速度更快，更适用于人脸识别、手写体识别，文本分类等领域内。

为了达到上述目的，本发明的技术方案如下：

自适应向量投影的非线性支持向量选取方法，方法用于非线性数据的文本分类，包括以下步骤：

(1)将原始样本映射到高维空间转化为线性样本；

(2)计算线性样本的中心距离；

(3)将线性样本投影到线性样本的中心向量后，在一维空间内选取具有原始特征的边界样本；

(4)利用支持向量机对边界样本进行训练，得到分类结果。

本发明一种自适应向量投影的非线性支持向量选取方法，运用自适应投影方法，从原始样本中提取出包含样本特征的边界样本作为新的训练样本，在保证原始样本所有特征的同时限制边界样本数量，以提高训练速度和分类精度。

在上述技术方案的基础上，还可做如下改进：

作为优选的方案，在步骤(2)中，根据下式来得到线性样本的中心距离D，

\begin{matrix} D = d (ψ (m_{1}), ψ (m_{2})) \\ = \sqrt{\frac{1}{{n_{1}}^{2}} Σ_{i = 1}^{n_{1}} Σ_{j = 1}^{n_{1}} K (x_{1 i}, x_{1 j}) - \frac{2}{n_{1} n_{2}} Σ_{i = 1}^{n_{1}} Σ_{j = 1}^{n_{2}} K (x_{1 i}, x_{2 j}) + \frac{1}{{n_{2}}^{2}} Σ_{i = 1}^{n_{2}} Σ_{j = 1}^{n_{2}} K (x_{2 i}, x_{2 j})} \end{matrix}

其中：

C_{1} = {x_{11}, x_{12}, Λ, x_{{1 n}_{1}}}, C_{2} = {x_{21}, x_{22}, Λ, x_{2 n_{2}}}

为两类原始样本，

x_{ij} = {x_{ij}^{1}, x_{ij}^{2}, L, x_{ij}^{d}} &Element; R_{d};

m_{i} = \frac{1}{n_{i}} Σ_{t = 1}^{n_{i}} x_{it}, (i = 1,2), m_{i} = {m_{i}^{1}, m_{i}^{2},L, m_{i}^{d}}

为原始样本的均值；

ψ(·)为非线性映射；K(x，y)为核函数。

采用上述优选的方案，可以有效求得线性样本的中心距离。

作为优选的方案，在步骤(3)中：将线性样本投影到中心向量上后，计算ψ(x_1i)到ψ(m₁)的最大距离D1和ψ(x_2j)到ψ(m₂)的最大距离D2。

采用上述优选的方案，为选取边界样本做准备。

采用上述优选的方案，利用下式来选取边界样本：

当D1+D2＜D时，

D1-λ₁≤d(ψ(x_1i)，ψ(m₁))≤D1；

D2-λ₂≤d(ψ(x_2j)，ψ(m₂))≤D2；

当D1+D2≥D时，

D-D2+λ₁≤D1-d(ψ(x_1i)，ψ(m₁))≤D1-λ₁；

D-D1+λ₂≤D2-d(ψ(x_2j)，ψ(m₂))≤D2-λ₂；

其中：λ₁≠λ₂。

采用上述优选的方案，选取的边界样本更有效，更快速，更便于分类。

作为优选的方案，采用下式来得到ψ(x_1i)到ψ(m₁)的最大距离D1，

\begin{matrix} D 1 = \max_{x_{1 i} &Element; C_{1}} (d (ψ (x_{1 i}), ψ (m_{1})) \\ = \max_{x_{1 i} &Element; C_{1}} \sqrt{K (x_{1 i}, x_{1 i}) - \frac{2}{n_{1}} Σ_{m = 1}^{n_{1}} K (x_{1 i}, x_{1 m}) + \frac{1}{{n_{1}}^{2}} Σ_{m = 1}^{n_{1}} Σ_{n = 1}^{n_{1}} K (x_{1 m}, x_{1 n})} \end{matrix} .

采用上述优选的方案，可以有效求得ψ(x_1i)到ψ(m₁)的最大距离D1。

作为优选的方案，采用下式得到ψ(x_2j)到ψ(m₂)的最大距离D2，

\begin{matrix} D 2 = \max_{x_{2 i} &Element; C_{2}} (d (ψ (x_{2 j}), ψ (m_{2})) \\ = \max_{x_{2 j} &Element; C_{2}} \sqrt{K (x_{2 j}, x_{2 j}) - \frac{2}{n_{2}} Σ_{m = 1}^{n_{2}} K (x_{2 j}, x_{2 m}) + \frac{1}{{n_{2}}^{2}} Σ_{m = 1}^{n_{2}} Σ_{n = 1}^{n_{2}} K (x_{2 m}, x_{2 n})} \end{matrix} .

采用上述优选的方案，可以有效得到ψ(x_2j)到ψ(m₂)的最大距离D2。

附图说明

图1为本发明实施例提供的自适应向量投影的非线性支持向量选取方法的流程图。

图2为本发明实施例提供的在原始样本中抽取边界样本的分布图。

具体实施方式

下面结合附图详细说明本发明的优选实施方式。

为了达到本发明的目的，自适应向量投影的非线性支持向量选取方法的其中一些实施例中，

如图1所示，自适应向量投影的非线性支持向量选取方法，方法用于非线性数据的文本分类，包括以下步骤：

(1)将原始样本映射到高维空间转化为线性样本；

(2)计算线性样本的中心距离；

(4)利用支持向量机对边界样本进行训练，得到分类结果。

在步骤(2)中，根据下式来得到线性样本的中心距离D，

\begin{matrix} D = d (ψ (m_{1}), ψ (m_{2})) \\ = \sqrt{\frac{1}{{n_{1}}^{2}} Σ_{i = 1}^{n_{1}} Σ_{j = 1}^{n_{1}} K (x_{1 i}, x_{1 j}) - \frac{2}{n_{1} n_{2}} Σ_{i = 1}^{n_{1}} Σ_{j = 1}^{n_{2}} K (x_{1 i}, x_{2 j}) + \frac{1}{{n_{2}}^{2}} Σ_{j = 1}^{n_{2}} Σ_{j = 1}^{n_{2}} K (x_{2 i}, x_{2 j})} \end{matrix}

其中：

C_{1} = {x_{11}, x_{12}, Λ, x_{{1 n}_{1}}}, C_{2} = {x_{21}, x_{22}, Λ, x_{2 n_{2}}}

为两类原始样本，

x_{ij} = {x_{ij}^{1}, x_{ij}^{2}, L, x_{ij}^{d}} &Element; R_{d};

m_{i} = \frac{1}{n_{i}} Σ_{t = 1}^{n_{i}} x_{it}, (i = 1,2), m_{i} = {m_{i}^{1}, m_{i}^{2},L, m_{i}^{d}}

为原始样本的均值；

ψ(·)为非线性映射；K(x，y)为核函数。

在步骤(3)中：将线性样本投影到中心向量上后，根据下式计算ψ(x_1i)到ψ(m₁)的最大距离D1和ψ(x_2j)到ψ(m₂)的最大距离D2。

\begin{matrix} D 1 = \max_{x_{1 i} &Element; C_{1}} (d (ψ (x_{1 i}), ψ (m_{1})) \\ = \max_{x_{1 i} &Element; C_{1}} \sqrt{K (x_{1 i}, x_{1 i}) - \frac{2}{n_{1}} Σ_{m = 1}^{n_{1}} K (x_{1 i}, x_{1 m}) + \frac{1}{{n_{1}}^{2}} Σ_{m = 1}^{n_{1}} Σ_{n = 1}^{n_{1}} K (x_{1 m}, x_{1 n})} \end{matrix}

\begin{matrix} D 2 = \max_{x_{2 i} &Element; C_{2}} (d (ψ (x_{2 j}), ψ (m_{2})) \\ = \max_{x_{2 j} &Element; C_{2}} \sqrt{K (x_{2 j}, x_{2 j}) - \frac{2}{n_{2}} Σ_{m = 1}^{n_{2}} K (x_{2 j}, x_{2 m}) + \frac{1}{{n_{2}}^{2}} Σ_{m = 1}^{n_{2}} Σ_{n = 1}^{n_{2}} K (x_{2 m}, x_{2 n})} \end{matrix}

则根据下式来选取边界样本，再使用支持向量机方法进行训练。

当D1+D2＜D时，

D1-λ₁≤d(ψ(x_1i)，ψ(m₁))≤D1；

D2-λ₂≤d(ψ(x_2j)，ψ(m₂))≤D2；

当D1+D2≥D时，

D-D2+λ₁≤D1-d(ψ(x_1i)，ψ(m₁))≤D1-λ₁；

D-D1+λ₂≤D2-d(ψ(x_2j)，ψ(m₂))≤D2-λ₂；

其中：λ₁≠λ₂。

为了更好的反应本发明一种自适应向量投影的非线性支持向量选取方法的有益效果，故实验结果如下：

首先，为了将本发明提出的自适应向量投影的非线性支持向量选取方法与参考文献2中的方法对比，本发明选取的原始样本与参考文献2中的原始样本相同，产生两类交叉的同心圆样本，如下：

\{\begin{matrix} x = ρ \cos θ \\ y = ρ \sin θ \end{matrix}, θ &Element; U [0,2 π] .

第一类样本满足U[0，6]，第二类样本满足U[5，10]，人工各类随机生成样本数量为800个，其中训练样本为300个，测试样本为500个，应用径向机函数为核函数K(x，y)＝exp[-||x-y||²/2p²]，其中p＝8，参数C＝100，根据多次实验，确定实验参数λ₁＝0.45，λ₂＝0.4。

图2是实验中在边界样本选取过程中随机选取的一幅图，其中呈“*”的点为取的边界样本，而呈“○”的点和呈“●”的点分别为两个不同类的原始样本。

为了能够验证本发明方法的有效性，在实验中比较了支持向量机和参考文献2中方法的分类结果。

实验结果使用了5倍交叉验证方法，表1给出了实验结果，从表1可以得出，本发明提出的自适应向量投影的线性支持向量选取方法与另外两种方法相比，更加有效，分类精度更高，分类速度更快。

表1 在同心圆的原始样本上分类时间和精度比较

其次，在UCI标准数据集上进行了测试，选用数据集segmen作为原始样本，此数据集是7类19维的特征向量集，共2100个样本，把前3类作为一类，其它的4类作为另一类，实验结果使用了5倍交叉验证方法，核函数使用径向基函数，其中p＝0.5，参数C＝100。

表2 在segment数据集上分类时间和精度比较

从表2的实验数据，可以发现，本发明的方法相比其他两种方法，其分类精度更高，分类时间更短。同时，与第一组实验相比可以发现，随着原始样本的复杂程度的提高，本发明所提出的一种自适应向量投影的非线性支持向量选取方法的优越性更加显著。将本发明提出的方法应用在文本分类上，可以大大提高分类的精度，节省分类的时间。

本发明一种自适应向量投影的非线性支持向量选取方法，运用自适应投影方法，从原始样本中提取出包含样本特征的边界样本作为新的训练样本，在保证原始样本所有特征的同时限制边界样本数量，以提高训练速度和分类精度，将本发明的方法应用在文本分类领域，分类的精度大大提高，分类的速率大大提升。

新型的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.自适应向量投影的非线性支持向量选取方法，所述方法用于非线性数据的文本分类，其特征在于，包括以下步骤：

(1)将原始样本映射到高维空间转化为线性样本；

(2)计算所述线性样本的中心距离；

(3)将线性样本投影到所述线性样本的中心向量后，在一维空间内选取具有原始特征的边界样本；

(4)利用支持向量机对边界样本进行训练，得到分类结果。

2.根据权利要求1所述的自适应向量投影的非线性支持向量选取方法，其特征在于，在所述步骤(2)中，根据下式来得到所述线性样本的中心距离D，

\begin{matrix} D = d (ψ (m_{1}), ψ (m_{2})) \\ = \sqrt{\frac{1}{{n_{1}}^{2}} Σ_{i = 1}^{n_{1}} Σ_{j = 1}^{n_{1}} K (x_{1 i}, x_{1 j}) - \frac{2}{n_{1} n_{2}} Σ_{i = 1}^{n_{1}} Σ_{j = 1}^{n_{2}} K (x_{1 i}, x_{2 j}) + \frac{1}{{n_{2}}^{2}} Σ_{i = 1}^{n_{2}} Σ_{j = 1}^{n_{2}} K (x_{2 i}, x_{2 j})} \end{matrix}

其中：

C_{1} = {x_{11}, x_{12}, Λ, x_{{1 n}_{1}}}, C_{2} = {x_{21}, x_{22}, Λ, x_{{2 n}_{2}}}

为两类原始样本，

x_{ij} = {x_{ij}^{1}, x_{ij}^{2}, L, x_{ij}^{d}} &Element; R_{d};

m_{i} = \frac{1}{n_{i}} Σ_{t = 1}^{n_{i}} x_{it}, (i = 1,2), m_{i} = {m_{i}^{1}, m_{i}^{2}, L, m_{i}^{d}}

为原始样本的均值；

ψ(·)为非线性映射；K(x，y)为核函数。

3.根据权利要求2所述的自适应向量投影的非线性支持向量选取方法，其特征在于，在所述步骤(3)中：将所述线性样本投影到所述中心向量上后，计算ψ(x_1i)到ψ(m₁)的最大距离D1和ψ(x_2j)到ψ(m₂)的最大距离D2。

4.根据权利要求3所述的自适应向量投影的非线性支持向量选取方法，其特征在于，利用下式来选取所述边界样本：

当D1+D2＜D时，

D1-λ₁≤d(ψ(x_1i)，ψ(m₁))≤D1；

D2-λ₂≤d(ψ(x_2j)，ψ(m₂))≤D2；

当D1+D2≥D时，

D-D2+λ₁≤D1-d(ψ(x_1i)，ψ(m₁))≤D1-λ₁；

D-D1+λ₂≤D2-d(ψ(x_2j)，ψ(m₂))≤D2-λ₂；

其中：λ₁≠λ₂。

5.根据权利要求3或4所述的自适应向量投影的非线性支持向量选取方法，其特征在于，采用下式来得到ψ(x_1i)到ψ(m₁)的最大距离D1，

\begin{matrix} D 1 = \max_{x_{1 i} &Element; C_{1}} (d (ψ (x_{1 i}), ψ (m_{1})) \\ = \max_{x_{1 i} &Element; C_{1}} \sqrt{K (x_{1 i}, x_{1 i}) - \frac{2}{n_{1}} Σ_{m = 1}^{n_{1}} k (x_{1 i}, x_{1 m}) + \frac{1}{{n_{1}}^{2}} Σ_{m = 1}^{n_{1}} Σ_{n = 1}^{n_{1}} K (x_{1 m}, x_{1 n})} \end{matrix} .

6.根据权利要求3或4所述的自适应向量投影的非线性支持向量选取方法，其特征在于，采用下式得到ψ(x_2j)到ψ(m₂)的最大距离D2，

\begin{matrix} D 2 = \max_{x_{2 i} &Element; C_{2}} (d (ψ (x_{2 j}), ψ (m_{2})) \\ = \max_{x_{2 j} &Element; C_{2}} \sqrt{K (x_{2 j}, x_{2 j}) - \frac{2}{n_{2}} Σ_{m = 1}^{n_{2}} k (x_{2 j}, x_{2 m}) + \frac{1}{{n_{2}}^{2}} Σ_{m = 1}^{n_{2}} Σ_{n = 1}^{n_{2}} K (x_{2 m}, x_{2 n})} \end{matrix} .