CN101080707A

CN101080707A - 决策机的特征简化方法

Info

Publication number: CN101080707A
Application number: CN 200580043244
Authority: CN
Inventors: 凯文·E·盖茨
Original assignee: University of Queensland UQ
Current assignee: University of Queensland UQ
Priority date: 2004-12-17
Filing date: 2005-12-14
Publication date: 2007-11-28
Also published as: ZA200705816B

Abstract

一种在用于诸如支持向量机(SVM)的学习机的训练组中进行特征简化的方法。在一实施例中，该方法包括步骤(35)，其接收训练组的输入训练数据向量x_i。该输入训练数据向量通常从特征空间的特征组中得出。在步骤(37)，该输入数据向量被映射到多维空间中。在步骤(39)，解决得自SVM公式的最小平方问题，以确定包括训练向量的哪些特征被认为是重要的。在步骤(41)，利用在步骤(39)中被确定为重要的特征，确定诸如SVM的所选决策机的决策参数和向量。

Description

决策机的特征简化方法

技术领域

本发明涉及一种为诸如支持向量机或主要成分分析系统的决策机选择简化的特征组的方法。

背景技术

在本说明书中，对现有技术的引用不是并且也不应该被认为是认可或以任何形式提议现有技术构成公知常识的一部分。

决策机是一种通用学习机，其在训练阶段确定用于对未知数据进行分类的一组参数和向量。例如，在支持向量机(SVM)的情况下，该参数组包括核函数和带有定义决策超平面的相应乘数的支持向量组。该支持向量组从训练的向量群体选出。

在决策机根据主要成分分析、核主要成分分析(KPCA)、独立成分分析(ICA)和线性判别式分析(LDA)其中一种来操作的情况下，确定子空间和相应基，以用于确定两个不同数据向量之间的距离从而确定未知数据的分类。贝叶斯内部/外部分类器根据被分类的各组之间的区别的统计分析进行分类。

在训练阶段之后，所有这些决策机操作在测试阶段，在测试阶段，它们基于在训练阶段确定的决策向量和参数对测试向量进行分类。例如，在分类SVM的情况下，这种分类是基于在训练阶段预先确定的决策超平面而进行的。不过，带来的问题是为了制造具有所用支持向量数目和待检查特征数目(即向量的长度)的决策规模必须承担的计算复杂度。在其它大多数学习机的实践应用中也会遇到类似的困难。

决策机可应用到许多不同的领域。例如，在S.Lyu和H.Farid的题为“利用更高阶统计和支持向量机检测隐藏消息(Detecting Hidden Messages usingHigher-Order Statistics and Support Vector Machines)”(第五届国际信息隐藏研讨会，Noordwijkerhout，荷兰，2002年)的文章中，具有对利用SVM来区别未影响数字图像和被掺杂数字图像的描述。

可选地，在H.Kim和H.Park的题为“利用支持向量机和远程交互3d局部描述符对蛋白质相对溶剂可达性的预测(Prediction of protein relativesolvent accessibility with support vector machines and long-range interaction 3dlocal descriptor)”(蛋白质：结构、功能和遗传学，2004年2月15日；54(3)：557-62)的论文中，SVM被应用于预测高分辨率3D结构的问题，从而研究宏分子的灰分测定。

为了展开该特征简化方法，现在将阐述SVM的数学基础。不过，可以理解，根据本发明实施例的方法可以应用于包括之前提到决策机在内的其它决策机。

SVM是一种学习机，其中给定m个输入向量为每个输入向量x_i从概率分布函数p(x)中独立提取输出值y_i，对于不在输入组中的任意向量x_i返回估计的输出值f(x_i)＝y_i。

(x_i，y_i)i＝0，...m被参考作为训练示例。结果函数f(x)确定超平面，然后该超平面用于估计未知映射。

图1示出了上述训练方法。在步骤24，支持向量机接收均具有预分配类y_i的训练组的向量x_i。在步骤26，向量机通过将输入数据向量x_i映射到多维空间中，来变换该输入数据向量xi。最后，在步骤28，确定由f(x)定义的最优多维超平面的参数。图1中的步骤24，26和28中每一个在现有技术中都是公知的。

通过对控制方程的一些处理，支持向量机可以被表达成下列的二次规划问题：

MinW(α)＝α^TΩα-α^T (1)

其中Ω_i，j＝y_iy_jK(x_i，x_i) (2)

e＝[1，1，1，1......，1]^T (3)

令0＝α^Ty (4)

0≤α_i≤C (5)

其中C是某正则化(regularization)常数 (6)

K(x_i，x_j)是核函数，并可以被看作两个向量的广义内积。对SVM的训练结果是确定乘数α_i。

假设，我们使用模式向量x_i训练SVM分类器，并且这些向量的r被确定为支持向量，则利用x_i，i＝1，2，......，r来表示它们。然后，用于模式分类的决策超平面采用以下形式：

f (x) = Σ_{i}^{r} α_{i} y_{i} K (x, x_{i}) + b - - - (7)

其中，α_i是与模式x_i相关的拉格朗日乘数，K(.，.)是将模式向量隐含映射到适当特征空间的核函数。b可以由α_i独立确定。图2示出了在二维空间由超平面30分开的两个类。注意的是，包含在图2中矩形内的所有x和o，被看作支持向量并且会具有相关的非零α_i。

假定方程(7)中，通过计算f(x)，然后对所有小于零的返回值返回-1并对所有大于零的值返回1，可以对未分类的样本向量x进行简单分类。

图3是现有技术SVM为了对测试组的向量xi进行分类而采用的典型方法的流程图。在方框34，SVM接收测试向量组。在方框36，利用支持向量作为核函数中的参数，将测试向量变换到多维空间中。在方框38，SVM由决策面产生分类信号，以指示每个输入向量的成员状态，第一类为“1”的项或者第二类为“-1”的项。步骤34到40在文献中由方程(7)定义。

可以意识到的是，在训练和测试这两个阶段，定义超平面以及随后对输入向量分类所需操作的计算复杂度，至少部分地依赖于向量x_i。反之，向量x_i的大小依赖于从中得出x_i的问题中正被检查的特征的数目。

在研究和开发学习机的早期阶段，几乎没有问题包含多于40个的特征。然而，包含被表达的成百上万个变量或特征的问题，在现在则相对普遍。因此，增加了确定测试面以及执行分类所需的计算。

这类问题的一个示例是，对于非期望的邮件或“垃圾邮件”和正常邮件的分类。如果消息中所用的单词或者短语都被用于分类，那么特征数目可以为通用单词的数量大小。对于说英语的成年人，该数量可以很容易超过5000到10000个单词。如果加上普通单词的误拼和药品及其它产品的固有名称和类属名，那么该特征列表很容易超过5万个单词。区分垃圾邮件和正常邮件所需的实际特征(短语中的单词)可明显少于特征的总数量。例如，单词“to”不会添加到决策平面的判定中，但是可能在很多邮件中出现。

处理大量特征的问题在Guyon和Elisseeff的论文中被论述，该论文题目为“变量和特征选择简介”，学习机研究杂志，3，1157-1182，2003。在该论文中，作者阐述到“变量和特征选择具有很多潜在的益处：推进数据可视化和数据理解，减少测量和存储需求，减少训练和利用次数，突破维数极限以提高预测性能”。文章的作者还声明他们不知道在非线性学习系统的情况下存在特征选择的任何直接方法。

本发明目的在于，提供一种进行特征选择的方法，以提供一种或更多上述潜在的益处。

发明内容

根据本发明的第一方面，提供一种操作至少一台作为决策机的计算设备来解决问题的方法，所述问题具有依赖于从特征空间中的特征组得出的向量的解，该方法包括操作所述计算设备执行以下步骤：

(a)解决与所述问题的SVM二次规划方程相对应的最小化问题，从而识别所述组的重要特征；以及

(b)基于对重要特征的识别，通过以简化数目的计算步骤操作该决策机来解决所述问题。

该方法可以进一步包括：

利用与步骤(a)和(b)相对应的计算机可执行指令对至少一台计算设备进行编程，并且将该计算机可执行指令存储到计算机可读介质上。

在优选实施例中，所述解决最小化问题的步骤包括解决最小平方问题。

所述计算设备可以被操作作为决策机，以解决包括分类问题在内的问题，或者可选地解决包括回归问题在内的问题。

优选地，所述决策机基于以下之一进行操作：主要成分分析、核主要成分分析(KPCA)、独立成分分析(ICA)、线性判别式分析(LCA)和贝叶斯内部或外部分类器。

优选地，该方法包括：当解决所述问题时仅处理重要特征。

所述决策机包括下列任一个：支持向量机、主要成分分析机、核主要成分分析机、独立成分分析机或线性判别式分析机。

在所述决策机包括支持向量分类机的情况下，该方法可以进一步包括：将分开所述向量的超平面定义为离散类。

优选地，所述超平面利用仅包含重要特征的向量来定义。

可选地，所述支持向量机可以包括支持向量回归机。

在一实施例中，该方法包括：将所述最小化问题的解的值与预定的阈值进行比较，从而确定相应的特征是否被认为是无关紧要的。

优选地，该方法可以包括：归一化(normalise)所述最小化问题的解。

在优选实施例中，所述解决最小化问题的步骤可以包括最小化2-范数的平方。

可选地，所述解决最小化问题的步骤可以相对于诸如1-范数或无穷-范数的其它适合范数进行最小化。

该方法可以包括将所述最小平方问题映射到所述特征空间中的步骤。在这种情况下，该方法提供了在非线性学习系统中进行特征选择的直接方法。

优选地，该方法进一步包括：对从所述特征空间得出的测试向量进行分类的步骤。

根据本发明的另一方面，提供一种计算设备，其可被编程以执行上述方法。

该计算设备可以包括诸如个人计算机的常规计算系统，不过，也可以被并入个人数字助理、诊断医疗设备或者诸如例如蜂窝电话的无线设备。

根据本发明的另一方面，提供一种承载机器可读指令的诸如磁盘或光盘的介质，所述指令由一个或多个处理器执行以实现上述方法。

本发明的进一步优选特征将在下文中参照以下附图对示范性实施例的详细描述中进行说明。

附图说明

本发明的优选特征、实施例和变化可以从下列具体实施方式中看出，该具体实施方式为本领域技术人员提供足够执行本发明的信息。无论以何种方式，该具体实施方式均不应该被认为是对上述发明内容的限制。该具体实施方式将参照如下附图：

图1是描述在实施现有技术支持向量机期间的训练阶段的流程图。

图2是示出决策超平面的任一侧上的大量支持向量的简图。

图3是描述在实施现有技术支持向量机期间的测试阶段的流程图。

图4是描述根据本发明优选实施例的训练阶段方法的流程图。

图5是描述根据本发明优选实施例的测试阶段方法的流程图。

图6是根据本发明实施例的用于执行软件产品的计算机系统的框图。

具体实施方式

本发明人已认识到，可以通过解决最小化问题来改良在非线性学习系统中进行特征选择的方法。更具体地说，该方法可以由最小平方方法来展开。在以下的实施例中，使用了最小平方最小化问题的2-范数公式表示。然而，本领域的技术人员会认识到，也可以使用1-范数、无穷范数或者其它合适的公式表示。

方程(1-3)的最小化问题等价于

\underset{α}{Minimise} {| | Kα - e | |}_{2}^{2} - - - (8)

其中在K中的(i，j)项是K(x_i，x_j)，α是拉格朗日乘数的向量，e是单位向量。约束方程(4-6)也将用于(8)。范数标记之外的符号表示所采用的是2-范数的平方。首先，我们展开用于线性核的理论，其中

K (x_{i}, x_{j}) = x_{i}^{T} \cdot x_{j}

是两个向量的简单内积。若将输入向量写成矩阵：X＝[x₁，...x_k]，则对于某向量b写成e＝X^Tb，然后重写上述问题为：

\underset{α}{Minimise} {| | X^{T} Xα - X^{T} b | |}_{2}^{2} - - - (9)

这是下式的解的标准方程式：

\underset{α}{Minimise} {| | Xα - b | |}_{2}^{2} - - - (10)

因此，(9)和(10)是等价的。(10)的解的第一步是解决具有多个解的未确定最小平方问题：

\underset{b}{Minimise} {| | X^{T} b - e | |}_{2}^{2} - - - (11)

任何解都是充分的。不过，所期望和可行的解是：

b = P [\begin{matrix} b_{1} \\ b_{2} \end{matrix}] - - - (12)

其中P是合适的主元素矩阵，b₂＝0。b₂的大小取决于矩阵X的秩，或者X的独立列的数目。为了解出(12)，我们使用任意提供最小2-范数解并满足SVM问题的约束条件的方法。在(11)的解中，由于只有b的非零元素有助于该解，所以产生特征自然选择的机会。例如，假定b＝[b₁，...b_n]^T的非零或很小元素为b₁₀₀，b₁，b₁₉₁，b₂₀₂，b₃₂₃，b₃₄₄等等。在这种情况下只有x₁₀₀，x₁，x₁₉₁，x₂₀₂，x₃₂₃，x₃₄₄等被用于向量x中，x的其它元素可以被安全忽略而不改变SVM的性能。

该方法的第二个因素是方程(9)包含可用来依靠核函数将数据向量映射到特征空间中的内积。在这种情况下，X矩阵变为[Φ(x₁)，...，Φ(x_n)]，使得(9)中的内积X^TX提供了核矩阵。因此，问题可以表示为在(8)中e＝Φ(x)·Φ(b)。之后为了找到b，需要解决最优化问题：

\underset{b}{Minimise} {| | Φ (x) \cdot Φ (b) - e | |}_{2}^{2} - - - (13)

其中Φ(x)·Φ(b)被计算作为K(x_i，b)。

因此，根据本发明实施例的方法可以很容易扩展到核特征空间，从而提供非线性学习系统中的特征选择的直接方法。在图4中描述了根据本发明实施例的流程图。在方框35，例如SVM的决策机接收向量x_i的测试组。在方框37，例如通过执行方程(2)，将测试数据向量映射到多维空间中。在方框39，解决相关最优化问题(方程(13))以确定构成测试向量的哪些特征是有效的，即重要的。该步骤的实例可参考前述方程(8)-(12)进行描述。在方框41，对于特殊类型的决策机，仅利用有效特征来确定决策参数。例如，在分类SVM情况下，通过使用具有简化特征组的方程(1)到(6)来利用仅包含有效特征的测试向量，定义最优多维超平面。

图5是根据本发明实施例的对测试向量进行分类的流程图。首先，在方框42，接收测试向量组。在方框44，当测试未分类向量时，不需要简化未分类向量到恰好是它的有效特征，包含在内积K(x_i，x)中的操作将仅仅自动使用有效特征。

在方框48，计算用于测试向量的分类。然后在方框50呈现测试结果。在支持向量回归问题中，由提供训练组示例；其中y_i可以是实值或二进制值。在y_i∈{±1}的情况下，支持向量分类机或支持向量回归机可以应用于数据。回归机的目标是构建尽可能与许多数据点“靠近”的超平面。通过一些数学方法，随后二次规划问题可以与分类问题类似地构建，并且可以用相同的方式来解决。

Minimiseλ^TDλ-λ^T

令λ^Tg＝0

0≤λ_i≤C

其中

λ = [α_{1}, α_{2}, . . ., α_{m}, α_{1}^{*}, α_{2}^{*}, . . ., α_{m}^{*}]

D = [\begin{matrix} K (x_{i}, x_{j}) & - K (x_{i}, x_{j}) \\ - K (x_{i}, x_{j}) & K (x_{i}, x_{j}) \end{matrix}]

c＝[y₁-ε，y₂-ε，...，y_m-ε，-y₁-ε，-y₂-ε，...，-y_m-ε]

该最优化也可以被表达为最小平方问题，并且可以使用相似的简化特征数量的方法。

在主要成分分析、核主要成分分析(KPCA)、独立成分分析(ICA)和线性判别式分析(LCA)和贝叶斯内部/外部分类(Bayesian)决策机的情况下，对于SVM训练阶段如前述进行，直到确定简化的特征组。然后，通过消去不在简化组中的所有特征来简化输入向量，这些特征然后应用于前述决策机中的任一种。然后如现有技术中所述那样进行每种决策机的训练和使用。从实践观点来看，按照本发明优选实施例的决策机借助于例如个人计算机、PDA的计算设备或例如移动电话的潜在无线设备来实现。计算设备执行包含用于实现根据本发明实施例的方法的指令的软件产品，所述实施例例如图4和图5流程图中所示实施例等。

图6描述了为常规计算机系统52形式的计算设备，其按照本发明的实施例作为决策机操作，同时也按照本发明实施例执行决策机计算机程序。个人计算机系统52包括为点击设备60和键盘58形式的数据输入设备以及为显示器56形式的数据输出设备。数据输入和输出设备被连接到至少包括一个中央处理单元70的处理框54。中央处理单元70通过主板68与RAM 62、ROM 64和辅助存储器66进行交互。辅助存储器66包括光学和/或磁性数据存储介质，该介质承载中央处理器70执行所需的指令。指令组成软件产品72，该软件产品72被执行时促使计算机系统52操作作为决策机并且实现参照图4和方程(8)到(12)所述的特征简化方法和如果需要时还有参照图5所述的测试阶段方法。本领域技术人员可以认识到，软件产品72的程序被直接给予按照本发明实施例的方法。因此，按照本发明实施例的方法可以包括对具有计算机可执行指令的计算机或者一或多个计算设备进行编程以实现该方法的步骤、以及在例如光盘或磁盘或固态存储器等计算机可读介质上存储计算机可执行指令的步骤。

由于在不偏离参照以下权利要求书确定的本发明的范围下，本领域技术人员可以对本发明进行许多修改，因此此处所描述的本发明的实施例是为了阐述该发明的原理而提供的，并不被认为是对本发明的限制或约束。

Claims

1、一种操作至少一台作为决策机的计算设备以解决问题的方法，所述问题具有依赖于从特征空间中的特征组得出的向量的解，该方法包括操作所述计算设备执行以下步骤：

2、根据权利要求1所述的方法，其中所述解决最小化问题的步骤包括解决最小平方问题。

3、根据权利要求1所述的方法，其中所述计算设备被作为决策机操作，以解决包括分类问题在内的问题。

4、根据权利要求1所述的方法，其中所述计算设备被作为决策机操作，以解决包括回归问题在内的问题。

5、根据权利要求1所述的方法，其中所述决策机根据以下之一来操作：主要成分分析、核主要成分分析(KPCA)、独立成分分析(ICA)、线性判别式分析(LCA)、贝叶斯内部或外部分类器。

6、根据权利要求1所述的方法，包括：当解决所述问题时仅处理重要特征。

7、根据权利要求1所述的方法，其中所述决策机包括以下任一种：支持向量机、主要成分分析机、核主要成分分析机、独立成分分析机或线性判别式分析机。

8、根据权利要求7所述的方法，其中所述决策机包括支持向量分类机，该方法进一步包括：

将分开所述向量的超平面定义为离散类。

9、根据权利要求8所述的方法，包括：利用仅包含重要特征的向量来定义所述超平面。

10、根据权利要求7所述的方法，其中所述决策机包括支持向量回归机。

11、根据权利要求1所述的方法，包括：

将所述最小化问题的解的值与预定的阈值进行比较，从而确定相应的特征是否被认为是无关紧要的。

12、根据权利要求11所述的方法，包括：

归一化所述最小化问题的解。

13、根据权利要求1所述的方法，其中所述解决最小化问题的步骤包括最小化2-范数的平方。

14、根据权利要求1所述的方法，其中所述解决最小化问题的步骤包括相对于1-范数进行最小化。

15、根据权利要求1所述的方法，其中所述解决最小化问题的步骤包括相对于无穷-范数进行最小化。

16、根据权利要求1所述的方法，包括：

将所述最小平方问题映射到所述特征空间中。

17、根据权利要求13所述的方法，包括：

对从所述特征空间得出的测试向量进行分类。

18、一种被编程以执行权利要求1所述方法的计算设备。

19、一种根据权利要求15的计算设备，包括下列任意一种：

个人计算机；

个人数字助理；

诊断医疗设备；或

无线设备。

20、一种承载机器可读指令的介质，所述指令由一个或多个处理器执行以实现权利要求1所述的方法。

21、根据权利要求1所述的方法，进一步包括：