CN103605711A

CN103605711A - 支持向量机分类器的构造方法及装置、分类方法及装置

Info

Publication number: CN103605711A
Application number: CN201310559826.7A
Authority: CN
Inventors: 刘建伟; 刘媛; 罗雄麟
Original assignee: China University of Petroleum Beijing
Current assignee: China University of Petroleum Beijing
Priority date: 2013-11-12
Filing date: 2013-11-12
Publication date: 2014-02-26
Anticipated expiration: 2033-11-12
Also published as: CN103605711B

Abstract

本发明提供了一种支持向量机分类器的构造方法及装置、分类方法及装置，包括：确定非线性的单变量带权核函数；基于单变量带权核函数确定非凸Lp分式范数罚目标函数；利用非凸Lp分式范数罚目标函数构造支持向量机分类器。本发明与现有技术中对高维小样本数据进行分类时需要遍历所有特征维的组合来寻找所需的特征的技术方案相比，构造的支持向量机分类器用于对高维小样本数据进行分类，产生更稀疏的模型，更准确的实现任意结构的特征选择，得到更好的预测准确度，大幅度地降低了计算复杂度，避免了数据灾难。

Description

支持向量机分类器的构造方法及装置、分类方法及装置

技术领域

本发明涉及智能信息处理技术领域，特别涉及一种支持向量机（Support VectorMachine，简称为SVM）分类器的构造方法及装置、分类方法及装置。

技术背景

在计算机视觉例如：脑核磁共振三维成像、生物信息学、癌症微阵列基因诊断和商业网站客户关系分析等领域，大量存在着高维小样本数据，高维小样本数据的特点是样例为高维数据，样例维数高达几千维到几万维。高维小样本数据样例的类标签获取比较困难，如果采用人工标注的方式代价比较高，从而导致有类标签的样例比较少，样例-类标签对的个数也比较少，通常只有几十个或几百个。

基于这种情况，就要求设计出不但有准确的预测性能，而且能够找出与预测输出最相关的输入样例向量的分量的分类器，即实现特征选择，例如找出与预测的疾病最相关的基因，以便于生物学的研究及医学的诊断。通常的L2范数正则化SVM需要遍历所有特征维的组合来寻找所需的特征，从而导致计算复杂度很高，也容易造成数据灾难。

发明内容

本发明实施例提供了一种SVM分类器的构造方法及装置、分类方法及装置，用于对高维小样本数据进行分类，产生更稀疏的模型，更准确的实现任意结构的特征选择，得到更好的预测准确度，大幅度地降低了计算复杂度，避免了数据灾难。

本发明实施例提供了一种SVM分类器的构造方法，包括：确定非线性的单变量带权核函数；基于单变量带权核函数确定非凸Lp分式范数罚目标函数；利用非凸Lp分式范数罚目标函数构造SVM分类器。

在一个实施例中，单变量带权核函数包括以下至少之一：

阶次为q的单变量带权多项式核函数：k_lV(x_il,x_jl)=((V_kkx_il)^T(V_llx_jl)+c)^q；

单变量带权径向基核函数：

k_{lV} (x_{il}, x_{jl}) = \exp ({- | | (V_{ll} x_{il}) - (V_{ll} x_{jl}) | |}_{2}^{2} / σ^{2});

单变量带权神经元的非线性作用核函数：k_lV(x_il,x_jl)=tanh(k(V_kkx_il)^T(V_llx_jl)-δ)；

其中，，k_lV(·,·)表示单变量带权核函数；i和j表示样例下标；(x_i,y_i)表示样例标签对，x_i和x_j表示样例；c和k表示常数，c>0；l表示样例特征的下标，x_il表示样例x_i的第l维特征；V表示权对角矩阵，V∈R^mn×mn，diag(V)=(V₁₁,…,V_1m,V₂₁,…,V_2m,…,V_n1,…,V_nm)^T，其中，0≤V₁₁,…,V_1m,V₂₁,…,V_2m,…,V_n1,…,V_nm≤1；q、σ、k和δ表示核参数，σ>0。

在一个实施例中，基于单变量带权核函数确定非凸Lp分式范数罚目标函数为：

\min_{w, V, C, p} C \cdot L (w^{T} k_{V} (x, \cdot), y) + Ω_{1} (w) + Ω_{2} (V)

其中，w表示模型向量；C表示L(w^Tk_V(x,·),y)与Ω₂(V)之间的权衡参数，C≥0；p表示正则化阶次，0<p≤2；L(w^Tk_V(x,·),y)表示损失函数；k_V(x,·)表示以x作为自变量的函数，另一个参数为一确定值；k_V(x_i,x_j)表示函数在x_i和x_j这两个点上的值，

其中，k_lV(x_il,x_jl)表示单变量带权核函数，m表示单变量带权核的个数，i和j表示单变量带权核的下标；Ω₁(w)表示正则化项；Ω₂(V)表示样例特征权矩阵正则化项。

在一个实施例中，利用非凸Lp分式范数罚目标函数构造SVM分类器，包括：

在Ω₂(V)中引入辅助变量θ，构造辅助凸函数g(V,θ)，用g(V,θ)来替代目标函数中的Ω₂(V)，得到替代目标函数：

\min_{w, V, θ, C, p} C \cdot L (w^{T} k_{V} (x, \cdot), y) + Ω_{1} (w) + g (V, θ);

其中，g(V,θ)是以

和θ为变量的函数，且满足：

\{\begin{matrix} g (V, θ) &GreaterEqual; Ω_{2} (θ), & &ForAll; θ \\ g (V, V) = Ω_{2} (V) \end{matrix};

求解替代目标函数的最优解，根据求得的最优解构造SVM分类器。

在一个实施例中，所述构造辅助凸函数g(V,θ)，用g(V,θ)来替代目标函数中的Ω₂(V)，得到替代目标函数，包括：

采用局部二次变分近似法，或者局部线性变分近似法构造g(V,θ)得到替代目标函数；

所述求解替代目标函数的最优解，包括：

将给定的训练样例，作为初始样本集；

对初始样本集进行归一化处理；

将归一化处理后的初始样本集分为训练样本集和测试样本集；

在训练样本集上，采用网格搜索法求解所述替代目标函数的最优模型参数值；

固定C、p和核参数在最优模型参数值上，在测试样本集上，使用轮转变量寻优算法求解替代目标函数得到最优解。

在一个实施例中，采用局部二次变分近似法得到的替代目标函数为：

\min_{w, V, θ, C, p} \frac{C}{n} Σ_{i = 1}^{n} \max {0,1 - y_{i} w^{T} k_{V} (x_{i}, \cdot)} + \frac{1}{2} {| | w | |}_{2}^{2} + λ \frac{1}{2 p} Σ_{i = 1}^{mn} (p {| θ_{i} |}^{p - 2} V_{ii}^{2} + (2 - p) {| θ_{i} |}^{p}),

其中，λ=1-C，k_V(x_i,·)表示将样例映射到非线性函数空间中的非线性映射函数。

在一个实施例中，采用局部线性变分近似法得到的替代目标函数为：

\min_{w, V, θ, C, p} \frac{C}{n} Σ_{i = 1}^{n} \max {0,1 - y_{i} w^{T} k_{V} (x_{i}, \cdot)} + \frac{1}{2} {| | w | |}_{2}^{2} + λ \frac{1}{p} Σ_{i = 1}^{mn} (p {| θ_{i} |}^{p - 1} | V_{ii} | + (1 - p) {| θ_{i} |}^{p}),

在一个实施例中，在训练样本集上，采用网格搜索法求解所述替代目标函数的最优模型参数值，包括：

在所述训练样本集上，通过粗搜索和细搜索两级结构的网格搜索法输出替代目标函数的模型向量w、权对角矩阵V，以及权衡参数C、正则化阶次p和核参数的最优值。

在一个实施例中，在所述训练样本集上，通过粗搜索和细搜索两级结构的网格搜索法输出替代目标函数的模型向量w、权对角矩阵V，以及权衡参数C、正则化阶次p和核参数的最优值，包括：

在C、p、q、σ、k、δ的取值区间上选取粗搜索的离散值，形成六个模型参数值的离散值；

将六个模型参数值的各种离散值的组合组成六维网格点；

在所述六维网格点的每一个网格点上，固定C、p、q、σ、k、δ的值；

将所述训练样本集分成C_N个大小相同的子集，其中，C_N表示每个网格点上使用的交叉校验的倍数；

循环执行以下步骤C_N次，直至所有的C_N个子集都作为交叉校验的预测样本集被预测一遍：用C_N个大小相同的子集中的C_N-1个子集得到模型向量w；计算判别函数，用该判别函数预测C_N个大小相同的子集中除所述C_N-1个子集之外的子集的预测准确率；

取C_N次预测所得准确率的平均值作为该网格节点的预测准确率值；

选取预测准确率值最大的网格点作为粗搜索确定的模型参数值；

缩小搜索区间和搜索步长，在选取的预测准确率值最大的网格点附近使用C_N倍交叉校验过程进行细搜索得到替代目标函数的最优模型参数值。

在一个实施例中，固定C、p和核参数在最优参数值上，使用轮转变量寻优算法求解替代目标函数得到最优解，包括：

设置最大迭代次数T；

设置θ、w和V的初始值；

重复执行以下步骤，直至满足预设的终止条件或者重复次数大于T次：将当前θ和w的值作为已知值，求解替代目标函数中V的最优值，将求得的V的最优值和当前θ的值作为已知值，求解替代目标函数中w的最优值，将求得的w和V的最优值作为已知值，求解替代目标函数中θ的最优值；

将求得的θ、w和V的最优值作为替代目标函数的最优解。

本发明实施例还提供了一种对高维小样本数据进行分类的方法，包括：根据上述SVM分类器的构造方法，构造SVM分类器；利用构造的SVM分类器，对高维小样本数据进行分类。

本发明实施例还提供了一种SVM分类器的构造装置，包括：核函数确定模块，用于确定非线性的单变量带权核函数；目标函数确定模块，用于基于单变量带权核函数确定非凸Lp分式范数罚目标函数；构造模块，用于利用非凸Lp分式范数罚目标函数构造SVM分类器。

在一个实施例中，单变量带权核函数包括以下至少之一：

单变量带权径向基核函数：

k_{lV} (x_{il}, x_{jl}) = \exp ({- | | (V_{ll} x_{il}) - (V_{ll} x_{jl}) | |}_{2}^{2} / σ^{2});

单变量带权神经元的非线性作用核函数：

k_lV(x_il,x_jl)=tanh(k(V_kkx_il)^T(V_llx_jl)-δ)；

其中，其中，k_lV(·,·)表示单变量带权核函数；i和j表示样例下标；(x_i,y_i)表示样例标签对，x_i和x_j表示样例；c和k表示常数，c>0；l表示样例特征的下标，x_il表示样例x_i的第l维特征；V表示权对角矩阵，V∈R^mn×mn，diag(V)=(V₁₁,…,V_1m,V₂₁,…,V_2m,…,V_n1,…,V_nm)^T，其中，0≤V₁₁,…,V_1m,V₂₁,…,V_2m,…,V_n1,…,V_nm≤1；q、σ、k和δ表示核参数，σ>0。

在一个实施例中，所述目标函数确定模块确定的非凸Lp分式范数罚目标函数为：

\min_{w, V, C, p} C \cdot L (w^{T} k_{V} (x, \cdot), y) + Ω_{1} (w) + Ω_{2} (V)

其中，w表示模型向量；C表示L(w^Tk_V(x,·),y)与Ω₂(V)之间的权衡参数，C≥0；p表示正则化阶次，0<p≤2；L(w^Tk_V(x,·),y)表示损失函数；表示以x作为自变量的函数，另一个参数为一确定值；k_V(x_i,x_j)表示函数在x_i和x_j这两个点上的值，其中，k_lV(x_il,x_jl)表示单变量带权核函数，m表示单变量带权核的个数；Ω₁(w)表示正则化项；Ω₂(V)表示样例特征权矩阵正则化项。

在一个实施例中，所述构造模块包括：

替代目标函数构造单元，用于在Ω₂(V)中引入辅助变量θ，构造辅助凸函数g(V,θ)，用g(V,θ)来替代目标函数中的Ω₂(V)，得到替代目标函数：

\min_{w, V, θ, C, p} C \cdot L (w^{T} k_{V} (x, \cdot), y) + Ω_{1} (w) + g (V, θ);

其中，g(V,θ)是以

和θ为变量的函数，且满足：

\{\begin{matrix} g (V, θ) &GreaterEqual; Ω_{2} (θ), & &ForAll; θ \\ g (V, V) = Ω_{2} (V) \end{matrix};

分类器构造单元，用于求解替代目标函数的最优解，根据求得的最优解构造SVM分类器。

在一个实施例中，替代目标函数构造单元具体用于采用局部二次变分近似法，或者局部线性变分近似法构造g(V,θ)得到替代目标函数；

所述分类器构造单元包括：

初始化子单元，用于将给定的训练样例，作为初始样本集；

归一化处理子单元，用于对初始样本集进行归一化处理；

划分子单元，用于将归一化处理后的初始样本集分为训练样本集和测试样本集；

模型参数值确定子单元，用于在训练样本集上，采用网格搜索法求解所述替代目标函数的最优模型参数值；

最优解确定子单元，用于固定C、p和核参数在最优模型参数值上，在测试样本集上，使用轮转变量寻优算法求解替代目标函数得到最优解。

\min_{w, V, θ, C, p} \frac{C}{n} Σ_{i = 1}^{n} \max {0,1 - y_{i} w^{T} k_{V} (x_{i}, \cdot)} + \frac{1}{2} {| | w | |}_{2}^{2} + λ \frac{1}{2 p} Σ_{i = 1}^{mn} (p {| θ_{i} |}^{p - 2} V_{ii}^{2} + (2 - p) {| θ_{i} |}^{p}),

\min_{w, V, θ, C, p} \frac{C}{n} Σ_{i = 1}^{n} \max {0,1 - y_{i} w^{T} k_{V} (x_{i}, \cdot)} + \frac{1}{2} {| | w | |}_{2}^{2} + λ \frac{1}{p} Σ_{i = 1}^{mn} (p {| θ_{i} |}^{p - 1} | V_{ii} | + (1 - p) {| θ_{i} |}^{p}),

在一个实施例中，所述模型参数值确定子单元具体用于在所述训练样本集上，通过粗搜索和细搜索两级结构的网格搜索法输出替代目标函数的模型向量w、权对角矩阵V，以及权衡参数C、正则化阶次p和核参数的最优值。

在一个实施例中，所述模型参数值确定子单元具体用于：

将六个模型参数值的各种离散值的组合组成六维网格点；

在一个实施例中，所述最优解确定子单元具体用于：设置最大迭代次数T；设置θ、w和V的初始值；重复执行以下步骤，直至满足预设的终止条件或者重复次数大于T次：将当前θ和w的值作为已知值，求解替代目标函数中V的最优值，将求得的V的最优值和当前θ的值作为已知值，求解替代目标函数中w的最优值，将求得的w和V的最优值作为已知值，求解替代目标函数中θ的最优值；

将求得的θ、w和V的最优值作为替代目标函数的最优解。

本发明实施例还提供了一种对高维小样本数据进行分类的装置，包括：构造模块，用于根据上述的SVM分类器的构造装置，构造SVM分类器；分类模块，用于利用构造的SVM分类器，对高维小样本数据进行分类。

在本发明实施例中，确定非线性的单变量带权核函数，并基于该单变量带权核函数确定非凸Lp分式范数罚目标函数，利用该目标函数构造SVM分类器，将核方法和Lp范数正则化用到了SVM分类器的设计过程中，并在核矩阵中引入了带权的核函数，与现有技术中对高维小样本数据进行分类时需要遍历所有特征维的组合来寻找所需的特征的技术方案相比，使得构造的SVM分类器用于对高维小样本数据进行分类，产生更稀疏的模型，更准确的实现任意结构的特征选择，得到更好的预测准确度，大幅度地降低了计算复杂度，避免了数据灾难。

附图说明

图1是本发明实施例SVM分类器的构造方法流程图；

图2是本发明实施例采用网格搜索法和轮转变量寻优算法来求解目标函数的最优解的方法流程图；

图3是本发明实施例通过粗搜索和细搜索两级结构的网格搜索法输出替代目标函数的最优模型参数值的方法流程图；

图4是本发明实施例使用轮转变量寻优算法求解替代目标函数得到最优解的方法流程图；

图5是一般核函数的构造过程示意图；

图6是本发明实施例的单变量核函数的构造过程示意图；

图7是模型向量w取稀疏Lp范数作为分类器目标函数的正则化项的特征选择效果示意图；

图8是单变量带权核权矩阵对角元素组成向量的的Lp分式范数罚特征选择效果示意图；

图9是本发明实施例grid-Lp-SVM算法流程图；

图10是本发明实施例网格搜索算法流程图；

图11是本发明实施例构造SVM分类器的流程示意图；

图12是本发明实施例的用轮转寻优算法求解目标函数最优解的流程图；

图13是本发明实施例的固定C，p和核参数时用局部二次变分近似法求解实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器替代问题的流程图；

图14是本发明实施例的固定C，p和核参数时用局部线性变分近似法求解实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器替代问题的流程图；

图15是本发明实施例的SVM分类器的构造装置的结构框图；

图16是本发明实施例的对高维小样本数据进行分类的方法流程图；

图17是本发明实施例的对高维小样本数据进行分类的装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

发明人通过对L2范数-SVM、L1范数-SVM和L0范数-SVM分类算法的实验源代码的分析研究发现，L2范数、L1范数和L0范数正则化的SVM分类算法训练得到的模型权向量w不是稀疏向量，即模型权向量w的各个分量的大小数量级基本一致。特征选择需要人为保留模型权向量w中值最大的d个分量，而将模型权向量w中其余的分量置零，经过处理后的w作为最终的模型权向量。在通过测试样本上进行预测时，上述的过程在选择不同的d值时反复进行，从而得到一组测试错误率，最终特征选择结果由测试误差最小时所选定的特征个数（即d的值）和各特征在w中的下标位置来确定。

由此可见，当前的L2范数-SVM、L1范数-SVM和L0范数-SVM分类器需要依靠遍历所有特征维的组合来寻找所需的特征，得到的模型向量w不是稀疏向量，需要靠人工选取数值最大的模型分量作为所选特征。

鉴于此，本发明实施例提出了一种构造SVM分类器的方法，如图1所示，包括以下步骤：

步骤101：确定非线性的单变量带权核函数；

步骤102：基于单变量带权核函数确定非凸Lp分式范数罚目标函数；

步骤103：利用非凸Lp分式范数罚目标函数构造SVM分类器。

在上述实施方式中，确定非线性的单变量带权核函数，并基于该单变量带权核函数确定非凸Lp分式范数罚目标函数，利用该目标函数构造SVM分类器，将核方法和Lp范数正则化用到了SVM分类器的设计过程中，并在核矩阵中引入了带权的核函数，与现有技术中对高维小样本数据进行分类时需要遍历所有特征维的组合来寻找所需的特征的技术方案相比，使得构造的SVM分类器用于对高维小样本数据进行分类，产生更稀疏的模型，更准确的实现任意结构的特征选择，得到更好的预测准确度，大幅度地降低了计算复杂度，避免了数据灾难。

在构造分类器的过程中，需要通过目标函数来衡量一个分类器的好坏，因此对目标函数的构造和求解是构建分类器十分重要的一步，目标函数所限定的是一个分类器的各项指标的好坏，目标函数的值越小表明构造的分类器越好，在本发明实施例中，构造的分类器所对应的目标函数为：

\min_{w, V, C, p} C \cdot L (w^{T} k_{V} (x, \cdot), y) + Ω_{1} (w) + Ω_{2} (V)

其中，w表示模型向量；V表示权对角矩阵，V∈R^mn×mn，diag(V)=(V₁₁,…,V_1m,V₂₁,…,V_2m,…,V_n1,…,V_nm)^T，其中，0≤V₁₁,…,V_1m,V₂₁,…,V_2m,…,V_n1,…,V_nm≤1；C表示L(w^Tk_V(x,·),y)与Ω₂(V)之间的权衡参数，C≥0；p表示正则化阶次，0<p≤2；L(w^Tk_V(x,·),y)表示损失函数，

表示以x作为自变量的函数，另一个参数为一确定值；k_V(x_i,x_j)表示函数在x_i和x_j这两个点上的值，

对L(w^Tk_V(x,·),y)求最小，表示要解得的模型向量得到的分类器预测错误率最小；对Ω₁(w)求最小，表示解得的模型向量得到的分类器的间隔最大；对Ω₂(V)求最小，表示解得的模型向量构造的分类器所参与的特征分量最少。

具体的，上述目标函数可以表示如下：

\begin{matrix} \min_{w, V, C, p} C \cdot L (w^{T} k_{V} (x, \cdot), y) + Ω_{1} (w) + Ω_{2} (V) \\ = \min_{w, V, C, p} \frac{C}{n} Σ_{i = 1}^{n} \max {0,1 - y_{i} w^{T} k_{V} (x_{i}, \cdot)} + \frac{1}{2} {| | w | |}_{2}^{2} + (1 - C) \frac{1}{p} {| | diag (V) | |}_{p}^{p} \end{matrix}

其中，diag(V)表示V的对角矩阵，diag(V)=(V₁₁,…,V_1m,V₂₁,…,V_2m,…,V_n1,…,V_nm)^T，由V的对角线元素组成。

考虑到权矩阵正则化项Ω₂(V)采用Lp范数

其中，0<p≤2，当1<p≤2时使用L2范数SVM问题的序列最小最优化算法即可求解，而当0<p≤1时，

在零点不可微，并且为非凸函数，从而使得求解变得很困难。为了解决上述问题，在本发明实施例中，采用变分法在Ω₂(V)中引入新的辅助变量θ，构造辅助凸函数g(V,θ)，其中，g(V,θ)是以

和θ为变量的函数，且满足：

\{\begin{matrix} g (V, θ) &GreaterEqual; Ω_{2} (θ), & &ForAll; θ \\ g (V, V) = Ω_{2} (V) \end{matrix};

用辅助凸函数来替代目标函数中的样例特征权矩阵正则化项Ω₂(V)，得到替代目标函数：

\min_{w, V, θ, C, p} C \cdot L (w^{T} k_{V} (x, \cdot), y) + Ω_{1} (w) + g (V, θ)

然后，求解替代目标函数的最优解，也就相当于求解得到了原始目标函数的最优解，最后通过求得的最优解构造SVM分类器即可。

在本发明实施例中所使用的带权单变量核函数包括但不限于以下至少之一：

1）阶次为q的单变量带权多项式核函数：k_lV(x_il,x_jl)=((V_kkx_il)^T(V_llx_jl)+c)^q；

2）单变量带权径向基核函数：

k_{lV} (x_{il}, x_{jl}) = \exp ({- | | (V_{ll} x_{il}) - (V_{ll} x_{jl}) | |}_{2}^{2} / σ^{2});

3）单变量带权Sigmoid核函数：k_lV(x_il,x_jl)=tanh(k(V_kkx_il)^T(V_llx_jl)-δ)；

其中，k_lV(·,·)表示单变量带权核函数；i和j表示样例下标；(x_i,y_i)表示样例标签对，x_i和x_j表示样例；c和k表示常数，c>0；l表示样例特征的下标，x_il表示样例x_i的第l维特征；V表示权对角矩阵，V∈R^mn×mn，diag(V)=(V₁₁,…,V_1m,V₂₁,…,V_2m,…,V_n1,…,V_nm)^T，其中，0≤V₁₁,…,V_1m,V₂₁,…,V_2m,…,V_n1,…,V_nm≤1；q、σ、k和δ表示核参数，σ>0。

具体的，在上述步骤103利用目标函数构造SVM分类器中，主要采用局部二次变分近似法或者局部线性变分近似法构造g(V,θ)，同时采用网格搜索法和轮转变量寻优算法来具体求解目标函数的最优解，如图2所示，包括以下步骤：

步骤201：采用局部二次变分近似法，或者局部线性变分近似法构造所述辅助凸函数g(V,θ)；

步骤202：将给定的训练样例，作为初始样本集；

步骤203：对初始样本集进行归一化处理；

步骤204：将归一化处理后的初始样本集分为训练样本集和测试样本集；

步骤205：在训练样本集上，采用网格搜索法求解所述替代目标函数的最优模型参数值；

步骤206：固定C、p和核参数在最优模型参数值上，在测试样本集上，使用轮转变量寻优算法求解替代目标函数得到最优解。

在上述步骤201中采用局部二次变分近似法得到的替代目标函数为：

\min_{w, V, θ, C, p} \frac{C}{n} Σ_{i = 1}^{n} \max {0,1 - y_{i} w^{T} k_{V} (x_{i}, \cdot)} + \frac{1}{2} {| | w | |}_{2}^{2} + λ \frac{1}{2 p} Σ_{i = 1}^{mn} (p {| θ_{i} |}^{p - 2} V_{ii}^{2} + (2 - p) {| θ_{i} |}^{p}),

采用局部线性变分近似法得到的替代目标函数为：

\min_{w, V, θ, C, p} \frac{C}{n} Σ_{i = 1}^{n} \max {0,1 - y_{i} w^{T} k_{V} (x_{i}, \cdot)} + \frac{1}{2} {| | w | |}_{2}^{2} + λ \frac{1}{p} Σ_{i = 1}^{mn} (p {| θ_{i} |}^{p - 1} | V_{ii} | + (1 - p) {| θ_{i} |}^{p}) .

具体的，上述步骤205在训练样本集上，采用网格搜索法求解所述替代目标函数的最优模型参数值，可以是在所述训练样本集上，通过粗搜索和细搜索两级结构的网格搜索法输出替代目标函数的模型向量w、权对角矩阵V，以及权衡参数C、正则化阶次p和核参数的最优值。

如图3所示，通过粗搜索和细搜索两级结构的网格搜索法输出替代目标函数的最优模型参数值可以包括以下步骤：

步骤301：在C、p、q、σ、k、δ的取值区间上选取粗搜索的离散值，形成六个模型参数值的离散值；

步骤302：将六个模型参数值的各种离散值的组合组成六维网格点；

步骤303：在所述六维网格点的每一个网格点上，固定C、p、q、σ、k、δ的值；将所述训练样本集分成C_N个大小相同的子集，其中，C_N表示每个网格点上使用的交叉校验的倍数；

步骤304：循环执行以下步骤C_N次，直至所有的C_N个子集都作为交叉校验的预测样本集被预测一遍：用C_N个大小相同的子集中的C_N-1个子集得到模型向量w；计算判别函数，用该判别函数预测C_N个大小相同的子集中除所述C_N-1个子集之外的子集的预测准确率；

步骤305：取C_N次预测所得准确率的平均值作为该网格节点的预测准确率值；

步骤306：选取预测准确率值最大的网格点作为粗搜索确定的模型参数值；

步骤307：缩小搜索区间和搜索步长，在选取的预测准确率最大的网格点附近使用C_N倍交叉校验过程进行细搜索得到替代目标函数的最优模型参数值。

在上述步骤205中，在测试样本集上，使用轮转变量寻优算法求解替代目标函数得到最优解，可以如图4所示，包括以下步骤：

步骤401：设置最大迭代次数T；

步骤402：设置θ、w和V的初始值；

步骤403：重复执行以下步骤，直至满足预设的终止条件或者重复次数大于T次：将当前θ和w的值作为已知值，求解替代目标函数中V的最优值，将求得的V的最优值和当前θ的值作为已知值，求解替代目标函数中w的最优值，将求得的w和V的最优值作为已知值，求解替代目标函数中θ的最优值；

步骤404：将求得的θ、w和V的最优值作为替代目标函数的最优解。

本发明实施例给出了一个具体的实施对本发明的构造SVM分类器的方法进行具体说明：

给定样例-类标签对

{x_{i}, y_{i}}_{i = 1}^{n}, x_{i} &Element; R^{m}, y_{i} &Element; {- 1, + 1},

即，给定训练样例：D=(x₁,x₂,…,x_n),x_i∈R^m和样例的类标签y=(y₁,y₂,…,y_n)∈{-1,+1}ⁿ。

分类器学习的目标是学习从训练样例到类标签的映射，从而能够实现对未知数据点的类标签进行准确预测，同时实现特征选择。在本发明实施例中，分类器模型函数为

也可以是

然而由于

可以经过中心变换变为

的形式。因此，在本发明实施例仅以模型函数为

为例进行说明，其中

表示非线性核基函数，

用于将输入向量映射到高维特征空间中，使数据线性可分。根据表示理论，要学习的模型权向量可以表示为经非线性映射后的核特征空间中训练数据点的线性组合

在本发明实施例中，可以采用单变量带权多项式核、单变量带权径向基核、和单变量带权Sigmoid核等核函数，进一步的，由表示理论可以得到：

f (x) = Σ_{i = 1}^{n} a_{i} k_{V} ({x, x}_{i}) .

通过符号函数sign(f(x))作为分类判别函数来预测样例的类标签：

当f(x_i)>0时，

当f(x_i)<0时，

确定实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器的目标函数为P：

\begin{matrix} P : \min_{w, V, C, p} C \cdot L (w^{T} k_{V} (x, \cdot), y) + Ω_{1} (w) + Ω_{2} (V) \\ = \min_{w, V, C, p} C \cdot L (w^{T} k_{V} (x, \cdot), y) + \frac{1}{2} {| | w | |}_{2}^{2} + (1 - C) \frac{1}{p} {| | diag (V) | |}_{p}^{p} \end{matrix}

（公式1）

其中，权矩阵V∈R^mn×mn为对角阵，除对角线上的元素为0≤V_ii≤1外，权矩阵V的其余元素均为0，即

向量diag(V)=(V₁₁,…,V_1m,V₂₁,…,V_2m,…,V_n1,…,V_nm)^T由权矩阵V的对角线元素组成，C≥0为L(w^Tk_V(x,·),y)和Ω₂(V)之间的权衡参数，p(0<p≤2)为正则化阶次。

在公式1的目标函数中包含三个相互关联的权衡项：L(w^Tk_V(x,·),y)为损失函数，对L(w^Tk_V(x,·),y)求最小，表示要求解的模型向量必须使预测错误率最小，Ω₁(w)为正则化项（也称为罚项），对模型向量取L2范数得到Ω₁(w)，对Ω₁(w)求最小，表示解得的模型向量得到的分类器的间隔最大，从而使得分类器的泛化误差最小，Ω₂(V)为样例特征权矩阵正则化项（也称为特征集罚项），对带权单变量核函数中的权对角矩阵对角元素组成的向量求Lp范数得到Ω₂(V)，对Ω₂(V)求最小，结果使得对角矩阵对角元素组成的向量的分量有尽可能多的分量为0，即对角矩阵对角元素大多为0，也就是对角矩阵V的秩最小，从而使得尽可能少的样例特征分量参与模型构造，以便实现特征选择和模型稀疏化。

值得说明的是，下面的说明中变量和特征的意思等同。在公式1中

表示单变量带权核函数，在本发明实施例中提出了一种新的核函数的构造方法，这种核函数与一般的径向基核有一定联系。为了更好的说明本发明的核函数的构造方法，首先对一般径向基核进行分析：

\begin{matrix} k (x_{i}, x_{j}) = \exp (- {| | x_{i} - x_{j} | |}_{2}^{2} / σ^{2}) \\ = \exp (- Σ_{l = 1}^{m} {(x_{il} - x_{jl})}^{2} / σ^{2}) \\ = \exp (- {(x_{i 1} - x_{j 1})}^{2} σ^{2}) \exp (- {(x_{i 2} - x_{j 2})}^{2} / σ^{2}) . . . \exp (- {(x_{im} - x_{jm})}^{2} / σ^{2}) \\ = k_{1} (x_{i 1}, x_{j 1}) k_{2} (x_{i 2}, x_{j 2}) . . . k_{m} (x_{im}, x_{jm}) \\ = Π_{l = 1}^{m} k_{l} (x_{il}, x_{jl}) \end{matrix}

（公式2）

由上述公式2可以看出径向基核可以解释为每个变量x_i的分量核k_l(x_il,x_jl)（即，单变量带权核）的乘积。在本发明实施例中所使用的带权单变量核函数主要有以下三种：

1）阶次为q的单变量带权多项式核：

k_lV(x_il，x_jl)＝((V_kkx_il)^T(V_llx_jl+c)^q，c＞0 （公式3）

2）单变量带权径向基核：

k_{lV} (x_{il}, x_{jl}) = \exp ({- | | (V_{ll} x_{il}) - (V_{ll} x_{jl}) | |}_{2}^{2} / σ^{2}), σ > 0

（公式4）

3）单变量带权Sigmoid核：

k_lV(x_il,x_jl)=tanh(k(V_kkx_il)^T(V_llx_jl)-δ) （公式5）

在本发明实施例所提出的核函数采用的是单变量核k_lV(x_il,x_jl)的求和形式，即如公式6所示：

k_{V} (x_{i}, x_{j}) = \frac{1}{m} Σ_{l = 1}^{m} K_{lV} (x_{il}, x_{jl})

（公式6）

即，在构造核函数时以给定样例的单特征变量为基础，先构造单变量核函数，然后求和得到核函数，如图5所示一般核函数的构造过程示意图，如图6所示是本发明实施例所提出的单变量核函数的构造过程示意图。

如图7所示是对模型向量w取稀疏Lp范数作为正则化项的特征选择效果示意图，所有的样例的某个特征同时被选中或不被选中，构造的模型没有足够丰富的结构，其中黑色表明被选择的特征，白色表示未被选择的特征；如图8所示是单变量带权核产生的特征选择效果图。因为采用了单变量带权核函数，通过权矩阵V∈R^mn×mn可以对所有样例的每一个特征加权，对带权单变量核函数中的权对角矩阵对角元素组成的mn维向量求Lp范数得到正则化项Ω₂(V)，使Ω₂(V)最小的模型稀疏化的结果是可以形成任意不规则的特征选择效果，每一个样例选中的特征均可不同，这样可以充分考虑样本本身的特性，构造的模型有足够丰富的结构。

权矩阵正则化项采用Lp范数

这里0<p≤2，当1<p≤2时使用L2范数SVM问题的序列最小最优化算法即可求解，而当0<p≤1时，

在零点不可微，并且非凸函数，从而使得求解变得更加困难。在本发明实施例中，采用变分法在Ω₂(V)中引入新的辅助变量θ，构造辅助凸函数g(V,θ)来替代Ω₂(V)，g(V,θ)是和θ的某个代数表达式作为变量的函数，且满足：

\{\begin{matrix} g (V, θ) &GreaterEqual; Ω_{2} (θ), & &ForAll; θ \\ g (V, V) = Ω_{2} (V) \end{matrix}

（公式7）

也就是说，曲面g(V,θ)在曲面Ω₂(V)的上面，并且曲面g(V,θ)与曲面Ω₂(V)在点diag(V)正切。

使用辅助函数，保证在更新下Ω₂(V)是非递增的，仅当V^old是g(V,V^old)的局部极小值，并且更新估计的迭代序列收敛到Ω₂(V)的局部极小值时，Ω₂(V^new)=Ω₂(V^old)。

用最小化主控函数g(V,θ)来代替最小化Ω₂(V)，从而将目标函数P变为替代目标函数（也称为替代问题）：

Q : \min_{w, V, θ, C, p} C \cdot L (w^{T} k_{V} (x, \cdot), y) + Ω_{1} (w) + g (V, θ)

（公式8）

根据表示理论，有

（公式9）

（公式10）

因此，公式8所示的目标函数中w^Tk_V(x,·)、

和

均只包含乘积项

不需要显式求解的表达式。

在实际求解替代问题

Q : \min_{w, V, θ, C, p} C \cdot L (w^{T} k_{V} (x, \cdot), y) + Ω_{1} (w) + g (V, θ)

之前，需要选择最优的C和p，以及不同核函数的核参数的值，即，选择单变量带权多项式核的阶次q的值，单变量带权径向基核的核宽度σ的值，单变量带权Sigmoid核的k和δ的值。

在本发明实施例中采用grid-Lp-SVM算法，该算法流程示意图如图9所示，grid-Lp-SVM算法采用网格搜索法学习目标函数的模型参数值，网格搜索法的搜索过程为：

步骤1：把训练样本根据交叉校验的倍数C_N分为C_N等份；

步骤2：粗搜索过程：在模型参数的整个取值区间以一定的搜索步长使用C_N倍交叉校验过程搜索较优的模型参数值；

步骤3：细搜索：在得到的较优的模型参数值附近，缩小搜索区间和搜索步长，使用C_N倍交叉校验过程搜索最优参数值。

网格搜索过程中所产生的模型更新参数输入到实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器替代问题轮转变量优化算法，实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器替代问题轮转变量优化算法的输出结果经计算获得交叉校验误差，选择交叉校验误差最小的模型参数值作为最优的模型参数值。

网格搜索法首先需要根据经验，利用待解决问题的性质和启发信息确定出可能得到较好结果参数的待搜索范围，在本发明实施例中以设定的参数范围为C∈[2^-3,2³]，p∈(0,2]，σ>0，k∈[1,10]，δ∈[0,1000]为例进行说明，并设置一定的搜索步长进行粗搜索，即，在待搜索模型参数整个取值区间范围内对每个参数取一系列待检验的离散值，然后分别取参数的待检验值的所有可能组合按照C_N倍交叉校验过程调用实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器替代问题轮转变量优化算法计算出每个模型参数可能组合上的C_N个预测准确率，在每一个模型参数的待检验值的可能组合上计算平均准确率，比较模型参数的待检验值的所有可能组合上的平均准确率，选出粗搜索过程中最大平均准确率的模型参数的组合上各模型参数的取值，然后在粗搜索过程中得到的最大平均准确率的模型参数的取值附近选定一个较小的搜索取值区间作为细搜索的取值范围，在细搜索的取值范围内减小搜索步长进行细搜索，在细搜索各模型参数的取值点上执行与粗搜索过程同样的运算得到最大平均准确率的模型参数的组合上各模型参数的取值作为网格搜索法最终的输出结果。

网格搜索法可以同时搜索多个参数值，在计算过程中各组参数相互解耦，便于并行计算，运行效率高，并且由于所选网格点有限，算法复杂性低。

以10倍交叉校验过程作为网格搜索法的实例，在C和p，q，σ，k，δ的取值区间上选取适当粗搜索的离散值，六个模型参数值的各种离散值组合形成六维网格点，在每一个网格点上，固定C和p，q，σ，k，δ的值，将训练数据集分成10个大小相同的子集，先用其中9个子集作为训练样本调用实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器替代问题轮转变量优化算法得到模型向量w，计算判别函数，用该函数预测剩下的那个子集的预测准确率，按照这种方式循环进行10次，直至所有的10个子集都作为交叉校验样本被预测一遍。取10次预测所得准确率的平均值作为最终的预测准确率值，在所有的网格点上重复上述步骤，选取最大预测准确率值网格点作为粗搜索确定的模型参数值，在此附近，选择较小的区间和步长，使用类似粗搜索过程得到最终最大预测准确率值网格点作为网格搜索过程的最终结果。

如图10所示，采用网格搜索法学习目标函数的模型参数值包括：

输入：C和p，q，σ，k，δ的取值区间，C∈[2^-3,2³]，p∈(0,2]，σ>0，k∈[1,10]，δ∈[0,1000]；

输出：最优参数值C^(*)，p^(*)，q^(*)，σ^(*)，k^(*)和δ^(*)

执行顺序：

步骤1）粗搜索：设定网格搜索的搜索范围和搜索步长，确定网格，在网格点上的参数值C^(t)，p^(t)，q^(t)，σ^(t)，k^(t)和δ^(t)上，执行10倍交叉校验过程，选定所有粗搜索网格点上最优的交叉校验预测准确率，确定具有较优预测准确率的参数值C⁽⁺⁾，p⁽⁺⁾，q⁽⁺⁾，σ⁽⁺⁾，k⁽⁺⁾和δ⁽⁺⁾；

步骤2）细搜索：在粗搜索选定的具有较优预测准确率的参数值C⁽⁺⁾，p⁽⁺⁾，q⁽⁺⁾，σ⁽⁺⁾，k⁽⁺⁾和δ⁽⁺⁾附近，选定搜索区间，减小搜索步长，确定细搜索网格，在细搜索网格点上的参数值C^(s)，p^(s)，q^(s)，σ^(s)，k^(s)和δ^(s)上，执行10倍交叉校验过程，选定所有细搜索网格点上最优的交叉校验预测准确率，确定具有最优预测准确率的参数值C^(*)，p^(*)，q^(*)，σ^(*)，k^(*)和δ^(*)；

步骤3）输出最优参数值C^(*)，p^(*)，q^(*)，σ^(*)，k^(*)和δ^(*)，将输出的C^(*)，p^(*)，q^(*)，σ^(*)，k^(*)和δ^(*)值作为公式8所示的目标函数的模型参数值。

在固定C值、p值和核参数的情况下，使用轮转变量优化算法求解替代问题Q。

即，如图11所示，固定模型参数Lp分式范数罚单变量带权核SVM分类器的优化问题P，构造辅助函数g，求解替代问题Q，输出结果。

下面对如何构造替代问题和如何使用轮转变量优化算法求解替代问题进行具体描述：

在本实例中，选取铰链损失函数

为例进行说明，得到目标函数：

（公式11）

用辅助凸函数来代替最小化Ω₂(V)，目标函数P变为替代问题：

（公式12）

将整个样本划分为训练样本和测试样本，把训练样本根据交叉校验的倍数C_N分为C_N等份，按照上述的网格搜索法得到最优的C，p和核参数的取值。在网格搜索过程在选定网格上的模型参数下调用轮转寻优算法求解实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器问题的公式12所示的替代问题。在网格搜索过程结束最优的模型参数确定后，将C，p和核参数的值固定在网格搜索过程得到的最优值上。在测试样本上，按照图12所示的流程用轮转寻优算法求解实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器问题替代问题，最小化公式12的替代问题来代替最小化公式11的原始优化问题，求解得到最优模型向量w，得到

在本发明实施例中，采用二次变分近似和线性变分近似这两种变分近似法构造辅助函数g(V,θ)，用网格搜索算法得到最优模型参数值，并采用轮转寻优法进行替代问题求解。具体描述如下。

1）局部二次变分近似构造辅助凸函数g(V,θ)及轮换变量迭代算法：

局部二次变分近似构造原始函数

的二次边界。由于0<p<1，|V_ii|^p是凹函数，因此，

γ (V_{ii}) = {| V_{ii} |}^{p} = \min_{α_{i}} {α_{i} V_{ii}^{2} - γ^{*} (α_{i})}

（公式13）

γ^{*} (α_{i}) = \min_{θ_{i}} {α_{i} θ_{i}^{2} - γ (θ_{i})}

（公式14）

其中γ^*(·)称为γ(·)的共轭函数或对偶函数。

令

p (θ_{i}) = α_{i} θ_{i}^{2} - γ (θ_{i})

（公式15）

当θ_i=0，p(θ_i=0)=0时，或者当θ_i≠0，p(θ_i)有稳定解时，对偶函数γ^*(α_i)达到极大值，此时：

p^{'} (θ_{i}) = 2 α_{i} θ_{i} - γ^{'} (θ_{i}) = 0 &DoubleRightArrow; α_{i} = \frac{γ^{'} (θ_{i})}{{2 θ}_{i}}

（公式16）

同时，由于γ(θ_i)=|θ_i|^p，因此：

γ'(θ_i)=p|θ_i|^p-1sign(θ_i) （公式17）

将公式14、公式16、和公式17代入公式13中，整理得到：

\begin{matrix} {| V_{ii} |}^{p} \leq \frac{γ^{'} (θ_{i})}{{2 θ}_{i}} (V_{ii}^{2} - θ_{i}^{2}) + γ (θ_{i}) \\ = \frac{1}{2} {p {| θ_{i} |}^{p - 2} V_{ii}^{2} + (2 - p) {| θ_{i} |}^{p}} \\ = g (V_{ii}, θ_{i}) \end{matrix}

（公式18）

在公式18中

即为得到的辅助凸函数，参数θ_i称为变分参数，得到的变分上界

在θ_i=±|V_ii|处正切于原正则化项

Ω_{2} (V) = {| | diag (V) | |}_{p}^{p} .

将公式18式代入公式12中得到原优化问题的替代问题（即替代目标函数）：

Q : \min_{w, V, θ, C, p} \frac{C}{n} Σ_{i = 1}^{n} \max {0,1 - y_{i} w^{T} k_{V} (x_{i}, \cdot)} + \frac{1}{2} {| | w | |}_{2}^{2} + λ \frac{1}{2 p} Σ_{i = 1}^{mn} (p {| θ_{i} |}^{p - 2} V_{ii}^{2} + (2 - p) {| θ_{i} |}^{p})

（公式19）

即，目标函数存在上界：

\begin{matrix} \frac{C}{n} Σ_{i = 1}^{n} \max {0,1 - y_{i} w^{T} k_{V} (x_{i}, \cdot)} + \frac{1}{2} {| | w | |}_{2}^{2} + λ \frac{1}{p} {| | diag (V) | |}_{p}^{p} \\ \leq \frac{C}{n} Σ_{i = 1}^{n} \max {0,1 - y_{i} w^{T} k_{V} (x_{i}, \cdot)} + \frac{1}{2} {| | w | |}_{2}^{2} + λ \frac{1}{2 p} Σ_{i = 1}^{mn} (p {| θ_{i} |}^{p - 2} V_{ii}^{2} + (2 - p) {| θ_{i} |}^{p}) \\ = q^{quad} (w, V, θ) \end{matrix}

（公式20）

可以用轮转变量迭代优化算法计算最小化目标函数的上界q^quad(w,V,θ)。将C、p和核参数固定在网格点上，迭代进行下面的步骤直至达到停止准则：

首先，随机置θ、w和V的初始值，固定w值和V值，使目标函数对于变分参数θ最小，即收紧变分界。求解

得到

θ=|diag(V)| （公式21）

然后，将得到的θ值作为已知值，使目标函数对于w和Ψ最小，得到w和Ψ的最优值。由于公式20二次依赖于w和V，因此这个问题是L2范数正则化问题，可以使用标准的L2范数正则化SVM序列最小最优化算法求解。在轮转变量优化算法执行过程中，首先，固定w值，使目标函数对于V最小，得到V的最优值；然后，固定V的值不变，使目标函数对于w最小，得到w的最优值。然后，利用得到的w值和V值重新估计θ的最优值，再利用得到的θ值重新估计w和V的最优值，反复迭代，直至收敛得到局部最优值。

固定C、p和核参数时用局部二次变分近似法求解实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器替代问题的轮转变量的优化算法如图13所示，包括：

输入：最大迭代次数T；

输出：w^(*)，V^(*)和θ^(*)；

执行顺序：

步骤1）随机置θ⁽⁰⁾的初值，利用公式19中的L2范数正则化问题的解初始化w⁽⁰⁾和V⁽⁰⁾，令t=0；

步骤2）令θ^(t+1):=|diag(V)^(t)|来收紧辅助函数界；

步骤3）求解w^(t+1)和V^(t+1)，包括：

固定w^(t)值不变，求解

V^{(t + 1)} : = \underset{V}{\arg \min} q^{quad} (w^{(t)}, V^{(t)}, θ^{(t + 1)});

固定V^(t+1)值不变，求解

w^{(t + 1)} : = \underset{w}{\arg \min} q^{quad} (w^{(t)}, V^{(t + 1)}, θ^{(t + 1)});

若满足 q^quad(w^(t+1),V^(t+1),θ^(t+1))-q^quad(w^(t),V^(t),θ^(t))||₂<10^-6或t>T，则转而执行步骤5；否则执行步骤4；

步骤4）令t=t+1，执行步骤2和步骤3；

步骤5）停止计算并输出结果w^(*)，V^(*)和θ^(*)。

构造原始目标函数P的权矩阵正则化项

的二次边界辅助函数g(V,θ)，得到替代目标函数Q，然后按照算法2求解替代目标函数得到最优解。

2）局部线性变分近似构造辅助凸函数g(V,θ)及轮转变量优化迭代算法：

局部线性变分近似构造原始函数

的线性边界。由于0<p<1，|V_ii|^p是凹函数，因此有：

γ (V_{ii}) = {| V_{ii} |}^{p} = \min_{α_{i}} {α_{i} | V_{ii} | {- γ}^{*} (α_{i})}

（公式22）

γ^{*} (α_{i}) = \min_{θ_{i}} {α_{i} | θ_{i} | - γ (θ_{i})}

（公式23）

其中，γ^*(·)称为γ(·)的共轭函数或对偶函数。

令p(θ_i)=α_i|θ_i|-γ(θ_i) （公式24）

p^{'} (θ_{i}) = α_{i} sign (θ_{i}) - γ^{'} (θ_{i}) = 0 &DoubleRightArrow; α_{i} = \frac{γ^{'} (θ_{i})}{sign (θ_{i})}

（公式25）

同时，由于γ(θ_i)=|θ_i|^p，因此

γ'(θ_i)=p|θ_i|^p-1sign(θ_i) （公式26）

将公式26代入公式25中，整理得到：

α_i=p|θ_i|^p-1 （公式27）

将公式27式代入公式23，得到γ^*(α_i)≤(p-1)|θ_i|^p。将公式23和公式27代入公式22，整理得到：

|V_ii|^p≤p|θ_i|^p-1|V_ii|+(1-p)|θ_i|^p=g(V_ii,θ_i) （公式28）

在公式28中g(V_ii,θ_i)=p|θ_i|^p-1|V_ii|+(1-p)|θ_i|^p即为得到的辅助凸函数，参数θ_i称为变分参数，得到的变分上界g(V_ii,θ_i)=p|θ_i|^p-1|V_ii|+(1-p)|θ_i|^p在θ_i=±|V_ii|处正切于原正则化项

Ω_{2} (V) = {| | diag (V) | |}_{p}^{p} .

将公式28代入公式12得到原优化问题的替代问题：

Q : \min_{w, V, θ, C, p} \frac{C}{n} Σ_{i = 1}^{n} \max {0,1 - y_{i} w^{T} k_{V} (x_{i}, \cdot)} + \frac{1}{2} {| | w | |}_{2}^{2} + λ \frac{1}{p} Σ_{i = 1}^{mn} (p {| θ_{i} |}^{p - 1} | V_{ii} | + {(1 - p) | θ_{i} |}^{p})

（公式29）

即，目标函数存在上界：

\begin{matrix} \frac{C}{n} Σ_{i = 1}^{n} \max {0,1 - y_{i} w^{T} k_{V} (x_{i}, \cdot)} + \frac{1}{2} {| | w | |}_{2}^{2} + λ \frac{1}{p} {| | diag (V) | |}_{p}^{p} \\ \leq \frac{C}{n} Σ_{i = 1}^{n} \max {0,1 - y_{i} w^{T} k_{V} (x_{i}, \cdot)} + \frac{1}{2} {| | w | |}_{2}^{2} + λ \frac{1}{p} Σ_{i = 1}^{mn} (p {| θ_{i} |}^{p - 1} | V_{ii} | + {(1 - p) | θ_{i} |}^{p}) \\ = q^{lin} (w, V, θ) \end{matrix}

（公式30）

可以用轮转变量迭代优化算法计算最小化目标函数的上界q^lin(w,V,θ)。将C、p和和核参数值固定在网格点上，迭代进行下面步骤直至达到停止准则：

首先，随机置θ、w和V的初始值，固定w值和V值，使目标函数对于变分参数θ最小，即收紧变分界。求解得到

θ=|diag(V)| （公式31）

然后，将得到的θ值作为已知值，使目标函数对于w和V最小，得到w和V的最优值。由于公式30线性依赖于V并二次依赖于w，因此这个问题是L1正则化和L2正则化的混合问题。在这个过程中，首先，固定w值，使目标函数对于V最小，得到V的最优值，然后固定V值不变，使目标函数对于w最小，得到w的最优值。然后，利用得到的w值和V值重新估计θ的最优值，再利用得到的θ值重新估计w和V的最优值，反复迭代，直到收敛得到局部最优值。

固定C、p和核参数时用局部线性变分近似法求解实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器替代问题的轮转变量的优化算法如图14所示，包括：

输入：最大迭代次数T；

输出：w^(*)，V^(*)和θ^(*)；

执行顺序：

步骤1）随机置θ⁽⁰⁾的初值，利用子梯度下降迭代算法求解公式29的L1范数正则化问题和L2范数正则化问题的解初始化V⁽⁰⁾和w⁽⁰⁾，令t=0：

步骤2）令θ^(t+1):=|diag(V)^(t)|来收紧辅助函数界；

步骤3）求解w^(t+1)和V^(t+1)，包括：

固定w^(t)值不变，求解

V^{(t + 1)} : = \underset{V}{\arg \min} q^{lin} (w^{(t)}, V^{(t)}, θ^{(t + 1)});

固定V^(t+1)值不变，求解

w^{(t + 1)} : = \underset{w}{\arg \min} q^{lin} (w^{(t)}, V^{(t + 1)}, θ^{(t + 1)});

若满足||q^lin(w^(t+1),V^(t+1),θ^(t+1))-q^lin(w^(t),V^(t),θ^(t+1))||₂<10^-6或t>T，则转而执行步骤5；否则执行步骤4；

步骤4）令t=t+1，执行步骤2和步骤3；

步骤5）停止计算并输出结果w^(*)，V^(*)和θ^(*)。

在上述实施例中，提出了一种用于解决高维小样本数据分类问题并实现原空间特征选择的非线性单变量带权核空间Lp分式范数(0<p≤2)罚SVM分类方法。将核方法和Lp范数正则化用于SVM分类设计中，并用嵌入方法把特征选择作为分类算法执行过程的一部分，提出了一种新的核矩阵构造方法，并在核矩阵中引入在[0,1]实数区间内取值的权矩阵，提出实现原空间特征选择的非线性单变量带权核空间的Lp范数罚SVM分类器，用于在解决高维小样本数据分类问题的同时实现原空间的特征选择，避免维数灾难的发生，在很大程度上降低了计算复杂度。本发明实施例所提出的分类器可应用于高维小样本数据的分类处理，得到适当稀疏而又预测准确的分类器，同时该方法可在避免维数灾难的情况下选择原空间中的特定特征映射到核空间中进行处理。

基于同一发明构思，本发明实施例中还提供了一种SVM分类器的构造装置，如下面的实施例所述。由于SVM分类器的构造装置解决问题的原理与SVM分类器的构造方法相似，因此SVM分类器的构造装置的实施可以参见SVM分类器的构造方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。图15是本发明实施例的SVM分类器的构造装置的一种结构框图，如图15所示，包括：核函数确定模块1501、目标函数确定模块1502和构造模块1503下面对该结构进行说明。

核函数确定模块1501，用于确定非线性的单变量带权核函数；

目标函数确定模块1502，用于基于单变量带权核函数确定非凸Lp分式范数罚目标函数；

构造模块1503，用于利用非凸Lp分式范数罚目标函数构造SVM分类器。

在一个实施例中，单变量带权核函数包括以下至少之一：

单变量带权径向基核函数：

k_{lV} (x_{il}, x_{jl}) = \exp ({- | | (V_{ll} x_{il}) - (V_{ll} x_{jl}) | |}_{2}^{2} / σ^{2});

单变量带权神经元的非线性作用核函数：

k_lV(x_il,x_jl)=tanh(k(V_kkx_il)^T(V_llx_jl)-δ)；

其中，c>0，q，σ，k，δ表示核参数，σ>0。

\min_{w, V, C, p} C \cdot L (w^{T} k_{V} (x, \cdot), y) + Ω_{1} (w) + Ω_{2} (V)

其中，w表示模型向量；V表示权对角矩阵，V∈R^mn×mn，diag(V)=(V₁₁,…,V_1m,V₂₁,…,V_2m,…,V_n1,…,V_nm)^T，其中，0≤V₁₁,…,V_1m,V₂₁,…,V_2m,…,V_n1,…,V_nm≤1；C表示L(w^Tk_V(x,·),y)与Ω₂(V)之间的权衡参数，C≥0；p表示正则化阶次，0<p≤2；L(w^Tk_V(x,·),y)表示损失函数；

表示以x作为自变量的函数，另一个参数为一确定值，

表示单变量带权核函数在x_i和x_j这两个点上的值，其中，k_lV(x_il,x_jl)表示单变量带权核函数，m表示单变量带权核的个数，i和j表示单变量带权核的下标；Ω₁(w)表示正则化项；Ω₂(V)表示样例特征权矩阵正则化项。

在一个实施例中，所述构造模块包括：

\min_{w, V, θ, C, p} C \cdot L (w^{T} k_{V} (x, \cdot), y) + Ω_{1} (w) + g (V, θ);

其中，g(V,θ)是以

和θ为变量的函数，且满足：

\{\begin{matrix} g (V, θ) &GreaterEqual; Ω_{2} (θ), & &ForAll; θ \\ g (V, V) = Ω_{2} (V) \end{matrix};

所述分类器构造单元包括：

初始化子单元，用于将给定的训练样例，作为初始样本集；

归一化处理子单元，用于对初始样本集进行归一化处理；

\min_{w, V, θ, C, p} \frac{C}{n} Σ_{i = 1}^{n} \max {0,1 - y_{i} w^{T} k_{V} (x_{i}, \cdot)} + \frac{1}{2} {| | w | |}_{2}^{2} + λ \frac{1}{2 p} Σ_{i = 1}^{mn} (p {| θ_{i} |}^{p - 2} V_{ii}^{2} + (2 - p) {| θ_{i} |}^{p}),

其中，λ=1-C。

\min_{w, V, θ, C, p} \frac{C}{n} Σ_{i = 1}^{n} \max {0,1 - y_{i} w^{T} k_{V} (x_{i}, \cdot)} + \frac{1}{2} {| | w | |}_{2}^{2} + λ \frac{1}{p} Σ_{i = 1}^{mn} (p {| θ_{i} |}^{p - 1} | V_{ii} | + (1 - p) {| θ_{i} |}^{p}),

其中，λ=1-C。

在一个实施例中，所述模型参数值确定子单元具体用于：

将六个模型参数值的各种离散值的组合组成六维网格点；

将求得的θ、w和V的最优值作为替代目标函数的最优解。

本发明实施例还提供了一种对高维小样本数据进行分类的方法，如图16所示，包括以下步骤：

步骤S1601：根据SVM分类器的构造方法，构造SVM分类器；

步骤S1602：利用构造的SVM分类器，对高维小样本数据进行分类。

本发明实施例还提供了一种对高维小样本数据进行分类的装置，如图17所示，包括：构造模块1701，用于根据上述SVM分类器的构造装置方法，构造SVM分类器；分类模块1702，用于利用构造的SVM分类器，对高维小样本数据进行分类。

从以上的描述中，可以看出，本发明实施例实现了如下技术效果：确定非线性的单变量带权核函数，并基于该单变量带权核函数确定非凸Lp分式范数罚目标函数，利用该目标函数构造SVM分类器，将核方法和Lp范数正则化用到了SVM分类器的设计过程中，并在核矩阵中引入了带权的核函数，与现有技术中对高维小样本数据进行分类时需要遍历所有特征维的组合来寻找所需的特征的技术方案相比，使得构造的SVM分类器用于对高维小样本数据进行分类，产生更稀疏的模型，更准确的实现任意结构的特征选择，得到更好的预测准确度，大幅度地降低了计算复杂度，避免了数据灾难。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种支持向量机分类器的构造方法，其特征在于，包括：

确定非线性的单变量带权核函数；

基于单变量带权核函数确定非凸Lp分式范数罚目标函数；

利用非凸Lp分式范数罚目标函数构造支持向量机SVM分类器。

2.如权利要求1所述的方法，其特征在于，单变量带权核函数包括以下至少之一：

单变量带权径向基核函数：

k_{lV} (x_{il}, x_{jl}) = \exp ({- | | (V_{ll} x_{il}) - (V_{ll} x_{jl}) | |}_{2}^{2} / σ^{2});

3.如权利要求2所述的方法，其特征在于，基于单变量带权核函数确定非凸Lp分式范数罚目标函数为：

\min_{w, V, C, p} C \cdot L (w^{T} k_{V} (x, \cdot), y) + Ω_{1} (w) + Ω_{2} (V)

其中，w表示模型向量；C表示L(w^Tk_V(x,·),y)与Ω₂(V)之间的权衡参数，C≥0；p表示正则化阶次，0<p≤2；L(w^Tk_V(x,·),y)表示损失函数；

表示以x作为自变量的函数，另一个参数为一确定值；k_V(x_i,x_j)表示单变量带权核函数在x_i和x_j这两个点上的值，

其中，k_lV(x_il,x_jl)表示单变量带权核函数，m表示单变量带权核的个数；Ω₁(w)表示正则化项；Ω₂(V)表示样例特征权矩阵正则化项。

4.如权利要求3所述的方法，其特征在于，利用非凸Lp分式范数罚目标函数构造SVM分类器，包括：

\min_{w, V, θ, C, p} C \cdot L (w^{T} k_{V} (x, \cdot), y) + Ω_{1} (w) + g (V, θ);

其中，g(V,θ)是以

和θ为变量的函数，且满足：

\{\begin{matrix} g (V, θ) &GreaterEqual; Ω_{2} (θ), & &ForAll; θ \\ g (V, V) = Ω_{2} (V) \end{matrix};

5.如权利要求4所述的方法，其特征在于：

所述构造辅助凸函数g(V,θ)，用g(V,θ)来替代目标函数中的Ω₂(V)，得到替代目标函数，包括：

所述求解替代目标函数的最优解，包括：

将给定的训练样例，作为初始样本集；

对初始样本集进行归一化处理；

6.如权利要求5所述的方法，其特征在于，采用局部二次变分近似法得到的替代目标函数为：

\min_{w, V, θ, C, p} \frac{C}{n} Σ_{i = 1}^{n} \max {0,1 - y_{i} w^{T} k_{V} (x_{i}, \cdot)} + \frac{1}{2} {| | w | |}_{2}^{2} + λ \frac{1}{2 p} Σ_{i = 1}^{mn} (p {| θ_{i} |}^{p - 2} V_{ii}^{2} + (2 - p) {| θ_{i} |}^{p}),

7.如权利要求5所述的方法，其特征在于，采用局部线性变分近似法得到的替代目标函数为：

\min_{w, V, θ, C, p} \frac{C}{n} Σ_{i = 1}^{n} \max {0,1 - y_{i} w^{T} k_{V} (x_{i}, \cdot)} + \frac{1}{2} {| | w | |}_{2}^{2} + λ \frac{1}{p} Σ_{i = 1}^{mn} (p {| θ_{i} |}^{p - 1} | V_{ii} | + (1 - p) {| θ_{i} |}^{p})

8.如权利要求5所述的方法，其特征在于，在训练样本集上，采用网格搜索法求解所述替代目标函数的最优模型参数值，包括：

9.如权利要求8所述的方法，其特征在于，在所述训练样本集上，通过粗搜索和细搜索两级结构的网络搜索法输出替代目标函数的模型向量w、权对角矩阵V，以及权衡参数C、正则化阶次p和核参数的最优值，包括：

将六个模型参数值的各种离散值的组合组成六维网格点；

10.如权利要求5所述的方法，其特征在于，固定C、p和核参数在最优参数值上，使用轮转变量寻优算法求解替代目标函数得到最优解，包括：

设置最大迭代次数T；

设置θ、w和V的初始值；

将求得的θ、w和V的最优值作为替代目标函数的最优解。

11.一种对高维小样本数据进行分类的方法，其特征在于，包括：

根据权利要求1至10中任一项所述的支持向量机SVM分类器的构造方法，构造SVM分类器；

利用构造的SVM分类器，对高维小样本数据进行分类。

12.一种支持向量机分类器的构造装置，其特征在于，包括：

核函数确定模块，用于确定非线性的单变量带权核函数；

目标函数确定模块，用于基于单变量带权核函数确定非凸Lp分式范数罚目标函数；

构造模块，用于利用非凸Lp分式范数罚目标函数构造支持向量机SVM分类器。

13.如权利要求12所述的装置，其特征在于，单变量带权核函数包括以下至少之一：

单变量带权径向基核函数：

K_{lV} (x_{il}, x_{jl}) = \exp ({- | | (V_{ll} x_{il}) - (V_{ll} x_{jl}) | |}_{2}^{2} / σ^{2});

14.如权利要求13所述的装置，其特征在于，所述目标函数确定模块确定的非凸Lp分式范数罚目标函数为：

\min_{w, V, C, p} C \cdot L (w^{T} K_{V} (x, \cdot), y) + Ω_{1} (w) + Ω_{2} (V)

其中，w表示模型向量；C表示L(w^Tk_V(x,·),y)与Ω₂(V)之间的权衡参数，C≥0；p表示正则化阶次，0<p≤2；L(w^Tk_V(x,·),y)表示损失函数；表示以x作为自变量的函数，另一个参数为一确定值；k_V(x_i,x_j)表示函数在x_i和x_j这两个点上的值，

15.如权利要求14所述的装置，其特征在于，所述构造模块包括：

\min_{w, V, θ, C, p} C \cdot L (w^{T} k_{V} (x, \cdot), y) + Ω_{1} (w) + g (V, θ);

其中，g(V,θ)是以

和θ为变量的函数，且满足：

\{\begin{matrix} g (V, θ) &GreaterEqual; Ω_{2} (θ), & &ForAll; θ \\ g (V, V) = Ω_{2} (V) \end{matrix};

16.如权利要求15所述的装置，其特征在于：

替代目标函数构造单元具体用于采用局部二次变分近似法，或者局部线性变分近似法构造g(V,θ)得到替代目标函数；

所述分类器构造单元包括：

初始化子单元，用于将给定的训练样例，作为初始样本集；

归一化处理子单元，用于对初始样本集进行归一化处理；

17.如权利要求16所述的装置，其特征在于，采用局部二次变分近似法得到的替代目标函数为：

\min_{w, V, θ, C, p} \frac{C}{n} Σ_{i = 1}^{n} \max {0,1 - y_{i} w^{T} k_{V} (x_{i}, \cdot)} + \frac{1}{2} {| | w | |}_{2}^{2} + λ \frac{1}{2 p} Σ_{i = 1}^{mn} (p {| θ_{i} |}^{p - 2} V_{ii}^{2} + (2 - p) {| θ_{i} |}^{p}),

18.如权利要求16所述的装置，其特征在于，采用局部线性变分近似法得到的替代目标函数为：

\min_{w, V, θ, C, p} \frac{C}{n} Σ_{i = 1}^{n} \max {0,1 - y_{i} w^{T} k_{V} (x_{i}, \cdot)} + \frac{1}{2} {| | w | |}_{2}^{2} + λ \frac{1}{p} Σ_{i = 1}^{mn} (p {| θ_{i} |}^{p - 1} | V_{ii} | + (1 - p) {| θ_{i} |}^{p}),

19.如权利要求16所述的装置，其特征在于，所述模型参数值确定子单元具体用于在所述训练样本集上，通过粗搜索和细搜索两级结构的网格搜索法输出替代目标函数的模型向量w、权对角矩阵V，以及权衡参数C、正则化阶次p和核参数的最优值。

20.如权利要求19所述的装置，其特征在于，所述模型参数值确定子单元具体用于：

将六个模型参数值的各种离散值的组合组成六维网格点；

21.如权利要求16所述的装置，其特征在于，所述最优解确定子单元具体用于：

设置最大迭代次数T；

设置θ、w和V的初始值；

将求得的θ、w和V的最优值作为替代目标函数的最优解。

22.一种对高维小样本数据进行分类的装置，其特征在于，包括：

构造模块，用于根据权利要求12至21中任一项所述的支持向量机SVM分类器的构造装置，构造SVM分类器；

分类模块，用于利用构造的SVM分类器，对高维小样本数据进行分类。