CN103605711A - 支持向量机分类器的构造方法及装置、分类方法及装置 - Google Patents

支持向量机分类器的构造方法及装置、分类方法及装置 Download PDF

Info

Publication number
CN103605711A
CN103605711A CN201310559826.7A CN201310559826A CN103605711A CN 103605711 A CN103605711 A CN 103605711A CN 201310559826 A CN201310559826 A CN 201310559826A CN 103605711 A CN103605711 A CN 103605711A
Authority
CN
China
Prior art keywords
value
function
objective function
theta
single argument
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310559826.7A
Other languages
English (en)
Other versions
CN103605711B (zh
Inventor
刘建伟
刘媛
罗雄麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum Beijing
Original Assignee
China University of Petroleum Beijing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum Beijing filed Critical China University of Petroleum Beijing
Priority to CN201310559826.7A priority Critical patent/CN103605711B/zh
Publication of CN103605711A publication Critical patent/CN103605711A/zh
Application granted granted Critical
Publication of CN103605711B publication Critical patent/CN103605711B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Monitoring And Testing Of Nuclear Reactors (AREA)

Abstract

本发明提供了一种支持向量机分类器的构造方法及装置、分类方法及装置,包括:确定非线性的单变量带权核函数;基于单变量带权核函数确定非凸Lp分式范数罚目标函数;利用非凸Lp分式范数罚目标函数构造支持向量机分类器。本发明与现有技术中对高维小样本数据进行分类时需要遍历所有特征维的组合来寻找所需的特征的技术方案相比,构造的支持向量机分类器用于对高维小样本数据进行分类,产生更稀疏的模型,更准确的实现任意结构的特征选择,得到更好的预测准确度,大幅度地降低了计算复杂度,避免了数据灾难。

Description

支持向量机分类器的构造方法及装置、分类方法及装置
技术领域
本发明涉及智能信息处理技术领域,特别涉及一种支持向量机(Support VectorMachine,简称为SVM)分类器的构造方法及装置、分类方法及装置。
技术背景
在计算机视觉例如:脑核磁共振三维成像、生物信息学、癌症微阵列基因诊断和商业网站客户关系分析等领域,大量存在着高维小样本数据,高维小样本数据的特点是样例为高维数据,样例维数高达几千维到几万维。高维小样本数据样例的类标签获取比较困难,如果采用人工标注的方式代价比较高,从而导致有类标签的样例比较少,样例-类标签对的个数也比较少,通常只有几十个或几百个。
基于这种情况,就要求设计出不但有准确的预测性能,而且能够找出与预测输出最相关的输入样例向量的分量的分类器,即实现特征选择,例如找出与预测的疾病最相关的基因,以便于生物学的研究及医学的诊断。通常的L2范数正则化SVM需要遍历所有特征维的组合来寻找所需的特征,从而导致计算复杂度很高,也容易造成数据灾难。
发明内容
本发明实施例提供了一种SVM分类器的构造方法及装置、分类方法及装置,用于对高维小样本数据进行分类,产生更稀疏的模型,更准确的实现任意结构的特征选择,得到更好的预测准确度,大幅度地降低了计算复杂度,避免了数据灾难。
本发明实施例提供了一种SVM分类器的构造方法,包括:确定非线性的单变量带权核函数;基于单变量带权核函数确定非凸Lp分式范数罚目标函数;利用非凸Lp分式范数罚目标函数构造SVM分类器。
在一个实施例中,单变量带权核函数包括以下至少之一:
阶次为q的单变量带权多项式核函数:klV(xil,xjl)=((Vkkxil)T(Vllxjl)+c)q
单变量带权径向基核函数: k lV ( x il , x jl ) = exp ( - | | ( V ll x il ) - ( V ll x jl ) | | 2 2 / σ 2 ) ;
单变量带权神经元的非线性作用核函数:klV(xil,xjl)=tanh(k(Vkkxil)T(Vllxjl)-δ);
其中,,klV(·,·)表示单变量带权核函数;i和j表示样例下标;(xi,yi)表示样例标签对,xi和xj表示样例;c和k表示常数,c>0;l表示样例特征的下标,xil表示样例xi的第l维特征;V表示权对角矩阵,V∈Rmn×mn,diag(V)=(V11,…,V1m,V21,…,V2m,…,Vn1,…,Vnm)T,其中,0≤V11,…,V1m,V21,…,V2m,…,Vn1,…,Vnm≤1;q、σ、k和δ表示核参数,σ>0。
在一个实施例中,基于单变量带权核函数确定非凸Lp分式范数罚目标函数为:
min w , V , C , p C · L ( w T k V ( x , · ) , y ) + Ω 1 ( w ) + Ω 2 ( V )
其中,w表示模型向量;C表示L(wTkV(x,·),y)与Ω2(V)之间的权衡参数,C≥0;p表示正则化阶次,0<p≤2;L(wTkV(x,·),y)表示损失函数;kV(x,·)表示以x作为自变量的函数,另一个参数为一确定值;kV(xi,xj)表示函数在xi和xj这两个点上的值,
Figure BDA0000412715950000023
其中,klV(xil,xjl)表示单变量带权核函数,m表示单变量带权核的个数,i和j表示单变量带权核的下标;Ω1(w)表示正则化项;Ω2(V)表示样例特征权矩阵正则化项。
在一个实施例中,利用非凸Lp分式范数罚目标函数构造SVM分类器,包括:
在Ω2(V)中引入辅助变量θ,构造辅助凸函数g(V,θ),用g(V,θ)来替代目标函数中的Ω2(V),得到替代目标函数:
min w , V , &theta; , C , p C &CenterDot; L ( w T k V ( x , &CenterDot; ) , y ) + &Omega; 1 ( w ) + g ( V , &theta; ) ;
其中,g(V,θ)是以
Figure BDA0000412715950000025
和θ为变量的函数,且满足: g ( V , &theta; ) &GreaterEqual; &Omega; 2 ( &theta; ) , &ForAll; &theta; g ( V , V ) = &Omega; 2 ( V ) ;
求解替代目标函数的最优解,根据求得的最优解构造SVM分类器。
在一个实施例中,所述构造辅助凸函数g(V,θ),用g(V,θ)来替代目标函数中的Ω2(V),得到替代目标函数,包括:
采用局部二次变分近似法,或者局部线性变分近似法构造g(V,θ)得到替代目标函数;
所述求解替代目标函数的最优解,包括:
将给定的训练样例,作为初始样本集;
对初始样本集进行归一化处理;
将归一化处理后的初始样本集分为训练样本集和测试样本集;
在训练样本集上,采用网格搜索法求解所述替代目标函数的最优模型参数值;
固定C、p和核参数在最优模型参数值上,在测试样本集上,使用轮转变量寻优算法求解替代目标函数得到最优解。
在一个实施例中,采用局部二次变分近似法得到的替代目标函数为:
min w , V , &theta; , C , p C n &Sigma; i = 1 n max { 0,1 - y i w T k V ( x i , &CenterDot; ) } + 1 2 | | w | | 2 2 + &lambda; 1 2 p &Sigma; i = 1 mn ( p | &theta; i | p - 2 V ii 2 + ( 2 - p ) | &theta; i | p ) , 其中,λ=1-C,kV(xi,·)表示将样例映射到非线性函数空间中的非线性映射函数。
在一个实施例中,采用局部线性变分近似法得到的替代目标函数为:
min w , V , &theta; , C , p C n &Sigma; i = 1 n max { 0,1 - y i w T k V ( x i , &CenterDot; ) } + 1 2 | | w | | 2 2 + &lambda; 1 p &Sigma; i = 1 mn ( p | &theta; i | p - 1 | V ii | + ( 1 - p ) | &theta; i | p ) , 其中,λ=1-C,kV(xi,·)表示将样例映射到非线性函数空间中的非线性映射函数。
在一个实施例中,在训练样本集上,采用网格搜索法求解所述替代目标函数的最优模型参数值,包括:
在所述训练样本集上,通过粗搜索和细搜索两级结构的网格搜索法输出替代目标函数的模型向量w、权对角矩阵V,以及权衡参数C、正则化阶次p和核参数的最优值。
在一个实施例中,在所述训练样本集上,通过粗搜索和细搜索两级结构的网格搜索法输出替代目标函数的模型向量w、权对角矩阵V,以及权衡参数C、正则化阶次p和核参数的最优值,包括:
在C、p、q、σ、k、δ的取值区间上选取粗搜索的离散值,形成六个模型参数值的离散值;
将六个模型参数值的各种离散值的组合组成六维网格点;
在所述六维网格点的每一个网格点上,固定C、p、q、σ、k、δ的值;
将所述训练样本集分成CN个大小相同的子集,其中,CN表示每个网格点上使用的交叉校验的倍数;
循环执行以下步骤CN次,直至所有的CN个子集都作为交叉校验的预测样本集被预测一遍:用CN个大小相同的子集中的CN-1个子集得到模型向量w;计算判别函数,用该判别函数预测CN个大小相同的子集中除所述CN-1个子集之外的子集的预测准确率;
取CN次预测所得准确率的平均值作为该网格节点的预测准确率值;
选取预测准确率值最大的网格点作为粗搜索确定的模型参数值;
缩小搜索区间和搜索步长,在选取的预测准确率值最大的网格点附近使用CN倍交叉校验过程进行细搜索得到替代目标函数的最优模型参数值。
在一个实施例中,固定C、p和核参数在最优参数值上,使用轮转变量寻优算法求解替代目标函数得到最优解,包括:
设置最大迭代次数T;
设置θ、w和V的初始值;
重复执行以下步骤,直至满足预设的终止条件或者重复次数大于T次:将当前θ和w的值作为已知值,求解替代目标函数中V的最优值,将求得的V的最优值和当前θ的值作为已知值,求解替代目标函数中w的最优值,将求得的w和V的最优值作为已知值,求解替代目标函数中θ的最优值;
将求得的θ、w和V的最优值作为替代目标函数的最优解。
本发明实施例还提供了一种对高维小样本数据进行分类的方法,包括:根据上述SVM分类器的构造方法,构造SVM分类器;利用构造的SVM分类器,对高维小样本数据进行分类。
本发明实施例还提供了一种SVM分类器的构造装置,包括:核函数确定模块,用于确定非线性的单变量带权核函数;目标函数确定模块,用于基于单变量带权核函数确定非凸Lp分式范数罚目标函数;构造模块,用于利用非凸Lp分式范数罚目标函数构造SVM分类器。
在一个实施例中,单变量带权核函数包括以下至少之一:
阶次为q的单变量带权多项式核函数:klV(xil,xjl)=((Vkkxil)T(Vllxjl)+c)q
单变量带权径向基核函数: k lV ( x il , x jl ) = exp ( - | | ( V ll x il ) - ( V ll x jl ) | | 2 2 / &sigma; 2 ) ;
单变量带权神经元的非线性作用核函数:
klV(xil,xjl)=tanh(k(Vkkxil)T(Vllxjl)-δ);
其中,其中,klV(·,·)表示单变量带权核函数;i和j表示样例下标;(xi,yi)表示样例标签对,xi和xj表示样例;c和k表示常数,c>0;l表示样例特征的下标,xil表示样例xi的第l维特征;V表示权对角矩阵,V∈Rmn×mn,diag(V)=(V11,…,V1m,V21,…,V2m,…,Vn1,…,Vnm)T,其中,0≤V11,…,V1m,V21,…,V2m,…,Vn1,…,Vnm≤1;q、σ、k和δ表示核参数,σ>0。
在一个实施例中,所述目标函数确定模块确定的非凸Lp分式范数罚目标函数为:
min w , V , C , p C &CenterDot; L ( w T k V ( x , &CenterDot; ) , y ) + &Omega; 1 ( w ) + &Omega; 2 ( V )
其中,w表示模型向量;C表示L(wTkV(x,·),y)与Ω2(V)之间的权衡参数,C≥0;p表示正则化阶次,0<p≤2;L(wTkV(x,·),y)表示损失函数;表示以x作为自变量的函数,另一个参数为一确定值;kV(xi,xj)表示函数在xi和xj这两个点上的值,其中,klV(xil,xjl)表示单变量带权核函数,m表示单变量带权核的个数;Ω1(w)表示正则化项;Ω2(V)表示样例特征权矩阵正则化项。
在一个实施例中,所述构造模块包括:
替代目标函数构造单元,用于在Ω2(V)中引入辅助变量θ,构造辅助凸函数g(V,θ),用g(V,θ)来替代目标函数中的Ω2(V),得到替代目标函数:
min w , V , &theta; , C , p C &CenterDot; L ( w T k V ( x , &CenterDot; ) , y ) + &Omega; 1 ( w ) + g ( V , &theta; ) ;
其中,g(V,θ)是以
Figure BDA0000412715950000055
和θ为变量的函数,且满足: g ( V , &theta; ) &GreaterEqual; &Omega; 2 ( &theta; ) , &ForAll; &theta; g ( V , V ) = &Omega; 2 ( V ) ;
分类器构造单元,用于求解替代目标函数的最优解,根据求得的最优解构造SVM分类器。
在一个实施例中,替代目标函数构造单元具体用于采用局部二次变分近似法,或者局部线性变分近似法构造g(V,θ)得到替代目标函数;
所述分类器构造单元包括:
初始化子单元,用于将给定的训练样例,作为初始样本集;
归一化处理子单元,用于对初始样本集进行归一化处理;
划分子单元,用于将归一化处理后的初始样本集分为训练样本集和测试样本集;
模型参数值确定子单元,用于在训练样本集上,采用网格搜索法求解所述替代目标函数的最优模型参数值;
最优解确定子单元,用于固定C、p和核参数在最优模型参数值上,在测试样本集上,使用轮转变量寻优算法求解替代目标函数得到最优解。
在一个实施例中,采用局部二次变分近似法得到的替代目标函数为:
min w , V , &theta; , C , p C n &Sigma; i = 1 n max { 0,1 - y i w T k V ( x i , &CenterDot; ) } + 1 2 | | w | | 2 2 + &lambda; 1 2 p &Sigma; i = 1 mn ( p | &theta; i | p - 2 V ii 2 + ( 2 - p ) | &theta; i | p ) , 其中,λ=1-C,kV(xi,·)表示将样例映射到非线性函数空间中的非线性映射函数。
在一个实施例中,采用局部线性变分近似法得到的替代目标函数为:
min w , V , &theta; , C , p C n &Sigma; i = 1 n max { 0,1 - y i w T k V ( x i , &CenterDot; ) } + 1 2 | | w | | 2 2 + &lambda; 1 p &Sigma; i = 1 mn ( p | &theta; i | p - 1 | V ii | + ( 1 - p ) | &theta; i | p ) , 其中,λ=1-C,kV(xi,·)表示将样例映射到非线性函数空间中的非线性映射函数。
在一个实施例中,所述模型参数值确定子单元具体用于在所述训练样本集上,通过粗搜索和细搜索两级结构的网格搜索法输出替代目标函数的模型向量w、权对角矩阵V,以及权衡参数C、正则化阶次p和核参数的最优值。
在一个实施例中,所述模型参数值确定子单元具体用于:
在C、p、q、σ、k、δ的取值区间上选取粗搜索的离散值,形成六个模型参数值的离散值;
将六个模型参数值的各种离散值的组合组成六维网格点;
在所述六维网格点的每一个网格点上,固定C、p、q、σ、k、δ的值;
将所述训练样本集分成CN个大小相同的子集,其中,CN表示每个网格点上使用的交叉校验的倍数;
循环执行以下步骤CN次,直至所有的CN个子集都作为交叉校验的预测样本集被预测一遍:用CN个大小相同的子集中的CN-1个子集得到模型向量w;计算判别函数,用该判别函数预测CN个大小相同的子集中除所述CN-1个子集之外的子集的预测准确率;
取CN次预测所得准确率的平均值作为该网格节点的预测准确率值;
选取预测准确率值最大的网格点作为粗搜索确定的模型参数值;
缩小搜索区间和搜索步长,在选取的预测准确率值最大的网格点附近使用CN倍交叉校验过程进行细搜索得到替代目标函数的最优模型参数值。
在一个实施例中,所述最优解确定子单元具体用于:设置最大迭代次数T;设置θ、w和V的初始值;重复执行以下步骤,直至满足预设的终止条件或者重复次数大于T次:将当前θ和w的值作为已知值,求解替代目标函数中V的最优值,将求得的V的最优值和当前θ的值作为已知值,求解替代目标函数中w的最优值,将求得的w和V的最优值作为已知值,求解替代目标函数中θ的最优值;
将求得的θ、w和V的最优值作为替代目标函数的最优解。
本发明实施例还提供了一种对高维小样本数据进行分类的装置,包括:构造模块,用于根据上述的SVM分类器的构造装置,构造SVM分类器;分类模块,用于利用构造的SVM分类器,对高维小样本数据进行分类。
在本发明实施例中,确定非线性的单变量带权核函数,并基于该单变量带权核函数确定非凸Lp分式范数罚目标函数,利用该目标函数构造SVM分类器,将核方法和Lp范数正则化用到了SVM分类器的设计过程中,并在核矩阵中引入了带权的核函数,与现有技术中对高维小样本数据进行分类时需要遍历所有特征维的组合来寻找所需的特征的技术方案相比,使得构造的SVM分类器用于对高维小样本数据进行分类,产生更稀疏的模型,更准确的实现任意结构的特征选择,得到更好的预测准确度,大幅度地降低了计算复杂度,避免了数据灾难。
附图说明
图1是本发明实施例SVM分类器的构造方法流程图;
图2是本发明实施例采用网格搜索法和轮转变量寻优算法来求解目标函数的最优解的方法流程图;
图3是本发明实施例通过粗搜索和细搜索两级结构的网格搜索法输出替代目标函数的最优模型参数值的方法流程图;
图4是本发明实施例使用轮转变量寻优算法求解替代目标函数得到最优解的方法流程图;
图5是一般核函数的构造过程示意图;
图6是本发明实施例的单变量核函数的构造过程示意图;
图7是模型向量w取稀疏Lp范数作为分类器目标函数的正则化项的特征选择效果示意图;
图8是单变量带权核权矩阵对角元素组成向量的的Lp分式范数罚特征选择效果示意图;
图9是本发明实施例grid-Lp-SVM算法流程图;
图10是本发明实施例网格搜索算法流程图;
图11是本发明实施例构造SVM分类器的流程示意图;
图12是本发明实施例的用轮转寻优算法求解目标函数最优解的流程图;
图13是本发明实施例的固定C,p和核参数时用局部二次变分近似法求解实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器替代问题的流程图;
图14是本发明实施例的固定C,p和核参数时用局部线性变分近似法求解实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器替代问题的流程图;
图15是本发明实施例的SVM分类器的构造装置的结构框图;
图16是本发明实施例的对高维小样本数据进行分类的方法流程图;
图17是本发明实施例的对高维小样本数据进行分类的装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
发明人通过对L2范数-SVM、L1范数-SVM和L0范数-SVM分类算法的实验源代码的分析研究发现,L2范数、L1范数和L0范数正则化的SVM分类算法训练得到的模型权向量w不是稀疏向量,即模型权向量w的各个分量的大小数量级基本一致。特征选择需要人为保留模型权向量w中值最大的d个分量,而将模型权向量w中其余的分量置零,经过处理后的w作为最终的模型权向量。在通过测试样本上进行预测时,上述的过程在选择不同的d值时反复进行,从而得到一组测试错误率,最终特征选择结果由测试误差最小时所选定的特征个数(即d的值)和各特征在w中的下标位置来确定。
由此可见,当前的L2范数-SVM、L1范数-SVM和L0范数-SVM分类器需要依靠遍历所有特征维的组合来寻找所需的特征,得到的模型向量w不是稀疏向量,需要靠人工选取数值最大的模型分量作为所选特征。
鉴于此,本发明实施例提出了一种构造SVM分类器的方法,如图1所示,包括以下步骤:
步骤101:确定非线性的单变量带权核函数;
步骤102:基于单变量带权核函数确定非凸Lp分式范数罚目标函数;
步骤103:利用非凸Lp分式范数罚目标函数构造SVM分类器。
在上述实施方式中,确定非线性的单变量带权核函数,并基于该单变量带权核函数确定非凸Lp分式范数罚目标函数,利用该目标函数构造SVM分类器,将核方法和Lp范数正则化用到了SVM分类器的设计过程中,并在核矩阵中引入了带权的核函数,与现有技术中对高维小样本数据进行分类时需要遍历所有特征维的组合来寻找所需的特征的技术方案相比,使得构造的SVM分类器用于对高维小样本数据进行分类,产生更稀疏的模型,更准确的实现任意结构的特征选择,得到更好的预测准确度,大幅度地降低了计算复杂度,避免了数据灾难。
在构造分类器的过程中,需要通过目标函数来衡量一个分类器的好坏,因此对目标函数的构造和求解是构建分类器十分重要的一步,目标函数所限定的是一个分类器的各项指标的好坏,目标函数的值越小表明构造的分类器越好,在本发明实施例中,构造的分类器所对应的目标函数为:
min w , V , C , p C &CenterDot; L ( w T k V ( x , &CenterDot; ) , y ) + &Omega; 1 ( w ) + &Omega; 2 ( V )
其中,w表示模型向量;V表示权对角矩阵,V∈Rmn×mn,diag(V)=(V11,…,V1m,V21,…,V2m,…,Vn1,…,Vnm)T,其中,0≤V11,…,V1m,V21,…,V2m,…,Vn1,…,Vnm≤1;C表示L(wTkV(x,·),y)与Ω2(V)之间的权衡参数,C≥0;p表示正则化阶次,0<p≤2;L(wTkV(x,·),y)表示损失函数,
Figure BDA0000412715950000102
表示以x作为自变量的函数,另一个参数为一确定值;kV(xi,xj)表示函数在xi和xj这两个点上的值,
Figure BDA0000412715950000103
其中,klV(xil,xjl)表示单变量带权核函数,m表示单变量带权核的个数,i和j表示单变量带权核的下标;Ω1(w)表示正则化项;Ω2(V)表示样例特征权矩阵正则化项。
对L(wTkV(x,·),y)求最小,表示要解得的模型向量得到的分类器预测错误率最小;对Ω1(w)求最小,表示解得的模型向量得到的分类器的间隔最大;对Ω2(V)求最小,表示解得的模型向量构造的分类器所参与的特征分量最少。
具体的,上述目标函数可以表示如下:
min w , V , C , p C &CenterDot; L ( w T k V ( x , &CenterDot; ) , y ) + &Omega; 1 ( w ) + &Omega; 2 ( V ) = min w , V , C , p C n &Sigma; i = 1 n max { 0,1 - y i w T k V ( x i , &CenterDot; ) } + 1 2 | | w | | 2 2 + ( 1 - C ) 1 p | | diag ( V ) | | p p
其中,diag(V)表示V的对角矩阵,diag(V)=(V11,…,V1m,V21,…,V2m,…,Vn1,…,Vnm)T,由V的对角线元素组成。
考虑到权矩阵正则化项Ω2(V)采用Lp范数
Figure BDA0000412715950000105
其中,0<p≤2,当1<p≤2时使用L2范数SVM问题的序列最小最优化算法即可求解,而当0<p≤1时,
Figure BDA0000412715950000106
在零点不可微,并且为非凸函数,从而使得求解变得很困难。为了解决上述问题,在本发明实施例中,采用变分法在Ω2(V)中引入新的辅助变量θ,构造辅助凸函数g(V,θ),其中,g(V,θ)是以
Figure BDA0000412715950000111
和θ为变量的函数,且满足: g ( V , &theta; ) &GreaterEqual; &Omega; 2 ( &theta; ) , &ForAll; &theta; g ( V , V ) = &Omega; 2 ( V ) ; 用辅助凸函数来替代目标函数中的样例特征权矩阵正则化项Ω2(V),得到替代目标函数:
min w , V , &theta; , C , p C &CenterDot; L ( w T k V ( x , &CenterDot; ) , y ) + &Omega; 1 ( w ) + g ( V , &theta; )
然后,求解替代目标函数的最优解,也就相当于求解得到了原始目标函数的最优解,最后通过求得的最优解构造SVM分类器即可。
在本发明实施例中所使用的带权单变量核函数包括但不限于以下至少之一:
1)阶次为q的单变量带权多项式核函数:klV(xil,xjl)=((Vkkxil)T(Vllxjl)+c)q
2)单变量带权径向基核函数: k lV ( x il , x jl ) = exp ( - | | ( V ll x il ) - ( V ll x jl ) | | 2 2 / &sigma; 2 ) ;
3)单变量带权Sigmoid核函数:klV(xil,xjl)=tanh(k(Vkkxil)T(Vllxjl)-δ);
其中,klV(·,·)表示单变量带权核函数;i和j表示样例下标;(xi,yi)表示样例标签对,xi和xj表示样例;c和k表示常数,c>0;l表示样例特征的下标,xil表示样例xi的第l维特征;V表示权对角矩阵,V∈Rmn×mn,diag(V)=(V11,…,V1m,V21,…,V2m,…,Vn1,…,Vnm)T,其中,0≤V11,…,V1m,V21,…,V2m,…,Vn1,…,Vnm≤1;q、σ、k和δ表示核参数,σ>0。
具体的,在上述步骤103利用目标函数构造SVM分类器中,主要采用局部二次变分近似法或者局部线性变分近似法构造g(V,θ),同时采用网格搜索法和轮转变量寻优算法来具体求解目标函数的最优解,如图2所示,包括以下步骤:
步骤201:采用局部二次变分近似法,或者局部线性变分近似法构造所述辅助凸函数g(V,θ);
步骤202:将给定的训练样例,作为初始样本集;
步骤203:对初始样本集进行归一化处理;
步骤204:将归一化处理后的初始样本集分为训练样本集和测试样本集;
步骤205:在训练样本集上,采用网格搜索法求解所述替代目标函数的最优模型参数值;
步骤206:固定C、p和核参数在最优模型参数值上,在测试样本集上,使用轮转变量寻优算法求解替代目标函数得到最优解。
在上述步骤201中采用局部二次变分近似法得到的替代目标函数为:
min w , V , &theta; , C , p C n &Sigma; i = 1 n max { 0,1 - y i w T k V ( x i , &CenterDot; ) } + 1 2 | | w | | 2 2 + &lambda; 1 2 p &Sigma; i = 1 mn ( p | &theta; i | p - 2 V ii 2 + ( 2 - p ) | &theta; i | p ) ,
采用局部线性变分近似法得到的替代目标函数为:
min w , V , &theta; , C , p C n &Sigma; i = 1 n max { 0,1 - y i w T k V ( x i , &CenterDot; ) } + 1 2 | | w | | 2 2 + &lambda; 1 p &Sigma; i = 1 mn ( p | &theta; i | p - 1 | V ii | + ( 1 - p ) | &theta; i | p ) .
具体的,上述步骤205在训练样本集上,采用网格搜索法求解所述替代目标函数的最优模型参数值,可以是在所述训练样本集上,通过粗搜索和细搜索两级结构的网格搜索法输出替代目标函数的模型向量w、权对角矩阵V,以及权衡参数C、正则化阶次p和核参数的最优值。
如图3所示,通过粗搜索和细搜索两级结构的网格搜索法输出替代目标函数的最优模型参数值可以包括以下步骤:
步骤301:在C、p、q、σ、k、δ的取值区间上选取粗搜索的离散值,形成六个模型参数值的离散值;
步骤302:将六个模型参数值的各种离散值的组合组成六维网格点;
步骤303:在所述六维网格点的每一个网格点上,固定C、p、q、σ、k、δ的值;将所述训练样本集分成CN个大小相同的子集,其中,CN表示每个网格点上使用的交叉校验的倍数;
步骤304:循环执行以下步骤CN次,直至所有的CN个子集都作为交叉校验的预测样本集被预测一遍:用CN个大小相同的子集中的CN-1个子集得到模型向量w;计算判别函数,用该判别函数预测CN个大小相同的子集中除所述CN-1个子集之外的子集的预测准确率;
步骤305:取CN次预测所得准确率的平均值作为该网格节点的预测准确率值;
步骤306:选取预测准确率值最大的网格点作为粗搜索确定的模型参数值;
步骤307:缩小搜索区间和搜索步长,在选取的预测准确率最大的网格点附近使用CN倍交叉校验过程进行细搜索得到替代目标函数的最优模型参数值。
在上述步骤205中,在测试样本集上,使用轮转变量寻优算法求解替代目标函数得到最优解,可以如图4所示,包括以下步骤:
步骤401:设置最大迭代次数T;
步骤402:设置θ、w和V的初始值;
步骤403:重复执行以下步骤,直至满足预设的终止条件或者重复次数大于T次:将当前θ和w的值作为已知值,求解替代目标函数中V的最优值,将求得的V的最优值和当前θ的值作为已知值,求解替代目标函数中w的最优值,将求得的w和V的最优值作为已知值,求解替代目标函数中θ的最优值;
步骤404:将求得的θ、w和V的最优值作为替代目标函数的最优解。
本发明实施例给出了一个具体的实施对本发明的构造SVM分类器的方法进行具体说明:
给定样例-类标签对 { x i , y i } i = 1 n , x i &Element; R m , y i &Element; { - 1 , + 1 } , 即,给定训练样例:D=(x1,x2,…,xn),xi∈Rm和样例的类标签y=(y1,y2,…,yn)∈{-1,+1}n
分类器学习的目标是学习从训练样例到类标签的映射,从而能够实现对未知数据点的类标签进行准确预测,同时实现特征选择。在本发明实施例中,分类器模型函数为
Figure BDA0000412715950000132
也可以是
Figure BDA0000412715950000133
然而由于
Figure BDA0000412715950000134
可以经过中心变换变为
Figure BDA0000412715950000135
的形式。因此,在本发明实施例仅以模型函数为
Figure BDA0000412715950000136
为例进行说明,其中
Figure BDA0000412715950000137
表示非线性核基函数,
Figure BDA0000412715950000138
用于将输入向量映射到高维特征空间中,使数据线性可分。根据表示理论,要学习的模型权向量可以表示为经非线性映射后的核特征空间中训练数据点的线性组合
Figure BDA0000412715950000139
在本发明实施例中,可以采用单变量带权多项式核、单变量带权径向基核、和单变量带权Sigmoid核等核函数,进一步的,由表示理论可以得到:
f ( x ) = &Sigma; i = 1 n a i k V ( x , x i ) .
通过符号函数sign(f(x))作为分类判别函数来预测样例的类标签:
当f(xi)>0时,
Figure BDA00004127159500001311
当f(xi)<0时,
Figure BDA00004127159500001312
确定实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器的目标函数为P:
P : min w , V , C , p C &CenterDot; L ( w T k V ( x , &CenterDot; ) , y ) + &Omega; 1 ( w ) + &Omega; 2 ( V ) = min w , V , C , p C &CenterDot; L ( w T k V ( x , &CenterDot; ) , y ) + 1 2 | | w | | 2 2 + ( 1 - C ) 1 p | | diag ( V ) | | p p        (公式1)
其中,权矩阵V∈Rmn×mn为对角阵,除对角线上的元素为0≤Vii≤1外,权矩阵V的其余元素均为0,即
Figure BDA0000412715950000143
向量diag(V)=(V11,…,V1m,V21,…,V2m,…,Vn1,…,Vnm)T由权矩阵V的对角线元素组成,C≥0为L(wTkV(x,·),y)和Ω2(V)之间的权衡参数,p(0<p≤2)为正则化阶次。
在公式1的目标函数中包含三个相互关联的权衡项:L(wTkV(x,·),y)为损失函数,对L(wTkV(x,·),y)求最小,表示要求解的模型向量必须使预测错误率最小,Ω1(w)为正则化项(也称为罚项),对模型向量取L2范数得到Ω1(w),对Ω1(w)求最小,表示解得的模型向量得到的分类器的间隔最大,从而使得分类器的泛化误差最小,Ω2(V)为样例特征权矩阵正则化项(也称为特征集罚项),对带权单变量核函数中的权对角矩阵对角元素组成的向量求Lp范数得到Ω2(V),对Ω2(V)求最小,结果使得对角矩阵对角元素组成的向量的分量有尽可能多的分量为0,即对角矩阵对角元素大多为0,也就是对角矩阵V的秩最小,从而使得尽可能少的样例特征分量参与模型构造,以便实现特征选择和模型稀疏化。
值得说明的是,下面的说明中变量和特征的意思等同。在公式1中
Figure BDA0000412715950000144
表示单变量带权核函数,在本发明实施例中提出了一种新的核函数的构造方法,这种核函数与一般的径向基核有一定联系。为了更好的说明本发明的核函数的构造方法,首先对一般径向基核进行分析:
k ( x i , x j ) = exp ( - | | x i - x j | | 2 2 / &sigma; 2 ) = exp ( - &Sigma; l = 1 m ( x il - x jl ) 2 / &sigma; 2 ) = exp ( - ( x i 1 - x j 1 ) 2 &sigma; 2 ) exp ( - ( x i 2 - x j 2 ) 2 / &sigma; 2 ) . . . exp ( - ( x im - x jm ) 2 / &sigma; 2 ) = k 1 ( x i 1 , x j 1 ) k 2 ( x i 2 , x j 2 ) . . . k m ( x im , x jm ) = &Pi; l = 1 m k l ( x il , x jl )       (公式2)
由上述公式2可以看出径向基核可以解释为每个变量xi的分量核kl(xil,xjl)(即,单变量带权核)的乘积。在本发明实施例中所使用的带权单变量核函数主要有以下三种:
1)阶次为q的单变量带权多项式核:
klV(xil,xjl)=((Vkkxil)T(Vllxjl+c)q,c>0           (公式3)
2)单变量带权径向基核:
k lV ( x il , x jl ) = exp ( - | | ( V ll x il ) - ( V ll x jl ) | | 2 2 / &sigma; 2 ) , &sigma; > 0               (公式4)
3)单变量带权Sigmoid核:
klV(xil,xjl)=tanh(k(Vkkxil)T(Vllxjl)-δ)           (公式5)
在本发明实施例所提出的核函数采用的是单变量核klV(xil,xjl)的求和形式,即如公式6所示:
k V ( x i , x j ) = 1 m &Sigma; l = 1 m K lV ( x il , x jl )               (公式6)
即,在构造核函数时以给定样例的单特征变量为基础,先构造单变量核函数,然后求和得到核函数,如图5所示一般核函数的构造过程示意图,如图6所示是本发明实施例所提出的单变量核函数的构造过程示意图。
如图7所示是对模型向量w取稀疏Lp范数作为正则化项的特征选择效果示意图,所有的样例的某个特征同时被选中或不被选中,构造的模型没有足够丰富的结构,其中黑色表明被选择的特征,白色表示未被选择的特征;如图8所示是单变量带权核产生的特征选择效果图。因为采用了单变量带权核函数,通过权矩阵V∈Rmn×mn可以对所有样例的每一个特征加权,对带权单变量核函数中的权对角矩阵对角元素组成的mn维向量求Lp范数得到正则化项Ω2(V),使Ω2(V)最小的模型稀疏化的结果是可以形成任意不规则的特征选择效果,每一个样例选中的特征均可不同,这样可以充分考虑样本本身的特性,构造的模型有足够丰富的结构。
权矩阵正则化项采用Lp范数
Figure BDA0000412715950000154
这里0<p≤2,当1<p≤2时使用L2范数SVM问题的序列最小最优化算法即可求解,而当0<p≤1时,
Figure BDA0000412715950000161
在零点不可微,并且非凸函数,从而使得求解变得更加困难。在本发明实施例中,采用变分法在Ω2(V)中引入新的辅助变量θ,构造辅助凸函数g(V,θ)来替代Ω2(V),g(V,θ)是和θ的某个代数表达式作为变量的函数,且满足:
g ( V , &theta; ) &GreaterEqual; &Omega; 2 ( &theta; ) , &ForAll; &theta; g ( V , V ) = &Omega; 2 ( V )                  (公式7)
也就是说,曲面g(V,θ)在曲面Ω2(V)的上面,并且曲面g(V,θ)与曲面Ω2(V)在点diag(V)正切。
使用辅助函数,保证在更新下Ω2(V)是非递增的,仅当Vold是g(V,Vold)的局部极小值,并且更新估计的迭代序列收敛到Ω2(V)的局部极小值时,Ω2(Vnew)=Ω2(Vold)。
用最小化主控函数g(V,θ)来代替最小化Ω2(V),从而将目标函数P变为替代目标函数(也称为替代问题):
Q : min w , V , &theta; , C , p C &CenterDot; L ( w T k V ( x , &CenterDot; ) , y ) + &Omega; 1 ( w ) + g ( V , &theta; )             (公式8)
根据表示理论,有
Figure BDA0000412715950000165
                                (公式9)
Figure BDA0000412715950000166
                    (公式10)
因此,公式8所示的目标函数中wTkV(x,·)、
Figure BDA0000412715950000168
Figure BDA0000412715950000169
均只包含乘积项
Figure BDA00004127159500001610
不需要显式求解的表达式。
在实际求解替代问题 Q : min w , V , &theta; , C , p C &CenterDot; L ( w T k V ( x , &CenterDot; ) , y ) + &Omega; 1 ( w ) + g ( V , &theta; ) 之前,需要选择最优的C和p,以及不同核函数的核参数的值,即,选择单变量带权多项式核的阶次q的值,单变量带权径向基核的核宽度σ的值,单变量带权Sigmoid核的k和δ的值。
在本发明实施例中采用grid-Lp-SVM算法,该算法流程示意图如图9所示,grid-Lp-SVM算法采用网格搜索法学习目标函数的模型参数值,网格搜索法的搜索过程为:
步骤1:把训练样本根据交叉校验的倍数CN分为CN等份;
步骤2:粗搜索过程:在模型参数的整个取值区间以一定的搜索步长使用CN倍交叉校验过程搜索较优的模型参数值;
步骤3:细搜索:在得到的较优的模型参数值附近,缩小搜索区间和搜索步长,使用CN倍交叉校验过程搜索最优参数值。
网格搜索过程中所产生的模型更新参数输入到实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器替代问题轮转变量优化算法,实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器替代问题轮转变量优化算法的输出结果经计算获得交叉校验误差,选择交叉校验误差最小的模型参数值作为最优的模型参数值。
网格搜索法首先需要根据经验,利用待解决问题的性质和启发信息确定出可能得到较好结果参数的待搜索范围,在本发明实施例中以设定的参数范围为C∈[2-3,23],p∈(0,2],σ>0,k∈[1,10],δ∈[0,1000]为例进行说明,并设置一定的搜索步长进行粗搜索,即,在待搜索模型参数整个取值区间范围内对每个参数取一系列待检验的离散值,然后分别取参数的待检验值的所有可能组合按照CN倍交叉校验过程调用实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器替代问题轮转变量优化算法计算出每个模型参数可能组合上的CN个预测准确率,在每一个模型参数的待检验值的可能组合上计算平均准确率,比较模型参数的待检验值的所有可能组合上的平均准确率,选出粗搜索过程中最大平均准确率的模型参数的组合上各模型参数的取值,然后在粗搜索过程中得到的最大平均准确率的模型参数的取值附近选定一个较小的搜索取值区间作为细搜索的取值范围,在细搜索的取值范围内减小搜索步长进行细搜索,在细搜索各模型参数的取值点上执行与粗搜索过程同样的运算得到最大平均准确率的模型参数的组合上各模型参数的取值作为网格搜索法最终的输出结果。
网格搜索法可以同时搜索多个参数值,在计算过程中各组参数相互解耦,便于并行计算,运行效率高,并且由于所选网格点有限,算法复杂性低。
以10倍交叉校验过程作为网格搜索法的实例,在C和p,q,σ,k,δ的取值区间上选取适当粗搜索的离散值,六个模型参数值的各种离散值组合形成六维网格点,在每一个网格点上,固定C和p,q,σ,k,δ的值,将训练数据集分成10个大小相同的子集,先用其中9个子集作为训练样本调用实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器替代问题轮转变量优化算法得到模型向量w,计算判别函数,用该函数预测剩下的那个子集的预测准确率,按照这种方式循环进行10次,直至所有的10个子集都作为交叉校验样本被预测一遍。取10次预测所得准确率的平均值作为最终的预测准确率值,在所有的网格点上重复上述步骤,选取最大预测准确率值网格点作为粗搜索确定的模型参数值,在此附近,选择较小的区间和步长,使用类似粗搜索过程得到最终最大预测准确率值网格点作为网格搜索过程的最终结果。
如图10所示,采用网格搜索法学习目标函数的模型参数值包括:
输入:C和p,q,σ,k,δ的取值区间,C∈[2-3,23],p∈(0,2],σ>0,k∈[1,10],δ∈[0,1000];
输出:最优参数值C(*),p(*),q(*),σ(*),k(*)和δ(*)
执行顺序:
步骤1)粗搜索:设定网格搜索的搜索范围和搜索步长,确定网格,在网格点上的参数值C(t),p(t),q(t),σ(t),k(t)和δ(t)上,执行10倍交叉校验过程,选定所有粗搜索网格点上最优的交叉校验预测准确率,确定具有较优预测准确率的参数值C(+),p(+),q(+),σ(+),k(+)和δ(+)
步骤2)细搜索:在粗搜索选定的具有较优预测准确率的参数值C(+),p(+),q(+),σ(+),k(+)和δ(+)附近,选定搜索区间,减小搜索步长,确定细搜索网格,在细搜索网格点上的参数值C(s),p(s),q(s),σ(s),k(s)和δ(s)上,执行10倍交叉校验过程,选定所有细搜索网格点上最优的交叉校验预测准确率,确定具有最优预测准确率的参数值C(*),p(*),q(*),σ(*),k(*)和δ(*)
步骤3)输出最优参数值C(*),p(*),q(*),σ(*),k(*)和δ(*),将输出的C(*),p(*),q(*),σ(*),k(*)和δ(*)值作为公式8所示的目标函数的模型参数值。
在固定C值、p值和核参数的情况下,使用轮转变量优化算法求解替代问题Q。
即,如图11所示,固定模型参数Lp分式范数罚单变量带权核SVM分类器的优化问题P,构造辅助函数g,求解替代问题Q,输出结果。
下面对如何构造替代问题和如何使用轮转变量优化算法求解替代问题进行具体描述:
在本实例中,选取铰链损失函数
Figure BDA0000412715950000191
为例进行说明,得到目标函数:
Figure BDA0000412715950000192
         (公式11)
用辅助凸函数来代替最小化Ω2(V),目标函数P变为替代问题:
Figure BDA0000412715950000193
                (公式12)
将整个样本划分为训练样本和测试样本,把训练样本根据交叉校验的倍数CN分为CN等份,按照上述的网格搜索法得到最优的C,p和核参数的取值。在网格搜索过程在选定网格上的模型参数下调用轮转寻优算法求解实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器问题的公式12所示的替代问题。在网格搜索过程结束最优的模型参数确定后,将C,p和核参数的值固定在网格搜索过程得到的最优值上。在测试样本上,按照图12所示的流程用轮转寻优算法求解实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器问题替代问题,最小化公式12的替代问题来代替最小化公式11的原始优化问题,求解得到最优模型向量w,得到
Figure BDA0000412715950000194
在本发明实施例中,采用二次变分近似和线性变分近似这两种变分近似法构造辅助函数g(V,θ),用网格搜索算法得到最优模型参数值,并采用轮转寻优法进行替代问题求解。具体描述如下。
1)局部二次变分近似构造辅助凸函数g(V,θ)及轮换变量迭代算法:
局部二次变分近似构造原始函数
Figure BDA0000412715950000201
的二次边界。由于0<p<1,|Vii|p是凹函数,因此,
&gamma; ( V ii ) = | V ii | p = min &alpha; i { &alpha; i V ii 2 - &gamma; * ( &alpha; i ) }                    (公式13)
&gamma; * ( &alpha; i ) = min &theta; i { &alpha; i &theta; i 2 - &gamma; ( &theta; i ) }                       (公式14)
其中γ*(·)称为γ(·)的共轭函数或对偶函数。
p ( &theta; i ) = &alpha; i &theta; i 2 - &gamma; ( &theta; i )                      (公式15)
当θi=0,p(θi=0)=0时,或者当θi≠0,p(θi)有稳定解时,对偶函数γ*i)达到极大值,此时:
p &prime; ( &theta; i ) = 2 &alpha; i &theta; i - &gamma; &prime; ( &theta; i ) = 0 &DoubleRightArrow; &alpha; i = &gamma; &prime; ( &theta; i ) 2 &theta; i                         (公式16)
同时,由于γ(θi)=|θi|p,因此:
γ'(θi)=p|θi|p-1sign(θi)                        (公式17)
将公式14、公式16、和公式17代入公式13中,整理得到:
| V ii | p &le; &gamma; &prime; ( &theta; i ) 2 &theta; i ( V ii 2 - &theta; i 2 ) + &gamma; ( &theta; i ) = 1 2 { p | &theta; i | p - 2 V ii 2 + ( 2 - p ) | &theta; i | p } = g ( V ii , &theta; i )                         (公式18)
在公式18中
Figure BDA0000412715950000207
即为得到的辅助凸函数,参数θi称为变分参数,得到的变分上界
Figure BDA0000412715950000208
在θi=±|Vii|处正切于原正则化项 &Omega; 2 ( V ) = | | diag ( V ) | | p p .
将公式18式代入公式12中得到原优化问题的替代问题(即替代目标函数): Q : min w , V , &theta; , C , p C n &Sigma; i = 1 n max { 0,1 - y i w T k V ( x i , &CenterDot; ) } + 1 2 | | w | | 2 2 + &lambda; 1 2 p &Sigma; i = 1 mn ( p | &theta; i | p - 2 V ii 2 + ( 2 - p ) | &theta; i | p )   (公式19)
即,目标函数存在上界:
C n &Sigma; i = 1 n max { 0,1 - y i w T k V ( x i , &CenterDot; ) } + 1 2 | | w | | 2 2 + &lambda; 1 p | | diag ( V ) | | p p &le; C n &Sigma; i = 1 n max { 0,1 - y i w T k V ( x i , &CenterDot; ) } + 1 2 | | w | | 2 2 + &lambda; 1 2 p &Sigma; i = 1 mn ( p | &theta; i | p - 2 V ii 2 + ( 2 - p ) | &theta; i | p ) = q quad ( w , V , &theta; )   (公式20)
可以用轮转变量迭代优化算法计算最小化目标函数的上界qquad(w,V,θ)。将C、p和核参数固定在网格点上,迭代进行下面的步骤直至达到停止准则:
首先,随机置θ、w和V的初始值,固定w值和V值,使目标函数对于变分参数θ最小,即收紧变分界。求解
Figure BDA0000412715950000212
得到
θ=|diag(V)|                                     (公式21)
然后,将得到的θ值作为已知值,使目标函数对于w和Ψ最小,得到w和Ψ的最优值。由于公式20二次依赖于w和V,因此这个问题是L2范数正则化问题,可以使用标准的L2范数正则化SVM序列最小最优化算法求解。在轮转变量优化算法执行过程中,首先,固定w值,使目标函数对于V最小,得到V的最优值;然后,固定V的值不变,使目标函数对于w最小,得到w的最优值。然后,利用得到的w值和V值重新估计θ的最优值,再利用得到的θ值重新估计w和V的最优值,反复迭代,直至收敛得到局部最优值。
固定C、p和核参数时用局部二次变分近似法求解实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器替代问题的轮转变量的优化算法如图13所示,包括:
输入:最大迭代次数T;
输出:w(*),V(*)和θ(*)
执行顺序:
步骤1)随机置θ(0)的初值,利用公式19中的L2范数正则化问题的解初始化w(0)和V(0),令t=0;
步骤2)令θ(t+1):=|diag(V)(t)|来收紧辅助函数界;
步骤3)求解w(t+1)和V(t+1),包括:
固定w(t)值不变,求解 V ( t + 1 ) : = arg min V q quad ( w ( t ) , V ( t ) , &theta; ( t + 1 ) ) ;
固定V(t+1)值不变,求解 w ( t + 1 ) : = arg min w q quad ( w ( t ) , V ( t + 1 ) , &theta; ( t + 1 ) ) ;
若满足  qquad(w(t+1),V(t+1)(t+1))-qquad(w(t),V(t)(t))||2<10-6或t>T,则转而执行步骤5;否则执行步骤4;
步骤4)令t=t+1,执行步骤2和步骤3;
步骤5)停止计算并输出结果w(*),V(*)和θ(*)
构造原始目标函数P的权矩阵正则化项
Figure BDA0000412715950000221
的二次边界辅助函数g(V,θ),得到替代目标函数Q,然后按照算法2求解替代目标函数得到最优解。
2)局部线性变分近似构造辅助凸函数g(V,θ)及轮转变量优化迭代算法:
局部线性变分近似构造原始函数
Figure BDA0000412715950000222
的线性边界。由于0<p<1,|Vii|p是凹函数,因此有:
&gamma; ( V ii ) = | V ii | p = min &alpha; i { &alpha; i | V ii | - &gamma; * ( &alpha; i ) }                     (公式22)
&gamma; * ( &alpha; i ) = min &theta; i { &alpha; i | &theta; i | - &gamma; ( &theta; i ) }                      (公式23)
其中,γ*(·)称为γ(·)的共轭函数或对偶函数。
令p(θi)=αii|-γ(θi)                    (公式24)
当θi=0,p(θi=0)=0时,或者当θi≠0,p(θi)有稳定解时,对偶函数γ*i)达到极大值,此时:
p &prime; ( &theta; i ) = &alpha; i sign ( &theta; i ) - &gamma; &prime; ( &theta; i ) = 0 &DoubleRightArrow; &alpha; i = &gamma; &prime; ( &theta; i ) sign ( &theta; i )       (公式25)
同时,由于γ(θi)=|θi|p,因此
γ'(θi)=p|θi|p-1sign(θi)        (公式26)
将公式26代入公式25中,整理得到:
αi=p|θi|p-1                     (公式27)
将公式27式代入公式23,得到γ*i)≤(p-1)|θi|p。将公式23和公式27代入公式22,整理得到:
|Vii|p≤p|θi|p-1|Vii|+(1-p)|θi|p=g(Viii)                                  (公式28)
在公式28中g(Viii)=p|θi|p-1|Vii|+(1-p)|θi|p即为得到的辅助凸函数,参数θi称为变分参数,得到的变分上界g(Viii)=p|θi|p-1|Vii|+(1-p)|θi|p在θi=±|Vii|处正切于原正则化项 &Omega; 2 ( V ) = | | diag ( V ) | | p p .
将公式28代入公式12得到原优化问题的替代问题:
Q : min w , V , &theta; , C , p C n &Sigma; i = 1 n max { 0,1 - y i w T k V ( x i , &CenterDot; ) } + 1 2 | | w | | 2 2 + &lambda; 1 p &Sigma; i = 1 mn ( p | &theta; i | p - 1 | V ii | + ( 1 - p ) | &theta; i | p ) (公式29)
即,目标函数存在上界:
C n &Sigma; i = 1 n max { 0,1 - y i w T k V ( x i , &CenterDot; ) } + 1 2 | | w | | 2 2 + &lambda; 1 p | | diag ( V ) | | p p &le; C n &Sigma; i = 1 n max { 0,1 - y i w T k V ( x i , &CenterDot; ) } + 1 2 | | w | | 2 2 + &lambda; 1 p &Sigma; i = 1 mn ( p | &theta; i | p - 1 | V ii | + ( 1 - p ) | &theta; i | p ) = q lin ( w , V , &theta; )   (公式30)
可以用轮转变量迭代优化算法计算最小化目标函数的上界qlin(w,V,θ)。将C、p和和核参数值固定在网格点上,迭代进行下面步骤直至达到停止准则:
首先,随机置θ、w和V的初始值,固定w值和V值,使目标函数对于变分参数θ最小,即收紧变分界。求解得到
θ=|diag(V)|                               (公式31)
然后,将得到的θ值作为已知值,使目标函数对于w和V最小,得到w和V的最优值。由于公式30线性依赖于V并二次依赖于w,因此这个问题是L1正则化和L2正则化的混合问题。在这个过程中,首先,固定w值,使目标函数对于V最小,得到V的最优值,然后固定V值不变,使目标函数对于w最小,得到w的最优值。然后,利用得到的w值和V值重新估计θ的最优值,再利用得到的θ值重新估计w和V的最优值,反复迭代,直到收敛得到局部最优值。
固定C、p和核参数时用局部线性变分近似法求解实现原空间特征选择的非线性单变量带权核空间上的Lp分式范数罚SVM分类器替代问题的轮转变量的优化算法如图14所示,包括:
输入:最大迭代次数T;
输出:w(*),V(*)和θ(*)
执行顺序:
步骤1)随机置θ(0)的初值,利用子梯度下降迭代算法求解公式29的L1范数正则化问题和L2范数正则化问题的解初始化V(0)和w(0),令t=0:
步骤2)令θ(t+1):=|diag(V)(t)|来收紧辅助函数界;
步骤3)求解w(t+1)和V(t+1),包括:
固定w(t)值不变,求解 V ( t + 1 ) : = arg min V q lin ( w ( t ) , V ( t ) , &theta; ( t + 1 ) ) ;
固定V(t+1)值不变,求解 w ( t + 1 ) : = arg min w q lin ( w ( t ) , V ( t + 1 ) , &theta; ( t + 1 ) ) ;
若满足||qlin(w(t+1),V(t+1)(t+1))-qlin(w(t),V(t)(t+1))||2<10-6或t>T,则转而执行步骤5;否则执行步骤4;
步骤4)令t=t+1,执行步骤2和步骤3;
步骤5)停止计算并输出结果w(*),V(*)和θ(*)
在上述实施例中,提出了一种用于解决高维小样本数据分类问题并实现原空间特征选择的非线性单变量带权核空间Lp分式范数(0<p≤2)罚SVM分类方法。将核方法和Lp范数正则化用于SVM分类设计中,并用嵌入方法把特征选择作为分类算法执行过程的一部分,提出了一种新的核矩阵构造方法,并在核矩阵中引入在[0,1]实数区间内取值的权矩阵,提出实现原空间特征选择的非线性单变量带权核空间的Lp范数罚SVM分类器,用于在解决高维小样本数据分类问题的同时实现原空间的特征选择,避免维数灾难的发生,在很大程度上降低了计算复杂度。本发明实施例所提出的分类器可应用于高维小样本数据的分类处理,得到适当稀疏而又预测准确的分类器,同时该方法可在避免维数灾难的情况下选择原空间中的特定特征映射到核空间中进行处理。
基于同一发明构思,本发明实施例中还提供了一种SVM分类器的构造装置,如下面的实施例所述。由于SVM分类器的构造装置解决问题的原理与SVM分类器的构造方法相似,因此SVM分类器的构造装置的实施可以参见SVM分类器的构造方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图15是本发明实施例的SVM分类器的构造装置的一种结构框图,如图15所示,包括:核函数确定模块1501、目标函数确定模块1502和构造模块1503下面对该结构进行说明。
核函数确定模块1501,用于确定非线性的单变量带权核函数;
目标函数确定模块1502,用于基于单变量带权核函数确定非凸Lp分式范数罚目标函数;
构造模块1503,用于利用非凸Lp分式范数罚目标函数构造SVM分类器。
在一个实施例中,单变量带权核函数包括以下至少之一:
阶次为q的单变量带权多项式核函数:klV(xil,xjl)=((Vkkxil)T(Vllxjl)+c)q
单变量带权径向基核函数: k lV ( x il , x jl ) = exp ( - | | ( V ll x il ) - ( V ll x jl ) | | 2 2 / &sigma; 2 ) ;
单变量带权神经元的非线性作用核函数:
klV(xil,xjl)=tanh(k(Vkkxil)T(Vllxjl)-δ);
其中,c>0,q,σ,k,δ表示核参数,σ>0。
在一个实施例中,所述目标函数确定模块确定的非凸Lp分式范数罚目标函数为:
min w , V , C , p C &CenterDot; L ( w T k V ( x , &CenterDot; ) , y ) + &Omega; 1 ( w ) + &Omega; 2 ( V )
其中,w表示模型向量;V表示权对角矩阵,V∈Rmn×mn,diag(V)=(V11,…,V1m,V21,…,V2m,…,Vn1,…,Vnm)T,其中,0≤V11,…,V1m,V21,…,V2m,…,Vn1,…,Vnm≤1;C表示L(wTkV(x,·),y)与Ω2(V)之间的权衡参数,C≥0;p表示正则化阶次,0<p≤2;L(wTkV(x,·),y)表示损失函数;
Figure BDA0000412715950000252
表示以x作为自变量的函数,另一个参数为一确定值,
Figure BDA0000412715950000253
表示单变量带权核函数在xi和xj这两个点上的值,其中,klV(xil,xjl)表示单变量带权核函数,m表示单变量带权核的个数,i和j表示单变量带权核的下标;Ω1(w)表示正则化项;Ω2(V)表示样例特征权矩阵正则化项。
在一个实施例中,所述构造模块包括:
替代目标函数构造单元,用于在Ω2(V)中引入辅助变量θ,构造辅助凸函数g(V,θ),用g(V,θ)来替代目标函数中的Ω2(V),得到替代目标函数:
min w , V , &theta; , C , p C &CenterDot; L ( w T k V ( x , &CenterDot; ) , y ) + &Omega; 1 ( w ) + g ( V , &theta; ) ;
其中,g(V,θ)是以
Figure BDA0000412715950000262
和θ为变量的函数,且满足: g ( V , &theta; ) &GreaterEqual; &Omega; 2 ( &theta; ) , &ForAll; &theta; g ( V , V ) = &Omega; 2 ( V ) ;
分类器构造单元,用于求解替代目标函数的最优解,根据求得的最优解构造SVM分类器。
在一个实施例中,替代目标函数构造单元具体用于采用局部二次变分近似法,或者局部线性变分近似法构造g(V,θ)得到替代目标函数;
所述分类器构造单元包括:
初始化子单元,用于将给定的训练样例,作为初始样本集;
归一化处理子单元,用于对初始样本集进行归一化处理;
划分子单元,用于将归一化处理后的初始样本集分为训练样本集和测试样本集;
模型参数值确定子单元,用于在训练样本集上,采用网格搜索法求解所述替代目标函数的最优模型参数值;
最优解确定子单元,用于固定C、p和核参数在最优模型参数值上,在测试样本集上,使用轮转变量寻优算法求解替代目标函数得到最优解。
在一个实施例中,采用局部二次变分近似法得到的替代目标函数为:
min w , V , &theta; , C , p C n &Sigma; i = 1 n max { 0,1 - y i w T k V ( x i , &CenterDot; ) } + 1 2 | | w | | 2 2 + &lambda; 1 2 p &Sigma; i = 1 mn ( p | &theta; i | p - 2 V ii 2 + ( 2 - p ) | &theta; i | p ) , 其中,λ=1-C。
在一个实施例中,采用局部线性变分近似法得到的替代目标函数为:
min w , V , &theta; , C , p C n &Sigma; i = 1 n max { 0,1 - y i w T k V ( x i , &CenterDot; ) } + 1 2 | | w | | 2 2 + &lambda; 1 p &Sigma; i = 1 mn ( p | &theta; i | p - 1 | V ii | + ( 1 - p ) | &theta; i | p ) , 其中,λ=1-C。
在一个实施例中,所述模型参数值确定子单元具体用于在所述训练样本集上,通过粗搜索和细搜索两级结构的网格搜索法输出替代目标函数的模型向量w、权对角矩阵V,以及权衡参数C、正则化阶次p和核参数的最优值。
在一个实施例中,所述模型参数值确定子单元具体用于:
在C、p、q、σ、k、δ的取值区间上选取粗搜索的离散值,形成六个模型参数值的离散值;
将六个模型参数值的各种离散值的组合组成六维网格点;
在所述六维网格点的每一个网格点上,固定C、p、q、σ、k、δ的值;
将所述训练样本集分成CN个大小相同的子集,其中,CN表示每个网格点上使用的交叉校验的倍数;
循环执行以下步骤CN次,直至所有的CN个子集都作为交叉校验的预测样本集被预测一遍:用CN个大小相同的子集中的CN-1个子集得到模型向量w;计算判别函数,用该判别函数预测CN个大小相同的子集中除所述CN-1个子集之外的子集的预测准确率;
取CN次预测所得准确率的平均值作为该网格节点的预测准确率值;
选取预测准确率值最大的网格点作为粗搜索确定的模型参数值;
缩小搜索区间和搜索步长,在选取的预测准确率值最大的网格点附近使用CN倍交叉校验过程进行细搜索得到替代目标函数的最优模型参数值。
在一个实施例中,所述最优解确定子单元具体用于:设置最大迭代次数T;设置θ、w和V的初始值;重复执行以下步骤,直至满足预设的终止条件或者重复次数大于T次:将当前θ和w的值作为已知值,求解替代目标函数中V的最优值,将求得的V的最优值和当前θ的值作为已知值,求解替代目标函数中w的最优值,将求得的w和V的最优值作为已知值,求解替代目标函数中θ的最优值;
将求得的θ、w和V的最优值作为替代目标函数的最优解。
本发明实施例还提供了一种对高维小样本数据进行分类的方法,如图16所示,包括以下步骤:
步骤S1601:根据SVM分类器的构造方法,构造SVM分类器;
步骤S1602:利用构造的SVM分类器,对高维小样本数据进行分类。
本发明实施例还提供了一种对高维小样本数据进行分类的装置,如图17所示,包括:构造模块1701,用于根据上述SVM分类器的构造装置方法,构造SVM分类器;分类模块1702,用于利用构造的SVM分类器,对高维小样本数据进行分类。
从以上的描述中,可以看出,本发明实施例实现了如下技术效果:确定非线性的单变量带权核函数,并基于该单变量带权核函数确定非凸Lp分式范数罚目标函数,利用该目标函数构造SVM分类器,将核方法和Lp范数正则化用到了SVM分类器的设计过程中,并在核矩阵中引入了带权的核函数,与现有技术中对高维小样本数据进行分类时需要遍历所有特征维的组合来寻找所需的特征的技术方案相比,使得构造的SVM分类器用于对高维小样本数据进行分类,产生更稀疏的模型,更准确的实现任意结构的特征选择,得到更好的预测准确度,大幅度地降低了计算复杂度,避免了数据灾难。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (22)

1.一种支持向量机分类器的构造方法,其特征在于,包括:
确定非线性的单变量带权核函数;
基于单变量带权核函数确定非凸Lp分式范数罚目标函数;
利用非凸Lp分式范数罚目标函数构造支持向量机SVM分类器。
2.如权利要求1所述的方法,其特征在于,单变量带权核函数包括以下至少之一:
阶次为q的单变量带权多项式核函数:klV(xil,xjl)=((Vkkxil)T(Vllxjl)+c)q
单变量带权径向基核函数: k lV ( x il , x jl ) = exp ( - | | ( V ll x il ) - ( V ll x jl ) | | 2 2 / &sigma; 2 ) ;
单变量带权神经元的非线性作用核函数:klV(xil,xjl)=tanh(k(Vkkxil)T(Vllxjl)-δ);
其中,klV(·,·)表示单变量带权核函数;i和j表示样例下标;(xi,yi)表示样例标签对,xi和xj表示样例;c和k表示常数,c>0;l表示样例特征的下标,xil表示样例xi的第l维特征;V表示权对角矩阵,V∈Rmn×mn,diag(V)=(V11,…,V1m,V21,…,V2m,…,Vn1,…,Vnm)T,其中,0≤V11,…,V1m,V21,…,V2m,…,Vn1,…,Vnm≤1;q、σ、k和δ表示核参数,σ>0。
3.如权利要求2所述的方法,其特征在于,基于单变量带权核函数确定非凸Lp分式范数罚目标函数为:
min w , V , C , p C &CenterDot; L ( w T k V ( x , &CenterDot; ) , y ) + &Omega; 1 ( w ) + &Omega; 2 ( V )
其中,w表示模型向量;C表示L(wTkV(x,·),y)与Ω2(V)之间的权衡参数,C≥0;p表示正则化阶次,0<p≤2;L(wTkV(x,·),y)表示损失函数;
Figure FDA0000412715940000014
表示以x作为自变量的函数,另一个参数为一确定值;kV(xi,xj)表示单变量带权核函数在xi和xj这两个点上的值,
Figure FDA0000412715940000013
其中,klV(xil,xjl)表示单变量带权核函数,m表示单变量带权核的个数;Ω1(w)表示正则化项;Ω2(V)表示样例特征权矩阵正则化项。
4.如权利要求3所述的方法,其特征在于,利用非凸Lp分式范数罚目标函数构造SVM分类器,包括:
在Ω2(V)中引入辅助变量θ,构造辅助凸函数g(V,θ),用g(V,θ)来替代目标函数中的Ω2(V),得到替代目标函数:
min w , V , &theta; , C , p C &CenterDot; L ( w T k V ( x , &CenterDot; ) , y ) + &Omega; 1 ( w ) + g ( V , &theta; ) ;
其中,g(V,θ)是以
Figure FDA0000412715940000022
和θ为变量的函数,且满足: g ( V , &theta; ) &GreaterEqual; &Omega; 2 ( &theta; ) , &ForAll; &theta; g ( V , V ) = &Omega; 2 ( V ) ;
求解替代目标函数的最优解,根据求得的最优解构造SVM分类器。
5.如权利要求4所述的方法,其特征在于:
所述构造辅助凸函数g(V,θ),用g(V,θ)来替代目标函数中的Ω2(V),得到替代目标函数,包括:
采用局部二次变分近似法,或者局部线性变分近似法构造g(V,θ)得到替代目标函数;
所述求解替代目标函数的最优解,包括:
将给定的训练样例,作为初始样本集;
对初始样本集进行归一化处理;
将归一化处理后的初始样本集分为训练样本集和测试样本集;
在训练样本集上,采用网格搜索法求解所述替代目标函数的最优模型参数值;
固定C、p和核参数在最优模型参数值上,在测试样本集上,使用轮转变量寻优算法求解替代目标函数得到最优解。
6.如权利要求5所述的方法,其特征在于,采用局部二次变分近似法得到的替代目标函数为:
min w , V , &theta; , C , p C n &Sigma; i = 1 n max { 0,1 - y i w T k V ( x i , &CenterDot; ) } + 1 2 | | w | | 2 2 + &lambda; 1 2 p &Sigma; i = 1 mn ( p | &theta; i | p - 2 V ii 2 + ( 2 - p ) | &theta; i | p ) , 其中,λ=1-C,kV(xi,·)表示将样例映射到非线性函数空间中的非线性映射函数。
7.如权利要求5所述的方法,其特征在于,采用局部线性变分近似法得到的替代目标函数为:
min w , V , &theta; , C , p C n &Sigma; i = 1 n max { 0,1 - y i w T k V ( x i , &CenterDot; ) } + 1 2 | | w | | 2 2 + &lambda; 1 p &Sigma; i = 1 mn ( p | &theta; i | p - 1 | V ii | + ( 1 - p ) | &theta; i | p )
其中,λ=1-C,kV(xi,·)表示将样例映射到非线性函数空间中的非线性映射函数。
8.如权利要求5所述的方法,其特征在于,在训练样本集上,采用网格搜索法求解所述替代目标函数的最优模型参数值,包括:
在所述训练样本集上,通过粗搜索和细搜索两级结构的网格搜索法输出替代目标函数的模型向量w、权对角矩阵V,以及权衡参数C、正则化阶次p和核参数的最优值。
9.如权利要求8所述的方法,其特征在于,在所述训练样本集上,通过粗搜索和细搜索两级结构的网络搜索法输出替代目标函数的模型向量w、权对角矩阵V,以及权衡参数C、正则化阶次p和核参数的最优值,包括:
在C、p、q、σ、k、δ的取值区间上选取粗搜索的离散值,形成六个模型参数值的离散值;
将六个模型参数值的各种离散值的组合组成六维网格点;
在所述六维网格点的每一个网格点上,固定C、p、q、σ、k、δ的值;
将所述训练样本集分成CN个大小相同的子集,其中,CN表示每个网格点上使用的交叉校验的倍数;
循环执行以下步骤CN次,直至所有的CN个子集都作为交叉校验的预测样本集被预测一遍:用CN个大小相同的子集中的CN-1个子集得到模型向量w;计算判别函数,用该判别函数预测CN个大小相同的子集中除所述CN-1个子集之外的子集的预测准确率;
取CN次预测所得准确率的平均值作为该网格节点的预测准确率值;
选取预测准确率值最大的网格点作为粗搜索确定的模型参数值;
缩小搜索区间和搜索步长,在选取的预测准确率值最大的网格点附近使用CN倍交叉校验过程进行细搜索得到替代目标函数的最优模型参数值。
10.如权利要求5所述的方法,其特征在于,固定C、p和核参数在最优参数值上,使用轮转变量寻优算法求解替代目标函数得到最优解,包括:
设置最大迭代次数T;
设置θ、w和V的初始值;
重复执行以下步骤,直至满足预设的终止条件或者重复次数大于T次:将当前θ和w的值作为已知值,求解替代目标函数中V的最优值,将求得的V的最优值和当前θ的值作为已知值,求解替代目标函数中w的最优值,将求得的w和V的最优值作为已知值,求解替代目标函数中θ的最优值;
将求得的θ、w和V的最优值作为替代目标函数的最优解。
11.一种对高维小样本数据进行分类的方法,其特征在于,包括:
根据权利要求1至10中任一项所述的支持向量机SVM分类器的构造方法,构造SVM分类器;
利用构造的SVM分类器,对高维小样本数据进行分类。
12.一种支持向量机分类器的构造装置,其特征在于,包括:
核函数确定模块,用于确定非线性的单变量带权核函数;
目标函数确定模块,用于基于单变量带权核函数确定非凸Lp分式范数罚目标函数;
构造模块,用于利用非凸Lp分式范数罚目标函数构造支持向量机SVM分类器。
13.如权利要求12所述的装置,其特征在于,单变量带权核函数包括以下至少之一:
阶次为q的单变量带权多项式核函数:KlV(xil,xjl)=((Vkkxil)T(Vllxjl)+c)q
单变量带权径向基核函数: K lV ( x il , x jl ) = exp ( - | | ( V ll x il ) - ( V ll x jl ) | | 2 2 / &sigma; 2 ) ;
单变量带权神经元的非线性作用核函数:KlV(xil,xjl)=tanh(k(Vkkxil)T(Vllxjl)-δ);
其中,klV(·,·)表示单变量带权核函数;i和j表示样例下标;(xi,yi)表示样例标签对,xi和xj表示样例;c和k表示常数,c>0;l表示样例特征的下标,xil表示样例xi的第l维特征;V表示权对角矩阵,V∈Rmn×mn,diag(V)=(V11,…,V1m,V21,…,V2m,…,Vn1,…,Vnm)T,其中,0≤V11,…,V1m,V21,…,V2m,…,Vn1,…,Vnm≤1;q、σ、k和δ表示核参数,σ>0。
14.如权利要求13所述的装置,其特征在于,所述目标函数确定模块确定的非凸Lp分式范数罚目标函数为:
min w , V , C , p C &CenterDot; L ( w T K V ( x , &CenterDot; ) , y ) + &Omega; 1 ( w ) + &Omega; 2 ( V )
其中,w表示模型向量;C表示L(wTkV(x,·),y)与Ω2(V)之间的权衡参数,C≥0;p表示正则化阶次,0<p≤2;L(wTkV(x,·),y)表示损失函数;表示以x作为自变量的函数,另一个参数为一确定值;kV(xi,xj)表示函数在xi和xj这两个点上的值,
Figure FDA0000412715940000052
其中,klV(xil,xjl)表示单变量带权核函数,m表示单变量带权核的个数;Ω1(w)表示正则化项;Ω2(V)表示样例特征权矩阵正则化项。
15.如权利要求14所述的装置,其特征在于,所述构造模块包括:
替代目标函数构造单元,用于在Ω2(V)中引入辅助变量θ,构造辅助凸函数g(V,θ),用g(V,θ)来替代目标函数中的Ω2(V),得到替代目标函数:
min w , V , &theta; , C , p C &CenterDot; L ( w T k V ( x , &CenterDot; ) , y ) + &Omega; 1 ( w ) + g ( V , &theta; ) ;
其中,g(V,θ)是以
Figure FDA0000412715940000054
和θ为变量的函数,且满足: g ( V , &theta; ) &GreaterEqual; &Omega; 2 ( &theta; ) , &ForAll; &theta; g ( V , V ) = &Omega; 2 ( V ) ;
分类器构造单元,用于求解替代目标函数的最优解,根据求得的最优解构造SVM分类器。
16.如权利要求15所述的装置,其特征在于:
替代目标函数构造单元具体用于采用局部二次变分近似法,或者局部线性变分近似法构造g(V,θ)得到替代目标函数;
所述分类器构造单元包括:
初始化子单元,用于将给定的训练样例,作为初始样本集;
归一化处理子单元,用于对初始样本集进行归一化处理;
划分子单元,用于将归一化处理后的初始样本集分为训练样本集和测试样本集;
模型参数值确定子单元,用于在训练样本集上,采用网格搜索法求解所述替代目标函数的最优模型参数值;
最优解确定子单元,用于固定C、p和核参数在最优模型参数值上,在测试样本集上,使用轮转变量寻优算法求解替代目标函数得到最优解。
17.如权利要求16所述的装置,其特征在于,采用局部二次变分近似法得到的替代目标函数为:
min w , V , &theta; , C , p C n &Sigma; i = 1 n max { 0,1 - y i w T k V ( x i , &CenterDot; ) } + 1 2 | | w | | 2 2 + &lambda; 1 2 p &Sigma; i = 1 mn ( p | &theta; i | p - 2 V ii 2 + ( 2 - p ) | &theta; i | p ) , 其中,λ=1-C,kV(xi,·)表示将样例映射到非线性函数空间中的非线性映射函数。
18.如权利要求16所述的装置,其特征在于,采用局部线性变分近似法得到的替代目标函数为:
min w , V , &theta; , C , p C n &Sigma; i = 1 n max { 0,1 - y i w T k V ( x i , &CenterDot; ) } + 1 2 | | w | | 2 2 + &lambda; 1 p &Sigma; i = 1 mn ( p | &theta; i | p - 1 | V ii | + ( 1 - p ) | &theta; i | p ) , 其中,λ=1-C,kV(xi,·)表示将样例映射到非线性函数空间中的非线性映射函数。
19.如权利要求16所述的装置,其特征在于,所述模型参数值确定子单元具体用于在所述训练样本集上,通过粗搜索和细搜索两级结构的网格搜索法输出替代目标函数的模型向量w、权对角矩阵V,以及权衡参数C、正则化阶次p和核参数的最优值。
20.如权利要求19所述的装置,其特征在于,所述模型参数值确定子单元具体用于:
在C、p、q、σ、k、δ的取值区间上选取粗搜索的离散值,形成六个模型参数值的离散值;
将六个模型参数值的各种离散值的组合组成六维网格点;
在所述六维网格点的每一个网格点上,固定C、p、q、σ、k、δ的值;
将所述训练样本集分成CN个大小相同的子集,其中,CN表示每个网格点上使用的交叉校验的倍数;
循环执行以下步骤CN次,直至所有的CN个子集都作为交叉校验的预测样本集被预测一遍:用CN个大小相同的子集中的CN-1个子集得到模型向量w;计算判别函数,用该判别函数预测CN个大小相同的子集中除所述CN-1个子集之外的子集的预测准确率;
取CN次预测所得准确率的平均值作为该网格节点的预测准确率值;
选取预测准确率值最大的网格点作为粗搜索确定的模型参数值;
缩小搜索区间和搜索步长,在选取的预测准确率值最大的网格点附近使用CN倍交叉校验过程进行细搜索得到替代目标函数的最优模型参数值。
21.如权利要求16所述的装置,其特征在于,所述最优解确定子单元具体用于:
设置最大迭代次数T;
设置θ、w和V的初始值;
重复执行以下步骤,直至满足预设的终止条件或者重复次数大于T次:将当前θ和w的值作为已知值,求解替代目标函数中V的最优值,将求得的V的最优值和当前θ的值作为已知值,求解替代目标函数中w的最优值,将求得的w和V的最优值作为已知值,求解替代目标函数中θ的最优值;
将求得的θ、w和V的最优值作为替代目标函数的最优解。
22.一种对高维小样本数据进行分类的装置,其特征在于,包括:
构造模块,用于根据权利要求12至21中任一项所述的支持向量机SVM分类器的构造装置,构造SVM分类器;
分类模块,用于利用构造的SVM分类器,对高维小样本数据进行分类。
CN201310559826.7A 2013-11-12 2013-11-12 支持向量机分类器的构造方法及装置、分类方法及装置 Expired - Fee Related CN103605711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310559826.7A CN103605711B (zh) 2013-11-12 2013-11-12 支持向量机分类器的构造方法及装置、分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310559826.7A CN103605711B (zh) 2013-11-12 2013-11-12 支持向量机分类器的构造方法及装置、分类方法及装置

Publications (2)

Publication Number Publication Date
CN103605711A true CN103605711A (zh) 2014-02-26
CN103605711B CN103605711B (zh) 2017-02-15

Family

ID=50123934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310559826.7A Expired - Fee Related CN103605711B (zh) 2013-11-12 2013-11-12 支持向量机分类器的构造方法及装置、分类方法及装置

Country Status (1)

Country Link
CN (1) CN103605711B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970878A (zh) * 2014-05-15 2014-08-06 中国石油大学(北京) Svm分类器的构造方法及装置
CN104063520A (zh) * 2014-07-17 2014-09-24 哈尔滨理工大学 基于聚类抽样核变换的失衡数据分类方法
CN104462019A (zh) * 2014-12-18 2015-03-25 江西理工大学 一种稀疏表示下支持向量机核函数选择方法及其应用
CN107507611A (zh) * 2017-08-31 2017-12-22 苏州大学 一种语音分类识别的方法及装置
CN108229572A (zh) * 2018-01-17 2018-06-29 北京腾云天下科技有限公司 一种参数寻优方法及计算设备
CN108664986A (zh) * 2018-01-16 2018-10-16 北京工商大学 基于lp范数正则化的多任务学习图像分类方法及系统
CN108921231A (zh) * 2018-07-27 2018-11-30 首都医科大学附属北京友谊医院 分类器的构造方法及装置
CN109165677A (zh) * 2018-07-27 2019-01-08 首都医科大学附属北京友谊医院 分类方法及装置
CN113556699A (zh) * 2020-04-24 2021-10-26 北京沃东天骏信息技术有限公司 样本集构建、室内定位模型构建、室内定位方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050180627A1 (en) * 2004-02-13 2005-08-18 Ming-Hsuan Yang Face recognition system
US20080101689A1 (en) * 2006-10-25 2008-05-01 George Henry Forman Classification using feature scaling
CN101599126A (zh) * 2009-04-22 2009-12-09 哈尔滨工业大学 利用全局互信息加权的支持向量机分类器
US20100128936A1 (en) * 2008-11-24 2010-05-27 Baughman Aaron K Support vector machine for biometric data processing
CN102129570A (zh) * 2010-01-19 2011-07-20 中国科学院自动化研究所 用于动态视觉的基于流形正则化的半监督分类器设计方法
CN102750551A (zh) * 2012-06-18 2012-10-24 杭州电子科技大学 一种粒子寻优下基于支持向量机的高光谱遥感分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050180627A1 (en) * 2004-02-13 2005-08-18 Ming-Hsuan Yang Face recognition system
US20080101689A1 (en) * 2006-10-25 2008-05-01 George Henry Forman Classification using feature scaling
US20100128936A1 (en) * 2008-11-24 2010-05-27 Baughman Aaron K Support vector machine for biometric data processing
CN101599126A (zh) * 2009-04-22 2009-12-09 哈尔滨工业大学 利用全局互信息加权的支持向量机分类器
CN102129570A (zh) * 2010-01-19 2011-07-20 中国科学院自动化研究所 用于动态视觉的基于流形正则化的半监督分类器设计方法
CN102750551A (zh) * 2012-06-18 2012-10-24 杭州电子科技大学 一种粒子寻优下基于支持向量机的高光谱遥感分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘建伟: "p范数正则化支持向量机分类算法", 《自动化学报》, vol. 38, no. 1, 31 January 2012 (2012-01-31) *
刘建伟: "迭代再权q范数正则化LSSVM分类算法", 《计算机工程》, vol. 38, no. 3, 5 February 2012 (2012-02-05) *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970878A (zh) * 2014-05-15 2014-08-06 中国石油大学(北京) Svm分类器的构造方法及装置
CN104063520A (zh) * 2014-07-17 2014-09-24 哈尔滨理工大学 基于聚类抽样核变换的失衡数据分类方法
CN104462019A (zh) * 2014-12-18 2015-03-25 江西理工大学 一种稀疏表示下支持向量机核函数选择方法及其应用
CN104462019B (zh) * 2014-12-18 2017-07-04 江西理工大学 一种稀疏表示下支持向量机核函数选择方法及其应用
CN107507611A (zh) * 2017-08-31 2017-12-22 苏州大学 一种语音分类识别的方法及装置
CN107507611B (zh) * 2017-08-31 2021-08-24 苏州大学 一种语音分类识别的方法及装置
CN108664986A (zh) * 2018-01-16 2018-10-16 北京工商大学 基于lp范数正则化的多任务学习图像分类方法及系统
CN108664986B (zh) * 2018-01-16 2020-09-04 北京工商大学 基于lp范数正则化的多任务学习图像分类方法及系统
CN108229572A (zh) * 2018-01-17 2018-06-29 北京腾云天下科技有限公司 一种参数寻优方法及计算设备
CN108921231A (zh) * 2018-07-27 2018-11-30 首都医科大学附属北京友谊医院 分类器的构造方法及装置
CN109165677A (zh) * 2018-07-27 2019-01-08 首都医科大学附属北京友谊医院 分类方法及装置
CN113556699A (zh) * 2020-04-24 2021-10-26 北京沃东天骏信息技术有限公司 样本集构建、室内定位模型构建、室内定位方法和装置

Also Published As

Publication number Publication date
CN103605711B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN103605711A (zh) 支持向量机分类器的构造方法及装置、分类方法及装置
Bergmann et al. Emulation of control strategies through machine learning in manufacturing simulations
CN108985335A (zh) 核反应堆包壳材料辐照肿胀的集成学习预测方法
Luo et al. Graph entropy guided node embedding dimension selection for graph neural networks
CN108108762A (zh) 一种用于冠心病数据分类的基于核极限学习机及并行化的随机森林分类方法
Papastamoulis et al. On the identifiability of Bayesian factor analytic models
CN110210625A (zh) 基于迁移学习的建模方法、装置、计算机设备和存储介质
CN110852881A (zh) 风险账户识别方法、装置、电子设备及介质
CN106548206A (zh) 基于最小生成树的多模态磁共振影像数据分类方法
Rojarath et al. Cost-sensitive probability for weighted voting in an ensemble model for multi-class classification problems
Ren et al. Self-paced multi-task clustering
Yang et al. Adaptive graph nonnegative matrix factorization with the self-paced regularization
Pividori et al. Diversity control for improving the analysis of consensus clustering
Menaka et al. Chromenet: A CNN architecture with comparison of optimizers for classification of human chromosome images
CN112420125A (zh) 分子属性预测方法、装置、智能设备和终端
Cheriguene et al. A new hybrid classifier selection model based on mRMR method and diversity measures
Gu et al. A new ensemble classification approach based on Rotation Forest and LightGBM
CN106485286A (zh) 一种基于局部敏感判别的矩阵分类模型
Zhao et al. Model-based feature selection for neural networks: A mixed-integer programming approach
Dai et al. Multi‐armed bandit heterogeneous ensemble learning for imbalanced data
Laureano et al. Affinity propagation SMOTE approach for imbalanced dataset used in predicting student at risk of low performance
Nguyen et al. Heuristic-based configuration learning for linked data instance matching
Wang et al. A New Algorithm for Convex Biclustering and Its Extension to the Compositional Data
Yang et al. Centered convolutional deep Boltzmann machine for 2D shape modeling
Li et al. Annotating gene functions with integrative spectral clustering on microarray expressions and sequences

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170215

Termination date: 20171112