CN104408480B - 一种基于Laplacian算子的特征选择方法 - Google Patents
一种基于Laplacian算子的特征选择方法 Download PDFInfo
- Publication number
- CN104408480B CN104408480B CN201410713386.0A CN201410713386A CN104408480B CN 104408480 B CN104408480 B CN 104408480B CN 201410713386 A CN201410713386 A CN 201410713386A CN 104408480 B CN104408480 B CN 104408480B
- Authority
- CN
- China
- Prior art keywords
- lasso
- lap
- laplacian
- sample
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013459 approach Methods 0.000 title abstract description 6
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000010187 selection method Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 208000014644 Brain disease Diseases 0.000 claims description 2
- 239000000090 biomarker Substances 0.000 claims description 2
- 201000010099 disease Diseases 0.000 claims description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 2
- 238000010276 construction Methods 0.000 claims 1
- 229910052731 fluorine Inorganic materials 0.000 claims 1
- 125000001153 fluoro group Chemical group F* 0.000 claims 1
- 238000009499 grossing Methods 0.000 claims 1
- 230000006698 induction Effects 0.000 claims 1
- 238000002474 experimental method Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 6
- 206010009944 Colon cancer Diseases 0.000 description 2
- 208000029742 colonic neoplasm Diseases 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 208000004998 Abdominal Pain Diseases 0.000 description 1
- 208000002881 Colic Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 208000006454 hepatitis Diseases 0.000 description 1
- 231100000283 hepatitis Toxicity 0.000 description 1
- 239000005433 ionosphere Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于Laplacian算子的特征选择方法,所述方法既考虑到了样本和类标签之间的关联又保留了样本和样本之间的相互依赖关系。具体来说,提出的Lap‑Lasso方法包含了两个正则化项,第一项是稀疏化正则化项,保证只有少数量的特征能被选择。另外,引入了一个新的基于Laplacian的正则化项,用于保留同类样本之间的局部相邻结构信息。进一步,使用APG即Accelerated Proximal Gradient算法来优化所提出的模型。在UCI数据集的实验结果验证了Lap‑lasso方法的有效性。
Description
技术领域
本发明公开了一种基于Laplacian算子的特征选择方法,涉及机器学习算法技术领域。
背景技术
在机器学习中传统算法经常遇到众所周知的维数灾难的问题。在这种情形下,通过降低数据的维数有利于提高数据分析的效率和精确度。特征选择是从一组特征中选出一组最相关的特征的子集以降低特征空间维数的过程,从而达到改善学习模型性能的目标。
研究人员已提出各种特征选择方法。这些方法大致分为两类:(1)特征排名方法;(2)特征子集搜索方法。特征排名方法通常单独考虑每个特征的重要性,并对其排名,从而从中选择一组最重要的特征;而特征子集方法则根据一些准则(如一致性和相关性等)来判断可能的候选特征子集的重要性,并从中选择最优的一个。相比较前者,后者通常能够获得更好的性能和对结果的解释性。因此,文章主要关注对后者的研究。
目前,研究人员已经提出许多著名的特征子集搜索方法,如顺序飘动向前搜索方法(sequential floating forward selection,SFFS),稀疏化的方法(如Lasso)等。其中,Lasso方法由于能够同时进行回归和特征选择,并且选择出的特征与类标签非常相关,因此得到了广泛研究和应用。但是,在基于Lasso的方法中,一个主要缺点是只考虑了样本和类标签之间的关联,而忽略了样本与样本之间的相互依赖,如同类样本的局部相邻结构信息,而这些信息能够帮助诱导出更有判别力的特征,从而完成更好的分类。
在各种特征选择方法中,基于Lasso的方法取得了广泛的研究和应用。然而,这类方法的一个主要缺点是只考虑了样本和类标签之间的相关性,却忽略了样本自身的内在关联信息,而这些信息有助于诱导出更具有判别力的特征。
基于Lasso的特征选择方法介绍如下:
给定训练样本集X=[x1,x2,…,xN]T∈RN×d,其中xi表示第i个样本的特征向量,N表示训练样本个数,d表示特征维数。假定Y=[y1,y2,…,yN]∈RN表示这些样本所对应的相应向量。对于监督分类问题,yi表示样本的类标签。不失一般性,本发明只考虑两类分类问题,即yi∈{+1,-1}。则Lasso特征选择方法优化的目标函数是:
其中w表示特征向量的回归系数。正则化项‖w‖1采用L1-范式将在特征空间中产生一个稀疏解,即不相关的和多余的特征所对应的系数将被置为0,而非0系数所对应的特征将被保留下来用于随后的分类。λ>0是一个正则化参数,用于平衡模型复杂度和数据的拟合程度。
与传统的特征选择方法相比,Lasso方法通过最小化一个目标函数来完成特征选择,而且经验数据已经表明当有大量的不相关特征而只有少量的样本时,Lasso方法非常有效。因此,Lasso方法已经被应用到许多问题当中,如:寻找疾病的生物标志和脑疾病的分类。在Lasso方法中存在的一个限制是:当特征维数d大于样本个数N时,Lasso最多只能选择N个特征。针对这一不足,Zou等人通过增加了一个L2-范式正则化项,提出了一种称之为elastic net的特征选择方法。考虑一些数据的特征具有平滑性特点(即相邻的特征应该具有相同或相似的权重系数),Tibshirani等人在Lasso基础上通过增加一个新的L1-范式,提出了一种Fused Lasso的方法,Ye等人给出了对Fused Lasso进行快速优化的方法。最近,Yamada等人基于核的方法将Lasso从线性情况推广到非线性情况。
另一方面,针对几组特征需要联合地进行特征选择的情况,Yun等人提出了groupLasso方法。而一些研究人员将group Lasso思想应用到多任务学习当中,取得了很好的效果。另外,研究人员也提出了sparse group Lasso的方法来联合地选择具有共性的特征和个性的特征。最近,研究人员通过增加正则化项方法进一步推广group Lasso方法,如:Gong等人提出了一种鲁棒的group Lasso来处理数据中包含噪声的情况;而Kim等人针对数据特征中存在分层结构情况,提出一种tree-guided group Lasso的方法。
在这些基于Lasso的方法中,存在的一个主要的不足是只考虑到样本和预测值(即标签)之间的依赖关系,而忽略了样本与样本之间的相互依赖的关系,如同类样本的局部相邻结构,这些信息的丢失可能会影响到选择特征的判别性,从而影响到分类器最终的分类性能。为了解决这一问题,并受最近一些工作的启发,提出了一种新的基于Laplacian的特征选择方法Lap-Lasso。
发明内容
本发明所要解决的技术问题是:针对现有技术的缺陷,提供一种基于Laplacian算子的特征选择方法,既考虑到了样本和类标签之间的关联又保留了样本和样本之间的局部相邻结构信息。具体来说,提出的Lap-Lasso方法包含了两个正则化项,第一项是稀疏化正则化项,保证只有少数量的特征能被选择。另外,引入了一个新的基于Laplacian的正则化项,用于保留同类样本之间的局部相邻结构信息。进一步,使用APG(Accelerated ProximalGradient)算法来优化所提出的模型。
本发明为解决上述技术问题采用以下技术方案:
在Lasso及其扩展的特征选择模型中,线性映射函数(即f(x)=xTw=wTx)把数据从原始的高维空间变换到一维空间,其明显的不足是只考虑了样本数据和类标签之间的关联,而忽略了样本数据之间内在联系,如同类样本,经过投影也许会产生比较大的偏差,而直觉上,它们应该靠的更近。为了解决这个问题,本发明引入了一个新的正则化项:
其中S=[Sij]表示一个相似矩阵,定义了两个样本之间相似性。L=D-S是Laplacian矩阵,D是对角矩阵,其中相似矩阵S定义为:
此项能被解释如下:如果两个样本越相似(即样本xi和xj来自同一个类),则f(xi)与f(xj)之间的距离就越小,反之亦然。容易看出公式(2)旨在保存映射时同类样本的局部相邻结构信息。基于公式(2),提出了一种基于Laplacian的特征选择方法,称为Lap-Lasso,其目标函数如下:
其中λ和β是两个大于0的常数,它们的值可以在训练数据通过交叉验证来确定。
在Lap-Lasso模型中,Lasso稀疏化项保证只有少量的特征能被选择,而Laplacian正则化项保留同类标签样本的局部相邻结构信息,从而帮助诱导出更具有判别力的特征。
本发明进一步采用APG(Accelerated Proximal Gradient)算法来优化公式(4)。具体而言,公式(4)首先被划分为两部分:平滑部分
和非平滑部分
g(w)=λ‖w‖1 (6)
其次,构建如下函数来近似f(w)+g(w):
其中表示第k次迭代的wk点梯度,l表示步长。
APG的更新步骤定义如下:
其中
因此,根据公式(8),要优化的问题可以转化为分解成d个独立的子问题。APG算法的关键是如何有效求解公式(8),研究表明这些子问题的解析解非常容易获得,即:
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明提出了一种新的特征选择方法Lap-lasso。通过Laplacian正则化项保留同类样本的局部相邻结构信息,克服传统基于Lasso方法只考虑到样本与类标签之间的关联,而忽略样本之间的内在联系的不足,并利用APG算法优化提出的Lap-lasso模型。在UCI数据集上的实验表明了Lap-lasso方法的有效性。
附图说明
图1是本发明所述方法中,分类精度结果随不同正则化参数β值的变化曲线。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
下面结合实施例对本发明的技术方案做进一步的详细说明:
本发明的一个具体实施例,列举了在8个UCI数据集上评价提出方法的有效性。表1为出这些数据集的特性。
表1 实验中使用的数据集
首先比较Lasso的特征选择方法,并比较了经典的基于排名特征选择方法,包括Laplacian Score(LS)和FisherScore(FS)的方法。在实验中,基于RBF核的支持向量机(Support Vector Machine,SVM)被用于分类,在分类过程中,采用10轴交叉验证来评价分类的性能,并且这个过程被独立的重复10次,目的是为了减少在交叉验证过程中因随机划分样本而造成对分类结果的影响。最后,平均分类精度作为最终的分类结果。
表2给出了各方法在8个数据集上的分类结果。注意:在表2中Baseline表示没有进行特征选择直接进行分类的结果,而括号中的数值表示分类误差。从表2中可以看出,Lap-Lasso方法在所有数据集中都好于Lasso的方法,表明增加Laplacian正则化项能够诱导出更具有判别力的特征,从而完成更好的分类。另外,在大部分数据集中,提出的Lap-Lasso方法要好于比较的方法,特别在colon_cancer数据集上,提出的方法至少提高了2.4%的分类精度。这些结果都表明了Lap-Lasso方法的有效性。
表2 不同特征选择方法的平均分类精度(±标准差)(%)
数据集 | Lap-Lasso | Lasso | FS | LS | Baseline |
heart_statlog | 85.0(±0.31) | 84.5(±0.52) | 83.2(±1.13) | 84.2(±0.63) | 85.0(±0.31) |
hepatitis | 83.3(±0.59) | 81.8(±1.03) | 84.5(±0.25) | 83.4(±0.90) | 83.1(±0.80) |
labor | 92.4(±1.88) | 91.4(±1.70) | 92.0(±2.89) | 90.0(±2.82) | 89.2(±1.50) |
ionosphere | 90.3(±0.37) | 89.1(±0.76) | 88.9(±0.41) | 88.1(±0.78) | 89.4(±0.51) |
credit | 85.6(±0.37) | 85.2(±0.34) | 85.7(±0.32) | 65.8(±0.93) | 85.1(±0.28) |
colic | 84.1(±0.55) | 83.0(±0.71) | 83.8(±0.76) | 75.4(±0.57) | 83.7(±0.68) |
colon_cancer | 88.3(±2.15) | 85.8(±1.85) | 85.9(±0.86) | 67.5(±1.67) | 71.0(±1.66) |
c | 66.1(±1.89) | 62.5(±0.32) | 63.8(±2.70) | 62.1(±0.21) | 62.0(±0.00) |
图1是本发明所述方法中,分类精度结果随不同正则化参数β值的变化曲线,如图1所示,在一个具体实施例中为了评估引入的Laplacian正则化参数对分类结果的影响,通过固定λ的值而变化β的值来统计分类结果。图1画出了在8个数据集上随不同β值Lap-Lasso方法分类精度的变化曲线。注意:当β等于0,提出的Lap-Lasso方法则退化为Lasso方法。从图1中可以看出,在绝大部分情况下,提出方法随不同β的值所取得的分类结果都要好于β等于0时的结果,进一步表明增加Laplacian正则化项能够改进分类结果。同时,绝大部分的曲线也是非常的平滑,表示Lap-lasso方法对参数β非常鲁棒。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
Claims (5)
1.一种基于Laplacian算子的特征选择方法,应用于寻找疾病的生物标志和脑疾病的分类,其特征在于,具体步骤如下:
步骤一、建立Lasso特征选择方法优化的目标函数:
<mrow>
<msub>
<mi>min</mi>
<mi>W</mi>
</msub>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<mo>|</mo>
<mo>|</mo>
<mi>Y</mi>
<mo>-</mo>
<msup>
<mi>X</mi>
<mi>T</mi>
</msup>
<mi>w</mi>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mi>&lambda;</mi>
<mo>|</mo>
<mo>|</mo>
<mi>w</mi>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>1</mn>
</msub>
<mo>;</mo>
</mrow>
其中,X表示给定训练样本集:X=[x1,x2,...,xN]T∈RN×d,xi表示第i个样本的特征向量,N表示训练样本个数,d表示特征维数;Y表示样本所对应的相应向量:Y=[y1,y2,...,yN]∈RN,yi表示样本的类标签,且yi∈{+1,-1};w表示特征向量的回归系数;λ>0表示一个正则化参数,用于平衡模型复杂度和数据拟合程度;
步骤二、在步骤一的Lasso目标函数中引入一个正则化项:
<mrow>
<munder>
<mi>min</mi>
<mi>w</mi>
</munder>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
<mi>N</mi>
</munderover>
<mo>|</mo>
<mo>|</mo>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<msub>
<mi>S</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<mn>2</mn>
<msup>
<mi>w</mi>
<mi>T</mi>
</msup>
<msup>
<mi>X</mi>
<mi>T</mi>
</msup>
<mi>L</mi>
<mi>X</mi>
<mi>w</mi>
<mo>;</mo>
</mrow>
其中,S=[Sij]表示一个相似矩阵,定义了两个样本之间相似性;xi和xj分别表示两个样本;L=D-S表示Laplacian矩阵,D表示对角矩阵,且
根据所引入的正则化项,采用基于Laplacian算子的特征选择方法,构建Lap-Lasso目标函数模型,其表达如下:
<mrow>
<munder>
<mi>min</mi>
<mi>w</mi>
</munder>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<mo>|</mo>
<mo>|</mo>
<mi>Y</mi>
<mo>-</mo>
<msup>
<mi>X</mi>
<mi>Y</mi>
</msup>
<mi>w</mi>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mi>&lambda;</mi>
<mo>|</mo>
<mo>|</mo>
<mi>w</mi>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>1</mn>
</msub>
<mo>+</mo>
<msup>
<mi>&beta;w</mi>
<mi>T</mi>
</msup>
<msup>
<mi>X</mi>
<mi>T</mi>
</msup>
<mi>L</mi>
<mi>X</mi>
<mi>w</mi>
<mo>;</mo>
</mrow>
其中,λ和β是两个大于0的常数;
步骤三、求解上述Lap-Lasso目标函数模型,其中,Lasso稀疏化项使得少量的特征能被选择,而Laplacian正则化项保留同类标签样本的局部相邻结构信息,实现帮助诱导出更有判别力的特征。
2.如权利要求1所述的一种基于Laplacian算子的特征选择方法,其特征在于,采用APG算法优化Lap-Lasso目标函数模型:
201、将Lap-Lasso目标函数模型划分成两部分,分别是:
平滑部分:
非平滑部分:g(w)=λ||w||1
202、构建函数用以近似表示f(w)+g(w):
<mrow>
<msub>
<mi>&Omega;</mi>
<mi>l</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>w</mi>
<mo>,</mo>
<msub>
<mi>w</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mo><</mo>
<mi>w</mi>
<mo>-</mo>
<msub>
<mi>w</mi>
<mi>k</mi>
</msub>
<mo>,</mo>
<mo>&dtri;</mo>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>></mo>
<mo>+</mo>
<mfrac>
<mi>l</mi>
<mn>2</mn>
</mfrac>
<mo>|</mo>
<mo>|</mo>
<mi>w</mi>
<mo>-</mo>
<msub>
<mi>w</mi>
<mi>k</mi>
</msub>
<mo>|</mo>
<mo>|</mo>
<mo>+</mo>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mi>w</mi>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
其中,表示第k次迭代点wk的梯度,l表示步长;
203、对APG算法进行更新:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>w</mi>
<mrow>
<mi>k</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>=</mo>
<mi>arg</mi>
<munder>
<mi>min</mi>
<mi>w</mi>
</munder>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<mo>|</mo>
<mo>|</mo>
<mi>w</mi>
<mo>-</mo>
<msub>
<mi>v</mi>
<mi>k</mi>
</msub>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mfrac>
<mn>1</mn>
<mi>l</mi>
</mfrac>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mi>w</mi>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<mi>arg</mi>
<munder>
<mi>min</mi>
<mi>w</mi>
</munder>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>d</mi>
</munderover>
<mrow>
<mo>(</mo>
<mo>|</mo>
<mo>|</mo>
<mi>w</mi>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
<mo>-</mo>
<msub>
<mi>v</mi>
<mi>k</mi>
</msub>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mfrac>
<mi>&lambda;</mi>
<mi>l</mi>
</mfrac>
<mo>|</mo>
<mi>w</mi>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
<mo>|</mo>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
其中,
3.如权利要求2所述的一种基于Laplacian算子的特征选择方法,其特征在于,步骤203中,所述对APG算法更新计算的方法是:将更新计算问题分解成d个独立的子问题,所述子问题的解析解为:
<mrow>
<msup>
<mi>w</mi>
<mo>*</mo>
</msup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mfrac>
<mi>&beta;</mi>
<mrow>
<mi>l</mi>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>v</mi>
<mi>k</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>2</mn>
</msub>
</mrow>
</mfrac>
<mo>)</mo>
<msub>
<mi>v</mi>
<mi>k</mi>
</msub>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>v</mi>
<mi>k</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>2</mn>
</msub>
<mo>></mo>
<mfrac>
<mi>&beta;</mi>
<mi>l</mi>
</mfrac>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mrow>
<mi>o</mi>
<mi>t</mi>
<mi>h</mi>
<mi>e</mi>
<mi>r</mi>
<mi>w</mi>
<mi>i</mi>
<mi>s</mi>
<mi>e</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
4.如权利要求1或3所述的一种基于Laplacian算子的特征选择方法,其特征在于:步骤二中,参数λ和β的值的计算方法是:将训练数据通过交叉验证来确定。
5.如权利要求4所述的一种基于Laplacian算子的特征选择方法,其特征在于:所述相似矩阵S用以保存映射时同类样本的局部相邻结构信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410713386.0A CN104408480B (zh) | 2014-11-28 | 2014-11-28 | 一种基于Laplacian算子的特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410713386.0A CN104408480B (zh) | 2014-11-28 | 2014-11-28 | 一种基于Laplacian算子的特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104408480A CN104408480A (zh) | 2015-03-11 |
CN104408480B true CN104408480B (zh) | 2018-05-04 |
Family
ID=52646111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410713386.0A Active CN104408480B (zh) | 2014-11-28 | 2014-11-28 | 一种基于Laplacian算子的特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104408480B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778032B (zh) * | 2016-12-14 | 2019-06-04 | 南京邮电大学 | 药物设计中配体分子海量特征筛选方法 |
CN107909077A (zh) * | 2017-10-10 | 2018-04-13 | 安徽信息工程学院 | 半监督情况下基于稀疏化理论的特征选择方法 |
CN110501568B (zh) * | 2019-07-05 | 2020-11-27 | 同济大学 | 一种基于图信号处理的非侵入式设备负载监测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127078A (zh) * | 2007-09-13 | 2008-02-20 | 北京航空航天大学 | 一种基于蚁群智能的无人机机器视觉图像匹配方法 |
CN101196564A (zh) * | 2007-12-18 | 2008-06-11 | 西安电子科技大学 | 拉普拉斯正则化最小二乘合成孔径雷达自动目标识别方法 |
CN101840516A (zh) * | 2010-04-27 | 2010-09-22 | 上海交通大学 | 基于稀疏分数的特征选择方法 |
CN102289661A (zh) * | 2011-07-27 | 2011-12-21 | 宁波大学 | 一种基于谱匹配的三维网格模型的匹配方法 |
-
2014
- 2014-11-28 CN CN201410713386.0A patent/CN104408480B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127078A (zh) * | 2007-09-13 | 2008-02-20 | 北京航空航天大学 | 一种基于蚁群智能的无人机机器视觉图像匹配方法 |
CN101196564A (zh) * | 2007-12-18 | 2008-06-11 | 西安电子科技大学 | 拉普拉斯正则化最小二乘合成孔径雷达自动目标识别方法 |
CN101840516A (zh) * | 2010-04-27 | 2010-09-22 | 上海交通大学 | 基于稀疏分数的特征选择方法 |
CN102289661A (zh) * | 2011-07-27 | 2011-12-21 | 宁波大学 | 一种基于谱匹配的三维网格模型的匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104408480A (zh) | 2015-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deng et al. | A survey on soft subspace clustering | |
Reyes et al. | Evolutionary strategy to perform batch-mode active learning on multi-label data | |
CN112232413B (zh) | 基于图神经网络与谱聚类的高维数据特征选择方法 | |
Zhu et al. | Multi-modal AD classification via self-paced latent correlation analysis | |
García-Pedrajas et al. | A scalable memetic algorithm for simultaneous instance and feature selection | |
Mielniczuk et al. | Stopping rules for mutual information-based feature selection | |
CN104408480B (zh) | 一种基于Laplacian算子的特征选择方法 | |
Vieira et al. | Main concepts in machine learning | |
CN103020979A (zh) | 基于稀疏遗传聚类的图像分割方法 | |
Wu et al. | Understanding and evaluating sparse linear discriminant analysis | |
Sun et al. | Non-negative matrix factorization based modeling and training algorithm for multi-label learning | |
CN109074348A (zh) | 用于对输入数据集进行迭代聚类的设备和迭代方法 | |
Wang et al. | M2SPL: Generative multiview features with adaptive meta-self-paced sampling for class-imbalance learning | |
Cheung et al. | Unsupervised feature selection with feature clustering | |
CN117972122A (zh) | 基于相关性匹配的跨模态图文检索方法 | |
Puniyani et al. | GINI: from ISH images to gene interaction networks | |
Sun et al. | LSFSR: Local label correlation-based sparse multilabel feature selection with feature redundancy | |
Ma et al. | Gaussian mixture model-based target feature extraction and visualization | |
Wei et al. | Robust feature selection based on regularized brownboost loss | |
Li et al. | Sparse Bayesian approach for feature selection | |
Xu et al. | Growth dynamics and heritability for plant high‐throughput phenotyping studies using hierarchical functional data analysis | |
Wong et al. | A probabilistic mechanism based on clustering analysis and distance measure for subset gene selection | |
Hasana et al. | Speeding Up EfficientNet: Selecting Update Blocks of Convolutional Neural Networks using Genetic Algorithm in Transfer Learning | |
Duan et al. | A novel data clustering algorithm based on modified adaptive particle swarm optimization | |
Barchinezhad et al. | Unsupervised feature selection method based on sensitivity and correlation concepts for multiclass problems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |