CN102880593A - 基于曲率预测的流形学习自适应邻域选择算法 - Google Patents

基于曲率预测的流形学习自适应邻域选择算法 Download PDF

Info

Publication number
CN102880593A
CN102880593A CN 201210325652 CN201210325652A CN102880593A CN 102880593 A CN102880593 A CN 102880593A CN 201210325652 CN201210325652 CN 201210325652 CN 201210325652 A CN201210325652 A CN 201210325652A CN 102880593 A CN102880593 A CN 102880593A
Authority
CN
China
Prior art keywords
formula
point
neighborhood
algorithm
curvature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201210325652
Other languages
English (en)
Inventor
马琳
周才发
刘曦
马欣茹
徐玉滨
强蔚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN 201210325652 priority Critical patent/CN102880593A/zh
Publication of CN102880593A publication Critical patent/CN102880593A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

基于曲率预测的流形学习自适应邻域选择算法,它涉及一种应用于流形学习的自适应邻域选择算法,以解决现有的领域选择算法应用于流形学习算法存在适应性差,低维嵌入质量差,算法复杂度较高的问题,算法的具体步骤为,步骤一、高维离散数据点的曲率计算;步骤二、自适应邻域选择,本发明能够广泛的应用到目前的流形学习算法,本发明能够根据数据集分布的不同曲率选择合适的领域大小,本发明以高维数据点的一个自适应邻域选择矩阵,能够有效地降低流形学习算法的复杂度和找到优化的邻域大小,实现最佳的低维嵌入,低维嵌入质量好。本发明用于流形学习算法。

Description

基于曲率预测的流形学习自适应邻域选择算法
技术领域
本发明涉及一种应用于流形学习的自适应邻域选择算法。 
背景技术
自2000年在《科学》杂志发表两篇关于等距映射算法(Isometric Mapping,ISOMAP)流形学习算法和局部线性嵌入算法(Local Linear Embedding,LLE)的论文起,流形学习成为了解决计算机科学领域问题,特别是机器视觉和模式识别领域的常用方法,通过将嵌入在高维空间的数据映射到低维空间,实现对高维数据的维数约简。随着现今科技发展情况下海量数据处理需求,流形学习算法成为了众多研究领域的热点,如人脸识别,指纹识别,网络海量数据处理等。 
目前基于流形假设的维数约简算法有很多,它们各自采用不同的方法来保持高维数据某一特征或多个特征来实现对高维数据的低维映射,LLE算法通过保持高维流形的局部线性结构实现对高维数据的降维;而ISOMAP算法通过保持高维数据点之间的测地线距离不变而实现维数约简的目标。基于上述两种算法,近年来出现了解决不同具体问题的流形学习算法,像拉普拉斯特征映射(Laplacian Eigen Mapping,LE)、局部线性投影算法(Local Linear Projection,LLP)及一些改进算法,如带标记的等距映射(L-ISOMAP)、海赛局部线性嵌入(Hessian LLE,HLLE)。据不完全统计,目前基于流形假设的降维算法不少于二十种。 
通过分析典型流形学习算法的实现流程,可以发现基于流形假设的维数约简算法都有一些共同的算法步骤,如计算距离、寻找邻近点、特征向量预测等。不同的流形学习算法对于距离的衡量各不相同,LLE等算法中采用欧氏距离,LE算法采用拉普拉斯特征算子来衡量距离,ISOMAP算法中提出用测地线来表示高维数据点距离。在距离表示上,许多算法的不同之处正是基于这一点实现了对高维数据的不同特征的提取与保持。但在已有的流形学习算法中,特别是基于LLE和ISOMAP算法提出的众多流形学习算法,都有一个关键步骤——寻找邻近点。邻近点,即邻域,选取的大小与嵌入结果的好坏息息相关。因为流形学习是基于数据点之间信息传播及高维数据局部特征提取的方法,只有适当的邻域大小才能最好的得到低维嵌入结果,并同时实现算法复杂度最小和嵌入“质量”最高。常见邻域选择的方式有两种:一是K最邻近(K Nearest Neighbors,KNN);二是ε-超球体(ε-ball)。考虑到现有的流形学习算法,基本上都是基于KNN方法来实现,提出的技术发明中自适应KNN邻域的选择方法。 
从目前已有的参考文献来看,提出自适应邻域选择算法的文献很少,并且没有文献提 出通用于目前大多数流形算法的自适应邻域选择算法。因此,提高低维嵌入质量,同时一定程度上降低算法复杂度,找到一种简单有效且有一定普适性的自适应邻域选择算法具体现实意义。 
从流形假设出发,即高维数据点至少给分布在一个广义流形上,那么高维数据点的函数关系是存在的,并且是可微的。从这一假设出发,满足流形学习条件的数据集是可以计算或估计其数据点相应的曲率。通过阅读数学资料及文献,可以得出:在已知确定函数关系条件下,由微分几何可知,可能通过计算导数的方法来求出相应自变量取值处的斜率。斜率变化趋势就可以用来表示随着自变量的改变,因变量的变化情况。当处理多元函数的曲率问题时,可以应用黎曼微分几何的相关的知识来求解。但在求解高维数据对应的函数关系时有两个明显的问题:一是,对于高维数据,自变量与因变量的关系是不确定的,即无法确定哪些变量是自变量,哪些变量是因变量;二是在离散点条件下,准确的求解函数关系不可行的,最多只是采用某种算法来进行拟合,如此一来,那么就要假定数据点满足某种特定的函数关系,再来计算相应的系数。这两个明显的问题使得上述提出的理论计算方法变得不可以实现。 
综上所述,现有的领域选择算法应用于流形学习算法存在适应性差,低维嵌入质量差,算法复杂度较高的问题。 
发明内容
本发明的目的是为解决现有的领域选择算法应用于流形学习算法存在适应性差,低维嵌入质量差,算法复杂度较高的问题,进而提供一种基于曲率预测的流形学习自适应邻域选择算法。 
本发明为解决上述问题采取的技术方案是:本发明的基于曲率预测的流形学习自适应邻域选择算法的具体步骤为: 
步骤一、高维离散数据点的曲率计算,假定Ni={xi1,xi2,…,XiN}为数据点xi邻近的N个点,则Jacobi矩阵可以由下式预测: 
x i - J τ · ( τ ^ - τ ) = x ‾ i + Q i θ j ( i ) - - - ( 1 )
其中: 
Figure BDA00002102555200022
是Ni个点的中心,即为Ni个点坐标的平均值,其表达式为: 
Figure BDA00002102555200023
Qi是由矩阵 
Figure BDA00002102555200024
前r个最大的奇异值分解的特征向量构成的矩阵; 是矩阵 
Figure BDA00002102555200026
的奇异分解的特征向量中第j(1≤j≤N)点的特征向量,上角标 代表的是第i个点,下角标代表的是第i点的N邻近点中的第j点, 
Figure BDA00002102555200031
代表的是点xi邻近的一个小邻域,其中τ表示点xi的函数变量, 
Figure BDA00002102555200032
表示点xi的邻域函数变量, 
由式(1),可以得到: 
| | J τ · ( τ ^ - τ ) | | = | | x ‾ i - x i + Q i θ j ( i ) | | - - - ( 2 )
其中,‖‖表示对符号内表达式(或矩阵)求其相应的欧几里得距离, 
由式(2)可以推导出: 
| | J τ | | · | | ( τ ^ - τ ) | | = | | x ‾ i - x i + Q i θ j ( i ) | | - - - ( 3 )
由式(3)推导出: 
| | J τ | | = | | x ‾ i - x i + Q i θ j ( i ) | | | | θ j ( i ) | | - - - ( 4 )
由式(4),可以得出Jacobi矩阵的下限值Jinf: 
J inf = | | x ‾ i - x i | | + | | Q i θ j ( i ) | | | | θ j ( i ) | | - - - ( 5 )
其中下表inf代表的是相应变量的下界,即下限值,式(5)即为用来计算离散点的曲率的公式, 
上述公式(1)中的N值的确定如下: 
Figure BDA00002102555200037
其中:D是高维数据的维数;d是嵌入的低维空间的维数; 
步骤二、自适应邻域选择,邻域选择的大小存在下限值与上限值,分别表示为Kinf、Ksup: 
K inf = d + 1 K sup = 6 D - - - ( 7 )
其中,下标inf和sup分别代表的是相应变量的下限值和上限值,D是高维数据的维数,d是嵌入的低维空间的维数;在邻域选择的范围内,有下式的邻域选择准则: 
K i = K o + int [ ( ΔJ τ ) δ o ] - - - ( 8 )
其中:int[ ]表示对符号内表达式向下取整,Ki是数据点xi的邻域大小;Ko是初始的邻域大小;ΔJτ是相邻数据点之前曲率的变化值;δo曲率变化步长,它的值与曲率变化的极差及数据点的分区数目有关, 
综合式(7)及式(8),可以给出自适应邻域选择准则: 
K i = K inf , K i < K inf K sup , K i > K sup K i , K i &Element; [ K inf , K sup ] - - - ( 9 )
Ko采用与式(6)的N相同的取值方式, 
通过上述分析,可以由式(9)计算各个数据点的自适应邻域大小。 
本发明的有益效果是:本发明能够广泛的应用到目前的流形学习算法,本发明能够根据数据集分布的不同曲率选择合适的领域大小,本发明以高维数据点的一个自适应邻域选择矩阵,能够有效地降低流形学习算法的复杂度和找到优化的邻域大小,实现最佳的低维嵌入,低维嵌入质量好。 
具体实施方式
具体实施方式一:本实施方式的基于曲率预测的流形学习自适应邻域选择算法的具体步骤为, 
步骤一、高维离散数据点的曲率计算,假定Ni={xi1,xi2,…,xiN}为数据点xi邻近的N个点,则Jacobi矩阵可以由下式预测: 
x i - J &tau; &CenterDot; ( &tau; ^ - &tau; ) = x &OverBar; i + Q i &theta; j ( i ) - - - ( 1 )
其中: 
Figure BDA00002102555200044
是Ni个点的中心,即为Ni个点坐标的平均值,其表达式为: Qi是由矩阵 前r个最大的奇异值分解的特征向量构成的矩阵; 
Figure BDA00002102555200047
是矩阵 的奇异分解的特征向量中第j(1≤j≤N)点的特征向量,上角标代表的是第i个点,下角标代表的是第i点的N邻近点中的第j点, 
Figure BDA00002102555200049
代表的是点xi邻近的一个小邻域,其中τ表示点xi的函数变量, 
Figure BDA000021025552000410
表示点xi的邻域函数变量, 
由式(1),可以得到: 
| | J &tau; &CenterDot; ( &tau; ^ - &tau; ) | | = | | x &OverBar; i - x i + Q i &theta; j ( i ) | | - - - ( 2 )
其中,‖‖表示对符号内表达式(或矩阵)求其相应的欧几里得距离, 
由式(2)可以推导出: 
| | J &tau; | | &CenterDot; | | ( &tau; ^ - &tau; ) | | = | | x &OverBar; i - x i + Q i &theta; j ( i ) | | - - - ( 3 )
由式(3)推导出: 
| | J &tau; | | = | | x &OverBar; i - x i + Q i &theta; j ( i ) | | | | &theta; j ( i ) | | - - - ( 4 )
由式(4),可以得出Jacobi矩阵的下限值Jinf: 
J inf = | | x &OverBar; i - x i | | + | | Q i &theta; j ( i ) | | | | &theta; j ( i ) | | - - - ( 5 )
其中下表inf代表的是相应变量的下界,即下限值,式(5)即为用来计算离散点的曲率的公式, 
上述公式(1)中的N值的确定如下: 
Figure BDA00002102555200055
其中:D是高维数据的维数;d是嵌入的低维空间的维数; 
步骤二、自适应邻域选择,邻域选择的大小存在下限值与上限值,分别表示为Kinf、Ksup: 
K inf = d + 1 K sup = 6 D - - - ( 7 )
其中,下标inf和sup分别代表的是相应变量的下限值和上限值,D是高维数据的维数,d是嵌入的低维空间的维数;在邻域选择的范围内,有下式的邻域选择准则: 
K i = K o + int [ ( &Delta;J &tau; ) &delta; o ] - - - ( 8 )
其中:int[ ]表示对符号内表达式向下取整,Ki是数据点xi的邻域大小;Ko是初始的邻 域大小;ΔJτ是相邻数据点之前曲率的变化值;δo曲率变化步长,它的值与曲率变化的极差及数据点的分区数目有关, 
综合式(7)及式(8),可以给出自适应邻域选择准则: 
K i = K inf , K i < K inf K sup , K i > K sup K i , K i &Element; [ K inf , K sup ] - - - ( 9 )
Ko采用与式(6)的N相同的取值方式, 
通过上述分析,可以由式(9)计算各个数据点的自适应邻域大小。 
本实施方式的步骤一的公式(5)中有关于PCA算法实现的算法有较为成熟的结果,可以查阅相关资料。 
本实施方式的步骤二的公式(8)领域的选择中,在邻域选择的范围内,采用类似于增量调制的思想,若曲率增大,则采用较小的邻域,反之,可以增大邻域的选取。 
本实施方式算法实现时,涉及到海量数据的计算及相关的矩阵分析,优选采用有强大的矩阵计算功能的MatLab软件实现上述算法,通过上述算法可以高维数据点的一个自适应邻域选择矩阵。对于不同的数据点而言,邻域大小的取值不会全部相同。 
现有的流形学习算法全是基于某一定值的邻域选取方法来实现相应的流形学习算法。本发明通过与基于某一定值的邻域大小的流形学习算法的性能比较来实现对其算法性能的比较与分析。 
流形学习的“质量”,即降维结果的好坏,从统计学的概念出发,可采用剩余方差来衡量流形学习的“质量”。剩余方差的计算公式为: 
&xi; rvar = 1 - &rho; D X , D Y 2 - - - ( 10 )
式(10)中ξrvar表示剩余方差, 
Figure BDA00002102555200063
表示DX和DY之间的方差,其中DX、DY均用矩阵表示。通常,剩余方差越小,则表明流形学习的“质量”越好。将本发明提出的自适应领域选择算法应用于同一流形学习算法并比较相应的剩余方差的值,由此可以比较流形学习的算法的性能。 

Claims (1)

1.基于曲率预测的流形学习自适应邻域选择算法,所述自适应邻域选择算法的具体步骤为:
步骤一、高维离散数据点的曲率计算,假定Ni={xi1,xi2,…,xiN}为数据点xi邻近的N个点,则Jacobi矩阵可以由下式预测:
其中: 
Figure DEST_PATH_FDA00002216029400012
是Ni个点的中心,即为Ni个点坐标的平均值,其表达式为: 
Figure DEST_PATH_FDA00002216029400013
Qi是由矩阵 
Figure DEST_PATH_FDA00002216029400014
前r个最大的奇异值分解的特征向量构成的矩阵; 
Figure DEST_PATH_FDA00002216029400015
是矩阵 
Figure DEST_PATH_FDA00002216029400016
的奇异分解的特征向量中第j(1≤j≤N)点的特征向量,上角标代表的是第i个点,下角标代表的是第i点的N邻近点中的第j点, 
Figure DEST_PATH_FDA00002216029400017
代表的是点xi邻近的一个小邻域,其中τ表示点xi的函数变量, 表示点xi的邻域函数变量,
由式(1),可以得到:
Figure DEST_PATH_FDA00002216029400019
其中,‖‖表示对符号内表达式(或矩阵)求其相应的欧几里得距离,
由式(2)可以推导出:
Figure DEST_PATH_FDA000022160294000110
由式(3)推导出:
由式(4),可以得出Jacobi矩阵的下限值Jinf
Figure DEST_PATH_FDA000022160294000112
其中下表inf代表的是相应变量的下界,即下限值,式(5)即为用来计算离散点的曲率 的公式,
上述公式(1)中的N值的确定如下:
Figure DEST_PATH_FDA00002216029400021
其中:D是高维数据的维数;d是嵌入的低维空间的维数;
步骤二、自适应邻域选择,邻域选择的大小存在下限值与上限值,分别表示为Kinf、Ksup
Figure DEST_PATH_FDA00002216029400022
其中,下标inf和sup分别代表的是相应变量的下限值和上限值,D是高维数据的维数,d是嵌入的低维空间的维数;在邻域选择的范围内,有下式的邻域选择准则:
其中:int[ ]表示对符号内表达式向下取整,Ki是数据点xi的邻域大小;Ko是初始的邻域大小;ΔJτ是相邻数据点之前曲率的变化值;δo曲率变化步长,它的值与曲率变化的极差及数据点的分区数目有关,
综合式(7)及式(8),可以给出自适应邻域选择准则:
Figure DEST_PATH_FDA00002216029400024
Ko采用与式(6)的N相同的取值方式,
通过上述分析,可以由式(9)计算各个数据点的自适应邻域大小。 
CN 201210325652 2012-09-05 2012-09-05 基于曲率预测的流形学习自适应邻域选择算法 Pending CN102880593A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201210325652 CN102880593A (zh) 2012-09-05 2012-09-05 基于曲率预测的流形学习自适应邻域选择算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201210325652 CN102880593A (zh) 2012-09-05 2012-09-05 基于曲率预测的流形学习自适应邻域选择算法

Publications (1)

Publication Number Publication Date
CN102880593A true CN102880593A (zh) 2013-01-16

Family

ID=47481923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201210325652 Pending CN102880593A (zh) 2012-09-05 2012-09-05 基于曲率预测的流形学习自适应邻域选择算法

Country Status (1)

Country Link
CN (1) CN102880593A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014205632A1 (en) * 2013-06-24 2014-12-31 Adobe Systems Incorporated Gravity point drawing method
CN108875802A (zh) * 2018-05-30 2018-11-23 大连理工大学 基于多层近邻的图像相似性度量方法
CN111210023A (zh) * 2020-01-13 2020-05-29 哈尔滨工业大学 数据集分类学习算法自动选择系统及方法
CN112257807A (zh) * 2020-11-02 2021-01-22 曲阜师范大学 一种基于自适应优化线性邻域集选择的降维方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014205632A1 (en) * 2013-06-24 2014-12-31 Adobe Systems Incorporated Gravity point drawing method
US9779521B2 (en) 2013-06-24 2017-10-03 Adobe Systems Incorporated Gravity point drawing method
CN108875802A (zh) * 2018-05-30 2018-11-23 大连理工大学 基于多层近邻的图像相似性度量方法
CN111210023A (zh) * 2020-01-13 2020-05-29 哈尔滨工业大学 数据集分类学习算法自动选择系统及方法
CN111210023B (zh) * 2020-01-13 2023-04-11 哈尔滨工业大学 数据集分类学习算法自动选择系统及方法
CN112257807A (zh) * 2020-11-02 2021-01-22 曲阜师范大学 一种基于自适应优化线性邻域集选择的降维方法及系统
CN112257807B (zh) * 2020-11-02 2022-05-27 曲阜师范大学 一种基于自适应优化线性邻域集选择的降维方法及系统

Similar Documents

Publication Publication Date Title
Xiong et al. Optimizing the kernel in the empirical feature space
US8306940B2 (en) Interactive visualization for generating ensemble classifiers
CN103403739A (zh) 用于比较图像的方法和系统
CN102880593A (zh) 基于曲率预测的流形学习自适应邻域选择算法
CN107958338A (zh) 用电策略推荐方法及装置、存储介质
Costa et al. Estimating local intrinsic dimension with k-nearest neighbor graphs
CN102231788A (zh) 信号的高速和低复杂度的分条几何变换的方法及装置
CN108667502A (zh) 一种基于机器学习的空间调制天线选择方法
Suykens Data visualization and dimensionality reduction using kernel maps with a reference point
CN114821251B (zh) 一种点云上采样网络的确定方法及确定装置
CN109840558A (zh) 基于密度峰值-核心融合的自适应聚类方法
CN112884046A (zh) 基于不完全监督学习的图像分类方法、装置及相关设备
CN116304768A (zh) 一种基于改进等距映射的高维密度峰值聚类方法
CN102592129A (zh) 基于场景驱动的智能手机图像特征点选取方法
Yang et al. Xception-based general forensic method on small-size images
CN102722732A (zh) 一种基于数据二阶统计量建模的图像集合匹配方法
CN107506871A (zh) 一种区间预测的方法及系统
CN117459773A (zh) 一种跨设备内容同步的智能电视图像显示方法及相关装置
CN117034030A (zh) 基于正反双向信息融合的脑电图数据对齐算法
CN112149052A (zh) 一种基于plr-dtw的日负荷曲线聚类方法
CN107818327A (zh) 分类器训练方法及装置
CN110674845A (zh) 一种结合多感受野注意与特征再校准的菜品识别方法
CN113284565B (zh) 信息处理的方法和装置
CN111191717B (zh) 一种基于隐空间聚类的黑盒对抗样本生成算法
Malinen et al. Clustering by analytic functions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130116