CN102880593A - 基于曲率预测的流形学习自适应邻域选择算法 - Google Patents
基于曲率预测的流形学习自适应邻域选择算法 Download PDFInfo
- Publication number
- CN102880593A CN102880593A CN 201210325652 CN201210325652A CN102880593A CN 102880593 A CN102880593 A CN 102880593A CN 201210325652 CN201210325652 CN 201210325652 CN 201210325652 A CN201210325652 A CN 201210325652A CN 102880593 A CN102880593 A CN 102880593A
- Authority
- CN
- China
- Prior art keywords
- formula
- point
- neighborhood
- algorithm
- curvature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
基于曲率预测的流形学习自适应邻域选择算法,它涉及一种应用于流形学习的自适应邻域选择算法,以解决现有的领域选择算法应用于流形学习算法存在适应性差,低维嵌入质量差,算法复杂度较高的问题,算法的具体步骤为,步骤一、高维离散数据点的曲率计算;步骤二、自适应邻域选择,本发明能够广泛的应用到目前的流形学习算法,本发明能够根据数据集分布的不同曲率选择合适的领域大小,本发明以高维数据点的一个自适应邻域选择矩阵,能够有效地降低流形学习算法的复杂度和找到优化的邻域大小,实现最佳的低维嵌入,低维嵌入质量好。本发明用于流形学习算法。
Description
技术领域
本发明涉及一种应用于流形学习的自适应邻域选择算法。
背景技术
自2000年在《科学》杂志发表两篇关于等距映射算法(Isometric Mapping,ISOMAP)流形学习算法和局部线性嵌入算法(Local Linear Embedding,LLE)的论文起,流形学习成为了解决计算机科学领域问题,特别是机器视觉和模式识别领域的常用方法,通过将嵌入在高维空间的数据映射到低维空间,实现对高维数据的维数约简。随着现今科技发展情况下海量数据处理需求,流形学习算法成为了众多研究领域的热点,如人脸识别,指纹识别,网络海量数据处理等。
目前基于流形假设的维数约简算法有很多,它们各自采用不同的方法来保持高维数据某一特征或多个特征来实现对高维数据的低维映射,LLE算法通过保持高维流形的局部线性结构实现对高维数据的降维;而ISOMAP算法通过保持高维数据点之间的测地线距离不变而实现维数约简的目标。基于上述两种算法,近年来出现了解决不同具体问题的流形学习算法,像拉普拉斯特征映射(Laplacian Eigen Mapping,LE)、局部线性投影算法(Local Linear Projection,LLP)及一些改进算法,如带标记的等距映射(L-ISOMAP)、海赛局部线性嵌入(Hessian LLE,HLLE)。据不完全统计,目前基于流形假设的降维算法不少于二十种。
通过分析典型流形学习算法的实现流程,可以发现基于流形假设的维数约简算法都有一些共同的算法步骤,如计算距离、寻找邻近点、特征向量预测等。不同的流形学习算法对于距离的衡量各不相同,LLE等算法中采用欧氏距离,LE算法采用拉普拉斯特征算子来衡量距离,ISOMAP算法中提出用测地线来表示高维数据点距离。在距离表示上,许多算法的不同之处正是基于这一点实现了对高维数据的不同特征的提取与保持。但在已有的流形学习算法中,特别是基于LLE和ISOMAP算法提出的众多流形学习算法,都有一个关键步骤——寻找邻近点。邻近点,即邻域,选取的大小与嵌入结果的好坏息息相关。因为流形学习是基于数据点之间信息传播及高维数据局部特征提取的方法,只有适当的邻域大小才能最好的得到低维嵌入结果,并同时实现算法复杂度最小和嵌入“质量”最高。常见邻域选择的方式有两种:一是K最邻近(K Nearest Neighbors,KNN);二是ε-超球体(ε-ball)。考虑到现有的流形学习算法,基本上都是基于KNN方法来实现,提出的技术发明中自适应KNN邻域的选择方法。
从目前已有的参考文献来看,提出自适应邻域选择算法的文献很少,并且没有文献提 出通用于目前大多数流形算法的自适应邻域选择算法。因此,提高低维嵌入质量,同时一定程度上降低算法复杂度,找到一种简单有效且有一定普适性的自适应邻域选择算法具体现实意义。
从流形假设出发,即高维数据点至少给分布在一个广义流形上,那么高维数据点的函数关系是存在的,并且是可微的。从这一假设出发,满足流形学习条件的数据集是可以计算或估计其数据点相应的曲率。通过阅读数学资料及文献,可以得出:在已知确定函数关系条件下,由微分几何可知,可能通过计算导数的方法来求出相应自变量取值处的斜率。斜率变化趋势就可以用来表示随着自变量的改变,因变量的变化情况。当处理多元函数的曲率问题时,可以应用黎曼微分几何的相关的知识来求解。但在求解高维数据对应的函数关系时有两个明显的问题:一是,对于高维数据,自变量与因变量的关系是不确定的,即无法确定哪些变量是自变量,哪些变量是因变量;二是在离散点条件下,准确的求解函数关系不可行的,最多只是采用某种算法来进行拟合,如此一来,那么就要假定数据点满足某种特定的函数关系,再来计算相应的系数。这两个明显的问题使得上述提出的理论计算方法变得不可以实现。
综上所述,现有的领域选择算法应用于流形学习算法存在适应性差,低维嵌入质量差,算法复杂度较高的问题。
发明内容
本发明的目的是为解决现有的领域选择算法应用于流形学习算法存在适应性差,低维嵌入质量差,算法复杂度较高的问题,进而提供一种基于曲率预测的流形学习自适应邻域选择算法。
本发明为解决上述问题采取的技术方案是:本发明的基于曲率预测的流形学习自适应邻域选择算法的具体步骤为:
步骤一、高维离散数据点的曲率计算,假定Ni={xi1,xi2,…,XiN}为数据点xi邻近的N个点,则Jacobi矩阵可以由下式预测:
其中: 是Ni个点的中心,即为Ni个点坐标的平均值,其表达式为: Qi是由矩阵 前r个最大的奇异值分解的特征向量构成的矩阵; 是矩阵 的奇异分解的特征向量中第j(1≤j≤N)点的特征向量,上角标 代表的是第i个点,下角标代表的是第i点的N邻近点中的第j点, 代表的是点xi邻近的一个小邻域,其中τ表示点xi的函数变量, 表示点xi的邻域函数变量,
由式(1),可以得到:
其中,‖‖表示对符号内表达式(或矩阵)求其相应的欧几里得距离,
由式(2)可以推导出:
由式(3)推导出:
由式(4),可以得出Jacobi矩阵的下限值Jinf:
其中下表inf代表的是相应变量的下界,即下限值,式(5)即为用来计算离散点的曲率的公式,
上述公式(1)中的N值的确定如下:
其中:D是高维数据的维数;d是嵌入的低维空间的维数;
步骤二、自适应邻域选择,邻域选择的大小存在下限值与上限值,分别表示为Kinf、Ksup:
其中,下标inf和sup分别代表的是相应变量的下限值和上限值,D是高维数据的维数,d是嵌入的低维空间的维数;在邻域选择的范围内,有下式的邻域选择准则:
其中:int[ ]表示对符号内表达式向下取整,Ki是数据点xi的邻域大小;Ko是初始的邻域大小;ΔJτ是相邻数据点之前曲率的变化值;δo曲率变化步长,它的值与曲率变化的极差及数据点的分区数目有关,
综合式(7)及式(8),可以给出自适应邻域选择准则:
Ko采用与式(6)的N相同的取值方式,
通过上述分析,可以由式(9)计算各个数据点的自适应邻域大小。
本发明的有益效果是:本发明能够广泛的应用到目前的流形学习算法,本发明能够根据数据集分布的不同曲率选择合适的领域大小,本发明以高维数据点的一个自适应邻域选择矩阵,能够有效地降低流形学习算法的复杂度和找到优化的邻域大小,实现最佳的低维嵌入,低维嵌入质量好。
具体实施方式
具体实施方式一:本实施方式的基于曲率预测的流形学习自适应邻域选择算法的具体步骤为,
步骤一、高维离散数据点的曲率计算,假定Ni={xi1,xi2,…,xiN}为数据点xi邻近的N个点,则Jacobi矩阵可以由下式预测:
其中: 是Ni个点的中心,即为Ni个点坐标的平均值,其表达式为: Qi是由矩阵 前r个最大的奇异值分解的特征向量构成的矩阵; 是矩阵 的奇异分解的特征向量中第j(1≤j≤N)点的特征向量,上角标代表的是第i个点,下角标代表的是第i点的N邻近点中的第j点, 代表的是点xi邻近的一个小邻域,其中τ表示点xi的函数变量, 表示点xi的邻域函数变量,
由式(1),可以得到:
其中,‖‖表示对符号内表达式(或矩阵)求其相应的欧几里得距离,
由式(2)可以推导出:
由式(3)推导出:
由式(4),可以得出Jacobi矩阵的下限值Jinf:
其中下表inf代表的是相应变量的下界,即下限值,式(5)即为用来计算离散点的曲率的公式,
上述公式(1)中的N值的确定如下:
其中:D是高维数据的维数;d是嵌入的低维空间的维数;
步骤二、自适应邻域选择,邻域选择的大小存在下限值与上限值,分别表示为Kinf、Ksup:
其中,下标inf和sup分别代表的是相应变量的下限值和上限值,D是高维数据的维数,d是嵌入的低维空间的维数;在邻域选择的范围内,有下式的邻域选择准则:
其中:int[ ]表示对符号内表达式向下取整,Ki是数据点xi的邻域大小;Ko是初始的邻 域大小;ΔJτ是相邻数据点之前曲率的变化值;δo曲率变化步长,它的值与曲率变化的极差及数据点的分区数目有关,
综合式(7)及式(8),可以给出自适应邻域选择准则:
Ko采用与式(6)的N相同的取值方式,
通过上述分析,可以由式(9)计算各个数据点的自适应邻域大小。
本实施方式的步骤一的公式(5)中有关于PCA算法实现的算法有较为成熟的结果,可以查阅相关资料。
本实施方式的步骤二的公式(8)领域的选择中,在邻域选择的范围内,采用类似于增量调制的思想,若曲率增大,则采用较小的邻域,反之,可以增大邻域的选取。
本实施方式算法实现时,涉及到海量数据的计算及相关的矩阵分析,优选采用有强大的矩阵计算功能的MatLab软件实现上述算法,通过上述算法可以高维数据点的一个自适应邻域选择矩阵。对于不同的数据点而言,邻域大小的取值不会全部相同。
现有的流形学习算法全是基于某一定值的邻域选取方法来实现相应的流形学习算法。本发明通过与基于某一定值的邻域大小的流形学习算法的性能比较来实现对其算法性能的比较与分析。
流形学习的“质量”,即降维结果的好坏,从统计学的概念出发,可采用剩余方差来衡量流形学习的“质量”。剩余方差的计算公式为:
Claims (1)
1.基于曲率预测的流形学习自适应邻域选择算法,所述自适应邻域选择算法的具体步骤为:
步骤一、高维离散数据点的曲率计算,假定Ni={xi1,xi2,…,xiN}为数据点xi邻近的N个点,则Jacobi矩阵可以由下式预测:
其中: 是Ni个点的中心,即为Ni个点坐标的平均值,其表达式为: Qi是由矩阵 前r个最大的奇异值分解的特征向量构成的矩阵; 是矩阵 的奇异分解的特征向量中第j(1≤j≤N)点的特征向量,上角标代表的是第i个点,下角标代表的是第i点的N邻近点中的第j点, 代表的是点xi邻近的一个小邻域,其中τ表示点xi的函数变量, 表示点xi的邻域函数变量,
由式(1),可以得到:
其中,‖‖表示对符号内表达式(或矩阵)求其相应的欧几里得距离,
由式(2)可以推导出:
由式(3)推导出:
由式(4),可以得出Jacobi矩阵的下限值Jinf:
其中下表inf代表的是相应变量的下界,即下限值,式(5)即为用来计算离散点的曲率 的公式,
上述公式(1)中的N值的确定如下:
其中:D是高维数据的维数;d是嵌入的低维空间的维数;
步骤二、自适应邻域选择,邻域选择的大小存在下限值与上限值,分别表示为Kinf、Ksup:
其中,下标inf和sup分别代表的是相应变量的下限值和上限值,D是高维数据的维数,d是嵌入的低维空间的维数;在邻域选择的范围内,有下式的邻域选择准则:
其中:int[ ]表示对符号内表达式向下取整,Ki是数据点xi的邻域大小;Ko是初始的邻域大小;ΔJτ是相邻数据点之前曲率的变化值;δo曲率变化步长,它的值与曲率变化的极差及数据点的分区数目有关,
综合式(7)及式(8),可以给出自适应邻域选择准则:
Ko采用与式(6)的N相同的取值方式,
通过上述分析,可以由式(9)计算各个数据点的自适应邻域大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201210325652 CN102880593A (zh) | 2012-09-05 | 2012-09-05 | 基于曲率预测的流形学习自适应邻域选择算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201210325652 CN102880593A (zh) | 2012-09-05 | 2012-09-05 | 基于曲率预测的流形学习自适应邻域选择算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102880593A true CN102880593A (zh) | 2013-01-16 |
Family
ID=47481923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201210325652 Pending CN102880593A (zh) | 2012-09-05 | 2012-09-05 | 基于曲率预测的流形学习自适应邻域选择算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102880593A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014205632A1 (en) * | 2013-06-24 | 2014-12-31 | Adobe Systems Incorporated | Gravity point drawing method |
CN108875802A (zh) * | 2018-05-30 | 2018-11-23 | 大连理工大学 | 基于多层近邻的图像相似性度量方法 |
CN111210023A (zh) * | 2020-01-13 | 2020-05-29 | 哈尔滨工业大学 | 数据集分类学习算法自动选择系统及方法 |
CN112257807A (zh) * | 2020-11-02 | 2021-01-22 | 曲阜师范大学 | 一种基于自适应优化线性邻域集选择的降维方法及系统 |
-
2012
- 2012-09-05 CN CN 201210325652 patent/CN102880593A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014205632A1 (en) * | 2013-06-24 | 2014-12-31 | Adobe Systems Incorporated | Gravity point drawing method |
US9779521B2 (en) | 2013-06-24 | 2017-10-03 | Adobe Systems Incorporated | Gravity point drawing method |
CN108875802A (zh) * | 2018-05-30 | 2018-11-23 | 大连理工大学 | 基于多层近邻的图像相似性度量方法 |
CN111210023A (zh) * | 2020-01-13 | 2020-05-29 | 哈尔滨工业大学 | 数据集分类学习算法自动选择系统及方法 |
CN111210023B (zh) * | 2020-01-13 | 2023-04-11 | 哈尔滨工业大学 | 数据集分类学习算法自动选择系统及方法 |
CN112257807A (zh) * | 2020-11-02 | 2021-01-22 | 曲阜师范大学 | 一种基于自适应优化线性邻域集选择的降维方法及系统 |
CN112257807B (zh) * | 2020-11-02 | 2022-05-27 | 曲阜师范大学 | 一种基于自适应优化线性邻域集选择的降维方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiong et al. | Optimizing the kernel in the empirical feature space | |
US8306940B2 (en) | Interactive visualization for generating ensemble classifiers | |
CN103403739A (zh) | 用于比较图像的方法和系统 | |
CN102880593A (zh) | 基于曲率预测的流形学习自适应邻域选择算法 | |
CN107958338A (zh) | 用电策略推荐方法及装置、存储介质 | |
Costa et al. | Estimating local intrinsic dimension with k-nearest neighbor graphs | |
CN102231788A (zh) | 信号的高速和低复杂度的分条几何变换的方法及装置 | |
CN108667502A (zh) | 一种基于机器学习的空间调制天线选择方法 | |
Suykens | Data visualization and dimensionality reduction using kernel maps with a reference point | |
CN114821251B (zh) | 一种点云上采样网络的确定方法及确定装置 | |
CN109840558A (zh) | 基于密度峰值-核心融合的自适应聚类方法 | |
CN112884046A (zh) | 基于不完全监督学习的图像分类方法、装置及相关设备 | |
CN116304768A (zh) | 一种基于改进等距映射的高维密度峰值聚类方法 | |
CN102592129A (zh) | 基于场景驱动的智能手机图像特征点选取方法 | |
Yang et al. | Xception-based general forensic method on small-size images | |
CN102722732A (zh) | 一种基于数据二阶统计量建模的图像集合匹配方法 | |
CN107506871A (zh) | 一种区间预测的方法及系统 | |
CN117459773A (zh) | 一种跨设备内容同步的智能电视图像显示方法及相关装置 | |
CN117034030A (zh) | 基于正反双向信息融合的脑电图数据对齐算法 | |
CN112149052A (zh) | 一种基于plr-dtw的日负荷曲线聚类方法 | |
CN107818327A (zh) | 分类器训练方法及装置 | |
CN110674845A (zh) | 一种结合多感受野注意与特征再校准的菜品识别方法 | |
CN113284565B (zh) | 信息处理的方法和装置 | |
CN111191717B (zh) | 一种基于隐空间聚类的黑盒对抗样本生成算法 | |
Malinen et al. | Clustering by analytic functions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130116 |