CN112765426A - 一种基于Wasserstein空间的可视化降维方法 - Google Patents

一种基于Wasserstein空间的可视化降维方法 Download PDF

Info

Publication number
CN112765426A
CN112765426A CN202110063574.3A CN202110063574A CN112765426A CN 112765426 A CN112765426 A CN 112765426A CN 202110063574 A CN202110063574 A CN 202110063574A CN 112765426 A CN112765426 A CN 112765426A
Authority
CN
China
Prior art keywords
iteration
dimensional data
projection
wasserstein
projection point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110063574.3A
Other languages
English (en)
Inventor
秦红星
陈立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110063574.3A priority Critical patent/CN112765426A/zh
Publication of CN112765426A publication Critical patent/CN112765426A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor

Abstract

本发明涉及一种基于Wasserstein空间的可视化降维方法,属于数据处理领域。该方法包括以下步骤:S1:输入原始高维数据,对其进行归一化预处理。S2:根据给定超参数计算预处理后高维数据的双调和距离。S3:基于双调和距离计算高维数据的对应概率测度。S4:初始化投影点位置,并计算其对应概率测度。S5:使用Sinkhorn迭代计算损失函数对偶形式的解。S6:对损失函数关于投影点位置求导,并更新投影点位置。S7:重复执行S5和S6,直到达到迭代停止条件,得到投影结果。用于有类型的高维数据,获得具有良好分类效果的二维投影,以便用户和研究人员能直观地获取原数据的类别分布信息。

Description

一种基于Wasserstein空间的可视化降维方法
技术领域
本发明属于数据处理领域,涉及一种基于Wasserstein空间的可视化降维方法。
背景技术
高维数据频繁地出现在统计学、数据科学、机器学习、生命科学以及商务事务等领域。然而,这些领域中的复杂事务需要处理的数据通常有着数十上百维的特征,为数据分析和模式挖掘带来了困难。为了从中分析和获取所需信息,高维数据的可视化已成为信息可视化领域的重要分支。目前,已有诸多技术致力于解决此问题,例如平行坐标轴、热力图以及各类基于图的可视化技术等等。在所有高维信息可视化方法中,降维技术,也称投影,有着特殊的优势:通过把高维数据投影为2或3维的点,数据能以散点图的形式直接呈现在屏幕上。此外,相比于其它技术,基于降维的可视化方法通常对数据的维数有很好的伸缩性。当然,降维技术也有其局限性。由于低维空间在本质上无法保持高维数据的全部特征,所有降维技术都只能侧重于保留原数据的某一部分信息。因此,降维技术通常有其最为适应的数据类型和用途,而在此范畴之外则无法期望能取得最好的效果。本发明主要关注的数据类型和用途是:对于有类别的高维数据构造具有良好分类效果的二维投影。
就其原理而言,可以把降维技术二分为两类:全局的和局部的,前者侧重于保留高维数据的全局结构,后者则侧重于局部细节的保留。在全局方法中最著名的应属PCA和MDS,这两种方法都有着大量的衍生和改进,且有着广泛的应用。PCA的基本思想是保留数据具有最大方差的特征,其目标维数可以任意设置,当维数设定为二维时就得到可画出的散点图。MDS则着重于保留原数据的点对距离,也即是说,该方法构造的投影点的点对距离与原数据的点对距离在某种度量下尽的差距尽可能小。全局的方法通常在理论上有着很好的性质,如PCA还可以用来作为数据预处理的技术,但作为可视化方法通常不是最好的选择,特别是对于数据分类这一目的而言。另一方面,局部的降维技术通常能更好地展示原数据的细节。在此类方法中,最受到广泛使用的是T-SNE,它提出在高维和低维用不同的概率测度表达其距离信息,并用KL散度作为损失函数得到投影。UMAP则很可能成为T-SNE的取代者,该方法在结构上类似T-SNE,但以流形的均匀采样作为理论基础,并使用模糊集的信息熵作为损失函数,获得了比T-SNE更快的速度和很有竞争力的投影效果。但是,在一些数据集上,这两种主流方法的分类效果依然欠佳,或需要较为精细的调参和多次运行才能获得较好效果。
发明内容
有鉴于此,本发明的目的在于提供一种基于Wasserstein空间的可视化降维方法。
为达到上述目的,本发明提供如下技术方案:
一种基于Wasserstein空间的可视化降维方法,该方法包括以下步骤:
S1:输入原始高维数据,对其进行归一化预处理。
S2:根据给定超参数计算预处理后高维数据的双调和距离。
S3:基于双调和距离计算高维数据的对应概率测度。
S4:初始化投影点位置,并计算其对应概率测度。
S5:使用Sinkhorn迭代计算损失函数对偶形式的解。
S6:对损失函数关于投影点位置求导,并更新投影点位置。
S7:重复执行S5和S6,直到达到迭代停止条件,得到投影结果。
可选的,所述S1的具体包括:对高维数据的每个特征进行平移和缩放,将所有特征都归化到[0,1]区间。
可选的,所述S2具体包括:计算高维数据的双调和距离。双调和距离定义如下。记带权图Γ=(V,E,Ω),Wu,v是节点u,v间的权重。du=∑vwu,v,且T是以du为对角元的矩阵。A是Γ的邻接矩阵,则非规范化带权拉普拉斯矩阵是L=T-A。L的特征值和特征向量分别是0=λ1≤λ2…λ|V|和φ1,φ2,…,φ|V|。双调和距离定义为
Figure BDA0002903597070000021
用于计算双调和距离的邻接矩阵A的构造方法如下:记高维数据的欧式距离矩阵为M(e),而
Figure BDA0002903597070000022
是边eij的权重,边eij对应节点vi与vj;令
Figure BDA0002903597070000023
当且仅当vi的Kb-近邻边中有eij,或者vj的Kb-近邻边中有eij;否则Aij=0。
可选的,所述S3具体包括:记高维数据的采样点为
Figure BDA0002903597070000024
用下式求得概率测度矩阵Q
Figure BDA0002903597070000025
上式中||·||b代表S2中计算出的双调和距离,σi则对于给定的超参数Perplexity满足
Figure BDA0002903597070000026
σi的值由一个二分搜索求得。超参数Perplexity越大,投影越能表达原数据全局结构;反之,则越能表达局部结构。Perplexity默认为30。
可选的,所述S4具体包括:记投影点为
Figure BDA0002903597070000027
除非用户指定初值,在[0,0.001]的正方形区间上用一个均匀分布初始化所有投影点,并计算投影点对应的概率测度如下
Figure BDA0002903597070000031
可选的,所述S5具体包括:记Pi是矩阵P的第i行,Qi类似,被看作列向量。W代表1-Wasserstein距离,所使用的损失函数的对偶形式如下
Figure BDA0002903597070000032
其中αi,βi使用Sinkhorn迭代求得。Sinkhorn迭代具体来说,是首先进行下面的不动点迭代直到收敛
Figure BDA0002903597070000033
其中K=e-M/ε。计算得到
αi=εlog ui,βi=εlog vi
Sinkhorn迭代涉及三个参数:
参数c是一个很小的常数,用于防止数值溢出;
参数ε是正则化常数,越小迭代越精确,取值是0.01;
参数M是传输代价矩阵,取为高维数据的欧式距离矩阵;
Sinkhorn迭代内部的(u,v)交替迭代需要进行数百次才能得到足够精确的结果;利用一个技巧进行加速:保存k-1轮迭代时求得的向量对(u(k-1),v(k-1)),当第k轮迭代需要更新α,β时,使用(u(k-1),v(k-1))作为初值启动Sinkhorn迭代,不到100次(u,v)交替的迭代求得足够好的结果。
可选的,所述S6具体包括:将损失函数关于投影点pi=(xi,yi)求导,并更新投影点位置。损失函数关于横坐标xi求导结果如下
Figure BDA0002903597070000034
Figure BDA0002903597070000035
Figure BDA0002903597070000036
Figure BDA0002903597070000037
由于x,y是对称符号,关于纵坐标yi的求导结果通过交换上式中x,y的位置得到。求导中假设αi,βi是和投影点位置无关的常数,每次投影点位置变动后,要重新使用Sinkhorn迭代计算αi,βi的值。
使用带动量项的梯度下降进行优化。若记第k步迭代时投影点是p(k),且该步的梯度为
Figure BDA0002903597070000041
则更新公式是
Figure BDA0002903597070000042
其中m是动量常数,取为0.9,步长取50~100。
可选的,所述S7具体包括:根据梯度下降的步长不同,在200~300次迭代基本收敛。用户直接根据经验直接设置迭代次数,也检查计算得到的梯度值决定是否停止迭代。当迭代结束后,此时的投影点就是投影结果。
本发明的有益效果在于:用于有类型的高维数据,获得具有良好分类效果的二维投影,以便用户和研究人员能直观地获取原数据的类别分布信息。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所叙的基于Wasserstein空间的可视化降维方法的流程图;
图2为本发明S2步骤中所构建的邻接矩阵的示意图;
图3为本发明S4步骤中所进行的投影点初始化示意图;
图4为本发明对Wine数据集的投影结果示例。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
以下通过Wine数据集为例,说明本发明的实施方法,如图1所示。
S1:对高维数据的每个特征进行平移和缩放,将所有特征都归化到[0,1]区间。更具体来说,预处理过程会将每列特征减去该列特征最小值,使其最小值从0开始;然后,将每列特征除以该列特征最大值,使其最大值为1。
S2:对于该数据集,本例中取Kb=7,使用以下方法构造A。记高维数据的欧式距离矩阵为M(e),而
Figure BDA0002903597070000051
是边eij的权重,边eij对应节点vi与vj;令
Figure BDA0002903597070000052
当且仅当vi的Kb-近邻边中有eij,或者vj的Kb-近邻边中有eij;否则Aij=0。然后,根据前述双调和距离的定义
Figure BDA0002903597070000053
计算出所有点对间的双调和距离。该步骤构建的邻接矩阵A的可视化见图2。
S3:记高维数据的采样点为
Figure BDA0002903597070000054
用下式求得概率测度矩阵Q
Figure BDA0002903597070000055
上式中||·||b代表S2中计算出的双调和距离,σi则对于给定的超参数Perplexity满足
Figure BDA0002903597070000056
σi的值可由一个二分搜索求得。对于给定的Perplexity,将某个σi代入上式计算,根据求得的结果以二分搜索的模式增大或减小σi的值,不断调整就得能到所需的结果。这里超参数Perplexity为30。
S4:记投影点为
Figure BDA0002903597070000057
在[0,0.001]的正方形区间上用一个均匀分布初始化所有投影点,该初始化的效果见图3。然后,计算投影点对应的概率测度如下
Figure BDA0002903597070000058
S5:使用Sinkhorn迭代求得下述损失函数的对偶变量αi,βi
Figure BDA0002903597070000061
具体来说,是首先进行下面的不动点迭代直到收敛
Figure BDA0002903597070000062
其中K=e-M/ε。进一步,计算得到
αi=εlog ui,βi=εlog vi
关于该Sinkhorn迭代涉及的三个参数说明如下:
1.c在迭代开始时取值1e-30,投影点每更新一次c的值衰减为之前的十分之一,直到其值小于等于1e-200时停止衰减;这个技巧有助于让初期的迭代更稳定,而在后期减小c,可以避免带来不必要的误差。
2.ε的取值是0.01。
3.M是高维数据的欧式距离矩阵。
最后,本发明在每轮迭代中使用上一轮迭代的结果作为初值,对Sinkhorn迭代进行加速。S6:使用下式计算损失函数关于投影点pi=(xi,yi)的导数
Figure BDA0002903597070000063
Figure BDA0002903597070000064
Figure BDA0002903597070000065
Figure BDA0002903597070000066
由于x,y是对称符号,关于纵坐标yi的求导结果可以通过交换上式中x,y的位置得到。求得上述导数后,本发明使用带动量项的梯度下降更新投影点。若记第k步迭代时投影点是p(k),且该步的梯度为
Figure BDA0002903597070000067
下降公式是
Figure BDA0002903597070000068
其中m是动量常数,这里取0.9。步长则取70。
S7:进行300次迭代,得到的投影结果如图4。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于Wasserstein空间的可视化降维方法,其特征在于:该方法包括以下步骤:
S1:输入原始高维数据,对其进行归一化预处理;
S2:根据给定超参数计算预处理后高维数据的双调和距离;
S3:基于双调和距离计算高维数据的对应概率测度;
S4:初始化投影点位置,并计算其对应概率测度;
S5:使用Sinkhom迭代计算损失函数对偶形式的解;
S6:对损失函数关于投影点位置求导,并更新投影点位置;
S7:重复执行S5和S6,直到达到迭代停止条件,得到投影结果。
2.根据权利要求1所述的一种基于Wasserstein空间的可视化降维方法,其特征在于:所述S1的具体包括:对高维数据的每个特征进行平移和缩放,将所有特征都归化到[0,1]区间。
3.根据权利要求2所述的一种基于Wasserstein空间的可视化降维方法,其特征在于:所述S2具体包括:计算高维数据的双调和距离;双调和距离定义如下;记带权图Γ=(V,E,Ω),wu,v是节点u,v间的权重;du=∑vwu,v,且T是以du为对角元的矩阵;A是Γ的邻接矩阵,则非规范化带权拉普拉斯矩阵是L=T-A;L的特征值和特征向量分别是0=λ1≤λ2…λ|V|和φ1,φ2,…,φ|v|;双调和距离定义为
Figure FDA0002903597060000011
用于计算双调和距离的邻接矩阵A的构造方法如下:记高维数据的欧式距离矩阵为M(e),而
Figure FDA0002903597060000012
是边eij的权重,边eij对应节点vi与vj;令
Figure FDA0002903597060000013
当且仅当vi的Kb-近邻边中有eij,或者vj的Kb-近邻边中有eij;否则Aij=0。
4.根据权利要求3所述的一种基于Wasserstein空间的可视化降维方法,其特征在于:所述S3具体包括:记高维数据的采样点声
Figure FDA0002903597060000014
用下式求得概率测度矩阵Q
Figure FDA0002903597060000015
上式中||·||b代表S2中计算出的双调和距离,σi则对于给定的超参数Perplexity满足
Figure FDA0002903597060000016
σi的值由一个二分搜索求得;超参数Perplexity越大,投影越能表达原数据全局结构;反之,则越能表达局部结构;Perplexity默认为30。
5.根据权利要求4所述的一种基于Wasserstein空间的可视化降维方法,其特征在于:所述S4具体包括:记投影点为
Figure FDA0002903597060000017
除非用户指定初值,在[0,0.001]的正方形区间上用一个均匀分布初始化所有投影点,并计算投影点对应的概率测度如下
Figure FDA0002903597060000021
6.根据权利要求5所述的一种基于Wasserstein空间的可视化降维方法,其特征在于:所述S5具体包括:记Pi是矩阵P的第i行,Qi类似,被看作列向量;W代表1-Wasserstein距离,所使用的损失函数的对偶形式如下
Figure FDA0002903597060000022
其中αi,βi使用Sinkhorn迭代求得;Sinkhorn迭代具体来说,是首先进行下面的不动点迭代直到收敛
Figure FDA0002903597060000023
其中K=e-M/ε;计算得到
αi=εlog ui,βi=εlog vi
Sinkhorn迭代涉及三个参数:
参数c是一个很小的常数,用于防止数值溢出;
参数ε是正则化常数,越小迭代越精确,取值是0.01;
参数M是传输代价矩阵,取为高维数据的欧式距离矩阵;
Sinkhorn迭代内部的(u,v)交替迭代需要进行数百次才能得到足够精确的结果;利用一个技巧进行加速:保存k-1轮迭代时求得的向量对(u(k-1),v(k-1)),当第k轮迭代需要更新α,β时,使用(u(k-1),v(k-1))作为初值启动Sinkhorn迭代,不到100次(u,v)交替的迭代求得足够好的结果。
7.根据权利要求6所述的一种基于Wasserstein空间的可视化降维方法,其特征在于:所述S6具体包括:将损失函数关于投影点pi=(xi,yi)求导,并更新投影点位置;损失函数关于横坐标xi求导结果如下
Figure FDA0002903597060000024
Figure FDA0002903597060000025
Figure FDA0002903597060000026
Figure FDA0002903597060000027
由于x,y是对称符号,关于纵坐标yi的求导结果通过交换上式中x,y的位置得到;求导中假设αi,βi是和投影点位置无关的常数,每次投影点位置变动后,要重新使用Sinkhorn迭代计算αi,βi的值;
使用带动量项的梯度下降进行优化;若记第k步迭代时投影点是p(k),且该步的梯度为
Figure FDA0002903597060000031
则更新公式是
Figure FDA0002903597060000032
其中m是动量常数,取为0.9,步长取50~100。
8.根据权利要求7所述的一种基于Wasserstein空间的可视化降维方法,其特征在于:所述S7具体包括:根据梯度下降的步长不同,在200~300次迭代基本收敛;用户直接根据经验直接设置迭代次数,也检查计算得到的梯度值决定是否停止迭代;当迭代结束后的投影点就是投影结果。
CN202110063574.3A 2021-01-18 2021-01-18 一种基于Wasserstein空间的可视化降维方法 Pending CN112765426A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110063574.3A CN112765426A (zh) 2021-01-18 2021-01-18 一种基于Wasserstein空间的可视化降维方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110063574.3A CN112765426A (zh) 2021-01-18 2021-01-18 一种基于Wasserstein空间的可视化降维方法

Publications (1)

Publication Number Publication Date
CN112765426A true CN112765426A (zh) 2021-05-07

Family

ID=75702933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110063574.3A Pending CN112765426A (zh) 2021-01-18 2021-01-18 一种基于Wasserstein空间的可视化降维方法

Country Status (1)

Country Link
CN (1) CN112765426A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114661393A (zh) * 2022-03-01 2022-06-24 重庆邮电大学 基于流动人口数据特征聚类的城市集聚效应可视分析方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114661393A (zh) * 2022-03-01 2022-06-24 重庆邮电大学 基于流动人口数据特征聚类的城市集聚效应可视分析方法
CN114661393B (zh) * 2022-03-01 2024-03-22 重庆邮电大学 基于流动人口数据特征聚类的城市集聚效应可视分析方法

Similar Documents

Publication Publication Date Title
Franek et al. Ensemble clustering by means of clustering embedding in vector spaces
US10782396B2 (en) Variational track management
Ren et al. A self-adaptive fuzzy c-means algorithm for determining the optimal number of clusters
Patel et al. Impact of outlier removal and normalization approach in modified k-means clustering algorithm
Liu et al. Balanced clustering with least square regression
CN109389608A (zh) 以平面为聚类中心具有抗噪性的模糊聚类图像分割方法
Wang et al. A conscience on-line learning approach for kernel-based clustering
Cong et al. Image segmentation algorithm based on superpixel clustering
CN113327275B (zh) 一种基于多约束点到局部曲面投影的点云双视角精配准方法
CN112308961B (zh) 基于分层高斯混合模型的机器人快速鲁棒三维重建方法
CN110599506A (zh) 一种复杂异形曲面机器人三维测量的点云分割方法
Steinbring et al. The smart sampling Kalman filter with symmetric samples
Makinen et al. The cosmic graph: Optimal information extraction from large-scale structure using catalogues
CN112132180A (zh) 一种基于改进鲸鱼算法优化的模糊c核均值聚类分割方法
CN112765426A (zh) 一种基于Wasserstein空间的可视化降维方法
CN108921853B (zh) 基于超像素和免疫稀疏谱聚类的图像分割方法
CN108846845B (zh) 基于缩略图与分层模糊聚类的sar图像分割方法
CN104408480B (zh) 一种基于Laplacian算子的特征选择方法
Chen A probabilistic framework for optimizing projected clusters with categorical attributes.
CN109766910A (zh) 基于相似度传递的图聚类方法
Maire et al. Online EM for functional data
Prabha et al. Refinement of k-means clustering using genetic algorithm
CN109978066B (zh) 基于多尺度数据结构的快速谱聚类方法
CN111931119A (zh) 一种组合模式的快速稳定圆最优拟合方法
Liu et al. Visualization of the image geometric transformation group based on riemannian manifold

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210507

RJ01 Rejection of invention patent application after publication