CN112765426A

CN112765426A - 一种基于Wasserstein空间的可视化降维方法

Info

Publication number: CN112765426A
Application number: CN202110063574.3A
Authority: CN
Inventors: 秦红星; 陈立
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-05-07

Abstract

本发明涉及一种基于Wasserstein空间的可视化降维方法，属于数据处理领域。该方法包括以下步骤：S1：输入原始高维数据，对其进行归一化预处理。S2：根据给定超参数计算预处理后高维数据的双调和距离。S3：基于双调和距离计算高维数据的对应概率测度。S4：初始化投影点位置，并计算其对应概率测度。S5：使用Sinkhorn迭代计算损失函数对偶形式的解。S6：对损失函数关于投影点位置求导，并更新投影点位置。S7：重复执行S5和S6，直到达到迭代停止条件，得到投影结果。用于有类型的高维数据，获得具有良好分类效果的二维投影，以便用户和研究人员能直观地获取原数据的类别分布信息。

Description

一种基于Wasserstein空间的可视化降维方法

技术领域

本发明属于数据处理领域，涉及一种基于Wasserstein空间的可视化降维方法。

背景技术

高维数据频繁地出现在统计学、数据科学、机器学习、生命科学以及商务事务等领域。然而，这些领域中的复杂事务需要处理的数据通常有着数十上百维的特征，为数据分析和模式挖掘带来了困难。为了从中分析和获取所需信息，高维数据的可视化已成为信息可视化领域的重要分支。目前，已有诸多技术致力于解决此问题，例如平行坐标轴、热力图以及各类基于图的可视化技术等等。在所有高维信息可视化方法中，降维技术，也称投影，有着特殊的优势：通过把高维数据投影为2或3维的点，数据能以散点图的形式直接呈现在屏幕上。此外，相比于其它技术，基于降维的可视化方法通常对数据的维数有很好的伸缩性。当然，降维技术也有其局限性。由于低维空间在本质上无法保持高维数据的全部特征，所有降维技术都只能侧重于保留原数据的某一部分信息。因此，降维技术通常有其最为适应的数据类型和用途，而在此范畴之外则无法期望能取得最好的效果。本发明主要关注的数据类型和用途是：对于有类别的高维数据构造具有良好分类效果的二维投影。

就其原理而言，可以把降维技术二分为两类：全局的和局部的，前者侧重于保留高维数据的全局结构，后者则侧重于局部细节的保留。在全局方法中最著名的应属PCA和MDS，这两种方法都有着大量的衍生和改进，且有着广泛的应用。PCA的基本思想是保留数据具有最大方差的特征，其目标维数可以任意设置，当维数设定为二维时就得到可画出的散点图。MDS则着重于保留原数据的点对距离，也即是说，该方法构造的投影点的点对距离与原数据的点对距离在某种度量下尽的差距尽可能小。全局的方法通常在理论上有着很好的性质，如PCA还可以用来作为数据预处理的技术，但作为可视化方法通常不是最好的选择，特别是对于数据分类这一目的而言。另一方面，局部的降维技术通常能更好地展示原数据的细节。在此类方法中，最受到广泛使用的是T-SNE，它提出在高维和低维用不同的概率测度表达其距离信息，并用KL散度作为损失函数得到投影。UMAP则很可能成为T-SNE的取代者，该方法在结构上类似T-SNE，但以流形的均匀采样作为理论基础，并使用模糊集的信息熵作为损失函数，获得了比T-SNE更快的速度和很有竞争力的投影效果。但是，在一些数据集上，这两种主流方法的分类效果依然欠佳，或需要较为精细的调参和多次运行才能获得较好效果。

发明内容

有鉴于此，本发明的目的在于提供一种基于Wasserstein空间的可视化降维方法。

为达到上述目的，本发明提供如下技术方案：

一种基于Wasserstein空间的可视化降维方法，该方法包括以下步骤：

S1：输入原始高维数据，对其进行归一化预处理。

S2：根据给定超参数计算预处理后高维数据的双调和距离。

S3：基于双调和距离计算高维数据的对应概率测度。

S4：初始化投影点位置，并计算其对应概率测度。

S5：使用Sinkhorn迭代计算损失函数对偶形式的解。

S6：对损失函数关于投影点位置求导，并更新投影点位置。

S7：重复执行S5和S6，直到达到迭代停止条件，得到投影结果。

可选的，所述S1的具体包括：对高维数据的每个特征进行平移和缩放，将所有特征都归化到[0，1]区间。

可选的，所述S2具体包括：计算高维数据的双调和距离。双调和距离定义如下。记带权图Γ＝(V，E，Ω)，W_u，v是节点u，v间的权重。d_u＝∑_vw_u，v，且T是以d_u为对角元的矩阵。A是Γ的邻接矩阵，则非规范化带权拉普拉斯矩阵是L＝T-A。L的特征值和特征向量分别是0＝λ₁≤λ₂…λ_|V|和φ₁，φ₂，…，φ_|V|。双调和距离定义为

用于计算双调和距离的邻接矩阵A的构造方法如下：记高维数据的欧式距离矩阵为M^(e)，而

是边e_ij的权重，边e_ij对应节点v_i与v_j；令

当且仅当v_i的K_b-近邻边中有e_ij，或者v_j的K_b-近邻边中有e_ij；否则A_ij＝0。

可选的，所述S3具体包括：记高维数据的采样点为

用下式求得概率测度矩阵Q

上式中||·||_b代表S2中计算出的双调和距离，σ_i则对于给定的超参数Perplexity满足

σ_i的值由一个二分搜索求得。超参数Perplexity越大，投影越能表达原数据全局结构；反之，则越能表达局部结构。Perplexity默认为30。

可选的，所述S4具体包括：记投影点为

除非用户指定初值，在[0，0.001]的正方形区间上用一个均匀分布初始化所有投影点，并计算投影点对应的概率测度如下

可选的，所述S5具体包括：记P_i是矩阵P的第i行，Q_i类似，被看作列向量。W代表1-Wasserstein距离，所使用的损失函数的对偶形式如下

其中α_i，β_i使用Sinkhorn迭代求得。Sinkhorn迭代具体来说，是首先进行下面的不动点迭代直到收敛

其中K＝e^-M/ε。计算得到

α_i＝εlog u_i，β_i＝εlog v_i

Sinkhorn迭代涉及三个参数：

参数c是一个很小的常数，用于防止数值溢出；

参数ε是正则化常数，越小迭代越精确，取值是0.01；

参数M是传输代价矩阵，取为高维数据的欧式距离矩阵；

Sinkhorn迭代内部的(u，v)交替迭代需要进行数百次才能得到足够精确的结果；利用一个技巧进行加速：保存k-1轮迭代时求得的向量对(u^(k-1)，v^(k-1))，当第k轮迭代需要更新α，β时，使用(u^(k-1)，v^(k-1))作为初值启动Sinkhorn迭代，不到100次(u，v)交替的迭代求得足够好的结果。

可选的，所述S6具体包括：将损失函数关于投影点p_i＝(x_i，y_i)求导，并更新投影点位置。损失函数关于横坐标x_i求导结果如下

由于x，y是对称符号，关于纵坐标y_i的求导结果通过交换上式中x，y的位置得到。求导中假设α_i，β_i是和投影点位置无关的常数，每次投影点位置变动后，要重新使用Sinkhorn迭代计算α_i，β_i的值。

使用带动量项的梯度下降进行优化。若记第k步迭代时投影点是p^(k)，且该步的梯度为

则更新公式是

其中m是动量常数，取为0.9，步长取50～100。

可选的，所述S7具体包括：根据梯度下降的步长不同，在200～300次迭代基本收敛。用户直接根据经验直接设置迭代次数，也检查计算得到的梯度值决定是否停止迭代。当迭代结束后，此时的投影点就是投影结果。

本发明的有益效果在于：用于有类型的高维数据，获得具有良好分类效果的二维投影，以便用户和研究人员能直观地获取原数据的类别分布信息。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所叙的基于Wasserstein空间的可视化降维方法的流程图；

图2为本发明S2步骤中所构建的邻接矩阵的示意图；

图3为本发明S4步骤中所进行的投影点初始化示意图；

图4为本发明对Wine数据集的投影结果示例。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

以下通过Wine数据集为例，说明本发明的实施方法，如图1所示。

S1：对高维数据的每个特征进行平移和缩放，将所有特征都归化到[0，1]区间。更具体来说，预处理过程会将每列特征减去该列特征最小值，使其最小值从0开始；然后，将每列特征除以该列特征最大值，使其最大值为1。

S2：对于该数据集，本例中取K_b＝7，使用以下方法构造A。记高维数据的欧式距离矩阵为M^(e)，而

是边e_ij的权重，边e_ij对应节点v_i与v_j；令

当且仅当v_i的K_b-近邻边中有e_ij，或者v_j的K_b-近邻边中有e_ij；否则A_ij＝0。然后，根据前述双调和距离的定义

计算出所有点对间的双调和距离。该步骤构建的邻接矩阵A的可视化见图2。

S3：记高维数据的采样点为

用下式求得概率测度矩阵Q

σ_i的值可由一个二分搜索求得。对于给定的Perplexity，将某个σ_i代入上式计算，根据求得的结果以二分搜索的模式增大或减小σ_i的值，不断调整就得能到所需的结果。这里超参数Perplexity为30。

S4：记投影点为

在[0，0.001]的正方形区间上用一个均匀分布初始化所有投影点，该初始化的效果见图3。然后，计算投影点对应的概率测度如下

S5：使用Sinkhorn迭代求得下述损失函数的对偶变量α_i，β_i

具体来说，是首先进行下面的不动点迭代直到收敛

其中K＝e^-M/ε。进一步，计算得到

α_i＝εlog u_i，β_i＝εlog v_i

关于该Sinkhorn迭代涉及的三个参数说明如下：

1.c在迭代开始时取值1e-30，投影点每更新一次c的值衰减为之前的十分之一，直到其值小于等于1e-200时停止衰减；这个技巧有助于让初期的迭代更稳定，而在后期减小c，可以避免带来不必要的误差。

2.ε的取值是0.01。

3.M是高维数据的欧式距离矩阵。

最后，本发明在每轮迭代中使用上一轮迭代的结果作为初值，对Sinkhorn迭代进行加速。S6：使用下式计算损失函数关于投影点p_i＝(x_i，y_i)的导数

由于x，y是对称符号，关于纵坐标y_i的求导结果可以通过交换上式中x，y的位置得到。求得上述导数后，本发明使用带动量项的梯度下降更新投影点。若记第k步迭代时投影点是p^(k)，且该步的梯度为

下降公式是

其中m是动量常数，这里取0.9。步长则取70。

S7：进行300次迭代，得到的投影结果如图4。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于Wasserstein空间的可视化降维方法，其特征在于：该方法包括以下步骤：

S1：输入原始高维数据，对其进行归一化预处理；

S2：根据给定超参数计算预处理后高维数据的双调和距离；

S3：基于双调和距离计算高维数据的对应概率测度；

S4：初始化投影点位置，并计算其对应概率测度；

S5：使用Sinkhom迭代计算损失函数对偶形式的解；

S6：对损失函数关于投影点位置求导，并更新投影点位置；

2.根据权利要求1所述的一种基于Wasserstein空间的可视化降维方法，其特征在于：所述S1的具体包括：对高维数据的每个特征进行平移和缩放，将所有特征都归化到[0，1]区间。

3.根据权利要求2所述的一种基于Wasserstein空间的可视化降维方法，其特征在于：所述S2具体包括：计算高维数据的双调和距离；双调和距离定义如下；记带权图Γ＝(V，E，Ω)，w_u，v是节点u，v间的权重；d_u＝∑_vw_u，v，且T是以d_u为对角元的矩阵；A是Γ的邻接矩阵，则非规范化带权拉普拉斯矩阵是L＝T-A；L的特征值和特征向量分别是0＝λ₁≤λ₂…λ_|V|和φ₁，φ₂，…，φ_|v|；双调和距离定义为