CN113673685A

CN113673685A - 基于流形学习的数据嵌入方法

Info

Publication number: CN113673685A
Application number: CN202111014241.8A
Authority: CN
Inventors: 臧泽林; 徐永杰; 李子青
Original assignee: Westlake University
Current assignee: Westlake University
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-11-19
Anticipated expiration: 2041-08-31
Also published as: CN113673685B

Abstract

本发明涉及深度流形学习，尤其涉及基于流形学习的数据嵌入方法，设计语义网络和嵌入网络，在潜在空间中定义样本间的语义相似度，避免直接在输入空间中定义相似度引起的错误负样本问题，使用数据增强手段，生成样本的近邻样本，进而保证流形的连通性，为深度流形学习提供基础，设计语义缩放模块，迫使来自相同源数据的两个增强数据有更小的语义距离和更高的语义相似度，进而学习数据增强带来的先验知识。

Description

基于流形学习的数据嵌入方法

技术领域

本发明涉及深度流形学习，尤其涉及基于流形学习的数据嵌入方法。

背景技术

数据嵌入任务常常借助于流形学习方法，流形学习是一类无监督的估计器，旨在将为嵌入高维空间的低维流形映射到合理的低维空间完成多种下游任务 (如聚类、可视化、社群发现等)。深度流形学习期望使用深度神经网络提高流形学学习的嵌入和泛化能力。不过目前大多数流形学习方法不能处理不充分流形观测数据(复杂、文本等数据这是因为大多数复杂的流形数据具有超高的维度(超过10000维)，而且只有非常不充分的观测；例如，ImageNet的维度是 224*224*3，但样本总数只有1280K，平均每个维度只有1280K/(224*224*3)＝8.5 pic/dim个图片。而在实际情况高维空间的指数广阔性性会使得不充分更为严重，导致在高维空间中获得足够的采样样本成为一个伪命题。经典(深度)流形学习假设流形局部具有连通性，因此当流形复杂、采样不充分时经典流形学习往往不能有效工作。以图1中的高维图像数据为例：随着流形数据逐渐复杂化(维度变高、流形结构变复杂、相对采样变不充分)，对流形制定次数的观测逐渐变得不充分，导致所有的深度流形学习方法逐渐失效。

综上，目前大多数(深度)流形学习方法不能处理复杂的流形数据(图像、文本等)，这是因为大多数复杂的流形数据具有超高的维度(超过10000维)，而且只有非常不充分的观测；当前方法可以应用于多种数据(流形数据、图像数据、图结构数据等)，需要针对不同种类的数据特异性设计算法步骤完成嵌入。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种通过生成样本保证流动性，进而完成深度流形学习的基于流形学习的数据嵌入方法。

本发明是通过以下技术方案实现的：一种基于流形学习的数据嵌入方法，包括以下步骤，

S1，设计语义网络，所述语义网络用于将数据从输入空间映射到语义空间；

S2，设计嵌入网络，所述嵌入网络用于将数据从语义空间映射到嵌入空间；

S3，数据增广，对数据[x₁,x₂,…,x_N]进行u次数据增广获得增广后的数据 V＝{[v_1,1,v_1,2,…,v_1,N],…,[v_u,1,v_u,2,…,v_u,N]}；[v_1,1,v_1,2,…,v_1,N]为1次数据增广后的结果；

S4，从V中取任意B组数据，B为网络训练的batch数量一般设定为256，每一组数据为两个个增广后的数据v_b,i,v_b,j，将数据通过语义网络映射到语义空间，得到数据z_b,i,z_b,j，b为组的索引；

S5，将数据z_i,z_j通过嵌入网络映射到嵌入空间中，得到数据e_b,i,e_b,j；

S6，计算在语义空间中两个点z_b,i,z_b,j的距离

S7，进行距离的语义缩放，判断两个点z_b,i,z_b,j对应的两个点v_b,i,v_b,j是否是来自同一个原始数据，如果来自于同一个原始数据，则计算语义距离，拉近z_b,i,z_b,j的语义距离

其中M为拉近系数，否则正常通过旅行距离计算语义距离；

S8，使用核函数一将语义距离

转化为语义相似度

S9，计算在嵌入空间中两个点e_b,i,e_b,j的距离

S10，使用核函数将二距离

转化为语义相似度

S11，使用损失函数L_b度量第b组数据的

两个相似度的差异，

然后将b组数据的损失函数求和得到总的损失函数：

S12，使用反向传播方法,求L关于语义网络、嵌入网络的参数的偏导数，然后根据偏导数调整语义网络、嵌入网络的参数，至语义网络、嵌入网络收敛，得到嵌入空间的嵌入。

进一步地，步骤S1中，所述语义网络选用MLP、CNN、RNN其中的一种。

进一步地，步骤S2中，所述嵌入网络选用MLP、CNN、RNN其中的一种。

进一步地，步骤S3中，所述数据增广基于列表数据的mixup增广方式、RC(·)、 CJ(·)、GB(·)其中的一种或者多种，其中RC(·)为随机切割、CJ(·)为颜色扰动、 GB(·)为高斯模糊。

进一步地，步骤S6中，距离

的计算选用D_e(a,b)、D_c(a,b)、D_m(a,b)其中的一种，其中D_e(a,b)为欧式距离、D_c(a,b)为余弦距离、D_m(a,b)为曼哈顿距离。

进一步地，步骤S7中，语义缩放的方法为

其中M为超参数, 取值M＝10。

进一步地，步骤S8中，所述核函数一选用S_g(·)、S_t(·)、S_γ(·)其中的一种，其中S_g(·)为高斯核函数、S_t(·)为t分布核函数、S_γ(·)为gamma函数。

进一步地，步骤S9中，距离

的计算选用D_e(a,b)、D_c(a,b)、D_m(a,b)其中的一种。

进一步地，步骤S10中，所述核函数二选用S_g(·)、S_t(·)、S_γ(·)其中的一种。

本发明的有益效果在于：基于流形学习的数据嵌入方法，设计语义网络和嵌入网络，在潜在空间中定义样本间的语义相似度，避免直接在输入空间中定义相似度引起的错误负样本问题，使用数据增强手段，生成样本的近邻样本，进而保证流形的连通性，为深度流形学习提供基础，设计语义缩放模块，迫使来自相同源数据的两个增强数据有更小的语义距离和更高的语义相似度，进而学习数据增强带来的先验知识。

附图说明

图1为传统流形学习的效果图；

图2为传统流形学习的计算框架；

图3为实施例1的计算框架；

图4为基于基线方法的可视化效果图；

图5为实施例1的可视化效果图。

具体实施方式

下面将结合发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图3所示，一种基于流形学习的数据嵌入方法，其特征在于，包括以下步骤，

S1，设计语义网络，语义网络用于将数据从输入空间映射到语义空间，本实施例中，语义网络为CNN₁(·)；

S2，设计嵌入网络，嵌入网络用于将数据从语义空间映射到嵌入空间，本实施例中，嵌入网络为CNN₂(·)；

S3，数据增广，对数据[x₁,x₂,…,x_N]进行u次数据增广获得增广后的数据 V＝{[v_1,1,v_1,2,…,v_1,N],…,[v_u,1,v_u,2,…,v_u,N]}；[v_1,1,v_1,2,…,v_1,N]为1次数据增广后的结果，本实施例中，数据增广通过公式一实现，公式一， v₁＝CJ(GB(RC(x₁)))；

S4，从V中取任意B组数据，B为网络训练的batch数量，设定为256，每一组数据为两个增广后的数据v_b,i,v_b,j，将数据通过语义网络映射到语义空间，得到数据z_b,i,z_b,j，b为组的索引，语义网络选用CNN网络；

S5，将数据z_i,z_j通过嵌入网络映射到嵌入空间中，得到数据e_b,i,e_b,j，e_i＝CNN₁(z_i),e_j＝CNN₁(z_j)；

S6，计算在语义空间中两个点z_b,i,z_b,j的距离

其中M为拉近系数，取值M＝10，否则正常通过旅行距离计算语义距离；

S8，使用核函数一将语义距离

转化为语义相似度

核函数一为

S9，计算在嵌入空间中两个点e_b,i,e_b,j的距离

S10，使用核函数二将距离

转化为语义相似度

核函数二为

S11，使用损失函数L_b度量第b组数据的

两个相似度的差异，

然后将b组数据的损失函数求和得到总的损失函数：

S12，使用反向传播方法，求L关于语义网络、嵌入网络的参数的偏导数，然后根据偏导数以传统神经网络训练方式调整语义网络、嵌入网络的参数，至语义网络、嵌入网络收敛，得到嵌入空间的嵌入，传统神经网络训练方式可以选用梯度下降法。

传统流形学习方法，假设流形进行了非常充分的采样，当我们不能拿到充分的采样数据时，就没有办法完成学习，本方法使用数据增强手段，人工生成样本的近邻样本，通过人工生成的样本保证流行的连通性，完成深度流行学习。

本方法，设计了两个子网络，并且在潜空间中定义样本间的语义相似度，这样定义由于直接在输入空间定义相似度。因为在输入空间中定义会遇到对比学习常见的错误负样本问题。本专利可以避免错误负样本问题。

算法可以应用到表格数据，生物数据图像数据等数据，不需要改变算法结构。

本实施例提供的基于流形学习的数据嵌入方法，在表格数据和生物学数据上的嵌入任务上，我们提出的方法在分类acc和流形完整性指标上有优秀的表现，如附表1和附图5。

附表1

由附表1及附图4、5可以知道，本专利方法在ACC指标在5个测试数据集优于大部分先进方法，在可视化上可以有效的发现数据的全局和局部结构。

本实施例提供的基于流形学习的数据嵌入方法，在图像嵌入任务上，线性测试分类ACC指标见附表2，聚类指标见附表3。

附表2

附表3

由附表2和附表3可以知道，本发明在线性测试分类ACC和聚类上，均有优异的表现。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。