CN112001437A

CN112001437A - 面向模态非完全对齐的数据聚类方法

Info

Publication number: CN112001437A
Application number: CN202010834767.XA
Authority: CN
Inventors: 彭玺; 缑元彪; 黄振宇
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-11-27
Anticipated expiration: 2040-08-19
Also published as: CN112001437B

Abstract

本发明公开了一种面向模态非完全对齐的数据聚类方法，其包括S1获取多种模态数据集，将其中一个作为对齐模态数据，余下模拟非对齐模态数据；S2将每个模态数据集分别输入一个自编码网络；S3计算对齐模态与非对齐模态的距离矩阵；S4将非对齐模态数据的距离矩阵送入可微的对齐模块计算预测置换矩阵；S5采用损失函数计算损失值；S6基于损失值进行反向传播优化自编码网络；S7将步骤S1中的模态数据集分别输入与其对应优化后的自编码网络；S8采用步骤S3和S4的执行方式得到新的预测置换矩阵，并采用新的预测置换矩阵对步骤S7输出的公共表示进行置换得到对齐的公共表示；S9将步骤S8中输出的公共表示进行拼接，之后进行聚类得到聚类结果。

Description

面向模态非完全对齐的数据聚类方法

技术领域

本发明涉及数据分类技术，具体涉及一种面向模态非完全对齐的数据聚类方法。

背景技术

数据聚类是一类无监督的机器学习方法，旨在根据数据的内在性质将数据分成一些聚合类，每一聚合类中的元素尽可能具有相同的特性，不同聚合类之间的特性差别尽可能大。由于大多数真实世界的数据都以多个模态的形式呈现，多模态数据聚类通过探索和利用在不同模态之间数据内在的相关性和不变性进行聚类。通常来说，大多数现有的多模态数据聚类方法通过联合学习多个模态的一种公共表示来弥合不同模态之间的差距，再利用公共表示通过k-means之类的传统聚类方法进行数据聚类。

目前多模态数据聚类技术广泛应用于各个领域，比如在机器翻译应用中，通过输入一种语言的词汇即时翻译为另一种语言的词汇，其实质就是一种模态之间的对齐聚类。类似的还有唇读识别和语音翻译，也就是分别将唇部视觉和语音信息转换为对应的文本信息。在商品推荐中，结合海量商品图像与文本属性，学习图像语义特征表达，提高符合用户需求的商品推荐度。在与智能客服进行的多轮对话中，融入视觉与语言的多模态聚类技术，可以自动实现对用户进行自动的文本、图片或视频应答。

但这些多模态技术之所以取得成功主要得益于满足两个假设的高质量多模态数据的存在。一是数据的完备性假设，即所有的样本要在所有的模态中都存在，不能发生数据缺失的情况；二是模态对齐性假设，即不同的模态中数据项之间存在正确的对应关系。换句话说，在目前的技术基础上，要对多模态数据进行聚类，需要人工预先对数据进行筛选和对齐以保证待聚类对象的完备性和对齐性。但是在这些实际场景中，由于时间和空间的复杂性和不协调性，要收集完整的、完全对齐的多模态数据是一项艰巨的任务。

发明内容

针对现有技术中上述不足，本发明提供的面向模态非完全对齐的数据聚类方法在聚类之前不需要预先对数据进行对齐处理，即不需要满足模态对齐性假设。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种面向模态非完全对齐的数据聚类方法，其包括：

S1、根据应用场景获取多目标对象的多种模态的模态数据集，采用任一模态数据集中模态数据作为对齐模态数据，将余下模态数据集通过预设置换矩阵进行置换模拟非对齐模态数据；

S2、将对齐模态数据和所有模拟的非对齐模态数据分别输入一个独立的自编码网络，自编码网络中编码器输出每个模态数据集的公共表示；

S3、根据每个模态数据集的公共表示，计算对齐模态与非对齐模态的距离矩阵：

其中，

为模态v的第i个对齐模态数据

和模态u的第j个非对齐模态数据

之间的距离，i和j分别为数据索引，v为对齐模态数据对应的模态；u为非对齐模态数据对应的模态；

为

对应的编码器输出；

为

对应的编码器输出；

为2范数的平方；

S4、将非对齐模态数据对应的距离矩阵送入可微的对齐模块，采用目标优化算法迭代得到预测置换矩阵；

S5、根据自编码网络的编码器和解码器的输出及预设置换矩阵和预测置换矩阵，采用损失函数计算损失值；

S6、基于损失值进行反向传播优化所有自编码网络的网络参数和权重，之后在存在自编码网络未收敛时返回步骤S2，所有自编码网络收敛时进入步骤S7；

S7、将步骤S1中获取的所有模态数据集分别输入与其对应收敛后的自编码网络，得到每个模态数据集的公共表示；

S8、采用步骤S3和步骤S4的执行方式得到新的预测置换矩阵，并采用新的预测置换矩阵对步骤S7得到的公共表示进行置换，获得对齐的公共表示；

S9、将步骤S8得到的所有模态的公共表示拼接在一起，并采用聚类算法进行聚类得到聚类结果。

进一步地，采用损失函数计算损失值

的公式为：

其中，λ是权重系数；

为学习跨模态公共表示的损失函数；P_uv和

分别为模态u向模态v对齐时的预测置换矩阵和预设置换矩阵；

为P_uv和

之间的损失函数；m为模态的数量；A^(k)和A^(v)分别为模态k和模态v的模态数据；

为模态v以外的非对齐模态u的模态数据；f^(k)(A^(k))为A^(k)对应的编码器输出；g^(k)(f^(k)(A^(k)))为A^(k)对应的解码器输出。

进一步地，在对齐模块中，采用目标优化算法迭代得到预测置换矩阵进一步包括：

S41、初始化参数：P_uv为距离矩阵，更新步长σ和迭代次数τ₁、τ₂；

S42、采用公式P_uv＝P_uv-σD_uv更新P_uv，之后初始化初始状态T₀和状态变化量d₁,d₂,d₃为：T₀＝P_uv,d₁＝d₂＝d₃＝0；

S43、通过公式T₁＝Ψ₁(T₀+d₁)计算得到中间状态T₁，之后更新状态变化量d₁＝T₀+d₁-T₁；

S44、通过公式T₂＝Ψ₂(T₁+d₂)计算得到中间状态T₂，之后更新状态变化量d₂＝T₁+d₂-T₂；

S45、通过公式T₃＝Ψ₃(T₂+d₃)计算得到中间状态T₃，之后更新状态变化量d₃＝T₂+d₃-T₃；Ψ₁、Ψ₂和Ψ₃均为与P_uv相关的转换函数；

S46、迭代执行步骤S33～步骤S35迭代次数τ₂次，之后令P_uv＝T₃；

S47、迭代执行步骤S32～步骤S36迭代次数τ₁次，之后输出P_uv。

进一步地，转换函数Ψ₁、Ψ₂和Ψ₃分别为：

Ψ₁＝ReLU(P_uv)，

其中，n为P_uv的维度，ReLU(·)为激活函数。

进一步地，每个模态在获取非对齐数据时对应的预设置换矩阵

为一个初等行/列变换矩阵，且每一行和每一列中有且仅有一项为1，其余项为0。

进一步地，所有模态对应的自编码网络采用相同的网络结构；

编码器网络共四层：

第一层为全连接层，输入维度为模态对应的模态数据维度，输出为1024，激活函数为ReLU；

第二层为全连接层，输入为1024，输出为1024，激活函数为ReLU；

第三层为全连接层，输入为1024，输出为1024，激活函数为ReLU；

第四层为全连接层，输入为1024，输出为10，激活函数为ReLU；

解码器网络共4层：

第一层为全连接层，输入为10，输出为1024，激活函数为ReLU；

第四层为全连接层，输入为1024，输出为模态对应的模态数据维度，激活函数为ReLU。

进一步地，当聚类方法的应用场景为商品推荐时，多模态数据为图像和文本，多目标对象为不同的商品；

当聚类方法的应用场景为与智能客服多轮对话时，多模态数据为图像、文本和视/音频，多目标对象为不同的话题；

当聚类方法的应用场景为搜索引擎检索时，多模态数据为图像、文本，多目标对象为不同的检索主题。

本发明的有益效果为：与其它的多模态数据聚类技术相比，本方案能够在隐空间中对输入的部分对齐的多模态数据执行对齐并同时学习跨模态的公共表示用于聚类，因此，本方案能够有效地对部分对齐的多模态数据进行聚类，以解决现有需要人工预先对数据进行筛选和对齐以保证待聚类对象的对齐性所带来的操作人员劳动强度大及效率低的问题。

本方案中可微的对齐模块进行预测置换矩阵过程中，能够在统一的框架下联合学习公共的表示并执行对齐，进而使数据的对齐信息能够被利用于提升多模态聚类的性能。

附图说明

图1为面向模态非完全对齐的数据聚类方法的流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

参考图1，图1示出了面向模态非完全对齐的数据聚类方法的流程图；如图1所示，该方法S包括步骤S1至步骤S5。

在步骤S1中，根据应用场景获取多目标对象的多种模态的模态数据集，采用任一模态数据集中模态数据作为对齐模态数据，将余下模态数据集通过预设置换矩阵进行置换模拟非对齐模态数据；。

实施时，本方案优选每个模态在获取非对齐数据时对应的预设置换矩阵

为一个初等行/列变换矩阵，且每一行和每一列中有且仅有一项为1，其余项为0。任意两个模态X⁽ⁱ⁾和X^(j)之间的对齐关系可以表示为：

X⁽ⁱ⁾～PX^(j)，即X^(j)经过初等行(列)变换后与X⁽ⁱ⁾对齐，其中～表示二者对齐，P是一个初等行(列)变换矩阵且每一行和每一列中有且仅有一项为1，其余项为0。

在步骤S2中，将对齐模态数据和所有模拟的非对齐模态数据分别输入一个独立的自编码网络，自编码网络中编码器输出每个模态数据集的公共表示；

在本发明的一个实施例中，所有模态对应的自编码网络采用相同的网络结构；

编码器网络共四层：

第四层为全连接层，输入为1024，输出为10，激活函数为ReLU；

解码器网络共4层：

第一层为全连接层，输入为10，输出为1024，激活函数为ReLU；

在步骤S3中，根据每个模态数据集的公共表示，计算对齐模态与非对齐模态的距离矩阵：

其中，

为模态v的第i个对齐模态数据

和模态u的第j个非对齐模态数据

为

对应的编码器输出；

为

对应的编码器输出；

为2范数的平方；

假设步骤S1中获取了a、b、c、d、e共5种模态的模态数据集，若对齐目标对应的模态为模态a，那么余下模态数据集对应的模态就为b、c、d、e。

在步骤S4中，将非对齐模态数据对应的距离矩阵送入可微的对齐模块，采用目标优化算法迭代得到预测置换矩阵；

在本发明的一个实施例中，在对齐模块中，采用目标优化算法迭代得到预测置换矩阵进一步包括：

在对齐模块进行预测置换矩阵过程中，可微对齐模块能够在统一的框架下联合学习公共的表示并执行对齐，进而使数据的对齐信息能够被利用于提升多模态聚类的性能。

在步骤S5中，根据自编码网络的编码器和解码器的输出及预设置换矩阵和预测置换矩阵，采用损失函数计算损失值：

其中，λ是权重系数；

为学习跨模态公共表示的损失函数；P_uv和

为P_uv和

为模态v以外的非对齐模态u的模态数据。

中的第二项为通过预测置换矩阵对非对齐数据进行恢复得到的对齐的公共表示，计算得到的该公共表示间的跨模态一致性损失；

中的第一项为将各公共表示再分别送入各自编码网络的解码器中，输出预测的输入数据，并与真实的输入数据计算得到的重建损失。

在步骤S6中，基于损失值进行反向传播优化所有自编码网络的网络参数和权重，之后在存在自编码网络未收敛时返回步骤S2，所有自编码网络收敛时进入步骤S7；

在步骤S7中，将步骤S1中获取的所有模态数据集分别输入与其对应收敛后的自编码网络，得到每个模态数据集的公共表示；

基于本方案的步骤S1至步骤S9，在聚类过程中能够在多个模态中的对齐数据上得到充分的训练，并且隐式地利用对齐信息来学习各个模态的公共表示，进而使得模型能够有效地处理非对齐的多模态数据。

本方案的数据聚类算法主要应用于多模态数据中只有一部分数据跨模态对齐的场景，比如：

在商品推荐中，结合海量商品图像与对应的商品描述，学习特征表达和商品聚类，以提高符合用户需求的商品推荐度，这种情况下多模态数据为图像和文本，多目标对象为不同的商品。

与智能客服的多轮对话中，融入视觉、听觉、语言的跨模态理解和聚类，可以实现通过图片、视/音频等联合的方式对用户提问进行自动应答，这种情况下多模态数据为图像、文本和视/音频，多目标对象为不同的话题。

在搜索引擎检索中，对于输入的文本/图像进行跨模态的聚类，以提供符合用户预期的检索结果，这种情况下多模态数据为图像、文本多目标对象为不同的检索主题。

下面结合具体的实例，对本方案提供的自动聚类方法的效果进行说明：

实验一：使用Reuters数据集对技术方案的性能进行评估。Reuters是一个由6个类别组成的文本数据集，包含来自5种语言的文本，即英语文本及其对应的法语，德语，西班牙语和印度语的翻译。

每个模态样本数量

模态	英语	法语	德语	西班牙语	印度语
						样本数	18758	26648	29953	24039	12342

每个类别对应的样本数量

类别	C15	CCAT	E21	ECAT	GCAT	M11
							样本数	18816	21426	13701	19198	19178	9421

其中，每种语言作为一个模态，使用德语模态中随机的3000个样本和西班牙语模态中对应的3000个样本构建非完全对齐的多模态数据来对本方案进行评估。

为了验证本方案的优越性，将本方案(PVC)与现有技术中的8种多模态聚类技术进行比较，即典型相关性分析(CCA)，核典型相关性分析(KCCA)，深度典型相关性分析(DCCA)，深度典型相关性自编码器(DCCAE)，基于矩阵分解的多模态聚类(MvC-DMF)，潜在多模态子空间聚类(LMSC)，自权重的多模态聚类(SwMC)和二值多模态聚类(BMVC)。

由于现有技术中的8种多模态聚类技术无法处理部分非对齐数据，现有方法在聚类前，采取先用PCA降维，之后用匈牙利算法求得对齐矩阵，再用对齐后的矩阵进行数据对齐并聚类；本方案与现有聚类算法进行数据对齐并聚类后的效果参见下表：

从表格中可以看到，本方案提供的方法相比其他聚类方法在准确率和标准化互信息指标上有比较大的提升，意味着在实际应用中能很好地将非对齐的语言文本数据聚类正确，避免了耗费大量人力资源用于语言的纯手工对齐。

实验二：使用Pascal Sentences数据集对技术方案的性能进行评估，PascalSentences数据集包含来自20个类别的1000组图片及其文本描述对，类别包含飞机，自行车，船，瓶子，公交车，汽车，猫，椅子，牛，餐桌，狗，马，摩托车，人，盆栽植物，羊，火车，电视。

Pascal Sentences数据集被分为三个部分:800对的训练集、100对的测试集和100对的验证集。这里只使用总共900个样本的训练集和测试集构建非完全对齐的多模态数据来对本技术方案进行评估。

为了验证本方案的优越性，将本方案(PVC)与现有技术的8种多模态聚类技术进行比较，即典型相关性分析(CCA)，核典型相关性分析(KCCA)，深度典型相关性分析(DCCA)，深度典型相关性自编码器(DCCAE)，基于矩阵分解的多模态聚类(MvC-DMF)，潜在多模态子空间聚类(LMSC)，自权重的多模态聚类(SwMC)和二值多模态聚类(BMVC)。

从表格中可以看到，本方案提供的方法相比其他聚类方法在准确率和标准化互信息指标上有比较大的提升，意味着在实际应用中能很好地将非对齐的图片和文本数据聚类正确，避免了耗费大量人力资源用于图片和文本对的纯手工对齐。