CN116756690A

CN116756690A - 一种跨语言多模态信息融合方法及装置

Info

Publication number: CN116756690A
Application number: CN202310743839.3A
Authority: CN
Inventors: 周水庚; 何轶凡
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2023-06-24
Filing date: 2023-06-24
Publication date: 2023-09-15

Abstract

本发属于数据挖掘技术领域，具体为一种跨语言多模态信息融合方法及装置。本发明跨语言多模态信息融合方法包括：收集跨语言多模态信息数据；建立多语种文本模态数据特征表示模块、建立图像模态数据特征表示模块；构建多模态特征融合模块将单一模态的数据表征通过自监督任务完成融合；结合多模态融合特征与数据标签实现整体模型的优化训练，并对跨语言多模态信息融合进行了下游分类任务验证。本发明还提供多模态信息融合装置，并应用与跨语言多模态信息分类任务中。本发明能够增强多模态数据的表征与融合能力，提升下游任务的准确性。

Description

一种跨语言多模态信息融合方法及装置

技术领域

本发属于数据挖掘技术领域，具体涉及跨语言多模态信息融合方法及装置。

背景技术

随着互联网的飞速发展，互联网用户及用户间的交互也随之剧增。在各种互联网交互平台上(如社交、购物网站等)，由于信息上传用户的客观失误或主观意识导致的虚假信息，会损害信息接收用户利益，并影响整个社交网络对某一事件的舆情演化。因此，一个高准确性、高适应性的多模态信息融合方法，有益于更好的对互联网数据进行监测与处置，维护互联网和谐健康的发展。目前已有一些工作，着眼于多模态数据的特征抽取，并将抽取特征与标签信息结合训练多模态信息融合与分类模型。然而，现有的方法存在以下几个问题。一方面，在现有方法针对的多模态数据中，文本数据通常只包含单一语种，而图像数据也只包含一个实体，这与现实互联网平台文本多语种、图像多实体的特性不符；另一方面，现有方法通常采用级联的方式对跨模态表征进行融合，无法抽取更深层次的模态间信息的交互关系；最后，现有的方法需要大量的训练数据，在数据缺乏的场景，信息融合不充分，下游分类任务性能较差。因此，亟需设计一种能克服上述缺陷的技术方案，以实现精准的跨语言多模态信息融合。

发明内容

本发明的目的是提供一种跨语言多模态信息融合方法及装置，能够较好的实现跨语言特征对齐、多模态特征融合，提高跨语言多模态信息表征的适应性与准确性。

本发明提供跨语言多模态信息融合方法，具体步骤为：

(1)跨语言文本表征，利用Word2Vec技术[1]得到不同语种各自的词特征空间，并用词对齐方法将不同语种的词特征映射到同一特征空间中；

(2)块级别图像表征，将图像进行预处理得到较小的图像块，并利用预训练图像特征抽取模型抽取图像块特征，最终输出一组图像块表征；

(3)多模态特征融合，构建两项跨模态自监督任务，通过自监督任务实现跨模态特征的融合；

(4)下游分类任务，结合多模态融合特征和标签信息，通过优化分类交叉熵的方式训练模型，并对多模态数据进行信息分类。

进一步地：

步骤(1)所述跨语言文本表征，具体包括：

给定一个序列的可训练单词*w₁,...,w_T+，最小化训练语料中临近单词相互间的负对数似然概率：

其中，T表示单词的数量，c为上下文的大小；和/>分别为单词w_t+j和w_t的词嵌入向量；

该概率可由词特征向量计算而得则可依此训练得到不同语种的词特征表示；

接着，构建判别器D与映射器M，以一种对抗的方式训练出跨语言间的特征映射；其中：

判别器损失函数为：

映射器损失函数为：

其中，定义为z向量由判别器判定为源域的概率，/>为判定为目标域的概率；

在得到映射器后，跨语言对齐文本特征可表示为：

步骤(2)所述块级别图像表征，具体通过对图像分块的方式将图像中各实例分散开来，并利用预训练残差网络进行特征抽取；残差网络的基准模块公式为：

其独特的残差连接方式使得模型可以抽取图像更深层的特征表示，例如，当残差步长为2时，块级别图像表征输出为一组图像块特征：

其中，ResNet为残差网络模块[2]，为所裁剪出的图像的第K块。

步骤(3)所述多模态特征融合，具体为，建立在两个多模态预训练任务上，分别是特征重构和信息匹配，其中特征重构通过将部分模态特征掩盖，并通过自编码器还原被掩盖的部分以实现跨模态特征的融合，损失函数为：

其中，V_mask是随机掩盖的特征表示集合，v′_m为模型对掩盖特征v_m的还原；

信息匹配将原始多模态数据当成匹配的正样本，并随机组合其它不同模态的数据构成不匹配的负样本，并通过最小化交叉熵损失的方法以实现多模态特征的融合。

步骤(4)所述下游分类具体为，根据不同的分类任务设置不同的分类网络，并通过优化分类交叉熵：

以实现整体模型的参数更新，最终利用训练好的模型对待测多模态数据进行分类；其中，Da表示训练数据集，C表示类别个数，y_i和分别表示真实标签和预测标签。

本发明还提供基于上述融合方法的跨语言多模态信息融合装置，具体包括：

跨语言文本表征模块，其包括根据前后文关系训练的词向量嵌入网络以及基于对抗训练思路的词向量对齐网络，相互协作求得跨语言文本表针；

块级别图像表征模块，其包括图像分块结构以及在大规模图像数据预训练好的残差网络，此模块可将原始图像数据转换为一组块级别特征；

多模态特征融合模块，其包括特征重构网络和信息匹配网络，特征重构网络采取对模态特征随机掩盖的策略，并通过解码器还原，并优化重构损失以构建跨模态特征间的关联关系；信息匹配网络则利用数据组合产生信息匹配的正负样本以构建跨模态关联关系；

跨语言多模态信息分类模块，其包含一个全连接神经网络，用于训练跨语言多模态融合特征与数据标签的映射关系，并可在无标签测试数据上输出融合信息的分类结果。

本发明提供的跨语言多模态信息融合装置还，包括：

大规模处理器及计算单元与存储服务器，以执行跨语言多模态信息融合方法；大规模处理器及计算单元，用于进行网络的搭建、训练、测试及应用；大规模存储服务器，用于实现对跨语言多模态数据的存储与调用。

本发明至少包括以下有益效果：

本发明设计了一种基于对抗的跨语言特征对齐方法，将不同语种的文本特征嵌入到同一特征空间中去，并通过分块的方式，将图像抽取为一组图像块特征表示，使得模型的特征抽取模块能处理更为复杂的多语言多实体数据。本发明基于两种跨模态预训练方法设计了一种跨模态特征融合的方法，更好的表征跨模态间的隐含关系，并实现了对跨语言多模态信息的精准分类。此外，基于本发明所针对的跨语种多模态的数据特性，本发明可以通过仅训练一个语言对齐网络，从成熟的应用场景迁移到一个新的应用场景，使得本发明具备很好的通用性。

本发明的其他优点、目标和特征将部分通过下面的说明体现，部分还将通过对发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明的框架图。

图2示出了词向量对齐示意图。

图3示出了残差网络连接方式。

图4示出了标题作弊的样例。

图5示出了类目错放的样例。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。

如图1所示，本发明实施例提供了跨语言多模态信息融合方法，包括4个重要组成部分：跨语言文本表示模块从多语言文本数据中抽取文本特征，块级别图像表示模块从图像数据中提取块级别的特征表示，多模态表征模块将多模态的特征表示通过预训练任务融合在一起，最后信息融合模块结合标签信息训练整体模型，并对待检测多模态数据进行信息分类。

现实社会的互联网多媒体数据通常包含文本数据与图像数据以及部分数值实数数据。本实施例采用Skip-gram方法来产生各个语种的词向量嵌入，该方法假定相邻的单词具有很强的语义关联，所以词嵌入向量可通过前后文预测任务所得，以抽取句子中词的结构信息以及隐含联系。

具体而言，给定一个句子，即一个序列的单词*w₁,...,w_T+，T表示单词的数量，Skip-gram模型的目标是最小化上下文依赖概率的负对数似然概率

其中，c为上下文的大小。根据上式，如果负对数似然概率-log p(w_t+j|w_t)能由词向量嵌入计算而得，则可根据优化上式来训练词嵌入向量。本实施例通过Sigmoid函数和向量内积定义负对数似然概率如下：

其中，和/>分别为单词w_t+j和w_t的词嵌入向量。此外，除了将单词临近的单词作为正样本，本实施例随机选取部分单词作为负样本，则目标函数可重写为：

其中，Neg为随机抽取的负样本词集合，k为负样本的数量。本实施例为每一种语言分别建立独立的词库，并依此训练词嵌入向量。

在得到多个语种的词嵌入向量后，为了能更好的抽取多语言文本特性，提升模型的适应性。本实施例引入对抗学习的概念，可以在没有任何跨语种监督信息的前提下，学习跨语种词向量对齐映射M。具体而言，本实施例选取一个目标语言，并学习其它各语种特征向量到该目标语言特征空间的映射。给定一组源域词嵌入向量集合X＝*x₁,...,x_n+和一组目标域词嵌入向量集合Y＝*y₁,...,y_m+，其中n和m分别表示源域和目标域词嵌入向量的数量。经典的对抗模型包含一个生成器产生样本并采用一个判别器以识别样本属于生成样本还是真实样本。本实施例将一个映射矩阵作用于源域词嵌入向量X以产生类似于Y的词嵌入向量MX＝*Mx₁,...,Mx_n+，并训练一个判别器D以区分生成词嵌入向量MX与目标域词嵌入向量Y。经过这种对抗的方式，判别器的判别能力逐步提升，且映射矩阵M能更好的将源域向量映射到目标域的特征空间中，训练过程如图2所示。判别器D与映射矩阵M的优化目标如下，判别器损失函数为

映射器损失函数为

其中，定义为z向量由判别器判定为源域的概率，/>则为判定为目标域的概率。本实施例为每一种语言训练一个到目标特征空间的映射，所以不同的语种可以对齐到同一的特征空间中。则对于任意非目标域语种，可得到跨语言文本表征/>

由于现实互联网图像通常包含多个实体，因此本实施例所述的块级别图像表征模块先对图像进行了分块处理，将图像按网格分为3×3的9块图像。残差网络已在图像特征抽取证明其有效性，其提出的残差连接机制，避免了深度神经网络中的梯度消失。本实施例采用残差神经网络进行图像块的特征抽取。残差网络的每个基础结构不光连接前一层网络，还连接一定步长之前的隐含网络层，其网络结构如图3所示。公式如下

当残差步长为2时，最终，块级别图像表征模块的输出为一个序列的图像块表示/>

为了实现多模态数据的融合，抽取模态间的隐含信息，本实施例提出了两种自监督预训练任务，特征重构和信息匹配。首先，使用全连接神经网络将不同模态的特征表示映射到同一特征空间中，则不同维度的多模态表征可被转换为一个具有相同维度的多模态表征序列其中K为多模态表征向量的数量。多模态表征序列的计算公式如下

其中分别表示跨语言文本特征，块级别图像特征，以及一些数值属性特征。接着，我们将上述的多模态表征序列传入一个编码器，以得到多模态表征，

H^out＝Encoder(Hⁱⁿ)

本实施列所述的自监督训练任务，则用以训练该编码器。

具体而言，本实施例所述的特征重构引入了三个全连接神经网络以期从H^out重构出各个模态的特征，公式如下

我们随机的掩盖部分输入特征，并希望网络能准确的重构这些特征。优化目标可定义为：

其中，V_mask是从中随机抽取的部分表征集合。通过这样的重构方式，编码器可以学习模态间的隐含联系并抽取了更完整全面的多模态特征表示。

对于信息匹配任务，本实施例将收集到的多模态数据作为正样本，并通过随机替换文本、图像、数值中任意一个模态数据而构成负样本。接着通过在H^out连接一个全连接神经网络以预测输入的三个模态数据是否匹配。训练目标为二分类交叉熵：

则总体跨模态特征融合模块优化目标为：

在得到跨语言多模态特征表示后，本实施例根据不同的信息分类任务，设置不同的分类任务头。具体而言，本实施例针对电商场景的标题作弊以及类目错放两个分类任务，结合标签信息与融合特征。图4和图5给出了标题作弊和类目错放的示例图，标题作弊可当作二分类任务，而类目错放可当作多分类任务。最终通过优化分类交叉熵的方式，对整个模型进行参数调整。

本申请的实施例还提供了跨语多模态信息融合装置，包括：跨语言文本表征模块，其包括根据前后文关系训练的词向量嵌入网络以及基于对抗训练思路的词向量对齐网络，相互协作求得跨语言文本表针；

跨语言多模态信息分类模块，其包含一个全连接神经网络，用于训练跨语言多模态融合特征与数据标签的映射关系，并可在无标签测试数据上输出信息分类结果。

本申请的实施例还提供了跨语多模态信息融合装置，包括：

本申请还提供了验证试验，以进一步证明本申请的技术效果。

为了验证本方法在跨语言多模态数据集上的性能，我们选取了一个公开的社交网络数据集MediaEval以及国际化电商平台数据：标题作弊与类目错放。

MediaEval，是从社交媒体推特中抽取的多语言多模态的虚假新闻数据，训练集包含9000条虚假新闻和6000条真实新闻。测试集包含2000条无标签多模态数据。

Alibaba E-commerce Dataset，电商平台数据取自阿里巴巴国际化电商平台Lazada和AliExpress是东南亚最大的电商平台之一，目标用户主要是印度尼西亚、马来西亚、菲律宾和泰国。AliExpress是阿里旗下的英语国际化电商平台。本实施例从两大平台收集了数以百万的数据，从Lazada平台收集英语、印尼语、泰语等数据，从AliExpress收集英语数据作为训练集，并在真实的业务场景进行测试。

为验证本方法的优越性，在公开社交媒体数据集上本实施例与以下几种现有的多模态信息融合方法对比：att-RNN(摘自“Z.Jin,J.Cao,H.Guo,Y.Zhang,and J.Luo,Multimodal fusion with recurrent neural networks for rumor detection onmicroblogs.in Proceedings of the 25th ACM international conference onMultimedia,2017,pp.795–816.”)，EANN(摘自“Y.Wang,F.Ma,Z.Jin,Y.Yuan,G.Xun,K.Jha,L.Su,and J.Gao,Eann:Event adversarial neural networks for multi-modal fakenews detection.in Proceedings of the 24th acm sigkdd international conferenceon knowledge discovery&data mining,2018,pp.849–857.”)，MVAE(摘自“D.Khattar,J.S.Goud,M.Gupta,and V.Varma,Mvae:Multimodal variational autoencoder for fakenews detection.in The world wide web conference,2019,pp.2915–2921.”)，SpotFake(摘自“S.Singhal,R.R.Shah,T.Chakraborty,P.Kumaraguru,and S.Satoh,Spotfake:Amulti-modal framework for fake news detection.in 2019IEEE fifth internationalconference on multimedia big data(BigMM).IEEE,2019,pp.39–47.”)，SpotFake+(摘自“S.Singhal,A.Kabra,M.Sharma,R.R.Shah,T.Chakraborty,and P.Kumaraguru,Spotfake+:Amultimodal framework for fake news detection via transfer learning(studentabstract).in Proceedings of the AAAI Conference on Artificial Intelligence,vol.34,no.10,2020,pp.13915–13916.”)。本实施例采用Accuracy、Precision、Recall和F1-score作为评估指标以衡量各算法的性能。

实验结果如表1所示。

从数据模态的角度来看。仅仅依靠视觉信息的模型由于仅仅依靠文本的模型，说明VGG-19提取的视觉信息相较于Word2Vec提取的文本信息对MediaEval的信息融合更为关键。此外，多模态模型的表现优于单一模态模型，因为视觉信息和文本信息可以相互补充以获得更全面的多模态特征表示。

从特征表示模块角度来看。所有基线模型都使用VGG-19来提取视觉特征。然而，SpotFake和SpotFake+使用预训练的BERT和XLNet来提取不同于其它基线模型的文本表示。由于在大量语料上预训练的BERT和XLNet能够更好地提取推文文本的隐含语义，因此SpotFake和SpotFake+的信息融合性能优于其它基线。

从多模态融合的角度来看，att-RNN使用注意力机制融合文本和视觉表示，MVAE引入重构损失来监督融合网络，EANN只是简单的连接文本和视觉表示，而本实施例的方法采用两种自监督方法以实现更好的特征融合。因此，EANN在各多模态算法中表现最差，而本实例方法取得了最优性能。

总的来说，本实例方法跨域对齐的文本表征模块与块级别的图像表征模块保证模型拥有优良的单一模态特征，两种自监督任务使得跨模态间的信息更好的交互，得到了更为优良的融合特征，使得本实施例的方法性能优于现有的单一模态、多模态信息融合方法。

在真实电商场景下，本实施例采用了多种不同的编码器比较了五种设定下的结果，五种设定Local、English、Translation、Transferring以及Alignment。Local表示仅在局部小语种平台进行训练和测试；English表示在大型英语平台进行训练和测试；Translation表示通过机器翻译的方式对齐各不同语种数据，并训练模型；Transferring表示在英语平台训练在小语种平台测试；Alignment表示本实施例讲述的多语言对齐方式。

表2和表3给出了标题作弊和类目错放两项信息融合分类任务的实验结果。在所有方案中，Alignement在大多数情况下取得了最好的结果，说明词对齐网络提高了电子商务信息融合性能。值得注意的是，即使翻译使用了多个平台的数据，其性能也低于仅使用单一平台数据的本地和英语。机器翻译模型针对文本翻译任务进行训练，无法保留信息融合相关的隐含语义。与机器翻译模型相比，词对齐网络以生成对抗的方式在假信息数据上进行训练，减少了跨语言融合的语义损失。词对齐网络使模型能够有效的利用来自多个平台的数据；训练数据越多，模型可以学习得越好。表2和表3的结果表明，仅使用来自另一个平台的数据，本实施例方法及装置就可以在新的平台上取得可接受的性能。实验结果表明，本申请提出的跨语言多模态信息融合方法及装置对于新构建的平台具有良好的迁移能力，对于实际业务部署具有重要意义。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

表1，出了在推特数据集MediaEval上的信息融合结果对比

表2，标题作弊的各设定下信息融合结果对比

表3，类目错放的各设定下信息融合结果对比

参考文献：

[1]Tomas Mikolov,Kai Chen,Greg Corrado,and Jeffrey Dean.Efficientestimation of word representations in vector space.ICLR Workshop,2013.

[2]He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016).Identity mappings in deepresidual networks.In Computer Vision–ECCV 2016:14th European Conference,Amsterdam,The Netherlands,October11–14,2016,Proceedings,Part IV 14(pp.630-645).Springer International Publishing。

Claims

1.一种跨语言多模态信息融合方法，其特征在于，具体步骤为：

(1)跨语言文本表征，利用Word2Vec技术得到不同语种各自的词特征空间，并用词对齐方法将不同语种的词特征映射到同一特征空间中；

2.如权利要求1所述的跨语言多模态信息融合方法，其特征在于，步骤(1)所述跨语言文本表征，具体包括：

该概率可由词特征向量计算而得依此训练得到不同语种的词特征表示；

判别器损失函数为：

映射器损失函数为：

在得到映射器后，跨语言对齐文本特征，表示为：

3.如权利要求2所述的跨语言多模态信息融合方法，其特征在于，步骤(2)所述块级别图像表征，具体通过对图像分块的方式将图像中各实例分散开来，并利用预训练残差网络进行特征抽取；残差网络的基准模块公式为：

其残差连接方式使得模型可以抽取图像更深层的特征表示；块级别图像表征输出为一组图像块特征：

其中，ResNet为残差网络模块，为所裁剪出的图像的第K块。

4.如权利要求3所述的跨语言多模态信息融合方法，其特征在于，步骤(3)所述多模态特征融合，具体为，建立在两个多模态预训练任务上，分别是特征重构和信息匹配，其中特征重构通过将部分模态特征掩盖，并通过自编码器还原被掩盖的部分，以实现跨模态特征的融合，损失函数为：

5.如权利要求4所述的跨语言多模态信息融合方法，其特征在于，步骤(4)所述下游分类具体为，根据不同的分类任务设置不同的分类网络，并通过优化分类交叉熵以实现整体模型的参数更新，最终利用训练好的模型对待测多模态数据进行分类；

其中，Da表示训练数据集，C表示类别个数，y_i和分别表示真实标签和预测标签。

6.基于权利要求1-5之一所述融合方法的跨语言多模态信息融合装置，其特征在于，包括：

跨语言文本表征模块，其包括根据前后文关系训练的词向量嵌入网络以及基于对抗训练思路的词向量对齐网络，相互协作求得跨语言文本表征；

块级别图像表征模块，其包括图像分块结构以及在大规模图像数据预训练的残差网络，此模块可将原始图像数据转换为一组块级别特征；

多模态特征融合模块，其包括特征重构网络和信息匹配网络，特征重构网络采取对模态特征随机掩盖的策略，并通过解码器还原，优化重构损失以构建跨模态特征间的关联关系；信息匹配网络则利用数据组合产生信息匹配的正负样本以构建跨模态关联关系；

跨语言多模态信息分类模块，其包含一个全连接神经网络，用于训练跨语言多模态融合特征与数据标签的映射关系，并可输入无标签测试数据上产生分类结果。

7.根据权利要求6所述的跨语言多模态信息融合装置，其特征在于，还包括：

大规模处理器及计算单元与存储服务器，以执行权利要求1～5任意所述的跨语言多模态信息融合方法；

大规模处理器及计算单元，用于进行网络的搭建、训练、测试及应用；

存储服务器，用于实现对跨语言多模态数据的存储与调用。