CN107480196B

CN107480196B - 一种基于动态融合机制的多模态词汇表示方法

Info

Publication number: CN107480196B
Application number: CN201710577334.9A
Authority: CN
Inventors: 王少楠; 张家俊; 宗成庆
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2020-02-07
Anticipated expiration: 2037-07-14
Also published as: CN107480196A

Abstract

本发明的多模态词汇表示方法包括分别计算待表示词汇在文本模态中的文本表示向量、以及待表示词汇在视觉模态中的图片表示向量；将文本表示向量输入预先建立的文本模态权重模型，得到文本表示向量在文本模态中的权重；将图片表示向量输入预先建立的视觉模态权重模型，得到图片表示向量在图片模态中的权重；根据文本表示向量、图片表示向量以及分别与文本表示向量和图片表示向量对应的权重，计算得到多模态词汇表示向量。其中，文本模态权重模型为输入为文本表示向量、输出为文本表示向量在对应文本模态中的权重的神经网络模型；视觉模态权重模型为输入为图片表示向量、输出为图片表示向量在对应视觉模态中的权重的神经网络模型。

Description

一种基于动态融合机制的多模态词汇表示方法

技术领域

本发明属于自然语言处理技术领域，具体提供一种基于动态融合机制的多模态词汇表示方法。

背景技术

多模态词汇表示是自然语言处理的基础任务，直接影响到整个自然语言处理系统的性能。其中，模态是指对一个待描述的事物，通过不同的方法或者角度收集数据，将收集数据的方法或者角度称之为一个模态。多模态词汇表示是融合多个模态的信息，将不同模态中语义相近的词汇映射到一个高维空间中，与单一模态词汇表示相比，多模态词汇表示能够更加接近人学习词汇概念的过程，在自然语言处理任务中具有更好的表现效果。

现有技术中的多模态词汇表示方法是将各种单一模态的词汇表示进行组合，根据词汇表示向量和词汇在不同模态中的权重计算多模态词汇表示向量。现有技术的多模态词汇表示方法没有考虑到词汇间的差异，在实际应用中，越是抽象的词汇的语义表示越依赖文本模态，越是具象的词汇的语义表示越依赖视觉模态，不同类型的词汇在不同模态中的权重不同，不对词汇进行区分将导致词汇在模态中的权重不准确，从而导致最后的表示结果不准确。

相应地，本领域需要一种新的多模态表示方法来解决上述问题。

发明内容

为了解决现有技术中的上述问题，即为了解决现有技术不能准确地表达多模态表示词汇，本发明的一方面，提供了一种基于动态融合机制的多模态词汇表示方法，应用于自然语言处理系统，包括：

分别计算待表示词汇在文本模态中的文本表示向量、以及所述待表示词汇在视觉模态中的图片表示向量；

将所述文本表示向量输入预先建立的文本模态权重模型，得到所述文本表示向量在所述文本模态中的权重；将所述图片表示向量输入预先建立的视觉模态权重模型，得到所述图片表示向量在所述图片模态中的权重；

根据所述文本表示向量、所述图片表示向量以及分别与所述文本表示向量和所述图片表示向量对应的权重，计算得到多模态词汇表示向量；

其中，

所述文本模态权重模型为输入为文本表示向量、输出为文本表示向量在对应文本模态中的权重的神经网络模型；

所述视觉模态权重模型为输入为图片表示向量、输出为图片表示向量在对应视觉模态中的权重的神经网络模型。

在上述方法的优选技术方案中，当所述待表示词汇只有文本表示向量时，计算所述待表示词汇在所述视觉模态中的图片表示向量的方法为：

根据预先建立的文本表示向量和图片表示向量的映射关系，计算所述待表示词汇只有文本表示向量对应的图片表示向量。

在上述方法的优选技术方案中，所述文本表示向量和图片表示向量的映射关系的计算方法为：

依据文本表示向量、以及与该文本表示向量共有词汇的图片表示向量，基于如下公式，利用岭回归方法计算得到文本表示向量和图片表示向量的映射关系，

其中，A表示回归参数，X表示文本表示向量矩阵，Y表示图片表示向量矩阵。

在上述方法的优选技术方案中，所述文本模态权重模型、以及所述视觉模态权重模型均为前馈神经网络。

在上述方法的优选技术方案中，所述计算得到多模态词汇表示向量的方法为：

将所述文本表示向量与所述图片表示向量分别与其对应的权重进行内积操作，分别得到文本表示向量操作结果与图片表示向量操作结果，将所述文本表示向量操作结果与所述图片表示向量操作结果进行拼接，得到所述多模态词汇表示向量。

将所述文本表示向量与所述图片表示向量进行内积操作，得到第一内积操作结果；将所述文本表示向量对应的权重与所述图片表示向量对应的权重进行内积操作，得到第二内积操作结果；将所述第一内积操作结果与所述第二内积操作结果进行拼接，得到所述多模态词汇表示向量。

在上述方法的优选技术方案中，所述文本模态权重模型中，文本表示向量在对应文本模态中的权重g_text的计算公式为：

g_text＝tanh(W_texth_text+b_text)，

其中，W_text、b_text均表示文本模态的神经网络模型参数，h_text表示文本表示向量；

所述视觉模态权重模型中，图片表示向量在对应视觉模态中的权重g_image的计算公式为：

g_image＝tanh(W_imageh_image+b_image)，

其中，W_image、b_image均表示视觉模态的神经网络模型参数，h_image表示图片表示向量。

在上述方法的优选技术方案中，所述文本模态权重模型、以及所述视觉模态权重模型，其模型训练的语料训练集均为关联词对，其模型训练的目标训练函数均为最大间隔训练函数，所述最大间隔训练函数的公式为：

其中，X表示训练数据的个数，M_w表示多模态向量表示矩阵，|P|表示训练语料数量，W_w表示多模态向量，上标P₁、P₂表示关联词对中的两个词汇，上标n₁、n₂表示随机选择的两个词汇。

本发明的另一个方面，提供了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述所述的基于动态融合机制的多模态词汇表示方法。

本发明的第三方面，提供了一种处理装置，包括：

处理器，适于执行各条程序、以及存储设备，适于存储多条程序，所述程序适于由处理器加载并执行以实现上述所述的基于动态融合机制的多模态词汇表示方法。

本发明提供了一种基于动态融合机制的多模态词汇表示方法，应用于自然语言处理系统，包括分别计算待表示词汇在文本模态中的文本表示向量、以及待表示词汇在视觉模态中的图片表示向量；将文本表示向量输入预先建立的文本模态权重模型，得到文本表示向量在文本模态中的权重；将图片表示向量输入预先建立的视觉模态权重模型，得到图片表示向量在图片模态中的权重；根据文本表示向量、图片表示向量以及分别与文本表示向量和图片表示向量对应的权重，计算得到多模态词汇表示向量；其中，文本模态权重模型为输入为文本表示向量、输出为文本表示向量在对应文本模态中的权重的神经网络模型；视觉模态权重模型为输入为图片表示向量、输出为图片表示向量在对应视觉模态中的权重的神经网络模型。

本领域技术人员能够理解的是，由于不同的词汇的语义表示依赖不同模态的信息，在本发明的技术方案中，针对不同类型的词汇对不同的模态赋予不同的权重将有效地提高多模态词汇表示的效果。通过将文本表示向量和图片表示向量输入到对应的权重模型中，针对不同的词汇学习到不同模态对词汇语义表示的权重。依据在多组词汇相似度任务的实验结果，本发明提供的基于动态融合机制的多模态词汇表示方法相对于单一模态的文本表示向量，有3.89％spearman相关性的提升，相对于单一模态的图片表示向量，有15.76％spearman相关性的提升，相对于基线多模态系统，有3.46％spearman相关性的提升，充分说明了本发明提供的基于动态融合机制的多模态词汇表示方法的有效性和优越性。

附图说明

图1为本发明提供的一种多模态词汇表示方法的流程图；

图2为本发明提供的一种多模态词汇表示方法的整体框架图；

图3为本发明提供的一种前馈神经网络的工作流程图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

如图1所示，图1为本发明提供的一种基于动态融合机制的多模态词汇表示方法的流程图，包括步骤1、步骤2以及步骤3，其中，

步骤1：分别计算待表示词汇在文本模态中的文本表示向量、以及待表示词汇在视觉模态中的图片表示向量；

计算词汇的文本表示向量和图片表示向量，是为了将词汇转化为计算机能够识别的形式。在实际应用中，计算文本表示向量可以通过从网络中下载语料库，例如维基百科语料库，利用开源的词向量模型训练文本表示向量。具体的，如图2所示，图2为本发明提供的一种多模态词汇表示方法的整体框架图，其中，L_w1、L_w2分别表示关联词对中两个词汇的文本表示向量，P_w1、P_w2分别表示与L_w1、L_w2对应的图片表示向量，CNN(Convolutional NeuralNetworks)表示卷积神经网络，其中，CNN卷积神经网络可以将图片表示为向量。在实际应用中，可以使用公开训练好的Glove文本向量模型，首先基于维基百科语料库构建词汇的共现矩阵，然后基于共现矩阵和Glove文本向量模型学习文本表示向量，将词汇进行向量化表示，使得向量之间尽可能多地包含语义和语法的信息。在实际应用中，计算图片表示向量可以利用世界上图像识别最大的数据库ImageNet的资源，其包括21841个词汇和14197122张图片，通过选择包含50张图片以上的词汇，并通过随机方法对每个词汇选择最多100张图片，利用训练好的VGG-net模型抽取每个图片的特征向量，并对每个词汇的图片向量求平均，得到每个词汇的图片向量。

步骤2：将文本表示向量输入预先建立的文本模态权重模型，得到文本表示向量在文本模态中的权重；将图片表示向量输入预先建立的视觉模态权重模型，得到图片表示向量在图片模态中的权重；

文本模态权重模型可以对输入其中的文本表示向量进行训练，进而得到文本表示向量对应的权重，与此类似的，视觉模态权重模型可以对输入其中的图片表示向量进行训练，进而得到图片表示向量对应的权重，通过实际应用中得到的实验范式，将若干相关的词汇集合作为训练集来训练输入权重模型的参数。具体的，根据词汇之间的关系，将语义相近的词汇建立关系，如喝水与水杯、白与黑等，通过收集相关的词汇并对词汇进行正确的编码，权重模型能够让语义相近的词汇在高维空间中的位置关系靠近，让语义不相同的词汇在高维空间中的位置关系远离，从而做到区分不同的词汇，此外，权重模型能够自动根据不同词汇准确地学习词汇在不同模态中的权重。

其中，文本模态权重模型为输入为文本表示向量、输出为文本表示向量在对应文本模态中的权重的神经网络模型，视觉模态权重模型为输入为图片表示向量、输出为图片表示向量在对应视觉模态中的权重的神经网络模型。

步骤3：根据文本表示向量、图片表示向量以及分别与文本表示向量和图片表示向量对应的权重，计算得到多模态词汇表示向量。

为了能够更好的体现多模态词汇表示的效果，将不同的词汇均使用文本和图片两种表示方式，并且将文本和图片以及多模态词汇表示均使用向量的形式表示，能够让计算机识别，同时便于操作。在实际应用中，可以对得到的多模态词汇表示向量求取余弦相似度，并将得到的余弦相似度与人工评价的相似度数值求spearman相关性，spearman相关性越高说明多模态词汇表示越接近实际想要表达的效果。

在本发明的技术方案中，由于不同的词汇的语义表示依赖不同模态的信息，针对不同类型的词汇对不同的模态赋予不同的权重有效地提高多模态词汇表示的效果。通过将文本表示向量和图片表示向量输入到对应的权重模型中，针对不同的词汇学习到不同模态对词汇语义表示的权重。

作为一种优选的实施例，当待表示词汇只有文本表示向量时，计算待表示词汇在视觉模态中的图片表示向量的方法为：

根据预先建立的文本表示向量和图片表示向量的映射关系，计算待表示词汇只有文本表示向量对应的图片表示向量。

作为一种优选的实施例，文本表示向量和图片表示向量的映射关系的计算方法为：

在实际应用中，有些待表示的词汇只有文本表示向量，例如一些抽象的词汇，但是为了用多模态更好的表示词汇，对没有图片表示向量的词汇求取图片表示向量。具体的，通过选取事先获得的文本表示向量和图片表示向量共有词汇的表示向量，例如得到的两组向量为矩阵，且两组向量的表示矩阵分别为X和Y，其中矩阵的每一行为一个词汇的向量表示，两个矩阵的每一行对应了同样的词汇，再通过岭回归求取两组向量的映射关系，具体公式为

在具体求解时，公式中A的值随机初始化，其中，能够让AX逼近Y，

能够限制回归参数A的值过大，最终通过将上述公式最小化求取回归参数A的值，通过映射关系对计算得到的文本表示向量进行映射变换，得到映射的图片表示向量Y′＝AX。

作为一种优选的实施例，文本模态权重模型、以及视觉模态权重模型均为前馈神经网络。

前馈神经网络是一种最简单的神经网络，能够以任意精度逼近任意连续函数及平方可积函数，而且可以精确实现任意有限训练样本集。通过神经网络将输入的文本表示向量乘以矩阵加上非线性变化得到输出的文本表示向量的权重，同理，通过神经网络将输入的图片表示向量乘以矩阵加上非线性变化得到输出的图片表示向量的权重。

作为一种优选的实施例，计算得到多模态词汇表示向量的方法为：

将文本表示向量与图片表示向量分别与其对应的权重进行内积操作，分别得到文本表示向量操作结果与图片表示向量操作结果，将文本表示向量操作结果与图片表示向量操作结果进行拼接，得到多模态词汇表示向量。

将文本表示向量与图片表示向量进行内积操作，得到第一内积操作结果，将文本表示向量对应的权重与图片表示向量对应的权重进行内积操作，得到第二内积操作结果，将第一内积操作结果与第二内积操作结果进行拼接，得到多模态词汇表示向量。

在实际应用中，根据计算方式的不同，可以选择向量与向量之间进行内积操作，权重与权重之间进行内积操作，再将两种内积操作得到的结果进行拼接，也可以选择两个向量分别与其对应的权重进行内积操作，再将向量与权重进行内积操作后的结果进行拼接，这里不做限定。具体的，以两个向量分别与其对应的权重进行内机操作为例。将文本表示向量和图片表示向量分别与其对应的权重进行内积操作，具体分别表示为：g_text⊙h_text和g_image⊙h_image，将文本表示向量和图片表示向量与其对应权重进行内积操作的结果进行拼接，拼接后得到词汇的多模态表示向量，具体表示为：M_w＝g_text⊙h_text||g_image⊙h_image。

作为一种优选的实施例，文本模态权重模型中，文本表示向量在对应文本模态中的权重g_text的计算公式为：

g_text＝tanh(W_texth_text+b_text)，

视觉模态权重模型中，图片表示向量在对应视觉模态中的权重g_image的计算公式为：

g_image＝tanh(W_imageh_image+b_image)，

具体的，对文本模态和视觉模态分别建立一个前馈神经网络，分别得到文本模态的参数W_text、b_text以及视觉模态的参数W_image、b_image，根据获得的文本模态的参数和视觉模态的参数，分别计算文本模态的权重和视觉模态的权重，其中，g_text表示文本模态的权重，g_image表示视觉模态的权重，计算文本模态的权重的具体公式为：g_text＝tanh(W_texth_text+b_text)，计算视觉模态的权重的具体公式为：g_image＝tanh(W_imageh_image+b_image)。

作为一种优选的实施例，文本模态权重模型、以及视觉模态权重模型，其模型训练的语料训练集均为关联词对，其模型训练的目标训练函数均为最大间隔训练函数，最大间隔训练函数的公式为：

如图3所示，图3为本发明提供的一种前馈神经网络的工作流程图，其中w表示文本表示向量，p表示图片表示向量，利用关联词对和最大间隔训练函数对上述参数进行训练。设关联词对为(p₁，p₂)，随机采样的非关联词对为(n₁，n₂)，则最大间隔训练函数为：

其中，X表示训练数据的个数，M_w表示多模态向量表示矩阵，|P|表示训练语料数量，W_w表示多模态向量。将文本表示向量和图片表示向量分别输入到与其对应的前馈神经网络中，对应的前馈神经网络的输出即是文本表示向量的权重和图片表示向量的权重。

如下附表：多组词汇相似度实验数据所示，通过对多组词汇相似度任务进行试验，采用本发明的多模态词汇表示方法，相对于单一模态文本向量词汇表示，本发明有3.89％spearman相关性提升；相对于单一模态图片向量词汇表示，本发明有15.76％spearman相关性提升；相对于基线多模态系统，本发明有3.46％spearman相关性提升，充分说明了本发明的多模态词汇表示方法的有效性和优越性。此外，本发明的多模态词汇表示方法对英语进行了实验，但是本发明的方案并不只针对特定的语言才有效，而是对其他语言同样具有普遍的适用性。

附表：多组词汇相似度实验数据

由于不同的词汇的语义表示依赖不同模态的信息，在本发明的技术方案中，针对不同类型的词汇对不同的模态赋予不同的权重将有效地提高多模态词汇表示的效果。通过将文本表示向量和图片表示向量输入到对应的权重模型中，针对不同的词汇学习到不同模态对词汇语义表示的权重。

本发明还提供了一种存储装置，其中存储有多条程序，程序适于由处理器加载并执行以实现上述基于动态融合机制的多模态词汇表示方法。

本发明还提供了一种处理装置，包括处理器，适于执行各条程序、以及存储设备，适于存储多条程序，程序适于由处理器加载并执行以上述基于动态融合机制的多模态词汇表示方法。

本发明所提供的存储装置和处理装置，具有如上述基于多模态词汇表示方法相同的有益效果。

本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种基于动态融合机制的多模态词汇表示方法，应用于自然语言处理系统，其特征在于，包括：

其中，

2.根据权利要求1所述的方法，其特征在于，当所述待表示词汇只有文本表示向量时，计算所述待表示词汇在所述视觉模态中的图片表示向量的方法为：

3.根据权利要求2所述的方法，其特征在于，所述文本表示向量和图片表示向量的映射关系的计算方法为：

4.根据权利要求1所述的方法，其特征在于，所述文本模态权重模型、以及所述视觉模态权重模型均为前馈神经网络。

5.根据权利要求1所述的方法，其特征在于，所述计算得到多模态词汇表示向量的方法为：

6.根据权利要求1所述的方法，其特征在于，所述计算得到多模态词汇表示向量的方法为：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述文本模态权重模型中，文本表示向量在对应文本模态中的权重g_text的计算公式为：

g_text＝tanh(W_texth_text+b_text)，

所述视觉模态权重模型中，图片表示向量在对应视觉模态中的权重g_immage的计算公式为：

g_image＝tanh(W_imageh_image+b_image)，

8.根据权利要求7所述的方法，其特征在于，所述文本模态权重模型、以及所述视觉模态权重模型，其模型训练的语料训练集均为关联词对，其模型训练的目标训练函数均为最大间隔训练函数，所述最大间隔训练函数的公式为：

其中，X表示训练数据集合，M_w表示多模态向量表示矩阵，|P|表示训练语料数量，W_w表示多模态向量，上标P₁、P₂表示关联词对中的两个词汇，上标n₁、n₂表示随机选择的两个词汇。

9.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-8任一项所述的基于动态融合机制的多模态词汇表示方法。

10.一种处理装置，包括：

处理器，适于执行各条程序、以及存储设备，适于存储多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-8任一项所述的基于动态融合机制的多模态词汇表示方法。