CN108536735A

CN108536735A - 基于多通道自编码器的多模态词汇表示方法与系统

Info

Publication number: CN108536735A
Application number: CN201810178559.1A
Authority: CN
Inventors: 王少楠; 张家俊; 宗成庆
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Zhongke Zidong Taichu Beijing Technology Co ltd
Priority date: 2018-03-05
Filing date: 2018-03-05
Publication date: 2018-09-14
Anticipated expiration: 2038-03-05
Also published as: CN108536735B

Abstract

本发明涉及自然语言处理领域，具体涉及一种基于多通道自编码器的多模态词汇表示方法与系统，目的在于提高表示结果的准确性。本发明的词汇表示方法，先通过向量数据库查询待表示词汇的文本模态向量、视觉模态向量、音频模态向量；对于没有视觉模态和音频模态的词汇，利用训练好的映射模型去预测缺失的视觉向量以及听觉向量；再计算上述三种向量与对应模态权重的点积；最后将上述加权后的向量作为多通道自编码器模型的输入，对三种模态的信息进行融合，得到多模态的词汇表示向量。本发明利用不同模态间的相关性，融合不同模态的信息，并引入模态权重，有效提高了词汇表示的准确度。为了对不同模态进行更好的融合，还加入了联想词汇预测模块。

Description

基于多通道自编码器的多模态词汇表示方法与系统

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于多通道自编码器的多模态词汇表示方法与系统。

背景技术

多模态词汇表示是自然语言理解的基础任务，直接影响到整个自然语言处理系统的性能。其中，模态是指不同类型的数据来源，如文本数据称为文本模态，图像数据称为视觉模态。多模态词汇表示是融合多个模态的信息，从数据的统计规律中挖掘词汇的含义。与单一模态词汇表示相比，多模态词汇表示能够更加接近人学习词汇概念的过程，在自然语言处理任务中具有更好的表现效果。

大部分现有的多模态词汇表示方法存在下述三个问题。一、现有方法忽略了不同模态间的相关性，这使得模型无法在模态之间传递信息，从而导致无法处理缺失某些模态信息的词汇。二、现有方法大多采用级联的方式对不同模态的语义向量进行融合，这种方法不能很好的融合不同模态的信息。三、现有的多模态词汇表示方法没有考虑到不同类型的词汇对不同模态的依赖不同，这与人的常识不符而且不对词汇进行区分将导致最后的表示结果不准确。

发明内容

为了解决现有技术中的上述问题，本发明提出了一种基于多通道自编码器的多模态词汇表示方法与系统，提高了表示结果的准确性。

本发明提出一种基于多通道自编码器的多模态词汇表示方法，包括以下步骤：

步骤A10，基于预先构建的向量数据库，查询待表示词汇的三种表示向量：文本模态向量、视觉模态向量、音频模态向量；

步骤A20，若查询结果中缺失视觉模态向量和/或音频模态向量，则基于训练好的向量映射模型，根据所述待表示词汇的文本模态向量，生成所述待表示词汇的视觉模态向量和/或音频模态向量；

步骤A30，基于训练好的多通道自编码器，输入所述三种表示向量，生成所述待表示词汇的多模态词汇表示向量。

优选地，所述向量映射模型，包括文本模态向量与视觉模态向量之间的映射函数，以及文本模态向量与音频模态向量之间的映射函数。

优选地，所述向量映射模型的训练方法为：

利用既有文本模态向量又有视觉模态向量的词汇作为训练数据集，训练文本模态向量与视觉模态向量之间的映射函数，目标函数为：

利用既有文本模态向量又有音频模态向量的词汇作为训练数据集，训练文本模态向量与音频模态向量之间的映射函数，目标函数为：

其中，

m为用于训练的既有文本模态向量又有视觉模态向量的词汇数量；k为用于训练的既有文本模态向量又有音频模态向量的词汇数量；f为映射函数；T_i为第i个词汇的文本模态向量矩阵，V_i为第i个词汇的视觉模态向量矩阵，A_i为第i个词汇的音频模态向量矩阵。

优选地，所述多通道自编码器，为基于传统的自编码器，将一个输入通道拓展为多个输入通道而得到的自编码器。

优选地，所述多通道自编码器的训练方法为：

步骤B10，基于预先构建的向量数据库，输入一个训练词汇，查询所述训练词汇的所述三种表示向量；

步骤B20，若所述训练词汇的查询结果中缺失视觉模态向量和/或音频模态向量，则基于训练好的向量映射模型，根据所述训练词汇的文本模态向量，生成所述训练词汇缺失的视觉模态向量和/或音频模态向量；

步骤B30，将所述训练词汇的所述三种表示向量输入所述多通道自编码器，生成所述训练词汇的多模态词汇表示向量；

步骤B40，判断训练词汇是否已全部输入，若是，则转至步骤B50；否则，转至步骤B10；

步骤B50，计算目标函数：

其中，n为训练词汇的数量；为所述多通道自编码器的输入，分别为文本模态向量、视觉模态向量、音频模态向量；分别为所述多通道自编码器重构的文本模态向量、视觉模态向量、音频模态向量；i为训练词汇的序号；

步骤B60，若目标函数的值不再减小，则停止训练，否则，调整所述多通道自编码器的参数，并转至步骤B10。

优选地，所述预先构建的向量数据库，包括：文本向量数据库、图片向量数据库和声音向量数据库；

所述文本向量数据库，为基于维基百科语料库和GloVe模型(Global Vectors forWord Representation)生成的数据库；

所述图片向量数据库，为基于ImageNet数据库(是一个计算机视觉系统识别项目名称，是目前世界上图像识别最大的数据库，由美国斯坦福的计算机科学家模拟人类的识别系统建立)和VGGNet模型(由牛津大学的视觉几何组Visual Geometry Group提出的深度卷积神经网络)生成的数据库；

所述声音向量数据库，为基于Freesound网站上爬取到的音频和VGGNet模型生成的数据库。

优选地，在步骤A30中“生成所述待表示词汇的多模态词汇表示向量”之后，还包括：

预测所述待表示词汇的联想词汇；

相应地，在所述多通道自编码器的训练方法中，还包括对联想词汇预测模块进行训练的步骤：

在步骤B30中“生成所述训练词汇的多模态词汇表示向量”之后，还包括：预测所述训练词汇的联想词汇；

在步骤B50中计算的目标函数为：

在步骤B60中还包括：调整所述联想词汇预测模块的参数；

其中，

所述联想词汇预测模块设置于所述多通道自编码器的解码端；yⁱ为所述训练词汇对应的联想词汇向量；为由所述联想词汇预测模块预测出的联想词汇向量；i为训练词汇的序号。

优选地，在步骤A20之后，在步骤A30之前，还包括：

步骤A25，基于训练好的模态权重模型，根据所述三种模态中的表示向量，分别计算所述三种模态中的表示向量各自对应的权重；并分别计算所述三种模态中的表示向量与对应权重的点积；

相应地，步骤A30中所述多通道自编码器的输入为所述三种模态中的表示向量与对应权重的点积；

进一步地，在所述多通道自编码器的训练方法中，还包括对所述模态权重模型进行训练的步骤：

在步骤B20之后步骤B30之前还包括：步骤B25，基于所述模态权重模型，根据所述训练词汇的所述三种表示向量，分别计算所述三种表示向量各自对应的权重；并分别计算所述三种表示向量与对应权重的点积；

步骤B30中所述多通道自编码器的输入为所述三种模态中的表示向量与对应权重的点积；

步骤B60中还包括：调整所述模态权重模型的参数。

优选地，所述模态权重模型，包括：文本模态权重模块、视觉模态权重模块，以及音频模态权重模块；

其中，

所述文本模态权重模块、视觉模态权重模块，以及音频模态权重模块，均为前馈神经网络；

在所述文本模态权重模块中，计算文本模态向量权重的公式为：

W_text、b_text均为所述文本模态权重模块的神经网络模型参数，和分别为文本模态向量和该向量的权重，i为词汇的序号；

在所述视觉模态权重模块中，计算视觉模态向量权重的公式为：

W_image、b_image均为所述视觉模态权重模块的神经网络模型参数，和分别为视觉模态向量和该向量的权重；

在所述音频模态权重模块中，计算音频模态向量权重的公式为：

W_sound、b_sound均为所述音频模态权重模块的神经网络模型参数，和为音频模态向量和该向量的权重。

优选地，所述多通道自编码器的编码端将输入向量映射到另一个向量空间，得到三种模态的隐层向量：

其中，为输入的文本模态向量，为输入的视觉模态向量，为输入的音频模态向量， _i为词汇的序号；W_t、W_v、W_a、b_t、b_v、b_a均为模型参数；

并将三种模态的隐层向量进行级联，得到多模态词汇表示向量：

其中，W_m、b_m表示模型参数；

所述多通道自编码器的解码端将所述多模态词汇表示向量进行空间变换，重构三种模态的输入向量，同时预测联想词汇向量：

其中，为模型重构的三种模态隐层向量，为模型重构的三种模态输入向量；为模型重构的联想词汇向量；为预测出的联想词汇向量；i为词汇序号；W_m′、W_t′、W_v′、W_a′、W_ass′，以及b_m′、b_t′、b_v′、b_a′、b_ass′均为模型参数。

本发明同时提出一种基于多通道自编码器的多模态词汇表示系统，包括：向量数据库、向量映射模型和多通道自编码器；

所述向量数据库，用于根据待表示词汇，分别查询所述待表示词汇的文本模态向量、视觉模态向量和音频模态向量；

所述向量映射模型，用于根据所述待表示词汇的文本模态向量，生成所述待表示词汇缺失的视觉模态向量和/或音频模态向量；

所述多通道自编码器，用于根据所述待表示词汇的文本模态向量、视觉模态向量和音频模态向量，生成所述待表示词汇的多模态词汇表示向量。

优选地，所述多通道自编码器的解码端还包括：联想词汇预测模块；

所述联想词汇预测模块，用于预测所述待表示词汇的联想词汇。

优选地，还包括：模态权重模型；

所述模态权重模型，配置为：根据所述待表示词汇的文本模态向量、视觉模态向量和音频模态向量，分别计算所述待表示词汇的文本模态向量权重、视觉模态向量权重和音频模态向量权重；并分别计算所述待表示词汇的文本模态向量、视觉模态向量和音频模态向量与对应权重的点积；

相应地，所述多通道自编码器，配置为：根据所述模态权重模型计算出的点积，生成所述待表示词汇的多模态词汇表示向量。

本发明解决了现有多模态词汇表示模型的三个问题：

(1)现有方法忽略了不同模态间的相关性，这使得模型无法在模态之间传递信息，从而导致无法处理缺失某些模态信息的词汇；

(2)现有方法大多采用级联的方式对不同模态的语义向量进行融合，这种方法不能很好的融合不同模态的信息；

(3)现有的多模态词汇表示方法没有考虑到不同类型的词汇对不同模态的依赖程度不同，这与人的常识不符而且不对词汇进行区分将导致最后的表示结果不准确。

针对问题(1)我们利用有两种模态信息的词汇来学习模态间的映射函数，从而对缺失的模态信息进行补全；针对问题(2)我们提出多通道自编码器模型，先将不同模态的输入信息映射到另一个向量空间中，然后再进行融合。并通过预测输入词汇的联想词汇来增强自编码器模型学习多模态词汇表示的能力；针对问题(3)我们提出一种自动学习不同模态输入信息对多模态词汇学习权重的方法，通过前馈神经网络对权重进行建模，可以在模型更新过程中学习到不同模态的权重。在多个词汇相似度实验数据集上的结果表明，我们的模型可以学习到更好的多模态词汇表示向量。

附图说明

图1是本发明的基于多通道自编码器的多模态词汇表示方法实施例一的流程示意图；

图2是本发明的基于多通道自编码器的多模态词汇表示方法实施例一中用到的多通道自编码器的训练方法流程示意图；

图3是本发明的基于多通道自编码器的多模态词汇表示方法实施例二的流程示意图；

图4是本发明的基于多通道自编码器的多模态词汇表示方法实施例二中用到的多通道自编码器的训练流程示意图；

图5是本发明的基于多通道自编码器的多模态词汇表示方法实施例三的流程示意图；

图6是本发明的基于多通道自编码器的多模态词汇表示方法实施例三中用到的模态权重模型和多通道自编码器的训练流程示意图；

图7是本发明的基于多通道自编码器的多模态词汇表示系统实施例一的构成示意图；

图8是本发明的基于多通道自编码器的多模态词汇表示系统实施例二的构成示意图；

图9是本发明的基于多通道自编码器的多模态词汇表示系统实施例三的构成示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的实施例中，预先构建了向量数据库：文本向量数据库、图片向量数据库和声音向量数据库。

其中，文本向量数据库为基于维基百科语料库和GloVe模型生成的数据库；图片向量数据库为基于ImageNet数据库和VGGNet模型生成的数据库；声音向量数据库，为基于Freesound网站上爬取到的音频和VGGNet模型生成的数据库。

首先基于维基百科语料库构建词汇的共现矩阵，然后基于共现矩阵和Glove文本向量模型学习文本表示向量，将词汇进行向量化表示，使得向量之间尽可能多地包含语义和语法的信息。此方法构建的文本向量数据库中，共包含220万词汇的300维向量。利用世界上最大的图像识别数据库ImageNet的资源，其包括21841个词汇和14197122张图片，选择包含50张图片以上的词汇，并通过随机方法对每个词汇选择最多100张图片，利用训练好的VGGNet模型抽取每个图片的特征向量，并对每个词汇的图片向量求平均值，得到8048个词汇的128维图片向量，从而构成了图片向量数据库。利用从Freesound网站上爬取的词汇的音频，选择包含10个以上音频的词汇，并通过随机方法对每个词汇选择最多50个音频文件，然后利用VGGNet模型抽取每个音频文件的特征向量，并对每个词汇的声音向量求平均值，得到9988个词汇的128维声音向量，从而构成了声音向量数据库。

给定一个待表示词汇，我们就可以利用上面构建的向量数据库来查询该词汇的文本模态向量、视觉模态向量、音频模态向量；但是，由于部分词汇没有对应的视觉或音频模态的信息，例如，“桌子”这个词是查不到对应的音频模态向量的。因此，需要使用向量映射模型来生成这个词汇所缺失的视觉模态向量或音频模态向量。最后把该词汇的文本模态向量、视觉模态向量、音频模态向量输入到多通道自编码器中，从而得到多模态的词汇表示向量，即为三种模态输入向量经过多层神经网络后的隐层状态的级联向量。

图1是本发明的基于多通道自编码器的多模态词汇表示方法实施例一的流程示意图。如图1所示，本实施例中多模态词汇表示方法包括以下步骤：

步骤A10，基于预先构建的向量数据库，查询待表示词汇的三种表示向量：文本模态向量、视觉模态向量、音频模态向量，即待表示词汇在文本模态中的文本表示向量、待表示词汇在视觉模态中的图片表示向量、以及待表示词汇在音频模态中的声音表示向量；

步骤A20，若查询结果中缺失视觉模态向量和/或音频模态向量，则基于训练好的向量映射模型，根据待表示词汇的文本模态向量，生成待表示词汇的视觉模态向量和/或音频模态向量；

步骤A30，基于训练好的多通道自编码器，输入三种表示向量，生成待表示词汇的多模态词汇表示向量。

本实施例中，向量映射模型包括文本模态向量与视觉模态向量之间的映射函数，以及文本模态向量与音频模态向量之间的映射函数。

向量映射模型的训练方法为：

利用既有文本模态向量又有视觉模态向量的词汇作为训练数据集，训练文本模态向量与视觉模态向量之间的映射函数，目标函数如公式(1)所示：

利用既有文本模态向量又有音频模态向量的词汇作为训练数据集，训练文本模态向量与音频模态向量之间的映射函数，目标函数如公式(2)所示：

其中，

图2是本发明的基于多通道自编码器的多模态词汇表示方法实施例一中用到的多通道自编码器的训练方法流程示意图。如图2所示，本实施例中的多通道自编码器的训练方法为：

在步骤B10中，基于预先构建的向量数据库，输入一个训练词汇，查询训练词汇的三种表示向量：文本模态向量、视觉模态向量、音频模态向量。

在步骤B20中，若训练词汇缺失视觉模态向量和/或音频模态向量，则基于训练好的向量映射模型，根据训练词汇的文本模态向量，生成训练词汇缺失的视觉模态向量和/或音频模态向量。

在步骤B30中，将训练词汇的三种表示向量输入多通道自编码器，生成训练词汇的多模态词汇表示向量。

自编码器是一种无监督学习模型，是尽可能复现输入信号的神经网络，即该模型的训练目标为：使模型的输出尽可能的与输入相同。为了实现这种复现，自编码器就必须捕捉可以代表输入数据的最重要的因素，因此可用于降维和特征提取。本实施例中，多通道自编码器是在传统自编码器的基础上，将输入由一个通道拓展为多个通道，能够同时输入多个模态的信息。多通道自编码器的编码端将输入向量映射到另一个向量空间，得到三种模态的隐层向量，如公式(3)、(4)、(5)所示：

其中，分别为输入的文本模态向量、视觉模态向量、音频模态向量，是在步骤B10中查询到的(视觉模态向量和音频模态向量也可能是在步骤B20中生成的)，i为词汇序号，i＝1,2,...,n；W_t、W_v、W_a、b_t、b_v、b_a均为模型参数。

将上面得到的三种模态输入的隐层向量进行拼接，就得到级联向量，即多模态词汇表示向量，如公式(6)所示：

其中，W_m、b_m表示模型参数。

解码端将上述多模态词汇表示向量进行空间变换，目标是还原三种多模态词汇表示向量，如公式(7)所示：

其中，表示模型重构的隐层向量，表示模型重构的三种输入模态向量，i为词汇序号。

在步骤B40中，判断i是否等于n，若是，说明n个训练词汇均已输入并生成多模态向量，则转至步骤B50去计算目标函数；否则，转至步骤B10继续输入下一个训练词汇；

在步骤B50中，计算目标函数，如公式(8)所示：

其中，n为训练词汇的数量。

在步骤B60中，判断目标函数的值是否不再减小，若是则停止训练，否则，调整多通道自编码器的参数，并转至步骤B10。

本实施例中，通过上述步骤B10-B60的方法，反复将n个训练词汇输入模型生成多模态向量，并计算目标函数、调整模型参数，直到目标函数达到最小值，才完成训练。

图3是本发明的基于多通道自编码器的多模态词汇表示方法实施例二的流程示意图。为了学习更好地融合模型，我们在上述三通道自编码器的基础上，在解码端加入了联想词汇预测模块。联想词汇预测模块的作用是预测与输入词汇相关的词汇即联想词汇，这样可以增强多模态词汇表示向量编码语义信息的能力，也就是说通过预测联想词汇可以使模型学习到更好的多模态词汇表示向量。

如图3所示，本实施例中，与实施例一的不同之处在于：

在步骤A30中“生成待表示词汇的多模态词汇表示向量”之后，还包括：预测待表示词汇的联想词汇；

图4是本发明的基于多通道自编码器的多模态词汇表示方法实施例二中用到的多通道自编码器的训练流程示意图。如图4所示，本实施例中，在对多通道自编码器的训练过程中还包括对联想词汇预测模块进行训练的步骤：

在步骤B30中“生成训练词汇的多模态词汇表示向量”之后，还包括：预测训练词汇的联想词汇。

联想词汇预测模块配置在模型的解码端，使模型在重构输入信息的同时预测与之相关联的词汇信息，可形式化为如公式(9)所示：

其中，为模型重构的三种模态隐层向量，为模型重构的三种模态输入向量，为重构联想词汇向量，为预测出的联想词汇向量，i为词汇序号；W_m′、W_t′、W_v′、W_a′、W_ass′，以及b_m′、b_t′、b_v′、b_a′、b_ass′均为模型参数。

在步骤B50中计算的目标函数中增加了关于联想词汇预测模块的训练目标函数，如公式(10)所示：

在步骤B60中还包括：调整联想词汇预测模块的参数；

其中，yⁱ为第i个训练词汇对应的联想词汇向量。

图5是本发明的基于多通道自编码器的多模态词汇表示方法实施例三的流程示意图。如图5所示，与实施例二的不同之处在于：

本实施例中在步骤A20之后，在步骤A30之前，还包括：在步骤A25中，基于训练好的模态权重模型，根据三种模态中的表示向量，分别计算三种模态中的表示向量各自对应的权重；并分别计算三种模态中的表示向量与对应权重的点积。

相应地，步骤A30中多通道自编码器的输入为三种模态中的表示向量与对应权重的点积。

在实际应用中，还可以选择向量与向量之间进行内积操作，权重与权重之间进行内积操作，再将两种内积操作得到的结果进行拼接。

图6是本发明的基于多通道自编码器的多模态词汇表示方法实施例三中用到的模态权重模型和多通道自编码器的训练流程示意图。如图6所示，本实施例中，在多通道自编码器的训练过程中还包括对所述模态权重模型进行训练的步骤：

在步骤B20之后步骤B30之前还包括：在步骤B25中，基于模态权重模型，根据训练词汇的三种表示向量，分别计算三种表示向量各自对应的权重；并分别计算三种表示向量与对应权重的点积。

在步骤B30中多通道自编码器的输入为训练词汇的三种模态中的表示向量与对应权重的点积。

在步骤B60中还包括：调整模态权重模型的参数。

本实施例中，模态权重模型包括：文本模态权重模块、视觉模态权重模块，以及音频模态权重模块。这三个模块均为前馈神经网络。

在文本模态权重模块中，计算文本模态向量权重的方法如公式(11)所示：

W_text、b_text均为文本模态权重模块的神经网络模型参数，和分别为文本模态向量和该向量的权重，i为词汇的序号。

在视觉模态权重模块中，计算视觉模态向量权重的方法如公式(12)所示：

W_image、b_image均为视觉模态权重模块的神经网络模型参数，和分别为视觉模态向量和该向量的权重，i为词汇的序号。

在音频模态权重模块中，计算音频模态向量权重的方法如公式(13)所示：

W_sound、b_sound均为音频模态权重模块的神经网络模型参数，和为音频模态向量和该向量的权重，i为词汇的序号。

本实施例中，多通道自编码器的编码端将输入向量映射到另一个向量空间，得到三种模态的隐层向量，如公式(3)-(5)所示。

需要注意的是，与实施例一和实施例二中不同，这里的三个输入向量是考虑了模态权重之后的输入向量：

多通道自编码器的编码端还将三种模态的隐层向量进行级联，得到如公式(6)所示的多模态词汇表示向量。

多通道自编码器的解码端将上述多模态词汇表示向量进行空间变换，重构三种模态的输入向量，同时预测联想词汇向量，如公式(9)所示。

通过对多组词汇相似度任务进行试验的结果，如表1所示：

表1

表中第一行是不同测试数据集的名称，第一列中前面4项的“文本表示”、“图片表示”、“声音表示”和“基线多模态表示”分别代表词向量模型得到的文本向量、VGGNet得到的图片向量、VGGNet得到的声音向量、岭回归多模态表示模型，最后3项“多通道自编码器-向量映射”、“多通道自编码器-向量映射-联想词汇”和“多通道自编码器-向量映射-联想词汇-权重模型”是本发明的三种实施例，分别对应于图1、图3、图5所示的方法。由表1可以看出采用本发明提供的基于联想自编码器的多模态词汇表示方法相对于文本模态表示向量有平均6.9％spearman相关性的提升：(0.666-0.620)/0.666＝6.9％；相对于视觉模态表示向量有平均29.4％spearman相关性的提升：(0.666-0.47)/0.666＝29.4％，相对于音频模态表示向量有平均80％spearman相关性的提升：(0.666-0.133)/0.666＝80％，相对于基线多模态模型有平均7.1％spearman相关性的提升：(0.666-0.619)/0.666＝7.1％。其中，不加入联想预测模块和权重模块有平均2.9％spearman相关性的提升：(0.666-0.647)/0.666＝2.9％，不加入权重模块有平均0.2％spearman相关性的提升：(0.666-0.665)/0.666＝0.2％。结果充分说明了本发明的多模态词汇表示方法的有效性和优越性。此外，虽然上面只列出了针对英语进行的实验结果，但是本发明的方案并不只针对特定的语言才有效，而是对其他语言同样具有普遍的适用性。

图7是本发明的基于多通道自编码器的多模态词汇表示系统实施例一的构成示意图。如图7所示，包括：向量数据库10、向量映射模型20和多通道自编码器30。

其中，向量数据库10用于根据待表示词汇，分别查询待表示词汇的文本模态向量、视觉模态向量和音频模态向量；向量映射模型20包括文本模态向量与视觉模态向量之间的映射函数，以及文本模态向量与音频模态向量之间的映射函数，用于根据待表示词汇的文本模态向量，生成待表示词汇缺失的视觉模态向量和/或音频模态向量；多通道自编码器30包括编码端31和解码端32，编码端31用于根据待表示词汇的文本模态向量、视觉模态向量和音频模态向量，生成待表示词汇的多模态词汇表示向量；解码端32用于对输入向量进行重构。

利用本实施例的多模态词汇表示系统，进行词汇表示的方法可参看图1；本实施例中的多通道自编码器训练方法可参看图2。

图8是本发明的基于多通道自编码器的多模态词汇表示系统实施例二的构成示意图。如图8所示，多通道自编码器的解码端还包括：联想词汇预测模块32。联想词汇预测模块32用于预测所述待表示词汇的联想词汇。

利用本实施例的多模态词汇表示系统，进行词汇表示的方法可参看图3；本实施例中的多通道自编码器及其包含的联想词汇预测模块的训练方法可参看图4。

图9是本发明的基于多通道自编码器的多模态词汇表示系统实施例三的构成示意图。如图9所示，本实施例中还包括：模态权重模型40。

其中，模态权重模型40配置为：根据待表示词汇的文本模态向量、视觉模态向量和音频模态向量，分别计算待表示词汇的文本模态向量权重、视觉模态向量权重和音频模态向量权重；并分别计算待表示词汇的文本模态向量、视觉模态向量和音频模态向量与对应权重的点积。

相应地，本实施例中的多通道自编码器30配置为：根据模态权重模型40计算出的点积，生成待表示词汇的多模态词汇表示向量。

利用本实施例的多模态词汇表示系统，进行词汇表示的方法可参看图5；本实施例中的模态权重模型及多通道自编码器训练方法可参看图6。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤、模型、模块，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于多通道自编码器的多模态词汇表示方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多模态词汇表示方法，其特征在于，所述向量映射模型，包括文本模态向量与视觉模态向量之间的映射函数，以及文本模态向量与音频模态向量之间的映射函数。

3.根据权利要求2所述的多模态词汇表示方法，其特征在于，

所述向量映射模型的训练方法为：

其中，

4.根据权利要求1所述的多模态词汇表示方法，其特征在于，所述多通道自编码器，为基于传统的自编码器，将一个输入通道拓展为多个输入通道而得到的自编码器。

5.根据权利要求4所述的多模态词汇表示方法，其特征在于，所述多通道自编码器的训练方法为：

步骤B50，计算目标函数：

6.根据权利要求1所述的多模态词汇表示方法，其特征在于，所述预先构建的向量数据库，包括：文本向量数据库、图片向量数据库和声音向量数据库；

所述文本向量数据库，为基于维基百科语料库和GloVe模型生成的数据库；

所述图片向量数据库，为基于ImageNet数据库和VGGNet模型生成的数据库；

7.根据权利要求5所述的多模态词汇表示方法，其特征在于，在步骤A30中“生成所述待表示词汇的多模态词汇表示向量”之后，还包括：

预测所述待表示词汇的联想词汇；

在步骤B50中计算的目标函数为：

在步骤B60中还包括：调整所述联想词汇预测模块的参数；

其中，

8.根据权利要求7所述的多模态词汇表示方法，其特征在于，在步骤A20之后，在步骤A30之前，还包括：

步骤B60中还包括：调整所述模态权重模型的参数。

9.根据权利要求8所述的多模态词汇表示方法，其特征在于，所述模态权重模型，包括：文本模态权重模块、视觉模态权重模块，以及音频模态权重模块；

其中，

10.根据权利要求8所述的多模态词汇表示方法，其特征在于，

所述多通道自编码器的编码端将输入向量映射到另一个向量空间，得到三种模态的隐层向量：

其中，W_m、b_m表示模型参数；

其中，为模型重构的三种模态隐层向量，为模型重构的三种模态输入向量；为重构的联想词汇向量；为预测出的联想词汇向量；i为词汇序号；W_m′、W_t′、W_v′、W_a′、W_ass′，以及b_m′、b_t′、b_v′、b_a′、b_ass′均为模型参数。

11.一种基于多通道自编码器的多模态词汇表示系统，其特征在于，包括：向量数据库、向量映射模型和多通道自编码器；

12.根据权利要求11所述的多模态词汇表示系统，其特征在于，所述向量映射模型，包括文本模态向量与视觉模态向量之间的映射函数，以及文本模态向量与音频模态向量之间的映射函数。

13.根据权利要求12所述的多模态词汇表示系统，其特征在于，所述多通道自编码器的解码端还包括：联想词汇预测模块；

14.根据权利要求13所述的多模态词汇表示系统，其特征在于，还包括：模态权重模型；