CN108536735B - 基于多通道自编码器的多模态词汇表示方法与系统 - Google Patents

基于多通道自编码器的多模态词汇表示方法与系统 Download PDF

Info

Publication number
CN108536735B
CN108536735B CN201810178559.1A CN201810178559A CN108536735B CN 108536735 B CN108536735 B CN 108536735B CN 201810178559 A CN201810178559 A CN 201810178559A CN 108536735 B CN108536735 B CN 108536735B
Authority
CN
China
Prior art keywords
vector
modal
vocabulary
text
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810178559.1A
Other languages
English (en)
Other versions
CN108536735A (zh
Inventor
王少楠
张家俊
宗成庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201810178559.1A priority Critical patent/CN108536735B/zh
Publication of CN108536735A publication Critical patent/CN108536735A/zh
Application granted granted Critical
Publication of CN108536735B publication Critical patent/CN108536735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明涉及自然语言处理领域,具体涉及一种基于多通道自编码器的多模态词汇表示方法与系统,目的在于提高表示结果的准确性。本发明的词汇表示方法,先通过向量数据库查询待表示词汇的文本模态向量、视觉模态向量、音频模态向量;对于没有视觉模态和音频模态的词汇,利用训练好的映射模型去预测缺失的视觉向量以及听觉向量;再计算上述三种向量与对应模态权重的点积;最后将上述加权后的向量作为多通道自编码器模型的输入,对三种模态的信息进行融合,得到多模态的词汇表示向量。本发明利用不同模态间的相关性,融合不同模态的信息,并引入模态权重,有效提高了词汇表示的准确度。为了对不同模态进行更好的融合,还加入了联想词汇预测模块。

Description

基于多通道自编码器的多模态词汇表示方法与系统
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于多通道自编码器的多模态词汇表示方法与系统。
背景技术
多模态词汇表示是自然语言理解的基础任务,直接影响到整个自然语言处理系统的性能。其中,模态是指不同类型的数据来源,如文本数据称为文本模态,图像数据称为视觉模态。多模态词汇表示是融合多个模态的信息,从数据的统计规律中挖掘词汇的含义。与单一模态词汇表示相比,多模态词汇表示能够更加接近人学习词汇概念的过程,在自然语言处理任务中具有更好的表现效果。
大部分现有的多模态词汇表示方法存在下述三个问题。一、现有方法忽略了不同模态间的相关性,这使得模型无法在模态之间传递信息,从而导致无法处理缺失某些模态信息的词汇。二、现有方法大多采用级联的方式对不同模态的语义向量进行融合,这种方法不能很好的融合不同模态的信息。三、现有的多模态词汇表示方法没有考虑到不同类型的词汇对不同模态的依赖不同,这与人的常识不符而且不对词汇进行区分将导致最后的表示结果不准确。
发明内容
为了解决现有技术中的上述问题,本发明提出了一种基于多通道自编码器的多模态词汇表示方法与系统,提高了表示结果的准确性。
本发明提出一种基于多通道自编码器的多模态词汇表示方法,包括以下步骤:
步骤A10,基于预先构建的向量数据库,查询待表示词汇的三种表示向量:文本模态向量、视觉模态向量、音频模态向量;
步骤A20,若查询结果中缺失视觉模态向量和/或音频模态向量,则基于训练好的向量映射模型,根据所述待表示词汇的文本模态向量,生成所述待表示词汇的视觉模态向量和/或音频模态向量;
步骤A30,基于训练好的多通道自编码器,输入所述三种表示向量,生成所述待表示词汇的多模态词汇表示向量。
优选地,所述向量映射模型,包括文本模态向量与视觉模态向量之间的映射函数,以及文本模态向量与音频模态向量之间的映射函数。
优选地,所述向量映射模型的训练方法为:
利用既有文本模态向量又有视觉模态向量的词汇作为训练数据集,训练文本模态向量与视觉模态向量之间的映射函数,目标函数为:
Figure BDA0001588059970000021
利用既有文本模态向量又有音频模态向量的词汇作为训练数据集,训练文本模态向量与音频模态向量之间的映射函数,目标函数为:
Figure BDA0001588059970000022
其中,
m为用于训练的既有文本模态向量又有视觉模态向量的词汇数量;k为用于训练的既有文本模态向量又有音频模态向量的词汇数量;f为映射函数;Ti为第i个词汇的文本模态向量矩阵,Vi为第i个词汇的视觉模态向量矩阵,Ai为第i个词汇的音频模态向量矩阵。
优选地,所述多通道自编码器,为基于传统的自编码器,将一个输入通道拓展为多个输入通道而得到的自编码器。
优选地,所述多通道自编码器的训练方法为:
步骤B10,基于预先构建的向量数据库,输入一个训练词汇,查询所述训练词汇的所述三种表示向量;
步骤B20,若所述训练词汇的查询结果中缺失视觉模态向量和/或音频模态向量,则基于训练好的向量映射模型,根据所述训练词汇的文本模态向量,生成所述训练词汇缺失的视觉模态向量和/或音频模态向量;
步骤B30,将所述训练词汇的所述三种表示向量输入所述多通道自编码器,生成所述训练词汇的多模态词汇表示向量;
步骤B40,判断训练词汇是否已全部输入,若是,则转至步骤B50;否则,转至步骤B10;
步骤B50,计算目标函数:
Figure BDA0001588059970000031
其中,n为训练词汇的数量;
Figure BDA0001588059970000032
为所述多通道自编码器的输入,分别为文本模态向量、视觉模态向量、音频模态向量;
Figure BDA0001588059970000033
Figure BDA0001588059970000034
分别为所述多通道自编码器重构的文本模态向量、视觉模态向量、音频模态向量;i为训练词汇的序号;
步骤B60,若目标函数的值不再减小,则停止训练,否则,调整所述多通道自编码器的参数,并转至步骤B10。
优选地,所述预先构建的向量数据库,包括:文本向量数据库、图片向量数据库和声音向量数据库;
所述文本向量数据库,为基于维基百科语料库和GloVe模型(Global Vectors forWord Representation)生成的数据库;
所述图片向量数据库,为基于ImageNet数据库(是一个计算机视觉系统识别项目名称,是目前世界上图像识别最大的数据库,由美国斯坦福的计算机科学家模拟人类的识别系统建立)和VGGNet模型(由牛津大学的视觉几何组Visual Geometry Group提出的深度卷积神经网络)生成的数据库;
所述声音向量数据库,为基于Freesound网站上爬取到的音频和VGGNet模型生成的数据库。
优选地,在步骤A30中“生成所述待表示词汇的多模态词汇表示向量”之后,还包括:
预测所述待表示词汇的联想词汇;
相应地,在所述多通道自编码器的训练方法中,还包括对联想词汇预测模块进行训练的步骤:
在步骤B30中“生成所述训练词汇的多模态词汇表示向量”之后,还包括:预测所述训练词汇的联想词汇;
在步骤B50中计算的目标函数为:
Figure BDA0001588059970000041
在步骤B60中还包括:调整所述联想词汇预测模块的参数;
其中,
所述联想词汇预测模块设置于所述多通道自编码器的解码端;yi为所述训练词汇对应的联想词汇向量;
Figure BDA0001588059970000042
为由所述联想词汇预测模块预测出的联想词汇向量;i为训练词汇的序号。
优选地,在步骤A20之后,在步骤A30之前,还包括:
步骤A25,基于训练好的模态权重模型,根据所述三种模态中的表示向量,分别计算所述三种模态中的表示向量各自对应的权重;并分别计算所述三种模态中的表示向量与对应权重的点积;
相应地,步骤A30中所述多通道自编码器的输入为所述三种模态中的表示向量与对应权重的点积;
进一步地,在所述多通道自编码器的训练方法中,还包括对所述模态权重模型进行训练的步骤:
在步骤B20之后步骤B30之前还包括:步骤B25,基于所述模态权重模型,根据所述训练词汇的所述三种表示向量,分别计算所述三种表示向量各自对应的权重;并分别计算所述三种表示向量与对应权重的点积;
步骤B30中所述多通道自编码器的输入为所述三种模态中的表示向量与对应权重的点积;
步骤B60中还包括:调整所述模态权重模型的参数。
优选地,所述模态权重模型,包括:文本模态权重模块、视觉模态权重模块,以及音频模态权重模块;
其中,
所述文本模态权重模块、视觉模态权重模块,以及音频模态权重模块,均为前馈神经网络;
在所述文本模态权重模块中,计算文本模态向量权重的公式为:
Figure BDA0001588059970000043
Wtext、btext均为所述文本模态权重模块的神经网络模型参数,
Figure BDA0001588059970000051
Figure BDA0001588059970000052
分别为文本模态向量和该向量的权重,i为词汇的序号;
在所述视觉模态权重模块中,计算视觉模态向量权重的公式为:
Figure BDA0001588059970000053
Wimage、bimage均为所述视觉模态权重模块的神经网络模型参数,
Figure BDA0001588059970000054
Figure BDA0001588059970000055
分别为视觉模态向量和该向量的权重;
在所述音频模态权重模块中,计算音频模态向量权重的公式为:
Figure BDA0001588059970000056
Wsound、bsound均为所述音频模态权重模块的神经网络模型参数,
Figure BDA0001588059970000057
Figure BDA0001588059970000058
为音频模态向量和该向量的权重。
优选地,所述多通道自编码器的编码端将输入向量映射到另一个向量空间,得到三种模态的隐层向量:
Figure BDA0001588059970000059
Figure BDA00015880599700000510
Figure BDA00015880599700000511
其中,
Figure BDA00015880599700000512
为输入的文本模态向量,
Figure BDA00015880599700000513
为输入的视觉模态向量,
Figure BDA00015880599700000514
为输入的音频模态向量,
Figure BDA00015880599700000515
i为词汇的序号;Wt、Wv、Wa、bt、bv、ba均为模型参数;
并将三种模态的隐层向量进行级联,得到多模态词汇表示向量:
Figure BDA00015880599700000516
其中,Wm、bm表示模型参数;
所述多通道自编码器的解码端将所述多模态词汇表示向量进行空间变换,重构三种模态的输入向量,同时预测联想词汇向量:
Figure BDA0001588059970000061
其中,
Figure BDA0001588059970000062
为模型重构的三种模态隐层向量,
Figure BDA0001588059970000063
Figure BDA0001588059970000064
为模型重构的三种模态输入向量;
Figure BDA0001588059970000065
为模型重构的联想词汇向量;
Figure BDA0001588059970000067
Figure BDA0001588059970000066
为预测出的联想词汇向量;i为词汇序号;Wm′、Wt′、Wv′、Wa′、Wass′,以及bm′、bt′、bv′、ba′、bass′均为模型参数。
本发明同时提出一种基于多通道自编码器的多模态词汇表示系统,包括:向量数据库、向量映射模型和多通道自编码器;
所述向量数据库,用于根据待表示词汇,分别查询所述待表示词汇的文本模态向量、视觉模态向量和音频模态向量;
所述向量映射模型,用于根据所述待表示词汇的文本模态向量,生成所述待表示词汇缺失的视觉模态向量和/或音频模态向量;
所述多通道自编码器,用于根据所述待表示词汇的文本模态向量、视觉模态向量和音频模态向量,生成所述待表示词汇的多模态词汇表示向量。
优选地,所述向量映射模型,包括文本模态向量与视觉模态向量之间的映射函数,以及文本模态向量与音频模态向量之间的映射函数。
优选地,所述多通道自编码器的解码端还包括:联想词汇预测模块;
所述联想词汇预测模块,用于预测所述待表示词汇的联想词汇。
优选地,还包括:模态权重模型;
所述模态权重模型,配置为:根据所述待表示词汇的文本模态向量、视觉模态向量和音频模态向量,分别计算所述待表示词汇的文本模态向量权重、视觉模态向量权重和音频模态向量权重;并分别计算所述待表示词汇的文本模态向量、视觉模态向量和音频模态向量与对应权重的点积;
相应地,所述多通道自编码器,配置为:根据所述模态权重模型计算出的点积,生成所述待表示词汇的多模态词汇表示向量。
本发明解决了现有多模态词汇表示模型的三个问题:
(1)现有方法忽略了不同模态间的相关性,这使得模型无法在模态之间传递信息,从而导致无法处理缺失某些模态信息的词汇;
(2)现有方法大多采用级联的方式对不同模态的语义向量进行融合,这种方法不能很好的融合不同模态的信息;
(3)现有的多模态词汇表示方法没有考虑到不同类型的词汇对不同模态的依赖程度不同,这与人的常识不符而且不对词汇进行区分将导致最后的表示结果不准确。
针对问题(1)我们利用有两种模态信息的词汇来学习模态间的映射函数,从而对缺失的模态信息进行补全;针对问题(2)我们提出多通道自编码器模型,先将不同模态的输入信息映射到另一个向量空间中,然后再进行融合。并通过预测输入词汇的联想词汇来增强自编码器模型学习多模态词汇表示的能力;针对问题(3)我们提出一种自动学习不同模态输入信息对多模态词汇学习权重的方法,通过前馈神经网络对权重进行建模,可以在模型更新过程中学习到不同模态的权重。在多个词汇相似度实验数据集上的结果表明,我们的模型可以学习到更好的多模态词汇表示向量。
附图说明
图1是本发明的基于多通道自编码器的多模态词汇表示方法实施例一的流程示意图;
图2是本发明的基于多通道自编码器的多模态词汇表示方法实施例一中用到的多通道自编码器的训练方法流程示意图;
图3是本发明的基于多通道自编码器的多模态词汇表示方法实施例二的流程示意图;
图4是本发明的基于多通道自编码器的多模态词汇表示方法实施例二中用到的多通道自编码器的训练流程示意图;
图5是本发明的基于多通道自编码器的多模态词汇表示方法实施例三的流程示意图;
图6是本发明的基于多通道自编码器的多模态词汇表示方法实施例三中用到的模态权重模型和多通道自编码器的训练流程示意图;
图7是本发明的基于多通道自编码器的多模态词汇表示系统实施例一的构成示意图;
图8是本发明的基于多通道自编码器的多模态词汇表示系统实施例二的构成示意图;
图9是本发明的基于多通道自编码器的多模态词汇表示系统实施例三的构成示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明的实施例中,预先构建了向量数据库:文本向量数据库、图片向量数据库和声音向量数据库。
其中,文本向量数据库为基于维基百科语料库和GloVe模型生成的数据库;图片向量数据库为基于ImageNet数据库和VGGNet模型生成的数据库;声音向量数据库,为基于Freesound网站上爬取到的音频和VGGNet模型生成的数据库。
首先基于维基百科语料库构建词汇的共现矩阵,然后基于共现矩阵和Glove文本向量模型学习文本表示向量,将词汇进行向量化表示,使得向量之间尽可能多地包含语义和语法的信息。此方法构建的文本向量数据库中,共包含220万词汇的300维向量。利用世界上最大的图像识别数据库ImageNet的资源,其包括21841个词汇和14197122张图片,选择包含50张图片以上的词汇,并通过随机方法对每个词汇选择最多100张图片,利用训练好的VGGNet模型抽取每个图片的特征向量,并对每个词汇的图片向量求平均值,得到8048个词汇的128维图片向量,从而构成了图片向量数据库。利用从Freesound网站上爬取的词汇的音频,选择包含10个以上音频的词汇,并通过随机方法对每个词汇选择最多50个音频文件,然后利用VGGNet模型抽取每个音频文件的特征向量,并对每个词汇的声音向量求平均值,得到9988个词汇的128维声音向量,从而构成了声音向量数据库。
给定一个待表示词汇,我们就可以利用上面构建的向量数据库来查询该词汇的文本模态向量、视觉模态向量、音频模态向量;但是,由于部分词汇没有对应的视觉或音频模态的信息,例如,“桌子”这个词是查不到对应的音频模态向量的。因此,需要使用向量映射模型来生成这个词汇所缺失的视觉模态向量或音频模态向量。最后把该词汇的文本模态向量、视觉模态向量、音频模态向量输入到多通道自编码器中,从而得到多模态的词汇表示向量,即为三种模态输入向量经过多层神经网络后的隐层状态的级联向量。
图1是本发明的基于多通道自编码器的多模态词汇表示方法实施例一的流程示意图。如图1所示,本实施例中多模态词汇表示方法包括以下步骤:
步骤A10,基于预先构建的向量数据库,查询待表示词汇的三种表示向量:文本模态向量、视觉模态向量、音频模态向量,即待表示词汇在文本模态中的文本表示向量、待表示词汇在视觉模态中的图片表示向量、以及待表示词汇在音频模态中的声音表示向量;
步骤A20,若查询结果中缺失视觉模态向量和/或音频模态向量,则基于训练好的向量映射模型,根据待表示词汇的文本模态向量,生成待表示词汇的视觉模态向量和/或音频模态向量;
步骤A30,基于训练好的多通道自编码器,输入三种表示向量,生成待表示词汇的多模态词汇表示向量。
本实施例中,向量映射模型包括文本模态向量与视觉模态向量之间的映射函数,以及文本模态向量与音频模态向量之间的映射函数。
向量映射模型的训练方法为:
利用既有文本模态向量又有视觉模态向量的词汇作为训练数据集,训练文本模态向量与视觉模态向量之间的映射函数,目标函数如公式(1)所示:
Figure BDA0001588059970000101
利用既有文本模态向量又有音频模态向量的词汇作为训练数据集,训练文本模态向量与音频模态向量之间的映射函数,目标函数如公式(2)所示:
Figure BDA0001588059970000102
其中,
m为用于训练的既有文本模态向量又有视觉模态向量的词汇数量;k为用于训练的既有文本模态向量又有音频模态向量的词汇数量;f为映射函数;Ti为第i个词汇的文本模态向量矩阵,Vi为第i个词汇的视觉模态向量矩阵,Ai为第i个词汇的音频模态向量矩阵。
图2是本发明的基于多通道自编码器的多模态词汇表示方法实施例一中用到的多通道自编码器的训练方法流程示意图。如图2所示,本实施例中的多通道自编码器的训练方法为:
在步骤B10中,基于预先构建的向量数据库,输入一个训练词汇,查询训练词汇的三种表示向量:文本模态向量、视觉模态向量、音频模态向量。
在步骤B20中,若训练词汇缺失视觉模态向量和/或音频模态向量,则基于训练好的向量映射模型,根据训练词汇的文本模态向量,生成训练词汇缺失的视觉模态向量和/或音频模态向量。
在步骤B30中,将训练词汇的三种表示向量输入多通道自编码器,生成训练词汇的多模态词汇表示向量。
自编码器是一种无监督学习模型,是尽可能复现输入信号的神经网络,即该模型的训练目标为:使模型的输出尽可能的与输入相同。为了实现这种复现,自编码器就必须捕捉可以代表输入数据的最重要的因素,因此可用于降维和特征提取。本实施例中,多通道自编码器是在传统自编码器的基础上,将输入由一个通道拓展为多个通道,能够同时输入多个模态的信息。多通道自编码器的编码端将输入向量映射到另一个向量空间,得到三种模态的隐层向量,如公式(3)、(4)、(5)所示:
Figure BDA0001588059970000103
Figure BDA0001588059970000111
Figure BDA0001588059970000112
其中,
Figure BDA0001588059970000113
分别为输入的文本模态向量、视觉模态向量、音频模态向量,是在步骤B10中查询到的(视觉模态向量和音频模态向量也可能是在步骤B20中生成的),i为词汇序号,i=1,2,...,n;Wt、Wv、Wa、bt、bv、ba均为模型参数。
将上面得到的三种模态输入的隐层向量进行拼接,就得到级联向量,即多模态词汇表示向量,如公式(6)所示:
Figure BDA0001588059970000114
其中,Wm、bm表示模型参数。
解码端将上述多模态词汇表示向量进行空间变换,目标是还原三种多模态词汇表示向量,如公式(7)所示:
Figure BDA0001588059970000115
其中,
Figure BDA0001588059970000116
表示模型重构的隐层向量,
Figure BDA0001588059970000117
表示模型重构的三种输入模态向量,i为词汇序号。
在步骤B40中,判断i是否等于n,若是,说明n个训练词汇均已输入并生成多模态向量,则转至步骤B50去计算目标函数;否则,转至步骤B10继续输入下一个训练词汇;
在步骤B50中,计算目标函数,如公式(8)所示:
Figure BDA0001588059970000118
其中,n为训练词汇的数量。
在步骤B60中,判断目标函数的值是否不再减小,若是则停止训练,否则,调整多通道自编码器的参数,并转至步骤B10。
本实施例中,通过上述步骤B10-B60的方法,反复将n个训练词汇输入模型生成多模态向量,并计算目标函数、调整模型参数,直到目标函数达到最小值,才完成训练。
图3是本发明的基于多通道自编码器的多模态词汇表示方法实施例二的流程示意图。为了学习更好地融合模型,我们在上述三通道自编码器的基础上,在解码端加入了联想词汇预测模块。联想词汇预测模块的作用是预测与输入词汇相关的词汇即联想词汇,这样可以增强多模态词汇表示向量编码语义信息的能力,也就是说通过预测联想词汇可以使模型学习到更好的多模态词汇表示向量。
如图3所示,本实施例中,与实施例一的不同之处在于:
在步骤A30中“生成待表示词汇的多模态词汇表示向量”之后,还包括:预测待表示词汇的联想词汇;
图4是本发明的基于多通道自编码器的多模态词汇表示方法实施例二中用到的多通道自编码器的训练流程示意图。如图4所示,本实施例中,在对多通道自编码器的训练过程中还包括对联想词汇预测模块进行训练的步骤:
在步骤B30中“生成训练词汇的多模态词汇表示向量”之后,还包括:预测训练词汇的联想词汇。
联想词汇预测模块配置在模型的解码端,使模型在重构输入信息的同时预测与之相关联的词汇信息,可形式化为如公式(9)所示:
Figure BDA0001588059970000121
其中,
Figure BDA0001588059970000122
为模型重构的三种模态隐层向量,
Figure BDA0001588059970000123
Figure BDA0001588059970000131
为模型重构的三种模态输入向量,
Figure BDA0001588059970000132
为重构联想词汇向量,
Figure BDA0001588059970000133
为预测出的联想词汇向量,i为词汇序号;Wm′、Wt′、Wv′、Wa′、Wass′,以及bm′、bt′、bv′、ba′、bass′均为模型参数。
在步骤B50中计算的目标函数中增加了关于联想词汇预测模块的训练目标函数,如公式(10)所示:
Figure BDA0001588059970000134
在步骤B60中还包括:调整联想词汇预测模块的参数;
其中,yi为第i个训练词汇对应的联想词汇向量。
图5是本发明的基于多通道自编码器的多模态词汇表示方法实施例三的流程示意图。如图5所示,与实施例二的不同之处在于:
本实施例中在步骤A20之后,在步骤A30之前,还包括:在步骤A25中,基于训练好的模态权重模型,根据三种模态中的表示向量,分别计算三种模态中的表示向量各自对应的权重;并分别计算三种模态中的表示向量与对应权重的点积。
相应地,步骤A30中多通道自编码器的输入为三种模态中的表示向量与对应权重的点积。
在实际应用中,还可以选择向量与向量之间进行内积操作,权重与权重之间进行内积操作,再将两种内积操作得到的结果进行拼接。
图6是本发明的基于多通道自编码器的多模态词汇表示方法实施例三中用到的模态权重模型和多通道自编码器的训练流程示意图。如图6所示,本实施例中,在多通道自编码器的训练过程中还包括对所述模态权重模型进行训练的步骤:
在步骤B20之后步骤B30之前还包括:在步骤B25中,基于模态权重模型,根据训练词汇的三种表示向量,分别计算三种表示向量各自对应的权重;并分别计算三种表示向量与对应权重的点积。
在步骤B30中多通道自编码器的输入为训练词汇的三种模态中的表示向量与对应权重的点积。
在步骤B60中还包括:调整模态权重模型的参数。
本实施例中,模态权重模型包括:文本模态权重模块、视觉模态权重模块,以及音频模态权重模块。这三个模块均为前馈神经网络。
在文本模态权重模块中,计算文本模态向量权重的方法如公式(11)所示:
Figure BDA0001588059970000141
Wtext、btext均为文本模态权重模块的神经网络模型参数,
Figure BDA0001588059970000142
Figure BDA0001588059970000143
分别为文本模态向量和该向量的权重,i为词汇的序号。
在视觉模态权重模块中,计算视觉模态向量权重的方法如公式(12)所示:
Figure BDA0001588059970000144
Wimage、bimage均为视觉模态权重模块的神经网络模型参数,
Figure BDA0001588059970000145
Figure BDA0001588059970000146
分别为视觉模态向量和该向量的权重,i为词汇的序号。
在音频模态权重模块中,计算音频模态向量权重的方法如公式(13)所示:
Figure BDA0001588059970000147
Wsound、bsound均为音频模态权重模块的神经网络模型参数,
Figure BDA0001588059970000148
Figure BDA0001588059970000149
为音频模态向量和该向量的权重,i为词汇的序号。
本实施例中,多通道自编码器的编码端将输入向量映射到另一个向量空间,得到三种模态的隐层向量,如公式(3)-(5)所示。
需要注意的是,与实施例一和实施例二中不同,这里的三个输入向量是考虑了模态权重之后的输入向量:
Figure BDA00015880599700001410
Figure BDA00015880599700001411
多通道自编码器的编码端还将三种模态的隐层向量进行级联,得到如公式(6)所示的多模态词汇表示向量。
多通道自编码器的解码端将上述多模态词汇表示向量进行空间变换,重构三种模态的输入向量,同时预测联想词汇向量,如公式(9)所示。
通过对多组词汇相似度任务进行试验的结果,如表1所示:
表1
Figure BDA0001588059970000151
表中第一行是不同测试数据集的名称,第一列中前面4项的“文本表示”、“图片表示”、“声音表示”和“基线多模态表示”分别代表词向量模型得到的文本向量、VGGNet得到的图片向量、VGGNet得到的声音向量、岭回归多模态表示模型,最后3项“多通道自编码器-向量映射”、“多通道自编码器-向量映射-联想词汇”和“多通道自编码器-向量映射-联想词汇-权重模型”是本发明的三种实施例,分别对应于图1、图3、图5所示的方法。由表1可以看出采用本发明提供的基于联想自编码器的多模态词汇表示方法相对于文本模态表示向量有平均6.9%spearman相关性的提升:(0.666-0.620)/0.666=6.9%;相对于视觉模态表示向量有平均29.4%spearman相关性的提升:(0.666-0.47)/0.666=29.4%,相对于音频模态表示向量有平均80%spearman相关性的提升:(0.666-0.133)/0.666=80%,相对于基线多模态模型有平均7.1%spearman相关性的提升:(0.666-0.619)/0.666=7.1%。其中,不加入联想预测模块和权重模块有平均2.9%spearman相关性的提升:(0.666-0.647)/0.666=2.9%,不加入权重模块有平均0.2%spearman相关性的提升:(0.666-0.665)/0.666=0.2%。结果充分说明了本发明的多模态词汇表示方法的有效性和优越性。此外,虽然上面只列出了针对英语进行的实验结果,但是本发明的方案并不只针对特定的语言才有效,而是对其他语言同样具有普遍的适用性。
图7是本发明的基于多通道自编码器的多模态词汇表示系统实施例一的构成示意图。如图7所示,包括:向量数据库10、向量映射模型20和多通道自编码器30。
其中,向量数据库10用于根据待表示词汇,分别查询待表示词汇的文本模态向量、视觉模态向量和音频模态向量;向量映射模型20包括文本模态向量与视觉模态向量之间的映射函数,以及文本模态向量与音频模态向量之间的映射函数,用于根据待表示词汇的文本模态向量,生成待表示词汇缺失的视觉模态向量和/或音频模态向量;多通道自编码器30包括编码端31和解码端32,编码端31用于根据待表示词汇的文本模态向量、视觉模态向量和音频模态向量,生成待表示词汇的多模态词汇表示向量;解码端32用于对输入向量进行重构。
利用本实施例的多模态词汇表示系统,进行词汇表示的方法可参看图1;本实施例中的多通道自编码器训练方法可参看图2。
图8是本发明的基于多通道自编码器的多模态词汇表示系统实施例二的构成示意图。如图8所示,多通道自编码器的解码端还包括:联想词汇预测模块32。联想词汇预测模块32用于预测所述待表示词汇的联想词汇。
利用本实施例的多模态词汇表示系统,进行词汇表示的方法可参看图3;本实施例中的多通道自编码器及其包含的联想词汇预测模块的训练方法可参看图4。
图9是本发明的基于多通道自编码器的多模态词汇表示系统实施例三的构成示意图。如图9所示,本实施例中还包括:模态权重模型40。
其中,模态权重模型40配置为:根据待表示词汇的文本模态向量、视觉模态向量和音频模态向量,分别计算待表示词汇的文本模态向量权重、视觉模态向量权重和音频模态向量权重;并分别计算待表示词汇的文本模态向量、视觉模态向量和音频模态向量与对应权重的点积。
相应地,本实施例中的多通道自编码器30配置为:根据模态权重模型40计算出的点积,生成待表示词汇的多模态词汇表示向量。
利用本实施例的多模态词汇表示系统,进行词汇表示的方法可参看图5;本实施例中的模态权重模型及多通道自编码器训练方法可参看图6。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤、模型、模块,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (11)

1.一种基于多通道自编码器的多模态词汇表示方法,其特征在于,包括以下步骤:
步骤A10,基于预先构建的向量数据库,查询待表示词汇的三种表示向量:文本模态向量、视觉模态向量、音频模态向量;
步骤A20,若查询结果中缺失视觉模态向量和/或音频模态向量,则基于训练好的向量映射模型,根据所述待表示词汇的文本模态向量,生成所述待表示词汇的视觉模态向量和/或音频模态向量;
步骤A30,基于训练好的多通道自编码器,输入所述三种表示向量,生成所述待表示词汇的多模态词汇表示向量;
所述向量映射模型,包括文本模态向量与视觉模态向量之间的映射函数,以及文本模态向量与音频模态向量之间的映射函数;
所述向量映射模型的训练方法为:
利用既有文本模态向量又有视觉模态向量的词汇作为训练数据集,训练文本模态向量与视觉模态向量之间的映射函数,目标函数为:
Figure FDA0002735900360000011
利用既有文本模态向量又有音频模态向量的词汇作为训练数据集,训练文本模态向量与音频模态向量之间的映射函数,目标函数为:
Figure FDA0002735900360000012
其中,
m为用于训练的既有文本模态向量又有视觉模态向量的词汇数量;k为用于训练的既有文本模态向量又有音频模态向量的词汇数量;f为映射函数;Ti为第i个词汇的文本模态向量矩阵,Vi为第i个词汇的视觉模态向量矩阵,Ai为第i个词汇的音频模态向量矩阵。
2.根据权利要求1所述的多模态词汇表示方法,其特征在于,所述多通道自编码器,为基于传统的自编码器,将一个输入通道拓展为多个输入通道而得到的自编码器。
3.根据权利要求2所述的多模态词汇表示方法,其特征在于,所述多通道自编码器的训练方法为:
步骤B10,基于预先构建的向量数据库,输入一个训练词汇,查询所述训练词汇的所述三种表示向量;
步骤B20,若所述训练词汇的查询结果中缺失视觉模态向量和/或音频模态向量,则基于训练好的向量映射模型,根据所述训练词汇的文本模态向量,生成所述训练词汇缺失的视觉模态向量和/或音频模态向量;
步骤B30,将所述训练词汇的所述三种表示向量输入所述多通道自编码器,生成所述训练词汇的多模态词汇表示向量;
步骤B40,判断训练词汇是否已全部输入,若是,则转至步骤B50;否则,转至步骤B10;
步骤B50,计算目标函数:
Figure FDA0002735900360000021
其中,n为训练词汇的数量;
Figure FDA0002735900360000022
为所述多通道自编码器的输入,分别为文本模态向量、视觉模态向量、音频模态向量;
Figure FDA0002735900360000023
分别为所述多通道自编码器重构的文本模态向量、视觉模态向量、音频模态向量;i为训练词汇的序号;
步骤B60,若目标函数的值不再减小,则停止训练,否则,调整所述多通道自编码器的参数,并转至步骤B10。
4.根据权利要求1所述的多模态词汇表示方法,其特征在于,所述预先构建的向量数据库,包括:文本向量数据库、图片向量数据库和声音向量数据库;
所述文本向量数据库,为基于维基百科语料库和GloVe模型生成的数据库;
所述图片向量数据库,为基于ImageNet数据库和VGGNet模型生成的数据库;
所述声音向量数据库,为基于Freesound网站上爬取到的音频和VGGNet模型生成的数据库。
5.根据权利要求3所述的多模态词汇表示方法,其特征在于,在步骤A30中“生成所述待表示词汇的多模态词汇表示向量”之后,还包括:
预测所述待表示词汇的联想词汇;
相应地,在所述多通道自编码器的训练方法中,还包括对联想词汇预测模块进行训练的步骤:
在步骤B30中“生成所述训练词汇的多模态词汇表示向量”之后,还包括:预测所述训练词汇的联想词汇;
在步骤B50中计算的目标函数为:
Figure FDA0002735900360000031
在步骤B60中还包括:调整所述联想词汇预测模块的参数;
其中,
所述联想词汇预测模块设置于所述多通道自编码器的解码端;yi为所述训练词汇对应的联想词汇向量;
Figure FDA0002735900360000032
为由所述联想词汇预测模块预测出的联想词汇向量;i为训练词汇的序号。
6.根据权利要求5所述的多模态词汇表示方法,其特征在于,在步骤A20之后,在步骤A30之前,还包括:
步骤A25,基于训练好的模态权重模型,根据所述三种表示向量,分别计算所述三种表示向量各自对应的权重;并分别计算所述三种表示向量与对应权重的点积;
相应地,步骤A30中所述多通道自编码器的输入为所述三种表示向量与对应权重的点积;
进一步地,在所述多通道自编码器的训练方法中,还包括对所述模态权重模型进行训练的步骤:
在步骤B20之后步骤B30之前还包括:步骤B25,基于所述模态权重模型,根据所述训练词汇的所述三种表示向量,分别计算所述三种表示向量各自对应的权重;并分别计算所述三种表示向量与对应权重的点积;
步骤B30中所述多通道自编码器的输入为所述三种表示向量与对应权重的点积;
步骤B60中还包括:调整所述模态权重模型的参数。
7.根据权利要求6所述的多模态词汇表示方法,其特征在于,所述模态权重模型,包括:文本模态权重模块、视觉模态权重模块,以及音频模态权重模块;
其中,
所述文本模态权重模块、视觉模态权重模块,以及音频模态权重模块,均为前馈神经网络;
在所述文本模态权重模块中,计算文本模态向量权重的公式为:
Figure FDA0002735900360000041
Wtext、btext均为所述文本模态权重模块的神经网络模型参数,
Figure FDA0002735900360000042
Figure FDA0002735900360000043
分别为文本模态向量和该向量的权重,i为词汇的序号;
在所述视觉模态权重模块中,计算视觉模态向量权重的公式为:
Figure FDA0002735900360000044
Wimage、bimage均为所述视觉模态权重模块的神经网络模型参数,
Figure FDA0002735900360000045
Figure FDA0002735900360000046
分别为视觉模态向量和该向量的权重;
在所述音频模态权重模块中,计算音频模态向量权重的公式为:
Figure FDA0002735900360000047
Wsound、bsound均为所述音频模态权重模块的神经网络模型参数,
Figure FDA0002735900360000048
Figure FDA0002735900360000049
为音频模态向量和该向量的权重。
8.根据权利要求6所述的多模态词汇表示方法,其特征在于,
所述多通道自编码器的编码端将输入向量映射到另一个向量空间,得到三种模态的隐层向量:
Figure FDA00027359003600000410
Figure FDA0002735900360000051
Figure FDA0002735900360000052
其中,
Figure FDA0002735900360000053
为输入的文本模态向量,
Figure FDA0002735900360000054
Figure FDA0002735900360000055
为输入的视觉模态向量,
Figure FDA0002735900360000056
Figure FDA0002735900360000057
为输入的音频模态向量,
Figure FDA0002735900360000058
i为词汇的序号;Wt、Wv、Wa、bt、bv、ba均为模型参数;
并将三种模态的隐层向量进行级联,得到多模态词汇表示向量:
Figure FDA0002735900360000059
其中,Wm、bm表示模型参数;
所述多通道自编码器的解码端将所述多模态词汇表示向量进行空间变换,重构三种模态的输入向量,同时预测联想词汇向量:
Figure FDA0002735900360000061
其中,
Figure FDA0002735900360000062
为模型重构的三种模态隐层向量,
Figure FDA0002735900360000063
Figure FDA0002735900360000064
为模型重构的三种模态输入向量;
Figure FDA0002735900360000065
为重构的联想词汇向量;
Figure FDA0002735900360000066
为预测出的联想词汇向量;i为词汇序号;Wm′、Wt′、Wv′、Wa′、Wass′,以及bm′、bt′、bv′、ba′、bass′均为模型参数。
9.一种基于多通道自编码器的多模态词汇表示系统,其特征在于,包括:向量数据库、向量映射模型和多通道自编码器;
所述向量数据库,用于根据待表示词汇,分别查询所述待表示词汇的文本模态向量、视觉模态向量和音频模态向量;
所述向量映射模型,用于根据所述待表示词汇的文本模态向量,生成所述待表示词汇缺失的视觉模态向量和/或音频模态向量;
所述多通道自编码器,用于根据所述待表示词汇的文本模态向量、视觉模态向量和音频模态向量,生成所述待表示词汇的多模态词汇表示向量;
所述向量映射模型,包括文本模态向量与视觉模态向量之间的映射函数,以及文本模态向量与音频模态向量之间的映射函数;
所述向量映射模型的训练方法为:
利用既有文本模态向量又有视觉模态向量的词汇作为训练数据集,训练文本模态向量与视觉模态向量之间的映射函数,目标函数为:
Figure FDA0002735900360000071
利用既有文本模态向量又有音频模态向量的词汇作为训练数据集,训练文本模态向量与音频模态向量之间的映射函数,目标函数为:
Figure FDA0002735900360000072
其中,
m为用于训练的既有文本模态向量又有视觉模态向量的词汇数量;k为用于训练的既有文本模态向量又有音频模态向量的词汇数量;f为映射函数;Ti为第i个词汇的文本模态向量矩阵,Vi为第i个词汇的视觉模态向量矩阵,Ai为第i个词汇的音频模态向量矩阵。
10.根据权利要求9所述的多模态词汇表示系统,其特征在于,所述多通道自编码器的解码端还包括:联想词汇预测模块;
所述联想词汇预测模块,用于预测所述待表示词汇的联想词汇。
11.根据权利要求9所述的多模态词汇表示系统,其特征在于,还包括:模态权重模型;
所述模态权重模型,配置为:根据所述待表示词汇的文本模态向量、视觉模态向量和音频模态向量,分别计算所述待表示词汇的文本模态向量权重、视觉模态向量权重和音频模态向量权重;并分别计算所述待表示词汇的文本模态向量、视觉模态向量和音频模态向量与对应权重的点积;
相应地,所述多通道自编码器,配置为:根据所述模态权重模型计算出的点积,生成所述待表示词汇的多模态词汇表示向量。
CN201810178559.1A 2018-03-05 2018-03-05 基于多通道自编码器的多模态词汇表示方法与系统 Active CN108536735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810178559.1A CN108536735B (zh) 2018-03-05 2018-03-05 基于多通道自编码器的多模态词汇表示方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810178559.1A CN108536735B (zh) 2018-03-05 2018-03-05 基于多通道自编码器的多模态词汇表示方法与系统

Publications (2)

Publication Number Publication Date
CN108536735A CN108536735A (zh) 2018-09-14
CN108536735B true CN108536735B (zh) 2020-12-15

Family

ID=63485556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810178559.1A Active CN108536735B (zh) 2018-03-05 2018-03-05 基于多通道自编码器的多模态词汇表示方法与系统

Country Status (1)

Country Link
CN (1) CN108536735B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359196B (zh) * 2018-10-22 2020-11-17 北京百度网讯科技有限公司 文本多模态表示方法及装置
CN110197279B (zh) * 2019-06-10 2021-01-29 北京百度网讯科技有限公司 变换模型训练方法、装置、设备和存储介质
CN113837390A (zh) * 2020-06-23 2021-12-24 华为技术有限公司 一种模态信息补全方法、装置及设备
CN112287170B (zh) * 2020-10-13 2022-05-17 泉州津大智能研究院有限公司 一种基于多模态联合学习的短视频分类方法及装置
CN112528646B (zh) * 2020-12-07 2023-04-18 深圳市优必选科技股份有限公司 词向量生成方法、终端设备及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123619A (zh) * 2012-12-04 2013-05-29 江苏大学 基于情感上下文的视觉语音多模态协同分析方法及系统
CN104102627A (zh) * 2014-07-11 2014-10-15 合肥工业大学 一种多模态的非接触情感分析记录系统
CN105005558A (zh) * 2015-08-14 2015-10-28 武汉大学 一种基于群智感知的多模态数据融合方法
CN106919556A (zh) * 2017-02-21 2017-07-04 重庆邮电大学 一种采用稀疏编码的自然语言语义深度解析算法
CN106934352A (zh) * 2017-02-28 2017-07-07 华南理工大学 一种基于双路分形网络和lstm的视频描述方法
CN107480196A (zh) * 2017-07-14 2017-12-15 中国科学院自动化研究所 一种基于动态融合机制的多模态词汇表示方法
CN107480194A (zh) * 2017-07-13 2017-12-15 中国科学院自动化研究所 多模态知识表示自动学习模型的构建方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7286115B2 (en) * 2000-05-26 2007-10-23 Tegic Communications, Inc. Directional input system with automatic correction
US9898458B2 (en) * 2015-05-08 2018-02-20 International Business Machines Corporation Generating distributed word embeddings using structured information

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123619A (zh) * 2012-12-04 2013-05-29 江苏大学 基于情感上下文的视觉语音多模态协同分析方法及系统
CN104102627A (zh) * 2014-07-11 2014-10-15 合肥工业大学 一种多模态的非接触情感分析记录系统
CN105005558A (zh) * 2015-08-14 2015-10-28 武汉大学 一种基于群智感知的多模态数据融合方法
CN106919556A (zh) * 2017-02-21 2017-07-04 重庆邮电大学 一种采用稀疏编码的自然语言语义深度解析算法
CN106934352A (zh) * 2017-02-28 2017-07-07 华南理工大学 一种基于双路分形网络和lstm的视频描述方法
CN107480194A (zh) * 2017-07-13 2017-12-15 中国科学院自动化研究所 多模态知识表示自动学习模型的构建方法及系统
CN107480196A (zh) * 2017-07-14 2017-12-15 中国科学院自动化研究所 一种基于动态融合机制的多模态词汇表示方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于SAE 和LSTM RNN 的多模态生理信号融合和情感识别研究;李幼军 等;<通信学报>;20171231;第109-120页 *

Also Published As

Publication number Publication date
CN108536735A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN111708873B (zh) 智能问答方法、装置、计算机设备和存储介质
CN108536735B (zh) 基于多通道自编码器的多模态词汇表示方法与系统
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN111984766B (zh) 缺失语义补全方法及装置
CN109493977A (zh) 文本数据处理方法、装置、电子设备及计算机可读介质
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN106202010A (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN111898374B (zh) 文本识别方法、装置、存储介质和电子设备
JP2022050379A (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP6848091B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN114676234A (zh) 一种模型训练方法及相关设备
US20230306209A1 (en) Learned Evaluation Model For Grading Quality of Natural Language Generation Outputs
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN110659392B (zh) 检索方法及装置、存储介质
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN113779190B (zh) 事件因果关系识别方法、装置、电子设备与存储介质
CN113128431B (zh) 视频片段检索方法、装置、介质与电子设备
CN110569355A (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN112579739A (zh) 基于ELMo嵌入与门控自注意力机制的阅读理解方法
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN114611529B (zh) 意图识别方法和装置、电子设备及存储介质
CN110888944A (zh) 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant