CN107480196B - 一种基于动态融合机制的多模态词汇表示方法 - Google Patents

一种基于动态融合机制的多模态词汇表示方法 Download PDF

Info

Publication number
CN107480196B
CN107480196B CN201710577334.9A CN201710577334A CN107480196B CN 107480196 B CN107480196 B CN 107480196B CN 201710577334 A CN201710577334 A CN 201710577334A CN 107480196 B CN107480196 B CN 107480196B
Authority
CN
China
Prior art keywords
text
representation
vector
picture
expression vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710577334.9A
Other languages
English (en)
Other versions
CN107480196A (zh
Inventor
王少楠
张家俊
宗成庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201710577334.9A priority Critical patent/CN107480196B/zh
Publication of CN107480196A publication Critical patent/CN107480196A/zh
Application granted granted Critical
Publication of CN107480196B publication Critical patent/CN107480196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明的多模态词汇表示方法包括分别计算待表示词汇在文本模态中的文本表示向量、以及待表示词汇在视觉模态中的图片表示向量;将文本表示向量输入预先建立的文本模态权重模型,得到文本表示向量在文本模态中的权重;将图片表示向量输入预先建立的视觉模态权重模型,得到图片表示向量在图片模态中的权重;根据文本表示向量、图片表示向量以及分别与文本表示向量和图片表示向量对应的权重,计算得到多模态词汇表示向量。其中,文本模态权重模型为输入为文本表示向量、输出为文本表示向量在对应文本模态中的权重的神经网络模型;视觉模态权重模型为输入为图片表示向量、输出为图片表示向量在对应视觉模态中的权重的神经网络模型。

Description

一种基于动态融合机制的多模态词汇表示方法
技术领域
本发明属于自然语言处理技术领域,具体提供一种基于动态融合机制的多模态词汇表示方法。
背景技术
多模态词汇表示是自然语言处理的基础任务,直接影响到整个自然语言处理系统的性能。其中,模态是指对一个待描述的事物,通过不同的方法或者角度收集数据,将收集数据的方法或者角度称之为一个模态。多模态词汇表示是融合多个模态的信息,将不同模态中语义相近的词汇映射到一个高维空间中,与单一模态词汇表示相比,多模态词汇表示能够更加接近人学习词汇概念的过程,在自然语言处理任务中具有更好的表现效果。
现有技术中的多模态词汇表示方法是将各种单一模态的词汇表示进行组合,根据词汇表示向量和词汇在不同模态中的权重计算多模态词汇表示向量。现有技术的多模态词汇表示方法没有考虑到词汇间的差异,在实际应用中,越是抽象的词汇的语义表示越依赖文本模态,越是具象的词汇的语义表示越依赖视觉模态,不同类型的词汇在不同模态中的权重不同,不对词汇进行区分将导致词汇在模态中的权重不准确,从而导致最后的表示结果不准确。
相应地,本领域需要一种新的多模态表示方法来解决上述问题。
发明内容
为了解决现有技术中的上述问题,即为了解决现有技术不能准确地表达多模态表示词汇,本发明的一方面,提供了一种基于动态融合机制的多模态词汇表示方法,应用于自然语言处理系统,包括:
分别计算待表示词汇在文本模态中的文本表示向量、以及所述待表示词汇在视觉模态中的图片表示向量;
将所述文本表示向量输入预先建立的文本模态权重模型,得到所述文本表示向量在所述文本模态中的权重;将所述图片表示向量输入预先建立的视觉模态权重模型,得到所述图片表示向量在所述图片模态中的权重;
根据所述文本表示向量、所述图片表示向量以及分别与所述文本表示向量和所述图片表示向量对应的权重,计算得到多模态词汇表示向量;
其中,
所述文本模态权重模型为输入为文本表示向量、输出为文本表示向量在对应文本模态中的权重的神经网络模型;
所述视觉模态权重模型为输入为图片表示向量、输出为图片表示向量在对应视觉模态中的权重的神经网络模型。
在上述方法的优选技术方案中,当所述待表示词汇只有文本表示向量时,计算所述待表示词汇在所述视觉模态中的图片表示向量的方法为:
根据预先建立的文本表示向量和图片表示向量的映射关系,计算所述待表示词汇只有文本表示向量对应的图片表示向量。
在上述方法的优选技术方案中,所述文本表示向量和图片表示向量的映射关系的计算方法为:
依据文本表示向量、以及与该文本表示向量共有词汇的图片表示向量,基于如下公式,利用岭回归方法计算得到文本表示向量和图片表示向量的映射关系,
其中,A表示回归参数,X表示文本表示向量矩阵,Y表示图片表示向量矩阵。
在上述方法的优选技术方案中,所述文本模态权重模型、以及所述视觉模态权重模型均为前馈神经网络。
在上述方法的优选技术方案中,所述计算得到多模态词汇表示向量的方法为:
将所述文本表示向量与所述图片表示向量分别与其对应的权重进行内积操作,分别得到文本表示向量操作结果与图片表示向量操作结果,将所述文本表示向量操作结果与所述图片表示向量操作结果进行拼接,得到所述多模态词汇表示向量。
在上述方法的优选技术方案中,所述计算得到多模态词汇表示向量的方法为:
将所述文本表示向量与所述图片表示向量进行内积操作,得到第一内积操作结果;将所述文本表示向量对应的权重与所述图片表示向量对应的权重进行内积操作,得到第二内积操作结果;将所述第一内积操作结果与所述第二内积操作结果进行拼接,得到所述多模态词汇表示向量。
在上述方法的优选技术方案中,所述文本模态权重模型中,文本表示向量在对应文本模态中的权重gtext的计算公式为:
gtext=tanh(Wtexthtext+btext),
其中,Wtext、btext均表示文本模态的神经网络模型参数,htext表示文本表示向量;
所述视觉模态权重模型中,图片表示向量在对应视觉模态中的权重gimage的计算公式为:
gimage=tanh(Wimagehimage+bimage),
其中,Wimage、bimage均表示视觉模态的神经网络模型参数,himage表示图片表示向量。
在上述方法的优选技术方案中,所述文本模态权重模型、以及所述视觉模态权重模型,其模型训练的语料训练集均为关联词对,其模型训练的目标训练函数均为最大间隔训练函数,所述最大间隔训练函数的公式为:
Figure BDA0001351282960000031
Figure BDA0001351282960000032
其中,X表示训练数据的个数,Mw表示多模态向量表示矩阵,|P|表示训练语料数量,Ww表示多模态向量,上标P1、P2表示关联词对中的两个词汇,上标n1、n2表示随机选择的两个词汇。
本发明的另一个方面,提供了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述所述的基于动态融合机制的多模态词汇表示方法。
本发明的第三方面,提供了一种处理装置,包括:
处理器,适于执行各条程序、以及存储设备,适于存储多条程序,所述程序适于由处理器加载并执行以实现上述所述的基于动态融合机制的多模态词汇表示方法。
本发明提供了一种基于动态融合机制的多模态词汇表示方法,应用于自然语言处理系统,包括分别计算待表示词汇在文本模态中的文本表示向量、以及待表示词汇在视觉模态中的图片表示向量;将文本表示向量输入预先建立的文本模态权重模型,得到文本表示向量在文本模态中的权重;将图片表示向量输入预先建立的视觉模态权重模型,得到图片表示向量在图片模态中的权重;根据文本表示向量、图片表示向量以及分别与文本表示向量和图片表示向量对应的权重,计算得到多模态词汇表示向量;其中,文本模态权重模型为输入为文本表示向量、输出为文本表示向量在对应文本模态中的权重的神经网络模型;视觉模态权重模型为输入为图片表示向量、输出为图片表示向量在对应视觉模态中的权重的神经网络模型。
本领域技术人员能够理解的是,由于不同的词汇的语义表示依赖不同模态的信息,在本发明的技术方案中,针对不同类型的词汇对不同的模态赋予不同的权重将有效地提高多模态词汇表示的效果。通过将文本表示向量和图片表示向量输入到对应的权重模型中,针对不同的词汇学习到不同模态对词汇语义表示的权重。依据在多组词汇相似度任务的实验结果,本发明提供的基于动态融合机制的多模态词汇表示方法相对于单一模态的文本表示向量,有3.89%spearman相关性的提升,相对于单一模态的图片表示向量,有15.76%spearman相关性的提升,相对于基线多模态系统,有3.46%spearman相关性的提升,充分说明了本发明提供的基于动态融合机制的多模态词汇表示方法的有效性和优越性。
附图说明
图1为本发明提供的一种多模态词汇表示方法的流程图;
图2为本发明提供的一种多模态词汇表示方法的整体框架图;
图3为本发明提供的一种前馈神经网络的工作流程图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
如图1所示,图1为本发明提供的一种基于动态融合机制的多模态词汇表示方法的流程图,包括步骤1、步骤2以及步骤3,其中,
步骤1:分别计算待表示词汇在文本模态中的文本表示向量、以及待表示词汇在视觉模态中的图片表示向量;
计算词汇的文本表示向量和图片表示向量,是为了将词汇转化为计算机能够识别的形式。在实际应用中,计算文本表示向量可以通过从网络中下载语料库,例如维基百科语料库,利用开源的词向量模型训练文本表示向量。具体的,如图2所示,图2为本发明提供的一种多模态词汇表示方法的整体框架图,其中,Lw1、Lw2分别表示关联词对中两个词汇的文本表示向量,Pw1、Pw2分别表示与Lw1、Lw2对应的图片表示向量,CNN(Convolutional NeuralNetworks)表示卷积神经网络,其中,CNN卷积神经网络可以将图片表示为向量。在实际应用中,可以使用公开训练好的Glove文本向量模型,首先基于维基百科语料库构建词汇的共现矩阵,然后基于共现矩阵和Glove文本向量模型学习文本表示向量,将词汇进行向量化表示,使得向量之间尽可能多地包含语义和语法的信息。在实际应用中,计算图片表示向量可以利用世界上图像识别最大的数据库ImageNet的资源,其包括21841个词汇和14197122张图片,通过选择包含50张图片以上的词汇,并通过随机方法对每个词汇选择最多100张图片,利用训练好的VGG-net模型抽取每个图片的特征向量,并对每个词汇的图片向量求平均,得到每个词汇的图片向量。
步骤2:将文本表示向量输入预先建立的文本模态权重模型,得到文本表示向量在文本模态中的权重;将图片表示向量输入预先建立的视觉模态权重模型,得到图片表示向量在图片模态中的权重;
文本模态权重模型可以对输入其中的文本表示向量进行训练,进而得到文本表示向量对应的权重,与此类似的,视觉模态权重模型可以对输入其中的图片表示向量进行训练,进而得到图片表示向量对应的权重,通过实际应用中得到的实验范式,将若干相关的词汇集合作为训练集来训练输入权重模型的参数。具体的,根据词汇之间的关系,将语义相近的词汇建立关系,如喝水与水杯、白与黑等,通过收集相关的词汇并对词汇进行正确的编码,权重模型能够让语义相近的词汇在高维空间中的位置关系靠近,让语义不相同的词汇在高维空间中的位置关系远离,从而做到区分不同的词汇,此外,权重模型能够自动根据不同词汇准确地学习词汇在不同模态中的权重。
其中,文本模态权重模型为输入为文本表示向量、输出为文本表示向量在对应文本模态中的权重的神经网络模型,视觉模态权重模型为输入为图片表示向量、输出为图片表示向量在对应视觉模态中的权重的神经网络模型。
步骤3:根据文本表示向量、图片表示向量以及分别与文本表示向量和图片表示向量对应的权重,计算得到多模态词汇表示向量。
为了能够更好的体现多模态词汇表示的效果,将不同的词汇均使用文本和图片两种表示方式,并且将文本和图片以及多模态词汇表示均使用向量的形式表示,能够让计算机识别,同时便于操作。在实际应用中,可以对得到的多模态词汇表示向量求取余弦相似度,并将得到的余弦相似度与人工评价的相似度数值求spearman相关性,spearman相关性越高说明多模态词汇表示越接近实际想要表达的效果。
在本发明的技术方案中,由于不同的词汇的语义表示依赖不同模态的信息,针对不同类型的词汇对不同的模态赋予不同的权重有效地提高多模态词汇表示的效果。通过将文本表示向量和图片表示向量输入到对应的权重模型中,针对不同的词汇学习到不同模态对词汇语义表示的权重。
作为一种优选的实施例,当待表示词汇只有文本表示向量时,计算待表示词汇在视觉模态中的图片表示向量的方法为:
根据预先建立的文本表示向量和图片表示向量的映射关系,计算待表示词汇只有文本表示向量对应的图片表示向量。
作为一种优选的实施例,文本表示向量和图片表示向量的映射关系的计算方法为:
依据文本表示向量、以及与该文本表示向量共有词汇的图片表示向量,基于如下公式,利用岭回归方法计算得到文本表示向量和图片表示向量的映射关系,
Figure BDA0001351282960000071
其中,A表示回归参数,X表示文本表示向量矩阵,Y表示图片表示向量矩阵。
在实际应用中,有些待表示的词汇只有文本表示向量,例如一些抽象的词汇,但是为了用多模态更好的表示词汇,对没有图片表示向量的词汇求取图片表示向量。具体的,通过选取事先获得的文本表示向量和图片表示向量共有词汇的表示向量,例如得到的两组向量为矩阵,且两组向量的表示矩阵分别为X和Y,其中矩阵的每一行为一个词汇的向量表示,两个矩阵的每一行对应了同样的词汇,再通过岭回归求取两组向量的映射关系,具体公式为
Figure BDA0001351282960000072
在具体求解时,公式中A的值随机初始化,其中,能够让AX逼近Y,
Figure BDA0001351282960000074
能够限制回归参数A的值过大,最终通过将上述公式最小化求取回归参数A的值,通过映射关系对计算得到的文本表示向量进行映射变换,得到映射的图片表示向量Y′=AX。
作为一种优选的实施例,文本模态权重模型、以及视觉模态权重模型均为前馈神经网络。
前馈神经网络是一种最简单的神经网络,能够以任意精度逼近任意连续函数及平方可积函数,而且可以精确实现任意有限训练样本集。通过神经网络将输入的文本表示向量乘以矩阵加上非线性变化得到输出的文本表示向量的权重,同理,通过神经网络将输入的图片表示向量乘以矩阵加上非线性变化得到输出的图片表示向量的权重。
作为一种优选的实施例,计算得到多模态词汇表示向量的方法为:
将文本表示向量与图片表示向量分别与其对应的权重进行内积操作,分别得到文本表示向量操作结果与图片表示向量操作结果,将文本表示向量操作结果与图片表示向量操作结果进行拼接,得到多模态词汇表示向量。
作为一种优选的实施例,计算得到多模态词汇表示向量的方法为:
将文本表示向量与图片表示向量进行内积操作,得到第一内积操作结果,将文本表示向量对应的权重与图片表示向量对应的权重进行内积操作,得到第二内积操作结果,将第一内积操作结果与第二内积操作结果进行拼接,得到多模态词汇表示向量。
在实际应用中,根据计算方式的不同,可以选择向量与向量之间进行内积操作,权重与权重之间进行内积操作,再将两种内积操作得到的结果进行拼接,也可以选择两个向量分别与其对应的权重进行内积操作,再将向量与权重进行内积操作后的结果进行拼接,这里不做限定。具体的,以两个向量分别与其对应的权重进行内机操作为例。将文本表示向量和图片表示向量分别与其对应的权重进行内积操作,具体分别表示为:gtext⊙htext和gimage⊙himage,将文本表示向量和图片表示向量与其对应权重进行内积操作的结果进行拼接,拼接后得到词汇的多模态表示向量,具体表示为:Mw=gtext⊙htext||gimage⊙himage
作为一种优选的实施例,文本模态权重模型中,文本表示向量在对应文本模态中的权重gtext的计算公式为:
gtext=tanh(Wtexthtext+btext),
其中,Wtext、btext均表示文本模态的神经网络模型参数,htext表示文本表示向量;
视觉模态权重模型中,图片表示向量在对应视觉模态中的权重gimage的计算公式为:
gimage=tanh(Wimagehimage+bimage),
其中,Wimage、bimage均表示视觉模态的神经网络模型参数,himage表示图片表示向量。
具体的,对文本模态和视觉模态分别建立一个前馈神经网络,分别得到文本模态的参数Wtext、btext以及视觉模态的参数Wimage、bimage,根据获得的文本模态的参数和视觉模态的参数,分别计算文本模态的权重和视觉模态的权重,其中,gtext表示文本模态的权重,gimage表示视觉模态的权重,计算文本模态的权重的具体公式为:gtext=tanh(Wtexthtext+btext),计算视觉模态的权重的具体公式为:gimage=tanh(Wimagehimage+bimage)。
作为一种优选的实施例,文本模态权重模型、以及视觉模态权重模型,其模型训练的语料训练集均为关联词对,其模型训练的目标训练函数均为最大间隔训练函数,最大间隔训练函数的公式为:
Figure BDA0001351282960000091
Figure BDA0001351282960000092
其中,X表示训练数据的个数,Mw表示多模态向量表示矩阵,|P|表示训练语料数量,Ww表示多模态向量,上标P1、P2表示关联词对中的两个词汇,上标n1、n2表示随机选择的两个词汇。
如图3所示,图3为本发明提供的一种前馈神经网络的工作流程图,其中w表示文本表示向量,p表示图片表示向量,利用关联词对和最大间隔训练函数对上述参数进行训练。设关联词对为(p1,p2),随机采样的非关联词对为(n1,n2),则最大间隔训练函数为:
Figure BDA0001351282960000093
其中,X表示训练数据的个数,Mw表示多模态向量表示矩阵,|P|表示训练语料数量,Ww表示多模态向量。将文本表示向量和图片表示向量分别输入到与其对应的前馈神经网络中,对应的前馈神经网络的输出即是文本表示向量的权重和图片表示向量的权重。
如下附表:多组词汇相似度实验数据所示,通过对多组词汇相似度任务进行试验,采用本发明的多模态词汇表示方法,相对于单一模态文本向量词汇表示,本发明有3.89%spearman相关性提升;相对于单一模态图片向量词汇表示,本发明有15.76%spearman相关性提升;相对于基线多模态系统,本发明有3.46%spearman相关性提升,充分说明了本发明的多模态词汇表示方法的有效性和优越性。此外,本发明的多模态词汇表示方法对英语进行了实验,但是本发明的方案并不只针对特定的语言才有效,而是对其他语言同样具有普遍的适用性。
附表:多组词汇相似度实验数据
Figure BDA0001351282960000095
由于不同的词汇的语义表示依赖不同模态的信息,在本发明的技术方案中,针对不同类型的词汇对不同的模态赋予不同的权重将有效地提高多模态词汇表示的效果。通过将文本表示向量和图片表示向量输入到对应的权重模型中,针对不同的词汇学习到不同模态对词汇语义表示的权重。
本发明还提供了一种存储装置,其中存储有多条程序,程序适于由处理器加载并执行以实现上述基于动态融合机制的多模态词汇表示方法。
本发明还提供了一种处理装置,包括处理器,适于执行各条程序、以及存储设备,适于存储多条程序,程序适于由处理器加载并执行以上述基于动态融合机制的多模态词汇表示方法。
本发明所提供的存储装置和处理装置,具有如上述基于多模态词汇表示方法相同的有益效果。
本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

Claims (10)

1.一种基于动态融合机制的多模态词汇表示方法,应用于自然语言处理系统,其特征在于,包括:
分别计算待表示词汇在文本模态中的文本表示向量、以及所述待表示词汇在视觉模态中的图片表示向量;
将所述文本表示向量输入预先建立的文本模态权重模型,得到所述文本表示向量在所述文本模态中的权重;将所述图片表示向量输入预先建立的视觉模态权重模型,得到所述图片表示向量在所述图片模态中的权重;
根据所述文本表示向量、所述图片表示向量以及分别与所述文本表示向量和所述图片表示向量对应的权重,计算得到多模态词汇表示向量;
其中,
所述文本模态权重模型为输入为文本表示向量、输出为文本表示向量在对应文本模态中的权重的神经网络模型;
所述视觉模态权重模型为输入为图片表示向量、输出为图片表示向量在对应视觉模态中的权重的神经网络模型。
2.根据权利要求1所述的方法,其特征在于,当所述待表示词汇只有文本表示向量时,计算所述待表示词汇在所述视觉模态中的图片表示向量的方法为:
根据预先建立的文本表示向量和图片表示向量的映射关系,计算所述待表示词汇只有文本表示向量对应的图片表示向量。
3.根据权利要求2所述的方法,其特征在于,所述文本表示向量和图片表示向量的映射关系的计算方法为:
依据文本表示向量、以及与该文本表示向量共有词汇的图片表示向量,基于如下公式,利用岭回归方法计算得到文本表示向量和图片表示向量的映射关系,
Figure FDA0002241435200000011
其中,A表示回归参数,X表示文本表示向量矩阵,Y表示图片表示向量矩阵。
4.根据权利要求1所述的方法,其特征在于,所述文本模态权重模型、以及所述视觉模态权重模型均为前馈神经网络。
5.根据权利要求1所述的方法,其特征在于,所述计算得到多模态词汇表示向量的方法为:
将所述文本表示向量与所述图片表示向量分别与其对应的权重进行内积操作,分别得到文本表示向量操作结果与图片表示向量操作结果,将所述文本表示向量操作结果与所述图片表示向量操作结果进行拼接,得到所述多模态词汇表示向量。
6.根据权利要求1所述的方法,其特征在于,所述计算得到多模态词汇表示向量的方法为:
将所述文本表示向量与所述图片表示向量进行内积操作,得到第一内积操作结果;将所述文本表示向量对应的权重与所述图片表示向量对应的权重进行内积操作,得到第二内积操作结果;将所述第一内积操作结果与所述第二内积操作结果进行拼接,得到所述多模态词汇表示向量。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述文本模态权重模型中,文本表示向量在对应文本模态中的权重gtext的计算公式为:
gtext=tanh(Wtexthtext+btext),
其中,Wtext、btext均表示文本模态的神经网络模型参数,htext表示文本表示向量;
所述视觉模态权重模型中,图片表示向量在对应视觉模态中的权重gimmage的计算公式为:
gimage=tanh(Wimagehimage+bimage),
其中,Wimage、bimage均表示视觉模态的神经网络模型参数,himage表示图片表示向量。
8.根据权利要求7所述的方法,其特征在于,所述文本模态权重模型、以及所述视觉模态权重模型,其模型训练的语料训练集均为关联词对,其模型训练的目标训练函数均为最大间隔训练函数,所述最大间隔训练函数的公式为:
Figure FDA0002241435200000031
其中,X表示训练数据集合,Mw表示多模态向量表示矩阵,|P|表示训练语料数量,Ww表示多模态向量,上标P1、P2表示关联词对中的两个词汇,上标n1、n2表示随机选择的两个词汇。
9.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-8任一项所述的基于动态融合机制的多模态词汇表示方法。
10.一种处理装置,包括:
处理器,适于执行各条程序、以及存储设备,适于存储多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-8任一项所述的基于动态融合机制的多模态词汇表示方法。
CN201710577334.9A 2017-07-14 2017-07-14 一种基于动态融合机制的多模态词汇表示方法 Active CN107480196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710577334.9A CN107480196B (zh) 2017-07-14 2017-07-14 一种基于动态融合机制的多模态词汇表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710577334.9A CN107480196B (zh) 2017-07-14 2017-07-14 一种基于动态融合机制的多模态词汇表示方法

Publications (2)

Publication Number Publication Date
CN107480196A CN107480196A (zh) 2017-12-15
CN107480196B true CN107480196B (zh) 2020-02-07

Family

ID=60596590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710577334.9A Active CN107480196B (zh) 2017-07-14 2017-07-14 一种基于动态融合机制的多模态词汇表示方法

Country Status (1)

Country Link
CN (1) CN107480196B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536735B (zh) * 2018-03-05 2020-12-15 中国科学院自动化研究所 基于多通道自编码器的多模态词汇表示方法与系统
CN109508400B (zh) * 2018-10-09 2020-08-28 中国科学院自动化研究所 图文摘要生成方法
CN110427627B (zh) * 2019-08-02 2023-04-28 北京百度网讯科技有限公司 基于语义表示模型的任务处理方法和装置
CN110472002B (zh) * 2019-08-14 2022-11-29 腾讯科技(深圳)有限公司 一种文本相似度获取方法和装置
CN110781685B (zh) * 2019-10-18 2022-08-19 四川长虹电器股份有限公司 基于用户反馈自动标注语义分析结果正误性的方法
CN114342335B (zh) * 2020-07-22 2024-02-13 北京小米移动软件有限公司 信息传输方法、装置及通信设备
CN113051927B (zh) * 2021-03-11 2022-06-14 天津大学 基于多模态图卷积神经网络的社交网络突发事件检测方法
CN116150704B (zh) * 2023-04-21 2023-07-14 广东工业大学 基于语义相似度匹配的多模态融合表征方法及系统
CN117743614A (zh) * 2023-12-29 2024-03-22 中国科学院空天信息创新研究院 基于遥感多模态基础模型的遥感图像文本检索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388022A (zh) * 2008-08-12 2009-03-18 北京交通大学 一种融合文本语义和视觉内容的Web人像检索方法
KR101515928B1 (ko) * 2013-11-29 2015-05-06 재단법인대구경북과학기술원 가변 가중치 결합을 이용하는 얼굴 인식 장치 및 방법
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388022A (zh) * 2008-08-12 2009-03-18 北京交通大学 一种融合文本语义和视觉内容的Web人像检索方法
KR101515928B1 (ko) * 2013-11-29 2015-05-06 재단법인대구경북과학기술원 가변 가중치 결합을 이용하는 얼굴 인식 장치 및 방법
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法

Also Published As

Publication number Publication date
CN107480196A (zh) 2017-12-15

Similar Documents

Publication Publication Date Title
CN107480196B (zh) 一种基于动态融合机制的多模态词汇表示方法
US20230162723A1 (en) Text data processing method and apparatus
CN108052588B (zh) 一种基于卷积神经网络的文档自动问答系统的构建方法
JP7193252B2 (ja) 画像の領域のキャプション付加
CN107076567B (zh) 用于图像问答的方法和装置
TW201917602A (zh) 文本語義編碼方法及裝置
CN108376132B (zh) 相似试题的判定方法及系统
CN112487182A (zh) 文本处理模型的训练方法、文本处理方法及装置
US20230229898A1 (en) Data processing method and related device
CN111191002A (zh) 一种基于分层嵌入的神经代码搜索方法及装置
WO2018086519A1 (zh) 一种特定文本信息的识别方法及装置
CN110472002B (zh) 一种文本相似度获取方法和装置
CN112580369B (zh) 语句复述方法、训练语句复述模型的方法及其装置
CN109948140B (zh) 一种词向量嵌入方法及装置
US20240119268A1 (en) Data processing method and related device
CN110597966A (zh) 自动问答方法及装置
CN111597815A (zh) 一种多嵌入命名实体识别方法、装置、设备及存储介质
US20220383119A1 (en) Granular neural network architecture search over low-level primitives
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN113326383B (zh) 一种短文本实体链接方法、装置、计算设备与存储介质
CN112132281B (zh) 一种基于人工智能的模型训练方法、装置、服务器及介质
US20230065965A1 (en) Text processing method and apparatus
CN117371428A (zh) 基于大语言模型的文本处理方法与装置
CN110990531A (zh) 一种文本情感识别方法及装置
CN116186219A (zh) 一种人机对话交互方法方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant