CN111967277B - 基于多模态机器翻译模型的翻译方法 - Google Patents

基于多模态机器翻译模型的翻译方法 Download PDF

Info

Publication number
CN111967277B
CN111967277B CN202010816635.4A CN202010816635A CN111967277B CN 111967277 B CN111967277 B CN 111967277B CN 202010816635 A CN202010816635 A CN 202010816635A CN 111967277 B CN111967277 B CN 111967277B
Authority
CN
China
Prior art keywords
modal
context
image
translated
machine translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010816635.4A
Other languages
English (en)
Other versions
CN111967277A (zh
Inventor
苏劲松
林欢
尹永竞
周楚伦
姚俊峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202010816635.4A priority Critical patent/CN111967277B/zh
Publication of CN111967277A publication Critical patent/CN111967277A/zh
Application granted granted Critical
Publication of CN111967277B publication Critical patent/CN111967277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于多模态机器翻译模型的翻译方法,包括获取源端句子和对应的翻译图像,并对源端句子和翻译图像进行预处理,以获得处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征;建立多模态机器翻译模型,并根据对多模态机器翻译模型进行训练,其中,多模态机器翻译模型包括编码器和解码器,解码器包括上下文指导的胶囊网络;基于训练好的多模态机器翻译模型对处理后的待翻译的源端句子和对应的翻译图像进行翻译,以生成待翻译的源端句子对应的目标端句子;由此,通过在多模态机器翻译模型的解码器引入上下文指导胶囊网络进行翻译,能够在动态生成丰富的多模态表示的同时,避免引入大量参数,从而有效提升多模态机器翻译的性能。

Description

基于多模态机器翻译模型的翻译方法
技术领域
本发明涉及机器翻译技术领域,特别涉及一种基于多模态机器翻译模型的翻译方法、一种计算机可读存储介质和一种计算机设备。
背景技术
相关技术中,现有的多模态机器翻译方法通常将待翻译的图像特征作为全局信息,采用注意力机制动态提取图像上下文特征,以进行学习多模态联合表示,但是将图像特征作为全局信息以及学习多模态联合表示的方法均无法捕捉到翻译过程中动态生成的特性;且单注意力机制无法胜任复杂的多模态翻译任务,而多注意力机制又面临着参数过多的问题,从而出现过拟合问题,进而大大降低了多模态机器的翻译性能。
发明内容
本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本发明的一个目的在于提出一种基于多模态机器翻译模型的翻译方法,该方法采用具有上下文指导胶囊网络的多模态机器翻译模型进行翻译,基于上下文指导的胶囊网络能够在动态生成丰富的多模态表示的同时,避免引入大量参数,从而有效提升多模态机器翻译的性能。
本发明的第二个目的在于提出一种计算机可读存储介质。
本发明的第三个目的在于提出一种计算机设备。
为达到上述目的,本发明第一方面实施例提出了一种基于多模态机器翻译模型的翻译方法,该方法包括以下步骤:获取源端句子和对应的翻译图像,并对所述源端句子和所述翻译图像进行预处理,以获得处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征;建立多模态机器翻译模型,并根据处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征对所述多模态机器翻译模型进行训练,其中,所述多模态机器翻译模型包括编码器和解码器,所述解码器包括上下文指导的胶囊网络;基于训练好的多模态机器翻译模型对处理后的待翻译的源端句子和对应的翻译图像进行翻译,以生成所述待翻译的源端句子对应的目标端句子。
根据本发明实施例的基于多模态机器翻译模型的翻译方法,首先获取源端句子和对应的翻译图像,并对源端句子和翻译图像进行预处理,以获得处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征,接着建立多模态机器翻译模型,并根据处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征对多模态机器翻译模型进行训练,其中,多模态机器翻译模型包括编码器和解码器,解码器包括上下文指导的胶囊网络,然后基于训练好的多模态机器翻译模型对处理后的待翻译的源端句子和对应的翻译图像进行翻译,以生成待翻译的源端句子对应的目标端句子;由此,通过在多模态机器翻译模型的解码器中引入上下文指导胶囊网络进行翻译,能够在动态生成丰富的多模态表示的同时,避免引入大量参数,从而有效提升多模态机器翻译的性能。
另外,根据本发明上述实施例提出的基于多模态机器翻译模型的翻译方法还可以具有如下附加的技术特征:
可选地,基于训练好的多模态机器翻译模型对处理后的待翻译的源端句子和对应的翻译图像进行翻译,以生成所述待翻译的源端句子对应的目标端句子,包括:将处理后的待翻译的源端句子输入到所述多模态机器翻译模型中的编码器进行编码,以获得所述处理后的待翻译的源端句子对应的隐状态表示;将所述隐状态表示、待翻译图像的全局特征和待翻译图像的局部特征输入到所述多模态机器翻译模型中的解码器,并通过所述解码器端的上下文指导的胶囊网络提取上下文相关的多模态特征,以及根据所述上下文相关的多模态特征生成目标端句子。
可选地,所述编码器包括Le个编码层,所述编码器通过以下公式获得所述处理后的待翻译的源端句子对应的隐状态表示:
Figure BDA0002632973000000021
Figure BDA0002632973000000022
其中,1≤l≤Le
Figure BDA0002632973000000023
表示第l层的编码器隐状态;MultiHead(*)为多头注意力机制函数;S(l-1)表示编码器第l-1层的源端句子隐状态表示;S(l)表示编码器第l层的源端句子隐状态表示;FFN(*)为位置前馈函数。
可选地,所述解码器包括Ld个解码层,每个解码层具有三个子层,所述上下文指导的胶囊网络位于所述解码器的第Ld个解码层的第二子层与第三子层之间。
可选地,所述上下文指导的胶囊网络包括第一上下文指导的胶囊网络和第二上下文指导的胶囊网络,其中,所述第一上下文指导的胶囊网络用于提取翻译图像的全局特征对应的上下文相关的多模态特征,所述第二上下文指导的胶囊网络用于提取翻译图像的局部特征对应的上下文相关的多模态特征。
可选地,所述上下文指导的胶囊网络根据以下公式提取上下文相关的多模态特征:
Figure BDA0002632973000000024
Figure BDA0002632973000000025
Figure BDA0002632973000000031
Figure BDA0002632973000000032
其中,
Figure BDA0002632973000000033
表示第Ld层的解码器隐状态;
Figure BDA0002632973000000034
表示解码器第Ld-1层输出的隐状态表示;
Figure BDA0002632973000000035
表示编码器第Le层的隐状态表示;
Figure BDA0002632973000000036
表示t时刻解码器第Ld层的上下文向量;Ig表示翻译图像的全局特征;Ir表示翻译图像的局部特征;
Figure BDA0002632973000000037
表示翻译图像的全局特征对应的上下文相关的多模态特征;
Figure BDA0002632973000000038
表示翻译图像的局部特征对应的上下文相关的多模态特征。
可选地,根据所述上下文相关的多模态特征生成目标端句子,包括:采用门结构对翻译图像的全局特征对应的上下文相关的多模态特征和翻译图像的局部特征对应的上下文相关的多模态特征进行融合;将融合后的多模态特征输入到所述解码器的第Ld个解码层的第三子层,以得到解码器第Ld层的目标端句子表示;根据所述目标端句子表示生成概率分布,以生成目标端句子。
可选地,根据以下公式计算解码器第Ld层的目标端句子表示:
Figure BDA0002632973000000039
Figure BDA00026329730000000310
Figure BDA00026329730000000311
其中,
Figure BDA00026329730000000312
为第Ld层的目标端句子表示;
Figure BDA00026329730000000313
为t时刻融合后的上下文相关的多模态特征;Wg和Wr为模型参数;Sigmoid为激活函数。
为达到上述目的,本发明第二方面实施例提出了一种计算机可读存储介质,其上存储有基于多模态机器翻译模型的翻译程序,该基于多模态机器翻译模型的翻译程序被处理器执行时实现如上述的基于多模态机器翻译模型的翻译方法。
根据本发明实施例的计算机可读存储介质,通过存储有多模态机器翻译模型的翻译程序,这样多模态机器翻译模型的翻译程序被处理器执行时实现上述的多模态机器翻译模型的翻译方法,由此,通过在多模态机器翻译模型中引入上下文指导胶囊网络进行翻译,能够在动态生成丰富的多模态表示的同时,避免引入大量参数,从而有效提升多模态机器翻译的性能。
为达到上述目的,本发明第三方面实施例提出了一种计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述的基于多模态机器翻译模型的翻译方法。
根据本发明实施例的计算机设备,通过存储器存储基于多模态机器翻译模型的翻译程序,这样基于多模态机器翻译模型的翻译程序被处理器执行时实现上述的基于多模态机器翻译模型的翻译方法,由此,通过在多模态机器翻译模型中引入上下文指导胶囊网络进行翻译,能够在动态生成丰富的多模态表示的同时,避免引入大量参数,从而有效提升多模态机器翻译的性能。
附图说明
图1为根据本发明实施例的基于多模态机器翻译模型的翻译方法的流程示意图;
图2为根据本发明实施例的总体网络结构示意图;
图3为根据本发明实施例的上下文指导的动态路由示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
图1为根据本发明实施例的基于多模态机器翻译模型的翻译方法的流程示意图,如图1所示,本发明实施例的基于多模态机器翻译模型的翻译方法包括以下步骤:
步骤101,获取源端句子和对应的翻译图像,并对源端句子和翻译图像进行预处理,以获得处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征。
作为一个实施例,首先获取源端句子和对应的翻译图像,对获取的源端句子进行分词、大小写统一等预处理,以及采用预先训练好的ResNet-50和bottom-up-attention工具分别获得翻译图像的全局特征和局部特征。
步骤102,建立多模态机器翻译模型,并根据处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征对多模态机器翻译模型进行训练,其中,多模态机器翻译模型包括编码器和解码器,解码器包括上下文指导的胶囊网络。
作为一个实施例,在训练阶段,根据多模态机器翻译模型的损失函数更新模型参数,迭代训练过程,直至达到指定轮次,进而获得多模态机器翻译模型。
步骤103,基于训练好的多模态机器翻译模型对处理后的待翻译的源端句子和对应的翻译图像进行翻译,以生成待翻译的源端句子对应的目标端句子。
作为一个实施例,将处理后的待翻译的源端句子输入到多模态机器翻译模型中的编码器进行编码,以获得处理后的待翻译的源端句子对应的隐状态表示;将隐状态表示、待翻译图像的全局特征和待翻译图像的局部特征输入到多模态机器翻译模型中的解码器,并通过解码器端的上下文指导的胶囊网络提取上下文相关的多模态特征,以及根据上下文相关的多模态特征生成目标端句子。
其中,作为一个实施例,如图2所示,编码器包括Le个编码层,编码器通过以下公式获得处理后的待翻译的源端句子对应的隐状态表示:
Figure BDA0002632973000000051
Figure BDA0002632973000000052
其中,1≤l≤Le
Figure BDA0002632973000000053
表示第l层的编码器隐状态;MultiHead(*)为多头注意力机制函数;S(l-1)表示编码器第l-1层的源端句子隐状态表示;S(l)表示编码器第l层的源端句子隐状态表示;FFN(*)为位置前馈函数。
作为一个具体实施例,Le个编码层中的每个编码层分为两个子层,第一子层是多头自注意力层(multi-head self-attention layer),输入为上一层编码器得到的源端句子隐状态表示,输出为当前层的编码器隐状态;第二子层是位置全连接层(position-wisefully connected layer),输入当前层的编码器隐状态,输出当前层的源端句子隐状态表示。
需要说明的是,每个子层后均有残差连接(residual connection)和层正则化(layer normalization)。
其中,作为一个实施例,如图2所示,解码器包括Ld个解码层,每个解码层具有三个子层,上下文指导的胶囊网络位于所述解码器的第Ld个解码层的第二子层和第三子层之间。
作为一个具体实施例,解码器的Ld个解码层中的前Ld-1层解码器有三个子层。
其中,第一个子层是多头自注意力层,输入为上一层解码器输出的隐状态T(l-1),输出当前层隐状态
Figure BDA0002632973000000054
计算公式如下:
Figure BDA0002632973000000055
第二个子层是多头注意力层,用当前隐状态
Figure BDA0002632973000000056
对源端表示
Figure BDA0002632973000000057
计算注意力,得到当前上下文表示C(l)
Figure BDA0002632973000000061
第三个子层是位置全连接层(position-wise fully connected layer),输入当前层的上下文表示C(l),输出当前层的句子表示T(l)
T(l)=FFN(C(l))1≤l≤Ld-1
在第Ld层解码器,第一子层和第二子层与上述相同,通过第一子层以下公式输出第Ld层的解码器隐状态
Figure BDA0002632973000000062
Figure BDA0002632973000000063
第二子层通过以下公式输出表示t时刻解码器第Ld层的上下文向量
Figure BDA0002632973000000064
Figure BDA0002632973000000065
在第二子层与第三子层之间引入两个上下文指导的胶囊网络,分别提取全局图像特征Ig和局部图像特征Ir以获得对应的上下文相关的多模态特征。
也就是说,在第二子层与第三子层之间设有第一上下文指导的胶囊网络和第二上下文指导的胶囊网络,其中,第一上下文指导的胶囊网络用于提取翻译图像的全局特征对应的上下文相关的多模态特征,第二上下文指导的胶囊网络用于提取翻译图像的局部特征对应的上下文相关的多模态特征。
通过以下公式获得对应的上下文相关的多模态特征
Figure BDA0002632973000000066
Figure BDA0002632973000000067
Figure BDA0002632973000000068
Figure BDA0002632973000000069
其中,CapsuleNet(*)表示上下文指导的动态路由函数;
Figure BDA00026329730000000610
表示t时刻解码器第Ld层的上下文向量;Ig表示翻译图像的全局特征;Ir表示翻译图像的局部特征;
Figure BDA00026329730000000611
表示翻译图像的全局特征对应的上下文相关的多模态特征;
Figure BDA00026329730000000612
表示翻译图像的局部特征对应的上下文相关的多模态特征。
接着,通过门结构对翻译图像的全局特征对应的上下文相关的多模态特征和翻译图像的局部特征对应的上下文相关的多模态特征进行融合:
Figure BDA00026329730000000613
Figure BDA00026329730000000614
其中,
Figure BDA0002632973000000071
为t时刻融合后的上下文相关的多模态特征;Wg和Wr为模型参数;Sigmoid为激活函数;α为门结构的权重,即分配给
Figure BDA0002632973000000072
Figure BDA0002632973000000073
的权重。
再接着,将融合后的多模态特征输入到解码器的第Ld个解码层的第三子层,通过第Ld层解码器的第三子层得到第Ld层的目标端句子表示
Figure BDA0002632973000000074
Figure BDA0002632973000000075
最后,用目标端句子表示
Figure BDA0002632973000000076
生成概率分布,然后从概率分布采集得到目标端句子:
Figure BDA0002632973000000077
Y<t是已生成的目标词序列,W是模型参数,
Figure BDA0002632973000000078
Vy是目标词序列词汇表;X为源端句子。
需要说明的是,作为一个具体实施例,如图3所示,上下文指导的胶囊网络(Dynamic Context-guided Capsule Network,DCCN)结构由以下几部分构成:
底层胶囊
Figure BDA0002632973000000079
用于编码图像特征;高层胶囊
Figure BDA00026329730000000710
用于编码抽取到的图像上下文;多模态胶囊
Figure BDA00026329730000000711
用于编码多模态特征。
胶囊网络的计算流程如下:
输入:图像特征矩阵I;用图像特征矩阵I初始化底层胶囊
Figure BDA00026329730000000712
用上下文向量
Figure BDA00026329730000000713
初始化多模态胶囊
Figure BDA00026329730000000714
用变换矩阵Wij将第i个底层胶囊转换为中间变量
Figure BDA00026329730000000715
用皮尔逊相关系数(Pearson Correlation Coefficients,PCC)计算底层胶囊和多模态胶囊的相关度ρij,计算公式如下:
Figure BDA00026329730000000716
其中,PCC(*)表示皮尔逊相关系数,Wm是网络参数,cov是协方差计算,σ是标准差计算;
接下来进行Nitr次动态路由的循环计算来捕获上下文相关的图像信息,每轮循环内容如下:中间变量bij初始化为0;对bij按列计算Softmax值,得到相关系数cij;用cij与ρij的和加权求和
Figure BDA00026329730000000717
得到高层胶囊vi;用vi更新多模态胶囊得到mj;每轮路由循环结束后,用mj更新ρij;用ρij更新bij;最后将Nv个多模态胶囊融合成一个,得到多模态上下文表示
Figure BDA00026329730000000718
需要说明的是,作为一个实施例,在进行英语翻译成德语的过程中,由于存在一些具有歧义的源端句子或复杂的句子,就需要借助图像信息进行正确的翻译,而本发明在对图像进行提取时,引入了胶囊网络,利用特定的时间步长对源端句子的上下文向量动态指导进行抽取以得到不同时间段的视觉特征,其中语义交互两种模式之间可以通过上下文指导的动态路由机制。
终上所述,根据本发明实施例的基于多模态机器翻译模型的翻译方法,首先获取源端句子和对应的翻译图像,并对源端句子和翻译图像进行预处理,以获得处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征,接着建立多模态机器翻译模型,并根据处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征对多模态机器翻译模型进行训练,其中,多模态机器翻译模型包括编码器和解码器,解码器包括上下文指导的胶囊网络,然后基于训练好的多模态机器翻译模型对处理后的待翻译的源端句子和对应的翻译图像进行翻译,以生成待翻译的源端句子对应的目标端句子;由此,通过在多模态机器翻译模型中引入上下文指导胶囊网络进行翻译,能够在动态生成丰富的多模态表示的同时,避免引入大量参数,从而有效提升多模态机器翻译的性能。
另外,本发明实施例还提出了一种计算机可读存储介质,其上存储有基于多模态机器翻译模型的翻译程序,该基于多模态机器翻译模型的翻译程序被处理器执行时实现如上述的基于多模态机器翻译模型的翻译方法。
根据本发明实施例的计算机可读存储介质,通过存储有多模态机器翻译模型的翻译程序,这样多模态机器翻译模型的翻译程序被处理器执行时实现上述的多模态机器翻译模型的翻译方法,由此,通过在多模态机器翻译模型中引入上下文指导胶囊网络进行翻译,能够在动态生成丰富的多模态表示的同时,避免引入大量参数,从而有效提升多模态机器翻译的性能。
另外,本发明实施例还提出了一种计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述的基于多模态机器翻译模型的翻译方法。
根据本发明实施例的计算机设备,通过存储器存储基于多模态机器翻译模型的翻译程序,这样基于多模态机器翻译模型的翻译程序被处理器执行时实现上述的基于多模态机器翻译模型的翻译方法,由此,通过在多模态机器翻译模型中引入上下文指导胶囊网络进行翻译,能够在动态生成丰富的多模态表示的同时,避免引入大量参数,从而有效提升多模态机器翻译的性能。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于多模态机器翻译模型的翻译方法,其特征在于,包括以下步骤:
获取源端句子和对应的翻译图像,并对所述源端句子和所述翻译图像进行预处理,以获得处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征;
建立多模态机器翻译模型,并根据处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征对所述多模态机器翻译模型进行训练,其中,所述多模态机器翻译模型包括编码器和解码器,所述解码器包括上下文指导的胶囊网络;
基于训练好的多模态机器翻译模型对处理后的待翻译的源端句子和对应的翻译图像进行翻译,以生成所述待翻译的源端句子对应的目标端句子;
其中,基于训练好的多模态机器翻译模型对处理后的待翻译的源端句子和对应的翻译图像进行翻译,以生成所述待翻译的源端句子对应的目标端句子,包括:
将处理后的待翻译的源端句子输入到所述多模态机器翻译模型中的编码器进行编码,以获得所述处理后的待翻译的源端句子对应的隐状态表示;
将所述隐状态表示、待翻译图像的全局特征和待翻译图像的局部特征输入到所述多模态机器翻译模型中的解码器,并通过所述解码器端的上下文指导的胶囊网络提取上下文相关的多模态特征,以及根据所述上下文相关的多模态特征生成目标端句子;
其中,所述编码器包括Le个编码层,所述编码器通过以下公式获得所述处理后的待翻译的源端句子对应的隐状态表示:
Figure FDA0003586025750000011
Figure FDA0003586025750000012
其中,1≤l≤Le
Figure FDA0003586025750000013
表示第l层的编码器隐状态;MultiHead(*)为多头注意力机制函数;S(l-1)表示编码器第l-1层的源端句子隐状态表示;S(l)表示编码器第l层的源端句子隐状态表示;FFN(*)为位置前馈函数。
2.如权利要求1所述的基于多模态机器翻译模型的翻译方法,其特征在于,所述解码器包括Ld个解码层,每个解码层具有三个子层,所述上下文指导的胶囊网络位于所述解码器的第Ld个解码层的第二子层和第三子层之间。
3.如权利要求2所述的基于多模态机器翻译模型的翻译方法,其特征在于,所述上下文指导的胶囊网络包括第一上下文指导的胶囊网络和第二上下文指导的胶囊网络,其中,所述第一上下文指导的胶囊网络用于提取翻译图像的全局特征对应的上下文相关的多模态特征,所述第二上下文指导的胶囊网络用于提取翻译图像的局部特征对应的上下文相关的多模态特征。
4.如权利要求3所述的基于多模态机器翻译模型的翻译方法,其特征在于,所述上下文指导的胶囊网络根据以下公式提取上下文相关的多模态特征:
Figure FDA0003586025750000021
Figure FDA0003586025750000022
Figure FDA0003586025750000023
Figure FDA0003586025750000024
其中,
Figure FDA0003586025750000025
表示第Ld层的解码器隐状态;
Figure FDA0003586025750000026
表示解码器第Ld-1层输出的隐状态表示;
Figure FDA0003586025750000027
表示编码器第Le层的隐状态表示;
Figure FDA0003586025750000028
表示t时刻解码器第Ld层的上下文向量;Ig表示翻译图像的全局特征;Ir表示翻译图像的局部特征;
Figure FDA0003586025750000029
表示翻译图像的全局特征对应的上下文相关的多模态特征;
Figure FDA00035860257500000210
表示翻译图像的局部特征对应的上下文相关的多模态特征。
5.如权利要求4所述的基于多模态机器翻译模型的翻译方法,其特征在于,根据所述上下文相关的多模态特征生成目标端句子,包括:
采用门结构对翻译图像的全局特征对应的上下文相关的多模态特征和翻译图像的局部特征对应的上下文相关的多模态特征进行融合;
将融合后的多模态特征输入到所述解码器的第Ld个解码层的第三子层,以得到解码器第Ld层的目标端句子表示;
根据所述目标端句子表示生成概率分布,以生成目标端句子。
6.如权利要求4所述的基于多模态机器翻译模型的翻译方法,其特征在于,根据以下公式计算解码器第Ld层的目标端句子表示:
Figure FDA00035860257500000211
Figure FDA00035860257500000212
Figure FDA0003586025750000031
其中,
Figure FDA0003586025750000032
为第Ld层的目标端句子表示;
Figure FDA0003586025750000033
为t时刻融合后的上下文相关的多模态特征;Wg和Wr为模型参数;Sigmoid为激活函数。
7.一种计算机可读存储介质,其特征在于,其上存储有基于多模态机器翻译模型的翻译程序,该基于多模态机器翻译模型的翻译程序被处理器执行时实现如权利要求1-6中任一项所述的基于多模态机器翻译模型的翻译方法。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1-6中任一项所述的基于多模态机器翻译模型的翻译方法。
CN202010816635.4A 2020-08-14 2020-08-14 基于多模态机器翻译模型的翻译方法 Active CN111967277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010816635.4A CN111967277B (zh) 2020-08-14 2020-08-14 基于多模态机器翻译模型的翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010816635.4A CN111967277B (zh) 2020-08-14 2020-08-14 基于多模态机器翻译模型的翻译方法

Publications (2)

Publication Number Publication Date
CN111967277A CN111967277A (zh) 2020-11-20
CN111967277B true CN111967277B (zh) 2022-07-19

Family

ID=73365996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010816635.4A Active CN111967277B (zh) 2020-08-14 2020-08-14 基于多模态机器翻译模型的翻译方法

Country Status (1)

Country Link
CN (1) CN111967277B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287698B (zh) * 2020-12-25 2021-06-01 北京百度网讯科技有限公司 篇章翻译方法、装置、电子设备和存储介质
CN112800785B (zh) * 2021-04-13 2021-07-27 中国科学院自动化研究所 多模态机器翻译方法、装置、电子设备和存储介质
CN113657124B (zh) * 2021-07-14 2023-06-30 内蒙古工业大学 基于循环共同注意力Transformer的多模态蒙汉翻译方法
CN113869069B (zh) * 2021-09-10 2024-08-06 厦门大学 基于译文树结构解码路径动态选择的机器翻译方法
CN115640815A (zh) * 2022-11-10 2023-01-24 北京有竹居网络技术有限公司 翻译方法、装置、可读介质及电子设备
CN117474019B (zh) * 2023-12-27 2024-05-24 天津大学 一种视觉引导的目标端未来语境翻译方法
CN118378636A (zh) * 2024-06-24 2024-07-23 四川语言桥信息技术有限公司 用于增强组合泛化能力的生成跨语言文本的方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416065A (zh) * 2018-03-28 2018-08-17 复旦大学 基于层级神经网络的图像-句子描述生成系统及方法
CN110765890A (zh) * 2019-09-30 2020-02-07 河海大学常州校区 基于胶囊网络深度学习架构的车道及车道标识检测方法
CN111079444A (zh) * 2019-12-25 2020-04-28 北京中科研究院 一种基于多模态关系的网络谣言检测方法
CN111160050A (zh) * 2019-12-20 2020-05-15 沈阳雅译网络技术有限公司 一种基于上下文记忆网络的篇章级神经机器翻译方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190279075A1 (en) * 2018-03-09 2019-09-12 Nvidia Corporation Multi-modal image translation using neural networks
KR102699828B1 (ko) * 2018-12-18 2024-08-29 삼성전자주식회사 어텐션 모델과 하이퍼네트워크를 이용한 기계 번역 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416065A (zh) * 2018-03-28 2018-08-17 复旦大学 基于层级神经网络的图像-句子描述生成系统及方法
CN110765890A (zh) * 2019-09-30 2020-02-07 河海大学常州校区 基于胶囊网络深度学习架构的车道及车道标识检测方法
CN111160050A (zh) * 2019-12-20 2020-05-15 沈阳雅译网络技术有限公司 一种基于上下文记忆网络的篇章级神经机器翻译方法
CN111079444A (zh) * 2019-12-25 2020-04-28 北京中科研究院 一种基于多模态关系的网络谣言检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Introduction to the Special Issue on Deep Learning for Multi-Modal Intelligence Across Speech, Language, Vision, and Heterogeneous Signals;Xiaodong He 等;《IEEE》;20200625;全文 *
基于深度学习的医学图像分割模型研究;曹祺炜;《中国优秀硕士学位论文全文数据库》;20190815;全文 *
神经机器翻译前沿综述;冯洋等;《中文信息学报》;20200715(第07期);全文 *

Also Published As

Publication number Publication date
CN111967277A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN111967277B (zh) 基于多模态机器翻译模型的翻译方法
CN111488807B (zh) 基于图卷积网络的视频描述生成系统
Chang et al. On the design fundamentals of diffusion models: A survey
CN112733768B (zh) 基于双向特征语言模型的自然场景文本识别方法及装置
CN114388064A (zh) 用于蛋白质表征学习的多模态信息融合方法、系统、终端及存储介质
CN110516530A (zh) 一种基于非对齐多视图特征增强的图像描述方法
JP6962747B2 (ja) データ合成装置および方法
CN113010656A (zh) 一种基于多模态融合和结构性控制的视觉问答方法
CN108538283B (zh) 一种由唇部图像特征到语音编码参数的转换方法
CN113065496B (zh) 神经网络机器翻译模型训练方法、机器翻译方法和装置
CN117725247B (zh) 一种基于检索及分割增强的扩散图像生成方法及系统
CN116050496A (zh) 图片描述信息生成模型的确定方法及装置、介质、设备
CN116244473B (zh) 一种基于特征解耦和图知识蒸馏的多模态情感识别方法
CN112905762A (zh) 一种基于同等注意力图网络的视觉问答方法
CN116564355A (zh) 一种基于自注意力机制融合的多模态情感识别方法、系统、设备及介质
CN115718815A (zh) 一种跨模态检索方法和系统
CN115130591A (zh) 一种基于交叉监督的多模态数据分类方法及装置
CN114863407A (zh) 一种基于视觉语言深度融合的多任务冷启动目标检测方法
CN115512368A (zh) 一种跨模态语义生成图像模型和方法
CN113781598B (zh) 图像生成模型的训练方法和设备以及图像生成方法
CN114169408A (zh) 一种基于多模态注意力机制的情感分类方法
CN118350464A (zh) 基于任意粒度文本输入的对话式目标定位方法及装置
CN109979461A (zh) 一种语音翻译方法及装置
CN117764038A (zh) 训练迁移模型,文本风格迁移的方法和装置
CN113079136A (zh) 动作捕捉方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant