CN113435216B - 神经网络机器翻译模型训练方法、机器翻译方法和装置 - Google Patents

神经网络机器翻译模型训练方法、机器翻译方法和装置 Download PDF

Info

Publication number
CN113435216B
CN113435216B CN202110704424.6A CN202110704424A CN113435216B CN 113435216 B CN113435216 B CN 113435216B CN 202110704424 A CN202110704424 A CN 202110704424A CN 113435216 B CN113435216 B CN 113435216B
Authority
CN
China
Prior art keywords
text
concept
vector
translation
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110704424.6A
Other languages
English (en)
Other versions
CN113435216A (zh
Inventor
曹达
陈诗雨
曾雅文
陆邵飞
荣辉桂
秦拯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202110704424.6A priority Critical patent/CN113435216B/zh
Publication of CN113435216A publication Critical patent/CN113435216A/zh
Application granted granted Critical
Publication of CN113435216B publication Critical patent/CN113435216B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供一种神经网络机器翻译模型的训练方法。所述方法包括如下步骤:获取训练样本集,训练样本集包括训练视频、与训练视频对应的源语言文本向量及与源语言文本向量对应的目标语言文本向量;从训练视频中提取多个动作概念特征向量及多个目标概念标签;将多个动作概念特征向量及源语言文本向量输入到神经网络机器翻译模型中,得到预测文本向量及正译预测概念标签;将多个动作概念特征向量及回译输入向量输入到神经网络机器翻译模型中,得到回译文本向量及回译预测概念标签;根据各个向量及标签之间的比较结果,对神经网络机器翻译模型的模型参数进行迭代调整,直到满足收敛条件,能够提升机器翻译的精度。

Description

神经网络机器翻译模型训练方法、机器翻译方法和装置
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种神经网络机器翻译模型训练方法、机器翻译方法和装置。
背景技术
在5G的快节奏生活下,人们往往会使用一则视频和一段简短的文字来记录自己的生活。我们以抖音(TikTok)为例,应用数据公司SensorTower的最新数据显示,TikTok全球下载量突破20亿人次。这不仅表示喜爱视频的人之多,同样也足以显示(短)视频全球化这一趋势。所以将视频信息作为机器翻译中文本的辅助信息,将在一定程度上顺应大时代的发展。具体来说,这个任务需要在理解源语言以生成适当的目标语言的同时,还需要从视频中学习到丰富而复杂的视觉信息。这不仅是具有较高学术研究价值的新兴多媒体研究领域,还存在一定的潜在实际应用场景,例如,在像TikTok以及微博等类似的社交媒体平台中翻译带有视频内容的帖子。
现有的大部分视频引导的机器翻译都是使用循环神经网络(Recurrent NeuralNetwork,RNN)作为其主要架构,在序列到序列范式下捕获时间依赖性。为了更好地利用视觉辅助信息,现有技术在整体视频特征上使用了注意力网络,来探索视频内部的潜在特征,然后再将两种模态的信息拼接喂入解码器中。与单独解码视频特征和源语言句子特征不同的是,有的研究人员利用注意机制对视觉特征和文本特征进行融合,使之在喂入解码器中时,是一个融合特征向量。此外,也有利用视频中的帧信息进一步提取视觉上的特征,例如通过非重叠帧来获取其图像模态和运动模态,或通过关键帧来加深对其外观特征和动作特征的理解,以此来生成更加有效的视频特征表示。
进一步地,目前流行的解决视频引导的机器翻译问题的方法已经深入到对局部语义理解的层面,通常会分别学习视频和源语言句子内容的表示形式,然后获得不同形式之间的交互作用或对齐方式。但是,现有方法集中于充分利用视频作为辅助材料,但忽略源语言和目标语言之间的语义一致性和可还原性。另外,视觉概念有助于改善不同语言的对齐和翻译,也很少被考虑。
发明内容
本发明的目的在于提供一种神经网络机器翻译模型训练方法,能够提升机器翻译的精度。
本发明的目的还在于提供一种机器翻译方法,能够提升机器翻译的精度。
本发明的目的还在于提供一种机器翻译装置,能够提升机器翻译的精度。
为实现上述目的,本发明提供一种神经网络机器翻译模型的训练方法,包括如下步骤:
步骤S1、获取训练样本集,所述训练样本集包括训练视频、与训练视频对应的源语言文本向量及与源语言文本向量对应的目标语言文本向量;
步骤S2、从训练视频中提取多个动作概念特征向量及多个目标概念标签,每一个动作概念特征向量对应一个目标概念标签;
步骤S3、将多个动作概念特征向量及源语言文本向量输入到神经网络机器翻译模型中,得到预测文本向量及正译预测概念标签;
步骤S4、根据预测文本向量及预设的转换方法,生成回译输入向量;
步骤S5、将多个动作概念特征向量及回译输入向量输入到神经网络机器翻译模型中,得到回译文本向量及回译预测概念标签;
步骤S6、比较所述预测文本向量与目标语言文本向量,得到第一比较结果,比较所述回译文本向量与所述源语言文本向量,得到第二比较结果,比较所述目标概念标签及正译预测概念标签,得到第三比较结果,比较所述目标概念标签及回译预测概念标签,得到第四比较结果;
步骤S7、根据第一比较结果、第二比较结果、第三比较结果及第四比较结果,对所述神经网络机器翻译模型的模型参数进行迭代调整,直到满足收敛条件,完成所述神经网络机器翻译模型的训练。
具体地,所述步骤S2具体包括:
获取训练视频中的多个关键帧;
依据所述多个关键帧将所述训练视频拆分成多个动作片段,每一个动作片段均包括一关键帧及该关键帧之后的N个连续帧,N为正整数;
从每一个动作片段中提取一个动作概念特征向量及目标概念标签。
具体地,所述步骤S3具体包括:
对所述源语言文本向量及动作概念特征向量进行文本编码处理,得到概念引导的源语言文本向量;
解码所述概念引导的源语言文本向量,得到预测文本向量;
对所述源语言文本向量及动作概念特征向量进行概念编码处理,得到源文本引导的动作概念向量;
解码所述源文本引导的动作概念向量,得到正译预测概念标签。
具体地,所述步骤S4具体包括:
利用贪婪搜索或束搜索将所述预测文本向量转换为回译输入向量。
具体地,所述步骤S5具体包括:
对所述回译输入向量及动作概念特征向量进行文本编码处理,得到概念引导的回译输入向量;
解码所述概念引导的回译输入向量,得到回译文本向量;
对所述回译输入向量及动作概念特征向量进行概念编码处理,得到回译文本引导的动作概念向量;
解码所述回译文本引导的动作概念向量,得到回译预测概念标签。
具体地,所述步骤S6中:
所述第一比较结果用第一损失函数表示,所述第二比较结果用第二损失函数表示,所述第三比较结果用第三损失函数表示,所述第四比较结果用第四损失函数表示;
所述步骤S7包括:
依据第一权重融合所述第一损失函数及第二损失函数,得到文本损失函数;
依据第二权重融合所述文本损失函数、第三损失函数及第四损失函数,得到目标损失函数;
所述收敛条件为对所述神经网络机器翻译模型的模型参数进行迭代调整,使得所述目标损失函数最小。
具体地,N等于31。
本发明还一种机器翻译方法,包括如下步骤:
步骤S10、获取待翻译的文本及其对应的视频;
步骤S20、将待翻译的文本及其对应的视频输入神经网络机器翻译模型,得到所述待翻译的文本对应的翻译文本,所述神经网络机器翻译模型通过上述的方法训练得到;
步骤S30、显示翻译文本。
本发明还提供一种机器翻译装置,包括:
获取模块,用于获取待翻译的文本及其对应的视频;
翻译模块,用于通过神经网络机器翻译模型获得所述待翻译的文本对应的翻译文本,所述神经网络机器翻译模型通过上述的方法训练得到的;
显示模块,用于显示所述翻译文本。
本发明的有益效果:本发明提供一种神经网络机器翻译模型的训练方法,包括如下步骤:获取训练样本集,所述训练样本集包括训练视频、与训练视频对应的源语言文本向量及与源语言文本向量对应的目标语言文本向量;从训练视频中提取多个动作概念特征向量及多个目标概念标签,每一个动作概念特征向量对应一个目标概念标签;将多个动作概念特征向量及源语言文本向量输入到神经网络机器翻译模型中,得到预测文本向量及正译预测概念标签;根据预测文本向量及预设的转换方法,生成回译输入向量;将多个动作概念特征向量及回译输入向量输入到神经网络机器翻译模型中,得到回译文本向量及回译预测概念标签;比较所述预测文本向量与目标语言文本向量,得到第一比较结果,比较所述回译文本向量与所述源语言文本向量,得到第二比较结果,比较所述目标概念标签及正译预测概念标签,得到第三比较结果,比较所述目标概念标签及回译预测概念标签,得到第四比较结果;根据第一比较结果、第二比较结果、第三比较结果及第四比较结果,对所述神经网络机器翻译模型的模型参数进行迭代调整,直到满足收敛条件,完成所述神经网络机器翻译模型的训练,通过句子回译机制与概念回译机制进行模型训练,能够提升机器翻译的精度。
附图说明
为了能更进一步了解本发明的特征以及技术内容,请参阅以下有关本发明的详细说明与附图,然而附图仅提供参考与说明用,并非用来对本发明加以限制。
附图中,
图1为本发明的神经网络机器翻译模型的训练方法的流程图;
图2为本发明的神经网络机器翻译模型训练方法中的神经网络机器翻译模型的基本架构图;
图3为本发明的神经网络机器翻译模型训练方法中的神经网络机器翻译模型的详细架构图;
图4为本发明的机器翻译方法的流程图;
图5为本发明的机器翻译装置的示意图。
具体实施方式
为更进一步阐述本发明所采取的技术手段及其效果,以下结合本发明的优选实施例及其附图进行详细描述。
请参阅图1至图5,本发明提供一种神经网络机器翻译模型的训练方法,包括如下步骤:
步骤S1、获取训练样本集,所述训练样本集包括训练视频、与训练视频对应的源语言文本向量及与源语言文本向量对应的目标语言文本向量;
具体地,所述步骤S1包括:
获取样本集,所述样本集包括源语言文本、与源语言文本对应的训练视频、及与源语言文本对应的目标语言文本;
通过嵌入算法将源语言文本及目标语言文本转换为向量;
接着在转换得到的向量中加入位置编码,得到源语言文本对应的源语言文本向量以及目标语言文本对应的目标语言文本向量;
进而得到包括训练视频、源语言文本向量及目标语言文本向量的训练样本集。
步骤S2、从训练视频中提取多个动作概念特征向量及多个目标概念标签,每一个动作概念特征向量对应一个目标概念标签。
具体地,所述步骤S2包括:获取训练视频中的多个关键帧;
依据所述多个关键帧将所述训练视频拆分成多个动作片段,每一个动作片段均包括一关键帧及该关键帧之后的N个连续帧,N为正整数;
从每一个动作片段中提取一个动作概念特征向量及目标概念标签。
举例来说,在本发明的一些实施例中,首先获取训练视频中的k个关键帧,然后,对于每一个关键帧,我们将随后的32帧(包括关键帧)重新编码为新的动作片段,得到k个动作片段,接着通过动作检测器从k个动作片段中获得k个动作概念特征向量和k个目标概念标签,它们被表示为v={a1,a2,…,ak}和l={l1,l2,…,lk},其中,v表示动作概念特征向量的集合,a1,a2,…,ak表示动作概念特征向量,l表示目标概念标签的集合,l1,l2,…,lk表示目标概念标签,k为正整数。
步骤S3、将多个动作概念特征向量及源语言文本向量输入到神经网络机器翻译模型中,得到预测文本向量及正译预测概念标签;
具体地,所述步骤S3具体包括:
对所述源语言文本向量及动作概念特征向量进行文本编码处理,得到概念引导的源语言文本向量;
解码所述概念引导的源语言文本向量,得到预测文本向量;
对所述源语言文本向量及动作概念特征向量进行概念编码处理,得到源文本引导的动作概念向量;
解码所述源文本引导的动作概念向量,得到正译预测概念标签。
具体地,在本发明的一些实施例中,所述神经网络机器翻译模型与动作检测器1相连,所述神经网络机器翻译模型包括:视频处理模块2、文本编码模块3、解码模块4、第一生成模块5及第二生成模块6;
其中,动作检测器1与视频处理模块2相连,视频处理模块2与第二生成模块6相连,文本编码模块3与所述视频处理模块2相连,解码模块4与文本编码模块3相连,第一生成模块5与解码模块4相连。
进一步地,如图3所示,在本发明的一些实施例中,所述视频处理模块2进一步包括多个级联的视频处理子层,每一视频编码子层均包括依次连接的多头注意力网络、残差&归一化层、全连接前馈网络及残差&归一化层;所述文本编码模块3包括多个级联的文本编码子层,每一文本编码子层均包括依次连接自注意力网络、残差&归一化层、多头注意力网络、残差&归一化层、全连接前馈网络及残差&归一化层;所述解码模块4包括多个级联的解码子层,每一解码子层均包括依次连接的自注意力网络、残差&归一化层、多头注意力网络、残差&归一化层、全连接前馈网络及残差&归一化层;所述第一生成模块5包括:依次连接线性层及softmax变换层;所述第二生成模块6包括:依次连接线性层及softmax变换层。
步骤S4、根据预测文本向量及预设的转换方法,生成回译输入向量;
具体地,所述步骤S4具体包括:
利用贪婪搜索或束搜索将所述预测文本向量转换为回译输入向量。
步骤S5、将多个动作概念特征向量及回译输入向量输入到神经网络机器翻译模型中,得到回译文本向量及回译预测概念标签。
具体地,所述步骤S5具体包括:
对所述回译输入向量及动作概念特征向量进行文本编码处理,得到概念引导的回译输入向量;
解码所述概念引导的回译输入向量,得到回译文本向量;
对所述回译输入向量及动作概念特征向量进行概念编码处理,得到回译文本引导的动作概念向量;
解码所述回译文本引导的动作概念向量,得到回译预测概念标签。
步骤S6、比较所述预测文本向量与目标语言文本向量,得到第一比较结果,比较所述回译文本向量与所述源语言文本向量,得到第二比较结果,比较所述目标概念标签及正译预测概念标签,得到第三比较结果,比较所述目标概念标签及回译预测概念标签,得到第四比较结果;
步骤S7、根据第一比较结果、第二比较结果、第三比较结果及第四比较结果,对所述神经网络机器翻译模型的模型参数进行迭代调整,直到满足收敛条件,完成所述神经网络机器翻译模型的训练。
具体地,所述步骤S6中:
所述第一比较结果用第一损失函数表示,所述第二比较结果用第二损失函数表示,所述第三比较结果用第三损失函数表示,所述第四比较结果用第四损失函数表示。
进一步地,所述步骤S7包括:
依据第一权重融合所述第一损失函数及第二损失函数,得到文本损失函数;
依据第二权重融合所述文本损失函数、第三损失函数及第四损失函数,得到目标损失函数;
所述收敛条件为对所述神经网络机器翻译模型的模型参数进行迭代调整,使得所述目标损失函数最小。
具体地,在本发明的一些实施例中,将源语言文本翻译为预测文本向量的过程如下:
首先,通过嵌入算法将源语言文本转换为向量,再在该向量中加入位置编码,并经过多个自注意力网络处理,得到源语言文本过渡向量;
具体公式如下:
Zs=SAY(PE(s))
其中Zs表示源语言文本过渡向量,s表示源语言文本,PE和SAY分别代表位置编码处理和第Y个自注意网络处理,Y为正整数。
接着,通过多个多头注意力网络处理获得概念引导的源语言文本向量,具体公式如下;
Figure SMS_1
Figure SMS_2
hf表示第f个多头注意力网络输出的权重,其中f∈h,
Figure SMS_3
表示概念引导的源语言文本向量,dk表示维度常数,softmax表示softmax函数,concat表示concat函数、/>
Figure SMS_4
及W1表示通过所述多个多头注意力网络处理获得概念引导的源语言文本向量时可训练的参数矩阵,f为正整数。
最后,使用解码器获取预测文本向量,具体公式表示如下:
Figure SMS_5
其中,Zt表示预测文本向量,Decoders表示解码器,至此完成了将源语言文本翻译为预测文本向量的过程,即正译的过程。
随后,通过贪婪搜索来生成模拟源语句ts,换言之,ts即为回译输入向量。
接着,将回译输入向量翻译为回译文本向量,具体翻译过程与上述的正译的过程一致,若定义翻译过程为为符号Trans,那么将回译输入向量翻译为回译文本向量的过程可以用以下公式表示:
st=Inference(Trans(ts))
其中Inference表示贪婪或束搜索,st为回译文本向量。
最终得到如下文本损失函数公式:
Ltrans=-logP(t|s,v;Θ)-λ1logP(st|ts,v;Θ)
其中P是概率,Θ是文本训练参数,λ1是第一权重,Ltrans表示文本损失函数,logP(t|s,v;Θ)表示第一损失函数,logP(st|ts,v;Θ)表示第二损失函数。
进一步地,本发明中获得正译预测概念标签或回译预测概念标签的公式为:
Figure SMS_6
其中ι∈{sl,tl},sl表示源语言,tl表示目标语言,当ι=sl时,apι表示正译预测概念标签,
Figure SMS_7
表示概念引导的源语言文本向量,当ι=tl时,apι表示回译预测概念标签,/>
Figure SMS_8
表示概念引导的回译文本向量,MLP表示多层感知网络。
进一步地,本发明还包括计算概念损失的步骤,具体公式如下:
Figure SMS_9
其中,其中k表示一个视频中概念标签的个数,当j=sl时,Llabel表示第i个概念标签的正译损失,当j=tl时,Llabel表示第i个概念标签的回译损失,i为正整数且i≤k。
最后,本发明中目标损失函数的公式为:
Figure SMS_10
其中,ξ∈{f,b},f和b表示正译和回译的过程,
Figure SMS_11
为目标损失函数,Θsl为正译概念模型参数,Θtl为回译概念模型参数,/>
Figure SMS_12
为第三损失函数,/>
Figure SMS_13
为第四损失函数,/>
Figure SMS_14
文本损失函数。
需要说明的是,本发明还通过采用因子
Figure SMS_15
设计预热机制,这意味着将对正向翻译过程进行/>
Figure SMS_16
步骤的预训练,然后再共同学习翻译和回译。
请参阅图4,本发明还提供一种机器翻译方法,包括如下步骤:
步骤S10、获取待翻译的文本及其对应的视频;
步骤S20、将待翻译的文本及其对应的视频输入神经网络机器翻译模型,得到所述待翻译的文本对应的翻译文本,所述神经网络机器翻译模型通过上述的方法训练得到;
步骤S30、显示翻译文本。
请参阅图5,本发明还通过一种机器翻译装置,包括:
获取模块100,用于获取待翻译的文本及其对应的视频;
翻译模块200,用于通过神经网络机器翻译模型获得所述待翻译的文本对应的翻译文本,所述神经网络机器翻译模型通过上述的方法训练得到的;
显示模块300,用于显示所述翻译文本。
从而,本发明首先利用句子级的回译来获得粗粒度的语义,此后,提出了一个概念级回译模块,以探索细粒度的语义一致性和可还原性,最后,提出了一种多范式联合学习方法来提高翻译性能。
综上所述,本发明提供一种神经网络机器翻译模型的训练方法,包括如下步骤:获取训练样本集,所述训练样本集包括训练视频、与训练视频对应的源语言文本向量及与源语言文本向量对应的目标语言文本向量;从训练视频中提取多个动作概念特征向量及多个目标概念标签,每一个动作概念特征向量对应一个目标概念标签;将多个动作概念特征向量及源语言文本向量输入到神经网络机器翻译模型中,得到预测文本向量及正译预测概念标签;根据预测文本向量及预设的转换方法,生成回译输入向量;将多个动作概念特征向量及回译输入向量输入到神经网络机器翻译模型中,得到回译文本向量及回译预测概念标签;比较所述预测文本向量与目标语言文本向量,得到第一比较结果,比较所述回译文本向量与所述源语言文本向量,得到第二比较结果,比较所述目标概念标签及正译预测概念标签,得到第三比较结果,比较所述目标概念标签及回译预测概念标签,得到第四比较结果;根据第一比较结果、第二比较结果、第三比较结果及第四比较结果,对所述神经网络机器翻译模型的模型参数进行迭代调整,直到满足收敛条件,完成所述神经网络机器翻译模型的训练,通过句子回译机制与概念回译机制进行模型训练,能够提升机器翻译的精度。
以上所述,对于本领域的普通技术人员来说,可以根据本发明的技术方案和技术构思作出其他各种相应的改变和变形,而所有这些改变和变形都应属于本发明权利要求的保护范围。

Claims (9)

1.一种神经网络机器翻译模型的训练方法,其特征在于,包括如下步骤:
步骤S1、获取训练样本集,所述训练样本集包括训练视频、与训练视频对应的源语言文本向量及与源语言文本向量对应的目标语言文本向量;
步骤S2、从训练视频中提取多个动作概念特征向量及多个目标概念标签,每一个动作概念特征向量对应一个目标概念标签;
步骤S3、将多个动作概念特征向量及源语言文本向量输入到神经网络机器翻译模型中,得到预测文本向量及正译预测概念标签;
步骤S4、根据预测文本向量及预设的转换方法,生成回译输入向量;
步骤S5、将多个动作概念特征向量及回译输入向量输入到神经网络机器翻译模型中,得到回译文本向量及回译预测概念标签;
步骤S6、比较所述预测文本向量与目标语言文本向量,得到第一比较结果,比较所述回译文本向量与所述源语言文本向量,得到第二比较结果,比较所述目标概念标签及正译预测概念标签,得到第三比较结果,比较所述目标概念标签及回译预测概念标签,得到第四比较结果;
步骤S7、根据第一比较结果、第二比较结果、第三比较结果及第四比较结果,对所述神经网络机器翻译模型的模型参数进行迭代调整,直到满足收敛条件,完成所述神经网络机器翻译模型的训练。
2.如权利要求1所述的神经网络机器翻译模型的训练方法,其特征在于,所述步骤S2具体包括:
获取训练视频中的多个关键帧;
依据所述多个关键帧将所述训练视频拆分成多个动作片段,每一个动作片段均包括一关键帧及该关键帧之后的N个连续帧,N为正整数;
从每一个动作片段中提取一个动作概念特征向量及目标概念标签。
3.如权利要求1所述的神经网络机器翻译模型的训练方法,其特征在于,所述步骤S3具体包括:
对所述源语言文本向量及动作概念特征向量进行文本编码处理,得到概念引导的源语言文本向量;
解码所述概念引导的源语言文本向量,得到预测文本向量;
对所述源语言文本向量及动作概念特征向量进行概念编码处理,得到源文本引导的动作概念向量;
解码所述源文本引导的动作概念向量,得到正译预测概念标签。
4.如权利要求1所述的神经网络机器翻译模型的训练方法,其特征在于,所述步骤S4具体包括:
利用贪婪搜索或束搜索将所述预测文本向量转换为回译输入向量。
5.如权利要求1所述的神经网络机器翻译模型的训练方法,其特征在于,所述步骤S5具体包括:
对所述回译输入向量及动作概念特征向量进行文本编码处理,得到概念引导的回译输入向量;
解码所述概念引导的回译输入向量,得到回译文本向量;
对所述回译输入向量及动作概念特征向量进行概念编码处理,得到回译文本引导的动作概念向量;
解码所述回译文本引导的动作概念向量,得到回译预测概念标签。
6.如权利要求1所述的神经网络机器翻译模型的训练方法,其特征在于,所述步骤S6中:
所述第一比较结果用第一损失函数表示,所述第二比较结果用第二损失函数表示,所述第三比较结果用第三损失函数表示,所述第四比较结果用第四损失函数表示;
所述步骤S7包括:
依据第一权重融合所述第一损失函数及第二损失函数,得到文本损失函数;
依据第二权重融合所述文本损失函数、第三损失函数及第四损失函数,得到目标损失函数;
所述收敛条件为对所述神经网络机器翻译模型的模型参数进行迭代调整,使得所述目标损失函数最小。
7.如权利要求2所述的神经网络机器翻译模型的训练方法,其特征在于,N等于31。
8.一种机器翻译方法,其特征在于,包括如下步骤:
步骤S10、获取待翻译的文本及其对应的视频;
步骤S20、将待翻译的文本及其对应的视频输入神经网络机器翻译模型,得到所述待翻译的文本对应的翻译文本,所述神经网络机器翻译模型通过如权利要求1至7任一项所述的方法训练得到;
步骤S30、显示翻译文本。
9.一种机器翻译装置,其特征在于,包括:
获取模块,用于获取待翻译的文本及其对应的视频;
翻译模块,用于通过神经网络机器翻译模型获得所述待翻译的文本对应的翻译文本,所述神经网络机器翻译模型通过如权利要求1至7任一项所述的方法训练得到的;
显示模块,用于显示所述翻译文本。
CN202110704424.6A 2021-06-24 2021-06-24 神经网络机器翻译模型训练方法、机器翻译方法和装置 Active CN113435216B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110704424.6A CN113435216B (zh) 2021-06-24 2021-06-24 神经网络机器翻译模型训练方法、机器翻译方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110704424.6A CN113435216B (zh) 2021-06-24 2021-06-24 神经网络机器翻译模型训练方法、机器翻译方法和装置

Publications (2)

Publication Number Publication Date
CN113435216A CN113435216A (zh) 2021-09-24
CN113435216B true CN113435216B (zh) 2023-06-23

Family

ID=77753955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110704424.6A Active CN113435216B (zh) 2021-06-24 2021-06-24 神经网络机器翻译模型训练方法、机器翻译方法和装置

Country Status (1)

Country Link
CN (1) CN113435216B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115482491B (zh) * 2022-09-23 2023-05-23 湖南大学 一种基于transformer的桥梁缺陷识别方法与系统
CN117034965B (zh) * 2023-08-08 2024-03-22 中国科学院自动化研究所 基于视觉语言预训练的图像文本翻译方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508642A (zh) * 2018-10-17 2019-03-22 杭州电子科技大学 基于双向gru和注意力机制的船舶监控视频关键帧提取方法
CN110069790A (zh) * 2019-05-10 2019-07-30 东北大学 一种通过译文回译对照原文的机器翻译系统及方法
JP2020161111A (ja) * 2019-03-27 2020-10-01 ワールド ヴァーテックス カンパニー リミテッド 神経網基盤機械翻訳およびマスコーパス(Math Corpus)を利用した数学問題概念類型予測サービス提供方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11138392B2 (en) * 2018-07-26 2021-10-05 Google Llc Machine translation using neural network models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508642A (zh) * 2018-10-17 2019-03-22 杭州电子科技大学 基于双向gru和注意力机制的船舶监控视频关键帧提取方法
JP2020161111A (ja) * 2019-03-27 2020-10-01 ワールド ヴァーテックス カンパニー リミテッド 神経網基盤機械翻訳およびマスコーパス(Math Corpus)を利用した数学問題概念類型予測サービス提供方法
CN110069790A (zh) * 2019-05-10 2019-07-30 东北大学 一种通过译文回译对照原文的机器翻译系统及方法

Also Published As

Publication number Publication date
CN113435216A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
WO2022095682A1 (zh) 文本分类模型的训练方法、文本分类方法、装置、设备、存储介质及计算机程序产品
JP2023509031A (ja) マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム
CN113435216B (zh) 神经网络机器翻译模型训练方法、机器翻译方法和装置
CN111401079A (zh) 神经网络机器翻译模型的训练方法、装置及存储介质
Ouchi et al. Neural modeling of multi-predicate interactions for Japanese predicate argument structure analysis
CN116246213B (zh) 数据处理方法、装置、设备以及介质
Natarajan et al. Sentence2signgesture: a hybrid neural machine translation network for sign language video generation
Ji et al. An attention based dual learning approach for video captioning
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
Wang et al. Hybrid attention for Chinese character-level neural machine translation
Kalimuthu et al. Fusion models for improved image captioning
Zhu et al. Multiscale temporal network for continuous sign language recognition
CN115810068A (zh) 一种图像描述生成方法、装置、存储介质及电子设备
Zaoad et al. An attention-based hybrid deep learning approach for bengali video captioning
Li et al. Sign language recognition and translation network based on multi-view data
Qu et al. Novel multi‐domain attention for abstractive summarisation
Mishra et al. An Object Localization-based Dense Image Captioning Framework in Hindi
Sharma et al. Machine translation systems based on classical-statistical-deep-learning approaches
CN117093864A (zh) 文本生成模型训练方法以及装置
Deepak et al. Automatic image captioning system using a deep learning approach
CN114677631A (zh) 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法
CN115422329A (zh) 一种基于知识驱动的多路筛选融合对话生成方法
CN113553445A (zh) 一种生成视频描述的方法
Eunice et al. Deep learning and sign language models based enhanced accessibility of e-governance services for speech and hearing-impaired
CN111008283B (zh) 一种基于复合边界信息的序列标注方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant