CN111382582B - 一种基于非自回归的神经机器翻译解码加速方法 - Google Patents

一种基于非自回归的神经机器翻译解码加速方法 Download PDF

Info

Publication number
CN111382582B
CN111382582B CN202010068170.9A CN202010068170A CN111382582B CN 111382582 B CN111382582 B CN 111382582B CN 202010068170 A CN202010068170 A CN 202010068170A CN 111382582 B CN111382582 B CN 111382582B
Authority
CN
China
Prior art keywords
model
autoregressive
machine translation
translation
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010068170.9A
Other languages
English (en)
Other versions
CN111382582A (zh
Inventor
杨木润
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Yayi Network Technology Co ltd
Original Assignee
Shenyang Yayi Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Yayi Network Technology Co ltd filed Critical Shenyang Yayi Network Technology Co ltd
Priority to CN202010068170.9A priority Critical patent/CN111382582B/zh
Publication of CN111382582A publication Critical patent/CN111382582A/zh
Application granted granted Critical
Publication of CN111382582B publication Critical patent/CN111382582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于非自回归的神经机器翻译解码加速方法,步骤为:采用基于自注意力机制的Transformer模型,构造自回归神经机器翻译模型;构建训练平行语料,生成机器翻译词表后训练从左到右和从右到左两个模型直到收敛;构造非自回归机器翻译模型;获得从左到右和从右到左两个自回归翻译模型的编码解码器注意力和隐层状态;计算其与自回归模型对应输出的差异性,作为额外的损失,用于模型训练;提取源语句子信息,解码器预测对应的目标语句子;计算预测出的分布与真实数据分布的损失,解码出不同长度的翻译结果,进一步得到最优翻译结果。本发明充分利用回归模型中的知识,在损失了较小性能的情况下,能够获得8.6倍的速度提升。

Description

一种基于非自回归的神经机器翻译解码加速方法
技术领域
本发明涉及一种神经机器翻译推断加速方法,具体为基于非自回归的神经机器翻译解码加速方法。
背景技术
机器翻译是将一种自然语言翻译为另一种自然语言的技术。机器翻译是自然语言处理的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。同时,随着互联网技术的飞速发展,机器翻译技术在人们日常的生活工作中起到了越来越重要的作用。
机器翻译技术从上世纪70年代基于规则的方法,到80年代基于实例的方法,90年代基于统计的方法,到如今基于神经网络的方法,历经多年的发展,终于达到了良好的效果,在人们的日常生活中得到了更广泛的使用。
传统的基于规则的机器翻译虽然在短时间内满足了机器翻译的需要,但随着研究的深入,一系列问题也逐渐的暴露出来。例如,人工规则的覆盖度非常有限,规则与语种强相关,必须为每种语言自定义词典及规则,并且随着规则数量增多由人工规则导致的冲突也会增多。随后,统计机器翻译开始兴起,其完全抛弃了对人工规则的依赖,把翻译问题建模为搜索最大概率译文问题,显著加强了系统的鲁棒性和可扩展性。但统计机器翻译也有较明显的缺点,统计机器翻译过度依赖翻译语料,如果待翻译的句子在训练语料中没有相似的资料文本,得出的译文质量很差,而且由于在统计机器翻译过程中得不到上下文信息,译文质量无法得到保证。
为了进一步提升模型的表示能力,从2013年开始,研究人员开始尝试一种全新的机器翻译方法,即基于神经网络的机器翻译,这种基于神经网络的机器翻译方法采取了神经元网络直接对翻译问题进行建模,完全抛弃了人工书写规则以及设计翻译特征的翻译模式,整个翻译过程都在一种端到端的模型框架下完成,神经机器翻译训练的是一个序列到序列映射的神经网络,这个网络的输出可以是一个变长序列。神经机器翻译相较于传统的统计机器翻译是一种简单的新架构,用于将文本从一种语言翻译为另一种语言,神经机器翻译现如今已取得了显著的性能,显著的提高了机器翻译的流畅行和充分性。相比传统的基于统计的机器翻译,神经机器翻译通过神经网络对机器翻译进行建模,通过端到端的方式进行学习,不需要进行人工设计特征,不仅提高了翻译品质,而且提高了模型的效率。
基于神经网络的机器翻译系统在性能上相较之前备受瞩目的基于统计的翻译系统而言,在性能上已经得到了十足的进步。但由于神经网络涉及大量的矩阵运算,因此在训练以及解码上相对之前的方法会更加耗时。对于这两方面的耗时,在实际中往往对于解码的时间消耗更为看重。为使得神经机器翻译系统能够在实际中被应用起来,必须要求系统在解码的过程中具有较高的响应速度,否则面对难以接受的延迟,即使翻译系统具有更为优秀的性能,在很多场景下用户也很难接受。
目前大多数机器翻译模型都使用了编码器-解码器框架来实现,编码器将源语句的表示送入到解码器来生成目标句子;解码器通常以自回归的方式来工作,从左到右逐字地生成目标句子,第t个目标词的生成依赖于先前生成的t-1个目标词。这种自回归的解码方式符合阅读和生成句子时的习惯,能有效地捕捉到真实翻译的分布情况。它在机器翻译等任务上取得了较好的性能,并且波束搜索也能够为寻找近似最优译文提供了一种有效的局部搜索方法。但是也有其自身的缺点,主要表现在以下两个方面:
首先,自回归模型存在错误传播的问题。自回归模型一旦在在前面产生错误,将会传递到后面的位置,从而使后面生成的词不准确,这也是大多数模型在长句子的翻译中表现差的原因之一。另外,解码器的每个步骤必须顺序地而不是并行地运行,因此自回归解码会阻止像Transformer这样的体系结构在推理过程中充分体现其训练时的性能优势。
针对上面的问题,可以通过打破生成时的串行顺序,使模型一次能够解码出整个目标句子,从而解决自回归模型所带来的问题,这便是非自回归模型。现阶段,越来越多的研究人员已经逐渐意识到解码速度过慢所带来的一系列应用难题,但大多数方法还是基于自回归模型,无法解决自回归模型的错误传播的问题。
发明内容
针对神经机器翻译模型在推断时错误传播和实际使用中解码速度很难满足实时响应需求等问题,本发明要解决的技术问题是提供一种基于非自回归的神经机器翻译解码加速方法,能够使得规模庞大的神经机器翻译模型能够具有较高的响应速度以及更好实际应用,与此同时模型的翻译品质仍能得到保证。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种基于非自回归的神经机器翻译解码加速方法,包括以下步骤:
1)采用基于自注意力机制的Transformer模型,构造一个包含编码器解码器的自回归神经机器翻译模型;
2)构建训练平行语料,进行分词和字词切分预处理流程,得到源语序列和目标语序列,生成机器翻译词表后训练从左到右和从右到左两个模型直到收敛;
3)移除Transformer中解码端对未来信息屏蔽的矩阵,同时在自注意力和编码解码注意力之间加入多头位置注意力,构造非自回归机器翻译模型;
4)使用层级知识精炼的方法,通过强制解码的方式逐层获得从左到右和从右到左两个自回归翻译模型的编码解码器注意力和隐层状态,并融合这些输出;逐层计算其与自回归模型对应输出的差异性,将其作为额外的损失,用于模型训练;
5)使用平行语料训练加入正则化项后的非自回归机器翻译模型,编码器对源语句子进行编码,提取源语句子信息,解码器根据该信息来预测对应的目标语句子;然后计算预测出的分布与真实数据分布的损失,通过反向传播不断减少该损失,完成模型的训练过程;
6)将用户输入的源语句子送入机器翻译模型中,解码出不同长度的翻译结果,并通过自回归模型的评价来得到最优的翻译结果。
步骤3)中构造非自回归机器翻译模型,具体为:
301)移除解码端对未来信息屏蔽的矩阵后,非自回归机器翻译模型将问题建模为:
Figure BDA0002376570960000031
其中,X为源语序列,Y为目标语序列,T为目标语序列长度,T′为源语序列长度,xt为第t个位置的源语词,yt为第t个位置的目标语词;
302)在每个解码器层中添加额外的多头位置注意力模块,该模块与Transformer模型的其它部分中使用的多头注意力机制相同,即:
Figure BDA0002376570960000032
其中,Q为查询矩阵,K为键矩阵,V为值矩阵,softmax(.)为归一化函数,Attention(.)为注意力计算函数;
303)在解码开始之前,将源语的词嵌入作为目标端的输入。
步骤4)中使用层级知识精炼的方法为非自回归模型添加额外的训练损失,具体为:
401)利用从左到右和从右到左的翻译模型分别对预处理后的平行预料进行强制解码,获取编码解码注意力以及隐层状态;通过一个门控单元融合两者的信息,具体为:
Figure BDA0002376570960000033
其中,Hl2r是自左到右模型的输出,Hr2l为自右到左模型的输出,g是一个门控单元,g的计算方式为:
g=σ(W1H+W2E+b)
其中,W1、W2和b为三个不同的可学习参数,σ是sigmoid函数,将计算结果缩放到(0,1)之间,通过对两个自回归模型提取的特征进行加权求和,来增强模型的表示,提供更丰富的信息;
402)选取评价差异性指标,采用KL散度来衡量,其计算方式为:
Figure BDA0002376570960000041
其中,P(x),Q(x)是随机变量X上的两个分布,KL(.)用来计算两个分布的KL散度。
403)计算自回归模型和非自回归模型输出的KL散度KL(HAT||HNAT),将其作为损失添加到训练过程。
步骤5)非自回归神经机器翻译的训练过程中将平行语料送入模型计算交叉熵损失和KL散度损失,然后再计算相应的梯度进行参数更新来完成训练过程。
步骤6)中,将用户输入的源语句子送入到模型中,通过指定不同的目标语长度来获得多个翻译结果;然后,使用自回归模型作为这些解码翻译结果的打分函数,进而选择最佳的整体翻译。
本发明具有以下有益效果及优点:
1.本发明提出了基于非自回归的神经机器翻译解码加速方法,通过将自回归模型的输出作为非自回归模型的监督信号,可以使其逐块的学习前者的分布。将监督信号作为训练期间的损失,并不会减慢非模型的推理速度。同时,由于模型输出的分布比较确定,因此可以在一定程度上缓解非自回归模型的多峰问题,即一词多义问题。
2.本发明方法引入了一个从右到左模型,使得非自回归模型不仅仅只利用从左到右的单向信息,同时能够考虑到目标端上下文的未来信息,可以增强模型的性能。
附图说明
图1为本发明中非自回归神经机器翻译模型图示;
图2为本发明中融合从左到右和从右到左的自回归模型的表示提供给非自回归模型作为监督信号图示;
图3为本发明中传统Transformer中编码层和解码层的结构示意图。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明将从非自回归解码角度对基于注意力机制的神经机器翻译系统推理速度进行优化,旨在大幅度提升机器翻译系统的解码速度的同时,只损失较小的模型性能。
本发明提出了一种基于非自回归的神经机器翻译解码加速方法,包括以下步骤:
1)采用基于自注意力机制的Transformer模型,构造一个包含编码器解码器的自回归神经机器翻译模型;
2)构建训练平行语料,进行分词和字词切分预处理流程,得到源语序列和目标语序列,生成机器翻译词表后训练从左到右和从右到左两个模型直到收敛;
3)移除Transformer中解码端对未来信息屏蔽的矩阵,同时在自注意力和编码解码注意力之间加入多头位置注意力,构造非自回归机器翻译模型;
4)使用层级知识精炼的方法,通过强制解码的方式逐层获得从左到右和从右到左两个自回归翻译模型的编码解码器注意力和隐层状态,并融合这些输出;逐层计算其与自回归模型对应输出的差异性,将其作为额外的损失,用于模型训练;
5)使用平行语料训练加入正则化项后的非自回归机器翻译模型,编码器对源语句子进行编码,提取源语句子信息,解码器根据该信息来预测对应的目标语句子;然后计算预测出的分布与真实数据分布的损失,通过反向传播不断减少该损失,完成模型的训练过程;
6)将用户输入的源语句子送入机器翻译模型中,解码出不同长度的翻译结果,并通过自回归模型的评价来得到最优的翻译结果。
步骤1)中,Transformer仅由注意力机制和前馈神经网络组成,如图3所示。Transformer仍是基于编码器-解码器框架,通过堆叠多个相同的栈,分别组成了编码器和解码器,编码器和解码器的子层结构略有不同。Transformer在机器翻译任务的多个数据集上均实现了显著的性能提高,并达到了当时的最好性能,而且具备更快的训练速度。注意力机制是神经机器翻译模型中重要的组成部分。在最初的编码器-解码器框架中,由于上述原因导致神经网络难以学习到源端和目标端的对应信息,翻译系统对输入较长的句子的翻译效果较差。在自注意力机制中,查询(Query,Q),键(Key,K)和值(Value,V)来自相同的内容,首先对三个矩阵分别进行线性变换,然后进行缩放点积操作,即计算Query与Key进行点积计算,为了防止计算结果过大,会除以Key的维度
Figure BDA0002376570960000051
来达到调节作用,如下述公式所示:
Figure BDA0002376570960000061
其中,Q为查询矩阵,K为键矩阵,V为值矩阵,softmax(.)为归一化函数,Attention(.)为注意力计算函数。
步骤2)中,从左到右和从右到左模型的区别在于,前者的单向解码只是基于先前的历史信息来生成当前位置的字符,并未利用目标端上下文的未来信息。而由于后者的目标语料的顺序与前者是相反的,则能够考虑到额外的上下文信息。
步骤3)中构造非自回归机器翻译模型,如图1所示,其由三个模组成:编码器,解码器和用于解码过程的的翻译预测器,通过以下步骤来构建:
301)与自回归神经机器翻译类似,编码器和解码器都完全由前馈神经网络和多头注意力模块组成。没有输出分布的自回归因式的约束,不再需要阻止较早的解码时间步访问来自较晚时间步的信息,从而避免了传统Transformer解码器的自注意模块中使用的屏蔽未来信息矩阵。取而代之的是,屏蔽掉了每个Query位置为了不去关注它本身,这里将翻译问题建模为:
Figure BDA0002376570960000062
其中,X为源语序列,Y为目标语序列,T为目标语序列长度,T′为源语序列长度,xt为第t个位置的源语词,yt为第t个位置的目标语词;
302)在每个解码器层中添加额外的多头位置注意力模块,该模块与Transformer模型的其它部分中使用的多头注意力机制相同,即:
Figure BDA0002376570960000063
其中,Q为查询矩阵,K为键矩阵,V为值矩阵,softmax(.)为归一化函数,Attention(.)为注意力计算函数;在这里,位置编码作为query和key,解码器隐层状态作为value;
303)在解码开始之前,非自回归模型需要知道目标句子的长度,以便并行生成所有单词。但是我们不能使用目标输出(在训练期间)或先前预测的输出(在推理期间)作为第一个解码器层的输入,因此需要将源语的词嵌入作为目标端的输入。
步骤4)中使用层级知识精炼的方法为非自回归模型添加额外的训练损失,如图2所示,具体为:
401)利用从左到右和从右到左的翻译模型分别对预处理后的平行预料进行强制解码,获取编码解码注意力以及隐层状态;通过一个门控单元融合两者的信息,具体为:
Figure BDA0002376570960000072
其中,Hl2r是自左到右模型的输出,Hr2l为自右到左模型的输出,g是一个门控单元,g的计算方式为:
g=σ(W1H+W2E+b)
其中,W1、W2和b为三个不同的可学习参数,σ是sigmoid函数,将计算结果缩放到(0,1)之间,通过对两个自回归模型提取的特征进行加权求和,来增强模型的表示,提供更丰富的信息;
402)选取评价差异性指标,采用KL散度(Kullback-Leibler divergence)来衡量,其计算方式为:
Figure BDA0002376570960000071
其中,P(x),Q(x)是随机变量X上的两个分布,KL(.)用来计算两个分布的KL散度。
403)计算自回归模型和非自回归模型输出的KL散度KL(HAT||HNAT),将其作为损失添加到训练过程。
步骤5)中非自回归神经机器翻译的训练过程需要将平行语料送入模型计算交叉熵损失和KL散度损失,然后再计算相应的梯度进行参数更新来完成训练过程。
步骤6)中,将用户输入的源语句子送入到模型中,通过指定不同的目标语长度来获得多个翻译结果;然后,使用自回归模型作为这些解码翻译结果的打分函数,进而选择最佳的整体翻译;由于所有翻译样本都可以完全独立地计算和打分,因此与计算单个翻译相比,如果有足够的并行性,则该过程只会增加一倍的时间。
本发明使用目前比较常用的数据集IWSLT14德英口语数据集和WMT14英德数据集来验证所提出方法的有效性,其训练集分别包含16万和450万平行句对。通过byte pairencoder字词切分方式,得到处理后的双语语料训练数据。但由于非自回归模型很难拟合真实数据中的多峰分布,因此这里采用句子级知识精炼的方式解决该问题。也即,把同样参数配置的自回归神经机器翻译生成的句子作为训练样本,提供给非自回归机器翻译进行学习。
本发明使用机器翻译任务中常用的双语评价指标BLEU作为评价标准。实验结果表明,仅添加从左到右模型的层级知识精炼方式并同时解码9个不同长度的候选翻译,之后再使用自回归模型评价的方法在IWSLT14德英数据集上损失了百分之13的性能的情况下,获得了8.6倍的速度提升;在WMT14英德数据集上,获得了8.6倍的速度提升却只损失了百分之5.5的性能;融合了从右到左的自回归模型后,在IWSLT14德英数据集上损失了百分之6.4的性能,在WMT14英德数据集上损失了百分之4.3的性能,速度却几乎没有下降。
本发明从非自回归解码角度对基于注意力机制的神经机器翻译系统推理速度进行优化,旨在大幅度提升机器翻译系统的解码速度的同时,只损失较小的模型性能。通过将自回归模型的输出作为非自回归模型的监督信号并将其作为训练期间的损失,并不会减慢非模型的推理速度。引入的从右到左模型使得非自回归模型不仅仅只利用单向的历史信息,同时能够考虑到目标端上下文的未来信息,有效的增强了模型的性能。

Claims (3)

1.一种基于非自回归的神经机器翻译解码加速方法,其特征在于包括以下步骤:
1)采用基于自注意力机制的Transformer模型,构造一个包含编码器解码器的自回归神经机器翻译模型;
2)构建训练平行语料,进行分词和字词切分预处理流程,得到源语序列和目标语序列,生成机器翻译词表后训练从左到右和从右到左两个模型直到收敛;
3)移除Transformer中解码端对未来信息屏蔽的矩阵,同时在自注意力和编码解码注意力之间加入多头位置注意力,构造非自回归机器翻译模型;
4)使用层级知识精炼的方法,通过强制解码的方式逐层获得从左到右和从右到左两个自回归翻译模型的编码解码器注意力和隐层状态,并融合这些输出;逐层计算其与自回归模型对应输出的差异性,将其作为额外的损失,用于模型训练;
5)使用平行语料训练加入正则化项后的非自回归机器翻译模型,编码器对源语句子进行编码,提取源语句子信息,解码器根据该信息来预测对应的目标语句子;然后计算预测出的分布与真实数据分布的损失,通过反向传播不断减少该损失,完成模型的训练过程;
6)将用户输入的源语句子送入机器翻译模型中,解码出不同长度的翻译结果,并通过自回归模型的评价来得到最优的翻译结果;
步骤3)中构造非自回归机器翻译模型,具体为:
301)移除解码端对未来信息屏蔽的矩阵后,非自回归机器翻译模型将问题建模为:
其中,X为源语序列,Y为目标语序列,T为目标语序列长度,T′为源语序列长度,xt为第t个位置的源语词,yt为第t个位置的目标语词;
302)在每个解码器层中添加额外的多头位置注意力模块,该模块与Transformer模型的其它部分中使用的多头注意力机制相同,即:
其中,Q为查询矩阵,K为键矩阵,V为值矩阵,softmax(.)为归一化函数,Attention(.)为注意力计算函数,为键矩阵K的维度;
303)在解码开始之前,将源语的词嵌入作为目标端的输入;
步骤4)中使用层级知识精炼的方法为非自回归模型添加额外的训练损失,具体为:
401)利用从左到右和从右到左的翻译模型分别对预处理后的平行预料进行强制解码,获取编码解码注意力以及隐层状态;通过一个门控单元融合两者的信息,具体为:
其中,Hl2r是自左到右模型的输出,Hr2l为自右到左模型的输出,g是一个门控单元,g的计算方式为:
g=σ(W1H+W2E+b)
其中,W1、W2和b为三个不同的可学习参数,σ是sigmoid函数,将计算结果缩放到(0,1)之间,通过对两个自回归模型提取的特征进行加权求和,来增强模型的表示,提供更丰富的信息;
402)选取评价差异性指标,采用KL散度来衡量,其计算方式为:
其中,P(x),Q(x)是随机变量X上的两个分布,KL(.)用来计算两个分布的KL散度;
403)计算自回归模型和非自回归模型输出的KL散度KL(HAT||HNAT),将其作为损失添加到训练过程。
2.按权利要求1所述的基于非自回归的神经机器翻译解码加速方法,其特征在于:步骤5)非自回归神经机器翻译的训练过程中将平行语料送入模型计算交叉熵损失和KL散度损失,然后再计算相应的梯度进行参数更新来完成训练过程。
3.按权利要求1所述的基于非自回归的神经机器翻译解码加速方法,其特征在于:步骤6)中,将用户输入的源语句子送入到模型中,通过指定不同的目标语长度来获得多个翻译结果;然后,使用自回归模型作为这些解码翻译结果的打分函数,进而选择最佳的整体翻译。
CN202010068170.9A 2020-01-21 2020-01-21 一种基于非自回归的神经机器翻译解码加速方法 Active CN111382582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010068170.9A CN111382582B (zh) 2020-01-21 2020-01-21 一种基于非自回归的神经机器翻译解码加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010068170.9A CN111382582B (zh) 2020-01-21 2020-01-21 一种基于非自回归的神经机器翻译解码加速方法

Publications (2)

Publication Number Publication Date
CN111382582A CN111382582A (zh) 2020-07-07
CN111382582B true CN111382582B (zh) 2023-04-07

Family

ID=71215263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010068170.9A Active CN111382582B (zh) 2020-01-21 2020-01-21 一种基于非自回归的神经机器翻译解码加速方法

Country Status (1)

Country Link
CN (1) CN111382582B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016604B (zh) * 2020-08-19 2021-03-26 华东师范大学 一种运用视觉信息的零资源机器翻译方法
CN111950302B (zh) * 2020-08-20 2023-11-10 上海携旅信息技术有限公司 基于知识蒸馏的机器翻译模型训练方法、装置、设备及介质
CN112257467B (zh) * 2020-11-03 2023-06-30 沈阳雅译网络技术有限公司 一种面向gpu设备的神经机器翻译系统解码加速方法
CN112257465B (zh) * 2020-11-03 2023-08-08 沈阳雅译网络技术有限公司 一种基于图像描述生成的多模态机器翻译数据增强方法
CN112257471A (zh) * 2020-11-12 2021-01-22 腾讯科技(深圳)有限公司 一种模型训练方法、装置、计算机设备及存储介质
CN112270190A (zh) * 2020-11-13 2021-01-26 浩鲸云计算科技股份有限公司 一种基于注意力机制的数据库字段翻译方法及系统
CN112417901A (zh) * 2020-12-03 2021-02-26 内蒙古工业大学 基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法
CN112541491B (zh) * 2020-12-07 2024-02-02 沈阳雅译网络技术有限公司 基于图像字符区域感知的端到端文本检测及识别方法
CN112992129B (zh) * 2021-03-08 2022-09-30 中国科学技术大学 语音识别任务中的保持注意力机制单调性方法
CN113468895B (zh) * 2021-05-28 2023-08-15 沈阳雅译网络技术有限公司 一种基于解码器输入增强的非自回归神经机器翻译方法
CN113554021B (zh) * 2021-06-07 2023-12-15 重庆傲雄在线信息技术有限公司 一种智能化印章识别方法
CN113378973B (zh) * 2021-06-29 2023-08-08 沈阳雅译网络技术有限公司 一种基于自注意力机制的图像分类方法
CN113408304B (zh) * 2021-06-30 2022-03-25 北京百度网讯科技有限公司 文本翻译方法、装置、电子设备及存储介质
CN113516973B (zh) * 2021-09-13 2021-11-16 珠海亿智电子科技有限公司 基于双向上下文的非自回归语音识别网络、方法及设备
CN114945108A (zh) * 2022-05-14 2022-08-26 云知声智能科技股份有限公司 一种用于辅助视觉障碍者理解图片的方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391501A (zh) * 2017-09-11 2017-11-24 南京大学 一种基于词预测的神经机器翻译方法
WO2019114695A1 (zh) * 2017-12-15 2019-06-20 腾讯科技(深圳)有限公司 基于翻译模型的训练方法、翻译方法、计算机设备及存储介质
CN109933808A (zh) * 2019-01-31 2019-06-25 沈阳雅译网络技术有限公司 一种基于动态配置解码的神经机器翻译方法
CN110442878A (zh) * 2019-06-19 2019-11-12 腾讯科技(深圳)有限公司 翻译方法、机器翻译模型的训练方法、装置及存储介质
CN110457713A (zh) * 2019-06-19 2019-11-15 腾讯科技(深圳)有限公司 基于机器翻译模型的翻译方法、装置、设备和存储介质
CN110543640A (zh) * 2019-08-09 2019-12-06 沈阳雅译网络技术有限公司 一种基于注意力机制神经机器翻译推断加速方法
CN110598223A (zh) * 2019-09-20 2019-12-20 沈阳雅译网络技术有限公司 一种从粗粒度到细粒度的神经机器翻译推断加速方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391501A (zh) * 2017-09-11 2017-11-24 南京大学 一种基于词预测的神经机器翻译方法
WO2019114695A1 (zh) * 2017-12-15 2019-06-20 腾讯科技(深圳)有限公司 基于翻译模型的训练方法、翻译方法、计算机设备及存储介质
CN109933808A (zh) * 2019-01-31 2019-06-25 沈阳雅译网络技术有限公司 一种基于动态配置解码的神经机器翻译方法
CN110442878A (zh) * 2019-06-19 2019-11-12 腾讯科技(深圳)有限公司 翻译方法、机器翻译模型的训练方法、装置及存储介质
CN110457713A (zh) * 2019-06-19 2019-11-15 腾讯科技(深圳)有限公司 基于机器翻译模型的翻译方法、装置、设备和存储介质
CN110543640A (zh) * 2019-08-09 2019-12-06 沈阳雅译网络技术有限公司 一种基于注意力机制神经机器翻译推断加速方法
CN110598223A (zh) * 2019-09-20 2019-12-20 沈阳雅译网络技术有限公司 一种从粗粒度到细粒度的神经机器翻译推断加速方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Fusion of Image-text attention for Transformer-based Multimodal Machine Translation;Junteng Ma等;《2019 International Conference on Asian Language Processing (IALP)》;20191107;全文 *
Learning Better Classification-Based Reordering Model for Phrase-Based Translation;Li Fuxue等;《2017 International Conference on Computer Network, Electronic and Automation (ICCNEA)》;20171207;全文 *
基于多编码器多解码器的大规模维汉神经网络机器翻译模型;张金超等;《中文信息学报》;20180915(第09期);全文 *
机器翻译方法研究与发展综述;侯强等;《计算机工程与应用》;20190307;全文 *
融合结构信息的神经机器翻译模型研究;王星;《中国博士学位论文电子期刊网》;20181231;全文 *

Also Published As

Publication number Publication date
CN111382582A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
CN111382582B (zh) 一种基于非自回归的神经机器翻译解码加速方法
CN109492202B (zh) 一种基于拼音的编码与解码模型的中文纠错方法
KR102382499B1 (ko) 번역 방법, 타깃 정보 결정 방법, 관련 장치 및 저장 매체
CN111160050A (zh) 一种基于上下文记忆网络的篇章级神经机器翻译方法
CN113468895B (zh) 一种基于解码器输入增强的非自回归神经机器翻译方法
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
CN111382584A (zh) 文本翻译方法、装置、可读存储介质和计算机设备
CN109522403A (zh) 一种基于融合编码的摘要文本生成方法
CN110543640A (zh) 一种基于注意力机制神经机器翻译推断加速方法
CN110569505B (zh) 一种文本输入方法及装置
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN112257465B (zh) 一种基于图像描述生成的多模态机器翻译数据增强方法
CN112417901A (zh) 基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法
CN115841119B (zh) 一种基于图结构的情绪原因提取方法
CN111444730A (zh) 基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置
CN116129902A (zh) 一种基于跨模态对齐的语音翻译方法及系统
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
Chen et al. Research on neural machine translation model
CN113392656A (zh) 一种融合推敲网络和字符编码的神经机器翻译方法
CN111353315B (zh) 一种基于随机残差算法的深层神经机器翻译系统
CN113297374A (zh) 一种基于bert和字词特征融合的文本分类方法
CN110717342B (zh) 一种基于transformer的距离参量对齐翻译方法
CN112287694A (zh) 基于共享编码器的汉越无监督神经机器翻译方法
CN114548090B (zh) 基于卷积神经网络和改进级联标注的快速关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Yang Murun

Inventor before: Yang Murun

Inventor before: Zhu Jingbo

Inventor before: Xiao Tong

Inventor before: Zhang Chunliang

GR01 Patent grant
GR01 Patent grant