CN111401079A - 神经网络机器翻译模型的训练方法、装置及存储介质 - Google Patents

神经网络机器翻译模型的训练方法、装置及存储介质 Download PDF

Info

Publication number
CN111401079A
CN111401079A CN201811535879.4A CN201811535879A CN111401079A CN 111401079 A CN111401079 A CN 111401079A CN 201811535879 A CN201811535879 A CN 201811535879A CN 111401079 A CN111401079 A CN 111401079A
Authority
CN
China
Prior art keywords
sentence
neural network
machine translation
translation model
network machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811535879.4A
Other languages
English (en)
Inventor
周龙
周玉
杨里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Boeing Co
Original Assignee
Institute of Automation of Chinese Academy of Science
Boeing Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science, Boeing Co filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201811535879.4A priority Critical patent/CN111401079A/zh
Publication of CN111401079A publication Critical patent/CN111401079A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种神经网络机器翻译模型的训练方法、装置及存储介质。该方法包括:分别对第一句子的头部和第二句子的头部添加标签,其中,第一句子和第二句子构成双语句子对,标签将第一句子和第二句子标识为以下四个方向中的一个方向:源端‑目标端、目标端‑源端、从左到右、从右到左;使用第一句子和第二句子构成四个方向上的训练模型;采用多任务训练方法,利用四个方向上的训练模型,对神经网络机器翻译模型中的单一目标训练函数进行训练。通过在四个方向上训练神经网络机器翻译模型,可以在减少模型参数的同时实现多个方向上的翻译任务。

Description

神经网络机器翻译模型的训练方法、装置及存储介质
技术领域
本发明涉及机器翻译领域。具体地,本发明涉及形成神经网络机器翻 译模型的训练方法、装置及存储介质。
背景技术
机器翻译是指利用计算机将一种自然语言翻译成另一种具有相同语 义的自然语言,它是人工智能和自然语言处理领域的重要研究方向之一。 被翻译的语言通常称为源语言,翻译成的结果语言称为目标语言。机器翻译 就是实现从源语言到目标语言转换的过程。通常,机器翻译的系统框架可 以分为两类:基于规则的机器翻译(Rule based MachineTranslation,RBMT) 和基于语料库的机器翻译(Corpus based Machine Translation,CBMT)。其 中CBMT又可分为基于实例的机器翻译(Example based Machine Translation,EBMT)、基于统计的机器翻译(Statistical based Machine Translation,SMT)以及近年流行的利用深度训练模型所构建的神经网络 机器翻译(Neural Machine Translation,NMT)。
基于统计的机器翻译方法实际上将源文本和目标文本之间的翻译看 成是一个概率对照的关系,试图用纯数学的概率统计来获取训练语料中的 翻译对应关系。它的任务就是在所有可能的目标语言的句子中,寻找概率 最大的句子作为翻译结果。统计机器翻译由最初的基于词的翻译模型,发 展到基于短语的翻译模型、基于层次短语的翻译模型、基于句法的翻译模 型和基于语义的翻译模型。
神经机器翻译是指直接采用神经网络以端到端(End-to-End)方式进 行翻译建模的机器翻译方法,其基本思想是使用神经网络直接将源语言映 射成目标语言文本。英国牛津大学的Nal Kalchbrenner和Phil Blunsom于 2013年首先提出了端到端的神经翻译模型。他们为机器翻译提出了一个 “编码器-解码器”的新框架:给定一个源语言句子,首先使用一个编码器将 其映射为一个连续、稠密的向量,然后再使用一个解码器将该向量转化为一个目标语言句子。随着深度训练技术的发展,神经机器翻译模型被广泛 研究,并展现出了相较于统计机器翻译模型的巨大优势。
神经机器翻译在翻译性能上的不断提升,也促进了工业界机器翻译的 发展。Junczys-Dowmunt等人在联合国平行语料库(United Nations Parallel Corpus v1.0)30个语言对上开展了对比工作。实验表明,以BLEU值为评 测指标,与传统的统计机器翻译相比,神经机器翻译具有压倒性的优势: 神经机器翻译在27个语言对上超过了基于短语的统计机器翻译,仅在2 个语言对上以微弱的劣势落败。值得注意的是,神经机器翻译在涉及汉语 的翻译任务上比基于短语的统计机器翻译系统能够提高4至9个BLEU 点,性能提高尤其显著。从2015年以来,神经网络机器翻译已经取代统 计机器翻译成为百度、谷歌、搜狗等商用在线翻译系统的核心技术。
近年来,研究者提出了各种新颖的神经网络组件以提高最终的翻译质 量,如递归神经网络、卷积神经网络以及基于自注意力机制的神经网络。 然而不管是哪一种形式,它们仍未脱离编码器-解码器的整体框架,即采 用编码器编码源语言的信息,采用解码器编码目标语言的信息。这种语言 相关的解码器-编码器模型框架没有利用编码器和解码器结构的相似性, 一方面造成了大量参数的冗余,使得模型庞大难以训练;另一方面它只能 执行一个方向上的翻译任务,没用充分利用双语平行数据。因此,如何利 用模型的对偶性减少模型参数,并充分运用数据的对偶性,是一个非常值 得研究的问题。
发明内容
本发明实施例提供了一种神经网络机器翻译模型的训练方法、装置及 存储介质,以至少解决在机器翻译模型的训练过程中,大量参数的冗余, 从而使得模型庞大难以训练的问题
根据本发明实施例的一个方面,提供了一种神经网络机器翻译模型的 训练方法,其特征在于,方法包括以下步骤:分别对第一句子的头部和第 二句子的头部添加标签,其中,第一句子和第二句子构成双语句子对,标 签将第一句子和第二句子标识为以下四个方向中的一个方向:源端-目标 端、目标端-源端、从左到右、从右到左;使用第一句子和第二句子构成 四个方向上的训练模型;采用多任务训练方法,利用四个方向上的训练模 型,对神经网络机器翻译模型中的单一目标训练函数进行训练。
通过在四个方向上训练神经网络机器翻译模型,可以在减少模型参数 的同时实现多个方向上的翻译任务。
在上述方法中,在采用多任务训练方法,利用四个方向上的训练模型, 对神经网络机器翻译模型中的单一目标训练函数进行训练的步骤之后,还 包括以下步骤:采用极大似然目标函数,使用梯度下降法对神经网络机器 翻译模型的目标训练函数在四个方向上进行联合优化。
通过在四个方向上进行联合优化,神经网络机器翻译模型可以训练到 不同方向中的相关信息,从而改善机器翻译结果的精度。
该方法在采用极大似然目标函数,使用梯度下降法对神经网络机器翻 译模型的目标训练函数在四个方向上进行联合优化的步骤之后,还包括以 下步骤:对于每一个测试句子,根据经训练的神经网络机器翻译模型,使 用柱搜索方法将得分最高的解码句子作为神经网络机器翻译模型的输出 句子,根据解码句子中的标签,将输出句子还原成标准格式。
神经网络机器翻译模型可以使用柱搜索方法将得分最高的解码句子 作为神经网络机器翻译模型的输出句子,从而改善了翻译的准确性
该方法在分别在构成双语句子对的第一句子的头部和第二句子的头 部添加标签的步骤中:在作为神经网络机器翻译模型的输入句子的第一句 子的头部或第二句子的头部添加源端-目标端或目标端-源端的标签,以指 示输入句子是源语言还是目标语言;在作为神经网络机器翻译模型的输出 句子的第一句子的头部或第二句子的头部添加从左到右或从右到左的标 签,以指示输出句子的词语的排列方向是从右到左还是从左到右。
通过将表明不同方向的标签添加在句子的头部,本方法可以在一个模 型中实现四个方向上的翻译任务。
该方法在分别在构成双语句子对的第一句子的头部和第二句子的头 部添加标签的步骤中,包括:对第一句子和第二句子进行分词和词频统计 处理,以统计源语言和目标语言的词频和占比情况,从而确定在神经网络 机器翻译模型的输入端的翻译模型词汇表的大小和输出端的翻译模型词 汇表的大小。
在该方法中,神经网络机器翻译模型包括语言无关的表示器,并且神 经网络机器翻译模型采用自注意力机制网络作为主体结构,语言无关的表 示器包括编码器和解码器。
在神经网络机器翻译模型中,基于对第一句子和第二句子的词频统 计,对第一句子和第二句子中的词语进行降序排列,并且在输入端的翻译 模型词汇表和输出端的翻译模型词汇表中具有相同排序的词语共享相同 的词向量,语言无关的表示器的编码器的子层与解码器的子层具有对应关 系,并且在具有对应关系的编码器的子层与解码器的子层之间共享所有参 数。
编码器的子层和解码器的子层各自包括:自注意力子层、层级正则子 层、全连接子层。
在该方法中,在采用极大似然目标函数,使用梯度下降法对神经网络 机器翻译模型的目标训练函数在四个方向上进行联合优化的步骤中:被指 示为源语言的句子作为输入句子,被指示为目标语言的句子作为输出句 子,计算第一极大似然目标函数;被指示为目标语言的句子作为输入句子, 被指示为源语言的句子作为输出句子,计算第二极大似然目标函数;被指 示为源语言的句子作为输入句子,被指示为词语的排列方向是从左到右的句子作为输出句子,计算第三极大似然目标函数;被指示为源语言的句子 作为输入句子,被指示为词语的排列方向是从右到左的句子作为输出句 子,计算第四极大似然目标函数;对第一极大似然目标函数、第二极大似 然目标函数、第三极大似然目标函数、第四极大似然目标函数求和,得到 目标优化函数,以对神经网络机器翻译模型的目标训练函数在四个方向上 进行联合优化。
通过在四个方向上进行联合优化,进一步提高的翻译的精确度。
在该方法中,对于每一个测试句子,根据经训练的神经网络机器翻译 模型,使用柱搜索方法将得分最高的解码句子作为神经网络机器翻译模型 的输出句子,根据解码句子中的标签,将输出句子还原成标准格式的步骤 包括:神经网络机器翻译模型在第一个时刻预测的测试句子的标签为从右 到左,使用柱搜索方法实现从右到左方向上的解码得出从右到左的第一最 终输出,并计算第一最终输出对应的第一联合极大似然得分;神经网络机 器翻译模型在第一个时刻预测的测试句子的标签为从左到右,使用柱搜索 方法实现从左到右方向上的解码得出从左到右的第二最终输出,并计算第 二最终输出对应的第二联合极大似然得分;从第一联合极大似然得分和第 二联合极大似然得分中选择得分最高者,选择得分最高者对应的输出作为 神经网络机器翻译模型的输出句子。
通过对预测方向进行联合极大似然得分的比较,从而确保了翻译的正 确性和质量。
根据本发明实施例的另一方面,还提供了一种用于神经网络机器翻译 模型的训练装置,其特征在于,装置包括:标签添加单元,被配置为分别 在构成双语句子对的第一句子的头部和第二句子的头部添加标签,标签将 第一句子和第二句子标识为以下四个方向中的一个方向:源端-目标端、 目标端-源端、从左到右、从右到左;模型构成单元,被配置为使用第一 句子和第二句子构成四个方向上的训练模型;训练单元,被配置为采用多 任务训练方法,利用四个方向上的训练模型,对神经网络机器翻译模型中 的单一目标训练函数进行训练。
该装置还包括:优化单元,被配置为采用极大似然目标函数,使用梯 度下降法对神经网络机器翻译模型的目标训练函数在四个方向上进行联 合优化。
训练装置还包括:测试单元,被配置为对于每一个测试句子,根据经 训练的神经网络机器翻译模型,使用柱搜索方法将得分最高的解码句子作 为神经网络机器翻译模型的输出句子,根据解码句子中的标签,将输出句 子还原成标准格式。
标签添加单元进一步被配置为:在作为神经网络机器翻译模型的输入 句子的第一句子的头部或第二句子的头部添加源端-目标端或目标端-源 端的标签,以指示输入句子是源语言还是目标语言;在作为神经网络机器 翻译模型的输出句子的第一句子的头部或第二句子的头部添加从左到右 或从右到左的标签,以指示输出句子的词语的排列方向是从右到左还是从 左到右。
标签添加单元进一步被配置为:对第一句子和第二句子进行分词和词 频统计处理,以统计源语言和目标语言的词频和占比情况,从而确定在神 经网络机器翻译模型的输入端的翻译模型词汇表的大小和输出端的翻译 模型词汇表的大小。
训练装置还包括神经网络机器翻译模型,神经网络机器翻译模型包括 语言无关的表示器,并且神经网络机器翻译模型采用自注意力机制网络作 为主体结构,语言无关的表示器包括编码器和解码器。
在神经网络机器翻译模型中,基于对第一句子和第二句子的词频统 计,对第一句子和第二句子中的词语进行降序排列,并且在输入端的翻译 模型词汇表和输出端的翻译模型词汇表中具有相同排序的词语共享相同 的词向量,语言无关的表示器的编码器的子层与解码器的子层具有对应关 系,并且在具有对应关系的编码器的子层与解码器的子层之间共享所有参 数。
编码器的子层和解码器的子层各自包括:自注意力子层、层级正则子 层、全连接子层。
优化单元进一步被配置为:被指示为源语言的句子作为输入句子,被 指示为目标语言的句子作为输出句子,计算第一极大似然目标函数;被指 示为目标语言的句子作为输入句子,被指示为源语言的句子作为输出句 子,计算第二极大似然目标函数;被指示为源语言的句子作为输入句子, 被指示为词语的排列方向是从左到右的句子作为输出句子,计算第三极大 似然目标函数;被指示为源语言的句子作为输入句子,被指示为词语的排 列方向是从右到左的句子作为输出句子,计算第四极大似然目标函数;对 第一极大似然目标函数、第二极大似然目标函数、第三极大似然目标函数、 第四极大似然目标函数求和,得到目标优化函数,以对神经网络机器翻译 模型的目标训练函数在四个方向上进行联合优化。
测试单元进一步被配置为:神经网络机器翻译模型在第一个时刻预测 的测试句子的标签为从右到左,使用柱搜索方法实现从右到左方向上的解 码得出从右到左的第一最终输出,并计算第一最终输出对应的第一联合极 大似然得分;神经网络机器翻译模型在第一个时刻预测的测试句子的标签 为从左到右,使用柱搜索方法实现从左到右方向上的解码得出从左到右的 第二最终输出,并计算第二最终输出对应的第二联合极大似然得分;从第 一联合极大似然得分和第二联合极大似然得分中选择得分最高者,选择得 分最高者对应的输出作为神经网络机器翻译模型的输出句子。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包 括存储的程序,其中,在程序运行时控制包括存储介质的设备执行上述神 经网络机器翻译模型的训练方法。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一 部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发 明的不当限定。在附图中:
图1是相关技术中神经网络机器翻译“编码器-解码器”框架的示意 图;
图2是相关技术中基于注意力机制的神经网络机器翻译的框架的示意 图;
图3示出了点积注意力机制的示意图;
图4示出了多头注意力机制的示意图;
图5示出了根据本发明实施例的神经网络机器翻译模型的示意图。
图6是本发明提出的融合多任务训练的训练框架和两种解码方式;
图7示出了根据本发明实施例的神经网络机器翻译模型的训练方法的 流程图;
图8示出了根据本发明实施例的用于神经网络机器翻译模型的训练装 置的框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明 实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施 例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动 前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语 “包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含, 例如,包含了一系列步骤或模块或单元的过程、方法、系统、产品或设备 不必限于清楚地列出的那些步骤或模块或单元,而是可包括没有清楚地列 出的或对于这些过程、方法、产品或设备固有的其它步骤或模块或单元。
为便于下文对本发明技术方案的描述,首先对几个基本的概念进行描 述。
图1是相关技术中神经网络机器翻译“编码器-解码器”框架的示意 图。以图1为例,给定一个源语言中文句子“这是成功的秘诀”,编码 器-解码器框架首先将每个中文词生成词向量表示,然后通过一个循环神 经网络从左至右生成整个中文句子的向量表示。其中,“</s>”表示句尾结 束符,我们将源语言端所使用的循环神经网络称为编码器,其作用是将源 语言句子编码成一个稠密、连续的实数向量。此后,目标语言端采用另一 个循环神经网络将源语言句子向量反向解码成目标语言英文句子“This is the secret ofsuccess</s>”。整个解码过程逐词生成,当生成句尾结束符 “</s>”后,解码过程终止。我们将目标语言端所使用的循环神经网络称 为解码器。
相比于传统的统计机器翻译,基于编码器-解码器框架的神经机器翻 译具有直接从数据中训练特征、能够捕获长距离依赖等优点。但是,编码 器-解码器框架也面临一个严重的问题:编码器生成的源语言句子向量表 示的维度与源语言句子长度无关。即不管是较长的源语言句子还是较短的 源语言句子,编码器都需将其映射成一个维度固定的向量,这对实现准确 的编码提出了极大的挑战。
图2是相关技术中基于注意力机制的神经网络机器翻译的框架的示意 图。针对编码器生成定长向量的问题,人们提出了基于注意力机制 (Attention Mechanism)的端到端神经机器翻译。该机制的核心观点认为, 解码器在生成当前目标语言单词时,实际上仅有小部分的源语言词是相关 的,绝大部分源语言词都是无关的。因此可以为每个目标语言词动态生成 源语言端的相关上下文向量,而不是采用表示整个源语言句子的定长向 量。如图2所示,基于注意力机制的神经机器翻译采用了完全不同的编码 器,其目标不再是为整个源语言句子生成向量表示,而是为每个源语言词 生成包含全局信息的向量表示。给定源语言句子X={x1,x2,...,xn},双向循环 神经网络编码器将句子X编码为一个源语言隐式状态序列H={h1,h2,...,hn}, 其中前向循环神经网络顺序读入句子X后产生源语言正向隐式状态序列
Figure RE-GDA0001997067240000111
后向循环神经网络逆序读入句子X后产生源语言逆向隐 式状态序列
Figure RE-GDA0001997067240000112
正向和逆向隐式状态序列中位置对应的状态序 列拼接形成该位置单词的隐式状态
Figure RE-GDA0001997067240000113
在解码时刻t,解码器分别产生该时刻的目标语言隐式状态和目标语 言单词。t时刻目标语言隐式状态St由t-1时刻目标语言隐式状态St-1、t-1 时刻解码器所生成的目标语言单词yt-1以及t时刻上下文向量Ct所决定, 如以下等式(1)所示:
st=g(st-1,yt-1,ct) (1)
其中g为非线性函数,LSTM(Long Short Term Memories,长短时记 忆)或GRU(Gated Recurrent Units,门控循环单元)。t时刻上下文向量ct由源语言隐式状态序列H和注意力模型所产生的权重加权所得,如以下等 式(2)所示:
Figure BDA0001906854580000114
这里注意力模型的权重Wi Q,Wi K,Wi V,Wi Q,Wi K,Wi V由t-1时刻目标语言隐式 状态st和源语言隐式状态序列H产生,如以下等式(3)所示:
Figure BDA0001906854580000115
et,j=f(st,hj)
其中f为非线性函数,通常采用前馈神经网络或点积。权重at,j可以理 解为源语言词语xj和t时刻解码器所产生词语的相关程度。
在取得目标语言隐式状态st后,模型通过softmax函数估计t时刻目 标语言单词的概率分布,如以下等式(4)所示:
P(yt|y<t,X)=softmax(g(st,yt-1,ct)) (4)
神经网络机器翻译模型的训练目标函数为平行语料上翻译句对的对 数似然函数之和,表示为如以下等式(5):
Figure BDA0001906854580000121
D表示平行句对的集合,模型参数θ可通过随机梯度下降法(SGD)、 Adam或Adadelta等优化方法进行求解。
图3示出了点积注意力机制的示意图。在点积注意力机制(Scaled Dot-ProductAttention)中,Attention函数的作用是将查询(query)以及一 个键-值(key-value)对的集合映射到输出(output)上。这里的查询(query)、 键(key)、值(value)和输出(output)都是向量。最终的输出(output) 则是值(value)的加权和,而这些权重是查询(query)和对应键(key) 计算得来的。如图3所示,点积注意力机制的操作步骤为:首先计算query (Q)和所有key(K)的内积,然后除以
Figure BDA0001906854580000122
(dk为键的维度),并使用 softmax获取value(V)的权值,最后加权求和得到对应的输出。图3中 的Mask层是为了避免在解码器中,注意力机制关注到还未生成的序列。
具体公式如等式(6)所示:
Figure BDA0001906854580000131
利用点积注意力机制可以形成点积注意力模型。
图4示出了多头注意力机制的示意图。如图4所示,首先使用线性变 换将查询(query),键(key)和值(value)分别映射为h组维度为dk,dk, dv的向量。在这h组查询(query)、键(key)、值(value)向量上,分别 执行点积注意力机制(Scaled Dot-ProductAttention)得到h个dv维的向量, 然后将这些向量连接起来,得到最后的输出,具体计算过程如下:
MultiHead(Q,K,V)=Concat(head1,…,headh)
其中,headi=Attention(QWi Q,KWi K,VWi V)
其中Wi Q,Wi K,Wi V为模型参数。
利用多头注意力机制可以形成多头注意力模型。
图5示出了根据本发明实施例的神经网络机器翻译模型的示意图。图 5中示出了原始的Transformer网络。在该网络中,图5左侧部分为编码层, 右侧部分为解码层。编码器由N(例如,N为6)个相同的层堆叠而成, 每一层又有两个子层。第一个子层使用例如图4中的多头自注意力机制实 现,第二个子层是一个简单的全连接前馈神经网络。对于全连接前馈神经 网络,包含两层线性变换,并使用了ReLU作为激活函数,在全连接前馈 神经网络中所进行的操作如以下等式(7)所示:
FFN(x)=max(0,xW1+b1)W2+b2 (7)
其中W1,W2,b1,b2为模型参数。
每一个子层之后都使用了残差连接和层级规范化(Layer Normalization)。解码器同样由N个相同的层堆叠而成,其中每层由3个 子层构成。其中2个子层与编码器中的子层相同,另外一个子层则是作用 于编码器输出的多头自注意力。类似于编码器,解码器的每个子层上也使 用了残差连接和层级规范化。
如图5所示,在编码器的输入侧接收源语言序列的输入,利用嵌入层 (图5中为输入嵌入)将源语言序列中的各词语通过矩阵变换形成对应的 词语向量,利用位置编码层对源语言序列中的各词语的位置进行编码以形 成相应的位置向量,将上述所得位置向量加入到词语向量中,使得词语向 量具有位置信息,从上述具有位置信息的词语向量获取源语言序列的第一 隐层向量表示。
将所获取的源语言序列的第一隐层向量表示进行矩阵变换,得到源语 言序列相应的原始查询(Q)、键(K)和值(V),将原始Q、K和V输 入到第一多头注意力模型中,由第一多头注意力模型利用多头注意力机制 对Q、K和V进行处理后,得到源语言序列的第二隐层向量表示。
对第二隐层向量表示进行残差连接和层级规范化处理,例如,将第一 隐层向量表示和第二隐层向量相加做归一化处理,以对模型进行优化。
利用前馈神经网络对经过残差连接和层级规范化处理的第二隐层向 量表示进行非线性变换,得到第三隐层向量表示。
对第三隐层向量表示进行残差连接和层级规范化处理,例如,将第二 隐层向量表示和第三隐层向量表示相加做归一化处理,以进一步对模型进 行优化。
对经过残差连接和层级规范化处理的第三隐层向量进行矩阵变换,以 获得源语言序列的经过上述处理之后的处理的K和V。
将上述处理的K和V输入至第二多头注意力模型。
在解码器的输入侧接收相对于从解码器的输出侧输出的目标语言序 列进行了移位的目标语言序列的输入,这里的目标语言序列包括与源语言 序列对应的正向目标语言序列和反相目标语言序列。由于Transformer模 型中的编码器和解码器包含很多相似的组件,在本发明提出的语言独立的 表示其中,对编码器和解码器中的各个组件进行了参数共享,即,上述公 式中提及的Wi Q,Wi K,Wi V,Wi Q,Wi K,Wi V等模型参数在编码器和解码器中使用同样的值。在此,将具有同样参数的编码器和解码器称之为表示器 (representor),这样在模型优化过程中编码器和解码器中的参数将同时得 到更新。
编码器的子层与解码器的子层具有对应关系,并且在具有对应关系的 编码器的子层与解码器的子层之间共享所有参数。具体地,如图5所示, 相同阴影线条的组件共享相同的模型参数。例如,将编码器和解码器中的 多头自注意力子层中的参数和全连接子层中的参数,以及残差连接和层级 规范化中的参数均设为了一致。
图6是本发明提出的融合多任务训练的训练框架和两种解码方式。如 图6中的(a)所示,首先,在双语句子的开头分别加入标记标签,例如, 在输入句子的开头加入<s2t>、<t2s>的标签用于指示输入句子来自源语言 还是目标语言,在输出句子的开头加入<r2l>、<l2r>的标签用于指示输出 句子的方向是从右到左还是从左到右。然后,对双语句子对进行自动分词、 亚词切分和词频统计。具体地,对双语句子对进行自动分词或Token操作; 统计源语言和目标语言的词频和占比情况,确定翻译模型的两端词汇表大 小。对双语句子对中的源语言和目标语言句子进行自动分词,得到源语言 端和目标语言端的分词结果。如果源语言或目标语言中不包含汉语,则不 需要进行分词。如果源语言或目标语言中包含汉语,则需要用对汉语进行 分词。对汉语进行分词的方法有很多种。在本文的实施例中我们以开源的 分词工具对汉语进行分词。分词工具可以在以下网址免费下载:
http://www.nlpr.ia.ac.cn/cip/software.htm.
得到所述的源语言端和目标语言端的分词结果之后,我们对双语进行 词频统计,即每个单词在训练语料中出现的次数。根据词汇占比(即词汇 表中词汇在训练语料中出现的次数占训练语料总共单词数的比例)选取词 频最高的前M(这里取30000)个词语最为源端和目标端词汇表大小。
然后,设计语言无关的表示器,并将其融入到深层神经网络机器翻译 框架中。例如,采用如图5所示的自注意力机制网络(Transformer)作为 深层神经网络机器翻译模型主体结构;统计双语句子中的词语出现的频率 并按降序排列,在两个语言的词表中具有相同排序的词语共享相同的词向 量,同时解码器的映射输出层也共享相同的参数;共享原始编码器和解码 器中的自注意力子层、层级正则子层和全连接子层的所有参数。
接下来,采用多任务训练方法,将从左到右、从右到左、源端-目标 端、目标端-源端四个方向的翻译模型训练融入到同一目标训练函数中。 例如,分别将源语言和目标语言作为输入和输出,将目标语言和源语言作 为输入和输出,计算两者的极大似然目标函数;分别将源语言和正向目标 语言作为输入和输出,将源语言和反向目标语言作为输入输出,计算两者 的极大似然目标函数;将上面两个步骤中的极大似然目标函数相加,得到 最终的目标优化函数。
接下来,如图6的(b)和(c)所示,对于每一个测试句子根据训练 好的翻译模型,使用柱搜索方法,实现两种解码策略。例如,模型具有自 动预测解码方向的能力,根据模型在第一个时刻自动预测出的标签,使用 柱搜索方法继续实现该标签对应方向上的解码;给定<r2l>作为模型第一 个时刻的解码结果输入到模型中,进而实现目标端从右到左的最终输出; 给定<l2r>作为模型第一个时刻的解码结果输入到模型中,进而实现目标 端从左到右的最终输出;分别计算上面两个步骤得到的模型输出的联合极 大似然得分,从中选择似然得分最高的输出作为最终输出。其中,<pad> 为占位符,<l2r>和<r2l>分别用来引导翻译方向从左至右(left-to-right decoding)和从右至左(right-to-right decoding)。
图7示出了根据本发明实施例的神经网络机器翻译模型的训练方法的 流程图。该方法包括以下步骤:
步骤S702,分别对第一句子的头部和第二句子的头部添加标签,其中, 第一句子和第二句子构成双语句子对,标签将第一句子和第二句子标识为 以下四个方向中的一个方向:源端-目标端、目标端-源端、从左到右、从 右到左。具体地,在双语句子的开头分别加入从左到右、从右到左、源端 -目标端、目标端-源端的标签加以标记。例如,在输入句子的开头加<s2t> 或<t2s>标签指示该输入句子来自源语言还是目标语言,在正向的输出句 子的开头加<l2r>标签,颠倒输出句子顺序在反向的输出句子的开头加 <r2l>标签。然后,对加入标签的双语句子进行自动分词和词频统计。具 体地,对双语句子对中的源语言和目标语言句子进行自动分词,得到源语 言端和目标语言端的分词结果。如果源语言或目标语言中不包含汉语,则 不需要进行分词。如果源语言或目标语言中包含汉语,则需要用对汉语进 行分词。对汉语进行分词的方法有很多种。在本文的实施例中我们以开源 的分词工具对汉语进行分词。分词工具可以在以下网址免费下载:
http://www.nlpr.ia.ac.cn/cip/software.htm.
得到的源语言端和目标语言端的分词结果之后,我们对双语进行词频 统计,即每个单词在训练语料中出现的次数。根据词汇占比(即词汇表中 词汇在训练语料中出现的次数占训练语料总共单词数的比例)选取词频最 高的前M(这里取30000)个词语最为源端和目标端词汇表大小。
步骤S704,使用第一句子和第二句子构成四个方向上的训练模型。
具体地,采用权重共享机制,共享源语言、目标语言以及输出映射层 的模型参数,共享编码器和解码器中模型参数。具体包括以下子步骤:采 用自注意力机制网络(Transformer)搭建深层神经网络机器翻译模型主 体结构(如图5所示)。搭建深层神经网络机器翻译模型主体结构的具体实 现方式如下:
Figure BDA0001906854580000181
MultiHead(Q,K,V)=Concat(head1,...,headh)
其中,headi=Attention(QWi Q,KWi K,VWi V)
这里,Wi Q,Wi K,Wi V为模型参数。Q是查询变量,K和V是键值对变量, dk是隐状态维度,headi表示不同的头,每个头有独立的参数Wi Q,Wi K,Wi V。 具体来说,在编码器和解码器中,查询、键、值都来自上一层的输出,而 在解码器与编码器之间的多头注意力模块中,查询来自解码器的上一模块 的输出,键、值来自编码器最顶层的输出。这里使用多头注意力机制,每 个头分别进行自注意力操作后将输出向量进行拼接,拼接后的输出向量进 行全连接映射得到最终的输出向量。神经网络机器翻译模型根据统计的双 语句子中的词语出现的频率对词语进行降序排列,在两种语言的词表中具 有相同排序的词语共享相同的词向量,同时解码器的映射输出层也共享相 同的词向量。其具体实现方式如下:
首先统计源语言和目标语言中词语出现的频率,按照出现次数从高到 低排序,根据预先设定的词表大小截取出前M(这里选择30000)个词语。 构建一个词向量参数矩阵,该矩阵具有M个向量,每个向量维度为1024。 在两个词表中序号相同的词语使用同一个词向量作为其表示,以实现参数 共享机制。同时,模型的输出层需要把隐变量映射到词表大小的维度,同 样需要一个参数矩阵,我们选择上述词向量参数矩阵作为这里的映射矩 阵。
对于Transformer网络,共享原始编码器和解码器中的自注意力子层、 层级正则子层和全连接子层的所有参数。其具体实现方式如下:
Transformer模型中的编码器和解码器包含很多相似的组件。如图5所 示,相同阴影(相同罗马数字)的组件使用了相同的模型参数,具体来说 将多头自注意力子层中的参数、层级正则子层中的参数和全连接子层中的 参数设为一致。
步骤S706,采用多任务训练方法,利用四个方向上的训练模型,对神 经网络机器翻译模型中的单一目标训练函数进行训练。具体步骤如下:
(1)分别将源语言和目标语言作为输入和输出、将目标语言和源语 言作为输入和输出,计算两者的极大似然目标函数。因为语言无关的表示 器共享原始编码器和解码器中的参数,表示器具有既可以编码源语言也可 以目标语言的能力。分别将源语言和目标语言作为输入和输出、将目标语 言和源语言作为输入和输出,神经网络机器翻译模型的训练目标函数为平 行语料上两个方向的翻译句对对应的对数似然函数之和,表示为:
Figure BDA0001906854580000191
其中,(xn,yn)表示平行句对的源语言和目标语言样本,θ为模型参数, 两个翻译方向上的参数共享。
(2)分别将源语言和正向的目标语言作为输入和输出、将源语言和 反向的目标语言作为输入输出,计算两者的极大似然目标函数。我们将从 左到右的解码和从右到左的解码结合在同一模型中,训练目标函数为从左 到右和从右到左两个方向对应的对数似然函数之和,表示为
Figure BDA0001906854580000192
其中
Figure BDA0001906854580000202
表示正向的输出语言,
Figure BDA0001906854580000203
表示反向的输出语言,θ为模型参数, 与在步骤S710中提到的参数共享。
步骤S708,采用极大似然目标函数,使用梯度下降法对神经网络机器 翻译模型的目标训练函数在四个方向上进行联合优化。具体体实施方式如 下:将上述步骤706中的四个极大似然目标函数相加,得到最终的目标优 化函数。将步骤710提到的目标函数相结合,训练目标是在一个模型中同 时优化源语言到正向目标语言、源语言到反向目标语言、目标语言到正向 源语言以及目标语言到反向源语言四个方向的翻译句对的对数似然函数, 表示为:
Figure BDA0001906854580000201
四个方向共用同一个参数θ,可通过随机梯度下降法(SGD)、Adam或 Adadelta等优化方法进行求解。
步骤S710,对于每一个测试句子,根据经训练的神经网络机器翻译模 型,使用柱搜索方法将得分最高的解码句子作为神经网络机器翻译模型的 输出句子,根据解码句子中的标签,将输出句子还原成标准格式。具体步 骤如下:
(1)模型具有自动预测解码方向的能力,根据模型在第一个时刻自 动预测出的标签,使用柱搜索方法继续实现该标签对应方向上的解码;
(2)给定<r2l>作为模型第一个时刻的解码结果输入到模型中,进而 实现目标端从右到左的最终输出;
(3)给定<l2r>作为模型第一个时刻的解码结果输入到模型中,进而 实现目标端从左到右的最终输出;
(4)分别计算上述步骤(2)、(3)得到的模型输出的联合极大似 然得分,从中选择似然得分最高的输出作为最终输出。
根据本发明的实施例,还提供了一种用于神经网络机器翻译模型的训 练装置。图8示出了根据本发明实施例的用于神经网络机器翻译模型的训 练装置的框图。该训练装置包括:标签添加单元802,被配置为分别在构 成双语句子对的第一句子的头部和第二句子的头部添加标签,标签将第一 句子和第二句子标识为以下四个方向中的一个方向:源端-目标端、目标 端-源端、从左到右、从右到左;模型构成单元804,被配置为使用第一句 子和第二句子构成四个方向上的训练模型;神经网络机器翻译模型806, 神经网络机器翻译模型包括语言无关的表示器,并且神经网络机器翻译模 型采用自注意力机制网络作为主体结构,语言无关的表示器包括编码器和 解码器;训练单元808,被配置为采用多任务训练方法,利用四个方向上 的训练模型,对神经网络机器翻译模型中的单一目标训练函数进行训练; 优化单元810,被配置为采用极大似然目标函数,使用梯度下降法对神经 网络机器翻译模型的目标训练函数在四个方向上进行联合优化;测试单元 812,被配置为对于每一个测试句子,根据经训练的神经网络机器翻译模 型,使用柱搜索方法将得分最高的解码句子作为神经网络机器翻译模型的 输出句子,根据解码句子中的标签,将输出句子还原成标准格式。上述各 个单元的具体操作在前文中已有介绍,这里不再赘述。
实验结果
在实验中我们从语言数据联盟(Linguistic Data Consortium)发布 的中-英训练数据中抽取200万对齐句对作为中英训练语料,使用机器翻译 评测(NIST MTEvaluation)中从2003年至2006年的所有测试集MT03-MT06 作为开发集和测试集。其中MT03作为我们的开发集。在对比实验中,我们 使用大小写不敏感的BLEU-4作为评测指标。
另外,我们使用英-越语言对作为低资源翻译语言对,数据集来自 IWSLT15提供13.3万英-越平行语料。其中英语词表大小选择17000,越语 词表大小选择7700。我们使用TED tst2012作为开发集,TED tst2013作为 测试集。
附表1给出了本发明与标准的基于自注意力机制的神经机器翻译系统 在4组测试数据(MT03、MT04、MT05、MT06)上的参数大小和性能表现。 我们可以看到,使用语言无关的语言表示器替代原有编码器和解码器后, 本发明使用的参数量相比标准的基于自注意力机制的神经机器翻译模型 减少了60%,同时在未采用多任务训练的情况下,本发明在机器自动给出 的评价指标(BLEU)上有0.1个点的提升。这说明本发明模型压缩的能力 和优越性。
附表2给出了本发明在使用语言表示器的基础上,融入多任务训练框架 的模型性能。分别比较了模型在资源丰富的语言对中-英和低资源语言对 英-越、英-日数据集上的表现。附表2第三行给出了同时训练源端-目标端 和目标端-源端两个任务时的结果,第四行给出了同时训练从左到右和从 右到左两个任务时的结果,第五行给出了同时训练四个任务时的结果。可 以看出在使用语言表示器的基础上,融入多任务训练的框架可以显著提升 模型性能。
总之,实验结果表明本发明在深度神经网络翻译模型里使用语言无关 的语言表示器,并融入多任务训练框架一方面能够有效减少模型参数,另 一方面能提升模型翻译质量。
附表1本发明与原始基于自注意力机制的深层神经机器翻译系统及 不同结构共享的模型在中-英不同测试集上的BLEU值。
Figure BDA0001906854580000221
Figure BDA0001906854580000231
附表2本发明结合不同任务联合训练在中-英、英-越、英-日 测试集上BLEU值
Figure BDA0001906854580000232
由于本发明的方法不是针对特定的语言而提出的,所以本发明的方法 具有普遍的适用性。
根据本发明的实施例,还提供了一种存储介质,存储介质包括存储的 程序,其中,在程序运行时控制包括存储介质的设备执行上述神经网络机 器翻译模型的训练方法或执行神经网络机器翻译方法。
根据本发明的实施例,还提供了一种处理器,处理器用于运行程序, 其中,程序运行时执行上述神经网络机器翻译模型的训练方法或执行神经 网络机器翻译方法。
根据本发明的实施例,还提供了一种电子设备,包括:一个或多个处 理器、存储器、显示装置、以及一个或多个程序,其中,一个或多个程序 被存储在存储器中,并且被配置为由一个或多个处理器执行,以使电子设 备执行上述神经网络机器翻译模型的训练方法或执行神经网络机器翻译 方法。

Claims (21)

1.一种神经网络机器翻译模型的训练方法,其特征在于,所述方法包括以下步骤:
分别对第一句子的头部和第二句子的头部添加标签,其中,所述第一句子和所述第二句子构成双语句子对,所述标签将所述第一句子和所述第二句子标识为以下四个方向中的一个方向:源端-目标端、目标端-源端、从左到右、从右到左;
使用所述第一句子和所述第二句子构成所述四个方向上的训练模型;
采用多任务训练方法,利用所述四个方向上的所述训练模型,对所述神经网络机器翻译模型中的单一目标训练函数进行训练。
2.根据权利要求1所述的神经网络机器翻译模型的训练方法,其特征在于,所述方法在采用多任务训练方法,利用所述四个方向上的训练模型,对所述神经网络机器翻译模型中的单一目标训练函数进行训练的步骤之后,还包括以下步骤:
采用极大似然目标函数,使用梯度下降法对所述神经网络机器翻译模型的所述目标训练函数在所述四个方向上进行联合优化。
3.根据权利要求2所述的神经网络机器翻译模型的训练方法,其特征在于,在采用极大似然目标函数,使用梯度下降法对所述神经网络机器翻译模型的所述目标训练函数在所述四个方向上进行联合优化的步骤之后,所述方法还包括以下步骤:
对于每一个测试句子,根据经训练的所述神经网络机器翻译模型,使用柱搜索方法将得分最高的解码句子作为所述神经网络机器翻译模型的输出句子,根据所述解码句子中的所述标签,将所述输出句子还原成标准格式。
4.根据权利要求1所述的神经网络机器翻译模型的训练方法,其特征在于,在分别在构成双语句子对的第一句子的头部和所述第二句子的头部添加标签的步骤中:
在作为所述神经网络机器翻译模型的输入句子的所述第一句子的头部或所述第二句子的头部添加所述源端-目标端或所述目标端-源端的标签,以指示所述输入句子是源语言还是目标语言;
在作为所述神经网络机器翻译模型的输出句子的所述第一句子的头部或所述第二句子的头部添加所述从左到右或从右到左的标签,以指示所述输出句子的词语的排列方向是从右到左还是从左到右。
5.根据权利要求4所述的神经网络机器翻译模型的训练方法,其特征在于,在分别在构成双语句子对的第一句子的头部和所述第二句子的头部添加标签的步骤中,包括:
对所述第一句子和所述第二句子进行分词和词频统计处理,以统计所述源语言和所述目标语言的词频和占比情况,从而确定在所述神经网络机器翻译模型的输入端的翻译模型词汇表的大小和输出端的翻译模型词汇表的大小。
6.根据权利要求5所述的神经网络机器翻译模型的训练方法,其中,所述神经网络机器翻译模型包括语言无关的表示器,并且所述神经网络机器翻译模型采用自注意力机制网络作为主体结构,所述语言无关的表示器包括编码器和解码器。
7.根据权利要求6所述的神经网络机器翻译模型的训练方法,其中,在所述神经网络机器翻译模型中,基于对所述第一句子和所述第二句子的词频统计,对所述第一句子和所述第二句子中的词语进行降序排列,并且在所述输入端的翻译模型词汇表和所述输出端的翻译模型词汇表中具有相同排序的词语共享相同的词向量,所述语言无关的表示器的所述编码器的子层与所述解码器的子层具有对应关系,并且在具有对应关系的所述编码器的子层与所述解码器的子层之间共享所有参数。
8.根据权利要求7所述的神经网络机器翻译模型的训练方法,其中,所述编码器的子层和所述解码器的子层各自包括:自注意力子层、层级正则子层、全连接子层。
9.根据权利要求4所述的神经网络机器翻译模型的训练方法,其中,在采用极大似然目标函数,使用梯度下降法对所述神经网络机器翻译模型的所述目标训练函数在所述四个方向上进行联合优化的步骤中:
被指示为所述源语言的句子作为所述输入句子,被指示为所述目标语言的句子作为所述输出句子,计算第一极大似然目标函数;
被指示为所述目标语言的句子作为所述输入句子,被指示为所述源语言的句子作为所述输出句子,计算第二极大似然目标函数;
被指示为所述源语言的句子作为所述输入句子,被指示为词语的排列方向是从左到右的句子作为所述输出句子,计算第三极大似然目标函数;
被指示为所述源语言的句子作为所述输入句子,被指示为词语的排列方向是从右到左的句子作为所述输出句子,计算第四极大似然目标函数;
对所述第一极大似然目标函数、第二极大似然目标函数、第三极大似然目标函数、第四极大似然目标函数求和,得到目标优化函数,以对所述神经网络机器翻译模型的所述目标训练函数在所述四个方向上进行联合优化。
10.根据权利要求3所述的神经网络机器翻译模型的训练方法,对于每一个测试句子,根据经训练的所述神经网络机器翻译模型,使用柱搜索方法将得分最高的解码句子作为所述神经网络机器翻译模型的输出句子,根据所述解码句子中的所述标签,将所述输出句子还原成标准格式的步骤包括:
所述神经网络机器翻译模型在第一个时刻预测的所述测试句子的标签为从右到左,使用柱搜索方法实现从右到左方向上的解码得出从右到左的第一最终输出,并计算所述第一最终输出对应的第一联合极大似然得分;
所述神经网络机器翻译模型在第一个时刻预测的所述测试句子的标签为从左到右,使用柱搜索方法实现从左到右方向上的解码得出从左到右的第二最终输出,并计算所述第二最终输出对应的第二联合极大似然得分;
从所述第一联合极大似然得分和所述第二联合极大似然得分中选择得分最高者,选择所述得分最高者对应的输出作为所述神经网络机器翻译模型的输出句子。
11.一种用于神经网络机器翻译模型的训练装置,其特征在于,所述训练装置包括:
标签添加单元,被配置为分别在构成双语句子对的第一句子的头部和第二句子的头部添加标签,所述标签将所述第一句子和所述第二句子标识为以下四个方向中的一个方向:源端-目标端、目标端-源端、从左到右、从右到左;
模型构成单元,被配置为使用所述第一句子和所述第二句子构成所述四个方向上的训练模型;
训练单元,被配置为采用多任务训练方法,利用所述四个方向上的训练模型,对所述神经网络机器翻译模型中的单一目标训练函数进行训练。
12.根据权利要求11所述的用于神经网络机器翻译模型的训练装置,其特征在于,所述训练装置还包括:
优化单元,被配置为采用极大似然目标函数,使用梯度下降法对所述神经网络机器翻译模型的所述目标训练函数在所述四个方向上进行联合优化。
13.根据权利要求12所述的用于神经网络机器翻译模型的训练装置,其特征在于,所述训练装置还包括:
测试单元,被配置为对于每一个测试句子,根据经训练的所述神经网络机器翻译模型,使用柱搜索方法将得分最高的解码句子作为所述神经网络机器翻译模型的输出句子,根据所述解码句子中的所述标签,将所述输出句子还原成标准格式。
14.根据权利要求12所述的用于神经网络机器翻译模型的训练装置,其特征在于,所述标签添加单元进一步被配置为:
在作为所述神经网络机器翻译模型的输入句子的所述第一句子的头部或所述第二句子的头部添加所述源端-目标端或所述目标端-源端的标签,以指示所述输入句子是源语言还是目标语言;
在作为所述神经网络机器翻译模型的输出句子的所述第一句子的头部或所述第二句子的头部添加所述从左到右或从右到左的标签,以指示所述输出句子的词语的排列方向是从右到左还是从左到右。
15.根据权利要求14所述的用于神经网络机器翻译模型的训练装置,其特征在于,所述标签添加单元进一步被配置为:对所述第一句子和所述第二句子进行分词和词频统计处理,以统计所述源语言和所述目标语言的词频和占比情况,从而确定在所述神经网络机器翻译模型的输入端的翻译模型词汇表的大小和输出端的翻译模型词汇表的大小。
16.根据权利要求15所述的用于神经网络机器翻译模型的训练装置,其中,所述训练装置还包括所述神经网络机器翻译模型,所述神经网络机器翻译模型包括语言无关的表示器,并且所述神经网络机器翻译模型采用自注意力机制网络作为主体结构,所述语言无关的表示器包括编码器和解码器。
17.根据权利要求16所述的用于神经网络机器翻译模型的训练装置,其中,在所述神经网络机器翻译模型中,基于对所述第一句子和所述第二句子的词频统计,对所述第一句子和所述第二句子中的词语进行降序排列,并且在所述输入端的翻译模型词汇表和所述输出端的翻译模型词汇表中具有相同排序的词语共享相同的词向量,所述语言无关的表示器的所述编码器的子层与所述解码器的子层具有对应关系,并且在具有对应关系的所述编码器的子层与所述解码器的子层之间共享所有参数。
18.根据权利要求17所述的用于神经网络机器翻译模型的训练装置,其中,所述编码器的子层和所述解码器的子层各自包括:自注意力子层、层级正则子层、全连接子层。
19.根据权利要求14所述的用于神经网络机器翻译模型的训练装置,其中,所述优化单元进一步被配置为:
被指示为所述源语言的句子作为所述输入句子,被指示为所述目标语言的句子作为所述输出句子,计算第一极大似然目标函数;
被指示为所述目标语言的句子作为所述输入句子,被指示为所述源语言的句子作为所述输出句子,计算第二极大似然目标函数;
被指示为所述源语言的句子作为所述输入句子,被指示为词语的排列方向是从左到右的句子作为所述输出句子,计算第三极大似然目标函数;
被指示为所述源语言的句子作为所述输入句子,被指示为词语的排列方向是从右到左的句子作为所述输出句子,计算第四极大似然目标函数;
对所述第一极大似然目标函数、第二极大似然目标函数、第三极大似然目标函数、第四极大似然目标函数求和,得到目标优化函数,以对所述神经网络机器翻译模型的所述目标训练函数在所述四个方向上进行联合优化。
20.根据权利要求13所述的用于神经网络机器翻译模型的训练装置,所述测试单元进一步被配置为:
所述神经网络机器翻译模型在第一个时刻预测的所述测试句子的标签为从右到左,使用柱搜索方法实现从右到左方向上的解码得出从右到左的第一最终输出,并计算所述第一最终输出对应的第一联合极大似然得分;
所述神经网络机器翻译模型在第一个时刻预测的所述测试句子的标签为从左到右,使用柱搜索方法实现从左到右方向上的解码得出从左到右的第二最终输出,并计算所述第二最终输出对应的第二联合极大似然得分;
从所述第一联合极大似然得分和所述第二联合极大似然得分中选择得分最高者,选择所述得分最高者对应的输出作为所述神经网络机器翻译模型的输出句子。
21.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制包括所述存储介质的设备执行权利要求1至10中任意一项所述的方法。
CN201811535879.4A 2018-12-14 2018-12-14 神经网络机器翻译模型的训练方法、装置及存储介质 Pending CN111401079A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811535879.4A CN111401079A (zh) 2018-12-14 2018-12-14 神经网络机器翻译模型的训练方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811535879.4A CN111401079A (zh) 2018-12-14 2018-12-14 神经网络机器翻译模型的训练方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN111401079A true CN111401079A (zh) 2020-07-10

Family

ID=71430108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811535879.4A Pending CN111401079A (zh) 2018-12-14 2018-12-14 神经网络机器翻译模型的训练方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111401079A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931518A (zh) * 2020-10-15 2020-11-13 北京金山数字娱乐科技有限公司 一种翻译模型的训练方法及装置
CN112633019A (zh) * 2020-12-29 2021-04-09 北京奇艺世纪科技有限公司 一种双语样本生成方法、装置、电子设备及存储介质
CN112733556A (zh) * 2021-01-28 2021-04-30 何灏 同步交互式翻译方法及装置、存储介质、计算机设备
CN112800725A (zh) * 2020-08-24 2021-05-14 北京金山数字娱乐科技有限公司 一种翻译模型
CN112836527A (zh) * 2021-01-31 2021-05-25 云知声智能科技股份有限公司 一种机器翻译模型的训练方法、系统、设备及存储介质
CN113204978A (zh) * 2021-05-13 2021-08-03 中国科学技术大学 一种机器翻译增强训练方法及系统
CN113836192A (zh) * 2021-08-13 2021-12-24 深译信息科技(横琴)有限公司 平行语料的挖掘方法、装置、计算机设备及存储介质
CN114154519A (zh) * 2022-02-08 2022-03-08 北京大学 基于加权标签平滑的神经机器翻译模型训练方法
CN114997185A (zh) * 2021-10-27 2022-09-02 荣耀终端有限公司 翻译方法、介质、程序产品及电子设备
WO2023082900A1 (zh) * 2021-11-10 2023-05-19 北京有竹居网络技术有限公司 用于机器翻译的方法、设备和介质

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800725A (zh) * 2020-08-24 2021-05-14 北京金山数字娱乐科技有限公司 一种翻译模型
CN112861476A (zh) * 2020-08-24 2021-05-28 北京金山数字娱乐科技有限公司 一种翻译模型
CN112883690A (zh) * 2020-08-24 2021-06-01 北京金山数字娱乐科技有限公司 一种翻译模型
CN111931518A (zh) * 2020-10-15 2020-11-13 北京金山数字娱乐科技有限公司 一种翻译模型的训练方法及装置
CN112633019B (zh) * 2020-12-29 2023-09-05 北京奇艺世纪科技有限公司 一种双语样本生成方法、装置、电子设备及存储介质
CN112633019A (zh) * 2020-12-29 2021-04-09 北京奇艺世纪科技有限公司 一种双语样本生成方法、装置、电子设备及存储介质
CN112733556A (zh) * 2021-01-28 2021-04-30 何灏 同步交互式翻译方法及装置、存储介质、计算机设备
CN112733556B (zh) * 2021-01-28 2024-04-05 何灏 同步交互式翻译方法及装置、存储介质、计算机设备
CN112836527A (zh) * 2021-01-31 2021-05-25 云知声智能科技股份有限公司 一种机器翻译模型的训练方法、系统、设备及存储介质
CN112836527B (zh) * 2021-01-31 2023-11-21 云知声智能科技股份有限公司 一种机器翻译模型的训练方法、系统、设备及存储介质
CN113204978A (zh) * 2021-05-13 2021-08-03 中国科学技术大学 一种机器翻译增强训练方法及系统
CN113204978B (zh) * 2021-05-13 2024-04-02 中国科学技术大学 一种机器翻译增强训练方法及系统
CN113836192A (zh) * 2021-08-13 2021-12-24 深译信息科技(横琴)有限公司 平行语料的挖掘方法、装置、计算机设备及存储介质
CN114997185A (zh) * 2021-10-27 2022-09-02 荣耀终端有限公司 翻译方法、介质、程序产品及电子设备
WO2023082900A1 (zh) * 2021-11-10 2023-05-19 北京有竹居网络技术有限公司 用于机器翻译的方法、设备和介质
CN114154519B (zh) * 2022-02-08 2022-04-26 北京大学 基于加权标签平滑的神经机器翻译模型训练方法
CN114154519A (zh) * 2022-02-08 2022-03-08 北京大学 基于加权标签平滑的神经机器翻译模型训练方法

Similar Documents

Publication Publication Date Title
CN111401079A (zh) 神经网络机器翻译模型的训练方法、装置及存储介质
Malmi et al. Encode, tag, realize: High-precision text editing
CN110390103B (zh) 基于双编码器的短文本自动摘要方法及系统
Zhang et al. Deep Neural Networks in Machine Translation: An Overview.
CN111783462A (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN112487182A (zh) 文本处理模型的训练方法、文本处理方法及装置
Chitnis et al. Variable-length word encodings for neural translation models
CN108491389B (zh) 点击诱饵标题语料识别模型训练方法和装置
CN111651589B (zh) 一种针对长文档的两阶段文本摘要生成方法
CN109522403A (zh) 一种基于融合编码的摘要文本生成方法
CN114676234A (zh) 一种模型训练方法及相关设备
CN109635197B (zh) 搜索方法、装置、电子设备及存储介质
CN110457713A (zh) 基于机器翻译模型的翻译方法、装置、设备和存储介质
CN111401081A (zh) 神经网络机器翻译方法、模型及模型形成方法
CN110990555A (zh) 端到端检索式对话方法与系统及计算机设备
CN115221846A (zh) 一种数据处理方法及相关设备
CN113987169A (zh) 基于语义块的文本摘要生成方法、装置、设备及存储介质
JP2023022845A (ja) ビデオ処理方法、ビデオサーチ方法及びモデルトレーニング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN110263304B (zh) 语句编码方法、语句解码方法、装置、存储介质及设备
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
do Carmo Nogueira et al. Reference-based model using multimodal gated recurrent units for image captioning
CN115512195A (zh) 一种基于多交互信息融合的图像描述方法
CN112711661A (zh) 跨语言自动摘要生成方法、装置、计算机设备及存储介质
CN112818670A (zh) 可分解变分自动编码器句子表示中的切分语法和语义

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination