CN110874537B - 多语言翻译模型的生成方法、翻译方法及设备 - Google Patents

多语言翻译模型的生成方法、翻译方法及设备 Download PDF

Info

Publication number
CN110874537B
CN110874537B CN201811012412.1A CN201811012412A CN110874537B CN 110874537 B CN110874537 B CN 110874537B CN 201811012412 A CN201811012412 A CN 201811012412A CN 110874537 B CN110874537 B CN 110874537B
Authority
CN
China
Prior art keywords
language
sentence
source
unit
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811012412.1A
Other languages
English (en)
Other versions
CN110874537A (zh
Inventor
朱长峰
于恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811012412.1A priority Critical patent/CN110874537B/zh
Publication of CN110874537A publication Critical patent/CN110874537A/zh
Application granted granted Critical
Publication of CN110874537B publication Critical patent/CN110874537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种多语言翻译模型的生成方法、翻译方法及设备,多语言翻译模型的生成方法包括:构建语料库,所述语料库包括多个双语句对,所述双语句对包括互译的两个语句;将所述双语句对作为训练样本,对预设的多语言翻译网络进行训练,以生成多语言翻译模型,其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句。利用本发明实施例可生成多语言翻译模型,执行多语言语句的翻译任务。

Description

多语言翻译模型的生成方法、翻译方法及设备
技术领域
本发明涉及计算机领域,尤其是涉及一种多语言翻译方法、翻译方法及其装置、设备和计算机可读存储介质。
背景技术
机器翻译是指利用计算机程序将文字从一种自然语言(源语言)翻译成另一种自然语言(目标语言)的技术。目前,基于语料库的机器翻译技术代表着该领域的主流技术趋势,诸如统计机器翻译(Statistical Machine Translation,SMT)及神经网络机器翻译(Neural Machine Translation,NMT),均依赖于含有大量训练数据的语料库来进行对翻译模型的训练。双语语料是这类语料库中的一种语料数据,无论对于SMT,还是NMT,绝大多数机器翻译技术均是基于双语语料进行模型训练。然而,由于双语语料仅是特定语言对(例如中-英、英-俄)的互译语料,因此训练得到的机器翻译模型也仅针对该特定语言对的翻译任务,对于第三种语言则无法做出应有的翻译。
另一方面,一直以来,机器翻译领域中翻译模型所需的训练语料属于稀缺资源。举例来讲,目前认为,高质量的双语互译语料中,中-英双语互译句对有2亿条,英-俄双语互译句对有1亿条,而中-俄的双语互译句对仅有200万条。也就是说,与中-英、英-俄的双语语料库数据量相比,中-俄双语语料库的数据量明显偏少,属于稀缺资源语言对,以至于针对中-俄双语的机器翻译模型的训练无法达到预期,翻译质量堪忧。
对于如何实现稀缺资源语言对的源语言与目标语言(例如中-俄)之间的翻译,目前已知的处理方式有两种:第一种方式是寻找一种桥接语言(例如英文),对从源语言到桥接语言(例如中-英)的翻译模型和从桥接语言到目标语言(例如英-俄)的翻译模型,分别独立地进行训练,之后再进行两次翻译(源语言翻译为桥接语言、桥接语言翻译为目标语言),通过桥接的方式,最终完成源语言到目标语言的翻译;第二种方式是基于传统的神经机器翻译模型,强行将所有的语言对语料(例如中-英、英-俄以及中-俄)进行共同训练,最终得到一个涉及多语言(例如中文、英文和俄文)的机器翻译模型。
以上两种处理方式虽然能够在一定程度上实现例如三种语言的翻译,但是,由于该两种处理方式本身存在的缺陷,其翻译质量与期望效果相差甚远。对于第一种方式,两次翻译容易带来错误叠加,并且如果两个翻译模型采用的训练数据来自完全不同的领域,可导致错误叠加的问题加剧,此外两次翻译也更加耗时;对于第二种方式,将多语言对语料一起进行训练,当不同语言之间的语言特点或构成存在较大差别(例如语序差别很大)时,传统的多语言翻译框架将无法解决由语言特点不同所带来的翻译知识冲突问题,兼容性得不到保证。
发明内容
有鉴于此,本发明提出一种多语言机器翻译方法、翻译方法及其装置、设备和计算机可读存储介质,可以用来解决稀缺资源语言对的翻译问题。
第一方面,本发明提供一种多语言翻译模型的生成方法,包括:
构建语料库,所述语料库包括多个双语句对,所述双语句对包括互译的两个语句;
将所述双语句对作为训练样本,对预设的多语言翻译网络进行训练,以生成多语言翻译模型,其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句。
第二方面,本发明提供一种多语言翻译模型生成装置,包括:
语料库构建模块,用于构建语料库,所述语料库包括多个双语句对,所述双语句对包括互译的两个语句;
多语言翻译模型训练模块,用于将所述双语句对作为训练样本,对预设的多语言翻译网络进行训练,以生成多语言翻译模型,其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句。
第三方面,本发明提供一种计算设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如上所述的方法。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序指令,其中,当所述计算机程序指令被处理器执行时实现如上所述的方法。
第五方面,本发明提供一种翻译方法,包括:
获取待翻译的源语言语句和目标语言;
将所述待翻译的源语言语句和目标语言输入训练好的多语言翻译模型;
所述多语言翻译模型输出所述源语言语句对应的目标语言翻译结果;其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句。
第六方面,本发明提供一种翻译装置,包括:
待翻译信息获取模块,用于获取待翻译的源语言语句和目标语言;
待翻译信息输入模块,用于将所述待翻译的源语言语句和目标语言输入训练好的多语言翻译模型;
所述多语言翻译模型,用于输出所述源语言语句对应的目标语言翻译结果;其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句。
第七方面,本发明提供一种计算设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如上所述的方法。
第八方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现如上所述的方法。
利用本发明的实施例对预设的多语言翻译网络进行训练,可将源语言语句转换为中间语义表示,并基于此得到翻译后的目标语言语句,与源语言语句的正确翻译语句进行对比,从而生成训练好的多语言翻译模型,使用训练好的多语言翻译模型可完成多种待翻译语言语句的翻译任务。
附图说明
图1为本发明实施例的一种多语言翻译模型生成方法的流程框图。
图2为本发明实施例的一种多语言翻译模型的功能结构框图。
图3为本发明实施例的一种翻译方法的流程框图。
图4为本发明实施例的一种多语言翻译模型的功能结构框图。
图5为本发明实施例的一种翻译方法的流程框图。
图6为本发明实施例的设备的硬件结构示意图。
具体实施方式
以下结合附图及实施例,对本发明进行详细描述。应理解,所描述的具体实施例仅用于解释本发明,而并不用于限定本发明。文中的诸如第一、第二等用语仅用来对一个实体(或操作)与另一个实体(或操作)进行区分,而不表示这些实体(或操作)之间存在任何关系或顺序;另外,文中的诸如上、下、左、右、前、后等表示方向或方位的用语,仅表示相对的方向或方位,而非绝对的方向或方位。在没有额外限制的情况下,由语句“包括”限定的要素,不排除在包括所述要素的过程、方法、物品或者设备中还存在其他要素。
本发明的主要思想在于通过将不同语言的文本均转换为同一语义空间下的潜在的中间语义表示(Latent Interlingua Semantics),再根据该潜在的中间语义表示得到对应的翻译结果,以此达到基于一个翻译模型实现多语言翻译的目的。以下对本发明的各个方面进行详细描述。
参考图1,示出了本发明实施例的一种多语言翻译模型的生成方法的流程框图,该方法包括:
S101,构建语料库,该语料库包括多个双语句对,该双语句对包括互译的两个语句;
S102,将所述双语句对作为训练样本,对预设的多语言翻译网络进行训练,以生成多语言翻译模型;
其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句。
利用上述方案对预设的多语言翻译网络进行训练,可将源语言语句转换为中间语义表示,并基于此得到翻译后的目标语言语句,与源语言语句的正确翻译语句进行对比,从而完成模型训练。使用训练好的多语言翻译模型可对稀缺资源语言的待翻译语句进行翻译,得到期望的翻译结果。
这里,所述的双语句对指的是互译的两种语言的语句,即双语句对包括采用第一语言编写的第一语句和采用第二语言编写的第二语句,第一语句与第二语句具有互译关系。双语句对例如可以是(中文语句,英文语句),(中文语句,俄文语句)等等。所述的语料库中包括至少三种语言的语句,所述的至少三种语言可以是任意语言(例如中文、英文、俄文、法文、印尼文、德文、意大利文、韩文,等等)中的至少三种。
使用上述语料库的原因在于,利用至少三种语言的语料对网络中的中间语义层进行训练,训练好的模型能够完成至少三种语言中两两语言之间的翻译任务。
参考图2,示出了本发明实施例的一种多语言翻译网络的功能结构框图,包括源端处理模块100和目标端处理模块200,
源端处理模块100用于确定源语言语句对应的中间语义表示;
目标端处理模块200用于根据所述中间语义表示生成源语言语句所对应的目标端语言的翻译语句。
在本发明的实施例中,对预设的多语言翻译网络的训练包括:针对语料库中的任一双语句对,双语句对包括采用第一语言编写的第一语句和采用第二语言编写的第二语句,将双语句对中的第一语句输入多语言翻译网络,依次经过源端处理模块100、目标端处理模块200,输出第一语句所对应的第二语言的翻译语句。将目标端处理模块200得到的第二语言的翻译语句与双语句对中的第二语句进行对比,据此调整多语言翻译网络的参数,目的是对多语言翻译网络的参数进行优化,并将最优参数下的多语言翻译网络作为训练好的多语言翻译模型。当然,本领域技术人员可以理解,在采用上述由第一语句、第二语句构成的双语句对对多语言翻译网络进行训练的过程中,也可以将第二语句输入多语言翻译网络,得到第二语句所对应的第一语言的翻译语句,通过对比第一语言的翻译语句与双语句对中的第一语句的差异,来调整多语言翻译网络的参数。也就是说,语料库中的每个双语句对都可以作为两个训练样本,来进行多语言翻译网络的训练。
举例来讲,假设训练样本为:互译的中文语句zh和英文语句en,且源语言为中文,目标语言为英文。那么,针对该样本的训练过程是:将中文语句zh输入多语言翻译网络的源端处理模块100,然后经源端处理模块100和目标端处理模块200的多层处理,网络会输出中文语句zh对应的英文翻译语句en’。然后,基于该翻译语句en’与真实的翻译语句en之间的差距,通过设置并计算损失函数,来评价网络的误差,根据误差优化网络参数。当参数达到最优时模型训练完成,将最优参数下的多语言翻译网络作为训练好的多语言翻译模型。
可选地,多语言翻译网络还包括对抗网络处理单元60,训练时,对抗网络处理单元60可采用生成式对抗网络GAN(Generative Adversarial Networks),对源端处理模块100得到的不同语言语句所对应的中间语义表示进行区分,从而使潜在的中间语义表示更加语言无关,更好的消除不同语言之间因语言特点不同例如语序不同带来的翻译冲突。
参考图3,示出了本发明实施例的一种翻译方法的流程框图,包括:
S100,获取待翻译的源语言语句和目标语言;
S200,将所述待翻译的源语言语句和目标语言输入训练好的多语言翻译模型;
S300,所述多语言翻译模型输出所述源语言语句对应的目标语言翻译结果;其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句。
利用上述方案可将源语言语句转换为中间语义表示,并基于此得到翻译后的目标语言语句。利用该方法可对稀缺资源语言的待翻译语句进行翻译,得到期望的翻译结果。
在本发明的实施例中,多语言翻译模型中的源端处理模块100包括依次相连的词嵌入单元、编码器和源端注意力单元,目标端处理模块200包括相连的目标端注意力单元和解码器,除此之外,多语言翻译模型还包括语种向量单元,具体来看:
参考图4,示出了本发明实施例的一种训练好的多语言翻译模型的功能结构框图,包括依次相连的词嵌入单元11、编码器12、源端注意力单元13、目标端注意力单元14和解码器15,还包括与所述编码器12、源端注意力单元13、目标端注意力单元14和解码器15分别相连的语种向量单元16,
其中,词嵌入单元11的输出端与编码器12的输入端相连,词嵌入单元11生成源语言语句所包括的词的词向量序列;
编码器12确定源语言语句的词向量序列所对应的隐状态表示;
语种向量单元16中存储有语种向量表,包含各个语言所对应的语种向量,语种向量单元16可根据语种向量表确定源端语言所对应的语种向量;
源端注意力单元13根据源语言语句的隐状态表示和源端语言的语种向量生成源语言语句的中间语义表示;
目标端注意力单元14根据中间语义表示生成源端语言语句所对应的目标语言的隐状态表示;
语种向量单元16还确定目标语言所对应的语种向量;
解码器15根据源语言语句所对应的目标语言的隐状态表示和目标语言的语种向量,来确定源语言语句所对应的目标语言的翻译结果。
利用上述的多语言翻译模型可将源语言语句转换为中间语义表示,并基于此得到翻译的目标语言语句,该多语言翻译模型可对稀缺资源语言的待翻译语句进行翻译,得到期望的翻译结果。
在实际应用中,关于词嵌入单元11,可根据翻译需要设置多个词嵌入单元,每个词嵌入单元对应于一种语言,可生成该语言的语句所包括的词的词向量序列。词嵌入单元11例如可以采用word2vec、GloVe等词向量模型来生成词向量。
以下通过具体的实例描述本发明实施例的可选的具体处理过程。需要说明的是,本发明的方案并不依赖于具体的算法,在实际应用中,可选用任何已知或未知的硬件、软件、算法、程序或其任意组合等来实现本发明的方案,只要是采用了本发明方案的实质思想,均落入本发明的保护范围。
参考图5,示出了本发明实施例的一种多语言翻译模型,以中(zh)、英(en)、印尼(id)三个语种为例,介绍如下:
1.词向量表(word embedding)(图中未示出):每个语言拥有自己的词向量表。此处,源端和目标端词向量表分别有中、英、印尼三个,包含各自语言的高频单词。
2.语种向量表:所有语言共享一个语种向量表,语种向量表中存储有各个语言所对应的语种向量,例如,中文、英文、印尼文分别具有各自对应的语种向量。
3.编码器(Encoder):负责将输入的源语言语句的词向量序列编码为隐状态表示。
4.源端注意力模块(ATT_src):负责将编码器得到的源语言语句的隐状态表示转换为中间语义表示,这是个语种相关的模块,输入中包含源语言的语种向量。
5.目标端注意力模块(ATT_trg):负责将中间语义表示转换为目标语言的隐状态标识,这是个语种相关的模块,输入中包含目标语言的语种向量。
6.潜在中间语义表示(Latent Interlingua Semantics):这是个语言无关的中间语义表示模块,旨在从多语言互译语料里学习到跨语言的中间语义表示。
7.生成对抗学习网络(GAN):这个模块旨在让潜在中间语义表示更加语言无关。
以下描述该模型处理翻译任务的过程:
(1)对于输入的待翻译请求,可为中翻英(zh2en)、英翻印尼(en2id)或者中翻印尼(zh2id)等,分别从对应的中、英、印尼词向量表中取出词向量表示。
(2)对所有语向的源端词向量使用相同的编码器进行编码,产生源端隐状态表示。再通过源端注意力模块,将不同语言的隐状态转换到相同的潜在中间语义表示。源端注意力模块会使用源端语种向量作为输入,从而达到对不同的语言进行不同的转换。zh2en,zh2id一起学习可强化中文的词向量、编码器以及中文到中间语义的转换模块。
(3)对产生的中间语义表示,生成对抗网络,强化该中间语义表示尽可能的语言无关。
(4)解码阶段,目标端注意力模块将中间语义表示转换为对应目标语言的隐状态,然后进一步映射到目标端的对应语言词向量表中正确的翻译词。
根据上述过程可以看出,①zh2en,zh2id一起学习强化了中文的编码器,中文到中间语义的转换模块。②而en2id,zh2id一起学习强化了中间语义到印尼语的转换模块、解码器及印尼语的词向量。③由①和②可以看出,zh2en和en2id两个翻译语言方向的数据能够帮助zh2id的翻译。④对于三个语种的训练,实际的训练样例有:zh2en、zh2id、en2zh、en2id、id2zh、id2en,一起训练能更好的强化各语种特定信息及潜在中间语义表示。
本发明对语言特性和语言共性分别建模,具体地,语言特性部分:让每个语种使用单独的词向量表示,同时对每个语种输入的句子有关联的语种向量表示;语言共性部分:所有语言的语义压缩,及解压缩共享相同的网络结构。本发明提出了潜在中间语义表示层,由于各个语言独特性,语言对之间的翻译对齐关系差异很大。强行让多语言对共享同样的注意力机制,会出现冲突问题,从而降低各个语言对的翻译质量。本发明提出的中间语义表示层课将多个语言对的互译关系分解为源语言到中间语义的翻译和中间语义到目标语言的翻译。通过这种方式,模型能够从相同源语言的不同语言对中学到源语言到中间语义的翻译知识,从相同目标语言的不同语言对中学习到中间语义到目标语言的翻译知识。
与本发明实施例的方法相对应地,本发明还提供一种装置、设备和计算机存储介质。
对应于本发明一个实施例的多语言翻译模型的生成方法,本发明提供一种多语言翻译模型的生成装置,包括:语料库构建模块,用于构建语料库,所述语料库包括多个双语句对,所述双语句对包括互译的两个语句;多语言翻译模型训练模块,用于将所述双语句对作为训练样本,对预设的多语言翻译网络进行训练,以生成多语言翻译模型,其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句。
对应于本发明一个实施例的翻译方法,本发明还提供一种翻译装置,包括:待翻译信息获取模块,用于获取待翻译的源语言语句和目标语言;待翻译信息输入模块,用于将所述待翻译的源语言语句和目标语言输入训练好的多语言翻译模型;所述多语言翻译模型,用于输出所述源语言语句对应的目标语言翻译结果;其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句。
本发明还提供一种计算设备,所述计算设备包括:存储器,用于存储程序;处理器,用于运行所述存储器中存储的所述程序,以执行本发明实施例所述的多语言翻译模型的生成方法、翻译方法中的各步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现本发明实施例所述的多语言翻译模型的生成方法、翻译方法中的各步骤。
应当指出,在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机程序指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
图6示出了能够实现根据本发明实施例的方法和设备的示例性硬件架构的结构图,例如本发明实施例的计算设备。其中,计算设备1000包括输入设备1001、输入接口1002、处理器1003、存储器1004、输出接口1005、以及输出设备1006。
其中,输入接口1002、处理器1003、存储器1004、以及输出接口1005通过总线1010相互连接,输入设备1001和输出设备1006分别通过输入接口1002和输出接口1005与总线1010连接,进而与计算设备1000的其他组件连接。
具体地,输入设备1001接收来自外部的输入信息,并通过输入接口1002将输入信息传送到处理器1003;处理器1003基于存储器1004中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器1004中,然后通过输出接口1005将输出信息传送到输出设备1006;输出设备1006将输出信息输出到计算设备1000的外部供用户使用。
计算设备1000可以执行本发明上述的方法中的各步骤。
处理器1003可以是一个或多个中央处理器(英文:Central Processing Unit,CPU)。在处理器601或处理器701是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
存储器1004可以是但不限于随机存储存储器(RAM)、只读存储器(ROM),可擦除可编程只读存储器(EPROM)、光盘只读存储器(CD-ROM)、硬盘等中的一种或多种。存储器1004用于存储程序代码。可以理解,本发明实施例提供的任一模块或全部模块的功能可以用央处理器1003实现。
本说明书的各个部分均采用递进的方式进行描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点介绍的都是与其他实施例不同之处。尤其,对于装置和系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处可参见方法实施例部分的说明。

Claims (14)

1.一种多语言翻译模型的生成方法,包括:
构建语料库,所述语料库包括多个双语句对,所述双语句对包括互译的两个语句;其中,所述双语句对包括采用第一语言编写的第一语句和采用第二语言编写的第二语句;
将所述双语句对作为训练样本,对预设的多语言翻译网络进行训练,以生成多语言翻译模型,其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句;
所述多语言翻译网络包括依次相连的源端处理模块和目标端处理模块,所述源端处理模块包括依次相连的编码器和源端注意力单元,
所述编码器用于确定所述第一语句所对应的隐状态表示;
所述源端注意力单元用于根据所述隐状态表示来生成所述第一语句的第一中间语义表示;
所述多语言翻译网络还包括语种向量单元,所述语种向量单元中存储有各个语言所对应的语种向量;
所述语种向量单元的输出端与所述源端注意力单元的输入端相连,所述源端注意力单元进一步用于根据所述隐状态表示和所述第一语言的语种向量来生成所述第一语句的第一中间语义表示;
所述源端处理模块还包括词嵌入单元,所述词嵌入单元的输出端与所述编码器的输入端相连,所述词嵌入单元用于生成所述第一语句所包括的词的词向量序列;
所述目标端处理模块包括依次相连的目标端注意力单元和解码器,
所述目标端注意力单元用于根据所述第一中间语义表示生成所述第一语句所对应的第二语言的隐状态表示;
所述解码器用于根据所述第二语言的隐状态表示确定所述第一语句所对应的第二语言的翻译结果;
所述多语言翻译网络还包括语种向量单元,所述语种向量单元中存储有各个语言所对应的语种向量;
所述语种向量单元的输出端与所述解码器的输入端相连,所述语种向量单元用于确定所述第二语言的隐状态表示的语种向量。
2.根据权利要求1所述的方法,其中,所述语料库中包括至少三种语言的语句。
3.根据权利要求1或2所述的方法,
所述源端处理模块用于确定所述第一语句对应的第一中间语义表示;
所述目标端处理模块用于根据所述第一中间语义表示来生成所述第一语句所对应的第二语言的翻译语句。
4.根据权利要求3所述的方法,其中,所述对预设的多语言翻译网络进行训练,以生成多语言翻译模型的步骤包括:
根据所述翻译语句和所述第二语句来调整所述多语言翻译网络的参数;以及
将最优参数下的多语言翻译网络作为多语言翻译模型。
5.根据权利要求1所述的方法,其中,所述源端处理模块包括多个词嵌入单元,每个词嵌入单元对应于一种语言。
6.根据权利要求3所述的方法,其中,所述多语言翻译网络还包括对抗网络处理单元,用于采用生成式对抗网络对不同语言语句所对应的中间语义表示进行区分。
7.一种多语言翻译模型的生成装置,包括:
语料库构建模块,用于构建语料库,所述语料库包括多个双语句对,所述双语句对包括互译的两个语句;其中,所述双语句对包括采用第一语言编写的第一语句和采用第二语言编写的第二语句;
多语言翻译模型训练模块,用于将所述双语句对作为训练样本,对预设的多语言翻译网络进行训练,以生成多语言翻译模型,其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句;
所述多语言翻译网络包括依次相连的源端处理模块和目标端处理模块,所述源端处理模块包括依次相连的编码器和源端注意力单元,
所述编码器用于确定所述第一语句所对应的隐状态表示;
所述源端注意力单元用于根据所述隐状态表示来生成所述第一语句的第一中间语义表示;
所述多语言翻译网络还包括语种向量单元,所述语种向量单元中存储有各个语言所对应的语种向量;
所述语种向量单元的输出端与所述源端注意力单元的输入端相连,所述源端注意力单元进一步用于根据所述隐状态表示和所述第一语言的语种向量来生成所述第一语句的第一中间语义表示;
所述源端处理模块还包括词嵌入单元,所述词嵌入单元的输出端与所述编码器的输入端相连,所述词嵌入单元用于生成所述第一语句所包括的词的词向量序列;
所述目标端处理模块包括依次相连的目标端注意力单元和解码器,
所述目标端注意力单元用于根据所述第一中间语义表示生成所述第一语句所对应的第二语言的隐状态表示;
所述解码器用于根据所述第二语言的隐状态表示确定所述第一语句所对应的第二语言的翻译结果;
所述多语言翻译网络还包括语种向量单元,所述语种向量单元中存储有各个语言所对应的语种向量;
所述语种向量单元的输出端与所述解码器的输入端相连,所述语种向量单元用于确定所述第二语言的隐状态表示的语种向量。
8.一种计算设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如权利要求1至6中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序指令,其中,当所述计算机程序指令被处理器执行时实现如权利要求1至6中任一项所述的方法。
10.一种翻译方法,包括:
获取待翻译的源语言语句和目标语言;
将所述待翻译的源语言语句和目标语言输入训练好的多语言翻译模型;
所述多语言翻译模型输出所述源语言语句对应的目标语言翻译结果;其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句;
其中,所述多语言翻译模型包括依次相连的词嵌入单元、编码器、源端注意力单元、目标端注意力单元和解码器,还包括与所述编码器、源端注意力单元、目标端注意力单元和解码器分别相连的语种向量单元,其中,
所述词嵌入单元的输出端与编码器的输入端相连,词嵌入单元用于生成源语言语句所包括的词的词向量序列;
所述编码器用于确定源语言语句的词向量序列所对应的隐状态表示;
所述语种向量单元中存储有语种向量表,语种向量表包含各个语言所对应的语种向量,语种向量单元用于根据语种向量表确定源语言语句的隐状态表示的语种向量;
所述源端注意力单元用于根据源语言语句的隐状态表示的语种向量生成源语言语句的中间语义表示;
所述目标端注意力单元用于根据中间语义表示生成源语言语句所对应的目标语言的隐状态表示;
所述语种向量单元还确定源语言语句所对应的目标语言的隐状态表示的语种向量;
所述解码器用于根据源语言语句所对应的目标语言的隐状态表示的语种向量来确定源语言语句所对应的目标语言的翻译结果。
11.根据权利要求10所述的方法,其中,所述多语言翻译模型还包括对抗网络处理模块,用于采用生成式对抗网络对不同语言语句所对应的中间语义表示进行区分。
12.一种翻译装置,包括:
待翻译信息获取模块,用于获取待翻译的源语言语句和目标语言;
待翻译信息输入模块,用于将所述待翻译的源语言语句和目标语言输入训练好的多语言翻译模型;
所述多语言翻译模型,用于输出所述源语言语句对应的目标语言翻译结果;其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句;
其中,所述多语言翻译模型包括依次相连的词嵌入单元、编码器、源端注意力单元、目标端注意力单元和解码器,还包括与所述编码器、源端注意力单元、目标端注意力单元和解码器分别相连的语种向量单元,其中,
所述词嵌入单元的输出端与编码器的输入端相连,词嵌入单元用于生成源语言语句所包括的词的词向量序列;
所述编码器用于确定源语言语句的词向量序列所对应的隐状态表示;
所述语种向量单元中存储有语种向量表,语种向量表包含各个语言所对应的语种向量,语种向量单元用于根据语种向量表确定源语言语句的隐状态表示的语种向量;
所述源端注意力单元用于根据源语言语句的隐状态表示的语种向量生成源语言语句的中间语义表示;
所述目标端注意力单元用于根据中间语义表示生成源语言语句所对应的目标语言的隐状态表示;
所述语种向量单元还确定源语言语句所对应的目标语言的隐状态表示的语种向量;
所述解码器用于根据源语言语句所对应的目标语言的隐状态表示的语种向量来确定源语言语句所对应的目标语言的翻译结果。
13.一种计算设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如权利要求10至11中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序指令,其中,当所述计算机程序指令被处理器执行时实现如权利要求10至11中任一项所述的方法。
CN201811012412.1A 2018-08-31 2018-08-31 多语言翻译模型的生成方法、翻译方法及设备 Active CN110874537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811012412.1A CN110874537B (zh) 2018-08-31 2018-08-31 多语言翻译模型的生成方法、翻译方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811012412.1A CN110874537B (zh) 2018-08-31 2018-08-31 多语言翻译模型的生成方法、翻译方法及设备

Publications (2)

Publication Number Publication Date
CN110874537A CN110874537A (zh) 2020-03-10
CN110874537B true CN110874537B (zh) 2023-06-27

Family

ID=69715447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811012412.1A Active CN110874537B (zh) 2018-08-31 2018-08-31 多语言翻译模型的生成方法、翻译方法及设备

Country Status (1)

Country Link
CN (1) CN110874537B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695361A (zh) * 2020-04-29 2020-09-22 平安科技(深圳)有限公司 中英双语语料库的构建方法、及其相关设备
US11586833B2 (en) 2020-06-12 2023-02-21 Huawei Technologies Co., Ltd. System and method for bi-directional translation using sum-product networks
CN111709431B (zh) * 2020-06-15 2023-02-10 厦门大学 即时翻译方法、装置、计算机设备和存储介质
CN112132094B (zh) * 2020-09-30 2022-07-15 中国科学技术大学 基于多语言协同的连续手语识别系统
CN112687271B (zh) * 2020-12-16 2023-04-11 北京百度网讯科技有限公司 语音翻译方法、装置、电子设备和存储介质
CN112633019B (zh) * 2020-12-29 2023-09-05 北京奇艺世纪科技有限公司 一种双语样本生成方法、装置、电子设备及存储介质
CN112800780A (zh) * 2021-01-26 2021-05-14 浙江香侬慧语科技有限责任公司 一种多语种机器翻译方法、装置、存储介质及设备
CN112906401A (zh) * 2021-03-29 2021-06-04 山东浪潮通软信息科技有限公司 一种多语数据录入与存储的方法、设备及介质
CN113241074A (zh) * 2021-04-28 2021-08-10 平安科技(深圳)有限公司 多语言转译模型的训练方法、装置、设备及可读存储介质
CN113204977B (zh) * 2021-04-29 2023-09-26 北京有竹居网络技术有限公司 信息翻译方法、装置、设备和存储介质
CN113438542B (zh) * 2021-05-28 2022-11-08 北京智慧星光信息技术有限公司 字幕实时翻译方法、系统、电子设备及存储介质
CN113539239B (zh) * 2021-07-12 2024-05-28 网易(杭州)网络有限公司 语音转换方法、装置、存储介质及电子设备
CN113591498B (zh) * 2021-08-03 2023-10-03 北京有竹居网络技术有限公司 翻译处理方法、装置、设备及介质
CN113919368B (zh) * 2021-10-11 2024-05-24 北京大学 一种基于多语言建模的低资源对话生成方法及系统
CN114201975B (zh) * 2021-10-26 2024-04-12 中国科学技术大学 翻译模型训练方法和翻译方法及其装置
CN115409044A (zh) * 2022-08-26 2022-11-29 北京有竹居网络技术有限公司 翻译方法、装置、可读介质及电子设备
CN115455981B (zh) * 2022-11-11 2024-03-19 合肥智能语音创新发展有限公司 一种多语种语句的语义理解方法、装置、设备及存储介质
CN117236348B (zh) * 2023-11-15 2024-03-15 厦门东软汉和信息科技有限公司 一种多语言自动转换系统、方法、装置及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391842A (zh) * 2014-12-18 2015-03-04 苏州大学 一种翻译模型构建方法和系统
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN107368475A (zh) * 2017-07-18 2017-11-21 中译语通科技(北京)有限公司 一种基于生成对抗神经网络的机器翻译方法和系统
CN107967262A (zh) * 2017-11-02 2018-04-27 内蒙古工业大学 一种神经网络蒙汉机器翻译方法
CN108027812A (zh) * 2015-09-18 2018-05-11 迈克菲有限责任公司 用于多路径语言翻译的系统和方法
CN108304390A (zh) * 2017-12-15 2018-07-20 腾讯科技(深圳)有限公司 基于翻译模型的训练方法、翻译方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110313755A1 (en) * 2009-02-10 2011-12-22 Oh Eui Jin Multilanguage web page translation system and method for translating a multilanguage web page and providing the translated web page

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391842A (zh) * 2014-12-18 2015-03-04 苏州大学 一种翻译模型构建方法和系统
CN108027812A (zh) * 2015-09-18 2018-05-11 迈克菲有限责任公司 用于多路径语言翻译的系统和方法
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN107368475A (zh) * 2017-07-18 2017-11-21 中译语通科技(北京)有限公司 一种基于生成对抗神经网络的机器翻译方法和系统
CN107967262A (zh) * 2017-11-02 2018-04-27 内蒙古工业大学 一种神经网络蒙汉机器翻译方法
CN108304390A (zh) * 2017-12-15 2018-07-20 腾讯科技(深圳)有限公司 基于翻译模型的训练方法、翻译方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姚亮 ; 洪宇 ; 刘昊 ; 刘乐 ; 姚建民 ; .基于翻译模型和语言模型相融合的双语句对选择方法.中文信息学报.2016,(第05期),145-152. *
马军.基于翻译关系图的复述获取方法研究.中国优秀硕士学位论文全文数据库.2018,全文. *

Also Published As

Publication number Publication date
CN110874537A (zh) 2020-03-10

Similar Documents

Publication Publication Date Title
CN110874537B (zh) 多语言翻译模型的生成方法、翻译方法及设备
KR102025968B1 (ko) 구문 기반 사전 추출 및 번역 품질 평가 기법
KR20190073525A (ko) 기계 학습 작업의 암시적 브리징
US9934203B2 (en) Performance detection and enhancement of machine translation
US9940324B2 (en) Performance detection and enhancement of machine translation
WO2006138386A2 (en) Collocation translation from monolingual and available bilingual corpora
JP2015201169A (ja) 多様な意味カテゴリに基づいた翻訳結果提供方法およびシステム
US11288460B2 (en) Translation support system, etc
Kenny Human and machine translation
Menacer et al. Machine translation on a parallel code-switched corpus
US20150161109A1 (en) Reordering words for machine translation
Melby et al. Translation memory
CN110889295B (zh) 机器翻译模型、伪专业平行语料的确定方法、系统及设备
CN110874535A (zh) 依存关系对齐组件、依存关系对齐训练方法、设备及介质
Maimaiti et al. Data augmentation for low‐resource languages NMT guided by constrained sampling
Scannell Statistical models for text normalization and machine translation
JP2016164707A (ja) 自動翻訳装置及び翻訳用モデル学習装置
JP2017010274A (ja) 対応付け装置及びプログラム
Moradshahi et al. X-RiSAWOZ: High-Quality End-to-End Multilingual Dialogue Datasets and Few-shot Agents
Rikters Hybrid machine translation by combining output from multiple machine translation systems
JP5924677B2 (ja) 機械翻訳装置、機械翻訳方法、およびプログラム
Rikters et al. Combining machine translated sentence chunks from multiple MT systems
Pathak et al. A case study of Hindi–English example-based machine translation
Luekhong et al. A study of a Thai-English translation comparing on applying phrase-based and hierarchical phrase-based translation
KR102653880B1 (ko) 번역 품질 평가 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant