CN114861628A

CN114861628A - 训练机器翻译模型的系统、方法、电子设备及存储介质

Info

Publication number: CN114861628A
Application number: CN202210440987.3A
Authority: CN
Inventors: 朱宪超; 韩冰; 霍展羽
Original assignee: Sichuan Lan Bridge Information Technology Co ltd
Current assignee: Sichuan Lan Bridge Information Technology Co ltd
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-08-05

Abstract

本发明提供一种训练机器翻译模型的系统、方法、电子设备及存储介质，训练机器翻译模型的方法包括：获取待翻译的原译文；基于所述原译文搜集多语词典；基于所述多语词典搜集所述原译文对照的平行语料；通过所述多语词典将所述平行语料中所述原译文中的词语或短语进行随机替换；基于替换完成后的语料与原始语料训练机器翻译模型；将待翻译的原译文输入至训练完成的机器翻译模型中，得到机器翻译模型输出的翻译结果。该训练机器翻译模型的方法改善了现有技术中机器翻译模型不能翻译多语种混合文本的问题。

Description

训练机器翻译模型的系统、方法、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种训练机器翻译模型的系统、方法、电子设备及存储介质。

背景技术

深度学习时代，机器翻译主要依靠搜索海量的平行语料，包含原文和其对应的参考译文，对原文译文的平行语料进行分词，将语料送入深度学习模型进行训练，使用训练好的模型翻译原文。

在真实的翻译场景中，我们经常遇到原文中夹杂译文语种的词句。而我们训练模型时搜集的平行语料中，往往原文中只包含原文语种的文字，译文中也只包含译文语种的文字。因此训练出来的模型往往对上述问题不能很好地处理。

发明内容

本发明的目的在于提供一种训练机器翻译模型的系统、方法、电子设备及存储介质，该训练机器翻译模型的方法能够解决现有技术中机器翻译模型不能翻译多语种混合文本的问题。

为了实现上述目的，本发明提供如下技术方案：

本发明实施例提供一种训练机器翻译模型的方法，所述方法具体包括：

获取待翻译的原译文；

基于所述原译文搜集多语词典；

基于所述多语词典搜集所述原译文对照的平行语料；

通过所述多语词典将所述平行语料中所述原译文中的词语或短语进行随机替换；

基于替换完成后的语料与原始语料训练机器翻译模型；

将待翻译的原译文输入至训练完成的机器翻译模型中，得到机器翻译模型输出的翻译结果。

在上述技术方案的基础上，本发明还可以做如下改进：

进一步地，所述基于所述多语词典搜集所述原译文对照的平行语料，包括：

判断所述原译文的应用场景；

基于所述应用场景确定多语词典的语言种类，其中，所述语言种类包括原文语种和译文语种。

进一步地，所述通过所述多语词典将所述平行语料中所述原译文中的词语或短语进行随机替换，包括：

基于CodeSwitch技术对所述平行语料进行语料增强，使所述机器翻译模型具有翻译混合语种文本的能力。

进一步地，所述基于替换完成后的语料与原始语料训练机器翻译模型，包括：

将替换完成后的语料与原始语料进行混合得到混合语料；

将所述混合语料送入机器翻译模型进行训练，得到训练完成的机器翻译模型。

进一步地，所述将待翻译的原译文输入至训练完成的机器翻译模型中，得到机器翻译模型输出的翻译结果，包括：

机器翻译模型翻译待翻译的原译文过程中，引入外部的多语词典，替换原译文中对应的词语或短句。

一种训练机器翻译模型的系统，包括：

获取模块，用于获取待翻译的原译文；

搜集模块，用于基于所述原译文搜集多语词典，基于所述多语词典搜集所述原译文对照的平行语料；

替换模块，用于通过所述多语词典将所述平行语料中所述原译文中的词语或短语进行随机替换；

机器翻译模型，基于替换完成后的语料与原始语料训练机器翻译模型，所述机器翻译模型用于将待翻译的原译文进行翻译并输出翻译结果。

进一步地，所述训练机器翻译模型的系统还包括判断模块，所述判断模块用于判断所述原译文的应用场景，并基于所述应用场景确定多语词典的语言种类，其中，所述语言种类包括原文语种和译文语种。

进一步地，所述机器翻译模型还用于：

翻译待翻译的原译文过程中，引入外部的多语词典，替换原译文中对应的词语或短句。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如所述方法的步骤。

一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述方法的步骤。

本发明具有如下优点：

本发明中的训练机器翻译模型的方法，获取待翻译的原译文；基于所述原译文搜集多语词典；基于所述多语词典搜集所述原译文对照的平行语料；通过所述多语词典将所述平行语料中所述原译文中的词语或短语进行随机替换；基于替换完成后的语料与原始语料训练机器翻译模型；将待翻译的原译文输入至训练完成的机器翻译模型中，得到机器翻译模型输出的翻译结果；使用CodeSwitch技术对翻译平行语料进行语料增强，使机器翻译模型具有翻译混合语种文本的能力；机器翻译模型翻译过程中，通过引入外部多语词典，替换原译文中对应的词语或短句，达到引入外部知识，使机器翻译模型具有将一词多义的词组或短语翻译成指定内容的能力；解决了现有技术中机器翻译模型不能翻译多语种混合文本的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明训练机器翻译模型的方法的流程图；

图2为本发明训练机器翻译模型的系统的框图；

图3为本发明训练机器翻译模型的翻译示意图；

图4为本发明提供的电子设备实体结构示意图。

附图标记说明

获取模块10，搜集模块20，替换模块30，判断模块40，机器翻译模型50，电子设备60，处理器601，存储器602，总线603。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明训练机器翻译模型的方法实施例流程图，如图1所示，本发明实施例提供的一种训练机器翻译模型的方法包括以下步骤：

S101，获取待翻译的原译文；

S102，基于原译文搜集多语词典；

具体的，搜集多语词典，多语词典是单语词典的对称，指的是词目和释文使用三种或更多种语言的词典，是双语词典的扩大，具有双鱼词典的基本特点。

S103，基于多语词典搜集原译文对照的平行语料；

具体的，判断所述原译文的应用场景；

语料，即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。

所以，人们简单地用文本作为替代，并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。我们把一个文本集合称为语料库(Corpus)，当有几个这样的文本集合的时候，我们称之为语料库集合(Corpora)。

平行/对应语料库(parallel corpora)是由原文文本及其平行对应的译语文本构成的双语/多语语料库，其对齐程度可有词级、句级、段级和篇级几种。平行语料库按翻译方向的不同有单向平行语料库(uni-directional parallel corpora)、双向平行语料库(bi-directional parallel corpora)和多向平行语料库(multidirectional parallelcorpora)等三种形式。

S104，通过多语词典将平行语料中原译文中的词语或短语进行随机替换；

具体的，基于CodeSwitch技术对所述平行语料进行语料增强，使所述机器翻译模型50具有翻译混合语种文本的能力。

CodeSwitch指的是一句话中，嵌入至少两种语言的单词或词组。CodeSwitch指的是句子级别之间的语言转换。

S105，基于替换完成后的语料与原始语料训练机器翻译模型50；

具体的，将替换完成后的语料与原始语料进行混合得到混合语料；

将所述混合语料送入机器翻译模型50进行训练，得到训练完成的机器翻译模型50。

S106，将待翻译的原译文输入至训练完成的机器翻译模型50中，得到机器翻译模型50输出的翻译结果；

具体的，机器翻译模型50翻译待翻译的原译文过程中，引入外部的多语词典，替换原译文中对应的词语或短句。

在实际的应用场景中，有些句子是中英文混杂的，如：

Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。更准确地讲,Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。论文中给出Transformer的定义是:Transformer is the first transduction modelrelying entirely on self-attention to compute representations of its inputand output without using sequence aligned RNNs or convolution。

假如需要将这一段中英混合的文本翻译为纯中文。传统的做法是对这段话进行精细化的分句；传统的方法无法同时做到将英文部分翻译、中文部分照抄并且保证语义的连贯性。

对于极端的情况，如：

Hello，我is好people；译文：你好，我是好人类。

如果强行将此中英文分开，则会造成整句话译文的割裂；

训练模型过程：

假设我们有词典：

NBA:美国职业篮球；

有语料：

I like NBA.<->我喜欢美国职业篮球。

此语料将被替换为：I like美国职业篮球<->我喜欢美国职业篮球。

另一条语料:

I watch NBA every day.<->我每天都看NBA。

此时因为译文没有“美国职业篮球”，则此条语料不被替换；

如图3所示，breadboard是一个多义词，模型如果直接翻译I want a breadboard，则模型在缺乏先验知识的情况下，倾向于将breadboard翻译成切面包板。由于前面的训练过程，模型已经具备了翻译中英混合的句子的能力，所以当我们翻译的文本是电工领域的时候，词典告诉我们此时breadboard应当翻译为电路板，此时在原文输入模型时，我们只需要将breadboard替换为电路板，则模型生成的译文中，则一定包含“电路板”，此时breadboard便被正确翻译了。

本发明中的训练机器翻译模型的方法，获取待翻译的原译文；基于所述原译文搜集多语词典；基于所述多语词典搜集所述原译文对照的平行语料；通过所述多语词典将所述平行语料中所述原译文中的词语或短语进行随机替换；基于替换完成后的语料与原始语料训练机器翻译模型50；将待翻译的原译文输入至训练完成的机器翻译模型50中，得到机器翻译模型50输出的翻译结果；使用CodeSwitch技术对翻译平行语料进行语料增强，使机器翻译模型50具有翻译混合语种文本的能力；机器翻译模型50翻译过程中，通过引入外部多语词典，替换原译文中对应的词语或短句，达到引入外部知识，使机器翻译模型50具有将一词多义的词组或短语翻译成指定内容的能力；解决了现有技术中机器翻译模型50不能翻译多语种混合文本的问题。

图2为本发明训练机器翻译模型的系统实施例流程图；如图2所示，本发明实施例提供的一种训练机器翻译模型的系统，包括以下步骤：

获取模块10，用于获取待翻译的原译文；

搜集模块20，用于基于所述原译文搜集多语词典，基于所述多语词典搜集所述原译文对照的平行语料；

替换模块30，用于通过所述多语词典将所述平行语料中所述原译文中的词语或短语进行随机替换；

机器翻译模型50，基于替换完成后的语料与原始语料训练机器翻译模型50，所述机器翻译模型50用于将待翻译的原译文进行翻译并输出翻译结果。将替换完成后的语料与原始语料进行混合得到混合语料；

所述训练机器翻译模型50的系统还包括判断模块40，所述判断模块40用于判断所述原译文的应用场景，并基于所述应用场景确定多语词典的语言种类，其中，所述语言种类包括原文语种和译文语种。

所述机器翻译模型50还用于：

基于CodeSwitch技术对所述平行语料进行语料增强，使所述机器翻译模型50具有翻译混合语种文本的能力；

机器翻译模型50翻译待翻译的原译文过程中，引入外部的多语词典，替换原译文中对应的词语或短句。

图4为本发明实施例提供的电子设备实体结构示意图，如图4所示，电子设备60包括：处理器601(processor)、存储器602(memory)和总线603；

其中，处理器601、存储器602通过总线603完成相互间的通信；

处理器601用于调用存储器602中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取待翻译的原译文；基于所述原译文搜集多语词典；基于所述多语词典搜集所述原译文对照的平行语料；通过所述多语词典将所述平行语料中所述原译文中的词语或短语进行随机替换；基于替换完成后的语料与原始语料训练机器翻译模型50；将待翻译的原译文输入至训练完成的机器翻译模型50中，得到机器翻译模型50输出的翻译结果。

本实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的方法，例如包括：获取待翻译的原译文；基于所述原译文搜集多语词典；基于所述多语词典搜集所述原译文对照的平行语料；通过所述多语词典将所述平行语料中所述原译文中的词语或短语进行随机替换；基于替换完成后的语料与原始语料训练机器翻译模型50；将待翻译的原译文输入至训练完成的机器翻译模型50中，得到机器翻译模型50输出的翻译结果。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的存储介质。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种训练机器翻译模型的方法，其特征在于，所述方法具体包括：

获取待翻译的原译文；

基于所述原译文搜集多语词典；

基于所述多语词典搜集所述原译文对照的平行语料；

基于替换完成后的语料与原始语料训练机器翻译模型；

2.根据权利要求1所述的训练机器翻译模型的方法，其特征在于，所述基于所述多语词典搜集所述原译文对照的平行语料，包括：

判断所述原译文的应用场景；

3.根据权利要求1所述的训练机器翻译模型的方法，其特征在于，所述通过所述多语词典将所述平行语料中所述原译文中的词语或短语进行随机替换，包括：

4.根据权利要求1所述的训练机器翻译模型的方法，其特征在于，所述基于替换完成后的语料与原始语料训练机器翻译模型，包括：

将替换完成后的语料与原始语料进行混合得到混合语料；

5.根据权利要求1所述的训练机器翻译模型的方法，其特征在于，所述将待翻译的原译文输入至训练完成的机器翻译模型中，得到机器翻译模型输出的翻译结果，包括：

6.一种训练机器翻译模型的系统，其特征在于，包括：

获取模块，用于获取待翻译的原译文；

7.根据权利要求6所述的训练机器翻译模型的系统，其特征在于，所述训练机器翻译模型的系统还包括判断模块，所述判断模块用于判断所述原译文的应用场景，并基于所述应用场景确定多语词典的语言种类，其中，所述语言种类包括原文语种和译文语种。

8.根据权利要求6所述的训练机器翻译模型的系统，其特征在于，所述机器翻译模型还用于：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中的任一项所述的方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中的任一项所述的方法的步骤。