CN115270826B

CN115270826B - 多语言翻译模型构建方法、翻译方法及计算机存储介质

Info

Publication number: CN115270826B
Application number: CN202211208978.8A
Authority: CN
Inventors: 刘明童; 陈圆梦; 周明
Original assignee: Beijing Lanzhou Technology Co ltd
Current assignee: Beijing Lanzhou Technology Co ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-01-24
Anticipated expiration: 2042-09-30
Also published as: CN115270826A

Abstract

本发明涉及自然语言处理技术领域，特别涉及一种多语言翻译模型构建方法，包括以下步骤：获取模型并进行预训练；对模型添加语言转换器得到多语言翻译模型；具体是为每种源语言和目标语言构建一套词表以及和词表对应的词嵌入矩阵，再将对应语言的语言转换器接在词嵌入矩阵之后。通过在模型中设计了语言转换器，实现各语言独立的语义空间和跨语言共享的语义空间之间实现自由转换，使模型在充分利用参数共享以提升跨语言表示质量，降低跨语言翻译知识迁移难度的同时，实现目标语言在其独有语义空间下生成的能力，从而有效避免小样本和零样本的脱靶翻译问题。

Description

多语言翻译模型构建方法、翻译方法及计算机存储介质

技术领域

本发明涉及自然语言处理技术领域，其特别涉及一种多语言翻译模型构建方法、翻译方法及计算机存储介质。

背景技术

神经机器翻译（NMT）模型使用端到端的方式训练用于编码源语言语义信息的编码器（Encoder）和用于解码生成目标语言的解码器（Decoder）。相较于统计机器翻译（SMT）模型，神经机器翻译模型无需再为每种语言设计独立的自然语言处理组件，因此可以轻易地迁移到不同语言的翻译任务之上，或通过多任务学习的方式构建能够同时处理多种语言之间翻译的神经机器翻译模型，即多语言神经机器翻译（MNMT）模型。

多语言神经机器翻译模型（下称多语言翻译模型）一个最为显著的优点是能够通过大量的参数共享，使得其极大地降低了构建模型所需的参数量。相较于为每种语言对单独训练一个机器翻译模型所需的

个模型，多语言翻译模型仅使用

个模型就能够实现所有语言方向的翻译。即便单模型的参数量通常有所区别，但在语言种类较多时，多语言翻译模型仍在模型训练、部署和维护等方面具有明显的优势。除此之外，多语言翻译模型已被广泛证实能够通过翻译知识的迁移，提升部分或全部语言对之间的翻译质量，这一点在低资源语言上表现尤为突出。因此，如何构建高质量的多语言翻译模型，在工业界和学术界中都备受关注。

虽然多语言翻译模型在零资源翻译方向上的脱靶翻译可以通过约束解码空间得到有效的解决，但为每种语言单独构建编、解码器或词嵌入则不利于不同语言之间翻译知识的共享。

发明内容

为了解决不同语言间之间的翻译知识不易共享的问题，本发明提供一种多语言翻译模型构建方法、翻译方法及计算机存储介质。

本发明为解决上述技术问题，提供如下的技术方案：一种多语言翻译模型构建方法，包括以下步骤：

获取模型并进行预训练；

对模型添加语言转换器得到多语言翻译模型；具体是为每种源语言和目标语言构建一套词表以及和词表对应的词嵌入矩阵，再将对应语言的语言转换器接在词嵌入矩阵之后；

其中模型预训练时的损失函数为：

L=Ltrans+λ|s|Lsim

其中λ为对比学习损失权重，|s|表示平均序列长度，其中Ltrans为模型的翻译损失函数：

Lsim为模型的对比学习损失函数：

，其中D为训练数据，界定S={S1,...,SN}和T={T1,...,TM}分别表示D中源端包含的源语言以及目标端包含的目标语言，则

Di,j={(xi,yj)}，xi∈Si，yj∈Ti

表示从Si到Ti语言的一对平行数据，θ表示模型参数；z表示随机选取的负例，sim(xi,yj)以及sim(xi,z)都表示语义相似度计算。

优选地，获取模型并进行预训练包括以下步骤：

获取训练数据，并为每对训练数据在相应的语言中随机挑选句子作为对比学习的负例；其中训练数据包括互为翻译的源语言句子以及目标语言句子；

将训练数据以及负例输入模型的编码器，计算相应的编码器输出表示并计算对比学习损失，将训练数据中源语言句子的编码器输出表示与目标语言句子一起通过解码器计算，得到解码器的输出表示来进行翻译结果的预测，并计算翻译损失；

通过梯度反向传播的方式更新模型中的所有参数。

优选地，对编码器和解码器输入时，针对相应输入句子的语言添加一个额外的语言标记，将模型的编码器以及解码器输入的句子的每个词嵌入加上语言标记所对应的词嵌入表示e_i和e_j，因此模型编码器和解码器的输入为：

其中I_enc和I_dec分别表示编码器和解码器的输入，e(x_i)表示源语言句子的词嵌入投影，e(y_i)表示目标语言句子的词嵌入投影。

优选地，在得到解码器的输出表示后，通过公式进行翻译结果的预测，公式为：

其中P_y表示词汇预测概率，O_dec表示解码器输出的向量表示，e^T表示词表预测矩阵。

优选地，语言转换器通过non-linear independent components estimation进行构建。

优选地，在对模型添加语言转换器后还将解码器私有层中的Cross-Attention子层作为目标语言的独占子层。

优选地，在对模型添加语言转换器得到多语言翻译模型之后还包括以下步骤：

获取双语平行语料，并使用双语平行语料训练对应的语言独有模块，语言独有模块包括词嵌入矩阵、词表预测矩阵、语言转换器和解码器中的Cross-Attention子层；

获取单语数据，对语言独有模块利用单语数据进行自学习。

本发明为解决上述技术问题，提供又一技术方案如下：一种语言翻译方法，包括以下步骤：

获取多语言翻译模型，多语言翻译模型采用上述的多语言翻译模型构建方法构建，

输入源语言句子至多语言翻译模型中，通过多语言翻译模型翻译成目标语言句子。

本发明为解决上述技术问题，提供又一技术方案如下：一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的一种语言翻译方法。

与现有技术相比，本发明所提供的一种多语言翻译模型构建方法、翻译方法及计算机存储介质，具有如下的有益效果：

1.本发明实施例提供的一种多语言翻译模型构建方法，在模型训练完成之后，对模型增添了语言转换器，实现将各个语言独立语义表示到多语言翻译模型跨语言表示的转换；在解码器生成之前，通过目标语言的语言转换器回到目标语言独立语义空间上来，在其中进行翻译结果的预测；进而在各语言独立的语义空间和跨语言共享的语义空间之间实现自由转换，使模型在充分利用参数共享以提升跨语言表示质量，降低跨语言翻译知识迁移难度的同时，实现目标语言在其独有语义空间下生成的能力，从而有效避免小样本和零样本的脱靶翻译问题，进一步提升多语言翻译系统的总体翻译质量。

2.本发明实施例提供的一种多语言翻译模型构建方法，在训练数据方面，除了包括多语言双语平行语料之外，还利用多语言词典对双语数据和多语言单语数据进行随机词翻译替换，构建得到包含跨语言词对齐信息得到伪平行数据，使模型的编码器的语义一致性表示能力进一步增强。

3.本发明实施例提供的一种多语言翻译模型构建方法，完成模型预训练完成之后，冻结模型参数，以防止后续微调过程中出现灾难性遗忘。

4.本发明实施例提供的一种多语言翻译模型构建方法，将解码器私有层中的Cross-Attention子层作为目标语言的独占子层，主要是为了使多语言翻译模型能够保存更多的语言独有翻译知识，学习目标语言生成过程中每一步需要注意的源语言信息。

5.本发明实施例提供的一种多语言翻译模型构建方法，对语言独有模块利用单语数据进行自学习，以提升低资源语言独有模块的质量。

6.本发明实施例还提供一种语言翻译方法，具有与上述一种使用多语言翻译模型构建方法构建的多语言翻译模型相同的有益效果，在此不做赘述。

7.本发明实施例还提供一种计算机存储介质，具有与上述一种使用多语言翻译模型构建方法构建的多语言翻译模型相同的有益效果，在此不做赘述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的多语言翻译模型构建方法的步骤流程图。

图2是本发明第一实施例提供的多语言翻译模型构建方法之S1的步骤流程图。

图3是本发明第一实施例提供的多语言翻译模型构建方法之S2之后的步骤流程图。

图4是本发明第二实施例提供的语言翻译方法的步骤流程图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，本发明第一实施例提供一种多语言翻译模型构建方法，包括以下步骤：

S1：获取模型并进行预训练；

S2：对模型添加语言转换器得到多语言翻译模型；具体是为每种源语言和目标语言构建一套词表和对应的词嵌入矩阵，再将对应语言的语言转换器接在词嵌入矩阵之后。

可以理解地，对模型先进行预训练以提升模型的翻译能力，通过在模型中设计了语言转换器，使得特定语言的语义空间和通用语言的语义空间可进行互相转换。

需要说明的是，本发明是在现有的多语言翻译模型基础上进行预训练与添加多语言转换器从而构建得到一种新的多语言翻译模型，使得多语言翻译模型能够保证充分的翻译知识共享的同时，在目标语言独有的词嵌入空间进行生成，从而有效规避脱靶翻译的问题。

可以理解地，其中源语言和目标语言之间的关系可理解为由源语言翻译成目标语言，实际使用时，用户提供源语言句子，选择需要翻译成的目标语言，然后翻译成目标语言句子，如：提供源语言为中文，源语言句子为“我喜欢苹果”，选择目标语言为英文，则将源语言句子翻译得到目标语言句子为“I like apple”。

其中对每种源语言以及目标语言都构建了一套词表用于区分不同的语言，由于词表通常很大由数万到数十万，并且是离散的，而词嵌入矩阵是从词表到低维连续向量表示的变换矩阵，句子通过词嵌入矩阵在相应的语义空间中得到对应的语义表示，通过将语言转换器接在词嵌入矩阵之后，以将每种语言的语义空间与跨语言语义空间连接，可实现将源语言独立的语义表示转换到多语言翻译模型的跨语言语义表示，翻译时，再通过目标语言的语言转换器再回到目标语言的语义空间上来，在其中进行结果的翻译，避免了脱靶翻译的问题。

请参阅图2，进一步地，获取模型并进行预训练包括以下步骤：

S11：获取训练数据，并为每对训练数据在相应的语言中随机挑选句子作为对比学习的负例；其中训练数据包括互为翻译的源语言句子以及目标语言句子；

S12：将训练数据以及负例输入模型的编码器，计算相应的编码器输出表示并计算对比学习损失，将训练数据中源语言句子的编码器输出表示将与目标语言句子一起通过解码器计算，得到解码器的输出表示来进行翻译结果的预测，并计算翻译损失；

S13：通过梯度反向传播的方式更新模型中的所有参数。

具体地，在训练数据方面，除了包括多语言双语平行语料之外，还利用多语言词典对双语数据和多语言单语数据进行随机词翻译替换，构建得到包含跨语言词对齐信息得到伪平行数据，使模型的编码器的语义一致性表示能力进一步增强，如：“我喜欢苹果”这个句子，通过查词典将“苹果”替换为“apple”。由于词汇的语义是由上下文决定的（根据词嵌入假设这一语言学基本假设），因此这时“苹果”与“apple”的语义对齐特性被隐含于“我喜欢苹果”和“我喜欢apple”这两句话当中，构成包含了跨语言词对齐的信息的伪平行数据，在训练时，这个伪平行数据也被当作平行数据使用。

在训练过程中时，每次在多语言双语平行语料和伪平行数据中随机抽取组成训练数据，并为每对训练数据在对应的语言中采样对比学习的负例，该负例即为在相应的语言中随机挑选的句子，随后基于组合的训练数据以及负例对模型进行预训练。

具体地，在训练时，其中模型的翻译损失函数为：

模型的对比学习损失函数为：

其中D为训练数据，界定S={S₁,...,S_N}和T={T₁,...,T_M}分别表示D中源端包含的源语言以及目标端包含的目标语言，则

D_i,j={(x_i,y_j)}，x_i∈S_i，y_j∈T_j

表示从S_i到T_j语言的一对平行数据，θ表示模型参数；z表示随机选取的负例，sim(x_i,y_j)以及sim(x_i,z)都表示语义相似度计算；

最终模型训练的损失函数为：

L=L_trans+λ|s|L_sim

其中λ为对比学习损失权重，|s|表示平均序列长度。

具体地，为了区分不同语言，在输入输出时针对句子的语言对句子添加一个语言标记，例如一对英中方向的平行句对（x_en，y_zh），模型的输入和标准输出分别为[<S_en>，x_en]和[<T_zh>，y_zh]，其中<S_en>和<T_zh>则是对应x_en和y_zh的语言标记。

进一步地，在对编码器和解码器输入时，针对相应输入句子的语言添加一个额外的语言标记，将模型的编码器以及解码器输入的句子的每个词嵌入加上语言标记所对应的词嵌入表示e_i和e_j，因此模型编码器和解码器的输入为：

相应的，在解码器预测之前解码器的输出向量表示也将减去目标语言的语言标记嵌入

，因此获得解码器输出的向量表示后，通过公式进行翻译结果的预测，公式为：

其中P_y表示词汇预测概率，O_dec表示解码器输出的向量表示，e^T表示词表预测矩阵，主要用于进行词汇预测。这个公式是解码器输出的向量表示到词汇预测概率的计算公式，主要是进行解码器输出向量的逆变换，从而使得解码器的词嵌入空间与词汇预测表示空间一致，更好的预测翻译结果。

具体地，由于编码器只有文本输入，因此只有词嵌入矩阵，而解码器有文本输入和文本输出，因此同时具有词嵌入矩阵和词表预测矩阵，为了保持词嵌入表示的一致性，对这三个矩阵的参数进行共享，使得词嵌入矩阵能够学到与语言更无关的表示，同时能够对不同语言的相同表示加以有效区分，减少模型输入的歧义。

具体地，完成模型预训练完成之后，冻结模型参数，以防止后续微调过程中出现灾难性遗忘，之后为每种语言构建语言独有模块。

可以理解地，为了解决多语言翻译模型中零资源翻译的脱靶翻译问题，为此，本发明设计了语言转换器，在特定语言的语义空间和跨语言语义空间之间进行转换，使得构建的多语言翻译模型能够在目标语言特定的语义空间和词表上进行生成，同时保证跨语言翻译知识的迁移能力。

具体地，语言转换器可分为可逆转换器和逆转换器，通过可逆转换器实现将各个语言独立的语义表示到多语言翻译模型跨语言表示的转换；在解码器生成之前，再通过目标语言的逆转换器回到目标语言独立语义空间上来，

具体地，为了保证转换前后的语义一致性，语言转换器通过non-linearindependent components estimation进行构建，通过一组耦合操作保证转换器的可逆性，并且其中的变换部分可以根据需求选择合适的模型。具体地，对于一个语言L的输入词向量e₁∈R^h，将其分为两个维度相等的向量e₁,e₂∈R^h/2，并使用两个非线性层F和G进行如下耦合变换：

c₁=F₁(e₂)+e₁;c₂=G₁(c₁)+e₂

c=[c₁,c₂]

其中c表示可逆转换器的输出，[c_1,c₂]表示两个向量的串联。

相应的，耦合变换的逆变换公式如下；

e₂=c₂-G₁(c₁);e₁=c₁-F₁(e₂)

e=[e₁,e₂]

其中e表示逆转换器的输出。

具体使用适配器作为F和G的结构，计算公式如下：

其中

。

因为适配器能够通过“线性映射-非线性激活-线性映射”的管道保证足够的函数复杂性和参数范围，同时增加的参数量也较小，基本相当于一个线性变换的参数量，最适合作为词嵌入变换的模块。

此外还堆叠了4层适配器耦合层以保证输入嵌入的所有参数充分融合。此时模型编码器和解码器的输入为：

其中e_i(*)和e_j(*)分别表示语言S_i和T_j的词嵌入投影，其中

,

分别表示语言S_i和T_j的可逆转换器。

在生成时，解码器的输出向量将通过逆转换器进行转换：

其中

表示目标语言T_j的逆转换器。

具体地，与预训练阶段保持一致，将同一种语言的编码器词嵌入矩阵、解码器的词嵌入矩阵和词表预测矩阵进行参数共享。

进一步地，在步骤S2中“对模型添加语言转换器得到多语言翻译模型”还将解码器私有层中的Cross-Attention子层作为目标语言的独占子层。还主要是为了使多语言翻译模型能够保存更多的语言独有翻译知识，学习目标语言生成过程中每一步需要注意的源语言信息，为了方便模型训练，每种语言的独有Cross-Attention子层将使用预训练阶段的对应子层参数进行初始化。

请参阅图3，进一步地，在步骤S2“对模型添加语言转换器得到多语言翻译模型”之后还包括以下步骤：

S3：获取训练数据，并使用训练数据训练对应的语言独有模块，语言独有模块包括词嵌入投影矩阵、词表预测矩阵、语言转换器和解码器中的Cross-Attention子层；

S4：获取单语数据，对语言独有模块利用单语数据进行自学习。

该部分训练即为对语言独有模块进行语言独立微调，其中训练数据可采用多语言双语平行预料训练对应的。

可以理解地，为了提升低资源语言独有模块的质量，我们还使用单语数据进行自学习，即对单语句子进行（x_k→x_k）的学习，由于微调时仅对少量参数进行学习，为了进一步提升语言转换器的质量，因此不对句子做任何处理。

请参阅图4，本发明第二实施例还提供一种语言翻译方法，包括以下步骤：

S100：获取多语言翻译模型，多语言翻译模型采用如第一实施例所述的一种多语言翻译模型构建方法构建，

S200：输入源语言句子至多语言翻译模型中，通过多语言翻译模型翻译成目标语言句子。

可以理解地，实际操作时，用户提供源语言句子，并确定需要翻译至的目标语言，多语言翻译模型根据用户提供的源语言句子以及确定的目标语言，选择对应的语言独立模块，源语言句子输入多语言翻译模型后，解码器根据编码器编码的源语言信息，进行目标语言的生成，最后多语言翻译模型输出翻译生成的目标语言句子。

本发明第三实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述所述的一种语言翻译方法。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在本发明的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在本发明的附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方案中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，在此基于涉及的功能而确定。需要特别注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

与现有技术相比，本发明所提供给的一种多语言翻译模型构建方法、翻译方法及计算机存储介质具有如下的有益效果：

以上对本发明实施例公开的一种多语言翻译模型构建方法、翻译方法及计算机存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制，凡在本发明的原则之内所作的任何修改，等同替换和改进等均应包含本发明的保护范围之内。