CN114186569A

CN114186569A - 用于多语言处理的方法和装置

Info

Publication number: CN114186569A
Application number: CN202111144057.5A
Authority: CN
Inventors: 宋珍巧; 周浩
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2022-03-15
Also published as: WO2023051148A1

Abstract

本公开的实施例涉及用于多语言处理的方法、装置、设备、存储介质和程序产品。在本文描述的方法包括：基于第一语言的文本表示和第二语言标签，通过翻译模型生成第二语言的文本表示；基于一组语言标签和第二语言的文本表示，通过翻译模型生成混合语言的文本表示和标记语言标签，其中一组语言标签至少包括与第一语言和第二语言不同的第三语言的第三语言标签，标记语言标签用于指示与第一语言、第二语言和第三语言相关联的跨多语言的平行语料数据；以及将第一语言的文本表示和混合语言的文本表示作为翻译模型的输入，来更新翻译模型的参数，包括跨多语言的平行语料数据。由此可以得到依赖上下文的多语言平行处理模型，大大提升了翻译速度和质量。

Description

用于多语言处理的方法和装置

技术领域

本公开的各实施例涉及自然语言处理技术领域，更具体地，涉及用于多语言处理的方法、装置、设备、介质和程序产品。

背景技术

多语言神经翻译(MNMT)技术可以将语言模型训练为处理跨多种语言的翻译任务。MNMT具有两个显著优势，其一是能够通过单个模型提供多语言翻译服务，大大降低了在线服务成本。其二，多语言训练使语言模型可以将高资源语言的知识转移到低资源语言，有助于改善低资源语言对的翻译质量。

基于MNMT的系统针对每种目标语言增加专用的解码器，而不对跨语言表示的对齐信息进行学习。另外，由于其采用自回归模型，在将源语言翻译成目标语言的过程中，需按照顺序进行解码。因此，目前多语言转换技术在解码速度和跨语言表示方面存在一定的改进空间。

发明内容

本公开的实施例提供了一种用于多语言处理的方法、装置、设备、介质和程序产品。

在本公开的第一方面中，提供了一种用于多语言处理的方法。该方法包括：基于第一语言的文本表示和第二语言标签，通过翻译模型生成第二语言的文本表示；基于一组语言标签和第二语言的文本表示，通过翻译模型获取混合语言的文本表示以及标记语言标签，其中一组语言标签至少包括与第一语言和第二语言不同的第三语言的第三语言标签，标记语言标签用于指示与第一语言、第二语言和第三语言相关联的跨多语言的平行语料数据；以及将第一语言的文本表示和混合语言的文本表示作为翻译模型的输入，来更新翻译模型的参数，参数包括跨多语言的平行语料数据。

在本公开的第二方面中，提供了一种用于多语言处理的装置。该装置包括：生成模块，被配置为基于第一语言的文本表示和第二语言标签，生成第二语言的文本表示；获取模块，被配置为基于一组语言标签和第二语言的文本表示，获取混合语言的文本表示以及标记语言标签，其中一组语言标签至少包括与第一语言和第二语言不同的第三语言的第三语言标签，标记语言标签用于指示与第一语言、第二语言和第三语言相关联的跨多语言的平行语料数据；以及更新模块，被配置为将第一语言的文本表示和混合语言的文本表示作为翻译模型的输入，来更新翻译模型的参数，参数包括跨多语言的平行语料数据。

在本公开的第三方面中，提供了一种用于多语言处理的方法。该方法包括：获取源语言的原始文本数据和多个目标语言标签；将原始文本数据编码为源语言的源文本表示；基于多个目标语言标签和预配置的跨多语言的平行语料数据，将源文本表示并行解码为由多个目标语言标签指示的多个目标语言的多个目标文本表示；以及将多个目标语言的多个目标文本表示并行解码为多个目标语言的多个目标文本数据。

在本公开的第四方面中，提供了一种用于多语言处理的装置。该装置包括：编码器，被配置为：获取源语言的原始文本数据和多个目标语言标签；以及原始文本数据编码为源语言的源文本表示；以及解码器，被部署有翻译模型，翻译模型具有跨多语言的平行语料数据，解码器被配置为基于多个目标语言标签和预配置的跨多语言的平行语料数据，将源文本表示并行解码为由多个目标语言标签指示的多个目标语言的多个目标文本表示；以及将多个目标语言的多个目标文本表示并行解码为多个目标语言的多个目标文本数据。

在本公开的第五方面中，提供了一种电子设备。该电子设备包括：存储器和处理器；其中存储器用于存储一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现根据第一方面或者第三方面所述的方法。

在本公开的第六方面中，提供了一种计算机可读存储介质。该计算机可读存储介质上存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现根据第一方面或者第三方面所述的方法。

在本公开的第七方面中，提供了一种计算机程序产品。该计算机程序产品包括一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现根据第一方面或者第三方面所述的方法。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了根据本公开的某些实施例的多语言处理系统的框图；

图2示出了根据本公开的某些实施例的基于GLAT的示例架构的框图；

图3示出了根据本公开的某些实施例的多语言处理模型的自增强学习的示意图；

图4A示出了根据本公开的某些实施例的多语言处理系统与传统多语言转换系统在跨语言标记表示方面的差异的示意图；

图4B示出了根据本公开的某些实施例的多语言处理系统的翻译性能的示意图；

图5示出了根据本公开的某些实施例的用于训练多语言处理模型的方法的流程图；

图6示出了根据本公开的某些实施例的用于多语言处理的方法的流程图；

图7示出了根据本公开的某些实施例的用于训练多语言处理模型的装置的框图；以及

图8示出了其中可以实现本公开的一个或多个实施例的计算系统的框图。

在所有附图中，相同或相似参考数字表示相同或相似元素。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开中使用的术语“语言”是指语言学中定义的语言的种类，也被称为语种，诸如英语、汉语、法语、德语等等。在本公开中使用的术语“语料”是指呈现语言的形式，诸如以文字呈现的文本，其具有思想内容和含义，能够被掌握该语言的使用者理解。语料也可以是某种性质的信息或数据。信息或数据的类型的示例包括而不限于，语音、视频、文本、图片或者文档等等。在本公开中使用的术语“语料库”是指语料的集合，多个语料库也可以称为“语料库集合”。

在本公开中使用的术语“表示”是指将语料映射为对应的低维向量(例如，词嵌入向量)，以便于计算系统处理。可以采用诸如word2vec、独热(one-hot)等已知技术将语料映射为表示，当然也可以采用其他现有的或待开发的方法将语料映射为表示，本公开对此不做限制。在本公开中使用的术语“标记(token)”是指通过对语料进行分割得到的具有具体含义的单位，例如以一个单词或几个连续的单词为单位。标记可以用于分析文本信息的内容、含义。例如，文本“The weatheris good today”包括标记[“The”,“weather”,“is”,“good”,“today”]，而文本“今天天气不错”包括标记[“今天”，“天气”，“不错”]。

在本文中使用的术语“转换”是指在任意两种类型的信息或数据之间转换。转换的示例包括但不限于，两种语言之间的翻译、语音与文本之间的转换、文本与图片之间的转换，等等。在本公开的上下文中，出于讨论方便的目的，主要以不同语种之间的翻译过程作为转换过程的示例。通常，转换过程可以借助于相应的转换模型或翻译模型来实现。因此，在本文的描述中有时将使用术语“模型”或“层”来指代相应的转换过程。

在本文中使用的术语“训练”或“学习”是指利用经验或者训练数据更新配置参数、优化系统性能的过程。例如，机器翻译系统可以通过训练或学习过程，逐渐优化翻译性能，例如提高翻译准确性。训练或学习过程可以基于一定的收敛条件而结束。在本公开的上下文中，出于讨论方便的目的，术语“训练”或者“学习”可以互换使用。在本文中使用的术语“推导”或“推理”是指利用经训练或者具有学习到的能力的模型或系统针对真实世界中的数据执行特定任务的过程。应当理解，系统的训练和推理可能以特定顺序发生，也可能同时发生。

在本文中使用的术语“多语言处理方法/模型”是指依据与特定语种的句法、语法、词法等等相关联的先验知识建立的方法/模型，可以用于在转换过程中生成转换结果。转换结果可以包括生成目标语言的语料，也可以包括生成目标语言的语料的表示，目标语言的语料的表示可以继续被其他主体使用，继续用于其他任务，诸如分类任务，标注任务等。

在本文中使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。在本文中使用的术语“基于”是“至少部分地基于”。在本文中使用的术语“一个实施例”、“实施例”表示“至少一个实施例”；在本文中使用的术语“另一实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。

在传统的自然语言处理模型中，不同语言的语料(例如，文本)被映射为低维向量，经过一系列处理后，再从向量转换为文本。以MNMT系统为例，给定源语言的语句为X＝{x₁，x₂，...，x_M}，目标语言的语句为Y＝{y₁，y₂，...，y_N}，其中M和N分别表示语句长度。MNMT重用标准双语神经翻译模型，利用语言标记对源输入和目标输入进行扩展，即将X变为X′＝{src，x₁，x₂，...，x_M}，并将Y变为Y′＝{tgt，y₁，y₂，...，y_N}。通常，MNMT通过转换器构建从X’到Y’的模型。转换器包括堆叠的编码器和解码器层，编码器层是自注意力块，其后连接逐位置前馈块。基于该架构，解码层具有额外的编码器-解码器注意力块。对编码器和解码器进行共同训练，使得Y’在给定X’的情况下的条件概率最大，条件概率P(Y′|X′)可以例如根据以下公式(1)来确定：

其中θ表示可训练模型的参数。

翻译效率和翻译质量是考量机器翻译性能的重要指标。传统的多语言机器翻译系统一般采用自回归模型。这类模型逐步地生成译文，每一步译出的目标语言单词均依赖于此前的翻译结果，因此翻译质量较好，但翻译速度较慢。如果待翻译的文本庞大，将需要大量处理时间。此外，在执行多语言处理任务时，具有相关联(例如，相同)语义的不同语言的语料的向量表示是否准确和对齐，将显著地影响转换结果和翻译质量。如果跨多语言表示未经对齐，有时甚至导致转换后的语料丢失语义、包含重复词语、或漏译等等。

发明人已经认识到，传统的多语言机器翻译系统受限于模型结构和训练方式，无法在翻译性能和翻译速度方面达到折衷。因此，在本公开的实施例中提供了一种非自回归多语言处理系统。该系统架构具有并行处理能力，能够对源文本中各个位置的标记执行并行解码，大大提高了翻译效率。在训练阶段，翻译模型通过增量创建依赖于上下文的代码转换语句，习得对齐的跨不同语言向量表示。因而，该多语言处理系统在多语言处理任务中表现出较高的处理性能和翻译质量。

在下文描述中，某些实施例将参考语言翻译过程来讨论，例如，英文、中文，等等。但是应当理解，这仅仅是为了使本领域普通技术人员更好地理解本公开实施例的原理和思想，而无意以任何方式限制本公开的范围。

图1示出了根据本公开的某些实施例的多语言处理系统100的框图。多语言处理系统100可以是计算系统、翻译系统、以及能够执行语言转换任务的任何其他设备。应当理解，图1所示出的系统100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。

如图1所示，多语言处理系统100的组件可以包括但不限于编码器110和解码器120。编码器110和解码器120分别可以包括一个或多个处理器或处理单元、存储器、一个或多个通信单元、一个或多个输入设备以及一个或多个输出设备(未示出)。此外，多语言处理系统100部署有翻译模型，该翻译模型经过训练可以获得基于上下文依赖自转换的并行多语言翻译(PCSS)能力，从而可以用于执行多语言处理任务。在本公开的上下文中，多语言处理系统100与PCSS系统可以互换使用。

针对系统100的翻译模型的训练可以包括两个阶段。在第一阶段训练中，可以采用跨多语言对的原始语料数据对翻译模型进行训练，原始语料数据中具有原始平行数据。例如，给定包含L个输入-输出语言对的平行语料数据集

其中i表示第i个语言对，X表示输入语言的文本数据，输入语言也可以称为源语言，Y表示输出语言的文本数据，输出语言也可以称为目标语言。例如，可以基于以下公式(2)来训练翻译模型，旨在给定输入的情况下使真值输出的对数概率之和最大：

其中θ_M表示翻译模型的参数，α是用于控制损失函数L_stage1和

的相对重要性的因子。

中第i个平行语料库由N_i个平行语句构成，表示为

可以使用特定的训练标准来计算

表示平行语料库

中的第k对的长度预测损失。

下面以翻译模型采用Glancing转换器(GLAT)架构为例进行讨论，但是，应当理解，本公开的实施例不限于GLAT架构，而是适用于任何语言转换模型。GLAT是一种非自回归翻译(NAT)架构，其在机器翻译中能够实现8至15倍的速度提升。图2示出了根据本公开的某些实施例的基于GLAT的示例架构200的框图。如图2所示，GLAT架构200包括编码模块201、并行解码模块202、采用模块203以及并行解码模块204。当然，GLAT架构200还可以包括执行处理任务所需的任何其他组件、模块、元件等等。

在学习过程中，GLAT架构200执行两步解码。具体而言，假设输入编码模块201的源语言的语句为X，目标语言的语句为Y，给定从编码器F_e(即，编码模块201)输出的经收集的解码器F_d(即，并行解码模块202)输入为

并且Y可以根据以下公式(3)预测为：

其中θ表示可训练模型的参数。并行解码模块200计算Y与

的距离。采用模块203基于所计算的距离采用相应的扫视采样(Glacing sampling)策略对Y的子集进行采样，得到

其中

表示在从目标语言的语句Y中移除经采样的标记之后剩余的子集。

在第二次并行解码中，GLAT架构200可以根据以下公式(4)，基于子集

和源语言的语句X来预测目标语句Y：

其中

表示经更新的解码输入。

可以根据如公式(4)所示的基于GLAT的训练标准来计算

进而，

可以被如下确定：

其中

表示独热向量，其表征最佳目标长度分布，并且

是基于编码模块201的输出

以及源语言嵌入E_src和目标语言嵌入E_tgt的预测向量，[]表示级联运算。这里，针对长度预测应用归一化指示函数的操作符(例如，softmax)，经归一化的输出与可能的目标长度集相对应。

基于同样的方式，GLAT模块利用平行语料数据集

中的所有L个语言对的语料库进行训练，直到满足收敛条件。此时，翻译模型关于L个语言对具有均衡的翻译性能，可以进入第二阶段训练。

在第二阶段训练中，解码器120可以执行两级解码，对输入的文本表示执行依赖上下文的代码转换。如图1所示，假设作为源语言的第一语言为英语En，作为目标语言的第二语言为德语De，解码器120从输入端获取第一语言的文本表示[The，cat，is，very，cute]和第二语言标签Lang＝De。

在第一级解码121中，解码器120基于第一语言的文本表示和第二语言标签，生成第二语言的文本表示[Die，Katze，ist，sehr，süβ]。继而，解码器120基于一组语言标签Lang＝De，Fr，Es和第二语言的文本表示，获取混合语言的文本表示[Die，chat，est，muy，lindo]以及标记语言标签。具体而言，在第一训练阶段结束之后，解码器120可以对平行语料数据集

进行采样，得到长度为T的平行语料数据子集

其中

知

分别表示第j个语言对的源语言标签和目标语言标签。然后，在第一级解码121中，解码器120以给定比例P_M对目标语言的文本数据Y_i进行掩码，得到

其后，解码器120利用标记语言标签将

中掩码的位置解码为随机采样的语言。因此，最终解码的文本序列

包括混合语言的标记语言标签，其可以用于指示跨多语言的平行语料数据。

在第二级解码122中，解码器120可以将混合语言的文本序列

作为源侧输入，源语言的文本序列X作为目标侧的输入，解码得到合成平行语料库

基于类似的方式，利用经代码转换的语料数据

和平行语料数据

通过以下方式交叉迭代地执行翻译模型的第二阶段训练：

这种交叉迭代的训练方式可以实现翻译模型的自增强。最终，解码器120可以获得跨L个语言对的标记语言标签。标记语言标签用于区别在不同语言中的平行语料数据，其是文本表示中相同位置的词标记。例如，多语言处理系统100可以包括K个堆叠编码器层和解码器层。特定语言标签被添加到各个位置处的第一层输入和最后一层输出，如下所示：

其中

表示位置i处的第一编码器层输入，

表示位置j处的第一解码器层输入。相应地，

表示位置i处的最后一个编码器层的输出，并且

表示位置j处的最后一个解码器层输出。E_src和E_tgt分别表示源语言标记的表示和目标语言标记的表示。由此，可以使用

来更新公式(4)中的文本表示y_t。

应当理解的是，解码器120可以包括分别用于执行第一级解码121和第二级解码122的独立的解码单元，也可以包括同时支持第一级解码121和第二级解码122的单个解码器，本公开在这方面不受限制。

附加地或备选地，随着第二阶段训练的迭代执行，翻译模型可以基于训练的成果逐渐改善掩码比例P_M和混合语言的数目。图3示出了根据本公开的某些实施例的多语言处理模型的自增强学习的示意图。给定步数为0.1，每I个轮次(epoch)掩码比例P_M的值从0.1迭代为0.5，其可以如下表示：

P_M＝(((Epoch÷I)mod 5)+1)÷10 (8)

其中Epoch表示当前轮次数。

如图3所示，在P_M的第一次迭代中，混合语言的数目被设置为1。其后，混合语言的数目增加到总语言数目的三分之一。在迭代过程中，将生成大量代码转换语句。这有助于翻译模型学习依赖上下文的对齐的跨语言表示，因此能够提供更好的翻译性能。

附加地或备选地，在通过深度神经网络训练翻译模型的情况下，可以应用退火放弃(annealed dropout)策略，在训练过程中，逐渐减少随机归零的神经元的数目。例如，可以使用如下所示的针对给定小批量(例如，64000个标记)的线性退火程序：

其中t表示训练更新，N表示总退火量，P_d[0]表示初始化的放弃率(例如，0.3)。退火放弃策略可以稳定训练，改善翻译质量。特别地，对于声学模型，应用退火放弃策略可以大幅降低模型的单词错误率。

在翻译模型的训练阶段中，可以仅涉及翻译系统100的解码器120。而在推理阶段中，翻译模型通过编码器110和解码器120执行多语言处理任务。

在推理阶段，经训练的PCSS模型呈现了显著增强的翻译性能，无论是翻译速度方面还翻译质量方面。下面的表1示出了传统翻译模型与基于本公开的训练方法得到的多语言处理模型在执行英语、德语、法语互译任务时的翻译性能的对比结果，其中以双语替换评测平均得分(BLEU)作为衡量翻译性能的性能参数。

表1.多种翻译模型的性能对比结果

其中Transformer和GLAT为双语翻译模型，M-transformer、GLSR和Adaptor为多语言翻译模型，MNAT与本公开提出的PCSS为多语言NAT模型。如表1所示，相比于M-transformer，PCSS的翻译速度为6.1倍，平均得分超出+1.7 BLEU。

图4A和图4B直观地示出了根据本公开的某些实施例的多语言处理系统的翻译性能。图4A示出了根据英德字典中的双语词语，分别采用现有技术的传统多语言转换系统和本公开提出的基于PCSS的翻译系统得到的标记表示的示意图，其中蓝色表示英语词语，红色表示德语词语。如图4A中的(A)图所示，传统多语言转换系统通过学习获得的跨语言标记表示中存在明显的分界，而基于PCSS的翻译系统通过学习获得的跨语言标记表示的对齐程度良好。

图4B示出了根据本公开的某些实施例的基于PCSS的翻译系统的性能的示意图，其中每个德语单词均以绿色示出，如果与相应德语单词成对的英语单词的相似度大于给定阈值(例如，0.8)，则该英文单词以蓝色示出，如果相似度小于给定阈值，则该英文单词以黄色示出。如图4B所示，以蓝色示出的英文单词的数目远高于以黄色示出的英文单词的数目。也就是说，基于PCSS的翻译系统可以产生充分对齐的跨语言向量表示，这将大大提升翻译质量。

图5示出了根据本公开的某些实施例的用于训练多语言处理模型的方法500的流程图。该方法500可以由多语言翻译系统100来实现，例如可以被实现在翻译系统100的编码器110和解码器120处。

在框501处，解码器120基于第一语言的文本表示和第二语言标签，通过翻译模型生成第二语言的文本表示。作为示例，翻译模型可以基于GLAT语言模型。

附加地或备选地，在一些实施例中，该方法500还包括：通过翻译模型生成第二语言的文本表示之前，利用平行语料数据训练翻译模型，直到翻译模型关于多个语言对具有均衡的翻译性能。平行语料数据可以包括多个语言对的语料数据。这样使得训练翻译模型对于多个语言对具有相似的翻译性能。

在一些实施例中，该方法还可以包括：针对多个语言对的原始语料数据，确定多个采样因子，每个采样因子与多个语言对中的相应语言对的原始语料数据相关联。该方法基于多个采样因子对多个语言对的原始语料数据进行采样，以得到用于训练翻译模型的平行语料数据。

附加地或备选地，在一些实施例中，该训练方法还包括针对多个语言对的原始语料数据，确定多个采样因子。然后，基于该多个采样因子对多个语言对的原始语料数据进行采样，以得到用于训练翻译模型的平行语料数据。

附加地或备选地，在一些实施例中，该训练方法可以基于原始语料数据中每个语言对的语料数据量与总语料数据量，确定采样比例参数。该训练方法还包括：针对采样比例参数应用与相应语言对的重要性相关联的调整系数，以得到多个采样因子。

在框502处，基于一组语言标签和第二语言的文本表示，通过翻译模型获取混合语言的文本表示以及标记语言标签。该组语言标签至少包括与第一语言和第二语言不同的第三语言的第三语言标签。该标记语言标签用于指示与第一语言、第二语言和第三语言相关联的跨多语言的平行语料数据。

附加地或备选地，在一些实施例中，该训练方法可以包括：解码器120基于第一比例对第二语言的文本表示中的词表示进行采样。基于一组语言标签，将经采样的第一比例的词表示转换为与一组语言相对应的词表示。编码器120确定与经转换的第一比例的词表示相关联的标记语言标签。然后，编码器120基于经转换的第一比例的词表示和第二语言的文本表示中剩余的词表示，生成混合语言的文本表示。

附加地或备选地，在一些实施例中，该训练方法可以包括，解码器120基于源语言的源文本表示和标记语言标签，通过经更新的翻译模型生成至少一个目标语言的目标文本表示。解码器120确定目标文本表示与源文本表示之间的距离参数。解码器120基于距离参数，来更新第一比例。

在框503处，编码器120将第一语言的文本表示和混合语言的文本表示作为翻译模型的输入，来更新翻译模型的参数。作为示例，参数可以包括跨多语言的平行语料数据。

附加地或备选地，在一些实施例中，编码器120可以执行以下操作至少一次：将混合语言的文本表示作为用于训练的源数据并且将第一语言的文本表示作为用于训练的目标数据输入翻译模型；以及编码器120基于另一组语言标签，获取混合语言的另一文本表示和经更新的标记语言标签，其中另一组语言标签至少包括与一组语言标签不同的第四语言标签，经更新的标记语言标签用于指示与第一语言、第二语言、第三语言和第四语言相关联的跨多语言的平行语料数据。

附加地或备选地，在一些实施例中，通过训练方法500得到的翻译模型可以用于执行多语言处理任务。

图6示出了根据本公开的某些实施例的用于多语言处理的方法600的流程图。该方法600可以由多语言翻译系统100来实现，例如可以被实现在翻译系统100的编码器110和解码器120处。

在框601处，编码器110获取源语言的原始文本数据和多个目标语言标签。

在框602处，编码器110将原始文本数据编码为源语言的源文本表示。编码器110进而可以向解码器120输出该源文本表示。

在框603处，解码器120基于多个目标语言标签和预配置的跨多语言的平行语料数据，将源文本表示并行解码为由多个目标语言标签指示的多个目标语言的多个目标文本表示。

在框604处，解码器120将多个目标语言的多个目标文本表示并行解码为多个目标语言的多个目标文本数据。

图7示出了根据本公开的某些实施例的用于训练多语言处理模型的装置700的框图。该装置包括生成模块701，获取模块702以及更新模块703。生成模块701被配置为基于第一语言的文本表示和第二语言标签，生成第二语言的文本表示。获取模块702被配置为基于一组语言标签和第二语言的文本表示，获取混合语言的文本表示以及标记语言标签，其中一组语言标签至少包括与第一语言和第二语言不同的第三语言的第三语言标签，标记语言标签可以用于指示与第一语言、第二语言和第三语言相关联的跨多语言的平行语料数据。更新模块703被配置为将第一语言的文本表示和混合语言的文本表示作为翻译模型的输入，来更新翻译模型的参数，参数包括跨多语言的平行语料数据。

根据本公开的实施例，提供一种多语言处理装置。该多语言处理装置采用基于依赖上下文的非自回归翻译模型，能够在多个语言对之间针对跨语言表示进行学习。该多语言处理装置可以并行执行多语言翻译任务，从而显著加快了翻译速度。此外，通过对齐的跨语言标记表示，可以获得良好的翻译质量。

图8示出了其中可以实现本公开的一个或多个实施例的计算系统800的框图。图5所示的方法500和图6所示的方法600可以由计算系统800实现。图8示出的计算系统800仅是示例，其不应当构成对本文所描述的实现的使用的功能和范围的限制。

如图8所示，计算系统800是通用计算设备的形式。计算系统800的组件可以包括但不限于一个或多个处理器或处理单元800，存储器820，一个或多个输入设备830，一个或多个输出设备840，存储装置850，和一个或多个通信单元860。处理单元800可以是实际或虚拟处理器并且能够根据存储器820中存储的持续来执行各种处理。在多处理系统中，多处理单元执行计算机可执行指令，以增加处理能力。

计算系统800通常包括多个计算机介质。这样的介质可以是计算系统800可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器820可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储装置850可以是可拆卸或不可拆卸，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息并且可以在计算系统800内被访问。

计算系统800可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性计算机系统存储介质。尽管未在图8中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线18。存储器820可以包括至少一个程序产品，具有(例如至少一个)程序模块集合，这些程序模块被配置为执行本文所描述的各种实施例的功能。

具有一个或多个执行模块824的集合的程序/实用程序工具822可以被存储在例如存储器820中。执行模块824可以包括但不限于操作系统、一个或多个应用程序、其他程序模块和操作数据。这些示例中的每个示例或特定组合可以包括联网环境的实现。执行模块824通常执行本文所描述的主题的实施例的功能和/或方法，例如方法200。

输入单元830可以是一个或多个各种输入设备。例如，输入单元839可以包括用户设备、诸如鼠标、键盘、追踪球等。通信单元860实现在通信介质上向另外的计算实体进行通信。附加地，计算系统800的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接来通信。因此，计算系统800可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。例如但不限于，通信介质包括有线或无线联网技术。

计算系统800还可以根据需要与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等等，与一个或多个使得用户与计算系统800交互的设备进行通信，或者与使得计算系统800与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

本文中所描述的功能可以至少部分地由一个或多个硬件逻辑组件来执行。例如但不限于，可以使用的硬件逻辑组件的示意性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。

用于实施本文所描述的主题的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开内容的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本文所描述的主题的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

以下列出了本公开的一些示例实现。

在第一方面的某些实施例中，提供了一种用于多语言处理的方法。该方法包括：基于第一语言的文本表示和第二语言标签，通过翻译模型生成第二语言的文本表示；基于一组语言标签和第二语言的文本表示，通过翻译模型获取混合语言的文本表示以及标记语言标签，其中一组语言标签至少包括与第一语言和第二语言不同的第三语言的第三语言标签，标记语言标签用于指示与第一语言、第二语言和第三语言相关联的跨多语言的平行语料数据；以及将第一语言的文本表示和混合语言的文本表示作为翻译模型的输入，来更新翻译模型的参数，参数包括跨多语言的平行语料数据。

在某些实施例中，该方法还包括：在通过翻译模型生成第二语言的文本表示之前，利用平行语料数据训练翻译模型，直到翻译模型关于多个语言对具有均衡的翻译性能，平行语料数据包括多个语言对的语料数据。

在某些实施例中，利用平行语料数据训练翻译模型包括：针对多个语言对的原始语料数据，确定多个采样因子，每个采样因子与多个语言对中的相应语言对的原始语料数据相关联；以及基于多个采样因子对多个语言对的原始语料数据进行采样，以得到用于训练翻译模型的平行语料数据。

在某些实施例中，确定多个采样因子包括：基于原始语料数据中每个语言对的语料数据量与总语料数据量，确定采样比例参数；以及针对采样比例参数应用与相应语言对的重要性相关联的调整系数，以得到多个采样因子。

在某些实施例中，获取混合语言的文本表示以及标记语言标签包括：基于第一比例对第二语言的文本表示中的词表示进行采样；基于一组语言标签，将经采样的第一比例的词表示转换为与一组语言相对应的词表示；确定与经转换的第一比例的词表示相关联的标记语言标签；以及基于经转换的第一比例的词表示和第二语言的文本表示中剩余的词表示，生成混合语言的文本表示。

在某些实施例中，该方法还包括：基于源语言的源文本表示和标记语言标签，通过经更新的翻译模型生成至少一个目标语言的目标文本表示；确定目标文本表示与源文本表示之间的距离参数；以及基于距离参数，来更新第一比例。

在某些实施例中，更新第一比例包括：如果距离参数超过距离阈值，则将第一比例更新为第二比例，第二比例小于第一比例；以及如果距离参数未超过距离阈值，则将第一比例更新为第三转换比例，第三比例大于第一比例。

在某些实施例中，该方法还包括：如果距离参数超过距离阈值，则降低一组语言标签中的标签数目；以及如果距离参数未超过距离阈值，则增加一组语言标签中的标签数目。

在某些实施例中，更新翻译模型包括执行以下操作至少一次：将混合语言的文本表示作为用于训练的源数据并且将第一语言的文本表示作为用于训练的目标数据输入翻译模型；以及基于另一组语言标签，通过翻译模型获取混合语言的另一文本表示和经更新的标记语言标签，其中另一组语言标签至少包括与一组语言标签不同的第四语言标签，经更新的标记语言标签用于指示与第一语言、第二语言、第三语言和第四语言相关联的跨多语言的平行语料数据。

在某些实施例中，该方法还包括：确定经更新的翻译模型的性能参数；以及如果性能参数超过阈值参数，则停止更新翻译模型，其中性能参数包括双语替换评测得分。

在某些实施例中，翻译模型的至少一部分基于Glancing语言模型。

在某些实施例中，该方法还包括使经更新的翻译模型被部署以用于多语言平行翻译任务。

在第二方面的某些实施例中，提供了一种用于多语言处理的方法。该方法包括：获取源语言的原始文本数据和多个目标语言标签；将原始文本数据编码为源语言的源文本表示；基于多个目标语言标签和预配置的跨多语言的平行语料数据，将源文本表示并行解码为由多个目标语言标签指示的多个目标语言的多个目标文本表示；以及将多个目标语言的多个目标文本表示并行解码为多个目标语言的多个目标文本数据。

在某些实施例中，执行第一方面的方法来对第二方面的装置的翻译模型进行训练。

在第三方面的实施例中，提供了一种用于多语言处理的装置。该装置包括：生成模块，被配置为基于第一语言的文本表示和第二语言标签，生成第二语言的文本表示；获取模块，被配置为基于一组语言标签和第二语言的文本表示，获取混合语言的文本表示以及标记语言标签，其中一组语言标签至少包括与第一语言和第二语言不同的第三语言的第三语言标签，标记语言标签用于指示与第一语言、第二语言和第三语言相关联的跨多语言的平行语料数据；以及更新模块，被配置为将第一语言的文本表示和混合语言的文本表示作为翻译模型的输入，来更新翻译模型的参数，参数包括跨多语言的平行语料数据。

在某些实施例中，该装置还包括：训练模块，被配置为在通过翻译模型生成第二语言的文本表示之前，利用平行语料数据训练翻译模型，直到翻译模型关于多个语言对具有均衡的翻译性能，平行语料数据包括多个语言对的语料数据。

在某些实施例中，训练模块被配置为：针对多个语言对的原始语料数据，确定多个采样因子，每个采样因子与多个语言对中的相应语言对的原始语料数据相关联；以及；以及基于多个采样因子对多个语言对的原始语料数据进行采样，以得到用于训练翻译模型的平行语料数据。

在某些实施例中，获取模块被配置为：基于第一比例对第二语言的文本表示中的词表示进行采样；基于一组语言标签，将经采样的第一比例的词表示转换为与一组语言相对应的词表示；确定与经转换的第一比例的词表示相关联的标记语言标签；以及基于经转换的第一比例的词表示和第二语言的文本表示中剩余的词表示，生成混合语言的文本表示。

在某些实施例中，生成模块还被配置为：基于源语言的源文本表示和标记语言标签，通过经更新的翻译模型生成至少一个目标语言的目标文本表示，并且更新模块还被配置为：确定目标文本表示与源文本表示之间的距离参数；基于距离参数，来更新第一比例。

在某些实施例中，更新模块被配置为：如果距离参数超过距离阈值，则将第一比例更新为第二比例，第二比例小于第一比例；以及如果距离参数未超过距离阈值，则将第一比例更新为第三转换比例，第三比例大于第一比例。

在某些实施例中，更新模块还被配置为：如果距离参数超过距离阈值，则降低一组语言标签中的标签数目；以及如果距离参数未超过距离阈值，则增加一组语言标签中的标签数目。

在某些实施例中，更新模块还被配置为执行以下操作至少一次：将混合语言的文本表示作为用于训练的源数据并且将第一语言的文本表示作为用于训练的目标数据输入翻译模型；以及基于另一组语言标签，通过翻译模型获取混合语言的另一文本表示和经更新的标记语言标签，其中另一组语言标签至少包括与一组语言标签不同的第四语言标签，经更新的标记语言标签用于指示与第一语言、第二语言、第三语言和第四语言相关联的跨多语言的平行语料数据。

在某些实施例中，该装置还包括确定模块，被配置为：确定经更新的翻译模型的性能参数；以及如果性能参数超过阈值参数，则停止更新翻译模型，其中性能参数包括双语替换评测得分。

在某些实施例中，该装置还包括执行模块，被配置为：使经更新的翻译模型被部署以用于多语言平行翻译任务。

在第四方面的实施例中，提供了一种用于多语言处理的装置。该装置包括：编码器，被配置为：获取源语言的原始文本数据和多个目标语言标签；以及将原始文本数据编码为源语言的源文本表示；以及解码器，被部署有翻译模型，翻译模型具有跨多语言的平行语料数据，解码器被配置为：基于多个目标语言标签和预配置的跨多语言的平行语料数据，将源文本表示并行解码为由多个目标语言标签指示的多个目标语言的多个目标文本表示；以及将多个目标语言的多个目标文本表示并行解码为多个目标语言的多个目标文本数据。

在某些实施例中，执行第一方面的方法来对第四方面的装置的翻译模型进行训练。

在第五方面的实施例中，提供了一种电子设备。该电子设备包括：存储器和处理器；其中存储器用于存储一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现根据第一方面或者第二方面所述的方法。

在第六方面的实施例中，提供了一种计算机可读存储介质。该计算机可读存储介质上存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现根据第一方面或者第二方面所述的方法。

在第七方面的实施例中，提供了一种计算机程序产品。该计算机程序产品包括一条或多条计算机指令，其中一条或多条计算机指令在被处理器执行时，实现根据第一方面或者第二方面所述的方法。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本公开，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于多语言处理的方法，包括：

基于第一语言的文本表示和第二语言标签，通过翻译模型生成第二语言的文本表示；

基于一组语言标签和所述第二语言的文本表示，通过所述翻译模型获取混合语言的文本表示以及标记语言标签，其中所述一组语言标签至少包括与所述第一语言和所述第二语言不同的第三语言的第三语言标签，所述标记语言标签用于指示与所述第一语言、所述第二语言和所述第三语言相关联的跨多语言的平行语料数据；以及

将所述第一语言的文本表示和所述混合语言的文本表示作为所述翻译模型的输入，来更新所述翻译模型的参数，所述参数包括所述跨多语言的平行语料数据。

2.根据权利要求1所述的方法，还包括：

在通过所述翻译模型生成所述第二语言的文本表示之前，利用平行语料数据训练所述翻译模型，直到所述翻译模型关于多个语言对具有均衡的翻译性能，所述平行语料数据包括所述多个语言对的语料数据。

3.根据权利要求2所述的方法，其中利用所述平行语料数据训练所述翻译模型包括：

针对所述多个语言对的原始语料数据，确定多个采样因子，每个采样因子与所述多个语言对中的相应语言对的原始语料数据相关联；以及

基于所述多个采样因子对所述多个语言对的原始语料数据进行采样，以得到用于训练所述翻译模型的所述平行语料数据。

4.根据权利要求3所述的方法，其中确定所述多个采样因子包括：

基于所述原始语料数据中每个语言对的语料数据量与总语料数据量，确定采样比例参数；以及

针对所述采样比例参数应用与相应语言对的重要性相关联的调整系数，以得到所述多个采样因子。

5.根据权利要求1所述的方法，其中获取所述混合语言的文本表示以及所述标记语言标签包括：

基于第一比例对所述第二语言的文本表示中的词表示进行采样；

基于所述一组语言标签，将经采样的所述第一比例的词表示转换为与所述一组语言相对应的词表示；

确定与经转换的所述第一比例的词表示相关联的标记语言标签；以及

基于经转换的第一比例的词表示和所述第二语言的文本表示中剩余的词表示，生成所述混合语言的文本表示。

6.根据权利要求5所述的方法，还包括：

基于源语言的源文本表示和所述标记语言标签，通过经更新的所述翻译模型生成至少一个目标语言的目标文本表示；

确定所述目标文本表示与所述源文本表示之间的距离参数；

基于所述距离参数，来更新所述第一比例。

7.根据权利要求6所述的方法，还包括：

如果所述距离参数超过距离阈值，则将所述第一比例更新为第二比例，所述第二比例小于所述第一比例；以及

如果所述距离参数未超过所述距离阈值，则将所述第一比例更新为第三转换比例，所述第三比例大于所述第一比例。

8.根据权利要求6所述的方法，还包括：

如果所述距离参数超过距离阈值，则降低所述一组语言标签中的标签数目；以及

如果所述距离参数未超过所述距离阈值，则增加所述一组语言标签中的标签数目。

9.根据权利要求1所述的方法，其中更新所述翻译模型包括执行以下操作至少一次：

将所述混合语言的文本表示作为用于训练的源数据并且将所述第一语言的文本表示作为用于训练的目标数据输入所述翻译模型；以及

基于另一组语言标签，通过所述翻译模型获取混合语言的另一文本表示和经更新的标记语言标签，其中所述另一组语言标签至少包括与所述一组语言标签不同的第四语言标签，经更新的所述标记语言标签用于指示与所述第一语言、所述第二语言、所述第三语言和所述第四语言相关联的跨多语言的平行语料数据。

10.根据权利要求1所述的方法，还包括：

确定经更新的所述翻译模型的性能参数；以及

如果所述性能参数超过阈值参数，则停止更新所述翻译模型，其中所述性能参数包括双语替换评测得分。

11.根据权利要求1所述的方法，其中所述翻译模型的至少一部分基于Glancing语言模型。

12.根据权利要求1所述的方法，还包括：

使经更新的所述翻译模型被部署以用于多语言平行翻译任务。

13.一种用于多语言处理的装置，包括：

生成模块，被配置为基于第一语言的文本表示和第二语言标签，生成第二语言的文本表示；

获取模块，被配置为基于一组语言标签和所述第二语言的文本表示，获取混合语言的文本表示以及标记语言标签，其中所述一组语言标签至少包括与所述第一语言和所述第二语言不同的第三语言的第三语言标签，所述标记语言标签用于指示与所述第一语言、所述第二语言和所述第三语言相关联的跨多语言的平行语料数据；以及

更新模块，被配置为将所述第一语言的文本表示和所述混合语言的文本表示作为翻译模型的输入，来更新翻译模型的参数，所述参数包括所述跨多语言的平行语料数据。

14.一种用于多语言处理的方法，包括：

获取源语言的原始文本数据和多个目标语言标签；

将所述原始文本数据编码为所述源语言的源文本表示；

基于所述多个目标语言标签和预配置的跨多语言的平行语料数据，将所述源文本表示并行解码为由所述多个目标语言标签指示的多个目标语言的多个目标文本表示；以及

将所述多个目标语言的多个目标文本表示并行解码为所述多个目标语言的多个目标文本数据。

15.一种用于多语言处理的装置，包括：

编码器，被配置为：

获取源语言的原始文本数据和多个目标语言标签；以及

将所述原始文本数据编码为所述源语言的源文本表示；以及解码器，被部署有翻译模型，所述翻译模型具有跨多语言的平行语料数据，所述解码器被配置为：

16.一种电子设备，包括：

存储器和处理器；

其中所述存储器用于存储一条或多条计算机指令，其中所述一条或多条计算机指令被所述处理器执行以实现根据权利要求1至12以及权利要求14中任一项所述的方法。

17.一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中所述一条或多条计算机指令被处理器执行以实现根据权利要求1至12以及权利要求14中任一项所述的方法。

18.一种计算机程序产品，包括一条或多条计算机指令，其中所述一条或多条计算机指令被处理器执行以实现根据权利要求1至12以及权利要求14中任一项所述的方法。