CN115496079B

CN115496079B - 一种中文翻译方法和装置

Info

Publication number: CN115496079B
Application number: CN202211463449.2A
Authority: CN
Inventors: 刘学博; 王志军; 张民
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-02-03
Anticipated expiration: 2042-11-22
Also published as: CN115496079A

Abstract

本发明涉及自然语言的处理及转换技术领域，特别是指一种中文翻译方法，所述方法包括：S1、对训练集的中文源数据进行外语化笔画序列建模，得到所述中文源数据的外语化笔画序列；S2、对所述外语化笔画序列进行密文数据增强，得到密文；S3、对所述外语化笔画序列的数据集和所述密文的数据集，以及对应译文的数据集进行联合子词学习，并对文本进行切分，得到后续模型训练的最终数据集；S4、用所述最终数据集，对变换器Transformer模型进行多源一致性训练，得到中文神经机器翻译模型；S5、使用所述中文神经机器翻译模型，将待翻译语句翻译成目标语句。采用本发明，明显地提升了翻译效果并减少了模型参数量。

Description

一种中文翻译方法和装置

技术领域

本发明涉及自然语言的处理及转换技术领域，特别是指一种中文翻译方法和装置。

背景技术

机器翻译是指通过计算机技术将一种自然语言自动转换为另一种自然语言的过程。随着深度学习技术的发展，神经机器翻译已经成为新一代机器翻译技术，基于深度神经网络的机器翻译模型已有较强的学习能力。神经机器翻译在中文上的应用，通常以单个汉字字符作为最小的表示单元，通过对文本进行中文分词得到模型的输入序列，而中文字符内部蕴含着偏旁部首等重要信息，这些信息对中文的理解有着重要作用，例如，所有以“扌”为部首的汉字基本都是动词，同时都有依靠手来行动的意义。以汉字字符为最小表示单元的做法，隐藏了中文字符内部的丰富信息，限制了神经机器翻译模型的学习。

发明内容

本发明提供了一种中文翻译方法和装置，用以对中文进行高效准确的翻译。所述技术方案如下：

一方面，提供了一种中文翻译方法，所述方法包括：

S1、对训练集的中文源数据进行外语化笔画序列建模，得到所述中文源数据的外语化笔画序列；

S2、对所述外语化笔画序列进行密文数据增强，得到密文；

S3、对所述外语化笔画序列的数据集和所述密文的数据集，以及对应译文的数据集进行联合子词学习，并对文本进行切分，得到后续模型训练的最终数据集；

S4、用所述最终数据集，对变换器Transformer模型进行多源一致性训练，得到中文神经机器翻译模型；

S5、使用所述中文神经机器翻译模型，将待翻译语句翻译成目标语句。

可选地，所述S1的对训练集的中文源数据进行外语化笔画序列建模，得到所述中文源数据的外语化笔画序列，具体包括：

S11、将训练集中文语料句子中的字符用空格分隔开，再根据预定义好的词典，将每个中文字符拆分为不同的笔画序列；

S12、将每个笔画映射为对应的外文字母；

所述映射，过程如下：

通过对语料统计，得到每种笔画和每种外文字母的出现频率；

映射规则为：按频率高低顺序，将笔画映射为外文字母；

根据所述映射规则，把所述笔画序列转换成所述外语化笔画序列。

可选地，所述外语化笔画序列包括拉丁化笔画序列，对汉字进行笔画拆分时，预定义了25种不同的笔画，将这25种笔画和26个小写英文字母构建映射，所述S12的映射过程中按频率高低顺序，将笔画映射为外文字母，具体包括：

将在中文中出现频率最高的第一笔画映射为在英文中出现频率最高的第一字母，所述第一笔画为：一，所述第一字母为：e，剩余笔画和字母按照频率高低顺序一一映射起来，最终剩余频率最低的英文字母z不予使用。

可选地，所述S2的对所述外语化笔画序列进行密文数据增强，得到密文，具体包括：

对所述外语化笔画序列，生成ROT-k密文；

所述ROT-k密文，表示将所述外语化笔画序列中的每个外文字母，替换为其在外文字母表中第k个位置后的字母，k是可调的参数。

可选地，k取2，获得ROT-1及ROT-2的密文，将获得的ROT-1密文及ROT-2密文、所述外语化笔画序列、以及对应译文构成后续模型训练的数据集。

可选地，所述S3的对所述外语化笔画序列的数据集和所述密文的数据集，以及对应译文的数据集，进行联合子词学习，并对文本进行切分，得到后续模型训练的最终数据集，具体包括：

所述ROT-1密文及所述ROT-2密文、所述外语化笔画序列、以及对应译文构成的数据集中，所有数据都是以外文字母表为基础字符集，将其混合在一起进行联合子词学习，并各自进行分词，得到共享的表示，所述共享的表示包括：编码器的输入词嵌入、解码器的输入词嵌入和输出分类层共享所有词嵌入参数矩阵。

可选地，所述S4的用所述最终数据集，对变换器Transformer模型进行多源一致性训练，得到中文神经机器翻译模型，具体包括：

将分词后的外语化笔画序列、密文和对应译文，输入到所述中文神经机器翻译模型中，得到分词后的外语化笔画序列和密文二者各自的负对数似然损失；接着对分词后的外语化笔画序列和密文二者的输出概率分布计算一致性损失；通过最小化这三项损失来更新模型的参数；

其中，所述一致性损失用来刻画两种输出概率分布之间的相似度，所述一致性损失：

用

表示样本

的中文源数据，

表示其分词后的外语化笔画序列，

表示

的密文；

表示

通过模型后的输出和对应译文

的负对数似然损失；

表示

通过模型后的输出和对应译文

的负对数似然损失；

表示

的输出概率分布对

的输出概率分布的KL散度；

表示

的输出概率分布对

的输出概率分布的KL散度。

另一方面，提供了一种中文翻译装置，所述装置包括：

外语化笔画序列建模模块，用于对训练集的中文源数据进行外语化笔画序列建模，得到所述中文源数据的外语化笔画序列；

密文数据增强模块，用于对所述外语化笔画序列进行密文数据增强，得到密文；

联合子词学习模块，用于对所述外语化笔画序列的数据集和所述密文的数据集，以及对应译文的数据集进行联合子词学习，并对文本进行切分，得到后续模型训练的最终数据集；

多源一致性训练模块，用于用所述最终数据集，对变换器Transformer模型进行多源一致性训练，得到中文神经机器翻译模型；

翻译模块，用于使用所述中文神经机器翻译模型，将待翻译语句翻译成目标语句。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述中文翻译方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述中文翻译方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明所述中文神经机器翻译模型对比于目前中文机器翻译模型具有更好的表示学习能力，以及更少的模型参数。本发明在WMT 2017中英翻译数据集上训练出来的模型，在测试集上取得了不使用额外语料的最好结果，明显地提升了翻译效果并减少了模型参数量，具有大规模商业化的潜力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种中文翻译方法流程图；

图2是本发明实施例提供的拉丁化笔画序列建模示意图；

图3是本发明实施例的密文数据增强示意图；

图4是本发明实施例的子词学习及共享源端-目标端表示示意图；

图5是本发明实施例提供的一种中文翻译装置框图；

图6是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

如图1所示，本发明实施例提供了一种中文翻译方法，所述方法包括：

S2、对所述外语化笔画序列进行密文数据增强，得到密文；

下面结合图2-图4，详细说明本发明实施例的一种中文翻译方法，所述方法包括：

所述训练集是一个平行语料库，由多组含义相同，但属于不同语言文本的句子组成，比如中文源数据“汤姆正在和艾伦聊天”，对应英文译文“Tom is talking to Allen”。

所述预定义好的词典可以为本领域认可的通用词典。

如图2所示，将“汤姆正在和艾伦聊天”中的每个字符拆分为不同的笔画序列。

对于拥有相同笔画序列的不同汉字，比如“井”和“开”，为了区分它们，本发明实施例在这些相同的笔画序列末尾添加不同的数字。

汉字被拆分过后，后续的中文神经机器翻译模型可以更好地学习到偏旁部首等内部特征。

S12、将每个笔画映射为对应的外文字母；所述映射，过程如下：

所述映射，过程如下：

映射规则为：按频率高低顺序，将笔画映射为外文字母；

所述外文字母可以为拉丁字母，比如26个小写英文字母；也可以为德文字母、法文字母等其他外文字母。本发明实施例在下文中以26个小写英文字母的拉丁字母为例说明，但并不限制本发明实施例的保护范围。

可选地，所述外语化笔画序列包括拉丁化笔画序列，对汉字进行笔画拆分时，预定义了25种不同的笔画，将这25种笔画和26个小写英文字母构建映射，所述S12的映射过程中按频率高低顺序，将笔画映射为外文字母，如图2所示，将中文映射为拉丁字母的外语化笔画序列建模，称为拉丁化笔画序列建模，具体包括：

语言中频率越高的符号携带的信息越少，按频率进行映射保证了将两种语言中相同地位的符号相互对应，减少编码的信息丢失。

S2、对所述外语化笔画序列进行密文数据增强，得到密文；

对所述外语化笔画序列，生成ROT-k密文；

经过多次取值验证，k取2，获得ROT-1及ROT-2的密文，将获得的ROT-1密文及ROT-2密文、所述外语化笔画序列、以及对应译文构成后续模型训练的数据集，得到的中文神经机器翻译模型翻译效果最好。

如表1，以拉丁化笔画序列为例，示出了本发明实施例的密文数据转换词典示意，其中包括：源序列、ROT-1密文及ROT-2密文，ROT-1密文为将所述源序列中的每个拉丁字母，替换为其在拉丁字母表中第1个位置后的字母得到的密文，ROT-2密文为将所述源序列中的每个拉丁字母，替换为其在拉丁字母表中第2个位置后的字母得到的密文。

表1 密文数据转换词典示意

如图3，以拉丁化笔画序列为例，示出了本发明实施例的密文数据增强示意图，其中包括：中文源数据、中文源数据的拉丁化笔画序列、密文、英文译文。

可选地，所述S3的对所述外语化笔画序列的数据集和所述密文的数据集，以及对应译文的数据集进行联合子词学习，并对文本进行切分，得到后续模型训练的最终数据集，具体包括：

所述联合子词学习，学习到的词表是属于所有源端和目标端（外语化笔画序列和密文，以及外文）数据的，因此可以在后续的中文神经机器翻译模型上应用权重共享技术。也就是在基于序列-序列架构的中文神经机器翻译模型中，编码器的输入词嵌入、解码器的输入词嵌入和输出分类层进行共享，词嵌入是通过词在词表中的下标，去词嵌入矩阵中取到对应的向量，输出分类层则是相反的过程，通过模型输出的向量找到词表中概率最大的词，因此这一矩阵也可以共享。即三者都使用相同的词嵌入矩阵。在现有的做法中，由于中文和外文无法共享词表，所以无法共享所有的词嵌入参数矩阵，但是通过本发明实施例的外语化笔画序列建模后，中文的外语化笔画序列和外文拥有相同的基础字符集，可以统一学习一个词表，从而编码器的输入词嵌入、解码器的输入词嵌入和输出分类层共享所有词嵌入参数矩阵。

以拉丁化笔画序列为例，通过子词学习，中文字符的拉丁化笔画序列，被拆分成了其内部偏旁部首对应的拉丁化笔画子序列，比如图4中a所示的中文“和”对应的拉丁化笔画序列“teatoaie”，被拆分成了“禾”和“口”对应的拉丁化笔画子序列“teato”和“aie”，“teato”后面用“@@”表示该子序列不是词的末尾。这样可以提取出字符内部信息，同时进行联合子词学习，得到了拉丁化笔画序列同英文之间的共享子词，比如图4中b所示的源端的ttaeer被拆分成：t@@ ta@@ eer三个子词，目标端的talk被拆分成：ta@@ lk两个子词，它们能共享ta这个子词。

这一步得到的词表相对现有的做法会小很多，是本发明实施例的方法能够打破参数瓶颈的主要原因，同时共享的表示也能提升模型性能。

所述多源一致性训练任务的平行语料包含多个源端文本，对每一个样本，源端文本包括：分词后的外语化笔画序列，以及分词后的两种密文。

将分词后的外语化笔画序列、密文和对应译文，输入到所述中文神经机器翻译模型中，得到外语化笔画序列和密文二者各自的负对数似然损失；接着对外语化笔画序列和密文二者的输出概率分布计算一致性损失；通过最小化这三项损失来更新模型的参数；

用

表示样本

的中文源数据，

表示其分词后的外语化笔画序列，

表示

的密文；

表示

通过模型后的输出和对应译文

的负对数似然损失；

表示

通过模型后的输出和对应译文

的负对数似然损失；

表示

的输出概率分布对

的输出概率分布的KL散度；

表示

的输出概率分布对

的输出概率分布的KL散度。

如表2所示，示出了本发明实施例的多源一致性学习算法流程。

表2 多源一致性学习算法流程

一致性损失基于类间散度损失，类间散度损失，又叫KL散度，公式如下：

KL散度可以用来衡量两个概率分布之间的相似性，两个概率分布越接近，KL散度越小。

外语化笔画序列和密文输入模型后都会输出一个概率分布，对于预测的某个词来说，是用一个N维的向量来表示，本发明实施例假设外语化笔画序列和密文对这个词的输出概率分布分别为P、Q，那么KL散度计算就由上面的公式给出，可以发现这一计算过程并不是对称的，即P对Q的KL散度和Q对P的KL散度是不一样的，在本发明实施例的方法中，通过分别计算P对Q的和Q对P的KL散度，再取均值来得到所述的第三项损失，这项损失本发明实施例命名为一致性损失。

而对源文和密文做一致性损失的目的是，从二者语义相似的角度来约束模型的学习过程。即源文和密文是语义相似的，同时密文可以增强语料的语法和形式多样性，提供了描述语言的另一个角度，为了使模型从源文和密文中学习到相同语义分布，需要进行这样的约束。

可选地，用基于集束搜索的解码方法生成目标语句。

集束搜索的解码方法具体为：

在解码过程中，每次选择概率最大的几个目标词作为候选集，并以概率值作为当前词的评分，在每个集束都生成完句子后，选择评分最高的集束中的目标语句作为最终的翻译结果。

如图5所示，本发明实施例还提供一种中文翻译装置，所述装置包括：

外语化笔画序列建模模块510，用于对训练集的中文源数据进行外语化笔画序列建模，得到所述中文源数据的外语化笔画序列；

密文数据增强模块520，用于对所述外语化笔画序列进行密文数据增强，得到密文；

联合子词学习模块530，用于对所述外语化笔画序列的数据集和所述密文的数据集，以及对应译文的数据集进行联合子词学习，并对文本进行切分，得到后续模型训练的最终数据集；

多源一致性训练模块540，用于用所述最终数据集，对变换器Transformer模型进行多源一致性训练，得到中文神经机器翻译模型；

翻译模块550，用于使用所述中文神经机器翻译模型，将待翻译语句翻译成目标语句。

本发明实施例提供的一种中文翻译装置，其功能结构与本发明实施例提供的一种中文翻译方法相对应，在此不再赘述。

图6是本发明实施例提供的一种电子设备600的结构示意图，该电子设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）601和一个或一个以上的存储器602，其中，所述存储器602中存储有至少一条指令，所述至少一条指令由所述处理器601加载并执行以实现上述中文翻译方法的步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述中文翻译方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。