CN115270822A

CN115270822A - 一种结合依存句法的无监督机器翻译提升方法

Info

Publication number: CN115270822A
Application number: CN202210664732.5A
Authority: CN
Inventors: 顾钊铨; 梁栩健; 王乐; 谢禹舜; 张欢; 朱梓萁; 张登辉; 唐可可; 李树栋; 韩伟红; 李默涵; 仇晶
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-11-01

Abstract

本发明涉及机器翻译技术领域，公开了一种结合依存句法的无监督机器翻译提升方法，句法编码解码阶段；结合依存句法规则的去噪阶段；词法以及句法的回译阶段，提出了一种基于一定的依存句法规范下的加噪方法，对比当前的加噪方法，更好地维持了语句的句法性。该结合依存句法的无监督机器翻译提升方法，学习到语句内部的依存句法结构，提升训练时间效率，仅需要少量的手工标注，即可通过约束加噪中的增加、删除以及替换过程使得句子依旧符合一定的句法规范，采用独立的词法编码器、词法解码器与句法解码器的模型设计方案；提出了结合依存句法结构进行回译的优化方法，通过在回译过程中加入了依存句法上的回译损失，维持一定的句法准确性。

Description

一种结合依存句法的无监督机器翻译提升方法

技术领域

本发明涉及机器翻译技术领域，具体涉及一种结合依存句法的无监督机器翻译提升方法。

背景技术

机器翻译作为自然语言处理的重要一个分支，其旨在通过机器无需加入人力资源地将源语言翻译为目标语言。有了跨语言词嵌入作为基础，在2018年，Artetxe和Lample等人几乎同时在句子级无监督机器翻译任务中取得了很好的实验结果，使得越来越多的研究者开始重视无监督机器翻译。

在现有的实现方案中，无论是Artetxe或者Lample等以“中间语言”为枢纽的翻译方式，都仍然遭受到句法错误的限制。不难理解，语言的翻译是一项庞大的工作，仅依赖词粒度上的翻译以及大量的无监督语料，是难以让模型学习到不同语言之间更深层的语法对齐问题，亦或者导致模型学习了更多错误的语法对齐问题。另外，当前方法的加噪技术普遍采用随机交换等，这种方法容易破坏原有的句法结构，并且这样带来的错误可能会让模型疲于恢复句法。而实际生产上，待翻译的句子是能有一定的句法准确度的，所以当前方法的加噪技术可能会导致模型训练的效率下降。因此，当前的基于深度学习的机器翻译模型，其仅仅依赖神经网络对语句内在的句法结构进行学习，准确性是很容易遇到瓶颈的。

另外，亦有不少学者提出显示地把语法结构信息整合到模型中，例如吴[2]等人提出的树到树模型的输入与输出均是包含语法信息的线性短语结构树序列，或者串到树模型，其输入是自然语言，输出是包含语法信息的线性短语结构树序列。该改进在英译法以及法译英上均有提升，然而，这种直接整合句法信息的线性短语结构树序列，无疑加大模型的学习难度，导致训练收敛减慢。同时，从语言学的角度看，句法结构等信息应该属于语言中最高或者最抽象的层次中，直接在输入层引入句法信息约束，可能会带来训练的不稳定。

发明内容

本发明的目的在于提供一种结合依存句法的无监督机器翻译提升方法，旨在对无监督机器翻译进行有效的提升以及效率的加速，提出一种基于一定的依存句法规范下的加噪方法，以解决上述问题。

为实现上述目的，本发明提供如下技术方案：

一种结合依存句法的无监督机器翻译提升方法，包括以下步骤：

S1：句法编码解码阶段。

S2：结合依存句法规则的去噪阶段。

S3：词法以及句法的回译阶段。

优选的，所述S1具体步骤如下：

S101：设置句法解码的损失函数：

其中M为的样本数，N为句子长度。

S102：根据损失函数：利用梯度下降算法如随机梯度下降SGD，Adam等对E^W、D^W、D^S进行同时训练，直到收敛，由于句法涉及的数据量χ比较少，因此该阶段能够短时间内即可完成。

优选的，所述S2具体步骤如下：

S201：设置目标1的损失函数

其中

的是通过编码器-解码器d对加噪后的C(x)进行复原，Δ是一种测量两个序列之间相似度的函数，这里可以采用交叉熵进行词粒度的相似度计算。

S202：设置句法解码的损失函数L_g，该阶段的损失函数为L₂＝L_d+μL_g，其中μ为超参数，调节目标1与目标2的优化比例，通常为0.2。

S203：根据损失函数，利用梯度下降算法如随机梯度下降SGD，Adam等对E^W、D^W、D^S进行同时训练，直到收敛。

优选的，所述S3具体步骤如下：

S301：根据给定的语料X，通过E^W和D^W获得伪平行词法以及句法对<X，Y，X′，Y′>。

S302：设置目标1损失函数

目标2损失函数

S303：设置损失函数L＝L_W+μ′L_s。其中μ′为超参数，调节目标1与目标2的优化比例，通常为0.5，利用梯度下降算法如随机梯度下降SGD，Adam等对E^W、D^W进行同时训练(该阶段D^S固定不再加入训练)，直到收敛。

与现有技术相比，本发明的有益效果是：

1、本发明提供的结合依存句法的无监督机器翻译提升方法，旨在对无监督机器翻译进行有效的提升以及效率的加速，提出了一种基于一定的依存句法规范下的加噪方法，对比当前的加噪方法，更好地维持了语句的句法性，目的是让模型更快地学习到语句内部的依存句法结构，提升训练的时间效率，分离了词法编码、词法解码与句法解码部分。

2、本发明句法的解码部分输入来源于词法编码的输出，不需要额外设计新的依存句法编码；另外，由于句法结构标注量远低于词法，因此句法的编码-解码器的训练需要更少的标注语料，而且能够更快地收敛，且提出了一种基于一定的依存句法规范下的加噪方法。仅需要少量的手工标注，即可通过约束加噪中的增加、删除以及替换过程使得句子依旧符合一定的句法规范，分离了词法编码、词法解码与依存句法解码部分，采用独立的词法编码器、词法解码器与句法解码器的模型设计方案。

3、本发明提出了结合依存句法结构进行回译的优化方法，通过在回译过程中加入了依存句法上的回译损失，维持一定的句法准确性。

4、本发明该结合依存句法的无监督机器翻译提升方法，通过新的基于一定的句法规范下的加噪方法，对比当前的加噪方法，更好地维持了语句的句法性，让模型更好地学习到语句内部的句法结构，另外针对词法与句法同时训练的困难点，分离了词法学习与依存句法学习的过程，提出了独立的词法编码器、词法解码器和句法解码器，并且句法的解码部分输入来源于词法编码的输出，不需要额外设计新的依存句法编码器，提出了结合依存句法进行回译的优化方法，进一步提升了无监督机器翻译质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的词法和句法解码器结构与原理示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

请参阅图1，本发明实施例提供的结合依存句法的无监督机器翻译提升方法，包括以下步骤：

S1：句法编码解码阶段，该阶段的主要目的是利用少量的标注语料训练句法解码器。

S2：结合依存句法规则的去噪阶段，该阶段的主要目的是结合依存句法规则进行去噪操作，该阶段有两个优化目标：一个是目标(主要目标)是对加噪声后的语句进行复原处理，另外一个目标是在去噪的同时，维持去噪过程中句法合理性；同时亦结合不含依存句法标注的语料，对句法解码器进行反向优化。其中，第一个目标去噪是为了让编码器解码器不再进行简单的复制操作。在本发明中，需要按照一定的句法加噪规范对句子进行增加、删除、替换操作，试图让编码器分析语言的词法、句法结构，让解码器更好地根据编码器带来的有效信息进行句子的复原。第二个目标是为了让模型在去噪声的过程中，能够维持原句子的依存句法结构，同时，在词法编码器-解码器的更新过程中，对句法解码器亦进行学习保持对词法编码器-解码器更新后的依存句法抽取质量。

S3：词法以及句法的回译阶段，该阶段继承于阶段二带来的一定的编码-解码能力，将不同语言的输入语句x进行编码，再经过不同语言的解码器进行解码，获得一定质量的翻译y，从而构建伪平行词法语料(x，y)。在本发明中分为两个目标，一个是基于词法的回译，一个是基于句法的回译。目标1是把y作为输入，再而进行编码解码得到x，通过最大化条件概率P(x|y)来优化模型，其中目标1的损失表示如下：

通过句法解码器，可以获得伪构建伪平行词法语料(x’，y’)。目标2是在最大化条件概率P(x|y)过程中，同时需要最大化条件概率P(x’|y’)，使得模型保持一定的句法约束。同理，目标2的损失函数为：

给定两(多)种语言的语句语料X＝[X₁，...，X_n]，对应的少量的依存句法标注χ＝[χ₁，...，χ_n](其数量远少于语料X)。给定跨语言词嵌入W(参考Artetxe的输入结构)。初始化词法编码器E^W和解码器D^W、句法解码器D^S(可以为多层Transformer或者LSTM架构)。其中词法解码器D^W和句法解码器D^S码均为对应语言设置一个，即

需要注意的是，句法解码器的网络深度应该比词法编码器-解码器要浅(通常设置为词法解码器的一半深度)，否则不能有效对词法解码器起到约束作用，我们的无监督机器翻译训练分为三个阶段。

S1具体步骤如下：

S101：设置句法解码的损失函数：

其中M为的样本数，N为句子长度。

S2具体步骤如下：

S201：设置目标1的损失函数L_d＝E_x～X，x^_{～d(W[C(x)])}[Δ(x^，x)]，其中

的是通过编码器-解码器d对加噪后的C(x)进行复原，Δ是一种测量两哥序列之间相似度的函数，这里可以采用交叉熵进行词粒度的相似度计算。

S3具体步骤如下：

S302：设置目标1损失函数

目标2损失函数

以下以中文句子x1＝“希望是生命的源泉”和英文句子x2＝“I love apple”为语料，其中，它们对应的依存句法分析为[希望/top，是/root，生命/assmod，的/assm，源泉/attr]和[I/nsubj，love/root，apple/dobj]；设置中文语法加噪规范

英文语法加噪规

以上规范均只用于替换操作。如果需要增加、删除等操作，可以标记为例如

表示可以加入句法性质为top的词到attr前，又例如删除可以标记为

表示句子中句法性质为dobj的词可以删除。

第一阶段，根据阶段一的损失函数训练E^W，D^W，D^S，使得

第二阶段，结合依存句法规则的去噪阶段。对x1＝“希望是生命的源泉”进行依据句法规范加噪(第1目标)，例如根据

“希望”和“生命”由于分别属于top和attr，因此需要去噪的语句为“生命是希望的源泉”，同时(第2目标)需要维持句法的解释为[生命/top，是/root，希望/assmod，的/assm，源泉/attr]和[I/nsubj，love/root，apple/dobj]；对于英文语料x2也是同理的设置和去噪。

第三阶段，词法以及句法的回译阶段。经过阶段二，x1＝“希望是生命的源泉”经过共享编码器以及英文解码器后，获得伪平行语对y1＝“Hope is the fountain of life”，以及它们的伪平行句法对x1’＝[top,root,assmod,assm,attr]，y1’＝[nsubj,root,det,attr,prep,pobj]。获得伪平行词法以及句法对后，以y1、y1’作为输入，获得输出

以及

根据损失函数根据

以及

计算损失，进一步优化直到收敛。

本发明上述实施例提供的结合依存句法的无监督机器翻译提升方法，通过学习到语句内部的依存句法结构，提升训练时间效率，仅需要少量的手工标注，即可通过约束加噪中的增加、删除以及替换过程使得句子依旧符合一定的句法规范，采用独立的词法编码器、词法解码器与句法解码器的模型设计方案；提出了结合依存句法结构进行回译的优化方法，通过在回译过程中加入了依存句法上的回译损失，维持一定的句法准确性。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种结合依存句法的无监督机器翻译提升方法，其特征在于，包括以下步骤：

S1：句法编码解码阶段；

S2：结合依存句法规则的去噪阶段；

S3：词法以及句法的回译阶段。

2.根据权利要求1所述的结合依存句法的无监督机器翻译提升方法，其特征在于：所述S1具体步骤如下：

S101：设置句法解码的损失函数：

其中M为的样本数，N为句子长度；

S102：根据损失函数：利用梯度下降算法如随机梯度下降SGD，Adam等对E^W、D^W、D^S进行同时训练，直到收敛,由于句法涉及的数据量χ比较少，因此该阶段能够短时间内即可完成。

3.根据权利要求1所述的结合依存句法的无监督机器翻译提升方法，其特征在于：所述S2具体步骤如下：

S201：设置目标1的损失函数L_d＝E_{x～X，x^～d(W[C(x)])}[Δ(x^，x)]，其中

的是通过编码器-解码器d对加噪后的C(x)进行复原，Δ是一种测量两哥序列之间相似度的函数，这里可以采用交叉熵进行词粒度的相似度计算；

S202：设置句法解码的损失函数L_g，该阶段的损失函数为L₂＝L_d+μL_g，其中μ为超参数，调节目标1与目标2的优化比例，通常为0.2；

4.根据权利要求1所述的结合依存句法的无监督机器翻译提升方法，其特征在于：所述S3具体步骤如下：

S301：根据给定的语料X，通过E^W和D^W获得伪平行词法以及句法对<X，Y，X'，Y'>；

S302：设置损失函数L＝L_W+μ'L_s。其中μ'为超参数，调节目标1与目标2的优化比例，通常为0.5，利用梯度下降算法如随机梯度下降SGD，Adam等对E^W、D^W进行同时训练(该阶段D^S固定不再加入训练)，直到收敛。