CN113869069A

CN113869069A - 基于译文树结构解码路径动态选择的机器翻译方法

Info

Publication number: CN113869069A
Application number: CN202111063749.7A
Authority: CN
Inventors: 苏劲松; 蒋辉; 王志豪; 曾华琳
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-12-31
Anticipated expiration: 2041-09-10
Also published as: CN113869069B

Abstract

本发明公开了一种基于译文树结构解码路径动态选择的机器翻译方法和介质，其中方法包括：获取人工标注的机器翻译数据；对目标语言句子进行解析，以得到该目标语言句子对应的目标语言成分句法树，并根据源语言句子和对应的目标语言成分句法树生成训练数据；进行模型的训练，以生成基于译文树结构解码路径动态选择的机器翻译模型；获取待翻译源语言句子，并将待翻译源语言句子输入到基于译文树结构解码路径动态选择的机器翻译模型，以通过基于译文树结构解码路径动态选择的机器翻译模型生成对应的目标语言成分句法树和目标语言句子；能够有效提高机器翻译过程中成分句法树的生成效率，提高机器翻译准确率。

Description

基于译文树结构解码路径动态选择的机器翻译方法

技术领域

本发明涉及机器翻译技术领域，特别涉及一种基于译文树结构解码路径动态选择的机器翻译方法和一种计算机可读存储介质。

背景技术

相关技术中，在进行机器翻译的过程中，多采用序列到序列的翻译模型进行；在通过这种翻译性进行机器翻译的过程中，多按照从上到下、从左到右的方式生成成分句法树；而这种方式容易导致生成效率低下，准确率较低。

发明内容

本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此，本发明的一个目的在于提出一种基于译文树结构解码路径动态选择的机器翻译方法，能够有效提高机器翻译过程中成分句法树的生成效率，提高机器翻译准确率。

本发明的第二个目的在于提出一种计算机可读存储介质。

为达到上述目的，本发明第一方面实施例提出了一种基于译文树结构解码路径动态选择的机器翻译方法，包括以下步骤：获取人工标注的机器翻译数据，其中，所述人工标注的机器翻译数据包括源语言句子和对应的目标语言句子，所述源语言句子和对应的目标语言句子形成平行句对；通过目标语言句子对应的解析器对所述目标语言句子进行解析，以得到该目标语言句子对应的目标语言成分句法树，并根据所述源语言句子和对应的目标语言成分句法树生成训练数据；根据所述训练数据进行模型的训练，以生成基于译文树结构解码路径动态选择的机器翻译模型，其中所述基于译文树结构解码路径动态选择的机器翻译模型包括编码器、解码器和分支选择器；获取待翻译源语言句子，并将所述待翻译源语言句子输入到所述基于译文树结构解码路径动态选择的机器翻译模型，以通过所述基于译文树结构解码路径动态选择的机器翻译模型生成对应的目标语言成分句法树和目标语言句子。

根据本发明实施例的基于译文树结构解码路径动态选择的机器翻译方法，首先，获取人工标注的机器翻译数据，其中，所述人工标注的机器翻译数据包括源语言句子和对应的目标语言句子，所述源语言句子和对应的目标语言句子形成平行句对；接着，通过目标语言句子对应的解析器对所述目标语言句子进行解析，以得到该目标语言句子对应的目标语言成分句法树，并根据所述源语言句子和对应的目标语言成分句法树生成训练数据；然后，根据所述训练数据进行模型的训练，以生成基于译文树结构解码路径动态选择的机器翻译模型，其中所述基于译文树结构解码路径动态选择的机器翻译模型包括编码器、解码器和分支选择器；接着，获取待翻译源语言句子，并将所述待翻译源语言句子输入到所述基于译文树结构解码路径动态选择的机器翻译模型，以通过所述基于译文树结构解码路径动态选择的机器翻译模型生成对应的目标语言成分句法树和目标语言句子；从而实现有效提高机器翻译过程中成分句法树的生成效率，提高机器翻译准确率。

另外，根据本发明上述实施例提出的基于译文树结构解码路径动态选择的机器翻译方法还可以具有如下附加的技术特征：

可选地，在获取人工标注的机器翻译数据之后，还包括：对所述平行句对进行预处理，其中，所述预处理包括符号标准化、大小写统一和分词。

可选地，根据所述训练数据进行模型的训练，包括：使用随机分支顺序下的序列数据对模型进行预训练；使用强化学习的方式对所述分支选择器进行训练。

可选地，在使用强化学习的方式对所述分支选择器进行训练的过程中，通过分支选择器预测分支的数量，如果分支的个数为多个，则通过决策网络进行分支的选择。

可选地，根据以下公式进行分支数量的预测：

p(number)＝softmax(W₁[s_t：h(a_t)：h(f_t)]))

其中，p(number)表示分支的数量，s_t表示当前时刻的隐状态，h(a_t)表示父节点的隐状态，h(f_t)表示兄弟节点的隐状态，W₁表示矩阵参数。

可选地，通过决策网络进行分支的选择包括，对每个分支的优先级进行打分；

其中，根据以下公式进行优先级的打分，：

Score(f_i)＝W₂(tanh(W₁[s_t：h(a_t)：h(f_t)：E(n_i)]))

其中，Score(f_i)表示每个分支的优先级分数，W₁和W₂表示矩阵参数，s_t表示当前时刻的隐状态，h(a_t)表示父节点的隐状态，h(f_t)表示兄弟节点的隐状态，E(n_i)表示每个分支所在的位置。

可选地，在对每个分支的优先级进行打分之后，还包括：计算每个分支被选择的概率，并计算每种分支排序方式被选择的概率；

其中，每种分支排序方式被选择的概率根据以下公式计算：

其中，π(o)表示分支排序方式被选择的概率，m表示分支的数量，p_t表示第i个生成的分支为

的概率，

表示第i个被生成的分支，

表示按照顺序已经生成的前i-1个分支。有效提高机器翻译过程中成分树的生成效率，提高机器翻译准确率。

可选地，使用强化学习的方式对所述分支选择器进行训练，包括：

根据以下公式计算梯度对模型参数进行更新：

其中，L_r表示模型参数，o表示分支的排序方式，r(o)表示当前分支排序方式的奖励分数，p_θ表示决策网络输出的选择当前分支排序方式的概率。

可选地，所述当前分支排序方式的奖励分数根据以下公式计算：

其中，r(o)表示当前分支排序方式的奖励分数，

表示分支选择器按照最大概率选择出的分支排序方式，o表示分支选择器按照概率采样选择出的分支排序方式，

表示

对应的损失值，L(o)表示o对应的损失值，η表示设置的概率最大值，p(o)表示当前模型预测的排列顺序为o的概率。

为达到上述目的，本发明第二方面实施例提出了一种计算机可读存储介质，其上存储有基于译文树结构解码路径动态选择的机器翻译程序，该基于译文树结构解码路径动态选择的机器翻译程序被处理器执行时实现如上述的基于译文树结构解码路径动态选择的机器翻译方法。

根据本发明实施例的计算机可读存储介质，通过存储基于译文树结构解码路径动态选择的机器翻译程序，以使得处理器在执行该基于译文树结构解码路径动态选择的机器翻译程序时，实现如上述的基于译文树结构解码路径动态选择的机器翻译方法，从而实现有效提高机器翻译过程中成分句法树的生成效率，提高机器翻译准确率。

附图说明

图1为根据本发明实施例的基于译文树结构解码路径动态选择的机器翻译方法的流程示意图；

图2为根据本发明实施例的基于译文树结构解码路径动态选择的机器翻译模型的训练流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

相关技术中，多按照从上到下、从左到右的方式生成成分句法树；而这种方式容易导致生成效率低下，准确率较低；根据本发明实施例的基于译文树结构解码路径动态选择的机器翻译方法，首先，获取人工标注的机器翻译数据，其中，所述人工标注的机器翻译数据包括源语言句子和对应的目标语言句子，所述源语言句子和对应的目标语言句子形成平行句对；接着，通过目标语言句子对应的解析器对所述目标语言句子进行解析，以得到该目标语言句子对应的目标语言成分句法树，并根据所述源语言句子和对应的目标语言成分句法树生成训练数据；然后，根据所述训练数据进行模型的训练，以生成基于译文树结构解码路径动态选择的机器翻译模型，其中所述基于译文树结构解码路径动态选择的机器翻译模型包括编码器、解码器和分支选择器；接着，获取待翻译源语言句子，并将所述待翻译源语言句子输入到所述基于译文树结构解码路径动态选择的机器翻译模型，以通过所述基于译文树结构解码路径动态选择的机器翻译模型生成对应的目标语言成分句法树和目标语言句子；从而实现有效提高机器翻译过程中成分句法树的生成效率，提高机器翻译准确率。

为了更好的理解上述技术方案，下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

图1为根据本发明实施例的基于译文树结构解码路径动态选择的机器翻译方法的流程示意图，如图1所示，该基于译文树结构解码路径动态选择的机器翻译方法包括以下步骤：

S101，获取人工标注的机器翻译数据，其中，人工标注的机器翻译数据包括源语言句子和对应的目标语言句子，源语言句子和对应的目标语言句子形成平行句对。

也就是说，获取人工标注的机器翻译数据，该人工标注的机器翻译数据中包括源语言句子和对应的目标语言句子，而源语言句子和对应的目标语言句子之间形成平行句对。

在一些实施例中，为了提高系统的处理效率；在获取人工标注的机器翻译数据之后，还包括：对平行句对进行预处理，其中，预处理包括符号标准化、大小写统一和分词。

S102，通过目标语言句子对应的解析器对目标语言句子进行解析，以得到该目标语言句子对应的目标语言成分句法树，并根据源语言句子和对应的目标语言成分句法树生成训练数据。

需要说明的是，在测试应用阶段，翻译模型对输入的源语言句子进行计算，输出目标语言句子的成分句法树，成分句法树的叶子节点从左至右遍历组成目标语言句子，该过程能够保证目标语言句子具有更高的语法结构性，并有较好的泛化能力。

S103，根据训练数据进行模型的训练，以生成基于译文树结构解码路径动态选择的机器翻译模型，其中基于译文树结构解码路径动态选择的机器翻译模型包括编码器、解码器和分支选择器。

在一些实施例中，如图2所示，根据训练数据进行模型的训练，包括：使用随机分支顺序下的序列数据对模型进行预训练；使用强化学习的方式对分支选择器进行训练。

即言，为了保证模型有按照任意顺序预测的能力，首先，使用随机分支顺序下的序列数据对模型进行训练；具体地，对于给定的目标语言句子对应的成分句法树，模型在预测包含多个子节点的父亲节点之后，通过随机排序的方式决定子节点的预测顺序，以使得模型在训练之后在任意顺序下都具有初步的生成能力；而通过强化学习训练，能够使得分支选择器能够选择较优的分支。

在一些实施例中，在使用强化学习的方式对分支选择器进行训练的过程中，通过分支选择器预测分支的数量，如果分支的个数为多个，则通过决策网络进行分支的选择。

在一些实施例中，根据以下公式进行分支数量的预测：

p(number)＝softmax(W₁[s_t：h(a_t)：h(f_t)]))

在一些实施例中，通过决策网络进行分支的选择包括，对每个分支的优先级进行打分；其中，根据以下公式进行优先级的打分，：

Score(f_i)＝W₂(tanh(W₁[s_t：h(a_t)：h(f_t)：E(n_i)]))

在一些实施例中，在对每个分支的优先级进行打分之后，还包括：计算每个分支被选择的概率，并计算每种分支排序方式被选择的概率；

其中，每种分支排序方式被选择的概率根据以下公式计算：

的概率，

表示第i个被生成的分支，

表示按照顺序已经生成的前i-1个分支。

在一些实施例中，使用强化学习的方式对分支选择器进行训练，包括：

根据以下公式计算梯度对模型参数进行更新：

在一些实施例中，当前分支排序方式的奖励分数根据以下公式计算：

其中，r(o)表示当前分支排序方式的奖励分数，

表示

S104，获取待翻译源语言句子，并将待翻译源语言句子输入到基于译文树结构解码路径动态选择的机器翻译模型，以通过基于译文树结构解码路径动态选择的机器翻译模型生成对应的目标语言成分句法树和目标语言句子。

综上所述，根据本发明实施例的基于译文树结构解码路径动态选择的机器翻译方法，首先，获取人工标注的机器翻译数据，其中，所述人工标注的机器翻译数据包括源语言句子和对应的目标语言句子，所述源语言句子和对应的目标语言句子形成平行句对；接着，通过目标语言句子对应的解析器对所述目标语言句子进行解析，以得到该目标语言句子对应的目标语言成分句法树，并根据所述源语言句子和对应的目标语言成分句法树生成训练数据；然后，根据所述训练数据进行模型的训练，以生成基于译文树结构解码路径动态选择的机器翻译模型，其中所述基于译文树结构解码路径动态选择的机器翻译模型包括编码器、解码器和分支选择器；接着，获取待翻译源语言句子，并将所述待翻译源语言句子输入到所述基于译文树结构解码路径动态选择的机器翻译模型，以通过所述基于译文树结构解码路径动态选择的机器翻译模型生成对应的目标语言成分句法树和目标语言句子；从而实现有效提高机器翻译过程中成分句法树的生成效率，提高机器翻译准确率。

为了实现上述实施例，本发明实施例提出了一种计算机可读存储介质，其上存储有基于译文树结构解码路径动态选择的机器翻译程序，该基于译文树结构解码路径动态选择的机器翻译程序被处理器执行时实现如上述的基于译文树结构解码路径动态选择的机器翻译方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于译文树结构解码路径动态选择的机器翻译方法，其特征在于，包括以下步骤：

获取人工标注的机器翻译数据，其中，所述人工标注的机器翻译数据包括源语言句子和对应的目标语言句子，所述源语言句子和对应的目标语言句子形成平行句对；

通过目标语言句子对应的解析器对所述目标语言句子进行解析，以得到该目标语言句子对应的目标语言成分句法树，并根据所述源语言句子和对应的目标语言成分句法树生成训练数据；

根据所述训练数据进行模型的训练，以生成基于译文树结构解码路径动态选择的机器翻译模型，其中所述基于译文树结构解码路径动态选择的机器翻译模型包括编码器、解码器和分支选择器；

获取待翻译源语言句子，并将所述待翻译源语言句子输入到所述基于译文树结构解码路径动态选择的机器翻译模型，以通过所述基于译文树结构解码路径动态选择的机器翻译模型生成对应的目标语言成分句法树和目标语言句子。

2.如权利要求1所述的基于译文树结构解码路径动态选择的机器翻译方法，其特征在于，在获取人工标注的机器翻译数据之后，还包括：

对所述平行句对进行预处理，其中，所述预处理包括符号标准化、大小写统一和分词。

3.如权利要求1所述的基于译文树结构解码路径动态选择的机器翻译方法，其特征在于，根据所述训练数据进行模型的训练，包括：

使用随机分支顺序下的序列数据对模型进行预训练；

使用强化学习的方式对所述分支选择器进行训练。

4.如权利要求3所述的基于译文树结构解码路径动态选择的机器翻译方法，其特征在于，在使用强化学习的方式对所述分支选择器进行训练的过程中，通过分支选择器预测分支的数量，如果分支的个数为多个，则通过决策网络进行分支的选择。

5.如权利要求4所述的基于译文树结构解码路径动态选择的机器翻译方法，其特征在于，根据以下公式进行分支数量的预测：

p(number)＝softmax(W₁[s_t：h(a_t)：h(f_t)]))

6.如权利要求4所述的基于译文树结构解码路径动态选择的机器翻译方法，其特征在于，通过决策网络进行分支的选择包括，对每个分支的优先级进行打分；

其中，根据以下公式进行优先级的打分，：

Score(f_i)＝W₂(tanh(W₁[s_t：h(a_t)：h(f_t)：E(n_i)]))

7.如权利要求6所述的基于译文树结构解码路径动态选择的机器翻译方法，其特征在于，在对每个分支的优先级进行打分之后，还包括：计算每个分支被选择的概率，并计算每种分支排序方式被选择的概率；

其中，每种分支排序方式被选择的概率根据以下公式计算：

的概率，

表示第i个被生成的分支，

表示按照顺序已经生成的前i-1个分支。

8.如权利要求7所述的基于译文树结构解码路径动态选择的机器翻译方法，其特征在于，使用强化学习的方式对所述分支选择器进行训练，包括：

根据以下公式计算梯度对模型参数进行更新：

9.如权利要求8所述的基于译文树结构解码路径动态选择的机器翻译方法，其特征在于，所述当前分支排序方式的奖励分数根据以下公式计算：

其中，r(o)表示当前分支排序方式的奖励分数，

表示

10.一种计算机可读存储介质，其特征在于，其特征在于，其上存储有基于译文树结构解码路径动态选择的机器翻译程序，该基于译文树结构解码路径动态选择的机器翻译程序被处理器执行时实现如权利要求1-9中任一项所述的基于译文树结构解码路径动态选择的机器翻译方法。