CN114580439B

CN114580439B - 翻译模型训练方法、翻译方法、装置、设备以及存储介质

Info

Publication number: CN114580439B
Application number: CN202210161027.3A
Authority: CN
Inventors: 张力文; 孙萌; 何中军; 李芝
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2023-04-18
Anticipated expiration: 2042-02-22
Also published as: CN114580439A; US20230267286A1

Abstract

本公开提供了一种翻译模型的训练方法、翻译方法、装置、设备以及存储介质，涉及计算机技术领域，尤其涉及自然语言处理、机器翻译等人工智能领域。具体实现方案为：对样本文档进行处理，得到该样本文档的依存形式的RST篇章结构树，该依存形式的RST篇章结构树的边表示该样本文档的篇章中的RST关系；基于该依存形式的RST篇章结构树中的RST关系，确定待训练的翻译模型的注意力机制；将该依存形式的RST篇章结构树和该样本文档输入该待训练的翻译模型进行训练，得到训练后的翻译模型。本公开实施例可以使得翻译模型的翻译结果更加准确。

Description

翻译模型训练方法、翻译方法、装置、设备以及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及自然语言处理、机器翻译等人工智能领域。

背景技术

机器翻译包括将一种源语言翻译成目标语言的过程。目前，基于Transformer的神经机器翻译(Neural Machine Translation,NMT)模型在各个翻译任务中取得了很好的翻译效果。但机器翻译通常是以句子为单位进行翻译的。在实际场景中，常常需要翻译一个完整的段落或者文档。文档具有衔接性和连贯性，文档中的句子之间存在指代、省略、重复等衔接现象和语义的连贯关系。在翻译时如果不考虑文档上下文的影响，难以生成准确、连贯的译文。

发明内容

本公开提供了一种翻译模型的训练方法、翻译方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种翻译模型的训练方法，包括：

对样本文档进行处理，得到该样本文档的依存形式的RST篇章结构树，该依存形式的RST篇章结构树的边表示该样本文档的篇章中的RST关系；

基于该依存形式的RST篇章结构树中的RST关系，确定待训练的翻译模型的注意力机制；

将该依存形式的RST篇章结构树和该样本文档输入该待训练的翻译模型进行训练，得到训练后的翻译模型。

根据本公开的另一方面，提供了一种翻译方法，包括：

对待处理文档，得到该待处理文档的依存形式的RST篇章结构树，该依存形式的RST篇章结构树的边表示该待处理文档的篇章中的RST关系；

将该依存形式的RST篇章结构树和该待处理文档输入训练后的翻译模型进行翻译，得到目标文档；

其中，该训练后的翻译模型采用本公开任一实施例的翻译模型的训练方法训练得到。

根据本公开的另一方面，提供了一种翻译模型的训练装置，包括：

处理模块，用于对样本文档进行处理，得到该样本文档的依存形式的RST篇章结构树，该依存形式的RST篇章结构树的边表示该样本文档的篇章中的RST关系；

确定模块，用于基于该依存形式的RST篇章结构树中的RST关系，确定待训练的翻译模型的注意力机制；

训练模块，用于将该依存形式的RST篇章结构树和该样本文档输入该待训练的翻译模型进行训练，得到训练后的翻译模型。

根据本公开的另一方面，提供了一种翻译装置，包括：

第二处理模块，用于对待处理文档，得到该待处理文档的依存形式的RST篇章结构树，该依存形式的RST篇章结构树的边表示该待处理文档的篇章中的RST关系；

翻译模块，用于将该依存形式的RST篇章结构树和该待处理文档输入训练后的翻译模型进行翻译，得到目标文档；

其中，该训练后的翻译模型采用本公开任一实施例的翻译模型的训练装置训练得到。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开中任一实施例的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。

本公开实施例可以基于样本文档的篇章中的RST关系确定翻译模型的注意力机制并训练翻译模型，使得翻译模型的翻译结果更加准确。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例的翻译模型的训练方法的流程示意图；

图2是根据本公开另一实施例的翻译模型的训练方法的流程示意图；

图3是RST篇章结构树的一种示例的示意图；

图4是RST篇章结构树的另一种示例的示意图；

图5是图3的依存形式的RST篇章结构树的一种示例的示意图；

图6是图4的依存形式的RST篇章结构树的一种示例的示意图；

图7是根据本公开另一实施例的翻译方法的流程示意图；

图8是根据本公开另一实施例的翻译方法的流程示意图；

图9是根据本公开另一实施例的翻译模型的训练装置的结构示意图；

图10是根据本公开另一实施例的翻译模型的训练装置的结构示意图；

图11是根据本公开另一实施例的翻译装置的结构示意图；

图12是根据本公开另一实施例的翻译装置的结构示意图；

图13是一种应用场景中的RST篇章结构树的示意图；

图14是图13的依存形式的RST篇章结构树的示意图；

图15是可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开一实施例的翻译模型的训练方法的流程示意图。该方法可以包括：

S101、对样本文档进行处理，得到该样本文档的依存形式的修辞结构理论(Rhetorical Structure Theory，RST)篇章结构树，该依存形式的RST篇章结构树的边表示该样本文档的篇章中的RST关系；

S102、基于该依存形式的RST篇章结构树中的RST关系，确定待训练的翻译模型的注意力机制；

S103、将该依存形式的RST篇章结构树和该样本文档输入该待训练的翻译模型进行训练，得到训练后的翻译模型。

在本公开实施例中，该待训练的翻译模型和该训练后的翻译模型中的注意力机制，可以是基于该依存形式的RST篇章结构树中的RST关系确定的。

RST认为，文档是凭借各部分间的关系而组结起来的一个层次性结构体，该结构保证了文档的连贯。文档每一部分相对于其他部分而言,都承担着一个特定任务，完成一项特定功能。RST关系也可以称为修辞关系等。每个篇章中所有的RST关系可以构成一个层级性结构。两个最小分析单位之间存在某种功能语义关系，该关系再和其他单位联结可以构成更高一级的关系，如此类推，最后，最高级单位可以将整个文档联接起来构成一个整体。在不同类型/文体的文档中，关系层次的多少是不固定的，主要由文档单位间语义关系的复杂程度决定。一般而言，语义关系越复杂的文档，RST关系层次越多。RST关系层次可以具有同质性(homogeneity)，每一个层次都可依照功能的考虑加以描写。RST关系可以包括但不限于证明、连接、阐述、条件、动机、评价、目的、原因、总结等，具体可以根据实际应用场景的需求来确定。

基于RST，可以用树形结构来表示包括篇章的文档。树的叶节点被称为基本篇章单元(Elementary Discourse Unit，EDU)，表示最小的篇章语义单位，即最小分析单位。树的非终端节点一般由2个或多个相邻的篇章单元向上合并构成。基于RST分割文档得到的树即为RST篇章结构树，也可以称为RST树、RST篇章树、篇章结构树、篇章修辞结构树等。RST篇章结构树通过修辞关系构成一个文档的分层结构。RST篇章结构树的生成方式可以包括多种，例如，可以按照文档中的句子间关系，自上而下或者自下而上生成树形结构。

本公开实施例可以基于样本文档的篇章中的RST关系确定翻译模型的注意力机制并训练翻译模型，使得翻译模型的翻译结果更加准确。例如，翻译结果的上下文更加连贯，逻辑更加通顺。

图2是根据本公开另一实施例的翻译模型的训练方法的流程示意图。该实施例的方法包括上述翻译模型的训练方法实施例的一个或多个特征。在一种可能的实施方式中，S101对样本文档进行处理，得到RST篇章结构树，包括：

S201、解析样本文档，得到该样本文档的选区形式的RST篇章结构树；

S202、将该选区形式的RST篇章结构树转换为该依存形式的RST篇章结构树。

在本公开实施例中，首先，选区形式的RST篇章结构树，可以简称为RST选区树(constituenty tree)。依存形式的RST篇章结构树可以简称RST依存树(dependencytree)。解析文档得到RST选区树后，可以将RST选区树转换为RST依存树，因此，某个文档的RST依存树是该文档的RST选区树的依存形式。选区树可以被视为基于头部选区的二进制树，其中核(nuclei)是头部，每个节点的子节点是线性排序的。使用依存树可以模拟选区树。RST选区树中的修辞关系被视为RST依存树中两个EDU的功能关系。每个EDU可以被标记为“核”或“卫星”，可以表示这个EDU的核能或显著性的特征。核节点通常位于中心位置，而卫星节点通常位于外围位置，并且卫星节点在内容和语法依赖性方面不太重要。EDU之间存在依存关系，代表着它们的修辞关系。

例如，参见图3，一个文档包括多个基本篇章单元(EDU)：e1、e2、e3。上标“*”可以表示核。基于该文档的树形结构包括：根节点为e1～e3，其中，e3是核；根节点的子节点分为e1～e2和e3，并且e1～e2与e3之间是R1关系，在e1～e2中e2是核；e1～e2的子节点分为e1和e2，并且e1与e2之间是R2关系。其中，R1、R2分别表示不同的RST关系。

再如，参见图4，一个文档包括多个EDU：e1、e2、e3。基于该文档的树形结构包括：根节点为e1～e3，其中，e1是核；根节点的子节点分为e1和e2～e3，并且e1与e2～e3之间是R1关系，在e2～e3中e3是核；e2～e3的子节点分为e2和e3，并且e2与e3之间是R2关系。其中，R1、R2分别表示不同的RST关系。

在本公开实施例中，可以将选区形式的RST篇章结构树转换为依存形式的RST篇章结构树。其中，依存形式的RST篇章结构树可以包括多个边，每个边可以表示文档的篇章中的句子或分句之间的RST关系。

例如，可以将图3转换为如图5所示的依存形式的RST篇章结构树。依存形式的RST篇章结构树中，e3和e2之间的边对应R1关系，e2与e1之间的边对应R2关系。

再如，可以将图4转换为如图6所示的依存形式的RST篇章结构树。依存形式的RST篇章结构树中，e1和e3之间的边对应R1关系，e3与e2之间的边对应R2关系。

在依存形式的RST篇章结构树中，每个边可以表示句子或分句之间的RST关系，例如可以采用RST关系矩阵的形式来表示每个边对应的RST关系。

在翻译模型中，可以基于该依存形式的RST篇章结构树来确定注意力机制。例如，如果翻译模型包括编码器和/或解码器，编码器和/或解码器中的注意力机制是基于该依存形式的RST篇章结构树来确定的。

在本公开实施例中，可以利用若干样本文档训练翻译模型，在训练后的翻译模型中，可以确定各种RST关系对应的RST关系矩阵的值。如果利用训练后的翻译模型对文档进行翻译处理，可以将输入模型的文档转换为对应的依存形式的树，获取树的每个边对应的RST关系矩阵的值，进而得到上下文更加连贯，逻辑更加通顺的翻译结果。

在一种可能的实施方式中，该翻译模型采用变换(Transformer)模型，S102基于该依存形式的RST篇章结构树中的RST关系，确定待训练的翻译模型的注意力机制，包括：基于查询(Query)矩阵、键(Key)矩阵、值(Value)矩阵和该依存形式的RST篇章结构树中的边对应的RST关系矩阵得到注意力值。这样，通过将依存形式的RST篇章结构树中的边对应的RST关系矩阵加入注意力机制，能够利用RST结构建模句间关系，提前筛选出与句子(或分句)有关的上下文(context)。

在一种可能的实施方式中，S102基于该依存形式的RST篇章结构树中的RST关系，确定待训练的翻译模型的注意力机制，还包括：对该样本文档的篇章表示进行线性变换，得到该查询矩阵、该键矩阵和该值矩阵。

在本公开实施例中，在Transformer模型的注意力机制中，该查询矩阵、键矩阵和值矩阵，可以是对该样本文档的篇章表示进行线性变换得到的。例如，将样本文档的篇章表示(representation)X，通过以下式1进行线性变换分别得到查询矩阵Q、键矩阵K和值矩阵V：

Q＝Linear_Q(X),K＝Linear_k(X),V＝Linear_v(X) 式1

在式1中Linear表示线性变换，X可以为文档的篇章表示。

在本公开实施例中，对文档的篇章表示进行线性变换，得到查询矩阵、键矩阵和值矩阵后，可以结合依存形式的RST篇章结构树中的边对应的RST关系矩阵可以构建新的注意力机制模型，进而构建新的翻译模型。

在本公开实施例中，文档中篇章对应的查询矩阵、键矩阵和值矩阵可以分别包括多个向量。例如，文档的查询矩阵Q可以包括多个查询向量Q_i，键矩阵K可以包括多个键向量K_j，值矩阵V可以包括多个值向量V_l。例如，文档中，每个单词具有对应的查询向量、键向量和值向量。

在一种可能的实施方式中，S102基于该依存形式的RST篇章结构树中的RST关系，确定待训练的翻译模型的注意力机制，还包括：基于单词w_i对应的查询向量Q_i、单词w_i和单词w_j所在的句子之间的RST关系矩阵R_ij以及单词w_j对应的键向量的转置

确定该样本文档中的单词w_i和单词w_j的注意力得分。

在本公开实施例中，在注意力机制中，样本文档中的单词w_i和单词w_j的注意力得分，可以是基于单词w_i对应的查询向量Q_i、两个单词所在的句子之间的RST关系矩阵R_ij以及单词w_j对应的键向量的转置

确定的。

在本公开实施例中，翻译模型可以包括编码器和/或解码器。编码器和/或解码器中可以具有Transformer结构，Transformer结构中的注意力机制可以基于RST篇章结构树中的边对应的RST关系矩阵进行修改。例如，一种注意力机制的公式的示例如下：

在式2中，Attention(Q,K,V)表示注意力值，softmax()表示归一化处理，Q表示查询矩阵，K表示键矩阵，V表示值矩阵，d_k表示翻译模型的隐藏层的维度。

在本公开实施例中，可以修改注意力机制的公式中，表示单词的注意力得分(attention score)

的部分。例如修改后的公式参见下式3：

在式3中，Q_i表示单词w_i对应的查询向量；R_ij表示两个单词所在的句子之间的RST关系矩阵；

表示单词w_j对应的键向量K_j的转置。

在本公开实施例中，通过在两个单词的注意力得分中加入两个单词所在的句子之间的RST关系矩阵，可以在单词的注意力得分中融入RST篇章结构中的RST关系，有利于使得翻译结果的上下文更加连贯，逻辑更加通顺。

基于单词计算的注意力得分，修改后的注意力机制的公式可以用于表示S301中的注意力值的公式，例如可以参见下式4：

在式4中，Attention(Q,K,V)表示注意力值，softmax()表示归一化处理，Q表示查询矩阵，K表示键矩阵，V表示值矩阵，d_k表示翻译模型的隐藏层的维度，R表示句子之间的RST关系矩阵，R可以包括多个R_ij，基于两个单词所在句子可以查找到对应的R_ij。

在一种可能的实施方式中，单词w_i和单词w_j所在的句子之间的RST关系矩阵R_ij包括单词w_i和单词w_j所在的句子在该依存形式的RST篇章结构树中的边对应的RST关系矩阵。例如，如果依存形式的RST篇章结构树中的某个边表示某两个句子是证明关系，该边对应的RST关系矩阵为该证明关系的RST关系矩阵。如果依存形式的RST篇章结构树中的某个边表示某两个句子是阐述关系，该边对应的RST关系矩阵为该阐述关系的RST关系矩阵。其中，证明关系的RST关系矩阵与阐述关系的RST关系矩阵不同，例如，这两种矩阵中包括的元素的值不完全相同。在本公开实施例中，依存形式的RST篇章结构树中的边对应的RST关系矩阵，可以表示不同单词所在句子之间的RST关系矩阵，从而在注意力机制中融入RST篇章结构中的RST关系，有利于使得翻译结果的上下文更加连贯，逻辑更加通顺。

在一种可能的实施方式中，在该RST篇章结构树中单词w_i和单词w_j所在的句子不具有对应的边的情况下，单词w_i和单词w_j所在的句子之间的RST关系矩阵R_ij为负无穷。例如，参见上述示例，依存形式的RST篇章结构树中，有些句子或分句之间是没有边的。例如，S1和S4之间没有边，这种情况下，S1和S4之间关系矩阵R_ij可以为负无穷。这样，S1和S4中的单词之间的注意力得分也为负无穷，在计算注意力值时忽略没有RST关系的句子间的注意力得分。

在本公开实施例中，通过将两个单词所在的句子之间的RST关系矩阵R_ij设置为负无穷，可以筛选出具有RST关系的句子间的上下文关系，得到更准确的注意力值。

本申请实施例的翻译模型的训练方法，可以由单机、多机或集群系统中的终端、服务器或其它处理设备执行。其中，终端可以包括但不限于用户设备、移动设备、个人数字处理、手持设备、计算设备、车载设备、可穿戴设备等。服务器可以包括但不限于应用服务器、数据服务器、云端服务器等。

图7是根据本公开另一实施例的翻译方法的流程示意图。该方法可以包括：

S701、对待处理文档，得到该待处理文档的依存形式的RST篇章结构树，该依存形式的RST篇章结构树的边表示该待处理文档的篇章中的RST关系；

S702、将该依存形式的RST篇章结构树和该待处理文档输入训练后的翻译模型进行翻译，得到目标文档；

在本公开实施例中，翻译模型的注意力机制可以是基于依存形式的RST篇章结构树中的RST关系确定的。

在本公开实施例中，选区形式的RST篇章结构树和依存形式的RST篇章结构树的解释和示例，可以参见翻译模型的训练方法的相关描述，在此不再赘述。本公开实施例可以的翻译模型的注意力机制是基于篇章中的RST关系确定的，得到的翻译结果更加准确。

图8是根据本公开另一实施例的翻译方法的流程示意图。该实施例的方法包括上述翻译方法实施例的一个或多个特征。在一种可能的实施方式中，该翻译方法还包括：

S801、解析待处理文档，得到该待处理文档的选区形式的RST篇章结构树；

S802、将该选区形式的RST篇章结构树转换为该依存形式的RST篇章结构树。

在本公开实施例中，将选区形式的RST篇章结构树转换为依存形式的RST篇章结构树的具体原理和示例可以参见上述翻译模型的训练方法的实施例中图3至图6的相关描述，在此不赘述。

在一种可能的实施方式中，翻译模型采用变换(Transformer)模型，S802将该依存形式的RST篇章结构树和该待处理文档输入训练后的翻译模型进行翻译，包括：基于查询矩阵、键矩阵、值矩阵和依存形式的RST篇章结构树中的边对应的RST关系矩阵得到注意力值。在本实施例中，注意力机制的修改方式可以参见翻译模型的训练方法的具体示例，在此不再赘述。通过将依存形式的RST篇章结构树中的边对应的RST关系矩阵加入注意力机制，能够利用RST结构建模句间关系，提前筛选出与句子(或分句)有关的上下文。

在一种可能的实施方式中，S802将该依存形式的RST篇章结构树和该待处理文档输入训练后的翻译模型进行翻译，还包括：对待处理文档的篇章表示进行线性变换，得到查询矩阵、键矩阵和值矩阵。本实施例中，线性变换的示例可以参见翻译模型的训练方法的式1及其相关描述，在此不再赘述。在本公开实施例中，通过翻译模型对文档的篇章表示进行线性变换后，可以得到查询矩阵、键矩阵和值矩阵，结合依存形式的RST篇章结构树中的边对应的RST关系矩阵可以构建新的注意力机制模型，进而构建新的翻译模型。

在一种可能的实施方式中，S802将该依存形式的RST篇章结构树和该待处理文档输入训练后的翻译模型进行翻译，还包括：基于待处理文档中的单词w_i对应的查询向量Q_i、单词w_i和单词w_j所在的句子之间的RST关系矩阵R_ij以及单词w_j对应的键向量的转置

确定待处理文档中的单词w_i和单词w_j的注意力得分。例如，参见上述实施例中的式3得到注意力得分，进而，参见上述式4基于注意力得分得到注意力值。在本公开实施例中，通过在两个单词的注意力得分中加入两个单词所在的句子之间的RST关系矩阵，可以在单词的注意力得分中融入RST篇章结构中的RST关系，有利于使得翻译结果的上下文更加连贯，逻辑更加通顺。

在一种可能的实施方式中，单词w_i和单词w_j所在的句子之间的RST关系矩阵R_ij包括单词w_i和单词w_j所在的句子在依存形式的RST篇章结构树中的边对应的RST关系矩阵。在本公开实施例中，依存形式的RST篇章结构树中的边对应的RST关系矩阵，可以表示不同单词所在句子之间的RST关系矩阵，从而在注意力机制中融入RST篇章结构中的RST关系，有利于使得翻译结果的上下文更加连贯，逻辑更加通顺。

在一种可能的实施方式中，在RST篇章结构树中单词w_i和单词w_j所在的句子不具有对应的边的情况下，单词w_i和单词w_j所在的句子之间的RST关系矩阵R_ij为负无穷。在本公开实施例中，通过将两个单词所在的句子之间的RST关系矩阵R_ij设置为负无穷，可以筛选出具有RST关系的句子间的上下文关系，得到更准确的注意力值。

在本公开的翻译方法的实施例中，与翻译模型的训练方法中相同的用词具有相同的含义，可以参见翻译模型的训练方法实施例的相关描述，在此不再赘述。

本申请实施例的翻译模型的训练方法和/或翻译方法，可以由单机、多机或集群系统中的终端、服务器或其它处理设备执行。其中，终端可以包括但不限于用户设备、移动设备、个人数字处理、手持设备、计算设备、车载设备、可穿戴设备等。服务器可以包括但不限于应用服务器、数据服务器、云端服务器等。

图9是根据本公开另一实施例的翻译模型的训练装置的结构示意图。该装置可以包括：

处理模块901，用于对样本文档进行处理，得到该样本文档的依存形式的RST篇章结构树，该依存形式的RST篇章结构树的边表示该样本文档的篇章中的RST关系；

确定模块902，用于基于该依存形式的RST篇章结构树中的RST关系，确定待训练的翻译模型的注意力机制；

训练模块903，用于将该依存形式的RST篇章结构树和该样本文档输入该待训练的翻译模型进行训练，得到训练后的翻译模型。

图10是根据本公开另一实施例的翻译模型的训练装置的结构示意图。该实施例的装置包括上述翻译模型的训练装置实施例的一个或多个特征。在一种可能的实施方式中，翻译模型采用Transformer模型，该确定模块902包括：

注意力值确定子模块1001，用于基于查询矩阵、键矩阵、值矩阵和该依存形式的RST篇章结构树中的边对应的RST关系矩阵得到注意力值。

在一种可能的实施方式中，该确定模块902还包括：

线性变换子模块1002，用于对该样本文档的篇章表示进行线性变换，得到该查询矩阵、该键矩阵和该值矩阵。

在一种可能的实施方式中，该确定模块902还包括：

得分确定子模块1003，用于基于单词w_i对应的查询向量Q_i、单词w_i和单词w_j所在的句子之间的RST关系矩阵R_ij以及单词w_j对应的键向量的转置

确定该样本文档中的单词w_i和单词w_j的注意力得分。

在一种可能的实施方式中，单词w_i和单词w_j所在的句子之间的RST关系矩阵R_ij包括单词w_i和单词w_j所在的句子在该依存形式的RST篇章结构树中的边对应的RST关系矩阵。

在一种可能的实施方式中，在该RST篇章结构树中单词w_i和单词w_j所在的句子不具有对应的边的情况下，单词w_i和单词w_j所在的句子之间的RST关系矩阵R_ij为负无穷。

在一种可能的实施方式中，该处理模块901包括：

解析子模块1004，用于解析该样本文档，得到该样本文档的选区形式的RST篇章结构树；

转换子模块1005，用于将该选区形式的RST篇章结构树转换为该依存形式的RST篇章结构树。

本公开实施例的翻译模型的训练装置的各模块、子模块的具体功能和示例的描述，可以参见上述翻译模型的训练方法实施例中对应步骤的相关描述，在此不再赘述。

图11是根据本公开另一实施例的翻译装置的结构示意图。该装置可以包括：

处理模块1101，用于对待处理文档，得到该待处理文档的依存形式的RST篇章结构树，该依存形式的RST篇章结构树的边表示该待处理文档的篇章中的RST关系；

翻译模块1102，用于将该依存形式的RST篇章结构树和该待处理文档输入训练后的翻译模型进行翻译，得到目标文档；

图12是根据本公开另一实施例的翻译装置的结构示意图。该实施例的装置包括上述翻译装置实施例的一个或多个特征。在一种可能的实施方式中，翻译模型采用Transformer模型，翻译模块1102包括：注意力值确定子模块1201，用于基于查询矩阵、键矩阵、值矩阵和依存形式的RST篇章结构树中的边对应的RST关系矩阵得到注意力值。

在一种可能的实施方式中，翻译模块1102还包括：

线性变换子模块1202，用于对该待处理文档的篇章表示进行线性变换，得到该查询矩阵、该键矩阵和该值矩阵。

在一种可能的实施方式中，翻译模块1102还包括：

得分确定子模块1203，用于基于单词w_i对应的查询向量Q_i、单词w_i和单词w_j所在的句子之间的RST关系矩阵R_ij以及单词w_j对应的键向量的转置

确定该待处理文档中的单词w_i和单词w_j的注意力得分。

在一种可能的实施方式中，该处理模块1101包括：

解析子模块1204，用于解析该待处理文档，得到该待处理文档的选区形式的RST篇章结构树；

转换子模块1205，用于将该选区形式的RST篇章结构树转换为该依存形式的RST篇章结构树。

本公开实施例的翻译装置的各模块、子模块的具体功能和示例的描述，可以参见上述翻译方法实施例中对应步骤的相关描述，在此不再赘述。

本申请实施例的翻译模型的训练装置和/或翻译装置，可以部署于单机、多机或集群系统中的终端、服务器或其它处理设备。其中，终端可以包括但不限于用户设备、移动设备、个人数字处理、手持设备、计算设备、车载设备、可穿戴设备等。服务器可以包括但不限于应用服务器、数据服务器、云端服务器等。

相关技术中，文档级别的翻译(Document-level Machine Translation,DocNMT)方法对上下文的使用方式主要包含：级联和层次化。级联包括：通过将所有上下文句子级联成一个更长的单词序列进而通过注意力机制进行编码。层次化包括：先对每个上下文句子分别进行注意力(attention)操作，生成各自的句子向量；再对句子向量进行attention，生成最终的上下文语义表示。上述DocNMT模型都没有利用篇章结构信息。

针对NMT中Transformer结构的特点，本公开实施例的方案提出在Transformer模型的注意力模块中融合篇章结构信息的方法来进行文档级别的翻译(DocNMT)。例如，本公开实施例的方案使用基于修辞结构理论(RST)的篇章结构信息。RST认为，文档可以用树形结构来表示。树的叶节点被称为基本篇章单元(EDU)，是最小的篇章语义单位。非终端节点由2个或多个相邻的篇章单元向上合并构成。例如文档包括多个句子S₁、S₂、S₃。其中，S₁对应[e₁:这真是部伟大的电影。]，S₂对应[e₂:它的场景非常漂亮，]以及[e₃:有些场景只有《XX》才能与之媲美。]，S₃对应[e₄:演员的演技也时分到位。]，其中，e₁和e₂～e₄之间是证明关系，e₂～e₃和e₄之间是连接关系，e₂和e₃是阐述关系。解析样本文档得到的篇章树的根节点可以为e₁～e₄，分为子节点e₁和e₂～e₄；e₂～e₄再分为子节点e₂～e₃和e₄；e₂～e₃再分为子节点e₂和e₃，如图13所示。

本公开实施例，在NMT系统中，可以利用RST篇章的结构信息进行文档级别的翻译。首先，先使用解析器将要翻译的文档解析成RST篇章结构树，参见图13。然后将该RST篇章结构树转换成依存形式的RST篇章结构树。如图14所示，是图13的依存形式，其中，e3与e1之间是证明关系，e3与e2之间是阐述关系，e4与e3之间是连接关系。

本公开实施例，可以修改Transformer结构中的注意力模块。例如，翻译模型的Transformer结构中，原本的注意力机制的公式的示例可以为：

其中，Attention(Q,K,V)表示注意力值，softmax()表示归一化处理，查询矩阵Q,键矩阵K,值矩阵V可以由输入的文档中篇章对应的表示矩阵representationX通过下式的线性变换得到：

Q＝Linear_Q(X),K＝Linear_k(X),V＝Linear_v(X)

可以将注意力机制中计算单词w_i、w_j之间attention score

的计算公式可以修改为下式：

其中，R_ij表示w_i、w_j之间边的表示，是一个矩阵。R_ij是基于单词所在的句子确定的。如果两个单词所在的句子之间没有RST树的边，则R_ij可以是一个负无穷的矩阵。

一种修改后的注意力机制的示例可以参见下式：

其中，R可以包括多个R_ij，基于两个单词所在句子可以查找到对应的R_ij。

因为句子之间边的关系不仅存在于源语言端，目标语言端也存在相同的关系，因此在源语言端解析RST树结构在解码端也可以使用。

对于目标句子的翻译，真正有用的上下文(context)并不多，本公开该实施例使用RST结构建模句间关系，可以提前筛选出与当前句子有关的上下文(context)。

基于RST可以建模句子之间关系的种类，可以提供额外的句间关系信息。

由于源语言和目标语言句意相同，源语言和目标语言的句间关系相同。因此目标语言端也可以使用相同的RST树进行建模。

将NMT模型与RST篇章结构结合，可以实现整篇文档的翻译，并且使翻译结果上下文连贯，逻辑通顺。

在NMT模型训练过程中，待训练的NMT模型的注意力机制可以采用上述修改后的注意力机制的公式。训练过程中，需要将待训练的样本文档解析成例如图13所示RST篇章结构树，然后将该RST篇章结构树转换成例如图14所示的依存形式的RST篇章结构树。然后，将依存形式的RST篇章结构树和样本文档输入待训练的NMT模型进行训练，确定依存形式的RST篇章结构树的每种类型的边对应的RST关系矩阵R_ij中的元素的值。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图15示出了可以用来实施本公开的实施例的示例电子设备1500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图15所示，设备1500包括计算单元1501，其可以根据存储在只读存储器(ROM)1502中的计算机程序或者从存储单元1508加载到随机访问存储器(RAM)1503中的计算机程序，来执行各种适当的动作和处理。在RAM 1503中，还可存储设备1500操作所需的各种程序和数据。计算单元1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(I/O)接口1505也连接至总线1504。

设备1500中的多个部件连接至I/O接口1505，包括：输入单元1506，例如键盘、鼠标等；输出单元1507，例如各种类型的显示器、扬声器等；存储单元1508，例如磁盘、光盘等；以及通信单元1509，例如网卡、调制解调器、无线通信收发机等。通信单元1509允许设备1500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1501执行上文所描述的各个方法和处理，例如翻译模型的训练方法或翻译方法。例如，在一些实施例中，翻译模型的训练方法或翻译方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1502和/或通信单元1509而被载入和/或安装到设备1500上。当计算机程序加载到RAM 1503并由计算单元1501执行时，可以执行上文描述的翻译模型的训练方法或翻译方法的一个或多个步骤。备选地，在其他实施例中，计算单元1501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行翻译模型的训练方法或翻译方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种翻译模型的训练方法，包括：

对样本文档进行处理，得到所述样本文档的依存形式的RST篇章结构树，所述依存形式的RST篇章结构树的边表示所述样本文档的篇章中的RST关系，其中采用RST关系矩阵的形式来表示每个边对应的RST关系；

基于所述依存形式的RST篇章结构树中的RST关系，确定待训练的翻译模型的注意力机制；

将所述依存形式的RST篇章结构树和所述样本文档输入所述待训练的翻译模型进行训练，得到训练后的翻译模型。

2.根据权利要求1所述的方法，其中，所述翻译模型采用变换Transformer模型，基于所述依存形式的RST篇章结构树中的RST关系，确定待训练的翻译模型的注意力机制，包括：

基于查询矩阵、键矩阵、值矩阵和所述依存形式的RST篇章结构树中的边对应的RST关系矩阵得到注意力值。

3.根据权利要求2所述的方法，基于所述依存形式的RST篇章结构树中的RST关系，确定待训练的翻译模型的注意力机制，还包括：

对所述样本文档的篇章表示进行线性变换，得到所述查询矩阵、所述键矩阵和所述值矩阵。

4.根据权利要求2或3所述的方法，其中，基于所述依存形式的RST篇章结构树中的RST关系，确定待训练的翻译模型的注意力机制，还包括：

基于单词w_i对应的查询向量Q_i、单词w_i和单词w_j所在的句子之间的RST关系矩阵R_ij以及单词w_j对应的键向量的转置

确定所述样本文档中的单词w_i和单词w_j的注意力得分。

5.根据权利要求4所述的方法，其中，单词w_i和单词w_j所在的句子之间的RST关系矩阵R_ij包括单词w_i和单词w_j所在的句子在所述依存形式的RST篇章结构树中的边对应的RST关系矩阵。

6.根据权利要求4或5所述的方法，其中，在所述RST篇章结构树中单词w_i和单词w_j所在的句子不具有对应的边的情况下，单词w_i和单词w_j所在的句子之间的RST关系矩阵R_ij为负无穷。

7.根据权利要求1至6中任一项所述的方法，对样本文档进行处理，得到RST篇章结构树，包括：

解析所述样本文档，得到所述样本文档的选区形式的RST篇章结构树；

将所述选区形式的RST篇章结构树转换为所述依存形式的RST篇章结构树。

8.一种翻译方法，包括：

对待处理文档进行处理，得到所述待处理文档的依存形式的RST篇章结构树，所述依存形式的RST篇章结构树的边表示所述待处理文档的篇章中的RST关系；

将所述依存形式的RST篇章结构树和所述待处理文档输入训练后的翻译模型进行翻译，得到目标文档；

其中，所述训练后的翻译模型采用权利要求1至7中任一项所述的翻译模型的训练方法训练得到。

9.一种翻译模型的训练装置，包括：

处理模块，用于对样本文档进行处理，得到所述样本文档的依存形式的RST篇章结构树，所述依存形式的RST篇章结构树的边表示所述样本文档的篇章中的RST关系，其中采用RST关系矩阵的形式来表示每个边对应的RST关系；

确定模块，用于基于所述依存形式的RST篇章结构树中的RST关系，确定待训练的翻译模型的注意力机制；

训练模块，用于将所述依存形式的RST篇章结构树和所述样本文档输入所述待训练的翻译模型进行训练，得到训练后的翻译模型。

10.根据权利要求9所述的装置，其中，所述翻译模型采用变换Transformer模型，所述确定模块包括：

注意力值确定子模块，用于基于查询矩阵、键矩阵、值矩阵和所述依存形式的RST篇章结构树中的边对应的RST关系矩阵得到注意力值。

11.根据权利要求10所述的装置，其中，所述确定模块还包括：

线性变换子模块，用于对所述样本文档的篇章表示进行线性变换，得到所述查询矩阵、所述键矩阵和所述值矩阵。

12.根据权利要求10或11所述的装置，其中，所述确定模块还包括：

得分确定子模块，用于基于单词w_i对应的查询向量Q_i、单词w_i和单词w_j所在的句子之间的RST关系矩阵R_ij以及单词w_j对应的键向量的转置

确定所述样本文档中的单词w_i和单词w_j的注意力得分。

13.根据权利要求12所述的装置，其中，单词w_i和单词w_j所在的句子之间的RST关系矩阵R_ij包括单词w_i和单词w_j所在的句子在所述依存形式的RST篇章结构树中的边对应的RST关系矩阵。

14.根据权利要求12或13所述的装置，其中，在所述RST篇章结构树中单词w_i和单词w_j所在的句子不具有对应的边的情况下，单词w_i和单词w_j所在的句子之间的RST关系矩阵R_ij为负无穷。

15.根据权利要求9至14中任一项所述的装置，其中，所述处理模块包括：

解析子模块，用于解析所述样本文档，得到所述样本文档的选区形式的RST篇章结构树；

转换子模块，用于将所述选区形式的RST篇章结构树转换为所述依存形式的RST篇章结构树。

16.一种翻译装置，包括：

处理模块，用于对待处理文档进行处理，得到所述待处理文档的依存形式的RST篇章结构树，所述依存形式的RST篇章结构树的边表示所述待处理文档的篇章中的RST关系；

翻译模块，用于将所述依存形式的RST篇章结构树和所述待处理文档输入训练后的翻译模型进行翻译，得到目标文档；

其中，所述训练后的翻译模型采用权利要求9至15中任一项所述的翻译模型的训练装置训练得到。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。