CN116108862B

CN116108862B - 篇章级机器翻译模型构建方法、系统及存储介质

Info

Publication number: CN116108862B
Application number: CN202310367248.0A
Authority: CN
Inventors: 刘明童; 林磊; 周明
Original assignee: Beijing Lanzhou Technology Co ltd
Current assignee: Beijing Lanzhou Technology Co ltd
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-07-25
Anticipated expiration: 2043-04-07
Also published as: CN116108862A

Abstract

本发明涉及机器翻译技术领域，特别涉及一种篇章级机器翻译模型构建方法、系统及存储介质，本发明提供的篇章级机器翻译模型构建方法，包括通过人称代词补全模型对获取的源端文档中的人称代词进行补全；通过训练后的指代消解模型对补全后的人称代词进行指代消解，获得共指人称代词和对应的性别信息，以根据性别信息修正补全后的人称代词获得第一伪数据；在源端文档中引入性别信息获得第二伪数据；通过获取的文档级双语数据和第一伪数据和第二伪数据对联合学习模型进行训练，获得的篇章级机器翻译模型能增强翻译后的文档的上下文一致性和人名性别指代一致性，同时本发明建立机器翻译和指代消解的联合学习模型，共同增强各个任务的性能。

Description

篇章级机器翻译模型构建方法、系统及存储介质

技术领域

本发明涉及机器翻译技术领域，特别涉及一种篇章级机器翻译模型构建方法、系统及存储介质。

背景技术

近年来，由于深度神经网络在自然语言处理的各个任务上取得了巨大成功，因此神经机器翻译已成为当前学术界和工业界的主流机器翻译范式。神经机器翻译模型将不同语言之间的翻译视作序列到序列的建模问题，即学习如何将源语言句子转换成对应目标语言句子并保证二者具有相同的语义。

但在汉语、日语等语言中，存在着表达省略的特点，即人们常常省略表达中的部分代词成分，使得句子更加简洁精练。在理解语义时，需要从周围的语境或对话中推断句子中的代词，学术上称之为“零指代”问题。尽管人们在阅读时这种省略并没有问题，但是机器在处理这类文本时由于缺少上下文信息，在语义理解上存在歧义，往往容易出错。在机器翻译任务中，当把代词省略语言的句子翻译成非代词省略语言的时候，机器翻译系统因无法正确翻译出省略的代词而带来的性能下降，这种现象无论在句子级，还是篇章级机器翻译中，都尤为明显。尤其是机器在翻译过程中因为代词省略导致的性别不一致问题，如在中英翻译中，源句子没有显式的代词表示“他”或“她”，在翻译到英文时，模型得到“he”或“she”的概率通常不可控，如同一部小说中的同一人名，在不同的翻译上下文中，会得到不一样的性别代词，严重影响了翻译质量。

发明内容

为解决现有神经机器翻译中代词省略造成的性别指代不一致的问题，本发明提供了一种篇章级机器翻译模型构建方法、系统及存储介质。

本发明解决技术问题的方案是提供一种篇章级机器翻译模型构建方法，包括以下步骤：

获取源端文档，通过人称代词补全模型对所述源端文档中的人称代词进行补全；所述人称代词补全模型通过标准单语文档对BART模型进行训练获得；

通过训练后的指代消解模型对补全后的人称代词进行指代消解，获得共指人称代词和对应的性别信息，以根据所述性别信息修正补全后的人称代词，获得第一伪数据；所述性别信息通过统计共指人称代词中目标人名和分别对应的男性和女性的指代次数确定，所述第一伪数据包括已补全和修正后的第一源端文档和对应的第一目标端文档；所述共指人称代词为指代同一个人的所有代词；

所述训练后的指代消解模型通过以下步骤获得：

获取初始指代消解模型和训练文档；

将所述训练文档输入所述初始指代消解模型，使所述初始指代消解模型根据学习目标同时进行表述检测任务和表述链接任务的学习，获得训练后的指代消解模型；

所述学习目标为：

其中，D为训练文档，N为训练文档D中所有表述的数量，i指代训练文档D中的表述，其中，1≤i≤N，表示空指代，/>为候选表述集合，/>为候选目标表述，/>表示第i个表述对应到候选目标表述/>共指的可能性得分，/>为变量表示候选表述集合中的一个候选表述，/>表示第i个表述和一个候选表述/>的得分，为条件概率，/>表示句子中的表述的集合；

在所述源端文档中引入所述性别信息获得第二伪数据；所述第二伪数据包括引入所述性别信息的第二源端文档及对应的第二目标端文档；

获取文档级双语数据和联合学习模型，通过所述文档级双语数据和所述第一伪数据和所述第二伪数据对所述联合学习模型进行训练，获得篇章级机器翻译模型；所述文档级双语数据包括高比例人称代词的第三源端文档和对应的第三目标端文档；所述联合学习模型通过以下步骤获得：

获取初始机器翻译模型；所述初始机器翻译模型采用编码器-解码器框架的Transformer模型；

所述指代消解模型共享所述初始机器翻译模型的编码器，并通过所述学习目标与所述编码器进行联合学习以获得所述联合学习模型；所述联合学习的损失函数为：

+/>+/>，

其中，是表述检测任务的损失函数，/>是表述链接任务的损失函数，/>是机器翻译任务的损失函数，/>表示各个任务损失的权重。

优选地，所述人称代词补全模型通过标准单语文档对BART模型进行训练获得，具体包括：

根据预设人称代词删除任务对所述标准单语文档中的人称代词进行随机删除，获得训练数据；

通过所述训练数据对训练后BART模型进行训练，获得所述人称代词补全模型。

优选地，通过训练后的指代消解模型对补全后的人称代词进行指代消解，获得共指人称代词和对应的性别信息，以根据所述性别信息修正补全后的人称代词，获得第一伪数据，具体包括以下步骤：

将补全后的所述源端文档输入训练后的所述指代消解模型；

通过所述指代消解模型对所述源端文档中的人名进行指代消解，获得共指人称代词；

根据共指人称代词中目标人名和分别对应的男性和女性的指代次数确定人名对应的性别信息；

根据所述性别信息对补全后的人称代词进行修正，获得第一伪数据。

优选地，根据共指人称代词中目标人名和分别对应的男性和女性的指代次数确定目标人名对应的性别信息，具体包括以下步骤：

分别统计共指人称代词中目标人名和对应的男性和女性的指代次数；

根据指代次数，分别获得目标人名及对应的男性和女性的共指概率；

判断男性或女性的共指概率是否大于预设阈值；

若大于所述预设阈值，则将大于所述预设阈值所对应的性别作为目标人名对应的性别。

优选地，获取文档级双语数据，具体包括以下步骤：

获取句子级双语语料和句子级翻译模型，通过所述句子级双语语料对所述句子级翻译模型进行训练，获得训练后的目标端到源端的句子级翻译模型；

获取目标端文档，将所述目标端文档输入所述训练后的句子级翻译模型，以通过反向翻译的方式将所述目标端文档中的人称代词对应迁移到源端文档中，生成高比例人称代词的源端文档，获得包括高比例人称代词的文档级双语数据。

优选地，通过所述文档级双语数据和所述第一伪数据和所述第二伪数据对机器翻译模型进行训练，获得篇章级机器翻译模型，具体包括以下步骤：

基于预设滑动窗口、预设步长和预设几何分布对所述文档级双语数据、所述第一伪数据和所述第二伪数据进行框选形成训练样本；

通过所述训练样本对联合学习模型进行训练，获得篇章级翻译模型。

优选地，获取文档级双语数据和联合学习模型，通过所述文档级双语数据和所述第一伪数据和所述第二伪数据对所述联合学习模型进行训练，获得篇章级机器翻译模型之后，所述方法还包括：

获取领域文档，通过所述领域文档对所述篇章级机器翻译模型进行训练，获得训练后的领域篇章级机器翻译模型。

本发明为解决上述技术问题还提供一种篇章级机器翻译模型构建系统，用于实现如上任一项所述的篇章级机器翻译模型构建方法，包括：

代词补全模块，用于获取源端文档，通过人称代词补全模型对所述源端文档中的人称代词进行补全；所述人称代词补全模型通过标准单语文档对BART模型进行训练获得；

代词修正模块，用于通过训练后的指代消解模型对补全后的人称代词进行指代消解，获得共指人称代词和对应的性别信息，以根据所述性别信息修正补全后的人称代词，获得第一伪数据；所述性别信息通过统计共指人称代词中目标人名和分别对应的男性和女性的指代次数确定，所述第一伪数据包括已补全和修正后的第一源端文档和对应的第一目标端文档；所述共指人称代词为指代同一个人的所有代词；

所述训练后的指代消解模型通过以下步骤获得：

获取初始指代消解模型和训练文档；

所述学习目标为：

信息引入模块，用于在所述源端文档中引入所述性别信息获得第二伪数据；所述第二伪数据包括引入所述性别信息的第二源端文档及对应的第二目标端文档；

模型构建模块，用于获取文档级双语数据和联合学习模型，通过所述文档级双语数据和所述第一伪数据和所述第二伪数据对所述联合学习模型进行训练，获得篇章级机器翻译模型；所述文档级双语数据包括高比例人称代词的第三源端文档和对应的第三目标端文档；所述联合学习模型通过以下步骤获得：

+/>+/>，

本发明为解决上述技术问题还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被执行时实现如上任一项所述的篇章级机器翻译模型构建方法。

与现有技术相比，本发明提供的篇章级机器翻译模型构建方法、系统及存储介质具有以下优点：

1、本发明的一种篇章级机器翻译模型构建方法，通过人称代词补全模型补全源端文档中的人称代词，指代消解模型对补全后的人称代词进行指代消解，从而获得共指人称代词和对应的性别信息，以该性别信息修正补全后获得第一伪数据，以减少人称代词补全所带来的性别错误。并在源端文档中引入性别信息获得第二伪数据，通过第一伪数据，第二伪数据和文档级双语数据对机器翻译模型进行训练，从而使获得的篇章级机器翻译模型能在源端文档零指代的情况下成功翻译成目标端语料的人称代词，以增强上下文一致性和人名性别指代一致性，提高篇章翻译质量。

2、本发明通过采用已被随机删除人称代词的训练数据训练BART模型，使已被删除人称代词恢复，输出原始的正确的标准单语文档，从而完成了训练，获得人称代词补全模型，进而使人称代词补全模型能在源端文档零指代的情况下，补全源端文档中的人称代词。

3、本发明通过学习目标完成表述检测任务和表述链接任务的多任务学习以提供额外的信息增强指代消解模型学习到正确表述之间的指代关系，从而找到正确的表述，进行正确的表述链接。

4、本发明通过统计共指人称代词中目标人名和分别对应的男性和女性的指代次数从而确定目标人名对应的性别信息，从而将补全后的人称代词进行修正，以减少局部代词补全所带来的错误传播。

5、本发明根据指代次数，分别获得目标人名及对应的男性和女性的共指概率；并通过将男性或女性的共指概率与预设阈值进行比较，从而确定目标人名所对应的真正性别，从而提高目标人名的性别判断的准确性。

6、本发明通过获取初始机器翻译模型；初始机器翻译模型采用编码器-解码器框架的Transformer模型；指代消解模型共享初始机器翻译模型的编码器，并通过学习目标与编码器进行联合学习以获得联合学习模型。以增强联合学习模型对指代信息的学习能力，更好地获取源端文档中源语言句子的表示向量，从而帮助联合学习模型进行翻译。另外翻译过程中引入了跨语言信息的对齐知识，可以帮助编码器学习源语言的信息，最终二者共同学习，相互提高。

7、本发明通过训练后的句子级翻译模型，以反向翻译的方式将指代富裕的目标端文档中的指代信息迁移到有指代省略的源端文档当中，从而使目标端文档中也具有高比例人称代词，从而获得了包括高比例人称代词的文档级双语数据，即篇章级平行数据。进而解决了篇章训练数据不足，和原始中文等存在大量指代省略的问题。

8、本发明通过设置预设滑动窗口、预设步长和预设几何分布对文档级双语数据、第一伪数据和第二伪数据进行框选从而对应生成上下文不同的训练样本，以训练机器翻译模型，获得篇章级机器翻译模型。使获得的篇章级机器翻译模型能模拟不同上下文情况下的翻译，以增强在不同上下文翻译的鲁棒性。

9、本发明还提供一种篇章级机器翻译模型构建系统，具有与上述篇章级机器翻译模型构建方法相同的有益效果，在此不做赘述。

10、本发明还提供一种计算机可读存储介质，具有与上述篇章级机器翻译模型构建方法相同的有益效果，在此不做赘述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的篇章级机器翻译模型构建方法的步骤流程图。

图2是本发明第一实施例提供的篇章级机器翻译模型构建方法的框架示意图。

图3是本发明第一实施例提供的篇章级机器翻译模型构建方法之步骤S2的具体步骤流程图。

图4是本发明第一实施例提供的篇章级机器翻译模型构建方法之步骤S23的具体步骤流程图。

图5是本发明第一实施例提供的篇章级机器翻译模型构建方法之步骤S405的滑动窗口示意图。

图6是本发明第二实施例提供的篇章级机器翻译模型构建系统的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本文所使用的术语“垂直的”、“水平的”、“左”、“右”、“上”、“下”、“左上”、“右上”、“左下”、“右下”以及类似的表述只是为了说明的目的。

请参阅图1和图2，本发明第一实施例提供一种篇章级机器翻译模型构建方法，包括以下步骤：

S1：获取源端文档，通过人称代词补全模型对源端文档中的人称代词进行补全；

S2：通过训练后的指代消解模型对补全后的人称代词进行指代消解，获得共指人称代词和对应的性别信息，以根据性别信息修正补全后的人称代词，获得第一伪数据；

S3：在源端文档中引入性别信息获得第二伪数据；

S4：获取文档级双语数据和联合学习模型，通过文档级双语数据和第一伪数据和第二伪数据对联合学习模型进行训练，获得篇章级机器翻译模型。

可以理解地，源端文档为多个句子中都有指代省略的文档。共指人称代词是指代同一个人的所有代词。人称代词补全模型可补全源端文档中指代省略句子中的人称代词。例如，源端文档中的“小明今天不学习了，明天学习”，可补全为“小明今天不学习了，他明天学习”。

可以理解地，在将经人称代词补全模型补全后的源端文档输入训练后的指代消解模型，指代消解模型可对补全后的源端文档中的人名进行指代消解，从而获得共指人称代词及对应的性别信息。例如，可识别出补全后的源端文档中“小明今天不学习了，他明天学习”中的“小明”“他”指代同一个人，并确定“小明”的性别。且指代消解模型还可通过该人名及对应的性别信息对补全后源端文档中的人称代词进行修正，从而获得第一伪数据，以减少人称代词补全模型在补全源端文档所带来的性别错误。且可在源端文档中引入性别信息获得第二伪数据，通过第一伪数据，第二伪数据和文档级双语数据对联合学习模型进行翻译任务的训练，从而获得篇章级机器翻译模型。进而使获得的篇章级机器翻译模型能在源端文档零指代的情况下成功翻译成目标端语料的人称代词，以提高人名性别指代一致性，提高篇章翻译质量。另外，由于第一伪数据，第二伪数据和文档级双语数据均为文档级的训练数据，由此通过文档级的训练数据训练联合学习模型从而得到的篇章级机器翻译模型能有效进行篇章翻译，提高翻译的准确率，从而增强上下文一致性。

可以理解地，篇章级机器翻译模型可将源端语言翻译成目标端语言，因此需使用双语数据对联合学习模型进行训练。第一伪数据中包括已补全和修正后的第一源端文档和对应的第一目标端文档。同理，第二伪数据中包括引入性别信息的第二源端文档及对应的第二目标端文档。文档级双语数据中包括第三源端文档及对应的第三目标端文档。通过包括不同信息的不同的双语数据对联合学习模型进行训练，从而使获得的篇章级机器翻译模型能将缺乏人称代词的源端文档翻译成流畅且具备人称代词的目标端语言。例如，当需要一个中文到英文的篇章级机器翻译模型，中文对应的即为源端，英文对应的即为目标端。由此，所需的训练数据为中文源端文档和对应的英文目标端文档。即第一伪数据包括已补全和修正人称代词的第一中文文档和对应的第一英文文档；第二伪数据包括引入性别信息的第二中文文档和对应的第二英文文档；文档级双语数据包括第三中文文档及对应的第三英文文档。

进一步地，人称代词补全模型通过以下步骤获得：

S10：获取标准单语文档和BART模型并进行预训练；

S11：根据预设人称代词删除任务对标准单语文档中的人称代词进行随机删除，获得训练数据；

S12：通过训练数据对训练后BART模型进行训练，获得人称代词补全模型。

可以理解地，标准单语文档是具备高比例人称代词的单语文档，即文档中不存在人称代词省略问题。步骤S10中，需先获取标准单语文档和BART模型，对标准单语文档添加噪音后形成噪音数据，该噪音数据作为BART模型的输入，并以原始的不添加噪音的标准单语文档作为BART模型的标准输出。即将噪音数据输入BART模型后，BART模型能输出文档与原始的不添加噪音的标准单语文档一致，BART模型的训练完成。

需要说明的是，具体噪音任务包括：随机交换句子顺序、随机交换词语顺序，随机删除句子等任务。

可以理解地，人称代词补全模型是在预训练好的BART模型的基础上，引入一个人称代词删除的自监督训练任务。即对于标准单语文档中的句子中的人称代词设定高概率的随机删除后形成训练数据，将该训练数据输入训练后的BART模型进行训练，模拟训练数据中的省略人称代词被恢复的过程，从而将被随机删除的人称代词恢复。当通过训练数据训练预训练后的BART模型能输出与原始的没有经过随删除和添加噪音的标准单语文档一致时，训练完成，获得人称代词补全模型。从而使人称代词补全模型能补全输入文档中的所缺乏的人称代词。例如，标准单语文档中包括“我昨天去看了老师，他热情招待了我”，随机删除后成为了“昨天去看了老师，热情招待了我”，人称代词补全模型补全后为“我昨天去看了老师，他热情招待了我”，与原始的标准单语文档一致。

可以理解地，在获得人称代词补全模型后，还可获取领域文档，通过领域文档对人称代词补全模型进行训练，从而使人称代词补全模型能学习该领域的知识，从而提高人称代词补全模型补全该领域的准确率。本实施例中，优选的，可采用小说领域的文档对人称代词补全模型进行训练。小说中代词数据较多，可以更好地训练小说领域的代词补全模型。

进一步地，训练后的指代消解模型通过以下步骤获得：

S201：获取指代消解模型和训练文档；

S202：将训练文档输入指代消解模型，使指代消解模型根据学习目标同时进行表述检测任务和表述链接任务的学习，获得训练后的指代消解模型；

学习目标为：

其中，D为训练文档，N为训练文档D中所有表述的数量，i指代训练文档D中的表述(1≤i≤N)，表示空指代，/>为候选表述集合，/>为候选目标表述，/>表示第i个表述对应到候选目标表述/>共指的可能性得分，/>为变量表示候选表述集合中的一个候选表述，/>表示第i个表述和一个候选表述/>的得分，为条件概率，/>表示句子中的表述的集合。

可以理解地，训练文档为包括较完整的人称代词的文档。表述是指句子中的代词、实体或名词类短语。本实施例中，表述范围仅局限于人名、人称代词。表述检测任务是指需识别出训练文本中所有的人名及人称代词。表述链接任务是指将识别出的人名和人称代词进行正确的链接。指代消解模型的学习目标是指完成训练文本中表述的共指簇的划分，即将相同共指的词语划分为一起，也即将指代同一人的代词划分到一起，形成对应的集合，也即，/>中的每个集合即为一个表述对应的共指人称代词。例如，当训练文档包括“张三遇到了著名女钢琴家小红，她弹钢琴很好”，指代消解模型可识别出该句子中代词“她”指的是“小红”，并将“小红”和“她”划分在一个集合里，从而获得该表述的共指人称代词。

具体地，对于长度为T的文档D，已知表述为N个，指代消解的任务为对所有表述i对应各自一个候选目标表述。其中，如果该表述i对应空指代，代表该表述之前无对应的候选目标表述。通过在候选表述集合/>中查找识别当前表述i及其对应的候选目标表述来完成训练文本中表述的共指簇的划分，即将相同共指的词语划分为一起，形成对应的集合。从而完成了表述检测任务和表述链接任务的学习。进而增强指代消解模型学习到正确表述之间的指代关系的能力，从而找到正确的表述进行正确的表述链接。

具体地，指代消解模型优化的损失函数也是基于条件概率计算，可采用交叉熵损失函数。指代消解模型优化的表述链接任务的损失函数为：

，

其中，是表述链接任务的损失函数。针对表述检测任务的损失函数，同理，也采用交叉熵损失函数。

请参阅图3，进一步地，步骤S2，具体包括以下步骤：

S21：将补全后的源端文档输入训练后的指代消解模型；

S22：通过指代消解模型对源端文档中的人名进行指代消解，获得共指人称代词；

S23：根据共指人称代词中目标人名和分别对应的男性和女性的指代次数确定人名对应的性别信息；

S24：根据性别信息对补全后的人称代词进行修正，获得第一伪数据。

可以理解地，在指代消解模型训练完成后，可将补全后的源端文档输入训练后的指代消解模型，使指代消解模型对补全后的源端文档中的人名进行指代消解。即将文档中出现的所有人名及其对应的人称代词划分在一起，获得对应的共指人称代词。通过统计共指人称代词中目标人名和分别对应的男性和女性的指代次数从而确定目标人名对应的性别信息，从而将补全后的人称代词进行修正，以减少局部代词补全所带来的错误传播。

请参阅图4，进一步地，步骤S23，具体包括以下步骤：

S231：分别统计共指人称代词中目标人名和对应的男性和女性的指代次数；

S232：根据指代次数，分别获得目标人名及对应的男性和女性的共指概率；

S233：判断男性或女性的共指概率是否大于预设阈值；

S234：若大于预设阈值，则将大于预设阈值所对应的性别作为目标人名对应的性别信息。

可以理解地，在获得共指人称代词及对应的性别信息后，可统计共指人称代词中目标人名和对应的男性和女性的指代次数，根据指代次数确定目标人名及对应的男性和女性的共指概率；并通过将男性或女性的共指概率与预设阈值进行比较，从而确定出目标人名所对应的性别，从而提高目标人名的性别判断的准确性。

需要说明的是，男性或女性的共指概率=（男性或女性的频率）/（男性频率+女性频率）。预设阈值是操作人员预先设置的概率值。通过设置预设阈值，从而确保当前所确定的目标人名的性别对应共指概率大于另一性别的共指概率，并大于预设阈值。避免出现男性和女性的共指概率接近的情况，影响目标人名的性别判断的准确性。本实施例中，优选的，预设阈值可大于60%。使确定出的目标人名所对应的性别的共指概率不仅大于另一性别的共指概率，而且大于60%。例如，若补全后的源端文档中，小明和男性代词共指的频率为80，小明和女性代词共指的频率为20，那么小明对应的代词为男性的共指概率为80%，大于其为女性的共指概率20%，并大于预设阈值60%，则可根据步骤S34将所有与小明相关的共指人称代词修改为男性的代词。避免出现男性的共指概率51%，女性的共指概率49%时，仍将所有与小明相关的共指人称代词修改为男性的代词。

可以理解地，在确定该目标人名对应的性别后可通过步骤S3，根据目标人名对应的性别信息生成性别标签，将性别标签引入原始的未进行补全的源端文档中从而获得包括第二源端文档的第二伪数据。例如，当源端文档中包括“小明今天去打篮球了，打得很开心”。经人称代词补全模型补全后并经指代消解模型修正后的获得的第一伪数据包括的第一源端文档为“小明今天去打篮球了，他打得很开心”。而引入性别标签的所获得的第二伪数据包括的第二源端文档为“小明今天去打篮球了，<小明|男|他>他打得很开心”。

进一步地，联合学习模型通过以下步骤获得：

S401：获取初始机器翻译模型；初始机器翻译模型采用编码器-解码器框架的Transformer模型；

S402：指代消解模型共享初始机器翻译模型的编码器，并通过学习目标与编码器进行联合学习以获得联合学习模型；联合学习的损失函数为：

+/>+/>，

可以理解地，指代消解模型可共享初始机器翻译模型的编码器，并通过学习目标联合优化初始机器翻译模型的编码器，从而建立融合机器翻译和指代消解的联合学习模型，也即联合学习模型具备了机器翻译和指代消解的能力。因此，在通过文档级双语数据和第一伪数据和第二伪数据对联合学习模型进行训练，获得篇章级机器翻译模型不仅具备翻译能力，同时也具备指代消解的能力。

可以理解地，指代消解模型的学习目标，可以增强编码器对指代信息的学习能力，更好地获取源语言句子的表示向量，从而帮助联合学习模型进行翻译任务的训练；翻译任务引入了跨语言信息的对齐知识，可以帮助编码器学习源语言的信息，最终二者共同学习，相互提高。

可以理解地，在进行联合学习时，需合理设置各个任务损失的权重，从而平衡表述检测任务、表述链接任务和翻译任务的多任务学习，避免训练失衡，影响翻译质量。

进一步地，获取文档级双语数据，具体包括以下步骤：

S403：获取句子级双语语料和句子级翻译模型，通过句子级双语语料对句子级翻译模型进行训练，获得训练后的目标端到源端的句子级翻译模型；

S404：获取目标端文档，将目标端文档输入训练后的句子级翻译模型，以通过反向翻译的方式将目标端文档中的人称代词对应迁移到源端文档中，生成高比例人称代词的源端文档，获得包括高比例人称代词的文档级双语数据。

可以理解地，文档级双语数据是包括高比例人称代词的双语数据，即第三源端文档和第三目标端文档中均包括高比例人称代词。由于中文等语言中存在指代省略，英文等语言中指代信息富裕，由此我们可以先通过在句子级双语语料上训练一个目标端到源端的句子级翻译模型。使训练后的句子级翻译模型，可以以反向翻译的方式将指代富裕的目标端文档中的指代信息如英文迁移到有指代省略的源端文档如中文当中，本实施例中，训练后的句子级翻译模型采用逐句子翻译，由于代词省略在句子中出现频率较于文档中偏低，从而使源端文档中也具有高比例人称代词，从而获得了包括高比例人称代词的文档级双语数据，即篇章平行数据。进而解决了篇章训练数据不足，和原始中文等存在大量指代省略的问题。

请参阅图5，进一步地，通过文档级双语数据和第一伪数据和第二伪数据对联合学习模型进行训练，获得篇章级机器翻译模型，具体包括以下步骤：

S405：基于预设滑动窗口、预设步长和预设几何分布对文档级双语数据、第一伪数据和第二伪数据进行框选形成训练样本；

S406：通过训练样本对联合学习模型进行训练，获得篇章级机器翻译模型。

可以理解地，通过设置预设滑动窗口、预设步长和预设几何分布可分别对文档级双语数据、第一伪数据和第二伪数据进行框选从而对应生成上下文不同的训练样本，通过该训练样本使联合学习模型进行翻译任务的训练，获得篇章级机器翻译模型。使获得的篇章级机器翻译模型模拟动态上下文下的篇章级机器翻译，让篇章级机器翻译模型能对各种上下文情况下的文档均能取得一个很好的翻译性能，以增强在不同上下文翻译的鲁棒性。

可以理解地，根据预设滑动窗口、预设步长和预设几何分布分别对文档级双语数据、第一伪数据和第二伪数据进行框选所生成的训练样本中，这三部分数据是以预设比例进行混合训练。从而避免训练方向的偏差，影响训练效果，进而影响翻译质量。

需要说明的是，预设滑动窗口、预设步长和预设几何分布均是由操作人员将预先设置。预设几何分布决定了不同预设滑动窗口的大小被采样的概率，预设步长决定每次移动的句子数。

具体地，可通过几何分布生成一个某长度的滑动窗口，以该窗口内的句子数为上下文作为一个训练样本，而后移动一个步长，又通过几何分布生成一个某长度的滑动窗口，以此类推，直到遍历框选完所有文档为训练完一轮。在训练完一轮后，操作人员可随机设置预设滑动窗口、预设步长和预设几何分布，并不断迭代这个训练过程，直到满足终止条件。终止条件即满足训练收敛，在验证集上性能没有改进。例如，（A.B.C.D.E.F.G.H）、（x1.x2.x3.x4.x5.x6.x7.x8）分别为训练样本中源端语言和目标端语言的两篇文档，里面的A、B、x1、x2等分别为一个句子，对于第一个文档，首先根据预设几何分布生成大小为4的滑动窗口，以（A.B.C.D）为一个训练样本，而后移动步长2，再次根据预设几何分布生成大小为6的滑动窗口，以（C.D.E.F.G.H）为一个训练样本，以此类推，遍历完所有文档并训练为一轮，不断迭代这个训练过程，直到满足终止条件。

进一步地，在步骤S4之后，所述方法还包括：

S5：获取领域文档，通过领域文档对篇章级机器翻译模型进行训练，获得训练后的领域篇章级机器翻译模型。

可以理解地，在获得篇章翻译模型之后，可通过领域文档对篇章级机器翻译模型进行训练，获得训练后的领域篇章级机器翻译模型。从而有效增强篇章级机器翻译模型在该领域的篇章翻译中的上下文一致性和性别指代一致性，提高在该领域的篇章翻译质量。例如，可采用小说领域的文档对篇章级机器翻译模型，从而增强篇章级机器翻译模型在小说领域的翻译质量。

具体地，在获取领域文档之后，首先进行人称代词补全模型的补全和基于指代消解模型的修正，然后将处理过的领域文档，即补全和修正后的领域文档输入篇章级机器翻译模型，得到篇章翻译结果。从而有效解决篇章翻译中的上下文一致性和性别指代一致性，提高篇章翻译质量。

请参阅图6，本发明第二实施例提供一种篇章级机器翻译模型构建系统，用于实现如上任一项所述的篇章级机器翻译模型构建方法，包括：

代词补全模块，用于获取源端文档，通过人称代词补全模型对源端文档中的人称代词进行补全；

代词修正模块，用于通过训练后的指代消解模型对补全后的人称代词进行指代消解，获得共指人称代词和对应的性别，以根据共指人称代词对应的性别修正补全后的人称代词，获得第一伪数据；

信息引入模块，用于在源端文档中引入性别信息获得第二伪数据；

模型构建模块，用于获取文档级双语数据和联合学习模型，通过文档级双语数据和第一伪数据和第二伪数据对联合学习模型进行训练，获得篇章级机器翻译模型。

可以理解地，本实施例中的篇章级机器翻译模型构建系统可实现本发明第一实施例提供的一种篇章级机器翻译模型构建方法。通过人称代词补全模块中的人称代词补全模型对源端文档中所缺乏的人称代词进行补全。将补全的源端文档输入人称代词修正模块中的训练后的指代消解模型，以对补全后的人称代词进行指代消解，获得共指人称代词和对应的性别，以根据共指人称代词对应的性别修正补全后的人称代词，获得第一伪数据以减少人称代词补全所带来的性别错误。并通过信息引入模块在源端文档中引入性别信息获得第二伪数据，最后，模型构建模块通过第一伪数据，第二伪数据和文档级双语数据对联合学习模型进行训练，从而使获得的篇章级机器翻译模型能在源端文档零指代的情况下成功翻译成目标端语料的人称代词，以增强上下文一致性和人名性别指代一致性，提高篇章翻译质量。

本发明第三实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本发明第一实施例提供的一种篇章级机器翻译模型构建方法。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在本发明的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在本发明的附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方案中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，在此基于涉及的功能而确定。需要特别注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

2、本发明通过采用已被随机删除人称代词的训练数据训练bert模型，使已被删除人称代词恢复，输出原始的正确的标准单语文档，从而完成了训练，获得人称代词补全模型，进而使人称代词补全模型能在源端文档零指代的情况下，补全源端文档中的人称代词。

6、本发明的通过获取初始机器翻译模型；初始机器翻译模型采用编码器-解码器框架的Transformer模型；指代消解模型共享初始机器翻译模型的编码器，并通过学习目标与编码器进行联合学习以获得联合学习模型。以增强联合学习模型对指代信息的学习能力，更好地获取源端文档中源语言句子的表示向量，从而帮助联合学习模型进行翻译。另外翻译过程中引入了跨语言信息的对齐知识，可以帮助编码器学习源语言的信息，最终二者共同学习，相互提高。

以上对本发明实施例公开的一种篇章级机器翻译模型构建方法、系统及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制，凡在本发明的原则之内所作的任何修改，等同替换和改进等均应包含本发明的保护范围之内。

Claims

1.一种篇章级机器翻译模型构建方法，其特征在于：包括以下步骤：

所述训练后的指代消解模型通过以下步骤获得：

获取初始指代消解模型和训练文档；

所述学习目标为：

+/>+/>，

2.如权利要求1所述的篇章级机器翻译模型构建方法，其特征在于：所述人称代词补全模型通过标准单语文档对BART模型进行训练获得，具体包括：

获取标准单语文档和BART模型并进行预训练；

3.如权利要求1所述的篇章级机器翻译模型构建方法，其特征在于：通过训练后的指代消解模型对补全后的人称代词进行指代消解，获得共指人称代词和对应的性别信息，以根据所述性别信息修正补全后的人称代词，获得第一伪数据，具体包括以下步骤：

将补全后的所述源端文档输入训练后的所述指代消解模型；

4.如权利要求3所述的篇章级机器翻译模型构建方法，其特征在于：根据共指人称代词中目标人名和分别对应的男性和女性的指代次数确定目标人名对应的性别信息，具体包括以下步骤：

判断男性或女性的共指概率是否大于预设阈值；

5.如权利要求1所述的篇章级机器翻译模型构建方法，其特征在于：获取文档级双语数据，具体包括以下步骤：

6.如权利要求1所述的篇章级机器翻译模型构建方法，其特征在于：通过所述文档级双语数据和所述第一伪数据和所述第二伪数据对机器翻译模型进行训练，获得篇章级机器翻译模型，具体包括以下步骤：

7.一种篇章级机器翻译模型构建系统，其特征在于：包括：

所述训练后的指代消解模型通过以下步骤获得：

获取初始指代消解模型和训练文档；

所述学习目标为：

+/>+/>，

8.一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，其特征在于：计算机程序被执行时实现如权利要求1-6任一项所述的篇章级机器翻译模型构建方法。