CN114896993B

CN114896993B - 翻译模型的生成方法、装置、电子设备及存储介质

Info

Publication number: CN114896993B
Application number: CN202210490580.1A
Authority: CN
Inventors: 张传强; 张睿卿; 何中军; 李芝; 吴华
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2023-03-24
Anticipated expiration: 2042-05-06
Also published as: CN114896993A

Abstract

本公开提供了一种翻译模型的生成方法、装置、电子设备及存储介质，涉及计算机技术领域，尤其涉及自然语言处理、深度学习等人工智能技术领域。包括：获取第一样本对数据集，将第一源语句与一个关联语句拼接后的第一拼接语句，输入初始翻译模型的第一编码器中，以获取第一子模型输出的预测语句，及第二子模型输出的预测标签；根据预测语句与第一类别标签对应的关联语句间的第一差异、及预测标签与第一拼接语句中的关联语句对应的标注标签间的第二差异，对初始翻译模型进行修正，以获取修正后的翻译模型。由此，将分类任务和翻译任务结合，对翻译模型进行训练，从而提高了翻译模型的翻译准确性，降低了漏译的概率。

Description

翻译模型的生成方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及自然语言处理、深度学习等人工智能技术领域，具体涉及一种翻译模型的生成方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术地不断发展和完善，其已经在与人类日常生活相关的各个领域扮演着极其重要的作用，例如，人工智能已经在机器翻译的应用场景中取得了显著进步。但是，翻译过程中的漏译，可能导致翻译结果不准确。因此，如何降低机器翻译的漏译率，以提高机器翻译的准确率，成为重点的研究方向。

发明内容

本公开提供了一种翻译模型的生成方法、装置、电子设备及存储介质。

根据本公开的第一方面，提供了一种翻译模型的生成方法，包括：

获取第一样本对数据集，其中，每个第一样本对中包括第一源语句、至少一个关联语句及每个所述关联语句对应的标注标签；

将所述第一源语句与一个关联语句拼接后的第一拼接语句，输入初始翻译模型的第一编码器中，以获取所述初始翻译模型的第一子模型输出的预测语句，及第二子模型输出的预测标签；

根据所述预测语句与第一类别标签对应的关联语句间的第一差异、及所述预测标签与所述第一拼接语句中的关联语句对应的标注标签间的第二差异，对所述第一子模型、第二子模型及所述第一编码器分别进行修正，以获取修正后的翻译模型。

根据本公开的第二方面，提供了一种翻译模型的生成装置，包括：

第一获取模块，用于获取第一样本对数据集，其中，每个第一样本对中包括第一源语句、至少一个关联语句及每个所述关联语句对应的标注标签；

第二获取模块，用于将所述第一源语句与一个关联语句拼接后的第一拼接语句，输入初始翻译模型的第一编码器中，以获取所述初始翻译模型的第一子模型输出的预测语句，及第二子模型输出的预测标签；

第一修正模块，用于根据所述预测语句与第一类别标签对应的关联语句间的第一差异、及所述预测标签与所述第一拼接语句中的关联语句对应的标注标签间的第二差异，对所述第一子模型、第二子模型及所述第一编码器分别进行修正，以获取修正后的翻译模型。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的翻译模型的生成方法。

根据本公开第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如第一方面所述的翻译模型的生成方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令在被处理器执行时实现如第一方面所述的翻译模型的生成方法的步骤。

本公开提供的翻译模型的生成方法、装置、电子设备及存储介质，存在如下有益效果：

本公开实施例中，首先获取第一样本对数据集，其中，每个第一样本对中包括第一源语句、至少一个关联语句及每个关联语句对应的标注标签，之后将第一源语句与一个关联语句拼接后的第一拼接语句，输入初始翻译模型的第一编码器中，以获取初始翻译模型的第一子模型输出的预测语句，及第二子模型输出的预测标签，最后根据预测语句与第一类别标签对应的关联语句间的第一差异、及预测标签与第一拼接语句中的关联语句对应的标注标签间的第二差异，对第一子模型、第二子模型及第一编码器分别进行修正，以获取修正后的翻译模型。由此，根据第一源语句对应的预测语句与正确翻译语句间的第一差异，及正确翻译语句或漏译语句对应的预测标签与标注标签之间的第二差异，对翻译模型进行训练，从而提高了翻译模型的翻译准确性，降低了漏译的概率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例提供的一种翻译模型的生成方法的流程示意图；

图2是根据本公开又一实施例提供的一种翻译模型的生成方法的流程示意图；

图3是根据本公开又一实施例提供的一种翻译模型的生成方法的流程示意图；

图4是根据本公开一实施例提供的一种翻译模型的生成装置的结构示意图；

图5是用来实现本公开实施例的翻译模型的生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例涉及计算机视觉、深度学习等人工智能技术领域。

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

自然语言处理是用计算机来处理、理解以及运用人类语言(如中文、英文等)，它是计算机科学与语言学的交叉学科，又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言，人类的思维也就无从谈起，所以自然语言处理体现了人工智能的最高任务与境界，也就是说，只有当计算机具备了处理自然语言的能力时，机器才算实现了真正的智能。

下面参考附图描述本公开实施例的翻译模型的生成方法、装置、电子设备及存储介质。

其中，需要说明的是，本实施例的翻译模型的生成方法的执行主体为翻译模型的生成装置，该装置可以由软件和/或硬件的方式实现，该装置可以配置在电子设备中，电子设备可以包括但不限于终端、服务器端等。

图1是根据本公开一实施例提供的一种翻译模型的生成方法的流程示意图。

如图1所示，该翻译模型的生成方法包括：

S101：获取第一样本对数据集，其中，每个第一样本对中包括第一源语句、至少一个关联语句及每个关联语句对应的标注标签。

其中，第一源语句可以为第一样本对中待翻译的语句。第一源语句可以为英文、中文、法文等，本公开对此不做限定。

其中，关联语句可以为第一源语句对应的正确的翻译语句，即正样本；或者，也可以为第一源语句对应的漏译的翻译语句，即负样本。关联语句可以为英文、中文、法文等，本公开对此不做限定。

需要说明的是，本公开对正样本的关联语句的数量、及负样本的关联语句的数量不做限定。即第一样本对中可以包含至少一个正样本对应的关联语句，及至少一个负样本对应的关联语句。

可选的，正样本的关联语句对应的标注标签可以为“1”，负样本的关联语句对应的标注标签可以为“0”。或者，正样本的关联语句对应的标注标签为“0”，负样本的关联语句对应的标注标签为“1”。本公开对此不做限定。

可选的，可以通过对正确的翻译结果进行词语级的删减，或者，句子级的删减，以获取第一源语句对应的漏译的翻译结果。

举例来说，第一源语句为“I didn’t know if you’d have your luggage withyou.I have no luggage”，则正确的翻译结果，即正样本对应的关联语句可以为“我不知道你是否带着行李。我没有行李”等，该关联语句对应的标注标签可以为“1”。第一源语句对应的漏译的翻译结果，即负样本对应的关联语句可以为“我知道你是否行李。我没有行李”，或者，也可以为“我不知道你是否带着行李”等等，该关联语句对应的标注标签可以为“0”。本公开对此不做限定。

S102：将第一源语句与一个关联语句拼接后的第一拼接语句，输入初始翻译模型的第一编码器中，以获取初始翻译模型的第一子模型输出的预测语句，及第二子模型输出的预测标签。

其中，第一拼接语句可以为将源语句与一个关联语句拼接得到的语句。

可选的，在第一样本对中，包括至少一个第一类别标签对应的第一关联语句及至少一个第二类别标签对应的第二关联语句的情况下，将第一源语句与第二关联语句进行拼接，以生成第一拼接语句。

其中，第一类别标签可以为正样本对应的标注标签，即第一源语句对应的正确翻译结果。第二类别标签可以为负样本对应的标注标签，即第一源语句对应的漏译的翻译结果。

其中，第一关联语句可以为第一源语句对应的正确的翻译语句。第二关联语句可以为第一源语句对应的漏译的翻译语句。

可以理解的是，在第一样本对中包括至少一个第一关联语句，及至少一个第二关联语句的情况下，可以将第一源语句与每个第二关联语句进行拼接，得到至少一个第一拼接语句，将每个第一拼接语句依次输入第一编码器中。

或者，在第一样本对中包括一个关联语句、且一个关联语句对应的标注标签为第一类别标签的情况下，将第一源语句与一个关联语句进行拼接，以生成第一拼接语句。

可以理解的是，在第一样本对中只包含一个第一类别标签对应的关联语句，即第一源语句对应的正确翻译语句的情况下，将第一源语句与该关联语句进行拼接，以得到第一拼接语句。

本公开实施例中，可以根据第一样本对中包含的关联语句对应的标注标签的类别，确定与第一源语句进行拼接的关联语句，从而使得与第一源语句进行拼接的关联语句中既包含正样本，又包含负样本，进而可以在翻译任务的基础上训练分类任务。

其中，初始翻译模型可以为还未经过翻译任务的训练的模型。初始翻译模型中可以包括第一编码器、第一子模型及第二子模型。

其中，第一编码器用于对第一拼接语句进行编码。第一子模型可以为解码器，用于训练翻译任务，以获取第一源语句对应的预测翻译结果，即预测语句。第二子模型可以为全连接网络，用于训练分类任务，以获取第一拼接语句中的关联语句对应的预测标签。

S103：根据预测语句与第一类别标签对应的关联语句间的第一差异、及预测标签与第一拼接语句中的关联语句对应的标注标签间的第二差异，对第一子模型、第二子模型及第一编码器分别进行修正，以获取修正后的翻译模型。

可以理解的是，在获取第一子模型输出的预测语句，及第二子模型输出的预测标签之后，即可根据预测语句与第一源语句对应的正确翻译语句间的差异，即预测语句与第一类别标签对应的关联语句间的第一差异，及预测标签与第一拼接语句中的关联语句对应的标注标签间的第二差异，对初始翻译模型进行修正，以得到修正后的翻译模型。由此，可以提高初始翻译模型的收敛性、鲁棒性，进而提高翻译模型的性能，减少漏译的概率。

图2是根据本公开又一实施例提供的一种翻译模型的生成方法的流程示意图。

如图2所示，该翻译模型的生成方法包括：

S201：获取第一样本对数据集，其中，每个第一样本对中包括第一源语句、至少一个关联语句及每个关联语句对应的标注标签。

S202：将第一拼接语句，输入初始翻译模型的第一编码器中，以获取第一编码器输出的第一源语句对应的第一向量，及第一拼接语句对应的第二向量。

可选的，将第一源语句、分隔符及一个关联语句依次进行拼接，以获取第一拼接语句。即在将第一源语句与关联语句进行拼接时，可以在第一源语句与关联语句之间添加分隔符[sep]。由此，第一编码器在进行编码的时候，即可根据分隔符，确定第一拼接语句中第一源语句的位置及关联语句的位置。进而，即可对第一源语句进行编码，并输出对应的第一向量，对第一拼接语句进行编码，并输出第一拼接语句对应的第二向量。

S203：将第一向量输入第一子模型中，以获取第一向量对应的预测语句。

其中，第一子模型可以为解码器，用于对第一向量进行解码，以获取第一源语句对应的预测语句，即第一源语句对应的预测翻译结果。

举例来说，第一源语句可以为“I didn’t know if you’d have your luggagewith you.I have no luggage”，第一子模型输出的预测语句可以为“我不知道你带着行李。我没有行李”，或者“我不知道你是否带着行李。我带着行李”等等。

S204：将第二向量输入第二子模型中，以获取第二向量对应的预测标签。

其中，预测标签可以包括正样本、负样本。本公开对此不做限定。

其中，第二子模型可以由全连接层及softmax层构成，用于对第一拼接语句中的第一源语句及关联语句进行分类，以预测第一拼接语句中的关联语句是否为第一源语句的正确翻译结果，即关联语句为正样本，还是负样本。

S205：根据预测语句与第一类别标签对应的关联语句间的第一差异，对第一子模型进行修正。

可选的，计算第一差异的损失函数的可以为：

其中，L_MT为第一差异，x^ori1为第一源语句，y^ori1为第一类别标签对应的关联语句，y_j为预测语句，D1为第一样本对数据集。

可以理解的是，在确定了第一差异之后，即可根据第一差异对第一子模型进行修正，以提高第一子模型的性能。

S206：根据预测标签与第一拼接语句中的关联语句对应的标注标签间的第二差异，对第二子模型进行修正。

可选的，可以采用交叉熵损失函数，确定预测标签与第一拼接语句中的关联语句对应的标注标签间的第二差异。

可以理解的是，在确定了第二差异之后，即可根据第二差异对第二子模型进行修正，以提高第二子模型的性能。

S207：根据第一差异、第一预设权重、第二差异及第二预设权重，对第一编码器进行修正。

需要说明的是，由于分类任务和翻译任务均使用第一编码器进行编码，因此，可以根据第一差异和第二差异，对第一编码器进行修正，以提高第一编码器的性能。

其中，第一预设权重可以为预先设置的，第一差异对应的权重值。第二预设权重可以为预先设置的，第二差异对应的权重值。

需要说明的是，第一预设权重与第二预设权重的和为1。比如，第一预设权重为0.5，则第二预设权重为0.5；或者，第一预设权重为0.4，则第二预设权重为0.6。本公开对此不做限定。

可以理解的是，利用分类任务及翻译任务同时训练翻译模型，可以提高第一编码器的编码准确率，使得第一编码器可以将第一类别标签对应的关联语句与第一源语句的编码更相似，第二类别标签对应的关联语句与第一源语句的编码有较大差异，从而提高翻译模型的翻译准确率，降低漏译概率。

本公开实施例中，首先获取第一样本对数据集，其中，每个第一样本对中包括第一源语句、至少一个关联语句及每个关联语句对应的标注标签，之后将第一拼接语句，输入初始翻译模型的第一编码器中，以获取第一编码器输出的第一源语句对应的第一向量，及第一拼接语句对应的第二向量，再将第一向量输入第一子模型中，以获取第一向量对应的预测语句，将第二向量输入第二子模型中，以获取第二向量对应的预测标签，最后根据预测语句与第一类别标签对应的关联语句间的第一差异，对第一子模型进行修正，根据预测标签与第一拼接语句中的关联语句对应的标注标签间的第二差异，对第二子模型进行修正，根据第一差异、第一预设权重、第二差异及第二预设权重，对第一编码器进行修正。由此，将第一向量及第二向量分别输入第一子模型及第二子模型，获取第一源语句对应的预测语句及关联语句对应的预测标签，进而根据第一差异及第二差异，对第一编码器、第一子网络及第二子网络进行修正，进一步提高了第一编码器将漏译语句与第一源语句以较大差异进行编码的能力，从而进一步提高了翻译模型的翻译准确性，进一步降低了漏译的概率。

通过上述分析可知，本公开可以利用第一样本对数据集对初始翻译模型进行训练，以获取训练后的翻译模型。在对初始翻译模型训练之前，还可以采用预训练的方式，对初始翻译模型中的第一编码器及第一子模型进行预训练，从而提高翻译模型的训练效率。下面结合图3对获取初始翻译模型中的第一编码器及第一子模型的训练过程进行详细说明。

如图3所示，该翻译模型的生成方法包括：

S301：获取第二样本对数据集，其中，第二样本对数据集中包括第二源语句、第一类别标签对应的第三关联语句、第二类别标签对应的第四关联语句、第三关联语句对应的掩码语句及被掩码词语。

其中，第二源语句可以为第二样本对中待翻译的语句。第二源语句可以为英文、中文、法文等，本公开对此不做限定。

其中，第一类别标签对应的第三关联语句可以为第二源语句对应的正确翻译语句。第二类别标签对应的第四关联语句可以为第二源语句对应的漏译的翻译语句。

需要说明的是，第二样本对中可以包含一个第二源语句对应的至少一个第三关联语句，及至少一个第四关联语句。本公开对此不做限定。

其中，掩码语句为对第三关联语句中的词语进行部分掩码后得到的语句。比如，随机对掩码语句中的15％的词语，或者20％的词语进行掩码，得到掩码语句。

其中，被掩码词语可以为掩码语句中被掩码位置对应的词语。

举例来说，第一源语句为“今天是什么天气？今天是晴天”，第三关联语句为“What's the weather today？It's sunny today”，则对应的第二掩码语句可以为“What's theweather XXX？It's XXX today”其中，“XXX”为掩码位置。则被掩码词语为“today”及“sunny”。

S302：将第二源语句与掩码语句拼接后的第二拼接语句、第二源语句、第三关联语句及第四关联语句依次输入初始模型的第二编码器中，以获取第二拼接语句对应的第三向量、第二源语句对应的第四向量、第三关联语句对应的第五向量及第四关联语句对应的第六向量。

其中，第二拼接语句可以为将第二源语句及掩码语句拼接后得到的语句。

其中，第二向量为第二编码器对第二拼接语句编码后，输出的向量；第四向量为第二编码器对第二源语句进行编码后输出的向量；第五向量为第二编码器对第三关联语句进行编码后输出的向量；第六向量为第二编码器对第四关联语句进行编码后输出的向量。

需要说明的是，第二编码器的输入数据中可以包括多个第四关联语句，因此，第二编码器可以输出多个第六向量。

S303：确定第四向量与第五向量间的第一相似度，及第四向量与第六向量间的第二相似度。

需要说明的是，本公开实施例中可以采取任何可取的方式获取第四向量与第五向量间的第一相似度，及第四向量与第六向量间的第二相似度，本公开对此不做限定。比如，可以使用欧式距离公式、或者曼哈顿距离公式计算第四向量与第五向量间的第一相似度，及第四向量与第六向量间的第二相似度。

S304：将第三向量输入初始模型的第三子模型中，以获取被掩码位置对应的预测词语。

其中，第三子模型可以为解码器，用于对第三向量进行解码，以预测掩码语句中被掩码位置对应的预测词语。

S305：根据预测词语与被掩码词语间的第三差异、第一相似度与第二相似度间的第四差异，对第二编码器及第三子模型分别进行修正，以生成第一编码器及第一子模型。

可选的，可以根据预测词语与被掩码词语间的第三差异，对第三子模型进行修正，之后根据第三差异、第三预设权重、第四差异及第四预设权重，对第二编码器进行修正，即根据第三差异、第三预设权重、第四差异及第四预设权重，确定目标损失值，根据目标损失值对第二编码器进行修正。

可选的，确定第三差异的损失函数可以为：

其中，

为第三差异，x^ori2为第二源语句，y^ori3为第三关联语句，y^m为第三关联语句y^ori3中被掩码词语，y^o为第三关联语句y^ori3中未被掩码词语。y_t为预测词语，D2为第二样本对数据集。/>

可选的，确定第四差异的损失函数可以为：

其中，

为第四差异，x^ori2为第二源语句，y^ori3为第三关联语句，y^ant4为第四关联语句，f(x^ori2,y^ori3)为第一相似度，f(x^ori2,y^ant4)为第二相似度。

可选的，目标损失值的计算公式可以为：

其中，

为目标损失值，λ₁为第三预设权重，λ₂为第四预设权重。

其中，第三预设权重可以为预先设置的，第三差异对应的权重值。第四预设权重可以为预先设置的，第四差异对应的权重值。

需要说明的是，第三预设权重与第四预设权重的和为1。比如，第三预设权重为0.7，则第四预设权重为0.3；或者，第三预设权重为0.6，则第四预设权重为0.4。本公开对此不做限定。

本公开实施例中，结合对比学习对第二编码器及第三子模型进行训练，以生成第一编码器及第一子模型，从而使得第一编码器输出的具有相同意思的语句对应的向量更接近，具有不同意思的语句对应的向量更远。由此，提高了第一编码器的编码准确性。

本公开实施例中，首先获取第二样本对数据集，之后将第二样本对数据集中的第二源语句与掩码语句拼接后的第二拼接语句、第二源语句、第三关联语句及第四关联语句依次输入初始模型的第二编码器中，以获取第二拼接语句对应的第三向量、第二源语句对应的第四向量、第三关联语句对应的第五向量及第四关联语句对应的第六向量，再确定第四向量与第五向量间的第一相似度，及第四向量与第六向量间的第二相似度，将第三向量输入初始模型的第三子模型中，以获取被掩码位置对应的预测词语，最后根据预测词语与被掩码词语间的第三差异、第一相似度与第二相似度间的第四差异，对第二编码器及第三子模型分别进行修正，以生成第一编码器及第一子模型。由此，在翻译模型训练之前，先通过对比学习对第一编码器及第一子模型进行预训练，从而使得翻译模型在训练之前，具有较好的模型参数，为提高翻译模型的训练效率提供了条件。

如图4所示，该翻译模型的生成装置400，包括：

第一获取模块410，用于获取第一样本对数据集，其中，每个第一样本对中包括第一源语句、至少一个关联语句及每个关联语句对应的标注标签；

第二获取模块420，用于将第一源语句与一个关联语句拼接后的第一拼接语句，输入初始翻译模型的第一编码器中，以获取初始翻译模型的第一子模型输出的预测语句，及第二子模型输出的预测标签；

第一修正模块430，用于根据预测语句与第一类别标签对应的关联语句间的第一差异、及预测标签与第一拼接语句中的关联语句对应的标注标签间的第二差异，对第一子模型、第二子模型及第一编码器分别进行修正，以获取修正后的翻译模型。

在本公开的一些实施例中，还包括第一生成模块，具体用于：

响应于第一样本对中，包括至少一个第一类别标签对应的第一关联语句及至少一个第二类别标签对应的第二关联语句，将第一源语句与第二关联语句进行拼接，以生成第一拼接语句；或者，

响应于第一样本对中包括一个关联语句、且一个关联语句对应的标注标签为第一类别标签，将第一源语句与一个关联语句进行拼接，以生成第一拼接语句。

在本公开的一些实施例中，第二获取模块420，具体用于：

将第一拼接语句，输入初始翻译模型的第一编码器中，以获取第一编码器输出的第一源语句对应的第一向量，及第一拼接语句对应的第二向量；

将第一向量输入第一子模型中，以获取第一向量对应的预测语句；

将第二向量输入第二子模型中，以获取第二向量对应的预测标签。

在本公开的一些实施例中，第一修正模块430，具体用于：

根据预测语句与第一类别标签对应的关联语句间的第一差异，对第一子模型进行修正；

根据预测标签与第一拼接语句中的关联语句对应的标注标签间的第二差异，对第二子模型进行修正；

根据第一差异、第一预设权重、第二差异及第二预设权重，对第一编码器进行修正。

在本公开的一些实施例中，还包括：

第三获取模块，用于获取第二样本对数据集，其中，第二样本对数据集中包括第二源语句、第一类别标签对应的第三关联语句、第二类别标签对应的第四关联语句、第三关联语句对应的掩码语句及被掩码词语；

第四获取模块，用于将第二源语句与掩码语句拼接后的第二拼接语句、第二源语句、第三关联语句及第四关联语句依次输入初始模型的第二编码器中，以获取第二拼接语句对应的第三向量、第二源语句对应的第四向量、第三关联语句对应的第五向量及第四关联语句对应的第六向量；

第一确定模块，用于确定第四向量与第五向量间的第一相似度，及第四向量与第六向量间的第二相似度；

第五获取模块，用于将第三向量输入初始模型的第三子模型中，以获取被掩码位置对应的预测词语；

第二修正模块，用于根据预测词语与被掩码词语间的第三差异、第一相似度与第二相似度间的第四差异，对第二编码器及第三子模型分别进行修正，以生成第一编码器及第一子模型。

在本公开的一些实施例中，第二修正模块，具体用于：

根据预测词语与被掩码词语间的第三差异，对第三子模型进行修正；

根据第三差异、第三预设权重、第四差异及第四预设权重，对第二编码器进行修正。

需要说明的是，前述对翻译模型的生成方法的解释说明也适用于本实施例的翻译模型的生成装置，此处不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如翻译模型的生成。例如，在一些实施例中，翻译模型的生成可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的翻译模型的生成的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行翻译模型的生成。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网及区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

本实施例中，首先获取第一样本对数据集，其中，每个第一样本对中包括第一源语句、至少一个关联语句及每个关联语句对应的标注标签，之后将第一源语句与一个关联语句拼接后的第一拼接语句，输入初始翻译模型的第一编码器中，以获取初始翻译模型的第一子模型输出的预测语句，及第二子模型输出的预测标签，最后根据预测语句与第一类别标签对应的关联语句间的第一差异、及预测标签与第一拼接语句中的关联语句对应的标注标签间的第二差异，对第一子模型、第二子模型及第一编码器分别进行修正，以获取修正后的翻译模型。由此，根据第一源语句对应的预测语句与正确翻译语句间的第一差异，及正确翻译语句或漏译语句对应的预测标签与标注标签之间的第二差异，对翻译模型进行训练，从而提高了翻译模型的翻译准确性，降低了漏译的概率。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。在本公开的描述中，所使用的词语“如果”及“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“在……情况下”。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种翻译模型的生成方法，包括：

根据所述预测语句与第一类别标签对应的关联语句间的第一差异，对所述第一子模型进行修正；

根据所述预测标签与所述第一拼接语句中的关联语句对应的标注标签间的第二差异，对所述第二子模型进行修正；

根据所述第一差异、第一预设权重、第二差异及第二预设权重，对所述第一编码器进行修正。

2.根据权利要求1所述的方法，其中，在所述将所述第一源语句与一个关联语句拼接后的第一拼接语句，输入初始翻译模型的第一编码器中之前，还包括：

响应于所述第一样本对中，包括至少一个所述第一类别标签对应的第一关联语句及至少一个第二类别标签对应的第二关联语句，将所述第一源语句与所述第二关联语句进行拼接，以生成所述第一拼接语句；或者，

响应于所述第一样本对中包括一个关联语句、且所述一个关联语句对应的标注标签为所述第一类别标签，将所述第一源语句与所述一个关联语句进行拼接，以生成所述第一拼接语句。

3.根据权利要求1所述的方法，其中，所述将所述第一源语句与一个关联语句的第一拼接语句，输入初始翻译模型的第一编码器中，以获取所述初始翻译模型的第一子模型输出的预测语句，及第二子模型输出的预测标签，包括：

将所述第一拼接语句，输入所述初始翻译模型的第一编码器中，以获取所述第一编码器输出的所述第一源语句对应的第一向量，及所述第一拼接语句对应的第二向量；

将所述第一向量输入所述第一子模型中，以获取所述第一向量对应的预测语句；

将所述第二向量输入所述第二子模型中，以获取所述第二向量对应的预测标签。

4.根据权利要求1所述的方法，其中，还包括：

获取第二样本对数据集，其中，所述第二样本对数据集中包括第二源语句、第一类别标签对应的第三关联语句、第二类别标签对应的第四关联语句、所述第三关联语句对应的掩码语句及被掩码词语；

将所述第二源语句与所述掩码语句拼接后的第二拼接语句、所述第二源语句、所述第三关联语句及所述第四关联语句依次输入初始模型的第二编码器中，以获取所述第二拼接语句对应的第三向量、所述第二源语句对应的第四向量、所述第三关联语句对应的第五向量及所述第四关联语句对应的第六向量；

确定所述第四向量与所述第五向量间的第一相似度，及所述第四向量与所述第六向量间的第二相似度；

将所述第三向量输入所述初始模型的第三子模型中，以获取被掩码位置对应的预测词语；

根据所述预测词语与所述被掩码词语间的第三差异、所述第一相似度与所述第二相似度间的第四差异，对所述第二编码器及所述第三子模型分别进行修正，以生成所述第一编码器及所述第一子模型。

5.根据权利要求4所述的方法，其中，所述根据所述预测词语与所述被掩码词语间的第三差异、所述第一相似度与所述第二相似度间的第四差异，对所述第二编码器及所述第三子模型分别进行修正，包括：

根据所述预测词语与所述被掩码词语间的第三差异，对所述第三子模型进行修正；

根据所述第三差异、第三预设权重、所述第四差异及第四预设权重，对所述第二编码器进行修正。

6.一种翻译模型的生成装置，包括：

第一修正模块，用于根据所述预测语句与第一类别标签对应的关联语句间的第一差异，对所述第一子模型进行修正；根据所述预测标签与所述第一拼接语句中的关联语句对应的标注标签间的第二差异，对所述第二子模型进行修正；根据所述第一差异、第一预设权重、第二差异及第二预设权重，对所述第一编码器进行修正。

7.根据权利要求6所述的装置，其中，还包括第一生成模块，具体用于：

8.根据权利要求6所述的装置，其中，所述第二获取模块，具体用于：

9.根据权利要求6所述的装置，其中，还包括：

第三获取模块，用于获取第二样本对数据集，其中，所述第二样本对数据集中包括第二源语句、第一类别标签对应的第三关联语句、第二类别标签对应的第四关联语句、所述第三关联语句对应的掩码语句及被掩码词语；

第四获取模块，用于将所述第二源语句与所述掩码语句拼接后的第二拼接语句、所述第二源语句、所述第三关联语句及所述第四关联语句依次输入初始模型的第二编码器中，以获取所述第二拼接语句对应的第三向量、所述第二源语句对应的第四向量、所述第三关联语句对应的第五向量及所述第四关联语句对应的第六向量；

第一确定模块，用于确定所述第四向量与所述第五向量间的第一相似度，及所述第四向量与所述第六向量间的第二相似度；

第五获取模块，用于将所述第三向量输入所述初始模型的第三子模型中，以获取被掩码位置对应的预测词语；

第二修正模块，用于根据所述预测词语与所述被掩码词语间的第三差异、所述第一相似度与所述第二相似度间的第四差异，对所述第二编码器及所述第三子模型分别进行修正，以生成所述第一编码器及所述第一子模型。

10.根据权利要求9所述的装置，其中，所述第二修正模块，具体用于：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。

13.一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现权利要求1-5中任一项所述方法的步骤。