CN115359509A

CN115359509A - 模型训练、自然语言翻译方法、装置、设备及存储介质

Info

Publication number: CN115359509A
Application number: CN202210870117.XA
Authority: CN
Inventors: 张家硕; 祖新星; 赵中州; 李嘉辉; 王琪; 吴淑明; 韩玉洁; 林淼
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-11-18

Abstract

本公开涉及一种模型训练、自然语言翻译方法、装置、设备及存储介质。本公开通过获取自然语言样本文本对应的标准的第一手语文本和至少一个不标准的第二手语文本，并且通过待训练的翻译模型输出该自然语言样本文本对应的预测手语文本。根据预测手语文本和第一手语文本，计算翻译模型的第一损失值，根据预测手语文本和至少一个第二手语文本，计算翻译模型的至少一个第二损失值。由于第一损失值越小越好、第二损失值越大越好，因此，根据第一损失值和至少一个第二损失值，可以对该翻译模型的模型参数进行精准的控制，使得训练得到的翻译模型更加的精准。从而使得训练得到的翻译模型在对待翻译的自然语言文本进行翻译时，可以得到精准的手语文本。

Description

模型训练、自然语言翻译方法、装置、设备及存储介质

技术领域

本公开涉及信息技术领域，尤其涉及一种模型训练、自然语言翻译方法、装置、设备及存储介质。

背景技术

在健听人的世界中，信息的载体通常是自然语言，但是，对于听障人士而言，手语才是他们的第一语言，因此，需要将自然语言翻译为手语。

但是，本申请的发明人发现，由于手语是一种独立的语言，其特有的词汇和语法分别与自然语言中的词汇和语法有很大的区别，因此，如何将自然语言精准的翻译为手语成为了当前亟待解决的问题。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种模型训练、自然语言翻译方法、装置、设备及存储介质，使得训练得到的翻译模型在对待翻译的自然语言文本进行翻译时，可以得到精准的手语文本。

第一方面，本公开实施例提供一种模型训练方法，包括：

获取自然语言样本文本对应的第一手语文本和至少一个第二手语文本，所述第二手语文本的准确度低于所述第一手语文本的准确度；

将所述自然语言样本文本输入待训练的翻译模型中，通过所述翻译模型输出所述自然语言样本文本对应的预测手语文本；

根据所述预测手语文本和所述第一手语文本，计算所述翻译模型的第一损失值；

根据所述预测手语文本和所述至少一个第二手语文本，计算所述翻译模型的至少一个第二损失值；

根据所述第一损失值和所述至少一个第二损失值，对所述翻译模型进行训练。

第二方面，本公开实施例提供一种自然语言翻译方法，包括：

获取待翻译的目标自然语言文本；

将所述目标自然语言文本输入预先训练完成的翻译模型中，通过所述翻译模型输出所述目标自然语言文本对应的目标手语文本，所述翻译模型是根据如上所述的模型训练方法得到的。

第三方面，本公开实施例提供一种模型训练装置，包括：

获取模块，用于获取自然语言样本文本对应的第一手语文本和至少一个第二手语文本，所述第二手语文本的准确度低于所述第一手语文本的准确度；

输入模块，用于将所述自然语言样本文本输入待训练的翻译模型中，通过所述翻译模型输出所述自然语言样本文本对应的预测手语文本；

计算模块，用于根据所述预测手语文本和所述第一手语文本，计算所述翻译模型的第一损失值；根据所述预测手语文本和所述至少一个第二手语文本，计算所述翻译模型的至少一个第二损失值；

训练模块，用于根据所述第一损失值和所述至少一个第二损失值，对所述翻译模型进行训练。

第四方面，本公开实施例提供一种自然语言翻译装置，包括：

获取模块，用于获取待翻译的目标自然语言文本；

输入模块，用于将所述目标自然语言文本输入预先训练完成的翻译模型中，通过所述翻译模型输出所述目标自然语言文本对应的目标手语文本，所述翻译模型是根据如上所述的模型训练方法得到的。

第五方面，本公开实施例提供一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面或第二方面所述的方法。

第六方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面或第二方面所述的方法。

本公开实施例提供的模型训练、自然语言翻译方法、装置、设备及存储介质，通过获取自然语言样本文本对应的标准的第一手语文本和至少一个不标准的第二手语文本，并且通过待训练的翻译模型输出该自然语言样本文本对应的预测手语文本。进一步，根据所述预测手语文本和所述第一手语文本，计算所述翻译模型的第一损失值，根据所述预测手语文本和所述至少一个第二手语文本，计算所述翻译模型的至少一个第二损失值。由于第一损失值越小越好、第二损失值越大越好，因此，根据所述第一损失值和所述至少一个第二损失值，可以对该翻译模型的模型参数进行精准的控制，使得训练得到的翻译模型更加的精准。从而使得训练得到的翻译模型在对待翻译的自然语言文本进行翻译时，可以得到精准的手语文本。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的模型训练方法流程图；

图2为本公开实施例提供的应用场景的示意图；

图3为本公开另一实施例提供的自然语言翻译方法流程图；

图4为本公开实施例提供的应用场景的示意图；

图5为本公开另一实施例提供的自然语言翻译方法流程图；

图6为本公开另一实施例提供的自然语言翻译方法流程图；

图7为本公开另一实施例提供的自然语言翻译方法流程图；

图8为本公开另一实施例提供的自然语言翻译方法流程图；

图9为本公开另一实施例提供的自然语言翻译方法流程图；

图10为本公开另一实施例提供的自然语言翻译方法流程图；

图11为本公开实施例提供的意图分类的示意图；

图12为本公开另一实施例提供的自然语言翻译方法流程图；

图13为本公开另一实施例提供的自然语言翻译方法流程图；

图14为本公开实施例提供的翻译模型的结构示意图；

图15为本公开实施例提供的用户界面的示意图；

图16为本公开实施例提供的模型训练装置的结构示意图；

图17为本公开实施例提供的自然语言翻译装置的结构示意图；

图18为本公开实施例提供的电子设备实施例的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

通常情况下，由于手语是一种独立的语言，其特有的词汇和语法分别与自然语言中的词汇和语法有很大的区别，因此，如何将自然语言精准的翻译为手语成为了当前亟待解决的问题。针对该问题，本公开实施例提供了一种模型训练、自然语言翻译方法，下面结合具体的实施例对该方法进行介绍。

图1为本公开实施例提供的模型训练方法流程图。该方法可以由模型训练装置执行，该装置可以采用软件和/或硬件的方式实现，该装置可配置于电子设备中，例如服务器或终端，其中，终端具体包括手机、电脑或平板电脑等。另外，本实施例所述的模型训练方法可以适用于如图2所示的应用场景。如图2所示，该应用场景包括终端21和服务器22，其中，服务器22可以对待训练的翻译模型进行训练，该翻译模型可以将自然语言文本翻译为手语文本。下面结合图2对该方法进行详细介绍，如图1所示，该方法具体步骤如下：

S101、获取自然语言样本文本对应的第一手语文本和至少一个第二手语文本，所述第二手语文本的准确度低于所述第一手语文本的准确度。

例如，服务器22可以从终端21获取自然语言文本、以及该自然语言文本对应的标准的手语文本。服务器22可以根据该自然语言文本、以及该自然语言文本对应的标准的手语文本对待训练的翻译模型进行训练。也就是说，该自然语言文本、以及该自然语言文本对应的标准的手语文本是训练样本，因此，在本实施例中，用于对该翻译模型进行训练的自然语言文本可以记为自然语言样本文本，该自然语言文本对应的标准的手语文本可以记为第一手语文本。或者，服务器22还可以从终端21获取到自然语言样本文本后，生成该自然语言样本文本对应的标准的手语文本即第一手语文本。另外，服务器22还可以获取该自然语言样本文本对应的至少一个第二手语文本，第二手语文本的准确度低于第一手语文本的准确度。也就是说，第一手语文本是该自然语言样本文本对应的标准的手语文本，而第二手语文本是该自然语言样本文本对应的不标准的手语文本。

可选的，所述第一手语文本包括多个手语词汇；所述第二手语文本是对所述多个手语词汇中至少部分手语词汇的顺序进行调整后得到的；或者所述第二手语文本是对所述多个手语词汇中至少部分手语词汇进行替换后得到的；或者所述第二手语文本是所述翻译模型在历史训练过程中输出的历史手语文本。

例如，该自然语言样本文本是“相信运动员会给各位带来一场赏心悦目的篮球盛宴”，该自然语言样本文本对应的标准的手语文本是“相信/运动/员/带/来/J/颜色/篮球/比赛/会”。其中，“相信”、“运动”、“员”、“带”、“来”、“J”、“颜色”、“篮球”、“比赛”、“会”分别是手语词汇，也就是说，标准的手语文本中包括多个手语词汇。

在一种可行的实现方式中，服务器22可以在该标准的手语文本的基础上，对该标准的手语文本中的至少部分手语词汇的顺序进行调整，从而得到第二手语文本，例如，将“相信”、“运动”、“员”、“带”、“来”、“J”、“颜色”、“篮球”的顺序进行调整后得到第二手语文本“运动/相信/带/员/来/篮球/颜色/J/比赛/会”。可以理解的是，对至少部分手语词汇的顺序进行调整的方式有多种，此处只是示意性说明，并不做具体限定，因此，第二手语文本的个数不限定，可以是一个或多个。

在另一种可行的实现方式中，服务器22可以在该标准的手语文本的基础上，对该标准的手语文本中的至少部分手语词汇进行替换，从而得到第二手语文本，例如，将“相信/运动/员/带/来/J/颜色/篮球/比赛/会”中的“J/颜色”替换为“精彩”，从而得到第二手语文本“相信/运动/员/带/来/精彩/篮球/比赛/会”。

在再一种可行的实现方式中，第二手语文本还可以是翻译模型在历史训练过程中输出的历史手语文本，例如，该第二手语文本可以是该翻译模型在第一次训练过程中输出的历史手语文本。可以理解的是，该翻译模型在前几次的训练过程中，其输出结果的精度是不够准确的，因此，可以将其在前几次的训练过程中每一次输出的历史手语文本作为一个第二手语文本。

S102、将所述自然语言样本文本输入待训练的翻译模型中，通过所述翻译模型输出所述自然语言样本文本对应的预测手语文本。

例如，当前的待训练的翻译模型可以是经过几次训练后的翻译模型，但是还未训练完成，即该翻译模型的模型参数还未趋于稳定。此时，可以将该自然语言样本文本输入待训练的翻译模型中，使得该翻译模型输出该自然语言样本文本对应的预测手语文本，也就是说，该预测手语文本是由该翻译模型预测的该自然语言样本文本对应的手语文本。

S103、根据所述预测手语文本和所述第一手语文本，计算所述翻译模型的第一损失值。

例如，通过计算该预测手语文本和第一手语文本之间的差异，从而得到该翻译模型的第一损失值。

S104、根据所述预测手语文本和所述至少一个第二手语文本，计算所述翻译模型的至少一个第二损失值。

例如，通过计算该预测手语文本和任意一个第二手语文本之间的差异，可以得到该翻译模型的一个第二损失值。当该第二手语文本的个数为n个的时候，第二损失值的个数也是n个。此处，n是大于或等于1的整数。

S105、根据所述第一损失值和所述至少一个第二损失值，对所述翻译模型进行训练。

由于第一损失值是该预测手语文本和标准的手语文本之间的差异，因此，在对该翻译模型进行训练的过程中，第一损失值越小越好。另外，由于第二损失值是该预测手语文本和不标准的手语文本之间的差异，因此，在对该翻译模型进行训练的过程中，第二损失值越大越好。因此，在计算得出第一损失值和至少一个第二损失值的基础上，通过控制第一损失值减小、同时控制每个第二损失值增大，即可确定出该翻译模型的模型参数的调整方向或趋势，从而得到新的模型参数，即实现了对该翻译模型的一次迭代训练。可以理解的是，随着自然语言样本文本的不断变化，可以对该翻译模型进行不断的迭代训练，当迭代次数达到预设次数，或者当该模型参数趋于稳定或收敛时，可以确定该翻译模型被训练完成。

本公开实施例通过获取自然语言样本文本对应的标准的第一手语文本和至少一个不标准的第二手语文本，并且通过待训练的翻译模型输出该自然语言样本文本对应的预测手语文本。进一步，根据所述预测手语文本和所述第一手语文本，计算所述翻译模型的第一损失值，根据所述预测手语文本和所述至少一个第二手语文本，计算所述翻译模型的至少一个第二损失值。由于第一损失值越小越好、第二损失值越大越好，因此，根据所述第一损失值和所述至少一个第二损失值，可以对该翻译模型的模型参数进行精准的控制，使得训练得到的翻译模型更加的精准。从而使得训练得到的翻译模型在对待翻译的自然语言文本进行翻译时，可以得到精准的手语文本。

图3为本公开另一实施例提供的自然语言翻译方法流程图。在本实施例中，该方法具体步骤如下：

S301、获取待翻译的目标自然语言文本。

S302、将所述目标自然语言文本输入预先训练完成的翻译模型中，通过所述翻译模型输出所述目标自然语言文本对应的目标手语文本，所述翻译模型是根据如上所述的模型训练方法得到的。

本实施例所述的自然语言翻译方法可以适用于如图2所示的应用场景，或者，可以适用于如图4所示的应用场景。例如，在如图2所示的应用场景中，终端21可以是听障人士使用的终端，由于服务器22中可以部署有如上所述的训练完成的翻译模型，具体训练过程此处不再赘述，因此，服务器22可以通过该翻译模型将待翻译的目标自然语言文本翻译为精准的目标手语文本，另外，服务器22还可以根据该目标手语文本生成数字人做手语动作的视频。进一步，服务器22可以将该目标手语文本和该视频、或者将该视频发送给终端21，使得听障人士可以像健听人一样，更加便捷的获取到更多的网络信息。

另外，可以理解的是，对翻译模型的训练过程不限于是由服务器22来执行，例如，还可以通过其他服务器对该翻译模型进行训练，并将训练完成的翻译模型部署在服务器22上。

此外，听障人士和健听人还可以在如图4所示的场景中进行交流。例如，终端23可以是健听人的终端，终端21可以是听障人士的终端。终端23可以向服务器22发送健听人的音频信息或包括音频信息的视频信息。进一步，服务器22可以通过自动语音识别(Automatic Speech Recognition，ASR)技术将该音频信息转换为文本信息，该文本信息可以是待翻译的目标自然语言文本。进一步，服务器22可以通过训练完成的翻译模型将待翻译的目标自然语言文本翻译为精准的目标手语文本，并根据该目标手语文本生成数字人做手语动作的视频。进一步，服务器22可以将该目标手语文本和该视频、或者将该视频发送给终端21，使得听障人士能够理解健听人所表达的意思，从而为听障人士和健听人进行顺畅的沟通提供了可实现的基础条件。

本实施例通过获取待翻译的目标自然语言文本，并将所述目标自然语言文本输入预先训练完成的翻译模型中，通过所述翻译模型输出所述目标自然语言文本对应的目标手语文本。由于所述翻译模型是根据第一损失值和至少一个第二损失值训练得到的，因此，第一损失值和至少一个第二损失值可以对该翻译模型的模型参数进行精准的控制，使得训练得到的翻译模型更加的精准。因此，当训练得到的翻译模型对待翻译的目标自然语言文本进行翻译时，可以得到精准的目标手语文本。

在上述实施例的基础上，将所述目标自然语言文本输入预先训练完成的翻译模型中，通过所述翻译模型输出所述目标自然语言文本对应的目标手语文本，包括：将所述目标自然语言文本输入预先训练完成的翻译模型中，通过所述翻译模型输出所述目标自然语言文本对应的目标手语文本、以及所述目标手语文本中多义词对应的目标动作标识。

例如，服务器22将待翻译的目标自然语言文本输入预先训练完成的翻译模型中，该翻译模型可以将该目标自然语言文本翻译为目标手语文本，由于目标手语文本包括至少一个目标词汇，而有的目标词汇可能是一个多义词，例如，目标词汇是“按”，“按”有“按照”的意思，也有“摁或点”的意思。因此，该翻译模型在翻译的过程中，如果确定翻译出的某个目标词汇是多义词，则该翻译模型可以根据该多义词的上下文从该多义词对应的多个动作标识中选择一个最符合上下文的目标动作标识。因此，该翻译模型在输出目标手语文本的同时还可以输出该目标手语文本中多义词对应的目标动作标识，从而使得数字人在打手语时能够打出最符合上下文的动作。也就是说，同一个手语词汇“按”在不同手语文本中出现时可能会导致数字人打出不同的手语动作。

本实施例通过翻译模型根据目标手语文本中多义词的上下文确定出该多义词对应的最符合上下文的目标动作标识，使得翻译模型在输出目标手语文本的同时还可以输出该目标手语文本中多义词对应的目标动作标识，使得该目标动作标识所对应的目标动作可以精确的表达该多义词在该目标手语文本中的意思。从而在动作合成过程中可以对该目标手语文本中每个手语词汇最精准的动作进行合成，保证听障人士能够看懂最终合成的手语视频。

图5为本公开另一实施例提供的自然语言翻译方法流程图。在本实施例中，该方法具体步骤如下：

S501、获取待翻译的目标自然语言文本。

S502、将所述目标自然语言文本输入预先训练完成的翻译模型中，通过所述翻译模型输出所述目标自然语言文本对应的目标手语文本。

在本公开实施例中，可以将自然语言文本记为Text，将手语文本记为Gloss。如图6所示，Text具体可以是如上所述的目标自然语言文本。服务器22将Text输入预先训练完成的翻译模型中，翻译模型可以输出该目标自然语言文本对应的目标手语文本，目标手语文本包括至少一个目标词汇。如图6所示的Gloss可以是由翻译改写修正模块和多义词动作选择模块对该目标手语文本进行处理后得到的手语文本。

S503、将所述目标手语文本中不属于手语词汇的目标词汇修正为一个手语词汇或由至少两个手语词汇构成的组合。

由于手语词汇的数量远小于自然语言词汇的数量，因此，翻译模型输出的目标手语文本即翻译结果中可能会出现一些非手语词汇，本实施例可以通过服务器22中的翻译改写修正模块对这些非手语词汇进行修正。具体的，该翻译改写修正模块可以根据专家对齐词典，对该翻译结果中的非手语词汇进行修正。例如，该翻译结果中出现了一个非手语词汇“地图”，并且专家对齐词典中包括“地图”与“地/画画”的对应关系，因此，该翻译改写修正模块可以将该翻译结果中的非手语词汇“地图”修正为由“地”和“画画”这两个手语词汇构成的组合，即“地图”可以被修正为“地/画画”。在其他实施例中，某个非手语词汇也可以被替换为一个手语词汇，而不限于是由至少两个手语词汇构成的组合。

S504、若所述一个手语词汇或由至少两个手语词汇构成的组合中包括多义词，则从所述多义词对应的多个动作标识中选择出目标动作标识。

在本实施例中，如果该翻译改写修正模块将该翻译结果中的某个非手语词汇替换为一个手语词汇或由至少两个手语词汇构成的组合之后，服务器22确定替换后的该一个手语词汇或由至少两个手语词汇构成的组合中包括多义词，则进一步可以通过该服务器22中的多义词动作选择模块从该多义词对应的多个动作标识中选择出目标动作标识。

S505、根据所述目标手语文本中的多义词对应的上下文，从所述多义词对应的多个动作标识中选择出目标动作标识。

例如，翻译模型输出目标手语文本之后，服务器22还可以确定该目标手语文本中的至少一个目标词汇中是否存在多义词，如果存在多义词，则通过服务器22中的多义词动作选择模块从每个多义词分别对应的多个动作标识中选择出目标动作标识。也就是说，如图6所示的翻译改写修正模块和多义词动作选择模块可以并行执行各自的功能，或者可以串行执行各自的功能。例如，翻译模型输出的目标手语文本中包括非手语词汇“地图”和多义词“按”，此时，翻译改写修正模块可以将“地图”修正为“地/画画”，同时，多义词动作选择模块可以从“按”对应的多个动作标识中选择出目标动作标识。再例如，翻译模型输出的目标手语文本中包括非手语词汇“精彩”，翻译改写修正模块先将“精彩”修正为“J/颜色”，其中，“J”是一个多义词，进一步，由多义词动作选择模块从“J”对应的多个动作标识中选择出目标动作标识。

本实施例通过将翻译模型输出的目标手语文本中不属于手语词汇的目标词汇修正为一个手语词汇或由至少两个手语词汇构成的组合，从而实现对目标手语文本的修正，使得修正后的目标手语文本更加精准，确保听障人士能够看得懂最终生成的手语视频。

图7为本公开另一实施例提供的自然语言翻译方法流程图。在本实施例中，该方法具体步骤如下：

S701、获取待翻译的目标自然语言文本。

S702、确定预设自然语言文本和预设手语文本构成的对应关系中是否存在与所述目标自然语言文本匹配的预设自然语言文本。

如图8所示，服务器22还包括知识库匹配模块，该知识库匹配模块可以查询知识库，该知识库中存储有预设自然语言文本和预设手语文本构成的对应关系，其中，该知识库中配置的预设手语文本是人工翻译出来的手语文本，即该知识库中配置有人工翻译的<text,gloss>知识，此处的text表示预设自然语言文本，gloss表示预设手语文本。服务器22获取到待翻译的目标自然语言文本Text之后，可以先通过知识库匹配模块确定该知识库中是否存在与Text匹配的预设自然语言文本。

S703、若所述对应关系中不存在与所述目标自然语言文本匹配的预设自然语言文本，则将所述目标自然语言文本输入预先训练完成的翻译模型中。

如果该知识库中不存在与Text匹配的预设自然语言文本，则该Text可以被输入给翻译模型，由该翻译模型对该Text进行翻译，从而得到目标手语文本。针对该目标手语文本的后续处理可以参照上述实施例，此处不再赘述。

本实施例通过查询由预设自然语言文本和预设手语文本构成的对应关系，以便确定该对应关系中是否存在与待翻译的目标自然语言文本匹配的预设自然语言文本，如果存在，则可以直接将该预设自然语言文本对应的预设手语文本作为该目标自然语言文本对应的目标手语文本。由于预设手语文本是预先设置的，因此，可以保证预设手语文本的精准度，从而进一步提高了目标手语文本的精准度。另外，通过知识库匹配可以增强翻译效果的可干预性，代替翻译模型的复杂流程，从而可以快速修复翻译模型在线上产生的误差。此外，对于新的应用场景，可通过配置高频知识库，快速覆盖该应用场景并保证翻译结果在新的应用场景下的准确性。

图9为本公开另一实施例提供的自然语言翻译方法流程图。在本实施例中，该方法具体步骤如下：

S901、获取待翻译的目标自然语言文本。

S902、确定预设自然语言文本和预设手语文本构成的对应关系中是否存在与所述目标自然语言文本匹配的预设自然语言文本。

S903、若所述对应关系中存在与所述目标自然语言文本匹配的预设自然语言文本，则将匹配到的所述预设自然语言文本对应的预设手语文作为所述目标自然语言文本对应的目标手语文本。

如图10所示，在上述实施例的基础上，本实施例还可以在服务器22中增加一个意图分析模块。服务器22获取到待翻译的目标自然语言文本Text之后，可以先通过知识库匹配模块确定该知识库中是否存在与Text匹配的预设自然语言文本，若存在，则可以直接将该预设自然语言文本对应的预设手语文本作为该目标自然语言文本对应的目标手语文本。

S904、若所述对应关系中不存在与所述目标自然语言文本匹配的预设自然语言文本，则确定所述目标自然语言文本的意图是否为预设意图。

如果知识库匹配模块在该知识库中没有查询到与Text匹配的预设自然语言文本，则该Text可以被输入如图10所示的意图分析模块。此时，意图分析模块可以确定该Text的意图是否为预设意图。

S905、若所述目标自然语言文本的意图不是预设意图，则将所述目标自然语言文本输入预先训练完成的翻译模型中。

如果意图分析模块确定该Text的意图不是预设意图，则该Text可以被输入给翻译模型，由该翻译模型对该Text进行翻译。也就是说，在本实施例中，如果该Text没有在知识库中匹配到预设自然语言文本，也不具有预设意图时，就会流入翻译模型。

S906、若所述目标自然语言文本的意图是预设意图，则根据所述预设意图对应的预设槽位模板，从所述目标自然语言文本中提取关键词汇。

如果意图分析模块确定该Text的意图是预设意图，则意图分析模块可以调用该预设意图对应的预设槽位模板对该Text中的关键词汇进行提取。例如图11所示，目标自然语言文本是“篮球比赛还有2张门票，下午3点”，经过意图分类后确定该目标自然语言文本的意图是“卖票”，则根据“卖票”对应的预设槽位模板对该目标自然语言文本中的关键词汇进行提取，例如，该预设槽位模板包括数量、时间、项目、价格、队伍等字段，根据这些字段分别从该目标自然语言文本中提取关键词汇，例如，该目标自然语言文本中与数量匹配的关键词汇是2，与时间匹配的关键词汇是“下午3点”，与项目匹配的关键词汇是“篮球”。可以理解的是，不同的意图对应的预设槽位模板可以是不同的。

S907、根据所述关键词汇，生成所述目标自然语言文本对应的目标手语文本。

如图11所示，根据预设槽位模板提取出关键词汇后，根据这些关键词汇可构成该目标自然语言文本对应的目标手语文本即Gloss。

本实施例通过确定目标自然语言文本的意图，并在该意图为预设意图的情况下，根据该预设意图对应的预设槽位模板，从该目标自然语言文本中提取关键词汇，并根据该关键词汇，生成该目标自然语言文本对应的目标手语文本，从而增强了在特定场景下的手语翻译的可控性和准确率。

如图12所示是从健听人的语音到手语视频的转换过程，其中包括从自然语言文本Text到手语文本Gloss的翻译过程，该翻译过程是该转换过程中较为核心的环节。如图12所示，该翻译过程可以是全链路翻译方案。由于Gloss中包括多个手语词汇，每个手语词汇可以对应有一个动作，因此，将每个手语词汇分别对应的动作进行合成即可得到手语视频。

虽然目前市面上出现了较多的手语数字人，然而整体还处于初期阶段，没有一个产品能为听障人士提供稳定可靠的服务。其核心原因在于翻译能力不足，导致听障人士的可懂率偏低。而本公开实施例则旨在通过全链路翻译方案，保障较高的翻译可懂率。下面介绍一下本公开实施例所述的全链路翻译方案为什么需要具备“翻译”和“全链路”的能力。

由于手语具有特有的词汇和语法，如果简单地按照自然语言的语法、词法对自然语言文本进行切词和动作拼接，则会导致听障人士无法看懂手语视频。因此，在手语视频生成的过程中需要将自然语言文本翻译为手语文本，使得生成的手语视频能够符合手语语言的用词和语法，真正让听障人士看得懂。在本实施例中，翻译主要解决两方面的问题。其中一个方面是词汇方面的问题，由于手语的词汇量远小于自然语言的词汇量，手语词汇的含义通常比较简单直白，因此，自然语言中的一些词汇，需要使用多个手语词汇进行翻译。例如图12所示的“赏心悦目”需要使用“J”和“颜色”两个手语词汇进行解释，同理，如图12所示的“盛筵”需要使用“比赛”和“会”两个手语词汇进行解释。再例如，自然语言中的“决赛”需要使用“最后”和“比赛”两个手语词汇进行解释。此外，自然语言中常用的一些修辞手法、书面用语等也需要使用类似的方式来使用多个手语词汇进行翻译。另外，翻译可以解决的另一方面的问题是语法方面的问题，由于手语有独特的表达方式，例如，否定词、修饰词等常常后置，时间词、主题词等需要前置，虚词、量词等需要省略，等等。因此，自然语言的语法语序和手语的语法语序存在着较大的差别，通过翻译可以将自然语言的语法语序转换为手语的语法语序。

在本实施例中，全链路可以保证翻译效果的稳定性，通过多个模块的协同，确保在业务场景中较高的可用性，真正被听障人士所接受。该全链路可以是如图13所示的从Text到Gloss的过程，该全链路中包括3个模块之间的协同，这3个模块分别是如图13所示的产品体验提升模块、翻译分流协同模块、翻译效果提升模块。由于手语文本翻译本身是一项难度较大的“小语种”翻译，多模态属性、相关数据少、数据获取难度大、翻译模型有一定不可控性等等问题导致只通过单一翻译模型难以做到落地可用。因此，通过如图13所示的全链路可保证翻译效果的稳定性和可控性。

具体的，产品体验提升模块可用于控制语速、表情、习惯等更加贴近真实聋哑人。产品体验提升模块包括语义精简模块、实体归一化模块、情绪判断模块。在信息播报类场景中，需要将播报内容转换成手语。但主播的口语速度较快，数字人的手语速度则偏慢。如果逐字逐句地翻译，则会导致手语远远滞后于口语。此外，如果翻译结果过于冗余，聋人也难以理解。所以需要对播报内容进行精简，同时又要保留原义。因此，本实施例可以通过语义精简模块对待翻译的目标自然语言文本进行语义精简，例如，语义精简模块可以通过文本摘要模型对目标自然语言文本进行语义精简，从而降低目标自然语言文本中词汇的复杂度，并压缩目标自然语言文本的句子长度。或者，语义精简模块可以通过词汇复杂度计算方法，保留目标自然语言文本中的核心词汇，从而压缩目标自然语言文本的句子长度。实体归一化模块可以在信息播报类场景中，对实体信息例如人名、数字等进行归一化处理。例如，在对人名进行翻译时，可以采用人名的拼音首字母。例如，Text是李某某，对应的Gloss是姓名/L/M/M。对于数字而言，如果是多位数，并且相邻的数字不同，例如以“256”为例，数字人在打手语动作时，不能依次打“2”、“5”、“6”分别对应的手语动作，而是打“200”、“50”、“6”分别对应的手语动作。而对于相邻数字相同的多位数时，例如以“77”为例，数字人在打手语动作时，就可以连续打两次“7”对应的手语动作。从而使得这类实体词的翻译更加贴合聋哑人的习惯，避免造成歧义。另外，由于表情是手语的一大要素，也是帮助听障人士理解的重要因素。因此，需要为数字人生成相应的表情。例如，通过情绪判断模块判断出每个Text的表情。具体的，情绪判断模块可以输出情绪标签，本实施例设定了9种情绪标签，分别是开心、愤怒、伤心、疑惑、害怕、讨厌、惊讶、痛苦、失望。也就是说，当数字人通过手语表达该Text的意思时，控制该数字人的表情是该Text对应的情绪标签所体现的表情。另外，在其他一些实施例中，将Text翻译为Gloss之后，还可以针对该Gloss中的每个手语词汇，判断该手语词汇对应的情绪标签，从而当数字人在打该手语词汇对应的手语动作时，控制该数字人的表情与该手语词汇对应的情绪标签相匹配。可以理解的是，在本实施例中，语义精简模块执行的功能可以先执行，进一步，实体归一化模块和情绪判断模块可以并行执行各自的功能。

如图13所示，翻译分流协同模块包括如上所述的知识库匹配模块、意图分析模块、翻译模型，分别对应的功能如上所述，此处不再赘述。另外，翻译效果提升模块包括翻译改写修正模块和多义词动作选择模块。其中，翻译模型是全链路翻译过程中的核心模块。在该翻译模型的训练阶段，训练样本可以是将自然语言文本翻译为标准的手语文本之后，由该自然语言文本和该手语文本构成的对应关系。或者，该训练样本还可以是根据自然语言文本得到手语视频，再根据手语视频得到手语文本之后由该自然语言文本和该手语文本构成的对应关系。由于根据自然语言文本得到手语视频，再根据手语视频得到的手语文本更加精准，因此，在这种情况下，可以提高训练样本的精准度，从而可以提高对翻译模型的训练精度。此外，本实施例还可以对训练样本中的手语文本进行质检，该质检过程可以是自动化的质检、人工质检、或自动化结合人工的质检，从而保证高质量的翻译数据。另外，该翻译模型可以使用编码器(Encoder)-解码器(Decoder)机器翻译架构，如图14所示。进一步，该翻译模型可以采用预训练(pretrain)-模型微调(finetune)训练模式，尝试了手语词典、汉语字典、手语词典+汉语字典的多种解码方案。借助手语专家维护的词对齐知识(例如，“决赛”需要翻译为“最后/比赛”)，增强了汉语词汇到手语词汇的翻译能力。另外，如图14所示，该翻译模型是根据多个损失值训练得到的，其中，gloss loss表示如上所述的第一损失值，gloss1 loss、gloss2 loss、…、glossn loss分别表示第二损失值。通过对比学习，即多个损失值，可以增强翻译模型对手语语法、语序的学习效果。此外，听障人士的用户界面中可以显示从自然语言到手语动画的过程，该过程如图15所示。

综上所述，本公开实施例可以通过语义精简、情绪判断等模块增强产品体验和易接受度，最终体现在合理的语速、表情等。另外，通过知识库匹配模块、意图分析模块、翻译模型的分流协同作用，可以提高翻译准确性和可控性。翻译模型保证了整体翻译的流畅性，词对齐知识提升了最终效果的可懂率。意图分析模块、知识库匹配模块保证了高频话术、限定场景翻译的准确性。多义词动作选择模块保证了动作的准确性。

图16为本公开实施例提供的模型训练装置的结构示意图。本公开实施例提供的模型训练装置可以执行模型训练方法实施例提供的处理流程，如图16所示，模型训练装置160包括：

获取模块161，用于获取自然语言样本文本对应的第一手语文本和至少一个第二手语文本，所述第二手语文本的准确度低于所述第一手语文本的准确度；

输入模块162，用于将所述自然语言样本文本输入待训练的翻译模型中，通过所述翻译模型输出所述自然语言样本文本对应的预测手语文本；

计算模块163，用于根据所述预测手语文本和所述第一手语文本，计算所述翻译模型的第一损失值；根据所述预测手语文本和所述至少一个第二手语文本，计算所述翻译模型的至少一个第二损失值；

训练模块164，用于根据所述第一损失值和所述至少一个第二损失值，对所述翻译模型进行训练。

可选的，所述第一手语文本包括多个手语词汇；

所述第二手语文本是对所述多个手语词汇中至少部分手语词汇的顺序进行调整后得到的；或者

所述第二手语文本是对所述多个手语词汇中至少部分手语词汇进行替换后得到的；或者

所述第二手语文本是所述翻译模型在历史训练过程中输出的历史手语文本。

图16所示实施例的模型训练装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图17为本公开实施例提供的自然语言翻译装置的结构示意图。本公开实施例提供的自然语言翻译装置可以执行自然语言翻译方法实施例提供的处理流程，如图17所示，自然语言翻译装置170包括：

获取模块171，用于获取待翻译的目标自然语言文本；

输入模块172，用于将所述目标自然语言文本输入预先训练完成的翻译模型中，通过所述翻译模型输出所述目标自然语言文本对应的目标手语文本，所述翻译模型是根据如上所述的模型训练方法得到的。

可选的，输入模块172将所述目标自然语言文本输入预先训练完成的翻译模型中，通过所述翻译模型输出所述目标自然语言文本对应的目标手语文本时，具体用于：将所述目标自然语言文本输入预先训练完成的翻译模型中，通过所述翻译模型输出所述目标自然语言文本对应的目标手语文本、以及所述目标手语文本中多义词对应的目标动作标识。

可选的，自然语言翻译装置170还包括：修正模块173、选择模块174，其中，修正模块173用于在所述翻译模型输出所述目标自然语言文本对应的目标手语文本之后，将所述目标手语文本中不属于手语词汇的目标词汇修正为一个手语词汇或由至少两个手语词汇构成的组合。选择模块174用于根据所述目标手语文本中的多义词对应的上下文，从所述多义词对应的多个动作标识中选择出目标动作标识。

可选的，选择模块174还用于：在修正模块173将所述目标手语文本中不属于手语词汇的目标词汇修正为一个手语词汇或由至少两个手语词汇构成的组合之后，若所述一个手语词汇或由至少两个手语词汇构成的组合中包括多义词，则从所述多义词对应的多个动作标识中选择出目标动作标识。

可选的，自然语言翻译装置170还包括确定模块175，用于确定预设自然语言文本和预设手语文本构成的对应关系中是否存在与所述目标自然语言文本匹配的预设自然语言文本。输入模块172具体用于：若所述对应关系中不存在与所述目标自然语言文本匹配的预设自然语言文本，则将所述目标自然语言文本输入预先训练完成的翻译模型中。

可选的，确定模块175还用于：若所述对应关系中不存在与所述目标自然语言文本匹配的预设自然语言文本，则确定所述目标自然语言文本的意图是否为预设意图。输入模块172具体用于：若所述目标自然语言文本的意图不是预设意图，则将所述目标自然语言文本输入预先训练完成的翻译模型中。

可选的，确定模块175还用于：若所述对应关系中存在与所述目标自然语言文本匹配的预设自然语言文本，则将匹配到的所述预设自然语言文本对应的预设手语文作为所述目标自然语言文本对应的目标手语文本。

可选的，确定模块175还用于：若所述目标自然语言文本的意图是预设意图，则根据所述预设意图对应的预设槽位模板，从所述目标自然语言文本中提取关键词汇；根据所述关键词汇，生成所述目标自然语言文本对应的目标手语文本。

图17所示实施例的自然语言翻译装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

以上描述了模型训练装置或自然语言翻译装置的内部功能和结构，该装置可实现为一种电子设备。图18为本公开实施例提供的电子设备实施例的结构示意图。如图18所示，该电子设备包括存储器181和处理器182。

存储器181用于存储程序。除上述程序之外，存储器181还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器181可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器182与存储器181耦合，执行存储器181所存储的程序，以用于：

或者，处理器182还用于：

获取待翻译的目标自然语言文本；

进一步，如图18所示，电子设备还可以包括：通信组件183、电源组件184、音频组件185、显示器186等其它组件。图18中仅示意性给出部分组件，并不意味着电子设备只包括图18所示组件。

通信组件183被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件183经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件183还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件184，为电子设备的各种组件提供电力。电源组件184可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件185被配置为输出和/或输入音频信号。例如，音频组件185包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器181或经由通信组件183发送。在一些实施例中，音频组件185还包括一个扬声器，用于输出音频信号。

显示器186包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的模型训练方法或自然语言翻译方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种模型训练方法，其中，所述方法包括：

2.根据权利要求1所述的方法，其中，所述第一手语文本包括多个手语词汇；

3.一种自然语言翻译方法，其中，所述方法包括：

获取待翻译的目标自然语言文本；

将所述目标自然语言文本输入预先训练完成的翻译模型中，通过所述翻译模型输出所述目标自然语言文本对应的目标手语文本，所述翻译模型是根据权利要求1或2所述的模型训练方法得到的。

4.根据权利要求3所述的方法，其中，将所述目标自然语言文本输入预先训练完成的翻译模型中，通过所述翻译模型输出所述目标自然语言文本对应的目标手语文本，包括：

将所述目标自然语言文本输入预先训练完成的翻译模型中，通过所述翻译模型输出所述目标自然语言文本对应的目标手语文本、以及所述目标手语文本中多义词对应的目标动作标识。

5.根据权利要求3所述的方法，其中，通过所述翻译模型输出所述目标自然语言文本对应的目标手语文本之后，所述方法还包括：

将所述目标手语文本中不属于手语词汇的目标词汇修正为一个手语词汇或由至少两个手语词汇构成的组合；

根据所述目标手语文本中的多义词对应的上下文，从所述多义词对应的多个动作标识中选择出目标动作标识。

6.根据权利要求5所述的方法，其中，将所述目标手语文本中不属于手语词汇的目标词汇修正为一个手语词汇或由至少两个手语词汇构成的组合之后，所述方法还包括：

若所述一个手语词汇或由至少两个手语词汇构成的组合中包括多义词，则从所述多义词对应的多个动作标识中选择出目标动作标识。

7.根据权利要求3所述的方法，其中，将所述目标自然语言文本输入预先训练完成的翻译模型中，包括：

确定预设自然语言文本和预设手语文本构成的对应关系中是否存在与所述目标自然语言文本匹配的预设自然语言文本；

若所述对应关系中不存在与所述目标自然语言文本匹配的预设自然语言文本，则将所述目标自然语言文本输入预先训练完成的翻译模型中。

8.根据权利要求7所述的方法，其中，若所述对应关系中不存在与所述目标自然语言文本匹配的预设自然语言文本，则将所述目标自然语言文本输入预先训练完成的翻译模型中，包括：

若所述对应关系中不存在与所述目标自然语言文本匹配的预设自然语言文本，则确定所述目标自然语言文本的意图是否为预设意图；

若所述目标自然语言文本的意图不是预设意图，则将所述目标自然语言文本输入预先训练完成的翻译模型中。

9.根据权利要求7所述的方法，其中，所述方法还包括：

若所述对应关系中存在与所述目标自然语言文本匹配的预设自然语言文本，则将匹配到的所述预设自然语言文本对应的预设手语文作为所述目标自然语言文本对应的目标手语文本。

10.根据权利要求8所述的方法，其中，所述方法还包括：

若所述目标自然语言文本的意图是预设意图，则根据所述预设意图对应的预设槽位模板，从所述目标自然语言文本中提取关键词汇；

根据所述关键词汇，生成所述目标自然语言文本对应的目标手语文本。

11.一种模型训练装置，其中，包括：

12.一种自然语言翻译装置，其中，包括：

获取模块，用于获取待翻译的目标自然语言文本；

输入模块，用于将所述目标自然语言文本输入预先训练完成的翻译模型中，通过所述翻译模型输出所述目标自然语言文本对应的目标手语文本，所述翻译模型是根据权利要求1或2所述的模型训练方法得到的。

13.一种电子设备，其中，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-10中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-10中任一项所述的方法。