CN116956953A

CN116956953A - 翻译模型的训练方法、装置、设备、介质及程序产品

Info

Publication number: CN116956953A
Application number: CN202310622868.4A
Authority: CN
Inventors: 王星; 郭政晟; 何志威; 焦文祥; 涂兆鹏; 王瑞; 陈科海; 张民
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-10-27

Abstract

本申请公开了一种翻译模型的训练方法、装置、设备、介质及程序产品，涉及翻译领域。该方法包括：通过候选翻译模型提取样本手语文本对应的中间视频特征表示，并对中间视频特征表示进行文本预测，得到第一手语文本；提取样本手语视频对应的中间文本特征表示，并对中间文本特征表示进行视频预测，得到第一手语视频；基于第一手语文本与样本手语文本之间的第一差异，以及第一手语视频与样本手语视频之间的第二差异，对候选翻译模型进行训练，得到第一翻译模型。采用无监督的训练方法，不需要对模型的训练数据(即样本手语文本和样本手语视频)进行人工标签标注，降低了对于训练数据的获取成本，提高了对翻译模型的训练效率。

Description

翻译模型的训练方法、装置、设备、介质及程序产品

技术领域

本申请实施例涉及翻译领域，特别涉及一种翻译模型的训练方法、装置、设备、介质及程序产品。

背景技术

手语是听障人士进行交流的一种方式。手语翻译是指将手语的含义用有声语言表达出来，手语翻译对于帮助听障人士快速适应社会具有重要的作用。

相关技术中，将人工智能技术应用于手语翻译中，一般地，手语翻译模型的训练方法为：获取手语视频和与手语视频对应的手语翻译文本，将手语视频输入到候选翻译模型中，得到目标翻译文本；基于目标翻译文本与手语翻译文本之间的差异，对候选翻译模型进行训练；最终得到能够对输入视频进行手语翻译的手语翻译模型。

然而，相关技术中的手语翻译模型的训练方法中，需要对手语视频进行标注，才能得到与手语视频对应的手语翻译文本，对于训练数据的获取成本较高，导致对于翻译模型的训练效率较低。

发明内容

本申请实施例提供了一种翻译模型的训练方法、装置、设备、介质及程序产品，能够降低对于训练数据的获取成本，提高训练效率，所述技术方案如下：

一方面，提供了一种翻译模型的训练方法，所述方法包括：

获取样本手语文本和样本手语视频，所述样本手语文本是指与手语对应的第一自然语言类型的文本数据，所述样本手语视频是指包括手语的视频数据；

通过候选翻译模型提取所述样本手语文本对应的中间视频特征表示，并对所述中间视频特征表示进行文本预测，得到第一手语文本，所述中间视频特征表示用于表征与所述样本手语文本的文本内容相匹配的视频模态的特征表示；

通过所述候选翻译模型提取所述样本手语视频对应的中间文本特征表示，并对所述中间文本特征表示进行视频预测，得到第一手语视频，所述中间文本特征表示用于表征与所述样本手语视频的视频内容相匹配的文本模态的特征表示；

基于所述第一手语文本与所述样本手语文本之间的第一差异，以及所述第一手语视频与所述样本手语视频之间的第二差异，对所述候选翻译模型进行训练，得到第一翻译模型，所述第一翻译模型用于对手语视频和所述第一自然语言类型的文本进行互译。

另一方面，提供了一种翻译模型的训练装置，所述装置包括：

获取模块，用于获取样本手语文本和样本手语视频，所述样本手语文本是指与手语对应的第一自然语言类型的文本数据，所述样本手语视频是指包括手语的视频数据；

预测模块，用于通过候选翻译模型提取所述样本手语文本对应的中间视频特征表示，并对所述中间视频特征表示进行文本预测，得到第一手语文本，所述中间视频特征表示用于表征与所述样本手语文本的文本内容相匹配的视频模态的特征表示；

所述预测模块，还用于通过所述候选翻译模型提取所述样本手语视频对应的中间文本特征表示，并对所述中间文本特征表示进行视频预测，得到第一手语视频，所述中间文本特征表示用于表征与所述样本手语视频的视频内容相匹配的文本模态的特征表示；

训练模块，用于基于所述第一手语文本与所述样本手语文本之间的第一差异，以及所述第一手语视频与所述样本手语视频之间的第二差异，对所述候选翻译模型进行训练，得到第一翻译模型，所述第一翻译模型用于对手语视频和所述第一自然语言类型的文本进行互译。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述实施例中任一所述的翻译模型的训练方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述实施例中任一所述的翻译模型的训练方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的翻译模型的训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过候选翻译模型对样本手语文本进行跨模态特征提取，对提取到的中间视频特征表示进行文本预测，得到第一手语文本；以及，对样本手语视频进行跨模态特征提取，对提取到的中间文本特征表示进行视频预测，得到第一手语视频；最后，基于样本手语文本和第一手语文本之间的差异以及样本手语视频和第一手语视频之间的差异对候选翻译模型进行训练，得到能够实现手语和第一自然语言的互译的第一翻译模型。在候选翻译模型的训练过程中，采用无监督的训练方法，不需要对模型的训练数据(即样本手语文本和样本手语视频)进行人工标签标注，降低了对于训练数据的获取成本，提高了对翻译模型的训练效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境的示意图；

图2是本申请一个示例性实施例提供的翻译模型的训练方法的流程图；

图3是本申请另一个示例性实施例提供的翻译模型的训练方法的流程图；

图4是本申请另一个示例性实施例提供的翻译模型的训练过程的示意图；

图5是本申请另一个示例性实施例提供的手语翻译模型的结构示意图；

图6是本申请又一个示例性实施例提供的翻译模型的训练方法的流程图；

图7是本申请一个示例性实施例提供的翻译模型的训练装置的结构框图；

图8是本申请另一个示例性实施例提供的翻译模型的训练装置的结构框图；

图9是本申请一个示例性实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中术语“第一”、“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

首先，对本申请实施例中涉及的名词进行简单介绍：

人工智能(Artificial Intelligence，简称AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

双语评估研究(Bilingual Evaluation Understudy，BLEU)：一种衡量文本之间相似度的方法，常用来评测译文质量，BLEU值越高表示译文质量越高。

手语(Sign Language)：是指利用手势的变化模拟形象或者音节以构成的一定意思或词语，手语是听障人士互相交际和交流思想的一种手的语言。手语翻译是指将手语的含义用有声语言表达出来，例如：将手语翻译为汉语文本。

相关技术中，将人工智能技术应用于手语翻译中，一般地，手语翻译模型的训练方法为：获取手语视频和与手语视频对应的手语翻译文本，将手语视频输入到候选翻译模型中，得到目标翻译文本；基于目标翻译文本与手语翻译文本之间的差异，对候选翻译模型进行训练；最终得到能够对输入视频进行手语翻译的手语翻译模型。然而，相关技术中的手语翻译模型的训练方法中，需要对手语视频进行标注，才能得到与手语视频对应的手语翻译文本，而标注工作通常需要花费大量的人力物力，导致手语翻译模型的训练成本较高。

本申请实施例提供了一种翻译模型的训练方法，通过候选翻译模型对样本手语文本进行跨模态特征提取，对提取到的中间视频特征表示进行文本预测，得到第一手语文本；以及，对样本手语视频进行跨模态特征提取，对提取到的中间文本特征表示进行视频预测，得到第一手语视频；最后，基于样本手语文本和第一手语文本之间的差异以及样本手语视频和第一手语视频之间的差异对候选翻译模型进行训练，得到能够实现手语视频和第一自然语言类型的文本互译的第一翻译模型。在候选翻译模型的训练过程中，采用无监督的训练方法，不需要对模型的训练数据(即样本手语文本和样本手语视频)进行人工标签标注，降低了对于训练数据的获取成本，提高了对翻译模型的训练效率。

本申请实施例提供的翻译模型的训练方法训练得到的手语翻译模型可应用于手语翻译场景、手语教学场景等。例如：在手语翻译场景中，采用训练好的手语翻译模型对包括手语的视频数据进行分析，将其中包含的手语翻译为汉语文本；或者，采用训练好的手语翻译模型对一段汉语文本进行分析，将该汉语文本转化为包含手语的视频数据。在手语教学场景中，可将该手语翻译模型作为教学工具，辅助手语学习人员进行手语学习。本申请实施例对训练得到的手语翻译模型的应用场景不加以限定。

其次，对本申请实施例中涉及的实施环境进行说明，示意性的，请参考图1，该实施环境中涉及终端110、服务器120，终端110和服务器120之间通过通信网络130连接，通信网络可以是有线网络，还可以是无线网络。

终端110能够是手机、平板电脑、台式电脑、便携式笔记本电脑、智能电视、车载终端、智能家居设备等多种形式的终端设备，本申请实施例对此不加以限定。可选地，终端110可以将样本手语文本和样本手语视频直接上传至服务器120中，样本手语文本和样本手语视频用于对候选翻译模型进行训练。

可选地，终端110中安装具有手语翻译功能的应用程序，示意性的，该应用程序可实现为翻译应用程序、即时通讯应用程序、浏览器应用程序、新闻应用程序、视频应用程序、金融应用程序、地图应用程序等；或者，该应用程序实现为依赖宿主应用程序的小程序，宿主应用程序可以实现为上述任意程序，本申请实施例对此不加以限定。

服务器120用于对候选翻译模型进行训练。服务器120可以从终端110中样本手语文本和样本手语视频，或者，服务器120中本身存储有样本手语文本和样本手语视频。

服务器120中初始化有候选翻译模型，服务器120接收到样本手语文本和样本手语视频后，将样本手语文本和样本手语视频输入到候选翻译模型中，通过候选翻译模型提取样本手语文本对应的中间视频特征表示，并对中间视频特征表示进行文本预测，得到第一手语文本；同时，服务器120提取样本手语视频对应的中间文本特征表示，并对中间文本特征表示进行视频预测，得到第一手语视频；最后，服务器120基于第一手语文本与样本手语文本之间的第一差异，以及第一手语视频与样本手语视频之间的第二差异，对候选翻译模型进行训练，得到第一翻译模型，该第一翻译模型能够实现手语和第一自然语言的互译。

可选地，服务器120训练得到第一翻译模型后，可为终端110中具有手语翻译功能的应用程序提供后台服务；或者，服务器120训练得到第一翻译模型后，可以将该第一翻译模型发送至终端110，终端110将第一翻译模型存储在本地，则终端110可以单独实现上述手语翻译功能。在一些可选的实施例中，上述第一翻译模型的训练过程还可以实现在终端110中，本申请实施例对此不加以限定。

值得注意的是，服务器120能够是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模型应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图像类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。可选地，服务器120还可以实现为区块链系统中的节点。

需要进行说明的是，本申请在收集用户的相关数据(例如：样本手语文本和样本手语视频)之前以及在收集用户的相关数据的过程中，都可以显示提示界面、弹窗或输出语音提示信息，该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据，使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后，才开始执行获取用户相关数据的相关步骤，否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时)，结束获取用户相关数据的相关步骤，即不获取用户的相关数据。换句话说，本申请所采集的所有用户数据都是在用户同意并授权的情况下进行采集的，且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

结合上述介绍和实施环境，图2是本申请实施例提供的一种翻译模型的训练方法的流程图，该方法可以由服务器或者终端执行，也可以由服务器和终端共同执行，本申请实施例中，以该方法由服务器执行为例进行说明，如图2所示，该方法包括：

步骤201，获取样本手语文本和样本手语视频。

其中，样本手语文本是指与手语对应的第一自然语言类型的文本数据。

自然语言通常指自然地随文化演化的有声语言，例如：汉语、英语、德语、西语等。上述第一自然语言可实现为任一自然语言，本申请实施例对此不加以限定。以第一自然语言实现为汉语为例，则第一自然语言类型的文本数据可以是“你好！”。

在一些实施例中，获取样本手语文本的方法包括：从样本数据库中获取手语翻译领域的第一自然语言类型的文本数据。其中，手语翻译领域的文本数据即为对手语进行翻译后得到的文本数据。

在另一些实施例中，获取样本手语文本的方法包括：从样本数据库中获取任意的第一自然语言类型的文本数据。即不限定获取的第一自然语言类型的文本数据的具体领域。

其中，样本手语视频是指包括手语的视频数据。

对于手语而言，不同地区的人使用的手语类型(或者说手语体系)是不同，因此，一种类型的手语本身即表示了一种类型的自然语言，例如：汉语手语、英语手语等。

在一些实施例中，样本手语视频中可包含一种类型的手语(即表示一种类型的自然语言)；或者，样本手语视频中可包含多种类型的手语(即表示多种类型的自然语言)。

可选地，在样本手语视频中仅包含一种类型的手语的情况下，样本手语视频中包含的手语表示的自然语言类型与第一自然语言类型相同；或者，样本手语视频中包含的手语表示的自然语言类型与第一自然语言类型不同。

示意性的，若样本手语视频包含多种类型的手语，第一自然语言为汉语，则训练得到的手语翻译模型可实现多种类型的手语与汉语文本之间的互译；若样本手语视频包含汉语手语，第一自然语言为汉语，则训练得到的手语翻译模型可实现汉语手语与汉语文本之间的互译；若样本手语视频包含英语手语，第一自然语言为汉语，则训练得到的手语翻译模型可实现英语手语与汉语文本之间的互译。

在一些实施例中，获取样本手语视频的方法包括：从样本数据库中获取手语翻译领域的视频数据。其中，手语翻译领域的视频数据即为包含手语画面的视频数据。

示意性的，样本手语视频中通常包含一个或多个手语执行者，手语执行者是指执行手语手势的人，例如：手语老师进行手语教学的画面；或者，两个人通过手语进行交流的画面。

需要进行说明的是，上述样本手语文本和样本手语视频之间没有对应关系，即样本手语文本的文本内容和样本手语视频的视频内容表达的含义并不一定是相同的。

步骤202，通过候选翻译模型提取样本手语文本对应的中间视频特征表示，并对中间视频特征表示进行文本预测，得到第一手语文本。

其中，中间视频特征表示用于表征与样本手语文本的文本内容相匹配的视频模态的特征表示。

可选地，提取样本手语文本对应的中间视频特征表示，并对中间视频特征表示进行文本预测，得到第一手语文本的方法还包括：提取样本手语文本对应的第一文本特征表示；对第一文本特征表示进行视频预测，得到中间手语视频；提取中间手语视频对应的中间视频特征表示；对中间视频特征表示进行文本预测，得到第一手语文本。

其中，中间手语视频是与样本手语文本的文本内容相匹配的视频。

示意性的，首先，将样本手语文本翻译为中间手语视频，然后对中间手语视频进行回译，得到第一手语文本，通过减少样本手语文本与第一手语文本之间的差异，使得翻译得到的中间手语视频的视频内容与样本手语文本的文本内容所表达的含义不断接近，从而使得候选翻译模型学习到将手语文本翻译为手语视频的能力。

步骤203，通过候选翻译模型提取样本手语视频对应的中间文本特征表示，并对中间文本特征表示进行视频预测，得到第一手语视频。

其中，中间文本特征表示用于表征与样本手语视频的视频内容相匹配的文本模态的特征表示。

可选地，提取样本手语视频对应的中间文本特征表示，并对中间文本特征表示进行视频预测，得到第一手语视频的方法还包括：提取样本手语视频对应的第一视频特征表示；对第一视频特征表示进行文本预测，得到中间手语文本；提取中间手语文本对应的中间文本特征表示；对中间文本特征表示进行视频预测，得到第一手语视频。

其中，中间手语文本是与样本手语视频的视频内容相匹配的文本。

可选地，中间手语文本为第一自然语言类型的文本。

示意性的，首先，将样本手语视频翻译为中间手语文本，然后对中间手语文本进行回译，得到第一手语视频，通过减少样本手语视频与第一手语视频之间的差异，使得翻译得到的中间手语文本的文本内容与样本手语视频的视频内容所表达的含义不断接近，从而使得候选翻译模型学习到将手语视频翻译为手语文本的能力。

可选地，样本手语视频对应的第一视频特征表示中包括面部动作特征表示和手部动作特征表示，其中，面部动作特征表示用于表征样本手语视频中手语执行者的面部动作，手部动作特征表示用于表征样本手语视频中手语执行者的手部动作；则对第一视频特征表示进行文本预测，得到中间手语文本的方法，还包括：对面部动作特征表示和手部动作特征表示进行文本预测，得到中间手语文本。

示意性的，在手语中，手语执行者不仅可以通过手部动作进行意思的表达，还可以通过面部表情进行意思的表达。因此，在对手语视频进行文本预测时，可以提取手语视频中手语执行者的面部动作特征和手部动作特征，基于这两种特征进行文本的预测。

步骤204，基于第一手语文本与样本手语文本之间的第一差异，以及第一手语视频与样本手语视频之间的第二差异，对候选翻译模型进行训练，得到第一翻译模型。

其中，第一翻译模型用于对手语视频和第一自然语言类型的文本进行互译。

在一些实施例中，候选翻译模型中包括候选视频生成网络和候选文本生成网络。其中，候选视频生成网络用于处理样本手语文本；候选文本生成网络用于处理样本手语视频。

可选地，上述得到第一翻译模型的方法还包括：

基于第一手语文本与样本手语文本之间的第一差异，确定第一损失，并基于第一损失对候选视频生成网络进行训练，得到视频生成网络；基于第一手语视频与样本手语视频之间的第二差异，确定第二损失，并基于第二损失对候选文本生成网络进行训练，得到文本生成网络；融合视频生成网络和文本生成网络，得到第一翻译模型。

其中，视频生成网络用于将第一自然语言类型的文本翻译为手语视频；文本生成网络用于将手语视频翻译为第一自然语言类型的文本。

可选地，第一损失包括L1损失、L2损失、交叉熵损失等中的至少一种；第二损失包括L1损失、L2损失、交叉熵损失等中的至少一种，本申请实施例对此不加以限定。

示意性的，在得到视频生成网络的过程中：当候选视频生成网络生成的中间手语视频达到训练条件，即停止对候选视频生成网络的训练，得到训练后的视频生成网络。其中，训练条件可以是对候选视频生成网络的训练次数达到预设次数阈值；还可以是第一损失的损失值小于或者等于预设损失值。

示意性的，在得到文本生成网络的过程中：当候选文本生成网络生成的中间手语文本达到训练条件，即停止对候选文本生成网络的训练，得到训练后的文本生成网络。其中，训练条件可以是对候选文本生成网络的训练次数达到预设次数阈值；也可以是第二损失的损失值小于或者等于预设损失值。

示意性的，训练得到视频生成网络和文本生成网络后，可融合视频生成网络和文本生成网络，得到第一翻译模型。

综上所述，本申请实施例提供的翻译模型的训练方法通过候选翻译模型对样本手语文本进行跨模态特征提取，对提取到的中间视频特征表示进行文本预测，得到第一手语文本；以及，对样本手语视频进行跨模态特征提取，对提取到的中间文本特征表示进行视频预测，得到第一手语视频；最后，基于样本手语文本和第一手语文本之间的差异以及样本手语视频和第一手语视频之间的差异对候选翻译模型进行训练，得到能够实现手语和第一自然语言的互译的第一翻译模型。在候选翻译模型的训练过程中，采用无监督的训练方法，不需要对模型的训练数据(即样本手语文本和样本手语视频)进行人工标签标注，降低了对于训练数据的获取成本，提高了对翻译模型的训练效率。

本申请实施例提供的方法，对样本手语文本进行视频预测得到中间手语视频后，对中间手语视频进行回译，得到中间手语视频对应的第一手语文本，通过减小第一手语文本和样本手语文本之间的差异，优化预测得到的中间手语视频；在训练过程中，通过跨模态回译的方式实现了无监督的训练，从而无需对样本手语文本进行标签标注，提高了对翻译模型的训练效率。

本申请实施例提供的方法，对样本手语视频进行文本预测得到中间手语文本后，对中间手语文本进行回译，得到中间手语文本对应的第一手语视频，通过减小第一手语视频和样本手语视频之间的差异，优化预测得到的中间手语文本；在训练过程中，通过跨模态回译的方式实现了无监督的训练，从而无需对样本手语视频进行标签标注，提高了对翻译模型的训练效率。

本申请实施例提供的方法，在对第一视频特征表示进行文本预测，得到中间手语文本时，提取的第一视频特征表示包括面部动作特征表示和手部动作特征表示，提高了预测得到的中间手语文本的准确性。

本申请实施例提供的方法，基于样本手语文本和预测得到的文本对候选翻译模型进行训练，得到视频生成网络；基于样本手语视频和预测得到的视频对候选翻译模型进行训练，得到文本生成网络。将视频生成网络和文本生成网络分开进行训练，提高了训练得到的第一翻译模型对手语视频和第一自然语言类型的文本进行互译的准确度。

在一些可选的实施例中，候选视频生成网络中包括第一文本编码器、第一文本解码器、第一视频编码器、第一视频解码器、第一候选维度转换层、第二候选维度转换层；候选文本生成网络中包括第二文本编码器、第二文本解码器、第二视频编码器、第二视频解码器、第三候选维度转换层、第四候选维度转换层。

可选地，第一文本编码器与第二文本编码器可以是相同的编码器，也可以是不同的编码器；第一文本解码器与第二文本解码器可以是相同的解码器，也可以是不同的解码器；第一视频编码器与第二视频编码器可以是相同的编码器，也可以是不同的编码器；第一视频解码器与第二视频解码器可以是相同的解码器，也可以是不同的解码器。

图3是本申请实施例提供的一种翻译模型的训练方法的流程图，该方法可以由服务器或者终端执行，也可以由服务器和终端共同执行，本申请实施例中，以该方法由服务器执行为例进行说明，如图3所示，该方法包括：

步骤301，获取样本手语文本和样本手语视频。

其中，样本手语文本是指与手语对应的第一自然语言类型的文本数据；样本手语视频是指包括手语的视频数据。

步骤302，通过候选翻译模型对样本手语文本进行编码处理，得到第一文本特征表示。

可选地，通过第一文本编码器对样本手语文本进行编码处理，得到第一文本特征表示。

可选地，第一文本特征表示可实现为第一文本向量，第一文本向量用于表征样本手语文本的上下文信息。

可选地，上述文本编码器包括长短期记忆(Long Short-Term Memory，LSTM)模型、双向编码器表征(Bidirectional Encoder Representation from Transformers，BERT)模型、生成式预训练模型(Generative Pre-Training Model，GPT)、RoBERTa模型等中的至少一种，本申请实施例对此不加以限定。

示意性的，通过第一文本编码器对样本手语文本进行编码，得到第一文本向量。

步骤303，对第一文本特征表示进行维度转换，得到第一维度的第一中间特征表示。

可选地，通过第一候选维度转换层对第一文本特征表示进行维度转换，得到第一维度的第一中间特征表示。

其中，第一维度是指样本手语视频对应的视频特征表示的维度。

可选地，得到第一维度的第一中间特征表示的方法包括：对第一文本特征表示进行插值处理，得到候选文本特征表示，候选文本特征表示中包括多个子文本特征表示，多个子文本特征表示分别对应的权重符合高斯分布；对候选文本特征表示进行维度转换，得到第一维度的第一中间特征表示。

可选地，在上述第一文本特征表示实现为第一文本向量的情况下，对第一文本向量进行插值处理，得到候选文本向量，其中，候选文本向量中包括多个子文本向量，多个子文本向量分别的权重符合高斯分布；对候选文本向量进行维度转换，得到第一中间向量，即为上述第一中间特征表示。

示意性的，将样本手语文本进行编码后，对编码后的向量进行插值，得到新的文本向量，这个新的文本向量中包括多个子文本向量，多个子文本向量分别的权重符合高斯分布(后续，在对第一候选维度转换层进行参数更新时，可调整该权重)；将新的文本向量输入到线性层中，对这个新的文本向量进行线性映射，得到最后用于进行解码的第一中间向量，第一中间向量的维度需要适配第一视频解码器的输入向量的维度，即第一中间向量的维度需要和样本手语视频的视频向量的维度一致。

步骤304，对第一中间特征表示进行解码处理，得到中间手语视频。

可选地，通过第一视频解码器对第一中间特征表示进行解码处理，得到中间手语视频。

可选地，通过第一视频解码器对第一中间向量进行解码处理，得到中间手语视频。

示意性的，第一视频解码器能够对输入向量进行预测得到一段手语视频；也就是说，上述解码处理过程即为一种视频重建任务，根据第一中间向量中包含的样本手语文本的上下文信息，重建一段手语视频，这段手语视频中包含的手语画面能够表达出样本手语文本的文本含义。

可选地，第一视频解码器是预先在手语翻译领域的视频数据集上训练好的解码器，该解码器能够对输入的视频维度的向量进行解码，得到一段包含手语执行者执行手语的视频。

示意性的，第一视频解码器中包括视频帧数据集，该视频帧数据集中包括多个手语执行者的视频帧图像，将第一中间向量(为视频维度的向量)输入到解码器中，该解码器将第一中间向量与视频帧数据集进行匹配，若干具有时序关系的视频帧图像，将这若干具有时序关系的视频帧图像进行拼接，则得到了中间手语视频。

其中，将第一中间向量与视频帧数据集进行匹配的过程具体可实现为：

第一中间向量中包括多个子向量，每个子向量(视频维度的向量)表征一段手语描述信息；根据子向量与视频帧图像对应的手语特征向量进行匹配，该手语特征向量包括视频帧图像中的手语执行者的手部动作特征向量和面部动作特征向量；若子向量与手语特征向量之间的相关性大于或者等于相关性阈值，表示子向量与手语特征向量匹配；将该手语特征向量对应的视频帧图像进行输出；对第一中间向量中的多个子向量匹配的视频帧图像进行输出，按照第一中间向量中的多个子向量之间的时序关系，对多个视频帧图像进行拼接，得到第一中间视频。

示意性的，子向量对应的手语描述信息为“你好”，则根据“你好”从视频帧数据集中获取具有“你好”含义的视频帧图像，该视频帧图像中包括手语执行者执行“你好”手势的画面。

需要进行说明的是，上述根据第一中间向量重建得到中间手语视频的方法仅为示意性的举例，本申请实施例对于重建得到中间手语视频的方法不加以限定。

步骤305，对中间手语视频进行编码处理，得到中间视频特征表示。

可选地，通过第一视频编码器对中间手语视频进行编码处理，得到中间视频特征表示。

可选地，上述中间视频特征表示可实现为中间视频向量，中间视频向量用于表征中间视频的上下文信息。

在一些实施例中，上述第一视频编码器对中间手语视频对应的多个视频帧图像进行编码处理，得到多个视频帧图像分别对应的中间图像向量，将多个视频帧图像分别对应的中间图像向量作为中间视频向量。

可选地，上述视频编码器可实现为基于计算视觉的自动编码器(MaskedAutoencoders，MAE)等，本申请实施例对此不加以限定。

在另一些实施例中，上述第一视频编码器对中间手语视频直接进行编码处理，得到中间手语视频对应的中间视频向量。

可选地，上述视频编码器可实现为矢量量化变分自动编码器(Vector QuantisedVariational AutoEncoder，VQ-VAE)，视频生成式预训练转换器(Video Generative Pre-trained Transformer，VideoGPT)模型等，本申请实施例对此不加以限定。

步骤306，对中间视频特征表示进行维度转换，得到第二维度的第二中间特征表示。

可选地，通过第二候选维度转换层对中间视频特征表示进行维度转换，得到第二维度的第二中间特征表示。

其中，第二维度是指样本手语文本对应的文本特征表示的维度。

可选地，得到第二维度的第二中间特征表示的方法包括：对中间视频特征表示进行插值处理，得到候选视频特征表示；对候选视频特征表示进行维度转换，得到第二维度的第二中间特征表示。

可选地，在上述中间视频特征表示实现为中间视频向量的情况下，对中间视频向量进行插值处理，得到候选视频向量，其中，候选视频向量中包括多个子视频向量，多个子视频向量分别的权重符合高斯分布；对候选视频向量进行维度转换，得到第二中间向量，即为上述第二中间特征表示。

示意性的，将中间手语视频进行编码后，对编码后的向量进行插值，得到新的视频向量，这个新的视频向量中包括多个子视频向量，多个子视频向量分别的权重符合高斯分布(后续，在对第二候选维度转换层进行参数更新时，可调整该权重)；将新的视频向量输入到线性层中，对这个新的视频向量进行线性映射，得到最后用于进行解码的第二中间向量，第二中间向量的维度需要适配第一文本解码器的输入向量的维度，即第二中间向量的维度需要和样本手语文本的文本向量的维度一致。

需要进行说明的是，针对中间视频向量实现为多个视频帧图像分别对应的中间图像向量的情况，可对多个中间图像向量进行插值处理，得到多个候选图像向量，其中，候选图像向量中包括多个子图像向量，多个子图像向量分别的权重符合高斯分布；对多个候选图像向量分别进行维度转换，得到多个第二中间向量，将多个第二中间向量作为第二中间特征表示。

步骤307，对第二中间特征表示进行解码处理，得到第一手语文本。

可选地，通过第一文本解码器对第二中间特征表示进行解码处理，得到第一手语文本。

可选地，通过第一文本解码器对第二中间向量进行解码处理，得到第一手语文本。

示意性的，第一文本解码器能够对输入向量进行预测得到第一自然语言类型的文本数据；也就是说，上述解码处理过程即为一种文本重建任务，根据第二中间向量中包含的中间视频的上下文信息，重建第一自然语言类型的文本数据，该第一自然语言类型的文本数据可以表示出中间视频中的手语画面的口语含义。

步骤308，基于第一手语文本和样本手语文本之间的差异，确定第一损失，并基于第一损失对候选视频生成网络进行训练，得到视频生成网络。

示意性的，当候选视频生成网络生成的中间手语视频达到训练条件，即停止对候选视频生成网络的训练，得到训练后的视频生成网络。其中，训练条件可以是对候选视频生成网络的训练次数达到预设次数阈值；还可以是第一损失的损失值小于或者等于预设损失值。

步骤309，通过候选翻译模型对样本手语视频进行编码处理，得到第一视频特征表示。

可选地，通过第二视频编码器对样本手语视频进行编码处理，得到第一视频特征表示。

可选地，上述第一视频特征表示可实现为第一视频向量，第一视频向量用于表征样本手语视频的上下文信息。

在一些实施例中，上述第二视频编码器对样本手语视频对应的多个视频帧图像进行编码处理，得到多个视频帧图像分别对应的第一图像向量，将多个视频帧图像分别对应的第一图像向量作为第一视频向量。

可选地，上述视频编码器可实现为MAE等，本申请实施例对此不加以限定。

在另一些实施例中，上述第二视频编码器对样本手语视频直接进行编码处理，得到样本手语视频对应的第一视频向量。

可选地，上述视频编码器可实现VQ-VAE，VideoGPT模型等，本申请实施例对此不加以限定。

步骤310，对第一视频特征表示进行维度转换，得到第二维度的第三中间特征表示。

可选地，通过第三候选维度转换层对第一视频特征表示进行维度转换，得到第二维度的第三中间特征表示。

可选地，得到第二维度的第三中间特征表示的方法包括：对第一视频特征表示进行插值处理，得到候选视频特征表示；对候选视频特征表示进行维度转换，得到第二维度的第三中间特征表示。

可选地，在上述第一视频特征表示实现为第一视频向量的情况下，对第一视频向量进行插值处理，得到候选视频向量，其中，候选视频向量中包括多个子视频向量，多个子视频向量分别的权重符合高斯分布；对候选视频向量进行维度转换，得到第三中间向量，即为上述第三中间特征表示。

示意性的，将第一手语视频进行编码后，对编码后的向量进行插值，得到新的视频向量，这个新的视频向量中包括多个子视频向量，多个子视频向量分别的权重符合高斯分布(后续，在对第三候选维度转换层进行参数更新时，可调整该权重)；将新的视频向量输入到线性层中，对这个新的视频向量进行线性映射，得到最后用于进行解码的第三中间向量，第三中间向量的维度需要适配第二文本解码器的输入向量的维度，即第三中间向量的维度需要和样本手语文本的文本向量的维度一致。

需要进行说明的是，针对第一视频向量实现为多个视频帧图像分别对应的第一图像向量的情况，可对多个第一图像向量进行插值处理，得到多个候选图像向量，其中，候选图像向量中包括多个子图像向量，多个子图像向量分别的权重符合高斯分布；对多个候选图像向量分别进行维度转换，得到多个第三中间向量，将多个第三中间向量作为第三中间特征表示。

步骤311，对第三中间特征表示进行解码处理，得到中间手语文本。

可选地，通过第二文本解码器对第三中间特征表示进行解码处理，得到中间手语文本。

可选地，通过第二文本解码器对第三中间向量进行解码处理，得到中间手语文本。

示意性的，第二文本解码器能够对输入向量进行预测得到第一自然语言类型的文本数据；也就是说，上述解码处理过程即为一种文本重建任务，根据第三中间向量中包含的样本手语视频的上下文信息，重建第一自然语言类型的文本数据，该第一自然语言类型的文本数据可以表示出样本手语视频中的手语画面的口语含义。

步骤312，对中间手语文本进行编码处理，得到中间文本特征表示。

可选地，通过第二文本编码器对中间手语文本进行编码处理，得到中间文本特征表示。

可选地，中间文本特征表示可实现为中间文本向量，中间文本向量用于表征中间手语文本的上下文信息。

可选地，上述文本编码器包括LSTM模型、BERT模型、GPT、RoBERTa模型等中的至少一种，本申请实施例对此不加以限定。

示意性的，通过第二文本编码器对中间手语文本进行编码，得到中间文本向量。

步骤313，对中间文本特征表示进行维度转换，得到第一维度的第四中间特征表示。

可选地，通过第四候选维度转换层对中间文本特征表示进行维度转换，得到第一维度的第四中间特征表示。

可选地，得到第一维度的第四中间特征表示的方法包括：对第四文本特征表示进行插值处理，得到候选文本特征表示；对候选文本特征表示进行维度转换，得到第一维度的第四中间特征表示。

可选地，在上述第四文本特征表示实现为第四文本向量的情况下，对第四文本向量进行插值处理，得到候选文本向量，其中，候选文本向量中包括多个子文本向量，多个子文本向量分别的权重符合高斯分布；对候选文本向量进行维度转换，得到第四中间向量，即为上述第四中间特征表示。

示意性的，将中间手语文本进行编码后，对编码后的向量进行插值，得到新的文本向量，这个新的文本向量中包括多个子文本向量，多个子文本向量分别的权重符合高斯分布(后续，在对第四候选维度转换层进行参数更新时，可调整该权重)；将新的文本向量输入到线性层中，对这个新的文本向量进行线性映射，得到最后用于进行解码的第四中间向量，第四中间向量的维度需要适配第二视频解码器的输入向量的维度，即第四中间向量的维度需要和样本手语视频的视频向量的维度一致。

步骤314，对第四中间特征表示进行解码处理，得到第一手语视频。

可选地，通过第二视频解码器对第四中间特征表示进行解码处理，得到第一手语视频。

可选地，通过第二视频解码器对第四中间向量进行解码处理，得到第一手语视频。

示意性的，第二视频解码器能够对输入向量进行预测得到一段手语视频；也就是说，上述解码处理过程即为一种视频重建任务，根据第四中间向量中包含的中间手语文本的上下文信息，重建一段手语视频，这段手语视频中包含的手语画面能够表达出中间手语文本的文本含义。

步骤315，基于第一手语视频和样本手语视频之间的差异，确定第二损失，并基于第二损失对候选文本生成网络进行训练，得到文本生成网络。

示意性的，当候选文本生成网络生成的中间手语文本达到训练条件，即停止对候选文本生成网络的训练，得到训练后的文本生成网络。其中，训练条件可以是对候选文本生成网络的训练次数达到预设次数阈值；也可以是第二损失的损失值小于或者等于预设损失值。

步骤316，融合视频生成网络和文本生成网络，得到第一翻译模型。

在一些实施例中，得到视频生成网络的方法包括：

基于第一损失对第一文本编码器、第一文本解码器、第一候选维度转换层和第二候选维度转换层分别对应的模型参数进行更新，得到第三文本编码器、第三文本解码器、第一维度转换层和第二维度转换层，并确定视频生成网络。

其中，视频生成网络为包括第三文本编码器、第三文本解码器和第一维度转换层的网络。

在一些实施例中，得到文本生成网络的方法包括：

基于第二损失对第二视频编码器、第二视频解码器、第三候选维度转换层和第四候选维度转换层分别对应的模型参数进行更新，得到第四视频编码器、第四视频解码器、第三维度转换层和第四维度转换层，并确定文本生成网络。

其中，文本生成网络为包括第四视频编码器、第四视频解码器和第三维度转换层的网络。

可选地，合并视频生成网络和文本生成网络，得到第一翻译模型。即合并第三文本编码器、第三文本解码器、第一维度转换层、第四视频编码器、第四视频解码器、第三维度转换层，得到第一翻译模型。

示意性的，若需要将目标手语视频翻译为第一自然语言类型的文本，则需要将目标手语视频输入到第四视频编码器进行编码，得到目标视频向量；然后将目标视频向量输入到第三维度转换层，得到中间向量；最后，将中间向量输入第三文本解码器，得到目标手语视频对应的第一自然语言类型的译文。

若需要将第一自然语言类型的目标手语文本翻译为手语视频，则需要将目标手语文本输入到第三文本编码器进行编码，得到目标文本向量；然后将目标文本向量输入到第一维度转换层，得到中间向量；最后，将中间向量输入第四视频解码器，得到第一自然语言类型的目标手语文本对应的手语翻译视频。

在一些实施例中，得到第一翻译模型之后还包括：

获取手语翻译数据集的测试集；基于测试集数据对第一翻译模型进行测试，确定第一测试模型的测试得分；在测试得分小于或者等于预设分数的情况下，重新对第一翻译模型进行训练。

示意性的，对第一翻译模型进行测试的方法可使用双语评估研究，若第一翻译模型输出译文的BLEU值的平均值小于或者等于预设平均值，重新对候选翻译模型进行训练，得到第一翻译模型。

示意性的，请参考图4，其示出了一种候选翻译模型的训练过程示意图；如图4所示，候选翻译模型400包括视频生成网络和文本生成网络。

视频生成网络用于处理输入的文本数据：将样本手语文本401输入第一文本编码器402中进行编码，将编码得到的文本向量输入第一维度转换层403，得到第一中间向量404(同视频向量维度)；将第一中间向量404输入第一视频解码器405进行解码，得到伪视频406；将伪视频406输入第一视频编码器407进行编码，得到伪视频向量408；将伪视频向量408输入第二维度转换层409，得到第二中间向量(同文本向量维度)；将第二中间向量输入第一文本解码器410，得到第一手语文本411；基于样本手语文本401和第一手语文本411之间的差异，确定第一损失，根据该第一损失更新视频生成网络中的模型参数。

文本生成网络用于处理输入的视频数据：将样本手语视频412输入第二视频编码器413中进行编码，将编码得到的视频向量输入第三维度转换层414，得到第三中间向量415(同文本向量维度)；将第三中间向量415输入第二文本解码器416进行解码，得到伪文本417；将伪文本417输入第二文本编码器418进行编码，得到伪文本向量419；将伪文本向量419输入第四维度转换层420，得到第四中间向量(同视频向量维度)；将第四中间向量输入第二视频解码器421，得到第一手语视频422；基于样本手语视频412和第一手语视频422之间的差异，确定第二损失，根据该第二损失更新文本生成网络中的模型参数。

示意性的，请参考图5，其示出了一种手语翻译模型(即第一翻译模型)的结构示意图。如图5所示，手语翻译模型500中包括训练好的第三文本编码器501(为对图4中第一文本编码器402训练得到的模型)、第三文本解码器502(为对图4中第一文本解码器410训练得到的模型)、第一维度转换层503(为对图4中第一维度转换层403训练得到的模型)、第四视频编码器504(为对图4中第二视频编码器413训练得到的模型)、第四视频解码器505(为对图4中第二视频解码器421训练得到的模型)、第三维度转换层506(为对图4中第三维度转换层414训练得到的模型)。

手语翻译模型500中可进行的翻译过程包括手语视频-口语文本翻译过程以及口语文本-手语视频翻译过程，下面结合图5所示的手语翻译模型对这两个翻译过程进行说明：

1、手语视频-口语文本翻译过程。

将待翻译的手语视频输入第四视频编码器504，将编码得到的视频向量输入第三维度转换层506，得到中间向量；最后，将中间向量输入第三文本解码器502，得到待翻译的手语视频对应的第一自然语言类型的口语译文。

2、口语文本-手语视频翻译过程。

将待翻译的第一自然语言类型的口语文本输入第三文本编码器501，将编码得到的文本向量输入第一维度转换层503，得到中间向量；最后，将中间向量输入第四视频解码器505，得到第一自然语言类型的口语文本对应的手语翻译视频。

本申请实施例提供的方法，在根据样本手语文本预测中间手语视频时，对文本特征表示进行维度转换，得到视频维度的中间特征表示，然后对中间特征表示进行解码处理，得到中间手语视频，相较于直接对文本维度的特征表示进行视频预测，进行维度转换后的特征表示进行视频预测的准确度较高。

本申请实施例提供的方法，通过对文本特征表示进行基于高斯权重的插值处理，提高了插值得到的中间特征表示的质量，从而提高了进行视频预测的准确度。

本申请实施例提供的方法，在根据样本手语视频预测中间手语文本时，对视频特征表示进行维度转换，得到文本维度的中间特征表示，然后对中间特征表示进行解码处理，得到中间手语文本，相较于直接对视频维度的特征表示进行文本预测，进行维度转换后的特征表示进行文本预测的准确度较高。

本申请实施例提供的方法，通过对视频特征表示进行基于高斯权重的插值处理，提高了插值得到的中间特征表示的质量，从而提高了进行文本预测的准确度。

在一些可选的实施例中，第一文本编码器与第二文本编码器是相同的编码器；第一文本解码器与第二文本解码器是相同的解码器；第一视频编码器与第二视频编码器是相同的编码器；第一视频解码器与第二视频解码器是相同的解码器。

第一文本编码器(或者第二文本编码器)和第一文本解码器(或者第二文本解码器)是基于第一样本文本数据集对候选文本重建模型进行训练得到，候选文本重建模型用于执行文本重建任务。第一视频编码器(或者第二视频编码器)和第一视频解码器(或者第二视频解码器)是基于第一样本视频数据集对候选视频重建模型进行训练得到，候选视频重建模型用于执行视频重建任务。

下面对候选文本重建模型和候选视频重建模型的训练过程进行说明：图6是本申请实施例提供的一种翻译模型的训练方法的流程图，该方法可以由服务器或者终端执行，也可以由服务器和终端共同执行，本申请实施例中，以该方法由服务器执行为例进行说明，如图6所示，步骤601至步骤607执行于步骤202之前，也可以执行于步骤201之前，该方法包括：

步骤601，获取第一样本文本数据集和第一样本视频数据集。

其中，第一样本文本数据集中包括第一样本文本，第一样本视频数据集中包括第一样本视频。

可选地，该第一样本文本为通用领域的文本数据，相对于手语翻译领域的文本数据而言，通用领域的文本数据即为任意领域的文本数据。

可选地，该第一样本视频为通用领域的视频数据，相对于手语翻译领域的视频数据而言，通用领域的视频数据即为任意领域的视频数据。

示意性的，对视觉-语言预训练进行数据评估(即本申请实施例提供的翻译模型的训练过程进行数据评估)，得到完成训练需要的预估数据量；对互联网进行通用领域视频和文本以及手语翻译领域视频和文本这两类数据进行统计，得到收录上述两种数据最多的若干个网站或数据集；获取网站或数据集中的视频和文本数据；对获取的视频和文本数据进行数据总量统计并与预估数据量进行对比。若获取数据总量小于预估数据量，则继续获取上述两类视频和文本数据；若获取数据总量大于预估数据量，则将获取到的视频和文本数据进行分类，第一类为通用领域的视频和文本数据(即为第一样本视频和第一样本文本)，第二类为手语翻译领域的视频和文本数据。

步骤602，通过候选文本重建模型对第一样本文本进行文本加噪处理，得到中间文本。

在一些实施例中，候选文本重建模型中包括文本增强网络。

可选地，通过文本增强网络对第一样本文本进行文本加噪处理，得到中间文本。

上述文本加噪处理包括：随机删除第一样本文本中某个词、随机在第一样本文本中增加词语、打乱第一样本文本中词语的顺序、随机删除第一样本文本中标点符号等，本申请实施例对此不加以限定。

步骤603，通过候选文本重建模型对中间文本进行文本去噪处理，得到第一文本。

在一些实施例中，候选文本重建模型中包括候选文本编码器和候选文本解码器。

可选地，通过候选文本编码器对中间文本进行编码处理，得到中间文本向量；通过候选文本解码器对中间文本向量进行文本去噪处理，得到第一文本。

示意性的，将经过文本加噪处理的中间文本编码后，通过文本解码器对中间文本进行去噪处理，即对中间文本进行文本重建，得到第一文本。

步骤604，基于第一文本和第一样本文本之间的差异对候选文本重建模型进行训练，得到文本重建模型。

可选地，基于第一文本和第一样本文本之间的差异，确定文本损失；基于文本损失对候选文本重建模型进行训练，得到文本重建模型。

可选地，文本损失包括L1损失、L2损失、交叉熵损失等中的至少一种。

示意性的，当候选文本重建模型生成的第一文本达到训练条件，即停止对候选文本重建模型的训练，得到训练后的文本重建模型。其中，训练条件可以是对候选文本重建模型的训练次数达到预设次数阈值；还可以是文本损失的损失值小于或者等于预设损失值。

在一些实施例中，文本重建模型中包括上述第一文本编码器(或者第二文本编码器)和第一文本解码器(或者第二文本解码器)。

可选地，基于文本损失对候选文本编码器和候选文本解码器分别对应的模型参数进行更新，得到上述第一文本编码器(或者第二文本编码器)和第一文本解码器(或者第二文本解码器)。

在一些实施例中，还可以通过手语翻译领域的视频和文本数据对训练中的候选文本重建模型进行微调。

可选地，基于第一文本和第一样本文本之间的差异，确定文本损失之后还包括：

基于文本损失对候选文本重建模型进行训练，得到样本重建模型，样本重建模型中包括样本文本增强网络、样本文本解码器和样本文本编码器；获取第二样本文本，第二样本文本为手语翻译领域的文本数据；通过样本文本增强网络对第二样本文本进行文本加噪处理，得到中间样本文本；通过样本文本编码器对中间样本文本进行编码处理，得到中间样本文本向量；通过样本文本解码器对中间样本文本向量进行文本去噪处理，得到第一样本文本；基于第一文本和第一样本文本之间的差异对候选文本重建模型进行训练，得到文本重建模型。

步骤605，通过候选视频重建模型对第一样本视频进行视频加噪处理，得到中间视频。

在一些实施例中，候选视频重建模型中包括视频增强网络。

可选地，通过视频增强网络对第一样本视频对应的多个视频图像帧进行图像加噪处理，得到中间视频。

上述图像加噪处理包括：在视频图像帧中加入高斯噪声、泊松噪声等；或者，随机遮掩视频图像帧中的图像区域；或者，将视频图像帧进行旋转变换等，本申请实施例对此不加以限定。

步骤606，通过候选视频重建模型对中间视频进行视频重建处理，得到第一视频。

在一些实施例中，候选视频重建模型中包括候选视频编码器和候选视频解码器。

可选地，通过候选视频编码器对中间视频进行编码处理，得到中间视频向量；通过候选视频解码器对中间视频向量进行视频去噪处理，得到第一视频。

在一些实施例中，通过候选视频编码器直接对中间视频进行编码处理，得到中间视频对应的中间视频向量；通过候选视频解码器对中间视频向量进行视频去噪处理，得到第一视频。

在另一些实施例中，通过候选视频编码器对中间视频对应的多个视频图像帧进行编码处理，得到多个视频图像帧分别对应的中间视频向量；通过候选视频解码器对多个视频图像帧分别对应的中间视频向量进行视频去噪处理，得到第一视频。

示意性的，将经过视频加噪处理的中间视频编码后，通过视频解码器对中间视频进行去噪处理，即对中间视频进行视频重建，得到第一视频。

步骤607，基于第一视频和第一样本视频之间的差异对候选视频重建模型进行训练，得到视频重建模型。

可选地，基于第一视频和第一样本视频之间的差异，确定视频损失；基于视频损失对候选视频重建模型进行训练，得到视频重建模型。

可选地，视频损失包括L1损失、L2损失、交叉熵损失等中的至少一种。

示意性的，当候选视频重建模型生成的第一视频达到训练条件，即停止对候选视频重建模型的训练，得到训练后的视频重建模型。其中，训练条件可以是对候选视频重建模型的训练次数达到预设次数阈值；还可以是视频损失的损失值小于或者等于预设损失值。

在一些实施例中，视频重建模型中包括上述第一视频编码器(或者第二视频编码器)和第一视频解码器(或者第二视频解码器)。

可选地，基于视频损失对候选视频编码器和候选视频解码器分别对应的模型参数进行更新，得到上述第一视频编码器(或者第二视频编码器)和第一视频解码器(或者第二视频解码器)。

在一些实施例中，还可以通过手语翻译领域的文本和视频数据对训练中的候选视频重建模型进行微调。

可选地，基于第一视频和第一样本视频之间的差异，确定视频损失之后还包括：

基于视频损失对候选视频重建模型进行训练，得到样本重建模型，样本重建模型中包括样本视频增强网络、样本视频解码器和样本视频编码器；获取第二样本视频，第二样本视频为手语翻译领域的视频数据；通过样本视频增强网络对第二样本视频进行视频加噪处理，得到中间样本视频；通过样本视频编码器对中间样本视频进行编码处理，得到中间样本视频向量；通过样本视频解码器对中间样本视频向量进行视频去噪处理，得到第一样本视频；基于第一视频和第一样本视频之间的差异对候选视频重建模型进行训练，得到视频重建模型。

综上所述，本申请实施例提供的方法，对于候选翻译模型中的视频编码器、视频解码器以及文本编码器和文本解码器，将其预先在通用领域的视频数据和文本数据上进行预训练，使得视频解码器能够对输入的视频维度的向量进行视频重建；文本解码器能够对输入的文本维度的向量进行文本重建。

图7是本申请一个示例性实施例提供的策略生成器的训练装置的结构框图，如图7所示，该装置包括如下部分：

获取模块700，用于获取样本手语文本和样本手语视频，所述样本手语文本是指与手语对应的第一自然语言类型的文本数据，所述样本手语视频是指包括手语的视频数据；

预测模块710，用于通过候选翻译模型提取所述样本手语文本对应的中间视频特征表示，并对所述中间视频特征表示进行文本预测，得到第一手语文本，所述中间视频特征表示用于表征与所述样本手语文本的文本内容相匹配的视频模态的特征表示；

所述预测模块710，还用于通过所述候选翻译模型提取所述样本手语视频对应的中间文本特征表示，并对所述中间文本特征表示进行视频预测，得到第一手语视频，所述中间文本特征表示用于表征与所述样本手语视频的视频内容相匹配的文本模态的特征表示；

训练模块720，用于基于所述第一手语文本与所述样本手语文本之间的第一差异，以及所述第一手语视频与所述样本手语视频之间的第二差异，对所述候选翻译模型进行训练，得到第一翻译模型，所述第一翻译模型用于对手语视频和所述第一自然语言类型的文本进行互译。

在一些实施例中，所述预测模块710，包括：

提取单元711，用于通过候选翻译模型提取所述样本手语文本对应的第一文本特征表示；

预测单元712，用于对所述第一文本特征表示进行视频预测，得到中间手语视频，所述中间手语视频是与所述样本手语文本的文本内容相匹配的视频；

所述提取单元711，还用于提取所述中间手语视频对应的中间视频特征表示；

所述预测单元712，还用于对所述中间视频特征表示进行文本预测，得到所述第一手语文本。

在一些实施例中，所述预测单元712，用于：

对所述第一文本特征表示进行维度转换，得到第一维度的第一中间特征表示，所述第一维度是指所述样本手语视频对应的视频特征表示的维度；

对所述第一中间特征表示进行解码处理，得到所述中间手语视频。

在一些实施例中，所述预测单元712，用于：

对所述第一文本特征表示进行插值处理，得到候选文本特征表示，所述候选文本特征表示中包括多个子文本特征表示，所述多个子文本特征表示分别对应的权重符合高斯分布；

对所述候选文本特征表示进行维度转换，得到所述第一中间特征表示。

在一些实施例中，所述预测单元712，用于：

对所述中间视频特征表示进行维度转换，得到第二维度的第二中间特征表示，所述第二维度是指所述样本手语文本对应的文本特征表示的维度；

对所述第二中间特征表示进行解码处理，得到所述第一手语文本。

在一些实施例中，所述预测模块710，包括：

所述提取单元711，用于通过候选翻译模型提取所述样本手语视频对应的第一视频特征表示；

所述预测单元712，用于对所述第一视频特征表示进行文本预测，得到中间手语文本，所述中间手语文本是与所述样本手语视频的视频内容相匹配的文本；

所述提取单元711，用于提取所述中间手语文本对应的中间文本特征表示；

所述预测单元712，用于对所述中间文本特征表示进行视频预测，得到所述第一手语视频。

在一些实施例中，所述预测单元712，用于：

对所述第一视频特征表示进行维度转换，得到第二维度的第三中间特征表示，所述第二维度是指所述样本手语文本对应的文本特征表示的维度；

对所述第三中间特征表示进行解码处理，得到所述中间手语文本。

在一些实施例中，所述预测单元712，用于：

对所述第一视频特征表示进行插值处理，得到候选视频特征表示，所述候选视频特征表示中包括多个子视频特征表示，所述多个子视频特征表示分别对应的权重符合高斯分布；

对所述候选视频特征表示进行维度转换，得到所述第三中间特征表示。

在一些实施例中，所述预测单元712，用于：

对所述中间文本特征表示进行维度转换，得到第一维度的第四中间特征表示，所述第一维度是指所述样本手语视频对应的视频特征表示的维度；

对所述第四中间特征表示进行解码处理，得到所述第一手语视频。

在一些实施例中，所述第一视频特征表示中包括面部动作特征表示和手部动作特征表示，其中，所述面部动作特征表示用于表征所述样本手语视频中手语执行者的面部动作，所述手部动作特征表示用于表征所述样本手语视频中所述手语执行者的手部动作；所述预测单元712，用于对所述面部动作特征表示和所述手部动作特征表示进行文本预测，得到所述中间手语文本。

在一些实施例中，所述候选翻译模型中包括候选视频生成网络和候选文本生成网络，其中，所述候选视频生成网络用于处理所述样本手语文本；所述候选文本生成网络用于处理所述样本手语视频；所述训练模块720，用于：

基于所述第一差异，确定第一损失，并基于所述第一损失对所述候选视频生成网络进行训练，得到视频生成网络，所述视频生成网络用于将所述第一自然语言类型的文本翻译为手语视频；

基于所述第二差异，确定第二损失，并基于所述第二损失对所述候选文本生成网络进行训练，得到文本生成网络，所述文本生成网络用于将手语视频翻译为第一自然语言类型的文本；

融合所述视频生成网络和所述文本生成网络，得到所述第一翻译模型。

综上所述，本申请实施例提供的翻译模型的训练装置通过候选翻译模型对样本手语文本进行跨模态特征提取，对提取到的中间视频特征表示进行文本预测，得到第一手语文本；以及，对样本手语视频进行跨模态特征提取，对提取到的中间文本特征表示进行视频预测，得到第一手语视频；最后，基于样本手语文本和第一手语文本之间的差异以及样本手语视频和第一手语视频之间的差异对候选翻译模型进行训练，得到能够实现手语和第一自然语言的互译的第一翻译模型。在候选翻译模型的训练过程中，采用无监督的训练方法，不需要对模型的训练数据(即样本手语文本和样本手语视频)进行人工标签标注，降低了对于训练数据的获取成本，提高了对翻译模型的训练效率。

需要说明的是：上述实施例提供的翻译模型的训练装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的翻译模型的训练装置与翻译模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9示出了本申请一个示例性实施例提供的计算机设备900的结构框图。该计算机设备900可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。计算机设备900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，计算机设备900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、9核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的翻译模型的训练方法。

在一些实施例中，计算机设备900还可选包括其他组件，本领域技术人员可以理解，图9中示出的结构并不构成对计算机设备900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述实施例中任一所述的翻译模型的训练方法。

可选的，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种翻译模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过候选翻译模型提取所述样本手语文本对应的中间视频特征表示，并对所述中间视频特征表示进行文本预测，得到第一手语文本，包括：

通过候选翻译模型提取所述样本手语文本对应的第一文本特征表示；

对所述第一文本特征表示进行视频预测，得到中间手语视频，所述中间手语视频是与所述样本手语文本的文本内容相匹配的视频；

提取所述中间手语视频对应的中间视频特征表示；

对所述中间视频特征表示进行文本预测，得到所述第一手语文本。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一文本特征表示进行视频预测，得到中间手语视频，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述第一文本特征表示进行维度转换，得到第一维度的第一中间特征表示，包括：

5.根据权利要求2所述的方法，其特征在于，所述对所述中间视频特征表示进行文本预测，得到所述第一手语文本，包括：

6.根据权利要求1所述的方法，其特征在于，所述通过所述候选翻译模型提取所述样本手语视频对应的中间文本特征表示，并对所述中间文本特征表示进行视频预测，得到第一手语视频，包括：

通过候选翻译模型提取所述样本手语视频对应的第一视频特征表示；

对所述第一视频特征表示进行文本预测，得到中间手语文本，所述中间手语文本是与所述样本手语视频的视频内容相匹配的文本；

提取所述中间手语文本对应的中间文本特征表示；

对所述中间文本特征表示进行视频预测，得到所述第一手语视频。

7.根据权利要求6所述的方法，其特征在于，所述对所述第一视频特征表示进行文本预测，得到中间手语文本，包括：

8.根据权利要求7所述的方法，其特征在于，所述对所述第一视频特征表示进行维度转换，得到第二维度的第三中间特征表示，包括：

9.根据权利要求6所述的方法，其特征在于，所述对所述中间文本特征表示进行视频预测，得到所述第一手语视频，包括：

10.根据权利要求6所述的方法，其特征在于，所述第一视频特征表示中包括面部动作特征表示和手部动作特征表示，其中，所述面部动作特征表示用于表征所述样本手语视频中手语执行者的面部动作，所述手部动作特征表示用于表征所述样本手语视频中所述手语执行者的手部动作；

所述对所述第一视频特征表示进行文本预测，得到中间手语文本，包括：

对所述面部动作特征表示和所述手部动作特征表示进行文本预测，得到所述中间手语文本。

11.根据权利要求1至10任一所述的方法，其特征在于，所述候选翻译模型中包括候选视频生成网络和候选文本生成网络，其中，所述候选视频生成网络用于处理所述样本手语文本；所述候选文本生成网络用于处理所述样本手语视频；

所述基于所述第一手语文本与所述样本手语文本之间的第一差异，以及所述第一手语视频与所述样本手语视频之间的第二差异，对所述候选翻译模型进行训练，得到第一翻译模型，包括：

12.一种翻译模型的训练装置，其特征在于，所述装置包括：

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行以实现如权利要求1至11任一所述的翻译模型的训练方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一段计算机程序，所述至少一段计算机程序由处理器加载并执行以实现如权利要求1至11任一所述的翻译模型的训练方法。

15.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至11任一所述的翻译模型的训练方法。