CN117058951A

CN117058951A - 一种多模态翻译模型的训练方法及装置

Info

Publication number: CN117058951A
Application number: CN202311318445.XA
Authority: CN
Inventors: 陈科海; 郭政晟; 张民
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2023-11-14

Abstract

本发明公开了一种多模态翻译模型的训练方法及装置，涉及人工智能技术领域。包括：获取待生成手语视频的手语文本、和/或待生成手语文本的手语视频；将手语文本和/或手语视频输入到训练好的手语翻译模型；其中，手语翻译模型的训练采用无监督的训练方法；根据手语文本以及手语翻译模型，得到手语文本对应的手语视频，和/或，根据手语视频以及手语翻译模型，得到手语视频对应的手语文本。本发明在模型的训练过程中，采用无监督的训练方法，不需要对模型的训练数据进行人工标签标注，使用无标注数据可以实现手语视频生成任务的训练，并达到生成手语视频生成的效果，节省了人力物力，从而节省了手语翻译模型的训练成本。

Description

一种多模态翻译模型的训练方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种多模态翻译模型的训练方法及装置。

背景技术

手语是听障人士进行交流的一种方式。手语翻译是指将手语的含义用有声语言表达出来，手语翻译对于帮助听障人士快速适应社会具有重要的作用。

目前，手语视频合成主要有两种模型：端到端模型和级联模型。端到端模型通常将手语翻译看做多任务学习框架来联合学习手势识别和机器翻译，进而直接从源语言视频信号到目标语言文本或视频进行建模。级联模型是将手势识别、机器翻译、视频合成三个个模块顺序连接，手势识别模块将源语言视频信号转写为手势文本，机器翻译模块将手势文本翻译为目标语言文本，最后视频生成模块将目标语言文本合成为目标手语视频。级联模型将3个子模块松耦合的连接在一起，各个模块可以分别优化，不仅是当前手语翻译的研究热点，也是目前实际系统中使用的主流模型。

相关技术中，将人工智能技术应用于手语视频生成中，一般地，手语视频合成模型的训练方法为：获取手语视频和与手语视频对应的手语翻译文本，将手语翻译文本输入到候选手语视频生成模型中，得到目标手语视频；基于生成手语视频与源手语视频之间的差异，对候选手语视频生成模型进行训练；最终得到能够对输入文本进行手语视频生成的模型。

相关技术中的手语翻译模型的训练方法中，需要对手语视频进行标注，才能得到与手语视频对应的手语翻译文本，对于训练数据的获取成本较高，导致对于翻译模型的训练效率较低。

发明内容

本发明针对相关技术中的手语翻译模型的训练方法中，需要对手语视频进行标注，才能得到与手语视频对应的手语翻译文本，而标注工作通常需要花费大量的人力物力，导致手语翻译模型的训练成本较高的问题，提出了本发明。

为解决上述技术问题，本发明提供如下技术方案：

一方面，本发明提供了一种多模态翻译模型的训练方法，该方法由电子设备实现，该方法包括：

S1、获取待生成手语视频的手语文本、和/或待生成手语文本的手语视频。

S2、将手语文本和/或手语视频输入到训练好的手语翻译模型；其中，手语翻译模型的训练采用无监督的训练方法。

S3、根据手语文本以及手语翻译模型，得到手语文本对应的手语视频，和/或，根据手语视频以及手语翻译模型，得到手语视频对应的手语文本。

可选地，S2中的手语翻译模型的训练过程，包括：

S21、构建样本数据库，包括样本手语文本以及与样本手语文本无对应关系的样本手语视频。

S22、对样本手语文本进行跨模态特征提取，得到中间视频特征表示，对中间视频特征表示进行文本预测，得到第一手语文本。

S23、对样本手语视频进行跨模态特征提取，得到中间文本特征表示，对中间文本特征表示进行视频预测，得到第一手语视频。

S24、基于样本手语文本与第一手语文本之间的差异以及样本手语视频与第一手语视频之间的差异，对手语翻译模型进行训练，得到训练好的手语翻译模型，手语翻译模型用于手语视频和手语文本互译。

可选地，S21中的样本手语视频包括一种或多种自然语言类型的手语。

样本手语视频的自然语言类型与样本手语文本对应的自然语言类型相同。

或，样本手语视频的自然语言类型与样本手语文本对应的自然语言类型不同。

可选地，S21中的样本手语视频包括一个或多个手语执行者。

可选地，S22中的对样本手语文本进行跨模态特征提取，得到中间视频特征表示，对中间视频特征表示进行文本预测，得到第一手语文本，包括：

提取样本手语文本对应的第一文本特征表示。

对第一文本特征表示进行视频预测，得到中间手语视频。

提取中间手语视频对应的中间视频特征表示。

对中间视频特征表示进行文本预测，得到第一手语文本。

可选地，S23中的对样本手语视频进行跨模态特征提取，得到中间文本特征表示，对中间文本特征表示进行视频预测，得到第一手语视频，包括：

提取样本手语视频对应的第一视频特征表示。

对第一视频特征表示进行文本预测，得到中间手语文本。

提取中间手语文本对应的中间文本特征表示。

对中间文本特征表示进行视频预测，得到第一手语视频。

可选地，S24中的基于样本手语文本和第一手语文本之间的差异以及样本手语视频和第一手语视频之间的差异，对手语翻译模型进行训练，得到训练好的手语翻译模型，包括：

基于样本手语文本和第一手语文本之间的差异，确定第一损失，基于第一损失对候选视频生成网络进行训练，得到视频生成网络。

基于样本手语视频和第一手语视频之间的差异，确定第二损失，基于第二损失对候选文本生成网络进行训练，得到文本生成网络。

融合视频生成网络和文本生成网络，得到训练好的手语翻译模型。

可选地，手语翻译模型中的视频生成网络包括：第一文本编码器、第一文本解码器、第一视频编码器、第一视频解码器、第一候选维度转换层以及第二候选维度转换层；

手语翻译模型中的文本生成网络包括：第二文本编码器、第二文本解码器、第二视频编码器、第二视频解码器、第三候选维度转换层以及第四候选维度转换层。

另一方面，本发明提供了一种多模态翻译模型的训练装置，该装置应用于实现多模态翻译模型的训练方法，该装置包括：

获取模块，用于获取待生成手语视频的手语文本、和/或待生成手语文本的手语视频。

输入模块，用于将手语文本和/或手语视频输入到训练好的手语翻译模型；其中，手语翻译模型的训练采用无监督的训练方法。

输出模块，用于根据手语文本以及手语翻译模型，得到手语文本对应的手语视频，和/或，根据手语视频以及手语翻译模型，得到手语视频对应的手语文本。

可选地，输入模块，进一步用于：

可选地，样本手语视频包括一种或多种自然语言类型的手语。

可选地，样本手语视频包括一个或多个手语执行者。

可选地，输入模块，进一步用于：

提取样本手语文本对应的第一文本特征表示。

对第一文本特征表示进行视频预测，得到中间手语视频。

提取中间手语视频对应的中间视频特征表示。

对中间视频特征表示进行文本预测，得到第一手语文本。

可选地，输入模块，进一步用于：

提取样本手语视频对应的第一视频特征表示。

对第一视频特征表示进行文本预测，得到中间手语文本。

提取中间手语文本对应的中间文本特征表示。

对中间文本特征表示进行视频预测，得到第一手语视频。

可选地，输入模块，进一步用于：

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述多模态翻译模型的训练方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述多模态翻译模型的训练方法。

上述技术方案，与现有技术相比至少具有如下有益效果：

上述方案，通过候选翻译模型对样本手语文本进行跨模态特征提取，对提取到的中间视频特征表示进行文本预测，得到第一手语文本；以及，对样本手语视频进行跨模态特征提取，对提取到的中间文本特征表示进行视频预测，得到第一手语视频；最后，基于样本手语文本和第一手语文本之间的差异以及样本手语视频和第一手语视频之间的差异对候选翻译模型进行训练，得到能够实现手语和第一自然语言的互译的第一翻译模型。在候选翻译模型的训练过程中，采用无监督的训练方法，不需要对模型的训练数据（即样本手语文本和样本手语视频）进行人工标签标注，节省了人力物力，从而节省了手语翻译模型的训练成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的多模态翻译模型的训练方法流程示意图；

图2是本发明实施例提供的手语视频合成的框架图；

图3是本发明实施例提供的手语视频合成流程图；

图4是本发明实施例提供的多模态翻译模型的训练装置框图；

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种多模态翻译模型的训练方法，该方法可以由电子设备实现。如图1所示的多模态翻译模型的训练方法流程图，该方法的处理流程可以包括如下的步骤：

其中，手语（Sign Language)：是指利用手势的变化模拟形象或者音节以构成的一定意思或词语，手语是听障人士互相交际和交流思想的一种手的语言。手语翻译是指将手语的含义用有声语言表达出来，例如：将手语翻译为汉语文本。

S2、将手语文本和/或手语视频输入到训练好的手语翻译模型。

其中，手语翻译模型的训练采用无监督的训练方法。

可选地，S2中的手语翻译模型的训练过程，可以包括S21- S24：

一种可行的实施方式中，目前实际系统中使用的主流模型，如图2所示，相关技术中的手语翻译模型的训练方法中，需要对手语视频进行标注，才能得到与手语视频对应的手语翻译文本，而标注工作通常需要花费大量的人力物力，导致手语翻译模型的训练成本较高。本发明实施例提供的一种翻译模型的训练方法的流程图，如图3所示。

其中，样本手语文本是指与手语对应的第一自然语言类型的文本数据。自然语言通常指自然地随文化演化的有声语言，例如：汉语、英语、德语、西语等。上述第一自然语言可实现为任一自然语言，本申请实施例对此不加以限定。以第一自然语言实现为汉语为例，则第一自然语言类型的文本数据可以是“你好！”。

在一些实施例中，获取样本手语文本的方法包括：从样本数据库中获取手语翻译领域的第一自然语言类型的文本数据。其中，手语翻译领域的文本数据即为对手语进行翻译后得到的文本数据。

具体地，从样本数据库中获取任意的第一自然语言类型的文本数据。即不限定获取的第一自然语言类型的文本数据的具体领域。

其中，样本手语视频是指包括手语的视频数据。

对于手语而言，不同地区的人使用的手语类型（或者说手语体系）是不同，因此，一种类型的手语本身即表示了一种类型的自然语言，例如：汉语手语、英语手语等。在一些实施例中，样本手语视频中可包含一种类型的手语（即表示一种类型的自然语言）；或者，样本手语视频中可包含多种类型的手语（即表示多种类型的自然语言）。

可选地，在样本手语视频中仅包含一种类型的手语的情况下，样本手语视频中包含的手语表示的自然语言类型与第一自然语言类型相同；或者，样本手语视频中包含的手语表示的自然语言类型与第一自然语言类型不同。

示意性的，若样本手语视频包含多种类型的手语，第一自然语言为汉语，则训练得到的手语翻译模型可实现多种类型的手语与汉语文本之间的互译；若样本手语视频包含汉语手语，第一自然语言为汉语，则训练得到的手语翻译模型可实现汉语手语与汉语文本之间的互译；若样本手语视频包含英语手语，第一自然语言为汉语，则训练得到的手语翻译模型可实现英语手语与汉语文本之间的互译。

可选地，S21中的样本手语视频包括一个或多个手语执行者。

在一些实施例中，获取样本手语视频的方法包括：从样本数据库中获取手语翻译领域的视频数据。其中，手语翻译领域的视频数据即为包含手语画面的视频数据。

示意性的，样本手语视频中通常包含一个或多个手语执行者，手语执行者是指执行手语手势的人，例如：手语老师进行手语教学的画面；或者，两个人通过手语进行交流的画面。

需要进行说明的是，上述样本手语文本和样本手语视频之间没有对应关系，即样本手语文本的文本内容和样本手语视频的视频内容表达的含义并不一定是相同的。

其中，中间视频特征表示用于表征与样本手语文本的文本内容相匹配的视频模态的特征表示。

可选地，上述步骤S22可以包括如下步骤S221-S224：

S221、提取样本手语文本对应的第一文本特征表示。

S222、对第一文本特征表示进行视频预测，得到中间手语视频。

S223、提取中间手语视频对应的中间视频特征表示。

S224、对中间视频特征表示进行文本预测，得到第一手语文本。

其中，中间手语视频是与样本手语文本的文本内容相匹配的手语视频。

一种可行的实施方式中，首先，将样本手语文本翻译为中间手语视频，然后对中间手语视频进行回译，得到第一手语文本，通过减少样本手语文本与第一手语文本之间的差异，使得翻译得到的中间手语视频的视频内容与样本手语文本的文本内容所表达的含义不断接近，从而使得候选翻译模型学习到将手语文本翻译为手语视频的能力。

其中，中间文本特征表示用于表征与样本手语视频的视频内容相匹配的文本模态的特征表示。

可选地，上述步骤S23可以包括如下步骤S231-S234：

S231、提取样本手语视频对应的第一视频特征表示。

S232、对第一视频特征表示进行文本预测，得到中间手语文本。

S233、提取中间手语文本对应的中间文本特征表示。

S234、对中间文本特征表示进行视频预测，得到第一手语视频。

其中，中间手语文本是与样本手语视频的视频内容相匹配的手语文本。

一种可行的实施方式中，首先，将样本手语视频翻译为中间手语文本，然后对中间手语文本进行回译，得到第一手语视频，通过减少样本手语视频与第一手语视频之间的差异，使得翻译得到的中间手语文本的文本内容与样本手语视频的视频内容所表达的含义不断接近，从而使得候选翻译模型学习到将手语视频翻译为手语文本的能力。

可选地，上述步骤S24可以包括如下步骤S241-S243：

S241、基于样本手语文本和第一手语文本之间的差异，确定第一损失，基于第一损失对候选视频生成网络进行训练，得到视频生成网络。

S242、基于样本手语视频和第一手语视频之间的差异，确定第二损失，基于第二损失对候选文本生成网络进行训练，得到文本生成网络。

S243、融合视频生成网络和文本生成网络，得到训练好的手语翻译模型。

其中，手语翻译模型用于对手语视频和第一自然语言类型的文本进行互译。

视频生成网络用于将第一自然语言类型的文本翻译为手语视频；文本生成网络用于将手语视频翻译为第一自然语言类型的文本。

一种可行的实施方式中，第一损失包括L1损失、L2损失、交叉熵损失等中的至少一种；第二损失包括L1损失、L2损失、交叉熵损失等中的至少一种，本申请实施例对此不加以限定。

进一步地，在得到视频生成网络的过程中：当候选视频生成网络生成的中间手语视频达到训练条件，即停止对候选视频生成网络的训练，得到训练后的视频生成网络。其中，训练条件可以是对候选视频生成网络的训练次数达到预设次数阈值；还可以是第一损失的损失值小于或者等于预设损失值。

进一步地，在得到文本生成网络的过程中：当候选文本生成网络生成的中间手语文本达到训练条件，即停止对候选文本生成网络的训练，得到训练后的文本生成网络。其中，训练条件可以是对候选文本生成网络的训练次数达到预设次数阈值；也可以是第二损失的损失值小于或者等于预设损失值。

综上所述，本申请实施例提供的翻译模型的训练方法通过候选翻译模型对样本手语文本进行跨模态特征提取，对提取到的中间视频特征表示进行文本预测，得到第一手语文本；以及，对样本手语视频进行跨模态特征提取，对提取到的中间文本特征表示进行视频预测，得到第一手语视频；最后，基于样本手语文本和第一手语文本之间的差异以及样本手语视频和第一手语视频之间的差异对候选翻译模型进行训练，得到能够实现手语和第一自然语言的互译的第一翻译模型。在候选翻译模型的训练过程中，采用无监督的训练方法，不需要对模型的训练数据（即样本手语文本和样本手语视频）进行人工标签标注，节省了人力物力，从而节省了手语翻译模型的训练成本。

一种可行的实施方式中，第一文本编码器与第二文本编码器可以是相同的编码器，也可以是不同的编码器；第一文本解码器与第二文本解码器可以是相同的解码器，也可以是不同的解码器；第一视频编码器与第二视频编码器可以是相同的编码器，也可以是不同的编码器；第一视频解码器与第二视频解码器可以是相同的解码器，也可以是不同的解码器。

本申请实施例提供的训练方法训练得到的手语视频生成模型可应用于手语教学场景等。例如：采用训练好的手语翻译模型对一段汉语文本进行分析，将该汉语文本转化为包含手语的视频数据。在手语教学场景中，可将该手语翻译模型作为教学工具，辅助手语学习人员进行手语学习。本申请实施例对训练得到的手语视频生成模型的应用场景不加以限定。

本发明实施例中，通过候选翻译模型对样本手语文本进行跨模态特征提取，对提取到的中间视频特征表示进行文本预测，得到第一手语文本；以及，对样本手语视频进行跨模态特征提取，对提取到的中间文本特征表示进行视频预测，得到第一手语视频；最后，基于样本手语文本和第一手语文本之间的差异以及样本手语视频和第一手语视频之间的差异对候选翻译模型进行训练，得到能够实现手语和第一自然语言的互译的第一翻译模型。在候选翻译模型的训练过程中，采用无监督的训练方法，不需要对模型的训练数据（即样本手语文本和样本手语视频）进行人工标签标注，节省了人力物力，从而节省了手语翻译模型的训练成本。

如图4所示，本发明实施例提供了一种多模态翻译模型的训练装置400，该装置400应用于实现多模态翻译模型的训练方法，该装置400包括：

获取模块410，用于获取待生成手语视频的手语文本、和/或待生成手语文本的手语视频。

输入模块420，用于将手语文本和/或手语视频输入到训练好的手语翻译模型；其中，手语翻译模型的训练采用无监督的训练方法。

输出模块430，用于根据手语文本以及手语翻译模型，得到手语文本对应的手语视频，和/或，根据手语视频以及手语翻译模型，得到手语视频对应的手语文本。

可选地，输入模块420，进一步用于：

可选地，样本手语视频包括一个或多个手语执行者。

可选地，输入模块420，进一步用于：

提取样本手语文本对应的第一文本特征表示。

对第一文本特征表示进行视频预测，得到中间手语视频。

提取中间手语视频对应的中间视频特征表示。

对中间视频特征表示进行文本预测，得到第一手语文本。

可选地，输入模块420，进一步用于：

提取样本手语视频对应的第一视频特征表示。

对第一视频特征表示进行文本预测，得到中间手语文本。

提取中间手语文本对应的中间文本特征表示。

对中间文本特征表示进行视频预测，得到第一手语视频。

可选地，输入模块420，进一步用于：

图5是本发明实施例提供的一种电子设备500的结构示意图，该电子设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）501和一个或一个以上的存储器502，其中，存储器502中存储有至少一条指令，至少一条指令由处理器501加载并执行以实现下述多模态翻译模型的训练方法：

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述多模态翻译模型的训练方法。例如，计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多模态翻译模型的训练方法，其特征在于，所述方法包括：

S1、获取待生成手语视频的手语文本、和/或待生成手语文本的手语视频；

S2、将所述手语文本和/或手语视频输入到训练好的手语翻译模型；其中，所述手语翻译模型的训练采用无监督的训练方法；

S3、根据所述手语文本以及手语翻译模型，得到手语文本对应的手语视频，和/或，根据所述手语视频以及手语翻译模型，得到手语视频对应的手语文本。

2.根据权利要求1所述的方法，其特征在于，所述S2中的手语翻译模型的训练过程，包括：

S21、构建样本数据库，包括样本手语文本以及与所述样本手语文本无对应关系的样本手语视频；

S22、对所述样本手语文本进行跨模态特征提取，得到中间视频特征表示，对所述中间视频特征表示进行文本预测，得到第一手语文本；

S23、对所述样本手语视频进行跨模态特征提取，得到中间文本特征表示，对所述中间文本特征表示进行视频预测，得到第一手语视频；

S24、基于所述样本手语文本与第一手语文本之间的差异以及样本手语视频与第一手语视频之间的差异，对手语翻译模型进行训练，得到训练好的手语翻译模型，所述手语翻译模型用于手语视频和手语文本互译。

3.根据权利要求2所述的方法，其特征在于，所述S21中的样本手语视频包括一种或多种自然语言类型的手语；

所述样本手语视频的自然语言类型与样本手语文本对应的自然语言类型相同，

或，所述样本手语视频的自然语言类型与样本手语文本对应的自然语言类型不同。

4.根据权利要求2所述的方法，其特征在于，所述S21中的样本手语视频包括一个或多个手语执行者。

5.根据权利要求2所述的方法，其特征在于，所述S22中的对所述样本手语文本进行跨模态特征提取，得到中间视频特征表示，对所述中间视频特征表示进行文本预测，得到第一手语文本，包括：

提取所述样本手语文本对应的第一文本特征表示；

对所述第一文本特征表示进行视频预测，得到中间手语视频；

提取所述中间手语视频对应的中间视频特征表示；

对所述中间视频特征表示进行文本预测，得到第一手语文本。

6.根据权利要求2所述的方法，其特征在于，所述S23中的对所述样本手语视频进行跨模态特征提取，得到中间文本特征表示，对所述中间文本特征表示进行视频预测，得到第一手语视频，包括：

提取所述样本手语视频对应的第一视频特征表示；

对所述第一视频特征表示进行文本预测，得到中间手语文本；

提取所述中间手语文本对应的中间文本特征表示；

对中间文本特征表示进行视频预测，得到第一手语视频。

7.根据权利要求2所述的方法，其特征在于，所述S24中的基于所述样本手语文本和第一手语文本之间的差异以及样本手语视频和第一手语视频之间的差异，对手语翻译模型进行训练，得到训练好的手语翻译模型，包括：

基于所述样本手语文本和第一手语文本之间的差异，确定第一损失，基于所述第一损失对候选视频生成网络进行训练，得到视频生成网络；

基于所述样本手语视频和第一手语视频之间的差异，确定第二损失，基于所述第二损失对候选文本生成网络进行训练，得到文本生成网络；

融合所述视频生成网络和文本生成网络，得到训练好的手语翻译模型。

8.根据权利要求1所述的方法，其特征在于，所述手语翻译模型中的视频生成网络包括：第一文本编码器、第一文本解码器、第一视频编码器、第一视频解码器、第一候选维度转换层以及第二候选维度转换层；

9.一种多模态翻译模型的训练装置，其特征在于，所述装置包括：

获取模块，用于获取待生成手语视频的手语文本、和/或待生成手语文本的手语视频；

输入模块，用于将所述手语文本和/或手语视频输入到训练好的手语翻译模型；其中，所述手语翻译模型的训练采用无监督的训练方法；

输出模块，用于根据所述手语文本以及手语翻译模型，得到手语文本对应的手语视频，和/或，根据所述手语视频以及手语翻译模型，得到手语视频对应的手语文本。

10.根据权利要求9所述的装置，其特征在于，所述输入模块，用于：