CN116469165A

CN116469165A - 基于数字人的汉语到手语的翻译方法及系统

Info

Publication number: CN116469165A
Application number: CN202310375777.5A
Authority: CN
Inventors: 陆弘锴; 彭钰婷; 马梦遥; 冉沿川; 吴熙; 王路路; 王雪阳; 薛子豪
Original assignee: Beijing Zhipu Huazhang Technology Co ltd
Current assignee: Beijing Zhipu Huazhang Technology Co ltd
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-07-21

Abstract

本申请提出一种基于数字人的汉语到手语的翻译方法及系统，该方法包括：启动翻译页面，其中，翻译页面包括数据输入区域和数字人展示区域；在数据输入区域中获取待翻译的数据，并从待翻译的数据中识别出中文文本数据；将中文文本数据输入至手语机器翻译模型，获取手语机器翻译模型输出的手语词序列；基于手语词序列驱动手语数字人，控制手语数字人在数字人展示区域展示与手语词序列对应的手语动作。该方法通过虚拟数字人将汉语信息进行手语表达，提高了将汉语翻译成手语的便捷性和智能性。

Description

基于数字人的汉语到手语的翻译方法及系统

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种基于数字人的汉语到手语的翻译方法及系统。

背景技术

手语，是听障人士(聋人)常用的一种以肢体动作与表情配合来表达意思的视觉语言，具有较强的灵活性与场景关联性。手语与汉语的表达存在较大的差异。同一词汇在不同场景下，可能使用不同的手势来表达；同一短语也可能在不同的上下文条件下，使用不同的表达顺序。在非听障人士群体中，懂得手语的人非常少，正常人与聋人之间通常无法通过手语直接进行沟通，因此需要第三方人员作为翻译，将正常人的话语翻译为手语向聋人展示。

然而，通过第三方人员进行人工翻译的方式，翻译成本较高，翻译占用了额外的人力资源，且在实际生活中可能缺少第三方翻译人员，导致正常人与聋人之间沟通较为不便。因此，如何在避免第三方用户的基础上更加便捷的实现从汉语到手语的翻译，成为目前亟需解决的问题。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种基于数字人的汉语到手语的翻译方法，该方法将汉语信息转换为手语词序列，并通过数字人进行手语表达，提高了将汉语翻译成手语的便捷性和智能性，便于为聋人提供服务。

本申请的第二个目的在于提出一种基于数字人的汉语到手语的翻译系统。

本申请的第三个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本申请的第一方面实施例提出了一种基于数字人的汉语到手语的翻译方法，包括以下步骤：

启动翻译页面，其中，所述翻译页面包括数据输入区域和数字人展示区域；

在所述数据输入区域中获取待翻译的数据，并从所述待翻译的数据中识别出中文文本数据；

将所述中文文本数据输入至手语机器翻译模型，获取所述手语机器翻译模型输出的手语词序列；

基于所述手语词序列驱动手语数字人，控制所述手语数字人在所述数字人展示区域展示与所述手语词序列对应的手语动作。

可选地，在本申请的一个实施例中，所述待翻译的数据，包括：文本数据、音频数据和视频数据，所述从所述待翻译的数据中识别出中文文本数据，包括：在所述待翻译的数据为中文文本数据的情况下，直接获取在所述数据输入区域中输入的中文文本数据；在所述待翻译的数据为通过麦克风接收的用户的实时音频数据的情况下，通过第三方应用的API接口对所述实时音频数据进行语音识别，获取转换出的中文文本数据。在所述待翻译的数据为视频数据的情况下，从所述视频数据中抽取出对应的目标音频数据，并通过所述第三方应用的API接口对所述目标音频数据进行语音识别，获取转换出的中文文本数据。

可选地，在本申请的一个实施例中，在所述将所述中文文本数据输入至手语机器翻译模型之前，还包括：将所述中文文本数据按照预设的规范格式进行调整；分析所述中文文本数据中是否存在错误，并修正检测出的错误，其中，所述错误包括错别字、语义冗余、语义缺失和无具体含义的词语；提取修正后的中文文本数据中的命名实体，并对所述修正后的中文文本数据进行情感分析，获取所述修正后的中文文本数据中的情感信息。

可选地，在本申请的一个实施例中，所述将所述中文文本数据输入至手语机器翻译模型之前，还包括：针对所述修正后的中文文本数据选择对应的目标手语机器翻译模型；向所述目标手语机器翻译模型中传输翻译控制参数，其中，所述翻译控制参数包括文本精简比率参数和文本长度控制参数。

可选地，在本申请的一个实施例中，在所述基于所述手语词序列驱动手语数字人之前，还包括：向审核人员展示所述手语机器翻译模型输出的手语词序列，并获取所述审核人员返回的人工审核结果，根据所述人工审核结果对所述手语词序列进行修改。

可选地，在本申请的一个实施例中，所述数字人展示区域包括多个调整控件，所述控制所述手语数字人在所述数字人展示区域展示与所述手语词序列对应的手语动作，包括：基于所述多个调整控件接收用户输入的调整指令，并根据所述调整指令对所述手语数字人的形象、服装和背景进行调整。

可选地，在本申请的一个实施例中，所述控制所述手语数字人在所述数字人展示区域展示与所述手语词序列对应的手语动作，还包括：根据所述情感信息生成对应的表情数据；将所述表情数据传输至所述手语数字人，控制所述手语数字人按照所述表情数据显示相应的表情。

为达上述目的，本申请的第二方面实施例提出了一种基于数字人的汉语到手语的翻译系统，包括以下模块：

启动模块，用于启动翻译页面，其中，所述翻译页面包括数据输入区域和数字人展示区域；

识别模块，用于在所述数据输入区域中获取待翻译的数据，并从所述待翻译的数据中识别出中文文本数据；

翻译模块，用于将所述中文文本数据输入至手语机器翻译模型，获取所述手语机器翻译模型输出的手语词序列；

展示模块，用于基于所述手语词序列驱动手语数字人，控制所述手语数字人在所述数字人展示区域展示与所述手语词序列对应的手语动作。

可选地，在本申请的一个实施例中，识别模块，具体用于：在所述待翻译的数据为中文文本数据的情况下，直接获取在所述数据输入区域中输入的中文文本数据；在所述待翻译的数据为通过麦克风接收的用户的实时音频数据的情况下，通过第三方应用的API接口对所述实时音频数据进行语音识别，获取转换出的中文文本数据。在所述待翻译的数据为视频数据的情况下，从所述视频数据中抽取出对应的目标音频数据，并通过所述第三方应用的API接口对所述目标音频数据进行语音识别，获取转换出的中文文本数据。

为了实现上述实施例，本申请第三方面实施例还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的基于数字人的汉语到手语的翻译方法。

本申请的实施例提供的技术方案至少带来以下有益效果：本申请先将待翻译的各种形式的汉语数据转换成文本的形式，再通过手语机器翻译模型将文本数据翻译为手语词序列，然后驱动虚拟数字人，由数字人将手语词序列转换为手势动作向用户显示。从而，本申请通过数字人进行手语表达，不需要第三方用户作为翻译，自动识别待翻译的数据并将输入信号转换为手语数字人图形界面的手语图像信号，降低了将汉语翻译成手语所需的人工成本，提高了将汉语翻译成手语的便捷性和智能性。并且，基于机器翻译模型和修正审核等方式保证了翻译的准确性和针对性，还通过丰富的数字人界面的调整选项提高了翻译的趣味性，有利于听障人士便捷的进行沟通，且可以适用于各种应用场景。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1为本申请实施例提出的一种基于数字人的汉语到手语的翻译方法的流程图；

图2为本申请实施例提出的一种文本数据的预处理方法的流程图；

图3为本申请实施例提出的一种具体的翻译系统的翻译页面示意图；

图4为本申请实施例提出的另一种具体的翻译系统的翻译页面示意图；

图5为本申请实施例提出的又一种具体的翻译系统的翻译页面示意图；

图6为本申请实施例提出的一种基于故事续写和动态知识库的对话生成系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例所提出的一种基于数字人的汉语到手语的翻译方法和系统。

图1为本申请实施例提出的一种基于数字人的汉语到手语的翻译方法的流程图，如图1示，该方法包括以下步骤：

步骤S101，启动翻译页面，其中，翻译页面包括数据输入区域和数字人展示区域。

具体的，翻译页面可以是各种类型的电子设备中安装的手语翻译应用的人机交互界面，翻译页面包括数据输入区域和数字人展示区域，每个区域均可以包括相关的操作控件和操作区域。

其中，数据输入区域用于获取待翻译的数据，即可以通过其中的控件和交互区域输入需要翻译成手语的数据。数字人展示区域可以在其展示区域中播放数字人(DigitalHuman)的视频，在视频中由数字化人物形象展示待翻译的数据对应的手语动作，以实现从汉语到手语的翻译，具体实现过程在后续进行说明。

举例而言，翻译页面可以是聋哑人士的移动终端中的翻译系统的翻译界面，也可以是用于进行离线视频制作的终端上的制作界面，或者，还可以是电视台或网络电视台的直播视频信号生成设备中的界面。即，本申请的基于数字人的汉语到手语的翻译方法，可以适用于实际应用中不同的需要进行手语翻译场景。

步骤S102，在数据输入区域中获取待翻译的数据，并从待翻译的数据中识别出中文文本数据。

具体的，待翻译的数据可以是各种类型的数据，比如，可以是文本文件、音频文件或视频文件等各种需要翻译的数据。根据待翻译的数据的类型的不同，数据输入区域可以以各种方式接收待翻译的数据，进而通过语音识别等技术将其他类型的信号转换为文本信号，将识别出中文文本数据用于后续的翻译步骤。

在本申请一个实施例中，待翻译的数据包括：文本数据、音频数据和视频数据，从待翻译的数据中识别出中文文本数据，包括以下几种情况：

作为第一种示例，在待翻译的数据为中文文本数据的情况下，直接获取在数据输入区域中输入的中文文本数据。

在本示例中，可以接收文本形式的输入，即通过人工编辑的文本信息可以直接输入到翻译系统中，并在此基础上进行后续翻译步骤，以便自由生成需要的手语数字人视频。

作为第二种示例，在待翻译的数据为通过麦克风接收的用户的实时音频数据的情况下，通过第三方应用的API接口对实时音频数据进行语音识别，获取转换出的中文文本数据。

在本示例中，可以接收实时的音频数据，通过预先在电子设备上设置的麦克风实时接收用户语音信息，以进行实时翻译。在接收到音频数据后，先提取出音频数据中的人声部分，再通过第三方应用提供的应用程序编程接口(Application ProgrammingInterface，简称API)对实时音频数据中的人声部分进行语音识别，将用户语音信息转换为实时文本信息，获取转换出的中文文本数据进行后续翻译。

作为第三种示例，在待翻译的数据为视频数据的情况下，从视频数据中抽取出对应的目标音频数据，并通过第三方应用对目标音频数据中的人声部分进行语音识别，获取转换出的中文文本数据。

在本示例中，可以接收视频数据，用户可以向数据输入区域上传待翻译的带有音频的视频文件，然后将视频中的音频部分单独抽取出来，得到视频数据中的目标音频数据。然后，可参照上述第二种示例中对实时音频的处理方式，通过第三方语音识别API将目标音频数据中的用户语音信息转换为实时文本信息。

在上述示例中，可以运用相关技术中的语音识别方案将音频数据转换为中文文字数据，比如，调用训练完成的深度全序列卷积神经网络或截断注意力模型等各种神经网络模型进行语音识别和文字转换，此处不再赘述。

需要说明的是，在实际应用中还可以根据实际情况结合上述几种方式输入数据，比如，在接收上传的视频数据的同时，还可以接收添加的文本信号作为辅助信息，该文本信号可以是对视频数据的简要说明、介绍和限定等，以提高转换出的中文文本数据的准确性。

在本申请一个实施例中，转换后的中文文本数据中还可以带有时间戳信息，该时间戳可以表示接收到的视频文件或音频文件中语音的持续时间，基于该时间戳可以验证语音识别出的文本数据的准确性，确定转换后的中文文本数据是否与原数据相对应。并且，该时间戳还可以用于后续的手语翻译，使翻译出的手语词序列的时序与原数据中的内容一致。

步骤S103，将中文文本数据输入至手语机器翻译模型，获取手语机器翻译模型输出的手语词序列。

具体的，在将中文文本数据翻译为手语词时，启动手语翻译引擎，通过机器翻译模型对输入的汉语文本进行翻译，输出手语词序列。其中，手语词序列中的各个手语词的顺序与原待翻译的数据中各个词语的顺序相匹配，以实现准确的翻译。其中，手语机器翻译模型可以根据当前的翻译任务的需求和应用场景等各种因素确定。

可以理解的是，在获取到的待翻译的中文文本数据中可能存在错误或不规范的文字等不利于进行手语翻译的因素，为了提高手语翻译的准确性，在本申请一个实施例中，在将中文文本数据输入至手语机器翻译模型之前，还可以对识别到或者输入的文本进行预处理，为了更加清楚的说明本申请的进行文本数据预处理的具体实现过程，下面以本申请实施例中提出的一种文本数据的预处理方法进行示例性说明。

图2为本申请实施例提出的一种文本数据的预处理方法的流程图，如图2所示，该方法包括以下步骤：

步骤S201，将中文文本数据按照预设的规范格式进行调整。

具体的，规范中文文本数据中的文字和符号，使中文文本数据格式统一，符合翻译要求的规范。比如，使用规范的全角、半角符号与非中文字符，对文本数据中不规范的文字和符号进行调整。

步骤S202，分析中文文本数据中是否存在错误，并修正检测出的错误，其中，错误包括错别字、语义冗余、语义缺失和无具体含义的词语。

具体的，通过自然语言处理技术中的错别字检测技术和语义分析技术等手段，对规范化后的中文文本数据进行错误分析，并修正检测出的错误，包括更正错别字，删除冗余的文字和无具体含义的词语，并补充缺失的文字等。

其中，无具体含义的词语可以是文本数据中无实际意义的介词、虚词等词语。需要说明的是，听障人士在使用手语时，会忽略大量不重要的信息，包括无实际意义的介词、虚词等，并使用非常简练的词汇来表达。若待翻译的中文文本中存在大量无实际意义的词，可能会导致翻译结果不准确，因此，本申请在预处过程中针对进行手语翻译的特殊要求，删除无具体含义的词语，以提高后续生成的手语词序列的准确性。

步骤S203，提取修正后的中文文本数据中的命名实体，并对修正后的中文文本数据进行情感分析，获取修正后的中文文本数据中的情感信息。

具体的，命名实体可以是文本数据中的人名、官方地点和特有的物品名称等单独命名的实体，由于手语对人名的翻译方式比较特别，并且人名的组合方式较多，因此不能直接对命名实体进行翻译，需要在翻译之前进行提取。本申请实施例通过语义分析确定出命名实体后，将数据中的各个命名实体提取出来，在后续翻译过程中以专有的翻译方式进行翻译。

进一步的，本申请实施例之中，还会对该中文文本数据进行情感分析，包括分析文中各个语句的语义，联系其上下语境，收集各个语句中蕴含的情感信息，比如，对话者的激动、愤怒和愉快等情绪。

由此，对待翻译的中文文本进行了预处理，得到预处理文本。

为了进一步提高将汉语翻译至手语结果的准确性和针对性，在本申请一个实施例中，在将中文文本数据输入至手语机器翻译模型之前，还包括：针对修正后的中文文本数据选择对应的目标手语机器翻译模型；向目标手语机器翻译模型中传输翻译控制参数，其中，翻译控制参数包括文本精简比率参数和文本长度控制参数。

具体而言，在本实施例中，针对得到的预处理文本向翻译引擎传递参数，提高翻译的效果，并针对本次翻译任务选择进行翻译的机器翻译模型，提高翻译的针对性。其中，先向翻译引擎传递模型名称参数，即对机器翻译模型进行选择的模型参数，可以根据本次翻译任务的数量量、翻译难度和时效性要求等因素，确定模型名称参数，选择更适合本次翻译任务的机器模型。进而，在确定机器翻译模型后，向翻译引擎传递进行文本精简的控制参数，包括文本精简比率参数和对文本内容进行语义精简的文本长度控制参数，通过按一定程度精简文本来满足客制化需求。

更进一步的，将预处理文本输入至选择出的目标手语机器翻译模型，由目标手语机器翻译模型按照接收的翻译控制参数，将预处理文本翻译成手语词序列。为了更加清楚的说明本申请生成手语词序列的具体实现过程，下面以本申请一个实施例中提出的一种手语机器翻译模型输出手语词序列的过程进行示例性说明。

在本实施例中，手语机器翻译模型包括输入层、编码层、解码层和输出层，该目标手语翻译模型对预处理文本进行翻译，得到对应的手语词序列的方法可以包括以下几个步骤：

第一步，输入层将预处理文本转换为词向量，并且向每个词向量中添加其在预处理文本中的位置信息及上下文信息。

具体的，输入层首先通过字节对编码(Byte Pair Encoding，简称BPE)算法将预处理文本进行分词，BPE算法是一种数据压缩算法，它先将词分成单个字符，然后依次用另一个字符替换频率最高的一对字符，直到循环次数结束。再将每个词映射为多维的词向量，然后将每个词向量与预训练的位置向量叠加，该位置向量表示在文本中的位置信息，从而得到预处理文本对应的文本向量。比如，可以将上述每个词映射为512维的词向量。

第二步，编码层通过多层多头自注意力机制处理词向量，得到编码层词向量。

具体的，编码层可以包括多个子编码层，每个子编码层包括多头自注意力层与前向全连接层，其中，多头自注意力层使用多个自注意力头，将输入文本向量分割对应的多个部分，使预设翻译模型能够综合考虑文本向量中的信息并充分理解，最终得到编码层词向量。

举例而言，编码层包括6个子编码层，每个子编码层包括多头自注意力层与前向全连接层，多头自注意力层使用8个自注意力头，并将输入文本向量分为对应的8个部分。

进一步的，在本实施例之中，在多头自注意力层与前向全连接层计算的过程中，还会通过规范化与残差连接层来提升性能。

第三步，解码层使用自循环结构，将编码层词向量与上一次输出的解码层词向量进行互注意力计算，生成编码层向量对应的解码层词向量。

第四步，输出层将解码层词向量转化为输出层词向量，并通过输出层词向量得到每个位置对应的手语词出现的概率，通过集束搜索算法得到预处理文本对应的手语词序列并输出。

具体的，在本申请实施例之中，输出层通过两层的全连接层与softmax算法，将解码层词向量中每个位置的词向量转换为输出层词向量中每个位置的词向量，其中，输出层词向量中每个位置的词向量的大小为预处理文本中词的总数，输出层词向量中的每个值代表对应手语词在该位置出现的概率，通过集束搜索算法得到出现概率最高的手语词序列，该手语词序列为预处理文本对应的手语词序列，最终输出层输出该手语词序列。

其中，在本申请的一个示例之中，可以通过预先设定的手语词表，修正输出层词向量中每个值的大小，即修改对应手语词出现的概率，约束最终出现的结果。

由此，通过该手语机器翻译模型获取当前预处理文本对应的手语词序列。

步骤S104，基于手语词序列驱动手语数字人，控制手语数字人在数字人展示区域展示与手语词序列对应的手语动作。

具体的，将得到的手语词序列输入至数字人驱动引擎，通过虚幻引擎驱动手语数字人，使数字人做出预先设定的与各个手语词对应的手语动作，并且实时展示在翻译页面中的数字人展示区域。

为了进一步提高翻译成的手语的准确性，在本申请一个实施例中，在基于手语词序列驱动手语数字人之前，还包括：向审核人员展示手语机器翻译模型输出的手语词序列，并获取审核人员返回的人工审核结果，根据人工审核结果对手语词序列进行修改。

具体而言，本申请实施例还提供提供手动调整翻译结果的功能，可以将机器模型输出的手语词序列和原本待翻译的数据发送至相关审核人员，由审核人员审核手语词序列中是否存在错误或者可以进一步修正以更加精确的表达原文的手语词。进而，审核人员将修正后的手语词序列返回至电子设备，将修正后的手语词序列输入至数字人驱动引擎。

可以理解的是，在本申请一个实施例中，同理，还可以对语音识别或文本精简结果进行调整，即在将待翻译的数据转换为文本数据后以及进行文本精简后，按照上述方式将处理结果展示给审核人员进行修正，从而可以进一步提高机器翻译模型输出的手语词序列的准确性。

为了丰富数字人进行手语展示的视觉效果，在本申请一个实施例中，在控制手语数字人展示与手语词序列对应的手语动作的过程中，还可以基于数字人展示区域中的多个调整控件接收用户输入的调整指令，根据调整指令对手语数字人的形象、服装和背景进行调整。并且，还可以根据上述预处理实施例中情感信息生成对应的表情数据，控制手语数字人在展示过程中表情。

具体而言，在本实施例中，依据用户对数字人展示区域中人物调整控件的触发，对手语数字人的外貌形象与服装进行选择，可以使用不同性别、肤色和服装风格的数字人进行手语展示，以满足用户的偏好。还可以依据用户对数字人展示区域中UI调整控件的触发，对手语数字人区域进行调整，包括：指定数字人视频的背景颜色和背景图样，并且还可以对数字人区域的视频分辨率进行选择，以符合用户的观看需要。同时，还可以设定在数字人区域是否显示语音识别的字幕，以便更加充分的理解原文信息。

进一步的，还可以将根据情感信息生成的表情数据传输至手语数字人，控制手语数字人按照表情数据显示相应的表情。使手语数字人在做出手语动作的同时，做出与当前表达的内容对应的表情。

从而，本实施例实现数字人的服装、发型、背景和表情等的快速更换，提高了数字人展示手语动作的趣味性，有利于吸引用户查看翻译结果。

由此，本申请获取待翻译的文本、视频或音频，将视频或音频中的语音信息抽取出来并识别为文本，通过翻译算法模型将文本转换为手语词序列，并最终通过虚拟数字人将手语词序列转换为数字人手势动作。

综上所述，本申请实施例的基于数字人的汉语到手语的翻译方法，先将待翻译的各种形式的汉语数据转换成文本的形式，再通过手语机器翻译模型将文本数据翻译为手语词序列，然后驱动虚拟数字人，由数字人将手语词序列转换为手势动作向用户显示。从而，该方法通过数字人进行手语表达，不需要第三方用户作为翻译，自动识别待翻译的数据并将输入信号转换为手语数字人图形界面的手语图像信号，降低了将汉语翻译成手语所需的人工成本，提高了将汉语翻译成手语的便捷性和智能性。并且，基于机器翻译模型和修正审核等方式保证了翻译的准确性和针对性，还通过丰富的数字人界面的调整选项提高了翻译的趣味性，有利于听障人士便捷的进行沟通，且可以适用于各种应用场景。

基于上述实施例，为了更加清楚的说明本申请实施例的基于数字人的汉语到手语的翻译方法的具体实现过程，下面以在实际应用中的几个具体实施例进行详细说明。

在本实施例中，可以将该翻译方法应用在电视台或网络电视台视频中，以提供手语翻译服务。对于视频中出现的汉语音频信号进行采集、识别，并在将识别出的汉语文本翻译成手语词序列。在此基础上，翻译系统会按照手语词序列的顺序传输相应的手语数据到手语数字人，驱动手语数字人按同样的顺序打出手势。同时，翻译系统会传递相应的表情数据到手语数字人，数字人会同时做出相应的表情。最终，在手语数字人区域会展示手语数字人的形象。该展示结果可用作下游任务的输入，比如：电视直播视频信号合成，或者是用于离线视频制作。本申请实施例中使用的数字人是根据真人高精度建模、拥有3D形象、能够根据输入的数据做出相应动作的虚拟人物。当向其输入预设的手语数据时，数字人就可以做出预设的手势。本申请实施例提供的数字人区域除了直接展现了数字人形象以外，同时拥有输出实时视频流的功能，可以将数字人的视频输出并保存下来，用于后续视频制作。

下面对实际应用中利用翻译系统中的翻译页面，对不同类型的待翻译数据进行翻译的过程进行描述。

作为第一种示例，当需要对视频文件进行翻译时，翻译系统将带声音的视频作为系统输入，数字人视频作为系统输出，则翻译页面如图3所示，该页面包括数据输入区域10和数字人展示区域20，其中，数据输入区域10包括第一控件11、显示/操作区域12和第二控件13，数字人展示区域20包括数字人区域21、更换数字人控件22、更换服装控件23、更换背景控件24和下载视频控件25。

在本示例中，数据输入区域10包含视频上传功能，即此时第一控件11可作为视频上传控制，用户可以点击“上传”按钮上传本地视频/音频文件。中部的显示/操作区域12可作为上传历史区域会显示最近上传的文件，供用户查看，即若用户需要翻译之前上传过的视频，可以不用重新上传，之间在列表中选择需要翻译的视频。同时，显示/操作区域12还可以作为显示区域，播放当前正在上传的视频内容。

上传完成以后，第二控件13可作为触发翻译操作的翻译控件，点击“翻译”按钮，等待数秒以后，数字人区域21中显示的数字人形象将开始打手语。等待全部手语完成，“下载视频控件25”将亮起，此时用户可以点击下载数字人打手语的完整视频。

数字人区域可以提供多种不同数字人形象。点击更换数字人控件22，系统会弹出可选数字人形象菜单，用户可以在此选择需要的数字人形象。选择完成，系统会载入相应的数字人资产，在数字人区域展示出相应的数字人。

数字人区域可以提供多种不同背景。点击“更换背景控件24，系统会弹出可选背景菜单，用户可以在此选择需要的背景。选择完成，系统会载入相应的背景图片。

数字人区域可以提供多种不同数字人服装，以适应不同季节的视频制作。点击更换服装控件23，系统会弹出可选服装菜单，用户可以在此选择需要的服装。选择完成，系统会载入相应的服装资产，替换数字人身上原有服装。

数字人区域同时提供了视角缩放功能。当鼠标悬停在数字人区域时，滚动鼠标滚轮，可以使视角靠近或远离数字人，以满足不同视频制作需求。

作为第二种示例，当需要对文本文件进行翻译时，翻译系统将将中文文本作为系统输入，数字人视频作为系统输出，则翻译页面如图4所示。在本示例中，数据输入区域10包含输入文本的功能，即此时第一控件11可作为确定开始输入文本的控件，这种场景下，显示/操作区域12可作为翻译文本输入区域，用户可以直接在翻译文本区域输入需要翻译的文本，并点击翻译。

进而，翻译系统会将输入的文本送入机器翻译算法模型中，由翻译模型输出翻译完的手语词序列。翻译模型工作的步骤为：对待翻译的中文文本进行预处理，得到预处理文本；再通过目标翻译模型对预处理文本进行翻译，得到对应的手语词序列；然后对手语词序列进行后处理，得到目标手语词序列。

作为第三种示例，当需要对用户实时输入的语音进行翻译时，翻译系统提供了实时语音输入翻译功能，该场景下，用户可以将麦克风连接到翻译系统所在的设备，通过麦克风进行语音输入。翻译系统将实时语音作为系统输入，数字人视频作为系统输出，则翻译页面如图5所示。其中，第一控件11用于提示用户讲话，第二控件13作为启动接收语音信号的控件，用户点击第二控件13开始讲话，进而翻译系统收到语音数据信号，进行语音识别步骤，将语音信号识别为翻译文本，显示/操作区域12作为显示语音识别结果的显示区域，可以在该区域显示将语音转换后的文字。

需要说明的是，在上述第二种示例和第三种示例中，在数字人展示区域20进行手语展示和调整数字人的过程与第一种示例相同，此处不再赘述。

为了实现上述实施例，本申请还提出了一种基于数字人的汉语到手语的翻译系统。图6为本申请实施例提出的一种基于数字人的汉语到手语的翻译系统的结构示意图。

如图6所示，该系统包括启动模块100、识别模块200、翻译模块300和展示模块400。

其中，启动模块100，用于启动翻译页面，其中，翻译页面包括数据输入区域和数字人展示区域。

识别模块200，用于在数据输入区域中获取待翻译的数据，并从待翻译的数据中识别出中文文本数据。

翻译模块300，用于将中文文本数据输入至手语机器翻译模型，获取手语机器翻译模型输出的手语词序列。

展示模块400，用于基于手语词序列驱动手语数字人，控制手语数字人在数字人展示区域展示与手语词序列对应的手语动作。

可选地，在本申请的一个实施例中，识别模块200，具体用于：在待翻译的数据为中文文本数据的情况下，直接获取在数据输入区域中输入的中文文本数据；在待翻译的数据为通过麦克风接收的用户的实时音频数据的情况下，通过第三方应用的API接口对实时音频数据进行语音识别，获取转换出的中文文本数据；在待翻译的数据为视频数据的情况下，从视频数据中抽取出对应的目标音频数据，并通过第三方应用的API接口对目标音频数据进行语音识别，获取转换出的中文文本数据。

可选地，在本申请的一个实施例中，翻译模块300，还用于：将中文文本数据按照预设的规范格式进行调整；分析中文文本数据中是否存在错误，并修正检测出的错误，其中，错误包括错别字、语义冗余、语义缺失和无具体含义的词语；提取修正后的中文文本数据中的命名实体，并对修正后的中文文本数据进行情感分析，获取修正后的中文文本数据中的情感信息。

可选地，在本申请的一个实施例中，翻译模块300，还用于：针对修正后的中文文本数据选择对应的目标手语机器翻译模型；向目标手语机器翻译模型中传输翻译控制参数，其中，翻译控制参数包括文本精简比率参数和文本长度控制参数。

可选地，在本申请的一个实施例中，展示模块400，还用于：向审核人员展示手语机器翻译模型输出的手语词序列，并获取审核人员返回的人工审核结果，根据人工审核结果对手语词序列进行修改。

可选地，在本申请的一个实施例中，展示模块400具体用于：基于多个调整控件接收用户输入的调整指令，并根据调整指令对手语数字人的形象、服装和背景进行调整。

可选地，在本申请的一个实施例中，展示模块400具体用于：根据情感信息生成对应的表情数据；将表情数据传输至所述手语数字人，控制手语数字人按照表情数据显示相应的表情。

需要说明的是，前述对基于数字人的汉语到手语的翻译方法的实施例的描述，也适用于本实施例的系统，实现原理相同，此处不再赘述。

综上所述，本申请实施例的基于数字人的汉语到手语的翻译系统，先将待翻译的各种形式的汉语数据转换成文本的形式，再通过手语机器翻译模型将文本数据翻译为手语词序列，然后驱动虚拟数字人，由数字人将手语词序列转换为手势动作向用户显示。从而，该系统通过数字人进行手语表达，不需要第三方用户作为翻译，自动识别待翻译的数据并将输入信号转换为手语数字人图形界面的手语图像信号，降低了将汉语翻译成手语所需的人工成本，提高了将汉语翻译成手语的便捷性和智能性。并且，基于机器翻译模型和修正审核等方式保证了翻译的准确性和针对性，还通过丰富的数字人界面的调整选项提高了翻译的趣味性，有利于听障人士便捷的进行沟通，且可以适用于各种应用场景。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请第一方面实施例所述的基于数字人的汉语到手语的翻译方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，若在多个实施例或示例中采用了对上述术语的示意性表述，不代表这些实施例或示例是相同的。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于数字人的汉语到手语的翻译方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的翻译方法，其特征在于，所述待翻译的数据，包括：文本数据、音频数据和视频数据，所述从所述待翻译的数据中识别出中文文本数据，包括：

在所述待翻译的数据为中文文本数据的情况下，直接获取在所述数据输入区域中输入的中文文本数据；

在所述待翻译的数据为通过麦克风接收的用户的实时音频数据的情况下，通过第三方应用的API接口对所述实时音频数据进行语音识别，获取转换出的中文文本数据；

在所述待翻译的数据为视频数据的情况下，从所述视频数据中抽取出对应的目标音频数据，并通过所述第三方应用的API接口对所述目标音频数据进行语音识别，获取转换出的中文文本数据。

3.根据权利要求1所述的翻译方法，其特征在于，在所述将所述中文文本数据输入至手语机器翻译模型之前，还包括：

将所述中文文本数据按照预设的规范格式进行调整；

分析所述中文文本数据中是否存在错误，并修正检测出的错误，其中，所述错误包括错别字、语义冗余、语义缺失和无具体含义的词语；

提取修正后的中文文本数据中的命名实体，并对所述修正后的中文文本数据进行情感分析，获取所述修正后的中文文本数据中的情感信息。

4.根据权利要求3所述的翻译方法，其特征在于，在所述将所述中文文本数据输入至手语机器翻译模型之前，还包括：

针对所述修正后的中文文本数据选择对应的目标手语机器翻译模型；

向所述目标手语机器翻译模型中传输翻译控制参数，其中，所述翻译控制参数包括文本精简比率参数和文本长度控制参数。

5.根据权利要求1所述的翻译方法，其特征在于，在所述基于所述手语词序列驱动手语数字人之前，还包括：

向审核人员展示所述手语机器翻译模型输出的手语词序列，并获取所述审核人员返回的人工审核结果，根据所述人工审核结果对所述手语词序列进行修改。

6.根据权利要求1所述的翻译方法，其特征在于，所述数字人展示区域包括多个调整控件，所述控制所述手语数字人在所述数字人展示区域展示与所述手语词序列对应的手语动作，包括：

基于所述多个调整控件接收用户输入的调整指令，并根据所述调整指令对所述手语数字人的形象、服装和背景进行调整。

7.根据权利要求3所述的翻译方法，其特征在于，所述控制所述手语数字人在所述数字人展示区域展示与所述手语词序列对应的手语动作，还包括：

根据所述情感信息生成对应的表情数据；

将所述表情数据传输至所述手语数字人，控制所述手语数字人按照所述表情数据显示相应的表情。

8.一种基于数字人的汉语到手语的翻译系统，其特征在于，包括以下模块：

9.根据权利要求8所述的翻译系统，其特征在于，所述识别模块，具体用于：

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的基于数字人的汉语到手语的翻译方法。