CN114067362A

CN114067362A - 基于神经网络模型的手语识别方法、装置、设备及介质

Info

Publication number: CN114067362A
Application number: CN202111358072.XA
Authority: CN
Inventors: 杨珍
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-02-18

Abstract

本发明实施例涉及人工智能领域，公开了一种基于神经网络模型的手语识别方法、装置、设备及介质，该方法包括：获取拍摄装置采集到的用户输入的待识别的手语信息，手语信息包括转换方式手语信息和待识别手语信息；将手语信息输入预训练的手语识别模型，得到转换方式手语信息对应的第一手语语义文本信息以及待识别手语信息对应的第二手语语义文本信息；根据第一手语语义文本信息确定转换方式手语信息对应的目标语言方式；将第二手语语义文本信息转换为与目标语言方式对应的语音、文字、手语中的一种或多种，实现了对手语的高效、智能化识别，提高了手语识别的灵活性。本发明涉及区块链技术，如可将手语信息写入区块链中，以用于数据取证等场景。

Description

基于神经网络模型的手语识别方法、装置、设备及介质

技术领域

本发明涉及人工智能领域，尤其涉及一种基于神经网络模型的手语识别方法、装置、设备及介质。

背景技术

目前，市面上存在各类关于手语识别的应用程序(application，app)，只不过这些app的受众应该都是那些需要使用手语或者需要懂手语又或者只是对手语感兴趣的人才会接触，但在实际生活的某些场景中，不懂手语的用户也需要实时地和只能通过手语表达的人士交流，并且这个是大概率的事件。然而，由于不同的用户精通不同的语言或语言方式，现有的关于手语识别的app翻译的手语不一定满足一些用户的语言需求，也就是说，对于一些用户来说可能听不懂或看不懂现有app翻译的语言。例如，假设不懂手语的用户只懂法文，而关于手语识别的app将手语用户的手语翻译成了中文，从而导致不懂手语的用户不懂该app翻译的内容，不懂对方的手语在表达什么，造成无效沟通。因此，如何满足不同用户对手语识别的不同需求，实现对手语的高效、智能化识别，提高手语识别的灵活性成为研究的重点。

发明内容

本发明实施例提供了一种基于神经网络模型的手语识别方法、装置、设备及介质，实现了根据不同用户的需求将手语转换为对应的语言方式，满足了用户对手语识别的不同需求，实现了对手语的高效、智能化识别，提高了手语识别的灵活性。

第一方面，本发明实施例提供了一种基于神经网络模型的手语识别方法，包括：

获取拍摄装置采集到的用户输入的待识别的手语信息，所述手语信息包括转换方式手语信息和待识别手语信息，所述转换方式手语信息用于指示识别手语的语言方式；

将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息对应的第二手语语义文本信息；

根据所述第一手语语义文本信息确定所述转换方式手语信息对应的目标语言方式，所述目标语言方式包括语音、文字、手语中的一种或多种；

根据确定的所述目标语言方式将所述第二手语语义文本信息转换为与所述目标语言方式对应的语音、文字、手语中的一种或多种，得到手语识别结果。

进一步地，所述手语信息包括手语视频；所述获取拍摄装置采集到的用户输入的待识别的手语信息，包括：

获取拍摄装置采集到的所述用户输入的多帧手势图像；

当从多帧所述手势图像中检测到第一结束手势图像时，确定所述第一结束手势图像之前的各帧所述手势图像组成的第一手语视频为转换方式手语信息；

当检测到第二结束手势图像时，确定所述第一结束手势图像与所述第二结束手势图像之间的各帧所述手势图像组成的第二手语视频为待识别手语信息。

进一步地，所述将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息的第二手语语义文本信息，包括：

提取所述第一手语视频中各帧所述手势图像的第一手势特征以及所述第二手语视频中各帧所述手势图像的第二手势特征；

将各个第一手势特征进行融合处理得到融合处理后的第一手势特征信息，以及将各个第二手势特征进行融合处理得到融合处理后的第二手势特征信息；

将所述第一手势特征信息和所述第二手势特征信息输入所述预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息的第二手语语义文本信息。

进一步地，所述提取所述第一手语视频中各帧所述手势图像的第一手势特征以及所述第二手语视频中各帧所述手势图像的第二手势特征，包括：

将所述第一手语视频中各帧所述手势图像和所述第二手语视频中各帧所述手势图像输入预训练的关键点检测模型，得到各个所述手势图像的关键点的位置信息；

根据各个所述手势图像的关键点的位置信息确定各个关键点之间的位置关系；

根据各个所述关键点之间的位置关系确定所述第一手语视频中各帧所述手势图像的第一手势特征以及所述第二手语视频中各帧所述手势图像的第二手势特征。

进一步地，所述将各个第一手势特征进行融合处理得到融合处理后的第一手势特征信息，以及将各个第二手势特征进行融合处理得到融合处理后的第二手势特征信息，包括：

将各个第一手势特征进行相加处理，并对两两第一手势特征相加处理得到的各个结果求平均值，得到所述第一手势特征信息；以及，

将各个第二手势特征进行相加处理，并对两两第二手势特征相加处理得到的各个结果求平均值，得到所述第二手势特征信息。

进一步地，所述将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息对应的第二手语语义文本信息之前，还包括：

获取训练样本数据集，所述训练样本数据集中包括多个样本手语信息，每个样本手语信息包括样本转换方式手语信息和样本待识别手语信息，每个样本转换方式手语信息携带第一语义文本信息标签，每个样本待识别手语信息携带第二语义文本信息标签；

将各个所述样本手语信息输入预设的神经网络模型，输出各个样本转换方式手语信息对应的第一预测手语语义文本信息以及各个样本待识别手语信息对应的第二预测手语语义文本信息；

根据各个第一预测手语语义文本信息与各个样本转换方式手语信息携带的第一语义文本信息标签之间的距离向量，计算第一损失函数值；

根据各个第二预测手语语义文本信息与各个样本待识别手语信息携带的第二语义文本信息标签之间的距离向量，计算第二损失函数值；

当所述第一损失函数值位于第一预设阈值范围，以及所述第二损失函数值位于第二预设阈值范围时，确定得到所述手语识别模型。

进一步地，所述根据所述第一手语语义文本信息确定所述转换方式手语信息对应的目标语言方式，包括：

从所述第一手语语义文本信息中提取与语言方式相关联的关键词或关键句子；

根据预设的关键词、关键句子、语言方式三者之间的对应关系，确定与从所述第一手语语义文本信息中提取的与语言方式相关联的关键词或关键句子对应的语言方式为所述转换方式手语信息对应的目标语言方式；

所述方法还包括：

当所述转换方式手语信息对应至少两种目标语言方式时，输出语言选择提示信息；

响应用户根据所述语言选择提示信息发出的语言选取操作，获得所选取的目标语言方式。

第二方面，本发明实施例提供了一种基于神经网络模型的手语识别装置，包括：

获取单元，用于获取拍摄装置采集到的用户输入的待识别的手语信息，所述手语信息包括转换方式手语信息和待识别手语信息，所述转换方式手语信息用于指示识别手语的语言方式；

识别单元，用于将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息对应的第二手语语义文本信息；

确定单元，用于根据所述第一手语语义文本信息确定所述转换方式手语信息对应的目标语言方式，所述目标语言方式包括语音、文字、手语中的一种或多种；

转换单元，用于根据确定的所述目标语言方式将所述第二手语语义文本信息转换为与所述目标语言方式对应的语音、文字、手语中的一种或多种，得到手语识别结果。

第三方面，本发明实施例提供了一种计算机设备，包括处理器和存储器，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序，所述处理器被配置用于调用所述计算机程序，执行上述第一方面的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行以实现上述第一方面的方法。

本发明实施例可以获取拍摄装置采集到的用户输入的待识别的手语信息，所述手语信息包括转换方式手语信息和待识别手语信息，所述转换方式手语信息用于指示识别手语的语言方式；将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息对应的第二手语语义文本信息；根据所述第一手语语义文本信息确定所述转换方式手语信息对应的目标语言方式，所述目标语言方式包括语音、文字、手语中的一种或多种；根据确定的所述目标语言方式将所述第二手语语义文本信息转换为与所述目标语言方式对应的语音、文字、手语中的一种或多种，得到手语识别结果。本发明实施例通过用户输入的转换方式手语信息确定该用户指示的识别手语的目标语言方式，以将该用户输入的待识别手语信息转换为该目标语言方式对应的语音、文字、手语中的一种或多种，实现了根据不同用户的需求将手语转换为对应的语言方式，满足了用户对手语识别的不同需求，实现了对手语的高效、智能化识别，提高了手语识别的灵活性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于神经网络模型的手语识别方法的示意流程图；

图2是本发明实施例提供的一种基于神经网络模型的手语识别装置的示意框图；

图3是本发明实施例提供的一种计算机设备的示意框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于神经网络模型的手语识别方法可以应用于一种基于神经网络模型的手语识别装置，在某些实施例中，基于神经网络模型的手语识别装置中可以设置拍摄装置；在某些实施例中，基于神经网络模型的手语识别装置可以在空间上独立于拍摄装置，与拍摄装置建立通信连接。在某些实施例中，基于神经网络模型的手语识别装置可以设置于计算机设备中，在某些实施例中，计算机设备包括但不限于智能手机、平板电脑、膝上型电脑等中的一种或者多种。

本发明实施例可以获取拍摄装置采集到的用户输入的待识别的手语信息，所述手语信息包括转换方式手语信息和待识别手语信息，所述转换方式手语信息用于指示识别手语的语言方式；将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息对应的第二手语语义文本信息；根据所述第一手语语义文本信息确定所述转换方式手语信息对应的目标语言方式，所述目标语言方式包括语音、文字、手语中的一种或多种；根据确定的所述目标语言方式将所述第二手语语义文本信息转换为与所述目标语言方式对应的语音、文字、手语中的一种或多种，得到手语识别结果。

本发明实施例通过用户输入的转换方式手语信息确定该用户指示的目标语言方式，以将该用户输入的待识别手语信息转换为该目标语言方式对应的语音、文字、手语中的一种或多种，实现了根据不同用户的需求将手语转换为对应的语言方式，满足了用户对手语识别的不同需求，实现了对手语的高效、智能化识别，提高了手语识别的灵活性。

本申请实施例可以基于人工智能技术对相关的数据(如转换方式手语信息、待识别手语信息等)进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

下面结合附图1对本发明实施例提供的基于神经网络模型的手语识别方法进行示意性说明。

请参见图1，图1是本发明实施例提供的一种基于神经网络模型的手语识别方法的示意流程图，如图1所示，该方法可以由基于神经网络模型的手语识别装置执行，基于神经网络模型的手语识别装置设置于计算机设备中。具体地，本发明实施例的方法包括如下步骤。

S101：获取拍摄装置采集到的用户输入的待识别的手语信息，所述手语信息包括转换方式手语信息和待识别手语信息。

本发明实施例中，基于神经网络模型的手语识别装置可以获取拍摄装置采集到的用户输入的手语信息，所述手语信息包括转换方式手语信息和待识别手语信息，所述转换方式手语信息用于指示识别手语的语言方式。在某些实施例中，所述手语信息包括手语图像或手语视频。在某些实施例中，所述手语视频可以由多帧手势图像组成。

在一个实施例中，所述手语信息包括手语视频；基于神经网络模型的手语识别装置在获取拍摄装置采集到的用户输入的待识别的手语信息时，可以获取拍摄装置采集到的用户输入的多帧手势图像；当从多帧所述手势图像中检测到第一结束手势图像时，确定所述第一结束手势图像之前的各帧所述手势图像组成的第一手语视频为转换方式手语信息；当检测到第二结束手势图像时，确定所述第一结束手势图像与所述第二结束手势图像之间的各帧所述手势图像组成的第二手语视频为待识别手语信息。在某些实施例中，所述第一结束手势图像与所述第二结束手势图像不相同。在某些实施例中，所述第一结束手势图像可以为预设的手势图像，如“OK”的手势图像等；在某些实施例中，所述第二结束手势图像可以为与第一结束手势图像不相同的预设的手势图像，如“竖起大拇指”的手势图像等。

在一个实施例中，所述手语信息还包括手语图像；基于神经网络模型的手语识别装置在获取拍摄装置采集到的用户输入的待识别的手语信息时，可以获取拍摄装置采集到的用户输入的手语图像；当手语图像与预设的转换方式图像库中的手语图像相匹配时，确定该手语图像为第一手语图像，并确定该第一手语图像为转换方式手语信息；当手语图像与预设的转换方式图像库中的手语图像不匹配时，确定该手语图像为第二手语图像，并确定该第二手语图像为待识别手语信息。在某些实施例中，所述第一手语图像与所述第二手语图像不相同。

在一个实施例中，当手语信息为手语图像时，基于神经网络模型的手语识别装置在获取到拍摄装置采集到的用户输入的待识别的手语图像之后，可以对手语图像进行图像预处理。在一个实施例中，基于神经网络模型的手语识别装置在对手语图像进行图像预处理时，可以对手语图像进行去噪处理、调整手语图像尺寸的处理等，以用于消除冗余信息。

在一个实施例中，当手语信息为手语视频时，基于神经网络模型的手语识别装置在获取到拍摄装置采集到的用户输入的待识别的手语视频之后，可以对手语视频进行图像预处理。基于神经网络模型的手语识别装置在对手语视频进行图像预处理时，可以对手语视频中的各帧手势图像进行去噪处理、调整各帧手势图像尺寸的处理等，以用于消除冗余信息。

S102：将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息对应的第二手语语义文本信息。

本发明实施例中，基于神经网络模型的手语识别装置可以将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息对应的第二手语语义文本信息。

在一个实施例中，基于神经网络模型的手语识别装置在将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息的第二手语语义文本信息时，可以提取所述第一手语视频中各帧所述手势图像的第一手势特征以及所述第二手语视频中各帧所述手势图像的第二手势特征；将各个第一手势特征进行融合处理得到融合处理后的第一手势特征信息，以及将各个第二手势特征进行融合处理得到融合处理后的第二手势特征信息；将所述第一手势特征信息和所述第二手势特征信息输入所述预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息的第二手语语义文本信息。

在一个实施例中，基于神经网络模型的手语识别装置在提取所述第一手语视频中各帧所述手势图像的第一手势特征以及所述第二手语视频中各帧所述手势图像的第二手势特征时，可以将所述第一手语视频中各帧所述手势图像和所述第二手语视频中各帧所述手势图像输入预训练的关键点检测模型，得到各个所述手势图像的关键点的位置信息；根据各个所述手势图像的关键点的位置信息确定各个关键点之间的位置关系；根据各个所述关键点之间的位置关系确定所述第一手语视频中各帧所述手势图像的第一手势特征以及所述第二手语视频中各帧所述手势图像的第二手势特征。

在一个实施例中，基于神经网络模型的手语识别装置在提取所述第一手语视频中各帧所述手势图像的第一手势特征以及所述第二手语视频中各帧所述手势图像的第二手势特征时，可以将所述第一手语视频中各帧所述手势图像和所述第二手语视频中各帧所述手势图像输入预设的神经网络模型中进行卷积处理，从而提取出各帧手势图像中的手势特征。在某些实施例中，预设的神经网络模型可以为卷积神经网络模型；在某些实施例中，卷积神经网络模型可以包括但不限于二维网络模型，在某些实施例中，提取的各帧手势图像中的手势特征可以包括但不限于二维的手势特征。

在一个实施例中，基于神经网络模型的手语识别装置在将各个第一手势特征进行融合处理得到融合处理后的第一手势特征信息，以及将各个第二手势特征进行融合处理得到融合处理后的第二手势特征信息时，可以将各个第一手势特征进行相加处理，并对两两第一手势特征相加处理得到的各个结果求平均值，得到所述第一手势特征信息；以及，将各个第二手势特征进行相加处理，并对两两第二手势特征相加处理得到的各个结果求平均值，得到所述第二手势特征信息。

在一个实施例中，基于神经网络模型的手语识别装置在将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息的第二手语语义文本信息时，可以将第一手语图像和第二手语图像输入预训练的关键点检测模型，得到各个手语图像的关键点的位置信息；根据各个所述手语图像的关键点的位置信息确定各个关键点之间的位置关系；根据各个所述关键点之间的位置关系确定所述第一手语图像的第三手势特征以及所述第二手语图像的第四手势特征。

在一个实施例中，基于神经网络模型的手语识别装置在将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息对应的第二手语语义文本信息之前之前，可以获取训练样本数据集，所述训练样本数据集中包括多个样本手语信息，每个样本手语信息包括样本转换方式手语信息和样本待识别手语信息，每个样本转换方式手语信息携带第一语义文本信息标签，每个样本待识别手语信息携带第二语义文本信息标签；将各个所述样本手语信息输入预设的神经网络模型，输出各个样本转换方式手语信息对应的第一预测手语语义文本信息以及各个样本待识别手语信息对应的第二预测手语语义文本信息；根据各个第一预测手语语义文本信息与各个样本转换方式手语信息携带的第一语义文本信息标签之间的距离向量，计算第一损失函数值；根据各个第二预测手语语义文本信息与各个样本待识别手语信息携带的第二语义文本信息标签之间的距离向量，计算第二损失函数值；当所述第一损失函数值位于第一预设阈值范围，以及所述第二损失函数值位于第二预设阈值范围时，确定得到所述手语识别模型。在某些实施例中，所述第一语义文本信息标签用于指示样本转换方式手语信息的语义文本信息，所述第二语义文本信息标签用于指示样本待识别手语信息的语义文本信息。在某些实施例中，所述第一语义文本信息标签和所述第二语义文本信息标签包括但不限于文字、字母、数字中的一种或多种字符。

在一个实施例中，基于神经网络模型的手语识别装置在根据各个第一预测手语语义文本信息与各个样本转换方式手语信息携带的第一语义文本信息标签之间的距离向量，计算第一损失函数值时，可以根据预设的相似度算法计算各个第一预测手语语义文本信息与各个样本转换方式手语信息携带的第一语义文本信息标签之间的距离向量，并根据计算得到的各个第一预测手语语义文本信息与各个样本转换方式手语信息携带的第一语义文本信息标签之间的距离向量，利用预设的损失函数公式计算第一损失函数值。在某些实施例中，所述预设的相似度算法包括但不限于余弦相似度算法。在某些实施例中，所述预设的损失函数公式包括但不限于交叉熵损失函数公式等。

在一个实施例中，基于神经网络模型的手语识别装置根据各个第二预测手语语义文本信息与各个样本待识别手语信息携带的第二语义文本信息标签之间的距离向量，计算第二损失函数值的具体实施方式与计算第一损失函数值的具体实施方式类似，此处不再赘述。

在一个实施例中，当所述第一损失函数值不位于第一预设阈值范围，以及所述第二损失函数值不位于第二预设阈值范围时，基于神经网络模型的手语识别装置可以根据第一损失函数值和第二损失函数值调整神经网络模型的模型参数，并将各个样本手语信息输入调整模型参数后的神经网络模型中重新训练，当重新训练得到的第一损失函数值位于第一预设阈值范围，以及重新训练得到的第二损失函数值位于第二预设阈值范围时，确定得到所述手语识别模型。

在一个实施例中，当所述第一损失函数值不位于第一预设阈值范围，以及所述第二损失函数值位于第二预设阈值范围时，基于神经网络模型的手语识别装置可以根据第一损失函数值调整神经网络模型的模型参数，并将各个样本手语信息输入调整模型参数后的神经网络模型中重新训练，当重新训练得到的第一损失函数值位于第一预设阈值范围，以及重新训练得到的第二损失函数值位于第二预设阈值范围时，确定得到所述手语识别模型。

在一个实施例中，当所述第一损失函数值位于第一预设阈值范围，以及所述第二损失函数值不位于第二预设阈值范围时，基于神经网络模型的手语识别装置可以根据第二损失函数值调整神经网络模型的模型参数，并将各个样本手语信息输入调整模型参数后的神经网络模型中重新训练，当重新训练得到的第一损失函数值位于第一预设阈值范围，以及重新训练得到的第二损失函数值位于第二预设阈值范围时，确定得到所述手语识别模型。

S103：根据所述第一手语语义文本信息确定所述转换方式手语信息对应的目标语言方式，所述目标语言方式包括语音、文字、手语中的一种或多种。

本发明实施例中，基于神经网络模型的手语识别装置可以根据所述第一手语语义文本信息确定所述转换方式手语信息对应的目标语言方式，所述目标语言方式包括语音、文字、手语中的一种或多种。

在一个实施例中，基于神经网络模型的手语识别装置在根据所述第一手语语义文本信息确定所述转换方式手语信息对应的目标语言方式时，可以从所述第一手语语义文本信息中提取与语言方式相关联的关键词或关键句子；据预设的关键词、关键句子、语言方式三者之间的对应关系，确定与从所述第一手语语义文本信息中提取的与语言方式相关联的关键词或关键句子对应的语言方式为所述转换方式手语信息对应的目标语言方式。

在一个实施例中，当所述转换方式手语信息对应至少两种目标语言方式时，基于神经网络模型的手语识别装置可以输出语言选择提示信息；响应用户根据所述语言选择提示信息发出的语言选取操作，获得所选取的目标语言方式。

例如，假设确定出转换方式手语信息用于指示“普通话”、“英语”、“手语”三种目标语言方式，则基于神经网络模型的手语识别装置可以输出语言选择提示信息，并响应用户根据所述语言选择提示信息发出的语言选取操作，获得所选取的目标语言方式为“普通话”。

在某些实施例中，目标语言方式包括语音、文字、手语等方式，在某些实施例中，语音包括普通话、粤语、英语等语音类别，在某些实施例中，文字中包括文字类别，文字类别包括汉语、藏语、维吾尔语、英语等类别。

在某些实施例中，与语言方式相关联的关键词或关键句子可以是预先设置的，在某些实施例中，可以预先将关键词与语言方式的对应关系，和/或将关键句子与语言方式的对应关系存储到指定的关系表中。

在一个实施例中，基于神经网络模型的手语识别装置在确定与关键词对应的目标语言方式时，可以根据预设的关键词与语言方式的对应关系确定与从第一手语语义文本信息中提取与语言方式相关联的关键词对应的目标语言方式。

在一个实施例中，基于神经网络模型的手语识别装置在确定与关键句子对应的目标语言方式时，可以根据预设的关键句子与语言方式的映射关系确定与从第一手语语义文本信息中提取与语言方式相关联的关键句子对应的目标语言方式。

例如，假设第一手语语义文本信息为“我可以听懂普通话、英语、手语”，则可以从该第一手语语义文本信息中提取与语言方式相关联的关键词“听懂”、“普通话”、“英语”、“手语”，因此可以确定目标语言方式可以为普通话、英语、手语中的一种或多种。

S104：根据确定的所述目标语言方式将所述第二手语语义文本信息转换为与所述目标语言方式对应的语音、文字、手语中的一种或多种，得到手语识别结果。

本发明实施例中，基于神经网络模型的手语识别装置可以根据确定的所述目标语言方式将所述第二手语语义文本信息转换为与所述目标语言方式对应的语音、文字、手语中的一种或多种，得到手语识别结果。

在一个实施例中，基于神经网络模型的手语识别装置在根据确定的所述目标语言方式将所述第二手语语义文本信息转换为与所述目标语言方式对应的语音、文字、手语中的一种或多种，得到手语识别结果时，可以根据预设的语言方式与模型的对应关系从预训练的混合模型中选取与目标语言方式对应的模型，并将第二手语语义文本信息输入选取的与目标语言方式对应的模型中进行识别，从而将所述第二手语语义文本信息转换为与所述目标语言方式对应的语音、文字、手语中的一种或多种，得到手语识别结果。在某些实施例中，混合模型中包括但不限于语音转换模型、手语转换模型等。

在一个实施例中，当确定的目标语言方式为语音时，基于神经网络模型的手语识别装置在将第二手语语义文本信息转换为与第二手语语义文本信息对应的语音时，可以根据预设的语言方式与模型的对应关系从预训练的混合模型中选取与语音对应的语音转换模型，并将第二手语语义文本信息输入语音转换模型，转换得到与第二手语语义文本信息对应的目标语音信息。

在一个实施例中，基于神经网络模型的手语识别装置在将第二手语语义文本信息输入语音转换模型，转换得到与第二手语语义文本信息对应的目标语音信息时，可以从第二手语语义文本信息中提取文本特征信息，将文本特征信息输入语音转换模型中，转换得到与文本特征信息对应的目标语音信息。

在一个实施例中，基于神经网络模型的手语识别装置在将第二手语语义文本信息输入语音转换模型，转换得到与第二手语语义文本信息对应的目标语音信息之前，可以训练语音转换模型。在一个实施例中，在训练语音转换模型时，可以获取训练样本文本数据集，训练样本文本数据集中包括多个样本文本信息；将各个样本文本信息输入预设的第一机器学习模型进行训练，得到语音转换模型。

在一个实施例中，基于神经网络模型的手语识别装置在将各个样本文本信息输入预设的机器学习模型进行训练，得到语音转换模型时，可以将各个样本文本信息输入预设的第一机器学习模型，得到各样本文本信息对应的第一预测语音，计算第一预测语音与样本文本信息中携带的语音标签之间的距离向量，根据该距离向量确定损失函数值，当损失函数值不满足预设阈值区间时，根据损失函数值调整第一机器学习模型的模型参数，并将各个样本文本信息输入调整模型参数后的第一机器学习模型中重新训练，当重新训练得到的损失函数值满足预设阈值区间时，确定得到语音转换模型。

在一个实施例中，当确定的目标语言方式为手语时，基于神经网络模型的手语识别装置在将第二手语语义文本信息转换为与第二手语语义文本信息对应的手语时，可以根据预设的语言方式与模型的对应关系从预训练的混合模型中选取与手语对应的手语转换模型，并将第二手语语义文本信息输入手语转换模型，转换得到与第二手语语义文本信息对应的目标手语信息。在某些实施例中，目标手语信息包括但不限于目标手语图像或目标手语视频。

在一个实施例中，基于神经网络模型的手语识别装置在将第二手语语义文本信息输入手语转换模型，转换得到与第二手语语义文本信息对应的目标手语信息时，可以从第二手语语义文本信息中提取文本特征信息，将文本特征信息输入手语转换模型中，转换得到与文本特征信息对应的目标手语信息。

在一个实施例中，基于神经网络模型的手语识别装置在将文本特征信息输入手语转换模型中，转换得到与文本特征信息对应的目标手语信息时，可以将文本特征信息输入手语转换模型中，转换得到与文本特征信息对应的手语图像或多帧手势图像，并根据手语图像或多帧手势图像确定目标手语信息。

在一个实施例中，基于神经网络模型的手语识别装置在将第二手语语义文本信息输入手语转换模型，转换得到与第二手语语义文本信息对应的目标手语信息之前，可以训练手语转换模型。在一个实施例中，在训练手语转换模型时，可以获取训练样本文本数据集，训练样本文本数据集中包括多个样本文本信息；将各个样本文本信息输入预设的第二机器学习模型进行训练，得到手语转换模型。

在一个实施例中，基于神经网络模型的手语识别装置在将各个样本文本信息输入预设的机器学习模型进行训练，得到手语转换模型时，可以将各个样本文本信息输入预设的机器学习模型，得到预测手语，计算预测手语与样本文本信息携带的手语标签之间的向量距离，根据该向量距离计算得到损失函数值，当损失函数值不满足预设阈值区间时，根据损失函数值调整第二机器学习模型的模型参数，并将各个样本文本信息输入调整模型参数后的第二机器学习模型中重新训练，当重新训练得到的损失函数值满足预设阈值区间时，确定得到手语转换模型。

在一个实施例中，当确定目标语言方式为文字，且文字类别为藏语时，可以根据第二手语语义文本信息将待识别手语信息转换为藏语类别的目标文本信息，并输出该藏语类别的目标文本信息，以供用户查看。

本发明实施例中，基于神经网络模型的手语识别装置可以获取拍摄装置采集到的用户输入的待识别的手语信息，所述手语信息包括转换方式手语信息和待识别手语信息，所述转换方式手语信息用于指示识别手语的语言方式；将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息对应的第二手语语义文本信息；根据所述第一手语语义文本信息确定所述转换方式手语信息对应的目标语言方式，所述目标语言方式包括语音、文字、手语中的一种或多种；根据确定的所述目标语言方式将所述第二手语语义文本信息转换为与所述目标语言方式对应的语音、文字、手语中的一种或多种，得到手语识别结果。本发明实施例通过用户输入的转换方式手语信息确定该用户指示的识别手语的目标语言方式，以将该用户输入的待识别手语信息转换为该目标语言方式对应的语音、文字、手语中的一种或多种，实现了根据不同用户的需求将手语转换为对应的语言方式，满足了用户对手语识别的不同需求，实现了对手语的高效、智能化识别，提高了手语识别的灵活性。

本发明实施例还提供了一种基于神经网络模型的手语识别装置，该基于神经网络模型的手语识别装置用于执行前述任一项的方法的单元。具体地，参见图2，图2是本发明实施例提供的一种基于神经网络模型的手语识别装置的示意框图。本实施例的基于神经网络模型的手语识别装置包括：获取单元201、识别单元202、确定单元203以及转换单元204。

获取单元201，用于获取拍摄装置采集到的用户输入的待识别的手语信息，所述手语信息包括转换方式手语信息和待识别手语信息，所述转换方式手语信息用于指示识别手语的语言方式；

识别单元202，用于将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息对应的第二手语语义文本信息；

确定单元203，用于根据所述第一手语语义文本信息确定所述转换方式手语信息对应的目标语言方式，所述目标语言方式包括语音、文字、手语中的一种或多种；

转换单元204，用于根据确定的所述目标语言方式将所述第二手语语义文本信息转换为与所述目标语言方式对应的语音、文字、手语中的一种或多种，得到手语识别结果。

进一步地，所述手语信息包括手语视频；获取单元201获取拍摄装置采集到的用户输入的待识别的手语信息时，具体用于：

获取拍摄装置采集到的所述用户输入的多帧手势图像；

进一步地，识别单元202将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息的第二手语语义文本信息时，具体用于：

进一步地，识别单元202提取所述第一手语视频中各帧所述手势图像的第一手势特征以及所述第二手语视频中各帧所述手势图像的第二手势特征时，具体用于：

进一步地，识别单元202将各个第一手势特征进行融合处理得到融合处理后的第一手势特征信息，以及将各个第二手势特征进行融合处理得到融合处理后的第二手势特征信息时，具体用于：

进一步地，识别单元202将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息对应的第二手语语义文本信息之前，还用于：

进一步地，确定单元203根据所述第一手语语义文本信息确定所述转换方式手语信息对应的目标语言方式时，具体用于：

所述确定单元203还用于：

参见图3，图3是本发明实施例提供的一种计算机设备的示意框图，在某些实施例中，如图3所示的本实施例中的计算机设备可以包括：一个或多个处理器301；一个或多个输入设备302，一个或多个输出设备303和存储器304。上述处理器301、输入设备302、输出设备303和存储器304通过总线305连接。存储器304用于存储计算机程序，计算机程序包括程序，处理器301用于执行存储器304存储的程序。其中，处理器301被配置用于调用程序执行：

进一步地，所述手语信息包括手语视频；处理器301获取拍摄装置采集到的用户输入的待识别的手语信息时，具体用于：

获取拍摄装置采集到的所述用户输入的多帧手势图像；

进一步地，处理器301将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息的第二手语语义文本信息时，具体用于：

进一步地，处理器301提取所述第一手语视频中各帧所述手势图像的第一手势特征以及所述第二手语视频中各帧所述手势图像的第二手势特征时，具体用于：

进一步地，处理器301将各个第一手势特征进行融合处理得到融合处理后的第一手势特征信息，以及将各个第二手势特征进行融合处理得到融合处理后的第二手势特征信息时，具体用于：

进一步地，处理器301将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息对应的第二手语语义文本信息之前，还用于：

进一步地，处理器301根据所述第一手语语义文本信息确定所述转换方式手语信息对应的目标语言方式时，具体用于：

所述处理器301还用于：

本发明实施例中，计算机设备可以获取拍摄装置采集到的用户输入的待识别的手语信息，所述手语信息包括转换方式手语信息和待识别手语信息，所述转换方式手语信息用于指示识别手语的语言方式；将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息对应的第二手语语义文本信息；根据所述第一手语语义文本信息确定所述转换方式手语信息对应的目标语言方式，所述目标语言方式包括语音、文字、手语中的一种或多种；根据确定的所述目标语言方式将所述第二手语语义文本信息转换为与所述目标语言方式对应的语音、文字、手语中的一种或多种，得到手语识别结果。本发明实施例通过用户输入的转换方式手语信息确定该用户指示的识别手语的目标语言方式，以将该用户输入的待识别手语信息转换为该目标语言方式对应的语音、文字、手语中的一种或多种，实现了根据不同用户的需求将手语转换为对应的语言方式，满足了用户对手语识别的不同需求，实现了对手语的高效、智能化识别，提高了手语识别的灵活性。

应当理解，在本发明实施例中，所称处理器301可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备302可以包括触控板、麦克风等，输出设备303可以包括显示器(LCD等)、扬声器等。

该存储器304可以包括只读存储器和随机存取存储器，并向处理器301提供指令和数据。存储器304的一部分还可以包括非易失性随机存取存储器。例如，存储器304还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器301、输入设备302、输出设备303可执行本发明实施例提供的图1所述的方法实施例中所描述的实现方式，也可执行本发明实施例图2所描述的基于神经网络模型的手语识别装置的实现方式，在此不再赘述。

本发明实施例中还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现图1所对应实施例中描述的手语识别方法，也可实现本发明图2所对应实施例的基于神经网络模型的手语识别装置，在此不再赘述。

所述计算机可读存储介质可以是前述任一实施例所述的基于神经网络模型的手语识别装置的内部存储单元，例如基于神经网络模型的手语识别装置的硬盘或内存。所述计算机可读存储介质也可以是所述基于神经网络模型的手语识别装置的外部存储装置，例如所述基于神经网络模型的手语识别装置上配备的插接式硬盘，智能存储卡(Smart MediaCard,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述基于神经网络模型的手语识别装置的内部存储单元也包括外部存储装置。所述计算机可读存储介质用于存储所述计算机程序以及所述基于神经网络模型的手语识别装置所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。所述的计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

需要强调的是，为进一步保证上述数据的私密和安全性，上述数据还可以存储于一区块链的节点中。其中，本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，仅为本发明的部分实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种基于神经网络模型的手语识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述手语信息包括手语视频；所述获取拍摄装置采集到的用户输入的待识别的手语信息，包括：

获取拍摄装置采集到的所述用户输入的多帧手势图像；

3.根据权利要求2所述的方法，其特征在于，所述将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息的第二手语语义文本信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述提取所述第一手语视频中各帧所述手势图像的第一手势特征以及所述第二手语视频中各帧所述手势图像的第二手势特征，包括：

5.根据权利要求3所述的方法，其特征在于，所述将各个第一手势特征进行融合处理得到融合处理后的第一手势特征信息，以及将各个第二手势特征进行融合处理得到融合处理后的第二手势特征信息，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述手语信息输入预训练的手语识别模型，得到所述转换方式手语信息对应的第一手语语义文本信息以及所述待识别手语信息对应的第二手语语义文本信息之前，还包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一手语语义文本信息确定所述转换方式手语信息对应的目标语言方式，包括：

所述方法还包括：

8.一种基于神经网络模型的手语识别装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括处理器和存储器，其中，所述存储器用于存储计算机程序，所述处理器被配置用于调用所述计算机程序，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1-7任一项所述的方法。