CN117115918A

CN117115918A - 手语识别方法及装置、电子设备和可读存储介质

Info

Publication number: CN117115918A
Application number: CN202311207111.5A
Authority: CN
Inventors: 谢腾
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2023-11-24

Abstract

本申请公开了一种手语识别方法及装置、电子设备和可读存储介质，属于手语识别技术领域。手语识别方法包括：获取手语图像；提取手语图像中的手掌图像和人体骨骼关键点；根据手掌图像确定手掌的手型特征信息；根据人体骨骼关键点确定手掌的位置特征信息；根据手型特征信息和位置特征信息，确定手语图像对应的手语信息。

Description

手语识别方法及装置、电子设备和可读存储介质

技术领域

本申请属于手语识别技术领域，具体涉及一种手语识别方法及装置、电子设备和可读存储介质。

背景技术

目前，手语识别方案主要有纯RGB方案和骨骼关键点方案。然而，纯RGB方案受光照条件和背景噪声影响较大，对信号带宽要求高，且需要很多的训练资源，训练成本非常高。骨骼关键点方案则会存在手部骨骼关节点不准确或者丢失的问题，从而导致模型捕捉的手语信息丢失。基于此，在通过上述两种手语识别方案进行手语识别时，提取的手语特征不够准确，从而使得手语识别结果的准确性较低。

发明内容

本申请实施例的目的是提供一种手语识别方法及装置、电子设备和可读存储介质，能够提升手语特征提取和手语识别结果的准确性。

第一方面，本申请实施例提供了一种手语识别方法，该方法包括：获取手语图像；提取手语图像中的手掌图像和人体骨骼关键点；根据手掌图像确定手掌的手型特征信息；根据人体骨骼关键点确定手掌的位置特征信息；根据手型特征信息和位置特征信息，确定手语图像对应的手语信息。

第二方面，本申请实施例提供了一种手语识别装置，该装置包括：获取单元，用于获取手语图像；处理单元，用于提取手语图像中的手掌图像和人体骨骼关键点；处理单元，还用于根据手掌图像确定手掌的手型特征信息；处理单元，还用于根据人体骨骼关键点确定手掌的位置特征信息；处理单元，还用于根据手型特征信息和位置特征信息，确定手语图像对应的手语信息。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，存储器存储可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如第一方面的手语识别方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，该可读存储介质上存储有程序或指令，程序或指令被处理器执行时实现如第一方面的手语识别方法的步骤。

第五方面，本申请实施例提供了一种芯片，该芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现如第一方面的手语识别方法的步骤。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面的手语识别方法的步骤。

在本申请实施例提供的手语识别方法中，在进行手语识别的过程中，分别提取手掌图像和人体骨骼关键点，进而基于手掌图像确定手掌的手型特征信息，基于人体骨骼关键点确定手掌的位置特征信息，并基于手型特征信息和位置特征信息确定手语信息。这样，在进行手语识别的过程中，不仅可以基于手掌图像准确地捕捉手部区域特征即手掌手型特征，也能够基于人体骨骼关键点准确地捕捉身体姿态特征，并基于身体姿态特征得到准确的手掌位置特征，提升了对手语特征进行提取的准确性，从而提升了手语识别结果的准确性。

附图说明

图1为本申请实施例提供的手语识别方法的流程示意图；

图2为本申请实施例提供的手语识别方法的原理图之一；

图3为本申请实施例提供的手语识别方法的原理图之二；

图4为本申请实施例提供的手语识别方法的原理图之三；

图5为本申请实施例提供的手语识别方法的原理图之四；

图6为本申请实施例提供的手语识别方法的原理图之五；

图7为本申请实施例提供的手语识别方法的原理图之六；

图8为本申请实施例提供的手语识别装置的结构框图；

图9为本申请实施例提供的电子设备的结构框图；

图10为本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的手语识别方法进行详细地说明。

如图1所示，本申请实施例提供一种手语识别方法，该方法可以包括下述S102至S110：

S102：获取手语图像。

本申请实施例提出的手语识别方法，由电子设备执行，该电子设备具体可为智能手机、平板电脑、笔记本电脑以及智能手表等智能电子设备，在此不作具体限制。

其中，上述手语图像具体可为从手语视频中提取到的视频帧。

进一步地，上述手语图像包括比划手语的人物图像，该人物图像中的人物双手为相互独立的状态，或者，该人物图像中的人物双手为相互交叠的状态，在此不作具体限制。

S104：提取手语图像中的手掌图像和人体骨骼关键点。

其中，一帧手语图像包括两个手掌图像，两个手掌图像分别对应手语图像中人物图像的左右手。

具体地，在手语图像中人物图像的左右手为相互独立的状态下，通过目标检测模型分别提取手语图像中人物图像的左右手的手掌图像。而在手语图像中人物图像的左右手为相互交叠的状态下，即在手语图像中存在交叉手的情况下，通过目标检测模型提取手语图像中人物图像的交叉手图像，并将该交叉手图像分别作为手语图像中人物图像的左右手的手掌图像。

其中，在实际的应用过程中，上述目标检测模型具体可为YoLo模型，本领域技术人员可根据实际情况对上述目标检测模型的具体类型进行选择，在此不作具体限制。

进一步地，上述人体骨骼关键点具体可为手语图像中人物图像的姿势关键点，以减少响应时间，提高特征提取效率。具体地，通过人体骨骼关键点检测算法，对手语图像中人物图像的姿势关键点如手腕关节点、眼睛、鼻子、嘴巴、耳朵、肩膀以及手肘关节点等进行提取。

其中，在实际的应用过程中，上述人体骨骼关键点检测算法具体可为mediapipe算法，本领域技术人员可根据实际情况对上述人体骨骼关键点检测算法的具体类型进行选择，在此不作具体限制。

S106：根据手掌图像确定手掌的手型特征信息。

其中，上述手型特征信息用于描述手掌姿态。

具体地，在本申请实施例提供的手语识别方法中，在提取到手语图像中人物图像的左右手的手掌图像之后，通过对人物图像的左手的手掌图像进行分析处理，得到人物图像的左手手掌的手型特征信息，以及通过对人物图像的右手的手掌图像进行分析处理，得到人物图像的右手手掌的手型特征信息。

S108：根据人体骨骼关键点确定手掌的位置特征信息。

其中，手掌的位置特征信息为手掌相对于其他人体骨骼关键点的相对位置信息。

具体地，上述人体骨骼关键点包括手腕关节点、眼睛、鼻子、嘴巴、耳朵、肩膀以及手肘关节点等关键点。在此基础上，在提取到手语图像中人物图像的人体骨骼关键点之后，对于左手手掌的位置特征信息，具体可通过眼睛、鼻子、嘴巴、耳朵、肩膀以及手肘关节点等关键点相对于左手手腕关节点之间的相对位置信息确定；对于右手手掌的位置特征信息，具体可通过眼睛、鼻子、嘴巴、耳朵、肩膀以及手肘关节点等关键点相对于右手手腕关节点之间的相对位置信息确定。

S110：根据手型特征信息和位置特征信息，确定手语图像对应的手语信息。

具体地，在本申请实施例提供的手语识别方法中，在得到手语图像中人物图像的左右手手掌的手型特征信息和位置特征信息之后，对人物图像的左手手掌的手型特征信息和位置特征信息进行融合，得到第一手掌特征，对人物图像的右手手掌的手型特征信息和位置特征信息进行融合，得到第二手掌特征。在此基础上，再通过对第一手掌特征和第二手掌特征进行分析融合，得到手语特征信息，进而通过对手语特征信息进行分类识别，得到对应的手语信息。

本申请实施例提供的上述手语识别方法，在进行手语识别的过程中，分别提取手掌图像和人体骨骼关键点，进而基于手掌图像确定手掌的手型特征信息，基于人体骨骼关键点确定手掌的位置特征信息，并基于手型特征信息和位置特征信息确定手语信息。这样，在进行手语识别的过程中，不仅可以基于手掌图像准确地捕捉手部区域特征即手掌手型特征，也能够基于人体骨骼关键点准确地捕捉身体姿态特征，并基于身体姿态特征得到准确的手掌位置特征，提升了对手语特征进行提取的准确性，从而提升了手语识别结果的准确性。

在本申请实施例中，手掌图像包括第一图像和第二图像，第一图像对应于第一手掌，第二图像对应于第二手掌，手型特征信息包括第一手掌的手型特征信息和第二手掌的手型特征信息，在此基础上，上述S106具体可包括下述的S106a至S106c：

S106a：对第一图像进行对称处理，得到第三图像。

其中，第一图像对应于第一手掌，第一手掌可为手语图像中人物图像的左手手掌或者右手手掌，在此不作具体限制。

进一步地，第一图像中可仅包括手语图像中人物图像的第一手掌的单独图像，或者，第一图像可包括手语图像中人物图像的交叉手的图像，在此不作具体限制。

具体地，在本申请实施例提供的手语识别方法中，在提取到手语图像中人物图像的左右手的手掌图像之后，将对应于第一手掌的手掌图像即第一图像进行对称处理，得到第三图像。这样，在后续基于第三图像对手型特征进行提取之后，能够使得对左撇子手语和右撇子手语提取到的手型特征相互统一，从而能够消除左撇子手语和右撇子手语之间的手型差异，在不增加手型特征提取量的情况下，保证手型特征提取的准确性。

其中，左撇子手语为以左手为主、右手为辅的打手语方式，右撇子手语为以右手为主、左手为辅的打手语方式。对于同一手语，在左右手的手语动作不一致时，基于左撇子手语和右撇子手语提取到的手掌手型为相反状态。

S106b：基于训练后的手型编码模型对第三图像进行编码，得到第一手掌的手型特征信息。

具体地，在本申请实施例提供的手语识别方法中，在将对应于第一手掌的手掌图像即第一图像进行对称处理而得到第三图像之后，基于训练后的手型编码模型，对第三图像进行编码，得到第一手掌的手型特征信息。

其中，上述手型编码模型具体可为BackBone模型，比如ResNet模型以及EfficientNet模型等，本领域技术人员可根据实际情况对上述手型编码模型的具体类型进行选择，在此不作具体限制。

S106c：基于训练后的手型编码模型对第二图像进行编码，得到第二手掌的手型特征信息。

其中，第二图像对应于第二手掌，第二手掌可为手语图像中人物图像的左手手掌或者右手手掌，在此不作具体限制。

进一步地，第二图像中可仅包括手语图像中人物图像的第二手掌的单独图像，或者，第二图像可包括手语图像中人物图像的交叉手的图像，在此不作具体限制。

具体地，在本申请实施例提供的手语识别方法中，在提取到手语图像中人物图像的左右手的手掌图像之后，基于训练后的手型编码模型，对与第二手掌相对应的第二图像进行编码，得到第二手掌的手型特征信息。

如此，在根据手掌图像确定手掌的手型特征信息的过程中，对于第一手掌的手掌图像，在对该手掌图像进行对称处理后再基于训练后的手型编码模型确定第一手掌的手型特征信息，而对于第二手掌的手掌图像，则直接基于训练后的手型编码模型确定第二手掌的手型特征信息。这样，能够消除左撇子手语和右撇子手语之间的手型差异，无论是左撇子手语还是右撇子手语，得到的第一手掌和第二手掌的手型特征信息均能够相互统一，从而能够在不增加手型特征提取量、不增加模型计算量的同时，保证了手型特征提取的准确性。

本申请提供的上述实施例，手掌图像包括第一图像和第二图像，第一图像对应于第一手掌，第二图像对应于第二手掌，手型特征信息包括第一手掌的手型特征信息和第二手掌的手型特征信息，在根据手掌图像确定手掌的手型特征信息的过程中，对第一图像进行对称处理，得到第三图像；基于训练后的手型编码模型对第三图像进行编码，得到第一手掌的手型特征信息；基于训练后的手型编码模型对第二图像进行编码，得到第二手掌的手型特征信息。这样，能够消除左撇子手语和右撇子手语之间的手型差异，无论是左撇子手语还是右撇子手语，得到的第一手掌和第二手掌的手型特征信息均能够相互统一，从而能够在不增加手型特征提取量、不增加模型计算量的同时，保证了手型特征提取的准确性。

在本申请实施例中，在上述S106b之前，上述手语识别方法具体还可包括下述的S112至S120：

S112：获取手语样本图像。

其中，上述手语样本图像具体可为从手语视频中提取到的视频帧。

进一步地，上述手语样本图像包括比划手语的人物图像，该人物图像中的人物双手为相互独立的状态，或者，该人物图像中的人物双手为相互交叠的状态，在此不作具体限制。

S114：在手语样本图像中的手掌相互重叠的情况下，基于手型编码模型对手语样本图像进行编码，并根据手语样本图像的编码结果和第一损失函数，迭代训练手型编码模型。

具体地，在本申请实施例提供的手语识别方法中，在基于手型编码模型对第三图像进行编码之前，获取手语样本图像，并根据手语样本图像对手型编码模型进行训练。具体地，在手语样本图像中的手掌相互重叠的情况下，基于手型编码模型对手语样本图像进行编码，进而基于第一损失函数，对手语样本图像的编码结果进行分类学习，以对手型编码模型进行训练，从而获得训练胡的手型编码模型。

其中，如图2所示，上述手型编码模型包括手型编码器，上述第一损失函数具体可为交叉熵损失函数，基于类别全连接层，通过交叉熵损失函数帮助手型编码器准确学习交叉手型的手型编码。

S116：在手语样本图像中的手掌相互独立的情况下，根据手语样本图像中的手掌骨骼关键点确定第一识别框，根据手语样本图像中的手掌图像确定第二识别框。

其中，上述手掌骨骼关键点具体可包括手腕关节点以及指关节点。

进一步地，上述第一识别框为涵盖单一手掌的手掌骨骼关键点的最小方框。

进一步地，上述第二识别框为通过目标检测模型如YoLo模型对手语样本图像中的手掌图像进行提取时，目标检测模型对单一手掌的手掌图像的识别框。

具体地，在本申请实施例提供的手语识别方法中，在获取手语样本图像之后，在手语样本图像中的手掌相互独立的情况下，对于手语样本图像中的每个单一手掌，确定涵盖每个单一手掌的手掌骨骼关键点的最小方框即第一识别框，以及确定提取单一手掌的手掌图像时手掌图像的第二识别框。

S118：根据第一识别框和第二识别框的尺寸信息，确定第一识别框和第二识别框的交并比。

其中，上述尺寸信息具体可为第一识别框和第二识别框的面积信息。

进一步地，第一识别框和第二识别框的交并比具体可为第一识别框、第二识别框的交集面积与第一识别框、第二识别框的并集面积的比例值。

具体地，在本申请实施例提供的手语识别方法中，在手语样本图像中的手掌相互独立的情况下，对于手语样本图像中的每个单一手掌，在得到该手掌的第一识别框和第二识别框之后，根据第一识别框和第二识别框的面积信息，确定第一识别框和第二识别框的交并比。

在实际的应用过程中，具体可通过下述公式(1)计算第一识别框和第二识别框的交并比：

IOU＝(S_(B1∩B2)/S_(B1∪_B2))， (1)

其中，IOU表示第一识别框和第二识别框的交并比，B1表示第一识别框，B2表示第二识别框，B1∩B2表示第一识别框和第二识别框的交集，B1∪B2表示第一识别框和第二识别框的并集，S_(B1∩B2)表示第一识别框、第二识别框的交集面积，S_(B1∪_B2)表示第一识别框、第二识别框的并集面积。

S120：在交并比大于第一阈值的情况下，根据手语样本图像中的手掌骨骼关键点的坐标信息和第二损失函数，迭代训练手型编码模型，从而获得训练后的手型编码模型。

其中，上述第一阈值具体可为0.6、0.7、0.8等数值，本领域技术人员可根据实际情况对上述第一阈值的具体取值进行设置，在此不作具体限制。

具体地，在本申请实施例提供的手语识别方法中，在手语样本图像中的手掌相互独立的情况下，对于手语样本图像中的每个单一手掌，在确定与该手掌对应的第一识别框和第二识别框的交并比之后，在交并比大于第一阈值的情况下，将该手掌的手掌骨骼关键点作为监督信号，对该手掌的手掌骨骼关键点的坐标信息进行回归拟合。在此基础上，基于第二损失函数，对手掌骨骼关键点的坐标信息的拟合结果进行训练学习，以对手型编码模型进行训练，从而获得训练后的手型编码模型。

其中，如图2所示，上述手型编码模型包括手型编码器，上述第二损失函数具体可为均方误差损失函数，基于骨骼点类别全连接层，通过均方误差损失函数帮助手型编码器准确学习单一手掌的手型编码。

本申请提供的上述实施例，在基于训练后的手型编码模型对第三图像进行编码之前，获取手语样本图像；在手语样本图像中的手掌相互重叠的情况下，基于手型编码模型对手语样本图像进行编码，并根据手语样本图像的编码结果和第一损失函数，迭代训练手型编码模型，从而获得训练后的手型编码模型；在手语样本图像中的手掌相互独立的情况下，根据手语样本图像中的手掌骨骼关键点确定第一识别框，根据手语样本图像中的手掌图像确定第二识别框；根据第一识别框和第二识别框的尺寸信息，确定第一识别框和第二识别框的交并比；在交并比大于第一阈值的情况下，根据手语样本图像中的手掌骨骼关键点的坐标信息和第二损失函数，迭代训练手型编码模型，从而获得训练后的手型编码模型。这样，在基于训练后的手型编码模型对第三图像进行编码之前，基于手语样本图像对手型编码模型进行训练，提升了手型编码模型学习单一手型和交叉手型的手型编码的准确性。

在本申请实施例中，人体骨骼关键点包括第一关键点、第二关键点和多个第三关键点，第一关键点对应于第一手掌，第二关键点对应于第二手掌，多个第三关键点对应于头部和臂膀，位置特征信息包括第一手掌的位置特征信息和第二手掌的位置特征信息，在此基础上，上述S108具体可包括下述的S108a至S108e：

S108a：以第一关键点为原点建立第一坐标系，以第二关键点为原点建立第二坐标系。

其中，第一关键点对应于第一手掌，该第一关键点具体可为第一手掌的手腕关节点、第一手掌的手掌中心点等，在此不作具体限制。

进一步地，第二关键点对应于第二手掌，该第二关键点具体可为第二手掌的手腕关节点、第二手掌的手掌中心点等，在此不作具体限制。

具体地，在本申请实施例提供的手语识别方法中，在提取得到手语图像中的人体骨骼关键点之后，以对应于第一手掌的第一关键点为原点建立第一坐标系，以及对应于第二手掌的第二关键点为原点建立第二坐标系。

S108b：在第一坐标系中，确定每个第三关键点相对于第一关键点的第一坐标信息。

其中，多个第三关键点对应于头部和臂膀。

在实际的应用过程中，上述第三关键点具体可包括眼睛、鼻子、嘴巴、耳朵、肩膀以及手肘等部位的骨骼关键点，在此不作具体限制。

具体地，在以对应于第一手掌的第一关键点为原点建立第一坐标系之后，在第一坐标系中，计算第三关键点如眼睛、鼻子、嘴巴、耳朵、肩膀以及手肘等部位的骨骼关键点相对于第一关键点的相对坐标，得到第一坐标信息。

S108c：在第二坐标系中，确定每个第三关键点相对于第二关键点的第二坐标信息。

具体地，在以对应于第二手掌的第二关键点为原点建立第二坐标系之后，在第二坐标系中，计算第三关键点如眼睛、鼻子、嘴巴、耳朵、肩膀以及手肘等部位的骨骼关键点相对于第二关键点的相对坐标，得到第二坐标信息。

S108d：对第一坐标信息进行对称处理，得到第三坐标信息，根据第三坐标信息确定第一手掌的位置特征信息。

具体地，在第一坐标系中，计算每个第三关键点相对于第一关键点的相对坐标，得到第一坐标信息之后，对第一坐标信息进行对称处理，得到第三坐标信息，进而通过第三坐标信息表征第一手掌的位置特征信息。这样，能够消除左撇子手语和右撇子手语之间的手掌位置差异，能够使得左撇子手语和右撇子手语的手掌位置特征相互统一，保证了手掌位置特征确定的准确性。

S108e：根据第二坐标信息确定第二手掌的位置特征信息。

具体地，在第二坐标系中，计算每个第三关键相对于第二关键点的相对坐标，得到第二坐标信息之后，直接通过该第二坐标信息表征第二手掌的位置特征信息。

也就是说，在本申请实施例提供的手语识别方法中，如图3所示，在提取得到手语图像中的人体骨骼关键点之后，对于第一手掌，以对应于第一手掌的第一关键点P1如第一手掌的手腕关节点为原点，计算除第一关键点P1和第二关键点P2之外的其他人体骨骼关键点即第三关键点相对于第一关键点P1的相对坐标，得到第一坐标信息，进而对第一坐标信息进行对称处理，得到第三坐标信息，并通过第三坐标信息表征第一手掌的位置特征信息。而对于第二手掌，以对应于第二手掌的第二关键点P2如第二手掌的手腕关节点为原点，计算除第一关键点P1和第二关键点P2之外的其他人体骨骼关键点即第三关键点相对于第二关键点P2的相对坐标，得到第二坐标信息，并直接通过该第二坐标信息表征第二手掌的位置特征信息。这样，能够消除左撇子手语和右撇子手语之间的手掌位置差异，无论是左撇子手语还是右撇子手语，得到的第一手掌和第二手掌的手掌位置特征信息均能够相互统一，从而能够在不增加模型计算量的同时，保证了手掌位置特征提取的准确性。

本申请提供的上述实施例，人体骨骼关键点包括第一关键点、第二关键点和多个第三关键点，第一关键点对应于第一手掌，第二关键点对应于第二手掌，多个第三关键点对应于头部和臂膀，位置特征信息包括第一手掌的位置特征信息和第二手掌的位置特征信息，在根据人体骨骼关键点确定手掌的位置特征信息的过程中，以第一关键点为原点建立第一坐标系，以第二关键点为原点建立第二坐标系；在第一坐标系中，确定每个第三关键点相对于第一关键点的第一坐标信息；在第二坐标系中，确定每个第三关键点相对于第二关键点的第二坐标信息；对第一坐标信息进行对称处理，得到第三坐标信息，根据第三坐标信息确定第一手掌的位置特征信息；根据第二坐标信息确定第二手掌的位置特征信息。这样，能够消除左撇子手语和右撇子手语之间的手掌位置差异，无论是左撇子手语还是右撇子手语，得到的第一手掌和第二手掌的手掌位置特征信息均能够相互统一，从而能够在不增加模型计算量的同时，保证了手掌位置特征提取的准确性。

在本申请实施例中，手掌包括第一手掌和第二手掌，在此基础上，上述S110具体可包括下述的S110a至S110d：

S110a：根据第一手掌的手型特征信息和位置特征信息确定第一手掌特征，根据第二手掌的手型特征信息和位置特征信息确定第二手掌特征。

具体地，在本申请实施例提供的手语识别方法中，在分别得到第一手掌和第二手掌的手型特征信息和位置特征信息之后，对第一手掌和第二手掌的手型特征信息和位置特征信息分别进行层归一化标准化处理。在此基础上，对处理后的第一手掌的手型特征信息和位置特征信息进行拼接融合，得到第一手掌特征，对处理后的第二手掌的手型特征信息和位置特征信息进行拼接融合，得到第二手掌特征。

在此基础上，如图4所示，对于每一帧手语图像，均能够得到一对第一手掌特征和第二手掌特征，在后续通过转换模型对第一手掌特征和第二手掌特征进行处理的过程中，第一手掌特征和第二手掌特征均可作为转换模型的一个步长特征，也即第一手掌特征和第二手掌特征均可作为转换模型的一个输入特征。如此，输入转换模型的输入特征的数量即为手语图像帧数的两倍。

S110b：基于注意力机制，对第一手掌特征和第二手掌特征进行注意力学习，得到第一注意力特征和第二注意力特征。

其中，上述转换模型包括自注意力学习模块。

具体地，在本申请实施例提供的手语识别方法中，在得到每帧手语图像的第一手掌特征和第二手掌特征之后，按照手语时序，将每帧手语图像的第一手掌特征和第二手掌特征输入转换模型，并基于注意力机制，通过转换模型中的自注意力学习模块对每帧手语图像的第一手掌特征和第二手掌特征进行注意力学习，得到对应第一手掌的第一注意力特征和对应第二手掌的第二注意力特征。

S110c：对第一注意力特征和第二注意力特征进行卷积处理，得到手语特征信息。

其中，上述转换模型还包括卷积模块。

具体地，在本申请实施例提供的手语识别方法中，在通过转换模型中的自注意力学习模块对每帧手语图像的第一手掌特征和第二手掌特征进行注意力学习，得到对应每帧手语图像的第一注意力特征和第二注意力特征之后，按照手语时序，将每帧手语图像的第一注意力特征和第二注意力特征输入转换模型的卷积模块，通过卷积模块对每帧手语图像的第一注意力特征和第二注意力特征进行卷积处理，以将相同帧手语图像的第一注意力特征和第二注意力特征进行融合，得到每帧手语图像的手语特征信息。

S110d：在手语特征信息中添加第一分类特征信息后，对手语特征信息进行注意力学习，得到第二分类特征信息，根据第二分类特征信息确定手语信息。

其中，上述转换模型还包括转换模块。

具体地，在本申请实施例提供的手语识别方法中，在得到每帧手语图像的手语特征信息之后，按照手语时序，对每帧手语图像的手语特征信息进行排列，得到手语特征序列，并在手语特征序列之前添加第一分类特征信息。在此基础上，将添加第一分类特征信息的手语特征序列输入转换模型的转换模块，并基于自注意力学习机制，对添加第一分类特征信息的手语特征序列进行自注意力学习，使得同一帧手语图像的双手特征能够进一步融合，得到包含第二分类特征信息的手语特征序列。进一步地，提取转换模块输出的手语特征序列中的第二分类特征信息，通过分类器对该第二分类特征信息进行分类，并根据分类结果确定对应的手语信息。

示例性地，如图5所示，基于手语视频中的多帧手语图像，得到第一手掌特征序列f₁ ¹f₂ ¹f₃ ¹…f_i ¹和第二手掌特征序列f₁ ²f₂ ²f₃ ²…f_i ²。其中，f₁ ¹表示第1帧手语图像中的第一手掌特征，f_i ¹表示第i帧手语图像中的第一手掌特征，f₁ ²表示第1帧手语图像中的第二手掌特征，f_i ²表示第i帧手语图像中的第二手掌特征。在此基础上，按照手语时序，将第一手掌特征序列f₁ ¹f₂ ¹f₃ ¹…f_i ¹和第二手掌特征序列f₁ ²f₂ ²f₃ ²…f_i ²输入转换模型，即将f₁ ¹f₁ ²f₂ ¹f₂ ²f₃ ¹f₃ ²…f_i ¹f_i ²输入转换模型，通过转换模型中的自注意力学习模块对f₁ ¹f₁ ²f₂ ¹f₂ ²f₃ ¹f₃ ²…f_i ¹f_i ²进行注意力学习，得到注意力特征t₁ ¹t₁ ²t₂ ¹t₂ ²t₃ ¹t₃ ²…t_i ¹t_i ²。其中，t₁ ¹t₂ ¹t₃ ¹…t_i ¹为第一注意力特征，t₁ ²t₂ ²t₃ ²…t_i ²为第二注意力特征，t₁ ¹表示第1帧手语图像中的第一注意力特征，t_i ¹表示第i帧手语图像中的第一注意力特征，t₁ ²表示第1帧手语图像中的第二注意力特征，t_i ²表示第i帧手语图像中的第二注意力特征。

进一步地，将t₁ ¹t₁ ²t₂ ¹t₂ ²t₃ ¹t₃ ²…t_i ¹t_i ²输入转换模型的卷积模块，通过卷积模块对t₁ ¹t₁ ²t₂ ¹t₂ ²t₃ ¹t₃ ²…t_i ¹t_i ²进行卷积处理，并输出t₁t₂t₃…t_i。其中，t₁表示第1帧手语图像的手语特征信息，t_i表示第i帧手语图像的手语特征信息。

进一步地，在手语特征序列t₁t₂t₃…t_i前添加第一分类特征信息t_CLS，得到手语特征序列t_CLSt₁t₂t₃…t_i。进一步地，将手语特征序列t_CLSt₁t₂t₃…t_i输入转换模型的转换模块，基于自注意力学习机制，对手语特征序列t_CLSt₁t₂t₃…t_i进行自注意力学习，得到手语特征序列t’_CLSt₁t₂t₃…t_i。进一步地，提取手语特征序列t’_CLSt₁t₂t₃…t_i中的第二分类特征信息t’_CLS，通过分类器对t’_CLS进行分类，并根据分类结果确定对应的手语信息。

其中，需要说明的是，对于右撇子手语，其输入转换模型的自注意力学习模块的手掌特征序列为f₁ ¹f₁ ²f₂ ¹f₂ ²f₃ ¹f₃ ²…f_i ¹f_i ²，经自注意力学习后，自注意力学习模块输出的注意力特征序列为t₁ ¹t₁ ²t₂ ¹t₂ ²t₃ ¹t₃ ²…t_i ¹t_i ²。而对于左撇子手语，由于本申请对第一手掌的手掌图像和手掌位置特征进行了对称处理，因此，左撇子手语中的第一手掌特征与右撇子手语中的第二手掌特征相同，左撇子手语中的第二手掌特征与右撇子手语中的第一手掌特征相同。也即，对于左撇子手语，其输入转换模型的自注意力学习模块的手掌特征序列为f₁ ²f₁ ¹f₂ ²f₂ ¹f₃ ²f₃ ¹…f_i ²f_i ¹，经自注意力学习后，自注意力学习模块输出的注意力特征序列为t₁ ²t₁ ¹t₂ ²t₂ ¹t₃ ²t₃ ¹…t_i ²t_i ¹。在此基础上，在对右撇子手语的注意力特征序列t₁ ¹t₁ ²t₂ ¹t₂ ²t₃ ¹t₃ ²…t_i ¹t_i ²和左撇子手语的注意力特征序列t₁ ²t₁ ¹t₂ ²t₂ ¹t₃ ²t₃ ¹…t_i ²t_i ¹进行卷积处理时，由于卷积不会考虑空间关系，存在Y(t_i ¹，t_i ²)＝Y(t_i ²，t_i ¹)，也即右撇子手语和左撇子手语对应的手语特征信息均为t₁t₂t₃…t_i。

也即，右撇子手语的注意力特征序列的卷积结果Y(t_i ¹，t_i ²)与左撇子手语的注意力特征序列的卷积结果Y(t_i ²，t_i ¹)相同。也即，右撇子手语和左撇子手语对应的手语特征信息相同。这样，在后续基于手语特征信息进行手语识别的过程中，能够消除左撇子手语和右撇子手语之间的手语信息差异，使得左撇子手语和右撇子手语的手语信息能够相互统一，从而能够在不增加模型计算量的同时，准确识别左撇子手语和右撇子手语，保证了手语识别结果的准确性。

本申请提供的上述实施例，手掌包括第一手掌和第二手掌，在根据手型特征信息和位置特征信息，确定手语图像对应的手语信息的过程中，根据第一手掌的手型特征信息和位置特征信息确定第一手掌特征，根据第二手掌的手型特征信息和位置特征信息确定第二手掌特征；基于注意力机制，对第一手掌特征和第二手掌特征进行注意力学习，得到第一注意力特征和第二注意力特征；对第一注意力特征和第二注意力特征进行卷积处理，得到手语特征信息；在手语特征信息中添加第一分类特征信息后，对手语特征信息进行注意力学习，得到第二分类特征信息，根据第二分类特征信息确定手语信息。这样，基于手掌的手型特征信息和位置特征信息确定手掌特征，通过对左右手的手掌特征进行融合得到每帧手语图像的手语特征信息，在后续基于手语特征信息进行手语识别时，提升了手语识别结果的准确性。

在本申请实施例中，上述对第一手掌特征和第二手掌特征进行注意力学习的步骤，具体可包括下述的S122和S124：

S122：根据第一掩码确定注意力权重矩阵。

其中，在注意力权重矩阵中，对应不同手语图像的第一手掌特征和第二手掌特征之间的注意力权重为零。

进一步地，在对第一手掌特征和第二手掌特征进行注意力学习的过程中，按照手语时序，将每帧手语图像的第一手掌特征和第二手掌特征分别作为一个步长特征输入转换模型，因此，转换模型的步长数为手语图像帧数的2倍。在此基础上，上述第一掩码具体可为一个2T×2T的矩阵，其中，T为手语视频中的手语图像帧数。

在实际的应用过程中，具体可通过下述公式(2)对第一掩码中的元素值进行计算：

mask[i，j]＝(i+j)％2， (2)

其中，mask[i，j]表示第一掩码中第i行第j列的元素值，i和j表示输入转换模型步长特征的次序，(i+j)％2表示对(i+j)/2进行取余操作，即(i+j)％2表示(i+j)除以2后的余数值。

在此基础上，由于每帧手语图像的第一手掌特征和第二手掌特征是按照手语时序交替输入转换模型的，若第i个输入转换模型的手掌特征和第j个输入转换模型的手掌特征对应同一手掌，i+j为奇数，(i+j)％2＝1；若第i个输入转换模型的手掌特征和第j个输入转换模型的手掌特征对应不同手掌，i+j为偶数，(i+j)％2＝0。也就是说，上述第一掩码的元素值分布情况具体可如图6所示。

进一步地，上述注意力权重矩阵为输入转换模型的每个输入特征即手掌特征与其他输入特征之间的关联性权重矩阵。

在实际的应用过程中，具体可通过下述公式(3)对输入转换模型的每个输入特征与其他输入特征之间的注意力权重进行确定：

A_ij＝softmax((QK^T)/((d_k)^1/2)-MASK_ij)， (3)

其中，A_ij表示输入转换模型的第i个输入特征与第j个输入特征之间的注意力权重，Q和K为输入特征，K^T中的T表示转置，(QK^T)/((d_k)^1/2)矩阵中元素值一般很小，MASK_ij＝mask[i，j]×10⁸。

在此基础上，若第i个输入转换模型的手掌特征和第j个输入转换模型的手掌特征对应同一手掌，mask[i，j]＝0，MASK_ij＝0，此时，A_ij＝softmax((QK^T)/((d_k)^1/2))；若第i个输入转换模型的手掌特征和第j个输入转换模型的手掌特征对应不同手掌，mask[i，j]＝1，MASK_ij＝10⁸，此时，(QK^T)/((d_k)^1/2)-10⁸接近负无穷，A_ij＝softmax((QK^T)/((d_k)^1/2)-10⁸)＝0。如此，在对第一手掌特征和第二手掌特征进行注意力学习的过程中，第一手掌特征和第二手掌特征之间的注意力权重为零，从而使得转换模型能够仅对同一只手掌的手掌特征进行自注意力学习。

S124：根据注意力权重矩阵，对第一手掌特征和第二手掌特征进行自注意力学习。

在本申请实施例中，具体可基于下述公式(4)对第一手掌特征和第二手掌特征进行自注意力学习：

A(Q，K，V)＝softmax((QK^T)/((d_k)^1/2)-MASK_ij)V， (4)

其中，Q、K和V为输入特征，(QK^T)/((d_k)^1/2)矩阵中元素值一般很小，MASK_ij＝mask[i，j]×10⁸。

本申请提供的上述实施例，在对第一手掌特征和第二手掌特征进行注意力学习的过程中，根据第一掩码确定注意力权重矩阵，其中，在注意力权重矩阵中，对应不同手语图像的第一手掌特征和第二手掌特征之间的注意力权重为零；根据注意力权重矩阵，对第一手掌特征和第二手掌特征进行自注意力学习。这样，在对第一手掌特征和第二手掌特征进行注意力学习的过程中，第一手掌特征和第二手掌特征之间的注意力权重为零，从而使得转换模型能够仅对同一只手掌的手掌特征进行自注意力学习，保证了第一注意力特征和第二注意力特征的准确性。

综上所述，本申请实施例提供的手语识别方法，如图7所示，提取手语视频中的多帧手语图像，对于每帧手语图像，提取手语图像中的人体骨骼关键点、第一手掌图像和第二手掌图像。进一步地，对第一手掌图像进行对称处理，得到第三手掌图像，对第三手掌图像进行编码，得到第一手掌的手型特征信息，以及对第二手掌图像进行编码，得到第二手掌的手型特征信息。进一步地，基于人体骨骼关键点，确定第一手掌和第二手掌的位置特征信息，其中，第一手掌的位置特征信息需做对称处理。进一步地，对同一帧手语图像的第一手掌的手型特征信息和位置特征信息做标准化处理后，融合同一帧手语图像的第一手掌的手型特征信息和位置特征信息，得到每帧手语图像的第一手掌特征，以及对同一帧手语图像的第二手掌的手型特征信息和位置特征信息做标准化处理后，融合同一帧手语图像的第二手掌的手型特征信息和位置特征信息，得到每帧手语图像的第二手掌特征。

进一步地，按照手语时序，将手语视频中多帧手语图像的第一手掌特征和第二手掌特征交替输入转换模型，通过转换模型对多帧手语图像的第一手掌特征和第二手掌特征进行分析识别，得到对应的手语信息。具体地，转换模型包括自注意力学习模块、卷积模块以及转换模块，通过自注意力学习模块对多帧手语图像的第一手掌特征和第二手掌特征进行自注意力学习，得到第一注意力特征和第二注意力特征，进而通过卷积模块对第一注意力特征和第二注意力特征进行卷积处理，以对同一帧手语图像的左右手特征进行融合，得到每帧图像的手语特征信息，进而得到多帧手语图像的手语特征序列。进一步地，在手语特征序列之前添加第一分类特征信息，通过转换模块对手语特征序列进行自注意力学习，得到包含第二分类特征信息的手语特征序列。进一步地，提取手语特征序列中的第二分类特征信息，通过分类器对该第二分类特征信息进行分类，并根据分类结果确定对应的手语信息。

本申请实施例提供的手语识别方法，执行主体可以为手语识别装置。本申请实施例中以手语识别装置执行上述手语识别方法为例，说明本申请实施例提供的手语识别装置。

如图8所示，本申请实施例提供一种手语识别装置800，该装置可以包括下述的获取单元802以及处理单元804。

获取单元802，用于获取手语图像；

处理单元804，用于提取手语图像中的手掌图像和人体骨骼关键点；

处理单元804，还用于根据手掌图像确定手掌的手型特征信息；

处理单元804，还用于根据人体骨骼关键点确定手掌的位置特征信息；

处理单元804，还用于根据手型特征信息和位置特征信息，确定手语图像对应的手语信息。

本申请实施例提供的手语识别装置800，在进行手语识别的过程中，分别提取手掌图像和人体骨骼关键点，进而基于手掌图像确定手掌的手型特征信息，基于人体骨骼关键点确定手掌的位置特征信息，并基于手型特征信息和位置特征信息确定手语信息。这样，在进行手语识别的过程中，不仅可以基于手掌图像准确地捕捉手部区域特征即手掌手型特征，也能够基于人体骨骼关键点准确地捕捉身体姿态特征，并基于身体姿态特征得到准确的手掌位置特征，提升了对手语特征进行提取的准确性，从而提升了手语识别结果的准确性。

在本申请实施例中，手掌图像包括第一图像和第二图像，第一图像对应于第一手掌，第二图像对应于第二手掌，手型特征信息包括第一手掌的手型特征信息和第二手掌的手型特征信息，处理单元804具体用于：对第一图像进行对称处理，得到第三图像；基于训练后的手型编码模型对第三图像进行编码，得到第一手掌的手型特征信息；基于训练后的手型编码模型对第二图像进行编码，得到第二手掌的手型特征信息。

在本申请实施例中，在基于训练后的手型编码模型对第三图像进行编码之前，获取单元802还用于：获取手语样本图像；处理单元804还用于：在手语样本图像中的手掌相互重叠的情况下，基于手型编码模型对手语样本图像进行编码，并根据手语样本图像的编码结果和第一损失函数，迭代训练手型编码模型；在手语样本图像中的手掌相互独立的情况下，根据手语样本图像中的手掌骨骼关键点确定第一识别框，根据手语样本图像中的手掌图像确定第二识别框；根据第一识别框和第二识别框的尺寸信息，确定第一识别框和第二识别框的交并比；在交并比大于第一阈值的情况下，根据手语样本图像中的手掌骨骼关键点的坐标信息和第二损失函数，迭代训练手型编码模型，从而获得训练后的手型编码模型。

本申请提供的上述实施例，在基于训练后的手型编码模型对第三图像进行编码之前，获取手语样本图像；在手语样本图像中的手掌相互重叠的情况下，基于手型编码模型对手语样本图像进行编码，并根据手语样本图像的编码结果和第一损失函数，迭代训练手型编码模型，从而获得训练后的手型编码模型；在手语样本图像中的手掌相互独立的情况下，根据手语样本图像中的手掌骨骼关键点确定第一识别框，根据手语样本图像中的手掌图像确定第二识别框；根据第一识别框和第二识别框的尺寸信息，确定第一识别框和第二识别框的交并比；在交并比大于第一阈值的情况下，根据手语样本图像中的手掌骨骼关键点的坐标信息和第二损失函数，迭代训练手型编码模型。这样，在基于训练后的手型编码模型对第三图像进行编码之前，基于手语样本图像对手型编码模型进行训练，提升了手型编码模型学习单一手型和交叉手型的手型编码的准确性。

在本申请实施例中，人体骨骼关键点包括第一关键点、第二关键点和多个第三关键点，第一关键点对应于第一手掌，第二关键点对应于第二手掌，多个第三关键点对应于头部和臂膀，位置特征信息包括第一手掌的位置特征信息和第二手掌的位置特征信息，处理单元804具体用于：以第一关键点为原点建立第一坐标系，以第二关键点为原点建立第二坐标系；在第一坐标系中，确定每个第三关键点相对于第一关键点的第一坐标信息；在第二坐标系中，确定每个第三关键点相对于第二关键点的第二坐标信息；对第一坐标信息进行对称处理，得到第三坐标信息，根据第三坐标信息确定第一手掌的位置特征信息；根据第二坐标信息确定第二手掌的位置特征信息。

在本申请实施例中，手掌包括第一手掌和第二手掌，处理单元804具体用于：根据第一手掌的手型特征信息和位置特征信息确定第一手掌特征，根据第二手掌的手型特征信息和位置特征信息确定第二手掌特征；基于注意力机制，对第一手掌特征和第二手掌特征进行注意力学习，得到第一注意力特征和第二注意力特征；对第一注意力特征和第二注意力特征进行卷积处理，得到手语特征信息；在手语特征信息中添加第一分类特征信息后，对手语特征信息进行注意力学习，得到第二分类特征信息，根据第二分类特征信息确定手语信息。

在本申请实施例中，处理单元804具体用于：根据第一掩码确定注意力权重矩阵，其中，在注意力权重矩阵中，对应不同手语图像的第一手掌特征和第二手掌特征之间的注意力权重为零；根据注意力权重矩阵，对第一手掌特征和第二手掌特征进行自注意力学习。

本申请实施例中的手语识别装置800可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobilepersonal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的手语识别装置800可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的手语识别装置800能够实现图1的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图9所示，本申请实施例还提供一种电子设备900，包括处理器902和存储器904，存储器904上存储有可在处理器902上运行的程序或指令，该程序或指令被处理器902执行时实现上述手语识别方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。

图10为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009以及处理器1010等部件。

本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图10中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器1010，用于获取手语图像。

处理器1010，还用于提取手语图像中的手掌图像和人体骨骼关键点。

处理器1010，还用于根据手掌图像确定手掌的手型特征信息。

处理器1010，还用于根据人体骨骼关键点确定手掌的位置特征信息。

处理器1010，还用于根据手型特征信息和位置特征信息，确定手语图像对应的手语信息。

在本申请实施例中，在进行手语识别的过程中，分别提取手掌图像和人体骨骼关键点，进而基于手掌图像确定手掌的手型特征信息，基于人体骨骼关键点确定手掌的位置特征信息，并基于手型特征信息和位置特征信息确定手语信息。这样，在进行手语识别的过程中，不仅可以基于手掌图像准确地捕捉手部区域特征即手掌手型特征，也能够基于人体骨骼关键点准确地捕捉身体姿态特征，并基于身体姿态特征得到准确的手掌位置特征，提升了对手语特征进行提取的准确性，从而提升了手语识别结果的准确性。

可选地，手掌图像包括第一图像和第二图像，第一图像对应于第一手掌，第二图像对应于第二手掌，手型特征信息包括第一手掌的手型特征信息和第二手掌的手型特征信息，处理器1010具体用于：对第一图像进行对称处理，得到第三图像；基于训练后的手型编码模型对第三图像进行编码，得到第一手掌的手型特征信息；基于训练后的手型编码模型对第二图像进行编码，得到第二手掌的手型特征信息。

可选地，在基于训练后的手型编码模型对第三图像进行编码之前，处理器1010还用于：获取手语样本图像；在手语样本图像中的手掌相互重叠的情况下，基于手型编码模型对手语样本图像进行编码，并根据手语样本图像的编码结果和第一损失函数，迭代训练手型编码模型；在手语样本图像中的手掌相互独立的情况下，根据手语样本图像中的手掌骨骼关键点确定第一识别框，根据手语样本图像中的手掌图像确定第二识别框；根据第一识别框和第二识别框的尺寸信息，确定第一识别框和第二识别框的交并比；在交并比大于第一阈值的情况下，根据手语样本图像中的手掌骨骼关键点的坐标信息和第二损失函数，迭代训练手型编码模型。

本申请提供的上述实施例，在基于训练后的手型编码模型对第三图像进行编码之前，获取手语样本图像；在手语样本图像中的手掌相互重叠的情况下，基于手型编码模型对手语样本图像进行编码，并根据手语样本图像的编码结果和第一损失函数，迭代训练手型编码模型；在手语样本图像中的手掌相互独立的情况下，根据手语样本图像中的手掌骨骼关键点确定第一识别框，根据手语样本图像中的手掌图像确定第二识别框；根据第一识别框和第二识别框的尺寸信息，确定第一识别框和第二识别框的交并比；在交并比大于第一阈值的情况下，根据手语样本图像中的手掌骨骼关键点的坐标信息和第二损失函数，迭代训练手型编码模型。这样，在基于训练后的手型编码模型对第三图像进行编码之前，基于手语样本图像对手型编码模型进行训练，提升了手型编码模型学习单一手型和交叉手型的手型编码的准确性。

可选地，人体骨骼关键点包括第一关键点、第二关键点和多个第三关键点，第一关键点对应于第一手掌，第二关键点对应于第二手掌，多个第三关键点对应于头部和臂膀，位置特征信息包括第一手掌的位置特征信息和第二手掌的位置特征信息，处理器1010具体用于：以第一关键点为原点建立第一坐标系，以第二关键点为原点建立第二坐标系；在第一坐标系中，确定每个第三关键点相对于第一关键点的第一坐标信息；在第二坐标系中，确定每个第三关键点相对于第二关键点的第二坐标信息；对第一坐标信息进行对称处理，得到第三坐标信息，根据第三坐标信息确定第一手掌的位置特征信息；根据第二坐标信息确定第二手掌的位置特征信息。

可选地，手掌包括第一手掌和第二手掌，处理器1010具体用于：根据第一手掌的手型特征信息和位置特征信息确定第一手掌特征，根据第二手掌的手型特征信息和位置特征信息确定第二手掌特征；基于注意力机制，对第一手掌特征和第二手掌特征进行注意力学习，得到第一注意力特征和第二注意力特征；对第一注意力特征和第二注意力特征进行卷积处理，得到手语特征信息；在手语特征信息中添加第一分类特征信息后，对手语特征信息进行注意力学习，得到第二分类特征信息，根据第二分类特征信息确定手语信息。

可选地，处理器1010具体用于：根据第一掩码确定注意力权重矩阵，其中，在注意力权重矩阵中，对应不同手语图像的第一手掌特征和第二手掌特征之间的注意力权重为零；根据注意力权重矩阵，对第一手掌特征和第二手掌特征进行自注意力学习。

应理解的是，本申请实施例中，输入单元1004可以包括图形处理器(GraphicsProcessing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072中的至少一种。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器1009可以包括易失性存储器或非易失性存储器，或者，存储器1009可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器1009包括但不限于这些和任意其它适合类型的存储器。

处理器1010可包括一个或多个处理单元；可选的，处理器1010集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述手语识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，处理器为上述实施例中的电子设备中的处理器。可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述手语识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述手语识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种手语识别方法，其特征在于，所述手语识别方法包括：

获取手语图像；

提取所述手语图像中的手掌图像和人体骨骼关键点；

根据所述手掌图像确定手掌的手型特征信息；

根据所述人体骨骼关键点确定手掌的位置特征信息；

根据所述手型特征信息和所述位置特征信息，确定所述手语图像对应的手语信息。

2.根据权利要求1所述的手语识别方法，其特征在于，所述手掌图像包括第一图像和第二图像，所述第一图像对应于第一手掌，所述第二图像对应于第二手掌，所述手型特征信息包括所述第一手掌的手型特征信息和所述第二手掌的手型特征信息，所述根据所述手掌图像确定手掌的手型特征信息，包括：

对所述第一图像进行对称处理，得到第三图像；

基于训练后的手型编码模型对所述第三图像进行编码，得到所述第一手掌的手型特征信息；

基于训练后的所述手型编码模型对所述第二图像进行编码，得到所述第二手掌的手型特征信息。

3.根据权利要求2所述的手语识别方法，其特征在于，在所述基于训练后的手型编码模型对所述第三图像进行编码之前，所述手语识别方法还包括：

获取手语样本图像；

在所述手语样本图像中的手掌相互重叠的情况下，基于所述手型编码模型对所述手语样本图像进行编码，并根据所述手语样本图像的编码结果和第一损失函数，迭代训练所述手型编码模型，获得训练后的手型编码模型；

在所述手语样本图像中的手掌相互独立的情况下，根据所述手语样本图像中的手掌骨骼关键点确定第一识别框，根据所述手语样本图像中的手掌图像确定第二识别框；

根据所述第一识别框和所述第二识别框的尺寸信息，确定所述第一识别框和所述第二识别框的交并比；

在所述交并比大于第一阈值的情况下，根据所述手语样本图像中的手掌骨骼关键点的坐标信息和第二损失函数，迭代训练所述手型编码模型，获得训练后的手型编码模型。

4.根据权利要求1所述的手语识别方法，其特征在于，所述人体骨骼关键点包括第一关键点、第二关键点和多个第三关键点，所述第一关键点对应于第一手掌，所述第二关键点对应于第二手掌，多个所述第三关键点对应于头部和臂膀，所述位置特征信息包括所述第一手掌的位置特征信息和所述第二手掌的位置特征信息，所述根据所述人体骨骼关键点确定手掌的位置特征信息，包括：

以所述第一关键点为原点建立第一坐标系，以所述第二关键点为原点建立第二坐标系；

在所述第一坐标系中，确定每个所述第三关键点相对于所述第一关键点的第一坐标信息；

在所述第二坐标系中，确定每个所述第三关键点相对于所述第二关键点的第二坐标信息；

对所述第一坐标信息进行对称处理，得到第三坐标信息，根据所述第三坐标信息确定所述第一手掌的位置特征信息；

根据所述第二坐标信息确定所述第二手掌的位置特征信息。

5.根据权利要求1所述的手语识别方法，其特征在于，所述手掌包括第一手掌和第二手掌，所述根据所述手型特征信息和所述位置特征信息，确定所述手语图像对应的手语信息，包括：

根据所述第一手掌的手型特征信息和位置特征信息确定第一手掌特征，根据所述第二手掌的手型特征信息和位置特征信息确定第二手掌特征；

基于注意力机制，对所述第一手掌特征和所述第二手掌特征进行注意力学习，得到第一注意力特征和第二注意力特征；

对所述第一注意力特征和所述第二注意力特征进行卷积处理，得到手语特征信息；

在所述手语特征信息中添加第一分类特征信息后，对所述手语特征信息进行注意力学习，得到第二分类特征信息，根据所述第二分类特征信息确定所述手语信息。

6.根据权利要求5所述的手语识别方法，其特征在于，所述对所述第一手掌特征和所述第二手掌特征进行注意力学习，包括：

根据第一掩码确定注意力权重矩阵，其中，在所述注意力权重矩阵中，对应不同手语图像的所述第一手掌特征和所述第二手掌特征之间的注意力权重为零；

根据所述注意力权重矩阵，对所述第一手掌特征和所述第二手掌特征进行自注意力学习。

7.一种手语识别装置，其特征在于，所述手语识别装置包括：

获取单元，用于获取手语图像；

处理单元，用于提取所述手语图像中的手掌图像和人体骨骼关键点；

所述处理单元，还用于根据所述手掌图像确定手掌的手型特征信息；

所述处理单元，还用于根据所述人体骨骼关键点确定手掌的位置特征信息；

所述处理单元，还用于根据所述手型特征信息和所述位置特征信息，确定所述手语图像对应的手语信息。

8.根据权利要求7所述的手语识别装置，其特征在于，所述手掌图像包括第一图像和第二图像，所述第一图像对应于第一手掌，所述第二图像对应于第二手掌，所述手型特征信息包括所述第一手掌的手型特征信息和所述第二手掌的手型特征信息，所述处理单元具体用于：

对所述第一图像进行对称处理，得到第三图像；

9.根据权利要求8所述的手语识别装置，其特征在于，在所述基于训练后的手型编码模型对所述第三图像进行编码之前，所述获取单元还用于：

获取手语样本图像；

所述处理单元还用于：

10.根据权利要求7所述的手语识别装置，其特征在于，所述人体骨骼关键点包括第一关键点、第二关键点和多个第三关键点，所述第一关键点对应于第一手掌，所述第二关键点对应于第二手掌，多个所述第三关键点对应于头部和臂膀，所述位置特征信息包括所述第一手掌的位置特征信息和所述第二手掌的位置特征信息，所述处理单元具体用于：

根据所述第二坐标信息确定所述第二手掌的位置特征信息。

11.根据权利要求7所述的手语识别装置，其特征在于，所述手掌包括第一手掌和第二手掌，所述处理单元具体用于：

12.根据权利要求11所述的手语识别装置，其特征在于，所述处理单元具体用于：

13.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的手语识别方法的步骤。

14.一种可读存储介质，其特征在于，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的手语识别方法的步骤。