CN115471918A

CN115471918A - 手势识别的方法、装置、设备和存储介质

Info

Publication number: CN115471918A
Application number: CN202211210579.5A
Authority: CN
Inventors: 刘浩东
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2022-12-13

Abstract

本申请提供一种手势识别的方法、装置、设备和存储介质，可应用于虚拟现实领域或金融领域，方法包括：对用户进行脸部识别；脸部识别通过后，采集用户的多帧手部图像；利用预先训练的手势识别模型识别多帧手部图像，获得多帧手部图像对应的计算机可读取的操作数据；将操作数据输入游戏系统或支付系统，使游戏系统或支付系统执行对应的操作。利用本方案，用户在可拍照的普通终端(如智能手机)上就可以通过手势识别实现人机交互，降低手势识别这一人机交互方式的通用性。

Description

手势识别的方法、装置、设备和存储介质

技术领域

本发明涉及手势识别技术领域，特别涉及一种手势识别的方法、装置、设备和存储介质。

背景技术

当前虚拟现实游戏及其衍生物深受诸多前沿技术公司亲睐，但是目前为止的VR相关游戏均需要通过手势识别来操作，而手势识别又往往依赖一些专用的硬件设备来实现，过多的硬件设备会在易用性和通用性上常常出现问题。

发明内容

针对上述现有技术的缺点，本发明提供一种手势识别的方法、装置、设备和存储介质，以提供一种通用的手势识别方案。

本申请第一方面提供一种手势识别的方法，包括：

对用户进行脸部识别；

脸部识别通过后，采集用户的多帧手部图像；

利用预先训练的手势识别模型识别所述多帧手部图像，获得所述多帧手部图像对应的计算机可读取的操作数据；

将所述操作数据输入游戏系统或支付系统，使所述游戏系统或所述支付系统执行对应的操作。

可选的，训练所述手势识别模型的过程包括：

利用多张预先标注有手部所在区域的手部图像训练所述手势识别模型中的手部分割子模型；

利用多个预先标注有对应的手部动作的视频片段训练所述手势识别模型中的动作识别子模型。

可选的，所述利用预先训练的手势识别模型识别所述多帧手部图像，获得所述多帧手部图像对应的计算机可读取的操作数据，包括：

利用所述手势识别模型中的手部分割子模型识别所述多帧手部图像的每一帧，获得所述多帧手部图像的每一帧中手部所在区域；

利用所述手势识别模型中的动作识别子模型识别标注有手部所在区域的所述多帧手部图像，获得所述多帧手部图像对应的手部动作；

根据预设的手部动作和操作数据的映射关系，利用所述多帧手部图像对应的手部动作，确定所述多帧手部图像对应的计算机可读取的操作数据。

可选的，所述对用户进行脸部识别，包括：

采集用户的脸部图像；

利用预先训练的人脸识别模型识别所述脸部图像和预先存储的用户的参考脸部图像是否匹配；

若所述脸部图像和所述参考脸部图像匹配，确定脸部识别通过；

若所述脸部图像和所述参考脸部图像不匹配，确定脸部识别不通过。

本申请第二方面提供一种手势识别的装置，包括：

脸部识别单元，用于对用户进行脸部识别；

采集单元，用于脸部识别通过后，采集用户的多帧手部图像；

动作识别单元，用于利用预先训练的手势识别模型识别所述多帧手部图像，获得所述多帧手部图像对应的计算机可读取的操作数据；

输入单元，用于将所述操作数据输入游戏系统或支付系统，使所述游戏系统或所述支付系统执行对应的操作。

可选的，所述装置还包括训练单元，用于：

可选的，所述动作识别单元利用预先训练的手势识别模型识别所述多帧手部图像，获得所述多帧手部图像对应的计算机可读取的操作数据时，具体用于：

可选的，所述脸部识别单元对用户进行脸部识别时，具体用于：

采集用户的脸部图像；

本申请第三方面提供一种电子设备，包括存储器和处理器；

其中，所述存储器用于存储计算机程序；

所述处理器用于执行所述计算机程序，具体用于实现本申请第一方面任意一项所提供的手势识别的方法。

本申请第四方面提供一种计算机存储介质，用于存储计算机程序，所述计算机程序被执行时，具体用于实现本申请第一方面任意一项所提供的手势识别的方法。

本申请提供一种手势识别的方法、装置、设备和存储介质，方法包括：对用户进行脸部识别；脸部识别通过后，采集用户的多帧手部图像；利用预先训练的手势识别模型识别多帧手部图像，获得多帧手部图像对应的计算机可读取的操作数据；将操作数据输入游戏系统或支付系统，使游戏系统或支付系统执行对应的操作。利用本方案，用户在可拍照的普通终端(如智能手机)上就可以通过手势识别实现人机交互，降低手势识别这一人机交互方式的通用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种手势识别的方法的流程图；

图2为本申请实施例提供的另一种手势识别的方法的流程图；

图3为本申请实施例提供的一种手势识别模型的训练过程示意图；

图4为本申请实施例提供的一种手势识别装置的结构示意图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

当前虚拟现实游戏及其衍生物作为元宇宙的重要一环，深受诸多前沿技术公司亲睐，但是目前为止的VR相关游戏均依赖于一些专用设备(如手柄)来实现无线操作，过多的硬件设备会在易用性和通用性上常常出现问题，另外游戏会存在内购、或者购买新游戏等情况，因此本文提出一种基于手势识别的虚拟现实游戏装置，以此解决更多的成本昂贵、需要穿戴的无线硬件设备，即VR游戏中的无设备手势识别技术。

针对手势识别在VR游戏人机交互中的应用，为实现无设备手势识别系统，无需穿戴设备即可完成对人脸的识别以及对手势的分割以及定位。目前针对于VR游戏和手势识别，特别是3D手势识别相关比较少，我们需要完成的主要有两部分，一是从单独的RGB图像估计链接的3D手部姿势是一个高度模糊且具备挑战性的问题，需要设定一个轻量级的在线学习模型，二是机身提供广视角的高清相机视点，以用于人脸识别网络识别，用于支付手段，这个更依赖于硬件设备。

本申请实施例提供一种手势识别的方法，请参见图1，该方法可以包括如下步骤。

S101，对用户进行脸部识别。

可选的，步骤S101，即对用户进行脸部识别，具体可以包括：

采集用户的脸部图像。

其中，用户的脸部图像可以用专门的拍照设备，例如广视角高清相机采集，当然，也可以用通用的拍照设备，例如可以直接用移动终端(如智能手机)上配置的前置摄像头或者后置摄像头来采集。

利用预先训练的人脸识别模型识别脸部图像和预先存储的用户的参考脸部图像是否匹配。

上述参考脸部图像可以是用户首次在游戏系统或者支付系统中开通账号时录入并存储的脸部图像。

上述人脸识别模型在训练阶段，可以用若干组样本人脸图像来进行训练，每一组样本人脸图像，可以包括同一人不同姿态或位置下的两张脸部图像，或者可以包括两个人的两张脸部图像，训练阶段可以根据人脸识别模型对每一组样本人脸图像的识别结果来不断更新人脸识别模型中的参数，从而完成对人脸识别模型的训练。其中，一组样本人脸图像的识别结果，用于说明该组内的两张脸部图像属于同一人或不属于同一人。

若脸部图像和参考脸部图像匹配，确定脸部识别通过。

脸部图像和参考脸部图像匹配，说明采集到的脸部图像和参考脸部图像属于同一个人，因此可以确定当前的用户是在游戏系统或支付系统注册的用户，即脸部识别通过。

若脸部图像和参考脸部图像不匹配，确定脸部识别不通过。

脸部图像和参考脸部图像不匹配，说明采集到的脸部图像和参考脸部图像不属于同一个人，因此可以确定当前的用户不是在游戏系统或支付系统注册的用户，即脸部识别不通过。

在一些可选的实施例中，也可以不适用脸部识别模型来实现脸部识别，而是直接将拍摄到的用户的脸部图像和预设的该用户的参考脸部图像进行比对，计算两者的相似度，如两者的相似度高于一定的相似度阈值，则认为脸部识别通过，如两者的相似度不高于该相似度阈值，则认为脸部识别不通过。

S102，脸部识别通过后，采集用户的多帧手部图像。

步骤S102中用户的多帧手部图像，可以用和步骤S101中相同的设备采集，也可以用不同的设备采集。

可选的，在步骤S102中可以输出一个提示，提示用户根据想要执行的操作做出对应的手部动作，从而通过移动终端的摄像头或者专用的相机采集得到一段包含用户的手部动作的视频，也就是步骤S102所述的多帧手部图像。例如，可以输出提示语“请通过手部动作做出操作”。

进一步的，在步骤S102中还可以输出一系列备选的手部动作和这些手部动作对应的操作指令给用户参考，以便用户决定具体做什么样的手部动作。

S103，利用预先训练的手势识别模型识别多帧手部图像，获得多帧手部图像对应的计算机可读取的操作数据。

在本申请的一些可选的实施例中，手势识别模型具体可以包括两个子模型，分别是手部分割子模型和动作识别子模型。其中手部分割子模型用于在每一帧手部图像中都确定出手部所在区域，动作识别子模型用于识别多帧手部图像，获得对应的手部动作，最后，就可以根据识别得到的手部动作确定出对应的操作数据。

可选的，手势识别模型也可以不包括手部分割子模型，只包括动作识别子模型。增加手部分割子模型的好处在于，通过识别手部所在区域，可以辅助后续的动作识别子模型，使得动作识别子模型在识别手部动作时，仅处理上述多帧图像中手部所在区域的图像数据，从而提高手部动作识别的效率，降低执行本方法的电子设备的功耗。

S104，将操作数据输入游戏系统或支付系统，使游戏系统或支付系统执行对应的操作。

在一些可选的实施例中，为了进一步增强本发明的通用性。步骤S103中输出的操作数据，具体可以是，经过统一转换得到的调用计算机领域通用函数库的公共接口的调用指令数据，而不是单独不可复用的数据。

这样做的好处在于，确保输出的操作数据能够被任意一款常见的游戏系统或支付系统识别并执行，使得本方案能够用于接入市面上的任意一款游戏应用或支付应用。

本申请提供一种手势识别的方法，方法包括：对用户进行脸部识别；脸部识别通过后，采集用户的多帧手部图像；利用预先训练的手势识别模型识别多帧手部图像，获得多帧手部图像对应的计算机可读取的操作数据；将操作数据输入游戏系统或支付系统，使游戏系统或支付系统执行对应的操作。利用本方案，用户在可拍照的普通终端(如智能手机)上就可以通过手势识别实现人机交互，降低手势识别这一人机交互方式的通用性。

本申请实施例还提供一种手势识别的方法，请参见图2，该方法可以包括如下步骤。

S201，对用户进行脸部识别。

步骤S201的具体实施方式可以参见图1所示实施例的步骤S101，不再赘述。

S202，脸部识别通过后，采集用户的多帧手部图像。

步骤S202的具体实施方式可以参见图1所示实施例的步骤S102，不再赘述。

S203，利用手势识别模型中的手部分割子模型识别多帧手部图像的每一帧，获得多帧手部图像的每一帧中手部所在区域。

步骤S203中，可以逐一将采集到的多帧手部图像中的每一帧手部图像输入手部分割子模型。针对每一帧手部图像，手部分割子模型处理后，可以在该手部图像上绘制一个具有一定尺寸和位置的矩形框，该矩形框所框出的区域，也就是这一帧手部图像中手部所在区域。

也就是说，步骤S203中手部分割子模型输出的每一帧手部图像，均包含一个用于框出图像中手部所在区域的矩形框。

S204，利用手势识别模型中的动作识别子模型识别标注有手部所在区域的多帧手部图像，获得多帧手部图像对应的手部动作。

步骤S204中，具体可以将步骤S203中手部分割子模型输出的带有矩形框的多帧手部图像一并输入动作识别子模型。

由此，动作识别子模型在处理输入的多帧手部图像时，可以仅处理每一帧手部图像中位于矩形框内的图像数据，从而显著提高识别出手部动作的小绿绿。

S205，根据预设的手部动作和操作数据的映射关系，利用多帧手部图像对应的手部动作，确定多帧手部图像对应的计算机可读取的操作数据。

为了实现步骤S205，可以预先设置一个手部动作和计算机可读取的操作数据的映射关系，映射关系中包括多个预设的手部动作，以及每一个手部动作所对应的操作数据。根据该映射关系，在步骤S205中就可以根据动作识别子模型输出的手部动作，检索到对应的操作数据。

本实施例中，步骤S203至S205，可以视为图1对应的实施例中步骤S103，即利用预先训练的手势识别模型识别多帧手部图像，获得多帧手部图像对应的计算机可读取的操作数据步骤的具体实施方式。

S206，将操作数据输入游戏系统或支付系统，使游戏系统或支付系统执行对应的操作。

步骤S206的具体执行方式和图1所示实施例的步骤S104一致，不再赘述。

下面简要说明手势识别模型的训练过程。

可选的，训练手势识别模型的过程包括：

利用多张预先标注有手部所在区域的手部图像训练手势识别模型中的手部分割子模型。

利用多个预先标注有对应的手部动作的视频片段训练手势识别模型中的动作识别子模型。

请参见图3，利用多张预先标注有手部所在区域的手部图像训练手势识别模型中的手部分割子模型的过程包括：

A1，输入样本手部图像。

样本手部图像，是指预先标注了手部所在区域的手部图像。

需要说明，在步骤A1中输入的样本手部图像，是不带有指示手部所在区域的矩形框的样本手部图像，其预先标注的手部位置在步骤A1中被预先提取并保存，这样可以避免预先标注的矩形框对手部分割子模型的识别过程造成干扰。

A2，比对识别的手部位置和标注的手部位置，获得第一损失值。

手部分割子模型处理样本手部图像后，获得识别得到的手部位置，简称识别的手部位置，如前所述，识别的手部位置可以用样本手部图像中的一个矩形框表示。

由此，可以通过比对识别的手部位置和标注的手部位置的差异，具体的，可以比较代表两者的矩形框的位置和尺寸差异，来获得第一损失值。

A3，如第一损失值不满足收敛条件，根据第一损失值更新参数。

可选的，在步骤A3中可以用反向传播梯度下降算法来更新手部分割子模型的参数，也可以用其他现有的算法，不做限定。

上述收敛条件可以是，第一损失值小于预设的第一收敛阈值。

如第一损失值满足收敛条件，则对手部分割子模型的训练结束，获得训练好的手部分割子模型。

利用多个预先标注有对应的手部动作的视频片段训练手势识别模型中的动作识别子模型的过程包括：

B1，输入样本视频片段。

样本视频片段，是指包含一个特定的手部动作，且该特定的手部动作已经通过人工标注的方式确定出来(简称标注的手部动作)的视频片段。

B2，比对识别的手部动作和标注的手部动作，获得第二损失值。

动作识别子模型处理输入的样本视频片段后，获得一个从样本识别片段识别出来的手部动作，简称识别的手部动作。

第二损失值反映了标注的手部动作和识别的手部动作的差异大小，两者差异越大，则第二损失值越大，反之，两者越接近，则第二损失值越小。

B3，如第二损失值不满足收敛条件，根据第二损失值更新参数。

可选的，在步骤B3中可以用反向传播梯度下降算法来更新手动作识别子模型的参数，也可以用其他现有的算法，不做限定。

上述收敛条件可以是，第二损失值小于预设的第二收敛阈值。

如第二损失值满足收敛条件，则对动作识别子模型的训练结束，获得训练好的动作识别子模型。

需要说明的是，本申请任一实施例所涉及的对模型的训练中，所用的样本数据均可以由真实数据和合成数据混合而成，即一部分样本数据是真实数据，另一部分样本数据是合成数据，具体的比例可以按需设定，本实施例不做限定。上述样本数据，可以包括前述样本人脸图像，样本手部图像和样本视频片段。

本实施例的有益效果可以参见前述图1所示的实施例，此处不再赘述。

根据本申请实施例提供的手势识别的方法，本申请实施例还提供一种手势识别的装置，请参见图4，该装置可以包括如下单元。

脸部识别单元401，用于对用户进行脸部识别。

采集单元402，用于脸部识别通过后，采集用户的多帧手部图像。

如前文所述，本实施例所述的采集单元，可以是专门的拍照设备，例如可以是广视角高清相机，当然，也可以是通用的拍照设备，例如可以是移动终端(如智能手机)上配置的前置摄像头或者后置摄像头。

动作识别单元403，用于利用预先训练的手势识别模型识别多帧手部图像，获得多帧手部图像对应的计算机可读取的操作数据。

输入单元404，用于将操作数据输入游戏系统或支付系统，使游戏系统或支付系统执行对应的操作。

可选的，装置还包括训练单元405，用于：

利用多张预先标注有手部所在区域的手部图像训练手势识别模型中的手部分割子模型；

可选的，动作识别单元利用预先训练的手势识别模型识别多帧手部图像，获得多帧手部图像对应的计算机可读取的操作数据时，具体用于：

利用手势识别模型中的手部分割子模型识别多帧手部图像的每一帧，获得多帧手部图像的每一帧中手部所在区域；

利用手势识别模型中的动作识别子模型识别标注有手部所在区域的多帧手部图像，获得多帧手部图像对应的手部动作；

根据预设的手部动作和操作数据的映射关系，利用多帧手部图像对应的手部动作，确定多帧手部图像对应的计算机可读取的操作数据。

可选的，脸部识别单元401对用户进行脸部识别时，具体用于：

采集用户的脸部图像；

利用预先训练的人脸识别模型识别脸部图像和预先存储的用户的参考脸部图像是否匹配；

若脸部图像和参考脸部图像匹配，确定脸部识别通过；

若脸部图像和参考脸部图像不匹配，确定脸部识别不通过。

本申请实施例提供的手势识别的装置，其具体工作原理可以参见本申请任一实施例所提供的手势识别的方法中的相关步骤，不再赘述。

本申请提供一种手势识别的装置，包括，脸部识别单元401对用户进行脸部识别；采集单元402脸部识别通过后，采集用户的多帧手部图像；动作识别单元403利用预先训练的手势识别模型识别多帧手部图像，获得多帧手部图像对应的计算机可读取的操作数据；输入单元404将操作数据输入游戏系统或支付系统，使游戏系统或支付系统执行对应的操作。利用本方案，用户在可拍照的普通终端(如智能手机)上就可以通过手势识别实现人机交互，降低手势识别这一人机交互方式的通用性。

本申请实施例还提供一种电子设备，请参见图5，包括存储器501和处理器502。

其中，存储器501用于存储计算机程序。

处理器502用于执行计算机程序，具体用于实现本申请任一实施例所提供的手势识别的方法。

本申请实施例还提供一种计算机存储介质，用于存储计算机程序，计算机程序被执行时，具体用于实现本申请任一实施例所提供的手势识别的方法。

本发明提供的手势识别的方法、装置、设备和存储介质可用于虚拟现实领域或金融领域。上述仅为示例，并不对本发明提供的手势识别的方法、装置、设备和存储介质的应用领域进行限定。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

需要注意，本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种手势识别的方法，其特征在于，包括：

对用户进行脸部识别；

脸部识别通过后，采集用户的多帧手部图像；

2.根据权利要求1所述的方法，其特征在于，训练所述手势识别模型的过程包括：

3.根据权利要求1所述的方法，其特征在于，所述利用预先训练的手势识别模型识别所述多帧手部图像，获得所述多帧手部图像对应的计算机可读取的操作数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述对用户进行脸部识别，包括：

采集用户的脸部图像；

5.一种手势识别的装置，其特征在于，包括：

脸部识别单元，用于对用户进行脸部识别；

6.根据权利要求5所述的装置，其特征在于，所述装置还包括训练单元，用于：

7.根据权利要求5所述的装置，其特征在于，所述动作识别单元利用预先训练的手势识别模型识别所述多帧手部图像，获得所述多帧手部图像对应的计算机可读取的操作数据时，具体用于：

8.根据权利要求5所述的装置，其特征在于，所述脸部识别单元对用户进行脸部识别时，具体用于：

采集用户的脸部图像；

9.一种电子设备，其特征在于，包括存储器和处理器；

其中，所述存储器用于存储计算机程序；

所述处理器用于执行所述计算机程序，具体用于实现如权利要求1至4任意一项所述的手势识别的方法。

10.一种计算机存储介质，其特征在于，用于存储计算机程序，所述计算机程序被执行时，具体用于实现如权利要求1至4任意一项所述的手势识别的方法。