CN115083016A

CN115083016A - 一种基于单目摄像机的面向小目标手部隔空交互方法与装置

Info

Publication number: CN115083016A
Application number: CN202210653593.6A
Authority: CN
Inventors: 顾友良; 李观喜; 赵乾; 苏鹏
Original assignee: Guangzhou Ziweiyun Technology Co ltd
Current assignee: Guangzhou Ziweiyun Technology Co ltd
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-09-20

Abstract

本发明公开了一种基于单目摄像机的面向小目标手部隔空交互方法，所述信息采集模块检测到人体目标时，确定采集图像中的目标手部位置，通过超分辨率算法对采集图像中的目标手部进行处理；对经过超分辨率算法处理后的目标手部图像执行手部检测算法，将图像中的手部的信息裁剪出来，并将裁剪出的手部信息发送至手部关键点识别模块执行手部关键点检测；所述手部关键点识别模块对处理后的手部图像执行手部关键点识别算法，通过所述手部关键点识别算法对手部骨架进行分析，并基于分析结果生成基于手部骨骼的关键点；基于手部关键点判断当前的手势姿势状态，根据所述手势姿势状态对应的交互关系实现小目标的手部隔空交互操作。

Description

一种基于单目摄像机的面向小目标手部隔空交互方法与装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于单目摄像机的面向小目标手部隔空交互方法与装置。

背景技术

近几年，基于视频的姿态或者手势识别技术成为视觉识别中的一个重要的研究方向。姿态或者手势识别在智能的人机交互方面起到了不可替代的作用。特别是在一些嘈杂的场合，由于语音识别会受到一定的干扰，姿态或者手势识别成为一种相对重要的交互方式。但是基于视频的姿态与手势识别存在一些技术性难题，比如算法需要克服场景变化带来的背景变化与光照不一问题；视频中的人体可能运动较快造成图像模糊；视频图像一般具有较低的分辨率，即相对于静态图像的质量较低；姿态或者手势显示不全，即存在部分遮挡；相机视角多变，姿态或者手势显示的角度比较特殊。

而且，目前流行的视频中人体姿态识别与手势识别，是相互独立的两个方面。若要进行姿态识别，需要进行人体跟踪或检测；若要进行手势识别，则需要再次进行人体(手)跟踪或检测，处理速度当然较慢，存在不必要的浪费。同时，手在图像中的面积较小时，检测或者跟踪难度大，手势识别精度容易受到影响；对于姿态识别，现有的方法对一些区别不大的姿态难以区分。

图像超分辨率(Super Resolution,SR)就是将低分辨率(Low Resolution,LR)的图像通过一定的算法转提升到高分辨率(High Resolution,HR)。高分辨率图像具有更高的像素密度，更多的细节信息，更细腻的画质。要获得高分辨率图像，最直接的办法是采用高分辨率的相机，然而，在实际应用过程中，由于制作工艺和工程成本的考虑，很多场合都不会采用高分辨率、超分辨率的相机来进行图像信号的采集。因此，通过超分辨率技术来获取HR具有一定的应用需求。

本发明提出一种面向小目标的手部隔空交互设备与装置。现有面向教育或娱乐的交互设备通常需要特定的传感器(如手环)硬件，用于捕捉手势，成本高且便利性差。目前基于隔空交互(无需佩戴传感器)捕捉手部姿态的方案通常基于深度摄像机，虽然可以取得较好的效果，但是成本较高。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明公开一种基于单目摄像机的面向小目标手部隔空交互方法，所述方法应用于小目标手部隔空交互装置中，所述装置包括信息采集模块、算力提供模块、前端展示模块，其中，所述信息采集模块用于采集隔空交互的图像信息；所述算力提供模块从图像中判断当前操作者的手部状态，为隔空交互应用提供指令；所述前端展示模块用于展示出最终应用的结果，所述隔空交互方法包括：

步骤1，所述信息采集模块检测到人体目标时，基于使用者的请求接收输入的图像信息，确定采集图像中的目标手部位置，通过超分辨率算法对采集图像中的目标手部进行处理；

步骤2，对经过超分辨率算法处理后的目标手部图像执行手部检测算法，将图像中的手部的信息裁剪出来，并将裁剪出的手部信息发送至手部关键点识别模块执行手部关键点检测；

步骤3，所述手部关键点识别模块对所述步骤2处理后的手部图像执行手部关键点识别算法，通过所述手部关键点识别算法对手部骨架进行分析，并基于分析结果生成基于手部骨骼的关键点；

步骤4，基于手部关键点判断当前的手势姿势状态，根据所述手势姿势状态对应的交互关系实现小目标的手部隔空交互操作。

更进一步地，所述步骤2进一步包括：所述超分辨率算法的神经网络结构为9层卷积网络组成，每层卷积网络连接到其对应数字层的残差结构(residual block)。

更进一步地，所述超分辨率算法的神经网络结构第一层为输入层，所述输入层连接到6,8,9数字层的残差块，然后输入模块1、模块2和模块3进行处理，其中，所述模块1由4个卷积层(conv layer)组成，每一层包括64个卷积核，每个卷积核的大小是3x3，所述模块2由1个卷积层组成，每一层包括48个卷积核，每个卷积核大小是1x1；所述模块3由4个卷积层组成，每一层包括64个卷积核，每个卷积核的大小是3x3。

更进一步地，所述超分辨率算法的神经网络的训练过程中采用Adam优化器，其中所述Adam优化器的参数选择为β1＝0.9,β2＝0.999，并采用L1作为损失，该损失函数如下列公式表示：

其中，yi-f(xi)表示预测值和真实数据的差。

更进一步地，所述步骤2中进一步包括：采用目标检测框架yolov5模块进行手部检测，在对手部进行检测过程中，对检测的手部图像进行翻转、裁剪预处理操作以增加对应的鲁棒性，当所述目标检测框架yolov5模块输出在原始图像中手部的boundbox后，进入手部关键点识别模块。

更进一步地，所述步骤3中进一步包括：所述手部关键点识别模块的网络结构，构的骨干网络采用轻量的shuffleNetv2结构提取特征，在轻量的shuffleNetv2结构之后，抽取Stage2，Stage3，Stage4和CONV5四层的输出，输入一个特征金字塔网络结构。

更进一步地，所述特征金字塔网络结构后续每一层输出一个热力图(heatmap)和向量场(paf)，最终基于heatmap和Paf得出预测结果以得到手部的骨骼关键点：

更进一步地，所述信息采集模块为单目RGB摄像机。

本发明进一步公开了一种计算机系统，包括存储器和处理器，所述的存储器存储有计算机程序，所述的处理器执行所述的计算机程序时实现上述的方法的步骤。

本发明进一步公开了一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时实现上述方法的步骤。

本发明于现有技术相比，有益效果为：本发明装置采集设备仅采用单目摄像机，配合手部姿态估计深度学习算法，结合算力设备即可解决手部隔空交互的问题，具有成本低、便利性高，交互性强的特点。此外，在隔空交互时，距离较远或者儿童使用都会导致手部较小(小目标)，为了解决当手部较小问题，基于超分辨率算法，提升手势识别的精准度。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。

图1是本发明的一种基于单目摄像机的面向小目标手部隔空交互装置的硬件图；

图2是本发明一实施例中的超分辨率算法的神经网络结构图；

图3是本发明一实施例中的ShuffleNetV2网络基本结构图；

图4是本发明一实施例中的算法流程框架图；

图5时本发明一种基于单目摄像机的面向小目标手部隔空交互方法的流程图。

具体实施方式

实施例一

本实施例以硬件角度描述本发明的发明构思，本系统用于手部的隔空交互，主要由三部分构成：信息采集模块(单目RGB摄像机)、算力提供模块、前端展示模块。信息采集模块用于采集隔空交互的图像信息；算力提供模块从图像中判断当前操作者的手部状态，为隔空交互应用提供指令；前端展示模块用于展示出最终应用的结果。三个模块可以独立，也可以耦合在一起。

一种典型的实现方式如图1所示(但不限于图1中三个模块的组合方式)。其中的核心部件是算力提供模块和其中包含的算法，下文将针对该模块进行详细阐述。

在该实施例中，具体的面向小目标手部隔空交互的实现方法，基于上文中的系统框架，主要描述在算力提供模块内的算法实现内容。实现小目标手部隔空交互的功能。核心思路是，首先针对信息采集模块输入的图像信息，通过超分辨率算法解决小目标手部的问题；经过超分辨率算法后，执行手部检测算法，将图像中的手部的信息裁剪出来，并送入下一个模块；最终执行手部关键点识别算法，基于手部关键点判断当前的手势姿势状态，最终实现小目标的手部隔空交互。其中设计的超分辨率算法的神经网络结构如图2所示，其中，每个模块最下方的数字为对应的层数，最上方方框中的数字表示该层连接到对应数字层的残差结构(residual block)，中间的不同模块表示不同的卷积网络组成。其中模块1由4个卷积层(conv layer)组成，每一层包括64个卷积核，每个卷积核的大小是3x3；模块2由1个卷积层组成，每一层包括48个卷积核，每个卷积核大小是1x1；模块3由4个卷积层组成，每一层包括64个卷积核，每个卷积核的大小是3x3。训练过程中采用Adam优化器(β1＝0.9,β2＝0.999)，并采用L1作为损失。该损失函数如下列公式表示。其中y_i-f(x_i)表示预测值和真实数据的差。

通过该网络，可以得到原始图像的经过超分辨率后的图像，供手部检测模块算法使用。为实现手部检测的功能，我们采用常见的目标检测框架yolov5模块进行手部检测。针对手部检测任务，在数据处理模块中对该图像进行翻转、裁剪等预处理操作，增加对应的鲁棒性。当目标检测模块输出在原始图像中手部的boundbox后，进入下一个模块，即手部关键点识别模块。

手部关键点识别模块主要功能是对于手部骨架进行分析，并生成基于手部骨骼的关键点，基于手部关键点最终判定当前用户的手势姿态。该方案基于常见的热力图(heatmap)的方式，该网络结构的骨干网络采用轻量的shuffleNetv2结构提取特征，该网络的基本结构如图3所示。

在轻量的shuffleNetv2结构之后，抽取Stage2，Stage3，Stage4和CONV5四层的输出，输入一个特征金字塔网络(Feature Pyramid Networks，FPN)结构。该结构后续每一层输出一个热力图(heatmap)和向量场(paf)。最终基于heatmap和Paf得出预测结果：

得到手部的骨骼关键点。其中，最终整个算力提供模块内的算法流程框架如图4所示。

实施例二

如图5所示，本实施例从方法实现的角度描述本发明的发明构思，提供了一种基于单目摄像机的面向小目标手部隔空交互方法，所述方法应用于小目标手部隔空交互装置中，所述装置包括信息采集模块、算力提供模块、前端展示模块，其中，所述信息采集模块用于采集隔空交互的图像信息；所述算力提供模块从图像中判断当前操作者的手部状态，为隔空交互应用提供指令；所述前端展示模块用于展示出最终应用的结果，所述隔空交互方法包括：

其中，yi-f(xi)表示预测值和真实数据的差。

更进一步地，所述信息采集模块为单目RGB摄像机。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。因此，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于单目摄像机的面向小目标手部隔空交互方法，所述方法应用于小目标手部隔空交互装置中，所述装置包括信息采集模块、算力提供模块、前端展示模块，其中，所述信息采集模块用于采集隔空交互的图像信息；所述算力提供模块从图像中判断当前操作者的手部状态，为隔空交互应用提供指令；所述前端展示模块用于展示出最终应用的结果，其特征在于，所述隔空交互方法包括：

2.如权利要求1所述的一种基于单目摄像机的面向小目标手部隔空交互方法，其特征在于，所述步骤2进一步包括：所述超分辨率算法的神经网络结构为9层卷积网络组成，每层卷积网络连接到其对应数字层的残差结构(residual block)。

3.如权利要求2所述的一种基于单目摄像机的面向小目标手部隔空交互方法，其特征在于，所述超分辨率算法的神经网络结构第一层为输入层，所述输入层连接到6,8,9数字层的残差块，然后输入模块1、模块2和模块3进行处理，其中，所述模块1由4个卷积层(convlayer)组成，每一层包括64个卷积核，每个卷积核的大小是3x3，所述模块2由1个卷积层组成，每一层包括48个卷积核，每个卷积核大小是1x1；所述模块3由4个卷积层组成，每一层包括64个卷积核，每个卷积核的大小是3x3。

4.如权利要求3所述的一种基于单目摄像机的面向小目标手部隔空交互方法，其特征在于，所述超分辨率算法的神经网络的训练过程中采用Adam优化器，其中所述Adam优化器的参数选择为β1＝0.9,β2＝0.999，并采用L1作为损失，该损失函数如下列公式表示：

其中，yi-f(xi)表示预测值和真实数据的差。

5.如权利要求1所述的一种基于单目摄像机的面向小目标手部隔空交互方法，其特征在于，所述步骤2中进一步包括：采用目标检测框架yolov5模块进行手部检测，在对手部进行检测过程中，对检测的手部图像进行翻转、裁剪预处理操作以增加对应的鲁棒性，当所述目标检测框架yolov5模块输出在原始图像中手部的boundbox后，进入手部关键点识别模块。

6.如权利要求1所述的一种基于单目摄像机的面向小目标手部隔空交互方法，其特征在于，所述步骤3中进一步包括：所述手部关键点识别模块的网络结构，构的骨干网络采用轻量的shuffleNetv2结构提取特征，在轻量的shuffleNetv2结构之后，抽取Stage2，Stage3，Stage4和CONV5四层的输出，输入一个特征金字塔网络结构。

7.如权利要求6所述的一种基于单目摄像机的面向小目标手部隔空交互方法，其特征在于，所述特征金字塔网络结构后续每一层输出一个热力图(heatmap)和向量场(paf)，最终基于heatmap和Paf得出预测结果以得到手部的骨骼关键点：

8.如权利要求1所述一种基于单目摄像机的面向小目标手部隔空交互方法，其特征在于，所述信息采集模块为单目RGB摄像机。

9.一种计算机系统，包括存储器和处理器，所述的存储器存储有计算机程序，其特征在于，所述的处理器执行所述的计算机程序时实现权利要求1至8任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述的计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。