CN111158467A

CN111158467A - 一种手势交互方法和终端

Info

Publication number: CN111158467A
Application number: CN201911276873.4A
Authority: CN
Inventors: 孙飞
Original assignee: Qingdao Xiaoniao Kankan Technology Co Ltd
Current assignee: Qingdao Xiaoniao Kankan Technology Co Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-05-15

Abstract

本申请公开了一种手势交互方法和终端，手势交互方法包括：在一次手势交互过程中，通过相机拍摄用户的手势，得到原始图像，所述原始图像包括RGB图像；利用预先训练完成的深度神经网络对所述RGB图像进行手部检测与手势识别，得到第一手势识别结果；基于多帧所述RGB图像中各帧所述RGB图像的所述第一手势识别结果进行手势分析确认，得到第二手势识别结果；触发执行与所述第二手势识别结果对应的操作，完成手势交互。本申请实施例采用深度神经网络对手势进行检测与识别，降低了误检与漏检的概率，提高了手势识别和手势交互的精度和鲁棒性，改善了用户体验。

Description

一种手势交互方法和终端

技术领域

本申请涉及人机交互技术领域，具体涉及一种手势交互方法和终端。

背景技术

随着技术的发展，手势交互在移动终端操作、门禁系统、远程控制等人机交互领域得到了广泛应用。手势交互的关键是手势识别，目前，手势识别多基于传统图像处理方法区分手部与背景，这类方案易受环境(例如，光照、阴影以及与手部肤色接近的背景)的影响，手势的误检和漏检情况严重，算法鲁棒性较低，手势交互的准确性有待提高。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的一种手势交互方法和终端。

依据本申请的一个方面，提供了一种手势交互方法，包括：

在一次手势交互过程中，通过相机拍摄用户的手势，得到原始图像，所述原始图像包括RGB图像；

利用预先训练完成的深度神经网络对所述RGB图像进行手部检测与手势识别，得到第一手势识别结果；

基于多帧所述RGB图像中各帧所述RGB图像的所述第一手势识别结果进行手势分析确认，得到第二手势识别结果；

触发执行与所述第二手势识别结果对应的操作，完成手势交互。

依据本申请的又一方面，提供了一种终端，包括：

相机，用于在一次手势交互过程中，通过相机拍摄用户的手势，得到原始图像，所述原始图像包括RGB图像；

处理器，用于利用预先训练完成的深度神经网络对所述RGB图像进行手部检测与手势识别，得到第一手势识别结果；基于多帧所述RGB图像中各帧所述RGB图像的所述第一手势识别结果进行手势分析确认，得到第二手势识别结果；触发执行与所述第二手势识别结果对应的操作，完成手势交互。

本申请实施例的技术方案，在一次手势交互过程中，通过相机拍摄用户的手势得到原始图像，原始图像包括RGB图像，利用预先训练完成的深度神经网络对RGB图像进行手部检测与手势识别，得到第一手势识别结果，基于多帧RGB图像中各帧RGB图像的第一手势识别结果进行手势分析确认，得到第二手势识别结果，触发执行与第二手势识别结果对应的操作，完成手势交互。由上述可知，本申请实施例，采用深度神经网络对手势进行检测与识别，降低了误检与漏检的概率，并且基于多帧图像的手势识别结果确定一次手势交互过程的最终手势识别结果，提高了手势识别和手势交互的精度和鲁棒性，改善了用户体验。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本申请一个实施例的手势交互方法的流程示意图；

图2示出了根据本申请另一个实施例的手势交互方法的流程图；

图3示出了根据本申请一个实施例的手部跟踪的流程图；

图4示出了根据本申请一个实施例的终端的结构框图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

图1示出了根据本申请一个实施例的手势交互方法的流程示意图，参见图1，本实施例的手势交互方法包括下列步骤：

步骤S101，在一次手势交互过程中，通过相机拍摄用户的手势，得到原始图像，所述原始图像包括RGB图像；

步骤S102，利用预先训练完成的深度神经网络对所述RGB图像进行手部检测与手势识别，得到第一手势识别结果；

步骤S103，基于多帧所述RGB图像中各帧所述RGB图像的所述第一手势识别结果进行手势分析确认，得到第二手势识别结果；

步骤S104，触发执行与所述第二手势识别结果对应的操作，完成手势交互。

由图1所示可知，本实施例的手势交互方法，获取手势的RGB彩色图像，利用训练好的深度神经网络对RGB彩色图像进行手部检测与手势识别，基于多帧RGB彩色图像的第一手势识别结果进一步分析得到第二手势识别结果，从而触发与第二手势识别结果对应的操作，完成手势交互，这样不仅解决了由于背景复杂、光照条件的急剧变化、手部肤色、手部被物体部分遮挡等带来的误检与漏检概率高的技术问题，而且提高了手势识别精度和鲁棒性，用户体验更好。

手势交互是用户通过做出一定的手势来控制终端执行相应操作的人机交互方式，一次完整的手势交互过程一般包括三个阶段，分别是：用户做出手势→终端识别出用户的手势→终端响应于手势而执行相应的操作。在手势交互过程中，用户手部与终端相机之间的距离不仅影响终端采集手势图像识别手势动作的准确性而且影响用户交互体验，基于此，本申请实施例中既采集同一场景下手势的彩色图像(即RGB图像)又采集深度图像，通过加入深度信息，判断手部与相机之间的距离，方便用户灵活性地调整手势操作距离。也就是说，前述步骤S101中的原始图像还包括深度图像，深度图像与RGB图像属于同一场景；本申请实施例的手势交互方法，根据所述相机标定后的内部参数和外部参数，得到所述RGB图像中手部各像素点对应的深度值并确定出所述相机与用户的手部之间的距离；当所述相机与用户的手部之间的距离满足预设距离条件时，利用预先训练完成的深度神经网络对所述RGB图像进行手部检测与手势识别；当所述相机与用户的手部之间的距离不满足预设距离条件时，控制输出提示信息，提醒用户调整手部与所述相机的距离；其中，所述预设距离条件包括所述相机与用户的手部之间的距离等于预设距离阈值或所述相机与用户的手部之间的距离在预设距离范围内。这里的确定出相机与用户的手部之间的距离，可以通过求RGB图像中手部各像素点对应的深度值的平均值的方式实现。

此外，距离阈值和距离范围可以根据实际需求设定，比如，将预设距离范围设置为30cm-100cm，根据相机标定参数和内参，对彩色图像和深度图像进行对应，得到彩色图像的深度信息，进而得到用户手部与相机之间的距离，如果距离在前述预设距离范围30cm-100cm内，那么即可执行后续的手部检测等步骤，如果距离不在前述预设距离范围30cm-100cm内，那么可以控制终端输出提示信息，提醒用户调整手部与相机之间的距离。以此，增强了手势交互中距离调整的灵活性。

图2示出了根据本申请另一个实施例的手势交互方法的流程图，参见图2，本实施例的手势交互方法包括如下步骤：

步骤S201，获取RGB图像和深度图像。

本步骤中，通过相机获取RGB图像(即彩色图像)和深度图像，输入到本实施例手势交互算法的采集数据线程中。这里的相机比如是RGB-D相机，RGB-D相机可以同时获取物体的RGB彩色图像和深度图像，深度图像是一种将被拍摄对象上各点到相机平面的距离用不同颜色代表呈现的一种图像。注：这里获取深度图像主要是为了调整相机与手部距离使用，后续手部检测和手势识别使用的是RGB图像。

步骤S202，手部检测。

由于人手骨架多样、手型多变的特点，其特征信息很难灵活的获得，人工通过图像处理与建模等方式设计手势描述特征的过程较繁琐、难以挖掘更高层次和更多维度的信息，导致基于此类传统方法很难达到实时检测手部的目的。对此，本实施例通过深度学习在RGB图像上进行手部检测，确定手部在RGB图像中的矩形框。

需要说明的是，本实施例的手势交互基于预先训练完成的深度神经网络，深度神经网络模型训练是离线过程，在实际应用中不需要进行，只需要利用训练好的深度神经网络模型进行手部检测与手势识别即可。这里对深度神经网络模型的训练过程进行简要说明。

(一)手部检测训练

样本采集：根据使用场景需求和环境需求进行数据采集，标注手部区域信息，形成深度学习训练样本，样本数据采集中需保证手部的完整以及清晰。

模型训练：设计深度神经网络，利用标注的手部区域信息进行模型训练，确定深度神经网络的参数，进而确定神经网络模型，以便应用于检测手部。

需要说明的是，为了降低算法复杂度，提高检测效率和检测精度，本实施例中设计一轻量化的神经网络。具体的，对原始网络MobileNet-v2进行剪枝修改，网络的最后一层采用Region_Loss损失函数进行目标位置回归，将激活函数Relu6更换为Relu，将原始网络MobileNet-v2中的多个Block块裁剪掉，仅保留四个Block，即修改后网络包括两个Block-1和两个Block-2共四个网络结构块，四个网络结构块构成深度神经网络的特征提取部分，也称为主干网络。深度神经网络内各网络结构块的功能为现有技术，因此，更多细节可以参见现有技术中对网络结构块的描述，这里不做过多说明。

(二)手势识别训练

样本采集：利用深度信息对深度图像进行过滤，对过滤后的深度图像的手部区域进行分割，并对应到RGB图像上，标注为不同的手势，形成训练样本；

模型训练：使用前述手部检测过程中训练的主干网络对不同手势样本进行训练，确定深度神经网络的相关参数，以便应用于手势识别。

此外，传统图像处理方法易受环境(例如，光照、阴影以及与手部肤色接近的背景)的影响，存在手势的误检测和漏检测情况，为了解决这一技术问题，本实施例利用预先训练完成的深度神经网络对所述RGB图像进行手部检测，得到第一帧所述RGB图像中的手部区域信息，根据第一帧所述RGB图像中的手部区域信息对手部进行跟踪，确定第二帧所述RGB图像中的手部区域信息；基于所述手部区域信息，对各帧所述RGB图像进行手势识别，得到第一手势识别结果。

也就是说，本实施例在第一帧中完成手部检测后采用目标跟踪算法(如MeanShift算法)确定第二帧图像中的手部矩形框。手部跟踪的具体步骤参见图3，

步骤S301，获取RGB图像。

获取相机实时采集场景后得到的RGB图像；

步骤S302，目标(手部)检测。

这里是利用深度神经网络检测并确定出第一帧RGB图像中的手部矩形框。

步骤S303，MeanShift迭代。

利用MeanShift算法的迭代过程实现手部跟踪，具体执行下列步骤：

步骤A：获取检测到的手部矩形框R的色调直方图H，并做归一化处理，将归一化后的H做反向投影，记为Q。

步骤B：用Z_i＝{(x_i,y_j)}_{i＝1...N,j＝1...M}表示Q的N×M个像素的像素点坐标，Z_i对应的像素值为P_ij，(x_c,y_c)为手部矩形框的中心点P对应的坐标，记向量

向量

则MeanShift(均值偏移)向量为：

步骤C：计算中心点P的坐标偏移位置：

步骤D：重复步骤B、C直到

其中ε为一无限小的数值。

步骤S304，新的手部位置；更新目标并返回步骤S302。

迭代结束即确定出第二帧图像中手部的位置。接着，更新目标，即，用跟踪到的第二帧图像中手部位置替换原目标(第一帧图像中手部位置)继续进行跟踪。

步骤S305，输出手部区域。

将步骤S304中确定的第二帧图像中手部的位置信息即手部矩形框输出，以进行手势识别。

需要说明的是，本实施例之所以利用跟踪算法来确定第二帧中的手部是因为现实应用中由于环境因素比如物体遮挡可能导致后续图像中检测不出手部，而实际上后续图像中是存在手部的，即，发生漏检，而利用跟踪算法对第一帧中检测的手部进行跟踪，避免了漏检与误检的发生，从而提高了手部检测精度。这里的第一帧是指第一次检测到手部的那一帧图像。

步骤S203，手势识别。

手势识别是根据步骤S202中跟踪到的手部区域，使用深度神经网络进行手势识别，得到该帧图像的识别结果，即，第一手势识别结果。这里的第一手势识别结果比如是握拳、单指伸出、比V字等手势。

步骤S204，状态判断。

为了降低每一帧手势识别的误识别率，增强算法的鲁棒性，本实施例使用状态机判断机制进一步对手势进行判断，得到更加精确的识别结果，即，基于多帧RGB图像中各帧RGB图像的第一手势识别结果进行手势分析确认，得到第二手势识别结果。最后，将状态机得到的手势识别结果输出，以触发执行与第二手势识别结果对应的操作，完成手势交互。

具体的，根据获取的多帧中每一帧的识别结果进行手势分析确认是通过建立手势队列Buffer，并设置Buffer长度为大于2的自然数，比如根据实际实验结论将buffer大小设为100，用来存储这些帧的识别结果供分析。一般的，为保证手势的完成，每种手势均需持续存在一定的时间，据此，本实施例中终端的相机持续采集用户手势图像，得到各手势对应的视频流，在一次手势交互过程中识别出手势后终端清空Buffer，所以每次手势识别使用的图像数据相对隔离，保证了手势识别的准确性。

本实施例中，基于多帧所述RGB图像中各帧所述RGB图像的所述第一手势识别结果进行手势分析确认，得到第二手势识别结果包括：当各帧所述RGB图像的所述第一手势识别结果指示用户的手势为动态手势时，将各所述第一手势识别结果存储到分析队列中，并按照先进先出方式实时更新所述分析队列，其中，所述第一手势识别结果包括手部特征信息，所述分析队列的长度为大于2的自然数；根据所述分析队列中每相邻两帧所述RGB图像的所述手部特征信息，确定手部运动量；基于各所述手部运动量，得到所述第二手势识别结果，并清空所述分析队列。

以五指张开并挥手这一动态手势为例，对前述手势分析确认，得到第二手势识别结果的过程说明如下。

当深度神经网络判断一帧图像的第一手势识别结果为五指张开的手势时，将该帧图像包含的手部特征信息具体是手部位置信息放在分析队列Buffer中，根据Buffer中的手部位置信息确定手部运动量。比如，Buffer中前后两帧的手部区域中心点坐标分别记为(x_i,y_i)和(x_i+1,y_i+1)，对两中心点的横坐标与纵坐标分别做差分计算：Δx_i＝|x_i-x_i+1|，Δy_i＝|y_i-y_i+1|。最后再将差分进行求和：

其中L为Buffer的大小；

当sumX＞sumY时，则表明用户的手势为五指张开且正在左右挥动。实际应用时，可以设定五指张开左右挥动手势对应的操作指令为文件“左右翻页”等，从而根据手势识别结果执行相应的操作，完成手势交互。

需要说明的是，由于动态手势的动态机制不同，判断动态手势运动轨迹的算法也相应的不同，前述是以五指张开并挥动为例对分析过程进行的说明，不具有普遍性，对于其他动态手势，比如食指伸出并转圈的动态手势的分析确认需要根据该动态手势的运动轨迹设计相应的分析算法，从而准确识别出动态手势。

在另一个实施例中，基于多帧所述RGB图像中各帧所述RGB图像的所述第一手势识别结果进行手势分析确认，得到第二手势识别结果包括：当各帧所述RGB图像的所述第一手势识别结果指示用户的手势为静态手势时，将各所述第一手势识别结果存储到分析队列中，并按照先进先出方式实时更新所述分析队列，其中，所述分析队列的长度为大于2的自然数；当连续第一阈值个所述第一手势识别结果相同和/或所述第一手势识别结果的数目与所述分析队列的长度的比值达到预设第二阈值时，将所述第一手势识别结果作为所述第二手势识别结果，并清空所述分析队列。

前述触发执行与所述第二手势识别结果对应的操作包括：当所述第二手势识别结果满足预设触发条件时，触发执行与所述第二手势识别结果对应的操作，以使得一次手势交互过程中静态手势只触发一次操作；其中，所述预设触发条件为所述第二手势识别结果指示的手势为静态手势且所述第二手势识别结果关联的触发次数为0。也就是说，在状态机中加入标识判断，确保静态手势交互，只触发一次，防止连续触发。这样能够避免用户持续做一个静态手势时，终端连续触发该静态手势对应的操作，影响用户体验的问题。

这里以握拳手势为例对静态手势分析确认，得到第二手势识别结果的过程进行说明。首先，将每一帧的识别结果按照队列的进出方式放在Buffer中，并实时更新Buffer。对Buffer中的各识别结果进行判断，如果连续第一阈值个第一手势识别结果相同和/或第一手势识别结果的数目与分析队列的长度的比值达到预设第二阈值，则将第一手势识别结果作为第二手势识别结果，并清空所述分析队列。比如Buffer中连续N(如N等于20)个第一手势识别结果均为握拳手势，那么可判断本次手势交互过程中用户的手势为握拳，将握拳手势作为第二手势识别结果输出。或者，Buffer中第一手势识别结果的数目与分析队列的长度的比值达到预设第二阈值，如识别结果为握拳手势的数目超过一定百分比(如80％)，则本次手势交互过程中用户的手势为握拳手势，将握拳手势作为第二手势识别结果输出。或者，将第一阈值和第二阈值的判断条件相结合，若Buffer中连续N(比如N等于20)个识别结果均为握拳手势且Buffer中识别结果为握拳手势的数目超过一定百分比(比如80％)，则确定本次手势交互过程中用户的手势为握拳手势。实际应用中，可以预先设定握拳手势对应的操作指令，比如赋予握拳手势的含义为“确定”。

综上可知，本申请实施例的手势交互方法，基于深度学习进行手部检测并识别多种手势，改善了人机交互体验，具有鲁棒性高、精度高、手势操作更加灵活、实时性等优势，在VR虚拟现实及其他终端领域应用前景广阔。

图4示出了根据本申请一个实施例的终端的结构框图，如图4所示，终端400包括：相机401，用于在一次手势交互过程中，通过相机拍摄用户的手势，得到原始图像，所述原始图像包括RGB图像；处理器402，用于利用预先训练完成的深度神经网络对所述RGB图像进行手部检测与手势识别，得到第一手势识别结果；基于多帧所述RGB图像中各帧所述RGB图像的所述第一手势识别结果进行手势分析确认，得到第二手势识别结果；触发执行与所述第二手势识别结果对应的操作，完成手势交互。

在本申请的一个实施例中，所述原始图像还包括与所述RGB图像属于同一场景的深度图像；

所述处理器402，用于根据所述相机标定后的内部参数和外部参数，得到所述RGB图像中手部各像素点对应的深度值并确定出所述相机与用户的手部之间的距离；当所述相机与用户的手部之间的距离满足预设距离条件时，利用预先训练完成的深度神经网络对所述RGB图像进行手部检测与手势识别；当所述相机与用户的手部之间的距离不满足预设距离条件时，控制输出提示信息，提醒用户调整手部与所述相机的距离；其中，所述预设距离条件包括所述相机与用户的手部之间的距离等于预设距离阈值或所述相机与用户的手部之间的距离在预设距离范围内。

在本申请的一个实施例中处理器402，具体用于利用预先训练完成的深度神经网络对所述RGB图像进行手部检测，得到第一帧所述RGB图像中的手部区域信息，根据第一帧所述RGB图像中的手部区域信息对手部进行跟踪，确定第二帧所述RGB图像中的手部区域信息；基于所述手部区域信息，对各帧所述RGB图像进行手势识别，得到第一手势识别结果。

在本申请的一个实施例中，所述处理器402，具体用于当各帧所述RGB图像的所述第一手势识别结果指示用户的手势为动态手势时，将各所述第一手势识别结果存储到分析队列中，并按照先进先出方式实时更新所述分析队列，其中，所述第一手势识别结果包括手部特征信息，所述分析队列的长度为大于2的自然数；根据所述分析队列中每相邻两帧所述RGB图像的所述手部特征信息，确定手部运动量；基于各所述手部运动量，得到所述第二手势识别结果，并清空所述分析队列。

在本申请的一个实施例中处理器402，具体用于当各帧所述RGB图像的所述第一手势识别结果指示用户的手势为静态手势时，将各所述第一手势识别结果存储到分析队列中，并按照先进先出方式实时更新所述分析队列，其中，所述分析队列的长度为大于2的自然数；当连续第一阈值个所述第一手势识别结果相同和/或所述第一手势识别结果的数目与所述分析队列的长度的比值达到预设第二阈值时，将所述第一手势识别结果作为所述第二手势识别结果，并清空所述分析队列。

在本申请的一个实施例中处理器402，具体用于当所述第二手势识别结果满足预设触发条件时，触发执行与所述第二手势识别结果对应的操作，以使得一次手势交互过程中静态手势只触发一次操作；其中，所述预设触发条件为所述第二手势识别结果指示的手势为静态手势且所述第二手势识别结果关联的触发次数为0。

需要说明的是，上述终端实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行，在此不再赘述。

本发明的另一个实施例提供一种计算机可读存储介质，计算机可读存储介质存储计算机指令，计算机指令使所述计算机执行上述的手势交互方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图的一个流程或多个流程和/或方框图的一个方框或多个方框中指定的功能的装置。

需要说明的是术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，正如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

以上所述，仅为本发明的具体实施方式，在本发明的上述教导下，本领域技术人员可以在上述实施例的基础上进行其他的改进或变形。本领域技术人员应该明白，上述的具体描述只是更好的解释本发明的目的，本发明的保护范围以权利要求的保护范围为准。

Claims

1.一种手势交互方法，其特征在于，该手势交互方法包括：

2.如权利要求1所述的手势交互方法，其特征在于，所述原始图像还包括与所述RGB图像属于同一场景的深度图像；

根据所述相机标定后的内部参数和外部参数，得到所述RGB图像中手部各像素点对应的深度值并确定出所述相机与用户的手部之间的距离；

当所述相机与用户的手部之间的距离满足预设距离条件时，利用预先训练完成的深度神经网络对所述RGB图像进行手部检测与手势识别；

当所述相机与用户的手部之间的距离不满足预设距离条件时，控制输出提示信息，提醒用户调整手部与所述相机的距离；

其中，所述预设距离条件包括所述相机与用户的手部之间的距离等于预设距离阈值或所述相机与用户的手部之间的距离在预设距离范围内。

3.如权利要求1所述的手势交互方法，其特征在于，所述利用预先训练完成的深度神经网络对所述RGB图像进行手部检测与手势识别，得到第一手势识别结果包括：

利用预先训练完成的深度神经网络对所述RGB图像进行手部检测，得到第一帧所述RGB图像中的手部区域信息，根据第一帧所述RGB图像中的手部区域信息对手部进行跟踪，确定第二帧所述RGB图像中的手部区域信息；

基于所述手部区域信息，对各帧所述RGB图像进行手势识别，得到所述第一手势识别结果。

4.如权利要求1或2所述的手势交互方法，其特征在于，所述基于多帧所述RGB图像中各帧所述RGB图像的所述第一手势识别结果进行手势分析确认，得到第二手势识别结果包括：

当各帧所述RGB图像的第一手势识别结果指示用户的手势为动态手势时，将各第一手势识别结果存储到分析队列中，并按照先进先出方式实时更新所述分析队列，其中，所述第一手势识别结果包括手部特征信息，所述分析队列的长度为大于2的自然数；

根据所述分析队列中每相邻两帧所述RGB图像的所述手部特征信息，确定手部运动量；

基于各所述手部运动量，得到所述第二手势识别结果，并清空所述分析队列。

5.如权利要求1或2所述的手势交互方法，其特征在于，所述基于多帧所述RGB图像中各帧所述RGB图像的所述第一手势识别结果进行手势分析确认，得到第二手势识别结果包括：

当各帧所述RGB图像的第一手势识别结果指示用户的手势为静态手势时，将各第一手势识别结果存储到分析队列中，并按照先进先出方式实时更新所述分析队列，其中，所述分析队列的长度为大于2的自然数；

当连续第一阈值个所述第一手势识别结果相同和/或所述第一手势识别结果的数目与所述分析队列的长度的比值达到预设第二阈值时，将所述第一手势识别结果作为所述第二手势识别结果，并清空所述分析队列。

6.如权利要求5所述的手势交互方法，其特征在于，所述触发执行与所述第二手势识别结果对应的操作包括：

当所述第二手势识别结果满足预设触发条件时，触发执行与所述第二手势识别结果对应的操作，以使得一次手势交互过程中静态手势只触发一次操作；

其中，所述预设触发条件为第二手势识别结果指示的手势为静态手势且所述第二手势识别结果关联的触发次数为0。

7.一种终端，其特征在于，该终端包括：

8.如权利要求7所述的终端，其特征在于，所述原始图像还包括与所述RGB图像属于同一场景的深度图像；

所述处理器，用于根据所述相机标定后的内部参数和外部参数，得到所述RGB图像中手部各像素点对应的深度值并确定出所述相机与用户的手部之间的距离；当所述距离满足预设距离条件时，利用预先训练完成的深度神经网络对所述RGB图像进行手部检测与手势识别；当所述距离不满足预设距离条件时，控制输出提示信息，提醒用户调整手部与所述相机的距离；其中，所述预设距离条件包括所述距离等于预设距离阈值或所述距离在预设距离范围内。

9.如权利要求7所述的终端，其特征在于，所述处理器，具体用于利用预先训练完成的深度神经网络对所述RGB图像进行手部检测，得到第一帧所述RGB图像中的手部区域信息，根据第一帧所述RGB图像中的手部区域信息对手部进行跟踪，确定第二帧所述RGB图像中的手部区域信息；

基于所述手部区域信息，对各帧所述RGB图像进行手势识别，得到第一手势识别结果。

10.如权利要求7或8所述的终端，其特征在于，

所述处理器，具体用于当各帧所述RGB图像的第一手势识别结果指示用户的手势为动态手势时，将各第一手势识别结果存储到分析队列中，并按照先进先出方式实时更新所述分析队列，其中，所述第一手势识别结果包括手部特征信息，所述分析队列的长度为大于2的自然数；根据所述分析队列中每相邻两帧所述RGB图像的所述手部特征信息，确定手部运动量；基于各所述手部运动量，得到所述第二手势识别结果，并清空所述分析队列。