CN110084192A

CN110084192A - 基于目标检测的快速动态手势识别系统及方法

Info

Publication number: CN110084192A
Application number: CN201910344106.6A
Authority: CN
Inventors: 周献中; 白云超; 杨佩; 李东坡; 王砾
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2019-08-02
Anticipated expiration: 2039-04-26
Also published as: CN110084192B

Abstract

本发明公开了一种基于目标检测的快速动态手势识别系统，包括体姿采集模块，特征提取模块和手势识别模块。体姿采集模块将Kinect采集的身体骨骼姿态视频数据用于特征提取模块和手势识别模块，特征提取模块将训练好的模型用于手势识别模块。体姿采集模块包括Kinect骨骼获取单元，是利用Kinect摄像机采集人体的骨骼动作；特征提取模块包括数据预处理单元、目标检测单元和模型训练单元，主要用于训练人体的手势动作。手势识别模块包括数据接收单元、动态手势建模单元和ASIA手势识别单元，主要用于快速识别出动态手势的类型。本发明设计了一种关于识别动态手势的目标检测算法、综合指标和基于自适应抽样间隔调整策略(ASIA)，使得动态手势识别更加快速高效。

Description

基于目标检测的快速动态手势识别系统及方法

技术领域

本发明涉及人机交互技术领域，特别是手势交互技术领域，具体是一种基于目标检测的快速动态手势识别系统及方法。

背景技术

在人机交互领域，随着人工智能、模式识别等技术的飞速发展，人与计算机之间的交互越来越频繁，传统的接触式交互方式己经不能满足人们的需求，研究新型的、符合人的交流习惯的交互方式成为了近几年的研究热点。手势交互作为人机交互的主要通道之一，是交互领域重要的研究话题。在现有手势识别技术中，基于穿戴设备的手势识别，用户体验感差，操作前的准备麻烦；基于肌电信号的手势识别，使用环境受限，在潮湿的环境下以及出汗后都不能使用。而目前现有基于非侵入式手势识别方法，识别的手势单一，对于易混淆的手势识别概率较低。

现有针对动态手势识别的方法主要包括基于模板匹配的方法、基于统计概率的方法和基于语法的方法三类。其中基于模板匹配的方法是预先训练好要识别的手势样本，将待识别的手势与其匹配，这种方法操作简单，但是识别精度不高。基于概率统计的方法将识别任务定义为计算变量的概率分布，这种方法识别精度较高，但是由于计算强度较高，识别时间较长。基于语法的方法是通过手势轨迹的有限状态机，实现对预定义轨迹的判断，这种方法难点在于构建有效的特征字典和有限状态机模型。

中国专利申请(CN107688773A)公开了一种基于深度卷积神经网络的动态手势轨迹识别方法，该发明采用形状识别和方向识别，对手势轨迹点序列提供带有方向的动态手势识别服务。但是，该专利利用深度卷积神经网络只对归一化的手势轨迹的进行训练，并把手势轨迹点序列进行边缘化处理，由于不同人做相同手势动作的轨迹不同，同一个人做相同动作距离摄像头远近不同轨迹也不尽相同。因此在识别动态手势时对使用者的动作要求很高，不具有普遍应用性。

中国专利申请(CN105740823A)公开了一种基于深度学习的手势识别方法，能够对VIVA数据集中的手势进行较为准确的识别，包括数据预处理，卷积神经网络分类器设计，卷积神经网络分类器训练等步骤，在深度学习的层次对手势识别做出探索。但是，该专利主要应用于静态手势识别，应用范围也较小，使用比较复杂。对于动态手势的识别，还需要进一步探索和研究。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于目标检测的快速动态手势识别系统及方法，通过Kinect2.0设备采集人体的骨骼图像，设计了一种关于识别动态手势的目标检测算法和综合指标，并结合基于自适应抽样间隔调整策略，使得动态手势识别更加快速高效。

技术方案：为解决上述技术问题，本发明的一种基于目标检测的快速动态手势识别系统，包括体姿采集模块，特征提取模块和手势识别模块；体姿采集模块包括Kinect骨骼获取单元，利用Kinect摄像机采集身体骨骼姿态视频数据，并将数据送至特征提取模块和手势识别模块；特征提取模块用于训练人体的手势动作，包括数据预处理单元、目标检测单元和模型训练单元；手势识别模块用于快速识别出手势动作的类型，包括数据接收单元、动态手势建模单元和ASIA手势识别单元。

优选地，所述数据预处理单元用于对Kinect采集的动态手势进行分解，获得一系列静态图片，然后对图片中的手势进行归一化标记和对标记后的图片与相应文件压缩处理；对图片中的手势进行归一化标记是指每一类动态手势中的所有手臂姿态标记为同一种类别。

优选地，所述目标检测单元用于将CAMshift算法应用到多尺度特征图预测算法中，以适应动态手势形状的改变，并增强目标检测算法对视频数据中运动物体的跟踪能力；所述多尺度特征图预测算法是单个深层神经网络检测图像中目标的模型。

优选地，所述模型训练单元包括对目标检测模型的权值初始化，计算预测结果与真实标签之间的误差损失，根据误差进行权值跟新，直到损失结果达到最小；所述预测结果与真实标签之间的误差损失包括位置损失和置信损失。

优选地，所述数据接收单元用于将Kinect采集的骨骼图像视频传递到手势识别模块中。

优选地，所述动态手势建模单元用于将动态手势看成一系列手势姿态，然后设计一种手势识别的综合指标，确定检测动态手势的抽样间隔；所述手势识别的综合指标是识别概率和识别时间的加权和；所述识别概率是指每个手势姿态在正确类标上的概率。

优选地，所述ASIA手势识别单元包括识别界面、基于自适应抽样间隔调整策略和动态手势识别算法；所述识别界面包括视频展示区域、控制按钮和输出展示区域；所述控制按钮包括开始和停止；所述的基于自适应抽样间隔调整策略是指在检测识别动态手势时，根据综合指标自动调节抽样间隔；所述的动态手势识别算法是利用训练好的目标检测模型对动态手势进行抽样检测识别，然后根据识别结果计算出手势的类型。

优选地，训练手势动作包括数据集采集，数据处理，模型搭建和模型训练。

本发明还提供一种基于目标检测的动态手势识别方法，包括以下步骤：

(1)利用Kinect获取人体的骨骼图像，并采集骨骼图像下的手势动作视频；

(2)获取多组动态手势视频，将动态手势视频分解成一系列静态图片；

(3)对相同的动态手势分解成图片中的手势姿态标记成一个类别，然后对标记后的图片与相应文件压缩处理；将CAMshift算法应用到多尺度特征图预测算法构造出本文的目标检测单元，以适应手势形状的改变，并增强模型对动态手势的跟踪能力；

(4)利用目标检测单元和步骤(3)中的压缩文件对模型中的参数进行训练，如果训练中的准确率达到所需要求，则停止训练，进入步骤(5)；否则，继续训练；

(5)打开Kinect和识别界面，将目标检测模型的结构文件应用到动态手势识别算法中并开始，用户做相应的动态手势；停止后，输出结果展示该动态手势的类型；

(6)当识别动态手势时，如果手势识别的综合指标逐渐增大，抽样间隔会自动增大；如果综合指标会逐渐减小，抽样间隔也随之变小。

有益效果：本发明具有以下有益效果：

1、本发明针对动态手势设计了一种目标检测算法，该算法是将CAMshift算法应用到SSD算法中，能适应检测目标微小的改变，并增强对目标检测算法的跟踪能力。通过实时定位跟踪移动的手势姿态，可以提高识别的效率。

2、本发明利用骨骼姿态识别动态手势，不同于手势轨迹，人类做相同动作骨骼的姿态是相同的，不存在远近大小之分，利用不同的动态手势手部关节的骨骼姿态也不同的特点，实现对动态手势的识别，甚至对复杂易混淆的动态手势识别。

3、本发明设计了一种动态手势识别的综合指标，将识别概率和识别时间有效结合，根据综合指标的来确定最佳抽样间隔，从而提高手势识别的效率。

4、本发明设计了一种动态手势的自适应抽样间隔调整策略，当相同用户做不同手势动作或者不同用户做相同的动作时，所需的时间不同，如果按照相同的抽样间隔，会降低手势识别的效率。因此通过实时计算用户做手势动作时的综合指标，可以自动的确认最新抽样间隔，从而使识别速度更快。

附图说明

图1为本发明基于目标检测的快速动态手势识别系统的结构示意图；

图2为本发明的整体框架图；

图3为Kinect骨骼获取单元示意图；

图4为特征提取模块流程图；

图5为目标检测单元框架图；

图6为动态手势识别模块流程图；

图7为识别界面示意图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示，本发明的一种基于目标检测的快速动态手势识别系统，包括体姿采集模块，特征提取模块和手势识别模块；体姿采集模块包括Kinect骨骼获取单元，利用Kinect摄像机采集身体骨骼姿态视频数据，并将数据送至特征提取模块和手势识别模块；特征提取模块用于训练人体的手势动作，训练手势动作包括数据集采集，数据处理，模型搭建和模型训练这几个部分。特征提取模块包括数据预处理单元、目标检测单元和模型训练单元；手势识别模块用于快速识别出手势动作的类型，其包括数据接收单元、动态手势建模单元和ASIA手势识别单元。所述数据预处理单元用于对Kinect采集的动态手势进行分解，获得一系列静态图片，然后对图片中的手势进行归一化标记和对标记后的图片与相应文件压缩处理；对图片中的手势进行归一化标记是指每一类动态手势中的所有手臂姿态标记为同一种类别。所述目标检测单元用于将CAMshift算法应用到多尺度特征图预测算法中，以适应动态手势形状的改变，并增强目标检测算法对视频数据中运动物体的跟踪能力；所述多尺度特征图预测算法是单个深层神经网络检测图像中目标的模型；所述CAMshift算法即连续的自适应均值漂移算法。所述模型训练单元包括对目标检测模型的权值初始化，计算预测结果与真实标签之间的误差损失，根据误差进行权值跟新，直到损失结果达到最小；所述预测结果与真实标签之间的误差损失包括位置损失和置信损失。所述数据接收单元用于将Kinect采集的骨骼图像视频传递到手势识别模块中。所述动态手势建模单元用于将动态手势看成一系列手势姿态，然后设计一种手势识别的综合指标，确定检测动态手势的抽样间隔；所述手势识别的综合指标是识别概率和识别时间的加权和；所述识别概率是指每个手势姿态在正确类标上的概率。所述ASIA手势识别单元包括识别界面、基于自适应抽样间隔调整策略和动态手势识别算法；所述识别界面包括视频展示区域、控制按钮和输出展示区域；所述控制按钮包括开始和停止；所述的基于自适应抽样间隔调整策略是指在检测识别动态手势时，根据综合指标自动调节抽样间隔；所述的动态手势识别算法是利用训练好的目标检测模型对动态手势进行抽样检测识别，然后根据识别结果计算出手势的类型。

本发明提供了一种关于识别动态手势的目标检测算法和综合指标，并结合基于自适应抽样间隔调整策略，使得动态手势识别更加快速高效。

本发明的交互系统由硬件和软件两部分组成。硬件部分包括Kinect 2.0和个人电脑。Kinect2.0是微软公司自主研发的一款体感外设产品，它由彩色摄像头、深度摄像头、红外摄像头等部分组成，使用方便简单，不需要任何穿戴设备，采集手势的范围较广。软件部分，体姿采集模块是基于Visual Studio 2012平台开发的，特征提取模块和手势识别模块是基于Python 3.6开发的，它们之间通过实时消息传输rtmp协议进行信息传递。运行环境：处理器为Intel(R)Core i5-4460m，内存16.00GB，显卡为GXT 1060。整体结构如图2所示。

本发明中，Kinect 2.0综合了计算机视觉处理算法和空间定位性能，可以利用高分辨率对空间中的细微变动进行识别。且不受光照、背景等因素的影响，从而提高了骨骼图像下手势轨迹的稳定性和鲁棒性。

如图3所示，本发明的Kinect 2.0骨骼获取单元的步骤主要有以下部分：首先Kinect 2.0会对获取的深度图像进行逐点扫描，挑选出属于人体的像素点，将人物的深度图像从场景图像中抽离出来。然后根据人体的特征值来对各个关节进行定位。最后，除去人体的轮廓图像，只保留人体的骨骼图像。

体姿采集模块获得人体骨骼图像后，特征提取模块根据实时消息传输协议会接收到Kinect骨骼获取单元所得到的动态手势的视频。如图4所示，数据预处理单元首先会将动态手势分解成帧图像，然后对每帧图像中的手势的姿态打标签，最后对标记后的图片与相应文件压缩处理，因为在训练时使用压缩文件进行数据读取，会提高内存的利用率。目标检测单元主要是搭建本文中的目标检测模型。模型训练单元在训练动态手势时，首先对对改进模型的权值初始化；然后计算计算预测结果与真实标签之间的总误差损失，总误差损失函数是定位损失和置信损失的加权和，由于采用CAMshift算法，所以主要是置信损失带来的误差；最后随着训练的进行，总误差损失会不断减小，直到满足要求，将带有参数的网络模型生成目标检测模型的结构文件。

特征提取模块中的目标检测单元分为两部分，首先通过基于多尺度特征图预测SSD目标检测算法训练手势检测模型，将测试图像输入到网络模型中进行检测，检测出测试图片中的手臂的位置并框出，然后利用CAMshift跟踪算法实现对运动手臂的实时跟踪，CAMshift算法也被称为连续自适应的均值漂移算法，CAMshift算法首先对视频序列帧作均值漂移运算，对于每帧图像转换为概率分布图像之后，均值漂移算法对该图像中的待搜索区域的每个像素点进行运算，计算帧内离散样本的最大密度，从而产生相对于初始中心的偏移平均值，将中心点移动到最大密度，并对目标检测器在下一帧得到的目标帧进行加权，解决了目标跟踪上下帧数据关联问题。

在图5中，本发明的目标检测单元的框架图描述了SSD算法在t时刻检测图像中的多种手势，并使用CAMshift跟踪每个目标。在t+1时刻，SSD算法也会检测多个目标，但是SSD检测不到类别3，此时可以通过CAMshift进行跟踪，位置损失达到最小，提高检测的准确率。

在图6中，本发明的动态手势识别模块中的数据接收单元可以获取体姿采集模块中的用户动作视频数据，对于用户的动态手势是以视频的方式得到。由于动态手势视频的图像中有较多的信息冗余，会降低识别算法的准确率，也会导致较高的识别时间。因此在数据接收单元中设有抽样间隔，通过抽样后的动态手势会降低冗余，提高识别效率。

动态手势建模单元是将动态手势G设为G＝{x₁,x₂,…x_m}，其中x₁,x₂,…x_m是动态手势中手肘关节的姿态图。假设识别过程中有n类动态手势，动态手势识别算法会对动态手势中每张图进行检测识别。对于第m张姿态图x_m，算法预测其属于每一类的概率为P_m＝(P_1m,P_2m,...P_nm)^T，其中P_nm是预测x_m属于第n类的概率。综合在每个姿态上的预测概率，可以得到在动态手势G上整体预测概率：因此，算法对于动态手势G的识别概率P*可以表示为：

在一定范围内，使用动态手势中的姿态图越多，算法判断的准确率越高。但是，过多的图片会导致识别时间过长。因此，可以调节数据接收单元的抽样间隔来平衡识别概率和识别时间，如图6所示，不同手势相同间隔下的示意图。本发明设计了一种手势识别的综合指标R^WSM，它是识别概率和识别时间的加权和。综合指标的公式为R^WSM＝w₁[α′(1-P^*)]+w₂t，其中w₁和w₂代表用户给出的权重，α′代表归一化参数，t表示识别时间。在不同的场景下，用户关注点不同，给出的权重和参数也不同。当R^WSM不在减小时，手势识别的效率达到最优，此时的抽样间隔最佳。

自适应动态手势识别单元可以自动调节识别动态手势的抽样间隔，它根据实时计算用户做手势动作时的综合指标，与上一个的综合指标对比，从而决定是否增大或者减小抽样间隔。首先增大抽样间隔，如果综合指标变大，则需要减小抽样间隔；如果综合指标变小，则可以继续增大抽样间隔。当点击控制界面的开始按钮时，用户可以在Kinect面前挥动手臂；当点击控制界面的停止按钮时，动态手势识别算法会根据识别的结果确定手势的类型。

如图7所示，本实施例的识别界面中主要包括视频展示区域、输出展示区域和控制按钮。视频展示区域用于输出自适应动态手势识别单元对动态手势识别后的视频，视频中包括用户的骨骼图像，对动态手势的检测框和检测的类别及概率。视频展示区域是为了输出检测动态手势的抽样间隔、识别结果和识别时间，其中识别时间的单位是秒。控制按钮包括“开始检测”和“退出”，用于启动或者关闭自适应动态手势识别单元。

本发明还提供一种基于目标检测的快速动态手势识别方法，具体步骤如下：

(1)利用Kinect获取人体的骨骼图像，并采集骨骼图像下的手势动作视频；具体地，用户先确定要识别的手势类型，然后使用Kinect 2.0获取人体的骨骼图像，并采集骨骼图像下的手势动作视频；

(2)获取多组动态手势视频，将动态手势视频分解成一系列静态图片；例如用户想要识别右手画圆圈的动作，需要做多次，采集多组视频，这样训练的数据集更充分。

(4)利用目标检测单元和步骤(3)中的压缩文件对模型中的参数进行训练，如果训练中的准确率达到所需要求，则停止训练，进入步骤(5)；否则，继续训练；如，在步骤(2)的基础上，将采集的右手画圆圈的训练集标记成一个类别，然后对标记后的图片与相应文件压缩处理，最后放入目标检测单元中进行训练，训练过程如图4所示，训练完成后，将带有参数的网络模型制作成目标检测模型的结构文件。本步骤中目标检测单元是将CAMshift算法应用到SSD模型中而构造出的目标检测模型，如图6所示，这样的模型能够适应手势的形状的改变，并增强对动态手势的跟踪能力。

(5)打开Kinect2.0和识别界面，将目标检测模型的结构文件应用到动态手势识别算法中并开始，用户做相应的动态手势；停止后，输出结果展示该动态手势的类型；

(6)当识别动态手势时，如果手势识别的综合指标逐渐增大，抽样间隔会自动增大；如果综合指标会逐渐减小，抽样间隔也随之变小。手势识别的过程中，抽样间隔可默认为8，即对于采集到的动态手势视频每隔8帧检测一次。本发明中加入了基于自适应抽样间隔调整策略，当手势动作变慢时，抽样间隔会变大；当手势动作变快时，抽样间隔会变小，这样的策略会提高动态手势的检测识别效率。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于目标检测的快速动态手势识别系统，其特征在于：包括体姿采集模块，特征提取模块和手势识别模块；体姿采集模块包括Kinect骨骼获取单元，利用Kinect摄像机采集身体骨骼姿态视频数据，并将数据送至特征提取模块和手势识别模块；特征提取模块用于训练人体的手势动作，包括数据预处理单元、目标检测单元和模型训练单元；手势识别模块用于快速识别出手势动作的类型，包括数据接收单元、动态手势建模单元和ASIA手势识别单元。

2.根据权利要求1所述的基于目标检测的快速动态手势识别系统，其特征在于：所述数据预处理单元用于对Kinect采集的动态手势进行分解，获得一系列静态图片，然后对图片中的手势进行归一化标记和对标记后的图片与相应文件压缩处理；对图片中的手势进行归一化标记是指每一类动态手势中的所有手臂姿态标记为同一种类别。

3.根据权利要求1所述的基于目标检测的快速动态手势识别系统，其特征在于：所述目标检测单元用于将CAMshift算法应用到多尺度特征图预测算法中，以适应动态手势形状的改变，并增强目标检测算法对视频数据中运动物体的跟踪能力；所述多尺度特征图预测算法是单个深层神经网络检测图像中目标的模型。

4.根据权利要求1所述的基于目标检测的快速动态手势识别系统，其特征在于：所述模型训练单元包括对目标检测模型的权值初始化，计算预测结果与真实标签之间的误差损失，根据误差进行权值跟新，直到损失结果达到最小；所述预测结果与真实标签之间的误差损失包括位置损失和置信损失。

5.根据权利要求1所述的基于目标检测的快速动态手势识别系统，其特征在于：所述数据接收单元用于将Kinect采集的骨骼图像视频传递到手势识别模块中。

6.根据权利要求1所述的基于目标检测的快速动态手势识别系统，其特征在于：所述动态手势建模单元用于将动态手势看成一系列手势姿态，然后设计一种手势识别的综合指标，确定检测动态手势的抽样间隔；所述手势识别的综合指标是识别概率和识别时间的加权和；所述识别概率是指每个手势姿态在正确类标上的概率。

7.根据权利要求1所述的基于目标检测的快速动态手势识别系统，其特征在于：所述ASIA手势识别单元包括识别界面、基于自适应抽样间隔调整策略和动态手势识别算法；所述识别界面包括视频展示区域、控制按钮和输出展示区域；所述控制按钮包括开始和停止；所述的基于自适应抽样间隔调整策略是指在检测识别动态手势时，根据综合指标自动调节抽样间隔；所述的动态手势识别算法是利用训练好的目标检测模型对动态手势进行抽样检测识别，然后根据识别结果计算出手势的类型。

8.根据权利要求1所述的基于目标检测的快速动态手势识别系统，其特征在于：训练手势动作包括数据集采集，数据处理，模型搭建和模型训练。

9.一种基于目标检测的动态手势识别方法，其特征在于，包括以下步骤：