CN108256421A

CN108256421A - 一种动态手势序列实时识别方法、系统及装置

Info

Publication number: CN108256421A
Application number: CN201711267477.6A
Authority: CN
Inventors: 黄劲; 朱德明
Original assignee: Ying Sheng Information Technology Co Ltd
Current assignee: Ying Sheng Information Technology Co Ltd
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2018-07-06

Abstract

本发明公开了一种动态手势序列实时识别方法、系统及装置，方法包括：分别采集含有待识别对象的彩色图像和深度图像；根据采集的彩色图像和深度图像进行人体区域检测与分割，得到人体区域；在人体区域中进行手部区域的检测与分割，得到手部区域；根据手部区域，采用具备光照不变性的肤色模型以及基于高斯分布的椭圆边界模型进行手部的动态跟踪；根据手部动态跟踪的结果，采用基于手势轨迹和静态姿态匹配的方法进行时空手势序列检测，得到动态手势序列；对动态手势序列进行建模和分类。本发明通过深度信息、具备光照不变性的肤色模型以及基于高斯分布的椭圆边界模型提升了手势识别的鲁棒性，识别效果好，可广泛应用于人工智能和计算机视觉领域。

Description

一种动态手势序列实时识别方法、系统及装置

技术领域

本发明涉及人工智能和计算机视觉领域，尤其是一种动态手势序列实时识别方法、系统及装置。

背景技术

人机交互(HRI)是一个在计算机视觉中的研究领域。基于视觉的手势识别已经被许多研究人员研究了很多年。然而，由于手势识别在实际应用中的困难(例如复杂的背景和光照条件)，动态手势识别仍然是一个挑战。

一个动态手势识别系统，一般包括手势检测/跟踪模块、手势识别模块、手势建模模块和分类模块。基于颜色信息的肤色分割和二维/三维模板匹配被广泛应用于检测颜色空间中的手部区域。然而，光照对皮肤颜色分布有很大的影响，使其与手工模板的匹配受到复杂背景的严重干扰。近年来，由于引入了深度传感器，使得研究人员能利用深度信息对手部区域进行检测与跟踪，以提高手势识别的性能，使手势识别对凌乱的背景鲁棒性更好。轨迹跟踪是动态手势识别的一个重要步骤，在线的动态手势识别依赖于有效的手势轨迹跟踪，并应用于数学模型如Hidden Markov模型(HMM)、输入输出Hidden Markov模型(IOHMM)、隐式条件随机域(HCRF)等。

然而，目前的手势识别方法并未克服肤色易受光照影响的缺陷，鲁棒性不强，识别效果有待进一步提升。

发明内容

为解决上述技术问题，本发明的目的在于：提供一种鲁棒性强和识别效果好的动态手势序列实时识别方法、系统及装置。

本发明所采取的第一技术方案是：

一种动态手势序列实时识别方法，包括以下步骤：

分别采集含有待识别对象的彩色图像和深度图像；

根据采集的彩色图像和深度图像进行人体区域检测与分割，得到人体区域；

在人体区域中进行手部区域的检测与分割，得到手部区域；

根据手部区域，采用具备光照不变性的肤色模型以及基于高斯分布的椭圆边界模型进行手部的动态跟踪；

根据手部动态跟踪的结果，采用基于手势轨迹和静态姿态匹配的方法进行时空手势序列检测，得到动态手势序列；

对动态手势序列进行建模和分类。

进一步，所述根据采集的彩色图像和深度图像进行人体区域检测与分割，得到人体区域这一步骤，具体包括：

使用二维头部模板及距离匹配算法在采集的深度图像中搜索可能的头部区域；

使用带有深度信息的三维头部模板从可能的头部区域中删除不匹配的区域；

使用区域增长算法从删除不匹配区域后的区域中分割得到深度图像的人体区域；

根据深度图像的人体区域计算背景掩码，进而根据背景掩码在采集的彩色图像中分割人体区域。

进一步，所述在人体区域中进行手部区域的检测与分割，得到手部区域这一步骤，具体包括：

采用边缘检测算法计算深度图像的人体区域的二值边缘图像；

从计算的二值边缘图像中滑窗选择待匹配区域，并采用倒角距离匹配法与二维手部模板进行匹配检测，得到若干个候选手部区域，所述倒角距离匹配法中倒角距离的计算公式为：

其中，d_charm(U_T,V_Q)为U_T中的点与V_Q中的点的倒角距离，U_T为二维手部模板边缘的点集，V_Q为待匹配区域的边缘图像的点集，u_i为U_T中的第i个点，i＝1，2，…，n；n为U_T的总点数，u_j为V_Q中第j个点，j＝1，2，…，m；m为V_Q的总点数；

计算每个候选手部区域的匹配得分，并根据计算的匹配得分从所有候选手部区域中选出最终的手部区域，所述候选手部区域的匹配得分M_score的表达式为：

其中，s_max表示所有候选手部区域中最大的深度距离，s_candidate表示当前候选区域的深度距离，d_cham表示当前候选区域的点与二维手部模板的点的倒角距离。

进一步，所述根据手部区域，采用具备光照不变性的肤色模型以及基于高斯分布的椭圆边界模型进行手部的动态跟踪这一步骤，具体包括：

将给定的肤色样本中肤色的色彩空间转换为YCbCr空间，并通过多元高斯模型拟合肤色在Y、Cb和Cr这三个通道的概率统计分布，从而得到肤色模型和基于高斯分布的椭圆边界模型的联合概率分布函数，所述得到的联合概率分布函数表达式为：

其中，p(x/skin)为在肤色skin的概率分布下的x对应的像素的似然值，x为像素的色彩向量，且x为d维随机变量，μ为训练样本肤色的高斯均值，T为转置，∑为训练样本的高斯协方差矩阵，∑^-1为∑的逆矩阵；

计算像素的色彩向量与训练样本肤色的高斯均值间的马氏距离，并结合预设的马氏距离阈值确定手部检测的边界模型，所述手部检测的边界模型将计算的马氏距离小于预设的马氏距离阈值对应的区域作为手部跟踪区域；

采用目标跟踪算法对手部跟踪区域内手部在每一图像帧中的位置进行动态跟踪。

进一步，所述根据手部动态跟踪的结果，采用基于手势轨迹和静态姿态匹配的方法进行时空手势序列检测，得到动态手势序列这一步骤，具体包括：

在手部动态跟踪过程中进行时空手势序列检测及静态手势识别；

在手部动态跟踪过程中进行时空手势序列的特征提取，以实现动态手势轨迹的量化。

进一步，所述在手部动态跟踪过程中进行时空手势序列检测及静态手势识别这一步骤，具体包括：

采用两个预设的静态手形来标记动态手势的开始和结束手势；

在手部动态跟踪过程中，在每个图像帧中使用倒角距离匹配法识别静态的手部姿态。

进一步，所述在手部动态跟踪过程中进行时空手势序列的特征提取，以实现动态手势轨迹的量化这一步骤，具体包括：

记录在手部动态跟踪过程中手形质心的二维坐标序列点作为质心点，并结合方向、位置和速度生成质心点轨迹的特征向量，所述质心点的方向采用东、南、西、北、东南、东北、西南和西北这8个方向的方向向量来表示，所述质心点的位置采用手势的三维坐标来表示，所述质心点的速度等于三维坐标系中两个相邻图像帧质心点间的欧氏距离差值除以两个相邻图像帧间的持续时间；

对给定训练样本的质心点轨迹的特征向量集采用Mean Shift算法和欧氏距离来进行离散化，得到手势序列的离散形式，所述Mean Shift算法将所有的特征向量分为k个簇，并根据与簇平均值的欧氏距离为每个新输入的特征向量指定一个簇。

进一步，所述对动态手势序列进行建模和分类这一步骤，具体包括：

对动态手势序列中每个手势轨迹的所有特征向量采用Mean Shift算法聚类至k个簇，并为每个簇分配一个簇索引；

采用左-右带状拓扑结构确定离散隐马尔可夫模型的隐藏状态和观察符号，所述离散隐马尔可夫模型的隐藏状态S表示为S＝{S₁，S₂……S_k}，所述离散隐马尔可夫模型的观察符号O表示为O＝{O₁，O₂，……，O_k}，其中，S_k和O_k分别代表第k个簇对应的隐藏状态和簇索引；

将新输入的手势轨迹转换为观察符号输入到离散隐马尔可夫模型中，从而得到新输入的手势轨迹对应的手势分类，所述新输入的手势轨迹对应的手势分类L表达式为：

L＝argmax{P(O|<πL,AL,BL>)},L∈[1,M]，

其中，<π_L,A_L,B_L>代表离散隐马尔可夫模型参数，π_L、A_L和B_L分别表示L对应的初始状态概率向量、转移概率矩阵和观察符号概率矩阵，M表示手势的总类别，P(O|<π_L,A_L,B_L>)表示在模型参数<π_L,A_L,B_L>下观察符号O的出现概率。

本发明所采取的第二技术方案是：

一种动态手势序列实时识别系统，包括：

采集模块，用于分别采集含有待识别对象的彩色图像和深度图像；

人体区域获取模块，用于根据采集的彩色图像和深度图像进行人体区域检测与分割，得到人体区域；

手部区域获取模块，用于在人体区域中进行手部区域的检测与分割，得到手部区域；

动态跟踪模块，用于根据手部区域，采用具备光照不变性的肤色模型以及基于高斯分布的椭圆边界模型进行手部的动态跟踪；

时空手势序列检测模块，用于根据手部动态跟踪的结果，采用基于手势轨迹和静态姿态匹配的方法进行时空手势序列检测，得到动态手势序列；

建模和分类模块，用于对动态手势序列进行建模和分类。

本发明所采取的第三技术方案是：

一种动态手势序列实时识别装置，包括：

存储器，用于存放程序；

处理器，用于加载所述程序以执行如第一技术方案所述的一种动态手势序列实时识别方法。

本发明的有益效果是：本发明一种动态手势序列实时识别方法、系统及装置，通过深度图像的深度信息增强了手势识别对背景的鲁棒性，并采用了具备光照不变性的肤色模型以及基于高斯分布的椭圆边界模型进行手部的动态跟踪，提升了手势识别对光照的鲁棒性，识别效果好。

附图说明

图1为本发明一种动态手势序列实时识别方法的整体步骤流程图；

图2为本发明手势序列实时识别方案的一种具体实施方式流程图。

具体实施方式

下面结合说明书附图和具体实施方式对本发明作进一步解释和说明。

参照图1，本发明一种动态手势序列实时识别方法，包括以下步骤：

分别采集含有待识别对象的彩色图像和深度图像；

在人体区域中进行手部区域的检测与分割，得到手部区域；

对动态手势序列进行建模和分类。

其中，待识别对象即为待识别的手势。彩色图像和深度图像均可通过现有的RGB-D摄像头采集。

进一步作为优选的实施方式，所述根据采集的彩色图像和深度图像进行人体区域检测与分割，得到人体区域这一步骤，具体包括：

其中，区域增长算法可采用flood fill算法，距离匹配算法可采用欧氏距离匹配算法。为了解决复杂的背景问题，本发明使用基于视觉模型的人体检测方法在深度图像中分割人体，然后在相应的彩色图像中根据背景掩码进行背景相减得到相应的人体区域，鲁棒性更好。

进一步作为优选的实施方式，所述在人体区域中进行手部区域的检测与分割，得到手部区域这一步骤，具体包括：

本发明的边缘检测算法可采用传统的Canny算法。本发明采用了倒角距离来衡量二维手部模板与待匹配区域的相似性，为了降低匹配成本，计算时还可以通过距离变换(DT)有效地将待匹配的二值边缘图像转换为灰度图像，即设置每个边缘像素的值为0和每个非边缘像素的值为到其最近的边缘点的距离。

进一步作为优选的实施方式，所述根据手部区域，采用具备光照不变性的肤色模型以及基于高斯分布的椭圆边界模型进行手部的动态跟踪这一步骤，具体包括：

其中，目标跟踪算法可采用CAMshift算法。

进一步作为优选的实施方式，所述根据手部动态跟踪的结果，采用基于手势轨迹和静态姿态匹配的方法进行时空手势序列检测，得到动态手势序列这一步骤，具体包括：

进一步作为优选的实施方式，所述在手部动态跟踪过程中进行时空手势序列检测及静态手势识别这一步骤，具体包括：

其中，两个预设的静态手形可以为拳头和掌心，当静态姿势从手掌变为拳头时，开始捕捉动态的坐标手势轨迹；捕捉完成时静态姿态从拳头变为掌心。

进一步作为优选的实施方式，所述在手部动态跟踪过程中进行时空手势序列的特征提取，以实现动态手势轨迹的量化这一步骤，具体包括：

进一步作为优选的实施方式，所述对动态手势序列进行建模和分类这一步骤，具体包括：

L＝arg max{P(O|<π_L,A_L,B_L>)},L∈[1,M]，

其中，左-右带状拓扑结构中，一个状态只能转向下一个状态或本身。

本发明提出了一种动态手势识别方法，以摄像头捕捉到的彩色图像和深度图像对作为系统的输入；为了解决复杂的背景问题，使用了基于视觉模型的人体检测方法在深度图像中分割人体，然后在相应的彩色图像中进行背景相减得到相应的人体区域。而本发明手势的匹配与识别则是先在深度图像中利用倒角距离匹配算法进行相似性匹配，然后在彩色图像中使用一个对光照变化不敏感的模型来处理肤色分割问题。将背景相减和肤色分割这两个过程的结果进行融合能实现鲁棒强的手势跟踪效果。最后，本发明对具有多特征表示和轨迹量化的手势轨迹序列将应用左-右带状拓扑结构的离散HMM来进行建模和分类，实现了一个与真实世界高度贴合的人机交互应用。

与图1的方法相对应，本发明一种动态手势序列实时识别系统，包括：

建模和分类模块，用于对动态手势序列进行建模和分类。

与图1的方法相对应，本发明一种动态手势序列实时识别装置，包括：

存储器，用于存放程序；

处理器，用于加载所述程序以执行如本发明所述的一种动态手势序列实时识别方法。

本发明基于视觉模型、2D及3D的头部模板、区域增长算法等人体检测技术实现了人体检测与分割；基于2D手部模板、边缘检测算法、倒角距离匹配等目标检测技术实现了手部区域的检测与分割；基于具备光照不变性的肤色模型、基于高斯分布的椭圆边界模型及利用目标跟踪算法实现了对手部在每一帧中进行动态位置跟踪；基于手势轨迹和静态姿态匹配的时空手势序列检测，实现了手部的多特征提取、表示和轨迹量化；基于左-右带状拓扑结构的序列模型(LRB的离散多状态HMM)实现了对动态手势序列的建模和分类，从而使得整个动态识别方案具有更高的鲁棒性与实时性，实现了能应用于机器人的人机交互应用程序。

如图2所示，以待识别对象为RGB-D摄像头采集的Color Stream(RGB色彩信息流)及Depth Stream(深度信息流)为例，本发明手势动态识别方案的一种具体实施方式包括如下步骤：

S1：通过RGB-D摄像头提取Color Stream及Depth Stream；

S2：基于Color Stream、Depth Stream、头部模板、区域增长算法、距离匹配算法等技术实现人体区域的检测与分割；

S3：基于步骤S2分割的人体区域利用Depth Stream、手部模板、边缘检测算法、倒角距离匹配等技术实现手部区域的检测与分割；

S4：基于步骤S3检测到的手部区域，利用肤色模型、高斯分布的椭圆边界模型、目标跟踪算法等技术进行特征提取后，实现手部的动态跟踪；

S5：时空手势序列检测及静态手势识别；

S6：时空手势序列的特征提取，实现轨迹量化；

S7：时空手势序列的建模与分类。

具体地，所述步骤S2包括以下步骤：

S21：使用2D头部模板及距离匹配算法(如欧氏距离匹配算法等)来搜索可能的头部区域；

S22：使用带有深度信息的3D头部模板删除不匹配的区域；

S23：使用经典的区域增长算法(如flood fill算法)来分割人体区域；

S24：利用步骤S23分割的人体区域计算背景掩码，进而根据背景掩码在RGB图像中采用背景减除法分割人体区域。

所述步骤S3包括以下步骤：

S31：使用经典的边缘检测算法(例如Canny算法)计算深度图像中的人体区域的二值边缘图像，并使用2D手部模板作为后续匹配的模板。

S32：使用倒角距离匹配法检测手部区域，即采用倒角距离衡量上待匹配区域与模板的相似性。

若分别让U_T(u_i∈U_T，i＝1，2，…，n)和V_Q(u_j∈V_Q，j＝1，2，…，m)表示2D手部模板边缘的点集和待匹配区域(通过滑动窗口选择)的局部边缘图像的点集，则倒角距离的计算公式可以如下：

其中，d_charm(U_T,V_Q)表示每个点u_i∈U_T及其最近邻的点与在V_Q中的点的平均距离。为了降低匹配成本，倒角距离计算时可以先通过距离变换(DT)有效地将待匹配的二值边缘图像转换为灰度图像，即设置每个边缘像素的值为0和每个非边缘像素的值为到其最近邻的边缘点的距离。

S33：计算步骤S32得到的若干个(预设值，如16个、32个等)候选手部区域最终的匹配得分，并根据计算的匹配得分从所有候选手部区域中选出最终的手部区域。最终的手部区域的匹配得分需要大于预先设定的分数阈值。

由于手在与系统的互动中肯定位于背景之前，故最终的匹配得分M_score定义如下：

其中，s_max表示所有候选区域中最大的深度距离，s_candidate表示当前候选区域(任一候选区域)的深度距离。

所述步骤S4具体包括以下步骤：

S41：为了使肤色模型具有对光照变化的鲁棒性，先把肤色的色彩空间转换为YCbCr，并通过多元高斯模型拟合肤色在这Y、Cb和Cr三个通道的概率统计分布，其高斯均值及协方差矩阵的估计公式如下：

其中，N是训练样本总数，f(x_i)表示色度值为x_i的样本数目，i＝1，2，…，n′。则d维随机变量x的联合概率分布函数(PDF)为:

其中,x表示像素的色彩向量，p(x/skin)表示在肤色skin的概率分布下x对应的像素的似然值。

S42：采用马氏距离(Mahalanobis Distance)度量色彩向量x与肤色的均值向量μ的距离。如果计算的马氏距离小于一个预设的阈值，则视为手部区域，即手部动态跟踪检测的边界模型如下：

Φ(x/skin)＝[x-μ]^T∑^-1[x-μ]

S43：使用目标跟踪算法(例如CAMshift算法)对手部在每一帧中进行位置跟踪。

所述步骤S5具体包括以下步骤：

S51：通过使用两个静态手势来标记动态手势的开始和结束手势。以两个静态手势分别为拳头和掌心为例，当静态姿势从手掌变为拳头时，开始捕捉动态的坐标手势轨迹；捕捉完成时静态姿态从拳头变为掌心。

S52：在手部追踪期间，在每个帧中使用步骤S3提到的倒角距离匹配法识别静态的手部姿态。

所述步骤S6具体包括以下步骤：

S61：记录手部追踪期间手形质心的坐标序列点，并选取对应的关键特征作为特征向量来用于后续模型的训练。

优选地，可选择方向、位置和速度这三个作为关键特征，并将它们结合来提高模型的识别性能。

对于任何时刻的质心点p_t(x_t，y_t)，其在平面坐标系中的方向可以由下式确定：

该方向向量的角度α_t的值计算公式如下：

其中，角度α_t的取值范围为[0，360°)。

然后将α_t的值转换至8个方向的向量c_t(东、南、西、北、东南、东北、西南、西北)。

而计算速度时要考虑手势的3D坐标，即坐标值(x_t，y_t，z_t)。如果Δt表示两个相邻帧之间的持续时间，则速度特征v_t的计算公式如下：

综上所述，质心点的特征向量f_t表示为{c_t，x_t，y_t，z_t，v_t}。

在执行归一化处理之后，所有的特征值被归一化至[0，1]区间，并赋予不同的权重。

S62：为了获得特征的离散形式，令F＝{f₁，f₂，……f_n}表示所有训练样本的手势轨迹的特征向量集，其中f_i表示归一化及加权后的特征向量,使用Mean Shift算法将所有的特征向量分为k个簇。每个簇由其平均值m_i和方差d_i描述。对于每个新输入的特征向量，通过计算其与簇平均值的欧氏距离为其指定一个簇，以获得手势序列的离散形式。

所述步骤S7利用离散隐马尔可夫模型Hidden Markov Models(HMM)对手势轨迹进行建模与分类，具体包括以下步骤：

S71：对于一个手势轨迹，把其所有的特征向量通过步骤S62描述的方法聚类至k个簇，并分配一个簇索引O，用于后续的HMM。

S72：结合左-右带状拓扑结构(LRB)确定离散隐马尔可夫模型的隐藏状态和观察符号：HMM的隐藏状态表示为S＝{S₁，S₂……S_k}，观察符号O表示为O＝{O₁，O₂，……，O_k}。左-右带状拓扑结构中一个状态只能去下一个状态或本身。

S73：将新输入的手势轨迹转换为观察符号，作为HMM的输入向量，并通过下式获得其手势分类L：

L＝argmax{P(O|<π_L,A_L,B_L>)},L∈[1,M]

其中,π、A和B表示初始状态概率向量，转移概率矩阵和观察符号概率矩阵，M表示有M类手势。上式的求解问题实际为HMM的学习问题求解问题。

与现有技术相比，本发明一种动态手势序列实时识别方法、系统及装置，通过手部检测、手部跟踪、特征提取等步骤提供了一个有效和自然的HRI(人机交互)接口，在复杂背景和光照条件下仍能实现模型的鲁棒性，从而达到更佳的手势识别效果。经实际的测试表明，本发明的方案对一对彩色帧和深度帧的平均处理速度需要不到100毫秒，能实现实时的人机交互处理，使得基于本发明方案的机器人能应用于真实生活的HRI。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种动态手势序列实时识别方法，其特征在于：包括以下步骤：

分别采集含有待识别对象的彩色图像和深度图像；

在人体区域中进行手部区域的检测与分割，得到手部区域；

对动态手势序列进行建模和分类。

2.根据权利要求1所述的一种动态手势序列实时识别方法，其特征在于：所述根据采集的彩色图像和深度图像进行人体区域检测与分割，得到人体区域这一步骤，具体包括：

3.根据权利要求2所述的一种动态手势序列实时识别方法，其特征在于：所述在人体区域中进行手部区域的检测与分割，得到手部区域这一步骤，具体包括：

4.根据权利要求1所述的一种动态手势序列实时识别方法，其特征在于：所述根据手部区域，采用具备光照不变性的肤色模型以及基于高斯分布的椭圆边界模型进行手部的动态跟踪这一步骤，具体包括：

5.根据权利要求3所述的一种动态手势序列实时识别方法，其特征在于：所述根据手部动态跟踪的结果，采用基于手势轨迹和静态姿态匹配的方法进行时空手势序列检测，得到动态手势序列这一步骤，具体包括：

6.根据权利要求5所述的一种动态手势序列实时识别方法，其特征在于：所述在手部动态跟踪过程中进行时空手势序列检测及静态手势识别这一步骤，具体包括：

7.根据权利要求6所述的一种动态手势序列实时识别方法，其特征在于：所述在手部动态跟踪过程中进行时空手势序列的特征提取，以实现动态手势轨迹的量化这一步骤，具体包括：

8.根据权利要求7所述的一种动态手势序列实时识别方法，其特征在于：所述对动态手势序列进行建模和分类这一步骤，具体包括：

L＝arg max{P(O|<π_L,A_L,B_L>)},L∈[1,M]，

9.一种动态手势序列实时识别系统，其特征在于：包括：

建模和分类模块，用于对动态手势序列进行建模和分类。

10.一种动态手势序列实时识别装置，其特征在于：包括：

存储器，用于存放程序；

处理器，用于加载所述程序以执行如权利要求1-8任一项所述的一种动态手势序列实时识别方法。