CN108875579B

CN108875579B - 一种基于形态学的近景手势识别方法

Info

Publication number: CN108875579B
Application number: CN201810460615.0A
Authority: CN
Inventors: 殷春平; 王德鑫; 廖采莹; 董一巍; 尤延铖
Original assignee: Xiamen University
Current assignee: Guangzhou Chemaju Technology Development Co.,Ltd.
Priority date: 2018-05-15
Filing date: 2018-05-15
Publication date: 2022-08-05
Anticipated expiration: 2038-05-15
Also published as: CN108875579A

Abstract

本发明旨在提出一种基于形态学的近景手势识别方法。首先采集RGB彩色图像和深度图像，利用haar特征检测器，获取彩色图中的手部掩码box1；依次根据RGBD对齐原理、一阶差分和阈值处理获得分割后手部区域的RGBD图，并裁剪下感兴趣区域ROI得到手部掩码box3；再对手部掩码box3求解最大内切圆，通过内切圆的几何参数估计掌部大小与掌心位置；设计坐标淘汰机制提取指端区域和指端数N，并根据N的值选择提前训练好的CNN分类模型，对手势进行分类，得到最终手势类型。该方法在识别手部区域过程中特别地设计了一种坐标淘汰机制和一种新型的科学的图像卷积算子，该算子具有旋转不变性，能对近景的复杂手势进行快速识别。

Description

一种基于形态学的近景手势识别方法

技术领域

本发明涉及手势识别的算法。更详细的说，是一种基于形态学的近景手势识别方法，并且提出了实现该方法加速计算的具体办法。

背景技术

随着计算机的广泛应用，人机交互已成为人们日常生活中的重要部分。人机交互的最终目标是实现人与机器自然地交流，因此手势识别研究顺应了人们生活发展需要。目前，手势识别也已经应用在各个领域，例如视频直播、机器人和AR等领域。然而由于手势本身具有多样性、多义性以及时间和空间上的差异性等特点，同时人手的复杂性以及视觉本身的不适定性，导致手势识别成为一门多学科交叉的研究课题。

通常运用在手势识别的算法主要有以下三种：

1、skeleton算法。适用于刚性、自由度低的物体，对于手部这种具有较多自由度的物体不能准确识别；

2、poly算法。能得出手势的几何模型，但由于算法简单，仅仅使用图像轮廓求凸集来等效求解手指个数，鲁棒性差，不适合在复杂环境下使用。而且当手指距离较近时不能准确识别每根手指，手势识别效果不理想；

3、完全依赖深度学习识别的方法。该算法得到的手势识别精度较高，但计算时占用内存多，运行时间长，硬件成本高。

所以，以上三种方法都存在弊端：skeleton算法和poly算法并不适合用于手势识别；深度学习方法适合手部识别，但对硬件的要求较高，目前不适合嵌入型的实时性手部识别的运算。

[发明内容]

本发明的目的在于克服现有技术的不足，提出了一种基于形态学的近景手势识别方法。该方法在识别手部区域过程中涉及一种有效合理的坐标淘汰机制，包含一种新型的科学的图像卷积算子，该算子具有旋转不变性，能对近景的复杂手势进行快速识别，滤波能力强，解决了现有算法难以识别合并手指等难题。

利用设计的坐标淘汰机制，得出一种行之有效的手部识别方案，步骤如下：

1)获取手部掩码：采集RGB彩色图像和深度图像，利用haar特征检测器，获取彩色图中的手部掩码box1；

2)掩码RGBD配准：根据RGBD对齐原理，将手部掩码box1转化为与RGBD配准后的手部掩码box2；

3)去除背景：利用深度信息，对手部掩码box2使用一阶差分阈值处理去除背景，并裁剪下感兴趣区域ROI，获得分割区域中更精确的手部掩码box3；

4)初步估计掌心参数：对手部掩码box3求解最大内切圆，获得圆心的坐标（

）和半径

，即估计的掌心位置与掌部大小；

5)进行投票淘汰筛选，对手部掩码box3中的所有坐标进行投票，淘汰非手指区域，初步确定手指区域，说明如下：

a)总体思路：若手部掩码box3中某坐标点通过投票得分越高，则表示该点越有可能是非手指上的坐标点，越应该被淘汰，根据所有点经投票的最终得分准确判断手部掩码box3中代表手指的坐标点集合和非手指的坐标点集合；

b)定义座位：设置一个长为2b+1、宽为2b+1的卷积窗口；该卷积窗口有K

个座位；

c) 构建每个座位的分配票数：根据手部掩码box3中坐标

的座位与被投票者坐标

的二维平面像素距离

且 L

确定每个座位

分配固定的可投票数

，

包含了投票者与被投票者之间的空间耦合关系，是一种鲁棒的分配方式；

且 P

的分配方式主要有以下特征：

①P在空间分布上具有旋转不变性；

②P是关于L在

单调递增，在

，当L=0时，P等于

；当且仅当L=

/2时，P=1，产生单个投票的最大得分；当L=

时，P得到最小值等于1/

；

d)定义投票者：卷积窗口滑动过程时，每个座位所覆盖的坐标点即为当次投票过程的投票者；

e) 定义竞争者与无关者：假设某坐标点

对应的深度值为

对于异于

的坐标点（

），如果有

，则称坐标点（

）为坐标点

的竞争者，如果

的竞争者越多，该坐标点越容易被淘汰，用公式表示为

Equal

，

当Equal

=1时，

是

的竞争者，否则为无关者；

f) 定义投票规则：在手部掩码box3区域内滑动卷积座位，每个座位由不同的人坐下（每个座位由不同的分值对应），每次滑动一格，便于使用Judge

判断该点是否为手指上的点，

Judge

当Judge

=1时，

即为手指上的点，投票者才能为

投票，否则不投票；

g) 统计被投票者的最终得分：对手部掩码box3中的坐标点

进行投票，把手部掩码box3区域中坐标点

对坐标点

投票所产生的单个得分记为Score

Score

=

坐标点

的所有有效得分之和记为Check

Check

= Judge

h) 加速统计被投票者的最终得分：由于从卷积窗口观察待处理的手部局部图像，每根手指具有对称性，卷积窗口也具有旋转不变性，卷积窗口中的所有坐标点必定关于卷积窗口中心点对称，由于对称性特点，在某点

对坐标点

进行投票的过程中，如果根据

可判断出某点

不是竞争者，则

的对称点同样不是竞争者，那么两者都不对坐标点

进行投票；反之，若某点

在某次投票中是竞争者，则它的对称点在当次投票中同样是竞争者，那么两者都对坐标点

进行投票，因此，只需对半个卷积窗口进行遍历统计，最后再乘以2，得到等效投票得分Equal_Check

Equal_Check

=2

Judge

i) 归一化投票得分：为手部掩码box3中所有的坐标点计算等效投票得分Equal_Check

统一尺度的得分，通过等效投票得分Equal_Check

与座位数K（b）的比值可获得坐标点

的归一化得分G

G

j) 定义最终判决规则：投票结束后，根据G

值进行阈值分割，判断是否要淘汰该坐标点

，当

, 保留坐标点

，其中，min_threshold为极小投票得分阈值；max_threshold为极大投票得分阈值；且0

min_threshold

max_threshold

1

步骤5的伪代码如下：

BackgroundFilter(box2);

Score = 0;

InitialResultFrame(frame_result);

For x in range(0,box2.rows) and y in range(0, box2.cols):

For i in range(x-b,x+b) and j in range(y-b,y+b-i):

Score(x,y) += Vote(x,y,i,j);

Endfor

Double(Score(x,y));

Normalization(Score(x,y));

If MIN_THRESHOLD < Score(x,y) < MAX_THRESHOLD:

Store(x,y,frame_result);

ENDIF

Endfor

第1句表示对手部掩码box2进行背景过滤。

第2~3句表示得分初始化为0、没有坐标点的空图像初始化为frame_result。

第4句表示对手部掩码box2的半数坐标点进行遍历。

第5~9句表示使用卷积算子对卷积窗口正中心坐标点进行投票，获得最终总票数。

第10~12句表示通过阈值分割获得最终筛选的坐标点，符合要求的坐标点存入frame_result图中。

6) 步骤6，区域精滤波：当手部掩码box3中所有点都经过一次投票筛选后，所有非手指的区域噪声被剔除，余下坐标点则构成手指上点的集合Q，Q中相邻的坐标点属于同一连通域region，设集合Q中的坐标点形成m个不同的连通域region，这m个region的集合记为Region

Region=

,

对Region进行结构元为3x3的矩形开运算，过滤掉尺寸较小的region，此时获得剩余区域Final_Region，记为

Final_Region=

，k

m；

7) 步骤7，求解伸展的手指个数：使用Canny算子对精滤波后的区域Final_Region进行边界求取，获得闭合边界Contour

Contour=

，

遍历每个边界

r上的坐标点（

），求取每个边界相对于掌心的最大距离所构成的集合MaxDistances

MaxDistances =

，

根据手部伸展开的形态，指端与掌心的空间距离应至少略大于掌心的半径，当指端与掌心的最大空间距离与掌心半径的比例大于某特定数值时，可以认定该闭合边界Contour对应的指部处于伸展状态，经多次试验后比例参数取1.5为最优，因此1.5

为区分手指是否伸屈的最佳距离，则MaxDistances中大于1.5

的元素个数即为处于伸展状态的手指个数，记为N；

8)步骤8，根据神经网络CNN方法分类，得到最终的手势：

a)准备分类模型：如果N=5时，五个手指都处于伸展状态；N=0时，五个手指都处于蜷缩状态，为握紧拳头状；因为当N=5或N=0时，五个手指头对应的手势是唯一的，因而不需要提前准备相应的分类模型，只需要提前准备N=1、N=2、N=3、N=4时的简单分类模型；

b)确定分类模型：当步骤7）确定N值后，可能的手势种类由

种减少为

，根据N的值，选择已训练好的分类模型；

c)降采样手部掩码：将手部掩码box3图像降采样为30x30大小的图像hand-map；

d)启动分类过程：在分类模型输入端输入图像hand-map，对手势进行CNN分类，计算输出各个手势类型label的得分，根据分类结果中各个手势类型label的得分判断该手势的可信度；

e)评价分类结果：当各个手势类型label的可信度都较低时说明结果不准确，则需要重新返回步骤1；当存在可信的手势类型label时，可信度最高的label对应的分类即为该手势的类型，最终通过检索label对应的手势，即可完成对手势的识别。

[附图说明]

图1 手部识别方案流程图

图2 手指局部典型画面

图3 掌心估计图

图4可投票数

的空间位势图—俯视图

图5可投票数

的空间位势图—剖面图

图6初步提取的指端图像

图7 最终手势识别图

[具体实施方式]

下面详细说明本发明提出的坐标淘汰机制的具体实施方法。

参见图1 ，其中A是RGB彩色原图；B是RGB彩色原图中的手部掩码box1；C是RGB彩色原图和深度图像进行RGBD配准后的手部掩码box2；D是手部掩码box2去除背景后的手部掩码box3；E是手部掩码box3降采样后的图像；F是按照投票机制提取的初步指端图像；G是经过开运算后精确提取的指端图像；H是伸展的手指数N；I是分类模型；J是手势类型。结合图1说明本发明提出的手势识别方法，具体实施步骤如下：

步骤1，获取手部掩码：拍摄含有手部的画面，采集RGB彩色图像和深度图像，先将RGB映射为单通道灰度图，再利用haar特征检测器，获取彩色图中的手部掩码box1。

步骤2，掩码RGBD配准：根据RGBD对齐原理，将手部掩码box1转化为RGB彩色原图和深度图像进行RGBD配准后的手部掩码box2。部分硬件直接采集输出RGBD对齐图像，允许跳过步骤2。

步骤3，去除背景：由于获得的手部掩码box2中，有图像噪声以及背景的干扰，所以需要适当使用图像开运算，去除雪花噪点。考虑到在实际使用环境中的深度关系，手部掩码box2中手部上像素深度趋于稳定，而手部边缘周围像素深度往往会发生突变。利用深度信息，对手部掩码box2使用一阶差分和阈值分割方法处理去除背景，并裁剪下感兴趣区域ROI，获得分割区域中更精确的手部掩码box3；

步骤4，初步估计掌心参数：对手部掩码box3求解最大内切圆，获得圆心的坐标（

）和半径

，即估计的掌心位置与掌部大小，结果如图3所示；

步骤5对手部掩码box3中的所有坐标进行投票，淘汰非手指区域，初步确定手指区域。考虑手指局部画面有以下三种情况，如图2、3所示。情况一：投票过程中卷积窗口覆盖的指部图像坐标点主要集中在窗口中心区域；情况二：投票过程中卷积窗口覆盖的指部图像坐标点主要集中在窗口中心区域，同时两侧边界处出现局部集中分布的坐标点（如卷积窗口映射到其它手指的局部画面），如图2所示；情况三：手指合并的非典型情况，即两根手指靠的很近，如图3所示。设计的坐标淘汰机制和卷子算子必须满足对这三种情况进行指部估计。下面先对该机制进行说明：

个座位；

c) 构建每个座位的分配票数：根据手部掩码box3中坐标

的座位与被投票者坐标

的二维平面像素距离

且 L

确定每个座位

分配固定的可投票数

，

且 P

的分配方式主要有以下特征：

①P在空间分布上具有旋转不变性；

②P是关于L在

单调递增，在

，当L=0时，P等于

；当且仅当L=

/2时，P=1，产生单个投票的最大得分；当L=

时，P得到最小值等于1/

；

e) 定义竞争者与无关者：假设某坐标点

对应的深度值为

对于异于

的坐标点（

），如果有

，则称坐标点（

）为坐标点

的竞争者，如果

的竞争者越多，该坐标点越容易被淘汰，用公式表示为

Equal

，

当Equal

=1时，

是

的竞争者，否则为无关者；

f) 定义投票规则：在手部掩码box3区域内滑动卷积座位，每个座位由不同的人坐下，每次滑动一格，便于使用Judge

判断该点是否为手指上的点，

Judge

当Judge

=1时，

即为手指上的点，投票者才能为

投票，否则不投票；

g) 统计被投票者的最终得分：对手部掩码box3中的坐标点

进行投票，把手部掩码box3区域中单个座位所对应的坐标点

对坐标点

投票所产生的单个得分记为Score

Score

=

坐标点

的所有有效得分之和记为Check

Check

= Judge

对坐标点

进行投票的过程中，如果根据

可判断出某点

不是竞争者，则

的对称点同样不是竞争者，那么两者都不对坐标点

进行投票；反之，若某点

Equal_Check

= 2

Judge

；

统一尺度的得分，通过等效投票得分Equal_Check

与座位数K（b）的比值可获得坐标点

的归一化得分G

G

；

j)定义最终判决规则：投票结束后，根据G

值进行阈值分割，判断是否要淘汰该坐标点

，当

, 保留坐标点

min_threshold

max_threshold

1；

经过投票筛选后，得到初步提取的指端图像如图6所示。

再结合该坐标淘汰机制对三种手指局部画面情况进行讨论：

情况一：投票过程中卷积窗口覆盖的指部图像坐标点主要集中在窗口中心区域，如图2所示。根据投票过程分析得，当L

趋近或等于0时，坐标点

作为竞争者为坐标点

投票产生投票得分Score

=

，此时Score

值较小，表明得分较低；此时图2所示情况一中卷积窗口正中心坐标点的总得分Equal_Check

较低，被误判为非手指上的坐标点的可能性极小。这表明该投票机制是合理且满足设计目标。

情况二：投票过程中卷积窗口覆盖的指部图像坐标点主要集中在窗口中心区域，同时两侧边界处出现局部集中分布的坐标点（如卷积窗口映射到其它手指的局部画面）。此时，只有卷积窗口中心和两侧边界处的竞争者为坐标点

投票产生投票得分Score

都较低时，才能保证情况二手指上坐标的投票总得分保持在较低水平。同理，根据上述单个投票得分Score

表达式可知，当L

=0时，坐标点

获得的投票得分单个投票得分Score

=

；当靠近两侧边缘即L

，单个投票得分Score

1/

，保持在较低水平。

以卷积窗口中心为原点、卷积窗口横向为x轴、卷积窗口纵向为y轴，以每个座位

的可投票数

为z轴，按照P值越大，曲线越高、颜色越深的方式，绘制可投票数

的空间位势图，如图4、5所示。在L

的值越接近b/2的位置，位势图显示的颜色越深，表明可投票数

越多；在越中心和越靠近两侧边缘位置，位势图显示的颜色越浅，表明可投票数

越少。所以，情况二中卷积窗口正中心的坐标点不容易被淘汰，这表明投票机制是合理且满足设计目标。

情况三：如图3出现手指合并的非典型情况，即两根手指靠的很近。这种情况下手指仍能被识别，原因是合并的手指之间形成凹陷的区域，凹陷区域和手指上的点有相当的深度差距，因此凹陷区域上的点不与之构成竞争者关系，不投票。如此把合并的手指区分开并保留下来，便解决了poly算法难以识别合并指端的难题，这证明投票机制是合理且满足设计目标。

以上三种情况，均可说明设计的投票机制是有效的且且满足设计目标。

步骤6，区域精滤波：当手部掩码box3中所有点都经过一次投票筛选后，所有非手指的区域噪声被剔除，余下坐标点则构成手指上点的集合Q，Q中相邻的像素属于同一连通域region，设集合Q中的坐标点形成m个不同的连通域region，这m个region的集合记为Region

Region=

,

对Region进行结构元为3x3的矩形开运算，过滤掉尺寸较小的region，此时获得剩余区域，即为精确提取的指端图像Final_Region，记为

Final_Region=

，k

m；

步骤7，求解伸展的手指个数：使用Canny算子对精滤波后的区域Final_Region进行边界求取，获得闭合边界Contour

Contour=

，

遍历每个边界

r上的坐标点（

MaxDistances =

，

为区分手指是否伸屈的最佳距离，则MaxDistances中大于1.5

的元素个数即为处于伸展状态的手指个数，记为N;

步骤8，根据神经网络CNN方法分类，得到最终的手势：

b)确定分类模型：当步骤7）确定N值后，可能的手势种类由

种减少为

，根据N的值，选择已训练好的分类模型；

最终手势识别类型如图7所示。

Claims

1.一种基于形态学的近景手势识别方法，通过坐标淘汰机制和具有旋转不变性的图像卷积算子确定手势状态，其特征在于具体包含以下步骤：

4)初步估计掌心参数：对手部掩码box3求解最大内切圆，获得圆心的坐标(x₀,y₀)和半径r₀，即估计的掌心位置与掌部大小；

5)投票筛选：对手部掩码box3中的所有坐标使用具有旋转不变性的图像卷积算子进行投票，淘汰非手指区域，初步确定手指区域；

6)区域精滤波：当手部掩码box3中所有点都经过一次投票筛选后，所有非手指的区域噪声被剔除，余下的坐标点构成手指上点的集合Q，Q中相邻的像素属于同一连通域region，假设集合Q中的坐标点形成有m个不同的连通域region，这m个region的集合记为Region：

Region＝{region₁,region₂…region_m}，

对Region进行结构元为3x3的矩形开运算，过滤掉尺寸较小的区域，此时获得剩余区域Final_Region：

Final_Region＝{region′₁，region′₂,…,region′_k}，k≤m，

其中region′_k是对Region进行精滤波后的第k个连通域；

7)求解伸展的手指个数：使用Canny算子对精滤波后的区域Final_Region进行边界求取，获得k个闭合边界，组成集合记为集合Contour：

Contour＝{contour₁,contour₂…contour_k}，

遍历每个闭合边界上的坐标点(x′,y′)，求取每个闭合边界相对于掌心的最大距离所构成的集合MaxDistances：

式中x′_i、y′_i分别表示第i个边界contour上任意点的横坐标和纵坐标，x₀、y₀分别表示手部掩码box3中最大内切圆心的横坐标和纵坐标

根据手部伸展开的形态确定手指的伸展状态，取1.5r₀作为区分手指是否伸屈的最佳距离，则MaxDistances中大于1.5r₀的元素个数即为处于伸展状态的手指个数，记为N；

8)根据神经网络CNN方法分类，得到最终的手势。

2.根据权利要求1所述的基于形态学的近景手势识别方法，其特征在于：步骤5)具体为：

a)定义座位：设置一个长为2b+1、宽为2b+1的卷积窗口；该卷积窗口有K(b)＝(2b+1)²个座位；

b)定义投票者：卷积窗口滑动过程时，每个座位所覆盖的坐标点即为当次投票过程的投票者；

c)定义竞争者与无关者：假设某坐标点(x，y)对应的深度值为I(x，y)，对异于点(x，y)的坐标点(x′，y′)，如果有|I(x′,y′)-I(x,y)|→ε成立，则称坐标点(x′,y′)为坐标点(x,y)的竞争者，如果点(x,y)的竞争者越多，表明该坐标点越容易被淘汰，用公式表示为

当Equal(x,y,i,j)＝1时，手部掩码box3中的任意点(i,j)是手部掩码box3中心坐标(x,y)的竞争者，否则为无关者；

d)定义投票规则：在手部掩码box3区域内滑动卷积座位，每次滑动一格，便使用Judge(x,y)判断坐标点(x,y)是否为手指上的点，

当Judge(x,y)＝1时，(x,y)即为手指上的点，投票者才能为(x,y)投票，否则不投票；

e)构建每个座位的分配票数：根据手部掩码box3中任意坐标(i,j)与中心坐标(x,y)的二维平面像素距离L(x,y,i,j)：

且

确定每个坐标点(i,j)分配固定的可投票数P(x,y,i,j,b)，P(x,y,i,j,b)包含了投票者与被投票者之间的空间耦合关系，是一种鲁棒的分配方式；

且

P(x，y，i，j,b)的分配方式主要有以下特征：

①P在空间分布上具有旋转不变性；

②P是关于L在[0，b/2]单调递增，在

单调递减函数，当L＝0时，P等于e^-1；当且仅当L＝b/2时，P＝1，产生单个投票的最大得分；当

时，P得到最小值等于

f)统计被投票者的最终得分：对手部掩码box3中的坐标点(x，y)进行投票，把手部掩码box3区域中单个座位所对应的坐标点(i,j)对坐标点(x,y)投票所产生的单个得分记为Score(x,y,i,j)

Score(x,y，i，j)＝P(x，y，i，j)*Equal(x,y,i,j)

坐标点(x,y)的所有有效得分之和记为Check(x，y，b)

g)加速统计被投票者的最终得分：由于从卷积窗口观察待处理的手部局部图像，每根手指具有对称性，卷积窗口也具有旋转不变性，卷积窗口中的所有坐标点必定关于卷积窗口中心点对称，由于对称性特点，在某点(i，j)对坐标点(x,y)进行投票的过程中，如果根据Equal(x,y,i,j)可判断出某点(i,j)不是竞争者，则(i,j)的对称点同样不是竞争者，那么两者都不对坐标点(x,y)进行投票；反之，若某点(i,j)在某次投票中是竞争者，则它的对称点在当次投票中同样是竞争者，那么两者都对坐标点(x，y)进行投票，因此，只需对半个卷积窗口进行遍历统计，最后再乘以2，得到等效投票得分Equal_Check(x,y,b)

h)归一化投票得分：为手部掩码box3中所有的坐标点计算等效投票得分Equal_Check(x，y，b)统一尺度的得分，通过等效投票得分Equal_Check(x,y,b)与座位数K(b)的比值可获得坐标点(x，y)的归一化得分G(x,y,b)

i)定义最终判决规则：投票结束后，根据G(x,y,b)值进行阈值分割，判断是否要淘汰该坐标点(x,y)，当G(x,y,b)∈[min_threshold,max_threshold]，保留坐标点(x，y)，其中，min_threshold为极小投票得分阈值；max_threshold为极大投票得分阈值；且0<min_threshold<max_threshold≤1。

3.根据权利要求1所述的基于形态学的近景手势识别方法，其特征在于：步骤8)具体为：

a)准备分类模型：如果N＝5时，五个手指都处于伸展状态；N＝0时，五个手指都处于蜷缩状态，为握紧拳头状；因为当N＝5或N＝0时，五个手指头对应的手势是唯一的，因而不需要提前准备相应的分类模型，只需要提前准备N＝1、N＝2、N＝3、N＝4时的简单分类模型；

b)确定分类模型：当步骤7)确定N值后，手势估计种类由2⁵种减少为

根据N的值，选择已训练好的分类模型；