CN108875579A - 一种基于形态学的近景手势识别方法 - Google Patents
一种基于形态学的近景手势识别方法 Download PDFInfo
- Publication number
- CN108875579A CN108875579A CN201810460615.0A CN201810460615A CN108875579A CN 108875579 A CN108875579 A CN 108875579A CN 201810460615 A CN201810460615 A CN 201810460615A CN 108875579 A CN108875579 A CN 108875579A
- Authority
- CN
- China
- Prior art keywords
- coordinate points
- gesture
- region
- score
- hand
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000000877 morphologic effect Effects 0.000 title claims abstract description 8
- 210000001037 metacarpus Anatomy 0.000 claims abstract description 4
- 238000010606 normalization Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 3
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012876 topography Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 8
- 239000000284 extract Substances 0.000 abstract 1
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000533950 Leucojum Species 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 210000004247 hand Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/117—Biometrics derived from hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明旨在提出一种基于形态学的近景手势识别方法。首先采集RGB彩色图像和深度图像,利用haar特征检测器,获取彩色图中的手部掩码box1;依次根据RGBD对齐原理、一阶差分和阈值处理获得分割后手部区域的RGBD图,并裁剪下感兴趣区域ROI得到手部掩码box3;再对手部掩码box3求解最大内切圆,通过内切圆的几何参数估计掌部大小与掌心位置;设计坐标淘汰机制提取指端区域和指端数N,并根据N的值选择提前训练好的CNN分类模型,对手势进行分类,得到最终手势类型。该方法在识别手部区域过程中特别地设计了一种坐标淘汰机制和一种新型的科学的图像卷积算子,该算子具有旋转不变性,能对近景的复杂手势进行快速识别。
Description
技术领域
本发明涉及手势识别的算法。更详细的说,是一种基于形态学的近景手势识别方法,并且提出了实现该方法加速计算的具体办法。
背景技术
随着计算机的广泛应用,人机交互已成为人们日常生活中的重要部分。人机交互的最终目标是实现人与机器自然地交流,因此手势识别研究顺应了人们生活发展需要。目前,手势识别也已经应用在各个领域,例如视频直播、机器人和AR等领域。然而由于手势本身具有多样性、多义性以及时间和空间上的差异性等特点,同时人手的复杂性以及视觉本身的不适定性,导致手势识别成为一门多学科交叉的研究课题。
通常运用在手势识别的算法主要有以下三种:
1、skeleton算法。适用于刚性、自由度低的物体,对于手部这种具有较多自由度的物体不能准确识别;
2、poly算法。能得出手势的几何模型,但由于算法简单,仅仅使用图像轮廓求凸集来等效求解手指个数,鲁棒性差,不适合在复杂环境下使用。而且当手指距离较近时不能准确识别每根手指,手势识别效果不理想;
3、完全依赖深度学习识别的方法。该算法得到的手势识别精度较高,但计算时占用内存多,运行时间长,硬件成本高。
所以,以上三种方法都存在弊端:skeleton算法和poly算法并不适合用于手势识别;深度学习方法适合手部识别,但对硬件的要求较高,目前不适合嵌入型的实时性手部识别的运算。
[发明内容]
本发明的目的在于克服现有技术的不足,提出了一种基于形态学的近景手势识别方法。该方法在识别手部区域过程中涉及一种有效合理的坐标淘汰机制,包含一种新型的科学的图像卷积算子,该算子具有旋转不变性,能对近景的复杂手势进行快速识别,滤波能力强,解决了现有算法难以识别合并手指等难题。
利用设计的坐标淘汰机制,得出一种行之有效的手部识别方案,步骤如下:
1)获取手部掩码:采集RGB彩色图像和深度图像,利用haar特征检测器,获取彩色图中的手部掩码box1;
2)掩码RGBD配准:根据RGBD对齐原理,将手部掩码box1转化为与RGBD配准后的手部掩码box2;
3)去除背景:利用深度信息,对手部掩码box2使用一阶差分阈值处理去除背景,并裁剪下感兴趣区域ROI,获得分割区域中更精确的手部掩码box3;
4)初步估计掌心参数:对手部掩码box3求解最大内切圆,获得圆心的坐标()和半径,即估计的掌心位置与掌部大小;
5)进行投票淘汰筛选,对手部掩码box3中的所有坐标进行投票,淘汰非手指区域,初步确定手指区域,说明如下:
a)总体思路:若手部掩码box3中某坐标点通过投票得分越高,则表示该点越有可能是非手指上的坐标点,越应该被淘汰,根据所有点经投票的最终得分准确判断手部掩码box3中代表手指的坐标点集合和非手指的坐标点集合;
b)定义座位:设置一个长为2b+1、宽为2b+1的卷积窗口;该卷积窗口有K个座位;
c)构建每个座位的分配票数:根据手部掩码box3中坐标的座位与被投票者坐标的二维平面像素距离
且 L
确定每个座位分配固定的可投票数,包含了投票者与被投票者之间的空间耦合关系,是一种鲁棒的分配方式;
且 P
的分配方式主要有以下特征:
①P在空间分布上具有旋转不变性;
②P是关于L在单调递增,在,当L=0时,P等于;当且仅当L=/2时,P=1,产生单个投票的最大得分;当L=时,P得到最小值等于1/;
d)定义投票者:卷积窗口滑动过程时,每个座位所覆盖的坐标点即为当次投票过程的投票者;
e)定义竞争者与无关者:假设某坐标点对应的深度值为对于异于的坐标点(),如果有,则称坐标点()为坐标点的竞争者,如果的竞争者越多,该坐标点越容易被淘汰,用公式表示为
Equal ,
当Equal=1时,是的竞争者,否则为无关者;
f)定义投票规则:在手部掩码box3区域内滑动卷积座位,每个座位由不同的人坐下(每个座位由不同的分值对应),每次滑动一格,便于使用Judge判断该点是否为手指上的点,
Judge
当Judge=1时,即为手指上的点,投票者才能为投票,否则不投票;
g)统计被投票者的最终得分:对手部掩码box3中的坐标点进行投票,把手部掩码box3区域中坐标点对坐标点投票所产生的单个得分记为Score
Score=
坐标点的所有有效得分之和记为Check
Check = Judge
h)加速统计被投票者的最终得分:由于从卷积窗口观察待处理的手部局部图像,每根手指具有对称性,卷积窗口也具有旋转不变性,卷积窗口中的所有坐标点必定关于卷积窗口中心点对称,由于对称性特点,在某点对坐标点进行投票的过程中,如果根据可判断出某点不是竞争者,则的对称点同样不是竞争者,那么两者都不对坐标点进行投票;反之,若某点在某次投票中是竞争者,则它的对称点在当次投票中同样是竞争者,那么两者都对坐标点进行投票,因此,只需对半个卷积窗口进行遍历统计,最后再乘以2,得到等效投票得分Equal_Check
Equal_Check =2Judge
i)归一化投票得分:为手部掩码box3中所有的坐标点计算等效投票得分Equal_Check统一尺度的得分,通过等效投票得分Equal_Check与座位数K(b)的比值可获得坐标点的归一化得分G
G
j)定义最终判决规则:投票结束后,根据G值进行阈值分割,判断是否要淘汰该坐标点,当 ,保留坐标点,其中,min_threshold为极小投票得分阈值;max_threshold为极大投票得分阈值;且0min_threshold max_threshold 1
步骤5的伪代码如下:
BackgroundFilter(box2);
Score = 0;
InitialResultFrame(frame_result);
For x in range(0,box2.rows) and y in range(0, box2.cols):
For i in range(x-b,x+b) and j in range(y-b,y+b-i):
Score(x,y) += Vote(x,y,i,j);
Endfor
Double(Score(x,y));
Normalization(Score(x,y));
If MIN_THRESHOLD < Score(x,y) < MAX_THRESHOLD:
Store(x,y,frame_result);
ENDIF
Endfor
第1句表示对手部掩码box2进行背景过滤。
第2~3句表示得分初始化为0、没有坐标点的空图像初始化为frame_result。
第4句表示对手部掩码box2的半数坐标点进行遍历。
第5~9句表示使用卷积算子对卷积窗口正中心坐标点进行投票,获得最终总票数。
第10~12句表示通过阈值分割获得最终筛选的坐标点,符合要求的坐标点存入frame_result图中。
6)步骤6,区域精滤波:当手部掩码box3中所有点都经过一次投票筛选后,所有非手指的区域噪声被剔除,余下坐标点则构成手指上点的集合Q,Q中相邻的坐标点属于同一连通域region,设集合Q中的坐标点形成m个不同的连通域region,这m个region的集合记为Region
Region=,
对Region进行结构元为3x3的矩形开运算,过滤掉尺寸较小的region,此时获得剩余区域Final_Region,记为
Final_Region=,km;
7)步骤7,求解伸展的手指个数:使用Canny算子对精滤波后的区域Final_Region进行边界求取,获得闭合边界Contour
Contour=,
遍历每个边界r上的坐标点(),求取每个边界相对于掌心的最大距离所构成的集合MaxDistances
MaxDistances = ,
根据手部伸展开的形态,指端与掌心的空间距离应至少略大于掌心的半径,当指端与掌心的最大空间距离与掌心半径的比例大于某特定数值时,可以认定该闭合边界Contour对应的指部处于伸展状态,经多次试验后比例参数取1.5为最优,因此1.5为区分手指是否伸屈的最佳距离,则MaxDistances中大于1.5的元素个数即为处于伸展状态的手指个数,记为N;
8)步骤8,根据神经网络CNN方法分类,得到最终的手势:
a)准备分类模型:如果N=5时,五个手指都处于伸展状态;N=0时,五个手指都处于蜷缩状态,为握紧拳头状;因为当N=5或N=0时,五个手指头对应的手势是唯一的,因而不需要提前准备相应的分类模型,只需要提前准备N=1、N=2、N=3、N=4时的简单分类模型;
b)确定分类模型:当步骤7)确定N值后,可能的手势种类由种减少为,根据N的值,选择已训练好的分类模型;
c)降采样手部掩码:将手部掩码box3图像降采样为30x30大小的图像hand-map;
d)启动分类过程:在分类模型输入端输入图像hand-map,对手势进行CNN分类,计算输出各个手势类型label的得分,根据分类结果中各个手势类型label的得分判断该手势的可信度;
e)评价分类结果:当各个手势类型label的可信度都较低时说明结果不准确,则需要重新返回步骤1;当存在可信的手势类型label时,可信度最高的label对应的分类即为该手势的类型,最终通过检索label对应的手势,即可完成对手势的识别。
[附图说明]
图1 手部识别方案流程图
图2 手指局部典型画面
图3 掌心估计图
图4可投票数的空间位势图—俯视图
图5可投票数的空间位势图—剖面图
图6初步提取的指端图像
图7 最终手势识别图
[具体实施方式]
下面详细说明本发明提出的坐标淘汰机制的具体实施方法。
参见图1 ,其中A是RGB彩色原图;B是RGB彩色原图中的手部掩码box1;C是RGB彩色原图和深度图像进行RGBD配准后的手部掩码box2;D是手部掩码box2去除背景后的手部掩码box3;E是手部掩码box3降采样后的图像;F是按照投票机制提取的初步指端图像;G是经过开运算后精确提取的指端图像;H是伸展的手指数N;I是分类模型;J是手势类型。结合图1说明本发明提出的手势识别方法,具体实施步骤如下:
步骤1,获取手部掩码:拍摄含有手部的画面,采集RGB彩色图像和深度图像,先将RGB映射为单通道灰度图,再利用haar特征检测器,获取彩色图中的手部掩码box1。
步骤2,掩码RGBD配准:根据RGBD对齐原理,将手部掩码box1转化为RGB彩色原图和深度图像进行RGBD配准后的手部掩码box2。部分硬件直接采集输出RGBD对齐图像,允许跳过步骤2。
步骤3,去除背景:由于获得的手部掩码box2中,有图像噪声以及背景的干扰,所以需要适当使用图像开运算,去除雪花噪点。考虑到在实际使用环境中的深度关系,手部掩码box2中手部上像素深度趋于稳定,而手部边缘周围像素深度往往会发生突变。利用深度信息,对手部掩码box2使用一阶差分和阈值分割方法处理去除背景,并裁剪下感兴趣区域ROI,获得分割区域中更精确的手部掩码box3;
步骤4,初步估计掌心参数:对手部掩码box3求解最大内切圆,获得圆心的坐标()和半径,即估计的掌心位置与掌部大小,结果如图3所示;
步骤5对手部掩码box3中的所有坐标进行投票,淘汰非手指区域,初步确定手指区域。考虑手指局部画面有以下三种情况,如图2、3所示。情况一:投票过程中卷积窗口覆盖的指部图像坐标点主要集中在窗口中心区域;情况二:投票过程中卷积窗口覆盖的指部图像坐标点主要集中在窗口中心区域,同时两侧边界处出现局部集中分布的坐标点(如卷积窗口映射到其它手指的局部画面),如图2所示;情况三:手指合并的非典型情况,即两根手指靠的很近,如图3所示。设计的坐标淘汰机制和卷子算子必须满足对这三种情况进行指部估计。下面先对该机制进行说明:
a)总体思路:若手部掩码box3中某坐标点通过投票得分越高,则表示该点越有可能是非手指上的坐标点,越应该被淘汰,根据所有点经投票的最终得分准确判断手部掩码box3中代表手指的坐标点集合和非手指的坐标点集合;
b)定义座位:设置一个长为2b+1、宽为2b+1的卷积窗口;该卷积窗口有K个座位;
c)构建每个座位的分配票数:根据手部掩码box3中坐标的座位与被投票者坐标的二维平面像素距离
且 L
确定每个座位分配固定的可投票数,包含了投票者与被投票者之间的空间耦合关系,是一种鲁棒的分配方式;
且 P
的分配方式主要有以下特征:
①P在空间分布上具有旋转不变性;
②P是关于L在单调递增,在,当L=0时,P等于;当且仅当L=/2时,P=1,产生单个投票的最大得分;当L=时,P得到最小值等于1/;
d)定义投票者:卷积窗口滑动过程时,每个座位所覆盖的坐标点即为当次投票过程的投票者;
e)定义竞争者与无关者:假设某坐标点对应的深度值为对于异于的坐标点(),如果有,则称坐标点()为坐标点的竞争者,如果的竞争者越多,该坐标点越容易被淘汰,用公式表示为
Equal ,
当Equal=1时,是的竞争者,否则为无关者;
f)定义投票规则:在手部掩码box3区域内滑动卷积座位,每个座位由不同的人坐下,每次滑动一格,便于使用Judge判断该点是否为手指上的点,
Judge
当Judge=1时,即为手指上的点,投票者才能为投票,否则不投票;
g)统计被投票者的最终得分:对手部掩码box3中的坐标点进行投票,把手部掩码box3区域中单个座位所对应的坐标点对坐标点投票所产生的单个得分记为Score
Score=
坐标点的所有有效得分之和记为Check
Check = Judge
h)加速统计被投票者的最终得分:由于从卷积窗口观察待处理的手部局部图像,每根手指具有对称性,卷积窗口也具有旋转不变性,卷积窗口中的所有坐标点必定关于卷积窗口中心点对称,由于对称性特点,在某点对坐标点进行投票的过程中,如果根据可判断出某点不是竞争者,则的对称点同样不是竞争者,那么两者都不对坐标点进行投票;反之,若某点在某次投票中是竞争者,则它的对称点在当次投票中同样是竞争者,那么两者都对坐标点进行投票,因此,只需对半个卷积窗口进行遍历统计,最后再乘以2,得到等效投票得分Equal_Check
Equal_Check = 2 Judge ;
i)归一化投票得分:为手部掩码box3中所有的坐标点计算等效投票得分Equal_Check统一尺度的得分,通过等效投票得分Equal_Check与座位数K(b)的比值可获得坐标点的归一化得分G
G;
j)定义最终判决规则:投票结束后,根据G值进行阈值分割,判断是否要淘汰该坐标点,当 ,保留坐标点,其中,min_threshold为极小投票得分阈值;max_threshold为极大投票得分阈值;且0min_threshold max_threshold 1;
经过投票筛选后,得到初步提取的指端图像如图6所示。
再结合该坐标淘汰机制对三种手指局部画面情况进行讨论:
情况一:投票过程中卷积窗口覆盖的指部图像坐标点主要集中在窗口中心区域,如图2所示。根据投票过程分析得,当L趋近或等于0时,坐标点作为竞争者为坐标点投票产生投票得分Score=,此时Score值较小,表明得分较低;此时图2所示情况一中卷积窗口正中心坐标点的总得分Equal_Check较低,被误判为非手指上的坐标点的可能性极小。这表明该投票机制是合理且满足设计目标。
情况二:投票过程中卷积窗口覆盖的指部图像坐标点主要集中在窗口中心区域,同时两侧边界处出现局部集中分布的坐标点(如卷积窗口映射到其它手指的局部画面)。此时,只有卷积窗口中心和两侧边界处的竞争者为坐标点投票产生投票得分Score都较低时,才能保证情况二手指上坐标的投票总得分保持在较低水平。同理,根据上述单个投票得分Score表达式可知,当L=0时,坐标点获得的投票得分单个投票得分Score=;当靠近两侧边缘即L,单个投票得分Score1/,保持在较低水平。
以卷积窗口中心为原点、卷积窗口横向为x轴、卷积窗口纵向为y轴,以每个座位的可投票数为z轴,按照P值越大,曲线越高、颜色越深的方式,绘制可投票数的空间位势图,如图4、5所示。在L的值越接近b/2的位置,位势图显示的颜色越深,表明可投票数越多;在越中心和越靠近两侧边缘位置,位势图显示的颜色越浅,表明可投票数越少。所以,情况二中卷积窗口正中心的坐标点不容易被淘汰,这表明投票机制是合理且满足设计目标。
情况三:如图3出现手指合并的非典型情况,即两根手指靠的很近。这种情况下手指仍能被识别,原因是合并的手指之间形成凹陷的区域,凹陷区域和手指上的点有相当的深度差距,因此凹陷区域上的点不与之构成竞争者关系,不投票。如此把合并的手指区分开并保留下来,便解决了poly算法难以识别合并指端的难题,这证明投票机制是合理且满足设计目标。
以上三种情况,均可说明设计的投票机制是有效的且且满足设计目标。
步骤6,区域精滤波:当手部掩码box3中所有点都经过一次投票筛选后,所有非手指的区域噪声被剔除,余下坐标点则构成手指上点的集合Q,Q中相邻的像素属于同一连通域region,设集合Q中的坐标点形成m个不同的连通域region,这m个region的集合记为Region
Region=,
对Region进行结构元为3x3的矩形开运算,过滤掉尺寸较小的region,此时获得剩余区域,即为精确提取的指端图像Final_Region,记为
Final_Region=,km;
步骤7,求解伸展的手指个数:使用Canny算子对精滤波后的区域Final_Region进行边界求取,获得闭合边界Contour
Contour=,
遍历每个边界r上的坐标点(),求取每个边界相对于掌心的最大距离所构成的集合MaxDistances
MaxDistances = ,
根据手部伸展开的形态,指端与掌心的空间距离应至少略大于掌心的半径,当指端与掌心的最大空间距离与掌心半径的比例大于某特定数值时,可以认定该闭合边界Contour对应的指部处于伸展状态,经多次试验后比例参数取1.5为最优,因此1.5为区分手指是否伸屈的最佳距离,则MaxDistances中大于1.5的元素个数即为处于伸展状态的手指个数,记为N;
步骤8,根据神经网络CNN方法分类,得到最终的手势:
a)准备分类模型:如果N=5时,五个手指都处于伸展状态;N=0时,五个手指都处于蜷缩状态,为握紧拳头状;因为当N=5或N=0时,五个手指头对应的手势是唯一的,因而不需要提前准备相应的分类模型,只需要提前准备N=1、N=2、N=3、N=4时的简单分类模型;
b)确定分类模型:当步骤7)确定N值后,可能的手势种类由种减少为,根据N的值,选择已训练好的分类模型;
c)降采样手部掩码:将手部掩码box3图像降采样为30x30大小的图像hand-map;
d)启动分类过程:在分类模型输入端输入图像hand-map,对手势进行CNN分类,计算输出各个手势类型label的得分,根据分类结果中各个手势类型label的得分判断该手势的可信度;
e)评价分类结果:当各个手势类型label的可信度都较低时说明结果不准确,则需要重新返回步骤1;当存在可信的手势类型label时,可信度最高的label对应的分类即为该手势的类型,最终通过检索label对应的手势,即可完成对手势的识别。
最终手势识别类型如图7所示。
Claims (3)
1.一种基于形态学的近景手势识别方法,通过坐标淘汰机制和具有旋转不变性的图像卷积算子确定手势状态,其特征在于具体包含以下步骤:
1)获取手部掩码:采集RGB彩色图像和深度图像,利用haar特征检测器,获取彩色图中的手部掩码box1;
2)掩码RGBD配准:根据RGBD对齐原理,将手部掩码box1转化为与RGBD配准后的手部掩码box2;
3)去除背景:利用深度信息,对手部掩码box2使用一阶差分阈值处理去除背景,并裁剪下感兴趣区域ROI,获得分割区域中更精确的手部掩码box3;
4)初步估计掌心参数:对手部掩码box3求解最大内切圆,获得圆心的坐标()和半径,即估计的掌心位置与掌部大小;
5)投票筛选:对手部掩码box3中的所有坐标使用具有旋转不变性的图像卷积算子进行投票,淘汰非手指区域,初步确定手指区域;
6)区域精滤波:当手部掩码box3中所有点都经过一次投票筛选后,所有非手指的区域噪声被剔除,余下的坐标点构成手指上点的集合Q,Q中相邻的像素属于同一连通域region,假设集合Q中的坐标点形成有m个不同的连通域region,这m个region的集合记为Region:
Region=,
对Region进行结构元为3x3的矩形开运算,过滤掉尺寸较小的区域,此时获得剩余区域Final_Region:
Final_Region=,km,
其中是对Region进行精滤波后的第k个连通域;
7)求解伸展的手指个数:使用Canny算子对精滤波后的区域Final_Region进行边界求取,获得k个闭合边界,组成集合记为集合Contour:
Contour=,
遍历每个闭合边界上的坐标点(),求取每个闭合边界相对于掌心的最大距离所构成的集合MaxDistances:
MaxDistances = ,
式中、分别表示第i个边界r上任意点的横坐标和纵坐标,、分别表示手部掩码box3中最大内切圆心的横坐标和纵坐标
根据手部伸展开的形态确定手指的伸展状态,取1.5作为区分手指是否伸屈的最佳距离,则MaxDistances中大于1.5的元素个数即为处于伸展状态的手指个数,记为N;
8)根据神经网络CNN方法分类,得到最终的手势。
2.根据权利要求1所述的基于形态学的近景手势识别方法,其特征在于:步骤5)具体为:
a)定义座位:设置一个长为2b+1、宽为2b+1的卷积窗口;该卷积窗口有K个座位;
b)定义投票者:卷积窗口滑动过程时,每个座位所覆盖的坐标点即为当次投票过程的投票者;
c)定义竞争者与无关者:假设某坐标点对应的深度值为对异于的坐标点(),如果有,则称坐标点()为坐标点的竞争者,如果的竞争者越多,表明该坐标点越容易被淘汰,用公式表示为
Equal,
当Equal=1时,手部掩码box3中的任意点是手部掩码box3中心坐标的竞争者,否则为无关者;
d)定义投票规则:在手部掩码box3区域内滑动卷积座位,每次滑动一格,便使用Judge判断坐标点是否为手指上的点,
Judge
当Judge=1时,即为手指上的点,投票者才能为投票,否则不投票;
e)构建每个座位的分配票数:根据手部掩码box3中任意坐标与中心坐标的二维平面像素距离:
且L
确定每个坐标点分配固定的可投票数(即权值),包含了投票者与被投票者之间的空间耦合关系,是一种鲁棒的分配方式;
且 P
(以下简写P)的分配方式主要有以下特征:
①P在空间分布上具有旋转不变性;
②P是关于L在单调递增,在,当L=0时,P等于;当且仅当L=/2时,P=1,产生单个投票的最大得分;当L=时,P得到最小值等于1/;
f)统计被投票者的最终得分:对手部掩码box3中的坐标点进行投票,把手部掩码box3区域中单个座位所对应的坐标点对坐标点投票所产生的单个得分记为Score
Score=
坐标点的所有有效得分之和记为Check
Check = Judge
g)加速统计被投票者的最终得分:由于从卷积窗口观察待处理的手部局部图像,每根手指具有对称性,卷积窗口也具有旋转不变性,卷积窗口中的所有坐标点必定关于卷积窗口中心点对称,由于对称性特点,在某点对坐标点进行投票的过程中,如果根据可判断出某点不是竞争者,则的对称点同样不是竞争者,那么两者都不对坐标点进行投票;反之,若某点在某次投票中是竞争者,则它的对称点在当次投票中同样是竞争者,那么两者都对坐标点进行投票,因此,只需对半个卷积窗口进行遍历统计,最后再乘以2,得到等效投票得分Equal_Check
Equal_Check = 2Judge;
h)归一化投票得分:为手部掩码box3中所有的坐标点计算等效投票得分Equal_Check统一尺度的得分,通过等效投票得分Equal_Check与座位数K(b)的比值可获得坐标点的归一化得分G
G;
i)定义最终判决规则:投票结束后,根据G值进行阈值分割,判断是否要淘汰该坐标点,当,保留坐标点,其中,min_threshold为极小投票得分阈值;max_threshold为极大投票得分阈值;且0min_threshold max_threshold 1。
3.根据权利要求1所述的基于形态学的近景手势识别方法,其特征在于:步骤8)具体为:
a)准备分类模型:如果N=5时,五个手指都处于伸展状态;N=0时,五个手指都处于蜷缩状态,为握紧拳头状;因为当N=5或N=0时,五个手指头对应的手势是唯一的,因而不需要提前准备相应的分类模型,只需要提前准备N=1、N=2、N=3、N=4时的简单分类模型;
b)确定分类模型:当步骤7)确定N值后,手势估计种类由种减少为,根据N的值,选择已训练好的分类模型;
c)降采样手部掩码:将手部掩码box3图像降采样为30x30大小的图像hand-map;
d)启动分类过程:在分类模型输入端输入图像hand-map,对手势进行CNN分类,计算输出各个手势类型label的得分,根据分类结果中各个手势类型label的得分判断该手势的可信度;
e)评价分类结果:当各个手势类型label的可信度都较低时说明结果不准确,则需要重新返回步骤1;当存在可信的手势类型label时,可信度最高的label对应的分类即为该手势的类型,最终通过检索label对应的手势,即可完成对手势的识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810460615.0A CN108875579B (zh) | 2018-05-15 | 2018-05-15 | 一种基于形态学的近景手势识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810460615.0A CN108875579B (zh) | 2018-05-15 | 2018-05-15 | 一种基于形态学的近景手势识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108875579A true CN108875579A (zh) | 2018-11-23 |
CN108875579B CN108875579B (zh) | 2022-08-05 |
Family
ID=64334444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810460615.0A Active CN108875579B (zh) | 2018-05-15 | 2018-05-15 | 一种基于形态学的近景手势识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108875579B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109785380A (zh) * | 2018-12-29 | 2019-05-21 | 北京金山安全软件有限公司 | 一种内切圆确定方法及装置 |
CN111523387A (zh) * | 2020-03-24 | 2020-08-11 | 杭州易现先进科技有限公司 | 手部关键点检测的方法、设备和计算机设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268507A (zh) * | 2014-09-15 | 2015-01-07 | 南京邮电大学 | 一种基于rgb-d图像的手语字母识别方法 |
US20160078289A1 (en) * | 2014-09-16 | 2016-03-17 | Foundation for Research and Technology - Hellas (FORTH) (acting through its Institute of Computer | Gesture Recognition Apparatuses, Methods and Systems for Human-Machine Interaction |
CN106155327A (zh) * | 2016-08-01 | 2016-11-23 | 乐视控股(北京)有限公司 | 手势识别方法和系统 |
WO2017004241A1 (en) * | 2015-07-02 | 2017-01-05 | Krush Technologies, Llc | Facial gesture recognition and video analysis tool |
CN106372564A (zh) * | 2015-07-23 | 2017-02-01 | 株式会社理光 | 手势识别方法和装置 |
CN106778141A (zh) * | 2017-01-13 | 2017-05-31 | 北京元心科技有限公司 | 基于手势识别的解锁方法、装置及移动终端 |
CN107203756A (zh) * | 2016-06-06 | 2017-09-26 | 亮风台(上海)信息科技有限公司 | 一种识别手势的方法与设备 |
CN107728792A (zh) * | 2017-11-17 | 2018-02-23 | 浙江大学 | 一种基于手势识别的增强现实三维绘图系统及绘图方法 |
CN107742102A (zh) * | 2017-10-13 | 2018-02-27 | 北京华捷艾米科技有限公司 | 一种基于深度传感器的手势识别方法 |
-
2018
- 2018-05-15 CN CN201810460615.0A patent/CN108875579B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268507A (zh) * | 2014-09-15 | 2015-01-07 | 南京邮电大学 | 一种基于rgb-d图像的手语字母识别方法 |
US20160078289A1 (en) * | 2014-09-16 | 2016-03-17 | Foundation for Research and Technology - Hellas (FORTH) (acting through its Institute of Computer | Gesture Recognition Apparatuses, Methods and Systems for Human-Machine Interaction |
WO2017004241A1 (en) * | 2015-07-02 | 2017-01-05 | Krush Technologies, Llc | Facial gesture recognition and video analysis tool |
CN106372564A (zh) * | 2015-07-23 | 2017-02-01 | 株式会社理光 | 手势识别方法和装置 |
CN107203756A (zh) * | 2016-06-06 | 2017-09-26 | 亮风台(上海)信息科技有限公司 | 一种识别手势的方法与设备 |
CN106155327A (zh) * | 2016-08-01 | 2016-11-23 | 乐视控股(北京)有限公司 | 手势识别方法和系统 |
CN106778141A (zh) * | 2017-01-13 | 2017-05-31 | 北京元心科技有限公司 | 基于手势识别的解锁方法、装置及移动终端 |
CN107742102A (zh) * | 2017-10-13 | 2018-02-27 | 北京华捷艾米科技有限公司 | 一种基于深度传感器的手势识别方法 |
CN107728792A (zh) * | 2017-11-17 | 2018-02-23 | 浙江大学 | 一种基于手势识别的增强现实三维绘图系统及绘图方法 |
Non-Patent Citations (3)
Title |
---|
YUAN YAO等: "Contour Model-Based Hand-Gesture Recognition Using the Kinect Sensor", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 * |
杜宇: "基于深度机器学习的体态与手势感知计算关键技术研究", 《中国博士学位论文全文数据库信息科技辑》 * |
王德鑫: "四路摄像头协同多重触控技术研究与实现", 《中国博士学位论文全文数据库信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109785380A (zh) * | 2018-12-29 | 2019-05-21 | 北京金山安全软件有限公司 | 一种内切圆确定方法及装置 |
CN111523387A (zh) * | 2020-03-24 | 2020-08-11 | 杭州易现先进科技有限公司 | 手部关键点检测的方法、设备和计算机设备 |
CN111523387B (zh) * | 2020-03-24 | 2024-04-19 | 杭州易现先进科技有限公司 | 手部关键点检测的方法、设备和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108875579B (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106910185B (zh) | 一种基于cnn深度学习的dbcc分类模型构建方法 | |
CN108986064A (zh) | 一种人流量统计方法、设备及系统 | |
CN105046252B (zh) | 一种人民币冠字码识别方法 | |
CN107292252B (zh) | 一种自主学习的身份识别方法 | |
CN110135282B (zh) | 一种基于深度卷积神经网络模型的考生回头抄袭作弊检测方法 | |
CN103198304A (zh) | 一种掌纹提取识别方法 | |
CN102194108B (zh) | 一种聚类线性鉴别分析特征选择的笑脸表情识别方法 | |
CN106778664A (zh) | 一种虹膜图像中虹膜区域的分割方法及其装置 | |
CN101866427A (zh) | 织物瑕疵检测与分类方法 | |
CN101464946A (zh) | 基于头部识别和跟踪特征的检测方法 | |
CN106127137A (zh) | 一种基于3d轨迹分析的目标检测识别算法 | |
CN109215010B (zh) | 一种图像质量判断的方法及机器人人脸识别系统 | |
CN107341688A (zh) | 一种客户体验的采集方法及系统 | |
CN107808376A (zh) | 一种基于深度学习的举手检测方法 | |
CN105893946A (zh) | 一种正面人脸图像的检测方法 | |
CN102214309A (zh) | 一种基于头肩模型的特定人体识别方法 | |
CN106971130A (zh) | 一种以人脸为参照的手势识别方法 | |
CN104346801A (zh) | 图像构图评估装置、信息处理装置及其方法 | |
CN106504262A (zh) | 一种多特征融合的小瓷砖智能定位方法 | |
CN106709438A (zh) | 一种基于视频会议的人数统计方法 | |
CN106295532A (zh) | 一种视频图像中的人体动作识别方法 | |
CN106384345A (zh) | 一种基于rcnn的图像检测以及流量统计方法 | |
CN107480607A (zh) | 一种智能录播系统中站立人脸检测定位的方法 | |
CN107480585A (zh) | 基于dpm算法的目标检测方法 | |
CN108875579A (zh) | 一种基于形态学的近景手势识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240401 Address after: Room A102, No. 2 Park North 2nd Street, Xinkeshang Village, Jiahe Street, Baiyun District, Guangzhou City, Guangdong Province, 510080 Patentee after: Guangzhou Chemaju Technology Development Co.,Ltd. Country or region after: China Address before: Siming District of Xiamen city in Fujian Province, 361005 South Siming Road No. 422 Patentee before: XIAMEN University Country or region before: China |
|
TR01 | Transfer of patent right |