CN108875579B - 一种基于形态学的近景手势识别方法 - Google Patents

一种基于形态学的近景手势识别方法 Download PDF

Info

Publication number
CN108875579B
CN108875579B CN201810460615.0A CN201810460615A CN108875579B CN 108875579 B CN108875579 B CN 108875579B CN 201810460615 A CN201810460615 A CN 201810460615A CN 108875579 B CN108875579 B CN 108875579B
Authority
CN
China
Prior art keywords
region
point
coordinate
voting
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810460615.0A
Other languages
English (en)
Other versions
CN108875579A (zh
Inventor
殷春平
王德鑫
廖采莹
董一巍
尤延铖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Chemaju Technology Development Co.,Ltd.
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201810460615.0A priority Critical patent/CN108875579B/zh
Publication of CN108875579A publication Critical patent/CN108875579A/zh
Application granted granted Critical
Publication of CN108875579B publication Critical patent/CN108875579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/117Biometrics derived from hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明旨在提出一种基于形态学的近景手势识别方法。首先采集RGB彩色图像和深度图像,利用haar特征检测器,获取彩色图中的手部掩码box1;依次根据RGBD对齐原理、一阶差分和阈值处理获得分割后手部区域的RGBD图,并裁剪下感兴趣区域ROI得到手部掩码box3;再对手部掩码box3求解最大内切圆,通过内切圆的几何参数估计掌部大小与掌心位置;设计坐标淘汰机制提取指端区域和指端数N,并根据N的值选择提前训练好的CNN分类模型,对手势进行分类,得到最终手势类型。该方法在识别手部区域过程中特别地设计了一种坐标淘汰机制和一种新型的科学的图像卷积算子,该算子具有旋转不变性,能对近景的复杂手势进行快速识别。

Description

一种基于形态学的近景手势识别方法
技术领域
本发明涉及手势识别的算法。更详细的说,是一种基于形态学的近景手势识别方法,并且提出了实现该方法加速计算的具体办法。
背景技术
随着计算机的广泛应用,人机交互已成为人们日常生活中的重要部分。人机交互的最终目标是实现人与机器自然地交流,因此手势识别研究顺应了人们生活发展需要。目前,手势识别也已经应用在各个领域,例如视频直播、机器人和AR等领域。然而由于手势本身具有多样性、多义性以及时间和空间上的差异性等特点,同时人手的复杂性以及视觉本身的不适定性,导致手势识别成为一门多学科交叉的研究课题。
通常运用在手势识别的算法主要有以下三种:
1、skeleton算法。适用于刚性、自由度低的物体,对于手部这种具有较多自由度的物体不能准确识别;
2、poly算法。能得出手势的几何模型,但由于算法简单,仅仅使用图像轮廓求凸集来等效求解手指个数,鲁棒性差,不适合在复杂环境下使用。而且当手指距离较近时不能准确识别每根手指,手势识别效果不理想;
3、完全依赖深度学习识别的方法。该算法得到的手势识别精度较高,但计算时占用内存多,运行时间长,硬件成本高。
所以,以上三种方法都存在弊端:skeleton算法和poly算法并不适合用于手势识别;深度学习方法适合手部识别,但对硬件的要求较高,目前不适合嵌入型的实时性手部识别的运算。
[发明内容]
本发明的目的在于克服现有技术的不足,提出了一种基于形态学的近景手势识别方法。该方法在识别手部区域过程中涉及一种有效合理的坐标淘汰机制,包含一种新型的科学的图像卷积算子,该算子具有旋转不变性,能对近景的复杂手势进行快速识别,滤波能力强,解决了现有算法难以识别合并手指等难题。
利用设计的坐标淘汰机制,得出一种行之有效的手部识别方案,步骤如下:
1)获取手部掩码:采集RGB彩色图像和深度图像,利用haar特征检测器,获取彩色图中的手部掩码box1;
2)掩码RGBD配准:根据RGBD对齐原理,将手部掩码box1转化为与RGBD配准后的手部掩码box2;
3)去除背景:利用深度信息,对手部掩码box2使用一阶差分阈值处理去除背景,并裁剪下感兴趣区域ROI,获得分割区域中更精确的手部掩码box3;
4)初步估计掌心参数:对手部掩码box3求解最大内切圆,获得圆心的坐标(
Figure 971417DEST_PATH_IMAGE001
)和半径
Figure 137825DEST_PATH_IMAGE002
,即估计的掌心位置与掌部大小;
5)进行投票淘汰筛选,对手部掩码box3中的所有坐标进行投票,淘汰非手指区域,初步确定手指区域,说明如下:
a)总体思路:若手部掩码box3中某坐标点通过投票得分越高,则表示该点越有可能是非手指上的坐标点,越应该被淘汰,根据所有点经投票的最终得分准确判断手部掩码box3中代表手指的坐标点集合和非手指的坐标点集合;
b)定义座位:设置一个长为2b+1、宽为2b+1的卷积窗口;该卷积窗口有K
Figure 229146DEST_PATH_IMAGE003
个座位;
c) 构建每个座位的分配票数:根据手部掩码box3中坐标
Figure 562039DEST_PATH_IMAGE004
的座位与被投票者坐标
Figure 756172DEST_PATH_IMAGE005
的二维平面像素距离
Figure 516317DEST_PATH_IMAGE006
且 L
Figure 721034DEST_PATH_IMAGE007
确定每个座位
Figure 293835DEST_PATH_IMAGE004
分配固定的可投票数
Figure 900397DEST_PATH_IMAGE008
Figure 831444DEST_PATH_IMAGE008
包含了投票者与被投票者之间的空间耦合关系,是一种鲁棒的分配方式;
Figure 21992DEST_PATH_IMAGE009
且 P
Figure 696687DEST_PATH_IMAGE010
Figure 344706DEST_PATH_IMAGE008
的分配方式主要有以下特征:
①P在空间分布上具有旋转不变性;
②P是关于L在
Figure 204909DEST_PATH_IMAGE011
单调递增,在
Figure 384217DEST_PATH_IMAGE012
,当L=0时,P等于
Figure 534707DEST_PATH_IMAGE013
;当且仅当L=
Figure 614396DEST_PATH_IMAGE014
/2时,P=1,产生单个投票的最大得分;当L=
Figure 887246DEST_PATH_IMAGE015
时,P得到最小值等于1/
Figure 491534DEST_PATH_IMAGE016
d)定义投票者:卷积窗口滑动过程时,每个座位所覆盖的坐标点即为当次投票过程的投票者;
e) 定义竞争者与无关者:假设某坐标点
Figure 6566DEST_PATH_IMAGE005
对应的深度值为
Figure 317593DEST_PATH_IMAGE017
对于异于
Figure 463141DEST_PATH_IMAGE018
的坐标点(
Figure 351463DEST_PATH_IMAGE019
),如果有
Figure 613729DEST_PATH_IMAGE020
,则称坐标点(
Figure 903896DEST_PATH_IMAGE019
)为坐标点
Figure 784127DEST_PATH_IMAGE005
的竞争者,如果
Figure 159745DEST_PATH_IMAGE018
的竞争者越多,该坐标点越容易被淘汰,用公式表示为
Equal
Figure 16580DEST_PATH_IMAGE021
Figure 426833DEST_PATH_IMAGE022
Figure 415649DEST_PATH_IMAGE023
当Equal
Figure 777098DEST_PATH_IMAGE021
=1时,
Figure 876772DEST_PATH_IMAGE004
Figure 875952DEST_PATH_IMAGE005
的竞争者,否则为无关者;
f) 定义投票规则:在手部掩码box3区域内滑动卷积座位,每个座位由不同的人坐下(每个座位由不同的分值对应),每次滑动一格,便于使用Judge
Figure 799783DEST_PATH_IMAGE005
判断该点是否为手指上的点,
Judge
Figure 884414DEST_PATH_IMAGE024
当Judge
Figure 850096DEST_PATH_IMAGE005
=1时,
Figure 423158DEST_PATH_IMAGE005
即为手指上的点,投票者才能为
Figure 816093DEST_PATH_IMAGE005
投票,否则不投票;
g) 统计被投票者的最终得分:对手部掩码box3中的坐标点
Figure 824238DEST_PATH_IMAGE005
进行投票,把手部掩码box3区域中坐标点
Figure 593611DEST_PATH_IMAGE025
对坐标点
Figure 567383DEST_PATH_IMAGE005
投票所产生的单个得分记为Score
Figure 131220DEST_PATH_IMAGE026
Score
Figure 688978DEST_PATH_IMAGE026
=
Figure 996463DEST_PATH_IMAGE027
坐标点
Figure 90321DEST_PATH_IMAGE005
的所有有效得分之和记为Check
Figure 559479DEST_PATH_IMAGE028
Check
Figure 870112DEST_PATH_IMAGE028
= Judge
Figure 981288DEST_PATH_IMAGE029
Figure 664073DEST_PATH_IMAGE030
h) 加速统计被投票者的最终得分:由于从卷积窗口观察待处理的手部局部图像,每根手指具有对称性,卷积窗口也具有旋转不变性,卷积窗口中的所有坐标点必定关于卷积窗口中心点对称,由于对称性特点,在某点
Figure 835292DEST_PATH_IMAGE025
对坐标点
Figure 107922DEST_PATH_IMAGE031
进行投票的过程中,如果根据
Figure 22788DEST_PATH_IMAGE032
可判断出某点
Figure 825659DEST_PATH_IMAGE025
不是竞争者,则
Figure 636620DEST_PATH_IMAGE025
的对称点同样不是竞争者,那么两者都不对坐标点
Figure 921846DEST_PATH_IMAGE031
进行投票;反之,若某点
Figure 109245DEST_PATH_IMAGE025
在某次投票中是竞争者,则它的对称点在当次投票中同样是竞争者,那么两者都对坐标点
Figure 32201DEST_PATH_IMAGE031
进行投票,因此,只需对半个卷积窗口进行遍历统计,最后再乘以2,得到等效投票得分Equal_Check
Figure 279643DEST_PATH_IMAGE033
Equal_Check
Figure 521006DEST_PATH_IMAGE033
=2
Figure 777675DEST_PATH_IMAGE034
Judge
Figure 555139DEST_PATH_IMAGE035
i) 归一化投票得分:为手部掩码box3中所有的坐标点计算等效投票得分Equal_Check
Figure 973482DEST_PATH_IMAGE033
统一尺度的得分,通过等效投票得分Equal_Check
Figure 702141DEST_PATH_IMAGE033
与座位数K(b)的比值可获得坐标点
Figure 496922DEST_PATH_IMAGE005
的归一化得分G
Figure 128891DEST_PATH_IMAGE028
G
Figure 718135DEST_PATH_IMAGE036
j) 定义最终判决规则:投票结束后,根据G
Figure 193811DEST_PATH_IMAGE028
值进行阈值分割,判断是否要淘汰该坐标点
Figure 526703DEST_PATH_IMAGE005
,当
Figure 13179DEST_PATH_IMAGE037
Figure 38904DEST_PATH_IMAGE038
, 保留坐标点
Figure 742156DEST_PATH_IMAGE005
,其中,min_threshold为极小投票得分阈值;max_threshold为极大投票得分阈值;且0
Figure 878739DEST_PATH_IMAGE039
min_threshold
Figure 219721DEST_PATH_IMAGE040
max_threshold
Figure 416348DEST_PATH_IMAGE041
1
步骤5的伪代码如下:
BackgroundFilter(box2);
Score = 0;
InitialResultFrame(frame_result);
For x in range(0,box2.rows) and y in range(0, box2.cols):
For i in range(x-b,x+b) and j in range(y-b,y+b-i):
Score(x,y) += Vote(x,y,i,j);
Endfor
Double(Score(x,y));
Normalization(Score(x,y));
If MIN_THRESHOLD < Score(x,y) < MAX_THRESHOLD:
Store(x,y,frame_result);
ENDIF
Endfor
第1句表示对手部掩码box2进行背景过滤。
第2~3句表示得分初始化为0、没有坐标点的空图像初始化为frame_result。
第4句表示对手部掩码box2的半数坐标点进行遍历。
第5~9句表示使用卷积算子对卷积窗口正中心坐标点进行投票,获得最终总票数。
第10~12句表示通过阈值分割获得最终筛选的坐标点,符合要求的坐标点存入frame_result图中。
6) 步骤6,区域精滤波:当手部掩码box3中所有点都经过一次投票筛选后,所有非手指的区域噪声被剔除,余下坐标点则构成手指上点的集合Q,Q中相邻的坐标点属于同一连通域region,设集合Q中的坐标点形成m个不同的连通域region,这m个region的集合记为Region
Region=
Figure 606895DEST_PATH_IMAGE042
,
对Region进行结构元为3x3的矩形开运算,过滤掉尺寸较小的region,此时获得剩余区域Final_Region,记为
Final_Region=
Figure 281590DEST_PATH_IMAGE043
,k
Figure 742659DEST_PATH_IMAGE041
m;
7) 步骤7,求解伸展的手指个数:使用Canny算子对精滤波后的区域Final_Region进行边界求取,获得闭合边界Contour
Contour=
Figure 110186DEST_PATH_IMAGE044
遍历每个边界
Figure 522451DEST_PATH_IMAGE045
r上的坐标点(
Figure 836DEST_PATH_IMAGE019
),求取每个边界相对于掌心的最大距离所构成的集合MaxDistances
MaxDistances =
Figure 581990DEST_PATH_IMAGE046
根据手部伸展开的形态,指端与掌心的空间距离应至少略大于掌心的半径,当指端与掌心的最大空间距离与掌心半径的比例大于某特定数值时,可以认定该闭合边界Contour对应的指部处于伸展状态,经多次试验后比例参数取1.5为最优,因此1.5
Figure 854840DEST_PATH_IMAGE002
为区分手指是否伸屈的最佳距离,则MaxDistances中大于1.5
Figure 25839DEST_PATH_IMAGE002
的元素个数即为处于伸展状态的手指个数,记为N;
8)步骤8,根据神经网络CNN方法分类,得到最终的手势:
a)准备分类模型:如果N=5时,五个手指都处于伸展状态;N=0时,五个手指都处于蜷缩状态,为握紧拳头状;因为当N=5或N=0时,五个手指头对应的手势是唯一的,因而不需要提前准备相应的分类模型,只需要提前准备N=1、N=2、N=3、N=4时的简单分类模型;
b)确定分类模型:当步骤7)确定N值后,可能的手势种类由
Figure 42337DEST_PATH_IMAGE047
种减少为
Figure 477997DEST_PATH_IMAGE048
,根据N的值,选择已训练好的分类模型;
c)降采样手部掩码:将手部掩码box3图像降采样为30x30大小的图像hand-map;
d)启动分类过程:在分类模型输入端输入图像hand-map,对手势进行CNN分类,计算输出各个手势类型label的得分,根据分类结果中各个手势类型label的得分判断该手势的可信度;
e)评价分类结果:当各个手势类型label的可信度都较低时说明结果不准确,则需要重新返回步骤1;当存在可信的手势类型label时,可信度最高的label对应的分类即为该手势的类型,最终通过检索label对应的手势,即可完成对手势的识别。
[附图说明]
图1 手部识别方案流程图
图2 手指局部典型画面
图3 掌心估计图
图4可投票数
Figure 921748DEST_PATH_IMAGE049
的空间位势图—俯视图
图5可投票数
Figure 574184DEST_PATH_IMAGE049
的空间位势图—剖面图
图6初步提取的指端图像
图7 最终手势识别图
[具体实施方式]
下面详细说明本发明提出的坐标淘汰机制的具体实施方法。
参见图1 ,其中A是RGB彩色原图;B是RGB彩色原图中的手部掩码box1;C是RGB彩色原图和深度图像进行RGBD配准后的手部掩码box2;D是手部掩码box2去除背景后的手部掩码box3;E是手部掩码box3降采样后的图像;F是按照投票机制提取的初步指端图像;G是经过开运算后精确提取的指端图像;H是伸展的手指数N;I是分类模型;J是手势类型。结合图1说明本发明提出的手势识别方法,具体实施步骤如下:
步骤1,获取手部掩码:拍摄含有手部的画面,采集RGB彩色图像和深度图像,先将RGB映射为单通道灰度图,再利用haar特征检测器,获取彩色图中的手部掩码box1。
步骤2,掩码RGBD配准:根据RGBD对齐原理,将手部掩码box1转化为RGB彩色原图和深度图像进行RGBD配准后的手部掩码box2。部分硬件直接采集输出RGBD对齐图像,允许跳过步骤2。
步骤3,去除背景:由于获得的手部掩码box2中,有图像噪声以及背景的干扰,所以需要适当使用图像开运算,去除雪花噪点。考虑到在实际使用环境中的深度关系,手部掩码box2中手部上像素深度趋于稳定,而手部边缘周围像素深度往往会发生突变。利用深度信息,对手部掩码box2使用一阶差分和阈值分割方法处理去除背景,并裁剪下感兴趣区域ROI,获得分割区域中更精确的手部掩码box3;
步骤4,初步估计掌心参数:对手部掩码box3求解最大内切圆,获得圆心的坐标(
Figure 394372DEST_PATH_IMAGE001
)和半径
Figure 684539DEST_PATH_IMAGE002
,即估计的掌心位置与掌部大小,结果如图3所示;
步骤5对手部掩码box3中的所有坐标进行投票,淘汰非手指区域,初步确定手指区域。考虑手指局部画面有以下三种情况,如图2、3所示。情况一:投票过程中卷积窗口覆盖的指部图像坐标点主要集中在窗口中心区域;情况二:投票过程中卷积窗口覆盖的指部图像坐标点主要集中在窗口中心区域,同时两侧边界处出现局部集中分布的坐标点(如卷积窗口映射到其它手指的局部画面),如图2所示;情况三:手指合并的非典型情况,即两根手指靠的很近,如图3所示。设计的坐标淘汰机制和卷子算子必须满足对这三种情况进行指部估计。下面先对该机制进行说明:
a)总体思路:若手部掩码box3中某坐标点通过投票得分越高,则表示该点越有可能是非手指上的坐标点,越应该被淘汰,根据所有点经投票的最终得分准确判断手部掩码box3中代表手指的坐标点集合和非手指的坐标点集合;
b)定义座位:设置一个长为2b+1、宽为2b+1的卷积窗口;该卷积窗口有K
Figure 564771DEST_PATH_IMAGE003
个座位;
c) 构建每个座位的分配票数:根据手部掩码box3中坐标
Figure 438924DEST_PATH_IMAGE004
的座位与被投票者坐标
Figure 797224DEST_PATH_IMAGE005
的二维平面像素距离
Figure 207477DEST_PATH_IMAGE006
且 L
Figure 993030DEST_PATH_IMAGE007
确定每个座位
Figure 354479DEST_PATH_IMAGE004
分配固定的可投票数
Figure 516470DEST_PATH_IMAGE008
Figure 781229DEST_PATH_IMAGE008
包含了投票者与被投票者之间的空间耦合关系,是一种鲁棒的分配方式;
Figure 3263DEST_PATH_IMAGE009
且 P
Figure 869586DEST_PATH_IMAGE010
Figure 569689DEST_PATH_IMAGE008
的分配方式主要有以下特征:
①P在空间分布上具有旋转不变性;
②P是关于L在
Figure 688955DEST_PATH_IMAGE011
单调递增,在
Figure 81890DEST_PATH_IMAGE012
,当L=0时,P等于
Figure 417931DEST_PATH_IMAGE013
;当且仅当L=
Figure 921725DEST_PATH_IMAGE014
/2时,P=1,产生单个投票的最大得分;当L=
Figure 895497DEST_PATH_IMAGE015
时,P得到最小值等于1/
Figure 459334DEST_PATH_IMAGE016
d)定义投票者:卷积窗口滑动过程时,每个座位所覆盖的坐标点即为当次投票过程的投票者;
e) 定义竞争者与无关者:假设某坐标点
Figure 282671DEST_PATH_IMAGE005
对应的深度值为
Figure 324576DEST_PATH_IMAGE017
对于异于
Figure 418434DEST_PATH_IMAGE018
的坐标点(
Figure 153172DEST_PATH_IMAGE019
),如果有
Figure 198226DEST_PATH_IMAGE020
,则称坐标点(
Figure 309402DEST_PATH_IMAGE019
)为坐标点
Figure 320083DEST_PATH_IMAGE005
的竞争者,如果
Figure 225722DEST_PATH_IMAGE018
的竞争者越多,该坐标点越容易被淘汰,用公式表示为
Equal
Figure 259537DEST_PATH_IMAGE021
Figure 147640DEST_PATH_IMAGE022
Figure 216090DEST_PATH_IMAGE023
当Equal
Figure 292630DEST_PATH_IMAGE021
=1时,
Figure 813741DEST_PATH_IMAGE004
Figure 499675DEST_PATH_IMAGE005
的竞争者,否则为无关者;
f) 定义投票规则:在手部掩码box3区域内滑动卷积座位,每个座位由不同的人坐下,每次滑动一格,便于使用Judge
Figure 422632DEST_PATH_IMAGE005
判断该点是否为手指上的点,
Judge
Figure 670074DEST_PATH_IMAGE024
当Judge
Figure 678481DEST_PATH_IMAGE005
=1时,
Figure 168106DEST_PATH_IMAGE005
即为手指上的点,投票者才能为
Figure 945569DEST_PATH_IMAGE005
投票,否则不投票;
g) 统计被投票者的最终得分:对手部掩码box3中的坐标点
Figure 363912DEST_PATH_IMAGE005
进行投票,把手部掩码box3区域中单个座位所对应的坐标点
Figure 594036DEST_PATH_IMAGE025
对坐标点
Figure 887352DEST_PATH_IMAGE005
投票所产生的单个得分记为Score
Figure 519322DEST_PATH_IMAGE026
Score
Figure 108566DEST_PATH_IMAGE026
=
Figure 91565DEST_PATH_IMAGE027
坐标点
Figure 917134DEST_PATH_IMAGE005
的所有有效得分之和记为Check
Figure 403610DEST_PATH_IMAGE028
Check
Figure 429335DEST_PATH_IMAGE028
= Judge
Figure 634051DEST_PATH_IMAGE029
Figure 3590DEST_PATH_IMAGE050
h) 加速统计被投票者的最终得分:由于从卷积窗口观察待处理的手部局部图像,每根手指具有对称性,卷积窗口也具有旋转不变性,卷积窗口中的所有坐标点必定关于卷积窗口中心点对称,由于对称性特点,在某点
Figure 610152DEST_PATH_IMAGE025
对坐标点
Figure 806778DEST_PATH_IMAGE031
进行投票的过程中,如果根据
Figure 233211DEST_PATH_IMAGE032
可判断出某点
Figure 672021DEST_PATH_IMAGE025
不是竞争者,则
Figure 133089DEST_PATH_IMAGE025
的对称点同样不是竞争者,那么两者都不对坐标点
Figure 235037DEST_PATH_IMAGE031
进行投票;反之,若某点
Figure 414346DEST_PATH_IMAGE025
在某次投票中是竞争者,则它的对称点在当次投票中同样是竞争者,那么两者都对坐标点
Figure 391267DEST_PATH_IMAGE031
进行投票,因此,只需对半个卷积窗口进行遍历统计,最后再乘以2,得到等效投票得分Equal_Check
Figure 706842DEST_PATH_IMAGE033
Equal_Check
Figure 245270DEST_PATH_IMAGE033
= 2
Figure 708613DEST_PATH_IMAGE034
Judge
Figure 990690DEST_PATH_IMAGE051
Figure 930745DEST_PATH_IMAGE052
i) 归一化投票得分:为手部掩码box3中所有的坐标点计算等效投票得分Equal_Check
Figure 374495DEST_PATH_IMAGE033
统一尺度的得分,通过等效投票得分Equal_Check
Figure 528396DEST_PATH_IMAGE033
与座位数K(b)的比值可获得坐标点
Figure 348585DEST_PATH_IMAGE005
的归一化得分G
Figure 137287DEST_PATH_IMAGE028
G
Figure 751939DEST_PATH_IMAGE036
j)定义最终判决规则:投票结束后,根据G
Figure 127557DEST_PATH_IMAGE028
值进行阈值分割,判断是否要淘汰该坐标点
Figure 751436DEST_PATH_IMAGE005
,当
Figure 394645DEST_PATH_IMAGE037
Figure 445777DEST_PATH_IMAGE038
, 保留坐标点
Figure 308691DEST_PATH_IMAGE005
,其中,min_threshold为极小投票得分阈值;max_threshold为极大投票得分阈值;且0
Figure 470682DEST_PATH_IMAGE039
min_threshold
Figure 233977DEST_PATH_IMAGE040
max_threshold
Figure 456010DEST_PATH_IMAGE041
1;
经过投票筛选后,得到初步提取的指端图像如图6所示。
再结合该坐标淘汰机制对三种手指局部画面情况进行讨论:
情况一:投票过程中卷积窗口覆盖的指部图像坐标点主要集中在窗口中心区域,如图2所示。根据投票过程分析得,当L
Figure 540641DEST_PATH_IMAGE026
趋近或等于0时,坐标点
Figure 506323DEST_PATH_IMAGE025
作为竞争者为坐标点
Figure 141702DEST_PATH_IMAGE031
投票产生投票得分Score
Figure 534637DEST_PATH_IMAGE026
=
Figure 372143DEST_PATH_IMAGE013
,此时Score
Figure 875937DEST_PATH_IMAGE026
值较小,表明得分较低;此时图2所示情况一中卷积窗口正中心坐标点的总得分Equal_Check
Figure 912026DEST_PATH_IMAGE033
较低,被误判为非手指上的坐标点的可能性极小。这表明该投票机制是合理且满足设计目标。
情况二:投票过程中卷积窗口覆盖的指部图像坐标点主要集中在窗口中心区域,同时两侧边界处出现局部集中分布的坐标点(如卷积窗口映射到其它手指的局部画面)。此时,只有卷积窗口中心和两侧边界处的竞争者为坐标点
Figure 974398DEST_PATH_IMAGE031
投票产生投票得分Score
Figure 33621DEST_PATH_IMAGE026
都较低时,才能保证情况二手指上坐标的投票总得分保持在较低水平。同理,根据上述单个投票得分Score
Figure 341105DEST_PATH_IMAGE026
表达式可知,当L
Figure 434963DEST_PATH_IMAGE026
=0时,坐标点
Figure 668236DEST_PATH_IMAGE031
获得的投票得分单个投票得分Score
Figure 214755DEST_PATH_IMAGE026
=
Figure 60351DEST_PATH_IMAGE013
;当靠近两侧边缘即L
Figure 8716DEST_PATH_IMAGE053
,单个投票得分Score
Figure 412890DEST_PATH_IMAGE054
1/
Figure 446705DEST_PATH_IMAGE016
,保持在较低水平。
以卷积窗口中心为原点、卷积窗口横向为x轴、卷积窗口纵向为y轴,以每个座位
Figure 95992DEST_PATH_IMAGE004
的可投票数
Figure 164442DEST_PATH_IMAGE008
为z轴,按照P值越大,曲线越高、颜色越深的方式,绘制可投票数
Figure 745377DEST_PATH_IMAGE008
的空间位势图,如图4、5所示。在L
Figure 909DEST_PATH_IMAGE026
的值越接近b/2的位置,位势图显示的颜色越深,表明可投票数
Figure 453887DEST_PATH_IMAGE049
越多;在越中心和越靠近两侧边缘位置,位势图显示的颜色越浅,表明可投票数
Figure 376844DEST_PATH_IMAGE049
越少。所以,情况二中卷积窗口正中心的坐标点不容易被淘汰,这表明投票机制是合理且满足设计目标。
情况三:如图3出现手指合并的非典型情况,即两根手指靠的很近。这种情况下手指仍能被识别,原因是合并的手指之间形成凹陷的区域,凹陷区域和手指上的点有相当的深度差距,因此凹陷区域上的点不与之构成竞争者关系,不投票。如此把合并的手指区分开并保留下来,便解决了poly算法难以识别合并指端的难题,这证明投票机制是合理且满足设计目标。
以上三种情况,均可说明设计的投票机制是有效的且且满足设计目标。
步骤6,区域精滤波:当手部掩码box3中所有点都经过一次投票筛选后,所有非手指的区域噪声被剔除,余下坐标点则构成手指上点的集合Q,Q中相邻的像素属于同一连通域region,设集合Q中的坐标点形成m个不同的连通域region,这m个region的集合记为Region
Region=
Figure 122821DEST_PATH_IMAGE042
,
对Region进行结构元为3x3的矩形开运算,过滤掉尺寸较小的region,此时获得剩余区域,即为精确提取的指端图像Final_Region,记为
Final_Region=
Figure 865649DEST_PATH_IMAGE043
,k
Figure 856739DEST_PATH_IMAGE041
m;
步骤7,求解伸展的手指个数:使用Canny算子对精滤波后的区域Final_Region进行边界求取,获得闭合边界Contour
Contour=
Figure 634202DEST_PATH_IMAGE044
遍历每个边界
Figure 380441DEST_PATH_IMAGE045
r上的坐标点(
Figure 46784DEST_PATH_IMAGE019
),求取每个边界相对于掌心的最大距离所构成的集合MaxDistances
MaxDistances =
Figure 575985DEST_PATH_IMAGE046
根据手部伸展开的形态,指端与掌心的空间距离应至少略大于掌心的半径,当指端与掌心的最大空间距离与掌心半径的比例大于某特定数值时,可以认定该闭合边界Contour对应的指部处于伸展状态,经多次试验后比例参数取1.5为最优,因此1.5
Figure 473534DEST_PATH_IMAGE002
为区分手指是否伸屈的最佳距离,则MaxDistances中大于1.5
Figure 561313DEST_PATH_IMAGE002
的元素个数即为处于伸展状态的手指个数,记为N;
步骤8,根据神经网络CNN方法分类,得到最终的手势:
a)准备分类模型:如果N=5时,五个手指都处于伸展状态;N=0时,五个手指都处于蜷缩状态,为握紧拳头状;因为当N=5或N=0时,五个手指头对应的手势是唯一的,因而不需要提前准备相应的分类模型,只需要提前准备N=1、N=2、N=3、N=4时的简单分类模型;
b)确定分类模型:当步骤7)确定N值后,可能的手势种类由
Figure 606630DEST_PATH_IMAGE047
种减少为
Figure 611626DEST_PATH_IMAGE048
,根据N的值,选择已训练好的分类模型;
c)降采样手部掩码:将手部掩码box3图像降采样为30x30大小的图像hand-map;
d)启动分类过程:在分类模型输入端输入图像hand-map,对手势进行CNN分类,计算输出各个手势类型label的得分,根据分类结果中各个手势类型label的得分判断该手势的可信度;
e)评价分类结果:当各个手势类型label的可信度都较低时说明结果不准确,则需要重新返回步骤1;当存在可信的手势类型label时,可信度最高的label对应的分类即为该手势的类型,最终通过检索label对应的手势,即可完成对手势的识别。
最终手势识别类型如图7所示。

Claims (3)

1.一种基于形态学的近景手势识别方法,通过坐标淘汰机制和具有旋转不变性的图像卷积算子确定手势状态,其特征在于具体包含以下步骤:
1)获取手部掩码:采集RGB彩色图像和深度图像,利用haar特征检测器,获取彩色图中的手部掩码box1;
2)掩码RGBD配准:根据RGBD对齐原理,将手部掩码box1转化为与RGBD配准后的手部掩码box2;
3)去除背景:利用深度信息,对手部掩码box2使用一阶差分阈值处理去除背景,并裁剪下感兴趣区域ROI,获得分割区域中更精确的手部掩码box3;
4)初步估计掌心参数:对手部掩码box3求解最大内切圆,获得圆心的坐标(x0,y0)和半径r0,即估计的掌心位置与掌部大小;
5)投票筛选:对手部掩码box3中的所有坐标使用具有旋转不变性的图像卷积算子进行投票,淘汰非手指区域,初步确定手指区域;
6)区域精滤波:当手部掩码box3中所有点都经过一次投票筛选后,所有非手指的区域噪声被剔除,余下的坐标点构成手指上点的集合Q,Q中相邻的像素属于同一连通域region,假设集合Q中的坐标点形成有m个不同的连通域region,这m个region的集合记为Region:
Region={region1,region2…regionm},
对Region进行结构元为3x3的矩形开运算,过滤掉尺寸较小的区域,此时获得剩余区域Final_Region:
Final_Region={region′1,region′2,…,region′k},k≤m,
其中region′k是对Region进行精滤波后的第k个连通域;
7)求解伸展的手指个数:使用Canny算子对精滤波后的区域Final_Region进行边界求取,获得k个闭合边界,组成集合记为集合Contour:
Contour={contour1,contour2…contourk},
遍历每个闭合边界上的坐标点(x′,y′),求取每个闭合边界相对于掌心的最大距离所构成的集合MaxDistances:
Figure FDA0003295190040000011
式中x′i、y′i分别表示第i个边界contour上任意点的横坐标和纵坐标,x0、y0分别表示手部掩码box3中最大内切圆心的横坐标和纵坐标
根据手部伸展开的形态确定手指的伸展状态,取1.5r0作为区分手指是否伸屈的最佳距离,则MaxDistances中大于1.5r0的元素个数即为处于伸展状态的手指个数,记为N;
8)根据神经网络CNN方法分类,得到最终的手势。
2.根据权利要求1所述的基于形态学的近景手势识别方法,其特征在于:步骤5)具体为:
a)定义座位:设置一个长为2b+1、宽为2b+1的卷积窗口;该卷积窗口有K(b)=(2b+1)2个座位;
b)定义投票者:卷积窗口滑动过程时,每个座位所覆盖的坐标点即为当次投票过程的投票者;
c)定义竞争者与无关者:假设某坐标点(x,y)对应的深度值为I(x,y),对异于点(x,y)的坐标点(x′,y′),如果有|I(x′,y′)-I(x,y)|→ε成立,则称坐标点(x′,y′)为坐标点(x,y)的竞争者,如果点(x,y)的竞争者越多,表明该坐标点越容易被淘汰,用公式表示为
Figure FDA0003295190040000021
当Equal(x,y,i,j)=1时,手部掩码box3中的任意点(i,j)是手部掩码box3中心坐标(x,y)的竞争者,否则为无关者;
d)定义投票规则:在手部掩码box3区域内滑动卷积座位,每次滑动一格,便使用Judge(x,y)判断坐标点(x,y)是否为手指上的点,
Figure FDA0003295190040000022
当Judge(x,y)=1时,(x,y)即为手指上的点,投票者才能为(x,y)投票,否则不投票;
e)构建每个座位的分配票数:根据手部掩码box3中任意坐标(i,j)与中心坐标(x,y)的二维平面像素距离L(x,y,i,j):
Figure FDA0003295190040000023
Figure FDA0003295190040000024
确定每个坐标点(i,j)分配固定的可投票数P(x,y,i,j,b),P(x,y,i,j,b)包含了投票者与被投票者之间的空间耦合关系,是一种鲁棒的分配方式;
Figure FDA0003295190040000025
Figure FDA0003295190040000026
P(x,y,i,j,b)的分配方式主要有以下特征:
①P在空间分布上具有旋转不变性;
②P是关于L在[0,b/2]单调递增,在
Figure FDA0003295190040000027
单调递减函数,当L=0时,P等于e-1;当且仅当L=b/2时,P=1,产生单个投票的最大得分;当
Figure FDA0003295190040000028
时,P得到最小值等于
Figure FDA0003295190040000029
f)统计被投票者的最终得分:对手部掩码box3中的坐标点(x,y)进行投票,把手部掩码box3区域中单个座位所对应的坐标点(i,j)对坐标点(x,y)投票所产生的单个得分记为Score(x,y,i,j)
Score(x,y,i,j)=P(x,y,i,j)*Equal(x,y,i,j)
坐标点(x,y)的所有有效得分之和记为Check(x,y,b)
Figure FDA00032951900400000210
g)加速统计被投票者的最终得分:由于从卷积窗口观察待处理的手部局部图像,每根手指具有对称性,卷积窗口也具有旋转不变性,卷积窗口中的所有坐标点必定关于卷积窗口中心点对称,由于对称性特点,在某点(i,j)对坐标点(x,y)进行投票的过程中,如果根据Equal(x,y,i,j)可判断出某点(i,j)不是竞争者,则(i,j)的对称点同样不是竞争者,那么两者都不对坐标点(x,y)进行投票;反之,若某点(i,j)在某次投票中是竞争者,则它的对称点在当次投票中同样是竞争者,那么两者都对坐标点(x,y)进行投票,因此,只需对半个卷积窗口进行遍历统计,最后再乘以2,得到等效投票得分Equal_Check(x,y,b)
Figure FDA00032951900400000211
h)归一化投票得分:为手部掩码box3中所有的坐标点计算等效投票得分Equal_Check(x,y,b)统一尺度的得分,通过等效投票得分Equal_Check(x,y,b)与座位数K(b)的比值可获得坐标点(x,y)的归一化得分G(x,y,b)
Figure FDA00032951900400000212
i)定义最终判决规则:投票结束后,根据G(x,y,b)值进行阈值分割,判断是否要淘汰该坐标点(x,y),当G(x,y,b)∈[min_threshold,max_threshold],保留坐标点(x,y),其中,min_threshold为极小投票得分阈值;max_threshold为极大投票得分阈值;且0<min_threshold<max_threshold≤1。
3.根据权利要求1所述的基于形态学的近景手势识别方法,其特征在于:步骤8)具体为:
a)准备分类模型:如果N=5时,五个手指都处于伸展状态;N=0时,五个手指都处于蜷缩状态,为握紧拳头状;因为当N=5或N=0时,五个手指头对应的手势是唯一的,因而不需要提前准备相应的分类模型,只需要提前准备N=1、N=2、N=3、N=4时的简单分类模型;
b)确定分类模型:当步骤7)确定N值后,手势估计种类由25种减少为
Figure FDA0003295190040000031
根据N的值,选择已训练好的分类模型;
c)降采样手部掩码:将手部掩码box3图像降采样为30x30大小的图像hand-map;
d)启动分类过程:在分类模型输入端输入图像hand-map,对手势进行CNN分类,计算输出各个手势类型label的得分,根据分类结果中各个手势类型label的得分判断该手势的可信度;
e)评价分类结果:当各个手势类型label的可信度都较低时说明结果不准确,则需要重新返回步骤1;当存在可信的手势类型label时,可信度最高的label对应的分类即为该手势的类型,最终通过检索label对应的手势,即可完成对手势的识别。
CN201810460615.0A 2018-05-15 2018-05-15 一种基于形态学的近景手势识别方法 Active CN108875579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810460615.0A CN108875579B (zh) 2018-05-15 2018-05-15 一种基于形态学的近景手势识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810460615.0A CN108875579B (zh) 2018-05-15 2018-05-15 一种基于形态学的近景手势识别方法

Publications (2)

Publication Number Publication Date
CN108875579A CN108875579A (zh) 2018-11-23
CN108875579B true CN108875579B (zh) 2022-08-05

Family

ID=64334444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810460615.0A Active CN108875579B (zh) 2018-05-15 2018-05-15 一种基于形态学的近景手势识别方法

Country Status (1)

Country Link
CN (1) CN108875579B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785380B (zh) * 2018-12-29 2020-09-18 北京金山安全软件有限公司 一种内切圆确定方法及装置
CN111523387B (zh) * 2020-03-24 2024-04-19 杭州易现先进科技有限公司 手部关键点检测的方法、设备和计算机设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268507A (zh) * 2014-09-15 2015-01-07 南京邮电大学 一种基于rgb-d图像的手语字母识别方法
CN106155327A (zh) * 2016-08-01 2016-11-23 乐视控股(北京)有限公司 手势识别方法和系统
WO2017004241A1 (en) * 2015-07-02 2017-01-05 Krush Technologies, Llc Facial gesture recognition and video analysis tool
CN106372564A (zh) * 2015-07-23 2017-02-01 株式会社理光 手势识别方法和装置
CN106778141A (zh) * 2017-01-13 2017-05-31 北京元心科技有限公司 基于手势识别的解锁方法、装置及移动终端
CN107203756A (zh) * 2016-06-06 2017-09-26 亮风台(上海)信息科技有限公司 一种识别手势的方法与设备
CN107728792A (zh) * 2017-11-17 2018-02-23 浙江大学 一种基于手势识别的增强现实三维绘图系统及绘图方法
CN107742102A (zh) * 2017-10-13 2018-02-27 北京华捷艾米科技有限公司 一种基于深度传感器的手势识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078289A1 (en) * 2014-09-16 2016-03-17 Foundation for Research and Technology - Hellas (FORTH) (acting through its Institute of Computer Gesture Recognition Apparatuses, Methods and Systems for Human-Machine Interaction

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268507A (zh) * 2014-09-15 2015-01-07 南京邮电大学 一种基于rgb-d图像的手语字母识别方法
WO2017004241A1 (en) * 2015-07-02 2017-01-05 Krush Technologies, Llc Facial gesture recognition and video analysis tool
CN106372564A (zh) * 2015-07-23 2017-02-01 株式会社理光 手势识别方法和装置
CN107203756A (zh) * 2016-06-06 2017-09-26 亮风台(上海)信息科技有限公司 一种识别手势的方法与设备
CN106155327A (zh) * 2016-08-01 2016-11-23 乐视控股(北京)有限公司 手势识别方法和系统
CN106778141A (zh) * 2017-01-13 2017-05-31 北京元心科技有限公司 基于手势识别的解锁方法、装置及移动终端
CN107742102A (zh) * 2017-10-13 2018-02-27 北京华捷艾米科技有限公司 一种基于深度传感器的手势识别方法
CN107728792A (zh) * 2017-11-17 2018-02-23 浙江大学 一种基于手势识别的增强现实三维绘图系统及绘图方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Contour Model-Based Hand-Gesture Recognition Using the Kinect Sensor;Yuan Yao等;《IEEE Transactions on Circuits and Systems for Video Technology》;20140128;第24卷(第11期);第1935-1944页 *
四路摄像头协同多重触控技术研究与实现;王德鑫;《中国博士学位论文全文数据库信息科技辑》;20110815;第I138-27页 *
基于深度机器学习的体态与手势感知计算关键技术研究;杜宇;《中国博士学位论文全文数据库信息科技辑》;20170815;第I138-74页 *

Also Published As

Publication number Publication date
CN108875579A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN109815850B (zh) 基于深度学习的虹膜图像分割及定位方法、系统、装置
Raghavendra et al. Novel image fusion scheme based on dependency measure for robust multispectral palmprint recognition
CN106295124B (zh) 多种图像检测技术综合分析基因子图相似概率量的方法
CN103632132B (zh) 一种基于肤色分割和模板匹配的人脸检测与识别方法
CN109255324A (zh) 手势处理方法、交互控制方法及设备
CN101281600B (zh) 一种掌纹特征获取方法及相应的基于掌纹的身份识别方法
Sahoo et al. Hand gesture recognition using PCA based deep CNN reduced features and SVM classifier
US20170011523A1 (en) Image processing apparatus, image processing method, and storage medium
CN107967456A (zh) 一种基于人脸关键点的多神经网络级联识别人脸方法
CN102103690A (zh) 一种自动的头发区域分割方法
EP3349140B1 (en) Fingerprint ridge point recognition method and apparatus
CN101339607A (zh) 人脸识别方法及系统、人脸识别模型训练方法及系统
CN107944431A (zh) 一种基于运动变化的智能识别方法
Sharma et al. Two-stage quality adaptive fingerprint image enhancement using Fuzzy C-means clustering based fingerprint quality analysis
CN106529504B (zh) 一种复合时空特征的双模态视频情感识别方法
CN104123543A (zh) 一种基于人脸识别的眼球运动识别方法
WO2013091370A1 (zh) 基于三维深度图像信息的并行统计学习人体部位检测方法
CN109190460B (zh) 基于累积匹配和等错误率的手形手臂静脉融合识别方法
CN111126240A (zh) 一种三通道特征融合人脸识别方法
CN109558855B (zh) 一种基于手掌轮廓特征与模版匹配法相结合的空间手势识别方法
CN108734200B (zh) 基于bing特征的人体目标视觉检测方法和装置
CN109325408A (zh) 一种手势判断方法及存储介质
CN117115624B (zh) 一种掌静脉图像质量评估方法
CN108875579B (zh) 一种基于形态学的近景手势识别方法
US8655084B2 (en) Hand-based gender classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240401

Address after: Room A102, No. 2 Park North 2nd Street, Xinkeshang Village, Jiahe Street, Baiyun District, Guangzhou City, Guangdong Province, 510080

Patentee after: Guangzhou Chemaju Technology Development Co.,Ltd.

Country or region after: China

Address before: Siming District of Xiamen city in Fujian Province, 361005 South Siming Road No. 422

Patentee before: XIAMEN University

Country or region before: China

TR01 Transfer of patent right