CN112507924B - 一种3d手势识别方法、装置及系统 - Google Patents
一种3d手势识别方法、装置及系统 Download PDFInfo
- Publication number
- CN112507924B CN112507924B CN202011487530.5A CN202011487530A CN112507924B CN 112507924 B CN112507924 B CN 112507924B CN 202011487530 A CN202011487530 A CN 202011487530A CN 112507924 B CN112507924 B CN 112507924B
- Authority
- CN
- China
- Prior art keywords
- gesture
- image
- gesture recognition
- hand
- recognition method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000001514 detection method Methods 0.000 claims abstract description 43
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000007499 fusion processing Methods 0.000 claims description 8
- 238000003384 imaging method Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 239000002131 composite material Substances 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000003811 finger Anatomy 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 210000004932 little finger Anatomy 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/11—Hand-related biometrics; Hand pose recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/117—Biometrics derived from hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种3D手势识别方法、装置及系统,其中,所述3D手势识别方法包括:提取ToF相机的原始数据进行图像预处理,生成第一图像和第二图像;根据预先建立的手势检测模型检测第一图像中是否具有手部生物特征:若存在,输出具有手部生物特征区域的坐标位置,若不存在,返回上一步骤;根据预先建立的手势识别模型提取第二图像中对应手部坐标位置的手势特征,计算手势特征对应预定义手势库中每种手势概率值;将全部手势概率值进行归一化处理生成一个手势识别索引号,将手势识别索引号与预定义手势库匹配,匹配内容输出为识别结果。通过本发明的技术方案,能有效提高手势识别的准确性并实时反馈识别结果。
Description
技术领域
本发明涉及生物识别领域,特别涉及一种3D手势识别方法、装置及系统。
背景技术
计算机的出现,给人类生活带来了极大的方便,提高了信息处理效率以及智能化程度,计算机人机交互也逐步地走进人们生活,而手势识别作为一种既简洁,又直观的人机交互方法,在很多领域都有着广泛的应用前景。
在通常的手势识别方法中,要么直接对整个输入图片进行分块滑窗,训练分类模型(如支持向量机(SVM)、Boosting、Logistic回归等)对滑窗提取的每一个图像块进行分类,判断其手势类别,这些分类模型属于浅层学习模型,学习与认知能力有限,难以学习到具有代表性的特征,这些将导致手势分类精度较低,且滑窗处理非常耗时,难以达到实时处理的效果;要么设计并训练神经网络分类器直接对整幅图像进行分类,此类方法虽能达到实时处理,但是分类精度极易受图像背景影响,而且在实际使用过程中,很难保证手势充满整幅图像,当环境复杂时手势分类精度下降非常明显;要么是手势识别方法在PC上识别精度高,当移植到嵌入式设备时,因嵌入式设备计算、处理能力有限,需对手势识别模型进行量化处理,一般是将32位数据量化为16位或8位,此时识别精度损失较大,移植后难以保证与PC上同等的识别精度。
发明内容
本发明的目的在于提供一种3D手势识别方法、装置及系统,通过ToF相机采集精度高的手势目标,通过对图像进行预处理分割出识别度高的手部区域图像,通过搭建轻量级的手势检测神经网络和分类识别神经网络优化计算、从而缩短检测和识别的时间,能有效提高手势识别的准确性并实时反馈识别结果。
本发明解决其技术问题提供的技术方案如下:
提供一种3D手势识别方法,包括:
提取ToF相机的原始数据进行图像预处理,生成第一图像和第二图像。图像预处理具体包括如下步骤:
(1)提取ToF相机的红外数据进行图像归一化处理至8位,生成第一图像,8位图像在移植到嵌入式设备时也能兼容并快速处理;
(2)提取ToF相机中与红外数据同步的点云数据进行图像归一化处理至8位,生成深度图像;
(3)遍历深度图像中的每一个像素点,取得最小像素值、计算平均像素值,将像素值在最小值和平均值的三分之一之间的像素点设置为255,将其余像素点设置为0,生成二值化掩膜图像,以屏蔽图像中的不相关背景,分割并提取出图像中感兴趣的部分;
(4)将深度图像与二值化掩膜图像进行像素级加权平均融合生成第二图像,通过图像融合处理,能增强原始图像中兴趣点区域,识别精度高。
进一步地,根据预先建立的手势检测模型检测第一图像中是否具有手部生物特征:若存在,输出具有手部生物特征区域的坐标位置;若不存在,则返回上一步骤继续提取数据进行图像预处理。其中,预先建立手势检测模型包括:
(1)采用适用于移动端的轻量级目标检测网络MobileNet-SSD为主干网络,MobileNet-SSD是以MobileNet为基础的目标检测算法,继承了MobileNet预测速度快,易于部署的特点,能够很好的在多种设备上完成图像目标检测任务;
(2)基于ToF相机成像目标大的特点,对所述主干网络MobileNet-SSD进行两项优化,第一项优化为,将MobileNet-SSD的6个检测层中靠近输入层负责较小目标的前两个检测层去除,从而缩短检测耗时,在不降低识别精度的同时加快了检测速度;第二项优化为:对MobileNet-SSD的模型参数进行量化,将激活层的函数Relu替换为Relu6,在不影响输出值的同时控制了数值量级并保持网络稳定性。
进一步地,根据预先建立的手势识别模型提取第二图像中对应手部坐标位置的手势特征,计算手势特征对应预定义手势库中每种手势概率值。其中,预先创建手势识别模型包括:
(1)采用能进行复合模型缩放提高运行速度的轻量级分类网络EfficientNets为主干网络,EfficientNets能够在实现更小更快的模型的同时优化精度和效率;
(2)基于ToF相机成像目标大的特点,对EfficientNet进行两项优化,第一项优化为:将EfficientNets输入图像的尺寸缩小为120*120大小,在不降低图像手部区域精度的同时减少了计算量;第二项优化为:使用深度可分离卷积神经网络代替普通卷积神经网络,提高运算速度。
进一步地,将全部手势概率值进行归一化处理生成一个手势识别索引号,将手势识别索引号与预定义手势库匹配,匹配内容输出为识别结果。预定义手势库中含有按预定义索引号编号的若干种手势类型,每一种手势类型对应一种手势并赋值一个手势标签。其中,将全部手势概率值进行归一化处理包括:
(1)将全部手势概率值接入手势识别模型的分类层,分类层使用softmax分类器将每一个概率值归一化至[0,1]得到一个向量,向量含有的元素数与预定义手势库中手势类型长度相同,Softmax分类器计算方便,且输出结果具有唯一性;
(2)提取向量中所含元素最大值的索引号输出为手势识别索引号。
进一步地,在输出手势识别结果之后,还包括步骤:发送手势识别结构所对应的控制指令以完成相应的事件任务。
本发明还提供一种3D手势识别装置,包括:图像预处理模块,用于提取ToF相机的原始数据进行图像预处理,生成第一图像和第二图像;手势检测模块,用于根据预先建立的手势检测模型检测第一图像中是否具有手部生物特征:若存在,输出具有手部生物特征区域的坐标位置,若不存在,返回图像预处理模块;手势识别模块,用于根据预先建立的手势识别模型提取第二图像中对应手部坐标位置的手势特征,计算手势特征对应预定义手势库中每种手势概率值;手势匹配模块,用于将全部手势概率值进行归一化处理生成一个手势识别索引号,将手势识别索引号与预定义手势库匹配,匹配内容输出为识别结果。
进一步地,所述3D手势识别装置还包括:手势控制模块,用于发送手势识别结果所对应的控制指令。
本发明还提供一种3D手势识别系统,包括:ToF相机,用于采集含有手势的原始数据;如前所述的包括图像预处理模块、手势检测模块、手势识别模块和手势匹配模块的3D手势识别装置。
进一步地,所述3D手势识别系统还包括:如前所述的手势控制模块;电子设备,用于接收手势控制模块发出的控制指令并完成相应的事件任务。
本发明的有益效果包括:
1.本发明提出了一种图像增强的方法,通过将深度图像与经过二值化掩膜处理生成的图像再进行融合处理的方法,去除待检测图像中的干扰背景、分割出图像兴趣点区域进行增强,提高了图像的识别率。
2.本发明基于ToF成像目标相对较大的特点,提出了一种在神经网络中去除细小目标检测层的方法,不降低精度的同时缩短了检测耗时,加快手势检测速度;
3.本发明采用Relu6做为神经网络卷积之后的激活函数,控制了数量级数,这样即使在便携移动设备或嵌入式设备上识别手势,也不降低识别分辨率并保持算法稳定性。
4.本发明对待检测图像进行掩膜处理和融合处理后,针对手部区域图像目标框不大的特点优化参数模型,将图像输入尺寸固定在120*120大小,减少了网络计算量,加快了检测速度。
附图说明
下面结合附图对本发明作进一步说明。
图1是本发明实施例提供的3D手势识别方法流程图。
图2是本发明实施例提供的图像预处理方法流程图。
图3是本发明实施例提供的预定义手势库示意图。
图4是本发明实施例提供的从输入手势图像到输出识别结果的过程图。
图5是本发明实施例提供的3D手势识别方法流程图二。
图6是本发明实施例提供的3D手势识别装置结构图。
图7是本发明实施例提供的3D手势识别装置结构图二。
图8是本发明实施例提供的3D手势识别系统结构图。
图9是本发明实施例提供的3D手势识别系统结构图二。
具体实施方式
下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种3D手势识别方法,能够实时准确的识别手势。请参阅图1本发明实施例提供的3D手势识别方法流程图,包括:
S1,提取ToF相机的原始数据进行图像预处理,生成第一图像和第二图像;
ToF相机具有体积小适合轻便场合、所获取的数据受环境的影响较小、处理深度信息的速度快、利于对移动目标如手势的采集等特点。具体地,所提取ToF相机的原始数据为32位原始点云数据及16位原始红外数据。点云数据指的是当一束激光照射在物体表面,所返回的数据信息中包括该物体表面各个点在三维空间中的坐标信息,这些点的组合就是激光点云,所得到的数据就是点云数据。
S2,根据预先建立的手势检测模型检测第一图像中是否具有手部生物特征:若存在,输出具有手部生物特征区域的坐标位置,若不存在,返回S1步骤。
具体地,手部生物特征的识别采用识别速度较高的手形识别,经过生物学家大量实验证明,人的手形在一段时期具有稳定性、比较容易采集。
S3,根据预先建立的手势识别模型提取第二图像中对应手部坐标位置的手势特征,计算手势特征对应预定义手势库中每种手势概率值。
具体地,手势特征描述采用基于局部兴趣点的方法,此方法主要包括特征提取和特征描述,其中特征提取分为侯选关键点和关键点定位,特征描述则包括方向分配和局部特征描述。侯选关键点是指搜索所有尺度上的图像位置、识别对尺度和方向不变的潜在兴趣点;关键点定位是在每个候选位置上确定位置和尺度;方向分配是为每个关键定指定一个基准方向,统计关键点邻域内的梯度幅值和梯度方向;局部特征描述是指在获得每个关键点的位置、尺度、方向之后,用已知特征向量把它描述出来,这是图像特征提取的核心部分。
S4,将全部手势概率值进行归一化处理生成一个手势标签,将手势标签与预定义手势库匹配,匹配内容输出为识别结果。
具体地,对手势概率值进行归一化处理,是为了将概率值统一映射到[0,1]区间上,让数值有一定比较性,并输出唯一值,大大提高分类识别的准确性。
进一步地,本发明手势识别方法S1步骤的具体步骤请参阅图2本发明实施例提供的图像预处理方法流程图,包括如下步骤:
S11,提取ToF相机的红外数据进行图像归一化处理至8位,生成第一图像;
具体地,提取16位原始红外数据,进行归一化处理至8位数据,形成红外图像帧序列即为第一图像。
S12,提取ToF相机中与红外数据同步的点云数据进行图像归一化处理至8位,生成深度图像;
具体地,提取32位原始点云数据z轴方向的数据,进行归一化处理至8位数据,获得与S11步骤中所述红外图像帧序列同分辨率的深度图像帧序列。
S13,遍历深度图像的每一个像素点,取得最小像素值、计算平均像素值,将像素值在最小值和平均值的三分之一之间的像素点设置为255,将其余像素点设置为0,生成二值化掩膜图像;
具体地,根据手部不同区域厚度具有不同的距离信息、从而深度图像手部不同区域的像素值不同的特点,采用均值滤波掩膜进行图像除噪,即取像素值在最小值和平均值的三分之一之间像素点灰度值设置为255、其他像素点灰度值设置为0,使二值化掩膜图像手部区域呈现白色、其他区域呈现黑色的视觉效果。
S14,将深度图像与二值化掩膜图像进行像素级加权平均融合处理生成第二图像。
具体地,图像像素级融合是对信息作特征提取并直接使用,能对信息最大程度上的保留,使其在鲁棒性上表现优异,且图像的配准精度很高。加权平均法则是将原图像对应像素的灰度值进行加权平均生成新的图像,提高了融合图像的信噪比。
进一步地,在本发明3D手势识别方法S13步骤中,所述生成二值化掩膜图像采用掩膜处理,能突出图像中的兴趣点区域,所述掩膜处理的表达式为:
其中k(i)为二值化掩膜图像中的第i个像素点,h(i)为深度图像的第i个像素点,min(h(x))为深度图像中的最小像素点;mean(h(x))为深度图像的平均像素点。
进一步地,在本发明3D手势识别方法S14步骤中,所述采用像素级平均加权融合处理得到第二图像,能增强图像中兴趣点区域,识别精度高;
所述像素级平均加权融合处理的表达式为:
f(x)=αh(x)+βk(x) ((α+β)≤1)
其中f(x)为融合后的第二图像,h(x)为深度图像,k(x)为深度图像取掩膜后得到的二值化掩膜图像,α和β为加权参数,且两者之和必须小于等于1,即保证融合后第二图像中每个像素值均小于等于255。本发明中,α和β均取值为1/2。
进一步地,在本发明3D手势识别方法S2步骤中,所述预先建立手势检测模型的步骤包括:
S21,采用适用于移动端的轻量级目标检测网络MobileNet-SSD为主干网络;
S22,基于ToF相机成像目标大的特点,对所述主干网络MobileNet-SSD进行优化,优化步骤包括:
S221,将MobileNet-SSD的6个检测层中靠近输入层负责较小目标的前两个检测层去除,从而缩短检测耗时,在不降低识别精度的同时加快了检测速度。
具体地,由于ToF相机本身清晰成像一般距离范围为0.3-3m,从而目标在图像中所占区域不会太小。而原始MobileNet-SSD网络共有6个检测层,分别针对不同大小的目标进行检测,越靠近输入层网络感受野越小,其负责检测的目标越小。本方法根据此成像特点改进主干网络,由于靠近输入层的前两个检测层负责的目标大小宽高范围约为50-95个像素,此目标较小,因此在本方法中保留原始网络的特征提取层,去除靠近输入的前两个检测层,在不降低精度的同时缩短了手势检测耗时,加快检测速度。
S222,对MobileNet-SSD的模型参数进行量化,将激活层的函数Relu替换为Relu6,在不影响输出值的同时控制了数值量级并保持网络稳定性;所述Relu函数和Relu6函数的表达式为:
relu(x)=max(x,0)∈[0,∞] (1)
relu6(x)=min(max(x,0),6)∈[0,6] (2)
具体地,若使用ReLU为激活函数,如上式(1),ReLU在x>0的区域使用x进行线性激活,有可能造成激活后的神经元特征值太大,影响模型的稳定性,为避免特征值过大,经过激活后值更大而导致算法不稳定,本方法采用ReLU6替换ReLU,如上式(2),在特征值x满足0<x<6的区域使用x进行线性激活,超过6的时候置为6,此激活函数可稳定模型输出,对输出值也无太大影响,增强模型鲁棒性。
进一步地,在本发明3D手势识别方法S3步骤中,所述预先建立手势识别模型的步骤包括:
S31,采用能进行复合模型缩放提高运行速度的轻量级分类网络EfficientNets为主干网络;
S32,基于ToF相机成像目标大的特点,将EfficientNets输入图像的尺寸缩小为120*120大小,在不降低图像手部区域精度的同时减少了计算量。
具体地,EfficientNets原始网络的输入图像宽高为240*240大小。本方法手势检测算法的输出目标框只包含手部区域,且进行手势识别时目标比较靠近相机,图像中手部区域所占面积并不大。在对较多输出目标框样本进行统计后,发现输出手部区域以120*120大小为主要分布,最终选取此尺寸作为图像输入大小,即将所有输入图像尺寸调整为120*120大小。
进一步地,所述手势识别模型采用的手势识别算法使用深度可分离卷积神经网络代替普通卷积神经网络,提高运算速度;
所述手势识别算法的表达式为:
P(c|x)=P(c|x,WL)*P(c|x,WH)
其中,c为预定义手势库中的手势类型长度,P(c|x)表示输入x为手部图像、输出x为预定义手势库中每一种手势的概率值,WL为低层的神经网络参数,WH为高层的神经网络参数,经过层层网络计算,输出与手势类型长度相同个数的手势概率值。
进一步地,本发明所述预定义手势库中含有按预定义索引号编号的若干种手势类型,每一种手势类型对应一种手势并赋值一个手势标签。
具体地,所述预定义手势库如图3本发明实施例提供的预定义手势库示意图,第一排是预定义索引号,用数字表示,从0开始逐步加1,其最大值加1就是预先存储的手势类型长度,如预定义索引号最大值为23,对应的手势类型为24种,又如预定义索引号最大值为31,对应的手势类型为32种,如此类推;第二排是预定义手势类型,手势库存储了每种手势类型所对应的数据,每种手势类型都会对应一个预定义索引号;第三排是手势标签,用英文与数字混合表示,如figure1,figure2,……,等等,每个手势标签均与预定义手势库中的手势类型一一对应。
进一步地,在本发明3D手势识别方法S4步骤中,将全部手势概率值进行归一化处理步骤为:
S41,将全部手势概率值接入手势识别模型的分类层,分类层使用softmax分类器将每一个概率值归一化至[0,1]得到一个向量,向量含有的元素数与预定义手势库中手势数相同。
Softmax分类器计算方便,且输出结果具有唯一性,其表达式为:
其中c为预定义手势库的手势类型长度,Vk为第k个手势的概率值,因为分子恒大于0,分母也是多个正数之和,所以Si是正数,且范围为[0,1]。
S42,提取向量中所含元素最大值的索引号输出为手势识别索引号。
具体地,本发明3D手势识别方法从输入手势图片到输出结果的过程如图4本发明实施例提供的从输入图片到输出识别结果的过程图,输入一张经过图像预处理的第二图像(图中含有3个手指,其中大拇指与小手指合拢),在经过手势检测与手势识别提取手势特征后,通过SoftMax分类层计算得到一个含有每种手势概率值的向量(如0.13,0.01,0.70,0.04,……),提取向量中的最大值为0.70,其所对应的索引号2为手势识别索引号,与预定义手势库匹配,与此手势识别索引号2相同的预定义索引号2对应的手势标签figure3即为识别结果。
进一步地,在本发明3D手势识别方法S4步骤输出识别结果后,还包括步骤S5:发送手势索引号所对应的控制指令以完成相应的事件任务。其实施流程请参阅图5本发明实施例提供的3D手势识别方法流程图二。
本发明还提供一种3D手势识别装置,请参阅图6本发明实施例提供的3D手势识别装置结构图,包括:图像预处理模块,用于提取ToF相机的原始数据进行图像预处理,生成第一图像和第二图像;手势检测模块,用于根据预先建立的手势检测模型检测第一图像中是否具有手部生物特征:若存在,输出具有手部生物特征区域的坐标位置,若不存在,返回图像预处理模块;手势识别模块,用于根据预先建立的手势识别模型提取第二图像中对应手部坐标位置的手势特征,计算手势特征对应预定义手势库中每种手势概率值;手势匹配模块,用于将全部手势概率值进行归一化处理生成一个手势识别索引号,将手势识别索引号与预定义手势库匹配,匹配内容输出为识别结果。
进一步地,本发明提供的3D手势识别装置还包括:手势控制模块,用于发送手势识别结果所对应的控制指令。
具体地,请参阅图7本发明实施例提供的3D手势识别装置结构图二,手势控制模块具体的实施过程是:假设手势识别结果为手势标签figure1,赋值其代表数字1输入到电子设备,从而控制指令电子设备完成数字1所对应的事件任务,如这个电子设备是密码锁,输入数字1的控制指令是开锁,当电子设备收到输入数字1就执行完成开锁动作。手势标签的具体含义,需要与实际的场景进行关联,一旦手势标签与实际场景之间的关联关系确定后,就可以控制电子设备执行相应的指令完成相应的事件任务。
本发明还提供一种3D手势识别系统,请参阅图8本发明实施例提供的3D手势识别系统结构图,包括:ToF相机,用于采集含有手势的原始数据;如图6本发明实施例提供的3D手势识别装置结构图所示的3D手势识别装置。
进一步地,本发明提供的3D手势识别系统还包括:如前所述的的手势控制模块;电子设备,用于接收手势控制模块发出的控制指令并完成相应的事件任务。
具体地,所述电子设备可以是一个或若干个,包括但不限于电子门锁、家用车器、车载多媒体等,所述3D手势识别系统请参阅图9本发明实施例提供的3D手势识别系统结构图二。
本领域普通技术人员可以理解上述实施例的各种方法中全部或部分步骤是可以通过程序指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器、随机存储器、磁盘或光盘等。
以上对本发明实施例所提供的3D手势识别方法、装置及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,本说明书不应理解为对本发明的限制。
Claims (9)
1.一种3D手势识别方法,其特征在于,包括如下步骤:
S1,提取ToF相机的原始数据进行图像预处理,生成第一图像和第二图像;
所述S1步骤具体包括如下步骤:
S11,提取ToF相机的红外数据进行图像归一化处理至8位,生成第一图像;
S12,提取ToF相机中与红外数据同步的点云数据进行图像归一化处理至8位,生成深度图像;
S13,遍历深度图像的每一个像素点,取得最小像素值、计算平均像素值,将像素值在最小值和平均值的三分之一之间的像素点设置为255,将其余像素点设置为0,生成二值化掩膜图像;
S14,将深度图像与二值化掩膜图像进行像素级加权平均融合处理生成第二图像;
S2,根据预先建立的手势检测模型检测第一图像中是否具有手部生物特征:若存在,输出具有手部生物特征区域的坐标位置,若不存在,返回S1步骤;
S3,根据预先建立的手势识别模型提取第二图像中对应手部坐标位置的手势特征,计算手势特征对应预定义手势库中每种手势概率值;
S4,将全部手势概率值进行归一化处理生成一个手势识别索引号,将手势识别索引号与预定义手势库匹配,匹配内容输出为识别结果。
2.根据权利要求1所述的3D手势识别方法,其特征在于,在S13步骤中,所述生成二值化掩膜图像采用掩膜处理,能突出图像中的兴趣点区域,所述掩膜处理的表达式为:
其中k(i)为二值化掩膜图像中的第i个像素点,h(i)为深度图像的第i个像素点,min(h(x))为深度图像中的最小像素点;mean(h(x))为深度图像的平均像素点。
3.根据权利要求1所述的3D手势识别方法,其特征在于,在S14步骤中,所述采用像素级平均加权融合处理得到第二图像,能增强图像中兴趣点区域,识别精度高;
所述像素级平均加权融合处理的表达式为:
f(x)=αh(x)+βk(x) ((α+β)≤1)
其中f(x)为融合后的第二图像,h(x)为深度图像,k(x)为深度图像取掩膜后得到的二值化掩膜图像,α和β为加权参数,且两者之和必须小于等于1,即保证融合后第二图像中每个像素值均小于等于255。
4.根据权利要求1所述的3D手势识别方法,其特征在于,在S2步骤中,所述预先建立手势检测模型的步骤包括:
S21,采用适用于移动端的轻量级目标检测网络MobileNet-SSD为主干网络;
S22,基于ToF相机成像目标大的特点,对所述主干网络MobileNet-SSD进行优化,优化步骤包括:
S221,将MobileNet-SSD的6个检测层中靠近输入层负责较小目标的前两个检测层去除,从而缩短检测耗时,在不降低识别精度的同时加快检测速度;
S222,对MobileNet-SSD的模型参数进行量化,将激活层的函数Relu替换为Relu6,在不影响输出值的同时控制了数值量级并保持网络稳定性;所述Relu函数和Relu6函数的表达式分别为:
relu(x)=max(x,0)∈[0,∞]
relu6(x)=min(max(x,0),6)∈[0,6]
5.根据权利要求1所述的3D手势识别方法,其特征在于,在S3步骤中,所述预先建立手势识别模型的步骤包括:
S31,采用能进行复合模型缩放提高运行速度的轻量级分类网络EfficientNets为主干网络;
S32,基于ToF相机成像目标大的特点,将EfficientNets输入图像的尺寸缩小为120*120大小,在不降低图像手部区域精度的同时减少了计算量。
6.根据权利要求5所述的3D手势识别方法,其特征在于,所述手势识别模型采用的手势识别算法使用深度可分离卷积神经网络代替普通卷积神经网络,提高运算速度;
所述手势识别算法的表达式为:
P(c|x)=P(c|x,WL)*P(c|x,WH)
其中,c为预定义手势库中的手势类型长度,P(c|x)表示输入x为手部图像、输出x为预定义手势库中中每一种手势的概率值,WL为低层的神经网络参数,WH为高层的神经网络参数,经过层层网络计算,输出与手势类型长度个数相同的手势概率值。
7.根据权利要求6所述的3D手势识别方法,其特征在于,所述预定义手势库中含有按预定义索引号编号的若干种手势类型,每一种手势类型对应一种手势并赋值一个手势标签。
8.根据权利要求1所述的3D手势识别方法,其特征在于,在S4步骤中,所述将全部手势概率值进行归一化处理步骤为:
S41,将全部手势概率值接入手势识别模型的分类层,分类层使用softmax分类器将每一个概率值归一化至[0,1]得到一个向量,向量含有的元素数与预定义手势库的手势类型长度相同;
Softmax分类器计算方便,且输出结果具有唯一性,其表达式为:
其中c为预定义手势库的手势类型长度,Vk为第k个手势的概率值,因为分子恒大于0,分母也是多个正数之和,所以Si是正数,且范围为[0,1]。
S42,提取向量中所含元素最大值的索引号输出为手势识别索引号。
9.根据权利要求1所述的3D手势识别方法,其特征在于,在步骤S4之后,还包括如下步骤:
S5,发送手势识别结果所对应的控制指令以完成相应的事件任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011487530.5A CN112507924B (zh) | 2020-12-16 | 2020-12-16 | 一种3d手势识别方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011487530.5A CN112507924B (zh) | 2020-12-16 | 2020-12-16 | 一种3d手势识别方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112507924A CN112507924A (zh) | 2021-03-16 |
CN112507924B true CN112507924B (zh) | 2024-04-09 |
Family
ID=74972648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011487530.5A Active CN112507924B (zh) | 2020-12-16 | 2020-12-16 | 一种3d手势识别方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507924B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023000119A1 (zh) * | 2021-07-17 | 2023-01-26 | 华为技术有限公司 | 手势识别方法、装置、系统及车辆 |
CN115083010A (zh) * | 2022-05-11 | 2022-09-20 | 清华大学 | 一种基于EfficientNet的手势识别方法及装置 |
CN116449947B (zh) * | 2023-03-22 | 2024-02-02 | 江苏北斗星通汽车电子有限公司 | 一种基于tof相机的汽车座舱域手势识别系统及方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294996A (zh) * | 2013-05-09 | 2013-09-11 | 电子科技大学 | 一种3d手势识别方法 |
CN103472916A (zh) * | 2013-09-06 | 2013-12-25 | 东华大学 | 一种基于人体手势识别的人机交互方法 |
DE102015202499A1 (de) * | 2014-02-17 | 2015-08-20 | Ifm Electronic Gmbh | Laufzeitkamera mit statischer Gestenerkennung |
KR20170023565A (ko) * | 2015-08-24 | 2017-03-06 | 상명대학교서울산학협력단 | 영상 처리를 이용한 손가락 개수 인식 방법 및 장치 |
CN109886225A (zh) * | 2019-02-27 | 2019-06-14 | 浙江理工大学 | 一种基于深度学习的图像手势动作在线检测与识别方法 |
CN110795990A (zh) * | 2019-09-11 | 2020-02-14 | 中国海洋大学 | 一种面向水下设备的手势识别方法 |
CN111160288A (zh) * | 2019-12-31 | 2020-05-15 | 北京奇艺世纪科技有限公司 | 手势关键点检测方法、装置、计算机设备和存储介质 |
CN111178170A (zh) * | 2019-12-12 | 2020-05-19 | 青岛小鸟看看科技有限公司 | 一种手势识别方法和一种电子设备 |
CN111651038A (zh) * | 2020-05-14 | 2020-09-11 | 香港光云科技有限公司 | 基于ToF的手势识别控制方法及其控制系统 |
CN111709295A (zh) * | 2020-05-18 | 2020-09-25 | 武汉工程大学 | 一种基于SSD-MobileNet的实时手势检测和识别方法及系统 |
CN112083801A (zh) * | 2020-07-24 | 2020-12-15 | 青岛小鸟看看科技有限公司 | 基于vr虚拟办公的手势识别系统及方法 |
-
2020
- 2020-12-16 CN CN202011487530.5A patent/CN112507924B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294996A (zh) * | 2013-05-09 | 2013-09-11 | 电子科技大学 | 一种3d手势识别方法 |
CN103472916A (zh) * | 2013-09-06 | 2013-12-25 | 东华大学 | 一种基于人体手势识别的人机交互方法 |
DE102015202499A1 (de) * | 2014-02-17 | 2015-08-20 | Ifm Electronic Gmbh | Laufzeitkamera mit statischer Gestenerkennung |
KR20170023565A (ko) * | 2015-08-24 | 2017-03-06 | 상명대학교서울산학협력단 | 영상 처리를 이용한 손가락 개수 인식 방법 및 장치 |
CN109886225A (zh) * | 2019-02-27 | 2019-06-14 | 浙江理工大学 | 一种基于深度学习的图像手势动作在线检测与识别方法 |
CN110795990A (zh) * | 2019-09-11 | 2020-02-14 | 中国海洋大学 | 一种面向水下设备的手势识别方法 |
CN111178170A (zh) * | 2019-12-12 | 2020-05-19 | 青岛小鸟看看科技有限公司 | 一种手势识别方法和一种电子设备 |
CN111160288A (zh) * | 2019-12-31 | 2020-05-15 | 北京奇艺世纪科技有限公司 | 手势关键点检测方法、装置、计算机设备和存储介质 |
CN111651038A (zh) * | 2020-05-14 | 2020-09-11 | 香港光云科技有限公司 | 基于ToF的手势识别控制方法及其控制系统 |
CN111709295A (zh) * | 2020-05-18 | 2020-09-25 | 武汉工程大学 | 一种基于SSD-MobileNet的实时手势检测和识别方法及系统 |
CN112083801A (zh) * | 2020-07-24 | 2020-12-15 | 青岛小鸟看看科技有限公司 | 基于vr虚拟办公的手势识别系统及方法 |
Non-Patent Citations (2)
Title |
---|
廖义奎.《物联网移动软件开发》.北京:北京航空航天大学出版社,2019,第323页. * |
董洪义.《深度学习之PYTORCH物体监测实战》.北京:机械工业出版社,2020,第193页. * |
Also Published As
Publication number | Publication date |
---|---|
CN112507924A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xie et al. | Multilevel cloud detection in remote sensing images based on deep learning | |
CN112507924B (zh) | 一种3d手势识别方法、装置及系统 | |
CN106446933B (zh) | 基于上下文信息的多目标检测方法 | |
CN111310622A (zh) | 一种面向水下机器人智能作业的鱼群目标识别方法 | |
CN111582126B (zh) | 基于多尺度行人轮廓分割融合的行人重识别方法 | |
CN111079638A (zh) | 基于卷积神经网络的目标检测模型训练方法、设备和介质 | |
CN110222572A (zh) | 跟踪方法、装置、电子设备及存储介质 | |
CN105976397B (zh) | 一种目标跟踪方法 | |
CN109948776A (zh) | 一种基于lbp的对抗网络模型图片标签生成方法 | |
CN113763424B (zh) | 基于嵌入式平台的实时智能目标检测方法及系统 | |
CN110490915B (zh) | 一种基于卷积受限玻尔兹曼机的点云配准方法 | |
Li et al. | Research on a product quality monitoring method based on multi scale PP-YOLO | |
CN110516638B (zh) | 一种基于轨迹和随机森林的手语识别方法 | |
CN116543261A (zh) | 用于图像识别的模型训练方法、图像识别方法设备及介质 | |
Mohammad et al. | Contour-based character segmentation for printed Arabic text with diacritics | |
CN115203408A (zh) | 一种多模态试验数据智能标注方法 | |
CN113269125B (zh) | 一种人脸识别方法、装置、设备及存储介质 | |
CN114743257A (zh) | 图像目标行为的检测识别方法 | |
Zerrouki et al. | Deep Learning for Hand Gesture Recognition in Virtual Museum Using Wearable Vision Sensors | |
CN107729863B (zh) | 人体指静脉识别方法 | |
Balmik et al. | A robust object recognition using modified YOLOv5 neural network | |
CN117496399A (zh) | 用于视频中运动目标检测的聚类方法、系统、设备及介质 | |
CN116994049A (zh) | 全自动针织横机及其方法 | |
CN116110110A (zh) | 基于人脸关键点的伪造图像检测方法、终端及存储介质 | |
Thangaraj et al. | A competent frame work for efficient object detection, tracking and classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |