CN117292405A - 一种基于单光场相机的高精度三维手势识别方法及系统 - Google Patents
一种基于单光场相机的高精度三维手势识别方法及系统 Download PDFInfo
- Publication number
- CN117292405A CN117292405A CN202311336799.7A CN202311336799A CN117292405A CN 117292405 A CN117292405 A CN 117292405A CN 202311336799 A CN202311336799 A CN 202311336799A CN 117292405 A CN117292405 A CN 117292405A
- Authority
- CN
- China
- Prior art keywords
- gesture
- light field
- dimensional
- image
- reconstructed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 4
- 238000004590 computer program Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 8
- 238000012706 support-vector machine Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 abstract description 15
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明专利公开了一种基于光场相机的高精度手势识别方法和系统,该方法包括:利用光场相机对待测手势进行成像;基于光场重建原理,对光场图像进行三维重构,得到手势的三维模型;对三维手势图像进行特征提取与识别,对手势进行识别。该系统利用光场相机对手势进行三维成像,可有效提高手势识别检测的准确率。本发明专利通过光场相机获得精确手势光场图像,相比于现有的结构光系统和线激光系统测试方法,只需要一台光场相机即可进行三维手势成像,系统简单,且三维手势可有效提高手势识别的准确率。
Description
技术领域
本发明涉及一种基于单光场相机的高精度三维手势识别方法及系统。
背景技术
随着科学技术的快速发展,手势识别这门技术已广泛应用于人们的日常生活及工商业应用中,尤其是基于计算机视觉的手势识别方法,仅使用RGB或深度摄像头就可以对手势进行识别,且识别的精度和速度都较理想。但随着手势识别这门技术的广泛应用,人们对识别的精度和速度有了更高的要求。
光场这个概念是Michael Faraday在1846年提出的,光场相机在成像的过程中记录光场的方向信息,可以将不同聚焦的推按融合为一张全聚焦的图片。采集到的图片经过数字多视角、数字重聚焦、三维重建等一系列完整的算法处理,得到清晰的三维手势。
传统型相机拍摄图片时会产生聚焦离焦现象,当对场景进行拍摄时,聚焦近处的物体,远处的物体就会离焦,从而变的模糊。此外,为了保证一定的景深使得不同深度的物体均可以被聚焦时,传统相机需要使用小光圈,减小了光的使用效率,使得光线不充足环境时成像质量较差。而光场相机采用微透镜阵列进行四维光场信息采集,在保证景深的情况下依然可以使用大光圈进行成像,可对物体进行单帧三维成像。
光场成像是一种新兴的图像获取技术,能够以高精度捕捉到三维场景的深度信息。这项技术在手势识别领域具有巨大的应用潜力,可以实现三维手势重建,从而可提高手势识别的准确性。
发明内容
本发明的目的是提供一种基于单光场成像高精度识别手势的方法和系统。该系统以光场成像为载体,通过重聚焦算法对手势进行三维重建,并对手势进行特征提取和识别,最终输出手势。通过利用光场相机的单帧三维采集能力,解决了传统方法中需要多个相机进行三维成像的难题,简化了成像系统,且得到了三维手势模型可以精确的体现真实手势,从而降低了手势识别算法的错误率,提高了识别的准确性。
为实现上述目的,本发明采用的技术方案如下:
一种基于单光场相机的高精度手势识别方法,包括以下步骤:
1)在待测区域放置手势,利用单光场相机获取若干包含手势深度信息的光场手势图像;
2)对步骤1)中的光场手势图像进行重聚焦,获得重建三维手势图像;
3)将重建三维手势图像与预定义的手势目标图像进行匹配,筛选出有效的重建三维手势图像;
4)利用支持向量机对有效的重建三维手势图像进行分类识别。
进一步地,移动或变换待测区域手势,采用单光场相机微透镜阵列方式对待测区域内的手势进行成像,获取若干包含手势深度信息的光场手势图像;
所述光场手势图像同时记录手势光线在微透镜平面(s,t)的信息和传感器平面(u,v)的角度信息,构造一个四维光场(u,v,s,t)双平面模型,其函数形式为L=l(u,v,s,t)。
进一步地,所述步骤2)具体为:
对步骤1)中的光场手势图像进行重聚焦,重聚焦公式为:
其中,f为焦距,L(u,v,s,t)为四维光场,α为焦平面调节系数,E(s′,t′)为重聚焦后微透镜平面(s,t)位置的强度值,(u,v)为传感器平面坐标。
进一步地,所述步骤2)之后,步骤3)之前,还包括对重建三维手势图像进行去噪、滤波处理。
进一步地,所述步骤3)具体包括:
提取重建三维手势图像以及预定义的手势目标图像的角点,作为对应的特征点;
计算重建三维手势图像和预定义的手势目标图像的角点数量的差值,若差值不超过设定阈值,则对应重建三维手势图像为有效的重建三维手势图像,否则舍弃对应重建三维手势图像。
进一步地,通过Harris角点检测法提取图像中的角点。
另一方面,本发明还提供一种基于单光场相机的高精度手势识别系统,包括:
单光场相机,用于获取在待测区域的若干包含手势深度信息的光场手势图像;
重建单元,用于单光场相机获取的光场手势图像进行重聚焦,获得重建三维手势图像;
特征匹配单元,用于将重建三维手势图像与预定义的手势目标图像进行匹配,筛选出有效的重建三维手势图像;
分类识别单元,用于利用支持向量机对有效的重建三维手势图像进行分类识别。
另一方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
另一方面,本发明还提供一种基于单光场相机的高精度手势识别设备,包括一个或多个处理器、一个或多个存储器以及一个或多个程序,其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行如上所述方法的指令。
与现有的技术相比,本发明的技术方案有以下几个优势:
首先,光场成像能够在单帧图像中采集三维信息,利用这些信息可以重建三维手势,从而给手势识别算法提供准确的三维物体信息,相比传统的二维图像,具有更高的识别精度;
其次,光场成像可以从不同的视角获取物体信息,具有更好的鲁棒性和稳定性;
此外,光场相机技术已经在工业领域和医疗领域得到广泛应用,具备良好的商业化前景。
附图说明
图1是本申请中的单光场相机单光场相机的高精度手势识别方法的流程示意图;
图2是本申请中的光场三维采集原理示意图;
图3是本申请中的光场手势获取及数据处理原理及光场数据处理后输出的三维手势的流程图。
具体实施方式
下面将结合附图1至附图3,对本申请中的光场技术方案进行清楚、完整地描述,该流程的目标是通过单光场相机捕获的图像来进行手势识别。
如图1所示,本发明的方法包括以下步骤:
第一步:光场手势采集:
a.将单光场相机设备放置在固定架上,在待测物区域放置手势;
b.利用光场相机记录从不同视角到达相机的光线方向和强度信息,从而得到包含手势深度信息的光场手势图像。
在单光场相机获取光场手势图像时,如图2所示,光线通过镜头和微透镜阵列后到达相机传感器阵面,从而被记录。光场手势图像记录了手势光线在微透镜平面(s,t)的信息,同时也记录了传感器平面(u,v)光线的角度信息。光场相机用微透镜平面(s,t)和传感器平面(u,v)构造了一个四维光场(u,v,s,t)双平面模型,即一条光线经过两个平面,与其分别相交于(u,v)和(s,t),四维光场可以表示全光场的函数:L=l(u,v,s,t)。
第二步:光场手势数据处理:
基于光场数字重聚焦原理,利用重聚焦方法对光场手势图像进行重聚焦,获得重建三维手势图像。
通过一下公式可对任意平面进行重聚焦。
其中,L(u,v,s,t)为四维光场,f为焦距,α为焦平面调节系数,E(s′,t′)是重聚焦微透镜平面(s,t)位置的强度值。
在进行后续流程处理之前,还需要对重建三维手势图像进行去噪、滤波等处理,提高图像质量,进而提高数据质量和准确性。
第三步:特征匹配
a.对重建三维手势图像进行特征点进行提取;
b.基于提取的特征点,对重建三维手势图像与预定义的手势目标图像进行匹配计算,筛选出有效的重建三维手势图像。
具体地,通过Harris角点检测法提取重建三维手势图像以及预定义的手势目标图像的角点,以角点作为图像的特征点。角点相对其附近像素点具有某种特征上的明显变化,当窗口函数向任意方向移动时,窗口内灰度值发生较大变化,则认为检测到了角点。
具体地,计算重建三维手势图像和预定义的手势目标图像的角点数量的差值,若差值不超过设定阈值,则对应重建三维手势图像为有效的重建三维手势图像,否则舍弃对应重建三维手势图像。
第四步:利用支持向量机对有效的重建三维手势图像进行分类识别。
支持向量满足条件:
ri(wTf+b)≥1
其中,wTf+b=0为支持向量机分类器超平面,其中f表示特征向量,wT表示f的对应法向量,b表示线性偏移量,i=1,2,…,m;将手势分为m个样本,寻找参数w和b,使每个分类的支持向量和超平面线性函数的距离和最大:
根据手势分类方法将手势数据集分成各种类型,并输出识别的结果。
综上所述,本申请通过光场相机对三维手势高精度的识别,可以方便的获取手势三维图像,为高精度手势识别提供了良好数据,从而可以提高手势识别的准确率,为计算机与用户之间的交互提供更多可能性。
本发明还提供一种基于单光场相机的高精度手势识别系统,包括:
单光场相机,用于获取在待测区域的若干包含手势深度信息的光场手势图像;单光场相机包括微距镜头、微透镜阵列、主镜头和工业相机;
重建单元,用于单光场相机获取的光场手势图像进行重聚焦,获得重建三维手势图像;
特征匹配单元,用于将重建三维手势图像与预定义的手势目标图像进行匹配,筛选出有效的重建三维手势图像;
分类识别单元,用于利用支持向量机对有效的重建三维手势图像进行分类识别。
基于单光场相机的高精度手势识别系统与前述方法的技术方案一致,这里不再赘述。
基于相同的技术方案,本发明还公开了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行上述基于单光场相机的高精度手势识别方法。
基于相同的技术方案,本发明还公开了一种计算设备,包括一个或多个处理器、一个或多个存储器以及一个或多个程序,其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述基于单光场相机的高精度手势识别方法的指令。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,这些均属于本发明的保护之内。
Claims (9)
1.一种基于单光场相机的高精度手势识别方法,其特征在于,包括以下步骤:
1)在待测区域放置手势,利用单光场相机获取若干包含手势深度信息的光场手势图像;
2)对步骤1)中的光场手势图像进行重聚焦,获得重建三维手势图像;
3)将重建三维手势图像与预定义的手势目标图像进行匹配,筛选出有效的重建三维手势图像;
4)利用支持向量机对有效的重建三维手势图像进行分类识别。
2.根据权利要求1所述的一种基于单光场相机的高精度手势识别方法,其特征在于,移动或变换待测区域手势,采用单光场相机微透镜阵列方式对待测区域内的手势进行成像,获取若干包含手势深度信息的光场手势图像;
所述光场手势图像同时记录手势光线在微透镜平面(s,t)的信息和传感器平面(u,v)的角度信息,构造一个四维光场(u,v,s,t)双平面模型,其函数形式为L=l(u,v,s,t)。
3.根据权利要求1所述的一种基于单光场相机的高精度手势识别方法,其特征在于,所述步骤2)具体为:
对步骤1)中的光场手势图像进行重聚焦,重聚焦公式为:
其中,f为焦距,L(u,v,s,t)为四维光场,α为焦平面调节系数,E(s′,t′)为重聚焦后微透镜平面(s,t)位置的强度值,(u,v)为传感器平面坐标。
4.根据权利要求1所述的一种基于单光场相机的高精度手势识别方法,其特征在于,所述步骤2)之后,步骤3)之前,还包括对重建三维手势图像进行去噪、滤波处理。
5.根据权利要求1所述的一种基于单光场相机的高精度手势识别方法,其特征在于,所述步骤3)具体包括:
提取重建三维手势图像以及预定义的手势目标图像的角点,作为对应的特征点;计算重建三维手势图像和预定义的手势目标图像的角点数量的差值,若差值不超过设定阈值,则对应重建三维手势图像为有效的重建三维手势图像,否则舍弃对应重建三维手势图像。
6.根据权利要求5所述的一种基于单光场相机的高精度手势识别方法,其特征在于,通过Harris角点检测法提取图像中的角点。
7.一种基于单光场相机的高精度手势识别系统,其特征在于,包括:
单光场相机,用于获取在待测区域的若干包含手势深度信息的光场手势图像;重建单元,用于单光场相机获取的光场手势图像进行重聚焦,获得重建三维手势图像;
特征匹配单元,用于将重建三维手势图像与预定义的手势目标图像进行匹配,筛选出有效的重建三维手势图像;
分类识别单元,用于利用支持向量机对有效的重建三维手势图像进行分类识别。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一所述方法的步骤。
9.一种基于单光场相机的高精度手势识别设备,其特征在于,包括一个或多个处理器、一个或多个存储器以及一个或多个程序,其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行如权利要求1至6中任一所述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311336799.7A CN117292405A (zh) | 2023-10-13 | 2023-10-13 | 一种基于单光场相机的高精度三维手势识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311336799.7A CN117292405A (zh) | 2023-10-13 | 2023-10-13 | 一种基于单光场相机的高精度三维手势识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117292405A true CN117292405A (zh) | 2023-12-26 |
Family
ID=89238876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311336799.7A Pending CN117292405A (zh) | 2023-10-13 | 2023-10-13 | 一种基于单光场相机的高精度三维手势识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117292405A (zh) |
-
2023
- 2023-10-13 CN CN202311336799.7A patent/CN117292405A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Garg et al. | Learning single camera depth estimation using dual-pixels | |
Levin et al. | Image and depth from a conventional camera with a coded aperture | |
US9460515B2 (en) | Processing of light fields by transforming to scale and depth space | |
US8879847B2 (en) | Image processing device, method of controlling image processing device, and program for enabling computer to execute same method | |
WO2017080237A1 (zh) | 相机成像方法及相机装置 | |
US9569853B2 (en) | Processing of light fields by transforming to scale and depth space | |
WO2020207172A1 (zh) | 基于三维光场技术的光学无人机监测方法及系统 | |
KR20130112311A (ko) | 고밀도 삼차원 영상 재구성 장치 및 방법 | |
CN111967288A (zh) | 智能三维物体识别和定位系统和方法 | |
KR20160149160A (ko) | 라이트필드 데이터베이스에서의 데이터 취출을 위한 방법 및 장치 | |
Yang et al. | Raindrop removal with light field image using image inpainting | |
CN110443228B (zh) | 一种行人匹配方法、装置、电子设备及存储介质 | |
Kumar et al. | A generative focus measure with application to omnifocus imaging | |
CN116823694B (zh) | 基于多聚焦信息整合的红外与可见光图像融合方法及系统 | |
Jang et al. | 3D image correlator using computational integral imaging reconstruction based on modified convolution property of periodic functions | |
Chugunov et al. | Shakes on a plane: Unsupervised depth estimation from unstabilized photography | |
Sakurikar et al. | Dense view interpolation on mobile devices using focal stacks | |
CN117292405A (zh) | 一种基于单光场相机的高精度三维手势识别方法及系统 | |
WO2019078310A1 (ja) | 顔三次元形状推定装置、顔三次元形状推定方法、及び、非一時的なコンピュータ可読媒体 | |
Zhang et al. | Light field salient object detection via hybrid priors | |
Chen et al. | Depth estimation of light field data from pinhole-masked DSLR cameras | |
Zhang et al. | Autofocus method based on multi regions of interest window for cervical smear images | |
EP3099054A1 (en) | Method and apparatus for determining a focal stack of images from light field data associated with a scene, and corresponding computer program product | |
CN108062741B (zh) | 双目图像处理方法、成像装置和电子设备 | |
Cunha et al. | Robust depth estimation from multi-focus plenoptic images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |