CN113674395A - 一种基于单目rgb摄像头3d手部轻量级实时捕捉重建系统 - Google Patents
一种基于单目rgb摄像头3d手部轻量级实时捕捉重建系统 Download PDFInfo
- Publication number
- CN113674395A CN113674395A CN202110814147.4A CN202110814147A CN113674395A CN 113674395 A CN113674395 A CN 113674395A CN 202110814147 A CN202110814147 A CN 202110814147A CN 113674395 A CN113674395 A CN 113674395A
- Authority
- CN
- China
- Prior art keywords
- hand
- camera
- module
- convolution
- coordinates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 15
- 238000002156 mixing Methods 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 238000013519 translation Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 244000060701 Kaempferia pandurata Species 0.000 claims description 3
- 235000016390 Uvaria chamae Nutrition 0.000 claims description 3
- 210000001145 finger joint Anatomy 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 abstract description 4
- 230000003287 optical effect Effects 0.000 abstract description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 101100453996 Rattus norvegicus Klk2 gene Proteins 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000000746 body region Anatomy 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种基于单目RGB摄像头3D手部轻量级实时捕捉重建系统,本发明以降低手势手型捕捉硬件成本,提升3D手势三维重建灵活性为初衷。通过低成本的普通RGB摄像头取代多目TOF结构光摄像头。同时拓宽了手势识别捕捉的空间范围。本发明对系统硬件的要求不苛刻,无需第三方辅助硬件设备,本发明提出的算法具有极快的计算速度、较高的实时性。可应用于智能手机,普通家用笔记本电脑终端。仅通过安装软件包即插即用,灵活方便。在精度方面虽无法达到类似可穿戴手套传感器设备级高精度,但满足日常手势控制,手势交互操作等基本需求,却不失为一个较为实用性的发明产品。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于单目RGB摄像头3D手部轻量级实时捕捉重建系统。
背景技术
近年来,随着人工智能的崛起衍生出一系列手势交互应用。例如:LipMotion、Kinect、RealSense等产品。其中,LipMotion是一种高精度实时性手势捕捉传感器,它依赖于多目结构光摄像头,通过红外线,TOF结构光捕获手掌手指的位置,进行实时空间还原。但受限于特定空间位置,灵活度欠佳。Kinect或RealSense通过双目结构光对人体区域进行分割,再对分割区域做骨骼检测,上述两种产品为体感摄像头,仅能做到简单手势控制与识别(握拳动作),手指精细度欠佳、成本价格昂贵。此外,一些手指手掌捕捉设备依赖高精度传感器(可穿戴手套),便携式差。对于VR,AR 应用,绝大部分手势捕捉设备依赖空间场地,需提前布置多目摄像头以及进行空间场景建模标定,灵活性不足。
发明内容
综合以上现有技术的缺陷不足,本发明以降低手势手型捕捉硬件成本,提升3D手势三维重建灵活性为初衷。设计一套基于单目RGB摄像头3D手部三维重建与实时捕捉的技术解决方案。通过低成本的普通RGB摄像头取代多目TOF结构光摄像头。同时拓宽了手势识别捕捉的空间范围(结构光摄像头手势捕捉距离范围较小)。本发明对系统硬件的要求不苛刻,无需第三方辅助硬件设备。在智能手机或笔记本电脑(带有前置摄像头)或带有USB单目摄像头的台式电脑上均可实现3DD手势手型捕捉与三维重建,进而大幅度提升了系统硬件的灵活性。同时,本发明提出的算法具有极快的计算速度、较高的实时性。可应用于智能手机,普通家用笔记本电脑终端。仅通过安装软件包即插即用,灵活方便。在精度方面虽无法达到类似可穿戴手套传感器设备级高精度,但满足日常手势控制,手势交互操作等基本需求,却不失为一个较为实用性的发明产品。
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了一种基于单目RGB摄像头3D手部轻量级实时捕捉重建系统,包括如下模块:
手部检测模块,采用实时性检测器对手部进行检测,仅需要检测出手部的边框,而不需要进一步的检测结果;
手部跟踪模块,采用相关滤波策略对手部进行跟踪;
手部关键点位姿估计模块,所述手部关键点位姿估计模块包括手部关键点坐标提取模块,所述手部关键点坐标提取模块由预设的深度神经网络组成,所述预设的深度神经网络的骨干架构采用MobileNet-V3网络,使用了多层1×1卷积,为加快推理计算速度同时提取准确特征,所述预设的深度神经网络将卷积特征最后通过全连接层变成N ×1维特征,最后通过1维神经网络层做回归层,直接回归3D坐标信息点,得到的3D 手部21个关键点坐标记为K(21×3),对于给定3D关键点坐标K,可计算手部手掌骨骼图的相对旋转向量q,具体步骤如下:
步骤1,初始化一个标准手部模型,手掌完全伸展开,并以该标准手部模型作为标准手型;
步骤2,以一个手指为例子,以顺着指根到指尖关节顺序分别找到5个点K1-K5,则可得到4个3维向量:
以向量klk2为例,对于标准手部模型中的点k1,k2,得到标准手型中的向量k1 k2’则可根据旋转向量计算公式算出向量k1k2’到向量klk2的四元数q(旋转向量),根据罗德里克斯公式将四元数变换成旋转矩阵R;
手部网络变换与混合模块,所述手部网络变换与混合模块将所述标准手部模型,根据所述的旋转矩阵R进行旋转变换。最后根据手部在图像上的2D坐标,平移缩放至手部中心位置。
更进一步地,所述手部跟踪模块进一步包括:先引入卷积算子将图像中的空间相关信息转移到频域
g(i,j)=Σf(i-k,j-l)·h(k,l)
其中,g为卷积后结果,f为图像数据,h为卷积核数据。(i,j)为图像索引,
(k,l)为卷积核索引,相关运算是把h旋转了180°的卷积运算,记做:
根据数字信号处理的基本知识,函数卷积的傅立叶变换是函数傅立叶变换的乘积,得到:
G=F·H*
其中,G为g,F为f、H为h的傅里叶变换。
更进一步地,所述手部跟踪模块进一步包括对跟踪手部目标区域像素做如下预处理:
步骤1,用log函数对像素值进行处理,降低对比度(contrasting lightingsituation);
步骤2,进行平均值为0,范数为1的归一化;
步骤3,用余弦窗口进行滤波,降低边缘的像素值,滤波运算即做卷积运算: f′(i,j)=∑f(i-k,j-l)·cos(h(k,l))
跟踪过程如下:
初始化过程:第一帧的特征提取f1与gi+1已知,根据如下公式
得到初始化滤波器权重h_0=IFFT(H_0),IFFT为傅里叶反变换;
更新过程:第一次采样是在当前帧(i+1)中定位上一帧i中的目标位置,进行采样,通过滤波器H得到响应G_i,G_i为过渡响应;利用过渡响应得到当前帧中响应最大的像素定位,对当前帧进行第二次采样,此时,目标位于采样框中心;采样结果的傅里叶变换即模型中的F_i,由此可求解以下优化问题:
minH*∑i|Fi·H*-Gi|2
同时每帧处理时引入学习率r,更新最优滤波参数H如下:
引入r的目的为了防止跟踪器学习模型过拟合,当手势检测当前帧检测失败时,可使用本发明提出的跟踪模块进行手部跟踪,跟踪器目前适合中低速移动,快速移动无法做到高精度跟踪。
更进一步地,所述手部关键点位姿估计模块的所述预设的深度神经网络的训练过程为:使用自制手部数据集通过单目摄像头回归手部的3D坐标,通过标定好的相机参数(外参与内参)根据不同的手型手势人工重建并标定好手势3D关键点坐标。根据相机参数也可解算出相机平面2D坐标。训练集准备了5000张,测试集1000张手部图片。通过整理数据输入神经网络进行训练。训练损失函数采用l2 loss,即ground truth 坐标与网络输出的坐标的l2损失。
更进一步地,所述手部网络变换与混合模块进一步包括:手部网格顶点坐标记为V, 其维度为N×3,N为顶点数目,根据所述手部关键点位姿估计模块求出的21个手部关键控制点的旋转矩阵R(3×3),可计算出变换矩阵T(4×3)T比R加入了平移和缩放参数,这里暂定缩放为1,平移为0,再根据手部2D中心坐标和camera的far_near投影反算出平移坐标。
更进一步地,所述手部网络变换与混合模块进一步包括:定义控制点集合为 C={C1,C2,…C21},对于1<=j<=21,每个控制单元Cj,根据计算出的变换矩阵Tj,对于顶点V,采用线性混合蒙皮算法(Linear Blend Skining)估计变换后顶点V’位置,记作:
其中,W_j为有界双调混合权重,该权重为事先计算好的权重。
与现有技术相比,本发明对系统硬件的要求不苛刻,无需第三方辅助硬件设备。在智能手机或笔记本电脑(带有前置摄像头)或带有USB单目摄像头的台式电脑上均可实现3DD手势手型捕捉与三维重建,进而大幅度提升了系统硬件的灵活性。同时,本发明提出的算法具有极快的计算速度、较高的实时性。可应用于智能手机,普通家用笔记本电脑终端。仅通过安装软件包即插即用,灵活方便。在精度方面虽无法达到类似可穿戴手套传感器设备级高精度,但满足日常手势控制,手势交互操作等基本需求,却不失为一个较为实用性的发明产品。
附图说明
从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在图中,在不同的视图中,相同的附图标记指定对应的部分。
图1为本发明逻辑流程示意图;
图2为现有技术中的轻量级网络采用Mobile-SSD深度学习网络模型图;
图3为本发明一实施例中的手部顶点变换混合的流程图。
具体实施方式
实施例一
如图1所示,本发明技术模块由手部检测模块,手部关键点位姿估计模块,手部网络变换与混合模块三部分组成。
1.手部检测与跟踪模块
手部检测模块并非本发明的重点部分,它可采用任意实时性检测器,对检测器的精度要求并不高,仅要求检测出手部的边框(BoundingBox)即可。通常检测轻量级网络采用Mobile-S D深度学习网络,其骨干网络结构如下图2所示,(此处VGG-16替换成MoblieNet-V2)此技术是引用前人研究的检测网络框架结构,并非本发明内容,因此不再详细叙述。
手部跟踪模块:跟踪模块本发明采用相关滤波策略跟踪,首先引入卷积算子将图像中的空间相关信息转移到频域
g(i,j)=∑f(i-k,j-l)·h(k,l)
其中,g为卷积后结果,f为图像数据,h为卷积核数据。(i,j)为图像索引,
(k,l)为卷积核索引。相关运算是把h旋转了180°的卷积运算,记做:
根据数字信号处理的基本知识,函数卷积的傅立叶变换是函数傅立叶变换的乘积,得到:
G=F·H*
其中,G为g,F为f、H为h的傅里叶变换。
通常情况下,需对跟踪手部目标区域像素做如下预处理:
(1)用log函数对像素值进行处理,降低对比度(contrasting lightingsituation)。
(2)进行平均值为0,范数为1的归一化。
(3)用余弦窗口进行滤波,降低边缘的像素值。滤波运算即做卷积运算:
f′(i,j)=∑f(i-k,j-l)·cos(h(k,l))
跟踪过程如下:
初始化过程:第一帧的特征提取f1与gi+1已知,根据如下公式
得到初始化滤波器权重h_0=IFFT(H_0),IFFT为傅里叶反变换。
更新过程:第一次采样是在当前帧(i+1)中定位上一帧i中的目标位置,进行采样,通过滤波器H得到响应G_i,G_i为过渡响应;利用过渡响应得到当前帧中响应最大的像素定位,对当前帧进行第二次采样,此时,目标位于采样框中心。采样结果的傅里叶变换即模型中的F_i,由此可求解以下优化问题:
minH*∑i|Fi·H*-Gi|2
同时每帧处理时引入学习率r,更新最优滤波参数H如下:
引入r的目的为了防止跟踪器学习模型过拟合。当手势检测当前帧检测失败时,可使用本发明提出的跟踪模块进行手部跟踪,跟踪器目前适合中低速移动,快速移动无法做到高精度跟踪。
2.手部关键点位姿估计模块
手部关键点位姿估计模块由两部分组成。其中,第一部分为手部关键点坐标提取模块。这部分由本发明自主设计的深度神经网络组成。其骨干架构采用MobileNet-V3网络,使用了多层1×1卷积,为加快推理计算速度同时提取准确特征。
将卷积特征最后通过通过全连接层变成N×1维特征。最后通过1维神经网络层做回归层,直接回归3D坐标信息点。得到的3D手部21个关键点坐标记为K(21×3)。
由上文所述,给定3D关键点坐标K,可计算手部手掌骨骼图的相对旋转向量q。具体细节如下:
步骤1,初始化一个标准手部模型,手掌完全伸展开。该模型作为标准手型。
步骤2,以一个手指为例子,以顺着指根到指尖关节顺序分别找到5个点K1-K5,则可得到4个3维向量:
以向量k1k2为例,对于标准手部模型中的点k1,k2,得到标准手型中的向量 k1k2’则可根据旋转向量计算公式算出向量k1k2’到向量k1k2的四元数q(旋转向量)。
根据罗德里克斯公式将四元数变换成旋转矩阵R,即采用现有技术的rodrigues公式。
训练过程:
本发明使用自制手部数据集通过单目摄像头回归手部的3D坐标,通过标定好的相机参数(外参与内参)根据不同的手型手势人工重建并标定好手势3D关键点坐标。根据相机参数也可解算出相机平面2D坐标。训练集准备了5000张,测试集1000张手部图片。通过整理数据输入神经网络进行训练。训练损失函数采用12 loss,即ground truth坐标与网络输出的坐标的12损失。
3.手部网络变换与混合模块
手部网络变换与混合模块指将上文中提到的手部标准3D网格(Mesh)模型,根据第2D小节所述的旋转矩阵,进行旋转变换。最后根据手部在图像上的2D坐标,平移缩放至手部中心位置。
其中,手部网格顶点坐标记为V,其维度为N×3,N为顶点数目。根据所述手部关键点位姿估计模块求出的21个手部关键控制点的旋转矩阵R(3×3),可计算出变换矩阵 T(4×3)T比R加入了平移和缩放参数,这里暂定缩放为1,平移为0,后续可根据手部 2D中心坐标和camera的far_near投影反算出平移坐标。定义控制点集合为C={C1,C2,… C21},对于1<=j<=21,每个控制单元Cj,根据前文章节计算出的变换矩阵Tj,对于顶点 V,采用线性混合蒙皮算法(Linear Blend Skining)估计变换后顶点V’位置,记作:
其中,W_j为有界双调混合权重,该权重为事先计算好的权重,参考(BoundedBiharmonic Weights,BBW)的计算方法,其数学表达式如下,最小化问题可以转化为求解对应的Euler-Lagrange方程,即双调和方程Δw_j^2=0而其同时满足设定的限制条件见以下公式:此处P为蒙皮顶点矩阵,有如下公式:
subject to:
wj|Fis linear
0≤wj(p)≤1,j=1,...,m
如图3所示,图3示出有关手部顶点变换混合的流程。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。因此,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (6)
1.一种基于单目RGB摄像头3D手部轻量级实时捕捉重建系统,其特征在于,包括如下模块:
手部检测模块,采用实时性检测器对手部进行检测,仅需要检测出手部的边框,而不需要进一步的检测结果;
手部跟踪模块,采用相关滤波策略对手部进行跟踪;
手部关键点位姿估计模块,所述手部关键点位姿估计模块包括手部关键点坐标提取模块,所述手部关键点坐标提取模块由预设的深度神经网络组成,所述预设的深度神经网络的骨干架构采用MobileNet-V3网络,使用了多层1×1卷积,为加快推理计算速度同时提取准确特征,所述预设的深度神经网络将卷积特征最后通过全连接层变成N×1维特征,最后通过1维神经网络层做回归层,直接回归3D坐标信息点,得到的3D手部21个关键点坐标记为K(21×3),对于给定3D关键点坐标K,可计算手部手掌骨骼图的相对旋转向量q,具体步骤如下:
步骤1,初始化一个标准手部模型,手掌完全伸展开,并以该标准手部模型作为标准手型;
步骤2,以一个手指为例子,以顺着指根到指尖关节顺序分别找到5个点K1-K5,则可得到4个3维向量:
以向量k1k2为例,对于标准手部模型中的点k1,k2,得到标准手型中的向量k1k2’则可根据旋转向量计算公式算出向量k1k2’到向量k1k2的四元数q(旋转向量),根据罗德里克斯公式将四元数变换成旋转矩阵R;
手部网络变换与混合模块,所述手部网络变换与混合模块将所述标准手部模型,根据所述的旋转矩阵R进行旋转变换。最后根据手部在图像上的2D坐标,平移缩放至手部中心位置。
3.如权利要求2所述的基于单目RGB摄像头3D手部轻量级实时捕捉重建系统,其特征在于,所述手部跟踪模块进一步包括对跟踪手部目标区域像素做如下预处理:
步骤1,用log函数对像素值进行处理,降低对比度(contrasting lightingsituation);
步骤2,进行平均值为0,范数为1的归一化;
步骤3,用余弦窗口进行滤波,降低边缘的像素值,滤波运算即做卷积运算:
f′(i,j)=∑f(i-k,j-l)·cos(h(k,l))
跟踪过程如下:
初始化过程:第一帧的特征提取f1与gi+1已知,根据如下公式
得到初始化滤波器权重h_0=IFFT(H_0),IFFT为傅里叶反变换;
更新过程:第一次采样是在当前帧(i+1)中定位上一帧i中的目标位置,进行采样,通过滤波器H得到响应G_i,G_i为过渡响应;利用过渡响应得到当前帧中响应最大的像素定位,对当前帧进行第二次采样,此时,目标位于采样框中心;采样结果的傅里叶变换即模型中的F_i,由此可求解以下优化问题:
同时每帧处理时引入学习率r,更新最优滤波参数H如下:
引入r的目的为了防止跟踪器学习模型过拟合,当手势检测当前帧检测失败时,可使用本发明提出的跟踪模块进行手部跟踪,跟踪器目前适合中低速移动,快速移动无法做到高精度跟踪。
4.如权利要求3所述的基于单目RGB摄像头3D手部轻量级实时捕捉重建系统,其特征在于,所述手部关键点位姿估计模块的所述预设的深度神经网络的训练过程为:使用自制手部数据集通过单目摄像头回归手部的3D坐标,通过标定好的相机参数(外参与内参)根据不同的手型手势人工重建并标定好手势3D关键点坐标。根据相机参数也可解算出相机平面2D坐标。训练集准备了5000张,测试集1000张手部图片。通过整理数据输入神经网络进行训练。训练损失函数采用l2 loss,即ground truth坐标与网络输出的坐标的l2损失。
5.如权利要求4所述的基于单目RGB摄像头3D手部轻量级实时捕捉重建系统,其特征在于,所述手部网络变换与混合模块进一步包括:手部网格顶点坐标记为V,其维度为N×3,N为顶点数目,根据所述手部关键点位姿估计模块求出的21个手部关键控制点的旋转矩阵R(3×3),可计算出变换矩阵T(4×3)T比R加入了平移和缩放参数,这里暂定缩放为1,平移为0,再根据手部2D中心坐标和camera的far_near投影反算出平移坐标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110814147.4A CN113674395B (zh) | 2021-07-19 | 2021-07-19 | 一种基于单目rgb摄像头3d手部轻量级实时捕捉重建系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110814147.4A CN113674395B (zh) | 2021-07-19 | 2021-07-19 | 一种基于单目rgb摄像头3d手部轻量级实时捕捉重建系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113674395A true CN113674395A (zh) | 2021-11-19 |
CN113674395B CN113674395B (zh) | 2023-04-18 |
Family
ID=78539529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110814147.4A Active CN113674395B (zh) | 2021-07-19 | 2021-07-19 | 一种基于单目rgb摄像头3d手部轻量级实时捕捉重建系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113674395B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116880687A (zh) * | 2023-06-07 | 2023-10-13 | 黑龙江科技大学 | 一种基于单目多算法的悬浮触控方法 |
CN117953545A (zh) * | 2024-03-27 | 2024-04-30 | 江汉大学 | 基于彩色图像的三维手部姿态估计方法、装置及处理设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992858A (zh) * | 2017-12-25 | 2018-05-04 | 深圳市唯特视科技有限公司 | 一种基于单一rgb帧的实时三维手势估计方法 |
CN110443884A (zh) * | 2019-07-17 | 2019-11-12 | 清华大学 | 手部运动重建方法和装置 |
CN111696140A (zh) * | 2020-05-09 | 2020-09-22 | 青岛小鸟看看科技有限公司 | 基于单目的三维手势追踪方法 |
US20200372246A1 (en) * | 2019-05-21 | 2020-11-26 | Magic Leap, Inc. | Hand pose estimation |
-
2021
- 2021-07-19 CN CN202110814147.4A patent/CN113674395B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992858A (zh) * | 2017-12-25 | 2018-05-04 | 深圳市唯特视科技有限公司 | 一种基于单一rgb帧的实时三维手势估计方法 |
US20200372246A1 (en) * | 2019-05-21 | 2020-11-26 | Magic Leap, Inc. | Hand pose estimation |
CN110443884A (zh) * | 2019-07-17 | 2019-11-12 | 清华大学 | 手部运动重建方法和装置 |
CN111696140A (zh) * | 2020-05-09 | 2020-09-22 | 青岛小鸟看看科技有限公司 | 基于单目的三维手势追踪方法 |
Non-Patent Citations (1)
Title |
---|
刘鑫辰 等: ""基于RGB-D摄像头的实时手指跟踪与手势识别"", 《计算机科学》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116880687A (zh) * | 2023-06-07 | 2023-10-13 | 黑龙江科技大学 | 一种基于单目多算法的悬浮触控方法 |
CN116880687B (zh) * | 2023-06-07 | 2024-03-19 | 黑龙江科技大学 | 一种基于单目多算法的悬浮触控方法 |
CN117953545A (zh) * | 2024-03-27 | 2024-04-30 | 江汉大学 | 基于彩色图像的三维手部姿态估计方法、装置及处理设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113674395B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107066935B (zh) | 基于深度学习的手部姿态估计方法及装置 | |
Gao et al. | Dynamic hand gesture recognition based on 3D hand pose estimation for human–robot interaction | |
Tian et al. | Gesture recognition based on multilevel multimodal feature fusion | |
CN107818554B (zh) | 信息处理设备和信息处理方法 | |
CN111160269A (zh) | 一种人脸关键点检测方法及装置 | |
CN113496507A (zh) | 一种人体三维模型重建方法 | |
CN112766160A (zh) | 基于多级属性编码器和注意力机制的人脸替换方法 | |
CN109753891A (zh) | 基于人体关键点检测的足球运动员姿势校准方法及系统 | |
CN105096377A (zh) | 一种图像处理方法和装置 | |
CN109359514B (zh) | 一种面向deskVR的手势跟踪识别联合策略方法 | |
CN113674395B (zh) | 一种基于单目rgb摄像头3d手部轻量级实时捕捉重建系统 | |
WO2014003081A1 (en) | Method for registering data | |
CN113034652A (zh) | 虚拟形象驱动方法、装置、设备及存储介质 | |
CN111062328B (zh) | 一种图像处理方法、装置及智能机器人 | |
Beyeler | OpenCV with Python blueprints | |
CN112530019A (zh) | 三维人体重建方法、装置、计算机设备和存储介质 | |
WO2022120843A1 (zh) | 三维人体重建方法、装置、计算机设备和存储介质 | |
CN112651380A (zh) | 人脸识别方法、人脸识别装置、终端设备及存储介质 | |
CN113658211A (zh) | 一种用户姿态的评估方法、装置以及处理设备 | |
CN112657176A (zh) | 一种结合人像行为信息的双目投影人机交互方法 | |
CN111353325A (zh) | 关键点检测模型训练方法及装置 | |
Pang et al. | Progressive polarization based reflection removal via realistic training data generation | |
CN115994944A (zh) | 三维关键点预测方法、训练方法及相关设备 | |
Bonmassar et al. | Lie groups, space-variant Fourier analysis and the exponential chirp transform | |
Johansson | Low level operations and learning in computer vision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |