CN113674395A

CN113674395A - 一种基于单目rgb摄像头3d手部轻量级实时捕捉重建系统

Info

Publication number: CN113674395A
Application number: CN202110814147.4A
Authority: CN
Inventors: 张哲为; 程煜钧; 唐志强; 赵乾; 张磊; 丁博文
Original assignee: Guangzhou Ziweiyun Technology Co ltd
Current assignee: Guangzhou Ziweiyun Technology Co ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-11-19
Anticipated expiration: 2041-07-19
Also published as: CN113674395B

Abstract

本发明公开了一种基于单目RGB摄像头3D手部轻量级实时捕捉重建系统，本发明以降低手势手型捕捉硬件成本，提升3D手势三维重建灵活性为初衷。通过低成本的普通RGB摄像头取代多目TOF结构光摄像头。同时拓宽了手势识别捕捉的空间范围。本发明对系统硬件的要求不苛刻，无需第三方辅助硬件设备，本发明提出的算法具有极快的计算速度、较高的实时性。可应用于智能手机，普通家用笔记本电脑终端。仅通过安装软件包即插即用，灵活方便。在精度方面虽无法达到类似可穿戴手套传感器设备级高精度，但满足日常手势控制，手势交互操作等基本需求，却不失为一个较为实用性的发明产品。

Description

一种基于单目RGB摄像头3D手部轻量级实时捕捉重建系统

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于单目RGB摄像头3D手部轻量级实时捕捉重建系统。

背景技术

近年来，随着人工智能的崛起衍生出一系列手势交互应用。例如：LipMotion、Kinect、RealSense等产品。其中，LipMotion是一种高精度实时性手势捕捉传感器，它依赖于多目结构光摄像头，通过红外线，TOF结构光捕获手掌手指的位置，进行实时空间还原。但受限于特定空间位置，灵活度欠佳。Kinect或RealSense通过双目结构光对人体区域进行分割，再对分割区域做骨骼检测，上述两种产品为体感摄像头，仅能做到简单手势控制与识别(握拳动作)，手指精细度欠佳、成本价格昂贵。此外，一些手指手掌捕捉设备依赖高精度传感器(可穿戴手套)，便携式差。对于VR，AR 应用，绝大部分手势捕捉设备依赖空间场地，需提前布置多目摄像头以及进行空间场景建模标定，灵活性不足。

发明内容

综合以上现有技术的缺陷不足，本发明以降低手势手型捕捉硬件成本，提升3D手势三维重建灵活性为初衷。设计一套基于单目RGB摄像头3D手部三维重建与实时捕捉的技术解决方案。通过低成本的普通RGB摄像头取代多目TOF结构光摄像头。同时拓宽了手势识别捕捉的空间范围(结构光摄像头手势捕捉距离范围较小)。本发明对系统硬件的要求不苛刻，无需第三方辅助硬件设备。在智能手机或笔记本电脑(带有前置摄像头)或带有USB单目摄像头的台式电脑上均可实现3DD手势手型捕捉与三维重建，进而大幅度提升了系统硬件的灵活性。同时，本发明提出的算法具有极快的计算速度、较高的实时性。可应用于智能手机，普通家用笔记本电脑终端。仅通过安装软件包即插即用，灵活方便。在精度方面虽无法达到类似可穿戴手套传感器设备级高精度，但满足日常手势控制，手势交互操作等基本需求，却不失为一个较为实用性的发明产品。

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明公开了一种基于单目RGB摄像头3D手部轻量级实时捕捉重建系统，包括如下模块：

手部检测模块，采用实时性检测器对手部进行检测，仅需要检测出手部的边框，而不需要进一步的检测结果；

手部跟踪模块，采用相关滤波策略对手部进行跟踪；

手部关键点位姿估计模块，所述手部关键点位姿估计模块包括手部关键点坐标提取模块，所述手部关键点坐标提取模块由预设的深度神经网络组成，所述预设的深度神经网络的骨干架构采用MobileNet-V3网络，使用了多层1×1卷积，为加快推理计算速度同时提取准确特征，所述预设的深度神经网络将卷积特征最后通过全连接层变成N ×1维特征，最后通过1维神经网络层做回归层，直接回归3D坐标信息点，得到的3D 手部21个关键点坐标记为K(21×3)，对于给定3D关键点坐标K，可计算手部手掌骨骼图的相对旋转向量q，具体步骤如下：

步骤1，初始化一个标准手部模型，手掌完全伸展开，并以该标准手部模型作为标准手型；

步骤2，以一个手指为例子，以顺着指根到指尖关节顺序分别找到5个点K1-K5，则可得到4个3维向量：

以向量klk2为例，对于标准手部模型中的点k1，k2，得到标准手型中的向量k1 k2’则可根据旋转向量计算公式算出向量k1k2’到向量klk2的四元数q(旋转向量)，根据罗德里克斯公式将四元数变换成旋转矩阵R；

手部网络变换与混合模块，所述手部网络变换与混合模块将所述标准手部模型，根据所述的旋转矩阵R进行旋转变换。最后根据手部在图像上的2D坐标，平移缩放至手部中心位置。

更进一步地，所述手部跟踪模块进一步包括：先引入卷积算子将图像中的空间相关信息转移到频域

g(i，j)＝Σf(i-k，j-l)·h(k，l)

其中，g为卷积后结果，f为图像数据，h为卷积核数据。(i，j)为图像索引，

(k，l)为卷积核索引，相关运算是把h旋转了180°的卷积运算，记做：

根据数字信号处理的基本知识，函数卷积的傅立叶变换是函数傅立叶变换的乘积，得到：

G＝F·H^*

其中，G为g，F为f、H为h的傅里叶变换。

更进一步地，所述手部跟踪模块进一步包括对跟踪手部目标区域像素做如下预处理：

步骤1，用log函数对像素值进行处理，降低对比度(contrasting lightingsituation)；

步骤2，进行平均值为0，范数为1的归一化；

步骤3，用余弦窗口进行滤波，降低边缘的像素值，滤波运算即做卷积运算： f′(i，j)＝∑f(i-k，j-l)·cos(h(k，l))

跟踪过程如下：

初始化过程：第一帧的特征提取f₁与g_i+1已知，根据如下公式

得到初始化滤波器权重h_0＝IFFT(H_0),IFFT为傅里叶反变换；

更新过程：第一次采样是在当前帧(i+1)中定位上一帧i中的目标位置，进行采样，通过滤波器H得到响应G_i，G_i为过渡响应；利用过渡响应得到当前帧中响应最大的像素定位，对当前帧进行第二次采样，此时，目标位于采样框中心；采样结果的傅里叶变换即模型中的F_i,由此可求解以下优化问题：

min_H*∑_i|F_i·H^*-G_i|²

同时每帧处理时引入学习率r，更新最优滤波参数H如下：

引入r的目的为了防止跟踪器学习模型过拟合，当手势检测当前帧检测失败时，可使用本发明提出的跟踪模块进行手部跟踪，跟踪器目前适合中低速移动，快速移动无法做到高精度跟踪。

更进一步地，所述手部关键点位姿估计模块的所述预设的深度神经网络的训练过程为：使用自制手部数据集通过单目摄像头回归手部的3D坐标，通过标定好的相机参数(外参与内参)根据不同的手型手势人工重建并标定好手势3D关键点坐标。根据相机参数也可解算出相机平面2D坐标。训练集准备了5000张，测试集1000张手部图片。通过整理数据输入神经网络进行训练。训练损失函数采用l2 loss，即ground truth 坐标与网络输出的坐标的l2损失。

更进一步地，所述手部网络变换与混合模块进一步包括：手部网格顶点坐标记为V, 其维度为N×3，N为顶点数目，根据所述手部关键点位姿估计模块求出的21个手部关键控制点的旋转矩阵R(3×3)，可计算出变换矩阵T(4×3)T比R加入了平移和缩放参数，这里暂定缩放为1，平移为0，再根据手部2D中心坐标和camera的far_near投影反算出平移坐标。

更进一步地，所述手部网络变换与混合模块进一步包括：定义控制点集合为 C＝{C1,C2,…C21}，对于1<＝j<＝21,每个控制单元Cj，根据计算出的变换矩阵Tj，对于顶点V，采用线性混合蒙皮算法(Linear Blend Skining)估计变换后顶点V’位置，记作：

其中，W_j为有界双调混合权重，该权重为事先计算好的权重。

与现有技术相比，本发明对系统硬件的要求不苛刻，无需第三方辅助硬件设备。在智能手机或笔记本电脑(带有前置摄像头)或带有USB单目摄像头的台式电脑上均可实现3DD手势手型捕捉与三维重建，进而大幅度提升了系统硬件的灵活性。同时，本发明提出的算法具有极快的计算速度、较高的实时性。可应用于智能手机，普通家用笔记本电脑终端。仅通过安装软件包即插即用，灵活方便。在精度方面虽无法达到类似可穿戴手套传感器设备级高精度，但满足日常手势控制，手势交互操作等基本需求，却不失为一个较为实用性的发明产品。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。

图1为本发明逻辑流程示意图；

图2为现有技术中的轻量级网络采用Mobile-SSD深度学习网络模型图；

图3为本发明一实施例中的手部顶点变换混合的流程图。

具体实施方式

实施例一

如图1所示，本发明技术模块由手部检测模块，手部关键点位姿估计模块，手部网络变换与混合模块三部分组成。

1.手部检测与跟踪模块

手部检测模块并非本发明的重点部分，它可采用任意实时性检测器，对检测器的精度要求并不高，仅要求检测出手部的边框(BoundingBox)即可。通常检测轻量级网络采用Mobile-S D深度学习网络，其骨干网络结构如下图2所示，(此处VGG-16替换成MoblieNet-V2)此技术是引用前人研究的检测网络框架结构，并非本发明内容，因此不再详细叙述。

手部跟踪模块：跟踪模块本发明采用相关滤波策略跟踪，首先引入卷积算子将图像中的空间相关信息转移到频域

g(i，j)＝∑f(i-k，j-l)·h(k，l)

(k,l)为卷积核索引。相关运算是把h旋转了180°的卷积运算，记做：

G＝F·H^*

其中，G为g，F为f、H为h的傅里叶变换。

通常情况下，需对跟踪手部目标区域像素做如下预处理：

(1)用log函数对像素值进行处理，降低对比度(contrasting lightingsituation)。

(2)进行平均值为0，范数为1的归一化。

(3)用余弦窗口进行滤波，降低边缘的像素值。滤波运算即做卷积运算：

f′(i，j)＝∑f(i-k，j-l)·cos(h(k，l))

跟踪过程如下：

得到初始化滤波器权重h_0＝IFFT(H_0),IFFT为傅里叶反变换。

更新过程：第一次采样是在当前帧(i+1)中定位上一帧i中的目标位置，进行采样，通过滤波器H得到响应G_i，G_i为过渡响应；利用过渡响应得到当前帧中响应最大的像素定位，对当前帧进行第二次采样，此时，目标位于采样框中心。采样结果的傅里叶变换即模型中的F_i,由此可求解以下优化问题：

min_H*∑_i|F_i·H^*-G_i|²

同时每帧处理时引入学习率r，更新最优滤波参数H如下：

引入r的目的为了防止跟踪器学习模型过拟合。当手势检测当前帧检测失败时，可使用本发明提出的跟踪模块进行手部跟踪，跟踪器目前适合中低速移动，快速移动无法做到高精度跟踪。

2.手部关键点位姿估计模块

手部关键点位姿估计模块由两部分组成。其中，第一部分为手部关键点坐标提取模块。这部分由本发明自主设计的深度神经网络组成。其骨干架构采用MobileNet-V3网络，使用了多层1×1卷积，为加快推理计算速度同时提取准确特征。

将卷积特征最后通过通过全连接层变成N×1维特征。最后通过1维神经网络层做回归层，直接回归3D坐标信息点。得到的3D手部21个关键点坐标记为K(21×3)。

由上文所述，给定3D关键点坐标K，可计算手部手掌骨骼图的相对旋转向量q。具体细节如下：

步骤1，初始化一个标准手部模型，手掌完全伸展开。该模型作为标准手型。

以向量k1k2为例，对于标准手部模型中的点k1，k2，得到标准手型中的向量 k1k2’则可根据旋转向量计算公式算出向量k1k2’到向量k1k2的四元数q(旋转向量)。

根据罗德里克斯公式将四元数变换成旋转矩阵R，即采用现有技术的rodrigues公式。

训练过程：

本发明使用自制手部数据集通过单目摄像头回归手部的3D坐标，通过标定好的相机参数(外参与内参)根据不同的手型手势人工重建并标定好手势3D关键点坐标。根据相机参数也可解算出相机平面2D坐标。训练集准备了5000张，测试集1000张手部图片。通过整理数据输入神经网络进行训练。训练损失函数采用12 loss，即ground truth坐标与网络输出的坐标的12损失。

3.手部网络变换与混合模块

手部网络变换与混合模块指将上文中提到的手部标准3D网格(Mesh)模型，根据第2D小节所述的旋转矩阵，进行旋转变换。最后根据手部在图像上的2D坐标，平移缩放至手部中心位置。

其中，手部网格顶点坐标记为V，其维度为N×3，N为顶点数目。根据所述手部关键点位姿估计模块求出的21个手部关键控制点的旋转矩阵R(3×3)，可计算出变换矩阵 T(4×3)T比R加入了平移和缩放参数，这里暂定缩放为1，平移为0，后续可根据手部 2D中心坐标和camera的far_near投影反算出平移坐标。定义控制点集合为C＝{C1，C2，… C21}，对于1＜＝j＜＝21，每个控制单元Cj，根据前文章节计算出的变换矩阵Tj，对于顶点 V，采用线性混合蒙皮算法(Linear Blend Skining)估计变换后顶点V’位置，记作：

其中，W_j为有界双调混合权重，该权重为事先计算好的权重，参考(BoundedBiharmonic Weights，BBW)的计算方法，其数学表达式如下，最小化问题可以转化为求解对应的Euler-Lagrange方程，即双调和方程Δw_j^2＝0而其同时满足设定的限制条件见以下公式：此处P为蒙皮顶点矩阵，有如下公式：

subject to：

w_j|_Fis linear

0≤w_j(p)≤1，j＝1，...，m

如图3所示，图3示出有关手部顶点变换混合的流程。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。因此，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于单目RGB摄像头3D手部轻量级实时捕捉重建系统，其特征在于，包括如下模块：

手部跟踪模块，采用相关滤波策略对手部进行跟踪；

手部关键点位姿估计模块，所述手部关键点位姿估计模块包括手部关键点坐标提取模块，所述手部关键点坐标提取模块由预设的深度神经网络组成，所述预设的深度神经网络的骨干架构采用MobileNet-V3网络，使用了多层1×1卷积，为加快推理计算速度同时提取准确特征，所述预设的深度神经网络将卷积特征最后通过全连接层变成N×1维特征，最后通过1维神经网络层做回归层，直接回归3D坐标信息点，得到的3D手部21个关键点坐标记为K(21×3)，对于给定3D关键点坐标K，可计算手部手掌骨骼图的相对旋转向量q，具体步骤如下：

以向量k1k2为例，对于标准手部模型中的点k1，k2，得到标准手型中的向量k1k2’则可根据旋转向量计算公式算出向量k1k2’到向量k1k2的四元数q(旋转向量)，根据罗德里克斯公式将四元数变换成旋转矩阵R；

2.如权利要求1所述的基于单目RGB摄像头3D手部轻量级实时捕捉重建系统，其特征在于，所述手部跟踪模块进一步包括：先引入卷积算子将图像中的空间相关信息转移到频域

g(i，j)＝∑f(i-k，j-l)·h(k，l)

(k,l)为卷积核索引，相关运算是把h旋转了180°的卷积运算，记做：

G＝F·H^*

其中，G为g，F为f、H为h的傅里叶变换。

3.如权利要求2所述的基于单目RGB摄像头3D手部轻量级实时捕捉重建系统，其特征在于，所述手部跟踪模块进一步包括对跟踪手部目标区域像素做如下预处理：

步骤2，进行平均值为0，范数为1的归一化；

步骤3，用余弦窗口进行滤波，降低边缘的像素值，滤波运算即做卷积运算：

f′(i，j)＝∑f(i-k，j-l)·cos(h(k，l))

跟踪过程如下：

得到初始化滤波器权重h_0＝IFFT(H_0),IFFT为傅里叶反变换；

同时每帧处理时引入学习率r，更新最优滤波参数H如下：

4.如权利要求3所述的基于单目RGB摄像头3D手部轻量级实时捕捉重建系统，其特征在于，所述手部关键点位姿估计模块的所述预设的深度神经网络的训练过程为：使用自制手部数据集通过单目摄像头回归手部的3D坐标，通过标定好的相机参数(外参与内参)根据不同的手型手势人工重建并标定好手势3D关键点坐标。根据相机参数也可解算出相机平面2D坐标。训练集准备了5000张，测试集1000张手部图片。通过整理数据输入神经网络进行训练。训练损失函数采用l2 loss，即ground truth坐标与网络输出的坐标的l2损失。

5.如权利要求4所述的基于单目RGB摄像头3D手部轻量级实时捕捉重建系统，其特征在于，所述手部网络变换与混合模块进一步包括：手部网格顶点坐标记为V,其维度为N×3，N为顶点数目，根据所述手部关键点位姿估计模块求出的21个手部关键控制点的旋转矩阵R(3×3)，可计算出变换矩阵T(4×3)T比R加入了平移和缩放参数，这里暂定缩放为1，平移为0，再根据手部2D中心坐标和camera的far_near投影反算出平移坐标。

6.如权利要求5所述的基于单目RGB摄像头3D手部轻量级实时捕捉重建系统，其特征在于，所述手部网络变换与混合模块进一步包括：定义控制点集合为C＝{C1,C2,…C21}，对于1<＝j<＝21,每个控制单元Cj，根据计算出的变换矩阵Tj，对于顶点V，采用线性混合蒙皮算法(Linear Blend Skining)估计变换后顶点V’位置，记作：