CN110175566B - 一种基于rgbd融合网络的手部姿态估计系统及方法 - Google Patents

一种基于rgbd融合网络的手部姿态估计系统及方法 Download PDF

Info

Publication number
CN110175566B
CN110175566B CN201910448208.2A CN201910448208A CN110175566B CN 110175566 B CN110175566 B CN 110175566B CN 201910448208 A CN201910448208 A CN 201910448208A CN 110175566 B CN110175566 B CN 110175566B
Authority
CN
China
Prior art keywords
depth
features
hand
feature
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910448208.2A
Other languages
English (en)
Other versions
CN110175566A (zh
Inventor
林相波
周一丹
孙怡
马晓红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201910448208.2A priority Critical patent/CN110175566B/zh
Publication of CN110175566A publication Critical patent/CN110175566A/zh
Application granted granted Critical
Publication of CN110175566B publication Critical patent/CN110175566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/11Hand-related biometrics; Hand pose recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Abstract

本发明提供一种基于RGBD融合网络的手部姿态估计系统及方法。本发明系统包括全局深度特征提取模块、残差模块、多模态特征融合模块、分支并行干扰消除模块,全局深度特征提取模块,采用平行的两路交叉融合的残差网络,上路为高分辨率的特征图,下路为低分辨率特征图,通过交叉融合多分辨率的信息来进行多尺度特征融合,最终在高分辨率特征图预测网络输出;系统的输入部分分为深度图像处理支路和RGB彩色图像处理支路,两个支路所提取的特征,进行多模态融合后形成全局特征,送入分支并行干扰消除模块进行手部分支的特征提取,得到强化的手部分支特征,用于最终的关节位置预测。本发明主要通过彩色图像与深度图像的信息综合,达到具有较高准确度的手部姿态估计。

Description

一种基于RGBD融合网络的手部姿态估计系统及方法
技术领域
本发明涉及计算机视觉和深度学习技术领域,具体而言,尤其涉及一种基于RGBD融合网络的手部姿态估计系统及方法。
背景技术
基于视觉的3D人手姿态估计在计算机视觉、虚拟现实、机器人等领域是热点研究问题,已经有很多的研究成果。但是,到目前为止,基于视觉信息估计人手姿态仍然是一个没有完美解决的问题,手指关节的高度灵活的变化、不同手指之间具有较高的相似性、手指动作时相互之间的遮挡以及物体对手指的遮挡,给手部姿态估计带来了较大的挑战,阻碍了相应应用领域智能化、全自动化的发展。因此,开发性能更为优良的人手姿态估计方法有十分重要的意义。
国内外研究人员在人手姿态估计问题上尝试了很多研究方案。输入数据模态包括单幅彩色RGB图像.随着深度相机技术的成熟和价格下降,使用深度数据估计人手姿态近年来得到了广泛关注.关于基于视觉的手部姿态估计方法,大致可以分为基于生成式模型的方法和基于数据学习的方法。生成式模型法通常预先定义一个手部模型,借助不同的目标函数实现手部模型与观测到的深度图像的最优匹配。这类方法的性能对目标函数的合理性有较高依赖,对初始参数值敏感,估计速度慢,当手部动作变化较快时,姿态估计的准确度下降严重。数据学习法用大量数据训练手部姿态估计模型,直接回归得到关节位置或角度。
Choi等使用合成的高质量仿真数据训练网络模型来估计手部关节位置,然而仿真数据与真实数据之间存在较大的差异,在实际应用时存在泛化问题。Ge等人将实际深度图像转换成点云,再将点云投影到手部的方向包围盒的三个正交平面上,形成多视角的深度图,利用2D CNN学习更有效的空间特征。Moon等人将深度数据转换为3D体素表达,使用更复杂的3D CNN进行学习,达到了较高的预测精度,然而构造3D数据的转换过程较为复杂且耗时。
上述手部姿态检测的研究将环境限定为空手动作且为面向相机的第三视角,尽可能地减少遮挡,为关节检测带来很大便利,然而当场景不是第三视角或与物体交互时,存在较强的遮挡,为解决这样的问题,Goudie使用真实的深度图像,通过手物分割网络与关节估计网络的二阶段操作,实现手操作小球时的手部关节估计,然而此方法仅限已知物体,需要额外的分割标注,且对于其他物体的泛化能力未知。
发明内容
根据上述提出的技术问题,而提供一种基于RGBD融合网络的手部姿态估计系统及方法。针对不同视角下手物交互过程中人手姿态估计问题,本发明主要通过彩色图像与深度图像的信息综合,达到具有较高准确度的手部姿态估计。
本发明采用的技术手段如下:
一种基于RGBD融合网络的手部姿态估计系统,包括:
全局深度特征提取模块,采用平行的两路交叉融合的残差网络,上路为高分辨率的特征图,下路为低分辨率特征图,通过交叉融合多分辨率的信息来进行多尺度特征融合,最终在高分辨率特征图预测网络输出;
残差模块,对于彩色图像,先使用两组堆叠的卷积-池化模块提取低级特征,并使用关键点的2D热图作为监督,引导彩色特征提取聚焦在手部关键点附近,将彩色图像中得到的手部关键点的低级特征送入残差模块;
多模态特征融合模块,先将深度特征与彩色特征进行级联,通过3×3的卷积和归一化操作平衡两种模态特征的尺度,通过全局平均池化将Sigmoid操作计算特征向量作为特征选择的权重,与原特征图逐像素相乘再相加,起到特征选择和结合的作用;
分支并行干扰消除模块,对经所述多模态特征融合模块融合后的特征进行特征提取和最终关节3D位置的回归。
进一步地,所述全局深度特征提取模块使用较少的残差块以保证低级特征的提取,残差块将原始的输入信息经过跨层连接与经过后续网络处理的特征逐像素相加。
本发明还提供了一种基于RGBD融合网络的手部姿态估计方法,包括:
步骤1:准备数据集;
步骤2:将数据集中的图像数据输入到RGBD融合卷积神经网络进行学习和预测;
步骤3:设计损失函数,所述损失函数定义如下:
Figure GDA0003921446730000031
其中,第一项
Figure GDA0003921446730000032
Figure GDA0003921446730000033
分别为全局特征提取模块中深度图像处理支路和彩色图像处理支路的2D热图损失函数项,计算每个关节点预测的热图与真值热图的误差,权重α平衡各级损失函数项的作用强度,权重系数均设为0.005;
Figure GDA0003921446730000034
其中,J表示关节点总数,hi表示预测的第i个关节的热图,Hi表示第i个关节的真值标签的热图,u和v分别表示热图的横、纵像素坐标,L1表示第一级监督计算每个关节点预测的热图与真值的热图之间逐像素的l2范数的平方;
第二个损失函数项L2位于手部分支并行干扰消除模块中,具体定义为:
Figure GDA0003921446730000035
其中,c表示网络预测的关节点3D坐标集合,C表示真实的关节点3D坐标集合,各支路关节点个数J与不同数据集关节标注规则相关,Jthumb=5,Jindex=4,Jothers=12,α、β、γ是平衡各项的权重因子。
第三个损失函数项位于干扰消除之后的最终的分支之后,定义了每个分支预测的关节点的3D坐标与真值标注之间距离,其定义与L2相同;
步骤4:构建网络并进行网络训练,网络使用python2.7基于tensorflow1.3构建,在配有GTX1080显卡的主机上进行训练和测试;
步骤5:通过评价指标对测试结果进行分析;所述评价指标包括平均关节误差和正确检测帧比率。
进一步地,所述步骤1中准备数据集的具体过程如下:
步骤11:获取图像数据集;所述图像数据集包括彩色图像和深度图像;
步骤12:数据对齐;将深度图像上像素点转换到世界坐标下,计算与彩色图像像素点的投影关系,将彩色图像投影到深度空间;将手部深度图像大小调整为96×96,深度值归一化到[-1,1],同比例裁剪配准后的彩色图像,彩色图像像素值归一化到[-1,1],作为网络的输入,对应关节坐标标注同样做归一化处理;
步骤13:数据分集,将上述图像数据集划分成训练集和测试集;在划分训练集和测试集时,图像数据集提供按动作1:1进行训练集与测试集的划分,以及按物体进行1:1比例划分训练集和测试集,测试集中的物体不包含在训练集中。
进一步地,所述步骤2包括:
步骤21:全局深度特征提取模块和残差模块分别对深度图像和彩色图像进行特征提取;
步骤22:多模态特征融合模块将提取的特征进行融合后形成全局特征,送入分支并行干扰消除模块;
步骤23:所述分支并行干扰消除模块进行手部分支的特征提取,得到强化的手部分支特征,用于最终的关节位置预测。
进一步地,所述步骤4的具体过程如下:
步骤41:网络采用端到端的方式进行训练,所有的权重被随机初始化为均值0,标准差为0.01的正态分布;
步骤42:使用Adam算法进行梯度的反向传播计算,初始学习率设为0.001,每一轮训练学习率衰减为上一轮的0.96倍;除输出层之外所有的全连接层都使用随机失活防止过拟合,随机失活比率设为0.5,批大小为64,训练70轮。
进一步地,所述平均关节误差为测试集中每一帧图像的所有关节位置的预测值与真值标签之间的3D距离;所述正确检测帧比率为所有关节点的误差低于某个阈值的帧数所占总体测试集的比例。
进一步地,所述步骤21中全局深度特征提取模块对深度图像进行特征提取的过程如下:
步骤211:将分辨率为96×96的深度图像进行两次下采样得到48×48和24×24大小的深度图像;
步骤212:分别对每个尺度的输入深度图像进行特征提取,其中,大尺寸的输入图像使用堆叠的3×3的卷积核提取特征,并用4×4的最大池化层进行特征的降采样,中等尺寸的输入图像经过堆叠的3×3的卷积层提取特征,之后使用2×2的最大池化层对特征图进行降采样,小尺寸的输入图像直接经过一层3×3的卷积层;
步骤213:将三种尺寸的深度图像得到的浅层特征进行级联融合,作为所述全局深度特征提取模块的输入。
进一步地,在步骤21全局深度特征提取模块和残差模块分别对深度图像和彩色图像进行特征提取之前还包括对深度图像和彩色图像进行预处理的步骤。
进一步地,所述步骤21中还包括使用手部关节的24×24大小的2D热图对全局深度特征提取模块进行中间监督,引导其关注手部关节点周围的特征,以保证检测精度的步骤。
较现有技术相比,本发明具有以下优点:
1、准确率高,适用性更好,计算复杂性低,运行时间少。在FAHD数据集上实施本发明提出的方法,在未知物体上的检测精度为18.25mm,优于Holi-CNN的19.84mm的检测精度,说明本发明提出的方法具有较好的在未知物体上的泛化性能力。
2、本发明提出的方法具有新颖的网络结构。结构设计建立在手部结构和功能特点的基础上,不同的网络分支与不同的手指相对应,同时通过并行干扰消除策略强化各分支专有特征。同时,充分融合彩色图像和深度图像的多模态互补信息,提高了手部姿态估计的准确性。
3、本发明提出的方法效率高,在GeForce GTX 1080,Core i7–77003.6GHz*8计算平台下,测试效率290fps。
基于上述理由本发明可在计算机视觉和深度学习等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明系统总体结构图。
图2为本发明实施例彩色图像配准到深度图像空间示意图。
图3为本发明系统全局深度特征提取模块结构图。
图4为本发明系统多模态特征融合模块结构图。
图5为本发明系统分支并行干扰消除模块结构图。
图6为本发明实施例手部姿态真值与估计结果对比图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
考虑到交互遮挡情境下的手部姿态检测所面临的挑战,本发明所设计的网络结构是一种双流融合的卷积神经,输入部分分为深度图像处理支路和RGB彩色图像处理支路,两个支路所提取的特征,进行多模态融合后形成全局特征,送入分支并行干扰消除模块进行手部分支的特征提取,得到强化的手部分支特征,用于最终的关节位置预测。
实施例1
如图1示,本发明提供了一种基于RGBD融合网络的手部姿态估计系统,包括:
全局深度特征提取模块,如图3所示,采用平行的两路交叉融合的残差网络,上路为高分辨率的特征图,下路为低分辨率特征图,通过交叉融合多分辨率的信息来进行多尺度特征融合,最终在高分辨率特征图预测网络输出;全局深度特征提取模块使用较少的残差块以保证低级特征的提取,残差块将原始的输入信息经过跨层连接与经过后续网络处理的特征逐像素相加。大多数现有的网络是串行的结构,即特征图从高分辨率降至低分辨率再从低分辨率恢复到高分辨率,分辨率的恢复过程可能会造成信息的损失,而并行的交叉融合可以规避分辨率的恢复过程,在整个过程中都保持高分辨率的表达,通过交叉融合多分辨的特征,形成更加丰富的高分辨率表示,对于关键点的热图预测更为精确。
残差模块,对于彩色图像,先使用两组堆叠的卷积-池化模块提取低级特征,并使用关键点的2D热图作为监督,引导彩色特征提取聚焦在手部关键点附近,如图1所示,将彩色图像中得到的手部关键点的低级特征送入残差模块;
多模态特征融合模块,如图4所示,先将深度特征与彩色特征进行级联,通过3×3的卷积和归一化操作平衡两种模态特征的尺度,通过全局平均池化将Sigmoid操作计算特征向量作为特征选择的权重,与原特征图逐像素相乘再相加,起到特征选择和结合的作用;
分支并行干扰消除模块,对经所述多模态特征融合模块融合后的特征进行特征提取和最终关节3D位置的回归。如图5所示,网络的三个分支:“thumb-block”、“index-block”、“others-block”分别对应于手部的三个分区:大拇指、食指和其余手指,对于每个分支的特征提取模块,使用简单的堆叠卷积和最大池化操作,经过两层全连接层,得到每个分支对应手部关节点的3D坐标,在训练过程中,作为分支网络的监督引导各部分特征的学习。而在特征提取过程中不可避免会有其他部位的信息污染,为了获得更加纯净的特征表达,本发明借鉴通信理论中并行干扰消除理论,通过特征图相减,得到拇指、食指、其余三指的强化特征。
图1中灰色框中“HM”表示训练过程中使用关节2D热图(Heat Maps)作为中间层的监督进行特征学习的引导,有助于网络的训练。
实施例2
本发明提供了一种基于RGBD融合网络的手部姿态估计方法,包括:
步骤1:准备数据集;
步骤11:获取图像数据集;所述图像数据集包括彩色图像和深度图像;本实施例中,选用开源共享的FAHD数据集,该数据集是帝国理工大学建立的面向任务操作的数据集,以第一人称视角拍摄人手操作物体的日常动作,提供21个关节点的3D位置标注。图像数据使用Realsense SR300以第一人称视角采集厨房、社交、工作三种环境下与26种物体交互的45种日常动作,如倒牛奶、开瓶子、写字等,通过贴附在手上的磁传感器系统自动标注。该数据集提供与深度图像对应的彩色图像,共计10万个RGB-D帧。彩色图像分辨率为1920×1080,深度图像分辨率为640×480。
步骤12:数据对齐;由于彩色图像与深度图像分辨率差距过大,视场也不同,导致深度图像与彩色图像像素点不能一一对应,需要将二者配准,将深度图像上像素点转换到世界坐标下,计算与彩色图像像素点的投影关系,将彩色图像投影到深度空间;将手部深度图像大小调整为96×96,深度值归一化到[-1,1],同比例裁剪配准后的彩色图像,彩色图像像素值归一化到[-1,1],作为网络的输入,对应关节坐标标注同样做归一化处理;如图2所示为彩色图像与深度图像配准对齐后的图像示例。
步骤13:数据分集,FAHD数据集共采集26种物体的45种动作,将FAHD数据集划分成训练集和测试集;在划分训练集和测试集时,图像数据集提供按动作1:1进行训练集与测试集的划分,以及按物体进行1:1比例划分训练集和测试集,测试集中的物体不包含在训练集中。
步骤2:将数据集中的图像数据输入到RGBD融合卷积神经网络进行学习和预测;
步骤21:全局深度特征提取模块和残差模块分别对深度图像和彩色图像进行特征提取;
全局深度特征提取模块对深度图像进行特征提取的过程如下:
步骤211:将经过预处理后的分辨率为96×96的深度图像进行两次下采样得到48×48和24×24大小的深度图像;
步骤212:分别对每个尺度的输入深度图像进行特征提取,其中,大尺寸的输入图像使用堆叠的3×3的卷积核提取特征,并用4×4的最大池化层进行特征的降采样,中等尺寸的输入图像经过堆叠的3×3的卷积层提取特征,之后使用2×2的最大池化层对特征图进行降采样,小尺寸的输入图像直接经过一层3×3的卷积层;
步骤213:将三种尺寸的深度图像得到的浅层特征进行级联融合,作为所述全局深度特征提取模块的输入。
步骤22:多模态特征融合模块将提取的特征进行融合后形成全局特征,送入分支并行干扰消除模块;
步骤23:所述分支并行干扰消除模块进行手部分支的特征提取,得到强化的手部分支特征,用于最终的关节位置预测。
全局深度特征提取模块如图3所示,使用较少的残差块以保证低级特征的提取,残差块将原始的输入信息经过跨层连接与经过后续网络处理的特征逐像素相加,这一操作在提升网络训练效果的同时使低级特征更为丰富。在训练过程中,使用手部关节的24×24大小的2D热图对全局深度特征提取模块进行中间监督,引导其关注手部关节点周围的特征,以保证检测精度。
步骤3:设计损失函数,所述损失函数定义如下:
Figure GDA0003921446730000091
其中,第一项
Figure GDA0003921446730000101
Figure GDA0003921446730000102
分别为全局特征提取模块中深度图像处理支路和彩色图像处理支路的2D热图损失函数项,计算每个关节点预测的热图与真值热图的误差,权重α平衡各级损失函数项的作用强度,在本实施例中,权重系数均设为0.005;
Figure GDA0003921446730000103
其中,J表示关节点总数,hi表示预测的第i个关节的热图,Hi表示第i个关节的真值标签的热图,u和v分别表示热图的横、纵像素坐标,L1表示第一级监督计算每个关节点预测的热图与真值的热图之间逐像素的l2范数的平方;
第二个损失函数项L2位于手部分支并行干扰消除模块中,具体定义为:
Figure GDA0003921446730000104
其中,c表示网络预测的关节点3D坐标集合,C表示真实的关节点3D坐标集合,各支路关节点个数J与不同数据集关节标注规则相关,Jthumb=5,Jindex=4,Jothers=12,α、β、γ是平衡各项的权重因子
第三个损失函数项位于干扰消除之后的最终的分支之后,定义了每个分支预测的关节点的3D坐标与真值标注之间距离,其定义与L2相同;
步骤4:构建网络并进行网络训练,网络使用python2.7基于tensorflow1.3构建,在配有GTX1080显卡的主机上进行训练和测试;
步骤41:网络采用端到端的方式进行训练,所有的权重被随机初始化为均值0,标准差为0.01的正态分布;
步骤42:使用Adam算法进行梯度的反向传播计算,初始学习率设为0.001,每一轮训练学习率衰减为上一轮的0.96倍;除输出层之外所有的全连接层都使用随机失活防止过拟合,随机失活比率设为0.5,批大小为64,训练70轮。
步骤5:通过评价指标对测试结果进行分析;所述评价指标包括平均关节误差和正确检测帧比率。平均关节误差为测试集中每一帧图像的所有关节位置的预测值与真值标签之间的3D距离;正确检测帧比率为所有关节点的误差低于某个阈值的帧数所占总体测试集的比例。
本发明以FAHD数据集为实验案例进行手部关节检测,并与Holi-CNN方法的结果进行比较,如图6和表1所示。图6中展示了手与物体交互环境下,如各种姿态下拿水杯、瓶子、写字等,第一视角的手部姿态检测结果,蓝色线表示真值,红色线表示本发明提出方法的估计结果,本发明提出的方法检测的手部姿态与深度图像显示的姿态一致,关节点分布与真值标注重合度很高。按照物体1:1划分训练/测试集和按照动作1:1划分训练/测试集两种情况进行对比,对于平均关节误差指标,本发明提出的方法均取得更高的精度(表1)。对于正确检测帧率指标,在按动作分集情况下,在几乎所有的误差阈值范围下,本发明得到的结果均优于现有方法;在按物体分集情况下,当误差阈值大于14mm时,本发明得到的结果优于现有方法,当误差阈值小于14mm时,本发明得到的结果略低于Holi-CNN方法,但本发明方法具有更好的泛化能力,在未知物体上的检测精度为18.25mm,优于Holi-CNN的19.84mm的检测精度。
表1手部姿态估计的平均精度
方法 按物体分集(mm) 按动作分集(mm)
Holi-CNN 19.84 14.34
本发明 18.25 10.79
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种基于RGBD融合网络的手部姿态估计系统,其特征在于,包括:
全局深度特征提取模块,采用平行的两路交叉融合的残差网络,上路为高分辨率的特征图,下路为低分辨率特征图,通过交叉融合多分辨率的信息来进行多尺度特征融合,最终在高分辨率特征图预测网络输出;全局深度特征提取模块使用较少的残差块以保证低级特征的提取,残差块将原始的输入信息经过跨层连接与经过后续网络处理的特征逐像素相加;
残差模块,对于彩色图像,先使用两组堆叠的卷积-池化模块提取低级特征,并使用关键点的2D热图作为监督,引导彩色特征提取聚焦在手部关键点附近,将彩色图像中得到的手部关键点的低级特征送入残差模块;
多模态特征融合模块,先将深度特征与彩色特征进行级联,通过3×3的卷积和归一化操作平衡两种模态特征的尺度,通过全局平均池化将Sigmoid操作计算特征向量作为特征选择的权重,与原特征图逐像素相乘再相加,起到特征选择和结合的作用;
分支并行干扰消除模块,对经所述多模态特征融合模块融合后的特征进行特征提取和最终关节3D位置的回归。
2.一种基于权利要求1所述基于RGBD融合网络的手部姿态估计系统实现的基于RGBD融合网络的手部姿态估计方法,其特征在于,包括:
步骤1:准备数据集;
步骤2:将数据集中的图像数据输入到RGBD融合卷积神经网络进行学习和预测;
步骤3:设计损失函数,所述损失函数定义如下:
Figure FDA0003930146600000011
其中,第一项
Figure FDA0003930146600000012
Figure FDA0003930146600000013
分别为全局特征提取模块中深度图像处理支路和彩色图像处理支路的2D热图损失函数项,计算每个关节点预测的热图与真值热图的误差,权重α平衡各级损失函数项的作用强度,权重系数均设为0.005;
Figure FDA0003930146600000014
其中,J表示关节点总数,hi表示预测的第i个关节的热图,Hi表示第i个关节的真值标签的热图,u和v分别表示热图的横、纵像素坐标,L1表示第一级监督计算每个关节点预测的热图与真值的热图之间逐像素的l2范数的平方;
第二个损失函数项L2位于手部分支并行干扰消除模块中,具体定义为:
Figure FDA0003930146600000021
其中,c表示网络预测的关节点3D坐标集合,C表示真实的关节点3D坐标集合,各支路关节点个数J与不同数据集关节标注规则相关,Jthumb=5,Jindex=4,Jothers=12,α、β、γ是平衡各项的权重因子;
第三个损失函数项L3位于干扰消除之后的最终的分支之后,定义了每个分支预测的关节点的3D坐标与真值标注之间距离,其定义与L2相同;
步骤4:构建网络并进行网络训练,网络使用python2.7基于tensorflow1.3构建,在配有GTX1080显卡的主机上进行训练和测试;
步骤5:通过评价指标对测试结果进行分析;所述评价指标包括平均关节误差和正确检测帧比率。
3.根据权利要求2所述的基于RGBD融合网络的手部姿态估计方法,其特征在于,所述步骤1中准备数据集的具体过程如下:
步骤11:获取图像数据集;所述图像数据集包括彩色图像和深度图像;
步骤12:数据对齐;将深度图像上像素点转换到世界坐标下,计算与彩色图像像素点的投影关系,将彩色图像投影到深度空间;将手部深度图像大小调整为96×96,深度值归一化到[-1,1],同比例裁剪配准后的彩色图像,彩色图像像素值归一化到[-1,1],作为网络的输入,对应关节坐标标注同样做归一化处理;
步骤13:数据分集,将上述图像数据集划分成训练集和测试集;在划分训练集和测试集时,图像数据集提供按动作1:1进行训练集与测试集的划分,以及按物体进行1:1比例划分训练集和测试集,测试集中的物体不包含在训练集中。
4.根据权利要求2所述的基于RGBD融合网络的手部姿态估计方法,其特征在于,所述步骤2包括:
步骤21:全局深度特征提取模块和残差模块分别对深度图像和彩色图像进行特征提取;
步骤22:多模态特征融合模块将提取的特征进行融合后形成全局特征,送入分支并行干扰消除模块;
步骤23:所述分支并行干扰消除模块进行手部分支的特征提取,得到强化的手部分支特征,用于最终的关节位置预测。
5.根据权利要求2所述的基于RGBD融合网络的手部姿态估计方法,其特征在于,所述步骤4的具体过程如下:
步骤41:网络采用端到端的方式进行训练,所有的权重被随机初始化为均值0,标准差为0.01的正态分布;
步骤42:使用Adam算法进行梯度的反向传播计算,初始学习率设为0.001,每一轮训练学习率衰减为上一轮的0.96倍;除输出层之外所有的全连接层都使用随机失活防止过拟合,随机失活比率设为0.5,批大小为64,训练70轮。
6.根据权利要求2所述的基于RGBD融合网络的手部姿态估计方法,其特征在于,所述平均关节误差为测试集中每一帧图像的所有关节位置的预测值与真值标签之间的3D距离;所述正确检测帧比率为所有关节点的误差低于某个阈值的帧数所占总体测试集的比例。
7.根据权利要求4所述的基于RGBD融合网络的手部姿态估计方法,其特征在于,所述步骤21中全局深度特征提取模块对深度图像进行特征提取的过程如下:
步骤211:将分辨率为96×96的深度图像进行两次下采样得到48×48和24×24大小的深度图像;
步骤212:分别对每个尺度的输入深度图像进行特征提取,其中,大尺寸的输入图像使用堆叠的3×3的卷积核提取特征,并用4×4的最大池化层进行特征的降采样,中等尺寸的输入图像经过堆叠的3×3的卷积层提取特征,之后使用2×2的最大池化层对特征图进行降采样,小尺寸的输入图像直接经过一层3×3的卷积层;
步骤213:将三种尺寸的深度图像得到的浅层特征进行级联融合,作为所述全局深度特征提取模块的输入。
8.根据权利要求4所述的基于RGBD融合网络的手部姿态估计方法,其特征在于,在步骤21全局深度特征提取模块和残差模块分别对深度图像和彩色图像进行特征提取之前还包括对深度图像和彩色图像进行预处理的步骤。
9.根据权利要求7所述的基于RGBD融合网络的手部姿态估计方法,其特征在于,所述步骤21中还包括使用手部关节的24×24大小的2D热图对全局深度特征提取模块进行中间监督,引导其关注手部关节点周围的特征,以保证检测精度的步骤。
CN201910448208.2A 2019-05-27 2019-05-27 一种基于rgbd融合网络的手部姿态估计系统及方法 Active CN110175566B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910448208.2A CN110175566B (zh) 2019-05-27 2019-05-27 一种基于rgbd融合网络的手部姿态估计系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910448208.2A CN110175566B (zh) 2019-05-27 2019-05-27 一种基于rgbd融合网络的手部姿态估计系统及方法

Publications (2)

Publication Number Publication Date
CN110175566A CN110175566A (zh) 2019-08-27
CN110175566B true CN110175566B (zh) 2022-12-23

Family

ID=67696154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910448208.2A Active CN110175566B (zh) 2019-05-27 2019-05-27 一种基于rgbd融合网络的手部姿态估计系统及方法

Country Status (1)

Country Link
CN (1) CN110175566B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825899B (zh) * 2019-09-18 2023-06-20 武汉纺织大学 融合颜色特征和残差网络深度特征的服装图像检索方法
WO2021098441A1 (zh) * 2019-11-20 2021-05-27 Oppo广东移动通信有限公司 手部姿态估计方法、装置、设备以及计算机存储介质
CN112861586B (zh) * 2019-11-27 2022-12-13 马上消费金融股份有限公司 活体检测、图像分类和模型训练方法、装置、设备及介质
CN111079616B (zh) * 2019-12-10 2022-03-04 西安电子科技大学 基于神经网络的单人运动姿态矫正方法
CN111241936A (zh) * 2019-12-31 2020-06-05 浙江工业大学 一种基于深度和彩色图像特征融合的人体姿态估计方法
CN111242173B (zh) * 2019-12-31 2021-03-02 四川大学 一种基于孪生网络的rgbd显著物体检测方法
CN111428555B (zh) * 2020-01-17 2022-09-20 大连理工大学 一种分关节的手部姿态估计方法
CN111325166B (zh) * 2020-02-26 2023-07-07 南京工业大学 基于投影重构和多输入多输出神经网络的坐姿识别方法
CN111428719B (zh) * 2020-04-02 2021-04-06 广州科博锐视科技有限公司 一种物体姿态估计方法、装置及电子设备和存储介质
CN111617479B (zh) * 2020-04-13 2021-12-24 上海交通大学 游戏人工智能系统的加速方法及系统
CN111583134B (zh) * 2020-04-20 2022-08-12 清华大学 带标注的手与物体复杂交互真实彩色数据生成方法及装置
CN113627220A (zh) * 2020-05-09 2021-11-09 上海汽车集团股份有限公司 一种电动尾门的开启控制方法及装置
CN111723841A (zh) * 2020-05-09 2020-09-29 北京捷通华声科技股份有限公司 文本检测方法、装置、电子设备及存储介质
CN112258447B (zh) * 2020-09-14 2023-12-22 北京航空航天大学 基于多种染色病理图像的诊断信息评估方法及系统
CN112232173B (zh) * 2020-10-12 2023-04-07 济南博观智能科技有限公司 一种行人属性识别方法、深度学习模型、设备及介质
CN112364738A (zh) * 2020-10-30 2021-02-12 深圳点猫科技有限公司 基于深度学习的人体姿态估计方法、装置、系统及介质
CN112329726B (zh) * 2020-11-27 2023-01-13 合肥的卢深视科技有限公司 人脸识别方法及装置
CN112488049B (zh) * 2020-12-16 2021-08-24 哈尔滨市科佳通用机电股份有限公司 一种动车组牵引电机及轴间夹挂异物的故障识别方法
CN112686201B (zh) * 2021-01-11 2022-09-30 大连理工大学 基于双目rgb图像的手部深度及姿态估计方法
CN113221626B (zh) * 2021-03-04 2023-10-20 北京联合大学 一种基于Non-local高分辨率网络的人体姿态估计方法
CN113221726A (zh) * 2021-05-08 2021-08-06 天津大学 一种基于视觉与惯性信息融合的手部姿态估计方法及系统
CN115511968B (zh) * 2022-11-21 2023-02-28 珠海亿智电子科技有限公司 一种二维手部姿态估计方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389539A (zh) * 2015-10-15 2016-03-09 电子科技大学 一种基于深度数据的三维手势姿态估计方法及系统
CN107463873A (zh) * 2017-06-30 2017-12-12 长安大学 一种基于rgbd深度传感器的实时手势分析与评价方法与系统
CN107833253A (zh) * 2017-09-22 2018-03-23 北京航空航天大学青岛研究院 一种面向rgbd三维重建纹理生成的相机姿态优化方法
CN109684969A (zh) * 2018-12-18 2019-04-26 上海科技大学 凝视位置估计方法、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389539A (zh) * 2015-10-15 2016-03-09 电子科技大学 一种基于深度数据的三维手势姿态估计方法及系统
CN107463873A (zh) * 2017-06-30 2017-12-12 长安大学 一种基于rgbd深度传感器的实时手势分析与评价方法与系统
CN107833253A (zh) * 2017-09-22 2018-03-23 北京航空航天大学青岛研究院 一种面向rgbd三维重建纹理生成的相机姿态优化方法
CN109684969A (zh) * 2018-12-18 2019-04-26 上海科技大学 凝视位置估计方法、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《基于融合特征的人体动作识别》;陈甜甜等;《计算机工程与设计》;20190515;第40卷(第5期);1394-1400 *
融合IMU的RGBD-SLAM算法改进研究;闵华松等;《计算机工程与设计》;20150116(第01期);120-126 *

Also Published As

Publication number Publication date
CN110175566A (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
CN110175566B (zh) 一种基于rgbd融合网络的手部姿态估计系统及方法
CN110135375B (zh) 基于全局信息整合的多人姿态估计方法
CN108491880B (zh) 基于神经网络的物体分类和位姿估计方法
CN105869178B (zh) 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法
CN110222580B (zh) 一种基于三维点云的人手三维姿态估计方法和装置
Rad et al. Domain transfer for 3d pose estimation from color images without manual annotations
CN110852182B (zh) 一种基于三维空间时序建模的深度视频人体行为识别方法
CN110263912A (zh) 一种基于多目标关联深度推理的图像问答方法
CN107705322A (zh) 运动目标识别跟踪方法和系统
CN112784736B (zh) 一种多模态特征融合的人物交互行为识别方法
CN111062328B (zh) 一种图像处理方法、装置及智能机器人
CN108764019A (zh) 一种基于多源深度学习的视频事件检测方法
CN110210426B (zh) 基于注意力机制从单幅彩色图像进行手部姿态估计的方法
Dibra et al. Monocular RGB hand pose inference from unsupervised refinable nets
Xu et al. Robust hand gesture recognition based on RGB-D Data for natural human–computer interaction
CN117522990B (zh) 基于多头注意力机制和迭代细化的类别级位姿估计方法
Nguyen et al. Combined YOLOv5 and HRNet for high accuracy 2D keypoint and human pose estimation
CN112861808A (zh) 动态手势识别方法、装置、计算机设备及可读存储介质
CN116311518A (zh) 一种基于人体交互意图信息的层级人物交互检测方法
CN105955473A (zh) 一种基于计算机的静态手势图像识别交互系统
Barioni et al. Human pose tracking from rgb inputs
CN117036658A (zh) 一种图像处理方法及相关设备
Dong et al. An improved deep neural network method for an athlete's human motion posture recognition
Cheng et al. Joint graph convolution networks and transformer for human pose estimation in sports technique analysis
Zhang et al. Object detection based on deep learning and b-spline level set in color images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant