CN111027407B - 针对遮挡情况的彩色图像手部姿态估计方法 - Google Patents

针对遮挡情况的彩色图像手部姿态估计方法 Download PDF

Info

Publication number
CN111027407B
CN111027407B CN201911132726.XA CN201911132726A CN111027407B CN 111027407 B CN111027407 B CN 111027407B CN 201911132726 A CN201911132726 A CN 201911132726A CN 111027407 B CN111027407 B CN 111027407B
Authority
CN
China
Prior art keywords
key point
encoder
hand
color image
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911132726.XA
Other languages
English (en)
Other versions
CN111027407A (zh
Inventor
王雁刚
张宝文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201911132726.XA priority Critical patent/CN111027407B/zh
Publication of CN111027407A publication Critical patent/CN111027407A/zh
Application granted granted Critical
Publication of CN111027407B publication Critical patent/CN111027407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种针对遮挡情况的彩色图像手部姿态估计方法,包括:使用参数化模型生成手部姿;生成每个关键点对应的热图,并随机选取部分热图置零;将关键点热图输入关键点编码器中,得到卷积特征图并输入到关键点解码器,对关键点解码器输出监督;将数据集中的彩色图像输入图像编码器,并仅对可见关键点的位置进行标注和生成热图,不可见关键点的热图置零输入关键点编码器;使用关键点编码器的输出监督图像编码器的输出,将待测的彩色图像输入图像编码器,输出得到卷积特征图并输入到关键点解码器中,得到图像中手部关键点热图,使用NMS算法得到手部关键点位置。本发明可同时预测可见关键点与被遮挡关键点,可应用于需要检测手部关键位置的场合。

Description

针对遮挡情况的彩色图像手部姿态估计方法
技术领域
本发明涉及针对遮挡情况的彩色图像手部姿态估计方法,属于计算机视觉的技术领域。
背景技术
实时手部姿态估计估计是关节检测领域中的重要问题,它也是很多实际应用中的重要步骤,例如人机交互、虚拟现实、增强现实等。随着近些年来深度神经网络的发展,越来越多的研究者试图从彩色图像中估计手部姿态。即使这样,由于图像表现内容的歧义、手部自遮挡以及手部运动的灵活性,手部姿态估计问题仍然存在很多挑战。
到目前为止,手部姿态估计已经取得了很多的研究成果。由于被遮挡的关键点在数据集中难以标注,标注被遮挡手部关键点的数据集十分有限。对于部分手部关键点遮挡的情况,神经网络很难对遮挡的关键点位置进行预测。
发明内容
本发明所要解决的技术问题在于,在训练数据集仅标注可见关键点的情况下,训练出可以同时检测被遮挡和未遮挡手部关键点的神经网络,提供一种针对遮挡情况的彩色图像手部姿态估计方法。
本发明具体采用以下技术方案解决上述技术问题:
针对遮挡情况的彩色图像手部姿态估计方法,包括以下步骤:
步骤1、使用参数化模型生成手部姿态,以得到用于训练的二维手部关键点位置;
步骤2、根据二维手部关键点位置生成每个关键点对应的热图,并随机选取部分关键点对应的热图置零;
步骤3、将包含置零热图的所有关键点热图输入关键点编码器中,得到卷积特征图;
步骤4、将关键点编码器输出的卷积特征图输入到关键点解码器中,以使用关键点对应的热图对关键点解码器输出进行监督,迭代更新关键点编码器与关键点解码器的神经网络参数;
步骤5、将数据集中的彩色图像输入图像编码器,并仅对可见关键点的位置进行标注;
步骤6、将彩色图像标注的可见关键点标注生成热图,将彩色图像中不可见关键点的热图置零,一并输入关键点编码器,输出得到对应的高维空间特征图;
步骤7、使用关键点编码器输出的高维空间特征图监督图像编码器的输出,在图像编码器的输出与关键点编码器的输出之间计算损失,迭代更新图像编码器的神经网络参数;
步骤8、将待测的彩色图像输入步骤7经监督后的图像编码器,输出得到待测的彩色图像的卷积特征图;
步骤9、将待测的彩色图像的卷积特征图输入到关键点解码器中,解码得到待测的彩色图像中手部关键点的热图;
步骤10、对待测的彩色图像中手部关键点的热图使用非极大值抑制NMS算法,得到手部关键点位置。
进一步地,作为本发明的一种优选技术方案:所述步骤1中参数化模型使用MANO模型,通过在一定范围内随机对其形状参数与姿态参数赋值,从而随机生成手部姿态。
进一步地,作为本发明的一种优选技术方案:所述步骤7中使用L2损失作为计算损失函数,通过链式法则计算出神经网络中训练参数对于损失的梯度,并根据梯度对神经网络参数进行更新。
本发明采用上述技术方案,能产生如下技术效果:
本发明的针对遮挡情况的彩色图像手部姿态估计方法,本发明从彩色图像中预测手部二维关键点位置,可同时预测可见关键点与被遮挡关键点,可应用于需要检测手部关键的位置的场合;本发明设计网络结构为三部分:关键点编码器,关键点解码器,图像编码器。在训练网络时,将关键点编码器与关键点解码器连接,共同训练。并用关键点编码器输出的特征图监督图像编码器输出的特征图,从而训练图像编码器。在测试时将图像编码器的输出作为关键点解码器的输入,实现从待测的彩色图像预测关键点。测试时神经网络实现可见关键点与不可见关键点同时预测且不增加额外开销。
此外,对不可见关键点进行标注难度较大,本发明训练网络时使用的数据集不需要对不可见关键点进行标注,降低了对数据集的要求;本发明的使用环境不需要限制在实验室内,室外环境也可以直接使用。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明实施例一的神经网络训练流程图。
图2是本发明实施例一的神经网络测试流程图。
图3是本发明实施例一的神经网络结构示意图。
图4是本发明实施例一中手部关键点编号的示意图。
图5是本发明实施例一中训练所用数据集的示意图。
图6是本发明实施例一采集的手部图像示意图。
图7是本发明实施例一手部关键点检测效果的示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
如图1所示,为本发明实施例的神经网络训练流程图,图2为本发明实施例的神经网络测试流程图。图3为本发明实施例中神经网络的结构示意图。下面将详细解释流程图中的每个步骤。
本发明提出的一种针对遮挡情况的彩色图像手部姿态估计方法,基于的网络训练时整体结构如图3所示,包括的具体步骤如图1和2所示,具体如下:
步骤1、使用参数化模型生成手部姿态,以得到用于训练的二维手部关键点位置。
该步骤1中参数化模型使用了MANO模型,通过在一定范围内随机对其形状参数与姿态参数赋值,从而随机生成手部姿态。确定了参数后可以从MANO模型中读出手部关键点的三维空间位置,按照透视投影将关键点位置投影在二维图像中,并对二维图像上的关键点位置进行随机的平移和缩放,即得到用于训练的二维关键点位置。需要说明的是,此步骤并不局限于使用MANO模型,任何能够生成三维手部姿态并获取三维关键点位置方法,都可以被采用。
步骤2、根据二维手部关键点位置生成每个关键点对应的热图,并随机选取部分关键点对应的热图置零;热图置零后,对应的关键点位置对于神经网络来说是不可见的,也就相当于认为遮挡了关键点。
在关键点检测问题中,常用热图表示输入图像中关键点位置。此步骤通过根据每个关键点的位置生成对应的热图。本实施例中,手部存在21个关键点,如图4所示,因此热图的数量为21张。为了模仿真实数据中部分关键点不可见的情况,此步骤随机将部分关键点对应的热图像素值置为0。
步骤3、将包含置零热图的所有关键点热图输入关键点编码器中,得到卷积特征图。
该步骤中,关键点编码器对热图进行特征提取,得到卷积特征图。该卷积特征图可看作关键点编码器与关键点解码器组成的神经网络之中的隐变量,不对其进行监督。卷积特征图的尺度被设计为512×4×4。在本发明中,关键点编码器,图像编码器与关键点解码器均大量使用残差模块,该模块有利于增加神经网络的深度,提高网络检测的精度。
步骤4、将关键点编码器输出的卷积特征图输入到关键点解码器中,以使用关键点对应的热图对关键点解码器输出进行监督,迭代更新关键点编码器与关键点解码器的神经网络参数。
该步骤中,从关键点编码器输出的卷积特征图被送入关键点解码器中。使用关键点对应的热图对解码器的输出进行监督,所有用于监督的关键点热图均未被置零。使用L2损失作为损失函数。计算损失函数后,会对关键点编码器与关键点解码器的参数进行更新,从而使得关键点编码器与关键点解码器组成的网络可以将被置零的热图复原,该网络具有预测被遮挡关键点的能力。
本发明的步骤1到步骤4可看作对关键点编码器与关键点解码器组成的神经网络进行训练,网络的输入输出均为关键点热图。输入时,因部分关键点被遮挡所以对应热图置零,输出为预测的全部关键点热图,因此用于监督神经网络的热图无需置零。
步骤5、将数据集中的彩色图像输入图像编码器,并仅对可见关键点的位置进行标注。
为了得到检测彩色图像中手部关键点的网络,还需要训练图像编码器,编码器的输入为数据集中的彩色图像,如图5所示,每一张彩色图像都对应一组二维关键点位置。并仅对可见关键点的位置进行了标注。
步骤6、将彩色图像标注的可见关键点标注生成热图,将彩色图像中不可见关键点的热图置零,一并输入关键点编码器,输出得到对应的高维空间特征图。
步骤7、使用关键点编码器的输出的高维空间特征图监督图像编码器的输出,在图像编码器的输出与关键点编码器的输出之间计算损失,迭代更新图像编码器的神经网络参数;
本实施例中优选使用L2损失作为损失函数,通过链式法则计算出神经网络中训练参数对于损失的梯度,根据梯度对神经网络参数进行更新。
此步骤中,仅对图像编码器的参数进行更新,从而使图像编码器输出的卷积特征图与关键点编码器输出的高维空间特征图尽可能接近,实现特征图的共享。
步骤8、获取待测的彩色图像,如图6所示,将待测的彩色图像输入步骤7经监督后的图像编码器,输出得到待测的彩色图像的卷积特征图。
步骤9、将待测的彩色图像的卷积特征图输入到关键点解码器中,解码得到待测的彩色图像中手部关键点的热图。
若关键点编码器输出的卷积特征图输入至关键点解码器中,关键点解码器可以还原未遮挡的关键点并对遮挡的关键点进行预测。在训练阶段,图像编码器的输出特征图被关键点编码器的输出特征图监督,使二者的输出特征图尽可能一致,因此关键点解码器可以对图像编码器输出的特征图进行解码,从而得到待测的彩色图像中手部关键点的热图。
步骤10、对关键点解码器输出的待测的彩色图像中手部关键点的热图,使用非极大值抑制NMS算法即可得到手部关键点位置,获得的手部关键点检测结果如图7所示。
综上,本发明的方法,训练网络时使用的数据集不需要对不可见关键点进行标注,降低了对数据集的要求;在测试时将图像编码器的输出作为关键点解码器的输入,实现从彩色图像预测关键点。测试时神经网络实现可见关键点与不可见关键点同时预测且不增加额外开销;从彩色图像中预测手部二维关键点位置,可同时预测可见关键点与被遮挡关键点,可应用于需要检测手部关键的位置的场合。
本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (3)

1.针对遮挡情况的彩色图像手部姿态估计方法,其特征在于,包括以下步骤:
步骤1、使用参数化模型生成手部姿态,以得到用于训练的二维手部关键点位置;
步骤2、根据二维手部关键点位置生成每个关键点对应的热图,并随机选取部分关键点对应的热图置零;
步骤3、将包含置零热图的所有关键点热图输入关键点编码器中,得到卷积特征图;
步骤4、将关键点编码器输出的卷积特征图输入到关键点解码器中,以使用关键点对应的热图对关键点解码器输出进行监督,迭代更新关键点编码器与关键点解码器的神经网络参数;
步骤5、将数据集中的彩色图像输入图像编码器,并仅对可见关键点的位置进行标注;
步骤6、将彩色图像标注的可见关键点标注生成热图,将彩色图像中不可见关键点的热图置零,一并输入关键点编码器,输出得到对应的高维空间特征图;
步骤7、使用关键点编码器输出的高维空间特征图监督图像编码器的输出,在图像编码器的输出与关键点编码器的输出之间计算损失,迭代更新图像编码器的神经网络参数;
步骤8、将待测的彩色图像输入步骤7经监督后的图像编码器,输出得到待测的彩色图像的卷积特征图;
步骤9、将待测的彩色图像的卷积特征图输入到关键点解码器中,解码得到待测的彩色图像中手部关键点的热图;
步骤10、对待测的彩色图像中手部关键点的热图使用非极大值抑制NMS算法,得到手部关键点位置。
2.根据权利要求1所述针对遮挡情况的彩色图像手部姿态估计方法,其特征在于:所述步骤1中参数化模型使用MANO模型,通过在一定范围内随机对其形状参数与姿态参数赋值,从而随机生成手部姿态。
3.根据权利要求1所述针对遮挡情况的彩色图像手部姿态估计方法,其特征在于:所述步骤7中使用L2损失作为计算损失函数,通过链式法则计算出神经网络中训练参数对于损失的梯度,并根据梯度对神经网络参数进行更新。
CN201911132726.XA 2019-11-19 2019-11-19 针对遮挡情况的彩色图像手部姿态估计方法 Active CN111027407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911132726.XA CN111027407B (zh) 2019-11-19 2019-11-19 针对遮挡情况的彩色图像手部姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911132726.XA CN111027407B (zh) 2019-11-19 2019-11-19 针对遮挡情况的彩色图像手部姿态估计方法

Publications (2)

Publication Number Publication Date
CN111027407A CN111027407A (zh) 2020-04-17
CN111027407B true CN111027407B (zh) 2023-04-07

Family

ID=70200550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911132726.XA Active CN111027407B (zh) 2019-11-19 2019-11-19 针对遮挡情况的彩色图像手部姿态估计方法

Country Status (1)

Country Link
CN (1) CN111027407B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112336342B (zh) * 2020-10-29 2023-10-24 深圳市优必选科技股份有限公司 手部关键点检测方法、装置及终端设备
CN113449696B (zh) * 2021-08-27 2021-12-07 北京市商汤科技开发有限公司 一种姿态估计方法、装置、计算机设备以及存储介质
CN113686300A (zh) * 2021-09-08 2021-11-23 中电金融设备系统(深圳)有限公司 传送带物品姿态检测系统及方法
CN113888697A (zh) * 2021-09-28 2022-01-04 中国科学院软件研究所 一种双手交互状态下的三维重建方法
CN113837130B (zh) * 2021-09-29 2023-08-08 福州大学 一种人体手部骨架检测方法及系统
CN115984384B (zh) * 2023-03-20 2023-07-21 乐歌人体工学科技股份有限公司 一种基于面部姿态图像估计的桌面升降控制方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830150A (zh) * 2018-05-07 2018-11-16 山东师范大学 一种基于三维人体姿态估计方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830150A (zh) * 2018-05-07 2018-11-16 山东师范大学 一种基于三维人体姿态估计方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Qi Dang 等.Deep learning based 2D human pose estimation: A survey.《IEEE Tsinghua Science and Technology》.2019,第24卷(第6期),663 - 676. *
Yangang Wang 等.Mask-Pose Cascaded CNN for 2D Hand Pose Estimation From Single Color Image.《IEEE》.2018,3258 - 3268. *

Also Published As

Publication number Publication date
CN111027407A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
CN111027407B (zh) 针对遮挡情况的彩色图像手部姿态估计方法
CN111797753B (zh) 图像驱动模型的训练、图像生成方法、装置、设备及介质
KR102051889B1 (ko) 스마트 글래스에서 2d 데이터를 기반으로 3d 증강현실을 구현하는 방법 및 시스템
US10832478B2 (en) Method and system for virtual sensor data generation with depth ground truth annotation
Radkowski Object tracking with a range camera for augmented reality assembly assistance
Avola et al. A practical framework for the development of augmented reality applications by using ArUco markers
US10162737B2 (en) Emulating a user performing spatial gestures
Coleca et al. Self-organizing maps for hand and full body tracking
US20220392251A1 (en) Method and apparatus for generating object model, electronic device and storage medium
CN113409444A (zh) 三维重建方法、装置、电子设备及存储介质
CN113379885A (zh) 虚拟头发的处理方法及装置、可读存储介质及电子设备
KR102333768B1 (ko) 딥러닝 기반 손 인식 증강현실 상호 작용 장치 및 방법
US20240161391A1 (en) Relightable neural radiance field model
Li et al. Mobile augmented reality visualization and collaboration techniques for on-site finite element structural analysis
CN115994944A (zh) 三维关键点预测方法、训练方法及相关设备
Valentini Natural interface in augmented reality interactive simulations: This paper demonstrates that the use of a depth sensing camera that helps generate a three-dimensional scene and track user's motion could enhance the realism of the interactions between virtual and physical objects
CN114489341B (zh) 手势的确定方法和装置、电子设备和存储介质
EP3929866A2 (en) Inpainting method and apparatus for human image, and electronic device
CN115409951A (zh) 图像处理方法、装置、电子设备及存储介质
US11710039B2 (en) Systems and methods for training image detection systems for augmented and mixed reality applications
Coleca et al. Real-time skeleton tracking for embedded systems
KR101558094B1 (ko) 직관적인 핸드 모션에 기반한 멀티-모달 시스템 및 그 제어 방법
Chen et al. Differentiable Discrete Elastic Rods for Real-Time Modeling of Deformable Linear Objects
Vieira et al. DCF: Disparity computing framework for stereo vision systems
Fan et al. Geometry Calibration Control Method with 3D Sensors of Large Screen Interactive Projection Imaging System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant