CN115511968B - 一种二维手部姿态估计方法、装置、设备及存储介质 - Google Patents

一种二维手部姿态估计方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115511968B
CN115511968B CN202211451704.1A CN202211451704A CN115511968B CN 115511968 B CN115511968 B CN 115511968B CN 202211451704 A CN202211451704 A CN 202211451704A CN 115511968 B CN115511968 B CN 115511968B
Authority
CN
China
Prior art keywords
feature map
output
extraction unit
input
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211451704.1A
Other languages
English (en)
Other versions
CN115511968A (zh
Inventor
殷绪成
黄智勇
陈松路
刘琦
张崇建
陈�峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Eeasy Electronic Tech Co ltd
Original Assignee
Zhuhai Eeasy Electronic Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Eeasy Electronic Tech Co ltd filed Critical Zhuhai Eeasy Electronic Tech Co ltd
Priority to CN202211451704.1A priority Critical patent/CN115511968B/zh
Publication of CN115511968A publication Critical patent/CN115511968A/zh
Application granted granted Critical
Publication of CN115511968B publication Critical patent/CN115511968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明适用计算机技术领域,提供了一种二维手部姿态估计方法、装置、设备及存储介质,该方法包括:对输入的二维手部图像进行下采样和浅层特征提取,得到二维手部图像对应的浅层特征图;对浅层特征图进行多尺度的深层特征提取,得到多尺度深度特征图;对多尺度深度特征图进行上采样和特征融合,得到二维手部图像对应的结构特征图;根据结构特征图生成关键点高斯热图,根据关键点高斯热图获取二维手部关键点坐标,以实现二维手部的姿态估计,从而实现了二维手部姿态的准确估计。

Description

一种二维手部姿态估计方法、装置、设备及存储介质
技术领域
本发明属于人工智能技术领域,尤其涉及一种二维手部姿态估计方法、装置、设备及存储介质。
背景技术
二维手部姿态估计在手势识别、人机交互、三维重建、虚拟现实和增强现实等场景中具有广泛的应用。计算机视觉领域中的二维手部姿态估计方法以RGB手部图片作为输入,以手部21个关键点在图片上的坐标作为输出。传统手部姿态估计方法需要对人手的显著特点进行特征工程,如纹理、肤色、轮廓等特征。但是这些手工特征的泛化能力差、在干扰和变化多样的实际场景中检测效果较差,因此只适用于简单场景。
基于深度学习技术的手部姿态估计方法在泛化能力和识别精度上都取得了更好的表现,因此近年来的姿态估计方法大多都是基于深度学习技术。Sun等人 (Ke Sun, BinXiao, Dong Liu, et al. Deep High-Resolution Representation Learning for HumanPose Estimation[C]. Conference on Computer Vision and Pattern Recognition,2019:5693-5703)提出了高分辨率网络(High-Resolution Net,简写为HRNet),Yu等人(Changqian Yu, Bin Xiao, Changxin Gao, et al. Lite-HRNet: A Lightweight High-Resolution Network[C]. Conference on Computer Vision and Pattern Recognition,2021:10440-10450.)对HRNet进行了轻量化设计,在确保模型性能不会大幅度下降的前提下,有效地降低了模型的参数量和计算复杂度,然而该模型实际运行速度太慢,不能满足实时计算的需求。在高质量特征提取模块的设计上面,Li等人( Juncheng Li, Faming Fang,Kangfu Mei, et al. Multi-scale Residual Network for Image Super-Resolution[C]. European Conference on Computer Vision, 2018:527-542)提出了一种多尺度残差模块(MSRB,Multi-Scale Residual Block),通过使用并行卷积核大小不同的卷积神经网络来有效地提取多尺度特征,但这种做法会大大增加模型的计算成本。近年来,通道注意力模块由于其轻量且有效的特性,开始应用于轻量化网络中。其中,Woo等人(SanghyunWoo, Jongchan Park, et al. CBAM: Convolutional Block Attention Module[C].European Conference on Computer Vision, 2018:3-19)提出了一种通道注意力模块,可以嵌入已有的姿态估计网络中,以用于增强网络的特征,其原理就是通过空间和通道注意力让网络自动生成权重值来决定不同通道特征的重要程度,但其使用全局平均池化和全局最大池化的操作,会丢失大量的空间信息,而不利于网络产生准确的权重值。
发明内容
本发明的目的在于提供一种二维手部姿态估计方法、装置、设备及存储介质,旨在解决由于现有技术无法提供一种有效的二维手部姿态估计方法,导致二维手部姿态估计不准确的问题。
一方面,本发明提供了一种二维手部姿态估计方法,所述方法包括下述步骤:
对输入的二维手部图像进行下采样和浅层特征提取,得到所述二维手部图像对应的浅层特征图;
对所述浅层特征图进行多尺度的深层特征提取,得到多尺度深度特征图;
对所述多尺度深度特征图进行上采样和特征融合,得到所述二维手部图像对应的结构特征图;
根据所述结构特征图生成关键点高斯热图,根据所述关键点高斯热图获取二维手部关键点坐标,以实现二维手部的姿态估计。
另一方面,本发明提供了一种二维手部姿态估计装置,所述装置包括:
第一特征提取单元,用于对输入的二维手部图像进行下采样和浅层特征提取,得到所述二维手部图像对应的浅层特征图;
第二特征提取单元,用于对所述浅层特征图进行多尺度的深层特征提取,得到多尺度深度特征图;
第三特征提取单元,用于对所述多尺度深度特征图进行上采样和特征融合,得到所述二维手部图像对应的结构特征图;以及
姿态估计单元,用于根据所述结构特征图生成关键点高斯热图,根据所述关键点高斯热图获取二维手部关键点坐标,以实现二维手部的姿态估计。
另一方面,本发明还提供了一种图像处理设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
本发明通过对输入的二维手部图像进行下采样和浅层特征提取,得到二维手部图像对应的浅层特征图,对浅层特征图进行多尺度的深层特征提取,得到多尺度深度特征图,对多尺度深度特征图进行上采样和特征融合,得到二维手部图像对应的结构特征图,根据结构特征图生成关键点高斯热图,最后根据关键点高斯热图获取二维手部关键点坐标,从而实现了二维手部姿态的准确估计。
附图说明
图1是本发明实施例一提供的二维手部姿态估计方法的实现流程图;
图2A是本发明实施例二提供的二维手部姿态估计方法的实现流程图;
图2B是本发明实施例二提供的前处理网络的结构示意图;
图2C是本发明实施例二提供的第一多感受野特征提取模块的结构示意图;
图2D是本发明实施例二提供的第一通道注意力模块的结构示意图;
图2E是本发明实施例二提供的卷积神经网络模型的结构示意图;
图2F是本发明实施例二提供的本发明实施例与对照网络模型的识别效果示例图;
图3是本发明实施例三提供的二维手部姿态估计装置的结构示意图;以及
图4是本发明实施例四提供的图像处理设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的二维手部姿态估计方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,对输入的二维手部图像进行下采样和浅层特征提取,得到二维手部图像对应的浅层特征图;
本发明实施例适用于图像处理设备,具体地,适用于二维手部姿态估计或识别的图像处理设备,以对输入的二维手部图像中的手部进行姿态估计或识别。在接收到二维手部图像后,对图像进行下采样和浅层特征提取,得到二维手部图像对应的、丰富的浅层特征图。具体地,可通过卷积神经网络对二维手部图像进行下采样,并增加二维手部图像的通道维度。
在步骤S102中,对浅层特征图进行多尺度的深层特征提取,得到多尺度深度特征图;
在本发明实施例中,对浅层特征图进行多尺度的深层特征提取,得到不同尺度的深度特征图。优选地,在对浅层特征图进行多尺度的深层特征提取时,按照高分辨率到低分辨率的特征提取方式依次提取,以得到分辨率逐次降低的、对应的多尺度深层特征图,从而提高后续对不同大小手部的识别准确率。具体地,可通过多个卷积神经网络对浅层特征图进行多尺度的深层特征提取,得到多尺度深度特征图。
在步骤S103中,对多尺度深度特征图进行上采样和特征融合,得到二维手部图像对应的结构特征图;
在本发明实施例中,对多尺度深度特征图进行上采样和特征融合,得到语义信息更加丰富的、二维手部图像对应的结构特征图。优选地,分步对多尺度深度特征图进行上采样和特征融合,从而进一步丰富了得到的结构特征图的语义信息。具体地,对步骤S102得到的最小尺度深度特征图进行上采样后,将上采样得到的特征图与步骤S102得到的另一尺度的深度特征图进行特征融合,融合结果作为下一步的上采样对象,如此迭代最终完成对多尺度深度特征图的上采样和特征融合,从而采用一个由低分辨率到高分辨率特征提取方式,还原得到后续关键点高斯热图所需的分辨率。在具体实施中,可通过多个卷积神经网络对多尺度深度特征图进行上采样和特征融合,得到二维手部图像对应的结构特征图。
在步骤S104中,根据结构特征图生成关键点高斯热图,根据关键点高斯热图获取二维手部关键点坐标,以实现二维手部的姿态估计。
在本发明实施例中,根据结构特征图生成关键点高斯热图,根据关键点高斯热图获取二维手部关键点坐标,以实现二维手部的姿态估计。优选地,在根据结构特征图生成关键点高斯热图时,通过对结构特征图的通道进行降维(例如,将128通道降为21通道),得到与关键点个数相等的通道数,一个通道对应一个关键点高斯热图,从而得到结构特征图对应的关键点高斯热图,从而在减少计算量的同时,更加有效、直观地得到关键点高斯热图。之后,根据关键点高斯热图获取二维手部关键点坐标,具体地,获取每个关键点高斯热图中得分最高的点的坐标,经过缩放后得到原图上的关键点二维坐标,从而得到二维手部关键点坐标,以实现二维手部的姿态估计。
在本发明实施例中,通过对输入的二维手部图像进行下采样和浅层特征提取,得到二维手部图像对应的浅层特征图,对浅层特征图进行多尺度的深层特征提取,得到多尺度深度特征图,对多尺度深度特征图进行上采样和特征融合,得到二维手部图像对应的结构特征图,根据结构特征图生成关键点高斯热图,最后根据关键点高斯热图获取二维手部关键点坐标,从而实现了二维手部姿态的准确估计。
实施例二:
图2A示出了本发明实施例二提供的二维手部姿态估计方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S201中,通过前处理网络对输入的二维手部图像进行下采样和浅层特征提取,得到二维手部图像对应的浅层特征图;
在本发明实施例中,通过前处理网络对图像进行下采样和浅层特征提取,得到二维手部图像对应的浅层特征图。优选地,该前处理网络包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第一深度卷积层以及第一最大池化层,第一卷积层的输入为二维手部图像,第一卷积层的输出经批归一化(Batch Normalization,缩写为BN)和激活函数处理后作为第一深度卷积层的输入,第一深度卷积层的输出经批归一化和激活函数处理后作为第二卷积层和第一最大池化层的输入,第二卷积层的输出经批归一化和激活函数处理后作为第三卷积层的输入,第三卷积层的输出经批归一化和激活函数处理后和第一最大池化层的输出作级联,级联结果作为第四卷积层的输入,第四卷积层的输出作为前处理网络的输出。这样,通过该前处理网络可以从二维手部图像得到丰富的浅层特征图,提高了后续二维手部识别的准确率。
如图2B所示,在前处理网络的一具体实施例中,第一卷积层的卷积核为3×3,步长(stride)为2,第一卷积层将输入图像从3通道变为32通道,每个通道的特征图大小分辨率减半,经过批归一化和激活函数(LeakReLU)处理后作为第一深度卷积层的输入,第一深度卷积层(卷积核为3×3,分组数等于输入输出通道数,且都为32)的输出经批归一化和激活函数(LeakReLU)处理后作为第二卷积层(卷积核为1×1)和第一最大池化层(卷积核为2×2,步长为2)的输入,第二卷积层的输出经批归一化和激活函数(ReLU)处理后作为第三卷积层(卷积核为3×3,步长为2)的输入,第三卷积层的输出经批归一化和激活函数(ReLU)处理后和第一最大池化层的输出作级联(concatenation),级联结果(32*2个通道)作为第四卷积层(卷积核为1×1)的输入,第四卷积层的输出作为前处理网络的输出(此时,特征图由64通道升维到128通道)。通过该前处理网络可以对二维手部图像的宽高进行4倍下采样,同时将通道维度从3维提高到128维,从而可以从二维手部图像得到丰富的浅层特征图,提高了后续二维手部识别的准确率。
在步骤S202中,通过编码器对浅层特征图进行多尺度的深层特征提取,得到多尺度深度特征图;
在本发明实施例中,通过编码器对浅层特征图进行多尺度的深层特征提取,得到多尺度深度特征图。该编码器包括第一特征图提取单元、第二特征图提取单元、第三特征图提取单元以及第四特征图提取单元,第一特征图提取单元的输入为浅层特征图,第二特征图提取单元的输入为第一特征图提取单元的输出,第三特征图提取单元的输入为第二特征图提取单元的输出,第四特征图提取单元的输入为第三特征图提取单元的输出,且从第一特征图提取单元到第四特征图提取单元,各单元的输入图像的分辨率不断降低,从而提高了对不同大小手部的识别准确率。
进一步地,第一特征图提取单元用于从浅层特征图中提取感受野不同的图像特征,并对提取的图像特征进行筛选,该第一特征图提取单元包括第一多感受野特征提取模块以及第一通道注意力模块。其中,第一多感受野特征提取模块包括第五卷积层、第六卷积层、第一深度可分离卷积模块、第二深度可分离卷积模块、第三深度可分离卷积模块以及第四深度可分离卷积模块,其中,第五卷积层的输入为浅层特征图,第五卷积层的输出作为第一深度可分离卷积模块和第二深度可分离卷积模块的输入,第一深度可分离卷积模块和第二深度可分离卷积模块的级联结果作为第三深度可分离卷积模块和第四深度可分离卷积模块的输入,第三深度可分离卷积模块和第四深度可分离卷积模块的级联结果与所述第五卷积层的输出进行相加操作后得到相加结果,该相加结果经批归一化和激活函数处理后作为第六卷积层的输入,第六卷积层的输出作为第一多感受野特征提取模块的输出。第一通道注意力模块包括自适应平均池化层、第二深度卷积层以及全连接层,自适应平均池化层的输入为第一多感受野特征提取模块的输出,自适应平均池化层的输出经批归一化和激活函数处理后作为第二深度卷积层的输入,第二深度卷积层的输出作为全连接层的输入,全连接层的输出和第一多感受野特征提取模块的输出作乘法操作后作为第一通道注意力模块的输出。这样,在输入的高分辨率特征图上使用第一特征图提取单元提取高质量的深层结构特征,同时可有效降低处理高分辨率特征图时的浮点运算量。
如图2C所示,在第一多感受野特征提取模块的一具体实施例中,第五卷积层(卷积核为1×1)的输入为浅层特征图(经批归一化和激活函数(SiLU)处理后),第五卷积层的输出作为第一深度可分离卷积模块(DPBlock,空洞系数dilation为1)和第二深度可分离卷积模块(DPBlock,空洞系数dilation为2)的输入,第一深度可分离卷积模块和第二深度可分离卷积模块的级联结果作为第三深度可分离卷积模块(DPBlock,空洞系数为1)和第四深度可分离卷积模块(DPBlock,空洞系数为2)的输入,第三深度可分离卷积模块和第四深度可分离卷积模块的级联结果与第五卷积层的输出进行相加(add)操作后得到相加结果,该相加结果经批归一化和激活函数(SiLU)处理后作为第六卷积层(卷积核为1×1)的输入,第六卷积层的输出作为第一多感受野特征提取模块的输出。这样,在第一多感受野特征提取模块的输入和输出使用1×1卷积来对特征图通道数进行降维和升维,从而减少了模块的复杂度,另外,通过深度可分离卷积来降低模块的浮点运算量和参数量,同时使用空洞系数为2的深度可分离卷积来增加感受野的多样性,从而可使得第一多感受野特征提取模块能有效地提取丰富的多尺度特征。
如图2D所示,在第一通道注意力模块的一具体实施例中,自适应平均池化层(Adaptive AvgPool2d)的输入为第一多感受野特征提取模块的输出,自适应平均池化层的输出经批归一化和激活函数(ReLU)处理后作为第二深度卷积层(DWconv,卷积核为3×3)的输入,第二深度卷积层的输出作为全连接层(FC)的输入,全连接层的输出和第一多感受野特征提取模块的输出作乘法操作后作为第一通道注意力模块的输出。这样,通过第一通道注意力模块对第一多感受野特征提取模块提取的特征图的各个通道特征乘以不同大小权重,对于结构特征(如纹理、轮廓特征)质量低的特征通道赋予低权重,而对于结构特征质量高的特征通道赋予高权重,从而有效地筛选出高质量的结构特征。
在一具体实施例中,第二特征图提取单元、第三特征图提取单元以及第四特征图提取单元可由ResNet网络中的一个基础模块(Basic Block)和两个瓶颈模块(Bottleneck)组成,以用于提取不同尺度的特征。
在步骤S203中,通过解码器对多尺度深度特征图进行上采样和特征融合,得到二维手部图像对应的结构特征图;
在本发明实施例中,通过解码器对多尺度深度特征图进行上采样和特征融合,得到语义信息更加丰富的、二维手部图像对应的结构特征图。该解码器包括第五特征图提取单元、第六特征图提取单元、第七特征图提取单元以及第八特征图提取单元,第五特征图提取单元的输入为第四特征图提取单元的输出,第六特征图提取单元的输入为第一特征图提取单元的输出经自适应池化后与第五特征图提取单元的输出的相加操作结果,第七特征图提取单元的输入为第六特征图提取单元的输出与第三特征图提取单元的输出的相加操作结果,第八特征图提取单元的输入为第七特征图提取单元的输出与第二特征图提取单元的输出的相加操作结果,第八特征图提取单元的输出和第一特征图提取单元的输出作加法操作后作为解码器的输出。这样,分步对多尺度深度特征图进行上采样和特征融合,进一步丰富了得到的结构特征图的语义信息。进一步地,第八特征图提取单元包括第二多感受野特征提取模块以及第二通道注意力模块,第二多感受野特征提取模块以及第二通道注意力模块的结构可参考第一多感受野特征提取模块以及第一通道注意力模块的描述,在此不再赘述。
在步骤S204中,根据结构特征图生成关键点高斯热图,根据关键点高斯热图获取二维手部关键点坐标,以实现二维手部的姿态估计。
在本发明实施例中,可使用一检测头生成关键点高斯热图,进而根据关键点高斯热图获取二维手部关键点坐标,以实现二维手部的姿态估计。具体地,检测头可由瓶颈模块(Bottleneck)和两个1×1卷积层组成,从而在减少计算量的同时,更加有效、直观地得到关键点高斯热图,进而根据关键点高斯热图获取二维手部关键点坐标,以实现二维手部的姿态估计。
在本发明实施例中,通过对输入的二维手部图像进行下采样和浅层特征提取,得到二维手部图像对应的浅层特征图,对浅层特征图进行多尺度的深层特征提取,得到多尺度深度特征图,对多尺度深度特征图进行上采样和特征融合,得到二维手部图像对应的结构特征图,根据结构特征图生成关键点高斯热图,最后根据关键点高斯热图获取二维手部关键点坐标,从而实现了二维手部姿态的准确估计。
作为示例地,图2E示出了本发明实施例的一具体卷积神经网络模型,该模型由前述的前处理网络、编码器、解码器以及检测头组成,各个部分的组成可参考前述描述,在此不再赘述。通过该模型对输入的二维手部图像进行下采样和浅层特征提取,得到二维手部图像对应的浅层特征图,进而对浅层特征图进行多尺度的深层特征提取,得到多尺度深度特征图,对多尺度深度特征图进行上采样和特征融合,得到二维手部图像对应的结构特征图,根据结构特征图生成关键点高斯热图,最后根据关键点高斯热图获取二维手部关键点坐标,从而实现了二维手部姿态的准确估计。该模型的实验效果可参考图2F,图中上半部分示出了本实施例和其它网络模型(如,Ground Truth,LiteHRNet30)在背光昏暗条件下的手部姿态估计或识别效果,下半部分示出了本实施例和其它网络模型在光亮条件下的手部姿态估计或识别效果,可以得出,本实施例在背光昏暗条件下也能保持与光亮条件下相同的识别效果,对光照和肤色变化具有较高的鲁棒性,而其他轻量级姿态估计模型在昏暗条件下的识别性能则出现不同程度的下降。
实施例三:
图3示出了本发明实施例三提供的二维手部姿态估计装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
第一特征提取单元31,用于对输入的二维手部图像进行下采样和浅层特征提取,得到二维手部图像对应的浅层特征图;
第二特征提取单元32,用于对浅层特征图进行多尺度的深层特征提取,得到多尺度深度特征图;
第三特征提取单元33,用于对多尺度深度特征图进行上采样和特征融合,得到二维手部图像对应的结构特征图;以及
姿态估计单元34,用于根据结构特征图生成关键点高斯热图,根据关键点高斯热图获取二维手部关键点坐标,以实现二维手部的姿态估计。
在本发明实施例中,二维手部姿态估计装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。各单元的具体实施方式可参考前述方法实施例的描述,在此不再赘述。
实施例四:
图4示出了本发明实施例四提供的图像处理设备的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
本发明实施例的图像处理设备4包括处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42。该处理器40执行计算机程序42时实现上述各个二维手部姿态估计方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,处理器40执行计算机程序42时实现上述装置实施例中各单元的功能,例如图3所示单元31至34的功能。
本发明实施例的图像处理设备4中处理器40执行计算机程序42时实现二维手部姿态估计方法时实现的步骤可参考前述方法实施例的描述,在此不再赘述。
实施例五:
在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述二维手部姿态估计方法实施例中的步骤,例如,图1所示的步骤S101至S104。或者,该计算机程序被处理器执行时实现上述装置实施例中各单元的功能,例如图3所示单元31至34的功能。
在本发明实施例中,通过对输入的二维手部图像进行下采样和浅层特征提取,得到二维手部图像对应的浅层特征图,对浅层特征图进行多尺度的深层特征提取,得到多尺度深度特征图,对多尺度深度特征图进行上采样和特征融合,得到二维手部图像对应的结构特征图,根据结构特征图生成关键点高斯热图,最后根据关键点高斯热图获取二维手部关键点坐标,从而实现了二维手部姿态的准确估计。
本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,ROM/RAM、磁盘、光盘、闪存等存储器。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种二维手部姿态估计方法,其特征在于,所述方法包括下述步骤:
对输入的二维手部图像进行下采样和浅层特征提取,得到所述二维手部图像对应的浅层特征图;
通过编码器对所述浅层特征图进行多尺度的深层特征提取,得到多尺度深度特征图,所述编码器包括第一特征图提取单元、第二特征图提取单元、第三特征图提取单元以及第四特征图提取单元,所述第一特征图提取单元的输入为所述浅层特征图,所述第二特征图提取单元的输入为所述第一特征图提取单元的输出,所述第三特征图提取单元的输入为所述第二特征图提取单元的输出,所述第四特征图提取单元的输入为所述第三特征图提取单元的输出,所述第一特征图提取单元用于从所述浅层特征图中提取感受野不同的图像特征,并对提取的图像特征进行筛选;所述第一特征图提取单元包括第一多感受野特征提取模块以及第一通道注意力模块,其中:所述第一多感受野特征提取模块包括第五卷积层、第六卷积层、第一深度可分离卷积模块、第二深度可分离卷积模块、第三深度可分离卷积模块以及第四深度可分离卷积模块,所述第五卷积层的输入为所述浅层特征图,所述第五卷积层的输出作为所述第一深度可分离卷积模块和第二深度可分离卷积模块的输入,所述第一深度可分离卷积模块和第二深度可分离卷积模块的级联结果作为所述第三深度可分离卷积模块和第四深度可分离卷积模块的输入,所述第三深度可分离卷积模块和第四深度可分离卷积模块的级联结果与所述第五卷积层的输出进行相加操作后得到相加结果,该相加结果经批归一化和激活函数处理后作为所述第六卷积层的输入,所述第六卷积层的输出作为所述第一多感受野特征提取模块的输出;所述第一通道注意力模块包括自适应平均池化层、第二深度卷积层以及全连接层,所述自适应平均池化层的输入为所述第一多感受野特征提取模块的输出,所述自适应平均池化层的输出经批归一化和激活函数处理后作为所述第二深度卷积层的输入,所述第二深度卷积层的输出作为所述全连接层的输入,所述全连接层的输出和所述第一多感受野特征提取模块的输出作乘法操作后作为所述第一通道注意力模块的输出;
对所述多尺度深度特征图进行上采样和特征融合,得到所述二维手部图像对应的结构特征图;
根据所述结构特征图生成关键点高斯热图,根据所述关键点高斯热图获取二维手部关键点坐标,以实现二维手部的姿态估计。
2.如权利要求1所述的方法,其特征在于,对输入的二维手部图像进行下采样和浅层特征提取的步骤,包括:
对所述二维手部图像进行下采样,并增加所述二维手部图像的通道维度。
3.如权利要求2所述的方法,其特征在于,通过前处理网络对所述二维手部图像进行下采样,并增加所述二维手部图像的通道维度;
所述前处理网络包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第一深度卷积层以及第一最大池化层,所述第一卷积层的输入为所述二维手部图像,所述第一卷积层的输出经批归一化和激活函数处理后作为所述第一深度卷积层的输入,所述第一深度卷积层的输出经批归一化和激活函数处理后作为所述第二卷积层和第一最大池化层的输入,所述第二卷积层的输出经批归一化和激活函数处理后作为所述第三卷积层的输入,所述第三卷积层的输出经批归一化和激活函数处理后和第一最大池化层的输出作级联,级联结果作为所述第四卷积层的输入,所述第四卷积层的输出作为所述前处理网络的输出。
4.如权利要求1所述的方法,其特征在于,通过解码器对所述多尺度深度特征图进行上采样和特征融合,所述解码器包括:
所述解码器包括第五特征图提取单元、第六特征图提取单元、第七特征图提取单元以及第八特征图提取单元,所述第五特征图提取单元的输入为所述第四特征图提取单元的输出,所述第六特征图提取单元的输入为所述第一特征图提取单元的输出经自适应池化后与所述第五特征图提取单元的输出的相加操作结果,所述第七特征图提取单元的输入为所述第六特征图提取单元的输出与所述第三特征图提取单元的输出的相加操作结果,所述第八特征图提取单元的输入为所述第七特征图提取单元的输出与所述第二特征图提取单元的输出的相加操作结果,所述第八特征图提取单元的输出和所述第一特征图提取单元的输出作加法操作后作为所述解码器的输出。
5.如权利要求4所述的方法,其特征在于,所述第八特征图提取单元包括第二多感受野特征提取模块以及第二通道注意力模块。
6.一种二维手部姿态估计装置,其特征在于,所述装置包括:
第一特征提取单元,用于对输入的二维手部图像进行下采样和浅层特征提取,得到所述二维手部图像对应的浅层特征图;
第二特征提取单元,用于通过编码器对所述浅层特征图进行多尺度的深层特征提取,得到多尺度深度特征图,所述编码器包括第一特征图提取单元、第二特征图提取单元、第三特征图提取单元以及第四特征图提取单元,所述第一特征图提取单元的输入为所述浅层特征图,所述第二特征图提取单元的输入为所述第一特征图提取单元的输出,所述第三特征图提取单元的输入为所述第二特征图提取单元的输出,所述第四特征图提取单元的输入为所述第三特征图提取单元的输出,所述第一特征图提取单元用于从所述浅层特征图中提取感受野不同的图像特征,并对提取的图像特征进行筛选;所述第一特征图提取单元包括第一多感受野特征提取模块以及第一通道注意力模块,其中:所述第一多感受野特征提取模块包括第五卷积层、第六卷积层、第一深度可分离卷积模块、第二深度可分离卷积模块、第三深度可分离卷积模块以及第四深度可分离卷积模块,所述第五卷积层的输入为所述浅层特征图,所述第五卷积层的输出作为所述第一深度可分离卷积模块和第二深度可分离卷积模块的输入,所述第一深度可分离卷积模块和第二深度可分离卷积模块的级联结果作为所述第三深度可分离卷积模块和第四深度可分离卷积模块的输入,所述第三深度可分离卷积模块和第四深度可分离卷积模块的级联结果与所述第五卷积层的输出进行相加操作后得到相加结果,该相加结果经批归一化和激活函数处理后作为所述第六卷积层的输入,所述第六卷积层的输出作为所述第一多感受野特征提取模块的输出;所述第一通道注意力模块包括自适应平均池化层、第二深度卷积层以及全连接层,所述自适应平均池化层的输入为所述第一多感受野特征提取模块的输出,所述自适应平均池化层的输出经批归一化和激活函数处理后作为所述第二深度卷积层的输入,所述第二深度卷积层的输出作为所述全连接层的输入,所述全连接层的输出和所述第一多感受野特征提取模块的输出作乘法操作后作为所述第一通道注意力模块的输出;
第三特征提取单元,用于对所述多尺度深度特征图进行上采样和特征融合,得到所述二维手部图像对应的结构特征图;以及
姿态估计单元,用于根据所述结构特征图生成关键点高斯热图,根据所述关键点高斯热图获取二维手部关键点坐标,以实现二维手部的姿态估计。
7.一种图像处理设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN202211451704.1A 2022-11-21 2022-11-21 一种二维手部姿态估计方法、装置、设备及存储介质 Active CN115511968B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211451704.1A CN115511968B (zh) 2022-11-21 2022-11-21 一种二维手部姿态估计方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211451704.1A CN115511968B (zh) 2022-11-21 2022-11-21 一种二维手部姿态估计方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115511968A CN115511968A (zh) 2022-12-23
CN115511968B true CN115511968B (zh) 2023-02-28

Family

ID=84513892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211451704.1A Active CN115511968B (zh) 2022-11-21 2022-11-21 一种二维手部姿态估计方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115511968B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135375A (zh) * 2019-05-20 2019-08-16 中国科学院宁波材料技术与工程研究所 基于全局信息整合的多人姿态估计方法
CN110175566A (zh) * 2019-05-27 2019-08-27 大连理工大学 一种基于rgbd融合网络的手部姿态估计系统及方法
CN112580721A (zh) * 2020-12-19 2021-03-30 北京联合大学 一种基于多分辨率特征融合的目标关键点检测方法
CN114529982A (zh) * 2022-01-14 2022-05-24 湖南大学 基于流式注意力的轻量级人体姿态估计方法及系统
CN114613016A (zh) * 2022-04-08 2022-06-10 浙江理工大学 基于Xception网络改进的手势图像特征提取方法
CN114694176A (zh) * 2022-03-08 2022-07-01 南京信息工程大学 一种基于深度学习的轻量级人体姿态估计方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674741B (zh) * 2019-09-24 2023-06-09 青岛海之晨工业装备有限公司 一种基于双通道特征融合的机器视觉中手势识别方法
US20220051437A1 (en) * 2020-08-17 2022-02-17 Northeastern University 3D Human Pose Estimation System
CN112183295A (zh) * 2020-09-23 2021-01-05 上海眼控科技股份有限公司 行人重识别方法、装置、计算机设备及存储介质
CN114067107B (zh) * 2022-01-13 2022-04-29 中国海洋大学 基于多粒度注意力的多尺度细粒度图像识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135375A (zh) * 2019-05-20 2019-08-16 中国科学院宁波材料技术与工程研究所 基于全局信息整合的多人姿态估计方法
CN110175566A (zh) * 2019-05-27 2019-08-27 大连理工大学 一种基于rgbd融合网络的手部姿态估计系统及方法
CN112580721A (zh) * 2020-12-19 2021-03-30 北京联合大学 一种基于多分辨率特征融合的目标关键点检测方法
CN114529982A (zh) * 2022-01-14 2022-05-24 湖南大学 基于流式注意力的轻量级人体姿态估计方法及系统
CN114694176A (zh) * 2022-03-08 2022-07-01 南京信息工程大学 一种基于深度学习的轻量级人体姿态估计方法
CN114613016A (zh) * 2022-04-08 2022-06-10 浙江理工大学 基于Xception网络改进的手势图像特征提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于热力图的手部姿态识别研究;欧攀等;《计算机应用研究》;20200630;第336-338页 *

Also Published As

Publication number Publication date
CN115511968A (zh) 2022-12-23

Similar Documents

Publication Publication Date Title
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN110473141B (zh) 图像处理方法、装置、存储介质及电子设备
CN111091130A (zh) 基于轻量级卷积神经网络的实时图像语义分割方法及系统
CN112163498B (zh) 前景引导和纹理聚焦的行人重识别模型建立方法及其应用
CN112836597B (zh) 基于级联并行卷积神经网络的多手姿态关键点估计方法
CN110060286B (zh) 一种单目深度估计方法
WO2021232771A1 (zh) 多任务的目标检测方法、装置、电子设备及存储介质
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN112489164A (zh) 基于改进深度可分离卷积神经网络的图像着色方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN113808008A (zh) 基于Transformer构建生成对抗网络实现妆容迁移的方法
CN114463492B (zh) 一种基于深度学习的自适应通道注意力三维重建方法
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
CN112163508A (zh) 一种基于真实场景的文字识别方法、系统及ocr终端
CN110929735A (zh) 一种基于多尺度特征注意机制的快速显著性检测方法
CN114882524A (zh) 一种基于全卷积神经网络的单目三维手势估计方法
CN111414988B (zh) 基于多尺度特征自适应融合网络的遥感影像超分辨率方法
CN113486894B (zh) 一种卫星图像特征部件语义分割方法
CN111914595A (zh) 一种基于彩色图像的人手三维姿态估计方法和装置
CN115511968B (zh) 一种二维手部姿态估计方法、装置、设备及存储介质
CN116977631A (zh) 一种基于DeepLabV3+的街景语义分割方法
CN116524180A (zh) 基于轻量级主干结构的戏曲舞台场景分割方法
CN115578436A (zh) 一种基于多级特征并行交互融合的单目深度预测方法
Huang et al. Single image super-resolution reconstruction of enhanced loss function with multi-gpu training
CN111489361B (zh) 基于孪生网络的深层特征聚合的实时视觉目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant