CN117611675B - 一种三维人体姿态估计方法、装置、存储介质和设备 - Google Patents

一种三维人体姿态估计方法、装置、存储介质和设备 Download PDF

Info

Publication number
CN117611675B
CN117611675B CN202410086058.6A CN202410086058A CN117611675B CN 117611675 B CN117611675 B CN 117611675B CN 202410086058 A CN202410086058 A CN 202410086058A CN 117611675 B CN117611675 B CN 117611675B
Authority
CN
China
Prior art keywords
module
convolution
channel
interaction
mlp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410086058.6A
Other languages
English (en)
Other versions
CN117611675A (zh
Inventor
李军侠
单小伍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202410086058.6A priority Critical patent/CN117611675B/zh
Publication of CN117611675A publication Critical patent/CN117611675A/zh
Application granted granted Critical
Publication of CN117611675B publication Critical patent/CN117611675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种三维人体姿态估计方法、装置、存储介质和设备,属于人体姿态估计技术领域,包括获取图像;提取图像中的2D姿态特征;将2D姿态特征输入到训练好的三维人体姿态估计模型中得到三维人体姿态;三维人体姿态估计模型在GraphMLP的基础上进行改进:两个图卷积层堆叠作为上分支,在图卷积层之前加入层归一化;将关节交互模块和全局语义增强模块连接作为下分支,引入局部区域重排模块以和空间MLP并联,然后连接关节交互卷积模块;以U型通道MLP代替通道MLP,轴向平移模块和U型通道MLP并联,然后连接通道交互卷积模块;上分支和下分支并联后组成双分支结构,模型包括多个双分支结构;本发明能够提高估计精度。

Description

一种三维人体姿态估计方法、装置、存储介质和设备
技术领域
本发明涉及一种三维人体姿态估计方法、装置、存储介质和设备,属于人体姿态估计技术领域。
背景技术
单目三维人体姿态估计旨在从单视图图像中恢复身体关节的三维位置,是一项具有挑战性的任务,也是计算机视觉中研究的热点。三维人体姿态估计在许多领域具有广泛的应用,比如增强/虚拟现实、人机交互和动作识别等。近年来,Transformer被广泛的运用到三维人体姿态估计,能够很好捕捉身体关节间的全局关系,显示出了有希望的进展。然而,基于Transformer的模型通常伴随着较高的计算成本,因为自注意力机制的复杂性随着输入序列长度的增加呈二次方级别增长。
与此同时,多层感知器模型获得了显著的进展,特别是MLP-Mixer模型,该模型仅由全连接层组成,不包含自注意力机制,其核心由空间MLP(Spatial MLP)和通道MLP(Channel MLP)两个模块组成。空间MLP用于捕获令牌之间的全局信息,而通道MLP则负责提取每个通道中令牌的特征。结合这两个模块不仅能够在视觉特征学习任务中表现出色,而且具有简洁且较少归纳偏差的优点。GraphMLP是一种类图MLP结构,它将MLP-Mixer模型与图卷积相结合,进一步提高了其应用的灵活性和性能。
尽管GraphMLP在三维姿态估计领域是一项有前景的研究探索,它将MLP和图卷积融合到一个全局与局部图形一体架构中,以用于3D人体姿态估计,但同时也存在以下限制:
(1)利用原始图卷积(GCN)来提取局部信息的能力有待进一步改进。
(2)空间MLP在提取关节的全局信息时并未充分考虑运动学约束,这方面需要进一步优化。同时,通道MLP模块在提取丰富的全局语义信息方面也有进一步的潜力可挖掘。
综上所述,现有技术中对三维人体姿态估计的精确度仍有待提高。
发明内容
本发明的目的在于提供一种三维人体姿态估计方法、装置、存储介质和设备,解决现有技术中存在的精确度低的问题。
为实现以上目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种三维人体姿态估计方法,包括:
获取图像;
提取所述图像中的2D姿态特征;
将所述2D姿态特征输入到训练好的三维人体姿态估计模型中,得到三维人体姿态;
其中,所述三维人体姿态估计模型在GraphMLP的基础上进行改进,包括:
将两个图卷积层堆叠作为上分支,在每个图卷积层之前加一个层归一化;
将关节交互模块和全局语义增强模块连接作为下分支,在关节交互模块中引入局部区域重排模块以和空间MLP并联,然后连接关节交互卷积模块;在全局语义增强模块中引入轴向平移模块和通道交互卷积模块,以U型通道MLP代替通道MLP,轴向平移模块和U型通道MLP并联,然后连接通道交互卷积模块;
一个上分支和一个下分支并联后组成一个双分支结构,所述三维人体姿态估计模型包括多个双分支结构。
结合第一方面,所述关节交互模块的表达式为:
其中,是第m个关节交互模块的输出,/>是第m个关节交互卷积模块的输入,表示关节交互卷积模块,/>表示归一化,/>是第m个关节交互模块的输入,/>表示转置,/>表示卷积模块,/>表示空间MLP,/>表示局部区域重排模块。
结合第一方面,进一步的,在所述局部区域重排模块中,先沿着关节维度将输入的特征划分为多个区域特征,在重排时,沿着通道维度连接区域特征中的所有标记,得到重新排列的区域特征,然后将区域特征送到两个连续的FC模块中,沿最后维度混合区域特征中的信息得到混合区域特征,将混合区域特征输入到恢复模块恢复到与输入的特征形状相同的原始形状,得到输出的特征。
结合第一方面,所述关节交互卷积模块包括两个并联的1D卷积层和一个1D卷积,两个1D卷积层并联后连接1D卷积;
所述1D卷积层包括依次连接的1D卷积、激活函数和Dropout层;
所述两个1D卷积层的卷积核大小分别为1和3,在1D卷积层并联后连接的1D卷积的卷积核大小为3;
所述通道交互卷积模块的结构和所述关节交互卷积模块的结构相同。
结合第一方面,所述全局语义增强模块的表达式为:
其中,是第m个通道交互卷积模块的输入, />是第m个全局语义增强模块的输出,/>表示通道交互卷积模块,/>表示轴向平移模块,表示U型通道MLP。
结合第一方面,在所述轴向平移模块中,输入特征在通道维度执行层归一化,包括:
利用通道投影将输入特征映射为线性层的输入特征,然后利用水平偏移和垂直偏移在映射后输入特征所在的特征空间中对输入特征进行平移操作。
结合第一方面,所述U型通道MLP包括三个依次连接的全连接层,第一个全连接层用于减小输入特征的通道,第二个全连接层用于维持输入特征的通道不变,第三个全连接层用于扩展输入特征的通道。
第二方面,本发明还提供了一种三维人体姿态估计装置,包括:
图像获取模块,被配置为:获取图像;
特征提取模块,被配置为:提取所述图像中的2D姿态特征;
三维人体姿态估计模块,被配置为:将所述2D姿态特征输入到训练好的三维人体姿态估计模型中,得到三维人体姿态;
所述三维人体姿态估计模型在GraphMLP的基础上进行改进,包括:
将两个图卷积层堆叠作为上分支,在每个图卷积层之前加一个层归一化;
将关节交互模块和全局语义增强模块连接作为下分支,在关节交互模块中引入局部区域重排模块以和空间MLP并联,然后连接关节交互卷积模块;在全局语义增强模块中引入轴向平移模块和通道交互卷积模块,以U型通道MLP代替通道MLP,轴向平移模块和U型通道MLP并联,然后连接通道交互卷积模块;
一个上分支和一个下分支并联后组成一个双分支结构,所述三维人体姿态估计模型包括多个双分支结构。
第三方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如第一方面中任一项所述的三维人体姿态估计方法。
第四方面,本发明还提供了一种设备,包括:
存储器,用于存储指令;
处理器,用于执行所述指令,使得所述设备执行实现如第一方面中任一项所述的三维人体姿态估计方法的操作。
与现有技术相比,本发明所达到的有益效果是:
本发明提供的一种三维人体姿态估计方法、装置、存储介质和设备,通过堆叠的图卷积增强了人体骨架图的拓扑特征表示,以局部区域重排模块和轴向平移模块分别和空间MLP与U型通道MLP结合,形成全局-局部信息交互,局部区域重排和轴向平移增强了局部信息的提取能力,关节交互卷积模块编码运动学约束,解决空间MLP运动学约束不足的问题,通过U型通道MLP和通道交互卷积模块提升对全局语义信息的提取能力;综上所述,本发明改进的三维人体姿态估计模型性能得到了极大的提升,从而提高三维人体姿态估计的精确度。
附图说明
图1是本发明实施例提供的一种三维人体姿态估计方法的流程图;
图2是本发明实施例提供的三维人体姿态估计模型的示意图;
图3是本发明实施例提供的局部区域重排模块的示意图;
图4是本发明实施例提供的关节/通道交互卷积模块的示意图;
图5是本发明实施例提供的轴向平移模块的示意图;
图6是本发明实施例提供的U型通道MLP的示意图;
图7是本发明实施例提供的Human3.6M数据集多个背景演员姿势的可视化对比示意图,其中,(a)是背景演员做动作directions时,采用本发明方法得到的可视化结果与对应的地面真实值(GT)可视化效果的对比;(b)是背景演员做动作directions(相对于(a)中动作,此时的动作是从不同的角度获取的)时,采用本发明方法得到的可视化结果与对应的地面真实值(GT)可视化效果的对比;(c)是背景演员做动作posing时,采用本发明方法得到的可视化结果与对应的地面真实值(GT)可视化效果的对比;(d)是背景演员做动作photo时,采用本发明方法得到的可视化结果与对应的地面真实值(GT)可视化效果的对比。
具体实施方式
下面结合附图对本发明作进一步描述,以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
如图1所示,本发明提供了一种三维人体姿态估计方法,包括以下步骤:
S1、获取图像。
S2、提取所述图像中的2D姿态特征。
本步骤中的2D姿态特征通过2D姿态估计器进行提取。
S3、将所述2D姿态特征输入到训练好的三维人体姿态估计模型中,得到三维人体姿态。
三维人体姿态估计模型是预先准备好的,准备过程包括以下步骤:
步骤1:数据准备。
本实施例使用Human3.6M数据集和MPI-INF-3DHP数据集。Human3.6M数据集由11个演员进行数据集录制,一共包含360万张图像,本发明选择5名受试者(S1,S5,S6,S7,S8)进行训练,并且选择2名受试者(S9,S11)进行测试,从输入数据可以分为两类,一类是使用CPN检测器提取的2D姿态作为输入,另外一类输入的数据是地面真实值。MPI-INF-3DHP是一个包含室内和复杂室外场景的大型更具挑战的三维人体姿势数据集。测试集有三个不同的场景:有绿屏的工作室(GS)、没有绿屏的演播室(noGS)和户外场景(outdoor)。
步骤2:模型搭建:搭建如图2所示的三维人体姿态估计模型。
2.1给定二维坐标,首先经过骨架嵌入将/>映射到高维/>,其中N是关节数,C是通道数。
2.2在模型上分支中,使用2个图卷积层的堆叠聚合相邻节点以获得加强的骨架图拓扑结构的特征表示。每个图卷积层之前加一个层归一化,为了方便表示,替换为,则此分支对于骨架嵌入的输入/>,最终输出/>可以表示为:,/>。其中,LN表示归一化操作,GCN表示图卷积层,/>表示对输入/>实施转置操作。
2.3在模型下分支的关节交互模块中,空间MLP聚合令牌之间的全局信息;为了增强局部信息的提取能力,引入了如图3所示的局部区域重排模块,以在空间上获取局部信息,具体来说,首先沿着关节维度将输入的特征划分为个区域,即 />,每个区域 />沿着关节维度H包含 />个记号,其中/>,在重排时,沿着第i个区域的输入特征 />,不同的令牌将通过区域内重新操作填充交换信息,即沿着通道维度连接/> 中的所有标记,得到重新排列的特征/>,接着将/>送到两个连续的FC模块中,沿最后维度混合信息并产生输出的特征/> ,输出的特征被恢复模块恢复到原始形状,被沿着最后维度分成了多个标记。为了解决GraphMLP中空间 MLP提取关节全局信息时缺乏足够的运动学约束的问题,引入了如图4所示的关节交互卷积模块,这一卷积操作是针对关节维度进行的,关节交互卷积模块主体由两个并联的1D卷积层和一个1D卷积组成,每个1D卷积层包含1D卷积(Conv)、激活函数(GELU)和Dropout层;输入的特征经过两个并联的1D卷积层后再经过一个卷积核大小为3的1D卷积。为了方便表示,第二个分支输入为/>,且/>,则关节交互模块的整体公式表示为:
其中,是第m个关节交互模块的输出,/>是第m个关节交互卷积模块的输入,表示关节交互卷积模块,/>表示归一化,/>是第m个关节交互模块的输入,/>表示转置,/>表示卷积模块,/>表示空间MLP,/>表示局部区域重排模块。
2.4在模型下分支的全局语义增强模块中,为了增强局部信息的提取能力,解决原始图卷积提取局部信息的不足,引入了如图5所示的轴向平移模块。在该模块中,输入特征在通道维度执行层归一化,不同于局部区域重排模块的归一化维度,轴向平移模块能实现更好的效果,它利用通道投影、水平偏移和垂直偏移来提取特征。通道投影将特征映射为线性层,而水平和垂直偏移则在特征空间上进行平移操作。以水平偏移为例,假设通道数为3,移位大小为3,输入特征被分成3部分,分别沿水平方向移动{-1,0,1}单位,同时进行零填充。垂直移位也执行类似的步骤。这两次平移引入了不同的特征单元,允许来自不同空间位置的信息充分交互。最后,通过通道投影操作,来自不同空间信息的有效组合,实现了更强大的局部信息提取;为了解决原始的通道MLP在提取丰富全局语义信息方面的局限性,引入了UchannelMLP(U型通道MLP,如图6所示)和通道交互卷积模块,以提升全局语义信息的提取能力。UchannelMLP模块具有沿通道维度的瓶颈结构,包含三个全连接层(FC),分别实现减小通道、维持原通道即保持特征不变和扩展通道;UchannelMLP通过向下投影和向上投影,旨在多个尺度上提取特征,从而有效地提取了更加丰富的语义信息。相对于原始的通道MLP,这种表示方式表现出更好的性能。其表达式可以表示为,其中/>表示输入,/>表示输出,/>表示向下投影,/>表示向下投影和向上投影之间的特征保持不变,/>表示向上投影。与此同时,通道交互卷积模块通过多个卷积操作在通道维度上组合输入信息,形成更高级别的全局语义特征表示。其结构类似于关节交互卷积模块 ,但通道交互卷积模块作用于通道维度。假设输出特征为/>,全局语义增强模块的整体表示为:
其中,是第m个通道交互卷积模块的输入, />是第m个全局语义增强模块的输出,/>表示通道交互卷积模块,/>表示轴向平移模块,表示U型通道MLP。
2.5所提出的模型主体由M=3个双分支结构组成的层堆叠而成。
2.6最后,聚合双分支的模块输出,并使用线性层作为预测头来生成最终三维坐标
步骤3:模型训练及测试
3.1设置模型训练超参数,将C设置512,空间MLP的MLP维度设置为256,多尺度通道MLP维度设置为512,批量设置为256,采用Adam优化器,初始学习率从0.0001开始,每个时期的衰减因子为0.95,训练的epoch设置为20,使用通用数据扩充,即水平翻转扩充。
3.2对模型进行训练,在Human3.6M数据集上采用级联金字塔CPN检测到的2D关节和地面真实值作为输入实行20轮训练,将文件保存到指定文件夹中,对于以CPN检测到的关节作为输入训练得到的文件执行第二阶段训练,添加refine模块,依然实行20轮训练,并将得到的文件保存到指定文件中。
3.3模型测试,将训练生成的文件使用Human3.6M测试集进行测试,为了验证模型泛化能力,直接使用Human3.6M数据集上训练生成的文件放到MPI-INF-3DHP测试集上进行测试。
下面通过数据对本文提出的方法与方法1~方法16进行比较,方法1~方法16分别是以下期刊或论文提到的方法:1、J. Martinez, R. Hossain, J. Romero, and J. J.Little, “A simple yet effective baseline for 3D human pose estimation,” inICCV, 2017, pp.2640–2649. 1, 3, 5, 6, 7, 8, 11(一种简单而有效的3D人体姿势估计基准);2、H.-S. Fang, Y. Xu, W. Wang, X. Liu, and S.-C. Zhu, “Learning posegrammar to encode human body configuration for 3D pose estimation,”in AAAI,vol. 32, no. 1, 2018. 6(学习姿势语法以编码人体配置用于3D姿势估计);3、W. Yang,W. Ouyang, X. Wang, J. Ren, H. Li, and X. Wang, “3D human pose estimation inthe wild by adversarial learning,” in CVPR, 2018, pp.5255–5264. 6(通过对抗学习实现野外环境下的3D人体姿势估计);4、H. Ci, C. Wang, X. Ma, and Y. Wang,“Optimizing network structure for 3D human pose estimation,” in ICCV, 2019,pp. 2262–2271. 1, 3, 5,6, 7(用于3D人体姿势估计的优化网络结构);5、K. Liu, R.Ding, Z. Zou, L. Wang, and W. Tang, “A comprehensive study of weight sharingin graph networks for 3D human pose estimation,” inECCV, 2020, pp. 318–334.2, 6, 7(一项关于图网络中权重共享在3D人体姿势估计中的综合研究);6、NiloofarAzizi, Horst Possegger, Emanuele Rodolà, and Horst Bischof,“3D Human PoseEstimation Using Möbius Graph Convolutional Networks,”2022(使用莫比乌斯图卷积网络进行3D人体姿势估计);7、T. Xu and W. Takano, “Graph stacked hourglassnetworks for 3D human pose estimation,” in CVPR, 2021, pp. 16 105–16 114. 2,5, 6, 7(用于3D人体姿势估计的图堆叠沙漏网络);8、W. Zhao, W. Wang, and Y. Tian,“Graformer: Graph-oriented transformer for 3D pose estimation,” in CVPR,2022, pp. 20 438–20 447. 6, 7(Graformer:用于3D姿势估计的图导向变压器);9、D.Pavllo, C. Feichtenhofer, D. Grangier, and M. Auli, “3D human pose estimationin video with temporal convolutions and semi-supervised training,” in CVPR,2019, pp. 7753–7762. 2, 3, 5, 6, 7, 8(使用时序卷积和半监督训练进行视频中的3D人体姿势估计);10、Y. Cai, L. Ge, J. Liu, J. Cai, T.-J. Cham, J. Yuan, and N.M. Thalmann, “Exploiting spatial-temporal relationships for 3D poseestimation via graph convolutional networks,” in ICCV, 2019, pp. 2272–2281.1, 2, 4,5, 6, 7, 8, 12, 15(通过图卷积网络利用时空关系进行3D姿势估计);11、Sebastian Lutz, Richard Blythman, Koustav Ghosal, Matthew Moynihan, CiaranSimms, Aljosa Smolic, “Jointformer: Single-Frame Lifting Transformer withError Prediction and Refinement for 3D Human Pose Estimation,” in ICPR, 2022(Jointformer: 带有误差预测和细化的单帧提升变换器用于3D人体姿势估计);12、A.Zeng, X. Sun, F. Huang, M. Liu, Q. Xu, and S. Lin, “SRNet: Improvinggeneralization in 3D human pose estimation with a split-and-recombineapproach,” in ECCV, 2020, pp. 507–523. 6, 7(SRNet: 通过分割与重组方法提高3D人体姿势估计的泛化能力);13、Z. Zou and W. Tang, “Modulated graph convolutionalnetwork for 3D human pose estimation,” in ICCV, 2021, pp. 11 477–11 487. 2,3, 5, 6,7, 12, 15(用于3D人体姿势估计的调制图卷积网络);14、Md. Tanvir Hassan,A. Ben Hamza, “Regular Splitting Graph Network for 3D Human Pose Estimation,”IEEE Transactions on Image Processing, 2023(用于3D人体姿势估计的正则分割图网络);15、L. Zhao, X. Peng, Y. Tian, M. Kapadia, and D. N. Metaxas, “Semanticgraph convolutional networks for 3D human pose regression,” in CVPR,2019, pp.3425–3435. 1, 3, 6(用于3D人体姿势回归的语义图卷积网络);16、D. Mehta, H.Rhodin, D. Casas, P. Fua, O. Sotnychenko, W. Xu, and C. Theobalt, “Monocular3D human pose estimation in the wild using improved CNN supervision,” in 3DV,2017, pp. 506–516. 2, 3, 5, 7(在野外使用改进的CNN监督进行单目3D人体姿势估计)。
MPJPE(Mean Per Joint Position Error,平均(每)关节位置误差)和PA-MPJPE(Procrustes Analysis MPJPE,先进行刚性变换后再计算的MPJPE)在Human3.6M数据集上的定量比较如下表1所示。除了方法6(使用堆叠沙漏HG,标记为*),其他方法均使用CPN检测到的2D关键点作为输入,而§表示采用了细化模块。最佳结果以粗体显示。表1和表2中Dir、Disc、Eat、Greet、Phone、Photo、Pose、Purch、Sit、SitD、Smoke、Wait、WalkD、Walk、WalkT分别代表动作演员做的多个动作:交通指示、讨论、进食、问候、打电话、拍照、摆姿势、购物、坐着、坐下、吸烟、等待、遛狗、行走;而Avg表示多个动作测试指标的平均值。
表1-MPJPE和PA-MPJPE在Human3.6M数据集上的定量比较数据表
在Human3.6M数据集上,针对MPJPE进行了定量比较,结果如下表2所示。使用了地面真实2D关键点作为输入。最佳结果以粗体显示。
表2-MPJPE在Human3.6M数据集上的定量比较数据表
在MPI-INF-3HP数据集上进行的定量比较中,结果如下表3所示,本申请将最佳结果以粗体显示。
表3-MPJPE在MPI-INF-3HP数据集上的定量比较数据表
本申请提出的方法在模型中引入多种改进措施,提高了对姿态预测的能力与准确性。第一,局部区域重排和轴向平移能够更好地捕捉关节之间的局部依赖关系,有助于准确解析各个关节之间的相对位置、角度和连接方式。第二,相比于原始的通道MLP,采用U型MLP能够捕获人体关节的多尺度信息,从而更好地应对人体姿势的复杂性和多样性。第三,关节交互卷积可以编码人体运动约束,形成更加合理的人体姿态。第四,通道交互卷积有助于提取更加丰富的全局语义信息,促进形成更高级别的特征表示,进而有助于获得更精确的三维人体姿态估计结果。第五,引入图卷积目的为增强对人体骨架图的拓扑特征表达,能够更全面的考虑人体骨架图的拓扑特征,包括关节点和关节连接,从而更准确地捕捉人体姿势的复杂性和相关性,提高姿态估计任务的性能和鲁棒性。综上所述,本申请提出的方法不仅在估计精度上有所提升,同时具有较好的泛化能力。
Human3.6M数据集多个背景演员姿势的可视化如图7所示。
综上所述,本发明提出了基于关节交互与全局语义增强的三维人体姿态估计模型,这是一个引入人体骨骼图拓扑结构、结合全局与局部信息同时加强局部信息提取能力、编码运动学约束和提取全局丰富语义信息的统一架构,建立多个模块之间的强有力合作,在三维人体姿态估计上取得了优越的性能。我们的方法在Human3.6M数据集单帧比较中,无论是使用CPN检测到的数据,还是ground true(地面真实值)数据作为输入,MPJPE和PA-MPJPE都达到很低的值,包括使用refine模块,MPJPE实现更低值,证明了模型的强大性能,在MPI-INF3DHP测试集上测试时,GS(绿屏工作室) 、noGS(非绿屏演播室)、Outdoor(户外场景)、 All PCK(正确关键点百分比)和All AUC(PCK阈值下的曲线下面积) 有很高的提升,表明我们模型在看不见场景强大泛化能力。
实施例2
基于实施例1所述的一种三维人体姿态估计方法,本发明实施例还提供了一种三维人体姿态估计装置,包括:
图像获取模块,被配置为:获取图像;
特征提取模块,被配置为:提取所述图像中的2D姿态特征;
三维人体姿态估计模块,被配置为:将所述2D姿态特征输入到训练好的三维人体姿态估计模型中,得到三维人体姿态;
所述三维人体姿态估计模型在GraphMLP的基础上进行改进,包括:
将两个图卷积层堆叠作为上分支,在每个图卷积层之前加一个层归一化;
将关节交互模块和全局语义增强模块连接作为下分支,在关节交互模块中引入局部区域重排模块以和空间MLP并联,然后连接关节交互卷积模块;在全局语义增强模块中引入轴向平移模块和通道交互卷积模块,以U型通道MLP代替通道MLP,轴向平移模块和U型通道MLP并联,然后连接通道交互卷积模块;
一个上分支和一个下分支并联后组成一个双分支结构,所述三维人体姿态估计模型包括多个双分支结构。
实施例3
本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如实施例1提供的三维人体姿态估计方法:
获取图像;
提取所述图像中的2D姿态特征;
将所述2D姿态特征输入到训练好的三维人体姿态估计模型中,得到三维人体姿态;
所述三维人体姿态估计模型在GraphMLP的基础上进行改进,包括:
将两个图卷积层堆叠作为上分支,在每个图卷积层之前加一个层归一化;
将关节交互模块和全局语义增强模块连接作为下分支,在关节交互模块中引入局部区域重排模块以和空间MLP并联,然后连接关节交互卷积模块;在全局语义增强模块中引入轴向平移模块和通道交互卷积模块,以U型通道MLP代替通道MLP,轴向平移模块和U型通道MLP并联,然后连接通道交互卷积模块;
一个上分支和一个下分支并联后组成一个双分支结构,所述三维人体姿态估计模型包括多个双分支结构。
实施例4
本发明提供了一种设备,包括:
存储器,用于存储指令;
处理器,用于执行所述指令,使得所述设备执行实现如实施例1提供的三维人体姿态估计方法的操作:
获取图像;
提取所述图像中的2D姿态特征;
将所述2D姿态特征输入到训练好的三维人体姿态估计模型中,得到三维人体姿态;
所述三维人体姿态估计模型在GraphMLP的基础上进行改进,包括:
将两个图卷积层堆叠作为上分支,在每个图卷积层之前加一个层归一化;
将关节交互模块和全局语义增强模块连接作为下分支,在关节交互模块中引入局部区域重排模块以和空间MLP并联,然后连接关节交互卷积模块;在全局语义增强模块中引入轴向平移模块和通道交互卷积模块,以U型通道MLP代替通道MLP,轴向平移模块和U型通道MLP并联,然后连接通道交互卷积模块;
一个上分支和一个下分支并联后组成一个双分支结构,所述三维人体姿态估计模型包括多个双分支结构。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (8)

1.一种三维人体姿态估计方法,其特征在于,包括:
获取图像;
提取所述图像中的2D姿态特征;
将所述2D姿态特征输入到训练好的三维人体姿态估计模型中,得到三维人体姿态;
其中,所述三维人体姿态估计模型在GraphMLP的基础上进行改进,包括:
将两个图卷积层堆叠作为上分支,在每个图卷积层之前加一个层归一化;
将关节交互模块和全局语义增强模块连接作为下分支,在关节交互模块中引入局部区域重排模块以和空间MLP并联,然后连接关节交互卷积模块;在全局语义增强模块中引入轴向平移模块和通道交互卷积模块,以U型通道MLP代替通道MLP,轴向平移模块和U型通道MLP并联,然后连接通道交互卷积模块;
一个上分支和一个下分支并联后组成一个双分支结构,所述三维人体姿态估计模型包括多个双分支结构;
所述关节交互模块的表达式为:
其中,是第m个关节交互模块的输出,/>是第m个关节交互卷积模块的输入,表示关节交互卷积模块,/>表示归一化,/>是第m个关节交互模块的输入,/>表示转置,/>表示卷积模块,/>表示空间MLP,表示局部区域重排模块;
所述全局语义增强模块的表达式为:
其中,是第m个通道交互卷积模块的输入, />是第m个全局语义增强模块的输出,表示通道交互卷积模块,/>表示轴向平移模块,/>表示U型通道MLP。
2.根据权利要求1所述的三维人体姿态估计方法,其特征在于,在所述局部区域重排模块中,先沿着关节维度将输入的特征划分为多个区域特征,在重排时,沿着通道维度连接区域特征中的所有标记,得到重新排列的区域特征,然后将区域特征送到两个连续的FC模块中,沿最后维度混合区域特征中的信息得到混合区域特征,将混合区域特征输入到恢复模块恢复到与输入的特征形状相同的原始形状,得到输出的特征。
3.根据权利要求1所述的三维人体姿态估计方法,其特征在于,所述关节交互卷积模块包括两个并联的1D卷积层和一个1D卷积,两个1D卷积层并联后连接1D卷积;
所述1D卷积层包括依次连接的1D卷积、激活函数和Dropout层;
所述两个1D卷积层的卷积核大小分别为1和3,在1D卷积层并联后连接的1D卷积的卷积核大小为3;
所述通道交互卷积模块的结构和所述关节交互卷积模块的结构相同。
4.根据权利要求1所述的三维人体姿态估计方法,其特征在于,在所述轴向平移模块中,输入特征在通道维度执行层归一化,包括:
利用通道投影将输入特征映射为线性层的输入特征,然后利用水平偏移和垂直偏移在映射后输入特征所在的特征空间中对输入特征进行平移操作。
5.根据权利要求1所述的三维人体姿态估计方法,其特征在于,所述U型通道MLP包括三个依次连接的全连接层,第一个全连接层用于减小输入特征的通道,第二个全连接层用于维持输入特征的通道不变,第三个全连接层用于扩展输入特征的通道。
6.一种三维人体姿态估计装置,其特征在于,包括:
图像获取模块,被配置为:获取图像;
特征提取模块,被配置为:提取所述图像中的2D姿态特征;
三维人体姿态估计模块,被配置为:将所述2D姿态特征输入到训练好的三维人体姿态估计模型中,得到三维人体姿态;
所述三维人体姿态估计模型在GraphMLP的基础上进行改进,包括:
将两个图卷积层堆叠作为上分支,在每个图卷积层之前加一个层归一化;
将关节交互模块和全局语义增强模块连接作为下分支,在关节交互模块中引入局部区域重排模块以和空间MLP并联,然后连接关节交互卷积模块;在全局语义增强模块中引入轴向平移模块和通道交互卷积模块,以U型通道MLP代替通道MLP,轴向平移模块和U型通道MLP并联,然后连接通道交互卷积模块;
一个上分支和一个下分支并联后组成一个双分支结构,所述三维人体姿态估计模型包括多个双分支结构;
所述关节交互模块的表达式为:
其中,是第m个关节交互模块的输出,/>是第m个关节交互卷积模块的输入,表示关节交互卷积模块,/>表示归一化,/>是第m个关节交互模块的输入,/>表示转置,/>表示卷积模块,/>表示空间MLP,表示局部区域重排模块;
所述全局语义增强模块的表达式为:
其中,是第m个通道交互卷积模块的输入, />是第m个全局语义增强模块的输出,表示通道交互卷积模块,/>表示轴向平移模块,/>表示U型通道MLP。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现如权利要求1-5中任一项所述的三维人体姿态估计方法。
8.一种电子设备,其特征在于,包括:
存储器,用于存储指令;
处理器,用于执行所述指令,使得所述电子设备执行实现如权利要求1-5中任一项所述的三维人体姿态估计方法的操作。
CN202410086058.6A 2024-01-22 2024-01-22 一种三维人体姿态估计方法、装置、存储介质和设备 Active CN117611675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410086058.6A CN117611675B (zh) 2024-01-22 2024-01-22 一种三维人体姿态估计方法、装置、存储介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410086058.6A CN117611675B (zh) 2024-01-22 2024-01-22 一种三维人体姿态估计方法、装置、存储介质和设备

Publications (2)

Publication Number Publication Date
CN117611675A CN117611675A (zh) 2024-02-27
CN117611675B true CN117611675B (zh) 2024-04-16

Family

ID=89944710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410086058.6A Active CN117611675B (zh) 2024-01-22 2024-01-22 一种三维人体姿态估计方法、装置、存储介质和设备

Country Status (1)

Country Link
CN (1) CN117611675B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699847A (zh) * 2021-01-15 2021-04-23 苏州大学 基于深度学习的人脸特征点检测方法
CN113095106A (zh) * 2019-12-23 2021-07-09 华为数字技术(苏州)有限公司 一种人体姿态估计方法、装置
CN113537393A (zh) * 2021-08-09 2021-10-22 南通大学 一种基于改进Transformer的黑暗场景三维人体姿态估计算法
CN115546888A (zh) * 2022-09-06 2022-12-30 华南理工大学 一种基于身体部位分组的对称语义图卷积姿态估计方法
CN115661858A (zh) * 2022-10-12 2023-01-31 重庆邮电大学 一种基于局部特征与全局表征耦合的2d人体姿态估计方法
CN115908497A (zh) * 2022-12-07 2023-04-04 北京大学深圳研究生院 一种基于人体拓扑感知网络的三维人体姿态估计方法及系统
CN116030498A (zh) * 2023-01-17 2023-04-28 东华大学 面向虚拟服装走秀的三维人体姿态估计方法
CN116030537A (zh) * 2023-03-28 2023-04-28 山东科技大学 基于多分支注意力图卷积的三维人体姿态估计方法
CN116129051A (zh) * 2023-02-07 2023-05-16 北京大学深圳研究生院 一种基于图和注意力交织的三维人体姿态估计方法及系统
KR20230081378A (ko) * 2021-11-30 2023-06-07 광운대학교 산학협력단 3차원 휴먼 자세 추정을 위한 단시점 모델의 다시점 준지도 학습 시스템

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095106A (zh) * 2019-12-23 2021-07-09 华为数字技术(苏州)有限公司 一种人体姿态估计方法、装置
CN112699847A (zh) * 2021-01-15 2021-04-23 苏州大学 基于深度学习的人脸特征点检测方法
CN113537393A (zh) * 2021-08-09 2021-10-22 南通大学 一种基于改进Transformer的黑暗场景三维人体姿态估计算法
KR20230081378A (ko) * 2021-11-30 2023-06-07 광운대학교 산학협력단 3차원 휴먼 자세 추정을 위한 단시점 모델의 다시점 준지도 학습 시스템
CN115546888A (zh) * 2022-09-06 2022-12-30 华南理工大学 一种基于身体部位分组的对称语义图卷积姿态估计方法
CN115661858A (zh) * 2022-10-12 2023-01-31 重庆邮电大学 一种基于局部特征与全局表征耦合的2d人体姿态估计方法
CN115908497A (zh) * 2022-12-07 2023-04-04 北京大学深圳研究生院 一种基于人体拓扑感知网络的三维人体姿态估计方法及系统
CN116030498A (zh) * 2023-01-17 2023-04-28 东华大学 面向虚拟服装走秀的三维人体姿态估计方法
CN116129051A (zh) * 2023-02-07 2023-05-16 北京大学深圳研究生院 一种基于图和注意力交织的三维人体姿态估计方法及系统
CN116030537A (zh) * 2023-03-28 2023-04-28 山东科技大学 基于多分支注意力图卷积的三维人体姿态估计方法

Also Published As

Publication number Publication date
CN117611675A (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
Song et al. Channel attention based iterative residual learning for depth map super-resolution
WO2021098261A1 (zh) 一种目标检测方法与装置
CN112653899B (zh) 一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN110110812B (zh) 一种用于视频动作识别的串流深度网络模型构建方法
CN115358932B (zh) 一种多尺度特征融合的人脸超分辨率重构方法及系统
Li et al. GraphMLP: A graph MLP-like architecture for 3D human pose estimation
CN109389621B (zh) 基于多模式深度特征融合的rgb-d目标跟踪方法
CN111415318A (zh) 基于拼图任务的无监督相关滤波目标跟踪方法及系统
CN112906675B (zh) 一种固定场景中的无监督人体关键点检测方法及系统
Tian et al. Smdt: Cross-view geo-localization with image alignment and transformer
CN117611675B (zh) 一种三维人体姿态估计方法、装置、存储介质和设备
CN116129051A (zh) 一种基于图和注意力交织的三维人体姿态估计方法及系统
CN116152926A (zh) 基于视觉和骨架信息融合的手语识别方法、装置及系统
CN116110121A (zh) 基于特征压缩的轻量化行为识别方法及系统
CN115908497A (zh) 一种基于人体拓扑感知网络的三维人体姿态估计方法及系统
CN113554655B (zh) 基于多特征增强的光学遥感图像分割方法及装置
CN113343786B (zh) 基于深度学习的轻量化视频动作识别方法及系统
CN115222959A (zh) 一种轻量化卷积网络与Transformer相结合的人体关键点检测方法
CN110853040B (zh) 一种基于超分辨率重建的图像协同分割方法
Kang et al. Lightweight Image Matting via Efficient Non-Local Guidance
Lin et al. Multi-view knowledge distillation transformer for human action recognition
CN110807789A (zh) 图像处理方法、模型、装置、电子设备及可读存储介质
Song et al. Context spatial awareness remote sensing image change detection network based on graph and convolution interaction
CN117474801B (zh) 一种融合时空频信息的非均匀遥感视频影像去雾方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant