CN112712019B - 一种基于图卷积网络的三维人体姿态估计方法 - Google Patents
一种基于图卷积网络的三维人体姿态估计方法 Download PDFInfo
- Publication number
- CN112712019B CN112712019B CN202011597190.1A CN202011597190A CN112712019B CN 112712019 B CN112712019 B CN 112712019B CN 202011597190 A CN202011597190 A CN 202011597190A CN 112712019 B CN112712019 B CN 112712019B
- Authority
- CN
- China
- Prior art keywords
- dimensional
- human body
- graph
- body posture
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/647—Three-dimensional objects by matching two-dimensional images to three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明提供一种基于图卷积网络的三维人体姿态估计方法。所述基于图卷积网络的三维人体姿态估计方法,包括以下步骤:S1:获取Human3.6M数据集的原始视频数据,将原始视频数据拆分为图片帧,提取每帧图片中的人体姿态数据,形成人体骨骼点二维和三维姿态数据;S2:将二维姿态定义为图其中v是K个节点的集合,ε是边;S3:基于图卷积网络,构建全局上下文‑语义图卷积网络模型,作为三维人体姿态估计模型f*。本发明提供的基于图卷积网络的三维人体姿态估计方法具有能实现二维人体姿态到三维人体姿态的映射,且能提高三维人体姿态回归的性能、减少网络参数使用的优点。
Description
技术领域
本发明涉及三维人体姿态技术领域,尤其涉及一种基于图卷积网络的三维人体姿态估计方法。
背景技术
现阶段,由于根据图像和视频进行三维人体姿态估计是计算机视觉中的经典问题,因此已广泛用于动画,游戏,动作识别,运动检测和人体跟踪中。三维人体姿态估计的任务是从图片或视频估计人体关节点的三维坐标,这本质上是一个回归问题,也就是将二维姿态“提升”为三维姿态的过程。
但是,在单一视图下二维姿态到三维姿态映射中固有的深层模糊性和不适定性使其成为一个难题。因为投影后,多个三维姿态可能对应于同一相机透视图中的同一二维姿态,尽管目前有提出一些方法来将二维姿态映射到三维空间,但是,在语义图卷积网络中,非本地层几乎为每个查询位置建模相同的上下文信息,并且,当使用非本地层时,整个网络将多使用约59.3%的参数。
因此,有必要提供一种新的基于图卷积网络的三维人体姿态估计方法解决上述技术问题。
发明内容
本发明解决的技术问题是提供一种能实现二维人体姿态到三维人体姿态的映射,且能提高三维人体姿态回归的性能、减少网络参数使用的基于图卷积网络的三维人体姿态估计方法。
为解决上述技术问题,本发明提供的基于图卷积网络的三维人体姿态估计方法,包括以下步骤:
S1:获取Human3.6M数据集的原始视频数据,将原始视频数据拆分为图片帧,提取每帧图片中的人体姿态数据,形成人体骨骼点二维和三维姿态数据;
S2:将二维姿态定义为图其中v是K个节点的集合,ε是边;
S3:基于图卷积网络,构建全局上下文-语义图卷积网络模型,作为三维人体姿态估计模型f*;
S4:Human3.6M数据集中的S1,S5,S6,S7,S8作为训练集,将处理好人体姿态数据输入全局上下文-语义图卷积网络中,使用预测值和地面真实关节位置yi的均方误差:作为损失函数进行训练,剩余的S9,S11则作为测试集进行测试,得到最后的三维人体姿态预测结果。
优选的,所述S3中f*的公式构成包括以下步骤:
A1:给定来自图像的二维姿态:输入
A2:估值出三维姿态:输出A3:得出最终公式:
优选的,所述A3公式中:xi是在已知的摄像机参数下获得的二维地面真实关节位置,或者是使用二维联合检测器获得的估计值。
优选的,所述S3中全局上下文-语义图卷积网络是由语义图卷积层和全局上下文层交错构建而成。
优选的,所述S3中基于图卷积网络构建全局上下文-语义图卷积网络模型的生成方法包括以下步骤:
B1:构建语义图卷积层,学习图的边中隐含的噪声节点的语义关系;
将二维姿态定义为图其中v是K个节点的集合,ε是边,给定第l个卷积之前的节点i的表示形式,/>通过以下操作获得后续卷积的输出:
X(l+1)=σ(WX(l)ρi(M⊙A))
其中,是参数矩阵,用于转换节点表示形式;ρi是非线性Softmax,在节点i的所有选择中对输入矩阵进行归一化;/>是加权矩阵;⊙是元素操作;A∈[0,1]K×K是/>的邻接矩阵,用作仅计算节点i在图中的相邻节点/>的权重掩码,将掩码矩阵应用到每个通道c,等式2扩展为:
其中||表示逐个通道级联,而是矩阵W的第c行;
B2:构建全局上下文层,捕获节点之间的全局和远程关系;
应用全局上下文卷积来捕获节点之间的全局和远程关系,将该操作定义为:
其中Wk,Wv1和Wv2表示线性变换矩阵,是经过高斯归一化的全局注意力权重。
与相关技术相比较,本发明提供的基于图卷积网络的三维人体姿态估计方法具有如下有益效果:
本发明提供一种基于图卷积网络的三维人体姿态估计方法,通过提出全局上下文-语义图卷积网络,其中的语义图卷积层和全局上下文层是交错的,这种体系结构捕获了节点间的局部和全局语义关系,实现了二维人体姿态到三维人体姿态的映射,且通过全局上下文-语义图卷积网络的架构方式,能够整合外部信息,从而进一步提高三维人体姿态回归的性能。
附图说明
图1为本发明提供的基于图卷积网络的三维人体姿态估计方法中全局上下文-语义图卷积网络架构示意图;
图2为本发明提供的基于图卷积网络的三维人体姿态估计方法中的算法架构示意图。
具体实施方式
下面结合附图和实施方式对本发明作进一步说明。
在本发明的实施例中,基于图卷积网络的三维人体姿态估计方法,包括以下步骤:
S1:获取Human3.6M数据集的原始视频数据,将原始视频数据拆分为图片帧,提取每帧图片中的人体姿态数据,形成人体骨骼点二维和三维姿态数据;
S2:将二维姿态定义为图其中/>是K个节点的集合,ε是边;
S3:基于图卷积网络,构建全局上下文-语义图卷积网络模型,作为三维人体姿态估计模型f*;
S4:Human3.6M数据集中的S1,S5,S6,S7,S8作为训练集,将处理好人体姿态数据输入全局上下文-语义图卷积网络中,使用预测值和地面真实关节位置yi的均方误差:作为损失函数进行训练,剩余的S9,S11则作为测试集进行测试,得到最后的三维人体姿态预测结果。
所述S3中f*的公式构成包括以下步骤:
A1:给定来自图像的二维姿态:输入
A2:估值出三维姿态:输出A3:得出最终公式:
所述A3公式中:xi是在已知的摄像机参数下获得的二维地面真实关节位置,或者是使用二维联合检测器获得的估计值。
所述S3中全局上下文-语义图卷积网络是由语义图卷积层和全局上下文层交错构建而成。
所述S3中基于图卷积网络构建全局上下文-语义图卷积网络模型的生成方法包括以下步骤:
B1:构建语义图卷积层,学习图的边中隐含的噪声节点的语义关系;
将二维姿态定义为图其中/>是K个节点的集合,ε是边,给定第l个卷积之前的节点i的表示形式,/>通过以下操作获得后续卷积的输出:
X(l+1)=σ(Wx(l)ρi(M⊙A))
其中,是参数矩阵,用于转换节点表示形式;ρi是非线性Softmax,在节点i的所有选择中对输入矩阵进行归一化;/>是加权矩阵;⊙是元素操作;A∈[0,1]K×K是/>的邻接矩阵,用作仅计算节点i在图中的相邻节点/>的权重掩码,将掩码矩阵应用到每个通道c,等式2扩展为:
其中||表示逐个通道级联,而是矩阵W的第c行;
B2:构建全局上下文层,捕获节点之间的全局和远程关系;
应用全局上下文卷积来捕获节点之间的全局和远程关系,将该操作定义为:
其中Wk,Wv1和Wv2表示线性变换矩阵,是经过高斯归一化的全局注意力权重。
与相关技术相比较,本发明提供的基于图卷积网络的三维人体姿态估计方法具有如下有益效果:
本发明提供一种基于图卷积网络的三维人体姿态估计方法,通过提出全局上下文-语义图卷积网络,其中的语义图卷积层和全局上下文层是交错的,这种体系结构捕获了节点间的局部和全局语义关系,实现了二维人体姿态到三维人体姿态的映射,且通过全局上下文-语义图卷积网络的架构方式,能够整合外部信息,从而进一步提高三维人体姿态回归的性能。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (1)
1.一种基于图卷积网络的三维人体姿态估计方法,其特征在于,包括以下步骤:
S1:获取Human3.6M数据集的原始视频数据,将原始视频数据拆分为图片帧,提取每帧图片中的人体姿态数据,形成人体骨骼点二维和三维姿态数据;
S2:将二维姿态定义为图其中/>是K个节点的集合,ε是边;
S3:基于图卷积网络,构建全局上下文-语义图卷积网络模型,作为三维人体姿态估计模型f*;
S4:Human3.6M数据集中的S1,S5,S6,S7,S8作为训练集,将处理好人体姿态数据输入全局上下文-语义图卷积网络中,使用预测值和地面真实关节位置yi的均方误差:作为损失函数进行训练,剩余的S9,S11则作为测试集进行测试,得到最后的三维人体姿态预测结果。
所述S3中f*的公式构成包括以下步骤:
A1:给定来自图像的二维姿态:输入
A2:估值出三维姿态:输出
A3:得出最终公式:
所述A3公式中:xi是在已知的摄像机参数下获得的二维地面真实关节位置,或者是使用二维联合检测器获得的估计值。
所述S3中全局上下文-语义图卷积网络是由语义图卷积层和全局上下文层交错构建而成。
所述S3中基于图卷积网络构建全局上下文-语义图卷积网络模型的生成方法包括以下步骤:
B1:构建语义图卷积层,学习图的边中隐含的噪声节点的语义关系;
将二维姿态定义为图其中/>是K个节点的集合,ε是边,给定第l个卷积之前的节点i的表示形式,/>通过以下操作获得后续卷积的输出:
X(l+1)=σ(WX(l)ρi(M⊙A))
其中,是参数矩阵,用于转换节点表示形式;ρi是非线性Softmax,在节点i的所有选择中对输入矩阵进行归一化;/>是加权矩阵;⊙是元素操作;A∈[0,1]K×K是/>的邻接矩阵,用作仅计算节点i在图中的相邻节点/>的权重掩码,将掩码矩阵应用到每个通道c,等式2扩展为:
其中||表示逐个通道级联,而是矩阵W的第c行;
B2:构建全局上下文层,捕获节点之间的全局和远程关系;
应用全局上下文卷积来捕获节点之间的全局和远程关系,将该操作定义为:
其中Wk,Wv1和Wv2表示线性变换矩阵,是经过高斯归一化的全局注意力权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011597190.1A CN112712019B (zh) | 2020-12-28 | 2020-12-28 | 一种基于图卷积网络的三维人体姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011597190.1A CN112712019B (zh) | 2020-12-28 | 2020-12-28 | 一种基于图卷积网络的三维人体姿态估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112712019A CN112712019A (zh) | 2021-04-27 |
CN112712019B true CN112712019B (zh) | 2023-08-01 |
Family
ID=75546484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011597190.1A Active CN112712019B (zh) | 2020-12-28 | 2020-12-28 | 一种基于图卷积网络的三维人体姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112712019B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113205595B (zh) * | 2021-05-21 | 2022-03-29 | 华中科技大学 | 一种3d人体姿态估计模型的构建方法及其应用 |
CN114663593B (zh) * | 2022-03-25 | 2023-04-07 | 清华大学 | 三维人体姿态估计方法、装置、设备及存储介质 |
CN116030537B (zh) * | 2023-03-28 | 2023-05-23 | 山东科技大学 | 基于多分支注意力图卷积的三维人体姿态估计方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886089A (zh) * | 2017-12-11 | 2018-04-06 | 深圳市唯特视科技有限公司 | 一种基于骨架图回归的三维人体姿态估计的方法 |
CN110222665A (zh) * | 2019-06-14 | 2019-09-10 | 电子科技大学 | 一种基于深度学习和姿态估计的监控中人体动作识别方法 |
CN110378281A (zh) * | 2019-07-17 | 2019-10-25 | 青岛科技大学 | 基于伪3d卷积神经网络的组群行为识别方法 |
CN110427877A (zh) * | 2019-08-01 | 2019-11-08 | 大连海事大学 | 一种基于结构信息的人体三维姿态估算的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3608844A1 (en) * | 2018-08-10 | 2020-02-12 | Naver Corporation | Methods for training a crnn and for semantic segmentation of an inputted video using said crnn |
-
2020
- 2020-12-28 CN CN202011597190.1A patent/CN112712019B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886089A (zh) * | 2017-12-11 | 2018-04-06 | 深圳市唯特视科技有限公司 | 一种基于骨架图回归的三维人体姿态估计的方法 |
CN110222665A (zh) * | 2019-06-14 | 2019-09-10 | 电子科技大学 | 一种基于深度学习和姿态估计的监控中人体动作识别方法 |
CN110378281A (zh) * | 2019-07-17 | 2019-10-25 | 青岛科技大学 | 基于伪3d卷积神经网络的组群行为识别方法 |
CN110427877A (zh) * | 2019-08-01 | 2019-11-08 | 大连海事大学 | 一种基于结构信息的人体三维姿态估算的方法 |
Non-Patent Citations (1)
Title |
---|
基于视频的三维人体姿态估计;杨彬;李和平;曾慧;;北京航空航天大学学报(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112712019A (zh) | 2021-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112712019B (zh) | 一种基于图卷积网络的三维人体姿态估计方法 | |
US11238602B2 (en) | Method for estimating high-quality depth maps based on depth prediction and enhancement subnetworks | |
Zhao et al. | Multisensor image fusion and enhancement in spectral total variation domain | |
WO2022000420A1 (zh) | 人体动作识别方法、人体动作识别系统及设备 | |
Liu et al. | Face hallucination: Theory and practice | |
US11386293B2 (en) | Training image signal processors using intermediate loss functions | |
CN110503680A (zh) | 一种基于非监督的卷积神经网络单目场景深度估计方法 | |
CN112419153A (zh) | 图像超分辨率重建方法、装置、计算机设备和存储介质 | |
CN111723707B (zh) | 一种基于视觉显著性的注视点估计方法及装置 | |
CN109977912A (zh) | 视频人体关键点检测方法、装置、计算机设备和存储介质 | |
CN112232134A (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN110660076A (zh) | 一种人脸交换方法 | |
Chaurasiya et al. | Deep dilated CNN based image denoising | |
CN116485834A (zh) | 红外弱小目标检测方法、装置、设备和介质 | |
Li et al. | Irregular mask image inpainting based on progressive generative adversarial networks | |
Chen et al. | A novel face super resolution approach for noisy images using contour feature and standard deviation prior | |
CN112417991B (zh) | 基于沙漏胶囊网络的双注意力人脸对齐方法 | |
CN111539288B (zh) | 一种双手姿势的实时检测方法 | |
CN112597847A (zh) | 人脸姿态估计方法、装置、电子设备和存储介质 | |
CN107977628B (zh) | 神经网络训练方法、人脸检测方法及人脸检测装置 | |
Yang et al. | Depth image upsampling based on guided filter with low gradient minimization | |
CN114092610B (zh) | 一种基于生成对抗网络的人物视频生成方法 | |
CN113362338B (zh) | 铁轨分割方法、装置、计算机设备和铁轨分割处理系统 | |
CN106033595A (zh) | 一种基于局部约束的图像盲去模糊方法 | |
CN108550119A (zh) | 一种结合边缘信息的图像去噪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |