CN112712019A - 一种基于图卷积网络的三维人体姿态估计方法 - Google Patents
一种基于图卷积网络的三维人体姿态估计方法 Download PDFInfo
- Publication number
- CN112712019A CN112712019A CN202011597190.1A CN202011597190A CN112712019A CN 112712019 A CN112712019 A CN 112712019A CN 202011597190 A CN202011597190 A CN 202011597190A CN 112712019 A CN112712019 A CN 112712019A
- Authority
- CN
- China
- Prior art keywords
- human body
- dimensional
- body posture
- graph
- graph convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/647—Three-dimensional objects by matching two-dimensional images to three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Algebra (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Description
技术领域
本发明涉及三维人体姿态技术领域,尤其涉及一种基于图卷积网络的三维人体姿态估计方法。
背景技术
现阶段,由于根据图像和视频进行三维人体姿态估计是计算机视觉中的经典问题,因此已广泛用于动画,游戏,动作识别,运动检测和人体跟踪中。三维人体姿态估计的任务是从图片或视频估计人体关节点的三维坐标,这本质上是一个回归问题,也就是将二维姿态“提升”为三维姿态的过程。
但是,在单一视图下二维姿态到三维姿态映射中固有的深层模糊性和不适定性使其成为一个难题。因为投影后,多个三维姿态可能对应于同一相机透视图中的同一二维姿态,尽管目前有提出一些方法来将二维姿态映射到三维空间,但是,在语义图卷积网络中,非本地层几乎为每个查询位置建模相同的上下文信息,并且,当使用非本地层时,整个网络将多使用约59.3%的参数。
因此,有必要提供一种新的基于图卷积网络的三维人体姿态估计方法解决上述技术问题。
发明内容
本发明解决的技术问题是提供一种能实现二维人体姿态到三维人体姿态的映射,且能提高三维人体姿态回归的性能、减少网络参数使用的基于图卷积网络的三维人体姿态估计方法。
为解决上述技术问题,本发明提供的基于图卷积网络的三维人体姿态估计方法,包括以下步骤:
S1:获取Human3.6M数据集的原始视频数据,将原始视频数据拆分为图片帧,提取每帧图片中的人体姿态数据,形成人体骨骼点二维和三维姿态数据;
S3:基于图卷积网络,构建全局上下文-语义图卷积网络模型,作为三维人体姿态估计模型f*;
S4:Human3.6M数据集中的S1,S5,S6,S7,S8作为训练集,将处理好人体姿态数据输入全局上下文-语义图卷积网络中,使用预测值和地面真实关节位置yi的均方误差:作为损失函数进行训练,剩余的S8,S11则作为测试集进行测试,得到最后的三维人体姿态预测结果。
优选的,所述S3中f*的公式构成包括以下步骤:
优选的,所述A3公式中:xi是在已知的摄像机参数下获得的二维地面真实关节位置,或者是使用二维联合检测器获得的估计值。
优选的,所述S3中全局上下文-语义图卷积网络是由语义图卷积层和全局上下文层交错构建而成。
优选的,所述S3中基于图卷积网络构建全局上下文-语义图卷积网络模型的生成方法包括以下步骤:
B1:构建语义图卷积层,学习图的边中隐含的噪声节点的语义关系;
X(l+1)=σ(WX(l)ρi(M⊙A))
其中,是参数矩阵,用于转换节点表示形式;ρi是非线性Softmax,在节点i的所有选择中对输入矩阵进行归一化;是加权矩阵;⊙是元素操作;A∈[0,1]K×K是的邻接矩阵,用作仅计算节点i在图中的相邻节点的权重掩码,将掩码矩阵应用到每个通道c,等式2扩展为:
B2:构建全局上下文层,捕获节点之间的全局和远程关系;
应用全局上下文卷积来捕获节点之间的全局和远程关系,将该操作定义为:
与相关技术相比较,本发明提供的基于图卷积网络的三维人体姿态估计方法具有如下有益效果:
本发明提供一种基于图卷积网络的三维人体姿态估计方法,通过提出全局上下文-语义图卷积网络,其中的语义图卷积层和全局上下文层是交错的,这种体系结构捕获了节点间的局部和全局语义关系,实现了二维人体姿态到三维人体姿态的映射,且通过全局上下文-语义图卷积网络的架构方式,能够整合外部信息,从而进一步提高三维人体姿态回归的性能。
附图说明
图1为本发明提供的基于图卷积网络的三维人体姿态估计方法中全局上下文-语义图卷积网络架构示意图;
具体实施方式
下面结合附图和实施方式对本发明作进一步说明。
在本发明的实施例中,基于图卷积网络的三维人体姿态估计方法,包括以下步骤:
S1:获取Human3.6M数据集的原始视频数据,将原始视频数据拆分为图片帧,提取每帧图片中的人体姿态数据,形成人体骨骼点二维和三维姿态数据;
S3:基于图卷积网络,构建全局上下文-语义图卷积网络模型,作为三维人体姿态估计模型f*;
S4:Human3.6M数据集中的S1,S5,S6,S7,S8作为训练集,将处理好人体姿态数据输入全局上下文-语义图卷积网络中,使用预测值和地面真实关节位置yi的均方误差:作为损失函数进行训练,剩余的S8,S11则作为测试集进行测试,得到最后的三维人体姿态预测结果。
所述S3中f*的公式构成包括以下步骤:
所述A3公式中:xi是在已知的摄像机参数下获得的二维地面真实关节位置,或者是使用二维联合检测器获得的估计值。
所述S3中全局上下文-语义图卷积网络是由语义图卷积层和全局上下文层交错构建而成。
所述S3中基于图卷积网络构建全局上下文-语义图卷积网络模型的生成方法包括以下步骤:
B1:构建语义图卷积层,学习图的边中隐含的噪声节点的语义关系;
x(l+1)=σ(WX(l)ρi(M⊙A))
其中,是参数矩阵,用于转换节点表示形式;ρi是非线性Softmax,在节点i的所有选择中对输入矩阵进行归一化;是加权矩阵;⊙是元素操作;A∈[0,1]K×K是的邻接矩阵,用作仅计算节点i在图中的相邻节点的权重掩码,将掩码矩阵应用到每个通道c,等式2扩展为:
B2:构建全局上下文层,捕获节点之间的全局和远程关系;
应用全局上下文卷积来捕获节点之间的全局和远程关系,将该操作定义为:
与相关技术相比较,本发明提供的基于图卷积网络的三维人体姿态估计方法具有如下有益效果:
本发明提供一种基于图卷积网络的三维人体姿态估计方法,通过提出全局上下文-语义图卷积网络,其中的语义图卷积层和全局上下文层是交错的,这种体系结构捕获了节点间的局部和全局语义关系,实现了二维人体姿态到三维人体姿态的映射,且通过全局上下文-语义图卷积网络的架构方式,能够整合外部信息,从而进一步提高三维人体姿态回归的性能。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (5)
1.一种基于图卷积网络的三维人体姿态估计方法,其特征在于,包括以下步骤:
S1:获取Human3.6M数据集的原始视频数据,将原始视频数据拆分为图片帧,提取每帧图片中的人体姿态数据,形成人体骨骼点二维和三维姿态数据;
S3:基于图卷积网络,构建全局上下文-语义图卷积网络模型,作为三维人体姿态估计模型f*;
3.根据权利要求2所述的基于图卷积网络的三维人体姿态估计方法,其特征在于,所述A3公式中:xi是在已知的摄像机参数下获得的二维地面真实关节位置,或者是使用二维联合检测器获得的估计值。
4.根据权利要求1所述的基于图卷积网络的三维人体姿态估计方法,其特征在于,所述S3中全局上下文-语义图卷积网络是由语义图卷积层和全局上下文层交错构建而成。
5.根据权利要求1所述的基于图卷积网络的三维人体姿态估计方法,其特征在于,所述S3中基于图卷积网络构建全局上下文-语义图卷积网络模型的生成方法包括以下步骤:
B1:构建语义图卷积层,学习图的边中隐含的噪声节点的语义关系;
X(l+1)=σ(wX(l)ρi(M⊙A))
其中,是参数矩阵,用于转换节点表示形式;ρi是非线性Softmax,在节点i的所有选择中对输入矩阵进行归一化;是加权矩阵;⊙是元素操作;A∈[0,1]K×K是的邻接矩阵,用作仅计算节点i在图中的相邻节点的权重掩码,将掩码矩阵应用到每个通道c,等式2扩展为:
B2:构建全局上下文层,捕获节点之间的全局和远程关系;
应用全局上下文卷积来捕获节点之间的全局和远程关系,将该操作定义为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011597190.1A CN112712019B (zh) | 2020-12-28 | 2020-12-28 | 一种基于图卷积网络的三维人体姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011597190.1A CN112712019B (zh) | 2020-12-28 | 2020-12-28 | 一种基于图卷积网络的三维人体姿态估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112712019A true CN112712019A (zh) | 2021-04-27 |
CN112712019B CN112712019B (zh) | 2023-08-01 |
Family
ID=75546484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011597190.1A Active CN112712019B (zh) | 2020-12-28 | 2020-12-28 | 一种基于图卷积网络的三维人体姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112712019B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113205595A (zh) * | 2021-05-21 | 2021-08-03 | 华中科技大学 | 一种3d人体姿态估计模型的构建方法及其应用 |
CN114663593A (zh) * | 2022-03-25 | 2022-06-24 | 清华大学 | 三维人体姿态估计方法、装置、设备及存储介质 |
CN116030537A (zh) * | 2023-03-28 | 2023-04-28 | 山东科技大学 | 基于多分支注意力图卷积的三维人体姿态估计方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886089A (zh) * | 2017-12-11 | 2018-04-06 | 深圳市唯特视科技有限公司 | 一种基于骨架图回归的三维人体姿态估计的方法 |
CN110222665A (zh) * | 2019-06-14 | 2019-09-10 | 电子科技大学 | 一种基于深度学习和姿态估计的监控中人体动作识别方法 |
CN110378281A (zh) * | 2019-07-17 | 2019-10-25 | 青岛科技大学 | 基于伪3d卷积神经网络的组群行为识别方法 |
CN110427877A (zh) * | 2019-08-01 | 2019-11-08 | 大连海事大学 | 一种基于结构信息的人体三维姿态估算的方法 |
US20200160065A1 (en) * | 2018-08-10 | 2020-05-21 | Naver Corporation | Method for training a convolutional recurrent neural network and for semantic segmentation of inputted video using the trained convolutional recurrent neural network |
-
2020
- 2020-12-28 CN CN202011597190.1A patent/CN112712019B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886089A (zh) * | 2017-12-11 | 2018-04-06 | 深圳市唯特视科技有限公司 | 一种基于骨架图回归的三维人体姿态估计的方法 |
US20200160065A1 (en) * | 2018-08-10 | 2020-05-21 | Naver Corporation | Method for training a convolutional recurrent neural network and for semantic segmentation of inputted video using the trained convolutional recurrent neural network |
CN110222665A (zh) * | 2019-06-14 | 2019-09-10 | 电子科技大学 | 一种基于深度学习和姿态估计的监控中人体动作识别方法 |
CN110378281A (zh) * | 2019-07-17 | 2019-10-25 | 青岛科技大学 | 基于伪3d卷积神经网络的组群行为识别方法 |
CN110427877A (zh) * | 2019-08-01 | 2019-11-08 | 大连海事大学 | 一种基于结构信息的人体三维姿态估算的方法 |
Non-Patent Citations (1)
Title |
---|
杨彬;李和平;曾慧;: "基于视频的三维人体姿态估计", 北京航空航天大学学报, no. 12 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113205595A (zh) * | 2021-05-21 | 2021-08-03 | 华中科技大学 | 一种3d人体姿态估计模型的构建方法及其应用 |
CN113205595B (zh) * | 2021-05-21 | 2022-03-29 | 华中科技大学 | 一种3d人体姿态估计模型的构建方法及其应用 |
CN114663593A (zh) * | 2022-03-25 | 2022-06-24 | 清华大学 | 三维人体姿态估计方法、装置、设备及存储介质 |
CN116030537A (zh) * | 2023-03-28 | 2023-04-28 | 山东科技大学 | 基于多分支注意力图卷积的三维人体姿态估计方法 |
CN116030537B (zh) * | 2023-03-28 | 2023-05-23 | 山东科技大学 | 基于多分支注意力图卷积的三维人体姿态估计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112712019B (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11238602B2 (en) | Method for estimating high-quality depth maps based on depth prediction and enhancement subnetworks | |
CN112712019A (zh) | 一种基于图卷积网络的三维人体姿态估计方法 | |
WO2022000420A1 (zh) | 人体动作识别方法、人体动作识别系统及设备 | |
Zhang et al. | Image compressive sensing recovery via collaborative sparsity | |
CN107492121B (zh) | 一种单目深度视频的二维人体骨骼点定位方法 | |
CN112434655B (zh) | 一种基于自适应置信度图卷积网络的步态识别方法 | |
CN108537754B (zh) | 基于形变引导图的人脸图像复原系统 | |
Zha et al. | A hybrid structural sparsification error model for image restoration | |
CN110503680A (zh) | 一种基于非监督的卷积神经网络单目场景深度估计方法 | |
CN103049892A (zh) | 基于相似块矩阵秩最小化的非局部图像去噪方法 | |
CN111339942A (zh) | 基于视点调整的图卷积循环网络骨骼动作识别方法及系统 | |
CN110060286B (zh) | 一种单目深度估计方法 | |
CN114663593B (zh) | 三维人体姿态估计方法、装置、设备及存储介质 | |
CN109977912A (zh) | 视频人体关键点检测方法、装置、计算机设备和存储介质 | |
CN113362250B (zh) | 一种基于双树四元小波与深度学习的图像去噪方法及系统 | |
CN112232134A (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN109949217A (zh) | 基于残差学习和隐式运动补偿的视频超分辨率重建方法 | |
CN104036468A (zh) | 基于预放大非负邻域嵌入的单帧图像超分辨重建方法 | |
CN116030498A (zh) | 面向虚拟服装走秀的三维人体姿态估计方法 | |
Chaurasiya et al. | Deep dilated CNN based image denoising | |
WO2020001046A1 (zh) | 一种基于自适应层次化运动建模的视频预测方法 | |
Deng et al. | RADAR: Robust algorithm for depth image super resolution based on FRI theory and multimodal dictionary learning | |
CN114005046A (zh) | 基于Gabor滤波器和协方差池化的遥感场景分类方法 | |
CN111539288B (zh) | 一种双手姿势的实时检测方法 | |
CN112417991A (zh) | 基于沙漏胶囊网络的双注意力人脸对齐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |