CN113538581B - 一种基于图注意力时空卷积的3d姿态估计方法 - Google Patents

一种基于图注意力时空卷积的3d姿态估计方法 Download PDF

Info

Publication number
CN113538581B
CN113538581B CN202110811915.0A CN202110811915A CN113538581B CN 113538581 B CN113538581 B CN 113538581B CN 202110811915 A CN202110811915 A CN 202110811915A CN 113538581 B CN113538581 B CN 113538581B
Authority
CN
China
Prior art keywords
convolution
layer
shape
output
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110811915.0A
Other languages
English (en)
Other versions
CN113538581A (zh
Inventor
吴渊
郑泉石
金城
程乐超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Zhejiang Lab
Original Assignee
Fudan University
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University, Zhejiang Lab filed Critical Fudan University
Priority to CN202110811915.0A priority Critical patent/CN113538581B/zh
Publication of CN113538581A publication Critical patent/CN113538581A/zh
Application granted granted Critical
Publication of CN113538581B publication Critical patent/CN113538581B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Image Processing (AREA)
  • Complex Calculations (AREA)

Abstract

本发明属于计算机视觉技术领域,具体为一种基于图注意力时空卷积的3D姿态估计方法。该3D姿态估计方法基于按照处理流程先后顺序分为前处理模块、切割图注意力时空卷积模块、补全图注意力时空卷积模块、后处理模块4部分的系统完成。前处理模块初步提取时域信息,然后通过切割图注意力时空卷积模块、补全图注意力时空卷积模块进一步提取时空域信息。本发明能充分利用人体骨架在空间上的约束信息抽取骨架序列空域信息,同时能建立骨架序列时域上的长时依赖,提高了3D姿态估计的精确度。并且不需要原始视频帧的信息,减少计算量。本发明所提框架在3D姿态估计任务上的表现优于现有方法。

Description

一种基于图注意力时空卷积的3D姿态估计方法
技术领域
本发明属于计算机视觉领域,具体涉及一种利用图注意力时空卷积模块的3D姿态估计方法。
背景技术
2D-3D姿态估计是3D姿态估计领域中的热门研究方向,是上层任务(例如行人再识别、人机交互、行为识别等)的基础。3D姿态估计根据人体关键点的2D坐标预测出人体各关键点的3D坐标。在2D-3D领域,目前主要存在深度模糊和遮挡两个困难。深度模糊是指由于2D骨架丢失了深度信息,姿态估计模型难以推测2D骨架中各关键点距离镜头的真实距离。遮挡是指人体关键点可能相互遮挡,模型难以估计被遮挡关键点的深度信息。针对深度模糊与遮挡这两个困难,目前有的工作采用时域卷积抽取2D骨架序列的时域特征辅助生成关节点深度信息的方法,但是忽略了骨架关节点空间上的约束信息。有的工作采用将2D骨架序列当作一个时空图,直接进行图卷积同时抽取时空域信息辅助生成关键点深度信息的方法,但是这种方法难以抽取长时间范围的时域信息。也有的工作尝视抽取视频帧信息辅助深度信息的生成,但是却引入了额外的计算量,使得模型推理速度下降。
发明内容
本发明针对目前相关工作忽略骨架关键点间的约束信息,难以建立长时时域依赖,或是对视频帧进行计算,引入了额外的计算量,使得模型推理速度下降的情况提出了一种利用图注意力时空卷积模块的3D姿态估计方法,本发明方法充分利用人体骨架在空间上的约束信息抽取骨架序列空域信息,同时建立骨架序列时域上的长时依赖,能提高3D姿态估计的精确度;本发明同时不需要原始视频帧的信息,能减少计算量,提高效率。本发明所提框架在3D姿态估计任务上的表现优于现有方法。
本发明提供一种基于图注意力时空卷积的3D姿态估计方法,其基于包括前处理模块、切割图注意力时空卷积模块、补全图注意力时空卷积模块和后处理模块4部分的系统完成3D姿态估计;具体步骤如下:
(1)前处理模块对2D骨架序列做初步的时域信息抽取,包含卷积层和padding层,模块的输入是二维骨架序列INP-1,形状为(27,17,2),处理过程如下:
①INP-1经过卷积核大小为3*1的卷积层处理,得到形状是(25,17,128)的骨架序列
②步骤①中结果输入补全层,复制骨架序列首尾骨架各一次,输出骨架序列PAD-1,形状为(27,17,128);
(2)切割图注意力时空卷积模块提取骨架序列的时空域信息,该模块包含2个STGCN-S子模块STGCN-S-1,STGCN-S-2;其中:
STGCN-S-1子模块由切割层、空洞卷积层以及Graph Attention Block组成,该子模块输入是PAD-1,处理过程如下:
①对于PAD-1,采用Graph Attention Block进行处理,得到形状为(27,17,256)的骨架序列GA-1;
②将GA-1输入分割层,去除骨架序列首尾各3个骨架,得到形状为(21,17,256)的输出SL-1;
③将GA-1输入空洞卷积层,进行卷积核为3*1,空洞率为3的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(21,17,256)的输出;
④对步骤③的输出进行卷积核为1*1,空洞率为1的空洞卷积,结果经过BatchNorm2D、Relu层、Dropout层处理,得到空洞卷积层的输出DCONV-1,形状为(21,17,256);
⑤将SL-1与DCONV-1相加,得到子模块最终输出S-1,形状为(21,17,256);
STGCN-S-2子模块由切割层、空洞卷积层以及Graph Attention Block组成,该子模块输入是S-1,处理过程如下:
①对于S-1,采用Graph Attention Block进行处理,得到形状为(21,17,512)的骨架序列GA-2;
②将GA-2输入分割层,去除骨架序列首尾各9个骨架,得到输出SL-2,其形状为(3,17,512);
③将GA-2输入空洞卷积层,进行卷积核为3*1,空洞率为9的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(3,17,512)的输出;
④对步骤③的输出进行卷积核为1*1,空洞率为1的卷积,结果经过BatchNorm 2D、Relu层、Dropout层处理,得到空洞卷积层的输出DCONV-2,形状为(3,17,512);
⑤将SL-2与DCONV-2相加,得到子模块最终输出S-2,形状为(3,17,512);
(3)补全注意力时空卷积模块进一步提取骨架序列时空域信息,该模块由3个STGCN-P子模块,2个上采样层组成;3个STGCN-P子模块分别为STGCN-P-1子模块、STGCN-P-2子模块STGCN-P-3子模块,2个上采样层分别为上采样层-1子模块、上采样层-2子模块;其中:
STGCN-P-1子模块由卷积层、补全层、空洞卷积层以及Graph Attention Block组成,该子模块输入是S-2,处理过程如下:
①对于输入S-2,采用Graph Attention Block进行处理,得到骨架序列GA-3,其形状为(3,17,1024);
②将GA-3输入卷积层,通过卷积核大小为1*1的卷积,得到卷积结果CONV-3,形状为(3,17,256);
③将GA-3输入空洞卷积层,进行卷积核为3*1,空洞率为1的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(1,17,256)的输出;
④将步骤③的输出输入补全层,复制骨架序列首尾的骨架各一次,输出形状为(3,17,256)的结果;
⑤对步骤④的输出,进行卷积核为1*1,空洞率为1的卷积,随后经过BatchNorm2D、Relu层、Dropout层的处理,得到空洞卷积层的输出DCONV-4,形状为(3,17,256);
⑥将DCONV-4与CONV-3相加,得到子模块最终输出P-1,形状为(3,17,256);
上采样层通过复制骨架序列首尾的骨架,增加骨架序列的长度;上采样层-1子模块的输入是P-1,处理过程如下:
①将P-1输入补全层,复制序列首尾的骨架各9次,得到补全输出,形状为(21,17,256);
②将步骤(1)结果与S-1相加,得到子模块最终输出UPSAMP-1,形状为(21,17,256);
STGCN-P-2子模块由卷积层、补全层、空洞卷积层以及Graph Attention Block组成,该子模块输入是UPSAMP-1,处理过程如下:
①对于输入UPSAMP-1,采用Graph Attention Block进行处理,得到骨架序列GA-4,形状为(21,17,512);
②将GA-4输入卷积层,通过卷积核大小为1*1的卷积,得到卷积结果CONV-5,形状为(21,17,128);
③将GA-4输入空洞卷积层,进行卷积核为3*1,空洞率为1的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(19,17,128)的输出;
④将步骤③的输出输入补全层,复制骨架序列首尾的骨架各一次,输出形状为(21,17,128)的结果;
⑤对步骤④的输出,进行卷积核为1*1,空洞率为1的卷积,随后经过BatchNorm2D、Relu层、Dropout层的处理,得到空洞卷积层的输出DCONV-6,形状为(21,17,128);
⑥将DCONV-6与CONV-5相加,得到子模块最终输出P-2,形状为(21,17,128);
上采样层-2子模块的输入是P-2,处理过程如下:
①将P-2输入补全层,复制序列首尾的骨架各3次,得到补全输出,形状为(27,17,128);
②将步骤(1)结果与PAD-1相加,得到子模块最终输出UPSAMP-2,形状为(27,17,128);
STGCN-P-3子模块由卷积层、补全层、空洞卷积层以及Graph Attention Block组成,子模块输入是UPSAMP-2,处理过程如下:
①对于输入UPSAMP-2,采用Graph Attention Block进行处理,得到骨架序列GA-5,形状为(27,17,256);
②将GA-5输入卷积层,通过卷积核大小为1*1的卷积,得到卷积结果CONV-7,形状为(27,17,3);
③将GA-5输入空洞卷积层,进行卷积核为3*1,空洞率为1的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(25,17,3)的输出;
④将步骤③的输出输入补全层,复制骨架序列首尾的骨架各一次,输出形状为(27,17,3)的结果;
⑤对步骤④的输出,进行卷积核为1*1,空洞率为1的卷积,随后经过BatchNorm2D、Relu层、Dropout层的处理,得到空洞卷积层的输出DCONV-8,形状为(27,17,3);
⑥将DCONV-8与CONV-7相加,得到子模块最终输出P-3,形状为(27,17,3);
(4)后处理模块分为两个部分,第一个部分挑选P-3中间位置的骨架,输出是S-3,形状为(1,17,3),第二个部分使用Pose Refinement,输入经过以下步骤处理:
①对于INP-1,通过计算输出2维UV坐标,形状为(1,17,2);
②将S-3与步骤①的结果进行拼接,结果是INP-2,形状为(1,17,5);
③INP-2经过Pose Refinement后得到最终的3D姿态估计结果,形状为(1,17,3),代表17个关键点的3D坐标。
和现有技术相比,本发明的有益效果在于:
本发明的方法能充分利用人体骨架在空间上的约束信息抽取骨架序列空域信息,同时能建立骨架序列时域上的长时依赖,提高了3D姿态估计的精确度。并且不需要原始视频帧的信息,减少计算量。本发明所提方法在3D姿态估计任务上的表现优于现有方法。
附图说明
图1:一种基于图注意力时空卷积的3D姿态估计系统示意图。
图2:STGCN-P结构示意图。
图3:STGCN-S结构示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案进行详细说明。
一种利用图注意力时空卷积模块的3D姿态估计方法,其完成基于按照处理流程先后顺序分为前处理模块、切割图注意力时空卷积模块、补全图注意力时空卷积模块、后处理模块4部分的系统完成。
下面介绍系统的具体内容。
一、前处理模块
前处理模块对2D骨架序列做初步的时域信息抽取,包含卷积层和padding层,模块的输入是二维骨架序列INP-1,形状为(27,17,2),处理过程如下:
1.INP-1经过卷积核大小为3*1的卷积层处理,得到形状是(25,17,128)的骨架序列
2.步骤(1)中结果输入补全层,复制骨架序列首尾骨架各一次。输出骨架序列PAD-1,形状为(27,17,128)。
二、切割图注意力时空卷积模块
切割图注意力时空卷积模块提取骨架序列的时空域信息,模块包含2个STGCN-S子模块STGCN-S-1,STGCN-S-2。
(1)STGCN-S-1子模块
STGCN-S-1子模块由切割层、空洞卷积层以及参考文献[1]中的Graph AttentionBlock组成。子模块输入是PAD-1,处理过程如下:
1.对于PAD-1,采用Graph Attention Block进行处理,得到形状为(27,17,256)的骨架序列GA-1。
2.将GA-1输入分割层,去除骨架序列首尾各3个骨架,得到形状为(21,17,256)的输出SL-1。
3.将GA-1输入空洞卷积层,进行卷积核为3*1,空洞率为3的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(21,17,256)的输出。
4.对步骤(3)的输出进行卷积核为1*1,空洞率为1的空洞卷积,结果经过BatchNorm 2D、Relu层、Dropout层处理,得到空洞卷积层的输出DCONV-1,形状为(21,17,256)。
5.将SL-1与DCONV-1相加,得到子模块最终输出S-1,形状为(21,17,256)。
(2)STGCN-S-2子模块
STGCN-S-2子模块由切割层、空洞卷积层以及参考文献[1]中的Graph AttentionBlock组成。子模块输入是S-1,处理过程如下:
1.对于S-1,采用Graph Attention Block进行处理,得到形状为(21,17,512)的骨架序列GA-2。
2.将GA-2输入分割层,去除骨架序列首尾各9个骨架,得到输出SL-2,其形状为(3,17,512)。
3.将GA-2输入空洞卷积层,进行卷积核为3*1,空洞率为9的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(3,17,512)的输出。
4.对步骤(3)的输出进行卷积核为1*1,空洞率为1的卷积,结果经过BatchNorm2D、Relu层、Dropout层处理,得到空洞卷积层的输出DCONV-2,形状为(3,17,512)。
5.将SL-2与DCONV-2相加,得到子模块最终输出S-2,形状为(3,17,512)。
三、补全图注意力时空卷积模块
补全注意力时空卷积模块进一步提取骨架序列时空域信息,模块由3个STGCN-P子模块,2个上采样层组成。
(1)STGCN-P-1子模块
STGCN-P-1子模块由卷积层、补全层、空洞卷积层以及参考文献[1]中的GraphAttention Block组成。子模块输入是S-2,处理过程如下:
1.对于输入S-2,采用Graph Attention Block进行处理,得到骨架序列GA-3,其形状为(3,17,1024)。
2.将GA-3输入卷积层,通过卷积核大小为1*1的卷积,得到卷积结果CONV-3,形状为(3,17,256)。
3.将GA-3输入空洞卷积层,进行卷积核为3*1,空洞率为1的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(1,17,256)的输出,
4.将步骤(3)的输出输入补全层,复制骨架序列首尾的骨架各一次,输出形状为(3,17,256)的结果。
5.对步骤(4)的输出,进行卷积核为1*1,空洞率为1的卷积,随后经过BatchNorm2D、Relu层、Dropout层的处理,得到空洞卷积层的输出DCONV-4,形状为(3,17,256)。
6.将DCONV-4与CONV-3相加,得到子模块最终输出P-1,形状为(3,17,256)。
(2)上采样层-1子模块
上采样层通过复制骨架序列首尾的骨架,增加骨架序列的长度。上采样层-1子模块的输入是P-1,处理过程如下:
1.将P-1输入补全层,复制序列首尾的骨架各9次,得到补全输出,形状为(21,17,256)
2.将步骤(1)结果与S-1相加,得到子模块最终输出UPSAMP-1,形状为(21,17,256)。
(3)STGCN-P-2子模块
STGCN-P-2子模块由卷积层、补全层、空洞卷积层以及参考文献[1]中的GraphAttention Block组成。子模块输入是UPSAMP-1,处理过程如下:
1.对于输入UPSAMP-1,采用Graph Attention Block进行处理,得到骨架序列GA-4,形状为(21,17,512)。
2.将GA-4输入卷积层,通过卷积核大小为1*1的卷积,得到卷积结果CONV-5,形状为(21,17,128)。
3.将GA-4输入空洞卷积层,进行卷积核为3*1,空洞率为1的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(19,17,128)的输出,
4.将步骤(3)的输出输入补全层,复制骨架序列首尾的骨架各一次,输出形状为(21,17,128)的结果。
5.对步骤(4)的输出,进行卷积核为1*1,空洞率为1的卷积,随后经过BatchNorm2D、Relu层、Dropout层的处理,得到空洞卷积层的输出DCONV-6,形状为(21,17,128)。
6.将DCONV-6与CONV-5相加,得到子模块最终输出P-2,形状为(21,17,128)。
(4)上采样层-2子模块
上采样层通过复制骨架序列首尾的骨架,增加骨架序列的长度。上采样层-2子模块的输入是P-2,处理过程如下:
1.将P-2输入补全层,复制序列首尾的骨架各3次,得到补全输出,形状为(27,17,128)
2.将步骤(1)结果与PAD-1相加,得到子模块最终输出UPSAMP-2,形状为(27,17,128)。
(5)STGCN-P-3子模块
STGCN-P-3子模块由卷积层、补全层、空洞卷积层以及参考文献[1]中的GraphAttention Block组成。子模块输入是UPSAMP-2,处理过程如下:
1.对于输入UPSAMP-2,采用Graph Attention Block进行处理,得到骨架序列GA-5,形状为(27,17,256)。
2.将GA-5输入卷积层,通过卷积核大小为1*1的卷积,得到卷积结果CONV-7,形状为(27,17,3)。
3.将GA-5输入空洞卷积层,进行卷积核为3*1,空洞率为1的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(25,17,3)的输出。
4.将步骤(3)的输出输入补全层,复制骨架序列首尾的骨架各一次,输出形状为(27,17,3)的结果。
5.对步骤(4)的输出,进行卷积核为1*1,空洞率为1的卷积,随后经过BatchNorm2D、Relu层、Dropout层的处理,得到空洞卷积层的输出DCONV-8,形状为(27,17,3)。
6.将DCONV-8与CONV-7相加,得到子模块最终输出P-3,形状为(27,17,3)。
四、后处理模块
后处理模块分为两个部分,第一个部分挑选P-3中间位置的骨架,输出是S-3,形状为(1,17,3)。
第二个部分使用了参考文献[2]中的Pose Refinement,输入经过以下步骤处理:
1.对于INP-1,通过计算输出2维UV坐标,形状为(1,17,2)
2.将S-3与步骤(1)的结果进行拼接,结果是INP-2,形状为(1,17,5)。
INP-2经过Pose Refinement后得到最终的3D姿态估计结果,形状为(1,17,3),代表17个关键点的3D坐标。
下面结合实验结果说明本发明的优越性:
本发明与基线方法在Human3.6M数据集上进行3D姿态估计对比试验。实验结果如表1,表2所示。
表1 基于CPN数据的对比实验(MPJPE)
表2 基于CPN数据的对比实验(P-MPJPE)
本方法在吃饭、打电话、坐、抽烟、遛狗、走路、一起散步这些日常姿态数据中,MPJPE指标低于基线方法,在吃饭、坐、坐下、遛狗、走路、一起散步这些日常姿态数据中,P-MPJPE指标低于基线方法,大约一半的姿态预测效果得到了提升。以所有日常姿态的MPJPE和P-MPJPE的平均值作为衡量,本方法实验结果的误差要低于基线方法,证明了本方法的有效性。
参考文献:
[1]J Liu,Y Guang,and J Rojas."GAST-Net:Graph Attention Spatio-temporal Convolutional Networks for 3D Human Pose Estimation in Video."arXiv(2020).
[2]Cai,Y.,et al."Exploiting Spatial-Temporal Relationships for 3DPose Estimation via Graph Convolutional Networks."2019 IEEE/CVF InternationalConference on Computer Vision(ICCV)IEEE,2019.
[3]J.Martinez,R.Hossain,J.Romero,and J.J.Little.A simple yeteffective baseline for 3d human pose estimation.In Proceedings of the IEEEInternational Conference on Computer Vision,pages 2640–2649,2017.
[4]Y.Cai,L.Ge,J.Liu,J.Cai,T.-J.Cham,J.Yuan,and N.M.Thalmann,“Exploiting spatial-temporal relationships for 3d pose estimation via graphconvolutional networks,”in Proceedings of the IEEE International Conferenceon Computer Vision,2019,pp.2272–2281
[5]D.Pavllo,C.Feichtenhofer,D.Grangier,and M.Auli,“3d human poseestimation in video with temporal convolutions and semi-supervised training,”in Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,2019,pp.7753–7762.
[6]J.Lin and G.H.Lee,“Trajectory space factorization for deepvideobased 3d human pose estimation,”arXiv preprint arXiv:1908.08289,2019。

Claims (1)

1.一种基于图注意力时空卷积的3D姿态估计方法,其特征在于,其基于包括前处理模块、切割图注意力时空卷积模块、补全图注意力时空卷积模块和后处理模块4部分的系统完成3D姿态估计;具体步骤如下:
(1)前处理模块对2D骨架序列做初步的时域信息抽取,包含卷积层和padding层,模块的输入是二维骨架序列INP-1,形状为(27,17,2),处理过程如下:
INP-1经过卷积核大小为3*1的卷积层处理,得到形状是(25,17,128)的骨架序列
步骤/>中结果输入补全层,复制骨架序列首尾骨架各一次,输出骨架序列PAD-1,形状为(27,17,128);
(2)切割图注意力时空卷积模块提取骨架序列的时空域信息,该模块包含2个STGCN-S子模块STGCN-S-1,STGCN-S-2; 其中:
STGCN-S-1子模块由切割层、空洞卷积层以及Graph Attention Block组成,该子模块输入是PAD-1,处理过程如下:
对于PAD-1,采用Graph Attention Block进行处理,得到形状为(27,17,256)的骨架序列GA-1;
将GA-1输入分割层,去除骨架序列首尾各3个骨架,得到形状为(21,17,256)的输出SL-1;
将GA-1输入空洞卷积层,进行卷积核为3*1,空洞率为3的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(21,17,256)的输出;
对步骤/>的输出进行卷积核为1*1,空洞率为1的空洞卷积,结果经过BatchNorm2D、Relu层、Dropout层处理,得到空洞卷积层的输出DCONV-1,形状为(21,17,256);
将SL-1与DCONV-1相加,得到子模块最终输出S-1,形状为(21,17,256);
STGCN-S-2子模块由切割层、空洞卷积层以及Graph Attention Block组成,该子模块输入是S-1, 处理过程如下:
对于S-1,采用Graph Attention Block进行处理,得到形状为(21,17,512)的骨架序列GA-2;
将GA-2输入分割层,去除骨架序列首尾各9个骨架,得到输出SL-2,其形状为(3,17,512) ;
将GA-2输入空洞卷积层,进行卷积核为3*1,空洞率为9的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(3,17,512)的输出;
对步骤/>的输出进行卷积核为1*1,空洞率为1的卷积,结果经过BatchNorm 2D、Relu层、Dropout层处理,得到空洞卷积层的输出DCONV-2,形状为(3,17,512);
将SL-2与DCONV-2相加,得到子模块最终输出S-2,形状为(3,17,512);
(3)补全注意力时空卷积模块进一步提取骨架序列时空域信息,该模块由3个STGCN-P子模块,2个上采样层组成;3个STGCN-P子模块分别为STGCN-P-1子模块、STGCN-P-2子模块STGCN-P-3子模块,2个上采样层分别为上采样层-1子模块、上采样层-2子模块;其中:
STGCN-P-1子模块由卷积层、补全层、空洞卷积层以及Graph Attention Block组成,该子模块输入是S-2,处理过程如下:
对于输入S-2,采用Graph Attention Block进行处理,得到骨架序列GA-3,其形状为(3,17,1024);
将GA-3输入卷积层,通过卷积核大小为1*1的卷积,得到卷积结果CONV-3,形状为(3,17,256);
将GA-3输入空洞卷积层,进行卷积核为3*1,空洞率为1的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(1,17,256)的输出;
将步骤/>的输出输入补全层,复制骨架序列首尾的骨架各一次,输出形状为(3,17,256)的结果;
对步骤/>的输出,进行卷积核为1*1,空洞率为1的卷积,随后经过BatchNorm 2D、Relu层、Dropout层的处理,得到空洞卷积层的输出DCONV-4,形状为(3,17,256);
将DCONV-4与CONV-3相加,得到子模块最终输出P-1,形状为(3,17,256);
上采样层通过复制骨架序列首尾的骨架,增加骨架序列的长度;上采样层-1子模块的输入是P-1,处理过程如下:
将P-1输入补全层,复制序列首尾的骨架各9次,得到补全输出,形状为(21,17,256);
将步骤(1)结果与S-1相加,得到子模块最终输出UPSAMP-1,形状为(21,17,256);
STGCN-P-2子模块由卷积层、补全层、空洞卷积层以及Graph Attention Block组成,该子模块输入是UPSAMP-1, 处理过程如下:
对于输入UPSAMP-1,采用Graph Attention Block进行处理,得到骨架序列GA-4,形状为(21,17,512);
将GA-4输入卷积层,通过卷积核大小为1*1的卷积,得到卷积结果CONV-5,形状为(21,17,128);
将GA-4输入空洞卷积层,进行卷积核为3*1,空洞率为1的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(19,17,128)的输出;
将步骤/>的输出输入补全层,复制骨架序列首尾的骨架各一次,输出形状为(21,17,128)的结果;
对步骤/>的输出,进行卷积核为1*1,空洞率为1的卷积,随后经过BatchNorm 2D、Relu层、Dropout层的处理,得到空洞卷积层的输出DCONV-6,形状为(21,17,128);
将DCONV-6与CONV-5相加,得到子模块最终输出P-2,形状为(21,17,128);
上采样层-2子模块的输入是P-2,处理过程如下:
将P-2输入补全层,复制序列首尾的骨架各3次,得到补全输出,形状为(27,17,128);
将步骤(1)结果与PAD-1相加,得到子模块最终输出UPSAMP-2,形状为(27,17,128);
STGCN-P-3子模块由卷积层、补全层、空洞卷积层以及Graph Attention Block组成,子模块输入是UPSAMP-2, 处理过程如下:
对于输入UPSAMP-2,采用Graph Attention Block进行处理,得到骨架序列GA-5,形状为(27,17,256) ;
将GA-5输入卷积层,通过卷积核大小为1*1的卷积,得到卷积结果CONV-7,形状为(27,17,3) ;
将GA-5输入空洞卷积层,进行卷积核为3*1,空洞率为1的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(25,17,3)的输出;
将步骤/>的输出输入补全层,复制骨架序列首尾的骨架各一次,输出形状为(27,17,3)的结果;
对步骤/>的输出,进行卷积核为1*1,空洞率为1的卷积,随后经过BatchNorm 2D、Relu层、Dropout层的处理,得到空洞卷积层的输出DCONV-8,形状为(27,17,3) ;
将DCONV-8与CONV-7相加,得到子模块最终输出P-3,形状为(27,17,3) ;
(4)后处理模块分为两个部分,第一个部分挑选P-3中间位置的骨架,输出是S-3,形状为(1,17,3),第二个部分使用Pose Refinement,输入经过以下步骤处理:
对于INP-1,通过计算输出2维UV坐标,形状为(1,17,2);
将S-3与步骤/>的结果进行拼接,结果是INP-2,形状为(1,17,5);
INP-2经过Pose Refinement后得到最终的3D姿态估计结果,形状为(1,17,3),代表17个关键点的3D坐标。
CN202110811915.0A 2021-07-19 2021-07-19 一种基于图注意力时空卷积的3d姿态估计方法 Active CN113538581B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110811915.0A CN113538581B (zh) 2021-07-19 2021-07-19 一种基于图注意力时空卷积的3d姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110811915.0A CN113538581B (zh) 2021-07-19 2021-07-19 一种基于图注意力时空卷积的3d姿态估计方法

Publications (2)

Publication Number Publication Date
CN113538581A CN113538581A (zh) 2021-10-22
CN113538581B true CN113538581B (zh) 2024-03-12

Family

ID=78128632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110811915.0A Active CN113538581B (zh) 2021-07-19 2021-07-19 一种基于图注意力时空卷积的3d姿态估计方法

Country Status (1)

Country Link
CN (1) CN113538581B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI797916B (zh) * 2021-12-27 2023-04-01 博晶醫電股份有限公司 人體偵測方法、人體偵測裝置及電腦可讀儲存媒體

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325099A (zh) * 2020-01-21 2020-06-23 南京邮电大学 一种基于双流时空图卷积神经网络的手语识别方法及系统
CN112347861A (zh) * 2020-10-16 2021-02-09 浙江工商大学 一种基于运动特征约束的人体姿态估计方法
CN112434655A (zh) * 2020-12-07 2021-03-02 安徽大学 一种基于自适应置信度图卷积网络的步态识别方法
WO2021051520A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 图像识别、训练识别模型的方法、相关设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021051520A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 图像识别、训练识别模型的方法、相关设备及存储介质
CN111325099A (zh) * 2020-01-21 2020-06-23 南京邮电大学 一种基于双流时空图卷积神经网络的手语识别方法及系统
CN112347861A (zh) * 2020-10-16 2021-02-09 浙江工商大学 一种基于运动特征约束的人体姿态估计方法
CN112434655A (zh) * 2020-12-07 2021-03-02 安徽大学 一种基于自适应置信度图卷积网络的步态识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
轻量级双路卷积神经网络与帧间信息推理的人体姿态估计;陈昱昆;汪正祥;于莲芝;;小型微型计算机系统;20201015(第10期);全文 *

Also Published As

Publication number Publication date
CN113538581A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN109191491B (zh) 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统
Yu et al. Bisenet: Bilateral segmentation network for real-time semantic segmentation
CN110210551B (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN108259994B (zh) 一种提高视频空间分辨率的方法
CN113920581B (zh) 一种时空卷积注意力网络用于视频中动作识别的方法
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN108989731B (zh) 一种提高视频空间分辨率的方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN112489050A (zh) 一种基于特征迁移的半监督实例分割算法
CN109035146A (zh) 一种基于深度学习的低质量图像超分方法
CN113538581B (zh) 一种基于图注意力时空卷积的3d姿态估计方法
CN113792641A (zh) 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法
CN113269133A (zh) 一种基于深度学习的无人机视角视频语义分割方法
CN111882581B (zh) 一种深度特征关联的多目标跟踪方法
Lin et al. Steformer: Efficient stereo image super-resolution with transformer
CN113343786B (zh) 基于深度学习的轻量化视频动作识别方法及系统
Chen et al. Y-Net: Dual-branch joint network for semantic segmentation
CN116895037A (zh) 基于边缘信息和多尺度交叉融合网络的帧插入方法及系统
CN116092189A (zh) 一种基于rgb数据和骨骼数据的双模态人体行为识别方法
CN113869154B (zh) 根据语言描述的视频动作者分割方法
CN114881858A (zh) 基于多注意力机制融合的轻量级双目图像超分辨率方法
Tian et al. Lightweight dual-task networks for crowd counting in aerial images
Zhao et al. SAU-Net: Monocular Depth Estimation Combining Multi-Scale Features and Attention Mechanisms
Dong et al. EANET: Efficient Attention-Augmented Network for Real-Time Semantic Segmentation
Miao et al. Semantic segmentation of vehicle vision based on two-branch Enet network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant