CN113723237A - 一种根据相对信息的三维人体姿态估计方法及装置 - Google Patents
一种根据相对信息的三维人体姿态估计方法及装置 Download PDFInfo
- Publication number
- CN113723237A CN113723237A CN202110945989.3A CN202110945989A CN113723237A CN 113723237 A CN113723237 A CN 113723237A CN 202110945989 A CN202110945989 A CN 202110945989A CN 113723237 A CN113723237 A CN 113723237A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- human body
- local
- features
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 230000009471 action Effects 0.000 claims description 7
- 210000004197 pelvis Anatomy 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000033001 locomotion Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 10
- 238000013459 approach Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241000228740 Procrustes Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明是一种根据相对信息的三维人体姿态估计方法,包括以下步骤,输入一段视频序列中所有的二维人体关节点,这一段二维人体关节点首先被送到相对信息编码模块中;原始输入与位置、时间增强表达三者将一同被送入特征融合网络中;在每组中进行三维姿态相关的局部特征提取;在当前帧中提取全局特征;全局特征、局部特征一起送到特征融合模块中;局部特征、混合特征、全局特征被送到解码器中估计三维姿态。
Description
技术领域
本发明属于计算机视觉领域,特别是一种根据相对信息的三维人体姿态估计方法及装置。
背景技术
三维人体姿态估计旨在根据给定的RGB图像或视频中定位三维空间中人体关节的位置。最近的方法遵循两阶段的原理进行三维姿势推理。第一步是定位二维人体关节点,第二步是根据上一步的结果预测相应的三维关节位置。如图1所示,人体的运动可以分为整体运动和局部运动。先前的大多数工作都关注对局部运动的估计,而不是整体运动。它们以相对于根关节(即骨盆)的相对坐标形式表示三维人体关节。
但现有方法缺乏对全局运动的鲁棒性。他们仅将二维姿势的绝对位置用作输入,导致输入和输出的分布之间存在差异。在实际场景下,摄像机的位置经常会移动,这可以视为二维关节点的全局运动。这带来了一个严重的问题,即拥有相同姿势,但却有不同绝对二维位置的人将对应不同的三维关节位置输出。先前的工作在局部运动的预测过程中产生不准确的预测结果。他们利用一段时间内的二维坐标来预测某个特定帧帧中一个人的三维姿势,将每个时间点上的二维姿势均等地对待,而忽略了当前姿势与所有其他姿势之间的关系。这表明神经网络对局部运动中的微小变化不敏感,从而导致在运动范围较小的局部运动上拥有较差的预测性能。
发明内容:
本发明要解决的技术问题是现有算法鲁棒性差以及预测性差。
本发明提出一种根据相对信息的三维人体姿态估计方法,包括如下步骤:
S1,输入带二维人体关节点K的视频,对于视频序列中每一帧,利用关节点与骨盆节点得到相对于骨盆节点的二维相对坐标,将其定义为坐标增强表达Kp;
S2,对于S1中所有的二维人体关节点,将每一帧与当前帧进行时间信息编码操作运算,得到时间增强表达KT;
S3,对S1中每一帧所包含的关节点进行分组;
S4,对S3中的每一组进行三维姿态的局部特征提取;
S5,对二维人体关节点进行当前位置的提取,得到当前帧中的动作,然后提取当前位置的全局特征;
S6,从S4的局部特征中任选其中一组为当前组局部特征,将除当前组外其他组的局部特征进行融合,得到融合特征,之后将局部特征、融合特征和全局特征送入解码器中估计三维姿态。
一种根据相对信息的三维人体姿态估计装置,包括相对信息编码模块、局部编码器、全局编码器、特征融合模块和解码器;其中相对信息编码模块用于对二维关节点进行位置信息编码和时间信息编码;局部编码器用于在每组中捕捉局部特征;全局编码器用于提取当前帧中的动作中所有节点的特性;特征融合模块用于将使局部特征在求解的时候获取其他组的信息;解码器用于从局部特征、全局特征、融合特征中解码得到输出结果。
优选的,所述局部编码器采用时域卷积网络结构,其由一系列时域一维卷积、批归一化层、dropout层和激活层一同构成,其中包含残差结构。
优选的,所述全局编码器、特征融合模块和解码器采用相同的网络结构,其由两层全连接层、批归一化层、dropout层加上一个残差结构组成。
本发明同现有技术相比具有以下优点及效果:
1、本发明通过在输入端使用相对于根关节的二维相对坐标对位置信息进行编码,以确保与输出端的一致性。以这种方式网络可以提取与姿势有关的信息而不会受到人体绝对位置的干扰。当二维关节点在图像平面中的位置发生全局移动时,位置信息编码后的结果仍然相同。因此,三维人体姿态估计对于全局运动变得更加鲁棒。
2、本发明显式传播当前姿势对其他姿势的影响来对时间信息进行编码。时间信息编码可以被建模为任何向量运算符,例如内积和减法。这种方法强调上下文姿势相对于当前姿势的位置变化,而不是每个姿势的绝对位置。在局部运动范围较小的情况下,当前姿势和其他姿势之间的变化将被放大,从而有助于获得更准确的预测结果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为全局运动和局部运动的示意图。
图2为本发明算法的流程示意图。
图3为本发明中特征融合模块的示意图。
图4为本发明中相对信息编码的示意图,其中a为位置信息编码,b为时间信息编码。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1:本发明提出一种基于相对信息编码的三维人体姿态估计算法及装置,具体实施步骤如下:
1.1、输入一段视频序列中所有的二维人体关节点K,这个视频序列总共T=243帧,每帧包含J=17个关节点。这一段二维人体关节点首先被送到相对信息编码模块。
1.2、对输入的二维关节点进行位置信息编码和时间信息编码。其中位置信息编码的过程为:如图4所示,对于视频序列中每一帧,将所有关节点与骨盆节点的位置作差,得到相对于骨盆节点的二维相对坐标,称之为坐标增强表达,上述过程可以表示为其作用是保证输入端与输出端数据分布的一致性。通过这种方式,具有不同绝对二维坐标的相同姿势将对应于共同的坐标增强表达,降低了网络产生相同预测结果的难度。位置信息编码让网络仅捕获与人体姿势有关的重要信息,而不是二维全局轨迹,这有利于加强网络对全局运动的鲁棒性。
时间信息编码的过程为:如图4所示,对于人体所有关节点,将每一帧与当前帧进行时间信息编码操作运算,这种运算可以被建模为任何向量运算符,例如内积、外积、余弦相似度、减法等。我们将得到的结果称为时间增强表达。上述过程可以表示为此方法驱动网络学习当前姿势对其他姿势的影响。它允许所有姿势从网络的浅层开始着眼于与当前姿势的时间相关性,无论这些姿势在时域上是靠近或是远离当前帧。换句话说,网络专注于当前姿势周围的位置变化,而不是每个姿势的绝对位置。当发生运动范围较小的局部运动时,这些变化将被放大,这有助于对人体三维姿态进行细粒度建模。
2、原始输入与位置、时间增强表达三者将一同被送入特征融合网络中,特征融合网络包括局部编码器、全局编码器、特征融合模块和解码器。具体过程为,利用人体分组策略对三者进行分组,总共分为躯干、左手臂、右手臂、左腿、右腿,一共五组。原始输入可被表示为其中Ji为第i组中节点的数目。同理,可以获得位置、时间增强表达的分组结果:这一步的目的是利用人体结构性信息,将语义上相关联的节点进行联合求解,排除别组非相干节点的干扰。
3、在每组中进行三维姿态相关的局部特征提取。具体过程为,原始输入与位置、时间增强表达被送到局部特征编码器中得到局部特征,这个过程可以写为其中为第i组的局部特征编码器,为第i组的局部特征。本实施例采用时域卷积网络(TCN)作为局部特征编码器的网络结构,它由一系列时域一维卷积、批归一化层、dropout层、激活层一同构成,其中包含残差结构。
4、在当前帧中提取全局特征。具体过程为,先对二维关节点序列进行当前位置的提取,然后通过全局特征编码器得到全局特征,这个过程可以写为Fg=Eg(Kc,θ),其中为当前帧中的动作,Eg(·,θ)为全局特征编码器,Fg为全局特征。这一步的目的是排除别的帧对本帧的干扰,只获取与当前位置有关的全局信息。
5、如图3所示,从S4的局部特征中任选其中一组为当前组局部特征,将除当前组外其他组的局部特征进行融合,全局特征、局部特征一起送到特征融合模块中。不同组间的信息可以通过融合块来进行融合,这个过程可以写为其中N是组数,Gf(·,θ)是融合块,是第i组的融合特征,F1 n为除了第i组外的局部特征。这一步的目的是尽管分组的方法在每组中保留了空域上有意义的模式,但排除了不同组之间的联系。当推断三维人体姿态时,当前组完全不知道其他组关节的位置,这不利于保持整体姿态的一致性。理想情况下,网络应该考虑各组之间关节的连续性。而特征融合模块能将其他组的信息传输到当前组,实现这个目的。
6、之后局部特征、融合特征、全局特征被送到解码器中估计三维姿态,这个过程可以写为其中是级联操作,D(·,θ)是解码器。另外,全局特征编码器、融合块、解码器共享一个网络结构,由两层全连接层、批归一化层、dropout层加上一个残差结构组成。
本实施例与现有算法在Human3.6M数据集上进行比较,通过平均关节点位置误差(MPJPE)与经过Procrustes分析后的平均关节点位置误差(P-MPJPE)对方法性能进行评价,本实施例能与任何二维关节点检测器兼容。具体来说,使用级联金字塔网络(CPN)的二维关节点预测结果作为整体框架的输入,本实施例在MPJPE指标下为44.3mm,在P-MPJPE指标下为35.0mm,与现有方法相比取得了最优的结果。另外,本实施例还利用二维姿势的真实标注数据作为网络的输入对模型进行训练。该模型在MPJPE指标下为30.1mm,并将之前最优方法的下限提高了约5.9%。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种根据相对信息的三维人体姿态估计方法,其特征在于,包括如下步骤:
S1,输入带二维人体关节点K的视频,对于视频序列中每一帧,利用关节点与骨盆节点得到相对于骨盆节点的二维相对坐标,将其定义为坐标增强表达Kp;
S2,对于S1中所有的二维人体关节点,将每一帧与当前帧进行时间信息编码操作运算,得到时间增强表达KT;
S3,对S1中每一帧所包含的关节点进行分组;
S4,对S3中的每一组进行三维姿态的局部特征提取;
S5,对二维人体关节点进行当前位置的提取,得到当前帧中的动作,然后提取当前位置的全局特征;
S6,从S4的局部特征中任选其中一组为当前组局部特征,将除当前组外其他组的局部特征进行融合,得到融合特征,之后将局部特征、融合特征和全局特征送入解码器中估计三维姿态。
8.一种根据相对信息的三维人体姿态估计装置,其特征在于,包括相对信息编码模块、局部编码器、全局编码器、特征融合模块和解码器;其中相对信息编码模块用于对二维关节点进行位置信息编码和时间信息编码;局部编码器用于在每组中捕捉局部特征;全局编码器用于提取当前帧中的动作中所有节点的特性;特征融合模块用于将使局部特征在求解的时候获取其他组的信息;解码器用于从局部特征、全局特征、融合特征中解码得到输出结果。
9.根据权利要求8所述的根据相对信息的三维人体姿态估计装置,其特征在于,所述局部编码器采用时域卷积网络结构,其由一系列时域一维卷积、批归一化层、dropout层和激活层一同构成,其中包含残差结构。
10.根据权利要求8所述的根据相对信息的三维人体姿态估计装置,其特征在于,所述全局编码器、特征融合模块和解码器采用相同的网络结构,其由两层全连接层、批归一化层、dropout层加上一个残差结构组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110945989.3A CN113723237B (zh) | 2021-08-17 | 2021-08-17 | 一种根据相对信息的三维人体姿态估计方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110945989.3A CN113723237B (zh) | 2021-08-17 | 2021-08-17 | 一种根据相对信息的三维人体姿态估计方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113723237A true CN113723237A (zh) | 2021-11-30 |
CN113723237B CN113723237B (zh) | 2023-12-05 |
Family
ID=78676139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110945989.3A Active CN113723237B (zh) | 2021-08-17 | 2021-08-17 | 一种根据相对信息的三维人体姿态估计方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723237B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663449A (zh) * | 2012-03-12 | 2012-09-12 | 西安电子科技大学 | 基于最大几何流向直方图的人体运动跟踪方法 |
CN105006016A (zh) * | 2015-05-21 | 2015-10-28 | 北京航空航天大学 | 一种贝叶斯网络约束的部件级三维模型构建方法 |
CN110427877A (zh) * | 2019-08-01 | 2019-11-08 | 大连海事大学 | 一种基于结构信息的人体三维姿态估算的方法 |
CN110853133A (zh) * | 2019-10-25 | 2020-02-28 | 深圳奥比中光科技有限公司 | 重建人体三维模型的方法、装置、系统和可读存储介质 |
US10621779B1 (en) * | 2017-05-25 | 2020-04-14 | Fastvdo Llc | Artificial intelligence based generation and analysis of 3D models |
CN112215160A (zh) * | 2020-10-13 | 2021-01-12 | 厦门大学 | 一种利用长短期信息融合的视频三维人体姿态估计算法 |
DE102020127508A1 (de) * | 2019-10-24 | 2021-04-29 | Nvidia Corporation | Posenverfolgung von objekten in der hand |
-
2021
- 2021-08-17 CN CN202110945989.3A patent/CN113723237B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663449A (zh) * | 2012-03-12 | 2012-09-12 | 西安电子科技大学 | 基于最大几何流向直方图的人体运动跟踪方法 |
CN105006016A (zh) * | 2015-05-21 | 2015-10-28 | 北京航空航天大学 | 一种贝叶斯网络约束的部件级三维模型构建方法 |
US10621779B1 (en) * | 2017-05-25 | 2020-04-14 | Fastvdo Llc | Artificial intelligence based generation and analysis of 3D models |
CN110427877A (zh) * | 2019-08-01 | 2019-11-08 | 大连海事大学 | 一种基于结构信息的人体三维姿态估算的方法 |
DE102020127508A1 (de) * | 2019-10-24 | 2021-04-29 | Nvidia Corporation | Posenverfolgung von objekten in der hand |
CN110853133A (zh) * | 2019-10-25 | 2020-02-28 | 深圳奥比中光科技有限公司 | 重建人体三维模型的方法、装置、系统和可读存储介质 |
CN112215160A (zh) * | 2020-10-13 | 2021-01-12 | 厦门大学 | 一种利用长短期信息融合的视频三维人体姿态估计算法 |
Non-Patent Citations (2)
Title |
---|
WENKANG SHAN等: "P-STMO:pre-trained spatial temporal many-to-one model for 3D human pose estimation", COMPUTER VISION-ECCV 2022, pages 461 - 478 * |
彭淑娟;周兵;柳欣;钟必能;: "人体运动生成中的深度学习模型综述", 计算机辅助设计与图形学学报, vol. 30, no. 06, pages 1166 - 1176 * |
Also Published As
Publication number | Publication date |
---|---|
CN113723237B (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song et al. | Constructing stronger and faster baselines for skeleton-based action recognition | |
Xiang et al. | Deep learning for image inpainting: A survey | |
CN110135375B (zh) | 基于全局信息整合的多人姿态估计方法 | |
KR102081854B1 (ko) | 3d edm을 이용한 수어 또는 제스처 인식 방법 및 장치 | |
CN107239728A (zh) | 基于深度学习姿态估计的无人机交互装置与方法 | |
CN112200165A (zh) | 模型训练方法、人体姿态估计方法、装置、设备及介质 | |
CN113537393B (zh) | 一种基于改进Transformer的黑暗场景三维人体姿态估计算法 | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
CN112258555A (zh) | 实时姿态估计运动分析方法、系统、计算机设备及存储介质 | |
CN111695523A (zh) | 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法 | |
Zhou et al. | Learning multiscale correlations for human motion prediction | |
CN116524121A (zh) | 一种单目视频三维人体重建方法、系统、设备及介质 | |
CN113591774A (zh) | 基于Transformer的行为识别算法 | |
Badhe et al. | Artificial neural network based indian sign language recognition using hand crafted features | |
CN117238034A (zh) | 一种基于时空Transformer的人体姿态估计方法 | |
Cha et al. | Learning 3D skeletal representation from transformer for action recognition | |
CN116246338A (zh) | 一种基于图卷积和Transformer复合神经网络的行为识别方法 | |
CN117218246A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN116129051A (zh) | 一种基于图和注意力交织的三维人体姿态估计方法及系统 | |
Chopin et al. | 3-d skeleton-based human motion prediction with manifold-aware GAN | |
CN114863013A (zh) | 一种目标物体三维模型重建方法 | |
CN117173715A (zh) | 一种注意力视觉问答方法、装置、电子设备及存储介质 | |
CN115205737B (zh) | 基于Transformer模型的运动实时计数方法和系统 | |
Wang et al. | Human motion data refinement unitizing structural sparsity and spatial-temporal information | |
CN115205750B (zh) | 基于深度学习模型的运动实时计数方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |