CN114973407B - 一种基于rgb-d的视频三维人体姿态估计方法 - Google Patents
一种基于rgb-d的视频三维人体姿态估计方法 Download PDFInfo
- Publication number
- CN114973407B CN114973407B CN202210504347.4A CN202210504347A CN114973407B CN 114973407 B CN114973407 B CN 114973407B CN 202210504347 A CN202210504347 A CN 202210504347A CN 114973407 B CN114973407 B CN 114973407B
- Authority
- CN
- China
- Prior art keywords
- human body
- dimensional
- depth
- video
- rgb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims 1
- 230000036544 posture Effects 0.000 description 82
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于RGB‑D的视频三维人体姿态估计方法,包括以下步骤:使用RGB摄像头获取RGB视频,对于RGB摄像头拍摄的同一场景,使用深度相机获取对应的深度视频;获取RGB视频中每帧人体二维姿态,根据二维姿态从深度图像中获取关键点深度值,从而得到对应帧的二维人体姿态的深度向量;使用深度信息编码模块学习深度信息特征;将获取的二维人体姿态序列输入时序信息编码模块学习视频时间维度上的局部和全局信息,输出融合时间维度信息的特征,将该特征作为三维姿态假设生成模块的输入,生成出不同的三维姿态假设;使用注意力机制将三维姿态假设特征与深度信息特征进行注意力融合,将融合后的特征预测三维人体姿态结果。
Description
技术领域
本发明属于三维人体姿态估计领域,具体涉及一种基于RGB-D的视频三维人体姿态估计方法。
背景技术
基于深度学习的人体姿态估计领域在近年来引起了越来越多的关注和研究。作为计算机视觉的重要研究方向,人体姿态估计算法通过图像或视频数据,估计出人体的关键点坐标。人体姿态估计取得的关键点提供的人体骨骼以及运动信息可以应用于人机交互、运动分析、增强现实、虚拟现实等大量领域。人体姿态估计领域可以进一步分为二维人体姿态估计和三维人体姿态估计。二维人体姿态估计从图像或视频中估计人体关键点的像素坐标,而三维人体姿态估计需要估计出人体关键点在相机坐标系下的坐标。相比于前者,三维人体姿态提供了额外的深度信息,因此有更广泛的应用。随着元宇宙的兴起,三维人体姿态估计领域的重要性更上一层台阶。近年来随着硬件成本的下降,深度相机越来越普及,使用深度相机获取的深度图可以帮助三维人体姿态算法更准确地估计人体关键点的深度信息
基于RGB视频的三维人体姿态估计中,单目摄像头下的三维人体姿态估计方法使用神经网络模型从视频和图像中预测人体关节在相机坐标系的三维坐标。当前主流的视频三维人体姿态估计方法可以分为采用直接估计的方法和基于二维姿态提升到三维姿态的方法。前者直接从视频中估计某帧或某几帧的三维姿态信息,后者采用一个离线的二维人体姿态模型来估计出每一视频帧的二维关键点坐标,再将二维人体关键点序列作为三维姿态估计模型的输入最终预测出三维姿态信息。由于当前二维人体姿态算法得到的结果较为可靠,基于提升的方法在二维姿态估计任务中效果要好于直接估计的方法。基于提升的方法面临的最大挑战是深度歧义问题。由于图像和视频完全丢失了深度维度的信息,而从单帧的二维姿态到三维姿态可能存在多个可能的映射,因此三维人体姿态估计存在许多不确定性。当输入数据是视频时,可用通过学习时间维度的信息来减少这种不确定性。尽管多视角下的三维人体姿态估计可以有效解决深度歧义,然而这种方案对设备和场景的要求较高,在现实世界中的应用受限。
基于深度图的三维人体姿态估计中,深度歧义一直是三维人体姿态估计领域中的关键问题。随着深度相机的成本的不断降低,一些方法开始利用深度相机获得的深度信息来缓解深度歧义问题。在一幅室内的深度图像中,人体往往是整个深度图的前景,因此深度图能够一定程度上反映人体的位置和形状,并且深度相机获取的深度图像仅仅包含深度信息而不包含RGB信息,因此很好地保护了图像中人的身份信息。然而由于深度相机获得的是物体表面的深度信息,因此当人体处于某些特定姿势时,人体的部分关键部位会被遮挡,因而无法获取到准确的深度值。这造成了当人体处于某些姿态下,深度相机获取的深度信息不可靠,从而严重限制了基于深度图的方法可以应用的场景。
现有的基于提升的三维人体姿态估计算法无法有效解决深度歧义问题,因此估计的三维关键点坐标深度误差较大。视频三维人体姿态估计方法处理的视频帧数有限,对于较长的视频无法有效地对视频帧间进行关系建模。基于深度图的三维人体姿态估计算法只能处理特定视角下的人体姿态。对于关节遮挡的情况估计效果较差。
当前主流的基于RGB-D的三维人体姿态估计方法如3D Human Pose Estimationin RGBD Images for Robotic Task Learning使用接受RGB图片和深度图的输入,预测对应的三维姿态。然而,他们仅仅依靠单帧的输入,没有充分时序信息,因此对于长视频的整体效果较差;并且,他们将整个深度图直接作为网络的输入,无法解决关节遮挡情况下深度值不准确的问题,使得网络性能在复杂场景下较差。
发明内容
为解决上述技术问题,本发明提出一种基于RGB-D的视频三维人体姿态估计方法,首先用二维人体姿态估计算法估计出视频帧中每个人体关键点的像素坐标,然后根据像素坐标获取对应深度图上的深度值,然后将获取到的一组深度值用于辅助神经网络生成更准确的三维人体姿态,使用深度传感器获取视频每帧的深度图,结合视频的RGB信息和深度信息使用基于提升的方法联合估计人体的三维姿态,提高了三维人体姿态估计算法的准确度。使用了基于Transformer的编码器结构作为主干网络来学习视频三维人体姿态序列的时序信息,该网络结构可以处理任意长度的视频帧序列,拥有对长视频进行时序信息建模的能力。
本发明至少通过如下技术方案之一实现。
一种基于RGB-D的视频三维人体姿态估计方法,包括以下步骤:
1)使用RGB摄像头获取RGB视频;
2)对于RGB摄像头拍摄的同一场景,使用深度相机获取对应的深度视频;
3)使用离线二维人体姿态估计模型获取RGB视频中每帧人体二维姿态;
4)根据二维姿态从深度图像中获取关键点深度值,从而得到对应帧的二维人体姿态的深度向量;
5)使用深度信息编码模块学习深度信息特征;
6)将经过步骤3)获取的二维人体姿态序列输入时序信息编码模块学习视频时间维度上的局部和全局信息,输出融合时间维度信息的特征;
7)将步骤6)输出的特征作为三维姿态假设生成模块的输入,生成出不同的三维姿态假设;
8)使用注意力机制将三维姿态假设特征与深度信息特征进行注意力融合;
9)使用线性网络模型利用步骤8)融合后的特征预测三维人体姿态结果。
进一步地,所述深度信息编码模块使用Resnet18网络结构作为主干网络来对深度向量进行编码,得到对应的深度信息特征。
进一步地,所述时序信息编码模块使用Transformer的编码器结构作为主干网络,将人体二维姿态序列作为输入,经过由全连接层组成的姿态编码层获取二维人体姿态特征,然后将二维人体姿态特征输入到Transformer编码器,输出融合了时间维度信息的特征。
进一步地,所述三维姿态假设生成模块包括若干个编码模块,所述编码模块包括全连接层;将步骤6)获取的时间维度信息的特征作为若干个编码模块的输入,得到不同的特征编码,这些特征编码即为不同的三维人体姿态特征编码。
进一步地,所述使用注意力机制为基于Key-Query-Value的注意力机制。
进一步地,步骤8)包括以下步骤:
首先使用三个可学习的特征变换矩阵分别将深度信息特征Xd、三维人体姿态特征编码Xh、Xh进行投影得到从而获得然后使用式(1)计算注意力结果:
其中Attention为注意力计算结果,Q、K、V分别表示基于Key-Query-Value的注意力机制的Key、Query、Value特征;Dq、Dk、Dv分别表示Q、K、V在各自特征空间上的特征维度,T表示输出视频的长度,C表示获取的深度信息特征和获取人体姿态特征编码的维度,G表示三维姿态假设生成模块中的编码模块的数量。
进一步地,在计算Q和K的每行的内积结果后使用softmax函数来得到每个深度新特征关于G个假设的权重,在使用softmax函数之前使用缩放内积结果以避免梯度消失问题。
进一步地,步骤8)使用多头注意力机制丰富的特征信息,具体计算方式如式(2)、式(3):
MultiHeadAttn(Q,K,V)=Concat(head1,…,headM)Wo (2)
headi=Attention(QWi Q,KWi K,VWi v) (3)
其中MultiHeadAttn(Q,K,V)为多头注意力计算的结果,Concat表示沿特征维度进行拼接操作,headi表示第i个头的注意力计算结果;
上式展示了M个头的多头自注意力计算过程。在计算第i个头时,首先由可学习的参数矩阵Wi Q、Wi k、Wi v将Q、K、V投影成Dk、Dk、Dv维度,然后利用式(1)的注意力计算公式算出该头的注意力结果,算出M个头的自注意力结果后,将所有结果沿特征维度进行拼接操作,最后使用参数矩阵Wo投影到原来的维度。
进一步地,所述线性网络模型的结构由全连接层组成的线性网络结构作为预测头,将特征投影到三维空间,从而得到每一帧的三维人体姿态。
进一步地,所述深度信息编码模块使用MobileNet网络结构作为主干网络来对深度向量进行编码。
与现有的技术相比,本发明的有益效果为:
1、本方法通过基于Transformer的编码器来处理视频的三维人体姿态问题,对于长视频有较强的时序建模能力,使得预测的三维人体姿态更加平滑且准确。
2、本方法在在RGB视频的基础上引入了深度摄像头获取的深度图信息,弥补了RGB视频丢失了深度信息的缺陷,从而能够有效缓解深度歧义问题。
3、本方法使用多假设生成和深度编码自注意力融合的方法来解决深度图像在关节遮挡情况下无法获得准确深度值的问题,有效提升了算法在复杂姿态下的泛化能力。
附图说明
图1为实施例三维人体姿态预测流程图;
图2为实施例Resnet18网络结构图;
图3为实施例多重假设生成模块示意图。
具体实施方式
下面结合附图和实施例对本发明的具体实施做进一步的说明。
如图1所示,基于RGB-D的视频三维人体姿态估计方法,包括以下步骤:
1)使用单目RGB摄像头获取视频;通过最常用的RGB摄像头来捕捉需要预测三维人体姿态的场景。拍摄的视频中应尽可能保证画面包含完整的人体,且避免出现多人在同一画面中的情况。视频的帧率不低于每秒25帧即可。
2)使用深度相机获取每帧深度图;对于步骤1)拍摄的同一场景,使用深度相机获取对应的深度视频。深度摄像头和RGB摄像头应该在拍摄前进行标定以保证像素对齐,同时深度视频和RGB视频的应该有相同的帧数。
3)使用离线二维人体姿态估计模型获取每帧人体二维姿态;
经过步骤1)获取RGB视频后,通过离线的二维人体姿态估计模型(离线二维人体姿态估计模型指可以直接使用的任意二维人体姿态估计模型,可以为使用级联金字塔网络)估计出RGB视频每帧的二维人体姿态,即所有关键点在视频帧上的像素坐标。在本实施例中,二维人体姿态和三维人体姿态的关键点都用人体的17个重要关节来表示。
4)根据二维姿态从深度图像中获取关键点深度值;经过步骤3)获取每帧的关键点像素坐标后,在对应深度图上获取每个关键点的深度值,从而得到该帧二维人体姿态的深度向量。
5)使用深度信息编码模块学习深度信息特征;经过步骤4)获取到视频每帧人体姿态的深度向量后,使用Resnet18网络结构作为主干网络来对深度向量进行编码。Resnet18网络结构如图2所示。网络结构由三个结构相同的子模块堆叠而成,每个子模块包括全连接层、ReLU激活函数层、批归一化层和随机失活层。将深度向量输入到Resnet18网络学习后可以获得人体姿态的整体深度信息特征。
具体来说,给定一段视频帧的深度向量经过编码后会得到该视频的深度信息特征/>其中T代表视频的帧数,J代表关键点数量,在实施例中是17,C代表输出特征的维度。
6)使用时序信息编码模块学习时序信息特征;
将经过步骤3)获取的二维人体姿态序列作为输入送入到时序信息编码模块来学习视频时间维度上的局部和全局信息。时序信息编码模块使用Transformer的编码器结构作为主干网络。该结构通过多头自注意力来学习视频帧间的相关信息。该模块接受人体二维姿态序列作为输入,随后经过由全连接层组成的姿态编码层获取二维人体姿态特征/>然后将该特征输入到Transformer编码器输出融合了时间维度信息的特征/>
7)使用三维姿态假设生成模块生成出不同的三维姿态假设;
本实施例引入了多重三维姿态假设生成模块来获取不同的三维姿态。该模块结构如图3所示。具体来说,为了获取G个不同的三维人体姿态特征,本实施例在时序信息编码模块之后添加了G个编码模块,所述编码模块包括全连接层,这些编码模块之间参数(全连接层的网络权重参数)是独立的。将步骤6)获取的融合了时间维度信息的特征Xt作为这G个编码模块的输入,可以得到G个同的特征编码,这些特征编码即为不同的三维人体姿态特征编码本实施例将这些特征作为初始的三维人体姿态假设的特征表示,然后再利用它们与深度信息特征编码进行进一步融合,图3中/>表示的是第i个全连接层生成的假设特征,i∈G,下标h意为hypothesis,上标1..G表示全连接层序号。
8)将三维姿态假设特征与深度信息特征进行注意力融合;
经过步骤5)~步骤7)处理之后,使用注意力机制来学习每一帧的深度信息特征与每个假设对应的相关性,然后计算出每个假设的可信度作为该假设的权重,最后通过将所有假设进行加权求和即可从多个假设三维姿态合成单个更准确的人体三维姿态。
本实施例使用基于Key-Query-Value的注意力机制。为了挖掘深度信息特征Xd和三维姿态假设特征Xh的关系,将Xd作为Query,将Xh作为Key和Value,因此注意力机制会计算Xd和Xh之间的相关性,并且根据该相关权重对Xh的所有假设进行加权求和。
具体来说,首先使用三个可学习的特征变换矩阵 分别将Xd、Xh、Xh进行投影得到从而获得/> 然后使用式(1)计算注意力结果:
其中Attention为注意力计算结果,Q、K、V分别表示基于Key-Query-Value的注意力机制的Key、Query、Value特征;表示Q的维度为T×1×Dq,一般不需要特别说明。其他的/>同理。Dq、Dk、Dv分别表示Q、K、V在各自特征空间上的特征维度,T表示输出视频的长度(视频帧数),C表示步骤5)获取的深度信息特征和步骤7)获取人体姿态特征编码的维度(二者维度都为C),H表示步骤7)中三维姿态假设生成模块中的编码模块的数量;
在上式中首先计算Q和K的每行的内积结果,然后使用softmax函数来得到每个深度新特征关于G个假设的权重。在使用softmax函数之前使用缩放内积结果以避免梯度消失问题。
为了使本发明方法学习到更丰富的特征信息,本方法进一步使用多头注意力机制,具体计算方式如式(2)、式(3):
MultiHeadAttn(Q,K,V)=Concat(head1,…,headM)Wo (2)
headi=Attention(QWi Q,KWi K,VWi v) (3)
其中MultiHeadAttn(Q,K,V)为多头注意力计算的结果,Concat表示沿特征维度进行拼接操作,headi表示第i个头的注意力计算结果;
上式展示了M个头的多头自注意力计算过程。在计算第i个头时,首先由可学习的参数矩阵Wi Q、Wi k、Wi v将Q、K、V投影成Dk、Dk、Dv维度。然后利用式(1)的注意力计算公式算出该头的注意力结果。算出M个头的自注意力结果后,将所有结果沿特征维度进行拼接操作,最后使用一个参数矩阵Wo投影到原来的维度。
9)将融合后的特征用来预测出三维人体姿态结果
经过步骤8)得到经过自注意力融合后的三维人体姿态特征后,使用一个由全连接层组成的线性网络结构作为预测头,将该特征投影到RJ×3空间,从而得到每一帧的三维人体姿态。
实施例2
基于RGB-D的视频三维人体姿态估计方法,包括以下步骤:
1)使用单目RGB摄像头获取视频;通过最常用的RGB摄像头来捕捉需要预测三维人体姿态的场景。拍摄的视频中应尽可能保证画面包含完整的人体,且避免出现多人在同一画面中的情况。视频的帧率不低于每秒25帧即可。
2)使用深度相机获取每帧深度图;对于步骤1)拍摄的同一场景,使用深度相机获取对应的深度视频。深度摄像头和RGB摄像头应该在拍摄前进行标定以保证像素对齐,同时深度视频和RGB视频的应该有相同的帧数。
3)使用离线二维人体姿态估计模型获取每帧人体二维姿态;
经过步骤1)获取RGB视频后,通过离线的二维人体姿态估计模型(离线二维人体姿态估计模型指可以直接使用的任意二维人体姿态估计模型,可以为使用级联金字塔网络)估计出RGB视频每帧的二维人体姿态,即所有关键点在视频帧上的像素坐标。在本实施例中,二维人体姿态和三维人体姿态的关键点都用人体的17个重要关节来表示。
4)根据二维姿态从深度图像中获取关键点深度值;经过步骤3)获取每帧的关键点像素坐标后,在对应深度图上获取每个关键点的深度值,从而得到该帧二维人体姿态的深度向量。
5)使用深度信息编码模块学习深度信息特征;经过步骤4)获取到视频每帧人体姿态的深度向量后,使用MobileNet网络结构作为主干网络来对深度向量进行编码。
6)使用时序信息编码模块学习时序信息特征;
7)使用三维姿态假设生成模块生成出不同的三维姿态假设;
8)将三维姿态假设特征与深度信息特征进行注意力融合;
经过步骤5)~步骤7)处理之后,使用注意力机制来学习每一帧的深度信息特征与每个假设对应的相关性,然后计算出每个假设的可信度作为该假设的权重,最后通过将所有假设进行加权求和即可从多个假设三维姿态合成单个更准确的人体三维姿态。
实施例3
基于RGB-D的视频三维人体姿态估计方法,包括以下步骤:
1)使用单目RGB摄像头获取视频;通过最常用的RGB摄像头来捕捉需要预测三维人体姿态的场景。拍摄的视频中应尽可能保证画面包含完整的人体,且避免出现多人在同一画面中的情况。视频的帧率不低于每秒25帧即可。
2)使用深度相机获取每帧深度图;对于步骤1)拍摄的同一场景,使用深度相机获取对应的深度视频。深度摄像头和RGB摄像头应该在拍摄前进行标定以保证像素对齐,同时深度视频和RGB视频的应该有相同的帧数。
3)使用离线二维人体姿态估计模型获取每帧人体二维姿态;
经过步骤1)获取RGB视频后,通过离线的二维人体姿态估计模型(离线二维人体姿态估计模型指可以直接使用的任意二维人体姿态估计模型,可以为使用级联金字塔网络)估计出RGB视频每帧的二维人体姿态,即所有关键点在视频帧上的像素坐标。在本实施例中,二维人体姿态和三维人体姿态的关键点都用人体的17个重要关节来表示。
4)根据二维姿态从深度图像中获取关键点深度值;经过步骤3)获取每帧的关键点像素坐标后,在对应深度图上获取每个关键点的深度值,从而得到该帧二维人体姿态的深度向量。
5)使用深度信息编码模块学习深度信息特征;经过步骤4)获取到视频每帧人体姿态的深度向量后,使用MobileNet网络结构或者Resnet18网络结构作为主干网络来对深度向量进行编码。
6)使用时序信息编码模块学习时序信息特征;
7)使用三维姿态假设生成模块生成出不同的三维姿态假设;
8)将三维姿态假设特征与深度信息特征进行注意力融合;
经过步骤5)~步骤7)处理之后,使用注意力机制来学习每一帧的深度信息特征与每个假设对应的相关性,然后计算出每个假设的可信度作为该假设的权重,最后通过将所有假设进行加权求和即可从多个假设三维姿态合成单个更准确的人体三维姿态。
本实施例使用基于Key-Query-Value的注意力机制。为了挖掘深度信息特征Xd和三维姿态假设特征Xh的关系,将Xd作为Query,将Xh作为Key和Value,因此注意力机制会计算Xd和Xh之间的相关性,并且根据该相关权重对Xh的所有假设进行加权求和。
具体来说,首先使用三个可学习的特征变换矩阵 分别将Xd、Xh、Xh进行投影得到从而获得/> 然后使用式(1)计算注意力结果:
其中Attention为注意力计算结果,Q、K、V分别表示基于Key-Query-Value的注意力机制的Key、Query、Value特征;表示Q的维度为T×1×Dq,一般不需要特别说明。其他的/>同理。Dq、Dk、Dv分别表示Q、K、V在各自特征空间上的特征维度,T表示输出视频的长度(视频帧数),C表示步骤5)获取的深度信息特征和步骤7)获取人体姿态特征编码的维度(二者维度都为C),H表示步骤7)中三维姿态假设生成模块中的编码模块的数量;
在上式中首先计算Q和K的每行的内积结果,然后使用softmax函数来得到每个深度新特征关于H个假设的权重。在使用softmax函数之前使用缩放内积结果以避免梯度消失问题。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (8)
1.一种基于RGB-D的视频三维人体姿态估计方法,其特征在于,包括以下步骤:
1)使用RGB摄像头获取RGB视频;
2)对于RGB摄像头拍摄的同一场景,使用深度相机获取对应的深度视频;
3)使用离线二维人体姿态估计模型获取RGB视频中每帧人体二维姿态;
4)根据二维姿态从深度图像中获取关键点深度值,从而得到对应帧的二维人体姿态的深度向量;
5)使用深度信息编码模块学习深度信息特征;
6)将经过步骤3)获取的二维人体姿态序列输入时序信息编码模块学习视频时间维度上的局部和全局信息,输出融合时间维度信息的特征;
7)将步骤6)输出的特征作为三维姿态假设生成模块的输入,生成出不同的三维姿态假设;
8)使用注意力机制将三维姿态假设特征与深度信息特征进行注意力融合;包括以下步骤:
首先使用三个可学习的特征变换矩阵分别将深度信息特征Xd、三维人体姿态特征编码Xh、Xh进行投影得到从而获得然后使用式(1)计算注意力结果:
其中Attention为注意力计算结果,Q、K、V分别表示基于Key-Query-Value的注意力机制的Key、Query、Value特征;Dq、Dk、Dv分别表示Q、K、V在各自特征空间上的特征维度,T表示输出视频的长度,C表示获取的深度信息特征和获取人体姿态特征编码的维度,G表示三维姿态假设生成模块中的编码模块的数量;
使用多头注意力机制丰富的特征信息,具体计算方式如式(2)、式(3):
MultiHeadAttn(Q,K,V)=Concat(head1,…,headM)Wo (2)
其中MultiHeadAttn(Q,K,V)为多头注意力计算的结果,Concat表示沿特征维度进行拼接操作,headi表示第i个头的注意力计算结果;
上式展示了M个头的多头自注意力计算过程;在计算第i个头时,首先由可学习的参数矩阵将Q、K、V投影成Dk、Dk、Dv维度,然后利用式(1)的注意力计算公式算出该头的注意力结果,算出M个头的自注意力结果后,将所有结果沿特征维度进行拼接操作,最后使用参数矩阵Wo投影到原来的维度;9)使用线性网络模型利用步骤8)融合后的特征预测三维人体姿态结果。
2.根据权利要求1所述的一种基于RGB-D的视频三维人体姿态估计方法,其特征在于,所述深度信息编码模块使用Resnet18网络结构作为主干网络来对深度向量进行编码,得到对应的深度信息特征。
3.根据权利要求1所述的一种基于RGB-D的视频三维人体姿态估计方法,其特征在于,所述时序信息编码模块使用Transformer的编码器结构作为主干网络,将人体二维姿态序列作为输入,经过由全连接层组成的姿态编码层获取二维人体姿态特征,然后将二维人体姿态特征输入到Transformer编码器,输出融合了时间维度信息的特征。
4.根据权利要求1所述的一种基于RGB-D的视频三维人体姿态估计方法,其特征在于,所述三维姿态假设生成模块包括若干个编码模块,所述编码模块包括全连接层;将步骤6)获取的时间维度信息的特征作为若干个编码模块的输入,得到不同的特征编码,这些特征编码即为不同的三维人体姿态特征编码。
5.根据权利要求1所述的一种基于RGB-D的视频三维人体姿态估计方法,其特征在于,所述使用注意力机制为基于Key-Query-Value的注意力机制。
6.根据权利要求1所述的一种基于RGB-D的视频三维人体姿态估计方法,其特征在于,在计算Q和K的每行的内积结果后使用softmax函数来得到每个深度新特征关于G个假设的权重,在使用softmax函数之前使用缩放内积结果以避免梯度消失问题。
7.根据权利要求1~6任一项所述的一种基于RGB-D的视频三维人体姿态估计方法,其特征在于,所述线性网络模型的结构由全连接层组成的线性网络结构作为预测头,将特征投影到三维空间,从而得到每一帧的三维人体姿态。
8.根据权利要求1所述的一种基于RGB-D的视频三维人体姿态估计方法,其特征在于,所述深度信息编码模块使用MobileNet网络结构作为主干网络来对深度向量进行编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210504347.4A CN114973407B (zh) | 2022-05-10 | 2022-05-10 | 一种基于rgb-d的视频三维人体姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210504347.4A CN114973407B (zh) | 2022-05-10 | 2022-05-10 | 一种基于rgb-d的视频三维人体姿态估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114973407A CN114973407A (zh) | 2022-08-30 |
CN114973407B true CN114973407B (zh) | 2024-04-02 |
Family
ID=82982199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210504347.4A Active CN114973407B (zh) | 2022-05-10 | 2022-05-10 | 一种基于rgb-d的视频三维人体姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114973407B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116071785B (zh) * | 2023-03-06 | 2023-06-23 | 合肥工业大学 | 一种基于多维空间交互的人体姿态估计方法 |
CN115984384B (zh) * | 2023-03-20 | 2023-07-21 | 乐歌人体工学科技股份有限公司 | 一种基于面部姿态图像估计的桌面升降控制方法 |
CN116645578B (zh) * | 2023-05-18 | 2024-01-26 | 广东科技学院 | 多模态数据融合方法及其三维目标检测方法 |
CN116645726B (zh) * | 2023-05-30 | 2024-02-02 | 首都师范大学 | 利用三维人体恢复进行时空双分支融合的行为识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021093368A1 (zh) * | 2019-11-14 | 2021-05-20 | 支付宝(杭州)信息技术有限公司 | 用户聚类及特征学习方法、设备、计算机可读介质 |
CN113313731A (zh) * | 2021-06-10 | 2021-08-27 | 东南大学 | 一种针对单目视频的三维人体姿态估计方法 |
CN114241515A (zh) * | 2021-11-19 | 2022-03-25 | 浙江工业大学 | 一种基于时空上下文特征感知的三维人体姿态估计方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111739078B (zh) * | 2020-06-15 | 2022-11-18 | 大连理工大学 | 一种基于上下文注意力机制的单目无监督深度估计方法 |
-
2022
- 2022-05-10 CN CN202210504347.4A patent/CN114973407B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021093368A1 (zh) * | 2019-11-14 | 2021-05-20 | 支付宝(杭州)信息技术有限公司 | 用户聚类及特征学习方法、设备、计算机可读介质 |
CN113313731A (zh) * | 2021-06-10 | 2021-08-27 | 东南大学 | 一种针对单目视频的三维人体姿态估计方法 |
CN114241515A (zh) * | 2021-11-19 | 2022-03-25 | 浙江工业大学 | 一种基于时空上下文特征感知的三维人体姿态估计方法 |
Non-Patent Citations (1)
Title |
---|
融合注意力机制和连接时序分类的多模态手语识别;王军;鹿姝;李云伟;;信号处理;20200925(09);第57-67页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114973407A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114973407B (zh) | 一种基于rgb-d的视频三维人体姿态估计方法 | |
Li et al. | DeepSLAM: A robust monocular SLAM system with unsupervised deep learning | |
CN111783582A (zh) | 一种基于深度学习的无监督单目深度估计算法 | |
CN111062326B (zh) | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 | |
CN111667535B (zh) | 一种针对遮挡场景下的六自由度位姿估计方法 | |
CN111127522B (zh) | 基于单目相机的深度光流预测方法、装置、设备及介质 | |
Bashirov et al. | Real-time rgbd-based extended body pose estimation | |
CN113284173A (zh) | 基于伪激光雷达的端到端的场景流、位姿联合学习方法 | |
Ramon et al. | Multi-view 3D face reconstruction in the wild using siamese networks | |
CN115115685A (zh) | 一种基于自注意力神经网络的单目图像深度估计算法 | |
Chen et al. | Denao: Monocular depth estimation network with auxiliary optical flow | |
CN117456124B (zh) | 一种基于背靠背双目鱼眼相机的稠密slam的方法 | |
CN116934970B (zh) | 一种基于先验知识引导的医学单视图三维重建装置 | |
Zhu et al. | Multimodal neural radiance field | |
CN117710429A (zh) | 一种融合CNN与Transformer改进的轻量化单目深度估计方法 | |
CN112116653A (zh) | 一种多张rgb图片的物体姿态估计方法 | |
Bhutani et al. | Unsupervised Depth and Confidence Prediction from Monocular Images using Bayesian Inference | |
CN114758205A (zh) | 用于3d人体姿态估计的多视角特征融合方法及系统 | |
Taguchi et al. | Unsupervised Simultaneous Learning for Camera Re-Localization and Depth Estimation from Video | |
Chen et al. | A compacted structure for cross-domain learning on monocular depth and flow estimation | |
CN114202606A (zh) | 图像处理方法、电子设置、存储介质及计算机程序产品 | |
CN112633300B (zh) | 一种多维交互的图像特征参数提取匹配方法 | |
Wang | Robust structure and motion recovery based on augmented factorization | |
CN115880334B (zh) | 一种自动机器学习图谱融合的视频物体跟踪方法 | |
Li et al. | Self-supervised depth estimation with uncertainty-weight joint loss function based on laparoscopic videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |