CN114973407A - 一种基于rgb-d的视频三维人体姿态估计方法 - Google Patents

一种基于rgb-d的视频三维人体姿态估计方法 Download PDF

Info

Publication number
CN114973407A
CN114973407A CN202210504347.4A CN202210504347A CN114973407A CN 114973407 A CN114973407 A CN 114973407A CN 202210504347 A CN202210504347 A CN 202210504347A CN 114973407 A CN114973407 A CN 114973407A
Authority
CN
China
Prior art keywords
human body
dimensional
depth
rgb
body posture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210504347.4A
Other languages
English (en)
Other versions
CN114973407B (zh
Inventor
伍韬
康文雄
田森平
王明晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210504347.4A priority Critical patent/CN114973407B/zh
Publication of CN114973407A publication Critical patent/CN114973407A/zh
Application granted granted Critical
Publication of CN114973407B publication Critical patent/CN114973407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于RGB‑D的视频三维人体姿态估计方法,包括以下步骤:使用RGB摄像头获取RGB视频,对于RGB摄像头拍摄的同一场景,使用深度相机获取对应的深度视频;获取RGB视频中每帧人体二维姿态,根据二维姿态从深度图像中获取关键点深度值,从而得到对应帧的二维人体姿态的深度向量;使用深度信息编码模块学习深度信息特征;将获取的二维人体姿态序列输入时序信息编码模块学习视频时间维度上的局部和全局信息,输出融合时间维度信息的特征,将该特征作为三维姿态假设生成模块的输入,生成出不同的三维姿态假设;使用注意力机制将三维姿态假设特征与深度信息特征进行注意力融合,将融合后的特征预测三维人体姿态结果。

Description

一种基于RGB-D的视频三维人体姿态估计方法
技术领域
本发明属于三维人体姿态估计领域,具体涉及一种基于RGB-D的视频三维人体姿态估计方法。
背景技术
基于深度学习的人体姿态估计领域在近年来引起了越来越多的关注和研究。作为计算机视觉的重要研究方向,人体姿态估计算法通过图像或视频数据,估计出人体的关键点坐标。人体姿态估计取得的关键点提供的人体骨骼以及运动信息可以应用于人机交互、运动分析、增强现实、虚拟现实等大量领域。人体姿态估计领域可以进一步分为二维人体姿态估计和三维人体姿态估计。二维人体姿态估计从图像或视频中估计人体关键点的像素坐标,而三维人体姿态估计需要估计出人体关键点在相机坐标系下的坐标。相比于前者,三维人体姿态提供了额外的深度信息,因此有更广泛的应用。随着元宇宙的兴起,三维人体姿态估计领域的重要性更上一层台阶。近年来随着硬件成本的下降,深度相机越来越普及,使用深度相机获取的深度图可以帮助三维人体姿态算法更准确地估计人体关键点的深度信息
基于RGB视频的三维人体姿态估计中,单目摄像头下的三维人体姿态估计方法使用神经网络模型从视频和图像中预测人体关节在相机坐标系的三维坐标。当前主流的视频三维人体姿态估计方法可以分为采用直接估计的方法和基于二维姿态提升到三维姿态的方法。前者直接从视频中估计某帧或某几帧的三维姿态信息,后者采用一个离线的二维人体姿态模型来估计出每一视频帧的二维关键点坐标,再将二维人体关键点序列作为三维姿态估计模型的输入最终预测出三维姿态信息。由于当前二维人体姿态算法得到的结果较为可靠,基于提升的方法在二维姿态估计任务中效果要好于直接估计的方法。基于提升的方法面临的最大挑战是深度歧义问题。由于图像和视频完全丢失了深度维度的信息,而从单帧的二维姿态到三维姿态可能存在多个可能的映射,因此三维人体姿态估计存在许多不确定性。当输入数据是视频时,可用通过学习时间维度的信息来减少这种不确定性。尽管多视角下的三维人体姿态估计可以有效解决深度歧义,然而这种方案对设备和场景的要求较高,在现实世界中的应用受限。
基于深度图的三维人体姿态估计中,深度歧义一直是三维人体姿态估计领域中的关键问题。随着深度相机的成本的不断降低,一些方法开始利用深度相机获得的深度信息来缓解深度歧义问题。在一幅室内的深度图像中,人体往往是整个深度图的前景,因此深度图能够一定程度上反映人体的位置和形状,并且深度相机获取的深度图像仅仅包含深度信息而不包含RGB信息,因此很好地保护了图像中人的身份信息。然而由于深度相机获得的是物体表面的深度信息,因此当人体处于某些特定姿势时,人体的部分关键部位会被遮挡,因而无法获取到准确的深度值。这造成了当人体处于某些姿态下,深度相机获取的深度信息不可靠,从而严重限制了基于深度图的方法可以应用的场景。
现有的基于提升的三维人体姿态估计算法无法有效解决深度歧义问题,因此估计的三维关键点坐标深度误差较大。视频三维人体姿态估计方法处理的视频帧数有限,对于较长的视频无法有效地对视频帧间进行关系建模。基于深度图的三维人体姿态估计算法只能处理特定视角下的人体姿态。对于关节遮挡的情况估计效果较差。
当前主流的基于RGB-D的三维人体姿态估计方法如3D Human Pose Estimationin RGBD Images for Robotic Task Learning使用接受RGB图片和深度图的输入,预测对应的三维姿态。然而,他们仅仅依靠单帧的输入,没有充分时序信息,因此对于长视频的整体效果较差;并且,他们将整个深度图直接作为网络的输入,无法解决关节遮挡情况下深度值不准确的问题,使得网络性能在复杂场景下较差。
发明内容
为解决上述技术问题,本发明提出一种基于RGB-D的视频三维人体姿态估计方法,首先用二维人体姿态估计算法估计出视频帧中每个人体关键点的像素坐标,然后根据像素坐标获取对应深度图上的深度值,然后将获取到的一组深度值用于辅助神经网络生成更准确的三维人体姿态,使用深度传感器获取视频每帧的深度图,结合视频的RGB信息和深度信息使用基于提升的方法联合估计人体的三维姿态,提高了三维人体姿态估计算法的准确度。使用了基于Transformer的编码器结构作为主干网络来学习视频三维人体姿态序列的时序信息,该网络结构可以处理任意长度的视频帧序列,拥有对长视频进行时序信息建模的能力。
本发明至少通过如下技术方案之一实现。
一种基于RGB-D的视频三维人体姿态估计方法,包括以下步骤:
1)使用RGB摄像头获取RGB视频;
2)对于RGB摄像头拍摄的同一场景,使用深度相机获取对应的深度视频;
3)使用离线二维人体姿态估计模型获取RGB视频中每帧人体二维姿态;
4)根据二维姿态从深度图像中获取关键点深度值,从而得到对应帧的二维人体姿态的深度向量;
5)使用深度信息编码模块学习深度信息特征;
6)将经过步骤3)获取的二维人体姿态序列输入时序信息编码模块学习视频时间维度上的局部和全局信息,输出融合时间维度信息的特征;
7)将步骤6)输出的特征作为三维姿态假设生成模块的输入,生成出不同的三维姿态假设;
8)使用注意力机制将三维姿态假设特征与深度信息特征进行注意力融合;
9)使用线性网络模型利用步骤8)融合后的特征预测三维人体姿态结果。
进一步地,所述深度信息编码模块使用Resnet18网络结构作为主干网络来对深度向量进行编码,得到对应的深度信息特征。
进一步地,所述时序信息编码模块使用Transformer的编码器结构作为主干网络,将人体二维姿态序列作为输入,经过由全连接层组成的姿态编码层获取二维人体姿态特征,然后将二维人体姿态特征输入到Transformer编码器,输出融合了时间维度信息的特征。
进一步地,所述三维姿态假设生成模块包括若干个编码模块,所述编码模块包括全连接层;将步骤6)获取的时间维度信息的特征作为若干个编码模块的输入,得到不同的特征编码,这些特征编码即为不同的三维人体姿态特征编码。
进一步地,所述使用注意力机制为基于Key-Query-Value的注意力机制。
进一步地,步骤8)包括以下步骤:
首先使用三个可学习的特征变换矩阵
Figure BDA0003636826890000041
分别将深度信息特征Xd、三维人体姿态特征编码Xh、Xh进行投影得到从而获得
Figure BDA0003636826890000042
然后使用式(1)计算注意力结果:
Figure BDA0003636826890000043
其中Attention为注意力计算结果,Q、K、V分别表示基于Key-Query-Value的注意力机制的Key、Query、Value特征;Dq、Dk、Dv分别表示Q、K、V在各自特征空间上的特征维度,T表示输出视频的长度,C表示获取的深度信息特征和获取人体姿态特征编码的维度,G表示三维姿态假设生成模块中的编码模块的数量。
进一步地,在计算Q和K的每行的内积结果后使用softmax函数来得到每个深度新特征关于G个假设的权重,在使用softmax函数之前使用
Figure BDA0003636826890000044
缩放内积结果以避免梯度消失问题。
进一步地,步骤8)使用多头注意力机制丰富的特征信息,具体计算方式如式(2)、式(3):
MultiHeadAttn(Q,K,V)=Concat(head1,…,headM)Wo (2)
headi=Attention(QWi Q,KWi K,VWi v) (3)
其中MultiHeadAttn(Q,K,V)为多头注意力计算的结果,Concat表示沿特征维度进行拼接操作,headi表示第i个头的注意力计算结果;
上式展示了M个头的多头自注意力计算过程。在计算第i个头时,首先由可学习的参数矩阵Wi Q、Wi k、Wi v将Q、K、V投影成Dk、Dk、Dv维度,然后利用式(1)的注意力计算公式算出该头的注意力结果,算出M个头的自注意力结果后,将所有结果沿特征维度进行拼接操作,最后使用参数矩阵Wo投影到原来的维度。
进一步地,所述线性网络模型的结构由全连接层组成的线性网络结构作为预测头,将特征投影到三维空间,从而得到每一帧的三维人体姿态。
进一步地,所述深度信息编码模块使用MobileNet网络结构作为主干网络来对深度向量进行编码。
与现有的技术相比,本发明的有益效果为:
1、本方法通过基于Transformer的编码器来处理视频的三维人体姿态问题,对于长视频有较强的时序建模能力,使得预测的三维人体姿态更加平滑且准确。
2、本方法在在RGB视频的基础上引入了深度摄像头获取的深度图信息,弥补了RGB视频丢失了深度信息的缺陷,从而能够有效缓解深度歧义问题。
3、本方法使用多假设生成和深度编码自注意力融合的方法来解决深度图像在关节遮挡情况下无法获得准确深度值的问题,有效提升了算法在复杂姿态下的泛化能力。
附图说明
图1为实施例三维人体姿态预测流程图;
图2为实施例Resnet18网络结构图;
图3为实施例多重假设生成模块示意图。
具体实施方式
下面结合附图和实施例对本发明的具体实施做进一步的说明。
如图1所示,基于RGB-D的视频三维人体姿态估计方法,包括以下步骤:
1)使用单目RGB摄像头获取视频;通过最常用的RGB摄像头来捕捉需要预测三维人体姿态的场景。拍摄的视频中应尽可能保证画面包含完整的人体,且避免出现多人在同一画面中的情况。视频的帧率不低于每秒25帧即可。
2)使用深度相机获取每帧深度图;对于步骤1)拍摄的同一场景,使用深度相机获取对应的深度视频。深度摄像头和RGB摄像头应该在拍摄前进行标定以保证像素对齐,同时深度视频和RGB视频的应该有相同的帧数。
3)使用离线二维人体姿态估计模型获取每帧人体二维姿态;
经过步骤1)获取RGB视频后,通过离线的二维人体姿态估计模型(离线二维人体姿态估计模型指可以直接使用的任意二维人体姿态估计模型,可以为使用级联金字塔网络)估计出RGB视频每帧的二维人体姿态,即所有关键点在视频帧上的像素坐标。在本实施例中,二维人体姿态和三维人体姿态的关键点都用人体的17个重要关节来表示。
4)根据二维姿态从深度图像中获取关键点深度值;经过步骤3)获取每帧的关键点像素坐标后,在对应深度图上获取每个关键点的深度值,从而得到该帧二维人体姿态的深度向量。
5)使用深度信息编码模块学习深度信息特征;经过步骤4)获取到视频每帧人体姿态的深度向量后,使用Resnet18网络结构作为主干网络来对深度向量进行编码。Resnet18网络结构如图2所示。网络结构由三个结构相同的子模块堆叠而成,每个子模块包括全连接层、ReLU激活函数层、批归一化层和随机失活层。将深度向量输入到Resnet18网络学习后可以获得人体姿态的整体深度信息特征。
具体来说,给定一段视频帧的深度向量
Figure BDA0003636826890000061
经过编码后会得到该视频的深度信息特征
Figure BDA0003636826890000062
其中T代表视频的帧数,J代表关键点数量,在实施例中是17,C代表输出特征的维度。
6)使用时序信息编码模块学习时序信息特征;
将经过步骤3)获取的二维人体姿态序列作为输入送入到时序信息编码模块来学习视频时间维度上的局部和全局信息。时序信息编码模块使用Transformer的编码器结构作为主干网络。该结构通过多头自注意力来学习视频帧间的相关信息。该模块接受人体二维姿态序列
Figure BDA0003636826890000071
作为输入,随后经过由全连接层组成的姿态编码层获取二维人体姿态特征
Figure BDA0003636826890000072
然后将该特征输入到Transformer编码器输出融合了时间维度信息的特征
Figure BDA0003636826890000073
7)使用三维姿态假设生成模块生成出不同的三维姿态假设;
本实施例引入了多重三维姿态假设生成模块来获取不同的三维姿态。该模块结构如图3所示。具体来说,为了获取G个不同的三维人体姿态特征,本实施例在时序信息编码模块之后添加了G个编码模块,所述编码模块包括全连接层,这些编码模块之间参数(全连接层的网络权重参数)是独立的。将步骤6)获取的融合了时间维度信息的特征Xt作为这G个编码模块的输入,可以得到G个同的特征编码,这些特征编码即为不同的三维人体姿态特征编码
Figure BDA0003636826890000074
本实施例将这些特征作为初始的三维人体姿态假设的特征表示,然后再利用它们与深度信息特征编码进行进一步融合,图3中
Figure BDA0003636826890000075
表示的是第i个全连接层生成的假设特征,i∈G,下标h意为hypothesis,上标1..G表示全连接层序号。
8)将三维姿态假设特征与深度信息特征进行注意力融合;
经过步骤5)~步骤7)处理之后,使用注意力机制来学习每一帧的深度信息特征与每个假设对应的相关性,然后计算出每个假设的可信度作为该假设的权重,最后通过将所有假设进行加权求和即可从多个假设三维姿态合成单个更准确的人体三维姿态。
本实施例使用基于Key-Query-Value的注意力机制。为了挖掘深度信息特征Xd和三维姿态假设特征Xh的关系,将Xd作为Query,将Xh作为Key和Value,因此注意力机制会计算Xd和Xh之间的相关性,并且根据该相关权重对Xh的所有假设进行加权求和。
具体来说,首先使用三个可学习的特征变换矩阵
Figure BDA0003636826890000076
Figure BDA0003636826890000077
分别将Xd、Xh、Xh进行投影得到从而获得
Figure BDA0003636826890000078
Figure BDA0003636826890000079
然后使用式(1)计算注意力结果:
Figure BDA0003636826890000081
其中Attention为注意力计算结果,Q、K、V分别表示基于Key-Query-Value的注意力机制的Key、Query、Value特征;
Figure BDA0003636826890000082
表示Q的维度为T×1×Dq,一般不需要特别说明。其他的
Figure BDA0003636826890000083
同理。Dq、Dk、Dv分别表示Q、K、V在各自特征空间上的特征维度,T表示输出视频的长度(视频帧数),C表示步骤5)获取的深度信息特征和步骤7)获取人体姿态特征编码的维度(二者维度都为C),H表示步骤7)中三维姿态假设生成模块中的编码模块的数量;
在上式中首先计算Q和K的每行的内积结果,然后使用softmax函数来得到每个深度新特征关于G个假设的权重。在使用softmax函数之前使用
Figure BDA0003636826890000084
缩放内积结果以避免梯度消失问题。
为了使本发明方法学习到更丰富的特征信息,本方法进一步使用多头注意力机制,具体计算方式如式(2)、式(3):
MultiHeadAttn(Q,K,V)=Concat(head1,…,headM)Wo (2)
headi=Attention(QWi Q,KWi K,VWi v) (3)
其中MultiHeadAttn(Q,K,V)为多头注意力计算的结果,Concat表示沿特征维度进行拼接操作,headi表示第i个头的注意力计算结果;
上式展示了M个头的多头自注意力计算过程。在计算第i个头时,首先由可学习的参数矩阵Wi Q、Wi k、Wi v将Q、K、V投影成Dk、Dk、Dv维度。然后利用式(1)的注意力计算公式算出该头的注意力结果。算出M个头的自注意力结果后,将所有结果沿特征维度进行拼接操作,最后使用一个参数矩阵Wo投影到原来的维度。
9)将融合后的特征用来预测出三维人体姿态结果
经过步骤8)得到经过自注意力融合后的三维人体姿态特征后,使用一个由全连接层组成的线性网络结构作为预测头,将该特征投影到RJ×3空间,从而得到每一帧的三维人体姿态。
实施例2
基于RGB-D的视频三维人体姿态估计方法,包括以下步骤:
1)使用单目RGB摄像头获取视频;通过最常用的RGB摄像头来捕捉需要预测三维人体姿态的场景。拍摄的视频中应尽可能保证画面包含完整的人体,且避免出现多人在同一画面中的情况。视频的帧率不低于每秒25帧即可。
2)使用深度相机获取每帧深度图;对于步骤1)拍摄的同一场景,使用深度相机获取对应的深度视频。深度摄像头和RGB摄像头应该在拍摄前进行标定以保证像素对齐,同时深度视频和RGB视频的应该有相同的帧数。
3)使用离线二维人体姿态估计模型获取每帧人体二维姿态;
经过步骤1)获取RGB视频后,通过离线的二维人体姿态估计模型(离线二维人体姿态估计模型指可以直接使用的任意二维人体姿态估计模型,可以为使用级联金字塔网络)估计出RGB视频每帧的二维人体姿态,即所有关键点在视频帧上的像素坐标。在本实施例中,二维人体姿态和三维人体姿态的关键点都用人体的17个重要关节来表示。
4)根据二维姿态从深度图像中获取关键点深度值;经过步骤3)获取每帧的关键点像素坐标后,在对应深度图上获取每个关键点的深度值,从而得到该帧二维人体姿态的深度向量。
5)使用深度信息编码模块学习深度信息特征;经过步骤4)获取到视频每帧人体姿态的深度向量后,使用MobileNet网络结构作为主干网络来对深度向量进行编码。
6)使用时序信息编码模块学习时序信息特征;
7)使用三维姿态假设生成模块生成出不同的三维姿态假设;
8)将三维姿态假设特征与深度信息特征进行注意力融合;
经过步骤5)~步骤7)处理之后,使用注意力机制来学习每一帧的深度信息特征与每个假设对应的相关性,然后计算出每个假设的可信度作为该假设的权重,最后通过将所有假设进行加权求和即可从多个假设三维姿态合成单个更准确的人体三维姿态。
实施例3
基于RGB-D的视频三维人体姿态估计方法,包括以下步骤:
1)使用单目RGB摄像头获取视频;通过最常用的RGB摄像头来捕捉需要预测三维人体姿态的场景。拍摄的视频中应尽可能保证画面包含完整的人体,且避免出现多人在同一画面中的情况。视频的帧率不低于每秒25帧即可。
2)使用深度相机获取每帧深度图;对于步骤1)拍摄的同一场景,使用深度相机获取对应的深度视频。深度摄像头和RGB摄像头应该在拍摄前进行标定以保证像素对齐,同时深度视频和RGB视频的应该有相同的帧数。
3)使用离线二维人体姿态估计模型获取每帧人体二维姿态;
经过步骤1)获取RGB视频后,通过离线的二维人体姿态估计模型(离线二维人体姿态估计模型指可以直接使用的任意二维人体姿态估计模型,可以为使用级联金字塔网络)估计出RGB视频每帧的二维人体姿态,即所有关键点在视频帧上的像素坐标。在本实施例中,二维人体姿态和三维人体姿态的关键点都用人体的17个重要关节来表示。
4)根据二维姿态从深度图像中获取关键点深度值;经过步骤3)获取每帧的关键点像素坐标后,在对应深度图上获取每个关键点的深度值,从而得到该帧二维人体姿态的深度向量。
5)使用深度信息编码模块学习深度信息特征;经过步骤4)获取到视频每帧人体姿态的深度向量后,使用MobileNet网络结构或者Resnet18网络结构作为主干网络来对深度向量进行编码。
6)使用时序信息编码模块学习时序信息特征;
7)使用三维姿态假设生成模块生成出不同的三维姿态假设;
8)将三维姿态假设特征与深度信息特征进行注意力融合;
经过步骤5)~步骤7)处理之后,使用注意力机制来学习每一帧的深度信息特征与每个假设对应的相关性,然后计算出每个假设的可信度作为该假设的权重,最后通过将所有假设进行加权求和即可从多个假设三维姿态合成单个更准确的人体三维姿态。
本实施例使用基于Key-Query-Value的注意力机制。为了挖掘深度信息特征Xd和三维姿态假设特征Xh的关系,将Xd作为Query,将Xh作为Key和Value,因此注意力机制会计算Xd和Xh之间的相关性,并且根据该相关权重对Xh的所有假设进行加权求和。
具体来说,首先使用三个可学习的特征变换矩阵
Figure BDA0003636826890000111
Figure BDA0003636826890000112
分别将Xd、Xh、Xh进行投影得到从而获得
Figure BDA0003636826890000113
Figure BDA0003636826890000114
然后使用式(1)计算注意力结果:
Figure BDA0003636826890000115
其中Attention为注意力计算结果,Q、K、V分别表示基于Key-Query-Value的注意力机制的Key、Query、Value特征;
Figure BDA0003636826890000116
表示Q的维度为T×1×Dq,一般不需要特别说明。其他的
Figure BDA0003636826890000117
同理。Dq、Dk、Dv分别表示Q、K、V在各自特征空间上的特征维度,T表示输出视频的长度(视频帧数),C表示步骤5)获取的深度信息特征和步骤7)获取人体姿态特征编码的维度(二者维度都为C),H表示步骤7)中三维姿态假设生成模块中的编码模块的数量;
在上式中首先计算Q和K的每行的内积结果,然后使用softmax函数来得到每个深度新特征关于H个假设的权重。在使用softmax函数之前使用
Figure BDA0003636826890000118
缩放内积结果以避免梯度消失问题。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (10)

1.一种基于RGB-D的视频三维人体姿态估计方法,其特征在于,包括以下步骤:
1)使用RGB摄像头获取RGB视频;
2)对于RGB摄像头拍摄的同一场景,使用深度相机获取对应的深度视频;
3)使用离线二维人体姿态估计模型获取RGB视频中每帧人体二维姿态;
4)根据二维姿态从深度图像中获取关键点深度值,从而得到对应帧的二维人体姿态的深度向量;
5)使用深度信息编码模块学习深度信息特征;
6)将经过步骤3)获取的二维人体姿态序列输入时序信息编码模块学习视频时间维度上的局部和全局信息,输出融合时间维度信息的特征;
7)将步骤6)输出的特征作为三维姿态假设生成模块的输入,生成出不同的三维姿态假设;
8)使用注意力机制将三维姿态假设特征与深度信息特征进行注意力融合;
9)使用线性网络模型利用步骤8)融合后的特征预测三维人体姿态结果。
2.根据权利要求1所述的一种基于RGB-D的视频三维人体姿态估计方法,其特征在于,所述深度信息编码模块使用Resnet18网络结构作为主干网络来对深度向量进行编码,得到对应的深度信息特征。
3.根据权利要求1所述的一种基于RGB-D的视频三维人体姿态估计方法,其特征在于,所述时序信息编码模块使用Transformer的编码器结构作为主干网络,将人体二维姿态序列作为输入,经过由全连接层组成的姿态编码层获取二维人体姿态特征,然后将二维人体姿态特征输入到Transformer编码器,输出融合了时间维度信息的特征。
4.根据权利要求1所述的一种基于RGB-D的视频三维人体姿态估计方法,其特征在于,所述三维姿态假设生成模块包括若干个编码模块,所述编码模块包括全连接层;将步骤6)获取的时间维度信息的特征作为若干个编码模块的输入,得到不同的特征编码,这些特征编码即为不同的三维人体姿态特征编码。
5.根据权利要求1所述的一种基于RGB-D的视频三维人体姿态估计方法,其特征在于,所述使用注意力机制为基于Key-Query-Value的注意力机制。
6.根据权利要求1所述的一种基于RGB-D的视频三维人体姿态估计方法,其特征在于,步骤8)包括以下步骤:
首先使用三个可学习的特征变换矩阵
Figure FDA0003636826880000021
分别将深度信息特征Xd、三维人体姿态特征编码Xh、Xh进行投影得到从而获得
Figure FDA0003636826880000022
然后使用式(1)计算注意力结果:
Figure FDA0003636826880000023
其中Attention为注意力计算结果,Q、K、V分别表示基于Key-Query-Value的注意力机制的Key、Query、Value特征;Dq、Dk、Dv分别表示Q、K、V在各自特征空间上的特征维度,T表示输出视频的长度,C表示获取的深度信息特征和获取人体姿态特征编码的维度,G表示三维姿态假设生成模块中的编码模块的数量。
7.根据权利要求6所述的一种基于RGB-D的视频三维人体姿态估计方法,其特征在于,在计算Q和K的每行的内积结果后使用softmax函数来得到每个深度新特征关于G个假设的权重,在使用softmax函数之前使用
Figure FDA0003636826880000024
缩放内积结果以避免梯度消失问题。
8.根据权利要求1所述的一种基于RGB-D的视频三维人体姿态估计方法,其特征在于,步骤8)使用多头注意力机制丰富的特征信息,具体计算方式如式(2)、式(3):
MultiHeadAttn(Q,K,V)=Concat(head1,...,headM)Wo (2)
headi=Attention(QWi Q,KWi K,VWi v) (3)
其中MultiHeadAttn(Q,K,V)为多头注意力计算的结果,Concat表示沿特征维度进行拼接操作,headi表示第i个头的注意力计算结果;
上式展示了M个头的多头自注意力计算过程。在计算第i个头时,首先由可学习的参数矩阵Wi Q、Wi k、Wi v将Q、K、V投影成Dk、Dk、Dv维度,然后利用式(1)的注意力计算公式算出该头的注意力结果,算出M个头的自注意力结果后,将所有结果沿特征维度进行拼接操作,最后使用参数矩阵Wo投影到原来的维度。
9.根据权利要求1~8任一项所述的一种基于RGB-D的视频三维人体姿态估计方法,其特征在于,所述线性网络模型的结构由全连接层组成的线性网络结构作为预测头,将特征投影到三维空间,从而得到每一帧的三维人体姿态。
10.根据权利要求1所述的一种基于RGB-D的视频三维人体姿态估计方法,其特征在于,所述深度信息编码模块使用MobileNet网络结构作为主干网络来对深度向量进行编码。
CN202210504347.4A 2022-05-10 2022-05-10 一种基于rgb-d的视频三维人体姿态估计方法 Active CN114973407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210504347.4A CN114973407B (zh) 2022-05-10 2022-05-10 一种基于rgb-d的视频三维人体姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210504347.4A CN114973407B (zh) 2022-05-10 2022-05-10 一种基于rgb-d的视频三维人体姿态估计方法

Publications (2)

Publication Number Publication Date
CN114973407A true CN114973407A (zh) 2022-08-30
CN114973407B CN114973407B (zh) 2024-04-02

Family

ID=82982199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210504347.4A Active CN114973407B (zh) 2022-05-10 2022-05-10 一种基于rgb-d的视频三维人体姿态估计方法

Country Status (1)

Country Link
CN (1) CN114973407B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115984384A (zh) * 2023-03-20 2023-04-18 乐歌人体工学科技股份有限公司 一种基于面部姿态图像估计的桌面升降控制方法
CN116071785A (zh) * 2023-03-06 2023-05-05 合肥工业大学 一种基于多维空间交互的人体姿态估计方法
CN116645726A (zh) * 2023-05-30 2023-08-25 首都师范大学 利用三维人体恢复进行时空双分支融合的行为识别方法及系统
CN116645578A (zh) * 2023-05-18 2023-08-25 广东科技学院 多模态数据融合方法及其三维目标检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021093368A1 (zh) * 2019-11-14 2021-05-20 支付宝(杭州)信息技术有限公司 用户聚类及特征学习方法、设备、计算机可读介质
CN113313731A (zh) * 2021-06-10 2021-08-27 东南大学 一种针对单目视频的三维人体姿态估计方法
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
CN114241515A (zh) * 2021-11-19 2022-03-25 浙江工业大学 一种基于时空上下文特征感知的三维人体姿态估计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021093368A1 (zh) * 2019-11-14 2021-05-20 支付宝(杭州)信息技术有限公司 用户聚类及特征学习方法、设备、计算机可读介质
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
CN113313731A (zh) * 2021-06-10 2021-08-27 东南大学 一种针对单目视频的三维人体姿态估计方法
CN114241515A (zh) * 2021-11-19 2022-03-25 浙江工业大学 一种基于时空上下文特征感知的三维人体姿态估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王军;鹿姝;李云伟;: "融合注意力机制和连接时序分类的多模态手语识别", 信号处理, no. 09, 25 September 2020 (2020-09-25), pages 57 - 67 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071785A (zh) * 2023-03-06 2023-05-05 合肥工业大学 一种基于多维空间交互的人体姿态估计方法
CN115984384A (zh) * 2023-03-20 2023-04-18 乐歌人体工学科技股份有限公司 一种基于面部姿态图像估计的桌面升降控制方法
CN116645578A (zh) * 2023-05-18 2023-08-25 广东科技学院 多模态数据融合方法及其三维目标检测方法
CN116645578B (zh) * 2023-05-18 2024-01-26 广东科技学院 多模态数据融合方法及其三维目标检测方法
CN116645726A (zh) * 2023-05-30 2023-08-25 首都师范大学 利用三维人体恢复进行时空双分支融合的行为识别方法及系统
CN116645726B (zh) * 2023-05-30 2024-02-02 首都师范大学 利用三维人体恢复进行时空双分支融合的行为识别方法及系统

Also Published As

Publication number Publication date
CN114973407B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN114973407B (zh) 一种基于rgb-d的视频三维人体姿态估计方法
Li et al. DeepSLAM: A robust monocular SLAM system with unsupervised deep learning
CN108038420B (zh) 一种基于深度视频的人体行为识别方法
CN111667535B (zh) 一种针对遮挡场景下的六自由度位姿估计方法
JP2021518622A (ja) 自己位置推定、マッピング、およびネットワークトレーニング
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
CN111127522B (zh) 基于单目相机的深度光流预测方法、装置、设备及介质
CN113284173B (zh) 一种基于伪激光雷达的端到端的场景流、位姿联合学习方法
CN108648224A (zh) 一种基于人工神经网络的实时场景布局识别及重建的方法
Xu et al. Deep probabilistic feature-metric tracking
Chen et al. Denao: Monocular depth estimation network with auxiliary optical flow
Hwang et al. Self-supervised monocular depth estimation using hybrid transformer encoder
CN114266823A (zh) 一种结合SuperPoint网络特征提取的单目SLAM方法
Shih et al. Video interpolation and prediction with unsupervised landmarks
Bhutani et al. Unsupervised Depth and Confidence Prediction from Monocular Images using Bayesian Inference
Zhu et al. Multimodal neural radiance field
Postnikov et al. Conditioned Human Trajectory Prediction using Iterative Attention Blocks
CN112116653B (zh) 一种多张rgb图片的物体姿态估计方法
CN114758205A (zh) 用于3d人体姿态估计的多视角特征融合方法及系统
Kim et al. MHCanonNet: Multi-Hypothesis Canonical lifting Network for self-supervised 3D human pose estimation in the wild video
Chen et al. End-to-end multi-view structure-from-motion with hypercorrelation volume
CN114202606A (zh) 图像处理方法、电子设置、存储介质及计算机程序产品
Xia et al. VitPose: multi-view 3D human pose estimation with vision transformer
Taguchi et al. Unsupervised Simultaneous Learning for Camera Re-Localization and Depth Estimation from Video
CN117456124B (zh) 一种基于背靠背双目鱼眼相机的稠密slam的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant