CN113850236B - 3d姿态估计方法、装置和计算机设备及存储介质 - Google Patents
3d姿态估计方法、装置和计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113850236B CN113850236B CN202111427804.6A CN202111427804A CN113850236B CN 113850236 B CN113850236 B CN 113850236B CN 202111427804 A CN202111427804 A CN 202111427804A CN 113850236 B CN113850236 B CN 113850236B
- Authority
- CN
- China
- Prior art keywords
- matrix
- posture
- image
- dimensional coordinates
- biological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种3D姿态估计方法、装置和计算机设备及存储介质,系统采集多帧连续的生物姿态2D图像,然后根据各个生物姿态2D图像解析得到生物姿态2D图像包含的生物在各帧生物姿态2D图像分别对应的各个关节点二维坐标。最后,将各帧生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行t个阶段的时序卷积运算,得到生物的各个关节点三维坐标,生成生物的3D姿态信息。本申请通过分析图像序列的长时序信息和短时序信息,从而得到不同尺度的时序信息,再将不同尺度的时序信息进行融合,从而准确得到图像中生物各个关节点的三维坐标,提高对图像中生物的3D姿态的识别精度。
Description
技术领域
本申请涉及姿态识别技术领域,特别涉及一种3D姿态估计方法、装置和计算机设备及存储介质。
背景技术
现有的3D姿态估计算法主要分为两个种类:直接法和间接法,直接法是从2D图片直接暴力回归得到3D坐标;间接法是先获取2D信息,然后再转换为3D姿态。具体而言,直接法主要是建立了图像到3D坐标的端到端模型,能从图片中获取到丰富的信息,但并没有中间监督的过程,模型受图片的背景、光照和人的穿着影响较大,对于单一模型来说需要学习的特征较复杂。间接法的相关研究中,有一部分方法是让2D姿态网络和2D-3D姿态网络同时训练。这类方法不像直接法直接从图片中回归得到3D坐标,而是通过网络先得到2D信息(一般都会用heatmap作为2D信息)作为特征的中间表示,但这种方法需要复杂的网络结构和充足的训练样本。大部分方法则是直接使用预训练好的2D姿态网络得到2D骨架序列,然后将得到的2D坐标输入到3D姿态估计网络中。这种方法能得以很好地实现与流行,主要得益于目前的2D姿态估计较为成熟。这种方法可以减少模型在2D姿态估计上的学习压力;网络结构简单,也更轻量;训练快,占用显存少。但是,现有技术中所使用的的输入通常为单帧图片,而单帧图片所包含的姿态信息有限,从而导致最终识别所得的3D姿态信息准确度较低。
发明内容
本申请的主要目的为提供一种3D姿态估计方法、装置和计算机设备及存储介质,旨在解决现有3D姿态估计算法准确度较低的弊端。
为实现上述目的,本申请提供了一种3D姿态的估计方法,包括:
采集多帧连续的生物姿态2D图像;
根据各所述生物姿态2D图像解析得到所述生物姿态2D图像包含的生物在各帧所述生物姿态2D图像分别对应的各个关节点二维坐标;
将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行t个阶段的时序卷积运算,得到所述生物的各个关节点三维坐标,生成所述生物的3D姿态信息。
本申请还提供了一种3D姿态的获取装置,包括:
采集模块,用于采集多帧连续的生物姿态2D图像;
解析模块,用于根据各所述生物姿态2D图像解析得到所述生物姿态2D图像包含的生物在各帧所述生物姿态2D图像分别对应的各个关节点二维坐标;
识别模块,用于将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行t个阶段的时序卷积运算,得到所述生物的各个关节点三维坐标,生成所述生物的3D姿态信息。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请中提供的一种3D姿态估计方法、装置和计算机设备及存储介质,系统采集多帧连续的生物姿态2D图像,然后根据各个生物姿态2D图像解析得到生物姿态2D图像包含的生物在各帧生物姿态2D图像分别对应的各个关节点二维坐标。最后,将各帧生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式输入3D姿态估计算法网络进行t个阶段的时序卷积运算,得到生物的各个关节点三维坐标,生成生物的3D姿态信息。本申请通过分析图像序列的长时序信息和短时序信息,从而得到不同尺度的时序信息,再将不同尺度的时序信息进行融合,从而准确得到图像中生物各个关节点的三维坐标,提高对图像中生物的3D姿态的识别精度。
附图说明
图1是本申请一实施例中3D姿态的估计方法的流程示意图;
图2是本申请一实施例中3D姿态估计算法网络的网络结构图;
图3是本申请一实施例中多尺度时序信息模块的网络结构图;
图4是本申请一实施例中3D姿态的估计装置的结构框图;
图5是本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例还提供了一种3D姿态的估计方法,包括:
S1:采集多帧连续的生物姿态2D图像;
S2:根据各所述生物姿态2D图像解析得到所述生物姿态2D图像包含的生物在各帧所述生物姿态2D图像分别对应的各个关节点二维坐标;
S3:将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行t个阶段的时序卷积运算,得到所述生物的各个关节点三维坐标,生成所述生物的3D姿态信息。
本实施例中,识别系统采集多帧连续的生物姿态2D图像,其中,生物姿态2D图像可以由摄像装置即时采集,也可以为预先录取的一段视频影像,各帧生物姿态2D图像在时间上为连续的。识别系统根据各帧生物姿态2D图像解析得到生物姿态2D图像所包含的生物在各帧生物姿态2D图像分别对应的各个关节点二维坐标(即每帧生物姿态2D图像中的生物的各个关节点二维坐标),其中,识别系统可以通过深度神经网络进行人体2D姿态估计,也可以通过堆叠沙漏网络进行人体2D姿态估计,在此不做具体限制。识别系统将各帧生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式输入3D姿态估计算法网络进行t个阶段的时序卷积运算,将输入矩阵进行降维、融合,从而得到生物姿态2D图像中生物的各个关节点三维坐标(假定输入的生物姿态2D图像的帧数为N帧,生物的关节点数量为J,关节点二维坐标为(x,y)则各帧生物姿态2D图像分别对应的各个关节点二维坐标行程的矩阵为N*2J;在经过入3D姿态估计算法网络进行t个阶段的时序卷积运算后,输出的最终矩阵为1*3J,最终矩阵中的值即为生物的各个关节点三维坐标的值,即x、y、z的值)。识别系统综合各个关节点三维坐标,生成生物的3D姿态信息。
本实施例中,识别系统能够识别3D姿态的生物种类,取决于使用的训练数据的来源,比如使用人类的训练数据来训练模型,则训练后的3D姿态估计算法网络可以识别人类的3D姿态;如果使用猫类的训练数据来训练模型,则训练后的3D姿态估计算法网络可以识别猫类的3D姿态。
优选的,为了更具体地说明本申请的技术方案,本实施例中所提及的3D姿态估计算法网络的网络架构如图2所示,3D姿态估计算法网络包括长时序信息模块A4、卷积模块A6和预设数量个多尺度时序信息模块A5;
所述长时序信息模块A4、各所述多尺度时序信息模块A5和所述卷积模块A6依次串联连接;
所述长时序信息模块A4由3d 1DConv层、BatchNorm层、ReLU层和Dropout层依次连接组成;
所述卷积模块A6由1d 1DConv层组成。
优选的,所述3d 1DConv层的空洞因子d=2t-1,其中,t表征所述3d 1DConv层所在阶段数。
本实施例中,3D姿态估计算法网络包括长时序信息模块A4、卷积模块A6和预设数量(本实施例中假定预设数量为t,其具体值可以根据实际需要进行自定义,在此不做具体限制)个如上所述的多尺度时序信息模块A5,长时序信息模块A4、t个多尺度时序信息模块A5和卷积模块A6依次串联连接。具体地,长时序信息模块A4的网络结构与长时序信息分支A2相同,由3d 1DConv层、BatchNorm层、ReLU层和Dropout层依次连接组成;卷积模块A6由1d1DConv层组成。优选的,长时序信息模块A4和多尺度时序信息模块A5的3d 1DConv层的空洞因子d的值与3d 1DConv层所处的阶段数相关联,具体关联关系为:d=2t-1,t即表征3d1DConv层所在的多尺度时序信息模块A5或长时序信息模块A4的阶段数。如图2所示,长时序信息模块A4位于3D姿态估计算法网络的第一阶段,则3d 1DConv层的空洞因子d为1;第一个多尺度时序信息模块A5位于3D姿态估计算法网络的第二阶段,则3d 1DConv层的空洞因子d为2;第二个多尺度时序信息模块A5位于3D姿态估计算法网络的第三阶段,则3d 1DConv层的空洞因子d为4,依次类推。长时序信息分支A2的卷积核大小为3可使得残差块(即skip-connection分支A1)指数级增大感受野,而参数的数量仅线性增加。卷积核大小和空洞卷积的设置使得对于任何输出帧的感受野形成一种树状,能够覆盖所有的输入帧。3D姿态估计算法网络最后一个输出层包含所有输入序列的一个3D姿态,同时考虑了过去和未来的时间信息(即综合了多尺度时序信息),有效提高了3D姿态的估计精确度。
优选的,t的值设置为4,整个3D姿态估计算法网络的网络结构简单,在兼顾精度的同时,提升模型的速度,从而更好的应用于嵌入式平台。
进一步的,如图3所示,多尺度时序信息模块A5包括skip-connection分支A1、长时序信息分支A2和短时序信息分支A3,所述skip-connection分支A1、所述长时序信息分支A2和所述短时序信息分支A3并联连接;
所述skip-connection分支A1由Slice层组成;
所述长时序信息分支A2由3d 1DConv层、BatchNorm层、ReLU层和Dropout层依次连接组成;
所述短时序信息分支A3由1d 1DConv层、BatchNorm层、ReLU层、Dropout层和Slice层依次连接组成。
本实施例中,多尺度时序信息模块A5包括skip-connection分支A1、长时序信息分支A2和短时序信息分支A3,skip-connection分支A1、长时序信息分支A2和短时序信息分支A3并联连接。具体地,skip-connection分支A1由Slice层组成,用于执行切片操作,以保证skip-connection分支A1得到的特征与长时序信息分支A2得到的特征的维度相同。长时序信息分支A2由3d 1DConv层、BatchNorm层、ReLU层和Dropout层依次连接组成,3d 1DConv层用于执行卷积运算,其中,3d 1DConv层为卷积核尺寸为3、空洞因子为d的一维卷积;BatchNorm(Batch Normalization)层用于执行批归一化;ReLU(Rectified Linear Unit)层用于执行线性修正;Dropout层用于防止过拟合。短时序信息分支A3由1d 1DConv层、BatchNorm层、ReLU层、Dropout层和Slice层依次连接组成,其中,1d 1DConv层为卷积核尺寸为1、空洞因子为d的一维卷积;BatchNorm层、ReLU层、Dropout层的作用与在长时序信息分支A2中的作用相同;Slice层组成,用于执行切片操作,以保证短时序信息分支A3得到的特征与长时序信息分支A2得到的特征的维度相同。输入的矩阵特征经过skip-connection分支A1、长时序信息分支A2和短时序信息分支A3分别进行降维处理后,在三个分支的输出均为降维后的矩阵特征;然后在多尺度时序信息模块A5的输出处做求和运算,使得三个分支的输出矩阵特征融合为一个矩阵特征,实现多尺度时序信息的融合。
进一步的,所述将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行t个阶段的时序卷积运算,得到所述生物的各个关节点三维坐标,生成所述生物的3D姿态信息的步骤,包括:
S301:将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行第一阶段处理,依次进行一维卷积运算、BatchNorm运算、ReLU运算和Dropout运算,得到第一中间矩阵;
S302:将所述第一中间矩阵输入下一阶段进行时序卷积运算,循环t个阶段,得到第二中间矩阵,其中,循环过程中上一阶段的时序卷积运算的输出作为下一阶段的时序卷积运算的输入;
S303:将所述第二中间矩阵进行卷积运算,得到最终矩阵;
S304:根据所述最终矩阵解析得到各所述关节点三维坐标,并根据各所述关节点三维坐标生成所述3D姿态信息。
优选的,所述时序卷积运算对应的卷积层的空洞因子与循环的阶段数对应,d=2t -1,其中,d表征卷积层的空洞音素,t表征时序卷积运算对应的循环的阶段数。
本实施例中,识别系统将各帧生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式输入第一阶段的长时序信息模块A4,依次进行一维卷积运算、BatchNorm运算、ReLU运算和Dropout运算后,得到第一中间矩阵;其中,长时序信息模块A4的3d 1DConv层的空洞因子与阶段数对应,即第一阶段中的3d 1DConv层的空洞因子为1。然后将第一中间矩阵输入下一阶段的多尺度时序信息模块A5进行时序卷积运算,持续循环t个阶段,在循环结束后得到第二中间矩阵。其中,循环过程中,各阶段的多尺度时序信息模块A5的空洞因子与阶段数对应(d=2t-1,d为空洞因子,第二阶段的空洞因子为2,第三阶段的空洞因子为4,依次类推);上一阶段的多尺度时序信息模块A5的输出作为下一阶段的多尺度时序信息模块A5的输入(即第二阶段的多尺度时序信息模块A5的输出作为第三阶段的多尺度时序信息模块A5的输入,第三阶段的多尺度时序信息模块A5的输出作为第四阶段的多尺度时序信息模块A5的输入,依次类推)。识别系统将第二中间矩阵输入卷积模块A6进行一维卷积运算,得到最终矩阵,最终矩阵的值即表征了生物的各个关节点的三维坐标。因此,识别系统根据最终矩阵解析得到生物的各个关节点三维坐标,并根据各个关节点三维坐标生成生物的3D姿态信息。
进一步的,所述将所述第一中间矩阵输入下一阶段进行时序卷积运算,循环t个阶段,得到第二中间矩阵中,单个所述时序卷积运算的步骤,包括:
S3021:将所述第一中间矩阵进行切片操作,得到第一中间子矩阵;对所述第一中间矩阵依次进行一维卷积运算、BatchNorm运算、ReLU运算和Dropout运算,得到第二中间子矩阵;对所述第一中间矩阵依次进行一维卷积运算、BatchNorm运算、ReLU运算、Dropout运算和切片操作,得到第三中间子矩阵;
S3022:将所述第一中间子矩阵、所述第二中间子矩阵和所述第三中间子矩阵进行求和运算,融合得到第三中间矩阵,所述第三中间矩阵表征当前阶段的时序卷积运算的输出。
本实施例对t个阶段的时序卷积运算的单个阶段进行说明,具体地,识别系统将上一阶段模块(上一阶段模块可以是长时序信息模块A4,也可以是多尺度时序信息模块A5)输出的第一中间矩阵输入下一阶段的多尺度时序信息模块A5,分别由多尺度时序信息模块A5的三个分支进行并列处理。其中,skip-connection分支A1对第一中间矩阵进行切片操作,以保证skip-connection分支A1得到的矩阵特征与长时序信息分支A2得到的矩阵特征的维度相同,得到第一中间子矩阵。第一中间矩阵在长时序信息分支A2内依次进行一维卷积运算、BatchNorm运算、ReLU运算和Dropout运算,得到第二中间子矩阵。并且,由短时序信息分支A3对第一中间矩阵依次进行一维卷积运算、BatchNorm运算、ReLU运算、Dropout运算和切片操作,得到第三中间子矩阵。第一中间子矩阵、第二中间子矩阵和第三中间子矩阵在多尺度时序信息模块A5的输出处进行求和计算,融合得到第三中间矩阵,实现多尺度时序信息的融合;该第三中间矩阵表征当前阶段的时序卷积运算的输出,可以作为下一阶段的多尺度时序信息模块A5的输入,或者作为卷积模块A6的输入(即作为第二中间矩阵)。
进一步的,所述根据各所述生物姿态2D图像解析得到所述生物姿态2D图像包含的生物在各帧所述生物姿态2D图像分别对应的各个关节点二维坐标的步骤,包括:
S201:将各所述生物姿态2D图像输入预先训练的姿态识别模型进行姿态估计,得到各帧所述生物姿态2D图像分别对应的各所述关节点二维坐标,其中,所述姿态识别模型为深度学习网络。
本实施例中,识别系统将各个生物姿态2D图像输入预先训练的姿态识别模型进行姿态估计,从而得到各帧生物姿态2D图像分别对应的各个关节点二维坐标。其中,姿态识别模型为深度学习网络,使用生物的2D姿态信息作为训练数据通过深度学习训练得到。
参照图4,本申请一实施例中还提供了一种3D姿态估计装置,包括:
采集模块1,用于采集多帧连续的生物姿态2D图像;
解析模块2,用于根据各所述生物姿态2D图像解析得到所述生物姿态2D图像包含的生物在各帧所述生物姿态2D图像分别对应的各个关节点二维坐标;
识别模块3,用于将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行t个阶段的时序卷积运算,得到所述生物的各个关节点三维坐标,生成所述生物的3D姿态信息。
进一步的,所述识别模块3,包括:
第一运算单元,用于将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行第一阶段处理,依次进行一维卷积运算、BatchNorm运算、ReLU运算和Dropout运算,得到第一中间矩阵;
循环单元,用于将所述第一中间矩阵输入下一阶段进行时序卷积运算,循环t个阶段,得到第二中间矩阵,其中,循环过程中上一阶段的时序卷积运算的输出作为下一阶段的时序卷积运算的输入;
第二运算单元,用于将所述第二中间矩阵进行卷积运算,得到最终矩阵;
解析单元,用于根据所述最终矩阵解析得到各所述关节点三维坐标,并根据各所述关节点三维坐标生成所述3D姿态信息。
优选的,所述时序卷积运算对应的卷积层的空洞因子与循环的阶段数对应,d=2t -1,其中,d表征卷积层的空洞音素,t表征时序卷积运算对应的循环的阶段数。
进一步的,所述循环单元,包括:
第一运算子单元,用于将所述第一中间矩阵进行切片操作,得到第一中间子矩阵;对所述第一中间矩阵依次进行一维卷积运算、BatchNorm运算、ReLU运算和Dropout运算,得到第二中间子矩阵;对所述第一中间矩阵依次进行一维卷积运算、BatchNorm运算、ReLU运算、Dropout运算和切片操作,得到第三中间子矩阵;
第二运算子单元,用于将所述第一中间子矩阵、所述第二中间子矩阵和所述第三中间子矩阵进行求和运算,融合得到第三中间矩阵,所述第三中间矩阵表征当前阶段的时序卷积运算的输出。
进一步的,所述解析模块2,包括:
识别单元,用于将各所述生物姿态2D图像输入预先训练的姿态识别模型进行姿态估计,得到各帧所述生物姿态2D图像分别对应的各所述关节点二维坐标,其中,所述姿态识别模型为深度学习网络。
本实施例中,3D姿态的获取装置中各模块、单元、子单元用于对应执行与上述3D姿态的估计方法中的各个步骤,其具体实施过程在此不做详述。
本实施例提供的一种3D姿态的估计装置,应用时,识别系统采集多帧连续的生物姿态2D图像,然后根据各帧生物姿态2D图像解析得到生物姿态2D图像包含的生物在各帧生物姿态2D图像分别对应的各个关节点二维坐标。最后将各帧生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行t个阶段的时序卷积运算,得到生物的各个关节点三维坐标,生成生物的3D姿态信息。本申请通过分析图像序列的长时序信息和短时序信息,从而得到不同尺度的时序信息,再将不同尺度的时序信息进行融合,从而准确得到图像中生物各个关节点的三维坐标,提高对图像中生物的3D姿态的识别精度。
参照图5,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储生物姿态2D图像等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种3D姿态的估计方法,应用于如上所述的3D姿态估计算法网络结构。
上述处理器执行上述3D姿态的估计方法的步骤:
S1:采集多帧连续的生物姿态2D图像;
S2:根据各所述生物姿态2D图像解析得到所述生物姿态2D图像包含的生物在各帧所述生物姿态2D图像分别对应的各个关节点二维坐标;
S3:将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行t个阶段的时序卷积运算,得到所述生物的各个关节点三维坐标,生成所述生物的3D姿态信息。
进一步的,所述将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行t个阶段的时序卷积运算,得到所述生物的各个关节点三维坐标,生成所述生物的3D姿态信息的步骤,包括:
S301:将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行第一阶段处理,依次进行一维卷积运算、BatchNorm运算、ReLU运算和Dropout运算,得到第一中间矩阵;
S302:将所述第一中间矩阵输入下一阶段进行时序卷积运算,循环t个阶段,得到第二中间矩阵,其中,循环过程中上一阶段的时序卷积运算的输出作为下一阶段的时序卷积运算的输入;
S303:将所述第二中间矩阵进行卷积运算,得到最终矩阵;
S304:根据所述最终矩阵解析得到各所述关节点三维坐标,并根据各所述关节点三维坐标生成所述3D姿态信息。
优选的,所述时序卷积运算对应的卷积层的空洞因子与循环的阶段数对应,d=2t -1,其中,d表征卷积层的空洞音素,t表征时序卷积运算对应的循环的阶段数。
进一步的,所述将所述第一中间矩阵输入下一阶段进行时序卷积运算,循环t个阶段,得到第二中间矩阵中,单个所述时序卷积运算的步骤,包括:
S3021:将所述第一中间矩阵进行切片操作,得到第一中间子矩阵;对所述第一中间矩阵依次进行一维卷积运算、BatchNorm运算、ReLU运算和Dropout运算,得到第二中间子矩阵;对所述第一中间矩阵依次进行一维卷积运算、BatchNorm运算、ReLU运算、Dropout运算和切片操作,得到第三中间子矩阵;
S3022:将所述第一中间子矩阵、所述第二中间子矩阵和所述第三中间子矩阵进行求和运算,融合得到第三中间矩阵,所述第三中间矩阵表征当前阶段的时序卷积运算的输出。
进一步的,所述根据各所述生物姿态2D图像解析得到所述生物姿态2D图像包含的生物在各帧所述生物姿态2D图像分别对应的各个关节点二维坐标的步骤,包括:
S201:将各所述生物姿态2D图像输入预先训练的姿态识别模型进行姿态估计,得到各帧所述生物姿态2D图像分别对应的各所述关节点二维坐标,其中,所述姿态识别模型为深度学习网络。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种3D姿态的估计方法,应用于如上所述的3D姿态估计算法网络结构,所述3D姿态的估计方法具体为:
S1:采集多帧连续的生物姿态2D图像;
S2:根据各所述生物姿态2D图像解析得到所述生物姿态2D图像包含的生物在各帧所述生物姿态2D图像分别对应的各个关节点二维坐标;
S3:将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行t个阶段的时序卷积运算,得到所述生物的各个关节点三维坐标,生成所述生物的3D姿态信息。
进一步的,所述将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行t个阶段的时序卷积运算,得到所述生物的各个关节点三维坐标,生成所述生物的3D姿态信息的步骤,包括:
S301:将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行第一阶段处理,依次进行一维卷积运算、BatchNorm运算、ReLU运算和Dropout运算,得到第一中间矩阵;
S302:将所述第一中间矩阵输入下一阶段进行时序卷积运算,循环t个阶段,得到第二中间矩阵,其中,循环过程中上一阶段的时序卷积运算的输出作为下一阶段的时序卷积运算的输入;
S303:将所述第二中间矩阵进行卷积运算,得到最终矩阵;
S304:根据所述最终矩阵解析得到各所述关节点三维坐标,并根据各所述关节点三维坐标生成所述3D姿态信息。
优选的,所述时序卷积运算对应的卷积层的空洞因子与循环的阶段数对应,d=2t -1,其中,d表征卷积层的空洞音素,t表征时序卷积运算对应的循环的阶段数。
进一步的,所述将所述第一中间矩阵输入下一阶段进行时序卷积运算,循环t个阶段,得到第二中间矩阵中,单个所述时序卷积运算的步骤,包括:
S3021:将所述第一中间矩阵进行切片操作,得到第一中间子矩阵;对所述第一中间矩阵依次进行一维卷积运算、BatchNorm运算、ReLU运算和Dropout运算,得到第二中间子矩阵;对所述第一中间矩阵依次进行一维卷积运算、BatchNorm运算、ReLU运算、Dropout运算和切片操作,得到第三中间子矩阵;
S3022:将所述第一中间子矩阵、所述第二中间子矩阵和所述第三中间子矩阵进行求和运算,融合得到第三中间矩阵,所述第三中间矩阵表征当前阶段的时序卷积运算的输出。
进一步的,所述根据各所述生物姿态2D图像解析得到所述生物姿态2D图像包含的生物在各帧所述生物姿态2D图像分别对应的各个关节点二维坐标的步骤,包括:
S201:将各所述生物姿态2D图像输入预先训练的姿态识别模型进行姿态估计,得到各帧所述生物姿态2D图像分别对应的各所述关节点二维坐标,其中,所述姿态识别模型为深度学习网络。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、第一物体或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、第一物体或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、第一物体或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (8)
1.一种3D姿态的估计方法,其特征在于,方法包括:
采集多帧连续的生物姿态2D图像;
根据各所述生物姿态2D图像解析得到所述生物姿态2D图像包含的生物在各帧所述生物姿态2D图像分别对应的各个关节点二维坐标;
将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行t个阶段的时序卷积运算,得到所述生物的各个关节点三维坐标,生成所述生物的3D姿态信息;
其中,所述将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行t个阶段的时序卷积运算,得到所述生物的各个关节点三维坐标,生成所述生物的3D姿态信息的步骤,包括:
将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行第一阶段处理,依次进行一维卷积运算、BatchNorm运算、ReLU运算和Dropout运算,得到第一中间矩阵;
单个阶段的所述时序卷积运算的步骤,包括:
将所述第一中间矩阵进行切片操作,得到第一中间子矩阵;对所述第一中间矩阵依次进行一维卷积运算、BatchNorm运算、ReLU运算和Dropout运算,得到第二中间子矩阵;对所述第一中间矩阵依次进行一维卷积运算、BatchNorm运算、ReLU运算、Dropout运算和切片操作,得到第三中间子矩阵;
将所述第一中间子矩阵、所述第二中间子矩阵和所述第三中间子矩阵进行求和运算,融合得到第三中间矩阵,所述第三中间矩阵表征当前阶段的时序卷积运算的输出。
2.根据权利要求1所述的3D姿态的估计方法,其特征在于,所述将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行t个阶段的时序卷积运算,得到所述生物的各个关节点三维坐标,生成所述生物的3D姿态信息的步骤,还包括:
将所述第一中间矩阵输入下一阶段进行时序卷积运算,循环t个阶段,得到第二中间矩阵,其中,循环过程中上一阶段的时序卷积运算的输出作为下一阶段的时序卷积运算的输入;
将所述第二中间矩阵进行卷积运算,得到最终矩阵;
根据所述最终矩阵解析得到各所述关节点三维坐标,并根据各所述关节点三维坐标生成所述3D姿态信息。
3.根据权利要求2所述的3D姿态的估计方法,其特征在于,所述时序卷积运算对应的卷积层的空洞因子与循环的阶段数对应,d=2t-1,其中,d表征卷积层的空洞因子,t表征时序卷积运算对应的循环的阶段数。
4.根据权利要求1所述的3D姿态的估计方法,其特征在于,所述根据各所述生物姿态2D图像解析得到所述生物姿态2D图像包含的生物在各帧所述生物姿态2D图像分别对应的各个关节点二维坐标的步骤,包括:
将各所述生物姿态2D图像输入预先训练的姿态识别模型进行姿态估计,得到各帧所述生物姿态2D图像分别对应的各所述关节点二维坐标,其中,所述姿态识别模型为深度学习网络。
5.一种3D姿态估计装置,其特征在于,包括:
采集模块,用于采集多帧连续的生物姿态2D图像;
解析模块,用于根据各所述生物姿态2D图像解析得到所述生物姿态2D图像包含的生物在各帧所述生物姿态2D图像分别对应的各个关节点二维坐标;
识别模块,用于将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行t个阶段的时序卷积运算,得到所述生物的各个关节点三维坐标,生成所述生物的3D姿态信息;
其中,所述识别模块包括:
第一运算单元,用于将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行第一阶段处理,依次进行一维卷积运算、BatchNorm运算、ReLU运算和Dropout运算,得到第一中间矩阵;
所述识别模块还包括:
第一运算子单元,用于将所述第一中间矩阵进行切片操作,得到第一中间子矩阵;对所述第一中间矩阵依次进行一维卷积运算、BatchNorm运算、ReLU运算和Dropout运算,得到第二中间子矩阵;对所述第一中间矩阵依次进行一维卷积运算、BatchNorm运算、ReLU运算、Dropout运算和切片操作,得到第三中间子矩阵;
第二运算子单元,用于将所述第一中间子矩阵、所述第二中间子矩阵和所述第三中间子矩阵进行求和运算,融合得到第三中间矩阵,所述第三中间矩阵表征当前阶段的时序卷积运算的输出。
6.根据权利要求5所述的3D姿态估计装置,其特征在于,所述识别模块,包括:
第一运算单元,用于将各帧所述生物姿态2D图像分别对应的各个关节点二维坐标以矩阵形式进行所述第一阶段处理,依次进行一维卷积运算、BatchNorm运算、ReLU运算和Dropout运算,得到第一中间矩阵;
循环单元,用于将所述第一中间矩阵输入下一阶段进行时序卷积运算,循环t个阶段,得到第二中间矩阵,其中,循环过程中上一阶段的时序卷积运算的输出作为下一阶段的时序卷积运算的输入;
第二运算单元,用于将所述第二中间矩阵进行卷积运算,得到最终矩阵;
解析单元,用于根据所述最终矩阵解析得到各所述关节点三维坐标,并根据各所述关节点三维坐标生成所述3D姿态信息。
7.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111427804.6A CN113850236B (zh) | 2021-11-29 | 2021-11-29 | 3d姿态估计方法、装置和计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111427804.6A CN113850236B (zh) | 2021-11-29 | 2021-11-29 | 3d姿态估计方法、装置和计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113850236A CN113850236A (zh) | 2021-12-28 |
CN113850236B true CN113850236B (zh) | 2022-04-15 |
Family
ID=78982223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111427804.6A Active CN113850236B (zh) | 2021-11-29 | 2021-11-29 | 3d姿态估计方法、装置和计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113850236B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807401A (zh) * | 2019-10-29 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 用户身份识别、多用户打卡方法、装置、存储介质及设备 |
CN111160085A (zh) * | 2019-11-19 | 2020-05-15 | 天津中科智能识别产业技术研究院有限公司 | 一种人体图像关键点姿态估计方法 |
CN111401230A (zh) * | 2020-03-13 | 2020-07-10 | 深圳市商汤科技有限公司 | 姿态估计方法及装置、电子设备和存储介质 |
CN112037310A (zh) * | 2020-08-27 | 2020-12-04 | 成都先知者科技有限公司 | 基于神经网络的游戏人物动作识别生成方法 |
CN113205595A (zh) * | 2021-05-21 | 2021-08-03 | 华中科技大学 | 一种3d人体姿态估计模型的构建方法及其应用 |
CN113313731A (zh) * | 2021-06-10 | 2021-08-27 | 东南大学 | 一种针对单目视频的三维人体姿态估计方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6016242B2 (ja) * | 2013-03-29 | 2016-10-26 | Kddi株式会社 | 視点推定装置及びその分類器学習方法 |
WO2017082078A1 (ja) * | 2015-11-11 | 2017-05-18 | ソニー株式会社 | 画像処理装置および画像処理方法 |
-
2021
- 2021-11-29 CN CN202111427804.6A patent/CN113850236B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807401A (zh) * | 2019-10-29 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 用户身份识别、多用户打卡方法、装置、存储介质及设备 |
CN111160085A (zh) * | 2019-11-19 | 2020-05-15 | 天津中科智能识别产业技术研究院有限公司 | 一种人体图像关键点姿态估计方法 |
CN111401230A (zh) * | 2020-03-13 | 2020-07-10 | 深圳市商汤科技有限公司 | 姿态估计方法及装置、电子设备和存储介质 |
CN112037310A (zh) * | 2020-08-27 | 2020-12-04 | 成都先知者科技有限公司 | 基于神经网络的游戏人物动作识别生成方法 |
CN113205595A (zh) * | 2021-05-21 | 2021-08-03 | 华中科技大学 | 一种3d人体姿态估计模型的构建方法及其应用 |
CN113313731A (zh) * | 2021-06-10 | 2021-08-27 | 东南大学 | 一种针对单目视频的三维人体姿态估计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113850236A (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241903B (zh) | 样本数据清洗方法、装置、计算机设备及存储介质 | |
CN106919903B (zh) | 一种鲁棒的基于深度学习的连续情绪跟踪方法 | |
JP6517681B2 (ja) | 映像パターン学習装置、方法、及びプログラム | |
CN112446302B (zh) | 一种人体姿态检测方法、系统、电子设备和存储介质 | |
CN110807437B (zh) | 视频粒度特征确定方法、装置和计算机可读存储介质 | |
CN110033023A (zh) | 一种基于绘本识别的图像数据处理方法及系统 | |
CN113792682A (zh) | 基于人脸图像的人脸质量评估方法、装置、设备及介质 | |
EP3617953A1 (en) | An adaptable neural network | |
CN112529149B (zh) | 一种数据处理方法及相关装置 | |
CN113673244A (zh) | 医疗文本处理方法、装置、计算机设备和存储介质 | |
CN108830782A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN111353429A (zh) | 基于眼球转向的感兴趣度方法与系统 | |
CN113850236B (zh) | 3d姿态估计方法、装置和计算机设备及存储介质 | |
CN116486422A (zh) | 数据处理的方法和相关设备 | |
CN113076905B (zh) | 一种基于上下文交互关系的情绪识别方法 | |
CN110705714B (zh) | 深度学习模型检测方法、深度学习平台以及计算机设备 | |
CN116361512A (zh) | 基于文字的虚拟人模型驱动方法、装置和计算机设备 | |
CN113673318B (zh) | 一种动作检测方法、装置、计算机设备和存储介质 | |
CN114863013A (zh) | 一种目标物体三维模型重建方法 | |
CN112801994A (zh) | 骨龄评估方法和系统 | |
CN112785681A (zh) | 宠物的3d形象生成方法及装置 | |
US20230186623A1 (en) | Systems and methods for crop disease diagnosis | |
CN115690891B (zh) | 人脸情绪的识别方法、装置、设备及存储介质 | |
CN115578753B (zh) | 人体关键点检测方法、装置、电子设备及存储介质 | |
CN115831356B (zh) | 一种基于人工智能算法的辅助预测诊断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |