CN114694261A - 一种基于多级监督图卷积的视频三维人体姿态估计方法及系统 - Google Patents

一种基于多级监督图卷积的视频三维人体姿态估计方法及系统 Download PDF

Info

Publication number
CN114694261A
CN114694261A CN202210387182.7A CN202210387182A CN114694261A CN 114694261 A CN114694261 A CN 114694261A CN 202210387182 A CN202210387182 A CN 202210387182A CN 114694261 A CN114694261 A CN 114694261A
Authority
CN
China
Prior art keywords
dimensional
convolution
human body
sequence
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210387182.7A
Other languages
English (en)
Inventor
钟福金
张序恒
韩晓乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210387182.7A priority Critical patent/CN114694261A/zh
Publication of CN114694261A publication Critical patent/CN114694261A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于人体姿态估计领域,涉及一种基于多级监督图卷积的视频三维人体姿态估计方法及系统;该方法包括:获取待估计的视频数据,将视频数据输入到训练好的基于多级监督图卷积的视频三维人体姿态估计模型中,输出三维人体姿态估计结果;本发明提出了一种利用图卷积捕捉空间特征的方法,并利用多级监督的策略,在堆叠的图卷积和时间卷积模块后粗略地得到中间的预测结果,并将多级特征在网络最后进行融合,实现由粗到细的预测;本发明的估计精度高,对给定输入长度的视频帧,模型能实现高精度的推理,得到平滑的视频三维人体姿态运动结果,具有良好的经济效益。

Description

一种基于多级监督图卷积的视频三维人体姿态估计方法及 系统
技术领域
本发明属于人体姿态估计领域,具体涉及一种基于多级监督图卷积的视频三维人体姿态估计方法及系统。
背景技术
三维人体姿态估计是计算机视觉领域中很多研究工作的基础,也是研究的热点问题,在智能监控、医疗康复、自动驾驶、游戏动画等领域有着很重要的现实意义。然而,标准的三维人体运动捕捉系统通常需要受试者穿着标记套装,在室内受控的环境中进行动作采集,这种设备既昂贵又复杂,并且在室外进行动作采集是不切实际的,所以如何从视频流中直接回归人体的三维关节位置就成为计算机视觉领域的一个热门话题。由于三维姿态估计任务的不适定问题中天然地具有深度模糊性,且常伴随着自遮挡问题,使得视频中的三维人体姿态估计任务仍具有挑战性。
在深度学习得到广泛应用之前,研究人员主要通过一些应用在传统计算机视觉或机器学习领域的方法来进行三维人体姿态的估计,近年来随着三维姿态标注数据集和具有高运算能力的GPU的普及,深度学习方法成为三维人体姿态估计的主要方法,其在估计精确性、执行效率等方面也有较大提升。
最近几年,基于深度学习的三维人体姿态估计方法大致分为两种。其一是端到端的方法,利用神经网络从输入RGB图像中直接预测三维姿态坐标,其优势在于整个网络模型可以达到端到端的训练效果,但是这种方法对网络结构和数据预处理的要求较高。其二是两阶段的基于二维信息的方法,即先获取二维信息,然后由二维姿态预测三维姿态坐标,二维姿态估计已较成熟,优势在于网络模型比较容易学习二维到三维的映射,并且,同时这种方法也比较好引入重投影做半监督,因此这种方法比较主流。
在视频中的三维人体姿态估计方法中,当前的主流方法都是两阶段的,许多研究工作者在这种主流方法上进行了多年的研究并已取得较好的效果,但现有的这些方法在面对视频序列中人体关节具有深度模糊和自遮挡问题时效果不理想,估计器很难在帧序列中学习到关节运动的上下文信息,所得到的肢体位置与真实位置相去甚远。另外,由于常用的大型公开数据集Human3.6M是在室内受控环境下采集的,其中并不包含一些室外复杂多样的人体动作,这使估计器在面临复杂动作时难以做出判断,预测精度不高。因此如何解决当前视频三维姿态估计任务所带来的深度模糊和自遮挡问题并提高估计精度,是当前亟待解决的问题。
发明内容
针对现有技术存在的不足,本发明提出了一种基于多级监督图卷积的视频三维人体姿态估计方法及系统,所述方法包括:获取待估计的视频数据,将视频数据输入到训练好的基于多级监督图卷积的视频三维人体姿态估计模型中,输出三维人体姿态估计结果;
基于多级监督图卷积的视频三维人体姿态估计模型的训练过程为:
S1:获取训练数据集;
S2:采用CPN检测器获取训练数据集中每个视频帧的人体二维关节坐标,根据二维关节坐标得到二维姿态序列;
S3:对二维姿态序列进行姿态校正,得到校正后的二维姿态序列;
S4:对校正后的二维姿态序列进行升维处理,得到升维后的二维姿态序列;
S5:交叉采用自适应图注意力单元和扩张时间卷积模型提取二维姿态序列的空间特征和二维姿态序列的时间特征;
S6:构建模型的多级监督损失函数;
S7:将时间特征和空间特征融合并输入到全连接层得到三维人体姿态估计结果;
S8:不断调整模型的参数,联合优化求解损失函数,对模型进行迭代训练直至多级监督损失函数收敛。
优选的,获取人体二维关节坐标的过程包括:
采用二维数据集COCO对CPN检测器进行预训练,采用三维姿态数据集Human3.6M的二维投影对CPN检测器进行微调,得到训练好的CPN检测器;
使用训练好的CPN检测器对每个视频帧进行二维姿态估计,得到每一帧的人体关节二维坐标。
优选的,对二维姿态序列进行姿态校正包括:CPN检测器为每个帧序列中的姿态分配置信度得分,根据置信度得分加权构造损失函数,采用损失函数进行监督,当损失函数最小时,得到校正后的二维姿态序列。
进一步的,损失函数为:
Figure BDA0003595350720000031
其中,F表示帧序列数目,
Figure BDA0003595350720000032
表示人体关节的可靠性,af表示地面真实二维关节横坐标,
Figure BDA0003595350720000033
表示地面真实二维关节纵坐标,bf表示二维姿态序列中带噪声的二维横坐标,
Figure BDA0003595350720000034
表示二维姿态序列中带噪声的二维纵坐标。
优选的,采用自适应图注意力单元提取二维姿态序列的空间特征的过程包括:采用动态图单元对二维姿态序列中的姿态进行处理,得到“构造图”;根据“构造图”获取一阶邻居点和二阶邻居点;根据一阶邻居点和二阶邻居点构建“构造图”的邻接矩阵,并将邻接矩阵作为图卷积的卷积核;根据图卷积的卷积核,采用“构造图”的图卷积算法提取二维姿态序列的空间特征;其中,一阶邻居点为“构造图”中与目标关节点距离为1的节点,二阶邻居点为“构造图”中与目标关节点距离为2的节点。
进一步的,图卷积算法的每一层输出可表示为:
Figure BDA0003595350720000041
其中,J(l+1)表示网络的第l+1层,J(l)表示网络的第l层,C表示通道数,
Figure BDA0003595350720000042
表示图卷积的卷积核,wc表示变换矩阵W中的第c行向量,Mc表示第c个通道的权重矩阵,ρ和σ分别表示Softmax和ReLU非线性激活函数。
优选的,采用扩张时间卷积模型提取二维姿态序列的时间特征的过程包括:
在卷积块中对二维姿态序列执行扩张因子为d=kT的时间卷积,得到中间时间特征,其中,k表示奇数,T表示第T个时间卷积块;
对中间时间特征进行1×1的卷积处理,得到扩张维度后的中间时间特征;
采用批规范化、ReLU激活函数和随机失活对扩张维度后的中间时间特征进行处理,得到非过拟合的中间时间特征;将非过拟合的中间时间特征通输入到全连接层得到最终时间特征。
进一步的,采用扩张时间卷积模型提取二维姿态序列的时间特征的过程还包括:在每层卷积块中均使用最大池化实现残差连接,得到前后维度匹配的时间特征。
优选的,模型的多级监督损失函数为:
Figure BDA0003595350720000043
Figure BDA0003595350720000044
Figure BDA0003595350720000045
其中,
Figure BDA0003595350720000046
表示中间层级的损失函数,Lfinal表示网络最后一层的损失函数,Ltotal表示整个网络的损失函数,T表示时间卷积块的数量,α和β均表示平衡因子,LRef表示优化模块的损失函数,F表示输入的视频帧数,Q表示一帧中关节角度数量,
Figure BDA0003595350720000047
表示中间层级预测的关节角度,
Figure BDA0003595350720000048
表示网络级预测的关节角度,
Figure BDA0003595350720000051
表示关节的真实角度。
一种基于多级监督图卷积的视频三维人体姿态估计系统,包括:输入模块、二维姿态序列获取模块、网络模型加载模块、以及输出模块;
所述输入模块用于输入待估计的人体运动视频;
所述二维姿态序列获取模块用于获取输入视频序列中的二维姿态序列,并将二维姿态序列输入到网络模型加载模块中;
所述网络模型加载模块包括二维姿态校正模块、动态图注意力模块、扩张时间卷积模块以及估计模块;
所述二维姿态校正模块用于对二维姿态序列进行校正,得到校正后的二维姿态序列;
所述动态图注意力模块用于提取校正后的二维姿态序列的空间特征;
所述扩张时间卷积模块用于提取校正后的二维姿态序列的时间特征;
所述估计模块根据二维姿态序列的空间特征和二维姿态序列的时间特征得到三维人体姿态估计结果;
所述输出模块用于输出人体运动视频的三维人体姿态估计结果。
本发明的有益效果为:本发明可以对局部带噪声的二维姿态进行校正,一定程度上弥补了二维检测误差带来的影响,使模型不受制于特定的二维检测器,从而提升了模型的灵活性;在空间特征提取上采用动态图注意力模块,既可以捕捉在人体骨架图中存在物理连接的关节之间的空间关系,又能捕捉不存在物理连接,但逻辑上具有高相关性的关节之间的空间关系,使模型在推理时携带丰富的空间信息,在自遮挡或者深度模糊的情况下实现较好的推理效果;本发明的注意力模块可以使模型针对性地关注于人体运动链末端的关节,同时,将时间卷积模块与自适应图注意力模块交错排列,实现模型对时空信息的建模,从而提升估计精度;提出了一种多级监督的策略,在每个时间卷积模块后都粗略地得到中间的预测结果,并将多级特征在网络最后进行融合,实现由粗到细的预测;本发明的估计精度高,对给定输入长度的视频帧,模型能实现高精度的推理,得到平滑的视频三维人体姿态运动结果,具有良好的经济效益。
附图说明
图1为本发明中视频三维人体姿态估计模型训练流程图;
图2为本发明中自适应图卷积模块示意图;
图3为本发明中时间卷积块示意图;
图4为本发明中网络模型图;
图5本发明中一个优选实施例的训练流程示意图;
图6本发明的一个原型系统流程图;
图7为本发明的一个原型系统三维人体姿态估计功能效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于多级监督图卷积的视频三维人体姿态估计方法及系统,所述方法包括:获取待估计的视频数据,将视频数据输入到训练好的基于多级监督图卷积的视频三维人体姿态估计模型中,输出三维人体姿态估计结果;
如图1所示,基于多级监督图卷积的视频三维人体姿态估计模型的训练过程为:
S1:获取训练数据集;
S2:采用CPN检测器获取训练数据集中每个视频帧的人体二维关节坐标,根据二维关节坐标得到二维姿态序列;
S3:对二维姿态序列进行姿态校正,得到校正后的二维姿态序列;
S4:对校正后的二维姿态序列进行升维处理,得到升维后的二维姿态序列;
S5:交叉采用自适应图注意力单元和扩张时间卷积模型提取二维姿态序列的空间特征和二维姿态序列的时间特征;
S6:构建模型的多级监督损失函数;
S7:将时间特征和空间特征融合并输入到全连接层得到三维人体姿态估计结果;
S8:不断调整模型的参数,联合优化求解损失函数,对模型进行迭代训练直至多级监督损失函数收敛。
本发明中基于多级监督图卷积的视频三维人体姿态估计模型的具体训练过程如下:
获取训练数据集,过程为:获取原始数据集,将Human3.6M数据集作为原始数据集进行划分,得到训练集和测试集;训练集用于训练网络模型,并进行多次迭代,测试集用于对模型进行测试。
获取人体二维关节坐标的过程包括:
CPN使用分辨率为384×288的ResNet-50主干网,采用二维数据集COCO对CPN(级联金字塔网络,一个二维姿态检测器)进行预训练,采用三维姿态数据集Human3.6M的二维投影对CPN检测器进行微调,微调过程中,CPN检测器一直保持批处理规范化,并对CPN检测器的Global-Net和Refine-Net(卷积权重和批标准化统计)的最后一层进行初始化,批量为64幅图像,然后使用学习速率逐步衰减策略在GPU上进行训练,得到训练好的CPN检测器。
使用训练好的CPN检测器对每个视频帧进行二维姿态估计,得到每一帧的人体关节二维坐标。
对二维姿态序列进行姿态校正包括:CPN检测器在得到F个帧的姿态序列
Figure BDA0003595350720000071
(其中J是每一帧人体关节点的个数)的同时,也为F个帧序列中的姿态分配置信度得分
Figure BDA0003595350720000072
根据置信度得分加权构造损失函数,采用损失函数进行监督,当损失函数最小时,得到校正后的二维姿态序列。
损失函数为:
Figure BDA0003595350720000081
其中,F表示帧序列数目,
Figure BDA0003595350720000082
表示人体关节的可靠性,af表示地面真实二维关节横坐标,
Figure BDA0003595350720000083
表示地面真实二维关节纵坐标,bf表示二维姿态序列中带噪声的二维横坐标,
Figure BDA0003595350720000084
表示二维姿态序列中带噪声的二维纵坐标。
对校正后的二维人体姿态序列进行升维处理,得到升维后的二维姿态序列;例如,以81帧感受野为例,由于带标注的人体关节有17个,故每帧有17×2个二维关节信息,升维模块的输入张量维度是81×17×2,首先经过一个卷积核大小为3×1的卷积,将维度从2维扩充到64维,并使用批标准化、ReLU和Dropout进行常规处理,输出张量的维度变为79×17×64。
如图2所示,采用自适应图注意力单元提取二维姿态序列的空间特征的过程包括:使用动态图单元根据二维姿态序列中的姿态形成“构造图”,将“构造图”的一阶加二阶邻居的邻接矩阵作为图卷积的卷积核,利用“构造图”的图卷积算法提取二维姿态序列的空间特征;具体过程为:
为使模型能够全面地学习到人体姿态的空间信息,引入一个动态图单元,它既可以捕捉空间上具有物理连接的人体关节之间的关系,也能自适应地捕捉本不存在物理连接但逻辑上具有高度关联性的关节之间的关系。动态图单元可以针对不同的姿态形成一个新的“构造图”。相对于只采用事先预定义好的人体二维“骨架图”,这种根据运动姿态而自适应生成的“构造图”更具有说服力,因为在原本不存在物理连接但在逻辑上具有高亲和度的关节之间隐式地形成了一条“构造边”,这样在训练期间关节点特征的更新就不仅仅依赖于“骨架图”的邻居节点,还可以依靠由动态图单元生成的“构造图”的邻居节点。
此外,由于人体运动链末端关节(如左手腕、右手腕、头、左脚踝、右脚踝)在骨架图中只有一个一阶邻居(其它关节的一阶邻居数都大于等于二),且往往在末端关节点上会产生较大误差,一旦发生遮挡,将很难预估它们的空间位置。所以本发明引入一个图注意力模块,让模型在训练时加强对末端关节的关注;常用的图卷积操作采用的卷积核是图的邻接矩阵,邻接矩里面的元素非0即1,0代表两个点之间距离不是一,1代表两个点之间有直接的边距离是1,这样表示的矩阵为一阶邻居点的邻接矩阵。本发明根据“构造图”获取一阶邻居点和二阶邻居点,一阶邻居点为“构造图”中与目标关节点距离为1的节点,二阶邻居点为“构造图”中与目标关节点距离为2的节点;根据一阶邻居点和二阶邻居点构建“构造图”的邻接矩阵,也就是矩阵里面点两点之间距离是1或者2,就记为1,距离是2以上就记为0,将邻接矩阵作为图卷积的卷积核;根据图卷积的卷积核,采用“构造图”的图卷积算法提取二维姿态序列的空间特征。之所以在“构造图”上进行操作是因为“构造图”中节点之间的边有两类:一类是关节点之间原本存在的“物理边”,另一类是关节点之间不存在物理连接但具有高亲和度的“构造边”。这样在训练期间末端关节的特征在更新期间就有了更多选择,既可以根据“物理边”连接的一二阶邻居显式地更新特征,又能根据“构造边”连接的一、二阶邻居隐式地更新特征;利用“构造图”的图卷积算法提取二维姿态序列的空间特征过程为:
记当前帧下的“骨架图”为GF=(VF,EF),其中VF表示骨架图的关节节点集,EF表示由关节节点连接而成的边集,
Figure BDA0003595350720000091
表示当前帧下N个关节节点的特征,
Figure BDA0003595350720000092
表示第N个关节节点的特征向量,c表示每个关节节点的特征数。
对于常规的图卷积,图的结构可以用表示关节之间存在连接的一阶邻接矩阵A∈RN×N和表示自连接的单位矩阵I∈RN×N进行初始化,
Figure BDA0003595350720000093
是图的邻接矩阵,并使用度矩阵
Figure BDA0003595350720000094
进行行正则化,则
Figure BDA0003595350720000095
作为图卷积的卷积核。则每一层图卷积的输出可以定义为
Figure BDA0003595350720000096
其中W为可学习权重矩阵,l表示网络的第l层,σ是ReLU非线性激活函数,本发明中“构造图”的图卷积算法描述为:
对于第F帧下的某个关节j,使用最近邻算法在关节点特征矩阵JF中寻找它的K个邻居节点集
Figure BDA0003595350720000101
对于关节点j,在它的k个邻居中生成“构造边”,则“构造图”的邻接矩阵为
Figure BDA0003595350720000102
然后加上单位矩阵I,得到
Figure BDA0003595350720000103
并使用度矩阵进行行正则化得到
Figure BDA0003595350720000104
并构造新的卷积核
Figure BDA0003595350720000105
使用一个可学习的权重矩阵M∈RN×N来学习一二阶邻居内部不同重要性的关节,并利用一个可学习的变换矩阵W来变换输出通道。此时图卷积的每一层输出可以简要表示为:
Figure BDA0003595350720000106
进一步的,对输出节点特征的每一个通道c采用不同的权重矩阵,然后在通道级别上进行联接,此时图卷积的每一层输出可以具体表示为:
Figure BDA0003595350720000107
其中,J(l+1)表示网络的第l+1层,J(l)表示网络的第l层,C表示通道数,
Figure BDA0003595350720000108
表示图卷积的卷积核,wc表示变换矩阵W中的第c行向量,Mc表示第c个通道的权重矩阵,ρ和σ分别表示Softmax和ReLU非线性激活函数;另外,在每层图卷积后都存在批规范化和非线性激活单元,并使用Dropout防止过拟合。
如图3所示,采用扩张时间卷积模型提取二维姿态序列的时间特征的过程包括:扩张时间卷积模型由T个带残差连接的时间卷积块组成,卷积核大小为k×1,每个时间卷积块依次设置指数性增加的扩张因子d=kT以实现时间卷积模型对感受野的精确控制;在卷积块中对二维姿态序列执行扩张因子为d=kT的时间卷积,得到中间时间特征,其中,k表示奇数,T表示第T个时间卷积块;对中间时间特征进行1×1的卷积处理,得到扩张维度后的中间时间特征;采用批规范化、ReLU激活函数和随机失活对扩张维度后的中间时间特征进行处理,得到非过拟合的中间时间特征;将非过拟合的中间时间特征通输入到全连接层得到最终时间特征;此外,整在个提取过程中的每层卷积块中均使用最大池化实现残差连接,得到前后维度匹配的时间特征。
本发明将图卷积模块与时间卷积模块交错式排列,以实现空间特征与时间特征的互补。在进入时间卷积块之前,每一帧的关节空间特征都会利用动态图注意力模块进行提取,并针对性地加强对末端关节的关注,以提高关节在遮挡情况下模型的推理能力。
将二维姿态序列的时间特征和空间特征融合并输入到全连接层得到三维人体姿态估计结果。例如,以81帧感受野为例,扩张时间卷积模型由3个时间卷积块构成,卷积核大小为3×1,每个时间卷积块的扩张因子分别3,9,27。在最后一个卷积块后,输出张量为1×17×1024,再通过一个全连接层得到最终的输出张量1×17×3,即为中心帧的三维人体姿态。
构建模型的多级监督损失函数的具体过程为:本发明将估计得到的关节角度与真实关节角度之间误差作为基础监督损失,从而加强约束。对于标注数据集Human3.6M,共有17个人体关节,从而有16根人体骨骼(16个空间向量),关节间角度可以由空间向量夹角公式进行计算;本发明的网络模型由T个时间卷积块堆叠而成,每一个时间卷积块后都输出低层次的时空特征,得到粗略的估计姿态的结果,并计算它与地面真实关节角度之间的误差,达到多级监督的目的,实现由粗到细的优化。多级低层次特征在最后一层进行融合,得到最终精确的三维姿态。将每个中间块的损失函数定义为:
Figure BDA0003595350720000111
其中,
Figure BDA0003595350720000112
表示每个中间层级的损失,F表示视频帧数,Q表示一帧中关节角度数量,
Figure BDA0003595350720000113
表示每个中间块的预测关节角度,
Figure BDA0003595350720000114
表示地面真实关节角度。
网络最后一层的监督损失函数定义为:
Figure BDA0003595350720000115
其中,Lfinal表示网络最后一层的监督损失,
Figure BDA0003595350720000116
表示网络最后一层的预测关节角度,
Figure BDA0003595350720000121
表示地面真实关节角度。
将每一级的中间预测与最终预测形成多级监督为:
Figure BDA0003595350720000122
其中,L3d表示多级监督损失,α表示平衡因子,T表示时间卷积块的数量。
最终,模型的总体损失函数表示为:
Ltotal=L3d+βLRef
即:
Figure BDA0003595350720000123
其中,Ltotal表示模型总损失,β表示平衡因子,LRef表示优化模块的监督损失。
不断调整模型的参数,联合优化求解损失函数值,对模型进行迭代训练直至收敛,训练好的模型如图4所示。
本发明中一种优选实施例的训练流程如图5所示。将二维姿态序列输入到基于多级监督图卷积的视频三维人体姿态估计模型中,在地面真实标注的指导下进行监督训练。具体的,本发明使用Amsgrad优化器进行训练,采用余弦退火的学习率调整策略。BatchNorm的动量从0.1开始,采用指数衰减策略,在最后一个epoch达到0.001,Dropout率为0.25。训练60个epochs后神经网络趋于稳定,迭代训练结束。
本发明的一个原型系统流程如图6所示,从本地导入视频后,首先选择视频三维姿态估计功能,如果成功调用二维检测器,则使用它对输入视频进行二维人体姿态估计,然后将检测器得到的二维人体姿态序列输入到基于多级监督图卷积的视频三维人体姿态估计网络中执行二维到三维的提升任务,从而得到逐帧精确的三维人体姿态估计结果。
一种基于多级监督图卷积的视频三维人体姿态估计系统,包括:输入模块、二维姿态序列获取模块、网络模型加载模块、以及输出模块;
所述输入模块用于输入待估计的人体运动视频;
所述二维姿态序列获取模块用于获取输入视频序列中的二维姿态序列,并将二维姿态序列输入到网络模型加载模块中;
所述网络模型加载模块包括二维姿态校正模块、动态图注意力模块、扩张时间卷积模块以及估计模块;
所述二维姿态校正模块用于对二维姿态序列进行校正,得到校正后的二维姿态序列;
所述动态图注意力模块用于提取校正后的二维姿态序列的空间特征;
所述扩张时间卷积模块用于提取校正后的二维姿态序列的时间特征;
所述估计模块根据二维姿态序列的空间特征和二维姿态序列的时间特征得到三维人体姿态估计结果;
所述输出模块用于输出人体运动视频的三维人体姿态估计结果。
本发明的一个原型系统三维人体姿态估计功能效果如图7所示。从本地路径导入视频后,选择视频三维姿态估计功能并调用二维检测器获取二维姿态序列,然后点击生成三维人体姿态,系统会加载基于多级监督图卷积的视频三维人体姿态估计网络已训练好的权重,得到估计结果。从右侧可以看到模型估计得到的人体运动骨架动画。
本发明的视频三维人体姿态估计方法可应用于人体动作识别场景,例如,用于跟踪一个人一段时间内姿态的变化,用于活动和步态的识别,可检测一个人是否跌倒或行为异常;同时,本发明有助于研究人员开发相应的应用程序,并将其应用在自动驾驶领域,中央处理器将汽车摄像头实时捕捉到的道路行人动作加以分析,充分理解行人的动作,并预测行人后续的运动轨迹,让汽车做出进一步的决策,提前避免车祸的发生,提高自动驾驶面对道路复杂环境的反应能力和安全性。可选地,本申请提供的人脸检测方法还可以应用于如下场景:
一、人机交互场景;
例如,受试者不用穿戴复杂的动作捕捉设备,仅通过摄像头传感器就可以得到较为精确的体势,通过跟踪人体姿态的变化,机器可以敏锐而仔细地发现受试者的意图,让机器人跟随正在执行动作的人体姿态骨架的轨迹,而不是手动编程机器人来跟随轨迹。
二、视频监控场景;
例如,在人员复杂的环境,如火车站、机场、银行或政府大楼,仅通过智能监控,就可以学习一个人在视频中的运动轨迹,发现并分析其不正常的行为,并对该人进行记录,提高公共场所的治安防控水平。
三、游戏建模场景;
例如,在大型的3D动作游戏开发中,3D角色建模是一个复杂的任务。如果可以估计三维人体姿态,则可以将图形、样式、花哨的增强功能、设备和艺术品叠加在人身上。通过跟踪三维人体姿态的变化,就可以渲染虚拟角色的动作,并将用来渲染的模型动画在人物移动时“自然地贴合”他们。
本发明可以对局部带噪声的二维姿态进行校正,一定程度上弥补了二维检测误差带来的影响,使模型不受制于特定的二维检测器,从而提升了模型的灵活性;在空间特征提取上采用动态图注意力模块,既可以捕捉在人体骨架图中存在物理连接的关节之间的空间关系,又能捕捉不存在物理连接,但逻辑上具有高相关性的关节之间的空间关系,使模型在推理时携带丰富的空间信息,在自遮挡或者深度模糊的情况下实现较好的推理效果;本发明的注意力模块可以使模型针对性地关注于人体运动链末端的关节,同时,将时间卷积模块与自适应图注意力模块交错排列,实现模型对时空信息的建模,从而提升估计精度;提出了一种多级监督的策略,在每个时间卷积模块后都粗略地得到中间的预测结果,并将多级特征在网络最后进行融合,实现由粗到细的预测;本发明的估计精度高,对给定输入长度的视频帧,模型能实现高精度的推理,得到平滑的视频三维人体姿态运动结果,具有良好的经济效益。
需要说明的是,在本公开各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现;所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多级监督图卷积的视频三维人体姿态估计方法,其特征在于,包括:获取待估计的视频数据,将视频数据输入到训练好的基于多级监督图卷积的视频三维人体姿态估计模型中,输出三维人体姿态估计结果;
基于多级监督图卷积的视频三维人体姿态估计模型的训练过程为:
S1:获取训练数据集;
S2:采用CPN检测器获取训练数据集中每个视频帧的人体二维关节坐标,根据二维关节坐标得到二维姿态序列;
S3:对二维姿态序列进行姿态校正,得到校正后的二维姿态序列;
S4:对校正后的二维姿态序列进行升维处理,得到升维后的二维姿态序列;
S5:交叉采用自适应图注意力单元和扩张时间卷积模型提取二维姿态序列的空间特征和二维姿态序列的时间特征;
S6:构建模型的多级监督损失函数;
S7:将时间特征和空间特征融合并输入到全连接层得到三维人体姿态估计结果;
S8:不断调整模型的参数,联合优化求解损失函数,对模型进行迭代训练直至多级监督损失函数收敛。
2.根据权利要求1所述的一种基于多级监督图卷积的视频三维人体姿态估计方法,其特征在于,获取人体二维关节坐标的过程包括:
采用二维数据集COCO对CPN检测器进行预训练,采用三维姿态数据集Human3.6M的二维投影对CPN检测器进行微调,得到训练好的CPN检测器;
使用训练好的CPN检测器对每个视频帧进行二维姿态估计,得到每一帧的人体关节二维坐标。
3.根据权利要求1所述的一种基于多级监督图卷积的视频三维人体姿态估计方法,其特征在于,对二维姿态序列进行姿态校正包括:CPN检测器为每个帧序列中的姿态分配置信度得分,根据置信度得分加权构造损失函数,采用损失函数进行监督,当损失函数最小时,得到校正后的二维姿态序列。
4.根据权利要求3所述的一种基于多级监督图卷积的视频三维人体姿态估计方法,其特征在于,损失函数为:
Figure FDA0003595350710000021
其中,F表示帧序列数目,
Figure FDA0003595350710000022
表示人体关节的可靠性,af表示地面真实二维关节横坐标,
Figure FDA0003595350710000023
表示地面真实二维关节纵坐标,bf表示二维姿态序列中带噪声的二维横坐标,
Figure FDA0003595350710000024
表示二维姿态序列中带噪声的二维纵坐标。
5.根据权利要求1所述的一种基于多级监督图卷积的视频三维人体姿态估计方法,其特征在于,采用自适应图注意力单元提取二维姿态序列的空间特征的过程包括:采用动态图单元对二维姿态序列中的姿态进行处理,得到“构造图”;根据“构造图”获取一阶邻居点和二阶邻居点;根据一阶邻居点和二阶邻居点构建“构造图”的邻接矩阵,并将邻接矩阵作为图卷积的卷积核;根据图卷积的卷积核,采用“构造图”的图卷积算法提取二维姿态序列的空间特征;其中,一阶邻居点为“构造图”中与目标关节点距离为1的节点,二阶邻居点为“构造图”中与目标关节点距离为2的节点。
6.根据权利要求5所述的一种基于多级监督图卷积的视频三维人体姿态估计方法,其特征在于,图卷积算法的每一层输出可表示为:
Figure FDA0003595350710000025
其中,J(l+1)表示网络的第l+1层,J(l)表示网络的第l层,C表示通道数,
Figure FDA0003595350710000026
表示图卷积的卷积核,wc表示变换矩阵W中的第c行向量,Mc表示第c个通道的权重矩阵,ρ和σ分别表示Softmax和ReLU非线性激活函数。
7.根据权利要求1所述的一种基于多级监督图卷积的视频三维人体姿态估计方法,其特征在于,采用扩张时间卷积模型提取二维姿态序列的时间特征的过程包括:
在卷积块中对二维姿态序列执行扩张因子为d=kT的时间卷积,得到中间时间特征,其中,k表示奇数,T表示第T个时间卷积块;
对中间时间特征进行1×1的卷积处理,得到扩张维度后的中间时间特征;
采用批规范化、ReLU激活函数和随机失活对扩张维度后的中间时间特征进行处理,得到非过拟合的中间时间特征;将非过拟合的中间时间特征通输入到全连接层得到最终时间特征。
8.根据权利要求7所述的一种基于多级监督图卷积的视频三维人体姿态估计方法,其特征在于,采用扩张时间卷积模型提取二维姿态序列的时间特征的过程还包括:在每层卷积块中均使用最大池化实现残差连接,得到前后维度匹配的时间特征。
9.根据权利要求1所述的一种基于多级监督图卷积的视频三维人体姿态估计方法,其特征在于,模型的多级监督损失函数为:
Figure FDA0003595350710000031
Figure FDA0003595350710000032
Figure FDA0003595350710000033
其中,
Figure FDA0003595350710000034
表示中间层级的损失函数,Lfinal表示网络最后一层的损失函数,Ltotal表示整个网络的损失函数,T表示时间卷积块的数量,α和β均表示平衡因子,LRef表示优化模块的损失函数,F表示输入的视频帧数,Q表示每一帧中关节的数量,
Figure FDA0003595350710000035
表示中间层级预测的关节位置,
Figure FDA0003595350710000036
表示网络级预测的关节位置,
Figure FDA0003595350710000037
表示关节的真实位置。
10.一种基于多级监督图卷积的视频三维人体姿态估计系统,其特征在于,包括:输入模块、二维姿态序列获取模块、网络模型加载模块、以及输出模块;
所述输入模块用于输入待估计的人体运动视频;
所述二维姿态序列获取模块用于获取输入视频序列中的二维姿态序列,并将二维姿态序列输入到网络模型加载模块中;
所述网络模型加载模块包括二维姿态校正模块、动态图注意力模块、扩张时间卷积模块以及估计模块;
所述二维姿态校正模块用于对二维姿态序列进行校正,得到校正后的二维姿态序列;
所述动态图注意力模块用于提取校正后的二维姿态序列的空间特征;
所述扩张时间卷积模块用于提取校正后的二维姿态序列的时间特征;
所述估计模块根据二维姿态序列的空间特征和二维姿态序列的时间特征得到三维人体姿态估计结果;
所述输出模块用于输出人体运动视频的三维人体姿态估计结果。
CN202210387182.7A 2022-04-14 2022-04-14 一种基于多级监督图卷积的视频三维人体姿态估计方法及系统 Pending CN114694261A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210387182.7A CN114694261A (zh) 2022-04-14 2022-04-14 一种基于多级监督图卷积的视频三维人体姿态估计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210387182.7A CN114694261A (zh) 2022-04-14 2022-04-14 一种基于多级监督图卷积的视频三维人体姿态估计方法及系统

Publications (1)

Publication Number Publication Date
CN114694261A true CN114694261A (zh) 2022-07-01

Family

ID=82142194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210387182.7A Pending CN114694261A (zh) 2022-04-14 2022-04-14 一种基于多级监督图卷积的视频三维人体姿态估计方法及系统

Country Status (1)

Country Link
CN (1) CN114694261A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115966058A (zh) * 2022-12-30 2023-04-14 湖南鸿坤电器股份有限公司 一种基于红外监测的居家安全防护方法、系统及存储介质
CN116030537A (zh) * 2023-03-28 2023-04-28 山东科技大学 基于多分支注意力图卷积的三维人体姿态估计方法
CN117994708A (zh) * 2024-04-03 2024-05-07 哈尔滨工业大学(威海) 基于时序一致隐空间引导扩散模型的人体视频生成方法
CN118334755A (zh) * 2024-06-14 2024-07-12 中国地质大学(武汉) 一种半监督动物三维姿态估计方法、设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115966058A (zh) * 2022-12-30 2023-04-14 湖南鸿坤电器股份有限公司 一种基于红外监测的居家安全防护方法、系统及存储介质
CN116030537A (zh) * 2023-03-28 2023-04-28 山东科技大学 基于多分支注意力图卷积的三维人体姿态估计方法
CN116030537B (zh) * 2023-03-28 2023-05-23 山东科技大学 基于多分支注意力图卷积的三维人体姿态估计方法
CN117994708A (zh) * 2024-04-03 2024-05-07 哈尔滨工业大学(威海) 基于时序一致隐空间引导扩散模型的人体视频生成方法
CN117994708B (zh) * 2024-04-03 2024-05-31 哈尔滨工业大学(威海) 基于时序一致隐空间引导扩散模型的人体视频生成方法
CN118334755A (zh) * 2024-06-14 2024-07-12 中国地质大学(武汉) 一种半监督动物三维姿态估计方法、设备及存储介质
CN118334755B (zh) * 2024-06-14 2024-09-03 中国地质大学(武汉) 一种半监督动物三维姿态估计方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN109800689B (zh) 一种基于时空特征融合学习的目标跟踪方法
CN114694261A (zh) 一种基于多级监督图卷积的视频三维人体姿态估计方法及系统
CN113963445B (zh) 一种基于姿态估计的行人摔倒动作识别方法及设备
CN108416266B (zh) 一种利用光流提取运动目标的视频行为快速识别方法
CN112434655B (zh) 一种基于自适应置信度图卷积网络的步态识别方法
CN107833239B (zh) 一种基于加权模型约束的寻优匹配目标跟踪方法
Leibfried et al. A deep learning approach for joint video frame and reward prediction in atari games
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
CN108960059A (zh) 一种视频动作识别方法及装置
CN110232361B (zh) 基于三维残差稠密网络的人体行为意图识别方法与系统
CN111626090B (zh) 一种基于深度帧差卷积神经网络的运动目标检测方法
CN112766062B (zh) 一种基于双流深度神经网络的人体行为识别方法
US11361534B2 (en) Method for glass detection in real scenes
Pavel et al. Recurrent convolutional neural networks for object-class segmentation of RGB-D video
CN113920170A (zh) 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
CN116030498A (zh) 面向虚拟服装走秀的三维人体姿态估计方法
CN114638408A (zh) 一种基于时空信息的行人轨迹预测方法
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
Ali et al. Deep Learning Algorithms for Human Fighting Action Recognition.
CN116246338A (zh) 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN110598614B (zh) 一种结合粒子滤波的相关滤波目标跟踪方法
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
Muhamad et al. A comparative study using improved LSTM/GRU for human action recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination