CN115223190A - 一种基于人体结构引导学习网络的姿态估计方法及系统 - Google Patents

一种基于人体结构引导学习网络的姿态估计方法及系统 Download PDF

Info

Publication number
CN115223190A
CN115223190A CN202210119930.3A CN202210119930A CN115223190A CN 115223190 A CN115223190 A CN 115223190A CN 202210119930 A CN202210119930 A CN 202210119930A CN 115223190 A CN115223190 A CN 115223190A
Authority
CN
China
Prior art keywords
network
branch
human body
output end
input end
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210119930.3A
Other languages
English (en)
Inventor
骆炎民
王友杰
林躬耕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Gongtian Software Co ltd
Huaqiao University
Original Assignee
Fujian Gongtian Software Co ltd
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Gongtian Software Co ltd, Huaqiao University filed Critical Fujian Gongtian Software Co ltd
Priority to CN202210119930.3A priority Critical patent/CN115223190A/zh
Publication of CN115223190A publication Critical patent/CN115223190A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开一种基于人体结构引导学习网络的姿态估计方法及系统,涉及人体姿态估计技术领域,包括:获取待测人体姿态图像;将待测人体姿态图像输入至人体姿态估计模型中,以获取人体姿态;人体姿态估计模型是根据训练集和标定深度卷积神经网络训练得到的;训练集包括多张第一图像以及与第一图像对应的标签信息;标签信息为所述第一图像中的人体关节点;人体关节点用于构建所述人体姿态;标定深度卷积神经网络包括茎网络、第一主干网络、第二主干网络、人体结构引导学习分支网络和特征融合细化网络。本发明结合人体结构引导学习方法和特征融合方法构建人体姿态估计模型,提高模型预测的精确度。

Description

一种基于人体结构引导学习网络的姿态估计方法及系统
技术领域
本发明涉及人体姿态估计技术领域,特别是涉及一种基于人体结构引导学习网络的姿态估计方法及系统。
背景技术
作为计算机视觉领域一个基础且富有挑战性的问题,2D人体姿态估计在不同的计算机视觉任务中扮演着不同的角色,广泛地应用于异常行为检测、人机交互和医疗康复辅助等领域。人体姿态估计的目标是从给定的图像或视频中分类并且定位人体部位关节点,例如:手腕,脚踝和躯干等,从而形成正确的人体姿态。
尽管当前对于姿态估计技术的研究众多,也取得了不错的进展,但目前不论是自顶向下还是自底向上的方法,设计的均是静态姿态估计模型,同时将网络模型当做黑盒,其结果会导致模型灵活性不高,没有很好地结合人体结构先验知识,不能有效地针对遮挡场景下的姿态估计,且可解释性不强。
发明内容
本发明的目的是提供一种基于人体结构引导学习网络的姿态估计方法及系统,结合人体结构引导学习方法和特征融合方法构建人体姿态估计模型,提高模型预测的精确度。
为实现上述目的,本发明提供了如下方案:
一种基于人体结构引导学习网络的姿态估计方法,所述姿态估计方法包括:
获取待测人体姿态图像;所述待测人体姿态图像包括多个人体关节点;
将所述待测人体姿态图像输入至人体姿态估计模型中,以获取人体姿态;
所述人体姿态估计模型是根据训练集和标定深度卷积神经网络训练得到的;所述训练集包括多张第一图像以及与所述第一图像对应的标签信息;所述标签信息为所述第一图像中的人体关节点;所述人体关节点用于构建所述人体姿态;所述标定深度卷积神经网络包括茎网络、第一主干网络、第二主干网络、人体结构引导学习分支网络和特征融合细化网络;
所述茎网络的输入端用于输入所述训练集;所述茎网络的输出端与所述第一主干网络的输入端连接;所述茎网络用于对所述训练集中的第一图像进行特征提取,以确定第一特征图;
所述第一主干网络的第一输出端与所述第二主干网络的输入端连接,所述第一主干网络的第二输出端与所述人体结构引导学习分支网络的输入端连接;所述第一主干网络用于对所述第一特征图进行特征提取,以确定第二特征图;
所述第二主干网络的输出端与所述特征融合细化网络的第一输入端连接,所述第二主干网络用于对所述第二特征图进行特征提取,以确定第三特征图;
所述人体结构引导学习分支网络的输出端与所述特征融合细化网络的第二输入端连接;所述人体结构引导学习分支网络用于对所述第二特征图进行人体结构解析,以确定第四特征图;
所述特征融合细化网络用于对所述第三特征图和所述第四特征图进行多尺度特征融合,并对融合后的特征图进行姿态细化,以确定人体姿态。
可选地,所述人体结构引导学习分支网络包括编码子网络和解码子网络;
所述编码子网络的输入端与所述第一主干网络的第二输出端连接,所述编码子网络的输出端与所述解码子网络的输入端连接,所述解码子网络的输出端与所述特征融合细化网络的第二输入端连接;
所述编码子网络包括依次连接的多个编码模块,所述解码子网络包括依次连接的多个解码模块;所述编码模块与所述解码模块一一对应,且一个所述编码模块与对应的一个所述解码模块残差连接;
所述编码模块包括依次连接的第一带记忆Transformer模块和下采样模块;所述第一带记忆Transformer模块包括非重叠窗口自注意力机制网络和带记忆单元的前向传播网络;
所述解码模块包括依次连接的上采样模块和第二带记忆Transformer模块;所述第二带记忆Transformer模块包括非重叠窗口自注意力机制网络和带记忆单元的前向传播网络。
可选地,所述特征融合细化网络包括多尺度融合模块和姿态细化模块;
所述多尺度融合模块的第一输入端与所述第二主干网络的输出端连接,所述多尺度融合模块的第二输入端分别与多个所述解码模块的输出端连接,所述多尺度融合模块的输出端与所述姿态细化模块的输入端连接;
所述姿态细化模块的输出端用于输出人体姿态;
所述多尺度融合模块包括特征融合子模块和多个特征提取子模块;所述特征提取子模块的数量与所述解码模块的数量相同,且一个所述特征提取子模块与一个所述解码模块相对应;
所述特征提取子模块的第一输入端与所述第二主干网络的输出端连接,所述特征提取子模块的第二输入端与相对应的所述解码模块的输出端连接,所述特征提取子模块的输出端与所述特征融合子模块的输入端连接;所述特征融合子模块的输出端与所述姿态细化模块的输入端连接;
所述特征融合子模块用于将多个所述特征提取子模块输出的子特征图进行融合,以确定最终特征图;
所述姿态细化模块用于根据所述最终特征图确定多个人体关节点,并根据多个所述人体关节点确定人体姿态。
可选地,所述人体姿态估计模型的训练过程,还包括:
确定目标损失函数;
根据所述目标损失函数和所述训练集对所述标定深度卷积神经网络进行训练,以得到人体姿态估计模型;
其中,所述目标损失函数为由第一损失函数、第二损失函数、第三损失函数和第四损失函数确定的;所述第一损失函数用于表示所述第二特征图对应的人体关节预测点与第一图像中人体关节点之间的损失值;所述第二损失函数用于表示所述第二特征图对应的人体关节预测点的偏移量与所述人体关节预测点的平均偏移量之间的损失值;所述第三损失函数用于表示所述第四特征图对应的人体关节预测点中各个人体关节预测点之间的距离与第一图像中各个人体关节点之间的距离的损失值;所述第四损失函数用于表示所述融合后的特征图对应的人体关节预测点与第一图像中人体关节点之间的损失值。
可选地,所述第一损失函数为:
Figure BDA0003498043870000031
其中,Lh表示第一损失函数值;i表示人体编号,j为人体关节点的编号,且i,j为正整数;Pi(pj)表示第二特征图中第i个人的人体关节预测点;
Figure BDA0003498043870000041
表示与所述第二特征图对应的关节点热图,
Figure BDA0003498043870000042
表示与所述第二特征图对应的关节点热图中的粗关节点,λ表示关节点的个数;Gi(pj)表示第i个人在第一图像中真实的人体关节点;G={g1,...,gλ},表示与第一图像对应的关节点热图,gλ表示与第一图像对应的关节点热图中真实的人体关节点;
所述第二损失函数为:
Figure BDA0003498043870000043
其中,Lo表示第二损失函数值;Oi(pj)表示第二特征图中第i个人的人体关节预测点的偏移量;
所述第三损失函数为:
Figure BDA0003498043870000044
其中,Lb表示第三损失函数值;k和n表示第四特征图中人体关节点的编号,且k,n∈j;
Figure BDA0003498043870000045
表示第四特征图中预测的第k个人体关节点,
Figure BDA0003498043870000046
表示第四特征图中预测的第n个人体关节点;
Figure BDA0003498043870000047
表示第一图像中真实的第k个人体关节点,
Figure BDA0003498043870000048
表示第一图像中真实的第n个人体关节点;
Figure BDA0003498043870000049
表示真实的相邻人体关节点之间的距离,
Figure BDA00034980438700000410
表示预测的相邻人体关节点之间的距离;
所述第四损失函数为:
Figure BDA00034980438700000411
其中,Lm表示第四损失函数值;Mi(mj)表示所述融合后的特征图中第i个人的人体关节预测点;
Figure BDA00034980438700000412
表示与所述融合后的特征图对应的关节点热图,
Figure BDA00034980438700000413
表示与所述融合后的特征图对应的关节点热图中的粗关节点,λ表示关节点的个数;Gi(pj)表示第i个人在第一图像中真实的人体关节点;G={g1,...,gλ},表示与第一图像对应的关节点热图,gλ表示与第一图像对应的关节点热图中真实的人体关节点。
可选地,所述目标损失函数的确定过程,具体包括:
根据公式L=αLh+βLo+γLb+δLm确定目标损失函数;
其中,α表示第一损失函数值的权重,β表示第二损失函数值的权重,γ表示第三损失函数值的权重,δ表示第四损失函数值的权重。
可选地,所述第一主干网络包括第一子网和第二子网;
所述第一子网的输入端与所述茎网络的输出端连接,所述第一子网的输出端与所述第二子网的输入端连接;所述第二子网的第一输出端与所述第二主干网络的输入端连接,所述第二子网的第二输出端与所述人体结构引导学习分支网络的输入端连接;
所述第一子网包括依次连接的多个残差模块;
所述第二子网包括第一分支和第二分支;所述第一分支和所述第二分支均包括多个残差模块,且所述第一分支的残差模块的数量与所述第二分支的残差模块的数量相同;
所述第一分支的输入端与所述第一子网的第一输出端连接,所述第一分支的第一输出端与所述第二主干网络的输入端连接,所述第一分支的第二输出端与所述人体结构引导学习分支网络的输入端连接;
所述第二分支为所述第一子网经过下采样衍生确定的;所述第二分支的输入端与所述第一子网的第二输出端连接,所述第二分支的第一输出端与所述第二主干网络的输入端连接,所述第二分支的第二输出端与所述人体结构引导学习分支网络的输入端连接。
可选地,所述第二主干网络包括第三子网和第四子网;
所述第三子网的第一输入端与所述第一分支连接,所述第三子网的第二输入端与所述第二分支连接;所述第三子网的输出端与所述第四子网的输入端连接,所述第四子网的输出端与所述特征融合细化网络的第一输入端连接;
所述第三子网包括并行的第三分支、第四分支和第五分支;所述第三分支、所述第四分支和所述第五分支均包括多个残差模块,且所述第三分支的残差模块的数量、所述第四分支的残差模块的数量与所述第五分支的残差模块的数量均相同;
所述第三分支的输入端分别与所述第一分支的第一输出端和所述第二分支的第一输出端连接;所述第四分支的输入端分别与所述第一分支的第一输出端和所述第二分支的第一输出端连接;
所述第五分支为所述第二分支经过下采样衍生确定的;所述第五分支的输入端分别与所述第一分支的第一输出端和所述第二分支的第一输出端连接;
所述第四子网包括并行的第六分支、第七分支、第八分支和第九分支;所述第六分支、所述第七分支、所述第八分支和所述第九分支均包括多个残差模块,且所述第六分支的残差模块的数量、所述第七分支的残差模块的数量、所述第八分支的残差模块的数量与所述第九分支的残差模块的数量均相同;
所述第六分支的输入端分别与所述第三分支的输出端、所述第四分支的输出端和所述第五分支的输出端连接;所述第七分支的输入端分别与所述第三分支的输出端、所述第四分支的输出端和所述第五分支的输出端连接;所述第八分支的输入端分别与所述第三分支的输出端、所述第四分支的输出端和所述第五分支的输出端连接;
所述第九分支为所述第五分支经过下采样衍生确定的;所述第九分支的输入端分别与所述第三分支的输出端、所述第四分支的输出端和所述第五分支的输出端连接。
为达上述目的,本发明还提供了如下技术方案:
一种基于人体结构引导学习网络的姿态估计系统,包括:
图像获取子系统,用于获取待测人体姿态图像;所述待测人体姿态图像包括多个人体关节点;
姿态估计子系统,用于将所述待测人体姿态图像输入至人体姿态估计模型中,以获取人体姿态;
所述人体姿态估计模型是根据训练集和标定深度卷积神经网络训练得到的;所述训练集包括多张第一图像以及与所述第一图像对应的标签信息;所述标签信息为所述第一图像中的人体关节点;所述人体关节点用于构建所述人体姿态;所述标定深度卷积神经网络包括茎网络、第一主干网络、第二主干网络、人体结构引导学习分支网络和特征融合细化网络;
所述茎网络的输入端用于输入所述训练集;所述茎网络的输出端与所述第一主干网络的输入端连接;所述茎网络用于对所述训练集中的第一图像进行特征提取,以确定第一特征图;
所述第一主干网络的第一输出端与所述第二主干网络的输入端连接,所述第一主干网络的第二输出端与所述人体结构引导学习分支网络的输入端连接;所述第一主干网络用于对所述第一特征图进行特征提取,以确定第二特征图;
所述第二主干网络的输出端与所述特征融合细化网络的第一输入端连接,所述第二主干网络用于对所述第二特征图进行特征提取,以确定第三特征图;
所述人体结构引导学习分支网络的输出端与所述特征融合细化网络的第二输入端连接;所述人体结构引导学习分支网络用于对所述第二特征图进行人体结构解析,以确定第四特征图;
所述特征融合细化网络用于对所述第三特征图和所述第四特征图进行多尺度特征融合,并对融合后的特征图进行姿态细化,以确定人体姿态。
可选地,所述人体结构引导学习分支网络包括编码子网络和解码子网络;
所述编码子网络的输入端与所述第一主干网络的第二输出端连接,所述编码子网络的输出端与所述解码子网络的输入端连接,所述解码子网络的输出端与所述特征融合细化网络的第二输入端连接;
所述编码子网络包括依次连接的多个编码模块,所述解码子网络包括依次连接的多个解码模块;所述编码模块与所述解码模块一一对应,且一个所述编码模块与对应的一个所述解码模块残差连接;
所述编码模块包括依次连接的第一带记忆Transformer模块和下采样模块;所述第一带记忆Transformer模块包括非重叠窗口自注意力机制网络和带记忆单元的前向传播网络;
所述解码模块包括依次连接的上采样模块和第二带记忆Transformer模块;所述第二带记忆Transformer模块包括非重叠窗口自注意力机制网络和带记忆单元的前向传播网络。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明结合茎网络、第一主干网络、第二主干网络、人体结构引导学习分支网络和特征融合细化网络构建一种人体姿态估计模型,利用该模型对人体姿态进行估计。其中,采用的人体结构引导学习分支网络是一种动态的结构网络,能够通过有效地学习达到一次性适应姿态参数,进而快速适应基础的姿态估计模型,以辅助人体关节点的检测估计;通过特征融合细化网络,有效地将具有丰富语义信息的第四特征图特征融合到具有强空间位置信息的第三特征图中,进而提高关节点预测精确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于人体结构引导学习网络的姿态估计方法的流程示意图;
图2为本发明特征融合细化网络中两个尺度特征融合模块的示意图;
图3为本发明特征融合细化网络中多个尺度递进特征融合模块的示意图;
图4为本发明基于人体结构引导学习网络的姿态估计系统的结构示意图;
图5为本发明人体姿态估计模型的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于人体结构引导学习网络的姿态估计方法及系统,采用基于Transformer的Encoder-Decoder网络结构作为人体结构引导学习器,通过有效的学习一次性适应姿态参数,从而快速适应基础的姿态估计模型,以辅助关节点的预测;通过基于注意力机制的多尺度特征融合方法,有效地将具有丰富语义信息的高层特征融合到具有强空间位置信息的高分辨率特征图中,进而提高关节点预测精度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1所示,本发明提供一种基于人体结构引导学习网络的姿态估计方法,包括:
步骤100,获取待测人体姿态图像;所述待测人体姿态图像包括多个人体关节点。
步骤200,将所述待测人体姿态图像输入至人体姿态估计模型中,以获取人体姿态。
所述人体姿态估计模型是根据训练集和标定深度卷积神经网络训练得到的;所述训练集包括多张第一图像以及与所述第一图像对应的标签信息;所述标签信息为所述第一图像中的人体关节点;所述人体关节点用于构建所述人体姿态;所述标定深度卷积神经网络包括茎网络、第一主干网络、第二主干网络、人体结构引导学习分支网络和特征融合细化网络。具体地,所述茎网络为包括两个大小为3×3的带有步长卷积核的网络,所述茎网络用于改变图像特征图的通道和图像的分辨率,从而提取图像的特征。
所述茎网络的输入端用于输入所述训练集;所述茎网络的输出端与所述第一主干网络的输入端连接;所述茎网络用于对所述训练集中的第一图像进行特征提取,以确定第一特征图。所述第一主干网络的第一输出端与所述第二主干网络的输入端连接,所述第一主干网络的第二输出端与所述人体结构引导学习分支网络的输入端连接;所述第一主干网络用于对所述第一特征图进行特征提取,以确定第二特征图。所述第二主干网络的输出端与所述特征融合细化网络的第一输入端连接,所述第二主干网络用于对所述第二特征图进行特征提取,以确定第三特征图。
所述人体结构引导学习分支网络的输出端与所述特征融合细化网络的第二输入端连接;所述人体结构引导学习分支网络用于对所述第二特征图进行人体结构解析,以确定第四特征图。所述特征融合细化网络用于对所述第三特征图和所述第四特征图进行多尺度特征融合,并对融合后的特征图进行姿态细化,以确定人体姿态。
具体地,在人体姿态估计模型进行训练之前,先获取数据集中的样本图像(第一图像)和与每张样本图像相对应的标注数据。其中,将所述样本图像经过人体检测模型提取出包含单个人的每一个单张图片,且将图像调整为大小为384x288的RGB图像。然后,将相应的原始数据集标注的关节点位置调整到输入图像尺度的位置,并构造地面真值热图。具体地,将相应的原始数据集标注的关节点位置调整到输入图像尺度的位置,以减小训练过程中可能造成的误差。
在人体姿态估计模型进行训练过程中,将训练集输入至标定深度卷积神经网络进行训练,再利用验证集对训练后的标定深度卷积神经网络进行验证。深度卷积神经网络的训练过程中,首先设定一个较小值作为初始精度,将每次训练后得到的人体检测模型的检测精度与当前最好的精度进行比较。如果当前迭代轮次得到的人体检测模型的精度最高,则将该模型进行保存,并将该模型的精度作为当前最好的精度。在下一轮迭代中,根据目标损失函数的损失值更新标定深度卷积神经网络的网络参数,并使标定深度卷积神经网络开始下一次迭代训练。当训练迭代次数达到预设的训练次数后,训练结束,并将所有训练轮次中精度最好的模型作为最终的人体检测模型。在一个具体实施例中,预设的训练次数为240。
优选地,如图5所示,所述人体结构引导学习分支网络包括编码子网络和解码子网络;所述编码子网络的输入端与所述第一主干网络的第二输出端连接,所述编码子网络的输出端与所述解码子网络的输入端连接,所述解码子网络的输出端与所述特征融合细化网络的第二输入端连接。
所述编码子网络包括依次连接的多个编码模块,所述解码子网络包括依次连接的多个解码模块;所述编码模块与所述解码模块一一对应,且为了防止梯度消失,一个所述编码模块与对应的一个所述解码模块残差连接。
在一个具体实施例中,所述编码子网络包括四个编码模块,所述解码子网络包括四个解码模块。所述编码模块包括依次连接的第一带记忆Transformer模块(MemoryTransformer Block,MTB)和下采样模块;所述第一带记忆Transformer模块包括非重叠窗口自注意力机制网络和带记忆单元的前向传播网络;所述解码模块包括依次连接的上采样模块和第二带记忆Transformer模块;所述第二带记忆Transformer模块包括非重叠窗口自注意力机制网络和带记忆单元的前向传播网络。
具体地,所述编码子网络包括依次连接的第一MTB、第一1/2下采样模块、第三MTB、第二1/2下采样模块、第五MTB、第三1/2下采样模块、第七MTB和第四1/2下采样模块;所述解码子网络包括依次连接的第一×2上采样模块、第二MTB、第二×2上采样模块、第四MTB、第三×2上采样模块、第六MTB、第四×2上采样模块和第八MTB。其中,所述第一MTB还与第八MTB跳跃连接,执行特征相加以得到第一输出特征,并将第一输出特征输出至特征融合细化网络;所述第一输出特征为经由卷积核提取出的人体姿态特征。所述第三MTB还与第六MTB跳跃连接,执行特征相加以得到第二输出特征,并将第二输出特征输出至特征融合细化网络;所述第五MTB还与第四MTB跳跃连接,执行特征相加以得到第三输出特征,并将第三输出特征输出至特征融合细化网络;所述第七MTB还与第二MTB跳跃连接,执行特征相加以得到第四输出特征,并将第四输出特征输出至特征融合细化网络。
上述四个编码模块和四个解码模块组成的人体结构引导学习分支网络能够达到更高的人体关节估计精度;若要达到更快的人体关节估计速度,可构建由三个编码模块和三个解码模块组成的人体结构引导学习分支网络。
优选地,所述第一主干网络包括第一子网和第二子网。其中,第一子网的通道数为48;第二子网为具有两个分支的并行多分辨网络。所述第一子网的输入端与所述茎网络的输出端连接,所述第一子网的输出端与所述第二子网的输入端连接;所述第二子网的第一输出端与所述第二主干网络的输入端连接,所述第二子网的第二输出端与所述人体结构引导学习分支网络的输入端连接;
所述第一子网包括依次连接的多个残差模块;具体地,第一子网包括横向并行排列并连接的4个残差模块。所述第二子网包括第一分支和第二分支;所述第一分支和所述第二分支均包括多个残差模块,且所述第一分支的残差模块的数量与所述第二分支的残差模块的数量相同,均为4个。
所述第一分支的输入端与所述第一子网的第一输出端连接,所述第一分支的第一输出端与所述第二主干网络的输入端连接,所述第一分支的第二输出端与所述人体结构引导学习分支网络的输入端连接,具体地,所述第一分支的第二输出端与第一MTB的输入端连接。所述第二分支为所述第一子网经过下采样衍生确定的;所述第二分支的输入端与所述第一子网的第二输出端连接,所述第二分支的第一输出端与所述第二主干网络的输入端连接,所述第二分支的第二输出端与所述人体结构引导学习分支网络的输入端连接,具体地,所述第二分支的第二输出端与第一MTB的输入端连接。
所述第二主干网络包括第三子网和第四子网;其中,第三子网为具有3个分支的并行多分辨的网络,第四子网为具有4个分支的并行多分辨的网络。所述第三子网的第一输入端与所述第一分支连接,所述第三子网的第二输入端与所述第二分支连接;所述第三子网的输出端与所述第四子网的输入端连接,所述第四子网的输出端与所述特征融合细化网络的第一输入端连接。
所述第三子网包括并行的第三分支、第四分支和第五分支;所述第三分支、所述第四分支和所述第五分支均包括多个残差模块,且所述第三分支的残差模块的数量、所述第四分支的残差模块的数量与所述第五分支的残差模块的数量均相同,均为4个。所述第三分支的输入端分别与所述第一分支的第一输出端和所述第二分支的第一输出端连接;所述第四分支的输入端分别与所述第一分支的第一输出端和所述第二分支的第一输出端连接。
所述第五分支为所述第二分支经过下采样衍生确定的;所述第五分支的输入端分别与所述第一分支的第一输出端和所述第二分支的第一输出端连接。
所述第四子网包括并行的第六分支、第七分支、第八分支和第九分支;所述第六分支、所述第七分支、所述第八分支和所述第九分支均包括多个残差模块,且所述第六分支的残差模块的数量、所述第七分支的残差模块的数量、所述第八分支的残差模块的数量与所述第九分支的残差模块的数量均相同,均为4个。
所述第六分支的输入端分别与所述第三分支的输出端、所述第四分支的输出端和所述第五分支的输出端连接;所述第七分支的输入端分别与所述第三分支的输出端、所述第四分支的输出端和所述第五分支的输出端连接;所述第八分支的输入端分别与所述第三分支的输出端、所述第四分支的输出端和所述第五分支的输出端连接。
所述第九分支为所述第五分支经过下采样衍生确定的;所述第九分支的输入端分别与所述第三分支的输出端、所述第四分支的输出端和所述第五分支的输出端连接。
进一步地,所述第一子网、所述第二子网、所述第三子网和所述第四子网从左到右依次进行连接,子网中的各个分支上下排列对齐。
优选地,所述特征融合细化网络包括多尺度融合模块和姿态细化模块;所述多尺度融合模块的第一输入端与所述第二主干网络的输出端连接,所述多尺度融合模块的第二输入端分别与多个所述解码模块的输出端连接,所述多尺度融合模块的输出端与所述姿态细化模块的输入端连接;所述姿态细化模块的输出端用于输出人体姿态。
所述多尺度融合模块包括特征融合子模块和多个特征提取子模块;所述特征提取子模块的数量与所述解码模块的数量相同,且一个所述特征提取子模块与一个所述解码模块相对应,均为四个。
所述特征提取子模块的第一输入端与所述第二主干网络的输出端连接,所述特征提取子模块的第二输入端与相对应的所述解码模块的输出端连接,所述特征提取子模块的输出端与所述特征融合子模块的输入端连接;所述特征融合子模块的输出端与所述姿态细化模块的输入端连接。
其中,第一特征提取子模块的第一输入端与第六分支的输出端连接,第一特征提取子模块的第二输入端用于输入解码模块输出的第一输出卷积核,第一特征提取子模块用于将所述第一输出卷积核运用于所述第六分支输出的特征图,以提取第一人体结构特征信息,并输出第一尺度特征。第二特征提取子模块的第一输入端与第七分支的输出端连接,第二特征提取子模块的第二输入端用于输入解码模块输出的第二输出卷积核,第二特征提取子模块用于将所述第二输出卷积核运用于所述第七分支输出的特征图,以提取第二人体结构特征信息,并输出第二尺度特征。第三特征提取子模块的第一输入端与第八分支的输出端连接,第三特征提取子模块的第二输入端用于输入解码模块输出的第三输出卷积核,第三特征提取子模块用于将所述第三输出卷积核运用于所述第八分支输出的特征图,以提取第三人体结构特征信息,并输出第三尺度特征。第四特征提取子模块的第一输入端与第九分支的输出端连接,第四特征提取子模块的第二输入端用于输入解码模块输出的第四输出卷积核,第四特征提取子模块用于将所述第四输出卷积核运用于所述第九分支输出的特征图,以提取第四人体结构特征信息,并输出第四尺度特征。第六分支输出的特征图、第七分支输出的特征图、第八分支输出的特征图和第九分支输出的特征图属于不同分辨率的特征图,且第一输出卷积核、第二输出卷积核、第三输出卷积核和第四输出卷积核分别应用到分支输出的特征图之后,分别提取特定的人体结构特征信息。
所述特征融合子模块用于将多个所述特征提取子模块输出的子特征图进行融合,以确定最终特征图;所述姿态细化模块用于根据所述最终特征图确定多个人体关节点,并根据多个所述人体关节点确定人体姿态。
具体地,将第一尺度特征、第二尺度特征、第三尺度特征和第四尺度特征输入至特征融合子模块。如图2和图3所示,在特征融合子模块中,将第三尺度特征进行自身相似度计算,得到与第三尺度特征具有相同分辨率的输出Sout3,1特征;将第三尺度特征和第四尺度特征进行相似度计算,得到与第三尺度特征具有相同分辨率的输出Sout3,2特征;将第三尺度特征、Sout3,1特征和Sout3,2特征在通道维度上拼接然后经过一个1x1卷积层,输出Sout3,f特征。同理递归,计算第二尺度特征与Sout3,f特征进行特征融合后的Sout2,f特征,同理递归,计算第一尺度特征与Sout2,f特征进行特征融合后的Sout1,f特征;将Sout1,f特征确定为最终特征图,从而实现将高层的具有丰富语义信息的特征图融合到低层具有强空间信息的特征图像素中。
最后将最终特征图输入至姿态细化模块,姿态细化模块将特征图通道调整为与关节点个数相同的通道,生成最终预测的关节点热图,并确定人体姿态。
进一步地,为了能够加速模型的收敛,在模型的训练过程中,使用高斯函数生成关节点预测热图,通过均方误差进行关节点的粗预测。具体地,所述人体姿态估计模型的训练过程,还包括:确定目标损失函数;根据所述目标损失函数和所述训练集对所述标定深度卷积神经网络进行训练,以得到人体姿态估计模型。
其中,所述目标损失函数为由第一损失函数、第二损失函数、第三损失函数和第四损失函数确定的;所述第一损失函数用于表示所述第二特征图对应的人体关节预测点与第一图像中人体关节点之间的损失值;所述第二损失函数用于表示所述第二特征图对应的人体关节预测点的偏移量与所述人体关节预测点的平均偏移量之间的损失值;所述第三损失函数用于表示所述第四特征图对应的人体关节预测点中各个人体关节预测点之间的距离与第一图像中各个人体关节点之间的距离的损失值;所述第四损失函数用于表示所述融合后的特征图对应的人体关节预测点与第一图像中人体关节点之间的损失值。
所述第一损失函数为:
Figure BDA0003498043870000151
其中,Lh表示第一损失函数值;i表示人体编号,j为人体关节点的编号,且i,j为正整数;Pi(pj)表示第二特征图中第i个人的人体关节预测点;
Figure BDA0003498043870000152
表示与所述第二特征图对应的关节点热图,尺度为λ×96×72,
Figure BDA0003498043870000153
表示与所述第二特征图对应的关节点热图中的粗关节点,具体地,获取第二特征图对应的关节点的位置热图,根据关节点的位置热图确定关节点的粗略位置,λ表示关节点的个数;Gi(pj)表示第i个人在第一图像中真实的人体关节点;G={g1,...,gλ},表示与第一图像对应的关节点热图,gλ表示与第一图像对应的关节点热图中真实的人体关节点。具体地,在样本图像完成标注处理之后,即可通过高斯激活构造出与样本图像(第一图像)对应的地面真值热图。
所述第二损失函数为:
Figure BDA0003498043870000154
其中,Lo表示第二损失函数值;Oi(pj)表示第二特征图中第i个人的人体关节预测点的偏移量,
Figure BDA0003498043870000155
表示第二特征图中第i个人的人体关节预测点的平均偏移量。具体地,获取第二特征图对应的关节点的偏移热图,根据偏移热图确定第二损失函数。
所述第三损失函数为:
Figure BDA0003498043870000156
其中,Lb表示第三损失函数值;k和n表示第四特征图中人体关节点的编号,且k,n∈j;
Figure BDA0003498043870000157
表示第四特征图中预测的第k个人体关节点,
Figure BDA0003498043870000158
表示第四特征图中预测的第n个人体关节点;
Figure BDA0003498043870000159
表示第一图像中真实的第k个人体关节点,
Figure BDA00034980438700001510
表示第一图像中真实的第n个人体关节点;
Figure BDA00034980438700001511
表示真实的相邻人体关节点之间的距离,
Figure BDA00034980438700001512
表示预测的相邻人体关节点之间的距离。通过根据人体骨架进行第三损失函数的计算,能够约束网络学习人体结构的先验知识。进一步地,此处依旧是对第i个人的关节点进行的预测,下标2Dk和2Dn表示第i个人的不同关节点。
所述第四损失函数为:
Figure BDA0003498043870000161
其中,Lm表示第四损失函数值;Mi(mj)表示所述融合后的特征图中第i个人的人体关节预测点;
Figure BDA0003498043870000162
表示与所述融合后的特征图对应的关节点热图,
Figure BDA0003498043870000163
表示与所述融合后的特征图对应的关节点热图中的粗关节点,λ表示关节点的个数;Gi(pj)表示第i个人在第一图像中真实的人体关节点;G={g1,...,gλ},表示与第一图像对应的关节点热图,gλ表示与第一图像对应的关节点热图中真实的人体关节点。
进一步地,所述目标损失函数的确定过程,具体包括:根据公式L=αLh+βLo+γLb+δLm确定目标损失函数;其中,α表示第一损失函数值的权重,β表示第二损失函数值的权重,γ表示第三损失函数值的权重,δ表示第四损失函数值的权重。
优选地,在关节点的位置热图中,利用非极大值抑制算法查找各个关节点的最大像素值位置,以所述最大像素值位置为关节点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,保留半径内的值,其余值设置为0,以确定中心关节点的初步位置;在关节点的偏移热图中,利用非极大值抑制算法查找所述偏移热图中的最大像素值,即偏移向量;以关节点的初步位置加上关节点的偏移向量即可得到预测出的关节点位置,即人体关节预测点;最后,将多个人体关节预测点按照预先标定的骨架顺序连接,形成完整的人体姿态。
实施例二
如图4所示,本实施例提供一种基于人体结构引导学习网络的姿态估计系统,所述姿态估计系统包括:
图像获取子系统101,用于获取待测人体姿态图像;所述待测人体姿态图像包括多个人体关节点。
姿态估计子系统201,用于将所述待测人体姿态图像输入至人体姿态估计模型中,以获取人体姿态。
所述人体姿态估计模型是根据训练集和标定深度卷积神经网络训练得到的;所述训练集包括多张第一图像以及与所述第一图像对应的标签信息;所述标签信息为所述第一图像中的人体关节点;所述人体关节点用于构建所述人体姿态;所述标定深度卷积神经网络包括茎网络、第一主干网络、第二主干网络、人体结构引导学习分支网络和特征融合细化网络。
所述茎网络的输入端用于输入所述训练集;所述茎网络的输出端与所述第一主干网络的输入端连接;所述茎网络用于对所述训练集中的第一图像进行特征提取,以确定第一特征图。所述第一主干网络的第一输出端与所述第二主干网络的输入端连接,所述第一主干网络的第二输出端与所述人体结构引导学习分支网络的输入端连接;所述第一主干网络用于对所述第一特征图进行特征提取,以确定第二特征图;所述第二主干网络的输出端与所述特征融合细化网络的第一输入端连接,所述第二主干网络用于对所述第二特征图进行特征提取,以确定第三特征图。所述人体结构引导学习分支网络的输出端与所述特征融合细化网络的第二输入端连接;所述人体结构引导学习分支网络用于对所述第二特征图进行人体结构解析,以确定第四特征图。所述特征融合细化网络用于对所述第三特征图和所述第四特征图进行多尺度特征融合,并对融合后的特征图进行姿态细化,以确定人体姿态。
所述人体结构引导学习分支网络包括编码子网络和解码子网络。所述编码子网络的输入端与所述第一主干网络的第二输出端连接,所述编码子网络的输出端与所述解码子网络的输入端连接,所述解码子网络的输出端与所述特征融合细化网络的第二输入端连接;所述编码子网络包括依次连接的多个编码模块,所述解码子网络包括依次连接的多个解码模块;所述编码模块与所述解码模块一一对应,且一个所述编码模块与对应的一个所述解码模块残差连接。
所述编码模块包括依次连接的第一带记忆Transformer模块和下采样模块;所述第一带记忆Transformer模块包括非重叠窗口自注意力机制网络和带记忆单元的前向传播网络。所述解码模块包括依次连接的上采样模块和第二带记忆Transformer模块;所述第二带记忆Transformer模块包括非重叠窗口自注意力机制网络和带记忆单元的前向传播网络。
相对于现有技术,本发明还具有以下优点:
(1)本发明构建了人体结构引导学习分支网络,其预测的自适应参数可以帮助人体姿态估计模型学习更多定制的表示,以估计特定的输入的姿态,其中包含的身体线索能够被有效地集成,以约束关节位置和姿态结构。并且,人体结构引导学习器还可以针对不同的输入图像有效地学习适应参数,从而根据解析信息快速适应姿态模型,是一种动态的姿态模型。
(2)本申请通过基于自注意力机制的递归特征融合操作,将低分辨率的具有丰富语义信息的特征图中的“概念”融合到高分辨率具有较强空间信息的特征图的“像素”中,使得人体各关节点精度更加准确,大大提高姿态估计的精度,为行为识别、行人重识别、异常行为检测等提供一个姿态参考。
(3)本申请通过在模型训练过程中输出采样中间,能够减小数据样本方差,加快模型的收敛速度,通过设计的加权骨头损失函数(第三损失函数),能够很好约束人体骨架,辅助关节点位置和类别的预测,进一步提高关节预测精度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于人体结构引导学习网络的姿态估计方法,其特征在于,所述姿态估计方法包括:
获取待测人体姿态图像;所述待测人体姿态图像包括多个人体关节点;
将所述待测人体姿态图像输入至人体姿态估计模型中,以获取人体姿态;
所述人体姿态估计模型是根据训练集和标定深度卷积神经网络训练得到的;所述训练集包括多张第一图像以及与所述第一图像对应的标签信息;所述标签信息为所述第一图像中的人体关节点;所述人体关节点用于构建所述人体姿态;所述标定深度卷积神经网络包括茎网络、第一主干网络、第二主干网络、人体结构引导学习分支网络和特征融合细化网络;
所述茎网络的输入端用于输入所述训练集;所述茎网络的输出端与所述第一主干网络的输入端连接;所述茎网络用于对所述训练集中的第一图像进行特征提取,以确定第一特征图;
所述第一主干网络的第一输出端与所述第二主干网络的输入端连接,所述第一主干网络的第二输出端与所述人体结构引导学习分支网络的输入端连接;所述第一主干网络用于对所述第一特征图进行特征提取,以确定第二特征图;
所述第二主干网络的输出端与所述特征融合细化网络的第一输入端连接,所述第二主干网络用于对所述第二特征图进行特征提取,以确定第三特征图;
所述人体结构引导学习分支网络的输出端与所述特征融合细化网络的第二输入端连接;所述人体结构引导学习分支网络用于对所述第二特征图进行人体结构解析,以确定第四特征图;
所述特征融合细化网络用于对所述第三特征图和所述第四特征图进行多尺度特征融合,并对融合后的特征图进行姿态细化,以确定人体姿态。
2.根据权利要求1所述的基于人体结构引导学习网络的姿态估计方法,其特征在于,所述人体结构引导学习分支网络包括编码子网络和解码子网络;
所述编码子网络的输入端与所述第一主干网络的第二输出端连接,所述编码子网络的输出端与所述解码子网络的输入端连接,所述解码子网络的输出端与所述特征融合细化网络的第二输入端连接;
所述编码子网络包括依次连接的多个编码模块,所述解码子网络包括依次连接的多个解码模块;所述编码模块与所述解码模块一一对应,且一个所述编码模块与对应的一个所述解码模块残差连接;
所述编码模块包括依次连接的第一带记忆Transformer模块和下采样模块;所述第一带记忆Transformer模块包括非重叠窗口自注意力机制网络和带记忆单元的前向传播网络;
所述解码模块包括依次连接的上采样模块和第二带记忆Transformer模块;所述第二带记忆Transformer模块包括非重叠窗口自注意力机制网络和带记忆单元的前向传播网络。
3.根据权利要求2所述的基于人体结构引导学习网络的姿态估计方法,其特征在于,所述特征融合细化网络包括多尺度融合模块和姿态细化模块;
所述多尺度融合模块的第一输入端与所述第二主干网络的输出端连接,所述多尺度融合模块的第二输入端分别与多个所述解码模块的输出端连接,所述多尺度融合模块的输出端与所述姿态细化模块的输入端连接;
所述姿态细化模块的输出端用于输出人体姿态;
所述多尺度融合模块包括特征融合子模块和多个特征提取子模块;所述特征提取子模块的数量与所述解码模块的数量相同,且一个所述特征提取子模块与一个所述解码模块相对应;
所述特征提取子模块的第一输入端与所述第二主干网络的输出端连接,所述特征提取子模块的第二输入端与相对应的所述解码模块的输出端连接,所述特征提取子模块的输出端与所述特征融合子模块的输入端连接;所述特征融合子模块的输出端与所述姿态细化模块的输入端连接;
所述特征融合子模块用于将多个所述特征提取子模块输出的子特征图进行融合,以确定最终特征图;
所述姿态细化模块用于根据所述最终特征图确定多个人体关节点,并根据多个所述人体关节点确定人体姿态。
4.根据权利要求1所述的基于人体结构引导学习网络的姿态估计方法,其特征在于,所述人体姿态估计模型的训练过程,还包括:
确定目标损失函数;
根据所述目标损失函数和所述训练集对所述标定深度卷积神经网络进行训练,以得到人体姿态估计模型;
其中,所述目标损失函数为由第一损失函数、第二损失函数、第三损失函数和第四损失函数确定的;所述第一损失函数用于表示所述第二特征图对应的人体关节预测点与第一图像中人体关节点之间的损失值;所述第二损失函数用于表示所述第二特征图对应的人体关节预测点的偏移量与所述人体关节预测点的平均偏移量之间的损失值;所述第三损失函数用于表示所述第四特征图对应的人体关节预测点中各个人体关节预测点之间的距离与第一图像中各个人体关节点之间的距离的损失值;所述第四损失函数用于表示所述融合后的特征图对应的人体关节预测点与第一图像中人体关节点之间的损失值。
5.根据权利要求4所述的基于人体结构引导学习网络的姿态估计方法,其特征在于,所述第一损失函数为:
Figure FDA0003498043860000031
其中,Lh表示第一损失函数值;i表示人体编号,j为人体关节点的编号,且i,j为正整数;Pi(pj)表示第二特征图中第i个人的人体关节预测点;
Figure FDA0003498043860000032
表示与所述第二特征图对应的关节点热图,
Figure FDA0003498043860000033
表示与所述第二特征图对应的关节点热图中的粗关节点,λ表示关节点的个数;Gi(pj)表示第i个人在第一图像中真实的人体关节点;G={g1,...,gλ},表示与第一图像对应的关节点热图,gλ表示与第一图像对应的关节点热图中真实的人体关节点;
所述第二损失函数为:
Figure FDA0003498043860000034
其中,Lo表示第二损失函数值;Oi(pj)表示第二特征图中第i个人的人体关节预测点的偏移量;
所述第三损失函数为:
Figure FDA0003498043860000035
其中,Lb表示第三损失函数值;k和n表示第四特征图中人体关节点的编号,且k,n∈j;
Figure FDA0003498043860000036
表示第四特征图中预测的第k个人体关节点,
Figure FDA0003498043860000037
表示第四特征图中预测的第n个人体关节点;
Figure FDA0003498043860000038
表示第一图像中真实的第k个人体关节点,
Figure FDA0003498043860000041
表示第一图像中真实的第n个人体关节点;
Figure FDA0003498043860000042
表示真实的相邻人体关节点之间的距离,
Figure FDA0003498043860000043
表示预测的相邻人体关节点之间的距离;
所述第四损失函数为:
Figure FDA0003498043860000044
其中,Lm表示第四损失函数值;Mi(mj)表示所述融合后的特征图中第i个人的人体关节预测点;
Figure FDA0003498043860000045
表示与所述融合后的特征图对应的关节点热图,
Figure FDA0003498043860000046
表示与所述融合后的特征图对应的关节点热图中的粗关节点,λ表示关节点的个数;Gi(pj)表示第i个人在第一图像中真实的人体关节点;G={g1,...,gλ},表示与第一图像对应的关节点热图,gλ表示与第一图像对应的关节点热图中真实的人体关节点。
6.根据权利要求5所述的基于人体结构引导学习网络的姿态估计方法,其特征在于,所述目标损失函数的确定过程,具体包括:
根据公式L=αLh+βLo+γLb+δLm确定目标损失函数;
其中,α表示第一损失函数值的权重,β表示第二损失函数值的权重,γ表示第三损失函数值的权重,δ表示第四损失函数值的权重。
7.根据权利要求1所述的基于人体结构引导学习网络的姿态估计方法,其特征在于,所述第一主干网络包括第一子网和第二子网;
所述第一子网的输入端与所述茎网络的输出端连接,所述第一子网的输出端与所述第二子网的输入端连接;所述第二子网的第一输出端与所述第二主干网络的输入端连接,所述第二子网的第二输出端与所述人体结构引导学习分支网络的输入端连接;
所述第一子网包括依次连接的多个残差模块;
所述第二子网包括第一分支和第二分支;所述第一分支和所述第二分支均包括多个残差模块,且所述第一分支的残差模块的数量与所述第二分支的残差模块的数量相同;
所述第一分支的输入端与所述第一子网的第一输出端连接,所述第一分支的第一输出端与所述第二主干网络的输入端连接,所述第一分支的第二输出端与所述人体结构引导学习分支网络的输入端连接;
所述第二分支为所述第一子网经过下采样衍生确定的;所述第二分支的输入端与所述第一子网的第二输出端连接,所述第二分支的第一输出端与所述第二主干网络的输入端连接,所述第二分支的第二输出端与所述人体结构引导学习分支网络的输入端连接。
8.根据权利要求7所述的基于人体结构引导学习网络的姿态估计方法,其特征在于,所述第二主干网络包括第三子网和第四子网;
所述第三子网的第一输入端与所述第一分支连接,所述第三子网的第二输入端与所述第二分支连接;所述第三子网的输出端与所述第四子网的输入端连接,所述第四子网的输出端与所述特征融合细化网络的第一输入端连接;
所述第三子网包括并行的第三分支、第四分支和第五分支;所述第三分支、所述第四分支和所述第五分支均包括多个残差模块,且所述第三分支的残差模块的数量、所述第四分支的残差模块的数量与所述第五分支的残差模块的数量均相同;
所述第三分支的输入端分别与所述第一分支的第一输出端和所述第二分支的第一输出端连接;所述第四分支的输入端分别与所述第一分支的第一输出端和所述第二分支的第一输出端连接;
所述第五分支为所述第二分支经过下采样衍生确定的;所述第五分支的输入端分别与所述第一分支的第一输出端和所述第二分支的第一输出端连接;
所述第四子网包括并行的第六分支、第七分支、第八分支和第九分支;所述第六分支、所述第七分支、所述第八分支和所述第九分支均包括多个残差模块,且所述第六分支的残差模块的数量、所述第七分支的残差模块的数量、所述第八分支的残差模块的数量与所述第九分支的残差模块的数量均相同;
所述第六分支的输入端分别与所述第三分支的输出端、所述第四分支的输出端和所述第五分支的输出端连接;所述第七分支的输入端分别与所述第三分支的输出端、所述第四分支的输出端和所述第五分支的输出端连接;所述第八分支的输入端分别与所述第三分支的输出端、所述第四分支的输出端和所述第五分支的输出端连接;
所述第九分支为所述第五分支经过下采样衍生确定的;所述第九分支的输入端分别与所述第三分支的输出端、所述第四分支的输出端和所述第五分支的输出端连接。
9.一种基于人体结构引导学习网络的姿态估计系统,其特征在于,所述姿态估计系统包括:
图像获取子系统,用于获取待测人体姿态图像;所述待测人体姿态图像包括多个人体关节点;
姿态估计子系统,用于将所述待测人体姿态图像输入至人体姿态估计模型中,以获取人体姿态;
所述人体姿态估计模型是根据训练集和标定深度卷积神经网络训练得到的;所述训练集包括多张第一图像以及与所述第一图像对应的标签信息;所述标签信息为所述第一图像中的人体关节点;所述人体关节点用于构建所述人体姿态;所述标定深度卷积神经网络包括茎网络、第一主干网络、第二主干网络、人体结构引导学习分支网络和特征融合细化网络;
所述茎网络的输入端用于输入所述训练集;所述茎网络的输出端与所述第一主干网络的输入端连接;所述茎网络用于对所述训练集中的第一图像进行特征提取,以确定第一特征图;
所述第一主干网络的第一输出端与所述第二主干网络的输入端连接,所述第一主干网络的第二输出端与所述人体结构引导学习分支网络的输入端连接;所述第一主干网络用于对所述第一特征图进行特征提取,以确定第二特征图;
所述第二主干网络的输出端与所述特征融合细化网络的第一输入端连接,所述第二主干网络用于对所述第二特征图进行特征提取,以确定第三特征图;
所述人体结构引导学习分支网络的输出端与所述特征融合细化网络的第二输入端连接;所述人体结构引导学习分支网络用于对所述第二特征图进行人体结构解析,以确定第四特征图;
所述特征融合细化网络用于对所述第三特征图和所述第四特征图进行多尺度特征融合,并对融合后的特征图进行姿态细化,以确定人体姿态。
10.根据权利要求9所述的基于人体结构引导学习网络的姿态估计系统,其特征在于,所述人体结构引导学习分支网络包括编码子网络和解码子网络;
所述编码子网络的输入端与所述第一主干网络的第二输出端连接,所述编码子网络的输出端与所述解码子网络的输入端连接,所述解码子网络的输出端与所述特征融合细化网络的第二输入端连接;
所述编码子网络包括依次连接的多个编码模块,所述解码子网络包括依次连接的多个解码模块;所述编码模块与所述解码模块一一对应,且一个所述编码模块与对应的一个所述解码模块残差连接;
所述编码模块包括依次连接的第一带记忆Transformer模块和下采样模块;所述第一带记忆Transformer模块包括非重叠窗口自注意力机制网络和带记忆单元的前向传播网络;
所述解码模块包括依次连接的上采样模块和第二带记忆Transformer模块;所述第二带记忆Transformer模块包括非重叠窗口自注意力机制网络和带记忆单元的前向传播网络。
CN202210119930.3A 2022-02-09 2022-02-09 一种基于人体结构引导学习网络的姿态估计方法及系统 Pending CN115223190A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210119930.3A CN115223190A (zh) 2022-02-09 2022-02-09 一种基于人体结构引导学习网络的姿态估计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210119930.3A CN115223190A (zh) 2022-02-09 2022-02-09 一种基于人体结构引导学习网络的姿态估计方法及系统

Publications (1)

Publication Number Publication Date
CN115223190A true CN115223190A (zh) 2022-10-21

Family

ID=83606876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210119930.3A Pending CN115223190A (zh) 2022-02-09 2022-02-09 一种基于人体结构引导学习网络的姿态估计方法及系统

Country Status (1)

Country Link
CN (1) CN115223190A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116416667A (zh) * 2023-04-25 2023-07-11 天津大学 基于动态关联信息嵌入的面部动作单元检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116416667A (zh) * 2023-04-25 2023-07-11 天津大学 基于动态关联信息嵌入的面部动作单元检测方法
CN116416667B (zh) * 2023-04-25 2023-10-24 天津大学 基于动态关联信息嵌入的面部动作单元检测方法

Similar Documents

Publication Publication Date Title
CN111783705B (zh) 一种基于注意力机制的文字识别方法及系统
CN111950453B (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN111480169B (zh) 用于模式识别的方法、系统和装置
CN111681178B (zh) 一种基于知识蒸馏的图像去雾方法
EP3686780B1 (en) Learning method and learning device for attention-driven image segmentation by using at least one adaptive loss weight map to be used for updating hd maps required to satisfy level 4 of autonomous vehicles and testing method and testing device using the same
CN114565655B (zh) 一种基于金字塔分割注意力的深度估计方法及装置
CN111984772B (zh) 一种基于深度学习的医疗影像问答方法及系统
CN112733768B (zh) 基于双向特征语言模型的自然场景文本识别方法及装置
CN114972756A (zh) 一种医学图像的语义分割方法及装置
Xiang et al. ThunderNet: A turbo unified network for real-time semantic segmentation
CN113343707A (zh) 一种基于鲁棒性表征学习的场景文本识别方法
CN111738270B (zh) 模型生成方法、装置、设备和可读存储介质
CN116229056A (zh) 基于双分支特征融合的语义分割方法、装置、设备
CN114119975A (zh) 一种语言引导的跨模态实例分割方法
CN114092930B (zh) 一种文字识别方法及系统
CN111507184B (zh) 基于并联空洞卷积和身体结构约束的人体姿态检测方法
CN116229519A (zh) 一种基于知识蒸馏的二维人体姿态估计方法
CN117351542A (zh) 一种面部表情识别方法及系统
CN115223190A (zh) 一种基于人体结构引导学习网络的姿态估计方法及系统
CN114996495A (zh) 一种基于多原型和迭代增强的单样本图像分割方法及装置
Yao et al. SSNet: A novel transformer and CNN hybrid network for remote sensing semantic segmentation
CN112927236A (zh) 一种基于通道注意力和自监督约束的服装解析方法及系统
CN115512368B (zh) 一种跨模态语义生成图像模型和方法
CN113361510B (zh) 超分网络模型训练方法、装置、电子设备以及存储介质
CN115222768A (zh) 视频中跟踪对象的定位方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination