CN112149563A - 一种注意力机制人体图像关键点姿态估计方法及系统 - Google Patents

一种注意力机制人体图像关键点姿态估计方法及系统 Download PDF

Info

Publication number
CN112149563A
CN112149563A CN202011009430.1A CN202011009430A CN112149563A CN 112149563 A CN112149563 A CN 112149563A CN 202011009430 A CN202011009430 A CN 202011009430A CN 112149563 A CN112149563 A CN 112149563A
Authority
CN
China
Prior art keywords
human body
image
network
key points
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011009430.1A
Other languages
English (en)
Inventor
赫然
黄怀波
侯峦轩
马鑫
单彩峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cas Artificial Intelligence Research Qingdao Co ltd
Original Assignee
Cas Artificial Intelligence Research Qingdao Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cas Artificial Intelligence Research Qingdao Co ltd filed Critical Cas Artificial Intelligence Research Qingdao Co ltd
Priority to CN202011009430.1A priority Critical patent/CN112149563A/zh
Publication of CN112149563A publication Critical patent/CN112149563A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种注意力机制人体图像关键点姿态估计方法及系统,属于图像处理技术领域,生成质量能满足要求,且生成质量稳定,方法为,将人体图像输入到神经网络结构中,进行非线性处理,得到生成的人体骨架关键点姿态图像,将生成的人体骨架关键点姿态图像与真实标注的人体固件关键点图像作为损失函数的输入,并计算所述损失函数的值,求所述损失函数的值的梯度,并将求得的梯度反向传播并更新网络权重的参数,多次迭代直到该损失函数不变为止。

Description

一种注意力机制人体图像关键点姿态估计方法及系统
技术领域
本发明属于图像处理技术领域,特别是涉及一种注意力机制人体图像关键点 姿态估计方法及系统。
背景技术
这里的陈述仅提供与本发明相关的背景技术,而不必然地构成现有技术。 人体图像关键点姿态估计,是指从一张含有人体的图像中对人体骨架上的关键点 进行建模估计,人体关键点一般定义为:踝关节,左膝关节,左臀部,右臀部, 左膝关节,左踝关节,右踝关节,上颈部,头顶,右手腕,左肘,左肩,右肩, 右肘,左手腕,最后通过训练好的姿态估计模型,对输入图像进行姿态估计,输 出为含有人体骨架关键点的图像。
由于人体具有相当柔性,会出现各种姿态和形状,人体任何一个部位的微小 变化都会产生一种新的姿态,同时其关键点的可见性受穿着、姿态、视角等影响 非常大,而且还面临着遮挡、光照、雾等环境的影响,除此之外,2D人体关键 点和3D人体关键点在视觉上会有明显的差异,身体不同部位都会有视觉上缩短 的效果(foreshortening),使得人体骨骼关键点检测成为计算机视觉领域中一个 极具挑战性的问题。
现有解决人体图像关键点姿态估计的人体骨骼关键点检测算法基本上是在 几何先验的基础上基于模版匹配的思路来进行,核心就在于如何去用模版表示整 个人体结构,包括关键点的表示,肢体结构的表示以及不同肢体结构之间的关系 的表示。一个好的模版匹配的思路,可模拟更多的姿态范围,以至于能够更好的 匹配并检测出对应的人体姿态。
也有人提出了基于深度学习的方法,比如G-RMI,PAF,RMPE,Mask R-CNN。 普遍使用卷积神经网络来构建人体关键点姿态估计网络结构,现在通过行人检测 网络识别出人体,但是现有的检测网络通常都是基于分类网络演变而来运用现有 的分类网络框架进行修改,并且采用在imagenet上预训练好的模型进行 fine-tuning。
由于技术的进一步的发明以及高质量高精确度的人体骨架关键点图像对用 户的体验和市场的竞争都具有重要的意义。而现有的人体图像关键点姿态估计生 成质量不能满足要求,且不确定性比较大。
发明内容
针对现有技术存在的不足,本发明针对使用卷积神经网络来构建人体关键点 姿态估计网络结构的检测网络,提出一种注意力机制人体图像关键点姿态估计方 法及系统,其生成质量能满足要求,且生成质量稳定。
为了实现上述目的,本发明是通过如下的技术方案来实现:
第一方面,本发明的技术方案提供了一种注意力机制人体图像关键点姿态估 计方法,将人体图像输入到神经网络结构中,进行非线性处理,得到生成的人体 骨架关键点姿态图像,将生成的人体骨架关键点姿态图像与真实标注的人体固件 关键点图像作为损失函数的输入,并计算所述损失函数的值,求所述损失函数的 值的梯度,并将求得的梯度反向传播并更新网络权重的参数,多次迭代直到该损 失函数不变为止。
第二方面,本发明的技术方案还提供了一种人体图像关键点姿态估计系统, 包括数据获取模块,用于获取待处理的人体图像;
预处理模块,用于根据数据获取模块获取的图像进行预处理;
训练模块,用于根据所述预处理模块处理后的图像训练卷积神经网络,对图 像进行卷积和激活;
以及,注意力机制模块,用于池化经过的第一训练模块处理的图像,并与与 原始图像进行外积操作。
上述本发明的技术方案的有益效果如下:
1、本发明通过提出一种专有的检测网络,针对性质解决了一般的校正网络 中忽略了各个尺度特征图之间通道权重分布问题,通过采用注意力机制模块来提 升检测校正;借助提出的基于注意力机制模块的深度神经网络的人体图像关键点 姿态估计模型,使用残差网络作为构建模型的基础,结合了级联金字塔结构,使 得模型的校正性能更好并且泛化能力更强。
2、本发明使用全局网络和矫正网络两个网络分别定位关键点和对关键点进 行修正,并采用L2损失函数,提高了生成关键点的进度和减小了不确定性,使用 的以Bottleneck与注意力机制为基础的矫正网络结构可以提高不同尺度之间的校 正性能。
3、本发明全局网络通过使用残差网络ResNet101结构作为骨干网络,提高 了模型容量和加快训练速度。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明 的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1a是本发明一个或多个实施例中输入的人体图像,
图1b是本发明一个或多个实施例中采用注意力机制模块校正后输出图像,
图1c是本发明一个或多个实施例中不采用注意力机制模块校正后输出图像,
图2是本发明一个或多个实施例中专有的一中检测网络方法结构框图,
图3是本发明一个或多个实施例中设计的2种不同类型的bottleneck结构图,
图4是本发明一个或多个实施例中p4,p5,p6之间的运算连接方式,
图5是本发明一个或多个实施例中ResNet50网络的处理过程图,
图6是本发明一个或多个实施例中全局网络结构图,
图7是本发明一个或多个实施例中检测网络、全局网络中加和操作的局部示 意图,
图8是本发明一个或多个实施例中整体网络结构图,
图9是本发明一个或多个实施例中Bottleneck结构图,
图10是本发明一个或多个实施例中加入矫正网络后的整体结构图,
图11是本发明一个或多个实施例中空洞卷积的卷积示意图,
图12是本发明一个或多个实施例中注意力机制模块示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。 除非另有指明,本发明使用的所有技术和科学术语具有与本发明所属技术领域的 普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限 制根据本发明的示例性实施方式。如在这里所使用的,除非本发明另外明确指出, 否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使 用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或 它们的组合。
名词解释:
stage:在神经网络中,通常由多个结构前后连接,层內调整组成,根据功能 不同,称这些的前后连接的结构处于不同的阶段(stage)。
DetectionNet:检测网络。
Resnet50:Resnet是残差网络(Residual Network)的缩写,该系列网络广泛用于目标分类等领域以及作为计算机视觉任务主干经典神经网络的一部分,典型的网 络有resnet50,resnet101等。
正如背景技术所介绍的,针对现有技术存在的不足,本发明针对使用卷积神 经网络来构建人体关键点姿态估计网络结构的检测网络,提出一种注意力机制人 体图像关键点姿态估计方法,其生成质量能满足要求,且生成质量稳定。
实施例1
本发明的一种典型的实施方式中,如图1所示,实施例1公开了一种注意力机 制人体图像关键点姿态估计方法,包括以下步骤:
步骤S1,先对图像训练集数据做特定数据增强,首先我们定义可以应用于图 像的所有可能的数据增强,如下表(参数均对应于TensorFlow相应函数参数):
Figure BDA0002697085010000051
Figure BDA0002697085010000061
我们采用如下特定操作:
Figure BDA0002697085010000062
我们将增强策略定义为一组无序的K子策略(策略一~二)。在训练期间,将 随机选择K个子策略中的一个,然后将其应用于当前图像。每个子策略都有2 个图像增强操作,其中P为每个操作的概率值(范围0-1之间),M为参数幅度, 并且将每个参数幅度都归一化到0-10区间范围之内。
然后对训练数据集中的图像使用检测网络DetectionNet进行目标检测,并对 所有类别框只保留人体类的边界框,进行裁剪操作,生成对应大小为384*288 的人体图像,然后使用数据集中的人体姿态关键点标注信息json文件,并调用 COCO api作为对应人体的标注信息,以加快I/O的读取速度。
其中,目标检测网络采用检测网络DetectionNet并并且目标检测网络训练运 用到了COCO数据集的所有80个类别,最后选取了人体类别进行输出(输出图像 形式为图像中将人体用边界框进行标记)。具体结构为图2,其中DetectionNet具 体设计以及图中模块解释如下:
采用Resnet50为骨干网络进行特征提取,使用标准高斯分布随机初始化ResNet50网络;
根据Resnet50提取的特征,保留stage 1~4,4个尺度的特征图,并且命名为P2,P3,P4,P5,,并且通过连接卷积核大小为1*1的卷积核,增加stage5,特征图为P6的特 征图;
并且在stage4以后我们保持特征图的空间分辨率不变,也就是
Figure BDA0002697085010000071
转换通过步长为2的3*3卷积或池化层 完成,其中
Figure BDA0002697085010000073
代表空间分辨率,i为原始图尺寸,其中原始图片尺寸为224*224, x∈[i,2,3,4,5,6],在P4,P5,P6,之间通过连接卷积核大小为1*1的卷积核,以保持 通道数一致(通道数=256)。
P4,P5,P6,之间的转换如图5,通过AB两种类型的bottleneck实现转化,AB 两种类型的bottleneck的设计如图4,AB两种类型的bottleneck分别由1*1的卷 积,3*3的空洞系数是2的空洞卷积,还有relu层得到。
最后将stage4~6的特征图按照金字塔架构进行加和,其中侧向连接加和方式 如图8,形成FPN特征金字塔,并且采用Fast RCNN的方法进行目标检测,并通 过回归损失和分类损失进行约束。多损失融合(分类损失和回归损失融合)即图 3中的prediction操作,分类损失采用log loss(即对真实分类的概率取负log,分 类输出K+1维),回归的loss和R-CNN一样(smooth L1 loss)。总的损失函数:
Figure BDA0002697085010000072
在检测网络最后的全连接层,接入了两个分支,一个是softmax用于对每个 ROI区域做分类,假如有K类待分(加上背景总共K+1类),输出结果为 p=(p0.........pk),另外一个是boundingbox,用于更精确的ROI的区域,输出为
Figure BDA0002697085010000081
代表k类的boundingbox坐标,(x,y)为boundingbox左上角坐标, (x+w,y+h)为boundingbox右下角坐标。u为每个POI区域的Ground Truth,v为 boundingbox的Ground Truth的回归目标。其中λ为超参数,控制两个任务损失之 间的平衡,这里λ=1。[u≥1]为1当u≥1。
分类损失具体为:
Figure BDA0002697085010000082
为一个log形式的损失函数。
回归损失具体为:
Figure BDA0002697085010000083
其中v=vx,vy,vw,vh是类别为u的真实框的位置,而
Figure RE-GDA0002727737140000092
为类为u的预测框位置。并且
Figure RE-GDA0002727737140000093
另外,裁剪操作是指,对含有人体边界框的图像中的边界框区域,将框进行 扩展到固定宽高比,然后进行裁剪,随后进行数据增强等操作,如随机翻转、随 机旋转、随机尺度等操作。
进一步的说,所有训练步骤中,数据集采用MSCOCO训练数据集(包括57K 张图像和150K张含有人体实例图像),在步骤S1中,通过检测器网络 (FPN+ROIAlign)检测后,对于所有检测的边界框,只采用人体边界框(即在所有 实验中仅使用所有类的前100个框中的人类类别的边界框),并对人体边界框扩展 到固定宽高比hight:weight=384:288,对应的将裁剪图像的大小调整为默认高度384像素和宽度288像素,其后对应的数据增强策略,对于裁剪过后的图像采用随 机旋转(角度为-45°~+45°)以及随机尺度(0.7~1.35),并将对应图片的标注信息 (json文件包含人体边界框和关键点位置)作为GroundTruth。
其中整体DetectionNet流程框图为图3。
步骤S2,利用所述训练输入数据,训练融合空洞卷积(Dilated conv)的神经网 络的人体图像关键点姿态估计模型,以用来完成人体图像的关键点姿态估计任 务。
本步骤S2中,主要是利用步骤S1中的裁剪好的含有人体的图像和对应人体骨 架关键点的标注信息为网络的输入,含有标注的人体固骨架关键点(形式为json文 件,17个关键点分别用xy轴坐标形式标出)作为GroundTruth,训练深度模型中的 人体关键点估计网络,完成从人体输入图像到输出人体固件关键点图像的任务。 具体地,将检测网络检测到的人体图像裁剪完成后,通过ResNet101作为骨干网 提取特征图,并且我们分别将不同conv特征conv2~5的最后一个残差块表示为 C2C3C4C5,再采用U形结构将每一层特征图进行自底向上加和,并对每次加和后 生成的不同尺度特征图生成热力图采用L2损失函数计算,得到人体关键点。
其中,在全局网络中利用卷积神经网络结构ResNet101先进行特征提取,并 且采用U-Shape结构对特征图进行上采样和加和sum的操作再进行操作来保持生 成特征图的大小和上一层残差层形成的特征图尺度一样。
在这一实例中,全局网络中包含4个残差块。残差块具体结构为卷积神经网 络,包括归一化层,激活层,卷积层;其中卷积层滤波器大小,步长,填充分别 为3*3,1,1。残差层输入与输出之间有前传连接。卷积层的层数和每层卷积层中 滤波器的个数及大小可根据实际情况进行选择设置,并且使用卷积层滤波器大 小,步长,填充分别为3*3,1,1去从特征图生成对应的热力图。
同理,残差块的个数也可以根据实际情况进行选择设置。在全局网络中,输 入为真实人体图像x和GroundTruth真实人体骨架姿态关键点图像y,
Figure BDA0002697085010000101
网络结构为 在ImageNet数据集上预训练过的ResNet-101,
Figure BDA0002697085010000102
该步骤中,利用裁剪过后的人体图像(384*288)作为模型输入,输入到 ResNet101的骨干网中,在通过7*7通道数=64,padding=3,stride=2的卷积核, 输出为192*144*64的特征图,后进行MAX pooling,其中池化核大小为3*3 padding=0,stride=2,输出为96*72*64的特征图。
将生成的96*72*64特征图依次通过4个残差快C2C3C4C5,每个残差块对应输 出为96*72*256,48*36*512,24*18*1024,12*9*2014。如图5所示。
下一层残差块
Figure BDA0002697085010000103
做进行1*1卷积操作后上采样后与上一层
Figure BDA0002697085010000104
进行加和操作后,进行predict操作,其中用L2损失约束,流程如下:
Figure BDA0002697085010000105
与真实标注的人体骨架姿态关键点图像的热力图进行L2损失的计算。
本发明中,所述的Predict操作为,每一层叠加之后的特征图进行1*1conv的卷 积之后再进行3*3的卷积生成17个feature map(17个关键点的热力图,采用MSCOCO数据集其中人体关键点数量为17),作为predict参与训练。
其中,生成网络的损失函数为:
L2=Ex,y~P(X,Y)||Fgenerate(x)-y||2
其中,x为输入图像,y为GroundTruth对应的热力图,全局网络的输出为
Figure BDA0002697085010000111
Figure BDA0002697085010000112
其中Fgenerator为全局网络每个残差块对应输出的17个feature map(关键点的热力图))。
接着将全局网络的输出作为矫正网络的输入,即将全局网络的四个残差快产 生的C2C3C4C5对应的4个尺度的特征图96*72*256,48*36*512,24*18*1024, 12*9*2014,通过不同数量的Bottleneck,Bottleneck的结构如图9,操作如下:
C5+3*Bottleneck+unsample*8
C4+2*Bottleneck+unsample*4
C3+1*Bottleneck+unsample*2
上述的矫正网络的处理具体的如图10所示,而且将全局网络中的每一层加 和后的特征图,通过采用的Bottleneck后,通过我们设计的注意力机制模块,如 图12,其中设计为:
1.将产生的特征图
Figure BDA0002697085010000113
送去全局平均池化,第K个通道的特征图的全局平均池化操作可以表示为:
Figure BDA0002697085010000114
其中Fi代表特征图,C为通道数,H为特征图的高,W为特征图的宽度, T为输出。
2.将于输出的T经过1x1的卷积,使得每个通道的特征图通道数一致。
3.接着进行sigmoid操作,然后与原始特征图进行外积操作,具体可表示为:
Figure BDA0002697085010000121
其中
Figure BDA0002697085010000122
为外积,可以用线性代数表示为(uv为两个矩阵):
Figure BDA0002697085010000123
σ为sigmoid函数,可以用函数表达为(z为函数输入):
Figure BDA0002697085010000124
Figure BDA0002697085010000125
为1x1卷积操作。
最后分别进行上采样,然后进行concat操作后通过Bottleneck,采用L2 *损失 约束,其中L2 *为矫正网络的输出的N个关键点损失(每个关键点均由L2计算出此 处N=17)中最大的M个(设定M=9),只保留这M个关键点损失计入矫正网络 损失函数(L2 Loss),随后通过3*3conv的卷积进行热力图生成。
需要说明的是,本发明中,将步骤S2生成的各个尺度特征图,送入矫正网 络中,采用各个尺度特征图图加和的方式,加和完成后的热力图,最后采用L_2 损失函数计算,即可得到更为精确的人体关键点。
之后,使用训练好的深度神经网络模型,对测试数据集中的含有人体的图像 进行人体关键点估计。
下面对空洞卷积(Dilated conv)说明。参见图11所示,其中左侧的图代表普通 3*3conv卷积,中间图代表dilated系数为2的空洞卷积(Dilated conv),右侧图代 表dilated系数为4的空洞卷积(Dilated conv),实际的卷积kernel size还是3x3, 但是空洞为1,也就是对于一个7x7的图像patch,只有9个点和3x3的kernel 发生卷积操作,其余的点略过。
也可以理解为kernel的size为7x7,但是只有图中的9个点的权重不为0, 其余都为0。可以看到虽然kernel size只有3x3,但是这个卷积的感受野已经增大 到了7x7(如果考虑到这个2-dilated conv的前一层是一个1-dilated conv的话,那 么每个点就是1-dilated的卷积输出,所以感受野为3x3,所以1-dilated和2-dilated 合起来就能达到7x7的conv),右侧图是4-dilated conv操作,同理跟在两个1-dilated 和2-dilated conv的后面,能达到15x15的感受野。对比传统的conv操作,3层 3x3的卷积加起来,stride为1的话,只能达到(kernel-1)*layer+1=7的感受野,也 就是和层数layer成线性关系,而dilatedconv的感受野是指数级的增长。
本发明是利用卷积神经网络的高度非线性拟合能力,针对人体图像姿态估计 任务,构造以人体图像作为输入的神经网络。特别的,神经网络通过外加的注意 力机制模块,选择性关注不同尺度特征图之间的权重分布。这样,利用基于注意 力机制模块的校正网络可训练一个具有良好感知效果的图人体骨架关键点姿态 估计模型。在测试阶段,使用测试集中的图像作为模型的输入,得到生成的效果 图,如图1所示。
需要说明的是,本发明中所提出的融合注意力机制的神经网络的人体图像关 键点姿态估计模型包含两个子网,分别是全局网络,矫正网络,整个模型的目标 函数为L2。在完成人体图像姿态估计时,整个模型的最终目标函数为L2损失函数, 能降低至最低且保持稳定。
为了详细说明本发明的具体实施方式及验证本发明的有效性,将本发明提出 的方法应用于一个公开的数据集中训练。该数据库包含一些自然场景的照片,比 如花,树等等。选择该数据集的全部图像作为训练数据集,先对训练数据集中的 所有图像使用训练好的特征金字塔网络(FPN)进行目标检测,只输出人体类别边 界框,生成对应的裁剪完成的人体图像,并且利用数据集中标注好的人体关键点 坐标信息json文件,作为模型的输入,利用梯度反传训练全局网络和矫正网络, 直到最后网络收敛,得到人体骨架关键点姿态估计模型。
为了测试该模型的有效性,对输入图像进行处理,可视化结果如图1所示。 在实验中,通过与GroundTruth真实图像进行了对比,实验的结果如图1所示。 该实施例有效证明了本发明所提出方法对图像超分辨率的有效性。
实施例2
实施例2公开了一种注意力机制人体图像关键点姿态估计系统,包括数据获 取模块,用于获取待处理的人体图像;
预处理模块,用于根据数据获取模块获取的图像进行预处理;
训练模块,用于根据所述预处理模块处理后的图像训练卷积神经网络,对图 像进行卷积和激活;
以及,注意力机制模块,用于池化经过的第一训练模块处理的图像,并与与 原始图像进行外积操作。
以上模块可以是软件模块,也可以是硬件模块,按照其功能实现即可。
可以理解的是,本实施例中公开的系统,可以用于实施例1中的注意力机制 人体图像关键点姿态估计方法的实施。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域 的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内, 所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种注意力机制人体图像关键点姿态估计方法,其特征在于,将人体图像输入到神经网络结构中,进行非线性处理,得到生成的人体骨架关键点姿态图像,将生成的人体骨架关键点姿态图像与真实标注的人体固件关键点图像作为损失函数的输入,并计算所述损失函数的值,求所述损失函数的值的梯度,并将求得的梯度反向传播并更新网络权重的参数,多次迭代直到该损失函数不变为止。
2.如权利要求1所述的一种注意力机制人体图像关键点姿态估计方法,其特征在于,在将人体图像输入到网络结构中之前,还包括以下步骤:
将图像数据库中的图像数据预处理:
通过训练得到能够对人体图像进行姿态估计以得到人体固件关键点图像的深度神经网络模型:
使用训练好的深度神经网络模型,对测试数据集中的包含人体的图像进行姿态估计处理。
3.如权利要求2所述的一种注意力机制人体图像关键点姿态估计方法,其特征在于,将图像数据库中的图像数据预处理时,将原始图像送入已经训练好的基于空洞卷积的特征金字塔网络的检测网络检测,输出用边界框标记的人体图像并裁剪。
4.如权利要求3所述的一种注意力机制人体图像关键点姿态估计方法,其特征在于,所述特征金字塔网络采用特定数据增强的方法处理图片,并且对特征金字塔网络的后两个阶段进行修改以特定针对于目标检测,并将检测后的人体图像进行裁剪后进行输入。
5.如权利要求1所述的一种注意力机制人体图像关键点姿态估计方法,其特征在于,构建神经网络模型时,包括以下步骤:
通过全局网络对输入的人体图像处理,得到不同尺寸的特征图输出;
将每一层特征图进行自底向上做采样后进行加和后,进行预测操作,用与GroudTruth进行L2损失函数计算以进行损失约束;通过预测操作进行预定卷积步骤处理后,生成不同关键点的热力图,从而得到初始人体关键点;
通过设计的注意力机制模块,分别进行上采样,通过卷积进行热力图生成,修正初始的人体关键点,得到最终的人体关键点;模型迭代多次达到稳定后,完成模型的训练。
6.如权利要求5所述的一种注意力机制人体图像关键点姿态估计方法,其特征在于,所述通过全局网络的对输入的人体图像处理,得到不同尺寸的特征图输出的步骤包括以下步骤:
使用标准高斯分布随机初始化ResNet50网络;
将人体图像输入到包括四个残差块的ResNet50网络中,并且分别将不同conv特征conv2~5的最后一个残差块表示为C2C3C4C5
其中,C2通道数为64,C3通道数为128,C4通道数为256,C5通道数为512,并且在每个残差快C2C3C4C5后添加卷积核1*1的卷积,并连接BN层和ReLU,使得特征通道数均为256,得到不同层的残差块定义为
Figure FDA0002697081000000021
从而获得不同的尺寸的特征图输出。
7.如权利要求5所述的一种注意力机制人体图像关键点姿态估计方法,其特征在于,所述损失函数L2中,使用输入的真实人体图像、GroundTruth对应的热力图对应的范数的数学期望。
8.如权利要求1所述的一种注意力机制人体图像关键点姿态估计方法,其特征在于,构建神经网络模型时,构建注意力机制模块的步骤如下:
将产生的特征图送入全局平均池化;
将于池化输出的T经过卷积,使得每个通道的特征图通道数一致;
进行sigmoid操作,然后与原始特征图进行外积操作。
9.一种人体图像关键点姿态估计系统,其特征在于,包括数据获取模块,用于获取待处理的人体图像;
预处理模块,用于根据数据获取模块获取的图像进行预处理;
训练模块,用于根据所述预处理模块处理后的图像训练卷积神经网络,对图像进行卷积和激活;
以及,注意力机制模块,用于池化经过的第一训练模块处理的图像,并与与原始图像进行外积操作。
10.如权利要求9所述的一种人体图像关键点姿态估计系统,其特征在于,还包括深度神经网络模块,用于对测试数据集中的包含人体的图像进行姿态估计处理。
CN202011009430.1A 2020-09-23 2020-09-23 一种注意力机制人体图像关键点姿态估计方法及系统 Pending CN112149563A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011009430.1A CN112149563A (zh) 2020-09-23 2020-09-23 一种注意力机制人体图像关键点姿态估计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011009430.1A CN112149563A (zh) 2020-09-23 2020-09-23 一种注意力机制人体图像关键点姿态估计方法及系统

Publications (1)

Publication Number Publication Date
CN112149563A true CN112149563A (zh) 2020-12-29

Family

ID=73898011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011009430.1A Pending CN112149563A (zh) 2020-09-23 2020-09-23 一种注意力机制人体图像关键点姿态估计方法及系统

Country Status (1)

Country Link
CN (1) CN112149563A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158881A (zh) * 2021-04-19 2021-07-23 电子科技大学 一种基于注意力机制的跨域行人重识别方法
CN113361378A (zh) * 2021-06-02 2021-09-07 合肥工业大学 一种运用适应性数据增强的人体姿态估计方法
CN113673489A (zh) * 2021-10-21 2021-11-19 之江实验室 一种基于级联Transformer的视频群体行为识别方法
CN113705440A (zh) * 2021-08-27 2021-11-26 华中师范大学 一种面向教育机器人视觉理解的头部姿态估计方法及系统
CN113870215A (zh) * 2021-09-26 2021-12-31 推想医疗科技股份有限公司 中线提取方法及装置
CN114519666A (zh) * 2022-02-18 2022-05-20 广州方硅信息技术有限公司 直播图像矫正方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710830A (zh) * 2018-04-20 2018-10-26 浙江工商大学 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法
CN110188598A (zh) * 2019-04-13 2019-08-30 大连理工大学 一种基于MobileNet-v2的实时手部姿态估计方法
CN110443144A (zh) * 2019-07-09 2019-11-12 天津中科智能识别产业技术研究院有限公司 一种人体图像关键点姿态估计方法
CN111160085A (zh) * 2019-11-19 2020-05-15 天津中科智能识别产业技术研究院有限公司 一种人体图像关键点姿态估计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710830A (zh) * 2018-04-20 2018-10-26 浙江工商大学 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法
CN110188598A (zh) * 2019-04-13 2019-08-30 大连理工大学 一种基于MobileNet-v2的实时手部姿态估计方法
CN110443144A (zh) * 2019-07-09 2019-11-12 天津中科智能识别产业技术研究院有限公司 一种人体图像关键点姿态估计方法
CN111160085A (zh) * 2019-11-19 2020-05-15 天津中科智能识别产业技术研究院有限公司 一种人体图像关键点姿态估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LUANXUAN HOU ET AL.: "Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation", 《ARXIV》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158881A (zh) * 2021-04-19 2021-07-23 电子科技大学 一种基于注意力机制的跨域行人重识别方法
CN113361378A (zh) * 2021-06-02 2021-09-07 合肥工业大学 一种运用适应性数据增强的人体姿态估计方法
CN113361378B (zh) * 2021-06-02 2023-03-10 合肥工业大学 一种运用适应性数据增强的人体姿态估计方法
CN113705440A (zh) * 2021-08-27 2021-11-26 华中师范大学 一种面向教育机器人视觉理解的头部姿态估计方法及系统
CN113705440B (zh) * 2021-08-27 2023-09-01 华中师范大学 一种面向教育机器人视觉理解的头部姿态估计方法及系统
CN113870215A (zh) * 2021-09-26 2021-12-31 推想医疗科技股份有限公司 中线提取方法及装置
CN113673489A (zh) * 2021-10-21 2021-11-19 之江实验室 一种基于级联Transformer的视频群体行为识别方法
CN114519666A (zh) * 2022-02-18 2022-05-20 广州方硅信息技术有限公司 直播图像矫正方法、装置、设备及存储介质
CN114519666B (zh) * 2022-02-18 2023-09-19 广州方硅信息技术有限公司 直播图像矫正方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111160085A (zh) 一种人体图像关键点姿态估计方法
CN112686097A (zh) 一种人体图像关键点姿态估计方法
CN112149563A (zh) 一种注意力机制人体图像关键点姿态估计方法及系统
US10643130B2 (en) Systems and methods for polygon object annotation and a method of training and object annotation system
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN110443144A (zh) 一种人体图像关键点姿态估计方法
CN111063021B (zh) 一种空间运动目标的三维重建模型建立方法及装置
CN109816012B (zh) 一种融合上下文信息的多尺度目标检测方法
US10311560B2 (en) Method and system for estimating blur kernel size
CN110287846A (zh) 一种基于注意力机制的人脸关键点检测方法
CN106815808A (zh) 一种利用分块运算的图像拼接方法
US20230070008A1 (en) Generating three-dimensional object models from two-dimensional images
CN111882492A (zh) 一种图像数据自动增强的方法
CN113012172A (zh) 一种基于AS-UNet的医学图像分割方法及系统
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN113160062A (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN111062329A (zh) 基于增广网络的无监督行人重识别方法
CN111783779A (zh) 图像处理方法、装置和计算机可读存储介质
CN114066831A (zh) 一种基于两阶段训练的遥感图像镶嵌质量无参考评价方法
CN112819951A (zh) 一种基于深度图修复的带遮挡三维人体重建方法
CN114861842B (zh) 少样本目标检测方法、装置和电子设备
CN113378812A (zh) 一种基于Mask R-CNN和CRNN的数字表盘识别方法
CN114332070A (zh) 一种基于智能学习网络模型压缩的陨坑检测方法
CN111931915A (zh) 一种基于diou损失函数的训练网络的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination