CN113610015B - 基于端到端快速阶梯网络的姿态估计方法、装置及介质 - Google Patents

基于端到端快速阶梯网络的姿态估计方法、装置及介质 Download PDF

Info

Publication number
CN113610015B
CN113610015B CN202110918420.8A CN202110918420A CN113610015B CN 113610015 B CN113610015 B CN 113610015B CN 202110918420 A CN202110918420 A CN 202110918420A CN 113610015 B CN113610015 B CN 113610015B
Authority
CN
China
Prior art keywords
human body
feature map
convolution kernel
value
vertex
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110918420.8A
Other languages
English (en)
Other versions
CN113610015A (zh
Inventor
骆炎民
欧志龙
林躬耕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Gongtian Software Co ltd
Huaqiao University
Original Assignee
Fujian Gongtian Software Co ltd
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Gongtian Software Co ltd, Huaqiao University filed Critical Fujian Gongtian Software Co ltd
Priority to CN202110918420.8A priority Critical patent/CN113610015B/zh
Publication of CN113610015A publication Critical patent/CN113610015A/zh
Application granted granted Critical
Publication of CN113610015B publication Critical patent/CN113610015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了人体姿态估计技术领域的一种基于端到端快速阶梯网络的姿态估计方法、装置及介质,所述方法包括:步骤S10、基于快速阶梯网络搭建端到端快速阶梯网络;步骤S20、利用样本图像对所述端到端快速阶梯网络进行训练;步骤S30、将待测图像输入训练好的所述端到端快速阶梯网络,计算关节点的位置并形成完整的人体姿态。本发明的优点在于:取消了人体姿态估计模型对目标检测算法的约束,不再需要先进行人体检测,保证了姿态估计可以进行端到端训练与预测,加快了人体姿态估计的速度,同时还能保证网络的精确度。

Description

基于端到端快速阶梯网络的姿态估计方法、装置及介质
技术领域
本发明涉及人体姿态估计技术领域,特别涉及一种基于端到端快速阶梯网络的姿态估计方法、装置及介质。
背景技术
人体姿态估计是计算机视觉领域中热门研究领域,同时是一些高级计算机视觉任务的基础工作,对人机交互,异常行为识别检测等有着重要的意义。人体姿态估计即通过一张RGB图像有效预测出人体所有关节点并形成正确的姿态。
尽管人体姿态估计领域发展迅速,但目前主流的自顶向下和自底向上的方法,均为两阶段的任务,不能实现端到端的运行与训练,导致在实际应用中无法快速的预测人体姿态。特别是自顶向下的方法需要先进行人体检测,而后在进行人体姿态估计,这也是自顶向下方法在速度上较慢于自底向上方法的主要原因。
在网络结构设计方面,Ke Li,Shijie Wang,Xiang Zhang等人(21th Proceedingsof the IEEE conference on computer vision and pattern recognition.2021.)在论文“Pose Recognition with Cascade Transformers”中提出了一种端到端训练的思想,借助行人检测算法,提取出行人的特征,接着将该特征转为一维向量输入到人体检测的transformer获取人体框,接着裁剪特征图,再次送到另一个名为关节点检测transformer中进行姿态估计。但是该方法训练速度较慢,需要依赖行人检测的算法,不能实现一个网络预测。
在基于RGB图像的姿态估计工作中,Sun K,Xiao B,LiuD等人(19th Proceedingsof the IEEE conference on computer vision and pattern recognition.2019:5693-5703.)在论文“Deep high-resolution representation learning for human poseestimation”中提出了HRNet的网络来进行姿态估计,但是该网络的参数量大,训练速度较慢;并且该网络仍为传统的自顶向下的方法,依赖于目标检测的算法,一旦目标检测算法缺失,则不能进行多人姿态估计,且最终的精度也受目标检测算法的影响。
电子科技大学在其申请的专利“CN201810915453.5”(专利公开号:CN108960212A)中公开了一种基于端到端的人体关节点检测与分类方法,包括将预处理得到的图片输入到已经训练好的沙漏型神经网络中,通过前向传播得到相应关节点的热力图分布,再利用条件随机场模型强化各个节点之间的空间位置关系,最终得到每个节点出现的概率统计分布,将输出的预测结果利用预先设定的规则将关节点连接起来,就可以实现端到端的人体姿态估计。但是该方法相对而言参数量较大,速度较慢,实际效果不佳。
因此,如何提供一种姿态估计方法,实现提升网络的训练以及推理速度并且降低网络的参数量,同时还能得到精度的保证,成为一个亟待解决的问题。
发明内容
本发明要解决的技术问题,在于提供一种基于端到端快速阶梯网络的姿态估计方法、装置及介质,同时实现提升人体姿态估计的精度和效率。
第一方面,本发明提供了一种基于端到端快速阶梯网络的姿态估计方法,所述方法包括如下步骤:
步骤S10、基于快速阶梯网络搭建端到端快速阶梯网络;
步骤S20、利用样本图像对所述端到端快速阶梯网络进行训练;
步骤S30、将待测图像输入训练好的所述端到端快速阶梯网络,计算关节点的位置并形成完整的人体姿态。
进一步的,所述端到端快速阶梯网络包括:
一大小为3×3的第一卷积核、一大小为3×3的第二卷积核、一大小为1×1的第三卷积核、一大小为1×1的第四卷积核、一通道数为32的第一子网、一通道数为64的第二子网、一通道数为128的第三子网和一通道数为256的第四子网;
所述第一子网包括横向并行排列并连接的二十个残差模块,依次用S1,1、S1,2、……、S1,20表示;所述第二子网包括横向并行排列并连接的十六个残差模块,依次用S2,1、S2,2、……、S2,16表示;所述第三子网包括横向并行排列并连接的十一个残差模块,依次用S3,1、S3,2、……、S3,11表示;所述第四子网包括横向并行排列并连接的六个残差模块,依次用S4,1、S4,2、……、S4,6表示;
所述第一卷积核的输出端与所述第二卷积核进行连接,用于改变图像特征图的分辨率;在所诉第二卷积核的输出端与第一子网的输入端连接,用于提取图像特征;所述第一子网、第二子网、第三子网以及第四子网依次至上而下排列,且靠右对齐;
分别在所述第三子网中的S3,5和S3,6以及S3,10和S3,11的残差模块之间设置有稠密瀑布模块,用于为残差模块补偿感受野;
所述第一子网输出特征图Sout,1;所述第二子网输出特征图Sout,2,进行一次双线性插值上采样后,将特征图的分辨率提升至与特征图Sout,1一致,并进行元素堆叠;所述第三子网输出特征图Sout,3,进行两次双线性插值上采样后,将特征图的分辨率提升至与特征图Sout,1一致,并进行元素堆叠;所述第四子网输出特征图Sout,4,进行三次双线性插值上采样后,将特征图的分辨率提升至与特征图Sout,1一致,并进行元素堆叠形成特征图Fout,1
在所述特征图Fout,1后进行所述第三卷积核操作;在所述第三卷积核操作后进行恒等映射操作得到特征图Fout,up;在所述第三卷积核操作后,根据所述特征图Fout,up得到的坐标进行特征图裁剪操作得到特征图Fout,temp;在所述特征图Fout,temp后进行所述第四卷积核操作,得到特征图Fout,dowm
进一步的,所述稠密瀑布模块包括:
一大小为3×3的第五卷积核、一大小为3×3的第六卷积核、一大小为3×3的第七卷积核和一大小为3×3的第八卷积核;
所述第五卷积核将特征图F进行卷积操作生成特征图F1;所述第六卷积核将特征图F和特征图F1进行元素相加后进行卷积操作生成特征图F2;所述第七卷积核将特征图F和特征图F2进行元素相加后进行卷积操作生成特征图F3;所述第八卷积核将特征图F和特征图F3进行元素相加后进行第九卷积操作生成特征图F4;紧接着将特征图F1,F2,F3,F4进行堆叠并且与特征图F进行元素相加,生成特征图F5,将所述即所述稠密瀑布模块的输入是特征图F,输出是特征图F5。
进一步的,所述步骤S20具体包括:
步骤S21、获取数据集中的样本图像,将所述样本图像调整为大小为512×512的RGB图像后,输入搭建好的所述端到端快速阶梯网络;
步骤S22、通过所述端到端快速阶梯网络获取所述特征图Fout,up,所述特征图Fout,up包含人体边界框顶点的位置热图,标签嵌入矩阵以及偏移值;
步骤S23、利用非极大值抑制算法查找所述人体边界框顶点的位置热图中,人体边界框顶点的最大像素值位置;
步骤S24、以所述人体边界框顶点的最大像素值位置为人体边界框顶点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测各人体边界框顶点的位置;
步骤S25、利用均方误差损失函数以及人体边界框顶点的位置计算得到各人体边界框顶点的损失值:
Figure BDA0003206534800000041
其中M表示人体边界框顶点的损失值;i表示人体的编号,j表示各人体边界框顶点的编号,且i和j均为正整数;Pi(pj)表示第i个人,第j个人体边界框顶点的预测值;
Figure BDA0003206534800000042
为预测的关节点的热图,尺度为n×64×64,n表示人体边界框顶点的个数;Gi(pj)表示第i个人,第j个人体边界框顶点的真值;G={g1,…,gn},为高斯激活生成的各个人体边界框顶点对应的真值热图。
步骤S26、计算各人体边界框顶点的分组损失值:
Figure BDA0003206534800000043
其中Lpull表示对同一个人体边界框顶点进行分组的损失值;k表示人体边界框的编号,N表示总人体边界框的数量,且k和N均为正整数;
Figure BDA0003206534800000056
表示属于第k个人体边界框的左上角顶点的嵌入向量,
Figure BDA0003206534800000057
表示属于第k个人体边界框的右下角顶点的嵌入向量,ek表示
Figure BDA0003206534800000058
Figure BDA0003206534800000059
的均值。
步骤S27、计算各人体边界框顶点的分离损失值:
Figure BDA0003206534800000051
其中Lpush表示对不同人的人体边界框顶点进行分离的损失值;k表示人体边界框的编号,N表示总人体边界框的数量,且k和N均为正整数;ek表示同一个人人体边界框顶点的均值,ej表示不同于第k个人体边界框顶点的均值。
步骤S28、利用平滑最小绝对值偏差函数计算各人体边界框顶点偏移的损失值:
Figure BDA0003206534800000052
Figure BDA0003206534800000053
其中Loff表示预测的人体边界框与真实边界框的误差;k表示人体边界框的编号,N表示总人体边界框的数量,且k和N均为正整数;Ok表示第k个人体边界框顶点的偏移量,xk表示第k个人体边界框顶点的横坐标值,yk表示第k个人体边界框顶点的纵坐标值,n表示下采样倍率;
步骤S29、利用热图解码器计算所述预测得到的各人体边界框的值:
Figure BDA0003206534800000054
其中
Figure BDA0003206534800000055
表示预测得到第k个人体边界框的坐标值;mk表示Pi(pj)中的最大值,sk表示Pi(pj)中的第二大值;
步骤S210、利用所述预测得到的各人体边界框的值,对所述特征图Fout,dowm进行裁剪,得到特征图Fout,h
步骤S211、对所述Fout,h进行缩放操作,缩放成64*64大小分辨率的特征图Fout,k
步骤S212、对所述Fout,k进行第四卷积核操作,得到人体关节点的位置热图;
步骤S213、利用非极大值抑制算法查找所述人体关节点的位置热图中,人体关节点的最大像素值位置;
步骤S214、以所述人体关节点的最大像素值位置为人体关节点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测人体关节点的位置;
步骤S215、利用均方误差损失函数以及人体关节点的位置计算得到人体关节点的损失值:
Figure BDA0003206534800000061
其中Ld表示人体关节点的损失值;i表示人体关节点的编号,N表示关节点的数量,且i与N均为正整数;Pi表示第i个关节点的预测值;
Figure BDA0003206534800000062
为预测的关节点的热图,尺度为n×64×64,n表示人体关节点的个数;Gi表示第i个关节点的真值;G={g1,…,gn},为高斯激活生成的各类关节点对应的真值热图。
步骤S216、加权各类所述的损失函数来训练所述的端到端快速阶梯网络:
L=M+αLpush+βLpull+Ld+γLoff
其中,α=β=0.1,γ=1。
进一步的,所述步骤S30具体包括:
步骤S31、获取待测图像,将所述待测图像调整为大小为512*512的RGB图像后,输入训练好的所述端到端快速阶梯网络中;
步骤S32、通过所述端到端快速阶梯网络获取RGB图像中关节点的位置热图;
步骤S33、利用非极大值抑制算法查找所述关节点的位置热图中,各关节点的最大像素值位置;
步骤S34、以所述最大像素值位置为关节点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测的关节点位置;
步骤S35、基于预先标定各关节点的序号以及预测的关节点位置,依次连接各关节点形成完整的人体姿态。
第二方面,本发明提供了一种基于端到端快速阶梯网络的姿态估计装置,所述装置包括网络搭建模块、训练模块和姿态估计模块:
网络搭建模块,用于基于快速阶梯网络搭建端到端快速阶梯网络;
训练模块,用于利用样本图像对所述端到端快速阶梯网络进行训练;
姿态估计模块,用于将待测图像输入训练好的所述端到端快速阶梯网络,计算关节点的位置并形成完整的人体姿态。
进一步的,所述端到端快速阶梯网络包括:
一大小为3×3的第一卷积核、一大小为3×3的第二卷积核、一大小为1×1的第三卷积核、一大小为1×1的第四卷积核、一通道数为32的第一子网、一通道数为64的第二子网、一通道数为128的第三子网和一通道数为256的第四子网;
所述第一子网包括横向并行排列并连接的二十个残差模块,依次用S1,1、S1,2、……、S1,20表示;所述第二子网包括横向并行排列并连接的十六个残差模块,依次用S2,1、S2,2、……、S2,16表示;所述第三子网包括横向并行排列并连接的十一个残差模块,依次用S3,1、S3,2、……、S3,11表示;所述第四子网包括横向并行排列并连接的六个残差模块,依次用S4,1、S4,2、……、S4,6表示;
所述第一卷积核的输出端与所述第二卷积核进行连接,用于改变图像特征图的分辨率;在所诉第二卷积核的输出端与第一子网的输入端连接,用于提取图像特征;所述第一子网、第二子网、第三子网以及第四子网依次至上而下排列,且靠右对齐;
分别在所述第三子网中的S3,5和S3,6以及S3,10和S3,11的残差模块之间设置有稠密瀑布模块,用于为残差模块补偿感受野;
所述第一子网输出特征图Sout,1;所述第二子网输出特征图Sout,2,进行一次双线性插值上采样后,将特征图的分辨率提升至与特征图Sout,1一致,并进行元素堆叠;所述第三子网输出特征图Sout,3,进行两次双线性插值上采样后,将特征图的分辨率提升至与特征图Sout,1一致,并进行元素堆叠;所述第四子网输出特征图Sout,4,进行三次双线性插值上采样后,将特征图的分辨率提升至与特征图Sout,1一致,并进行元素堆叠形成特征图Fout,1
在所述特征图Fout,1后进行所述第三卷积核操作;在所述第三卷积核操作后进行恒等映射操作得到特征图Fout,up;在所述第三卷积核操作后,根据所述特征图Fout,up得到的坐标特征图裁剪操作得到特征图Fout,temp;在所述特征图Fout,temp后进行所述第四卷积核操作,得到特征图Fout,dowm
进一步的,所述稠密瀑布模块包括:
一大小为3×3的第五卷积核、一大小为3×3的第六卷积核、一大小为3×3的第七卷积核和一大小为3×3的第八卷积核;
所述第五卷积核将特征图F进行卷积操作生成特征图F1;所述第六卷积核将特征图F和特征图F1进行元素相加后进行卷积操作生成特征图F2;所述第七卷积核将特征图F和特征图F2进行元素相加后进行卷积操作生成特征图F3;所述第八卷积核将特征图F和特征图F3进行元素相加后进行第九卷积操作生成特征图F4;紧接着将特征图F1,F2,F3,F4进行堆叠并且与特征图F进行元素相加,生成特征图F5,将所述即所述稠密瀑布模块的输入是特征图F,输出是特征图F5。
进一步的,所述训练模块具体包括:
获取数据集中的样本图像,将所述样本图像调整为大小为512×512的RGB图像后,输入搭建好的所述端到端快速阶梯网络;
通过所述端到端快速阶梯网络获取特征图Fout,up,所述特征图Fout,up包含人体边界框顶点的位置热图,标签嵌入矩阵以及偏移值;
利用非极大值抑制算法查找所述人体边界框顶点的位置热图中,人体边界框顶点的最大像素值位置;
以所述人体边界框顶点的最大像素值位置为人体边界框顶点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测各人体边界框顶点的位置;
利用均方误差损失函数以及人体边界框顶点的位置计算得到各人体边界框顶点的损失值:
Figure BDA0003206534800000091
其中M表示人体边界框顶点的损失值;i表示人体的编号,j表示各人体边界框顶点的编号,且i和j均为正整数;Pi(pj)表示第i个人,第j个人体边界框顶点的预测值;
Figure BDA0003206534800000092
为预测的关节点的热图,尺度为n×64×64,n表示人体边界框顶点的个数;Gi(pj)表示第i个人,第j个人体边界框顶点的真值;G={g1,…,gn},为高斯激活生成的各个人体边界框顶点对应的真值热图。
计算各人体边界框顶点的分组损失值:
Figure BDA0003206534800000093
其中Lpull表示对同一个人体边界框顶点进行分组的损失值;k表示人体边界框的编号,N表示总人体边界框的数量,且k和N均为正整数;
Figure BDA0003206534800000096
表示属于第k个人体边界框的左上角顶点的嵌入向量,
Figure BDA0003206534800000097
表示属于第k个人体边界框的右下角顶点的嵌入向量,ek表示
Figure BDA0003206534800000098
Figure BDA0003206534800000099
的均值。
计算各人体边界框顶点的分离损失值:
Figure BDA0003206534800000094
其中Lpush表示对不同人的人体边界框顶点进行分离的损失值;k表示人体边界框的编号,N表示总人体边界框的数量,且k和N均为正整数;ek表示同一个人人体边界框顶点的均值,ej表示不同于第k个人体边界框顶点的均值。
利用平滑最小绝对值偏差函数计算各人体边界框顶点偏移的损失值:
Figure BDA0003206534800000095
Figure BDA0003206534800000101
其中Loff表示预测的人体边界框与真实边界框的误差;k表示人体边界框的编号,N表示总人体边界框的数量,且k和N均为正整数;Ok表示第k个人体边界框顶点的偏移量,xk表示第k个人体边界框顶点的横坐标值,yk表示第k个人体边界框顶点的纵坐标值,n表示下采样倍率;
利用热图解码器计算所述预测得到的各人体边界框的值:
Figure BDA0003206534800000102
其中
Figure BDA0003206534800000103
表示预测得到第k个人体边界框的坐标值;mk表示Pi(pj)中的最大值,sk表示Pi(pj)中的第二大值;
利用所述预测得到的各人体边界框的值,对所述特征图Fout,dowm进行裁剪,得到特征图Fout,h
对所述Fout,h进行缩放操作,缩放成64*64大小分辨率的特征图Fout,k
对所述Fout,k进行第四卷积核操作,得到人体关节点的位置热图;
利用非极大值抑制算法查找所述人体关节点的位置热图中,人体关节点的最大像素值位置;
以所述人体关节点的最大像素值位置为人体关节点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测人体关节点的位置;
利用均方误差损失函数以及人体关节点的位置计算得到人体关节点的损失值:
Figure BDA0003206534800000104
其中Ld表示人体关节点的损失值;i表示人体关节点的编号,N表示关节点的数量,且i与N均为正整数;Pi表示第i个关节点的预测值;
Figure BDA0003206534800000105
为预测的关节点的热图,尺度为n×64×64,n表示人体关节点的个数;Gi表示第i个关节点的真值;G={g1,…,gn},为高斯激活生成的各类关节点对应的真值热图。
加权各类所述的损失函数来训练所述的端到端快速阶梯网络:
L=M+αLpush+βLpull+Ld+γLoff
其中,α=β=0.1γ=1。
进一步的,所述姿态估计模块具体包括:
获取待测图像,将所述待测图像调整为大小为512*512的RGB图像后,输入训练好的所述端到端快速阶梯网络中;
通过所述端到端快速阶梯网络获取RGB图像中关节点的位置热图;
利用非极大值抑制算法查找所述关节点的位置热图中,各关节点的最大像素值位置;
以所述最大像素值位置为关节点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测的关节点位置;
基于预先标定各关节点的序号以及预测的关节点位置,依次连接各关节点形成完整的人体姿态。
第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法。
本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、通过基于端到端的快速阶梯网络,实现有效减少在人体姿态估计领域深度卷积神经网络的参数量,改善人体姿态估计里深度卷积神经网络训练与推理速度慢的问题,进而极大的提升了人体姿态估计的效率。
2、将目标检测算法修改预测目标边界框的顶点值,从而实现同一个网络完成不同的任务,大大提高了人体姿态估计的速度,同时也实现端到端的人体姿态估计。
3、通过加入稠密瀑布模块,解决端到端快速阶梯网络因为网络较轻量,而使得网络的感受野不足导致精度下降的问题,本发明仅需简单的步骤即可解决感受野缺失的问题,极大的提升了人体姿态估计的精度。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明一种基于端到端快速阶梯网络的姿态估计方法的方法流程图。
图2为本发明一种基于端到端快速阶梯网络的姿态估计装置的结构示意图。
图3为本发明介质的结构示意图。
图4为本发明端到端快速阶梯网络的结构示意图。
图5为本发明稠密瀑布模块的原理示意图。
图6为本发明一实施例中的姿态估计效果图。
具体实施方式
本申请实施例中的技术方案,总体思路如下:首先,基于快速阶梯网络搭建端到端快速阶梯网络,使得网络能够同时预测人体边界框与人体姿态,实现了端到端的预测人体姿态,不需要额外的目标检测算法,实现了快速高效的人体估计算法;其次,在端到端快速阶梯网络的每个末尾分支都会进行上采样操作,实现了多尺度特征融合,帮助解决图像中不同尺度人物的关节点预测,提高人体姿态估计算法的精度;最后,在端到端快速阶梯网络进行关节点预测时,我们将特征图大小采样到64*64大小的特征图,从而解决了小尺度关节点无法预测的情况,进一步提高姿态估计的精度,为行为识别、异常行为检测等提供一个更加标准的姿态参考。
为了更好地理解本发明技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例一
本发明提供了一种基于端到端快速阶梯网络的姿态估计方法,如图1所述方法包括如下步骤:
步骤S10、基于快速阶梯网络搭建端到端快速阶梯网络;
步骤S20、利用样本图像对所述端到端快速阶梯网络进行训练;
即事先获取大量的样本图像,对各样本图像的关节点进行标注后,划分为训练集,验证集和测试集,将训练集输入深度卷积神经网络进行训练,再利用验证集对训练后的深度卷积神经网络进行验证,判断损失值是否达到预设的阈值;将测试集输入训练好的卷积神经网络,来最终判断卷积神经网络达到的能力。
步骤S30、将待测图像输入训练好的所述端到端快速阶梯网络,计算关节点的位置并形成完整的人体姿态。
较佳的,请参考图4,所述端到端快速阶梯网络包括:
一大小为3×3的第一卷积核、一大小为3×3的第二卷积核、一大小为1×1的第三卷积核、一大小为1×1的第四卷积核、一通道数为32的第一子网、一通道数为64的第二子网、一通道数为128的第三子网和一通道数为256的第四子网;
所述第一子网包括横向并行排列并连接的二十个残差模块,依次用S1,1、S1,2、……、S1,20表示;所述第二子网包括横向并行排列并连接的十六个残差模块,依次用S2,1、S2,2、……、S2,16表示;所述第三子网包括横向并行排列并连接的十一个残差模块,依次用S3,1、S3,2、……、S3,11表示;所述第四子网包括横向并行排列并连接的六个残差模块,依次用S4,1、S4,2、……、S4,6表示;
所述第一卷积核的输出端与所述第二卷积核进行连接,用于改变图像特征图的分辨率;在所诉第二卷积核的输出端与第一子网的输入端连接,用于提取图像特征;所述第一子网、第二子网、第三子网以及第四子网依次至上而下排列,且靠右对齐;
分别在所述第三子网中的S3,5和S3,6以及S3,10和S3,11的残差模块之间设置有稠密瀑布模块,用于为残差模块补偿感受野;
所述第一子网输出特征图Sout,1;所述第二子网输出特征图Sout,2,进行一次双线性插值上采样后,将特征图的分辨率提升至与特征图Sout,1一致,并进行元素堆叠;所述第三子网输出特征图Sout,3,进行两次双线性插值上采样后,将特征图的分辨率提升至与特征图Sout,1一致,并进行元素堆叠;所述第四子网输出特征图Sout,4,进行三次双线性插值上采样后,将特征图的分辨率提升至与特征图Sout,1一致,并进行元素堆叠形成特征图Fout,1
在所述特征图Fout,1后进行所述第三卷积核操作;在所述第三卷积核操作后进行恒等映射操作得到特征图Fout,up;在所述第三卷积核操作后,根据所述特征图Fout,up得到的坐标进行特征图裁剪操作得到特征图Fout,temp;在所述特征图Fout,temp后进行所述第四卷积核操作,得到特征图Fout,dowm
较佳的,如图5所示,所述稠密瀑布模块包括:
一大小为3×3的第五卷积核、一大小为3×3的第六卷积核、一大小为3×3的第七卷积核和一大小为3×3的第八卷积核;
所述第五卷积核将特征图F进行卷积操作生成特征图F1;所述第六卷积核将特征图F和特征图F1进行元素相加后进行卷积操作生成特征图F2;所述第七卷积核将特征图F和特征图F2进行元素相加后进行卷积操作生成特征图F3;所述第八卷积核将特征图F和特征图F3进行元素相加后进行第九卷积操作生成特征图F4;紧接着将特征图F1,F2,F3,F4进行堆叠并且与特征图F进行元素相加,生成特征图F5,将所述即所述稠密瀑布模块的输入是特征图F,输出是特征图F5。
较佳的,所述步骤S20具体包括:
步骤S21、获取数据集中的样本图像,将所述样本图像调整为大小为512×512的RGB图像后,输入搭建好的所述端到端快速阶梯网络;
步骤S22、通过所述端到端快速阶梯网络获取特征图Fout,up,所述特征图Fout,up包含人体边界框顶点的位置热图,标签嵌入矩阵以及偏移值;
步骤S23、利用非极大值抑制算法查找所述人体边界框顶点的位置热图中,人体边界框顶点的最大像素值位置;
步骤S24、以所述人体边界框顶点的最大像素值位置为人体边界框顶点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测各人体边界框顶点的位置;
步骤S25、利用均方误差损失函数以及人体边界框顶点的位置计算得到各人体边界框顶点的损失值:
Figure BDA0003206534800000141
其中M表示人体边界框顶点的损失值;i表示人体的编号,j表示各人体边界框顶点的编号,且i和j均为正整数;Pi(pj)表示第i个人,第j个人体边界框顶点的预测值;
Figure BDA0003206534800000151
为预测的关节点的热图,尺度为n×64×64,n表示人体边界框顶点的个数;Gi(pj)表示第i个人,第j个人体边界框顶点的真值;G={g1,…,gn},为高斯激活生成的各个人体边界框顶点对应的真值热图。
步骤S26、计算各人体边界框顶点的分组损失值:
Figure BDA0003206534800000152
其中Lpull表示对同一个人体边界框顶点进行分组的损失值;k表示人体边界框的编号,N表示总人体边界框的数量,且k和N均为正整数;
Figure BDA0003206534800000156
表示属于第k个人体边界框的左上角顶点的嵌入向量,
Figure BDA0003206534800000157
表示属于第k个人体边界框的右下角顶点的嵌入向量,ek表示
Figure BDA0003206534800000158
Figure BDA0003206534800000159
的均值。
步骤S27、计算各人体边界框顶点的分离损失值:
Figure BDA0003206534800000153
其中Lpush表示对不同人的人体边界框顶点进行分离的损失值;k表示人体边界框的编号,N表示总人体边界框的数量,且k和N均为正整数;ek表示同一个人人体边界框顶点的均值,ej表示不同于第k个人体边界框顶点的均值。
步骤S28、利用平滑最小绝对值偏差函数计算各人体边界框顶点偏移的损失值:
Figure BDA0003206534800000154
Figure BDA0003206534800000155
其中Loff表示预测的人体边界框与真实边界框的误差;k表示人体边界框的编号,N表示总人体边界框的数量,且k和N均为正整数;Ok表示第k个人体边界框顶点的偏移量,xk表示第k个人体边界框顶点的横坐标值,yk表示第k个人体边界框顶点的纵坐标值,n表示下采样倍率;
步骤S29、利用热图解码器计算所述预测得到的各人体边界框的值:
Figure BDA0003206534800000161
其中
Figure BDA0003206534800000162
表示预测得到第k个人体边界框的坐标值;mk表示Pi(pj)中的最大值,sk表示Pi(pj)中的第二大值;
步骤S210、利用所述预测得到的各人体边界框的值,对所述特征图Fout,dowm进行裁剪,得到特征图Fout,h
步骤S211、对所述Fout,h进行缩放操作,缩放成64*64大小分辨率的特征图Fout,k
步骤S212、对所述Fout,k进行第四卷积核操作,得到人体关节点的位置热图;
步骤S213、利用非极大值抑制算法查找所述人体关节点的位置热图中,人体关节点的最大像素值位置;
步骤S214、以所述人体关节点的最大像素值位置为人体关节点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测人体关节点的位置;
步骤S215、利用均方误差损失函数以及人体关节点的位置计算得到人体关节点的损失值:
Figure BDA0003206534800000163
其中Ld表示人体关节点的损失值;i表示人体关节点的编号,N表示关节点的数量,且i与N均为正整数;Pi表示第i个关节点的预测值;
Figure BDA0003206534800000164
为预测的关节点的热图,尺度为n×64×64,n表示人体关节点的个数;Gi表示第i个关节点的真值;G={g1,…,gn},为高斯激活生成的各类关节点对应的真值热图。
步骤S216、加权各类所述的损失函数来训练所述的端到端快速阶梯网络:
L=M+αLpush+βLpull+Ld+γLoff
其中,α=β=0.1γ=1。
较佳的,所述步骤S30具体包括:
步骤S31、获取待测图像,将所述待测图像调整为大小为512*512的RGB图像后,输入训练好的所述端到端快速阶梯网络中;
步骤S32、通过所述端到端快速阶梯网络获取RGB图像中关节点的位置热图;
步骤S33、利用非极大值抑制算法查找所述关节点的位置热图中,各关节点的最大像素值位置;
步骤S34、以所述最大像素值位置为关节点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测的关节点位置;
步骤S35、基于预先标定各关节点的序号以及预测的关节点位置,依次连接各关节点形成完整的人体姿态,即可得到如图6所示的效果图。
基于同一发明构思,本申请还提供了与实施例一中的方法对应的装置,详见实施例二。
实施例二
本实施例提供了一种基于端到端快速阶梯网络的姿态估计装置,如图2所示,所述装置包括网络搭建模块、训练模块和姿态估计模块:
网络搭建模块,用于基于快速阶梯网络搭建端到端快速阶梯网络;
训练模块,用于利用样本图像对所述端到端快速阶梯网络进行训练;
即事先获取大量的样本图像,对各样本图像的关节点进行标注后,划分为训练集,验证集和测试集,将训练集输入深度卷积神经网络进行训练,再利用验证集对训练后的深度卷积神经网络进行验证,判断损失值是否达到预设的阈值,将测试集输入训练好的卷积神经网络,来最终判断卷积神经网络达到的能力;
姿态估计模块,用于将待测图像输入训练好的所述端到端快速阶梯网络,计算关节点的位置并形成完整的人体姿态。
较佳的,可参考图4,所述端到端快速阶梯网络包括:
一大小为3×3的第一卷积核、一大小为3×3的第二卷积核、一大小为1×1的第三卷积核、一大小为1×1的第四卷积核、一通道数为32的第一子网、一通道数为64的第二子网、一通道数为128的第三子网和一通道数为256的第四子网;
所述第一子网包括横向并行排列并连接的二十个残差模块,依次用S1,1、S1,2、……、S1,20表示;所述第二子网包括横向并行排列并连接的十六个残差模块,依次用S2,1、S2,2、……、S2,16表示;所述第三子网包括横向并行排列并连接的十一个残差模块,依次用S3,1、S3,2、……、S3,11表示;所述第四子网包括横向并行排列并连接的六个残差模块,依次用S4,1、S4,2、……、S4,6表示;
所述第一卷积核的输出端与所述第二卷积核进行连接,用于改变图像特征图的分辨率;在所诉第二卷积核的输出端与第一子网的输入端连接,用于提取图像特征;所述第一子网、第二子网、第三子网以及第四子网依次至上而下排列,且靠右对齐;
分别在所述第三子网中的S3,5和S3,6以及S3,10和S3,11的残差模块之间设置有稠密瀑布模块,用于为残差模块补偿感受野;
所述第一子网输出特征图Sout,1;所述第二子网输出特征图Sout,2,进行一次双线性插值上采样后,将特征图的分辨率提升至与特征图Sout,1一致,并进行元素堆叠;所述第三子网输出特征图Sout,3,进行两次双线性插值上采样后,将特征图的分辨率提升至与特征图Sout,1一致,并进行元素堆叠;所述第四子网输出特征图Sout,4,进行三次双线性插值上采样后,将特征图的分辨率提升至与特征图Sout,1一致,并进行元素堆叠形成特征图Fout,1
在所述特征图Fout,1后进行所述第三卷积核操作;在所述第三卷积核操作后进行恒等映射操作得到特征图Fout,up;在所述第三卷积核操作后,根据所述特征图Fout,up得到的坐标进行特征图裁剪操作得到特征图Fout,temp;在所述特征图Fout,temp后进行所述第四卷积核操作,得到特征图Fout,dowm
较佳的,如图5所示,所述稠密瀑布模块包括:
一大小为3×3的第五卷积核、一大小为3×3的第六卷积核、一大小为3×3的第七卷积核和一大小为3×3的第八卷积核;
所述第五卷积核将特征图F进行卷积操作生成特征图F1;所述第六卷积核将特征图F和特征图F1进行元素相加后进行卷积操作生成特征图F2;所述第七卷积核将特征图F和特征图F2进行元素相加后进行卷积操作生成特征图F3;所述第八卷积核将特征图F和特征图F3进行元素相加后进行第九卷积操作生成特征图F4;紧接着将特征图F1,F2,F3,F4进行堆叠并且与特征图F进行元素相加,生成特征图F5,将所述即所述稠密瀑布模块的输入是特征图F,输出是特征图F5。
较佳的,所述训练模块具体包括:
获取数据集中的样本图像,将所述样本图像调整为大小为512×512的RGB图像后,输入搭建好的所述端到端快速阶梯网络;
通过所述端到端快速阶梯网络获取特征图Fout,up,所述特征图Fout,up包含人体边界框顶点的位置热图,标签嵌入矩阵以及偏移值;
利用非极大值抑制算法查找所述人体边界框顶点的位置热图中,人体边界框顶点的最大像素值位置;
以所述人体边界框顶点的最大像素值位置为人体边界框顶点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测各人体边界框顶点的位置;
利用均方误差损失函数以及人体边界框顶点的位置计算得到各人体边界框顶点的损失值:
Figure BDA0003206534800000191
其中M表示人体边界框顶点的损失值;i表示人体的编号,j表示各人体边界框顶点的编号,且i和j均为正整数;Pi(pj)表示第i个人,第j个人体边界框顶点的预测值;
Figure BDA0003206534800000192
为预测的关节点的热图,尺度为n×64×64,n表示人体边界框顶点的个数;Gi(pj)表示第i个人,第j个人体边界框顶点的真值;G={g1,…,gn},为高斯激活生成的各个人体边界框顶点对应的真值热图。
计算各人体边界框顶点的分组损失值:
Figure BDA0003206534800000201
其中Lpull表示对同一个人体边界框顶点进行分组的损失值;k表示人体边界框的编号,N表示总人体边界框的数量,且k和N均为正整数;
Figure BDA0003206534800000207
表示属于第k个人体边界框的左上角顶点的嵌入向量,
Figure BDA0003206534800000208
表示属于第k个人体边界框的右下角顶点的嵌入向量,ek表示
Figure BDA0003206534800000209
Figure BDA00032065348000002010
的均值。
计算各人体边界框顶点的分离损失值:
Figure BDA0003206534800000202
其中Lpush表示对不同人的人体边界框顶点进行分离的损失值;k表示人体边界框的编号,N表示总人体边界框的数量,且k和N均为正整数;ek表示同一个人人体边界框顶点的均值,ej表示不同于第k个人体边界框顶点的均值。
利用平滑最小绝对值偏差函数计算各人体边界框顶点偏移的损失值:
Figure BDA0003206534800000203
Figure BDA0003206534800000204
其中Loff表示预测的人体边界框与真实边界框的误差;k表示人体边界框的编号,N表示总人体边界框的数量,且k和N均为正整数;Ok表示第k个人体边界框顶点的偏移量,xk表示第k个人体边界框顶点的横坐标值,yk表示第k个人体边界框顶点的纵坐标值,n表示下采样倍率;
利用热图解码器计算所述预测得到的各人体边界框的值:
Figure BDA0003206534800000205
其中
Figure BDA0003206534800000206
表示预测得到第k个人体边界框的坐标值;mk表示Pi(pj)中的最大值,sk表示Pi(pj)中的第二大值;
利用所述预测得到的各人体边界框的值,对所述特征图Fout,dowm进行裁剪,得到特征图Fout,h
对所述Fout,h进行缩放操作,缩放成64*64大小分辨率的特征图Fout,k
对所述Fout,k进行第四卷积核操作,得到人体关节点的位置热图;
利用非极大值抑制算法查找所述人体关节点的位置热图中,人体关节点的最大像素值位置;
以所述人体关节点的最大像素值位置为人体关节点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测人体关节点的位置;
利用均方误差损失函数以及人体关节点的位置计算得到人体关节点的损失值:
Figure BDA0003206534800000211
其中Ld表示人体关节点的损失值;i表示人体关节点的编号,N表示关节点的数量,且i与N均为正整数;Pi表示第i个关节点的预测值;
Figure BDA0003206534800000212
为预测的关节点的热图,尺度为n×64×64,n表示人体关节点的个数;Gi表示第i个关节点的真值;G={g1,…,gn},为高斯激活生成的各类关节点对应的真值热图。
加权各类所述的损失函数来训练所述的端到端快速阶梯网络:
L=M+αLpush+βLpull+Ld+γLoff
其中,α=β=0.1γ=1。
较佳的,所述姿态估计模块具体包括:
获取待测图像,将所述待测图像调整为大小为512*512的RGB图像后,输入训练好的所述端到端快速阶梯网络中;
通过所述端到端快速阶梯网络获取RGB图像中关节点的位置热图;
利用非极大值抑制算法查找所述关节点的位置热图中,各关节点的最大像素值位置;
以所述最大像素值位置为关节点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测的关节点位置;
基于预先标定各关节点的序号以及预测的关节点位置,依次连接各关节点形成完整的人体姿态,即可得到如图6所示的效果图。
由于本发明实施例二所介绍的装置,为实施本发明实施例一的方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
基于同一发明构思,本申请提供了实施例一对应的存储介质,详见实施例三。
实施例三
本实施例提供一种计算机可读存储介质,如图3所示,其上存储有计算机程序,该计算机程序被处理器执行时,可以实现实施例一中任一实施方式。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:通过基于端到端的快速阶梯网络,实现有效减少在人体姿态估计领域深度卷积神经网络的参数量,改善人体姿态估计领深度卷积神经网络训练与推理速度慢,进而极大的提升了人体姿态估计的效率;通过将目标检测算法修改预测目标边界框的顶点值,从而实现同一个网络完成不同的任务,大大提高了人体姿态估计的速度,同时也实现端到端的人体姿态估计;通过加入稠密瀑布模块,解决端到端快速阶梯网络中感受野不足导致精度下降的问题,通过简单的步骤即可解决感受野缺失的问题,极大的提升了人体姿态估计的精度。。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

Claims (5)

1.一种基于端到端快速阶梯网络的姿态估计方法,其特征在于:所述方法包括如下步骤:
步骤S10、基于快速阶梯网络搭建端到端快速阶梯网络;
步骤S20、利用样本图像对所述端到端快速阶梯网络进行训练;
所述步骤S20具体包括:
步骤S21、获取数据集中的样本图像,将所述样本图像调整为大小为512×512的RGB图像后,输入搭建好的所述端到端快速阶梯网络;
步骤S22、通过所述端到端快速阶梯网络获取特征图Fout,up,所述特征图Fout,up包含人体边界框顶点的位置热图,标签嵌入矩阵以及偏移值;
步骤S23、利用非极大值抑制算法查找所述人体边界框顶点的位置热图中,人体边界框顶点的最大像素值位置;
步骤S24、以所述人体边界框顶点的最大像素值位置为人体边界框顶点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测各人体边界框顶点的位置;
步骤S25、利用均方误差损失函数以及人体边界框顶点的位置计算得到各人体边界框顶点的损失值:
Figure FDA0004142530450000011
其中M表示人体边界框顶点的损失值;i表示人体的编号,j表示各人体边界框顶点的编号,且i和j均为正整数;Pi(pj)表示第i个人,第j个人体边界框顶点的预测值;
Figure FDA0004142530450000012
为预测的关节点的热图,尺度为n×64×64,n表示人体边界框顶点的个数;Gi(pj)表示第i个人,第j个人体边界框顶点的真值;G={g1,...,gn},为高斯激活生成的各个人体边界框顶点对应的真值热图;
步骤S26、计算各人体边界框顶点的分组损失值:
Figure FDA0004142530450000021
其中Lpull表示对同一个人体边界框顶点进行分组的损失值;k表示人体边界框的编号,N表示总人体边界框的数量,且k和N均为正整数;
Figure FDA0004142530450000022
表示属于第k个人体边界框的左上角顶点的嵌入向量,
Figure FDA0004142530450000023
表示属于第k个人体边界框的右下角顶点的嵌入向量,ek表示
Figure FDA0004142530450000024
Figure FDA0004142530450000025
的均值;
步骤S27、计算各人体边界框顶点的分离损失值:
Figure FDA0004142530450000026
其中Lpush表示对不同人的人体边界框顶点进行分离的损失值;k表示人体边界框的编号,N表示总人体边界框的数量,且k和N均为正整数;ek表示同一个人人体边界框顶点的均值,ej表示不同于第k个人体边界框顶点的均值;
步骤S28、利用平滑最小绝对值偏差函数计算各人体边界框顶点偏移的损失值:
Figure FDA0004142530450000027
Figure FDA0004142530450000028
其中Loff表示预测的人体边界框与真实边界框的误差;k表示人体边界框的编号,N表示总人体边界框的数量,且k和N均为正整数;Ok表示第k个人体边界框顶点的偏移量,xk表示第k个人体边界框顶点的横坐标值,yk表示第k个人体边界框顶点的纵坐标值,n表示下采样倍率;
步骤S29、利用热图解码器计算所述预测得到的各人体边界框的值:
Figure FDA0004142530450000029
其中
Figure FDA00041425304500000210
表示预测得到第k个人体边界框的坐标值;mk表示Pi(pj)中的最大值,sk表示Pi(pj)中的第二大值;
步骤S210、利用所述预测得到的各人体边界框的值,对所述特征图Fout,dowm进行裁剪,得到特征图Fout,h
步骤S211、对所述Fout,h进行缩放操作,缩放成64*64大小分辨率的特征图Fout,k
步骤S212、对所述Fout,k进行第四卷积核操作,得到人体关节点的位置热图;
步骤S213、利用非极大值抑制算法查找所述人体关节点的位置热图中,人体关节点的最大像素值位置;
步骤S214、以所述人体关节点的最大像素值位置为人体关节点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测人体关节点的位置;
步骤S215、利用均方误差损失函数以及人体关节点的位置计算得到人体关节点的损失值:
Figure FDA0004142530450000031
其中Ld表示人体关节点的损失值;i表示人体关节点的编号,N表示关节点的数量,且i与N均为正整数;Pi表示第i个关节点的预测值;
Figure FDA0004142530450000032
为预测的关节点的热图,尺度为n×64×64,n表示人体关节点的个数;Gi表示第i个关节点的真值;G={g1,...,gn},为高斯激活生成的各类关节点对应的真值热图;
步骤S216、加权各类所述的损失函数来训练所述的端到端快速阶梯网络:
L=M+αLpush+βLpull+Ld+γLoff
其中,α=β=0.1,γ=1;
步骤S30、将待测图像输入训练好的所述端到端快速阶梯网络,计算关节点的位置并形成完整的人体姿态;
所述步骤S30具体包括:
步骤S31、获取待测图像,将所述待测图像调整为大小为512*512的RGB图像后,输入训练好的所述端到端快速阶梯网络中;
步骤S32、通过所述端到端快速阶梯网络获取RGB图像中关节点的位置热图;
步骤S33、利用非极大值抑制算法查找所述关节点的位置热图中,各关节点的最大像素值位置;
步骤S34、以所述最大像素值位置为关节点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测的关节点位置;
步骤S35、基于预先标定各关节点的序号以及预测的关节点位置,依次连接各关节点形成完整的人体姿态;
所述端到端快速阶梯网络包括:
一大小为3×3的第一卷积核、一大小为3×3的第二卷积核、一大小为1×1的第三卷积核、一大小为1×1的第四卷积核、一通道数为32的第一子网、一通道数为64的第二子网、一通道数为128的第三子网和一通道数为256的第四子网;
所述第一子网包括横向并行排列并连接的二十个残差模块,依次用S1,1、S1,2、……、S1,20表示;所述第二子网包括横向并行排列并连接的十六个残差模块,依次用S2,1、S2,2、……、S2,16表示;所述第三子网包括横向并行排列并连接的十一个残差模块,依次用S3,1、S3,2、……、S3,11表示;所述第四子网包括横向并行排列并连接的六个残差模块,依次用S4,1、S4,2、……、S4,6表示;
所述第一卷积核的输出端与所述第二卷积核进行连接,用于改变图像特征图的分辨率;在所述第二卷积核的输出端与第一子网的输入端连接,用于提取图像特征;所述第一子网、第二子网、第三子网以及第四子网依次至上而下排列,且靠右对齐;
分别在所述第三子网中的S3,5和S3,6以及S3,10和S3,11的残差模块之间设置有稠密瀑布模块,用于为残差模块补偿感受野;
所述第一子网输出特征图Sout,1;所述第二子网输出特征图Sout,2,进行一次双线性插值上采样后,将特征图的分辨率提升至与特征图Sout1一致,并进行元素堆叠;所述第三子网输出特征图Sout,3,进行两次双线性插值上采样后,将特征图的分辨率提升至与特征图Sout,1一致,并进行元素堆叠;所述第四子网输出特征图Sout,4,进行三次双线性插值上采样后,将特征图的分辨率提升至与特征图Sout,1一致,并进行元素堆叠形成特征图Fout,1
在所述特征图Fout,1后进行所述第三卷积核操作;在所述第三卷积核操作后进行恒等映射操作得到特征图Fout,up;在所述第三卷积核操作后,根据所述特征图Fout,up得到的坐标进行特征图裁剪操作得到特征图Fout,temp;在所述特征图Fout,temp后进行所述第四卷积核操作,得到特征图Fout,dowm
2.如权利要求1所述的一种基于端到端快速阶梯网络的姿态估计方法,其特征在于:所述稠密瀑布模块包括:
一大小为3×3的第五卷积核、一大小为3×3的第六卷积核、一大小为3×3的第七卷积核和一大小为3×3的第八卷积核;
所述第五卷积核将特征图F进行卷积操作生成特征图F1;所述第六卷积核将特征图F和特征图F1进行元素相加后进行卷积操作生成特征图F2;所述第七卷积核将特征图F和特征图F2进行元素相加后进行卷积操作生成特征图F3;所述第八卷积核将特征图F和特征图F3进行元素相加后进行第九卷积操作生成特征图F4;紧接着将特征图F1,F2,F3,F4进行堆叠并且与特征图F进行元素相加,生成特征图F5,即所述稠密瀑布模块的输入是特征图F,输出是特征图F5。
3.一种基于端到端快速阶梯网络的姿态估计装置,其特征在于:所述装置包括网络搭建模块、训练模块和姿态估计模块:
网络搭建模块,用于基于快速阶梯网络搭建端到端快速阶梯网络;
训练模块,用于利用样本图像对所述端到端快速阶梯网络进行训练;所述训练模块具体包括:
获取数据集中的样本图像,将所述样本图像调整为大小为512×512的RGB图像后,输入搭建好的所述端到端快速阶梯网络;
通过所述端到端快速阶梯网络获取特征图Fout,up,所述特征图Fout,up包含人体边界框顶点的位置热图,标签嵌入矩阵以及偏移值;
利用非极大值抑制算法查找所述人体边界框顶点的位置热图中,人体边界框顶点的最大像素值位置;
以所述人体边界框顶点的最大像素值位置为人体边界框顶点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测各人体边界框顶点的位置;
利用均方误差损失函数以及人体边界框顶点的位置计算得到各人体边界框顶点的损失值:
Figure FDA0004142530450000061
其中M表示人体边界框顶点的损失值;i表示人体的编号,j表示各人体边界框顶点的编号,且i和j均为正整数;Pi(pj)表示第i个人,第j个人体边界框顶点的预测值;
Figure FDA0004142530450000062
为预测的关节点的热图,尺度为n×64×64,n表示人体边界框顶点的个数;Gi(pj)表示第i个人,第j个人体边界框顶点的真值;G={g1,...,gn},为高斯激活生成的各个人体边界框顶点对应的真值热图;
计算各人体边界框顶点的分组损失值:
Figure FDA0004142530450000063
其中Lpull表示对同一个人体边界框顶点进行分组的损失值;k表示人体边界框的编号,N表示总人体边界框的数量,且k和N均为正整数;
Figure FDA0004142530450000064
表示属于第k个人体边界框的左上角顶点的嵌入向量,
Figure FDA0004142530450000065
表示属于第k个人体边界框的右下角顶点的嵌入向量,ek表示
Figure FDA0004142530450000066
Figure FDA0004142530450000067
的均值;
计算各人体边界框顶点的分离损失值:
Figure FDA0004142530450000068
其中Lpush表示对不同人的人体边界框顶点进行分离的损失值;k表示人体边界框的编号,N表示总人体边界框的数量,且k和N均为正整数;ek表示同一个人人体边界框顶点的均值,ej表示不同于第k个人体边界框顶点的均值;
利用平滑最小绝对值偏差函数计算各人体边界框顶点偏移的损失值:
Figure FDA0004142530450000071
Figure FDA0004142530450000072
其中Loff表示预测的人体边界框与真实边界框的误差;k表示人体边界框的编号,N表示总人体边界框的数量,且k和N均为正整数;Ok表示第k个人体边界框顶点的偏移量,xk表示第k个人体边界框顶点的横坐标值,yk表示第k个人体边界框顶点的纵坐标值,n表示下采样倍率;
利用热图解码器计算所述预测得到的各人体边界框的值:
Figure FDA0004142530450000073
其中
Figure FDA0004142530450000074
表示预测得到第k个人体边界框的坐标值;mk表示Pi(pj)中的最大值,sk表示Pi(pj)中的第二大值;
利用所述预测得到的各人体边界框的值,对所述特征图Fout,dowm进行裁剪,得到特征图Fout,h
对所述Fout,h进行缩放操作,缩放成64*64大小分辨率的特征图Fout,k
对所述Fout,k进行第四卷积核操作,得到人体关节点的位置热图;
利用非极大值抑制算法查找所述人体关节点的位置热图中,人体关节点的最大像素值位置;
以所述人体关节点的最大像素值位置为人体关节点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测人体关节点的位置;
利用均方误差损失函数以及人体关节点的位置计算得到人体关节点的损失值:
Figure FDA0004142530450000075
其中Ld表示人体关节点的损失值;i表示人体关节点的编号,N表示关节点的数量,且i与N均为正整数;Pi表示第i个关节点的预测值;
Figure FDA0004142530450000081
为预测的关节点的热图,尺度为n×64×64,n表示人体关节点的个数;Gi表示第i个关节点的真值;G={g1,...,gn},为高斯激活生成的各类关节点对应的真值热图;
加权各类所述的损失函数来训练所述的端到端快速阶梯网络:
L=M+αLpush+βLpull+Ld+γLoff
其中,α=β=0.1,γ=1;
姿态估计模块,用于将待测图像输入训练好的所述端到端快速阶梯网络,计算关节点的位置并形成完整的人体姿态,具体步骤包括:
步骤S31、获取待测图像,将所述待测图像调整为大小为512*512的RGB图像后,输入训练好的所述端到端快速阶梯网络中;
步骤S32、通过所述端到端快速阶梯网络获取RGB图像中关节点的位置热图;
步骤S33、利用非极大值抑制算法查找所述关节点的位置热图中,各关节点的最大像素值位置;
步骤S34、以所述最大像素值位置为关节点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测的关节点位置;
步骤S35、基于预先标定各关节点的序号以及预测的关节点位置,依次连接各关节点形成完整的人体姿态;
所述端到端快速阶梯网络包括:
一大小为3×3的第一卷积核、一大小为3×3的第二卷积核、一大小为1×1的第三卷积核、一大小为1×1的第四卷积核、一通道数为32的第一子网、一通道数为64的第二子网、一通道数为128的第三子网和一通道数为256的第四子网;
所述第一子网包括横向并行排列并连接的二十个残差模块,依次用S1,1、S1,2、……、S1,20表示;所述第二子网包括横向并行排列并连接的十六个残差模块,依次用S2,1、S2,2、……、S2,16表示;所述第三子网包括横向并行排列并连接的十一个残差模块,依次用S3,1、S3,2、……、S3,11表示;所述第四子网包括横向并行排列并连接的六个残差模块,依次用S4,1、S4,2、……、S4,6表示;
所述第一卷积核的输出端与所述第二卷积核进行连接,用于改变图像特征图的分辨率;在所述第二卷积核的输出端与第一子网的输入端连接,用于提取图像特征;所述第一子网、第二子网、第三子网以及第四子网依次至上而下排列,且靠右对齐;
分别在所述第三子网中的S3,5和S3,6以及S3,10和S3,11的残差模块之间设置有稠密瀑布模块,用于为残差模块补偿感受野;
所述第一子网输出特征图Sout,1;所述第二子网输出特征图Sout,2,进行一次双线性插值上采样后,将特征图的分辨率提升至与特征图Sout,1一致,并进行元素堆叠;所述第三子网输出特征图Sout,3,进行两次双线性插值上采样后,将特征图的分辨率提升至与特征图Sout,1一致,并进行元素堆叠;所述第四子网输出特征图Sout,4,进行三次双线性插值上采样后,将特征图的分辨率提升至与特征图Sout,1一致,并进行元素堆叠形成特征图Fout,1
在所述特征图Fout,1后进行所述第三卷积核操作;在所述第三卷积核操作后进行恒等映射操作得到特征图Fout,up;在所述第三卷积核操作后,根据所述特征图Fout,up得到的坐标进行特征图裁剪操作得到特征图Fout,temp;在所述特征图Fout,temp后进行所述第四卷积核操作,得到特征图Fout,dowm
4.如权利要求3所述的一种基于端到端快速阶梯网络的姿态估计装置,其特征在于:所述稠密瀑布模块包括:
一大小为3×3的第五卷积核、一大小为3×3的第六卷积核、一大小为3×3的第七卷积核和一大小为3×3的第八卷积核;
所述第五卷积核将特征图F进行卷积操作生成特征图F1;所述第六卷积核将特征图F和特征图F1进行元素相加后进行卷积操作生成特征图F2;所述第七卷积核将特征图F和特征图F2进行元素相加后进行卷积操作生成特征图F3;所述第八卷积核将特征图F和特征图F3进行元素相加后进行第九卷积操作生成特征图F4;紧接着将特征图F1,F2,F3,F4进行堆叠并且与特征图F进行元素相加,生成特征图F5,即所述稠密瀑布模块的输入是特征图F,输出是特征图F5。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1或2所述的方法。
CN202110918420.8A 2021-08-11 2021-08-11 基于端到端快速阶梯网络的姿态估计方法、装置及介质 Active CN113610015B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110918420.8A CN113610015B (zh) 2021-08-11 2021-08-11 基于端到端快速阶梯网络的姿态估计方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110918420.8A CN113610015B (zh) 2021-08-11 2021-08-11 基于端到端快速阶梯网络的姿态估计方法、装置及介质

Publications (2)

Publication Number Publication Date
CN113610015A CN113610015A (zh) 2021-11-05
CN113610015B true CN113610015B (zh) 2023-05-30

Family

ID=78340224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110918420.8A Active CN113610015B (zh) 2021-08-11 2021-08-11 基于端到端快速阶梯网络的姿态估计方法、装置及介质

Country Status (1)

Country Link
CN (1) CN113610015B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116188492B (zh) * 2023-02-21 2024-04-26 北京长木谷医疗科技股份有限公司 髋关节分割方法、装置、电子设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875523A (zh) * 2017-12-28 2018-11-23 北京旷视科技有限公司 人体关节点检测方法、装置、系统和存储介质
CN112241726A (zh) * 2020-10-30 2021-01-19 华侨大学 基于自适应感受野网络和关节点损失权重的姿态估计方法
CN112418070A (zh) * 2020-11-20 2021-02-26 华侨大学 一种基于解耦阶梯网络的姿态估计方法
CN112597955A (zh) * 2020-12-30 2021-04-02 华侨大学 一种基于特征金字塔网络的单阶段多人姿态估计方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494938B2 (en) * 2018-05-15 2022-11-08 Northeastern University Multi-person pose estimation using skeleton prediction
US11036975B2 (en) * 2018-12-14 2021-06-15 Microsoft Technology Licensing, Llc Human pose estimation
US12106481B2 (en) * 2019-12-13 2024-10-01 Insurance Services Office, Inc. Computer vision systems and methods for end-to-end training of convolutional neural networks using differentiable dual-decomposition techniques

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875523A (zh) * 2017-12-28 2018-11-23 北京旷视科技有限公司 人体关节点检测方法、装置、系统和存储介质
CN112241726A (zh) * 2020-10-30 2021-01-19 华侨大学 基于自适应感受野网络和关节点损失权重的姿态估计方法
CN112418070A (zh) * 2020-11-20 2021-02-26 华侨大学 一种基于解耦阶梯网络的姿态估计方法
CN112597955A (zh) * 2020-12-30 2021-04-02 华侨大学 一种基于特征金字塔网络的单阶段多人姿态估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Double anchor embedding for accurate multi-person 2D pose estimation;Zhiqian Zhang,Yanmin Luo,Jin Gou;Image and Vision Computing;第111卷;全文 *
深度学习的二维人体姿态估计综述;周燕,刘紫琴,曾凡智 等;《计算机科学与探索》;第15卷(第04期);全文 *

Also Published As

Publication number Publication date
CN113610015A (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN112052886B (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN111126472A (zh) 一种基于ssd改进的目标检测方法
CN109919085B (zh) 基于轻量型卷积神经网络的人人交互行为识别方法
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN109117894B (zh) 一种基于全卷积神经网络的大尺度遥感图像楼房分类方法
CN113313173B (zh) 基于图表示和改进Transformer的人体解析方法
CN116229056A (zh) 基于双分支特征融合的语义分割方法、装置、设备
CN112597955A (zh) 一种基于特征金字塔网络的单阶段多人姿态估计方法
CN111241924A (zh) 基于尺度估计的人脸检测及对齐方法、装置、存储介质
CN113610015B (zh) 基于端到端快速阶梯网络的姿态估计方法、装置及介质
CN112149645A (zh) 基于生成对抗学习和图神经网络的人体姿势关键点识别方法
CN109658508B (zh) 一种多尺度细节融合的地形合成方法
CN115222754A (zh) 一种基于知识蒸馏和对抗学习的镜面图像分割方法
CN110728186A (zh) 一种基于多网融合的火灾检测方法
CN112597956B (zh) 基于人体锚点集合与感知增强网络的多人姿态估计方法
CN112418070B (zh) 一种基于解耦阶梯网络的姿态估计方法
CN115861595B (zh) 一种基于深度学习的多尺度域自适应异源图像匹配方法
CN114219757B (zh) 一种基于改进Mask R-CNN的车辆智能定损方法
CN109064430A (zh) 一种针对航拍区域含云图的除云方法和系统
CN115471676A (zh) 一种基于多尺度胶囊与Bi-FPN的多模态海上目标检测方法
CN113792660A (zh) 基于改进YOLOv3网络的行人检测方法、系统、介质、设备
Cai et al. The application of the dilated convolution based on small object detection
CN113420760A (zh) 一种基于分割和形变lstm的手写体蒙古文检测和识别方法
CN111274893A (zh) 基于部件分割与特征融合的飞行器图像细粒度识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant