CN110969124B - 基于轻量级多分支网络的二维人体姿态估计方法及系统 - Google Patents

基于轻量级多分支网络的二维人体姿态估计方法及系统 Download PDF

Info

Publication number
CN110969124B
CN110969124B CN201911212972.6A CN201911212972A CN110969124B CN 110969124 B CN110969124 B CN 110969124B CN 201911212972 A CN201911212972 A CN 201911212972A CN 110969124 B CN110969124 B CN 110969124B
Authority
CN
China
Prior art keywords
decoding
network
module
point
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911212972.6A
Other languages
English (en)
Other versions
CN110969124A (zh
Inventor
钟福金
李明阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Woyan Sports Technology Co ltd
Chongqing Tiancheng Jichuang Technology Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201911212972.6A priority Critical patent/CN110969124B/zh
Publication of CN110969124A publication Critical patent/CN110969124A/zh
Application granted granted Critical
Publication of CN110969124B publication Critical patent/CN110969124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及姿态估计领域,具体涉及一种基于轻量级多分支网络的二维人体姿态估计方法及系统,包括:输入图像,对其进行预处理;将图像传入主干网络进行特征提取和信息编码;使用轻量级上采样单元对主干网络的不同编码阶段进行解码,形成多个解码分支的网络结构;将各解码分支生成的特征图与真实标记热力图进行均方损失的求解,并将损失之和回传给神经网络进行迭代训练;训练完成后,将包含行人的图像输入到训练好的神经网络模型中,得到各关节点在图像中的坐标位置,对人体姿态进行可视化。本发明能够对任意输入的行人图片输出其各关节点坐标并进行姿态的可视化,同时,由于本发明的计算成本较低,便于移动端部署,增加了相关产品的适用性。

Description

基于轻量级多分支网络的二维人体姿态估计方法及系统
技术领域
本发明涉及姿态估计领域,具体涉及一种基于轻量级多分支网络的二维人体姿态估计方法及系统。
背景技术
人体姿态估计广泛应用于人机交互、虚拟现实、视频监控、运动分析、医疗辅助等领域,是计算机视觉领域的一个热门研究课题。二维人体姿态估计通过图像或视频自动定位人体骨骼关键点位置,但由于图像中人的衣着、姿态、背景等的多样性以及存在一些自我遮挡和其他人或物体遮挡的情况,准确地预测出图像中的人体骨骼关键点非常具有挑战性。
现有技术中,卷积神经网络在姿态估计上的应用取得了较大的提升,其准确率已远高于非深度学习方法。但基于神经网络的人体姿态估计方法存在着计算量和参数量过大的问题,过于庞大的网络模型不利于移动端的部署也难以满足市场的需求。因此,如何在实现高精度值的同时降低计算量,是亟待解决的重要问题。
发明内容
为了解决上述问题,本发明提供一种基于轻量级多分支网络的二维人体姿态估计方法及系统。
一种基于轻量级多分支网络的二维人体姿态估计方法,包括以下步骤:
S1、输入带有关节点注释的行人姿态的图片集合作为数据集,对数据集进行预处理,并根据关节点注释生成以关节点为中心的真实标记热力图;
S2、基于预处理后的数据集,通过行人检测器用矩形框框选出图片中的行人,将矩形框区域内的图像记为图像M;
S3、将图像M输入到主干网络中,进行特征提取和信息编码;
S4、通过解码器对主干网络的不同编码阶段进行解码,形成具有多个解码分支的网络结构,即神经网络的后端网络,同时,在各解码分支的末端生成特征图;
S5、将各解码分支生成的特征图与真实标记热力图进行均方损失的求解,并将各解码分支的均方损失之和回传给主干网络重复编码解码过程,对神经网络进行迭代训练;
S6、经过多轮训练后,神经网络损失趋于稳定,迭代训练过程结束,得到训练好的神经网络模型;
S7、将包含行人的图像输入到训练好的神经网络模型中,训练好的神经网络模型输出该图像对应的关节点预测热力图,选取该热力图的最高概率值,将最高概率值对应的坐标作为关节点在图像中的坐标位置输出,并对人体姿态进行可视化处理。
一种基于轻量级多分支网络的二维人体姿态估计系统,包括:图像获取模块,数据预处理模块,行人检测模块,可视化模块,神经网络模块,输出模块,图像获取模块用于输入数据集,获取原始图像信息;数据预处理模块用于对输入的数据集中的原始图像进行翻转、旋转、缩放处理,对有限的训练数据进行扩增;行人检测模块用于识别并框选出图像中的行人;神经网络模块用于网络的训练和预测热力图的生成;可视化模块用于对神经网络模块输出的预测热力图进行可视化处理,将预测热力图中的最大置信点作为各个关节点的位置,在原图副本中画出关节点,连接原图副本中的各关节点,得到人体姿态估计图;输出模块用于输出人体姿态估计图。
本发明的有益效果:
(1)本发明具有低参数量、高精度的效果,能够对任意输入的行人图片输出各关节点坐标并进行姿态可视化。
(2)本发明提出了一种新颖的轻量级上采样结构,使得网络既能适应地调节上采样过程中的权重,又不会带来过多的参数量和计算量,能够以远小于普通转置卷积的参数量达到超过转置卷积精度的效果。
(3)本发明提出了一种多分支网络结构,随着网络加深,所采用的上采样单元个数也相应增多,使得网络呈现由粗略到细致的整体结构,能够使得深层网络的输出越来越精准。
(4)本发明将中继损失应用于网络前部,防止网络浅层梯度消失,同时随着前端分支的去除,姿态估计网络的参数量将进一步减小。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细的说明。
图1为本发明实施例的一种基于轻量级多分支网络的结构示意图;
图2为本发明实施例的轻量级上采样单元的结构示意图;
图3为本发明实施例的分支构成示意图;
图4为本发明实施例的训练流程示意图;
图5为本发明实施例的应用效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的一种基于轻量级多分支网络的二维人体姿态估计方法,包括:
S1、输入带有关节点注释的行人姿态的图片集合作为数据集,对数据集进行预处理,并根据关节点注释生成以关节点为中心的真实标记热力图;
S2、基于预处理后的数据集,通过行人检测器用矩形框框选出图片中的行人,将矩形框区域内的图像记为图像M;
S3、将图像M输入到主干网络中,进行特征提取和信息编码;
S4、通过解码器对主干网络的不同编码阶段进行解码,形成具有多个解码分支的网络结构,即神经网络的后端网络,同时,在各解码分支的末端生成特征图;
S5、将各解码分支生成的特征图与真实标记热力图进行均方损失的求解,并将各解码分支的均方损失之和回传给主干网络重复编码解码过程,对神经网络进行迭代训练;
S6、经过多轮训练后,神经网络损失趋于稳定,迭代训练过程结束,得到训练好的神经网络模型;
S7、将包含行人的图像输入到训练好的神经网络模型中,训练好的神经网络模型输出该图像对应的关节点预测热力图,选取该热力图的最高概率值,将最高概率值对应的坐标作为关节点在图像中的坐标位置输出,并对人体姿态进行可视化处理。
获取MPII人体姿态数据集,该数据集中包含从网络视频中截取的行人原始图像,且行人原始图像带有关节点注释,其中关节点注释包括:关节点坐标标记和关节点的可见性标记。本发明的数据集共有24987张原始图像,其中有17408张用作训练集,2729张用作验证集,其余用作测试集,每张原始图像有k=16个关节点注释,每个注释包含其坐标及可见性。通过MPII人体姿态数据集提供的原始图像具有质量高、噪声小以及姿态丰富等优点,便于后续的处理。
对MPII数据集进行预处理:对原始图像进行随机翻转、随机旋转(-30°~+30°)和随机缩放(0.75~1.25)的处理来扩增数据,并将处理后的图像统一裁剪为256×256大小,方便网络的训练,在这一过程中,原始图像的关节点坐标标注也会随着图像的预处理做相应的坐标变换。
以关节标记点为中心生成二维高斯概率图,即真实标记热力图。在关节标记点处会生成一个高斯分布的概率区域,区域的中心概率值最大,最接近1,越远离中心区域,概率值越小。其中,关节标记点zk=(xk,yk)的真实标记热力图生成公式包括:
Figure BDA0002298650960000041
其中mk(x,y)为k标记点在图像上一点产生的高斯置信值,代表该点为标记点的可能性,超参数σ2表示高斯函数的空间方差值,x,y表示图像上任意一点的横纵坐标,xk,yk表示标记点k的横纵坐标。
使用FasterR-CNN行人检测器框选出图中的行人,生成候选矩形框,同时根据极大值抑制策略,保留其中概率超过阈值的候选矩形框,然后根据特征图进行裁剪,并通过递归卷积神经网络R-CNN进一步细化候选矩形框,获得最终的行人矩形框,将行人矩形框内的图像记为图像M。
将获得的行人矩形框依次输送至检测网络,再执行单人姿态估计。本发明采用自上而下的方法,首先在图像中用矩形框框出所有人物,然后解决矩形框中的单人姿态估计问题,这种方式能有效避免背景对人物的干扰,预测的精度普遍优于自下而上的方法。
对图像M进行特征提取和信息编码,形成神经网络的主干网络,经过Efficient-net中各卷积层的运算使图像大小逐渐缩小,而代表特征图的通道数逐渐增加,将原始三通道的图像转换为多通道的特征图。
通过解码器对主干网络的不同编码阶段进行解码,形成具有多个解码分支的网络结构,即神经网络的后端网络;
进一步的,各解码分支由多个解码器串联而成,单个解码器放大倍数为2倍,将前面压缩的小特征图逐级放大,逐步解码,使得网络能够以对应不同复杂度的编码信息,使得由浅层到深层的多分支解码结构呈现逐步细化的解码过程。
进一步的,解码器由空间注意力模块、可分离转置卷积、逐点卷积、通道注意力模块构成。
更进一步的,迭代训练中的解码过程包括以下步骤:
首先,调节所要解码特征图的空间信息,采用空间注意力通道调节特征图各像素的权重,通过1×1卷积和Sigmoid进行归一化处理,过滤空间层面的噪声信息干扰,使神经网络更加关注于关节点附近的特征;
然后,对特征图进行上采样解码,使用深度转置卷积将特征图放大2倍,将深度转置卷积的每个通道与对应通道的输入特征图分别进行运算,在较小计算量和参数量的情况下对特征图进行解码,提取特征图各个通道的解码特征信息;
再通过1×1逐点卷积整合各个通道提取到的解码特征信息,并缩减输出通道数,进一步压缩参数量;
最后,利用通道注意力对解码后输出的各通道的权重进行调整,通道注意力通过两个全连接层计算各通道的重要程度,使与训练任务相关度更高的解码特征图具有更大的权重,与训练任务相关度更低的解码特征图具有更小的权重,从而完成整个解码过程。
此外,下采样会对图像分辨率进行压缩,从而造成一部分空间信息的丢失,因此,将解码分支位置设置在编码网络下采样前,在主干网络编码器的不同编码阶段进行解码输出,避免造成空间信息的丢失。
如图4所示,根据真实标记热力图进行神经网络训练,生成特征图;将中继损失应用于神经网络的各解码分支,将各解码分支生成的特征图与真实标记热力图进行均方损失的求解,并将各解码分支的均方损失之和回传给主干网络对神经网络进行迭代训练。
进一步的,均方损失的计算公式包括:
Figure BDA0002298650960000061
其中,
Figure BDA0002298650960000062
表示均方损失,n表示网络中的一个解码分支,k表示其中一个标记关节,N表示解码分支总数,K表示关节总数,mk
Figure BDA0002298650960000063
分别为预测热力图及真实标记的热力图。
由于实际应用时只采用末端分支的输出结果,因此当模型训练完成后可去除中间分支,进一步减少网络的参数量和计算量。
使用Adam优化器进行训练调节,经过多轮训练后,各解码分支生成的特征图与真实标记热力图的均方损失不再变化时,神经网络趋于稳定,迭代训练过程结束,得到训练好的神经网络模型,如图1和图3所示。
使用训练好的神经网络模型时,将包含行人的图像输入到训练好的神经网络模型中,训练好的神经网络模型输出该图像对应的关节点预测热力图,选取该热力图的最高概率值,将最高概率值对应的坐标作为关节点在图像中的坐标位置输出,并对人体姿态进行可视化处理。
进一步的,所述对人体姿态进行可视化处理包括:以各关节预测坐标点为圆心,以2~5像素为半径在原图副本上画一个实心圆,作为关节点的标记;并按照从头至脚的顺序依次将预测点连接起来,形成肢体连线,得到具有关节点连线的人体姿态图片和关节点具体坐标输出,输出的人体姿态图像如图5所示。
本发明的一种基于轻量级多分支网络的二维人体姿态估计系统,包括:图像获取模块,数据预处理模块,行人检测模块,神经网络模块,可视化模块,输出模块。
图像获取模块作为整个系统的数据入口,用于输入数据集,获取原始图像信息。
数据预处理模块用于对输入的数据集中的原始图像进行翻转、旋转、缩放处理,该模块仅在训练中使用,目的在于对有限的训练数据进行扩增,使得网络能够学习到更加复杂的姿态情况下的特征,能够应对更加复杂的姿态情况。
行人检测模块用于识别并框选出原始图像中的行人,将检测范围内的图像用作姿态估计神经网络的输入。
神经网络模块用于神经网络的训练与预测,为整个系统的核心部分,对输入图像进行编码和解码操作,训练过程中对输入数据进行拟合,使得网络模块能够自动调节网络参数,在预测过程中使用训练好的参数对相应关节点的坐标位置进行预测。
可视化模块用于对神经网络模块输出的预测热力图进行可视化处理,将预测热力图中的最大置信点作为各个关节点的位置,以各关节预测坐标点为圆心,2~5像素为半径在原图副本中画出关节点,连接原图副本中的各关节点,得到人体姿态估计图。
输出模块用于输出人体姿态估计图。
进一步的,神经网络模块包括主干网络模块和后端网络模块,主干网络模块由轻量级的高效网络Efficient-net组成,该主干网络模块用于信息的编码,通过平衡网络的深度、宽度和分辨率来提高模型的准确率;后端网络模块由多个解码器串联而成,用于信息的解码。
更进一步的,一个解码分支由串联的轻量级上采样单元构成,即一个轻量级上采样单元为一个解码器。
更进一步的,所述轻量级上采样单元包括:空间注意力模块、深度转置卷积模块、逐点卷积模块和通道注意力模块。
空间注意力模块用于自适应地突出特征图中的关节点相关区域。
深度转置卷积模块用于对特征图进行运算,本发明采用3×3大小、步长为2的深度转置卷积作为轻量级上采样单元的核心构成部分,其中每个通道的转置卷积只与单个通道的输入特征图进行运算,以此减小计算量和参数量。
逐点卷积模块为1×1卷积,用于整合各个通道的信息,同时缩减输出通道数,进一步压缩参数量。
通道注意力模块用于自适应的调整各卷积滤波器的权重,使得对任务更有效的特征的通道权重更大,效果小的或无效的特征的通道权重更小。
进一步的,轻量级上采样单元中各模块的组合顺序包括:由于经过深度转置卷积后特征图的分辨率会增大,因此把对空间变化敏感的空间注意力放置在深度转置卷积前,以避免分辨率增大带来的计算开销;由于1×1逐点卷积用于整合各通道经过深度转置卷积的信息,因此我们将通道注意力模块放置在1×1逐点卷积之后以便网络能够动态地调整含有完整信息的各通道权重。最终的轻量级上采样结构组合如图2所示。
更进一步的,轻量级上采样单元中的各模块工作时,首先使用空间注意力模块调节特征图各像素的权重,通过1×1卷积和Sigmoid进行归一化处理,过滤空间层面的噪声信息干扰,使神经网络更加关注于关节点附近的特征;然后对特征图进行上采样解码,使用深度转置卷积模块将特征图放大2倍,将深度转置卷积模块的每个通道与对应通道的输入特征图分别进行运算,提取特征图各个通道的解码特征信息;再通过逐点卷积模块整合各个通道提取到的解码特征信息,并缩减输出通道数,进一步压缩参数量;最后利用通道注意力模块对解码后输出的各通道的权重进行调整,通道注意力模块通过两个全连接层计算各通道的重要程度,使对任务更有效的解码特征的通道权重更大,效果小的或无效的解码特征的通道权重更小,从而完成整个解码过程。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于轻量级多分支网络的二维人体姿态估计方法,其特征在于,包括以下步骤:
S1、输入带有关节点注释的行人姿态的图片集合作为数据集,对数据集进行预处理,并根据关节点注释生成以关节点为中心的真实标记热力图;
S2、基于预处理后的数据集,通过行人检测器用矩形框框选出图片中的行人,将矩形框区域内的图像记为图像M;
S3、将图像M输入到主干网络中,进行特征提取和信息编码;
S4、通过解码器对主干网络的不同编码阶段进行解码,形成具有多个解码分支的网络结构,即神经网络的后端网络,同时,在各解码分支的末端生成特征图;
S5、将各解码分支生成的特征图与真实标记热力图进行均方损失的求解,并将各解码分支的均方损失之和回传给主干网络重复编码解码过程,对神经网络进行迭代训练;
S6、经过多轮训练后,神经网络损失趋于稳定,迭代训练过程结束,得到训练好的神经网络模型;
S7、将包含行人的图像输入到训练好的神经网络模型中,训练好的神经网络模型输出该图像对应的关节点预测热力图,选取该热力图的最高概率值,将最高概率值对应的坐标作为关节点在图像中的坐标位置输出,并对人体姿态进行可视化处理;
其中,解码过程包括:
S51、调节所要解码特征图的空间信息,采用空间注意力通道调节特征图各像素的权重,通过1×1卷积和Sigmoid进行归一化处理,过滤空间层面的噪声信息干扰;
S52、对特征图进行上采样解码,使用深度转置卷积将特征图放大2倍,将深度转置卷积的每个通道与对应通道的输入特征图分别进行运算,提取特征图各个通道的解码特征信息;
S53、通过1×1逐点卷积整合各个通道提取到的解码特征信息,并缩减输出通道数,进一步压缩参数量;
S54、利用通道注意力对解码后输出的各通道的权重进行调整,从而完成整个解码过程。
2.根据权利要求1所述的一种基于轻量级多分支网络的二维人体姿态估计方法,其特征在于,所述预处理包括:对数据集中的原始图像进行随机翻转、随机旋转、随机缩放。
3.根据权利要求1所述的一种基于轻量级多分支网络的二维人体姿态估计方法,其特征在于,真实标记热力图的生成过程包括:以图像M的关节标记点为中心生成一个高斯分布的概率区域,该区域的中心概率值最大,最接近1,越远离区域中心,概率值越小,此二维高斯概率图即为真实标记热力图,关节标记点zk=(xk,yk)的真实标记热力图生成公式包括:
Figure FDA0003781709900000021
其中mk(x,y)为标记点k在图像上一点产生的高斯置信值,代表该点为标记点的可能性,σ2表示高斯函数的空间方差值,x,y表示图像上任意一点的横纵坐标,xk,yk表示标记点k的横纵坐标。
4.根据权利要求1所述的一种基于轻量级多分支网络的二维人体姿态估计方法,其特征在于,所述主干网络上存在多个解码分支结构,解码分支结构分布在不同编码阶段。
5.根据权利要求1所述的一种基于轻量级多分支网络的二维人体姿态估计方法,其特征在于,对人体姿态进行可视化处理包括:以各关节预测坐标点为圆心,以2~5像素为半径在原图副本上画一个实心圆,作为关节点的标记;并按照从头至脚的顺序依次将预测点连接起来,形成肢体连线,得到具有关节点连线的人体姿态图片和关节点具体坐标。
6.一种基于轻量级多分支网络的二维人体姿态估计系统,其特征在于,包括:图像获取模块,数据预处理模块,行人检测模块,可视化模块,神经网络模块,输出模块;
图像获取模块用于输入数据集,获取原始图像信息;
数据预处理模块用于对输入的数据集中的原始图像进行翻转、旋转、缩放处理,对有限的训练数据进行扩增;
行人检测模块用于识别并框选出图像中的行人;
神经网络模块用于网络的训练和预测热力图的生成;
可视化模块用于对神经网络模块输出的预测热力图进行可视化处理,将预测热力图中的最大置信点作为各个关节点的位置,在原图副本中画出关节点,连接原图副本中的各关节点,得到人体姿态估计图;
输出模块用于输出人体姿态估计图;
所述神经网络模块包括主干网络模块和后端网络模块,主干网络模块由轻量级的高效网络Efficient-net组成,该主干网络模块用于信息的编码,平衡网络的深度、宽度和分辨率;后端网络模块由多个解码分支构成,用于信息的解码;
各解码分支由多个解码器串联而成,单个解码器放大倍数为2倍,将前面压缩的小特征图逐级放大,逐步解码,使得网络能够以对应不同复杂度的编码信息,使得由浅层到深层的多分支解码结构呈现逐步细化的解码过程;解码过程包括:
S51、调节所要解码特征图的空间信息,采用空间注意力通道调节特征图各像素的权重,通过1×1卷积和Sigmoid进行归一化处理,过滤空间层面的噪声信息干扰;
S52、对特征图进行上采样解码,使用深度转置卷积将特征图放大2倍,将深度转置卷积的每个通道与对应通道的输入特征图分别进行运算,提取特征图各个通道的解码特征信息;
S53、通过1×1逐点卷积整合各个通道提取到的解码特征信息,并缩减输出通道数,进一步压缩参数量;
S54、利用通道注意力对解码后输出的各通道的权重进行调整,从而完成整个解码过程。
7.根据权利要求6所述的一种基于轻量级多分支网络的二维人体姿态估计系统,其特征在于,一个解码分支由多个轻量级上采样单元串联而成。
8.根据权利要求7所述的一种基于轻量级多分支网络的二维人体姿态估计系统,其特征在于,所述轻量级上采样单元包括:空间注意力模块、深度转置卷积模块、逐点卷积模块和通道注意力模块,空间注意力模块用于自适应地突出特征图中的关节点相关区域;深度转置卷积模块用于对特征图进行运算;逐点卷积模块用于将各个通道的信息进行整合;通道注意力模块用于自适应的调整各卷积滤波器的权重,使对任务更有效的特征的通道权重更大,效果小的或无效的特征的通道权重更小。
CN201911212972.6A 2019-12-02 2019-12-02 基于轻量级多分支网络的二维人体姿态估计方法及系统 Active CN110969124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911212972.6A CN110969124B (zh) 2019-12-02 2019-12-02 基于轻量级多分支网络的二维人体姿态估计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911212972.6A CN110969124B (zh) 2019-12-02 2019-12-02 基于轻量级多分支网络的二维人体姿态估计方法及系统

Publications (2)

Publication Number Publication Date
CN110969124A CN110969124A (zh) 2020-04-07
CN110969124B true CN110969124B (zh) 2022-09-27

Family

ID=70032575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911212972.6A Active CN110969124B (zh) 2019-12-02 2019-12-02 基于轻量级多分支网络的二维人体姿态估计方法及系统

Country Status (1)

Country Link
CN (1) CN110969124B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931624B (zh) * 2020-08-03 2023-02-07 重庆邮电大学 基于注意力机制的轻量级多分支行人重识别方法及系统
CN111898566B (zh) * 2020-08-04 2023-02-03 成都井之丽科技有限公司 姿态估计方法、装置、电子设备和存储介质
CN111985414B (zh) * 2020-08-21 2024-02-23 成都数字天空科技有限公司 一种关节点位置确定方法及装置
CN112395442B (zh) * 2020-10-12 2022-06-14 杭州电子科技大学 移动互联网上的低俗图片自动识别与内容过滤方法
CN112417972A (zh) * 2020-10-23 2021-02-26 奥比中光科技集团股份有限公司 一种热图解码方法、人体关节点估计方法及系统
CN112633086B (zh) * 2020-12-09 2024-01-26 西安电子科技大学 基于多任务EfficientDet的近红外行人监测方法、系统、介质、设备
CN112597896B (zh) * 2020-12-23 2022-09-09 中国科学技术大学 基于无线信号的人体姿势成像方法及装置
CN112560757B (zh) * 2020-12-24 2022-08-09 中国科学院大学 端到端多视角三维人体姿态估计方法、系统及存储介质
CN113706650A (zh) * 2021-08-27 2021-11-26 深圳龙岗智能视听研究院 一种基于注意力机制和流模型的图像生成方法
CN114140828B (zh) * 2021-12-06 2024-02-02 西北大学 一种实时轻量级2d人体姿态估计方法
CN114283495B (zh) * 2021-12-16 2024-05-28 北京航空航天大学 一种基于二值化神经网络的人体姿态估计方法
CN114155560B (zh) * 2022-02-08 2022-04-29 成都考拉悠然科技有限公司 基于空间降维的高分辨率人体姿态估计模型的轻量化方法
CN114399829B (zh) * 2022-03-25 2022-07-05 浙江壹体科技有限公司 基于生成式对抗网络的姿态迁移方法、电子设备及介质
CN114842078A (zh) * 2022-04-14 2022-08-02 中国人民解放军战略支援部队航天工程大学 一种基于深度学习的双通道卫星姿态估计网络
CN116434127B (zh) * 2023-06-14 2023-11-07 季华实验室 人体姿态估计方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647639A (zh) * 2018-05-10 2018-10-12 电子科技大学 实时人体骨骼关节点检测方法
CN108960212A (zh) * 2018-08-13 2018-12-07 电子科技大学 基于端到端的人体关节点检测与分类方法
CN109711329A (zh) * 2018-12-25 2019-05-03 北京迈格威科技有限公司 姿态估计及网络训练方法、装置和系统及存储介质
CN109821239A (zh) * 2019-02-20 2019-05-31 网易(杭州)网络有限公司 体感游戏的实现方法、装置、设备及存储介质
CN110070066A (zh) * 2019-04-30 2019-07-30 福州大学 一种基于姿态关键帧的视频行人重识别方法及系统
CN110427877A (zh) * 2019-08-01 2019-11-08 大连海事大学 一种基于结构信息的人体三维姿态估算的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679044B2 (en) * 2018-03-23 2020-06-09 Microsoft Technology Licensing, Llc Human action data set generation in a machine learning system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647639A (zh) * 2018-05-10 2018-10-12 电子科技大学 实时人体骨骼关节点检测方法
CN108960212A (zh) * 2018-08-13 2018-12-07 电子科技大学 基于端到端的人体关节点检测与分类方法
CN109711329A (zh) * 2018-12-25 2019-05-03 北京迈格威科技有限公司 姿态估计及网络训练方法、装置和系统及存储介质
CN109821239A (zh) * 2019-02-20 2019-05-31 网易(杭州)网络有限公司 体感游戏的实现方法、装置、设备及存储介质
CN110070066A (zh) * 2019-04-30 2019-07-30 福州大学 一种基于姿态关键帧的视频行人重识别方法及系统
CN110427877A (zh) * 2019-08-01 2019-11-08 大连海事大学 一种基于结构信息的人体三维姿态估算的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Zoltán Tüske,Muhammad Ali Tahir,Ralf Schlüter,Hermann Ney.Integrating Gaussian mixtures into deep neural networks: Softmax layer with hidden variables.《2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》.2015, *
范佳柔.基于深度学习的多人姿态估计.《中国优秀硕士学位论文全文数据库》.2019, *

Also Published As

Publication number Publication date
CN110969124A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
CN110969124B (zh) 基于轻量级多分支网络的二维人体姿态估计方法及系统
CN112949565B (zh) 基于注意力机制的单样本部分遮挡人脸识别方法及系统
CN110348330B (zh) 基于vae-acgan的人脸姿态虚拟视图生成方法
CN112819910A (zh) 基于双鬼注意力机制网络的高光谱图像重建方法
CN110060286B (zh) 一种单目深度估计方法
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN113807361B (zh) 神经网络、目标检测方法、神经网络训练方法及相关产品
CN107767358B (zh) 一种图像中物体模糊度确定方法和装置
CN110674824A (zh) 基于R2U-Net的手指静脉分割方法、装置和存储介质
CN110246171B (zh) 一种实时单目视频深度估计方法
CN116129129B (zh) 一种人物交互检测模型及检测方法
CN114723760B (zh) 人像分割模型的训练方法、装置及人像分割方法、装置
CN117475216A (zh) 一种基于aglt网络的高光谱与激光雷达数据融合分类方法
CN115631107A (zh) 边缘引导的单幅图像噪声去除
CN112906675B (zh) 一种固定场景中的无监督人体关键点检测方法及系统
CN110889868A (zh) 一种结合梯度和纹理特征的单目图像深度估计方法
CN116935044B (zh) 一种多尺度引导和多层次监督的内镜息肉分割方法
CN116091793A (zh) 一种基于光流融合的光场显著性检测方法
CN104123707B (zh) 一种基于局部秩先验的单幅图像超分辨率重建方法
CN110555379A (zh) 一种根据性别动态调整特征的人脸愉悦度估计方法
CN116266336A (zh) 视频超分辨率重建方法、装置、计算设备及存储介质
CN115937429A (zh) 一种基于单张图像的细粒度3d人脸重建方法
CN114821239A (zh) 一种有雾环境下的病虫害检测方法
CN112634126A (zh) 人像减龄处理方法、训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231016

Address after: Room 110, Building 1, Yard 1, Dongdadi Street, Dongcheng District, Beijing, 100010

Patentee after: Beijing Woyan Sports Technology Co.,Ltd.

Address before: 48-15-017, Building 3, No. 422 Panxi Road, Shimahe Street, Jiangbei District, Chongqing, 400000

Patentee before: Chongqing Tiancheng Jichuang Technology Co.,Ltd.

Effective date of registration: 20231016

Address after: 48-15-017, Building 3, No. 422 Panxi Road, Shimahe Street, Jiangbei District, Chongqing, 400000

Patentee after: Chongqing Tiancheng Jichuang Technology Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TR01 Transfer of patent right