CN113011304A

CN113011304A - 一种基于注意力多分辨率网络的人体姿态估计方法及系统

Info

Publication number: CN113011304A
Application number: CN202110271084.2A
Authority: CN
Inventors: 常发亮; 丁锐; 李南君; 蒋沁宇
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-06-22

Abstract

本公开公开的一种基于注意力多分辨率网络的人体姿态估计方法及系统，包括：获取待识别的目标图像；将待识别的目标图像输入训练好的注意力多分辨率网络模型中，获取姿态估计结果；其中，注意力多分辨率网络模型包括快速采样阶段、网络主体部分和表征融合模块，快速采样阶段对输入的图像下采样并提取不同分辨率的表征信息，通过网络主体部分从不同分辨率的表征信息中提取分辨率支路特征，表征融合模块使用通道注意力机制，将不同分辨率支路特征加权融合，获得融合特征，通过该融合特征进行姿态估计。实现了对人体姿态的准确估计。

Description

一种基于注意力多分辨率网络的人体姿态估计方法及系统

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于注意力多分辨率网络的人体姿态估计方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

视觉系统是人类观察世界和认识世界最重要的途径，数据显示人类通过视觉获取的信息至少占总信息量的80％以上。长期以来，研究人员希望通过计算机模拟人类的视觉系统，从而使机器能够准确地对图像中的目标物体进行识别与定位，最终实现理解图像中隐含的高级语义信息。通过计算机视觉的方式分析人的行为动作能够极大提高人类生产生活的便捷性，对社会发展进步具有重要意义。人体姿态估计是通过定位人眼睛、颈部、手腕、膝盖等主要关键点位置，连接构建人体骨架模型的技术，在生活中的许多领域具有重要的实用意义。

例如在机器人领域，关于协作机器人的研究正迈入人机协作的新阶段。与通过安全围栏与人隔离的传统工业机器人相比，协作机器人可以和人类伙伴并肩协作，高效地完成某项或多项作业。人机协作系统的关键在于人机交互。顾名思义，人机交互是指人与机器产生交流和互动的行为，而人机交互的前提是机器人可以读懂人的语言、情感和行为意图等。除了传统的键盘和触控屏操作外，采用计算机视觉的方式识别人体姿态包含的信息，从而读懂人的行为能产生更便捷和更拟人化的交互方式，人体姿态估计的发展将为人与机器人的交流带来更多可能。

基于图像的人体姿态估计由于受到光照条件、相机拍摄角度以及复杂环境的影响，存在人体姿态变化多样、图像背景复杂、关键点遮挡不可见等问题，这导致长期以来人体姿态估计的研究结果不准确，无法满足实际应用的需要。直到近年来深度学习技术的发展，高性能的计算平台以及大规模数据集的增加使得神经网络模型可以更好地学习和泛化，人体姿态估计的性能才得到飞跃提高。由于不同分辨率特征包含不同尺度关节点信息，因此现有研究成果往往关注如何更好的提取多分辨率表征，而对于融合多分辨率表征则直接采用对应位置元素相加的方式，这导致不同分辨率支路通道信息重要性的差异被忽视，进而使人体姿态识别的准确率较低。

发明内容

本公开为了解决上述问题，提出了一种基于注意力多分辨率网络的人体姿态估计方法及系统。

为实现上述目的，本公开采用如下技术方案：

第一方面，提出了一种基于注意力多分辨率网络的人体姿态估计方法，包括：

获取待识别的目标图像；

将待识别的目标图像输入训练好的注意力多分辨率网络模型中，获取姿态估计结果；

其中，注意力多分辨率网络模型包括快速采样阶段、网络主体部分和表征融合模块，快速采样阶段对输入的图像下采样并提取不同分辨率表征，通过网络主体部分从不同分辨率表征中提取分辨率支路特征，表征融合模块使用通道注意力机制，将不同分辨率支路特征加权融合，获得融合特征，通过该融合特征进行姿态估计。

第二方面，提出了一种基于注意力多分辨率网络的人体姿态估计系统，包括：

图像获取模块，用于获取待识别的目标图像；

姿态估计模块，用于将待识别的目标图像输入训练好的注意力多分辨率网络模型中，获取姿态估计结果；

第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成一种基于注意力多分辨率网络的人体姿态估计方法所述的步骤。

第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成一种基于注意力多分辨率网络的人体姿态估计方法所述的步骤。

与现有技术相比，本公开的有益效果为：

1、本公开通过引入通道注意力机制根据不同分辨率支路特征的重要性，对不同分辨路支路特征进行加权融合，在保留高分辨率表征信息的同时改进了多分辨率表征信息的融合方式，此外在网络初始快速采样阶段使用多内容注意力残差单元来同时学习不同分辨率的表征信息，网络通过自始至终对多分辨率表征信息的关注来获取更高的空间定位精度，从而得到更准确的人体姿态估计结果。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例1公开的AMRNet网络结构示意图；

图2为本公开实施例1公开的多内容注意力残差单元结构图；

图3为本公开实施例1公开的表征融合模块结构示意图；

图4为本公开实施例1公开的人体姿态估计方法流程图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本公开中，术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，只是为了便于叙述本公开各部件或元件结构关系而确定的关系词，并非特指本公开中任一部件或元件，不能理解为对本公开的限制。

本公开中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，也可以是一体地连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本公开中的具体含义，不能理解为对本公开的限制。

实施例1

人体姿态估计作为一种对空间敏感度高的任务，不同分辨率下的特征信息对提高空间定位精度都有重要意义，浅层高分辨率的特征保留了较多的局部和细节信息，能够更好的捕捉小尺度人体；深层低分辨率的特征包含了全局信息和分类能力，更适用于捕捉大尺度人体。如何对不同分辨率包含的有效特征提取融合，仍是人体姿态估计任务中的开放性问题。当前方法多关注于网络的特征提取方式，融合阶段往往只是简单的对应位置元素相加，这就存在着多分辨率表征信息没有合理融合的问题，为了解决该技术问题，提高人体姿态估计方法的准确性，在该实施例中，公开了一种基于注意力多分辨率网络的人体姿态估计方法，包括：

获取待识别的目标图像；

其中，注意力多分辨率网络模型(AMRNet)包括快速采样阶段、网络主体部分和表征融合模块，快速采样阶段对输入的图像下采样并提取不同分辨率的表征信息，通过网络主体部分从不同分辨率的表征信息中提取分辨率支路特征，表征融合模块使用通道注意力机制，将不同分辨率支路特征加权融合，获得融合特征，通过该融合特征进行姿态估计。

进一步的，快速采样阶段使用传统的卷积层和多内容注意力残差单元，对输入的图像下采样并提取不同分辨率的表征信息。

进一步的，快速采样阶段使用两个卷积层对输入图像进行下采样，每个卷积层后接批标准化层，批标准化层后连接多内容注意力残差单元，多内容注意力残差单元中包含具有不同感受野和分辨率的分支，以学习不同分辨率的表征信息。

进一步的，网络主体部分采用并联结构的主干网络，主干网络采用残差模块。

进一步的，使用通道注意力机制进行不同分辨率支路特征加权融合的过程为：通道注意力机制将网络主体部分的各个分辨率支路对齐后的中间特征图作为输入，分别对中间特征图进行平均池化和最大值池化，获得两个不同的空间上下文描述子，将描述子送入多层感知器中，得到两个通道注意力图，将两个通道注意力图进行对应元素相加后使用sigmoid函数激活，得到最终的通道注意力图，将最终的通道注意力图与中间特征图进行对应元素相乘，实现对不同分辨率支路特征的加权，最后使用卷积融合不同分辨率支路特征，获得融合特征。

进一步的，获取原始图像；

对原始图像进行预处理；

对预处理后图像进行数据增强；

通过数据增强后图像构建训练数据集，对注意力多分辨率网络模型进行训练。

进一步的，注意力多分辨率网络模型训练时，使用权重衰减和批标准化避免过拟合，损失函数使用均方误差L2 Loss。

对本实施例公开的一种基于注意力多分辨率网络的人体姿态估计方法进行详细说明，如图4所示，包括以下过程：

S1：获取待识别的目标图像。

在具体实施时，可以通过摄像头等图像采集装置获取待识别的目标图像。

S2：将待识别的目标图像输入训练好的注意力多分辨率网络模型中，获取姿态估计结果。

其中，注意力多分辨率网络模型(Attention based Multi-Resolution Net,AMRNet)的结构如图1所示，包括三部分：快速采样阶段、网络主体部分和表征融合模块，快速采样阶段对输入图像进行快速下采样并初步学习不同分辨率的表征信息，网络主体部分采用并联结构的主干网络，通过网络主体从不同分辨率的表征信息中提取分辨率支路特征，表征融合模块将不同分辨率支路特征进行加权融合，获得融合特征，从而充分获取丰富的全局和局部信息，通过该融合特征进行人体姿态估计。

在具体实施时，为了保证良好的特征提取效果，快速采样阶段使用了多内容注意力残差单元以增加网络的感受野。具体来说，快速采样阶段的网络结构首先是两个步长为2的3x3卷积对输入图像进行四倍下采样，每个卷积层后接批标准化层(BN)，批标准化层后连接四个多内容注意力残差单元，多内容注意力残差单元的结构如图2所示，包含三个具有不同的感受野和分辨率的分支，通过三个分支能够学习不同分辨率的表征信息。由于在高分辨率表征上进行卷积处理需要极大计算开销，因此网络在高分辨率支路采用较少的通道数，而增加中低分辨率支路的通道数，支路分辨率每下降1/2时通道数就加倍，从而在有效控制模型运算量的前提下，减缓网络在降低分辨率过程中的表征信息丢失现象，并以此得到更高维度的表征信息。

网络主体部分采用并联结构的主干网络，主干网络采用Basicblock残差模块，用来从不同分辨率的表征信息中提取分辨率支路特征。

表征融合模块的结构如图3所示，其旨在对网络主体部分的四个不同分辨率支路各个通道进行信息融合交互，使得低分辨率表征能够包含高分辨率的细节信息，高分辨率表征也能得到低分辨率的全局分类能力。不同支路融合有三种情况：①输入分辨率高于输出分辨率，使用步长为2的3x3卷积进行下采样操作；②输入分辨率等于输出分辨率，采用直接复制的形式，不进行额外处理；③输入分辨率低于输出分辨率，先使用1x1卷积对齐通道数，再用最近邻插值法进行上采样。通过以上操作，将各支路的中间特征图分辨率与通道数对齐，然后引入通道注意力机制来评估不同分辨率支路特征的重要性，通过加权的方式对含有更重要信息的通道提高分配比例，从而实现不同分辨率支路特征的合理融合，有效的促进不同分辨率下全局和局部信息的结合。

通道注意力机制将各个支路对齐后的中间特征图作为输入F∈R^H×W×C，分别进行平均池化和最大值池化压缩空间维数，聚合空间表征信息，得到两个不同的空间上下文描述子

和

分别表示平均池化特征和最大池化特征。然后将描述子送入包含一个隐藏层的多层感知器(MLP)里，得到两个通道注意力图M_c∈R^1×1×C。为了减少参数量，隐藏层神经元的个数为R^1×1×C/r，其中r被称为压缩比。将经过感知器得到的两个通道注意力图进行对应元素相加后使用sigmoid函数激活，得到最终的通道注意力图M_c(F)，将最终的通道注意力图M_c(F)与中间特征图输入F进行对应元素相乘操作，从而完成对不同分辨率的支路特征的加权操作，公式表示如下，最后使用1x1卷积融合特征，同时与原支路的通道数对齐，获得融合特征。

对构建好的注意力多分辨率网络模型进行训练，获得训练好的注意力多分辨率网络模型的过程为：

步骤1：获取原始图像数据，并对原始图像进行预处理，获得预处理后图像。

在具体实施时，对原始图像预处理的过程为：使用诸如Faster-Rcnn等目标检测网络得到的检测框以长宽比4:3对原始图像进行放大后，裁剪出检测框中的图像统一缩放到256x192大小，获得预处理后图像。

步骤2：对预处理后的图像进行图像增强，获取增强后图像。

在具体实施时，随机旋转预处理后图像在角度-45°～45°变化，随机缩放旋转后图像在尺度0.65～1.35变化进行数据增强，获得增强后图像。

步骤3：通过增强后图像，构建训练数据集，通过训练数据集对构建的注意力多分辨率网络模型进行训练，获得训练好的注意力多分辨率网络模型，训练时使用Adam优化器，使用了1×e^-4权重衰减和批标准化避免过拟合，损失函数使用均方误差L2 Loss。

将待识别的目标图像输入训练好的注意力多分辨率网络模型中，获取姿态估计结果。

将本实施例公开的一种基于注意力多分辨率网络的人体姿态估计方法在MS COCO数据集上进行实验，使用COCO train2017训练集训练网络模型，在test2017测试集评估提出的姿态估计方法。

MS COCO数据集包含超过200,000张左右的图像，其中包含250,000个人体实例，标注中每个人体实例包含17个关键点。训练集中包括57,000张图像和150,000个人体实例，校验集中包含5,000张图像，测试集中包含20,000张图像。COCO数据集的关键点评估指标为度量真值关键点和预测关键点之间的相似性OKS(Object Keypoint Similarity)。报告平均准确率AP(AP在OKS＝0.50；0.55；…；0.90；0.95；10个阈值点的平均值得分)，实验结果对比如下：

可知，本实施例公开的人体姿态估计方法，在人体姿态估计的准确率上较高。

本实施例公开的方法针对现有网络多分辨率融合直接采用相加方式，忽视了不同分辨率支路贡献不同的问题，引入通道注意力机制对不同支路通道信息赋予权重，使得网络更加关注多尺度特征图中包含重要语义特征的通道，从而突出其中关键通道信息。

针对现有网络初始快速采样阶段只使用普通残差单元，没有更好地学习多分辨率表征的问题，在网络头部添加多内容注意力残差单元来增强网络的感受野，使得网络在开始阶段即对不同分辨率表征进行关注，从而增强网络对多分辨率信息的学习能力。

网络通过自始至终对多分辨率表征信息的关注来获取更高的空间定位精度，从而得到更准确的人体姿态估计结果。

实施例2

在该实施例中，公开了一种基于注意力多分辨率网络的人体姿态估计系统，包括：

图像获取模块，用于获取待识别的目标图像；

实施例3

在该实施例中，公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1公开的一种基于注意力多分辨率网络的人体姿态估计方法所述的步骤。

实施例4

在该实施例中，公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的一种基于注意力多分辨率网络的人体姿态估计方法所述的步骤。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于注意力多分辨率网络的人体姿态估计方法，其特征在于，包括：

获取待识别的目标图像；

其中，注意力多分辨率网络模型包括快速采样阶段、网络主体部分和表征融合模块，快速采样阶段对输入的图像下采样并提取不同分辨率的表征信息，通过网络主体部分从不同分辨率的表征信息中提取分辨率支路特征，表征融合模块使用通道注意力机制，将不同分辨率支路特征加权融合，获得融合特征，通过该融合特征进行姿态估计。

2.如权利要求1所述的基于注意力多分辨率网络的人体姿态估计方法，其特征在于，快速采样阶段使用传统的卷积层和多内容注意力残差单元，对输入的图像下采样并提取不同分辨率的表征信息。

3.如权利要求1所述的基于注意力多分辨率网络的人体姿态估计方法，其特征在于，快速采样阶段使用两个卷积层对输入图像进行下采样，每个卷积层后接批标准化层，批标准化层后连接多内容注意力残差单元，多内容注意力残差单元中包含具有不同感受野和分辨率的分支，以学习不同分辨率的表征信息。

4.如权利要求1所述的基于注意力多分辨率网络的人体姿态估计方法，其特征在于，网络主体部分采用并联结构的主干网络，主干网络采用残差模块。

5.如权利要求1所述的基于注意力多分辨率网络的人体姿态估计方法，其特征在于，使用通道注意力机制进行不同分辨率支路特征加权融合的过程为：通道注意力机制将网络主体部分的各个分辨率支路对齐后的中间特征图作为输入，分别对中间特征图进行平均池化和最大值池化，获得两个不同的空间上下文描述子，将描述子送入多层感知器中，得到两个通道注意力图，将两个通道注意力图进行对应元素相加后使用sigmoid函数激活，得到最终的通道注意力图，将最终的通道注意力图与中间特征图进行对应元素相乘，实现对不同分辨率支路特征的加权，最后使用卷积融合不同分辨率支路特征，获得融合特征。

6.如权利要求1所述的基于注意力多分辨率网络的人体姿态估计方法，其特征在于，注意力多分辨率网络模型的训练过程为：

获取原始图像；

对原始图像进行预处理；

对预处理后图像进行数据增强；

7.如权利要求1所述的基于注意力多分辨率网络的人体姿态估计方法，其特征在于，注意力多分辨率网络模型训练时，使用权重衰减和批标准化避免过拟合，损失函数使用均方误差L2 Loss。

8.一种基于注意力多分辨率网络的人体姿态估计系统，其特征在于，包括：

图像获取模块，用于获取待识别的目标图像；

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的一种方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的一种方法的步骤。