CN111860216A

CN111860216A - 一种结合注意力机制和部分亲和域场的人体姿态估计方法

Info

Publication number: CN111860216A
Application number: CN202010614346.6A
Authority: CN
Inventors: 卢健; 杨腾飞; 周嫣然; 罗毛欣; 李哲
Original assignee: Xian Polytechnic University
Current assignee: Xian Polytechnic University
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-30

Abstract

本发明公开了一种结合注意力机制和部分亲和域场的人体姿态估计方法，首先获取人体姿态估计的公用数据集；将公用数据集中的待测图像输入到沙漏堆栈网络，通过多语境注意力模型得到人体全局注意力图；将人体全局注意力图输入到多阶段双分支网络；采用损失函数引导多阶段双分支网络对人体全局注意力图进行预测并迭代，直至多阶段双分支网络收敛，获得人体局部注意力图和部分亲和域场；最后，对人体局部注意力图和部分亲和域场进行聚类，得到待测图像中人体姿态估计结果。本发明一种结合注意力机制和部分亲和域场的人体姿态估计方法，解决了现有技术中存在的人体姿态估计方法对复杂连续姿态的鲁棒性较差的问题。

Description

一种结合注意力机制和部分亲和域场的人体姿态估计方法

技术领域

本发明属于人工智能技术领域，具体涉及一种结合注意力机制和部分亲和域场的人体姿态估计方法。

背景技术

据统计国内的摄像头个数在2017年已经达到1.76亿个，预计2020年全国摄像头个数将达6.26亿个，但是单纯通过人工来对这些摄像头所拍摄的内容进行分析是不可靠且不现实的。随着图像识别领域的深度学习算法的发展，使得通过摄像头来进行人体跟踪、行人重识别和行为识别等技术成为可能。其中人体姿态估计正是这些技术的基础环节。人体姿态估计(Human Pose Estimation)，是以人体骨骼关节点为研究对象，通过检测关节点的位置信息估计关节点之间的联系进而重构人体肢干。人体姿态估计是完成人体行为识别、姿态跟踪和进行人机交互等高级任务的基础环节，其相关研究受到广泛关注。

传统的人体姿态估计方法依赖于人工标注特征，将姿态估计问题看作回归问题，直接回归出关节点的坐标，估计精度不高。其主要缺点主要有：(1)局限于站立、静坐等单帧简单姿态，对摔倒、弯腰等复杂连续姿态的鲁棒性较差；(2)所使用的回归模型可扩展性较差，很难适应人体图像的多尺度变化。

发明内容

本发明的目的是提供一种结合注意力机制和部分亲和域场的人体姿态估计方法，解决了现有技术中存在的人体姿态估计方法对复杂连续姿态的鲁棒性较差的问题。

本发明所采用的技术方案是，一种结合注意力机制和部分亲和域场的人体姿态估计方法，具体按照以下步骤实施：

步骤1，获取人体姿态估计的公用数据集；

步骤2，将公用数据集中的待测图像输入到沙漏堆栈网络，通过多语境注意力模型得到人体全局注意力图；

步骤3，将人体全局注意力图输入到多阶段双分支网络；

步骤4，采用损失函数引导多阶段双分支网络对人体全局注意力图进行预测并迭代，直至多阶段双分支网络收敛，获得人体局部注意力图和部分亲和域场；

步骤5，对人体局部注意力图和部分亲和域场进行聚类，得到待测图像中人体姿态估计结果。

本发明的特点还在于：

步骤1中，公用数据集为MSCOCO数据集、MPII数据集或LSP数据集。

步骤4中，多阶段双分支网络包括第一网络分支和第二网络分支，多阶段包括第一阶段和第二阶段；

第一阶段是通过沙漏堆栈网络将待测图像中人体区域与背景分离开来，单独提取出待测图像中的人体区域；第二阶段是分别通过第一网络分支和第二网络分支对人体区域进行预测；

第一网络分支预测人体区域中的人体关节点，获得人体局部注意力图；第二网络分支预测人体区域中的人体躯干，获得部分亲和域场。

步骤4中，损失函数具体表述为：

式(1)中，

为局部置信度的误差情况；

为部分亲和域场的误差情况。

损失函数中，

式(2)中，

为局部置信度真值；p为待测图像中的像素；

为在t阶段预测的局部置信度值；j∈(1.,.,.,J)，J为局部注意力图的总数；W(p)为像素p缺少注释时的二进制掩码；

式(3)中，

为部分亲和域真值；

为在t阶段预测的部分亲和域；c∈(1，.,.,.,C)，C为亲和域场总数。

本发明的有益效果是：

本发明一种结合注意力机制和部分亲和域场的人体姿态估计方法，注意力机制利用全局注意力图来区分待识别图像的背景区域与人体区域，提高复杂连续姿态的鲁棒性，解决了人体与背景相互混淆使得错误估计的问题；本发明一种结合注意力机制和部分亲和域场的人体姿态估计方法，在不考虑背景的情况下，基于人体区域来进行人体关节点的检测，通过部分亲和域场将检测的人体关节点正确匹配，以进行准确地人体姿态估计，解决了图像中多个人体关节点错误匹配的问题。

附图说明

图1是本发明一种结合注意力机制和部分亲和域场的人体姿态估计方法的流程图；

图2是人体姿态骨架的示意图。

图2(a)是正确人体姿态骨架的示意图

图2(b)是错误人体姿态骨架的示意图

图中，1.卷积操作，2.上采样操作，3.堆积的沙漏，4.四种不同分辨率的注意力特征图，5.注意力特征图，6.注意力图，7.人体全局注意力图，8.损失。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

如图1所示，本发明一种结合注意力机制和部分亲和域场的人体姿态估计方法具体按照以下步骤实施：

步骤1，获取人体姿态估计的公用数据集；

其中，公用数据集为MSCOCO数据集、MPII数据集或LSP数据集；本发明采用MPII数据集，MPII数据集的详细信息如表1所示；

表1、MPII数据集信息

具体为，沙漏堆栈网络为四层，四层沙漏堆栈网络将输入的待测图像分为四种不同分辨率图像，分别进行卷积操作(1)和上采样操作(2)，以得到四种不同分辨率的注意力特征图(4)，其中高分辨率的注意力特征图用于捕捉人体局部信息，低分辨率的注意力特征图用于捕捉人体全局信息，然后将四种不同分辨率的注意力特征图(4)融合成一张总的注意力特征图(5)，以达到兼顾不同语义信息的目的。最后，通过兼顾不同语义信息的注意力特征图(5)经过卷积得到人体注意力图(6)，进而通过损失(8)引导以得到人体全局注意力图(7)；

步骤3，将人体全局注意力图输入到多阶段双分支网络；

其中，多阶段双分支网络包括第一网络分支和第二网络分支，多阶段包括第一阶段和第二阶段；

第一网络分支预测人体区域中的人体关节点，获得人体局部注意力图；第二网络分支预测人体区域中的人体躯干，获得部分亲和域场；

损失函数具体表述为：

式(1)中，

为局部置信度的误差情况；

为部分亲和域场的误差情况。

损失函数中，

式(2)中，

为局部置信度真值；p为待测图像中的像素；

式(3)中，

为部分亲和域真值；

为在t阶段预测的部分亲和域；c∈(1，.,.,.,C)，C为亲和域场总数；

通过部分亲和域场将人体关节点连接起来，形成人体姿态骨架；由躯干判断公式E来判断检测的人体关节点是否相连。

式(4)中，L_c(p(u))为部分亲和域场；p(u)为不同人体关节之间连线上的任意一点；d_j1,d_j2分别是两个不同人体关节点的位置(比如膝盖与踝关节坐标)；

若

与L_c(p(u))的方向一致，E值就会很大，则说明人体关节点相连，否则，不相连；

图2(a)为人体关节点之间正确连接时的人体姿态骨架示意图，图2(b)为人体关节点之间错误连接时的人体姿态骨架示意图；

步骤5，对人体局部注意力图和部分亲和域场进行聚类，得到待测图像中人体姿态估计结果；

具体地，由于两个相互连接的躯干之间肯定共享一个人体关节点，比如小臂和大臂之间共享一个肘关节，因此通过人体关节点将所有躯干进行连接后就可以得到待测图像中各个人体的姿态估计结果。