CN111860216A - 一种结合注意力机制和部分亲和域场的人体姿态估计方法 - Google Patents

一种结合注意力机制和部分亲和域场的人体姿态估计方法 Download PDF

Info

Publication number
CN111860216A
CN111860216A CN202010614346.6A CN202010614346A CN111860216A CN 111860216 A CN111860216 A CN 111860216A CN 202010614346 A CN202010614346 A CN 202010614346A CN 111860216 A CN111860216 A CN 111860216A
Authority
CN
China
Prior art keywords
human body
affinity domain
attention
posture estimation
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010614346.6A
Other languages
English (en)
Inventor
卢健
杨腾飞
周嫣然
罗毛欣
李哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Polytechnic University
Original Assignee
Xian Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Polytechnic University filed Critical Xian Polytechnic University
Priority to CN202010614346.6A priority Critical patent/CN111860216A/zh
Publication of CN111860216A publication Critical patent/CN111860216A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种结合注意力机制和部分亲和域场的人体姿态估计方法,首先获取人体姿态估计的公用数据集;将公用数据集中的待测图像输入到沙漏堆栈网络,通过多语境注意力模型得到人体全局注意力图;将人体全局注意力图输入到多阶段双分支网络;采用损失函数引导多阶段双分支网络对人体全局注意力图进行预测并迭代,直至多阶段双分支网络收敛,获得人体局部注意力图和部分亲和域场;最后,对人体局部注意力图和部分亲和域场进行聚类,得到待测图像中人体姿态估计结果。本发明一种结合注意力机制和部分亲和域场的人体姿态估计方法,解决了现有技术中存在的人体姿态估计方法对复杂连续姿态的鲁棒性较差的问题。

Description

一种结合注意力机制和部分亲和域场的人体姿态估计方法
技术领域
本发明属于人工智能技术领域,具体涉及一种结合注意力机制和部分亲和域场的人体姿态估计方法。
背景技术
据统计国内的摄像头个数在2017年已经达到1.76亿个,预计2020年全国摄像头个数将达6.26亿个,但是单纯通过人工来对这些摄像头所拍摄的内容进行分析是不可靠且不现实的。随着图像识别领域的深度学习算法的发展,使得通过摄像头来进行人体跟踪、行人重识别和行为识别等技术成为可能。其中人体姿态估计正是这些技术的基础环节。人体姿态估计(Human Pose Estimation),是以人体骨骼关节点为研究对象,通过检测关节点的位置信息估计关节点之间的联系进而重构人体肢干。人体姿态估计是完成人体行为识别、姿态跟踪和进行人机交互等高级任务的基础环节,其相关研究受到广泛关注。
传统的人体姿态估计方法依赖于人工标注特征,将姿态估计问题看作回归问题,直接回归出关节点的坐标,估计精度不高。其主要缺点主要有:(1)局限于站立、静坐等单帧简单姿态,对摔倒、弯腰等复杂连续姿态的鲁棒性较差;(2)所使用的回归模型可扩展性较差,很难适应人体图像的多尺度变化。
发明内容
本发明的目的是提供一种结合注意力机制和部分亲和域场的人体姿态估计方法,解决了现有技术中存在的人体姿态估计方法对复杂连续姿态的鲁棒性较差的问题。
本发明所采用的技术方案是,一种结合注意力机制和部分亲和域场的人体姿态估计方法,具体按照以下步骤实施:
步骤1,获取人体姿态估计的公用数据集;
步骤2,将公用数据集中的待测图像输入到沙漏堆栈网络,通过多语境注意力模型得到人体全局注意力图;
步骤3,将人体全局注意力图输入到多阶段双分支网络;
步骤4,采用损失函数引导多阶段双分支网络对人体全局注意力图进行预测并迭代,直至多阶段双分支网络收敛,获得人体局部注意力图和部分亲和域场;
步骤5,对人体局部注意力图和部分亲和域场进行聚类,得到待测图像中人体姿态估计结果。
本发明的特点还在于:
步骤1中,公用数据集为MSCOCO数据集、MPII数据集或LSP数据集。
步骤4中,多阶段双分支网络包括第一网络分支和第二网络分支,多阶段包括第一阶段和第二阶段;
第一阶段是通过沙漏堆栈网络将待测图像中人体区域与背景分离开来,单独提取出待测图像中的人体区域;第二阶段是分别通过第一网络分支和第二网络分支对人体区域进行预测;
第一网络分支预测人体区域中的人体关节点,获得人体局部注意力图;第二网络分支预测人体区域中的人体躯干,获得部分亲和域场。
步骤4中,损失函数具体表述为:
Figure BDA0002563240910000031
式(1)中,
Figure BDA0002563240910000032
为局部置信度的误差情况;
Figure BDA0002563240910000033
为部分亲和域场的误差情况。
损失函数中,
Figure BDA0002563240910000034
式(2)中,
Figure BDA0002563240910000035
为局部置信度真值;p为待测图像中的像素;
Figure BDA0002563240910000036
为在t阶段预测的局部置信度值;j∈(1.,.,.,J),J为局部注意力图的总数;W(p)为像素p缺少注释时的二进制掩码;
Figure BDA0002563240910000037
式(3)中,
Figure BDA0002563240910000038
为部分亲和域真值;
Figure BDA0002563240910000039
为在t阶段预测的部分亲和域;c∈(1,.,.,.,C),C为亲和域场总数。
本发明的有益效果是:
本发明一种结合注意力机制和部分亲和域场的人体姿态估计方法,注意力机制利用全局注意力图来区分待识别图像的背景区域与人体区域,提高复杂连续姿态的鲁棒性,解决了人体与背景相互混淆使得错误估计的问题;本发明一种结合注意力机制和部分亲和域场的人体姿态估计方法,在不考虑背景的情况下,基于人体区域来进行人体关节点的检测,通过部分亲和域场将检测的人体关节点正确匹配,以进行准确地人体姿态估计,解决了图像中多个人体关节点错误匹配的问题。
附图说明
图1是本发明一种结合注意力机制和部分亲和域场的人体姿态估计方法的流程图;
图2是人体姿态骨架的示意图。
图2(a)是正确人体姿态骨架的示意图
图2(b)是错误人体姿态骨架的示意图
图中,1.卷积操作,2.上采样操作,3.堆积的沙漏,4.四种不同分辨率的注意力特征图,5.注意力特征图,6.注意力图,7.人体全局注意力图,8.损失。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
如图1所示,本发明一种结合注意力机制和部分亲和域场的人体姿态估计方法具体按照以下步骤实施:
步骤1,获取人体姿态估计的公用数据集;
其中,公用数据集为MSCOCO数据集、MPII数据集或LSP数据集;本发明采用MPII数据集,MPII数据集的详细信息如表1所示;
表1、MPII数据集信息
Figure BDA0002563240910000051
步骤2,将公用数据集中的待测图像输入到沙漏堆栈网络,通过多语境注意力模型得到人体全局注意力图;
具体为,沙漏堆栈网络为四层,四层沙漏堆栈网络将输入的待测图像分为四种不同分辨率图像,分别进行卷积操作(1)和上采样操作(2),以得到四种不同分辨率的注意力特征图(4),其中高分辨率的注意力特征图用于捕捉人体局部信息,低分辨率的注意力特征图用于捕捉人体全局信息,然后将四种不同分辨率的注意力特征图(4)融合成一张总的注意力特征图(5),以达到兼顾不同语义信息的目的。最后,通过兼顾不同语义信息的注意力特征图(5)经过卷积得到人体注意力图(6),进而通过损失(8)引导以得到人体全局注意力图(7);
步骤3,将人体全局注意力图输入到多阶段双分支网络;
步骤4,采用损失函数引导多阶段双分支网络对人体全局注意力图进行预测并迭代,直至多阶段双分支网络收敛,获得人体局部注意力图和部分亲和域场;
其中,多阶段双分支网络包括第一网络分支和第二网络分支,多阶段包括第一阶段和第二阶段;
第一阶段是通过沙漏堆栈网络将待测图像中人体区域与背景分离开来,单独提取出待测图像中的人体区域;第二阶段是分别通过第一网络分支和第二网络分支对人体区域进行预测;
第一网络分支预测人体区域中的人体关节点,获得人体局部注意力图;第二网络分支预测人体区域中的人体躯干,获得部分亲和域场;
损失函数具体表述为:
Figure BDA0002563240910000061
式(1)中,
Figure BDA0002563240910000062
为局部置信度的误差情况;
Figure BDA0002563240910000063
为部分亲和域场的误差情况。
损失函数中,
Figure BDA0002563240910000064
式(2)中,
Figure BDA0002563240910000065
为局部置信度真值;p为待测图像中的像素;
Figure BDA0002563240910000066
为在t阶段预测的局部置信度值;j∈(1.,.,.,J),J为局部注意力图的总数;W(p)为像素p缺少注释时的二进制掩码;
Figure BDA0002563240910000067
式(3)中,
Figure BDA0002563240910000068
为部分亲和域真值;
Figure BDA0002563240910000069
为在t阶段预测的部分亲和域;c∈(1,.,.,.,C),C为亲和域场总数;
通过部分亲和域场将人体关节点连接起来,形成人体姿态骨架;由躯干判断公式E来判断检测的人体关节点是否相连。
Figure BDA0002563240910000071
式(4)中,Lc(p(u))为部分亲和域场;p(u)为不同人体关节之间连线上的任意一点;dj1,dj2分别是两个不同人体关节点的位置(比如膝盖与踝关节坐标);
Figure BDA0002563240910000072
与Lc(p(u))的方向一致,E值就会很大,则说明人体关节点相连,否则,不相连;
图2(a)为人体关节点之间正确连接时的人体姿态骨架示意图,图2(b)为人体关节点之间错误连接时的人体姿态骨架示意图;
步骤5,对人体局部注意力图和部分亲和域场进行聚类,得到待测图像中人体姿态估计结果;
具体地,由于两个相互连接的躯干之间肯定共享一个人体关节点,比如小臂和大臂之间共享一个肘关节,因此通过人体关节点将所有躯干进行连接后就可以得到待测图像中各个人体的姿态估计结果。

Claims (5)

1.一种结合注意力机制和部分亲和域场的人体姿态估计方法,其特征在于,具体按照以下步骤实施:
步骤1,获取人体姿态估计的公用数据集;
步骤2,将公用数据集中的待测图像输入到沙漏堆栈网络,通过多语境注意力模型得到人体全局注意力图;
步骤3,将所述人体全局注意力图输入到多阶段双分支网络;
步骤4,采用损失函数引导所述多阶段双分支网络对人体全局注意力图进行预测并迭代,直至多阶段双分支网络收敛,获得人体局部注意力图和部分亲和域场;
步骤5,对所述人体局部注意力图和部分亲和域场进行聚类,得到待测图像中人体姿态估计结果。
2.根据权利要求1所述的一种结合注意力机制和部分亲和域场的人体姿态估计方法,其特征在于,步骤1中,所述公用数据集为MSCOCO数据集、MPII数据集或LSP数据集。
3.根据权利要求1所述的一种结合注意力机制和部分亲和域场的人体姿态估计方法,其特征在于,步骤4中,所述多阶段双分支网络包括第一网络分支和第二网络分支,所述多阶段包括第一阶段和第二阶段;
所述第一阶段是通过沙漏堆栈网络将待测图像中人体区域与背景分离开来,单独提取出待测图像中的人体区域;所述第二阶段是分别通过第一网络分支和第二网络分支对所述人体区域进行预测;
所述第一网络分支预测人体区域中的人体关节点,获得人体局部注意力图;所述第二网络分支预测人体区域中的人体躯干,获得部分亲和域场。
4.根据权利要求1所述的一种结合注意力机制和部分亲和域场的人体姿态估计方法,其特征在于,步骤4中,所述损失函数具体表述为:
Figure FDA0002563240900000021
式(1)中,
Figure FDA0002563240900000022
为局部置信度的误差情况;
Figure FDA0002563240900000023
为部分亲和域场的误差情况。
5.根据权利要求4所述的一种结合注意力机制和部分亲和域场的人体姿态估计方法,其特征在于,所述损失函数中,
Figure FDA0002563240900000024
式(2)中,
Figure FDA0002563240900000025
为局部置信度真值;p为待测图像中的像素;
Figure FDA0002563240900000026
为在t阶段预测的局部置信度值;j∈(1.,.,.,J),J为局部注意力图的总数;W(p)为像素p缺少注释时的二进制掩码;
Figure FDA0002563240900000027
式(3)中,
Figure FDA0002563240900000028
为部分亲和域真值;
Figure FDA0002563240900000029
为在t阶段预测的部分亲和域;c∈(1,.,.,.,C),C为亲和域场总数。
CN202010614346.6A 2020-06-30 2020-06-30 一种结合注意力机制和部分亲和域场的人体姿态估计方法 Pending CN111860216A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010614346.6A CN111860216A (zh) 2020-06-30 2020-06-30 一种结合注意力机制和部分亲和域场的人体姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010614346.6A CN111860216A (zh) 2020-06-30 2020-06-30 一种结合注意力机制和部分亲和域场的人体姿态估计方法

Publications (1)

Publication Number Publication Date
CN111860216A true CN111860216A (zh) 2020-10-30

Family

ID=72989099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010614346.6A Pending CN111860216A (zh) 2020-06-30 2020-06-30 一种结合注意力机制和部分亲和域场的人体姿态估计方法

Country Status (1)

Country Link
CN (1) CN111860216A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417991A (zh) * 2020-11-02 2021-02-26 武汉大学 基于沙漏胶囊网络的双注意力人脸对齐方法
CN112668579A (zh) * 2020-12-24 2021-04-16 西安电子科技大学 基于自适应亲和力和类别分配的弱监督语义分割方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084138A (zh) * 2019-04-04 2019-08-02 高新兴科技集团股份有限公司 一种2d多人姿态估计方法
CN111062245A (zh) * 2019-10-31 2020-04-24 北京交通大学 一种基于上身姿态的机车司机疲劳状态监测方法
CN111160162A (zh) * 2019-12-18 2020-05-15 江苏比特达信息技术有限公司 一种级联的驾驶员人体姿态估计方法
CN111310625A (zh) * 2020-02-06 2020-06-19 上海智幻软件科技有限公司 一种基于openpose的多人姿势检测的方法及系统
CN111339903A (zh) * 2020-02-21 2020-06-26 河北工业大学 一种多人人体姿态估计方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084138A (zh) * 2019-04-04 2019-08-02 高新兴科技集团股份有限公司 一种2d多人姿态估计方法
CN111062245A (zh) * 2019-10-31 2020-04-24 北京交通大学 一种基于上身姿态的机车司机疲劳状态监测方法
CN111160162A (zh) * 2019-12-18 2020-05-15 江苏比特达信息技术有限公司 一种级联的驾驶员人体姿态估计方法
CN111310625A (zh) * 2020-02-06 2020-06-19 上海智幻软件科技有限公司 一种基于openpose的多人姿势检测的方法及系统
CN111339903A (zh) * 2020-02-21 2020-06-26 河北工业大学 一种多人人体姿态估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"基于深度学习的人体姿态估计方法综述", 《激光与光电子学进展》, pages 1 - 27 *
CAO ZHE等: "Realtime multi-person 2d pose estimation using part affinity fields", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, pages 2 - 3 *
CHU XIAO等: "Multi-context attention for human pose estimation", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, pages 6 - 7 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417991A (zh) * 2020-11-02 2021-02-26 武汉大学 基于沙漏胶囊网络的双注意力人脸对齐方法
CN112417991B (zh) * 2020-11-02 2022-04-29 武汉大学 基于沙漏胶囊网络的双注意力人脸对齐方法
CN112668579A (zh) * 2020-12-24 2021-04-16 西安电子科技大学 基于自适应亲和力和类别分配的弱监督语义分割方法

Similar Documents

Publication Publication Date Title
WO2017133009A1 (zh) 一种基于卷积神经网络的深度图像人体关节定位方法
CN109376571B (zh) 基于变形卷积的人体姿态估计方法
CN108052896B (zh) 基于卷积神经网络与支持向量机的人体行为识别方法
CN111950412B (zh) 一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法
Fang et al. Visual SLAM for robot navigation in healthcare facility
CN107767419A (zh) 一种人体骨骼关键点检测方法及装置
Wang et al. Learning actionlet ensemble for 3D human action recognition
Anguelov et al. The correlated correspondence algorithm for unsupervised registration of nonrigid surfaces
CN110222653A (zh) 一种基于图卷积神经网络的骨架数据行为识别方法
CN108664885B (zh) 基于多尺度级联HourGlass网络的人体关键点检测方法
CN111199207B (zh) 基于深度残差神经网络的二维多人体姿态估计方法
CN111274909B (zh) 一种基于深度学习的人体点云骨架提取方法
CN112232106B (zh) 一种二维到三维人体姿态估计方法
CN111860216A (zh) 一种结合注意力机制和部分亲和域场的人体姿态估计方法
CN113076891B (zh) 基于改进高分辨率网络的人体姿态预测方法及系统
CN110738650B (zh) 一种传染病感染识别方法、终端设备及存储介质
Banzi et al. Learning a deep predictive coding network for a semi-supervised 3D-hand pose estimation
CN111507184B (zh) 基于并联空洞卷积和身体结构约束的人体姿态检测方法
CN114724247B (zh) 面向特定场景下基于语义认知的姿态估计方法及系统
CN113838092A (zh) 一种行人跟踪方法及系统
CN113191243A (zh) 基于相机距离的人手三维姿态估计模型建立方法及其应用
Gattone et al. A shape distance based on the Fisher–Rao metric and its application for shapes clustering
Nguyen et al. Combined YOLOv5 and HRNet for high accuracy 2D keypoint and human pose estimation
Yu et al. Long-range correlation supervision for land-cover classification from remote sensing images
CN114155556A (zh) 一种基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination