CN111860216A - 一种结合注意力机制和部分亲和域场的人体姿态估计方法 - Google Patents
一种结合注意力机制和部分亲和域场的人体姿态估计方法 Download PDFInfo
- Publication number
- CN111860216A CN111860216A CN202010614346.6A CN202010614346A CN111860216A CN 111860216 A CN111860216 A CN 111860216A CN 202010614346 A CN202010614346 A CN 202010614346A CN 111860216 A CN111860216 A CN 111860216A
- Authority
- CN
- China
- Prior art keywords
- human body
- affinity domain
- attention
- posture estimation
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种结合注意力机制和部分亲和域场的人体姿态估计方法,首先获取人体姿态估计的公用数据集;将公用数据集中的待测图像输入到沙漏堆栈网络,通过多语境注意力模型得到人体全局注意力图;将人体全局注意力图输入到多阶段双分支网络;采用损失函数引导多阶段双分支网络对人体全局注意力图进行预测并迭代,直至多阶段双分支网络收敛,获得人体局部注意力图和部分亲和域场;最后,对人体局部注意力图和部分亲和域场进行聚类,得到待测图像中人体姿态估计结果。本发明一种结合注意力机制和部分亲和域场的人体姿态估计方法,解决了现有技术中存在的人体姿态估计方法对复杂连续姿态的鲁棒性较差的问题。
Description
技术领域
本发明属于人工智能技术领域,具体涉及一种结合注意力机制和部分亲和域场的人体姿态估计方法。
背景技术
据统计国内的摄像头个数在2017年已经达到1.76亿个,预计2020年全国摄像头个数将达6.26亿个,但是单纯通过人工来对这些摄像头所拍摄的内容进行分析是不可靠且不现实的。随着图像识别领域的深度学习算法的发展,使得通过摄像头来进行人体跟踪、行人重识别和行为识别等技术成为可能。其中人体姿态估计正是这些技术的基础环节。人体姿态估计(Human Pose Estimation),是以人体骨骼关节点为研究对象,通过检测关节点的位置信息估计关节点之间的联系进而重构人体肢干。人体姿态估计是完成人体行为识别、姿态跟踪和进行人机交互等高级任务的基础环节,其相关研究受到广泛关注。
传统的人体姿态估计方法依赖于人工标注特征,将姿态估计问题看作回归问题,直接回归出关节点的坐标,估计精度不高。其主要缺点主要有:(1)局限于站立、静坐等单帧简单姿态,对摔倒、弯腰等复杂连续姿态的鲁棒性较差;(2)所使用的回归模型可扩展性较差,很难适应人体图像的多尺度变化。
发明内容
本发明的目的是提供一种结合注意力机制和部分亲和域场的人体姿态估计方法,解决了现有技术中存在的人体姿态估计方法对复杂连续姿态的鲁棒性较差的问题。
本发明所采用的技术方案是,一种结合注意力机制和部分亲和域场的人体姿态估计方法,具体按照以下步骤实施:
步骤1,获取人体姿态估计的公用数据集;
步骤2,将公用数据集中的待测图像输入到沙漏堆栈网络,通过多语境注意力模型得到人体全局注意力图;
步骤3,将人体全局注意力图输入到多阶段双分支网络;
步骤4,采用损失函数引导多阶段双分支网络对人体全局注意力图进行预测并迭代,直至多阶段双分支网络收敛,获得人体局部注意力图和部分亲和域场;
步骤5,对人体局部注意力图和部分亲和域场进行聚类,得到待测图像中人体姿态估计结果。
本发明的特点还在于:
步骤1中,公用数据集为MSCOCO数据集、MPII数据集或LSP数据集。
步骤4中,多阶段双分支网络包括第一网络分支和第二网络分支,多阶段包括第一阶段和第二阶段;
第一阶段是通过沙漏堆栈网络将待测图像中人体区域与背景分离开来,单独提取出待测图像中的人体区域;第二阶段是分别通过第一网络分支和第二网络分支对人体区域进行预测;
第一网络分支预测人体区域中的人体关节点,获得人体局部注意力图;第二网络分支预测人体区域中的人体躯干,获得部分亲和域场。
步骤4中,损失函数具体表述为:
损失函数中,
本发明的有益效果是:
本发明一种结合注意力机制和部分亲和域场的人体姿态估计方法,注意力机制利用全局注意力图来区分待识别图像的背景区域与人体区域,提高复杂连续姿态的鲁棒性,解决了人体与背景相互混淆使得错误估计的问题;本发明一种结合注意力机制和部分亲和域场的人体姿态估计方法,在不考虑背景的情况下,基于人体区域来进行人体关节点的检测,通过部分亲和域场将检测的人体关节点正确匹配,以进行准确地人体姿态估计,解决了图像中多个人体关节点错误匹配的问题。
附图说明
图1是本发明一种结合注意力机制和部分亲和域场的人体姿态估计方法的流程图;
图2是人体姿态骨架的示意图。
图2(a)是正确人体姿态骨架的示意图
图2(b)是错误人体姿态骨架的示意图
图中,1.卷积操作,2.上采样操作,3.堆积的沙漏,4.四种不同分辨率的注意力特征图,5.注意力特征图,6.注意力图,7.人体全局注意力图,8.损失。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
如图1所示,本发明一种结合注意力机制和部分亲和域场的人体姿态估计方法具体按照以下步骤实施:
步骤1,获取人体姿态估计的公用数据集;
其中,公用数据集为MSCOCO数据集、MPII数据集或LSP数据集;本发明采用MPII数据集,MPII数据集的详细信息如表1所示;
表1、MPII数据集信息
步骤2,将公用数据集中的待测图像输入到沙漏堆栈网络,通过多语境注意力模型得到人体全局注意力图;
具体为,沙漏堆栈网络为四层,四层沙漏堆栈网络将输入的待测图像分为四种不同分辨率图像,分别进行卷积操作(1)和上采样操作(2),以得到四种不同分辨率的注意力特征图(4),其中高分辨率的注意力特征图用于捕捉人体局部信息,低分辨率的注意力特征图用于捕捉人体全局信息,然后将四种不同分辨率的注意力特征图(4)融合成一张总的注意力特征图(5),以达到兼顾不同语义信息的目的。最后,通过兼顾不同语义信息的注意力特征图(5)经过卷积得到人体注意力图(6),进而通过损失(8)引导以得到人体全局注意力图(7);
步骤3,将人体全局注意力图输入到多阶段双分支网络;
步骤4,采用损失函数引导多阶段双分支网络对人体全局注意力图进行预测并迭代,直至多阶段双分支网络收敛,获得人体局部注意力图和部分亲和域场;
其中,多阶段双分支网络包括第一网络分支和第二网络分支,多阶段包括第一阶段和第二阶段;
第一阶段是通过沙漏堆栈网络将待测图像中人体区域与背景分离开来,单独提取出待测图像中的人体区域;第二阶段是分别通过第一网络分支和第二网络分支对人体区域进行预测;
第一网络分支预测人体区域中的人体关节点,获得人体局部注意力图;第二网络分支预测人体区域中的人体躯干,获得部分亲和域场;
损失函数具体表述为:
损失函数中,
通过部分亲和域场将人体关节点连接起来,形成人体姿态骨架;由躯干判断公式E来判断检测的人体关节点是否相连。
式(4)中,Lc(p(u))为部分亲和域场;p(u)为不同人体关节之间连线上的任意一点;dj1,dj2分别是两个不同人体关节点的位置(比如膝盖与踝关节坐标);
图2(a)为人体关节点之间正确连接时的人体姿态骨架示意图,图2(b)为人体关节点之间错误连接时的人体姿态骨架示意图;
步骤5,对人体局部注意力图和部分亲和域场进行聚类,得到待测图像中人体姿态估计结果;
具体地,由于两个相互连接的躯干之间肯定共享一个人体关节点,比如小臂和大臂之间共享一个肘关节,因此通过人体关节点将所有躯干进行连接后就可以得到待测图像中各个人体的姿态估计结果。
Claims (5)
1.一种结合注意力机制和部分亲和域场的人体姿态估计方法,其特征在于,具体按照以下步骤实施:
步骤1,获取人体姿态估计的公用数据集;
步骤2,将公用数据集中的待测图像输入到沙漏堆栈网络,通过多语境注意力模型得到人体全局注意力图;
步骤3,将所述人体全局注意力图输入到多阶段双分支网络;
步骤4,采用损失函数引导所述多阶段双分支网络对人体全局注意力图进行预测并迭代,直至多阶段双分支网络收敛,获得人体局部注意力图和部分亲和域场;
步骤5,对所述人体局部注意力图和部分亲和域场进行聚类,得到待测图像中人体姿态估计结果。
2.根据权利要求1所述的一种结合注意力机制和部分亲和域场的人体姿态估计方法,其特征在于,步骤1中,所述公用数据集为MSCOCO数据集、MPII数据集或LSP数据集。
3.根据权利要求1所述的一种结合注意力机制和部分亲和域场的人体姿态估计方法,其特征在于,步骤4中,所述多阶段双分支网络包括第一网络分支和第二网络分支,所述多阶段包括第一阶段和第二阶段;
所述第一阶段是通过沙漏堆栈网络将待测图像中人体区域与背景分离开来,单独提取出待测图像中的人体区域;所述第二阶段是分别通过第一网络分支和第二网络分支对所述人体区域进行预测;
所述第一网络分支预测人体区域中的人体关节点,获得人体局部注意力图;所述第二网络分支预测人体区域中的人体躯干,获得部分亲和域场。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010614346.6A CN111860216A (zh) | 2020-06-30 | 2020-06-30 | 一种结合注意力机制和部分亲和域场的人体姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010614346.6A CN111860216A (zh) | 2020-06-30 | 2020-06-30 | 一种结合注意力机制和部分亲和域场的人体姿态估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111860216A true CN111860216A (zh) | 2020-10-30 |
Family
ID=72989099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010614346.6A Pending CN111860216A (zh) | 2020-06-30 | 2020-06-30 | 一种结合注意力机制和部分亲和域场的人体姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860216A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417991A (zh) * | 2020-11-02 | 2021-02-26 | 武汉大学 | 基于沙漏胶囊网络的双注意力人脸对齐方法 |
CN112668579A (zh) * | 2020-12-24 | 2021-04-16 | 西安电子科技大学 | 基于自适应亲和力和类别分配的弱监督语义分割方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110084138A (zh) * | 2019-04-04 | 2019-08-02 | 高新兴科技集团股份有限公司 | 一种2d多人姿态估计方法 |
CN111062245A (zh) * | 2019-10-31 | 2020-04-24 | 北京交通大学 | 一种基于上身姿态的机车司机疲劳状态监测方法 |
CN111160162A (zh) * | 2019-12-18 | 2020-05-15 | 江苏比特达信息技术有限公司 | 一种级联的驾驶员人体姿态估计方法 |
CN111310625A (zh) * | 2020-02-06 | 2020-06-19 | 上海智幻软件科技有限公司 | 一种基于openpose的多人姿势检测的方法及系统 |
CN111339903A (zh) * | 2020-02-21 | 2020-06-26 | 河北工业大学 | 一种多人人体姿态估计方法 |
-
2020
- 2020-06-30 CN CN202010614346.6A patent/CN111860216A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110084138A (zh) * | 2019-04-04 | 2019-08-02 | 高新兴科技集团股份有限公司 | 一种2d多人姿态估计方法 |
CN111062245A (zh) * | 2019-10-31 | 2020-04-24 | 北京交通大学 | 一种基于上身姿态的机车司机疲劳状态监测方法 |
CN111160162A (zh) * | 2019-12-18 | 2020-05-15 | 江苏比特达信息技术有限公司 | 一种级联的驾驶员人体姿态估计方法 |
CN111310625A (zh) * | 2020-02-06 | 2020-06-19 | 上海智幻软件科技有限公司 | 一种基于openpose的多人姿势检测的方法及系统 |
CN111339903A (zh) * | 2020-02-21 | 2020-06-26 | 河北工业大学 | 一种多人人体姿态估计方法 |
Non-Patent Citations (3)
Title |
---|
"基于深度学习的人体姿态估计方法综述", 《激光与光电子学进展》, pages 1 - 27 * |
CAO ZHE等: "Realtime multi-person 2d pose estimation using part affinity fields", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, pages 2 - 3 * |
CHU XIAO等: "Multi-context attention for human pose estimation", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, pages 6 - 7 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417991A (zh) * | 2020-11-02 | 2021-02-26 | 武汉大学 | 基于沙漏胶囊网络的双注意力人脸对齐方法 |
CN112417991B (zh) * | 2020-11-02 | 2022-04-29 | 武汉大学 | 基于沙漏胶囊网络的双注意力人脸对齐方法 |
CN112668579A (zh) * | 2020-12-24 | 2021-04-16 | 西安电子科技大学 | 基于自适应亲和力和类别分配的弱监督语义分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017133009A1 (zh) | 一种基于卷积神经网络的深度图像人体关节定位方法 | |
CN109376571B (zh) | 基于变形卷积的人体姿态估计方法 | |
CN108052896B (zh) | 基于卷积神经网络与支持向量机的人体行为识别方法 | |
CN111950412B (zh) | 一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法 | |
Fang et al. | Visual SLAM for robot navigation in healthcare facility | |
CN107767419A (zh) | 一种人体骨骼关键点检测方法及装置 | |
Wang et al. | Learning actionlet ensemble for 3D human action recognition | |
Anguelov et al. | The correlated correspondence algorithm for unsupervised registration of nonrigid surfaces | |
CN110222653A (zh) | 一种基于图卷积神经网络的骨架数据行为识别方法 | |
CN108664885B (zh) | 基于多尺度级联HourGlass网络的人体关键点检测方法 | |
CN111199207B (zh) | 基于深度残差神经网络的二维多人体姿态估计方法 | |
CN111274909B (zh) | 一种基于深度学习的人体点云骨架提取方法 | |
CN112232106B (zh) | 一种二维到三维人体姿态估计方法 | |
CN111860216A (zh) | 一种结合注意力机制和部分亲和域场的人体姿态估计方法 | |
CN113076891B (zh) | 基于改进高分辨率网络的人体姿态预测方法及系统 | |
CN110738650B (zh) | 一种传染病感染识别方法、终端设备及存储介质 | |
Banzi et al. | Learning a deep predictive coding network for a semi-supervised 3D-hand pose estimation | |
CN111507184B (zh) | 基于并联空洞卷积和身体结构约束的人体姿态检测方法 | |
CN114724247B (zh) | 面向特定场景下基于语义认知的姿态估计方法及系统 | |
CN113838092A (zh) | 一种行人跟踪方法及系统 | |
CN113191243A (zh) | 基于相机距离的人手三维姿态估计模型建立方法及其应用 | |
Gattone et al. | A shape distance based on the Fisher–Rao metric and its application for shapes clustering | |
Nguyen et al. | Combined YOLOv5 and HRNet for high accuracy 2D keypoint and human pose estimation | |
Yu et al. | Long-range correlation supervision for land-cover classification from remote sensing images | |
CN114155556A (zh) | 一种基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |