CN113221824A - 基于个体模型生成的人体姿态识别方法 - Google Patents
基于个体模型生成的人体姿态识别方法 Download PDFInfo
- Publication number
- CN113221824A CN113221824A CN202110599861.6A CN202110599861A CN113221824A CN 113221824 A CN113221824 A CN 113221824A CN 202110599861 A CN202110599861 A CN 202110599861A CN 113221824 A CN113221824 A CN 113221824A
- Authority
- CN
- China
- Prior art keywords
- human body
- body region
- visual
- body posture
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于个体模型生成的人体姿态识别方法,首先从待识别图像中获取输入图片,并采用视觉特征提取器通过卷积编码的方式生成输入图片对应的视觉特征;再采用全局语义感知网络通过线性回归的方式从视觉特征中解析得到人体区域特征图;然后采用实例级别的姿态解析模型生成器针对每个人体生成用于解析人体姿态的模型参数图;最后根据人体区域特征图和模型参数图动态解析图像中的人体姿态,得到人体姿态识别结果。本发明针对图像中出现的人体动态地生成对应的估计参数,能够更好地解决现实场景中人体姿态丰富和人体间差异大的问题。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于个体模型生成的人体姿态识别方法的设计。
背景技术
人体姿态估计是计算机视觉中一个基础而又富有挑战性的问题,其目的是从单张RGB图像中,精确地识别出多个人体的位置以及骨架上的稀疏的关键点位置。随着深度卷积神经网络(CNNs)的应用和MSCOCO等大规模数据集的发布,人体姿态估计方法已经取得了较大的发展,它们大致可以分为bottom-up(即自底向上)和top-down(即自顶向下)的方法。对于top-down的方法,首先定位所有人体实例,然后对每个人体实例做姿态估计,方法主要集中在如何设计高效的单人姿态估计方法。而bottom-up方法首先检测出所有的人体关键点,然后将它们分组到不同的人体实例,现有方法主要集中在如何将候选的关节点分组到单个人体实例。相较于需要人体检测的top-down方法,bottom-up的方法通常具有更好的估计效率,且保持相近的估计准确度。
现有的人体姿态估计方法虽然在姿态估计的任务上取得了进展,但仍面临以下缺陷:
(1)top-down方法采用检测器的方式来区分人体,由于这类方法会采用到人体检测模型和人体关键点检测模型这两个模型,会带来巨额的计算代价,不利于现实场景中的应用。
(2)bottom-up方法采用卷积神经网络来生成身份特征进而区分人体,这类方法仅关注像素的表征而缺乏对全图人体数量的感知,每张图像所包含的人体数量不一致。针对人体姿态估计方法应当根据人体数量来生成对应的人体身份特征,而现有的方法没有考虑这个先验。
(3)现有的人体姿态估计方法采用统一的卷积神经网络参数来解析人体,难以应对现实场景中人体姿态丰富和人体间差异大的问题。每个人体实例需要特定的解析参数,而现有的方法忽略了这一点。
发明内容
本发明的目的是为了解决现有人体姿态估计方法存在的上述问题,提出了一种基于个体模型生成的人体姿态识别方法,基于bottom-up的方法进行扩展,依据图像内容动态地生成姿态估计的模型,进而精准地针对图像中的每个人体进行姿态估计。
本发明的技术方案为:基于个体模型生成的人体姿态识别方法,包括以下步骤:
S1、从待识别图像中获取输入图片,并采用视觉特征提取器通过卷积编码的方式生成输入图片对应的视觉特征;
S2、采用全局语义感知网络通过线性回归的方式从视觉特征中解析得到人体区域特征图。
S3、根据视觉特征和人体区域特征图,采用实例级别的姿态解析模型生成器针对每个人体生成用于解析人体姿态的模型参数图。
S4、根据人体区域特征图和模型参数图动态解析图像中的人体姿态,得到人体姿态识别结果。
进一步地,步骤S1包括以下分步骤:
M=FWv
进一步地,步骤S3包括以下分步骤:
进一步地,步骤S31包括以下分步骤:
S312、根据全局特征A估计待识别图像中的人体数量:
其中WI为变换参数。
进一步地,步骤S32包括以下分步骤:
V=Γ(F,E)
其中Γ(·)为特征拼接函数。
Wp=Φ(VWt 1)Wt 2
进一步地,步骤S4包括以下分步骤:
Sij=φ(Li TLj)
其中φ(·)为sigmoid激活函数,用于将相似度映射到[0,1]的范围内,Li和Lj分别表示第i个和第j个人体区域像素点的位置,i=1,2,...,Np;j=1,2,...,Np。
S43、通过阈值过滤的方式将相似度矩阵S中大于0.5的元素置为1,得到Np个初始的人体区域二值图。
S44、计算人体区域二值图中每两个人体区域的交并比:
其中IoUij表示第i个人体区域和第j个人体区域的交并比,Sit表示第i个像素点和第t个像素点之间的相似度,Sjt表示第j个像素点和第t个像素点之间的相似度。
S49、将每个关键点热力图的最大值对应的位置作为关键点的预测值,得到人体姿态识别结果。
进一步地,人体姿态识别方法的学习目标函数为:
L=αlm+βlk+θlo
其中α,β和θ均为超参数,lm,lk,lo均为中间参数且:
本发明的有益效果是:
(1)本发明区别于现有的身份特征生成方式,即仅依赖于视觉特征,所提出的方法则是通过编码视觉信息与图像的人体计数信息来生成对应的身份特征,能够更有效地区分实例。
(2)本发明区别于现有方法采用固定的参数来解析人体姿态的方式,针对图像中出现的人体动态地生成对应的估计参数,能够更好地解决现实场景中人体姿态丰富和人体间差异大的问题。
(3)本发明基于bottom-up的方法进行扩展,依据图像内容动态地生成姿态估计的模型,进而精准地针对图像中的每个人体进行姿态估计,实验表明本发明相比于现有人体姿态估计方法计算代价更小且精确度更高。
附图说明
图1所示为本发明实施例提供的基于个体模型生成的人体姿态识别方法流程图。
图2所示为本发明实施例提供的基于个体模型生成的人体姿态识别方法框架图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
本发明实施例提供了一种基于个体模型生成的人体姿态识别方法,如图1~图2共同所示,包括以下步骤S1~S4:
S1、从待识别图像中获取输入图片,并采用视觉特征提取器通过卷积编码的方式生成输入图片对应的视觉特征;
步骤S1包括以下分步骤S11~S12:
S2、采用全局语义感知网络通过线性回归的方式从视觉特征中解析得到人体区域特征图。
M=FWv
S3、根据视觉特征和人体区域特征图,采用实例级别的姿态解析模型生成器针对每个人体生成用于解析人体姿态的模型参数图。
步骤S2完成了如何确定图像中的人体区域,但本发明的目标是对该区域的每个人体进行姿态识别。基于此,需要针对每个人体的信息来生成对应的姿态解析参数。为了实现动态的人体解析,本发明实施例设计了实例级别的姿态解析模型生成器。
步骤S3包括以下分步骤S31~S32:
本发明实施例中,为了确定每个像素属于图片中的哪个人体,需要得到对应人体的身份特征,因此步骤S31包括以下分步骤S311~S314:
S312、根据全局特征A估计待识别图像中的人体数量:
S313、因为任何图像的人体个数均能通过参数进行解析估计,所以该参数具有很强的实例感知信息,基于此,本发明实施例根据人体区域特征图M上的概率值,通过双线性插值的方式将参数映射回人体区域特征图M,得到初始的实例感知特征
其中WI为变换参数。
步骤S32包括以下分步骤S321~S322:
V=Γ(F,E)
其中Γ(·)为特征拼接函数。
Wp=Φ(VWt 1)Wt 2
S4、根据人体区域特征图和模型参数图动态解析图像中的人体姿态,得到人体姿态识别结果。
步骤S4包括以下分步骤S41~S49:
Sij=φ(Li TLj)
其中φ(·)为sigmoid激活函数,用于将相似度映射到[0,1]的范围内,Li和Lj分别表示第i个和第j个人体区域像素点的位置,i=1,2,...,Np;j=1,2,...,Np。
S43、通过阈值过滤的方式将相似度矩阵S中大于0.5的元素置为1,得到Np个初始的人体区域二值图。
S44、计算人体区域二值图中每两个人体区域的交并比:
其中IoUij表示第i个人体区域和第j个人体区域的交并比,Sit表示第i个像素点和第t个像素点之间的相似度,Sjt表示第j个像素点和第t个像素点之间的相似度。
S49、将每个关键点热力图的最大值对应的位置作为关键点的预测值,得到人体姿态识别结果。
本发明实施例针对人体姿态识别方法设计了合理的学习目标,以使得提出的模型能够对给定的待识别图片进行多人的姿态估计。给定一张图片,本发明方法将输出三种类型的热力图:(1)人体区域特征图M;(2)人体数量估计结果O;(3)关键点热力图H。
具体而言,本发明方法的目标是增强每个人体的关键点热力图H中的目标关键点响应,同时保证人体区域特征图M中所有人体关键点的区域处于激活状态。为了实现这一学习目标,本发明实施例使用均方误差(MSE)作为学习目标,定义如下:
其中MSE(·)表示均方误差函数,表示人体区域特征图的真值,其包含所有人体的目标关键点区域的二值图;表示第i个关键点热力图的真值,其仅包含针对特定人体的关键点的单峰高斯分布,表示人体数量估计结果的真值。
因此,整个模型的学习目标计算如下:
L=αlm+βlk+θlo
其中α,β和θ均为超参数,在训练中均设置为1。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (8)
1.基于个体模型生成的人体姿态识别方法,其特征在于,包括以下步骤:
S1、从待识别图像中获取输入图片,并采用视觉特征提取器通过卷积编码的方式生成输入图片对应的视觉特征;
S2、采用全局语义感知网络通过线性回归的方式从视觉特征中解析得到人体区域特征图;
S3、根据视觉特征和人体区域特征图,采用实例级别的姿态解析模型生成器针对每个人体生成用于解析人体姿态的模型参数图;
S4、根据人体区域特征图和模型参数图动态解析图像中的人体姿态,得到人体姿态识别结果。
7.根据权利要求6所述的人体姿态识别方法,其特征在于,所述步骤S4包括以下分步骤:
Sij=φ(Li TLj)
其中φ(·)为sigmoid激活函数,用于将相似度映射到[0,1]的范围内,Li和Lj分别表示第i个和第j个人体区域像素点的位置,i=1,2,...,Np;j=1,2,...,Np;
S43、通过阈值过滤的方式将相似度矩阵S中大于0.5的元素置为1,得到Np个初始的人体区域二值图;
S44、计算人体区域二值图中每两个人体区域的交并比:
其中IoUij表示第i个人体区域和第j个人体区域的交并比,Sit表示第i个像素点和第t个像素点之间的相似度,Sjt表示第j个像素点和第t个像素点之间的相似度;
S49、将每个关键点热力图的最大值对应的位置作为关键点的预测值,得到人体姿态识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110599861.6A CN113221824B (zh) | 2021-05-31 | 2021-05-31 | 基于个体模型生成的人体姿态识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110599861.6A CN113221824B (zh) | 2021-05-31 | 2021-05-31 | 基于个体模型生成的人体姿态识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221824A true CN113221824A (zh) | 2021-08-06 |
CN113221824B CN113221824B (zh) | 2022-05-24 |
Family
ID=77081709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110599861.6A Active CN113221824B (zh) | 2021-05-31 | 2021-05-31 | 基于个体模型生成的人体姿态识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221824B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114155560A (zh) * | 2022-02-08 | 2022-03-08 | 成都考拉悠然科技有限公司 | 基于空间降维的高分辨率人体姿态估计模型的轻量化方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190188533A1 (en) * | 2017-12-19 | 2019-06-20 | Massachusetts Institute Of Technology | Pose estimation |
CN111738091A (zh) * | 2020-05-27 | 2020-10-02 | 复旦大学 | 一种基于多任务深度学习的姿态估计与人体解析系统 |
CN111898566A (zh) * | 2020-08-04 | 2020-11-06 | 成都井之丽科技有限公司 | 姿态估计方法、装置、电子设备和存储介质 |
CN112347861A (zh) * | 2020-10-16 | 2021-02-09 | 浙江工商大学 | 一种基于运动特征约束的人体姿态估计方法 |
WO2021057810A1 (zh) * | 2019-09-29 | 2021-04-01 | 深圳数字生命研究院 | 数据处理、训练、识别方法、装置和存储介质 |
-
2021
- 2021-05-31 CN CN202110599861.6A patent/CN113221824B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190188533A1 (en) * | 2017-12-19 | 2019-06-20 | Massachusetts Institute Of Technology | Pose estimation |
WO2021057810A1 (zh) * | 2019-09-29 | 2021-04-01 | 深圳数字生命研究院 | 数据处理、训练、识别方法、装置和存储介质 |
CN111738091A (zh) * | 2020-05-27 | 2020-10-02 | 复旦大学 | 一种基于多任务深度学习的姿态估计与人体解析系统 |
CN111898566A (zh) * | 2020-08-04 | 2020-11-06 | 成都井之丽科技有限公司 | 姿态估计方法、装置、电子设备和存储介质 |
CN112347861A (zh) * | 2020-10-16 | 2021-02-09 | 浙江工商大学 | 一种基于运动特征约束的人体姿态估计方法 |
Non-Patent Citations (3)
Title |
---|
XUANHAN WANG ET AL.: "KTN: Knowledge Transfer Network for Multi-person DensePose Estimation", 《MULTIMEDIA TRANSPORT AND DELIVERY & MULTIMEDIA ANALYSIS AND DESCRIPTION》 * |
XUECHENG NIE ET AL.: "Human Pose Estimation with Parsing Induced Learner", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
卢煜坤: "姿态估计与人体解析联合学习", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114155560A (zh) * | 2022-02-08 | 2022-03-08 | 成都考拉悠然科技有限公司 | 基于空间降维的高分辨率人体姿态估计模型的轻量化方法 |
CN114155560B (zh) * | 2022-02-08 | 2022-04-29 | 成都考拉悠然科技有限公司 | 基于空间降维的高分辨率人体姿态估计模型的轻量化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113221824B (zh) | 2022-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qu et al. | RGBD salient object detection via deep fusion | |
WO2021093468A1 (zh) | 视频分类方法、模型训练方法、装置、设备及存储介质 | |
Deng et al. | MVF-Net: A multi-view fusion network for event-based object classification | |
CN109948475B (zh) | 一种基于骨架特征和深度学习的人体动作识别方法 | |
Xu et al. | Deep self-supervised representation learning for free-hand sketch | |
CN108256562A (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
CN110555481A (zh) | 一种人像风格识别方法、装置和计算机可读存储介质 | |
CN108898620A (zh) | 基于多重孪生神经网络与区域神经网络的目标跟踪方法 | |
CN109063626B (zh) | 动态人脸识别方法和装置 | |
CN111428664B (zh) | 一种基于深度学习技术的计算机视觉的实时多人姿态估计方法 | |
CN113361542A (zh) | 一种基于深度学习的局部特征提取方法 | |
CN111898566B (zh) | 姿态估计方法、装置、电子设备和存储介质 | |
CN113297956B (zh) | 一种基于视觉的手势识别方法及系统 | |
Li et al. | Multi-attention guided feature fusion network for salient object detection | |
CN113076905A (zh) | 一种基于上下文交互关系的情绪识别方法 | |
Liu et al. | Learning explicit shape and motion evolution maps for skeleton-based human action recognition | |
CN112464775A (zh) | 一种基于多分支网络的视频目标重识别方法 | |
CN107330363B (zh) | 一种快速的互联网广告牌检测方法 | |
Usmani et al. | A reinforcement learning based adaptive ROI generation for video object segmentation | |
CN113221824B (zh) | 基于个体模型生成的人体姿态识别方法 | |
CN115223239A (zh) | 一种手势识别方法、系统、计算机设备以及可读存储介质 | |
CN109508660A (zh) | 一种基于视频的au检测方法 | |
Zerrouki et al. | Deep Learning for Hand Gesture Recognition in Virtual Museum Using Wearable Vision Sensors | |
CN116597267B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN116503753A (zh) | 一种基于多模态空域变换网络的遥感图像场景分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |