CN113221824A - 基于个体模型生成的人体姿态识别方法 - Google Patents

基于个体模型生成的人体姿态识别方法 Download PDF

Info

Publication number
CN113221824A
CN113221824A CN202110599861.6A CN202110599861A CN113221824A CN 113221824 A CN113221824 A CN 113221824A CN 202110599861 A CN202110599861 A CN 202110599861A CN 113221824 A CN113221824 A CN 113221824A
Authority
CN
China
Prior art keywords
human body
body region
visual
body posture
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110599861.6A
Other languages
English (en)
Other versions
CN113221824B (zh
Inventor
王轩瀚
周宜暄
宋井宽
高联丽
程乐超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202110599861.6A priority Critical patent/CN113221824B/zh
Publication of CN113221824A publication Critical patent/CN113221824A/zh
Application granted granted Critical
Publication of CN113221824B publication Critical patent/CN113221824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于个体模型生成的人体姿态识别方法,首先从待识别图像中获取输入图片,并采用视觉特征提取器通过卷积编码的方式生成输入图片对应的视觉特征;再采用全局语义感知网络通过线性回归的方式从视觉特征中解析得到人体区域特征图;然后采用实例级别的姿态解析模型生成器针对每个人体生成用于解析人体姿态的模型参数图;最后根据人体区域特征图和模型参数图动态解析图像中的人体姿态,得到人体姿态识别结果。本发明针对图像中出现的人体动态地生成对应的估计参数,能够更好地解决现实场景中人体姿态丰富和人体间差异大的问题。

Description

基于个体模型生成的人体姿态识别方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于个体模型生成的人体姿态识别方法的设计。
背景技术
人体姿态估计是计算机视觉中一个基础而又富有挑战性的问题,其目的是从单张RGB图像中,精确地识别出多个人体的位置以及骨架上的稀疏的关键点位置。随着深度卷积神经网络(CNNs)的应用和MSCOCO等大规模数据集的发布,人体姿态估计方法已经取得了较大的发展,它们大致可以分为bottom-up(即自底向上)和top-down(即自顶向下)的方法。对于top-down的方法,首先定位所有人体实例,然后对每个人体实例做姿态估计,方法主要集中在如何设计高效的单人姿态估计方法。而bottom-up方法首先检测出所有的人体关键点,然后将它们分组到不同的人体实例,现有方法主要集中在如何将候选的关节点分组到单个人体实例。相较于需要人体检测的top-down方法,bottom-up的方法通常具有更好的估计效率,且保持相近的估计准确度。
现有的人体姿态估计方法虽然在姿态估计的任务上取得了进展,但仍面临以下缺陷:
(1)top-down方法采用检测器的方式来区分人体,由于这类方法会采用到人体检测模型和人体关键点检测模型这两个模型,会带来巨额的计算代价,不利于现实场景中的应用。
(2)bottom-up方法采用卷积神经网络来生成身份特征进而区分人体,这类方法仅关注像素的表征而缺乏对全图人体数量的感知,每张图像所包含的人体数量不一致。针对人体姿态估计方法应当根据人体数量来生成对应的人体身份特征,而现有的方法没有考虑这个先验。
(3)现有的人体姿态估计方法采用统一的卷积神经网络参数来解析人体,难以应对现实场景中人体姿态丰富和人体间差异大的问题。每个人体实例需要特定的解析参数,而现有的方法忽略了这一点。
发明内容
本发明的目的是为了解决现有人体姿态估计方法存在的上述问题,提出了一种基于个体模型生成的人体姿态识别方法,基于bottom-up的方法进行扩展,依据图像内容动态地生成姿态估计的模型,进而精准地针对图像中的每个人体进行姿态估计。
本发明的技术方案为:基于个体模型生成的人体姿态识别方法,包括以下步骤:
S1、从待识别图像中获取输入图片,并采用视觉特征提取器通过卷积编码的方式生成输入图片对应的视觉特征;
S2、采用全局语义感知网络通过线性回归的方式从视觉特征中解析得到人体区域特征图。
S3、根据视觉特征和人体区域特征图,采用实例级别的姿态解析模型生成器针对每个人体生成用于解析人体姿态的模型参数图。
S4、根据人体区域特征图和模型参数图动态解析图像中的人体姿态,得到人体姿态识别结果。
进一步地,步骤S1包括以下分步骤:
S11、从待识别图像中获取大小为H×W的输入图片
Figure BDA0003092360560000021
其中
Figure BDA0003092360560000022
表示维度为3×H×W的实数域,3表示RGB三个通道。
S12、通过卷积神经网络的视觉编码器提取得到输入图片对应的视觉特征
Figure BDA0003092360560000023
其中D表示视觉特征中特征图的个数,每张特征图的大小为Hf×Wf
进一步地,步骤S2具体为:采用全局语义感知网络通过线性回归的方式从视觉特征F中解析得到人体区域特征图
Figure BDA0003092360560000024
其表达式为:
M=FWv
其中
Figure BDA0003092360560000025
为线性变换的参数,用于将每个像素的D维特征映射成1维向量,人体区域特征图M上的每个点指代该像素点是否在人体关键点的区域内。
进一步地,步骤S3包括以下分步骤:
S31、根据视觉特征F和人体区域特征图M,采用实例信息编码器得到人体的身份特征
Figure BDA0003092360560000026
S32、根据身份特征E,采用解析参数动态生成器生成用于解析人体姿态的模型参数图
Figure BDA0003092360560000027
其中K表示每个人体的关键点数量。
进一步地,步骤S31包括以下分步骤:
S311、通过实例感知网络的全局池化层将输入的视觉特征F映射成全局特征
Figure BDA0003092360560000028
S312、根据全局特征A估计待识别图像中的人体数量:
Figure BDA00030923605600000211
其中
Figure BDA0003092360560000029
Figure BDA00030923605600000210
为两个线性转换矩阵,Φ(·)表示非线性的LeakyReLU激活函数,
Figure BDA0003092360560000031
表示1维的人体数量估计结果,指代图像中可能包含的人体个数。
S313、根据人体区域特征图M上的概率值,通过双线性插值的方式将参数
Figure BDA0003092360560000032
映射回人体区域特征图M,得到初始的实例感知特征
Figure BDA0003092360560000033
S314、根据初始的实例感知特征
Figure BDA0003092360560000034
通过非线性变换方式得到人体的身份特征
Figure BDA0003092360560000035
其表达式为:
Figure BDA0003092360560000036
其中WI为变换参数。
进一步地,步骤S32包括以下分步骤:
S321、将视觉特征F和身份特征E进行融合,得到包含实例特性的视觉特征
Figure BDA0003092360560000037
其表达式为:
V=Γ(F,E)
其中Γ(·)为特征拼接函数。
S322、根据包含实例特性的视觉特征V,通过非线性变换方式得到用于解析人体姿态的模型参数图
Figure BDA0003092360560000038
其表达式为:
Wp=Φ(VWt 1)Wt 2
其中
Figure BDA0003092360560000039
Figure BDA00030923605600000310
为两个线性转换矩阵。
进一步地,步骤S4包括以下分步骤:
S41、通过设定阈值对人体区域特征图M进行过滤,得到由Np个像素点组成的人体区域
Figure BDA00030923605600000311
其中Lc表示第c个人体区域像素点的位置。
S42、根据人体区域
Figure BDA00030923605600000312
计算得到像素点之间的身份特征相似度矩阵
Figure BDA00030923605600000313
其中第i个像素点和第j个像素点之间的相似度Sij的计算公式为:
Sij=φ(Li TLj)
其中φ(·)为sigmoid激活函数,用于将相似度映射到[0,1]的范围内,Li和Lj分别表示第i个和第j个人体区域像素点的位置,i=1,2,...,Np;j=1,2,...,Np
S43、通过阈值过滤的方式将相似度矩阵S中大于0.5的元素置为1,得到Np个初始的人体区域二值图。
S44、计算人体区域二值图中每两个人体区域的交并比:
Figure BDA0003092360560000041
其中IoUij表示第i个人体区域和第j个人体区域的交并比,Sit表示第i个像素点和第t个像素点之间的相似度,Sjt表示第j个像素点和第t个像素点之间的相似度。
S45、当两个人体区域的交并比大于预设交并比阈值时,将这两个人体区域合并,得到NA个人体区域
Figure BDA0003092360560000042
其中NA<Np
S46、通过位置索引的方式将各个人体区域M'映射回人体区域特征图M大小,得到NA个区域二值图
Figure BDA0003092360560000043
S47、根据区域二值图
Figure BDA0003092360560000044
计算得到NA个实例的解析参数
Figure BDA0003092360560000045
其表达式为:
Figure BDA0003092360560000046
S48、根据解析参数
Figure BDA0003092360560000047
从包含实例特性的视觉特征V中解析出NA个人体的关键点热力图
Figure BDA0003092360560000048
其表达式为:
Figure BDA0003092360560000049
S49、将每个关键点热力图的最大值对应的位置作为关键点的预测值,得到人体姿态识别结果。
进一步地,人体姿态识别方法的学习目标函数为:
L=αlm+βlk+θlo
其中α,β和θ均为超参数,lm,lk,lo均为中间参数且:
Figure BDA00030923605600000410
Figure BDA00030923605600000411
Figure BDA0003092360560000051
其中MSE(·)表示均方误差函数,M表示人体区域特征图,
Figure BDA0003092360560000052
表示人体区域特征图的真值,Hi表示第i个关键点热力图,
Figure BDA0003092360560000053
表示第i个关键点热力图的真值,O表示人体数量估计结果,
Figure BDA0003092360560000054
表示人体数量估计结果的真值。
本发明的有益效果是:
(1)本发明区别于现有的身份特征生成方式,即仅依赖于视觉特征,所提出的方法则是通过编码视觉信息与图像的人体计数信息来生成对应的身份特征,能够更有效地区分实例。
(2)本发明区别于现有方法采用固定的参数来解析人体姿态的方式,针对图像中出现的人体动态地生成对应的估计参数,能够更好地解决现实场景中人体姿态丰富和人体间差异大的问题。
(3)本发明基于bottom-up的方法进行扩展,依据图像内容动态地生成姿态估计的模型,进而精准地针对图像中的每个人体进行姿态估计,实验表明本发明相比于现有人体姿态估计方法计算代价更小且精确度更高。
附图说明
图1所示为本发明实施例提供的基于个体模型生成的人体姿态识别方法流程图。
图2所示为本发明实施例提供的基于个体模型生成的人体姿态识别方法框架图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
本发明实施例提供了一种基于个体模型生成的人体姿态识别方法,如图1~图2共同所示,包括以下步骤S1~S4:
S1、从待识别图像中获取输入图片,并采用视觉特征提取器通过卷积编码的方式生成输入图片对应的视觉特征;
步骤S1包括以下分步骤S11~S12:
S11、从待识别图像中获取大小为H×W的输入图片
Figure BDA0003092360560000055
其中
Figure BDA0003092360560000056
表示维度为3×H×W的实数域,3表示RGB三个通道。
S12、通过卷积神经网络的视觉编码器提取得到输入图片对应的视觉特征
Figure BDA0003092360560000057
其中D表示视觉特征中特征图的个数,每张特征图的大小为Hf×Wf
S2、采用全局语义感知网络通过线性回归的方式从视觉特征中解析得到人体区域特征图。
本发明实施例中,采用全局语义感知网络通过线性回归的方式从视觉特征F中解析得到人体区域特征图
Figure BDA0003092360560000061
其表达式为:
M=FWv
其中
Figure BDA0003092360560000062
为线性变换的参数,用于将每个像素的D维特征映射成1维向量,人体区域特征图M上的每个点指代该像素点是否在人体关键点的区域内。
S3、根据视觉特征和人体区域特征图,采用实例级别的姿态解析模型生成器针对每个人体生成用于解析人体姿态的模型参数图。
步骤S2完成了如何确定图像中的人体区域,但本发明的目标是对该区域的每个人体进行姿态识别。基于此,需要针对每个人体的信息来生成对应的姿态解析参数。为了实现动态的人体解析,本发明实施例设计了实例级别的姿态解析模型生成器。
步骤S3包括以下分步骤S31~S32:
S31、根据视觉特征F和人体区域特征图M,采用实例信息编码器得到人体的身份特征
Figure BDA0003092360560000063
本发明实施例中,为了确定每个像素属于图片中的哪个人体,需要得到对应人体的身份特征,因此步骤S31包括以下分步骤S311~S314:
S311、通过实例感知网络的全局池化层将输入的视觉特征F映射成全局特征
Figure BDA0003092360560000064
S312、根据全局特征A估计待识别图像中的人体数量:
Figure BDA00030923605600000613
其中
Figure BDA0003092360560000065
Figure BDA0003092360560000066
为两个线性转换矩阵,Φ(·)表示非线性的LeakyReLU激活函数,
Figure BDA0003092360560000067
表示1维的人体数量估计结果,指代图像中可能包含的人体个数。
S313、因为任何图像的人体个数均能通过参数
Figure BDA0003092360560000068
进行解析估计,所以该参数具有很强的实例感知信息,基于此,本发明实施例根据人体区域特征图M上的概率值,通过双线性插值的方式将参数
Figure BDA0003092360560000069
映射回人体区域特征图M,得到初始的实例感知特征
Figure BDA00030923605600000610
S314、根据初始的实例感知特征
Figure BDA00030923605600000611
通过非线性变换方式得到人体的身份特征
Figure BDA00030923605600000612
其表达式为:
Figure BDA0003092360560000071
其中WI为变换参数。
S32、根据身份特征E,采用解析参数动态生成器生成用于解析人体姿态的模型参数图
Figure BDA0003092360560000072
其中K表示每个人体的关键点数量。
步骤S32包括以下分步骤S321~S322:
S321、将视觉特征F和身份特征E进行融合,得到包含实例特性的视觉特征
Figure BDA0003092360560000073
其表达式为:
V=Γ(F,E)
其中Γ(·)为特征拼接函数。
S322、根据包含实例特性的视觉特征V,通过非线性变换方式得到用于解析人体姿态的模型参数图
Figure BDA0003092360560000074
其表达式为:
Wp=Φ(VWt 1)Wt 2
其中
Figure BDA0003092360560000075
Figure BDA0003092360560000076
为两个线性转换矩阵。
S4、根据人体区域特征图和模型参数图动态解析图像中的人体姿态,得到人体姿态识别结果。
步骤S4包括以下分步骤S41~S49:
S41、通过设定阈值对人体区域特征图M进行过滤,得到由Np个像素点组成的人体区域
Figure BDA0003092360560000077
其中Lc表示第c个人体区域像素点的位置。本发明实施例中,设定阈值为0.5。
S42、根据人体区域
Figure BDA0003092360560000078
计算得到像素点之间的身份特征相似度矩阵
Figure BDA0003092360560000079
其中第i个像素点和第j个像素点之间的相似度Sij的计算公式为:
Sij=φ(Li TLj)
其中φ(·)为sigmoid激活函数,用于将相似度映射到[0,1]的范围内,Li和Lj分别表示第i个和第j个人体区域像素点的位置,i=1,2,...,Np;j=1,2,...,Np
S43、通过阈值过滤的方式将相似度矩阵S中大于0.5的元素置为1,得到Np个初始的人体区域二值图。
S44、计算人体区域二值图中每两个人体区域的交并比:
Figure BDA0003092360560000081
其中IoUij表示第i个人体区域和第j个人体区域的交并比,Sit表示第i个像素点和第t个像素点之间的相似度,Sjt表示第j个像素点和第t个像素点之间的相似度。
S45、当两个人体区域的交并比大于预设交并比阈值时,将这两个人体区域合并,得到NA个人体区域
Figure BDA0003092360560000082
其中NA<Np
S46、通过位置索引的方式将各个人体区域M'映射回人体区域特征图M大小,得到NA个区域二值图
Figure BDA0003092360560000083
S47、根据区域二值图
Figure BDA0003092360560000084
计算得到NA个实例的解析参数
Figure BDA0003092360560000085
其表达式为:
Figure BDA0003092360560000086
S48、根据解析参数
Figure BDA0003092360560000087
从包含实例特性的视觉特征V中解析出NA个人体的关键点热力图
Figure BDA0003092360560000088
其表达式为:
Figure BDA0003092360560000089
S49、将每个关键点热力图的最大值对应的位置作为关键点的预测值,得到人体姿态识别结果。
本发明实施例针对人体姿态识别方法设计了合理的学习目标,以使得提出的模型能够对给定的待识别图片进行多人的姿态估计。给定一张图片,本发明方法将输出三种类型的热力图:(1)人体区域特征图M;(2)人体数量估计结果O;(3)关键点热力图H。
具体而言,本发明方法的目标是增强每个人体的关键点热力图H中的目标关键点响应,同时保证人体区域特征图M中所有人体关键点的区域处于激活状态。为了实现这一学习目标,本发明实施例使用均方误差(MSE)作为学习目标,定义如下:
Figure BDA00030923605600000810
Figure BDA00030923605600000811
Figure BDA0003092360560000091
其中MSE(·)表示均方误差函数,
Figure BDA0003092360560000092
表示人体区域特征图的真值,其包含所有人体的目标关键点区域的二值图;
Figure BDA0003092360560000093
表示第i个关键点热力图的真值,其仅包含针对特定人体的关键点的单峰高斯分布,
Figure BDA0003092360560000094
表示人体数量估计结果的真值。
因此,整个模型的学习目标计算如下:
L=αlm+βlk+θlo
其中α,β和θ均为超参数,在训练中均设置为1。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (8)

1.基于个体模型生成的人体姿态识别方法,其特征在于,包括以下步骤:
S1、从待识别图像中获取输入图片,并采用视觉特征提取器通过卷积编码的方式生成输入图片对应的视觉特征;
S2、采用全局语义感知网络通过线性回归的方式从视觉特征中解析得到人体区域特征图;
S3、根据视觉特征和人体区域特征图,采用实例级别的姿态解析模型生成器针对每个人体生成用于解析人体姿态的模型参数图;
S4、根据人体区域特征图和模型参数图动态解析图像中的人体姿态,得到人体姿态识别结果。
2.根据权利要求1所述的人体姿态识别方法,其特征在于,所述步骤S1包括以下分步骤:
S11、从待识别图像中获取大小为H×W的输入图片
Figure FDA0003092360550000011
其中
Figure FDA0003092360550000012
表示维度为3×H×W的实数域,3表示RGB三个通道;
S12、通过卷积神经网络的视觉编码器提取得到输入图片对应的视觉特征
Figure FDA0003092360550000013
其中D表示视觉特征中特征图的个数,每张特征图的大小为Hf×Wf
3.根据权利要求2所述的人体姿态识别方法,其特征在于,所述步骤S2具体为:采用全局语义感知网络通过线性回归的方式从视觉特征F中解析得到人体区域特征图
Figure FDA0003092360550000014
其表达式为:
M=FWv
其中
Figure FDA0003092360550000015
为线性变换的参数,用于将每个像素的D维特征映射成1维向量,人体区域特征图M上的每个点指代该像素点是否在人体关键点的区域内。
4.根据权利要求3所述的人体姿态识别方法,其特征在于,所述步骤S3包括以下分步骤:
S31、根据视觉特征F和人体区域特征图M,采用实例信息编码器得到人体的身份特征
Figure FDA0003092360550000016
S32、根据身份特征E,采用解析参数动态生成器生成用于解析人体姿态的模型参数图
Figure FDA0003092360550000017
其中K表示每个人体的关键点数量。
5.根据权利要求4所述的人体姿态识别方法,其特征在于,所述步骤S31包括以下分步骤:
S311、通过实例感知网络的全局池化层将输入的视觉特征F映射成全局特征
Figure FDA0003092360550000021
S312、根据全局特征A估计待识别图像中的人体数量:
Figure FDA00030923605500000213
其中
Figure FDA0003092360550000022
Figure FDA0003092360550000023
为两个线性转换矩阵,Φ(·)表示非线性的LeakyReLU激活函数,
Figure FDA0003092360550000024
表示1维的人体数量估计结果,指代图像中可能包含的人体个数;
S313、根据人体区域特征图M上的概率值,通过双线性插值的方式将参数
Figure FDA00030923605500000214
映射回人体区域特征图M,得到初始的实例感知特征
Figure FDA0003092360550000025
S314、根据初始的实例感知特征
Figure FDA0003092360550000026
通过非线性变换方式得到人体的身份特征
Figure FDA0003092360550000027
其表达式为:
Figure FDA0003092360550000028
其中WI为变换参数。
6.根据权利要求5所述的人体姿态识别方法,其特征在于,所述步骤S32包括以下分步骤:
S321、将视觉特征F和身份特征E进行融合,得到包含实例特性的视觉特征
Figure FDA0003092360550000029
其表达式为:
V=Γ(F,E)
其中Γ(·)为特征拼接函数;
S322、根据包含实例特性的视觉特征V,通过非线性变换方式得到用于解析人体姿态的模型参数图
Figure FDA00030923605500000210
其表达式为:
Wp=Φ(VWt 1)Wt 2
其中
Figure FDA00030923605500000211
Figure FDA00030923605500000212
为两个线性转换矩阵。
7.根据权利要求6所述的人体姿态识别方法,其特征在于,所述步骤S4包括以下分步骤:
S41、通过设定阈值对人体区域特征图M进行过滤,得到由Np个像素点组成的人体区域
Figure FDA0003092360550000031
其中Lc表示第c个人体区域像素点的位置;
S42、根据人体区域
Figure FDA0003092360550000032
计算得到像素点之间的身份特征相似度矩阵
Figure FDA0003092360550000033
其中第i个像素点和第j个像素点之间的相似度Sij的计算公式为:
Sij=φ(Li TLj)
其中φ(·)为sigmoid激活函数,用于将相似度映射到[0,1]的范围内,Li和Lj分别表示第i个和第j个人体区域像素点的位置,i=1,2,...,Np;j=1,2,...,Np
S43、通过阈值过滤的方式将相似度矩阵S中大于0.5的元素置为1,得到Np个初始的人体区域二值图;
S44、计算人体区域二值图中每两个人体区域的交并比:
Figure FDA0003092360550000034
其中IoUij表示第i个人体区域和第j个人体区域的交并比,Sit表示第i个像素点和第t个像素点之间的相似度,Sjt表示第j个像素点和第t个像素点之间的相似度;
S45、当两个人体区域的交并比大于预设交并比阈值时,将这两个人体区域合并,得到NA个人体区域
Figure FDA0003092360550000035
其中NA<Np
S46、通过位置索引的方式将各个人体区域M'映射回人体区域特征图M大小,得到NA个区域二值图
Figure FDA0003092360550000036
S47、根据区域二值图
Figure FDA0003092360550000037
计算得到NA个实例的解析参数
Figure FDA0003092360550000038
其表达式为:
Figure FDA0003092360550000039
S48、根据解析参数
Figure FDA00030923605500000310
从包含实例特性的视觉特征V中解析出NA个人体的关键点热力图
Figure FDA00030923605500000311
其表达式为:
Figure FDA00030923605500000312
S49、将每个关键点热力图的最大值对应的位置作为关键点的预测值,得到人体姿态识别结果。
8.根据权利要求1-7任一所述的人体姿态识别方法,其特征在于,所述人体姿态识别方法的学习目标函数为:
L=αlm+βlk+θlo
其中α,β和θ均为超参数,lm,lk,lo均为中间参数且:
Figure FDA0003092360550000041
Figure FDA0003092360550000042
Figure FDA0003092360550000043
其中MSE(·)表示均方误差函数,M表示人体区域特征图,
Figure FDA0003092360550000044
表示人体区域特征图的真值,Hi表示第i个关键点热力图,
Figure FDA0003092360550000045
表示第i个关键点热力图的真值,O表示人体数量估计结果,
Figure FDA0003092360550000046
表示人体数量估计结果的真值。
CN202110599861.6A 2021-05-31 2021-05-31 基于个体模型生成的人体姿态识别方法 Active CN113221824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110599861.6A CN113221824B (zh) 2021-05-31 2021-05-31 基于个体模型生成的人体姿态识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110599861.6A CN113221824B (zh) 2021-05-31 2021-05-31 基于个体模型生成的人体姿态识别方法

Publications (2)

Publication Number Publication Date
CN113221824A true CN113221824A (zh) 2021-08-06
CN113221824B CN113221824B (zh) 2022-05-24

Family

ID=77081709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110599861.6A Active CN113221824B (zh) 2021-05-31 2021-05-31 基于个体模型生成的人体姿态识别方法

Country Status (1)

Country Link
CN (1) CN113221824B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155560A (zh) * 2022-02-08 2022-03-08 成都考拉悠然科技有限公司 基于空间降维的高分辨率人体姿态估计模型的轻量化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190188533A1 (en) * 2017-12-19 2019-06-20 Massachusetts Institute Of Technology Pose estimation
CN111738091A (zh) * 2020-05-27 2020-10-02 复旦大学 一种基于多任务深度学习的姿态估计与人体解析系统
CN111898566A (zh) * 2020-08-04 2020-11-06 成都井之丽科技有限公司 姿态估计方法、装置、电子设备和存储介质
CN112347861A (zh) * 2020-10-16 2021-02-09 浙江工商大学 一种基于运动特征约束的人体姿态估计方法
WO2021057810A1 (zh) * 2019-09-29 2021-04-01 深圳数字生命研究院 数据处理、训练、识别方法、装置和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190188533A1 (en) * 2017-12-19 2019-06-20 Massachusetts Institute Of Technology Pose estimation
WO2021057810A1 (zh) * 2019-09-29 2021-04-01 深圳数字生命研究院 数据处理、训练、识别方法、装置和存储介质
CN111738091A (zh) * 2020-05-27 2020-10-02 复旦大学 一种基于多任务深度学习的姿态估计与人体解析系统
CN111898566A (zh) * 2020-08-04 2020-11-06 成都井之丽科技有限公司 姿态估计方法、装置、电子设备和存储介质
CN112347861A (zh) * 2020-10-16 2021-02-09 浙江工商大学 一种基于运动特征约束的人体姿态估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XUANHAN WANG ET AL.: "KTN: Knowledge Transfer Network for Multi-person DensePose Estimation", 《MULTIMEDIA TRANSPORT AND DELIVERY & MULTIMEDIA ANALYSIS AND DESCRIPTION》 *
XUECHENG NIE ET AL.: "Human Pose Estimation with Parsing Induced Learner", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
卢煜坤: "姿态估计与人体解析联合学习", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155560A (zh) * 2022-02-08 2022-03-08 成都考拉悠然科技有限公司 基于空间降维的高分辨率人体姿态估计模型的轻量化方法
CN114155560B (zh) * 2022-02-08 2022-04-29 成都考拉悠然科技有限公司 基于空间降维的高分辨率人体姿态估计模型的轻量化方法

Also Published As

Publication number Publication date
CN113221824B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
Qu et al. RGBD salient object detection via deep fusion
WO2021093468A1 (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
Deng et al. MVF-Net: A multi-view fusion network for event-based object classification
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
Xu et al. Deep self-supervised representation learning for free-hand sketch
CN108256562A (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN110555481A (zh) 一种人像风格识别方法、装置和计算机可读存储介质
CN108898620A (zh) 基于多重孪生神经网络与区域神经网络的目标跟踪方法
CN109063626B (zh) 动态人脸识别方法和装置
CN111428664B (zh) 一种基于深度学习技术的计算机视觉的实时多人姿态估计方法
CN113361542A (zh) 一种基于深度学习的局部特征提取方法
CN111898566B (zh) 姿态估计方法、装置、电子设备和存储介质
CN113297956B (zh) 一种基于视觉的手势识别方法及系统
Li et al. Multi-attention guided feature fusion network for salient object detection
CN113076905A (zh) 一种基于上下文交互关系的情绪识别方法
Liu et al. Learning explicit shape and motion evolution maps for skeleton-based human action recognition
CN112464775A (zh) 一种基于多分支网络的视频目标重识别方法
CN107330363B (zh) 一种快速的互联网广告牌检测方法
Usmani et al. A reinforcement learning based adaptive ROI generation for video object segmentation
CN113221824B (zh) 基于个体模型生成的人体姿态识别方法
CN115223239A (zh) 一种手势识别方法、系统、计算机设备以及可读存储介质
CN109508660A (zh) 一种基于视频的au检测方法
Zerrouki et al. Deep Learning for Hand Gesture Recognition in Virtual Museum Using Wearable Vision Sensors
CN116597267B (zh) 图像识别方法、装置、计算机设备和存储介质
CN116503753A (zh) 一种基于多模态空域变换网络的遥感图像场景分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant