CN114724181A - 一种基于姿态增强型关系特征的人体动作识别方法 - Google Patents
一种基于姿态增强型关系特征的人体动作识别方法 Download PDFInfo
- Publication number
- CN114724181A CN114724181A CN202210292119.5A CN202210292119A CN114724181A CN 114724181 A CN114724181 A CN 114724181A CN 202210292119 A CN202210292119 A CN 202210292119A CN 114724181 A CN114724181 A CN 114724181A
- Authority
- CN
- China
- Prior art keywords
- posture
- human body
- features
- enhanced
- key points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于姿态增强型关系特征的人体动作识别方法,包括以下步骤:S1:获取人体姿态关键点数据和周围物体包围框,并将姿态关键点数据转换为包围框格式;S2:使用基础网络提取图像特征,并通过ROIPooling进一步得到人体、姿态、物体对应的基础特征;S3:利用基础特征与包围框分别计算出2组人体‑姿态关系特征与2组人体‑物体关系特征,将关系特征按特定权重与基础特征融合,获得人体、姿态、物体增强型特征;S4:将三种增强型特征送入分类器,并将分类结果进行融合,得到各动作对应的分数,从而获得最终识别结果,与现有技术相比,本发明考虑了动作识别中的不同情况,具有识别精度高、适用范围广等优点。
Description
技术领域
本发明涉及人体动作识别技术领域,涉及一种基于姿态增强型关系特征的人体动作识别方法。
背景技术
动作识别的主要任务是让计算机识别出给定图片或视频中的人体正在发生的动作。该课题一直以来都是计算机视觉领域的研究热点,目前已在安防监控、人机交互、信息检索等多个领域实现了较为广泛的应用。随着软硬件技术的不断发展,动作识别的应用场景正在不断丰富与扩展。
尽管动作识别任务的最终输出是动作标签,但其与一般的图像分类任务存在显著的不同。动作识别任务的显著特点是围绕人体展开,人体本身以及与人体动作相关的元素是研究人员最关心的部分,因此该问题并不局限于简单的分类,而是可能与目标检测、姿态估计等课题产生交叉。而图像背景等与人体动作关系不大的部分在动作识别任务中的重要性则被弱化。
与绝大多数计算机视觉领域的课题一致,动作识别经历了由传统方法向深度学习方法转变的过程,目前深度学习方法牢牢占据着准确率排行榜前列的位置。两类方法的主要区别在于传统方法需要人工设计特征,而深度学习方法可利用卷积神经网络自动提取特征。不过,无论是传统方法还是深度学习方法,都关注到了姿态、物体等上下文特征在动作识别中的重要作用。在传统方法中,上下文特征一般根据图像的特点来设计,之后再与一些机器学习方法相结合。Hoai等人将姿态信息作为关键辅助信息,设计了姿态特征描述符来表示特定的局部身体部位,之后将其送入SVM分类器进行分类;Prest等人则从距离、位置等空间概念出发,建立了数学模型来描述人与物体之间的交互关系。在深度学习方法中,借助卷积神经网络,上下文信息能够转换为表达能力更强的特征,因此研究重心转向如何找到并利用图像中与动作相关的部分。Zhao等人同样关注到了姿态信息在动作识别中的重要作用,并通过设计合适的映射方法建立了姿态与局部动作间的对应关系,最终使用整体动作分数与局部动作分数共同完成最后的分类;Yan等人使用了从全图、人体到上下文候选区域的多级特征,并结合attention机制对特征进行了处理,使得这些特征与动作具有更高的相关性;Zhang等人认为上下文特征虽然重要,但提供额外上下文信息的方式较为麻烦,因此尝试直接使用图像与动作标签生成包含动作信息的动作掩码,以此来作为上下文特征。
在分析了现有的图像动作识别方法后,我们认为该任务仍有一些问题尚未解决。首先,对于上下文信息的利用并不充分。大部分方法都只使用1种上下文信息作为辅助,这使得方法不能很好地覆盖所有情况。比如,只考虑物体信息,那么与物体无关的动作识别效果不佳;只考虑人体姿态信息,则与物体发生交互的动作识别效果下降。第二,对上下文特征和全局特征间的联系欠缺考虑。现有方法对全局特征和上下文特征大多使用独立的分支处理,之后简单地进行融合,不考虑两种特征之间的关系。这使得一部分上下文信息体现出误导性,比如在某些情况下,一些身体部位的姿态是一致的,但实际的动作却完全不同。这也是某些方法尽管同时用上了姿态、物体信息,却仍在一些识别场景下出现不足的原因。此外,这两点还共同带来了方案扩展性不够的副作用。如果出现新的上下文特征,一般只能再建立一个独立的分支进行处理,不能复用已有的处理方法。
因此,开发一种有效利用上下文信息并考虑其与全局信息关系的图像动作识别方法极具现实意义。
发明内容
由于现有技术存在上述缺陷,本发明提供了一种有效利用上下文信息(尤其是姿态信息)并考虑其与全局信息关系的图像动作识别方法即基于姿态增强型关系特征的人体动作识别方法,克服了现有图像动作识别方法对于上下文信息的利用不充分且对上下文特征和全局特征间的联系欠缺考虑的缺陷。
为了实现上述目的,本发明提供以下技术方案:
一种基于姿态增强型关系特征的人体动作识别方法,包括以下步骤:
S1:获取人体姿态关键点数据和周围物体包围框,并将姿态关键点数据转换为包围框格式;
S2:使用基础网络提取图像特征,并通过ROI Pooling进一步得到人体、姿态、物体对应的基础特征;
S3:利用基础特征与包围框分别计算出2组人体-姿态关系特征与2组人体-物体关系特征,将关系特征按特定权重与基础特征融合,获得人体、姿态、物体增强型特征;
S4:将三种增强型特征送入分类器,并将分类结果进行融合,得到各动作对应的分数,从而获得最终识别结果。
进一步地,所述的步骤S1具体包括:
S11:利用基于卷积神经网络的目标检测方法检测出图像中的物体,得到其包围框bo;
S12:利用基于卷积神经网络的姿态估计方法检测出人体姿态,得到人体姿态关键点;
S13:将人体姿态关键点按照特定转换规则进行组合与计算,使其映射到局部身体部位,将计算所得部位根据缩放因子k与身体部位缩放规则进行缩放,输出包围框格式的姿态区域bp。
更进一步地,所述的人体姿态关键点到局部身体部位的转换规则定义为:鼻子、左耳、右耳关键点转换为头部区域;左肩、右肩、左臀、右臀关键点转换为身体区域;左腕、左肘关键点转换为左手区域;右腕、右肘关键点转换为右手区域;左腕、左肘、左肩关键点转换为左肘区域;右腕、右肘、右肩关键点转换为右肘区域;左膝、左踝关键点转换为左脚区域;右膝、右踝关键点转换为右脚区域;左膝、左踝、左臀关键点转换为左膝区域;右膝、右踝、右臀关键点转换为右膝区域。
更进一步地,所述的身体部位缩放规则为:设某一身体部位的左上坐标为(x0,y0),长度为w0,宽度为h0,缩放因子k为满足0.50≤k≤1.50的小数。则最终输出的姿态区域可描述为:
长度w=kw0
宽度h=kh0
进一步地,所述步骤S3具体包括:
S31:对人体基础特征fh与姿态基础特征fp计算关系权重,得到权重wp;对人体基础特征fh与物体基础特征fo计算关系权重,得到权重wo。
S32:对人体包围框与姿态包围框进行空间位置编码,得到权重wploc;对人体包围框与物体包围框进行空间位置编码,得到权重woloc。
S33:根据姿态相关的权重wp和wploc以及人体、姿态的基础特征计算出两组姿态增强的关系特征fhp和fph,根据物体相关的权重wo和woloc以及人体、物体的基础特征计算出两组物体增强的关系特征fho和foh。
S34:给4组关系特征赋予特定权重,并将人体主导的两种关系特征进行融合,输出三种关系特征。
更进一步地,姿态关系权重wp的计算方法为:
其中,F函数为特征维度转换函数,通过全连接层将两种基础特征转换至同一线性空间,便于处理。dk为转换完成后基础特征的维度。
计算物体关系权重wo只需将姿态基础特征替换为物体基础特征即可。
更进一步地,姿态空间位置编码权重wploc的计算方法为:
wploc=F·L(bh,bp)
其中,F函数为维度转换函数,形式可为全连接层或一维卷积;L函数为三角函数形式的空间位置编码函数,对人体包围框坐标与姿态包围框坐标进行编码。
计算物体空间位置编码权重woloc只需将姿态包围框替换为物体包围框即可。
更进一步地,姿态增强的关系特征fhp的计算方法为:
fhp=F(fp·Σ(wplocwp))
其中,F函数为维度转换函数,形式可为全连接层或一维卷积。若要计算另一组姿态增强型关系特征fph,只需将权重wp进行转置。
计算物体增强的关系特征fho与foh只需将权重与特征替换为与物体相对应的即可。
更进一步地,对于求得的多组关系特征,定义了赋权与融合规则。
4组关系特征的赋权规则为:
fhp:fho:fph:foh=k1:k2:k3:k4
其中,k1、k2、k3、k4满足:
0<k1,k2<k3,k4
赋权后得到的关系特征按照以下规则与对应的基础特征通过加法融合,输出增强型关系特征:
fhr=fh+fhp+fho
fpr=fp+fph
for=fo+foh
即最终的输出为3种增强型特征fhr、fpr和for。
进一步地,所述步骤S4具体包括:
S41:将3种增强型特征fhr、fpr和for送入分类器进行分类;
S42:将每种增强型特征对应的分类结果进行融合,获得整体的分类结果,即各种动作的分数;
S43:利用softmax函数将动作分数转换为概率,具有最大概率的动作即为最终的识别结果。同时利用交叉熵函数计算损失,以进行反向传播。
更进一步地,所述的分类结果融合规则按如下定义:
设fhr、fpr和for对应的分类结果为Clsh、Clsp和Clso,则分类结果融合后动作a的分类分数为:
Cisfinal(a)=Clsh(a)+maxClsp(a)+maxClso(a)
其中max选取的是多个姿态区域或物体对于动作a分类分数的最大值。
与现有技术相比,本发明具有以下优点:
1)本发明设计了一个将人体姿态关键点转换为姿态区域的转换规则,每个区域均由多个关键点计算生成,从而使生成的区域能够反映实际的动作,实现了将不能直接使用的姿态关键点转换为易用且信息丰富的姿态区域这一过程;
2)本发明同时使用姿态与物体两种上下文信息辅助人体动作识别,且同时考虑了这两种信息与更高一级的人体信息的关系,多种上下文信息使得动作识别的不同情况被纳入考虑,而对上下文特征与人体特征关系的学习则抑制了可能产生误导的上下文信息,补足了多种上下文信息可能引入的缺点,二者相互结合,能够实现更为精准的动作识别;
3)本发明考虑了方案的扩展性,对于姿态与物体这两种上下文信息采用相似的方案进行处理,如果有新的上下文信息需要引入,只需将其格式转换为包围框格式,即可复用原有的处理方案,由于多组上下文特征的引入,本发明加入了关系特征赋权步骤,使用者可以按需分配各组上下文特征对应的关系特征的权重,使方案更具普适性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述。
图1是本发明的基于姿态增强型关系特征的人体动作识别方法的工作流程示意图;
图2是本发明的基于姿态增强型关系特征的人体动作识别方法的框架图;
图3是姿态关键点转化为姿态区域的流程图;
图4是关系特征计算流程图;
图5是计算姿态关系权重的可视化图。
具体实施方式
下面结合附图和具体的实施例对本发明中的结构作进一步的说明,但是不作为本发明的限定。
实施例
如图1所示,本发明提供的基于姿态增强型关系特征的人体动作识别方法主要包含以下四个步骤:
1)获取人体姿态关键点数据和周围物体包围框,并将姿态关键点数据转换为包含动作信息且易于处理的包围框格式;
2)使用成熟可靠的基础网络提取图像特征,并通过ROI Pooling将包围框映射到特征上,进一步得到人体、姿态、物体对应的基础特征;
3)利用基础特征与包围框分别计算出2组人体-姿态关系特征与2组人体-物体关系特征,将关系特征按特定权重与基础特征融合,获得人体、姿态、物体增强型特征;
4)将三种增强型特征送入分类器,并将分类结果进行融合,得到各动作对应的分数,以此获得最终识别结果。
图2基于图1所示的工作流程构建,展示了整个方案的基本框架。接下来,本说明书按照上述4个步骤对本方法加以详细说明。
步骤1)的具体方法为:
11)选择目标检测与姿态估计方法对需要识别的图像进行处理,获得周围物体包围框与姿态关键点数据,选择的主要标准为精度。本实施例中,目标检测方法选择FasterR-CNN,姿态估计方法选择AlphaPose。
12)由姿态关键点生成姿态区域,流程如图3所示。图像中可能有多个人体,为了避免识别到不需要的人体姿态,本方案采取双重措施:首先在姿态估计时将需要的人体裁剪下来送入姿态估计网络,直接排除大部分不需要的人体;接下来,如果还是识别出多个人体的姿态,则只取置信度高的人体姿态用于计算姿态区域。
对于获得的姿态关键点,按照以下规则进行转换:鼻子、左耳、右耳关键点转换为头部区域;左肩、右肩、左臀、右臀关键点转换为身体区域;左腕、左肘关键点转换为左手区域;右腕、右肘关键点转换为右手区域;左腕、左肘、左肩关键点转换为左肘区域;右腕、右肘、右肩关键点转换为右肘区域;左膝、左踝关键点转换为左脚区域;右膝、右踝关键点转换为右脚区域;左膝、左踝、左臀关键点转换为左膝区域;右膝、右踝、右臀关键点转换为右膝区域。由于动作一般不是单一关节完成的,因此这种多关键点转换方式使得生成的姿态区域能更好地反映出动作。
具体的计算方式可以根据不同情况进行调整,在本实施例中,各姿态区域按照如下方式进行计算:
头部:长宽为双耳间距,中心点为鼻子;
身体:长为双肩/双臀长度中更大者,宽为左肩臀连线/右肩臀连线长度中更大者,中心点为双肩中点与双臀中点连线的中点;
左手:左腕为中心,左小臂(左腕到左肘)长度为长与宽;
右手:右腕为中心,右小臂(右腕到右肘)长度为长与宽;
左肘:左肘为中心,左大臂(左肩到左肘)左小臂各一半加起来为长宽;
右肘:右肘为中心,右大臂(右肩到右肘)右小臂各一半加起来为长宽;
左脚:左踝为中心,左小腿(左膝到左踝)长度为长与宽;
右脚:右踝为中心,右小腿(右膝到右踝)长度为长与宽;
左膝:左膝为中心,左大腿(左臀到左膝)左小腿各一半加起来为长宽;
右膝:右膝为中心,右大腿(右臀到右膝)右小腿各一半加起来为长宽。
计算出初步的姿态区域后,可根据实际情况对姿态区域进行缩放。缩放规则为:
设某一身体部位的左上坐标为(x0,y0),长度为w0,宽度为h0,缩放因子k为满足0.50≤k≤1.50的小数。则最终输出的姿态区域可描述为:
长度w=kw0
宽度h=kh0
本实施例中,缩放因子k=1.00。最终的输出为包围框格式的姿态区域,如图3右侧所示。
步骤2)的具体方法为:
21)将图像送入基础网络中提取特征。基础网络的选取兼顾精度与效率,本实施例选取在ImageNet数据集上预训练的ResNet-50网络,使用其卷积块1~卷积块4提取全图特征。
22)使用ROIPooling将人体包围框(数据集提供)、姿态区域以及物体包围框映射到特征上,进一步得到人体、姿态、物体对应的基础特征fh、fp和fo。
如图4所示,步骤3)的具体方法为:
31)对人体基础特征fh与姿态基础特征fp计算关系权重,得到权重wp;对人体基础特征fh与物体基础特征fo计算关系权重,得到权重wo。
姿态关系权重wp的计算方法为:
其中,F函数为特征维度转换函数,通过全连接层将两种基础特征转换至同一线性空间,便于处理。dk为转换完成后基础特征的维度。
计算物体关系权重wo只需将姿态基础特征替换为物体基础特征即可。
32)对人体包围框与姿态包围框进行空间位置编码,得到权重wploc;对人体包围框与物体包围框进行空间位置编码,得到权重woloc。
姿态空间位置编码权重wploc的计算方法为:
wploc=F·L(bh,bp)
其中,F函数为维度转换函数,形式可为全连接层或一维卷积,本实施例选用全连接层;L函数为三角函数形式的空间位置编码函数,本实施例使用正/余弦函数,对人体包围框坐标与姿态包围框坐标进行编码。
计算物体空间位置编码权重woloc只需将姿态包围框替换为物体包围框即可。
33)根据姿态相关的权重wp和wploc以及人体、姿态的基础特征计算出两组姿态增强的关系特征fhp和fph,根据物体相关的权重wo和woloc以及人体、物体的基础特征计算出两组物体增强的关系特征fho和foh。
姿态增强的关系特征fhp的计算方法为:
fhp=F(fp·∑(wplocwp))
其中,F函数为维度转换函数,形式可为全连接层或一维卷积,本实施例选用全连接层。若要计算另一组姿态增强型关系特征fph,只需将权重wp进行转置。
计算物体增强的关系特征fho与foh只需将权重与特征替换为与物体相对应的即可。
34)给4组关系特征赋予特定权重,并将人体主导的两种关系特征进行融合,输出三种增强型关系特征。
4组关系特征的赋权规则为:
fhp:fho:fph:foh=k1:k2:k3:k4
其中,k1、k2、k3、k4满足:
0<k1,k2<k3,k4
赋权后输出的关系特征按照以下规则与基础特征融合并输出增强型关系特征:
fhr=fh+fhp+fho
fpr=fp+fph
for=fo+foh
即最终的输出为3种增强型特征fhr、fpr和for。
如图4所示,本实施例中,从加强上下文信息激活的角度考虑,设置
fhp:fho:fph:foh=1:1:2:2.
步骤4)的具体方法为:
41)将3种增强型特征fhr、fpr和for送入分类器进行分类,对应的分类结果为Clsh、Clsp和Clso,本实施例中选用全连接层作为分类器。
42)将每种增强型特征对应的分类结果进行融合,获得整体的分类结果,即各种动作的分数。融合后动作a的分类结果为:
Clsfinal(a)=Clsh(a)+maxClso(a)+maxClso(a)
其中max选取的是多个姿态区域或物体对于动作a分类分数的最大值。
43)利用softmax函数将动作分数转换为概率,具有最大概率的动作即为最终的识别结果,同时利用交叉熵函数计算损失,以进行反向传播。
对基于姿态增强型关系特征的人体动作识别方法的实验结果:
为验证本发明在动作识别任务上的实际表现,在两个著名的公开数据集PascalVOC 2012Action与Stanford 40Action上进行了实验。Pascal VOC 2012Action提供4588张图像,训练集与验证集各两千余张,共计11个动作类别(含“其他”类别)。Stanford40Action提供9532张图像,训练集四千张,余下的为测试集,共计40个动作类别。两个数据集均提供了人体包围盒标注数据。与多数方法一致,本方案采用mAP作为评估标准。
表1给出了在PascalVOC 2012Action验证集上本发明与其他方法的在mAP指标上的比较。
表1 Pascal VOC 2012Action验证集上的mAP(%)
根据表1,可以看出本发明在该数据集上取得了最优精度,在该数据集的精度达到90%以上的情况下,仍取得一定提升。值得注意的是,对于跳跃这一动作,本方法取得了高达92.3%的AP精度,比原有最好方法高出2.7个百分点。跳跃一动作的特点是没有任何物体进行辅助,且局部姿态与鼓掌等动作极易混淆。这说明对于一些只能利用人体姿态帮助动作识别的场景,本发明能够实现对姿态信息的有效利用,取得较好的效果。
表2给出了在Stanford 40Action测试集上本发明与其他方法的在mAP指标上的比较。
表2 Stanford 40Action测试集上的mAP(%)
根据表2,可以看出本发明在该数据集上取得了最优精度,同样在该数据集的精度达到90%以上的情况下取得了提升。为了明确姿态增强的关系特征在该数据集上发挥了作用,图5进行了可视化,列出了选中图片中关系权重最高的姿态区域与关系权重最低的姿态区域。结果表明,本发明能使关系权重集中到与动作最相关的姿态区域,而无关姿态区域则获得了很低的权重。这一结果说明:由姿态关键点生成的姿态区域包含了动作信息;姿态关系权重的学习激活了这些包含动作信息的姿态区域。这一过程与人用肉眼识别图片中的动作存在相似之处,说明本方法能够帮助计算机进一步理解图片。
本领域技术人员应该理解,本领域技术人员在结合现有技术以及上述实施例可以实现变化例,在此不做赘述。这样的变化例并不影响本发明的实质内容,在此不予赘述。
以上对本发明的较佳实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例,这并不影响本发明的实质内容。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (11)
1.一种基于姿态增强型关系特征的人体动作识别方法,其特征在于:包括以下步骤:
S1:获取人体姿态关键点数据和周围物体包围框,并将姿态关键点数据转换为包围框格式;
S2:使用基础网络提取图像特征,并通过ROI Pooling进一步得到人体、姿态、物体对应的基础特征;
S3:利用基础特征与包围框分别计算出2组人体-姿态关系特征与2组人体-物体关系特征,将关系特征按特定权重与基础特征融合,获得人体、姿态、物体增强型特征fhr、fpr和for;
S4:将三种增强型特征送入分类器,并将分类结果进行融合,得到各动作对应的分数,从而获得最终识别结果。
2.根据权利要求1所述的一种基于姿态增强型关系特征的人体动作识别方法,其特征在于,所述的步骤S1具体包括:
S11:利用基于卷积神经网络的目标检测方法检测出图像中的物体,得到其包围框bo;
S12:利用基于卷积神经网络的姿态估计方法检测出人体姿态,得到人体姿态关键点;
S13:将人体姿态关键点按照特定转换规则进行组合与计算,使其映射到局部身体部位,将计算所得部位根据缩放因子k与身体部位缩放规则进行缩放,输出包围框格式的姿态区域bp。
3.根据权利要求2所述的一种基于姿态增强型关系特征的人体动作识别方法,其特征在于,所述人体姿态关键点到局部身体部位的转换规则定义为:鼻子、左耳、右耳关键点转换为头部区域;左肩、右肩、左臀、右臀关键点转换为身体区域;左腕、左肘关键点转换为左手区域;右腕、右肘关键点转换为右手区域;左腕、左肘、左肩关键点转换为左肘区域;右腕、右肘、右肩关键点转换为右肘区域;左膝、左踝关键点转换为左脚区域;右膝、右踝关键点转换为右脚区域;左膝、左踝、左臀关键点转换为左膝区域;右膝、右踝、右臀关键点转换为右膝区域。
5.根据权利要求1所述的一种基于姿态增强型关系特征的人体动作识别方法,其特征在于,所述步骤S3具体包括:
S31:对人体基础特征fh与姿态基础特征fp计算关系权重,得到权重wp;对人体基础特征fh与物体基础特征fo计算关系权重,得到权重wo;
S32:对人体包围框与姿态包围框进行空间位置编码,得到权重wploc;对人体包围框与物体包围框进行空间位置编码,得到权重woloc;
S33:根据姿态相关的权重wp和wploc以及人体、姿态的基础特征计算出两组姿态增强的关系特征fhp和fph,根据物体相关的权重wo和woloc以及人体、物体的基础特征计算出两组物体增强的关系特征fho和foh;
S34:给4组关系特征赋予特定权重,并将人体主导的两种关系特征进行融合,输出三种关系特征。
7.根据权利要求5所述的一种基于姿态增强型关系特征的人体动作识别方法,其特征在于,姿态空间位置编码权重Wploc的计算方法为:
wploc=F·L(bh,bp)
其中,F函数为特征维度转换函数,形式可为全连接层或一维卷积;L函数为三角函数形式的空间位置编码函数,对人体包围框坐标bh与姿态包围框坐标bp进行编码;
物体空间位置编码权重woloc的计算方法为:
woloc=F·L(bh,bo)
其中,bo为物体包围框坐标。
8.根据权利要求5所述的一种基于姿态增强型关系特征的人体动作识别方法,其特征在于,姿态增强的关系特征fhp的计算方法为:
fhp=F(fp·∑(wplocwp))
其中,F函数为维度转换函数,形式可为全连接层或一维卷积;
计算另一组姿态增强型关系特征fph,只需将权重wp进行转置;
计算物体增强的关系特征fho与foh只需分别将fhp与fph计算公式中的姿态相关的权重wp和wploc替换为物体相关的权重wo和woloc,并将姿态基础特征fp替换为物体基础特征fo。
9.根据权利要求5所述的一种基于姿态增强型关系特征的人体动作识别方法,其特征在于,4组关系特征的赋权规则为:
fhp:fho:fph:foh=k1:k2:k3:k4
其中,k1、k2、k3、k4满足:
0<k1,k2<k3,k4
赋权后输出的关系特征按照以下规则与基础特征融合并输出增强型关系特征:
fhr=fh+fhp+fho
fpr=fp+fph
for=fo+foh
即最终的输出为3种增强型特征fhr、fpr和for。
10.根据权利要求1所述的一种基于姿态增强型关系特征的人体动作识别方法,其特征在于,所述步骤S4具体包括:
S41:将3种增强型特征fhr、fpr和for送入分类器进行分类;
S42:将每种增强型特征对应的分类结果进行融合,获得整体的分类结果,即各种动作的分数;
S43:利用softmax函数将动作分数转换为概率,具有最大概率的动作即为最终的识别结果,同时利用交叉熵函数计算损失,以进行反向传播。
11.根据权利要求10所述的一种基于姿态增强型关系特征的人体动作识别方法,其特征在于,所述分类结果的融合规则按如下定义:
设fhr、fpr和for对应的分类结果为Clsh、Clsp和Clso,则融合后动作a的分类结果为:
Clsfinal(a)=Clsh(a)+max Clsp(a)+max Clso(a)
其中max选取的是多个姿态区域或物体对于动作a分类分数的最大值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210292119.5A CN114724181A (zh) | 2022-03-24 | 2022-03-24 | 一种基于姿态增强型关系特征的人体动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210292119.5A CN114724181A (zh) | 2022-03-24 | 2022-03-24 | 一种基于姿态增强型关系特征的人体动作识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114724181A true CN114724181A (zh) | 2022-07-08 |
Family
ID=82239103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210292119.5A Pending CN114724181A (zh) | 2022-03-24 | 2022-03-24 | 一种基于姿态增强型关系特征的人体动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114724181A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661254A (zh) * | 2022-12-08 | 2023-01-31 | 粤港澳大湾区数字经济研究院(福田) | 一种多人姿态估计方法及相关装置 |
-
2022
- 2022-03-24 CN CN202210292119.5A patent/CN114724181A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661254A (zh) * | 2022-12-08 | 2023-01-31 | 粤港澳大湾区数字经济研究院(福田) | 一种多人姿态估计方法及相关装置 |
CN115661254B (zh) * | 2022-12-08 | 2023-05-16 | 粤港澳大湾区数字经济研究院(福田) | 一种多人姿态估计方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135375B (zh) | 基于全局信息整合的多人姿态估计方法 | |
CN109947975B (zh) | 图像检索装置、图像检索方法及其中使用的设定画面 | |
Chen et al. | Improving deep visual representation for person re-identification by global and local image-language association | |
CN109657631B (zh) | 人体姿态识别方法及装置 | |
WO2020038136A1 (zh) | 面部识别方法、装置、电子设备及计算机可读介质 | |
Lemaire et al. | Fully automatic 3D facial expression recognition using differential mean curvature maps and histograms of oriented gradients | |
Youssif et al. | Arabic sign language (arsl) recognition system using hmm | |
CN111444889A (zh) | 基于多级条件影响的卷积神经网络的细粒度动作检测方法 | |
CN109086405B (zh) | 基于显著性和卷积神经网络的遥感图像检索方法及系统 | |
CN111984772B (zh) | 一种基于深度学习的医疗影像问答方法及系统 | |
CN109934183B (zh) | 图像处理方法及装置、检测设备及存储介质 | |
JP4511135B2 (ja) | データ分布を表現する方法、データ要素を表現する方法、データ要素の記述子、照会データ要素を照合または分類する方法、その方法を実行するように設定した装置、コンピュータプログラム並びにコンピュータ読み取り可能な記憶媒体 | |
CN112699837A (zh) | 一种基于深度学习的手势识别方法及设备 | |
WO2023142651A1 (zh) | 动作生成方法及相关装置、电子设备、存储介质和程序 | |
CN114612767A (zh) | 一种基于场景图的图像理解与表达方法、系统与存储介质 | |
CN114724181A (zh) | 一种基于姿态增强型关系特征的人体动作识别方法 | |
Chen et al. | Cafgraph: Context-aware facial multi-graph representation for facial action unit recognition | |
Fan et al. | Skip connection aggregation transformer for occluded person reidentification | |
Gao et al. | Context-patch representation learning with adaptive neighbor embedding for robust face image super-resolution | |
Ling et al. | Human object inpainting using manifold learning-based posture sequence estimation | |
CN116543409A (zh) | 一种证件目标提取方法、系统、介质、设备及终端 | |
Zhang et al. | Multi-Person Pose Estimation in the Wild: Using Adversarial Method to Train a Top-Down Pose Estimation Network | |
CN110785753A (zh) | 用于搜索图像的方法、装置及存储介质 | |
Mohanty et al. | German sign language translation using 3d hand pose estimation and deep learning | |
CN113963374A (zh) | 基于多层次特征与身份信息辅助的行人属性识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |