CN118097785A - 人体姿态的分析方法及系统 - Google Patents
人体姿态的分析方法及系统 Download PDFInfo
- Publication number
- CN118097785A CN118097785A CN202410262393.7A CN202410262393A CN118097785A CN 118097785 A CN118097785 A CN 118097785A CN 202410262393 A CN202410262393 A CN 202410262393A CN 118097785 A CN118097785 A CN 118097785A
- Authority
- CN
- China
- Prior art keywords
- human body
- body posture
- data
- acquiring
- posture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 96
- 230000004927 fusion Effects 0.000 claims abstract description 78
- 238000000605 extraction Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000001514 detection method Methods 0.000 claims abstract description 36
- 238000007781 pre-processing Methods 0.000 claims abstract description 24
- 230000002123 temporal effect Effects 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims description 34
- 210000000988 bone and bone Anatomy 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种人体姿态的分析方法及系统,获取一定数量的人体姿态图像,对所述人体姿态图像进行预处理,得到只包含人体框架的训练图像;构建姿态分析模型,其中,所述姿态分析模型包括依次连接的卷积层、空间特征提取模块、时间特征提取模块、融合模块、全连接层和输出层;将所述人体框架作为输入、人体姿态预测结果作为输出,对所述姿态分析模型进行训练,得到训练好的姿态分析模型。该人体姿态的分析方法解决现有技术中对人体姿态的分析存在检测不准和重复检测的问题。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种人体姿态的分析方法、系统、电子设备及存储介质。
背景技术
人体关键点检测(Human Keypoints Detection)又称为人体姿态估计,是对图像中的人体姿态和关键点进行预测,人体姿态估计是计算机视觉中一个相对基础的任务,是人体动作识别、行为分析、人机交互等的前置任务;一般情况下可以将人体关键点检测细分为单人/多人关键点检测、2D/3D关键点检测,同时有算法在完成关键点检测之后还会进行关键点的跟踪,也被称为人体姿态跟踪。
现有对人体姿态的分析依赖于检测算法的提出的建议,会出现检测不准和重复检测等现象;
亟需一种能够准确、高效分析人体姿态的方法。
发明内容
本发明实施例的目的在于提供一种人体姿态的分析方法、系统、电子设备及存储介质,用以解决现有技术中对人体姿态的分析存在检测不准和重复检测的问题。
为实现上述目的,本发明实施例提供一种人体姿态的分析方法,所述方法具体包括:
获取一定数量的人体姿态图像,对所述人体姿态图像进行预处理,得到只包含人体框架的训练图像;
构建姿态分析模型,其中,所述姿态分析模型包括依次连接的卷积层、空间特征提取模块、时间特征提取模块、融合模块、全连接层和输出层;
通过所述卷积层获取所述人体框架对应的关键点,通过所述空间特征提取模块获取每个关键点的空间特征数据,通过所述时间特征提取模块获取每个关键点的时间特征数据,通过所述融合模块将所述空间特征数据和所述时间特征数据进行融合,得到融合数据,通过所述全连接层对所述融合数据进行分类,得到分类结果,通过所述分类结果和所述融合数据对人体姿态进行预测得到人体姿态预测结果;
将所述人体框架作为输入、人体姿态预测结果作为输出,对所述姿态分析模型进行训练,得到训练好的姿态分析模型。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步地,所述获取一定数量的人体姿态图像,对所述人体姿态图像进行预处理,得到只包含人体框架的训练图像,包括:
通过目标检测算法对所述人体姿态图像中的人体进行检测,得到每一个人体的人体框架;
判断所述人体框架是否合格,当所述人体框架不合格时,对所述人体框架进行预处理,直至所述人体框架合格;
基于骨骼点坐标文件,对每个人体的每个骨骼点进行标注,得到只包含人体框架的带有标注的训练图像。
进一步地,所述通过所述时间特征提取模块获取每个关键点的时间特征数据,包括:
通过公式(1)计算每个关键点的时间特征数据;
式中,h为每个关键点的时间特征数据,X(l)为当前层的网络输入,fi(X)为卷积运算,σ为sigmoid非线性激活函数,为卷积算子。
进一步地,所述通过所述分类结果和所述融合数据对人体姿态进行预测得到人体姿态预测结果,包括:
通过公式(2)计算人体姿态预测结果;
式中,为人体姿态预测结果,L为分类结果,z2为关键点的空间特征数据,T为时间特征数据,/>为融合数据,W为输出层的可学习参数,b为输出层的偏置项。
进一步地,所述通过所述全连接层对所述融合数据进行分类,得到分类结果,包括:
获取每个所述关键点的X轴坐标和Y轴坐标,基于所述X轴坐标和Y轴坐标得到每个所述关键点的空间特征数据;
基于所述关键点的空间特征数据和所述时间特征数据,获取人体框架中人体各部位对应的人体骨骼关键点集合;
计算所述融合数据属于人体各部位对应的人体骨骼关键点集合的概率值;
基于所述概率值确定人体各部位对应的人体骨骼关键点集合。
进一步地,所述人体姿态的分析方法,还包括:
获取待分析人体姿态图像,对所述待分析人体姿态图像进行预处理,得到只包含人体框架的待分析图像;
将所述待分析图像输入至训练完成的姿态分析模型中,输出所述人体姿态预测结果。
进一步地,所述人体姿态的分析方法,还包括:
判断所述人体姿态预测结果是否合格,当所述人体姿态预测结果合格时,基于所述人体姿态预测结果确定对应的执行指令;
当所述人体姿态预测结果不合格时,基于所述人体姿态预测结果确定对应的预警预案,基于所述预警预案采取预警措施。
一种人体姿态的分析系统,包括:
获取模块,用于获取一定数量的人体姿态图像;
预处理模块,用于对所述人体姿态图像进行预处理,得到只包含人体框架的训练图像;
构建模块,用于构建姿态分析模型,其中,所述姿态分析模型包括依次连接的卷积层、空间特征提取模块、时间特征提取模块、融合模块、全连接层和输出层;通过所述卷积层获取所述人体框架对应的关键点,通过所述空间特征提取模块获取每个关键点的空间特征数据,通过所述时间特征提取模块获取每个关键点的时间特征数据,通过所述融合模块将所述空间特征数据和所述时间特征数据进行融合,得到融合数据,通过所述全连接层对所述融合数据进行分类,得到分类结果,通过所述分类结果和所述融合数据对人体姿态进行预测得到人体姿态预测结果;
训练模块,用于将所述人体框架作为输入、人体姿态预测结果作为输出,对所述姿态分析模型进行训练,得到训练好的姿态分析模型。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如所述方法的步骤。
一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述方法的步骤。
本发明实施例具有如下优点:
本发明中人体姿态的分析方法,获取一定数量的人体姿态图像,对所述人体姿态图像进行预处理,得到只包含人体框架的训练图像;构建姿态分析模型,其中,所述姿态分析模型包括依次连接的卷积层、空间特征提取模块、时间特征提取模块、融合模块、全连接层和输出层;通过所述卷积层获取所述人体框架对应的关键点,通过所述空间特征提取模块获取每个关键点的空间特征数据,通过所述时间特征提取模块获取每个关键点的时间特征数据,通过所述融合模块将所述空间特征数据和所述时间特征数据进行融合,得到融合数据,通过所述全连接层对所述融合数据进行分类,得到分类结果,通过所述分类结果和所述融合数据对人体姿态进行预测得到人体姿态预测结果;将所述人体框架作为输入、人体姿态预测结果作为输出,对所述姿态分析模型进行训练,得到训练好的姿态分析模型;解决了现有技术中对人体姿态的分析存在检测不准和重复检测的问题。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本发明人体姿态的分析方法的流程图;
图2为本发明人体姿态的分析系统的架构图;
图3为本发明提供的电子设备实体结构示意图。
其中附图标记为:
获取模块10,预处理模块20,构建模块30,训练模块40,电子设备50,处理器501,存储器502,总线503。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
图1为本发明人体姿态的分析方法实施例流程图,如图1所示,本发明实施例提供的一种人体姿态的分析方法包括以下步骤:
S101,获取一定数量的人体姿态图像,对人体姿态图像进行预处理,得到只包含人体框架的训练图像;
具体的,通过目标检测算法获取所述人体姿态图像中存在的人体框架,将所述人体姿态图像中存在的每一个人都检测出来,所述人体框架的数量与检测图像中存在的人数相对应;基于所述人体框架确定训练图像,然后在人体框架的基础上做人体骨骼关键点检测。
通过目标检测算法对所述人体姿态图像中的人体进行检测,得到每一个人体的人体框架;
判断所述人体框架是否合格,当所述人体框架不合格时,对所述人体框架进行预处理,直至所述人体框架合格;
基于骨骼点坐标文件,对每个人体的每个骨骼点进行标注,得到只包含人体框架的带有标注的训练图像。
通过目标检测算法将每一个人检测出来的一种优选的实施例为:
第一步,根据输入的待检测图像进行数据采样,提取特征图;算法的预测输入图片尺寸为640x640,三通道的RGB图片,主干网络采用CSPNeXt,以及CSPNeXtPAFPN层做多尺度融合特征融合,经过CSPNeXt,CSPNeXtPAFPN层的8倍、16倍、32倍下采样得到80x80,40x40,20x20三个尺寸的特征图,此时经过计算后三层的通道数都保持为256,经过bbox head层得到两个计算分支,分别为第一:物体检测类别预测分支,将通道数量256改变为num_class数量(如coco数据集类别为80类,具体以实际类别数量为主),80对应所有类别的数量,第二:边界框回归分支,通道数也将由256改为4,其中4是指预测矩形框的四个点坐标。
第二步,根据特征图进行回归预测:根据特征图尺寸初始化三个网格,大小分别为6400(80x80)、1600(40x40)、400(20x20),如第一个层shape为torch.Size([6400,2]),最后一个维度是2,为网格点的横纵坐标,而6400表示当前特征层的网格点数量。经过predict_by_feat_single函数,将从head提取的单一图像的特征转换为bbox结果输入,得到三个列表cls_score_list,bbox_pred_list,mlvl_priors。之后分别遍历三个特征层,分别对class类别预测分支、bbox回归分支进行处理。以第一层为例,对bbox预测分支[4,80,80]维度变换为[6400,4],对类别预测分支[80,80,80]变化为[6400,80],并对其做归一化,确保类别置信度在0-1之间。先使用一个nms_pre操作,先过滤大部分置信度比较低的预测结果(比如score_thr阈值设置为0.05,则去除当前预测置信度低于0.05的结果),然后得到bbox坐标、所在网格的坐标、置信度、标签的信息。经过三个特征层遍历之后,分别整合这三个层得到的四个信息放入结果列表中。最后将网络的预测结果映射到整图当中,得到bbox在整图中的坐标值进行nms操作。
第三步:数据归一化,预测出结果:最终预测得到的返回值为经过后处理的每张待检测图像的检测结果,包含分类置信度,框的labels(标签),框的四个坐标[4,80,80]维度变换为[6400,4],对类别预测分[80,80,80]变化为[6400,80],并对其做归一化,确保类别置信度在0-1之间。最后得出预测的cls类别,物体的bbox,置信度实际结果。
S102,构建姿态分析模型,其中,姿态分析模型包括依次连接的卷积层、空间特征提取模块、时间特征提取模块、融合模块、全连接层和输出层;
具体的,通过所述卷积层获取所述人体框架对应的关键点,通过所述空间特征提取模块获取每个关键点的空间特征数据,通过所述时间特征提取模块获取每个关键点的时间特征数据,通过所述融合模块将所述空间特征数据和所述时间特征数据进行融合,得到融合数据,通过所述全连接层对所述融合数据进行分类,得到分类结果,通过所述分类结果和所述融合数据对人体姿态进行预测得到人体姿态预测结果;
所述通过所述时间特征提取模块获取每个关键点的时间特征数据,包括:
通过公式(1)计算每个关键点的时间特征数据;
式中,h为每个关键点的时间特征数据,X(l)为当前层的网络输入,fi(X)为卷积运算,σ为sigmoid非线性激活函数,为卷积算子。
所述通过所述分类结果和所述融合数据对人体姿态进行预测得到人体姿态预测结果,包括:
通过公式(2)计算人体姿态预测结果;
式中,为人体姿态预测结果,L为分类结果,z2为关键点的空间特征数据,T为时间特征数据,/>为融合数据,W为输出层的可学习参数,b为输出层的偏置项。
所述通过所述全连接层对所述融合数据进行分类,得到分类结果,包括:
获取每个所述关键点的X轴坐标和Y轴坐标,基于所述X轴坐标和Y轴坐标得到每个所述关键点的空间特征数据;
本发明将水平轴和垂直轴划分为等宽编号的bin,并将连续坐标离散化为整数bin标签。然后训练模型来预测关键点所在的bin。通过使用大量的bin,可以将量化误差降低到子像素级别;结构简单:由于这种新颖的公式,SimCC具有非常简单的结构,使用1×1卷积层将主干提取的特征转换为矢量化关键点表示,并使用两个全连接层分别执行分类;
SimCC提出了一种高斯标签平滑策略,用以ground-truth bin为中心的高斯分布式软标签代替one-hot标签,该策略在模型训练中融合了归纳偏差,带来了显著的性能改进。
基于所述关键点的空间特征数据和所述时间特征数据,获取人体框架中人体各部位对应的人体骨骼关键点集合;
计算所述融合数据属于人体各部位对应的人体骨骼关键点集合的概率值;
将每一类融合数据用一个概率图来表示,对图片中的每个融合数据都给一个概率,表示该融合数据属于对应类别关键点的概率,比较自然的是,距离关键点位置越近的融合数据的概率越接近1,距离关键点越远的融合数据的概率越接近0,具体可以通过相应函数进行模拟,如Gaussian等,如果同一个融合数据距离不同关键点的距离大小不同,即相对于不同关键点该位置的概率不一样,这时可以取Max或Average。
将图片中所有的关键点都检测出来,然后通过相关策略将所有的关键点聚类成不同的个体,其中对关键点之间关系进行建模的代表性算法有PAF,Associative Embedding,Part Segmentation,Mid-Range offsets,目前在MSCOCO数据集上最好的效果是68.7%。
基于所述概率值确定人体各部位对应的人体骨骼关键点集合。
S103,将人体框架作为输入、人体姿态预测结果作为输出,对姿态分析模型进行训练,得到训练好的姿态分析模型。
具体的,获取一定数量的训练图像,将一定数量的所述训练图像划分为训练集、验证集和测试集;
将所述训练集输入所述姿态分析模型进行训练,得到训练好的姿态分析模型;
基于所述验证集对训练后的所述姿态分析模型进行性能评估,得到满足性能条件的姿态分析模型;
基于所述测试集评估满足性能条件的所述姿态分析模型的分析结果,得到所述姿态分析模型所对应的评价指数。
基于所述验证集对训练好的所述姿态分析模型进行性能评估,得到满足性能条件的姿态分析模型;基于所述测试集评估满足性能条件的所述姿态分析模型的相似度计算结果,得到所述姿态分析模型所对应的评价指数。对姿态分析模型进行性能评估,得到是百分制分数(即最高分为100分,最低分为0分),基于百分制分数确定打分大于设定数值的姿态分析模型,例如,打分大于90分的姿态分析模型为满足性能条件的姿态分析模型;
满足性能条件的姿态分析模型进行评价指数计算,得到姿态分析模型的评价指数,计算获得每个评价指数对应的评价值,所述评价值用于表示所述姿态分析模型在所述评价指数上的能力值。
对于关键点检测算法,首先需要注意的是关键点局部信息的区分性很弱,即背景中很容易会出现同样的局部区域造成混淆,所以需要考虑较大的感受野区域;其次人体不同关键点的检测的难易程度是不一样的,对于腰部、腿部这类关键点的检测要明显难于头部附近关键点的检测,所以不同的关键点可能需要区别对待;本发明将深度学习应用于人体姿态分析,同时用卷积图层表达纹理信息和空间信息。主要网络结构分为多个stage,其中第一个stage会产生初步的关键点的检测效果,接下来的几个stage均以前一个stage的预测输出和从原图提取的特征作为输入,进一步提高关键点的检测效果。
使用BlazePose中的跳帧检测机制,其中每K帧执行一次人体检测,并且在间隔帧中,边界框是根据最后的姿势估计结果生成的。为了实现帧的平滑预测,在后处理阶段使用基于OKS的姿态NMS和OneEuro滤波器。
该人体姿态的分析方法,获取一定数量的人体姿态图像,对所述人体姿态图像进行预处理,得到只包含人体框架的训练图像;构建姿态分析模型,其中,所述姿态分析模型包括依次连接的卷积层、空间特征提取模块、时间特征提取模块、融合模块、全连接层和输出层;通过所述卷积层获取所述人体框架对应的关键点,通过所述空间特征提取模块获取每个关键点的空间特征数据,通过所述时间特征提取模块获取每个关键点的时间特征数据,通过所述融合模块将所述空间特征数据和所述时间特征数据进行融合,得到融合数据,通过所述全连接层对所述融合数据进行分类,得到分类结果,通过所述分类结果和所述融合数据对人体姿态进行预测得到人体姿态预测结果;将所述人体框架作为输入、人体姿态预测结果作为输出,对所述姿态分析模型进行训练,得到训练好的姿态分析模型。解决了现有技术中对人体姿态的分析存在检测不准和重复检测的问题。
图2为本发明人体姿态的分析系统实施例架构图;如图2所示,本发明实施例提供的一种人体姿态的分析系统,包括以下步骤:
获取模块10,用于获取一定数量的人体姿态图像;
预处理模块20,用于对所述人体姿态图像进行预处理,得到只包含人体框架的训练图像;
所述预处理模块20还用于:
通过目标检测算法对所述人体姿态图像中的人体进行检测,得到每一个人体的人体框架;
判断所述人体框架是否合格,当所述人体框架不合格时,对所述人体框架进行预处理,直至所述人体框架合格;
基于骨骼点坐标文件,对每个人体的每个骨骼点进行标注,得到只包含人体框架的带有标注的训练图像。
构建模块30,用于构建姿态分析模型,其中,所述姿态分析模型包括依次连接的卷积层、空间特征提取模块、时间特征提取模块、融合模块、全连接层和输出层;通过所述卷积层获取所述人体框架对应的关键点,通过所述空间特征提取模块获取每个关键点的空间特征数据,通过所述时间特征提取模块获取每个关键点的时间特征数据,通过所述融合模块将所述空间特征数据和所述时间特征数据进行融合,得到融合数据,通过所述全连接层对所述融合数据进行分类,得到分类结果,通过所述分类结果和所述融合数据对人体姿态进行预测得到人体姿态预测结果;
通过公式(1)计算每个关键点的时间特征数据;
式中,h为每个关键点的时间特征数据,X(l)为当前层的网络输入,fi(X)为卷积运算,σ为sigmoid非线性激活函数,为卷积算子。
通过公式(2)计算人体姿态预测结果;
式中,为人体姿态预测结果,L为分类结果,z2为关键点的空间特征数据,T为时间特征数据,/>为融合数据,W为输出层的可学习参数,b为输出层的偏置项。
获取每个所述关键点的X轴坐标和Y轴坐标,基于所述X轴坐标和Y轴坐标得到每个所述关键点的空间特征数据;
基于所述关键点的空间特征数据和所述时间特征数据,获取人体框架中人体各部位对应的人体骨骼关键点集合;
计算所述融合数据属于人体各部位对应的人体骨骼关键点集合的概率值;
基于所述概率值确定人体各部位对应的人体骨骼关键点集合。
训练模块40,用于将所述人体框架作为输入、人体姿态预测结果作为输出,对所述姿态分析模型进行训练,得到训练好的姿态分析模型。
所述人体姿态的分析系统还包括分析模块,所述分析模块还用于:
获取待分析人体姿态图像,对所述待分析人体姿态图像进行预处理,得到只包含人体框架的待分析图像;
将所述待分析图像输入至训练完成的姿态分析模型中,输出所述人体姿态预测结果。
执行模块,用于判断所述人体姿态预测结果是否合格,当所述人体姿态预测结果合格时,基于所述人体姿态预测结果确定对应的执行指令;
当所述人体姿态预测结果不合格时,基于所述人体姿态预测结果确定对应的预警预案,基于所述预警预案采取预警措施。
本发明的一种人体姿态的分析系统,通过获取模块10获取一定数量的人体姿态图像;通过预处理模块20对所述人体姿态图像进行预处理,得到只包含人体框架的训练图像;通过构建模块30构建姿态分析模型,其中,所述姿态分析模型包括依次连接的卷积层、空间特征提取模块、时间特征提取模块、融合模块、全连接层和输出层;通过所述卷积层获取所述人体框架对应的关键点,通过所述空间特征提取模块获取每个关键点的空间特征数据,通过所述时间特征提取模块获取每个关键点的时间特征数据,通过所述融合模块将所述空间特征数据和所述时间特征数据进行融合,得到融合数据,通过所述全连接层对所述融合数据进行分类,得到分类结果,通过所述分类结果和所述融合数据对人体姿态进行预测得到人体姿态预测结果;通过训练模块40将所述人体框架作为输入、人体姿态预测结果作为输出,对所述姿态分析模型进行训练,得到训练好的姿态分析模型。该人体姿态的分析方法解决现有技术中对人体姿态的分析存在检测不准和重复检测的问题。
图3为本发明实施例提供的电子设备实体结构示意图,如图3所示,电子设备50包括:处理器501(processor)、存储器502(memory)和总线503;
其中,处理器501、存储器502通过总线503完成相互间的通信;
处理器501用于调用存储器502中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取一定数量的人体姿态图像,对所述人体姿态图像进行预处理,得到只包含人体框架的训练图像;构建姿态分析模型,其中,所述姿态分析模型包括依次连接的卷积层、空间特征提取模块、时间特征提取模块、融合模块、全连接层和输出层;通过所述卷积层获取所述人体框架对应的关键点,通过所述空间特征提取模块获取每个关键点的空间特征数据,通过所述时间特征提取模块获取每个关键点的时间特征数据,通过所述融合模块将所述空间特征数据和所述时间特征数据进行融合,得到融合数据,通过所述全连接层对所述融合数据进行分类,得到分类结果,通过所述分类结果和所述融合数据对人体姿态进行预测得到人体姿态预测结果;将所述人体框架作为输入、人体姿态预测结果作为输出,对所述姿态分析模型进行训练,得到训练好的姿态分析模型。
本实施例提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行上述各方法实施例所提供的方法,例如包括:获取一定数量的人体姿态图像,对所述人体姿态图像进行预处理,得到只包含人体框架的训练图像;构建姿态分析模型,其中,所述姿态分析模型包括依次连接的卷积层、空间特征提取模块、时间特征提取模块、融合模块、全连接层和输出层;通过所述卷积层获取所述人体框架对应的关键点,通过所述空间特征提取模块获取每个关键点的空间特征数据,通过所述时间特征提取模块获取每个关键点的时间特征数据,通过所述融合模块将所述空间特征数据和所述时间特征数据进行融合,得到融合数据,通过所述全连接层对所述融合数据进行分类,得到分类结果,通过所述分类结果和所述融合数据对人体姿态进行预测得到人体姿态预测结果;将所述人体框架作为输入、人体姿态预测结果作为输出,对所述姿态分析模型进行训练,得到训练好的姿态分析模型。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的存储介质。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各实施例或者实施例的某些部分的方法。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (10)
1.一种人体姿态的分析方法,其特征在于,所述方法具体包括:
获取一定数量的人体姿态图像,对所述人体姿态图像进行预处理,得到只包含人体框架的训练图像;
构建姿态分析模型,其中,所述姿态分析模型包括依次连接的卷积层、空间特征提取模块、时间特征提取模块、融合模块、全连接层和输出层;
通过所述卷积层获取所述人体框架对应的关键点,通过所述空间特征提取模块获取每个关键点的空间特征数据,通过所述时间特征提取模块获取每个关键点的时间特征数据,通过所述融合模块将所述空间特征数据和所述时间特征数据进行融合,得到融合数据,通过所述全连接层对所述融合数据进行分类,得到分类结果,通过所述分类结果和所述融合数据对人体姿态进行预测得到人体姿态预测结果;
将所述人体框架作为输入、人体姿态预测结果作为输出,对所述姿态分析模型进行训练,得到训练好的姿态分析模型。
2.根据权利要求1所述人体姿态的分析方法,其特征在于,所述获取一定数量的人体姿态图像,对所述人体姿态图像进行预处理,得到只包含人体框架的训练图像,包括:
通过目标检测算法对所述人体姿态图像中的人体进行检测,得到每一个人体的人体框架;
判断所述人体框架是否合格,当所述人体框架不合格时,对所述人体框架进行预处理,直至所述人体框架合格;
基于骨骼点坐标文件,对每个人体的每个骨骼点进行标注,得到只包含人体框架的带有标注的训练图像。
3.根据权利要求1所述人体姿态的分析方法,其特征在于,所述通过所述时间特征提取模块获取每个关键点的时间特征数据,包括:
通过公式(1)计算每个关键点的时间特征数据;
式中,h为每个关键点的时间特征数据,X(l)为当前层的网络输入,fi(X)为卷积运算,σ为si gmoi d非线性激活函数,为卷积算子。
4.根据权利要求1所述人体姿态的分析方法,其特征在于,所述通过所述分类结果和所述融合数据对人体姿态进行预测得到人体姿态预测结果,包括:
通过公式(2)计算人体姿态预测结果;
式中,为人体姿态预测结果,L为分类结果,z2为关键点的空间特征数据,T为时间特征数据,/>为融合数据,W为输出层的可学习参数,b为输出层的偏置项。
5.根据权利要求1所述人体姿态的分析方法,其特征在于,所述通过所述全连接层对所述融合数据进行分类,得到分类结果,包括:
获取每个所述关键点的X轴坐标和Y轴坐标,基于所述X轴坐标和Y轴坐标得到每个所述关键点的空间特征数据;
基于所述关键点的空间特征数据和所述时间特征数据,获取人体框架中人体各部位对应的人体骨骼关键点集合;
计算所述融合数据属于人体各部位对应的人体骨骼关键点集合的概率值;
基于所述概率值确定人体各部位对应的人体骨骼关键点集合。
6.根据权利要求1所述人体姿态的分析方法,其特征在于,所述人体姿态的分析方法,还包括:
获取待分析人体姿态图像,对所述待分析人体姿态图像进行预处理,得到只包含人体框架的待分析图像;
将所述待分析图像输入至训练完成的姿态分析模型中,输出所述人体姿态预测结果。
7.根据权利要求6所述人体姿态的分析方法,其特征在于,所述人体姿态的分析方法,还包括:
判断所述人体姿态预测结果是否合格,当所述人体姿态预测结果合格时,基于所述人体姿态预测结果确定对应的执行指令;
当所述人体姿态预测结果不合格时,基于所述人体姿态预测结果确定对应的预警预案,基于所述预警预案采取预警措施。
8.一种人体姿态的分析系统,其特征在于,包括:
获取模块,用于获取一定数量的人体姿态图像;
预处理模块,用于对所述人体姿态图像进行预处理,得到只包含人体框架的训练图像;
构建模块,用于构建姿态分析模型,其中,所述姿态分析模型包括依次连接的卷积层、空间特征提取模块、时间特征提取模块、融合模块、全连接层和输出层;通过所述卷积层获取所述人体框架对应的关键点,通过所述空间特征提取模块获取每个关键点的空间特征数据,通过所述时间特征提取模块获取每个关键点的时间特征数据,通过所述融合模块将所述空间特征数据和所述时间特征数据进行融合,得到融合数据,通过所述全连接层对所述融合数据进行分类,得到分类结果,通过所述分类结果和所述融合数据对人体姿态进行预测得到人体姿态预测结果;
训练模块,用于将所述人体框架作为输入、人体姿态预测结果作为输出,对所述姿态分析模型进行训练,得到训练好的姿态分析模型。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中的任一项所述的方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中的任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410262393.7A CN118097785A (zh) | 2024-03-07 | 2024-03-07 | 人体姿态的分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410262393.7A CN118097785A (zh) | 2024-03-07 | 2024-03-07 | 人体姿态的分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118097785A true CN118097785A (zh) | 2024-05-28 |
Family
ID=91158911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410262393.7A Pending CN118097785A (zh) | 2024-03-07 | 2024-03-07 | 人体姿态的分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118097785A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801061A (zh) * | 2021-04-07 | 2021-05-14 | 南京百伦斯智能科技有限公司 | 一种体态识别方法及系统 |
CN113205595A (zh) * | 2021-05-21 | 2021-08-03 | 华中科技大学 | 一种3d人体姿态估计模型的构建方法及其应用 |
CN114373225A (zh) * | 2021-12-30 | 2022-04-19 | 复旦大学 | 一种基于人体骨架的行为识别方法及系统 |
CN116229560A (zh) * | 2022-09-08 | 2023-06-06 | 广东省泰维思信息科技有限公司 | 一种基于人体姿态的异常行为识别方法及系统 |
CN116229507A (zh) * | 2023-02-16 | 2023-06-06 | 南京邮电大学 | 人体姿态检测方法及系统 |
CN116798127A (zh) * | 2023-08-02 | 2023-09-22 | 电子科技大学 | 一种基于全卷积的太极拳全身姿态估计方法、设备和介质 |
WO2024036825A1 (zh) * | 2022-08-16 | 2024-02-22 | 深圳先进技术研究院 | 姿态处理方法、装置、系统以及存储介质 |
-
2024
- 2024-03-07 CN CN202410262393.7A patent/CN118097785A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801061A (zh) * | 2021-04-07 | 2021-05-14 | 南京百伦斯智能科技有限公司 | 一种体态识别方法及系统 |
CN113205595A (zh) * | 2021-05-21 | 2021-08-03 | 华中科技大学 | 一种3d人体姿态估计模型的构建方法及其应用 |
CN114373225A (zh) * | 2021-12-30 | 2022-04-19 | 复旦大学 | 一种基于人体骨架的行为识别方法及系统 |
WO2024036825A1 (zh) * | 2022-08-16 | 2024-02-22 | 深圳先进技术研究院 | 姿态处理方法、装置、系统以及存储介质 |
CN116229560A (zh) * | 2022-09-08 | 2023-06-06 | 广东省泰维思信息科技有限公司 | 一种基于人体姿态的异常行为识别方法及系统 |
CN116229507A (zh) * | 2023-02-16 | 2023-06-06 | 南京邮电大学 | 人体姿态检测方法及系统 |
CN116798127A (zh) * | 2023-08-02 | 2023-09-22 | 电子科技大学 | 一种基于全卷积的太极拳全身姿态估计方法、设备和介质 |
Non-Patent Citations (1)
Title |
---|
赫磊: "基于人体骨架时空特征的行为识别方法研究", 硕士电子期刊, no. 2021, 15 February 2021 (2021-02-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109919031B (zh) | 一种基于深度神经网络的人体行为识别方法 | |
CN107633226B (zh) | 一种人体动作跟踪特征处理方法 | |
CN108875600A (zh) | 一种基于yolo的车辆信息检测和跟踪方法、装置及计算机存储介质 | |
CN111476302A (zh) | 基于深度强化学习的Faster-RCNN目标物体检测方法 | |
CN114758288B (zh) | 一种配电网工程安全管控检测方法及装置 | |
CN111813997B (zh) | 入侵分析方法、装置、设备及存储介质 | |
CN112232371B (zh) | 一种基于YOLOv3与文本识别的美式车牌识别方法 | |
CN104504366A (zh) | 基于光流特征的笑脸识别系统及方法 | |
CN111091101B (zh) | 基于一步法的高精度行人检测方法、系统、装置 | |
CN112861917B (zh) | 基于图像属性学习的弱监督目标检测方法 | |
CN113657414B (zh) | 一种物体识别方法 | |
CN111523421A (zh) | 基于深度学习融合各种交互信息的多人行为检测方法及系统 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN113111716A (zh) | 一种基于深度学习的遥感影像半自动标注方法和装置 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN111738164B (zh) | 一种基于深度学习的行人检测方法 | |
US20230095533A1 (en) | Enriched and discriminative convolutional neural network features for pedestrian re-identification and trajectory modeling | |
CN112651996A (zh) | 目标检测跟踪方法、装置、电子设备和存储介质 | |
CN112348011B (zh) | 一种车辆定损方法、装置及存储介质 | |
CN111582057B (zh) | 一种基于局部感受野的人脸验证方法 | |
INTHIYAZ et al. | YOLO (YOU ONLY LOOK ONCE) Making Object detection work in Medical Imaging on Convolution detection System. | |
CN107886060A (zh) | 基于视频的行人自动检测与跟踪方法 | |
CN117274355A (zh) | 一种基于加速引导区域卷积神经网络和并行多尺度统一网络的排水管道流量智能测量方法 | |
CN113657196B (zh) | Sar图像目标检测方法、装置、电子设备和存储介质 | |
Lv et al. | An image rendering-based identification method for apples with different growth forms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |