CN111027481A

CN111027481A - 基于人体关键点检测的行为分析方法及装置

Info

Publication number: CN111027481A
Application number: CN201911260368.0A
Authority: CN
Inventors: 王锦文; 李观喜
Original assignee: Haoyun Technologies Co Ltd
Current assignee: Haoyun Technologies Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-04-17
Anticipated expiration: 2039-12-10
Also published as: CN111027481B

Abstract

为了解决上述技术问题中的行为分析的准确低的问题，本公开提供了一种基于人体关键点检测的行为分析方法及装置，提高行为分析的准确性。基于人体关键点检测的行为分析方法，包括：检测待识别视频中的行人；跟踪检测到的待识别视频中的行人；提取跟踪到的待识别视频中的行人的人体关键点序列；基于人体关键点序列和预设的行为分类器获得行人行为，其中，所述行为分类器为基于人体关键点序列和行人行为训练得到的分类器。装置包括检测模块、跟踪模块提取模块判断模块。本公开基于人体关键点序列和预设的行为分类器获得行人行为，相对于现有技术具有更高的效率和准确性。

Description

基于人体关键点检测的行为分析方法及装置

技术领域

本公开涉及一种行为分析方法，尤其涉及一种基于人体关键点检测的行为分析方法及装置。

背景技术

行为分析是当前计算机视觉研究比较热门的领域之一,当前用于行为分析的方法主要包括传统特征提取并预测的方法,典型的算法包括使用光流算法提取特征,然后使用svm进行分类,另一类方法是使用深度学习训练的方法分析行为,典型的方法是:使用双流神经网络的行为分析,首先对视频序列中的每两帧计算稠密光流,得到稠密光流序列,然后对视频图像和稠密光流分别使用CNN训练,两个分支的网络分别对动作的类别进行判断,最后对两个网络的分类结果进行融合得到最终分类结果，其不足在于：传统方法对噪声,视角变化等非常敏感,使用神经网络方法则比较耗时,而且使用神经网络方法容易受外观因素的影响,如色调,图像噪声等，进而导致传统分析方法准确性较低。

发明内容

为了解决上述技术问题中的至少一个，本公开提供了一种基于人体关键点检测的行为分析方法及装置，提高行为分析的准确性。

本公开的一方面，基于人体关键点检测的行为分析方法，包括：

检测待识别视频中的行人；

跟踪检测到的待识别视频中的行人；

提取跟踪到的待识别视频中的行人的人体关键点序列；

基于人体关键点序列和预设的行为分类器获得行人行为，其中，所述行为分类器为基于人体关键点序列和行人行为训练得到的分类器。

可选的，所述检测待识别视频中的行人包括根据预设的yolov3行人检测模型检测行人，其中，所述yolov3行人检测模型为基于视频帧和行人检测结果训练得到的yolov3模型；

所述跟踪检测到的待识别视频中的行人包括根据预设的SORT模型跟踪检测到的待识别视频中的行人。

可选的，提取跟踪到的待识别视频中的行人的人体关键点序列：根据改进的ResNet50网络提取行人的人体关键点，并根据预设数量帧的连续视频帧中的同一行人的人体关键点获得行人的人体关键点序列；其中，改进的ResNet50卷积网络为将ResNet50卷积网络按如下方式改进后的网络：

裁剪ResNet50卷积网络第44层之后的网络；

在裁剪后的ResNet50卷积网络的第44层后接入一个RFB网络结构；

在RFB网络结构后,接入第一上采样层，用以进行第一次上采样操作；

拼接第一上采样层与ResNet50卷积网络的第41层网络；

拼接后，再接入第一卷积操作层，用于进行卷积操作；

在第一卷积操作层后接入第二上采样层，用于进行第二次上采样操作；

在第二上采样层后接入第二卷积操作层，用于进行卷积操作；

在第二卷积操作层后接入第三卷积操作层，用于卷积操作，输出关节点关节点热图；

在第二卷积操作层后接入第四卷积操作层，用于卷积操作，输出人体连接的亲和域图。

可选的，基于人体关键点序列和预设的行为分类器获得行人行为包括：对人体关键点序列进行归一化，并将归一化后的人体关键点序列输入行为分类器得到行人行为。

可选的，所述对人体关键点序列进行归一化包括：对数据帧中的所有人体关键点按如下公式处理：

其中，X为归一化后的行人关键点的横坐标，Y为归一化后的行人关键点的纵坐标，x为归一化前的行人关键点的横坐标，y为归一化前的行人关键点的纵坐标，xmax为行人关键点所在视频帧中所有人体关键点的横坐标的最大值，ymax为行人关键点所在视频帧中所有人体关键点的纵坐标的最大值，xmin为行人关键点所在视频帧中所有人体关键点的横坐标的最小值，ymin为行人关键点所在视频帧中所有人体关键点的纵坐标的最小值，xu为行人关键点所在视频帧中所有人体关键点的横坐标的平均值，yu为行人关键点所在视频帧中所有人体关键点的纵坐标的平均值。

可选的，方法还包括行人关键点补齐的步骤：

获取未检测到的行人关键点；

判断未检测到的行人关键点是否存在对称的行人关键点，若存在，则以对称的行人关键点作为代替未检测到的行人关键点坐标。

本公开的另一方面，基于人体关键点检测的行为分析装置，包括：

检测模块，用于检测待识别视频中的行人；

跟踪模块，用于跟踪检测到的待识别视频中的行人；

提取模块，用于提取跟踪到的待识别视频中的行人的人体关键点序列；

判断模块，用于基于人体关键点序列和预设的行为分类器获得行人行为，其中，所述行为分类器为基于人体关键点序列和行人行为训练得到的分类器。

裁剪ResNet50卷积网络第44层之后的网络；

在裁剪后的ResNet50卷积网络的第44层后接入一个RFB网络结构；

拼接第一上采样层与ResNet50卷积网络的第41层网络；

拼接后，再接入第一卷积操作层，用于进行卷积操作；

本公开的技术方案，检测并跟踪待识别视频中的行人，并提取跟踪到的待识别视频中的行人的人体关键点序列，并基于人体关键点序列和预设的行为分类器获得行人行为，相对于现有技术具有更高的效率和准确性；而且本公开的技术方案在检测跟踪到行人后，再提取人体关键点序列，以及根据人体关键点序列判断行人行为，在保证行为判断精度的同时，提高了效率。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是本公开的示例性实施方式中基于人体关键点检测的行为分析方法的流程图；

图2是本公开的示例性实施方式中人体关键点的提取流程图；

图3是本公开的示例性实施方式中基于人体关键点检测的行为分析装置的连接示意图。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。

如图1所示，基于人体关键点检测的行为分析方法，包括：

步骤S1：检测待识别视频中的行人；

步骤S2：跟踪检测到的待识别视频中的行人；

步骤S3：提取跟踪到的待识别视频中的行人的人体关键点序列；

步骤S4：基于人体关键点序列和预设的行为分类器获得行人行为，其中，行为分类器为基于人体关键点序列和行人行为训练得到的分类器。

人体关键点序列指的是：将预设数量帧特定图像中的同一个行人的人体关键点排列后形成的序列。其中，预设数量帧特定图像指的是待识别视频中连续的预设数量帧的图像。预设数量帧可以根据需要设置，如10帧。

以预设数量帧为10帧时，提取待识别视频中的行人A的人体关键点序列为例；假设待识别视频中的第1帧图像中行人A的人体关键点为[A1],第2帧图像中行人A的人体关键点为[A2]，……,第10帧图像中行人A的人体关键点为[A10]；那么行人A的人体关键点序列可以是：[A1、A2、……、A10]。当然，需要说明的是人体关键点序列并不一定需要按上述的顺序排列；只要与分类器训练时采用的人体关键点序列的排列方式一致即可。

人体关键点指的是图像中人体的脖子、肩膀,手肘、膝盖和脚等关键点位置。

本实施例中，检测并跟踪待识别视频中的行人，并提取跟踪到的待识别视频中的行人的人体关键点序列，并基于人体关键点序列和预设的行为分类器获得行人行为。相对于现有技术具有更高的效率；而且本实施例中在检测跟踪到行人后，再提取人体关键点序列，以及根据人体关键点序列判断行人行为，在保证行为判断精度的同时，提高了效率。

作为上述实施方式的可选方案，检测待识别视频中的行人包括根据预设的yolov3行人检测模型检测行人，其中，yolov3行人检测模型为基于视频帧和行人检测结果训练得到的yolov3模型；

跟踪检测到的待识别视频中的行人包括根据预设的SORT模型跟踪检测到的待识别视频中的行人。

对于yolov3行人检测模型，首先收集一定数量的行人样本，使用yolov3模型进行训练行人检测得到yolov3行人检测模型，对行人进行检测，yoloV3的主要优点是在保持优势的前提下，提升了预测的精度，增强了小目标检测的能力。

对检测到的目标进行跟踪，SORT模型主要是：sort跟踪，其主要原理是：1.对第一帧检测到的行人初始化并创建新的跟踪器，并分配id，后续进来的帧，需要先用卡尔曼滤波得到上一帧目标框产生的状态预测和协方差预测；2.求当前跟踪器所有目标状态预测与当前帧检测框的重叠度，通过匈牙利匹配算法得到重叠度最大的唯一匹配；3.用当前帧匹配到的目标检测框去更新卡尔曼增益和状态更新以及协方差更新，将状态更新后的值输出，作为当前帧跟踪的结果框，对于当前帧中没有匹配到的目标重新分配和初始化跟踪器。

以ID为主键，人的特征信息为值，使得算法针对每个人进行分析而不是对区域内所有人一起分析，对跟踪到的目标进行人体关键点的提取，人体关键点提取。

作为上述实施方式的可选方案，提取跟踪的行人的人体关键点序列包括：根据改进的ResNet50网络提取行人的人体关键点，并根据预设数量帧的连续视频帧中的同一行人的人体关键点获得行人的人体关键点序列；其中，改进的ResNet50网络以ResNet50网络为基础，裁剪ResNet50网络第44层后的ResNet网络，并在ResNet50卷积网络第44层后接入一个RFB网络结构，接一个上采样模块，上采样模块与ResNet50网络的第41层进行拼接，拼接得到的信息进行卷积操作，卷积操作后再进行第二次上采样操作，上采样操作后再进行卷积操作，并在此层后接两个卷积操作分别输出人头关节点热图以及人体连接的亲和域图。

为了能实时对目标进行处理，人体关键点的提取使用了改进的ResNet50卷积网络进行训练和检测，如图2所示，改进的ResNet50卷积网络为将ResNet50卷积网络按如下方式改进后的网络：

裁剪ResNet50卷积网络第44层之后的网络；

在裁剪后的ResNet50卷积网络的第44层后接入一个RFB网络结构101；

在RFB网络结构101后,接入第一上采样层102，用以进行第一次上采样操作；

拼接第一上采样层102与ResNet50卷积网络的第41层网络；

拼接后，再接入第一卷积操作层103，用于进行卷积操作；

在第一卷积操作层103后接入第二上采样层104，用于进行第二次上采样操作；

在第二上采样层104后接入第二卷积操作层105，用于进行卷积操作；

在第二卷积操作层105后接入第三卷积操作层106，用于卷积操作，输出关节点关节点热图；

在第二卷积操作层105后接入第四卷积操作层107，用于卷积操作，输出人体连接的亲和域图；

人头关节点热图，共19维，人体连接的亲和域图PAF共38维，其中，人体关节点热点图是关键点的置信度,我们在训练的时候使用了18个身体热点图再加上一幅背景图片,因此身体热点图共有19个,因此人体热点图输出为19维,另外,PAF是一个2D矢量场,保留了点的位置和方向,它表示了身体部位之间的关联程度,输出38个维度是因为PAF一共定义了19个关键点间的连接,对于每个连接,都包含了x方向和y方向的信息,因此共有38维输出.然后进行后处理得到人体关键点。经过改进后的网络结构，能达到实时处理的效果。对检测跟踪到的行人框以框中心为参考点，对宽度和高度各放大1.2倍，并将框缩放到128*128分辨率，送入改进的人体检测网络提取关键点。

作为上述实施方式的可选方案，基于人体关键点序列和预设的行为分类器获得行人行为包括：对人体关键点序列进行归一化，并将归一化后的人体关键点序列输入行为分类器得到行人行为。

作为上述实施方式的可选方案，对人体关键点序列进行归一化包括：对数据帧中的所有人体关键点按如下公式处理：

以下对上述可选方案做进一步说明，由于检测出的人体关键点不仅与姿态有关，与其在画面中的位置也有关系，比如在画面的左右，或者画面的远近有关，为了消除这些影响，需要对特征进行归一化，归一化步骤为：求对当前帧中所有的关键点x，y的最大值xmax和ymax，以及最小值xmin和ymin，以及关键点的平均值xu，yu。，然后对当前帧的关键点逐个按照如下公式处理：

作为上述实施方式的可选方案，方法还包括行人关键点补齐的步骤：

获取未检测到的行人关键点；

由于相机角度问题，可能存在关键点丢失问题，因此需要对关键点进行补齐，具体的补齐方法可以为：(1)当重要关键点丢失时，则对此帧进行丢弃，(2)当对称的关键点种有一个关键点检测不到，则用另一个对称检测到的关键点坐标代替未检测到的关键点坐标，如果两个对称关键点均未检测到，则设置为(0，0)，然后再将关键点进行归一化，得到当前帧的空间特征。进一步地，由于行为分析常常是一个时间序列的过程，因此我们构建一个时间序列的特征，具体地就是将当前跟踪目标的之前的连续若干帧特征和当前帧的特征组成一个具有时间和空间特性的特征，作为最终的当前帧特征，经过测试验证，取10帧作为一个特征。

对于行为分类器，使用的机器学习方法可以为：SVM，选用的核函数是RFB函数，通过网格搜索自动选优的方法获取最优参数C和gamma，其中C是惩罚系数，C越高，说明越不能容忍出现误差，容易过拟合，C越小，则容易欠拟合。gamma则确定支持向量的多少，gamma越大，则支持向量只会作用于样本附近，对未知样本分类效果比较差，造成过拟合，如果gamma太小，则无法在训练集上得到特别高的准确率，测试集的准确率也会受影响。根据人的ID进行提取各自的特征，并分别进行预测，得到不同人的行为分析结果。

实施例2：

如图3所示，基于人体关键点检测的行为分析装置，包括：

检测模块1，用于检测待识别视频中的行人；

跟踪模块2，用于跟踪检测到的待识别视频中的行人；

提取模块3，用于提取跟踪到的待识别视频中的行人的人体关键点序列；

判断模块4，用于基于人体关键点序列和预设的行为分类器获得行人行为，其中，行为分类器为基于人体关键点序列和行人行为训练得到的分类器。

作为上述实施方式的可选方案，提取跟踪的行人的人体关键点序列包括：根据改进的ResNet50网络提取行人的人体关键点，并根据预设数量帧的连续视频帧中的同一行人的人体关键点获得行人的人体关键点序列；其中，改进的ResNet50网络以ResNet50网络为基础，裁剪ResNet50网络第44层后的ResNet50网络，并在ResNet50卷积网络第44层后接入一个RFB网络结构101，接一个上采样模块，上采样模块与ResNet50网络的第41层进行拼接，拼接得到的信息进行卷积操作，卷积操作后再进行第二次上采样操作，上采样操作后再进行卷积操作，并在此层后接两个卷积操作分别输出人头关节点热图以及人体连接的亲和域图。

作为上述实施方式的可选方案，基于人体关键点序列和预设的行为分类器获得行人行为包括：对人体关键点序列进行归一化，并将归一化后的人体关键点序列输入行为分类器得到行人行为。在本说明书的描述中，参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。

作为上述实施方式的可选方案，方法还包括关键点补齐模块，关键点补齐模块用于：

获取未检测到的行人关键点；

本实施例的原理和效果与实施例1中的一致，本实施例不再重复描述。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.基于人体关键点检测的行为分析方法，其特征在于，包括：

检测待识别视频中的行人；

跟踪检测到的待识别视频中的行人；

提取跟踪到的待识别视频中的行人的人体关键点序列；

2.如权利要求1所述的方法，其特征在于，所述检测待识别视频中的行人包括：根据预设的yolov3行人检测模型检测行人，其中，所述yolov3行人检测模型为基于视频帧和行人检测结果训练得到的yolov3模型；

3.如权利要求1所述的方法，其特征在于，提取跟踪到的待识别视频中的行人的人体关键点序列：根据改进的ResNet50网络提取行人的人体关键点，并根据预设数量帧的连续视频帧中的同一行人的人体关键点获得行人的人体关键点序列；其中，改进的ResNet50卷积网络为将ResNet50卷积网络按如下方式改进后的网络：

裁剪ResNet50卷积网络第44层之后的网络；

在裁剪后的ResNet50卷积网络的第44层后接入一个RFB网络结构；

拼接第一上采样层与ResNet50卷积网络的第41层网络；

拼接后，再接入第一卷积操作层，用于进行卷积操作；

4.如权利要求1所述的方法，其特征在于，基于人体关键点序列和预设的行为分类器获得行人行为包括：对人体关键点序列进行归一化，并将归一化后的人体关键点序列输入行为分类器得到行人行为。

5.如权利要求4所述的方法，其特征在于，所述对人体关键点序列进行归一化包括：对数据帧中的所有人体关键点按如下公式处理：

6.如权利要求1所述的方法，其特征在于，方法还包括行人关键点补齐的步骤：

获取未检测到的行人关键点；

7.基于人体关键点检测的行为分析装置，其特征在于，包括：

检测模块，用于检测待识别视频中的行人；

跟踪模块，用于跟踪检测到的待识别视频中的行人；

8.如权利要求1所述的装置，其特征在于，所述检测待识别视频中的行人包括根据预设的yolov3行人检测模型检测行人，其中，所述yolov3行人检测模型为基于视频帧和行人检测结果训练得到的yolov3模型；

9.如权利要求1所述的装置，其特征在于，提取跟踪到的待识别视频中的行人的人体关键点序列：根据改进的ResNet50网络提取行人的人体关键点，并根据预设数量帧的连续视频帧中的同一行人的人体关键点获得行人的人体关键点序列；其中，改进的ResNet50卷积网络为将ResNet50卷积网络按如下方式改进后的网络：

裁剪ResNet50卷积网络第44层之后的网络；

在裁剪后的ResNet50卷积网络的第44层后接入一个RFB网络结构；

拼接第一上采样层与ResNet50卷积网络的第41层网络；

拼接后，再接入第一卷积操作层，用于进行卷积操作；

10.如权利要求1所述的装置，其特征在于，基于人体关键点序列和预设的行为分类器获得行人行为包括：对人体关键点序列进行归一化，并将归一化后的人体关键点序列输入行为分类器得到行人行为。