CN110688969A

CN110688969A - 视频帧人体行为识别方法

Info

Publication number: CN110688969A
Application number: CN201910943828.3A
Authority: CN
Inventors: 王益县; 章子誉
Original assignee: Shanghai Is According To Figure Network Technology Co Ltd
Current assignee: Shanghai Is According To Figure Network Technology Co Ltd; Shanghai Yitu Network Science and Technology Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-14

Abstract

本发明公开了一种视频帧人体行为识别方法，其包括如下步骤：S1：使用人体检测算法检测视频帧中的人体区域、并将该人体区域截取出来；S2：使用深度神经网络对S1所得人体区域进行回归、得到预定义的人体关键点，并连接各关键点构成人体骨架；S3：基于S2所得人体骨架、提取该人体骨架的空间特征、并基于该空间特征判定行为分类。本发明能够在时间和背景运动方面具有更好的鲁棒性。

Description

视频帧人体行为识别方法

技术领域

本发明属于生物特征识别技术领域，具体来说涉及一种视频帧人体行为识别方法。

背景技术

在安防监控领域、尤其是室内非法行为检测场景，采用视频检测识别已经是一种较为常见的技术手段了。现有的技术主要分为基于传统特征的方法和基于深度学习的Two-Stream方法；目前基于深度学习的方法已经普遍优于传统特征方法；Two-Stream方法具体为将视频帧和X和Y方向的光流图像分别输入一个深度神经网络，得到分类结果；再在时间上针对输出的softmax输出训练一个SVM分类器；将最终的分类结果作为视频的特使行为识别结果；另外也有基于3D卷积神经网络的分类器，但其性能往往不如双光流方法。双光流方法存在运行速度较慢的问题，同时对背景中物体的运动极为敏感。此外，中国发明专利CN201510530331公开了一种基于3D异常步态行为检测识别的智能助老机器人及实现方法-申请公开，但是这种技术方案在工作过程中必须穿戴多种传感器，其操作过程比较繁琐，且设备成本较高。此外，其主要针对检测特定步态，无法检测更多的异常动作。因此，如何开发出一种新型的人体行为识别方法，以克服上述各现有技术所存在的问题，是本领域技术人员需要研究的方向。

发明内容

本发明的目的是提供一种视频帧人体行为识别方法，能够在时间和背景运动方面具有更好的鲁棒性。

其采用的技术方案如下：

一种视频帧人体行为识别方法，其包括如下步骤：S1：从视频帧中截取人体区域；S2：从S1取得的人体区域中构成人体骨架；S3：基于人体骨架的空间特征识别人体行为。

优选的是，上述视频帧人体行为识别方法中，包括如下步骤：S1：使用人体检测算法检测视频帧中的人体区域；S2：使用深度神经网络对S1取得的所述人体区域回归得到人体关键点，并连接各所述人体关键点构成人体骨架；S3：对S2取得的所述人体骨架提取空间特征，并基于所述空间特征判定视频帧中的人体行为分类。

优选的是，上述视频帧人体行为识别方法中，步骤S1包括如下步骤：S11：将视频帧分解为多个图片帧；S12：以人体检测算法对S11所得各图片帧分别进行检测、并获取人体区域；S13：将S12所得人体区域从图片帧中截取出来。

在其中一个或多个具体实施方式中，步骤S12中的人体检测算法可以选自于神经网络算法。优选地，该神经网络算法可以选自Faster RCNN算法或SSD算法等。

在其中一个或多个具体实施方式中，步骤S2包括如下步骤：S21：基于全卷积网络计算在人体区域中各个像素点属于关键点的编号的概率；S22：对各个关键点，将其所对应的高概率的像素点团中心，记为其关键点的位置、由此获得所有关键点的坐标；S23：链接S22所得各个关键点，构建为人体骨架。

在其中一个或多个具体实施方式中，步骤S3包括如下步骤：S31：选取某个关键点坐标为原点，以其他关键点坐标与原点坐标做差、计算其他各关键点坐标与原点坐标的偏移向量；S32：以原点和参考关键点的连线距离，作为标准长度，所有相对偏移向量距离除以其归一化；S33：将所有相对偏移向量合并成一个大向量，输入预测模型进行预测，分类其对应的动作。优选地，步骤S33中所述预测模型可以选用决策树模型。进一步优选地，决策树模型可以是以原点低于参考关键点时进行倒地行为判定；决策树模型也可以是以原点与参考关键点的斜率绝对值低于阈值时进行倒地行为判定，或者其他类似的判定方式。

通过采用上述技术方案：本发明基于关键点检测进行后续算法，相对于双光流法其运行速度更快，且对于整体光线的变化不强相关。相对于CN201510530331的方案，无需穿戴传感器，且能检测到更多的异常动作。因此与现有技术相比，本方案在时间和背景运动方面具有更好的鲁棒性。

附图说明

上面结合附图与具体实施方式对本发明作进一步详细的说明：

图1为本发明的流程示意图。

具体实施方式

为了更清楚地说明本发明的技术方案，上面将结合各个实施例作进一步描述。

一种视频帧人体行为识别方法，其包括如下步骤：

S1：使用人体检测算法检测视频帧中的人体区域：

S11：将视频帧分解为多个图片帧；

S12：以Faster RCNN算法或SSD算法对S11所得各图片帧分别进行检测、并获取人体区域；

S13：将S12所得人体区域从图片帧中截取出来。

S2：使用深度神经网络对S1取得的所述人体区域回归得到人体关键点，并连接各所述人体关键点构成人体骨架：

S21：基于全卷积网络计算在人体区域中各个像素点属于关键点的编号的概率；

S22：对各个关键点，将其所对应的高概率的像素点团中心，记为其关键点的位置，由此获得所有关键点的坐标；

S23：链接S22所得各个关键点，构建为人体骨架。

S3：对S2取得的所述人体骨架提取空间特征，并基于所述空间特征判定视频帧中的人体行为分类：

S31：选取某个关键点坐标为原点，以其他关键点坐标与原点坐标做差、计算其他各关键点坐标与原点坐标的偏移向量；

S32：以原点和参考关键点的连线距离，作为标准长度，所有相对偏移向量距离除以其归一化；

S33：将所有相对偏移向量合并成一个大向量，输入决策树进行预测，分类其对应的动作。

实施例1：

首先，使用人体检测算法检测视频帧中的人体区域：将视频帧分解为多个图片帧；以Faster RCNN算法对视频帧分解所得各图片帧分别进行检测并获取人体区域；将所得人体区域从图片帧中截取出来。

然后，使用深度神经网络对上述取得的人体区域回归得到人体关键点，并连接各所述人体关键点构成人体骨架；基于全卷积网络计算在人体区域中各个像素点属于关键点的编号的概率；对各个关键点，将其所对应的高概率的像素点团中心，记为其关键点的位置、由此获得所有关键点的坐标；链接所得各个关键点，构建为人体骨架。

再对上述取得的人体骨架提取空间特征，并基于空间特征判定视频帧中的人体行为分类：选取某个关键点坐标为原点，以其他关键点坐标与原点坐标做差、计算其他各关键点坐标与原点坐标的偏移向量；以原点和参考关键点的连线距离，作为标准长度，所有相对偏移向量距离除以其归一化；将所有相对偏移向量合并成一个大向量，输入决策树进行预测，分类其对应的动作。

以倒地判定为例，当图片帧出现以下情况时判定为被检测人员倒地：

以头部关键点为原点，以膝盖关键点为参考关键点。当头部关键点低于膝盖关键点，则决策树认为当前人体属于倒地。同时，当一段视频中，当判定为倒地的图片帧的比例超过一个阈值，则认为视频中人物倒地。

在上述实施例中，斜率阈值为0.5，时间阈值为3秒。所述斜率阈值和时间阈值皆为可调参数。

实施例2：

以头部关键点为原点，以膝盖关键点为参考关键点。当头部关键点和左右膝盖关键点连线的斜率的绝对值，都小于斜率阈值时，决策树认为当前人体属于倒地。同时，当一段视频中，当判定为倒地的图片帧的比例超过一个阈值，则认为视频中人物倒地

在上述实施例中，斜率阈值为0.3，时间阈值为5秒。所述斜率阈值和时间阈值皆为可调参数。

以上所述，仅为本发明的具体实施例，但本发明的保护范围并不局限于此，任何熟悉本领域技术的技术人员在本发明公开的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围以权利要求书的保护范围为准。

Claims

1.一种视频帧人体行为识别方法，其特征在于，包括如下步骤：

S1：从视频帧中截取人体区域；

S2：从S1取得的人体区域中构成人体骨架；

S3：基于人体骨架的空间特征识别人体行为。

2.如权利要求1所述视频帧人体行为识别方法，其特征在于：

所述S1：使用人体检测算法检测视频帧中的所述人体区域；

所述S2：使用深度神经网络对所述S1取得的所述人体区域回归得到人体关键点，并连接各所述人体关键点构成所述人体骨架；

所述S3：对所述S2取得的所述人体骨架提取所述空间特征，并基于所述空间特征判定视频帧中的人体行为分类。

3.如权利要求2所述视频帧人体行为识别方法，其特征在于，步骤S1进一步包括如下步骤：

S11：将视频帧分解为多个图片帧；

S12：以人体检测算法对S11所得各图片帧分别进行检测、并获取人体区域；

S13：将S12所得人体区域从图片帧中截取出来。

4.如权利要求3所述视频帧人体行为识别方法，其特征在于，步骤S12所述人体检测算法采用神经网络算法。

5.如权利要求4所述视频帧人体行为识别方法，其特征在于，所述神经网络算法选自Faster RCNN算法或SSD算法。

6.如权利要求2所述视频帧人体行为识别方法，其特征在于，步骤S2进一步包括如下步骤：

S23：链接S22所得各个关键点，构建为人体骨架。

7.如权利要求2所述视频帧人体行为识别方法，其特征在于，步骤S3进一步包括如下步骤：

S31：选取某个关键点坐标为原点，以其他关键点坐标与原点坐标做差，计算其他各关键点坐标与原点坐标的偏移向量；

S33：将所有相对偏移向量合并成一个大向量，输入预测模型进行预测，分类其对应的动作。

8.如权利要求7所述视频帧人体行为识别方法，其特征在于：步骤S33中所述预测模型采用决策树模型。

9.如权利要求8所述视频帧人体行为识别方法，其特征在于：所述决策树模型以原点低于参考关键点时进行倒地行为判定。

10.如权利要求8所述视频帧人体行为识别方法，其特征在于：所述决策树模型以原点与参考关键点的斜率绝对值低于阈值时进行倒地行为判定。