CN111860229A

CN111860229A - 异常行为智能识别方法及其装置和存储介质

Info

Publication number: CN111860229A
Application number: CN202010629968.6A
Authority: CN
Inventors: 刘媛俐
Original assignee: Shanghai Jiawo Photoelectric Technology Co ltd
Current assignee: Shanghai Jiawo Photoelectric Technology Co ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2020-10-30

Abstract

一种异常行为智能识别方法，包括先对人群进行一系列异常行为的视频采集；再将截取包含动作的视频，并进行平均分段；分别将获得的空间网络结果和时间网络结果进行加权求和，得到最终的视频分类结果。本发明提供的方法，有效地提升了行为识别算法的计算效率，改进后的双流行为识别算法，计算速度相对于标准双流算法预计提高数十倍。

Description

异常行为智能识别方法及其装置和存储介质

技术领域

本发明涉及对视频进行处理的技术方案，具体涉及一种异常行为智能识别方法，及其装置和存储介质。

背景技术

基于监控视频的人体行为识别(Human Action Recognition)，也叫人体动作识别，一直以来都备受中外研究者们的热情关注，原因不仅是由于基于视频的人体的行为识别研究在人机交互领域、安全监控方面、医疗诊断方面等具有非常重要的现实意义，而且行为识别的多领域广泛运用更是让它拥有了更多的研究价值，因此国内外众多科研工作者已经开展了大量的研究工作。基于视频的人体行为识别技术，涉及到了包括模式识别、图像处理和人工智能等多个知识领域，其中可能遇到的各种有待解决的问题包括环境变化、光线变化、目标遮挡等更是为视频中人的行为识别研究带来了很大的挑战。

人体行为识别特征提取方法早期有基于人体几何特征的计算方法、运动信息的特征提取方法；随着HOG、SIFT等具有先验知识的多尺度特征提取算法的提出，结合视频序列信息的HOG3D(Histogram of gradients 3D，Proceedings of the 19th British MachineVision Conference.Leeds：BMVA Press，2008.99.1～99.10)等基于时空兴趣点的特征提取方法得到了长足发展。以上方法在特征提取之后通常采用常见的模式识别算法如支持向量机(Support Vector Machine，SVM)等进行分类识别。

近年来随着深度学习(Deep learning)理论的提出，为设计自动特征学习方法奠定了基础，其理论框架应用于行为识别也得到了长足发展。(IEEE Transactions onPattern Analysis and Machine Intelligence，2013，35，221～231)由于深度神经网络可以自发从数据中学习到特征，而这种学习方式也符合人类感知世界的机理，因此当训练样本足够多的时候通过深度网络学习到的特征往往具有一定的语义特征，并且更适合目标和行为的识别。基于深度学习的行为识别算法可以分为四个体系：基于3D卷积神经网络的行为识别(自动化学报，2016，848～857)、基于自编码(Auto Encoder)的无监督行为识别、基于限制玻尔兹曼机(Restricted Boltzmann machine，RBM)的行为识别、基于递归神经网络(Recurrent neural network，RNN)的行为识别。基于卷积神经网络的方法一开始就获得了人们的注意，推广至行为识别的3DCNN取得了不错的效果。

双流CNN(neural information processing systems，2014，568～576)通过效仿人体视觉过程，对视频信息理解，在处理视频图像中的环境空间信息的基础上，对视频帧序列中的时序信息进行理解，为了更好地对这些信息进行理解，双流卷积神经网络将行为分类任务分为两个不同的部分。单独的视频单帧作为表述空间信息的载体，其中包含环境、视频中的物体等空间信息，称为空间信息网络；另外，光流信息作为时序信息的载体输入到另外一个卷积神经网络中，用来理解动作的动态特征，称为时间信息网络，为了获得比较好的行为分类效果，我们选用卷积神经网络对获得的数据样本进行特征提取和分类，我们将得到的单帧彩色图像与单帧光流图像以及叠加后的光流图像作为网络输入，分别对图像进行分类后，再对不同模型得到的结果进行融合。

诸如双流CNN之类的行为识别算法依赖于传统光流法给CNN提前计算动作信息，这样的方法需要高额的计算、储存空间，存在行为识别准确度较高却无法兼顾计算实时性的问题。

发明内容

本发明的一个目的在于提供一种异常行为智能识别方法，提高动作识别的准确度。

本发明的另一个目的在于提供一种异常行为智能识别方法，提高动作识别的实时性。

本发明的再一个目的在于提供一种装置，基于改进的双流CNN技术，对人的异常行为进行捕获、分析和判断，并发出警示。

本发明的又一个目的在于提供一种存储介质，以在计算机控制下实施异常行为智能识别方法。

异常行为通常是违反人们日常生活中的行为，或者违反出于完成生活所必须实施的动作(如：弯腰、举手和走动等)，比如：但不限于摔倒、摔打物品、扔物品、对人或物踢踹和扭打等。

一种异常行为智能识别方法，包括：

先对人群(如：老年人)进行一系列异常行为的视频采集；

再将截取包含动作的视频，并进行平均分段；

分别将获得的空间网络结果和时间网络结果进行加权求和，得到最终的视频分类结果，比如：摔倒、摔打物品、扔物品、对人或物踢踹和扭打等。

获取空间网络结果的方法如：将每一段视频中随机抽取的图像和对应的光流图像输入空间卷积神经网络，空间卷积神经网络通过融合光流信息学习到图像中真正发生运动的空间信息，而获取空间网络结果。

光流是空间运动物体在观察成像平面上的像素运动的瞬时速度，是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。一般而言，光流是由于场景中前景目标本身的移动、相机的运动，或者两者的共同运动所产生的。相邻两帧图像计算出一幅光流图像。

获取时间网络结果的方法如：将每一段视频中随机抽取的光流图像序列输入时间卷积神经网络，融合每一段的结果后得到时间网络结果。

时间信息网络和空间信息网络组合成双流CNN网络结构框架。

本发明的方法，选用MobileNet网络模型来替换CNN_M而设计改进的时间和空间双流网络，使得网络层次结构更深，卷积核尺寸更小，滤波器数量更多，卷积操作步长更小的趋势，这些转变在识别检测任务上获得了更好的效果。

一种装置，用于异常行为的识别，其采用上述的异常行为智能识别方法，对视频中的动作进行捕获、分析和判断，并在确定为异常行为后，即发出警示。

另一种装置，其包括

摄像机，用于实时捕获人体的动作；

处理器，接收摄像机提供的视频，并实施如下处理：

截取包含动作的视频，并进行平均分段；

分别将获得的空间网络结果和时间网络结果进行加权求和，得到最终的视频分类结果，并输出结果；

终端，其接收处理器的输出结果，于人机界面显示，或发出声、光和电之一种或几种报警信息。

一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述本发明的异常行为智能识别方法。

本发明提供的技术方案，有效地提升了行为识别算法的计算效率，改进后的双流行为识别算法，计算速度相对于标准双流算法预计提高数十倍。

附图说明

图1为本发明异常行为智能识别方法的实施例的流程图；

图2为本发明方法应用于异常行为智能识别一实施例的示意图。

具体实施方式

以下结合附图详细描述本发明的技术方案。本发明实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围中。

图1为本发明异常行为智能识别方法的实施例的流程图。如图1所示，本实施例的异常行为智能识别方法包括：

先对人群(如：老年人)进行一系列异常行为的视频采集；

再将截取包含动作的视频，并进行平均分段；

获取空间网络结果的方法如：将包含动作的视频进行平均分段，再将每一段视频中随机抽取的图像和对应的光流图像输入空间卷积神经网络，空间卷积神经网络通过融合光流图像信息学习到图像中真正发生运动的空间信息，而获取空间网络结果。

获取时间网络结果的方法如：将包含动作的视频进行平均分段，再将每一小段视频中随机抽取的光流图像序列输入时间卷积神经网络，通过卷积神经网络逐层抽象并提取光流图像序列的特征信息得到整段动作视频的时间网络结果。即多幅单通道灰度图片组合成多通道图片，彩色图片是3通道图片，而多通道图片的通道数高于3，通道数等于分段数目。

传统的时间和空间双流网络采用CNN_M网络作为基础模型，CNN_M包含5层卷积层和3层全连接层。与AlexNet相比，CNN_M包含更多的卷积滤波器。第一层卷积层的卷积核尺寸缩小为7×7，卷积步长减小为2，其他层次的参数都与AlexNet相同。本实施例以MobileNet网络模型来替换CNN_M，使得网络层次结构更深，卷积核尺寸更小，滤波器数量更多，卷积操作步长更小的趋势，这些转变在识别检测任务上获得了更好的效果。

图2为本发明方法应用于异常行为智能识别一实施例的示意图。如图2所示，将摄像机捕获的视频中涉及动作的影像进行平均分段。比如：每一帧为一段，或者每10帧为一段。随机抽取的图像和对应的光流图像输入空间卷积神经网络，通过融合光流信息学习到图像中真正发生运动的空间信息，获得空间网络结果。

将每一段视频中随机抽取的光流图像序列输入时间卷积神经网络，融合每一帧的结果，得到时间网络结果。

获得的空间网络结果和时间网络结果进行加权求和，判断动作类别为“异常行为”。

Claims

1.一种异常行为智能识别方法，其特征在于，包括以下步骤：

先对人群进行一系列异常行为的视频采集；

再将截取包含动作的视频，并进行平均分段；

分别将获得的空间网络结果和时间网络结果进行加权求和，得到最终的视频分类结果；

选用MobileNet网络模型来替换CNN_M网络组成双流网络。

2.根据权利要求1所述的异常行为智能识别方法，其特征在于获取所述的空间网络结果的方法包括：将每一段视频中随机抽取的图像和对应的光流图像输入空间卷积神经网络，空间卷积神经网络通过融合光流信息学习到图像中真正发生运动的空间信息得到。

3.根据权利要求1所述的异常行为智能识别方法，其特征在于获取所述的时间网络结果的方法包括：将每一段视频中随机抽取的光流图像序列输入时间卷积神经网络，融合每一段的结果后得到。

4.一种装置，其特征在于，包括权利要求1～3之一所述的异常行为智能识别方法。

5.根据权利要求4所述的影像摄取装置，其特征在于，包括：

摄像机，用于实时捕获人体的动作；

处理器，接收摄像机提供的视频，并实施权利要求1所述的方法；

6.一种存储器，所述存储器存储有计算机程序，其特征在于，所述计算机程序执行如下步骤：

先对人群进行一系列异常行为的视频采集；

再将截取包含动作的视频，并进行平均分段；

分别将获得的空间网络结果和时间网络结果进行加权求和，得到最终的视频分类结果。