CN113435262A

CN113435262A - 基于双流膨胀3d卷积网络的异常行为识别方法和预警系统

Info

Publication number: CN113435262A
Application number: CN202110634729.4A
Authority: CN
Inventors: 罗吉; 陆丽
Original assignee: Shanghai Dianji University
Current assignee: Shanghai Dianji University
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2021-09-24

Abstract

本发明涉及一种基于双流膨胀3D卷积网络的异常行为识别方法和预警系统，方法包括将实时获取的监控数据载入预先建立并训练好的双流膨胀3D卷积网络中，获取异常行为识别结果，用于进行异常预警；双流膨胀3D卷积网络包括第一膨胀3D卷积网络、第二膨胀3D卷积网络和全连接层，第一膨胀3D卷积网络和第二膨胀3D卷积网络的输出均连接全连接层，第一膨胀3D卷积网络和第二膨胀3D卷积网络均基于Inceptionv1模型增加时间维度扩展为3D网络。与现有技术相比，本发明基于inceptionv1网络对3D卷积网络进行了改进，从而搭建出双流膨胀3D卷积网络；双流膨胀3D卷积网络有效地利用了帧间运动信息的问题，考虑到了视频序列中隐藏运动信息，从而降低了相似行为误判的发生率。

Description

基于双流膨胀3D卷积网络的异常行为识别方法和预警系统

技术领域

本发明涉及异常行为识别技术领域，尤其是涉及基于双流膨胀3D卷积网络的异常行为识别方法和预警系统。

背景技术

随着计算机学科与人工智能的发展和应用，视频自动分析技术迅速兴起并得到了广泛关注，其中一项主要的应用是人体异常行为识别，异常行为识别的准确性和快速性将直接影响视频分析系统的后续工作。因此，如何提高视频中人体异常行为识别的准确性和实时性，已成为视频分析和安防系统的重点研究问题。目前，深度学习神经网络算法在异常行为识别领域取得了良好的效果，例如，卷积层+基于注意力机制的LSTM神经网络，双流网络和C3D神经网络。

现有的用于行为识别的神经网络方法往往更注重对高层语义信息的利用，对浅层特征信息的挖掘利用不够充分，仅使用RGB图像作为网络的输入，无法有效地利用帧间运动信息，未考虑到视频序列中隐藏的运动信息。其次，异常行为难以界定，其检测特征难以提取，与相似行为难以区分，例如，对于摔倒这一异常行为,极易与快速蹲下相混淆，因此，有些动作是细粒度的，需要时间推理来区分。最后，ImageNet上训练好的深度结构网络可以用于其他任务，同时随着深度结构的改进，效果也越来越好，然而现在已有的行为识别技术排除了对ImageNet预训练的好处，没有采用ImageNet预训练的新兴行为识别神经网络，相较成熟的行为识别神经网络在识别准确率上的提升不是很显著。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种有效地利用了帧间运动信息的问题，考虑到了视频序列中隐藏运动信息，从而降低了相似行为误判的发生率的基于双流膨胀3D卷积网络的异常行为识别方法和预警系统。

本发明的目的可以通过以下技术方案来实现：

一种基于双流膨胀3D卷积网络的异常行为识别方法，包括将实时获取的监控数据载入预先建立并训练好的双流膨胀3D卷积网络中，获取异常行为识别结果，用于进行异常预警；

所述双流膨胀3D卷积网络包括第一膨胀3D卷积网络、第二膨胀3D卷积网络和全连接层，所述第一膨胀3D卷积网络和第二膨胀3D卷积网络的输出均连接所述全连接层，所述第一膨胀3D卷积网络和第二膨胀3D卷积网络均基于Inceptionv1模型增加时间维度扩展为3D网络；

所述双流膨胀3D卷积网络的训练过程包括以下步骤：

S1：获取训练数据集，并进行预处理和数据增强处理，所述训练数据集包括RGB数据集和流数据集；

S2：将所述RGB数据集和流数据集分别载入两个基于Inceptionv1模型的时空特征提取器中，进行训练；

S3：根据训练后的两个基于Inceptionv1模型的时空特征提取器，分别初始化所述第一膨胀3D卷积网络和第二膨胀3D卷积网络；

S4：根据所述训练数据集，获取RGB输入和光流输入，分别载入所述第一膨胀3D卷积网络和第二膨胀3D卷积网络中，对所述双流膨胀3D卷积网络进行训练；

所述监控数据载入双流膨胀3D卷积网络中具体为，根据所述监控数据，获取RGB数据和光流数据，然后载入所述双流膨胀3D卷积网络。

进一步地，所述预处理包括对所述训练数据集的每一帧进行裁剪，并构建达到第一帧数的视频数据，用于模型训练。

进一步地，所述数据增强处理包括对所述训练数据集进行翻转操作。

进一步地，所述基于Inceptionv1模型的时空特征提取器采用改进的BN-Inception的网络结构，该BN-Inception的网络结构前两个池化层的步长为1，最后的池化层的尺度为2*7*7；所述BN-Inception的网络结构中除了最后一个卷积层，其余卷积层后面均加有BN和relu激活函数。

进一步地，所述基于Inceptionv1模型增加时间维度扩展为3D网络具体为：

沿着时间维度重复2D的Inceptionv1模型的权重N次，并且通过除以N进行归一化，如果2D的Inceptionv1模型的大小为N*N，那么对应生成的3D网络的大小为N*N*N。

进一步地，所述RGB数据和光流数据为相隔10帧采样的5个连续RGB帧及其对应的光流片段。

本发明还提高平一种基于双流膨胀3D卷积网络的异常行为识别预警系统，包括多个网络IP摄像头、监控GUI界面和嵌入式ARM开发板，所述嵌入式ARM开发板包括程序处理模块和存储模块，所述监控GUI界面、存储模块和多个网络IP摄像头均连接所述程序处理模块，所述存储模块存储有计算机程序，所述程序处理模块调用所述计算机程序执行一种基于双流膨胀3D卷积网络的异常行为识别方法，该方法包括将实时获取的监控数据载入预先建立并训练好的双流膨胀3D卷积网络中，获取异常行为识别结果，用于进行异常预警；

所述双流膨胀3D卷积网络的训练过程包括以下步骤：

与现有技术相比，本发明具有以下优点：

(1)本发明先对数据集进行预处理和数据增强，选择inceptionv1作为ImageNet网络，并改进了inceptionv1网络作为时空特征提取器，结合了双流网络和3D卷积网络，并基于inceptionv1网络对3D卷积网络进行了改进，从而搭建出双流膨胀3D卷积网络；双流膨胀3D卷积网络有效地利用了帧间运动信息的问题，考虑到了视频序列中隐藏运动信息，从而降低了相似行为误判的发生率；采用kinetic700数据集+ImageNet进行了预训练，提高了异常行为识别的准确率。

(2)本发明设计了一种基于双流膨胀3D卷积网络(Two-stream I3D)的异常行为识别监控预警系统，降低了相似行为误判的发生率，提高了异常行为识别的准确率。

附图说明

图1为本发明实施例中提供的一种基于双流膨胀3D卷积网络的异常行为识别方法的流程示意图；

图2为本发明实施例中提出的一种改进的BN-Inception的网络结构图；

图3为本发明实施例中提出的一种基于BN-Inception网络的时空特征提取器的结构示意图；

图4为本发明实施例中提出的一种双流膨胀3D卷积网络的结构示意图；

图中，Video为视频，Conv为卷积层，Stride为步，Max-Pool为最大池化，Inc.为略，Avg-Pool为平均池化，Prediction为预测值，Concatenation为全连接层，Inceptionmodule为Inception模型，Previous Layer为上一层，Inflated 3D ConvNet为膨胀3D卷积网络，Abnormal Behavior为异常行为。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

需要说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

此外，术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

实施例1

参考图1-4所示，本实施例提供一种基于双流膨胀3D卷积网络的异常行为识别方法，包括将实时获取的监控数据载入预先建立并训练好的双流膨胀3D卷积网络中，获取异常行为识别结果，用于进行异常预警；

基于Inceptionv1模型的时空特征提取器采用改进的BN-Inception的网络结构，该BN-Inception的网络结构前两个池化层的步长为1，最后的池化层的尺度为2*7*7；所述BN-Inception的网络结构中除了最后一个卷积层，其余卷积层后面均加有BN和relu激活函数。

所述基于Inceptionv1模型增加时间维度扩展为3D网络具体为：

所述双流膨胀3D卷积网络的训练过程包括以下步骤：

所述预处理包括对所述训练数据集的每一帧进行裁剪，并构建达到第一帧数的视频数据，用于模型训练；

所述数据增强处理包括对所述训练数据集进行翻转操作。

所述RGB数据和光流数据为相隔10帧采样的5个连续RGB帧及其对应的光流片段。

上述步骤的具体实施过程包括：

A1：对数据集进行预处理和数据增强。

上述对数据预处理和数据增强的方法的具体步骤：

(1)：将原始帧resize成256*256的，然后随机剪裁成224*224。

(2)：在视频训练样本段中在足够早的一个时间点选择开始帧数以保证所需的帧数，在此时间点附近通过均匀采样形成一个64帧的clip，如果视频长度达不到64帧，那么需要对视频进行循环。

(3)：样本以50％的概率进行水平翻转到了随机的左右翻转。

(4)：随机生成一些单通道的灰色图像。

A2：改进具有批处理规范化带BN的Inceptionv1作为时空特征提取器，在kinetics700数据集上进行预训练。

上述改进BN的inceptionv1作为时空特征提取的的具体步骤：

(1)：将原始带BN的inceptionv1网络的前两个池化层上将时间维度的步长设为了1，空间还是2*2。最后的池化层是2*7*7

(2)：除最后一个卷积层之外，在每一个卷积后面都加上BN和relu。

(3)：训练的时候将每一条视频采样64帧作为一个样本，测试时将全部的视频帧放进去最后average_score。

A3：搭建双流膨胀3D卷积网络(Two-steam I3D)模型

上述搭建双流膨胀3D卷积网络(Two-steam I3D)模型的具体步骤：

(1)：2D卷积模型膨胀为3D卷积模型：从一个2D架构开始，然后扩展所有的卷积核和池化内核——赋予它们额外的时间维度。沿着时间维度重复2D滤波器权重N次，并且通过除以N进行归一化，如果2D的滤波器为N*N的，那么3D的则为N*N*N的。

(2)：引用双流网络：一个I3D网络训练RGB输入，另一个I3D网络训练光流输入，携带优化的，平滑的流信息。RGB和光流输入是相隔10帧采样的5个连续RGB帧及其对应的光流片段，采用端到端的训练方式。

(3)：把视频RGB和光流输入通过双流I3D网络得到融合好的特征通过一个全连接层进行分类。

A4：inceptionv1预训练好的模型引导参数用于初始化I3D；

上述inceptionv1预训练好的模型引导参数用于初始化I3D的具体步骤：

(1)：将图像重复复制到视频序列中将图像转换为(boring)视频。

(2)：然后在ImageNet上对3D模型进行隐式预训练，通过在时间维度上重复2D时空特征提取器的权重N次，并且通过除以N来重新缩放，确保卷积的时空特征提取器的响应相同。

A5：在kinetic700数据集上预训练完成后，在VIF异常行为数据集上重复上述步骤预训练的过程，训练出异常行为识别的双流膨胀3D卷积模型进行异常行为识别。

本实施例还提供一种基于双流膨胀3D卷积网络的异常行为识别预警系统，其特征在于，包括多个网络IP摄像头、监控GUI界面和嵌入式ARM开发板，所述嵌入式ARM开发板包括程序处理模块和存储模块，所述监控GUI界面、存储模块和多个网络IP摄像头均连接所述程序处理模块，所述存储模块存储有计算机程序，所述程序处理模块调用所述计算机程序执行上述基于双流膨胀3D卷积网络的异常行为识别方法。

上述预警系统的具体实施过程包括：

搭建基于嵌入式ARM的监控预警系统

(1)：结合8个网络ip摄像头使用Pyqt5搭建8分屏的GUI监控预警系统

(2)：台式机上训练好的异常行为识别的双流膨胀3D卷积模型移植到英伟达jetson的嵌入式ARM开发版上作为离线存储。

(3)：GUI监控预警界面结合训练好的异常行为识别模型进行8分屏的异常行为识别监控预警。

监控预警系统是在嵌入式ARM英伟达的jetson开发板上搭建的，并且包括8个网络IP摄像头。使用PyQt5搭建一个8分屏的监控GUI界面，结合双流膨胀3D卷积网络进行异常行为的识别，任何一个分屏检测到异常行为，分屏边框变红并语音报警为何种异常行为。上述嵌入式ARM开发板包括程序处理模块和存储模块，所述的处理模块执行计算机程序：8个网络IP摄像头均连接ARM开发板对应GUI界面的8个分屏，执行GUI界面程序和双流I3D异常行为识别程序的结合，进行异常行为监控预警。所述的存储模块存储离线训练好的双流I3D异常行为识别的模型，在线存储监控系统中所检测出的异常行为视频片段。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于双流膨胀3D卷积网络的异常行为识别方法，其特征在于，包括将实时获取的监控数据载入预先建立并训练好的双流膨胀3D卷积网络中，获取异常行为识别结果，用于进行异常预警；

所述双流膨胀3D卷积网络的训练过程包括以下步骤：

2.根据权利要求1所述的一种基于双流膨胀3D卷积网络的异常行为识别方法，其特征在于，所述预处理包括对所述训练数据集的每一帧进行裁剪，并构建达到第一帧数的视频数据，用于模型训练。

3.根据权利要求1所述的一种基于双流膨胀3D卷积网络的异常行为识别方法，其特征在于，所述数据增强处理包括对所述训练数据集进行翻转操作。

4.根据权利要求1所述的一种基于双流膨胀3D卷积网络的异常行为识别方法，其特征在于，所述基于Inceptionv1模型的时空特征提取器采用改进的BN-Inception的网络结构，该BN-Inception的网络结构前两个池化层的步长为1，最后的池化层的尺度为2*7*7；所述BN-Inception的网络结构中除了最后一个卷积层，其余卷积层后面均加有BN和relu激活函数。

5.根据权利要求1所述的一种基于双流膨胀3D卷积网络的异常行为识别方法，其特征在于，所述基于Inceptionv1模型增加时间维度扩展为3D网络具体为：

6.根据权利要求1所述的一种基于双流膨胀3D卷积网络的异常行为识别方法，其特征在于，所述RGB数据和光流数据为相隔10帧采样的5个连续RGB帧及其对应的光流片段。

7.一种基于双流膨胀3D卷积网络的异常行为识别预警系统，其特征在于，包括多个网络IP摄像头、监控GUI界面和嵌入式ARM开发板，所述嵌入式ARM开发板包括程序处理模块和存储模块，所述监控GUI界面、存储模块和多个网络IP摄像头均连接所述程序处理模块，所述存储模块存储有计算机程序，所述程序处理模块调用所述计算机程序执行一种基于双流膨胀3D卷积网络的异常行为识别方法，该方法包括将实时获取的监控数据载入预先建立并训练好的双流膨胀3D卷积网络中，获取异常行为识别结果，用于进行异常预警；

所述双流膨胀3D卷积网络的训练过程包括以下步骤：

8.根据权利要求7所述的一种基于双流膨胀3D卷积网络的异常行为识别预警系统，其特征在于，所述基于Inceptionv1模型的时空特征提取器采用改进的BN-Inception的网络结构，该BN-Inception的网络结构前两个池化层的步长为1，最后的池化层的尺度为2*7*7；所述BN-Inception的网络结构中除了最后一个卷积层，其余卷积层后面均加有BN和relu激活函数。

9.根据权利要求7所述的一种基于双流膨胀3D卷积网络的异常行为识别预警系统，其特征在于，所述基于Inceptionv1模型增加时间维度扩展为3D网络具体为：

10.根据权利要求7所述的一种基于双流膨胀3D卷积网络的异常行为识别预警系统，其特征在于，所述RGB数据和光流数据为相隔10帧采样的5个连续RGB帧及其对应的光流片段。