CN108197566A

CN108197566A - 一种基于多路神经网络的监控视频行为检测方法

Info

Publication number: CN108197566A
Application number: CN201711483044.4A
Authority: CN
Inventors: 贾宇; 沈宜; 邹严; 董弋粲
Original assignee: Chengdu 30kaitian Communication Industry Co ltd
Current assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-06-22
Anticipated expiration: 2037-12-29
Also published as: CN108197566B

Abstract

本发明公开了一种基于多路神经网络的监控视频行为检测方法，其包括采集若干个监控视频，作为训练素材；根据监控视频内的区域距离，均切训练素材，得到至少两组区域视频，其中，每组内区域视频的个数相等；对区域视频进行片段排查，得到训练材料；从视频提取关键帧和光流图；采用深度多路卷积网络对训练材料进行处理，得到训练模型；利用训练模型对待检测视频文件进行行为识别。该监控视频的行为检测方法能够有效地提高行为检测的准确度和效率；其将视频文件分多个区域来做行为模型的训练与识别，不同距离采用不同网络，有效解决了视频文件中由于存在覆盖范围广、拍摄内容远小近大进而影响行为检测效果的问题。

Description

一种基于多路神经网络的监控视频行为检测方法

技术领域

本发明涉及视频的行为检测领域，具体涉及一种基于多路神经网络的监控视频行为检测方法。

背景技术

监控视频是安全防范系统的重要组成部分，它是一种防范能力较强的综合系统，监控视频以其直观、准确、及时和信息内容丰富而广泛应用于许多场合。当前监控视频里的行为检测分析存在各种各样的技术，但对于现有技术中存在的各种行为分析，其识别准确度和效率均较低，不适用于产品；本发明提供的监控视频的行为检测方法旨在提高行为分析的准确度和效率，让视频行为分析技术能真正产品化。

发明内容

本发明的目的是提供一种能够有效地提高行为分析的准确度和效率，让视频行为分析技术能真正产品化的监控视频的行为检测方法。

为了达到上述目的，本发明采用的解决方案是：一种基于多路神经网络的监控视频行为检测方法，包括以下步骤：

S1.采集若干个监控视频，作为训练素材；

S2.根据监控视频内的区域距离，均切训练素材，得到至少两组区域视频；其中，每组内区域视频的个数相等；

S3.对区域视频进行片段排查，得到训练材料；

S4.获取视频段的关键帧图和连续光流图；

S5.采用多路卷积网络对训练材料进行处理，得到训练模型；

S6.利用训练模型对待检测视频文件进行行为识别。

进一步地，训练素材内，相同类型的监控视频数量所占监控视频总数量的比例相等。

进一步地，S2的具体步骤为：

S21.根据监控视频内的区域距离，将训练素材平均划分为偶数个区域视频；

S22.将划分出的区域视频分排为至少两组；其中，将区域距离相邻的区域视频划分至同一组，每组内的区域视频数量相等。

进一步地，区域视频设置为3组，3组区域视频分别为远区域视频、中区域视频和近区域视频；远区域视频表示视频内图像与网络监控摄像头之间的水平距离超过12米的区域视频，中区域视频表示视频内图像与网络监控摄像头之间的水平距离为5-12米的区域视频，近区域视频表示视频内图像与网络监控摄像头之间的水平距离为0-5米的区域视频。

进一步地，区域视频的个数为12个；区域视频的组数为3组，分别为远区域视频、中区域视频和近区域视频；其中，区域视频1的水平距离为12米外，区域视频2的水平距离为5-12米，区域视频3的水平距离为0-5米，区域视频4的水平距离为12米外，区域视频5的水平距离为5-12米，区域视频6的水平距离为0-5米，区域视频7的水平距离为12米外，区域视频8的水平距离为5-12米，区域视频9的水平距离为0-5米，区域视频10的水平距离为12米外，区域视频11的水平距离为5-12米，区域视频12的水平距离为0-5米。

进一步地，S3中，对区域视频进行片段排查的依据是：清晰的行为片段作为正例，清晰的非行为片段则作为反例，保留重复的反例中的一份，丢弃不清晰的片段。

进一步地，多路卷积网络包括空间卷积网络和光流场卷积网络；空间卷积网络用于对区域视频内的关键帧图做行为目标检测模型训练，光流场卷积网络用于对区域视频内连续16帧的光流图做光流模型训练。

进一步地，S5的具体步骤为：

S51.采用目标检测网络对区域视频内的空间信息进行训练，得到关键帧softmax的输出层；其中，空间信息包括区域视频内独立帧所包含的场景和物体；

S52.采用光流场卷积网络对区域视频的多层两帧间光流信息进行训练，得到光流softmax输出层；其中，帧间光流信息包括携带着帧之间的运动信息；

S53.融合目标检测softmax输出层和光流softmax输出层，通过网络更新权值；

S54.利用网络更新权值调整每组区域视频的卷积层数，扩展出每组区域视频的的网络模型，作为训练模型。

进一步地，监控视频行为检测方法还包括对待检测视频文件进行逐帧抽帧，抽取连续16帧；计算连续16帧的活动区域，若连续16帧内的活动区域小于设定阈值，则取消识别行为；计算活动区域方法如下：将第一帧和第十六帧都转为灰度图像并且对其进行高斯模糊，再对他们作出帧差分图，取得差分图的目标轮廓，计算轮廓区域面积，最大的面积值作为活动区域。

进一步地，S5的具体步骤为：

S51.根据监控视频内的区域距离，利用每组训练模型对应训练切分后的区域视频做模型训练，训练出神经网络模型，

第一路卷积网络，选择5000张正例关键帧图，对应标签为1；选择10000张反例关键帧图，对应标签为0；采用神经网络框架caffe，对关键帧训练目标检测模型，迭代训练10w次，训练出多个目标检测可用模型，选择准确度最高的目标检测可用模型作使用；

第二路卷积网络，对连续图像产生光流图，每连续的16张当做一个小数据；选出5000组正例小数据，对应标签为1；选出10000组反例小数据，对应标签为0；采用神经网络框架caffe，对数据组训练光流模型，迭代训练10w次以上，训练出多个光流检测可用模型，选择准确度最高的光流检测可用模型作使用；

S52.对待检测视频文件进行逐帧抽帧，抽取连续n帧；其中，n为偶数；

S53.采用ffmpeg工具来获取关键帧，采用opencv工具来得到光流图，计算出连续n帧内的n个光流图和1张关键图，得到n+1个待测图；

S54.根据待测图内的区域距离，均切待测图，得到组数与caffe模型组数相同的待测材料；其中，每组内待测材料的个数相等；

S55.利用每组caffe模型对应识别具有相似区域距离的每组待测材料，判断某种行为的发生，

第一路卷积网络，选择1张关键帧图，采用神经网络框架caffe，利用已经训练出的目标检测模型来做预测，计算出第一路神经网络输出层数据；

第二路卷积网络，对连续图像产生光流图，连续的16张当做一个小数据，采用神经网络框架caffe，利用已经训练出的光流模型做预测，计算出第二路神经网络输出层数据；

将上述两路的神经网络输出层数据，用权值做级联汇总，即(第一路神经网络输出层数据*1/3)+(第二路神经网络输出层数据*2/3)做为最后结果；最后结果，表示的是标签0和标签1的概率，标签1代表了是该行为动作，标签0反之。

本发明的有益效果是，该监控视频的行为检测方法方式新颖、操作性强；其根据监控视频内的区域距离，均切采集到的训练素材，针对拥有不同区域距离的区域视频，分多个区域来做行为模型的训练与识别，解决了视频文件中由于存在覆盖范围广、拍摄内容远小近大进而影响检测效果的问题；同时，在深度两路流卷积网络的基础上，扩展出拥有不同区域距离和网络层数的训练模型，有效地提高行为检测的准确度和效率。

附图说明

图1为以训练持枪模型为例的训练模型。

图2为用训练出的持枪模型做的行为检测模型。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一种实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

为简单起见，以下内容中省略了该技术领域技术人员所公知的技术常识。

参照附图1和附图2，该监控视频的行为检测方法包括：

S1.采集若干个监控视频，作为训练素材。

在具体实施中，将网络监控摄像头进行固定，通过网络监控摄像头拍摄并采集大量监控视频，用来作为训练素材。

其中，在采集训练素材时，应确保所采集的大量训练素材内、相同类型的监控视频数量所占监控视频总数量的比例相等。

例如：当需要对持枪、持刀或正常行为进行检测识别时，那么则需采集拍摄有持枪、持刀或持其他器械的监控视频，并确保所采集的大量监控视频内、持枪的监控视频数量与持刀的监控视频数量与持其他器械的监控视频数量相等，其数量比例应为1:1:1；如此便可为后续训练模型的建立和行为的识别提供均匀、可靠、有效的素材支撑。

S2.根据监控视频内的区域距离，均切训练素材，得到至少两组区域视频；其中，每组内区域视频的个数相等。

具体步骤为：根据监控视频内的区域距离，将训练素材平均划分为若干偶数个区域视频；将所划分出的区域视频分排为至少两组；其中，将区域距离相邻的区域视频划分至同一组，且每组内的区域视频数量相等。

在实际操作中，区域视频的组数可根据实际情况和人们的需求设定，可设定为两组、三组、四组或其余多组，且每组内区域视频的个数也可根据实际情况和人们的需求设定，可设定为一个、两个或多个。例如我们想做一个持枪行为识别，那训练素材要准备两组视频，一组是持抢的，另一组是其他视频。如果想识别两个行为A、B，那么训练素材的准备三组视频，一组包含行为A，一组包含行为B，另一组为其他视频。

本发明采用的是根据监控视频内的区域距离、多区域切分训练素材的方式，进而实现后续对监控视频内不同距离的拍摄内容进行分开处理的技术效果，以提高最终检测识别的准确度；因此，对数量进行更改，均落在本发明保护范围内。

在根据监控视频内的区域距离，均切训练素材时；若均切为两组，可将其中一组作为远距离区域视频，另一组作为近距离区域视频；若均切为三组，可将其中一组分为远距离区域视频，另一组作为中距离区域视频，余下的一组作为近距离区域视频；若均切为四组，可将第一组作为远距离区域视频，第二组作为较远距离区域视频，第三组作为近距离区域视频，第四组作为较近距离区域视频；其余组数的信息以此类推。

其中，远距离区域视频为切分到的拍摄有远距离的训练素材，近距离区域视频为切分到的拍摄有近距离的训练素材，所谓的远距离与近距离指的是视频拍摄的图像距网络监控摄像头的间距；且不同组数、不同类型的区域视频所标定的划分距离长度，可根据实际情况或人们的需求设定。

S3.对区域视频进行片段排查，得到训练材料。

在片段排查区域视频时，可进行人工的查看与剪切；具体表现为针对拥有不同距离信息的区域视频进行人工查看；将图像清晰，像素值高等我们感兴趣的行为片段切割保留下来，作为训练材料使用，其余区域视频进行舍弃，以便提高后续处理识别的效率。

S4.对视频提取关键帧、计算光流图

针对每段视频，用ffmpeg工具抽取连续16张图片，在这16副图里用ffmpeg工具来提取关键帧，用opencv工具来计算出16张光流图。

S5.采用深度两路流卷积网络对训练材料进行处理，得到训练模型；

深度两路流卷积网络包括空间卷积网络和光流场卷积网络；其中，空间卷积网络用于对所述区域视频内的目标检测图做行为目标检测模型训练，光流场卷积网络用于对区域视频内连续16帧的光流图做光流模型训练。

在具体实施中，训练材料可以分成时间与空间两个部分，空间部分指的是独立帧表面信息，关于场景、物体等；而时间部分信息指的是帧间光流，携带着帧之间运动信息；相应的，训练材料可以被分为一路光流与一路目标检测，深度两路流卷积网络分别处理训练材料的空间与时间的维度。

采用空间卷积网络对区域视频内的空间信息进行训练，得到目标检测softmax输出层；其中，空间信息包括区域视频内独立帧所包含的场景和物体。

在实际操作中，空间卷积网络的输入是单帧，这样的分类网络其实有很多，例如AlexNext，GoogLeNet等均可作为，也可先在imageNet上预训练，再进行参数迁移。

采用光流场卷积网络对区域视频的多层两帧间光流信息进行训练，得到光流softmax输出层；其中，帧间光流信息包括携带着帧之间的运动信息。

在实际操作中，光流场卷积网络的输入是多层两帧间的光流场，因为光流场可以描述物体的运动信息。

在利用光流场卷积网络对区域视频的多层两帧间光流信息进行训练时，可进行光流场叠加，即：计算每两帧间的光流，并叠加在一起。例如：设定需要追踪L+1帧，那么会把光流分解成X，Y两个方向的光流，这时会有2L个通道；也可进行轨迹追踪的光流叠加，即：一帧的像素点可通过光流来追踪它在视频中的轨迹点，从而计算它在每一帧的相应位置的光流向量，相同会把光流分解成X，Y两个方向的光流，这时会有2L个通道；且叠加后减去平均光流，以便消去摄像头运动引起的相对运动。

之后，融合目标检测softmax输出层和光流softmax输出层，得到网络更新权值；在融合时，可采用加权求平均的方式，也可训练一个以目标检测softmax输出层和光流softmax输出层作为特征的SVM，也可采用该技术领域技术人员所知的其它可操作模式。

应该说明的是：对于空间卷积网络，因为它输入的只是图像，而且只是一个分类网络，因此有大量的数据集可供预训练，采用空间卷积网络是为了应对过拟合的问题；但是对于时间卷积网络，可供训练的视频集很少；因此，本发明采用多任务训练的方法，提供目标检测softmax输出层和光流softmax输出层相当于正则化的过程；这样融合两个数据集对网络进行训练时，目标检测softmax输出层对其中一个数据集的视频进行分类，光流softmax输出层对另一个数据集进行分类，在最后利用BP算法，把目标检测softmax输出层和光流softmax输出层的输出加和，作为总的误差执行BP算法更新网络的权值，即网络更新权值；之后利用网络更新权值调整每组区域视频的卷积层数，扩展出每组区域视频的网络模型，作为训练模型。

在实际操作中，在深度两路流卷积网络的基础上，根据区域视频的距离，如远、中、近三个距离做调整卷积层数，分别扩展出网络模型一、网络模型二和网络模型三；距离越远，需要网络层数越多，卷积还原出来的特征才明显，才能做到行为的有效识别，并保证了准确度和效率都得到兼顾。

S6.利用训练模型对待检测视频文件进行行为识别。

在具体实施中，根据监控视频内的区域距离，利用每组训练模型对应训练切分后的区域视频，得到caffe模型；如用具有近距离区域的网络模型一来训练近距离区域视频，用具有中距离区域的网络模型二来训练中距离区域视频，用具有远距离区域的网络模型三来训练远距离区域视频，最终训练出三个分别具近距离区域、中距离区域和远距离区域的caffe模型。

接着，对待检测视频文件进行逐帧抽帧，抽取连续n帧；其中，n为偶数；计算出连续n帧内的n个光流图和1张目标检测图，得到n+1个待测图；根据待测图内的区域距离，均切待测图，得到组数与caffe模型组数相同的待测材料；其中，每组内待测材料的个数相等；利用每组caffe模型对应识别具有相似区域距离的每组待测材料，判断某种行为的发生。

在具体操作中，监控视频的行为检测方法还包括对待检测视频文件进行逐帧抽帧，抽取连续16帧；计算连续16帧的活动区域，若连续16帧内的活动区域小于设定阈值，则取消识别行为，进而能够大大的提高检测速度。

本实施例中：

区域视频的个数为12个，区域视频的组数为3组，分别为远区域视频、中区域视频和近区域视频。在检测时，其具体表现为：固定网络监控摄像头，拍摄并采集大量监控视频，用于作为训练素材；其中，素材分正反面素材，都要拍摄，以确保比例的均匀。

例如需做一个模型用于识别“是否持枪？还是持刀？或正常？”，则需要拍摄持枪、持刀、持其他器械视频，比例大致为1：1：1，共3个类别。在均切训练素材时，可采用12区域法，使其切分为三组区域视频，分别为远距离区域视频、中距离区域视频和近距离区域视频。

在实际操作中，根据实测效果，将视频分为了12个区域；把视频区域划分为12个区域，对每个监控视频做自动切分；切分后，每个监控视频被切分为12个小视频，针对切分得到的小视频，按照远、中、近距离，自动分为三类小视频；其中，设定区域3、6、9、12中的视频属于近距离区域视频；区域2、5、8、11中的视频属于中等距离区域视频；区域1、4、7、10中的视频属于远距离区域视频(如下表)；在具体实施中，可在脚本中自动切分训练视频，并分为远、中、近视频，行为分析准确度和效率都很好。

区域1	区域4	区域7	区域10
				区域2	区域5	区域8	区域11
区域3	区域6	区域9	区域12

接着，对区域视频进行片段排查，人工查看、剪切；在脚本自动切割分类的视频后，还需人工查看，将感兴趣的行为片段切割保留下来、作为训练使用，其余的进行舍弃，以便提高后续的检测效率。

采用深度两路流卷积网络对训练材料的连续16帧进行处理，将视频可以分成时间与空间两个部分，空间部分指的是独立帧表面信息，关于场景、物体等；而时间部分信息指的是帧间光流，携带着帧之间运动信息；相应的，此深度两路流卷积网络结构由两个深度网络组成，分别处理空间与时间的维度；其每个深度网络都会输出1个softmax层，具体分别为目标检测softmax输出层和光流softmax输出层；最后采用一种方法把这两个softmax层的输出进行融合，其可采用平均层的方式，也可采用训练一个以这两个softmax输出作为特征的SVM的方式。

应该说明的是，针对深度两路流卷积网络中的空间卷积网络，由于该网络的输入是单帧，因此，这样的分类网络现有技术中存在很多，例如AlexNext，GoogLeNet等，具体可在imageNet上预训练，再进行参数迁移；因为其是在现有技术的操作平台上实现的，在此不做过多说明。

针对深度两路流卷积网络中的光流场卷积网络，光流场卷积网络的输入是多层两帧间的光流场，因为光流场可以描述物体的运动信息。

还应说明的是：对于空间卷积网络，因为它输入的只是图像，而且只是一个分类网络；因此该网络有大量的数据集可供预训练，这也是为了应对过拟合的问题。

但是对于时间卷积网络，可供训练的视频集很少，因此本申请采用多任务训练的方法，即：提供目标检测softmax输出层和光流softmax输出层相当于正则化的过程，这样融合两个数据集对网络进行训练时，目标检测softmax输出层对其中一个数据集的视频进行分类，光流softmax输出层对另一个数据集进行分类，在最后利用BP算法，把目标检测softmax输出层和光流softmax输出层的输出加和，作为总的误差执行BP算法更新网络的权值，即网络更新权值；之后利用网络更新权值调整每组区域视频的卷积层数，扩展出每组区域视频的网络模型，作为训练模型。

同时，在深度两路流卷积网络的基础上，根据区域视频内的近、中、远距离，做调整卷积层数，扩展网络模型一、网络模型二、网络模型三。距离越远，需要网络层数越多，卷积还原出来的特征才明显，才能做到行为的有效识别，并保证了准确度和效率都得到兼顾。

网络模型一

网络模型一为近距离模型，具体表现为：针对光流图采用光流型卷积算法，具体实施过程如下：

输入:每连续16个光流图作为一个小数据，一个小数据加一个标签，作为一组数据。5000组正例数据，10000组反例数据，作为输入，其中，正例数据涉及我们关心的行为视频数据，反例数据为其他视频数据。

基于深度学习框架caffe，已构造近距离光流神经网络模版。利用caffe框架，载入数据，跑近距离光流神经网络模版，最终能训练出多个光流模型。

输出：训练出多个光流模型，并报出准确率和损失率。Accuracy越高越好，选择一个最高的，作为最佳模型。

针对关键帧图采用空间卷积算法，具体实施过程如下:

输入:每个关键帧图作为一个小数据，一个小数据加一个标签，作为一组数据。5000组正例数据，10000组反例数据，作为输入。

基于深度学习框架caffe，已构造近距离目标检测网络模版。再利用caffe框架，载入数据，跑近距离目标检测网络模版，最终能训练出多个目标检测模型。

输出：训练出多个目标检测模型，并报出准确率和损失率。Accuracy越高越好，选择一个最高的，作为最佳模型。

网络模型二

网络模型二为中距离模型，参考网络模型一，将网络模型三中的“conv1_1->relu1_1->pool1”修改为“conv1_1->relu1_1->conv1_2->relu1_2->pool1”，对于conv2_1～Conv5_1同样操作即可。

网络模型三

网络模型三为远距离模型，参考网络模型一，将网络模型一中的“conv1_1->relu1_1->pool1”修改为“conv1_1->relu1_1->conv1_2->relu1_2->conv1_3->relu1_3->pool1”，对于conv2_1-Conv5_1同样操作即可。

之后，采用扩展出来的三个网络模型，来对视频帧来做训练；即：采用网络模型一训练近距离视频，采用网络模型二来训练中距离视频，采用网络模型三来训练远距离视频，最终训练出三个分别具近距离区域、中距离区域和远距离区域的caffe模型。

训练出三组caffe模型，被用来做行为识别；首先，对待检测视频文件进行逐帧抽帧，抽取连续16帧；计算出连续16帧内的16个光流图和1张目标检测图，得到17个待测图；根据待测图内的区域距离，均切待测图，将其切分为4张远距离待测材料、4张中距离待测材料和4张近距离待测材料；之后，分别用具有远距离区域的caffe模型训练上述4张远距离待测材料，用具有中距离区域的caffe模型训练上述4张中距离待测材料，用具有近距离区域的caffe模型训练上述4张近距离待测材料，判区域内断某种行为的发生，如此，便能算出是哪个小区域内有某种行为发生，并且准确率极其的高。

综上所述，本发明提供的监控视频的行为检测方法方式新颖、操作性强；其根据监控视频内的区域距离，均切采集到的训练素材，针对拥有不同区域距离的区域视频，分多个区域来做行为模型的训练与识别，解决了视频文件中由于存在覆盖范围广、拍摄内容远小近大进而影响检测效果的问题；同时，在深度两路流卷积网络的基础上，扩展出拥有不同区域距离和网络层数的训练模型，有效地提高行为检测的准确度和效率。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将使显而易见的，本文所定义的一般原理可以在不脱离发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制与本文所示的这些实施例，而是要符合与本文所公开的原理和新颖性特点相一致的最宽的范围。

Claims

1.一种基于多路神经网络的监控视频行为检测方法，其特征在于，包括以下步骤：

S1.采集若干个监控视频，作为训练素材；

S2.根据所述监控视频内的区域距离，均切所述训练素材，得到至少两组区域视频；其中，每组内区域视频的个数相等；

S3.对所述区域视频进行片段排查，得到训练材料；

S4.获取视频段的关键帧图和连续光流图；

S5.采用多路卷积网络对所述训练材料进行处理，得到训练模型；

S6.利用所述训练模型对待检测视频文件进行行为识别。

2.根据权利要求1所述的监控视频行为检测方法，其特征在于，所述训练素材内，相同类型的所述监控视频数量所占所述监控视频总数量的比例相等。

3.根据权利要求1所述的监控视频行为检测方法，其特征在于，所述S2的具体步骤为：

S21.根据所述监控视频内的区域距离，将所述训练素材平均划分为偶数个所述区域视频；

S22.将划分出的所述区域视频分排为至少两组；其中，将区域距离相邻的区域视频划分至同一组，每组内的所述区域视频数量相等。

4.根据权利要求3所述的监控视频行为检测方法，其特征在于，所述区域视频设置为3组，所述3组区域视频分别为远区域视频、中区域视频和近区域视频；所述远区域视频表示视频内图像与网络监控摄像头之间的水平距离超过12米的区域视频，所述中区域视频表示视频内图像与网络监控摄像头之间的水平距离为5-12米的区域视频，所述近区域视频表示视频内图像与网络监控摄像头之间的水平距离为0-5米的区域视频。

5.根据权利要求4所述的监控视频行为检测方法，其特征在于，所述区域视频的个数为12个；所述区域视频的组数为3组，分别为远区域视频、中区域视频和近区域视频；其中，区域视频1的水平距离为12米外，区域视频2的水平距离为5-12米，区域视频3的水平距离为0-5米，区域视频4的水平距离为12米外，区域视频5的水平距离为5-12米，区域视频6的水平距离为0-5米，区域视频7的水平距离为12米外，区域视频8的水平距离为5-12米，区域视频9的水平距离为0-5米，区域视频10的水平距离为12米外，区域视频11的水平距离为5-12米，区域视频12的水平距离为0-5米。

6.根据权利要求1所述的监控视频行为检测方法，其特征在于，S3中，对所述区域视频进行片段排查的依据是：清晰的行为片段作为正例，清晰的非行为片段则作为反例，保留重复的反例中的一份，丢弃不清晰的片段。

7.根据权利要求1所述的监控视频行为检测方法，其特征在于，所述多路卷积网络包括空间卷积网络和光流场卷积网络；所述空间卷积网络用于对所述区域视频内的关键帧图做行为目标检测模型训练，所述光流场卷积网络用于对所述区域视频内连续16帧的光流图做光流模型训练。

8.根据权利要求1、2、3、5、6或7任一项所述的监控视频行为检测方法，其特征在于，所述S5的具体步骤为：

S51.采用目标检测网络对区域视频内的空间信息进行训练，得到关键帧softmax的输出层；其中，所述空间信息包括区域视频内独立帧所包含的场景和物体；

S52.采用光流场卷积网络对所述区域视频的多层两帧间光流信息进行训练，得到光流softmax输出层；其中，所述帧间光流信息包括携带着帧之间的运动信息；

S53.融合所述目标检测softmax输出层和光流softmax输出层，通过网络更新权值；

S54.利用所述网络更新权值调整每组区域视频的卷积层数，扩展出每组区域视频的的网络模型，作为训练模型。

9.根据权利要求1所述的监控视频行为检测方法，其特征在于，还包括对待检测视频文件进行逐帧抽帧，抽取连续16帧；计算连续16帧的活动区域，若连续16帧内的活动区域小于设定阈值，则取消识别行为；计算活动区域方法如下：将第一帧和第十六帧都转为灰度图像并且对其进行高斯模糊，再对他们作出帧差分图，取得差分图的目标轮廓，计算轮廓区域面积，最大的面积值作为活动区域。

10.根据权利要求1、2、3、5、6、7或9任一项所述的监控视频行为检测方法，其特征在于，所述S5的具体步骤为：

S51.根据所述监控视频内的区域距离，利用每组训练模型对应训练切分后的区域视频做模型训练，训练出神经网络模型，

S54.根据所述待测图内的区域距离，均切所述待测图，得到组数与caffe模型组数相同的待测材料；其中，每组内待测材料的个数相等；