CN115620212B

CN115620212B - 一种基于监控视频的行为识别方法及系统

Info

Publication number: CN115620212B
Application number: CN202211598860.0A
Authority: CN
Inventors: 张言苍; 黄睿; 蔡逸超; 张远来
Original assignee: Nanjing Maineng Energy Technology Co ltd
Current assignee: Nanjing Maineng Energy Technology Co ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-04-07
Anticipated expiration: 2042-12-14
Also published as: CN115620212A

Abstract

本发明公开了一种基于监控视频的行为识别方法及系统，涉及视频行为识别技术领域，获取监控视频流；根据监控视频流中的视频帧的变化，对监控视频流进行处理以获取关键序列；将关键序列输入预先训练的目标检测模型中进行目标的边界框位置信息检测，以对各个目标进行跟踪标记；根据各个目标的跟踪标记，将关键序列划分为每个目标的目标序列；从目标序列中提取若干预设帧数的待测序列并对待测序列进行预处理和标准化，以获得每个目标的序列数据集；将序列数据集输入预先训练的行为识别模型中，以得到每个目标的行为识别结果。本发明能够解决现有技术中识别精度低，实时性差的技术问题。

Description

一种基于监控视频的行为识别方法及系统

技术领域

本发明涉及视频行为识别技术领域，具体涉及一种基于监控视频的行为识别方法及系统。

背景技术

视频监控系统由于其安全、稳定的性能被广泛用于安防、智慧工地、智能家居等各种场合。伴随着社会的进步和发展，基于监控视频的行为识别是计算机视觉领域的一个重要研究方向，在智能视频监控、运动行为评估、步态识别等方面有着巨大的应用潜力。其中，人员的行为识别作为监控视频的主体目标，应用深度学习模型和图像识别算法识别人员行为，可以有效地提升视频监控系统的自动化和智能化程度。

目前，基于监控视频的行为识别方法为直接对原始视频进行识别，截取静态图像的简单动作分类，但是在实际应用当中，由于监控场景的复杂性、人员的密集性、环境光照以及遮挡等问题，该类方法容易忽略视频中过多的有效信息，识别精度低，并且处理视频周期长，实时性差，难以应用到实际场景中。

因此，现有的基于监控视频的行为识别方法普遍存在识别精度低，实时性差的技术问题。

发明内容

针对现有技术的不足，本发明的目的在于提供一种基于监控视频的行为识别方法及系统，旨在解决现有技术中识别精度低，实时性差的技术问题。

本发明的第一方面在于提供一种基于监控视频的行为识别方法，所述基于监控视频的行为识别方法包括：

获取监控视频流；

根据所述监控视频流中的视频帧的变化，对所述监控视频流进行处理以获取关键序列；

将所述关键序列输入预先训练的目标检测模型中进行目标的边界框位置信息检测，以对各个目标进行跟踪标记；

根据各个目标的跟踪标记，将所述关键序列划分为每个目标的目标序列；

从所述目标序列中提取若干预设帧数的待测序列并对所述待测序列进行预处理和标准化，以获得每个目标的序列数据集；

将所述序列数据集输入预先训练的行为识别模型中，以得到每个目标的行为识别结果。

与现有技术相比，本发明的有益效果在于：通过本发明提供的一种基于监控视频的行为识别方法，具体为，获取监控视频流；根据监控视频流中的视频帧的变化，对监控视频流进行处理以获取关键序列；将关键序列输入预先训练的目标检测模型中进行目标的边界框位置信息检测，以对各个目标进行跟踪标记；根据各个目标的跟踪标记，将关键序列划分为每个目标的目标序列；从目标序列中提取若干预设帧数的待测序列并对待测序列进行预处理和标准化，以获得每个目标的序列数据集；将序列数据集输入预先训练的行为识别模型中，以得到每个目标的行为识别结果。通过对监控视频流进行关键序列提取以及目标跟踪标记，实现高质量的序列片段提取，减少了数据的冗余性和干扰性，提高行为识别的准确性，避免了直接对监控视频流进行行为识别导致识别准确率低，通过对目标序列进行预处理和标准化以及行为识别模型识别，能提高行为识别的效率和性能，避免了直接对监控视频流进行直接识别处理视频周期长，实时性差，从而解决了普遍存在识别精度低，实时性差的技术问题。

根据上述技术方案的一方面，所述根据所述监控视频流中的视频帧的变化，对所述监控视频流进行处理以获取关键序列的步骤，具体包括：

根据所述监控视频流中的视频帧的变化，通过帧差法确定所述监控视频流的起始帧和结束帧；

根据所述起始帧和所述结束帧，提取所述监控视频流的时间序列；

计算所述时间序列的长度，并判断所述时间序列的长度是否超过时间阈值；

若是，判定所述时间序列为关键序列并保存。

根据上述技术方案的一方面，根据所述监控视频流中的视频帧的变化，通过帧差法确定所述监控视频流的起始帧和结束帧的步骤，具体包括：

步骤S110：将所述监控视频流的第一帧视频帧设置为当前帧；

步骤S111：将所述监控视频流的起始帧状态设置为False；

步骤S112：获取所述当前帧开始的预设时间间隔的视频帧以得到对比帧，将所述当前帧与所述对比帧进行灰度化对比，以获得两视频帧之间的运动图像，即帧差图像D_t，，其中F_tc为对比帧，F_ts为当前帧；

步骤S113：将所述帧差图像进行连通域分析，获取所述帧差图像的连通域；

步骤S114：计算所述连通域的面积，

当所述连通域的面积大于预设面积阈值，且起始帧的状态为False时，则标记所述对比帧为所述监控视频流的起始帧且其状态为True，并标记所述对比帧为下一次灰度化对比的当前帧，跳转到步骤S112继续执行；

当所述连通域的面积大于预设面积阈值，且起始帧的状态为True时，则标记所述对比帧为下次灰度化对比的当前帧，跳转到步骤S112继续执行；

当所述连通域的面积小于所述预设面积阈值，且起始帧的状态为False时，则标记所述对比帧为下次灰度化对比的当前帧，跳转到步骤S112继续执行；

当所述连通域的面积小于所述预设面积阈值，且起始帧的状态为True时，则标记所述对比帧为所述监控视频流的结束帧，并标记所述对比帧为当前帧，跳转到步骤S111继续执行。

根据上述技术方案的一方面，所述从所述目标序列中提取若干预设长度的待测序列并对所述待测序列进行预处理和标准化，以获得每个目标的序列数据集的步骤，具体包括：

从所述目标序列中提取若干预设帧数的待测序列；

对所述待测序列进行预处理，即计算所述待测序列的预设帧数并集的最小外接矩形，并从所述待测序列中提取所述最小外接矩形区域内的图像序列；

对所述图像序列进行标准化处理，即将所述图像序列标准化为若干预设大小的区域的待测数据；

将若干待测序列的若干待测数据进行整合，以获得每个目标的序列数据集。

根据上述技术方案的一方面，所述预先训练的目标检测模型的训练步骤，具体包括：

基于监控视频系统部署场景，采集预设时段间隔的监控视频的关键序列；

将所述关键序列以预设频率进行监控图像的采样；

对所述监控图像进行目标的边界框位置信息进行标注，形成目标的检测数据集；

将所述检测数据集根据第一预设比例划分，以得到第一训练集和第一验证集；

基于深度学习网络，构建初始目标检测模型；

将所述第一训练集对所述初始目标检测模型进行训练，将所述第一验证集对训练完成的初始目标检测模型进行评估，以得到若干权重的初始目标检测模型；

选取权重指标最优的初始目标检测模型作为行为识别的目标检测模型。

根据上述技术方案的一方面，将所述序列数据集输入预先训练的行为识别模型中，以得到每个目标的行为识别结果的步骤，具体包括：

将所述序列数据集输入预先训练的行为识别模型中进行推理，以得到若干与所述序列数据集对应的若干初始行为识别结果；

提取所述初始行为结果出现次数最多的初始行为识别结果，作为最终行为识别结果；

判断所述最终行为识别结果是否存在多个；

若是，获取所述最终行为识别结果的平均置信度，输出平均置信度最高的所述最终行为识别结果作为目标的行为识别结果；

若否，输出最终行为识别结果作为目标的行为识别结果。

根据上述技术的一方面，在将所述序列数据集输入预先训练的行为识别模型中，以得到每个目标的行为识别结果的步骤之后，还包括：

判断所述监控视频流是否结束；

若是，判定所述监控视频流的行为识别完成；

若否，获取下一个关键序列继续执行。

本发明的第二方面在于提供一种基于监控视频的行为识别系统，基于监控视频的行为识别系统包括：

监控视频流获取模块，用于获取监控视频流；

关键序列获取模块，用于根据所述监控视频流中的视频帧的变化，对所述监控视频流进行处理以获取关键序列；

目标跟踪标记模块，用于将所述关键序列输入预先训练的目标检测模型中进行目标的边界框位置信息检测，以对各个目标进行跟踪标记；

目标序列划分模块，用于根据各个目标的跟踪标记，将所述关键序列划分为每个目标的目标序列；

序列数据集获取模块，用于从所述目标序列中提取若干预设帧数的待测序列并对所述待测序列进行预处理和标准化，以获得每个目标的序列数据集；

行为识别模块，用于将所述序列数据集输入预先训练的行为识别模型中，以得到每个目标的行为识别结果。

本发明的第三方面在于提供一种可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的方法的步骤。

本发明的第四方面在于提供一种设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的方法的步骤。

附图说明

图1为本发明第一实施例中基于监控视频的行为识别方法的流程图；

图2为本发明第二实施例中基于监控视频的行为识别系统的结构框图；

附图元器件符号说明：

监控视频流获取模块100，关键序列获取模块200，目标跟踪标记模块300，目标序列划分模块400，序列数据集获取模块500，行为识别模块600；

以下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

实施例一

请参阅图1，所示为本发明第一实施例提供的一种基于监控视频的行为识别方法，所述方法包括步骤S10-S16：

步骤S10，获取监控视频流；

其中，该监控视频流可以为监控设备、移动终端、行车记录仪等视频采集装置获取的视频资料。

步骤S11，根据所述监控视频流中的视频帧的变化，对所述监控视频流进行处理以获取关键序列；

其中，根据所述监控视频流中的视频帧的变化，通过帧差法确定所述监控视频流的起始帧和结束帧；

具体为，步骤S110：将所述监控视频流的第一帧视频帧设置为当前帧；

步骤S111：将所述监控视频流的起始帧状态设置为False；

其中，起始帧的状态包括False和True，监控视频流还未定位到时间序列的起始帧，因此将起始帧状态设置为False。

其中，预设时间间隔收集对比帧，其预设时间间隔表示定位算法的时间敏感度，预设时间间隔设置越小，表示算法对时间越敏感，在本实施例中，获取监控视频流的帧率为25-35FPS，预设时间间隔为20-40FPS，因此，每隔45-75FPS间隔时间对对比帧进行灰度化对比。

其中，分别对当前帧以及对比帧进行灰度化，并用3×3的高斯滤波进行平滑，将分别滤波过后的当前帧与对比帧的图像进行帧差分析，分析当前帧与对比帧之间的运动像素，即帧差图像D_t，，其中F_tc为对比帧，F_ts为当前帧；当当前帧与对比帧中存在运动目标时，帧差图像就会出现一定面积的前景像素的图像，当当前帧与对比帧中存在运动目标时无运动目标时，帧差图像将会时全为0的背景图像。

其中，连通域分析之前需要对帧差图形进行预处理，使用形态学滤波的方法对帧差图形去除干扰，例如可以为相机噪声、过小目标等所带来的干扰像素，在本实施例中，采用5×5的矩形窗，对帧差图像进行一次开操作，再使用8邻域标记前景像素，获取帧差图像中的连通域。

步骤S114：计算所述连通域的面积，

其中，预设面积阈值是由监控场景的拍摄距离、目标的像素大小决定，在本实施例中，预设面积阈值为250-350像素。

其中，当标记了一个时间序列的起始帧和结束帧时，根据起始帧和结束帧，提取监控视频流的时间序列。

其中，时间序列的长度计算公式为：

为时间长度，为结束帧的帧数，为起始帧的帧数。其中，时间阈值是根据不同监控场景设置。

若是，判定所述时间序列为关键序列并保存。

若否，判定所述时间序列不是关键序列，放弃保存所述时间序列。

其中，根据时间序列的长度是否超过时间阈值判定时间序列是否为关键序列，避免监控场景的变换带来的干扰信息。采用帧差法提取关键序列，减少了数据的冗余性和干扰性，提高行为识别的效率和准确性，避免了直接对监控视频流进行行为识别导致识别准确率低和实时性差。

步骤S12，将所述关键序列输入预先训练的目标检测模型中进行目标的边界框位置信息检测，以对各个目标进行跟踪标记；

其中，利用预先训练的目标检测模型识别关键序列中的每个目标的边界框位置，再利用DeepSort算法对每个目标标记一个ID并进行跟踪，以对各个目标进行跟踪标记。

需要说明的是，每个目标的信息如下：，其中，T为关节序列的帧数，4为边界框位置信息，其分别为边界框位置的左上角顶点坐标以及边界框的宽度和高度。当某一帧中不存在该目标，则坐标位置设为-1。

另外，预先训练的目标检测模型的训练步骤，具体包括：

将所述关键序列以预设频率进行监控图像的采样；

对所述监控图像进行目标的边界框位置信息进行标注，形成目标的检测数据集；其中，利用LabelImg等工具标注目标的矩形框位置，形成目标的检测数据集。

将所述检测数据集根据第一预设比例划分，以得到第一训练集和第一验证集；其中，该检测数据按照第一预设比例将数据集随机划分为第一训练集和第一验证集。

基于深度学习网络，构建初始目标检测模型；其中，深度学习网络包括但不限于YOLO系列、RCNN系列，FOCS等。

将所述第一训练集对所述初始目标检测模型进行训练，将所述第一验证集对训练完成的初始目标检测模型进行评估，以得到若干权重的初始目标检测模型；其中，下载深度学习网络所对应模型在COCO数据集选取预训练好的权重作为基础权重，再将第一训练集对所述初始目标检测模型进行训练，利用第一验证集对训练完成的初始目标检测模型进行评估，以得到若干权重的初始目标检测模型。

选取权重指标最优的初始目标检测模型作为行为识别的目标检测模型。在本实施例中，选取AP 0.75指标最优权重的初始目标检测模型作为目标检测模型，以使目标检测模型的目标跟踪标记更为准确。

步骤S13，根据各个目标的跟踪标记，将所述关键序列划分为每个目标的目标序列；

其中，根据每个目标轨迹的起始帧和结束帧之间的时间区间，将关键序列划分为每个目标的目标序列，以对每个目标进行单独的行为识别。

步骤S14，从所述目标序列中提取若干预设帧数的待测序列并对所述待测序列进行预处理和标准化，以获得每个目标的序列数据集；

具体为，从所述目标序列中提取若干预设帧数的待测序列；

其中，在本实施例中，预设帧数可以为连续的64帧。在时间维度上将目标序列分割成若干个帧数为64的连续片段，即待测序列，其计算公式如下：

N为待测序列的数量，T为目标序列的帧数。因此，单个目标的每个待测序列的大小为[64,4]。

其中，将图像序列标准化为160×160的大小，并从中随机剪裁出5片128×128大小区域的待测数据。

因此，每个目标获取N个待测序列，每个待测序列包括5个大小为[64，3，128，128]的待测数据，其中3为RGB三色显色。

其中，将待测数据进行整合，每个目标包括N×5个待测数据，以获得每个聚聚的序列数据集。

步骤S15，将所述序列数据集输入预先训练的行为识别模型中，以得到每个目标的行为识别结果。

其中，通过行为识别模型的行为识别能提高行为识别的效率和性能，避免了直接对监控视频流进行直接识别处理视频周期长，实时性差。

具体为，将所述序列数据集输入预先训练的行为识别模型中进行推理，以得到若干与所述序列数据集对应的若干初始行为识别结果；

其中，预先训练的行为识别模型的训练步骤，具体包括：

收集行为识别数据库中的视频数据，将所述视频数据根据第二预设比例划分为第二训练集和第二验证集；识别数据库可以为公开数据集，如UCF-101，Kinetics和AVA等数据集。若公开数据集的行为类别不满足使用场景，则可自行制作行为识别数据库，在本实施例中，识别数据库为UCF-101公开数据集，第二预设比例为8：2，将视频数据根据第二预设比例随机分配成第二训练集和第二验证集。

需要说明的是，自行制作行为识别数据库的方法包括步骤S10-步骤S13。

基于SlowFast模型构建初始行为识别模型；本实施例基于SlowFast模型构建初始行为识别模型，初始行为识别模型的骨架网络采用ResNet结构，以提高行为识别的效率和性能。SlowFast模型结构为双通道网络，分别为Fast通道和Slow通道。其中，Fast通道主要用于提取高频特征（比如运动信息），其对时间的变化较为敏感；Slow通道主要用于提取目标相对稳定的空间特征（比如形状、纹理等），其可以识别细节信息。SlowFast中，两通道采用CNN进行特征描述，骨干网络为ResNet-50，部分卷积层替换为3D卷积。

将所述第二训练集输入所述初始行为识别模型中以对所述初始行为识别模型进行训练；

其中，一般需要对第二训练集进行标准化和预处理，在本实施例中，将第二训练集随机采样连续的64帧序列，然后对序列中每帧图像进行随机的空间剪裁成128×128大小，使得单条数据的大小为[64, 3, 128, 128]。在此基础上，对数据进行标准化。然后，对初始行为识别模型设置训练超参数，选取合适的优化方法对初始行为识别模型进行训练。在本实施例中，初始行为识别模型采用损失函数，即Softmax交叉熵函数，优化方法采用MomentumSGD，其中动量设置为0.9；训练周期数为60，批大小为16，初始学习率设置为0.001，权重衰减设置为0.0005。训练过程中，保存每一个周期的权重至磁盘，以供后续进行行为识别模型权重选取。

通过所述第二验证集输入训练完成的初始行为识别模型以对所述初始行为识别模型进行评估，以得到若干权重的初始目标检测模型；

选取权重指标最优的初始行为识别模型作为行为识别的行为识别模型。其中，选取ACC最高的权重的初始行为识别模式作为行为识别的行为识别模型。

判断所述最终行为识别结果是否存在多个；

若否，输出最终行为识别结果作为目标的行为识别结果。

在将所述序列数据集输入预先训练的行为识别模型中，以得到每个目标的行为识别结果的步骤之后，还包括：

判断所述监控视频流是否结束；

若是，判定所述监控视频流的行为识别完成；

若否，获取下一个关键序列继续执行。相比于现有技术，本实施例提供的基于监控视频的行为识别方法，有益效果在于：通过本发明提供的一种基于监控视频的行为识别方法，具体为，获取监控视频流；根据监控视频流中的视频帧的变化，对监控视频流进行处理以获取关键序列；将关键序列输入预先训练的目标检测模型中进行目标的边界框位置信息检测，以对各个目标进行跟踪标记；根据各个目标的跟踪标记，将关键序列划分为每个目标的目标序列；从目标序列中提取若干预设帧数的待测序列并对待测序列进行预处理和标准化，以获得每个目标的序列数据集；将序列数据集输入预先训练的行为识别模型中，以得到每个目标的行为识别结果。通过对监控视频流进行关键序列提取以及目标跟踪标记，实现高质量的序列片段提取，减少了数据的冗余性和干扰性，提高行为识别的准确性，避免了直接对监控视频流进行行为识别导致识别准确率低，通过对目标序列进行预处理和标准化以及行为识别模型识别，能提高行为识别的效率和性能，避免了直接对监控视频流进行直接识别处理视频周期长，实时性差，从而解决了普遍存在识别精度低，实时性差的技术问题。

实施例二

请参阅图2，所示为本发明第二实施例提供的一种基于监控视频的行为识别系统，所述系统包括：

监控视频流获取模块100，用于获取监控视频流；

关键序列获取模块200，用于根据所述监控视频流中的视频帧的变化，对所述监控视频流进行处理以获取关键序列；

具体为，根据所述监控视频流中的视频帧的变化，通过帧差法确定所述监控视频流的起始帧和结束帧；

若是，判定所述时间序列为关键序列并保存。

目标跟踪标记模块300，用于将所述关键序列输入预先训练的目标检测模型中进行目标的边界框位置信息检测，以对各个目标进行跟踪标记；

目标序列划分模块400，用于根据各个目标的跟踪标记，将所述关键序列划分为每个目标的目标序列；

序列数据集获取模块500，用于从所述目标序列中提取若干预设帧数的待测序列并对所述待测序列进行预处理和标准化，以获得每个目标的序列数据集；

具体为，从所述目标序列中提取若干预设帧数的待测序列；

行为识别模块600，用于将所述序列数据集输入预先训练的行为识别模型中，以得到每个目标的行为识别结果。

选取权重指标最优的初始行为识别模型作为行为识别的行为识别模型。

判断所述最终行为识别结果是否存在多个；

若否，输出最终行为识别结果作为目标的行为识别结果。

其中，该系统还包括监控视频流结束判断模块，具体为：

判断所述监控视频流是否结束；

若是，判定所述监控视频流的行为识别完成；

若否，获取下一个关键序列继续执行。

相比于现有技术，本实施例提供的基于监控视频的行为识别系统，有益效果在于：通过本发明提供的一种基于监控视频的行为识别系统，具体为，获取监控视频流；根据监控视频流中的视频帧的变化，对监控视频流进行处理以获取关键序列；将关键序列输入预先训练的目标检测模型中进行目标的边界框位置信息检测，以对各个目标进行跟踪标记；根据各个目标的跟踪标记，将关键序列划分为每个目标的目标序列；从目标序列中提取若干预设帧数的待测序列并对待测序列进行预处理和标准化，以获得每个目标的序列数据集；将序列数据集输入预先训练的行为识别模型中，以得到每个目标的行为识别结果。通过对监控视频流进行关键序列提取以及目标跟踪标记，实现高质量的序列片段提取，减少了数据的冗余性和干扰性，提高行为识别的准确性，避免了直接对监控视频流进行行为识别导致识别准确率低，通过对目标序列进行预处理和标准化以及行为识别模型识别，能提高行为识别的效率和性能，避免了直接对监控视频流进行直接识别处理视频周期长，实时性差，从而解决了普遍存在识别精度低，实时性差的技术问题。

本发明第三实施例还提供了一种可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述实施例一所述的方法的步骤。

本发明第四实施例还提供了一种设备，所述设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例一所述的方法的步骤。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于监控视频的行为识别方法，其特征在于，所述基于监控视频的行为识别方法包括：

获取监控视频流；

根据所述监控视频流中的视频帧的变化，对所述监控视频流进行处理以获取关键序列，具体包括：

其中，时间序列的长度计算公式为：

为时间长度，为结束帧的帧数，为起始帧的帧数；其中，时间阈值是根据不同监控场景设置；

若是，判定所述时间序列为关键序列并保存；

若否，判定所述时间序列不是关键序列，放弃保存所述时间序列；

从所述目标序列中提取若干预设帧数的待测序列并对所述待测序列进行预处理和标准化，以获得每个目标的序列数据集，具体包括：

从所述目标序列中提取若干预设帧数的待测序列，其计算公式如下：

N为待测序列的数量，T为目标序列的帧数，单个目标的每个待测序列的大小为[64,4]；

对所述待测序列进行预处理，即计算所述待测序列的预设帧数并集的最小外接矩形，并从所述待测序列中提取所述最小外接矩形区域内的图像序列，每个待测序列包括若干个大小为[64，3，128，128]的待测数据，其中3为RGB三色显色；

将若干待测序列的若干待测数据进行整合，以获得每个目标的序列数据集；

2.根据权利要求1所述的基于监控视频的行为识别方法，其特征在于，根据所述监控视频流中的视频帧的变化，通过帧差法确定所述监控视频流的起始帧和结束帧的步骤，具体包括：

步骤S110：将所述监控视频流的第一帧视频帧设置为当前帧；

步骤S111：将所述监控视频流的起始帧状态设置为0；

步骤S114：计算所述连通域的面积，

当所述连通域的面积大于预设面积阈值，且起始帧的状态为0时，则标记所述对比帧为所述监控视频流的起始帧且其状态为True，并标记所述对比帧为下一次灰度化对比的当前帧，跳转到步骤S112继续执行；

当所述连通域的面积小于所述预设面积阈值，且起始帧的状态为0时，则标记所述对比帧为下次灰度化对比的当前帧，跳转到步骤S112继续执行；

3.根据权利要求1所述的基于监控视频的行为识别方法，其特征在于，所述预先训练的目标检测模型的训练步骤，具体包括：

将所述关键序列以预设频率进行监控图像的采样；

基于深度学习网络，构建初始目标检测模型；

4.根据权利要求3所述的基于监控视频的行为识别方法，其特征在于，将所述序列数据集输入预先训练的行为识别模型中，以得到每个目标的行为识别结果的步骤，具体包括：

判断所述最终行为识别结果是否存在多个；

若否，输出最终行为识别结果作为目标的行为识别结果。

5.根据权利要求1所述的基于监控视频的行为识别方法，其特征在于，在将所述序列数据集输入预先训练的行为识别模型中，以得到每个目标的行为识别结果的步骤之后，还包括：

判断所述监控视频流是否结束；

若是，判定所述监控视频流的行为识别完成；

若否，获取下一个关键序列继续执行。

6.一种基于监控视频的行为识别系统，其特征在于，所述基于监控视频的行为识别系统包括：

监控视频流获取模块，用于获取监控视频流；

关键序列获取模块，用于根据所述监控视频流中的视频帧的变化，对所述监控视频流进行处理以获取关键序列，具体包括：

其中，时间序列的长度计算公式为：

若是，判定所述时间序列为关键序列并保存；

序列数据集获取模块，用于从所述目标序列中提取若干预设帧数的待测序列并对所述待测序列进行预处理和标准化，以获得每个目标的序列数据集，具体包括：

7.一种可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至5中任意一项所述的方法的步骤。

8.一种设备，其特征在于，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至5任一所述的方法的步骤。