CN111259874A

CN111259874A - 一种基于深度学习的校园安全视频监测方法

Info

Publication number: CN111259874A
Application number: CN202010369796.3A
Authority: CN
Inventors: 黄希; 聂贻俊; 刘翼
Original assignee: Chengdu Paiwo Zhitong Technology Co Ltd
Current assignee: Chengdu Paiwo Zhitong Technology Co Ltd
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-06-09
Anticipated expiration: 2040-05-06
Also published as: CN111259874B

Abstract

本发明公开了一种基于深度学习的校园安全视频监测方法，对用于视频识别的动作类别进行样本增强，从而得到更加丰富且均衡的样本，然后通过将2D与3D融合的方式实现了低消耗的情况下进行长时间的视频实时动作识别，同时事先提取出时域特征和空域特征中相关联的互补信息并融合回时域特征和空域特征中，实现了更加精准的训练。综上所述，本发明通过上述操作做到了低消耗下的长时间视频实时识别预警的同时，还通过丰富样本库和对提取的特征进行互补，实现了报警识别的更加精准。

Description

一种基于深度学习的校园安全视频监测方法

技术领域

本发明属于机器学习领域，具体地说，涉及一种基于深度学习的校园安全视频监测方法。

背景技术

安全一直是社会讨论的热点话题，尤其是校园安全，更是重中之重，孩子是世界的未来，更加需要社会用更多的精力去呵护。校园是学生的聚集之地，人员密集，对于中学及其以下的孩子来说，处于身体发育期，不够强壮，不能很好地保护自身；而对于高等院校来说，高等院校是一个较为开放的环境，除了学生以外，还会有更多社会人士的出入，由于没有实行封闭管理，更容易出现一些危险的事故。

现有的监控多为保安对着监控器进行探查，但人力有时尽，无法做到同一时间对所有的视频区域都做到关注，且人的精力有限无法做到24小时全神贯注到所有的视频内容，并进行判断；监控的作用，多数情况都是严重事故已经发生了，当事人或有关部门对于事发时的视频进行调取，来证明事故的发生，而非使用监控作为一个实时的事故警报。

而现有技术在此之上通过使用深度学习进行视频的异常动作识别的技术基于规则实现，需要在监控中画辅助线、当画面中有人进入指定区域，达到相关规则触发报警，或者说检测到单张画面有规定物品如火焰、烟雾等，才触发报警。对于纯3D的卷积网络，开销极大，无法做到长时间的信息识别。同时现有技术中对于视频动作类别的识别方法，都将时域特征和空域特征分开进行提取，然后在后端进行特征的融合，这样在样本中时域特征与空域特征中相关联的关键信息则在处理中被忽略掉了。且在深度学习中，因现有的图片样本非常丰富，而视频样本量远远少于图片样本量，对于视频中的动作类别进行训练识别的样本则更加匮乏，这对于实际训练的识别精度会有很大影响。

发明内容

本发明针对现有技术3D卷积网络对视频进行深度学习开销极大，不适用与实时视频监控的问题，提出了一种基于深度学习的校园安全视频监测方法，通过2D融合3D深度卷积网络，解决了纯粹3D卷积网络开销大的问题，且把2D的特征通过3D网络融合起来，不需要将视频保存后再分析，实现了在线实时监测。

本发明具体实现内容如下：

一种基于深度学习的校园安全视频监测方法，首先训练预训练模型，然后进行校园监控视频特征提取，最后进行异常分类打分；所述校园监控视频特征提取的具体步骤为：

步骤S1、以16帧为一组，将一段连续的监控视频分为多组小片段；

步骤S2、对每一组小片段中的16帧图像按照间隔1帧的原则进行采样得到8张采样图像，并将8张采样图像送入2D卷积网络进行预测处理，得到8张2D特征图；

步骤S3、将每8张2D特征图作为一组特征图进行保存，当收集满5组特征图时，按照1:1:2:4:8的比例，从5组特征图中进行随机采样，从5组特征图中，最先获得的两组特征图中各随机采样1张特征图，从第三个获得的一组特征图中随机抽样2张特征图，从第四个获得的一组特征图中随机抽样4张特征图，从最新获得的一组特征图中采样全部8张特征图；

步骤S4、将所述步骤S3中从五组特征图中采样获得的共16张特征图送入3D卷积网络进行异常分类打分；

步骤S5、将采样后的五组特征图丢弃，继续提取后续视频进行上述步骤S1-步骤S4的处理。

为了更好地实现本发明，进一步地，所述异常分类打分的具体操作为：

步骤SA、对送入3D卷积网络的16张特征图进行时域序列特征和空域序列特征的提取；

步骤SB、将提取后的时域序列特征和空域序列特征进行信息交互，得到时域序列特征和空域序列特征的互补信息；

步骤SC、将互补信息分别与时域序列特征和空域序列特征进行互补，得到互补后的时域序列特征和互补后的空域序列特征；

步骤SD、将互补后的时域特征和互补后的空域特征进行序列特征聚合，得到时域特征和空域特征。

为了更好地实现本发明，进一步地，将时域特征和空域特征同时进行正则化处理，再输入共享权值层，从而提取出时域特征分数和空域特征分数；然后将时域特征分数和空域特征分数进行融合，得到用于预测监控视频中动作类别的预测时空特征分类分数向量。

为了更好地实现本发明，进一步地，所述训练预训练模型的具体步骤为：

步骤Sa、先使用包含多种动作类别id的数据集进行第一次模型训练，并为每个动作类别id确定类中心；

步骤Sb、然后设定相似阈值t，筛选出数据集中每个动作类别id中与类中心相似度大于相似阈值t的样本；

步骤Sc、对筛选出的与类中心相似度大于相似阈值t的样本进行样本增强，所述样本增强包括投影变换、明暗调节、色彩变换；所述样本增强的力度根据实际情况调节；

步骤Sd、对进行了样本增强后的样本图片与对应的样本类中心进行比较，选出相似度在（a，b）区间范围内的增强后的样本，并使用选出的样本进行第二次模型训练，并将第二次训练后的模型用于后续异常操作。

为了更好地实现本发明，进一步地，在选出与类中心的相似度在（a，b）区间范围内的增强后的样本后，还要生成一项用于抽样的抽样序列，所述抽样序列的元素为各动作类别id的id序号；每个id序号在所述抽样序列中出现的次数为h，所述次数h为可变值，根据实际需要的样本数量及数据集的样本大小进行调节。

为了更好地实现本发明，进一步地，所述第二次模型训练时同样生成时域特征和空域特征，并计算出交叉熵损失函数L1、异构三连体对损失函数L2、判别嵌入限制损失函数L3，将三个函数结合为第二次模型训练的损失函数L进行模型训练，得到各动作类别id的类别索引。

为了更好地实现本发明，进一步地，将生成的预测时空特征分类分数向量按照从大到小的顺序进行排序，值最大的预测时空特征分类分数向量对应的类别索引即代表了监控视频中的动作类别。

为了更好地实现本发明，进一步地，事先设置报警动作类别，将实际的监控视频识别中每一个识别出的动作类别都送入缓存队列进行时间先后排序，对排序后的动作类别进行判断，当判断为报警动作类别时，将被判断为报警动作类别的样本进行保存，并进行报警推送。

为了更好地实现本发明，进一步地，设置阈值K，当识别为报警动作后，若在缓冲队列后续K个动作类别中再次出现了判断为报警动作识别的，将再次判断为报警动作类别的样本与前一次被判断为报警动作类别的样本进行识别，若两组样本的相似度高于或等于U，则继续判断后序的动作类别，若相似度低于U，则将再次判断为报警动作类别的样本进行保存，并再次进行报警推送。

为了更好地实现本发明，进一步地，对于保存的判断为报警动作识别的样本，在样本图片上使用圈选框将样本上对应的报警动作位置圈选出来。

本发明与现有技术相比具有以下优点及有益效果：

（1）采用2D与3D融合的方式，解决了纯3D卷积网络开销大，难以进行长时间的实时视频异常监控警报的问题；

（2）通过第一次模型训练和第二次模型训练，增强了样本的丰富度，解决了视频的动作类别样本库少的问题；

（3）通过事先提取时域特征和空域特征中的相关联的互补信息，相对提高了识别的精度。

附图说明

图1为训练模型的具体流程图；

图2为特征提取的具体流程图；

图3为视频动作类别异常打分的具体流程图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，应当理解，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，因此不应被看作是对保护范围的限定。基于本发明中的实施例，本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“设置”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；也可以是直接相连，也可以是通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1：

本发明提供了一种基于深度学习的校园安全视频监测方法，首先需要训练模型，然后进行校园监控视频特征提取，最后进行异常分类打分；

如图1所示，所述训练模型的具体步骤为：

步骤Sd、对进行了样本增强后的样本图片与对应的样本类中心进行比较，选出相似度在（a，b）区间范围内的增强后的样本，并使用选出的样本进行第二次模型训练，并将第二次训练后的模型用于后续异常操作；

在选出与类中心的相似度在（a，b）区间范围内的增强后的样本后，还要生成一项用于抽样的抽样序列，所述抽样序列的元素为各动作类别id的id序号；每个id序号在所述抽样序列中出现的次数为h，所述次数h为可变值，根据实际需要的样本数量及数据集的样本大小进行调节。

工作原理：首先通过第一次模型训练，可以确定每一个动作类别id的类中心，筛选出样本中与动作类别id的类中心相似度高于相似阈值t的样本；其中，t为可调值，t值越高，筛选出的样本相似度越高，但样本数量越低，故在不同的需求下可对相似阈值t进行适应性调节。在通过类中心筛选出与类中心相似度较高的样本后，对筛选出的样本进行样本增强，如增加或减少饱和度、调节样本亮度、调节样本对比度、通过仿射变换模拟运动模糊、随机噪声点、随机滤波、投影变换、色彩变换等操作；因为进行样本增强的样本都是与类中心相似度高于相似阈值t的，故进行样本增强后，会得到许多与类中心相似，但各自不完全一样样本，从而达到保证了原样本特征的情况下增加样本库的作用，对样本进行样本增强如增加或减少饱和度、调节样本亮度、调节样本对比度、通过仿射变换模拟运动模糊、随机噪声点、随机滤波、投影变换、色彩变换等操作，可以使得数据集很大的丰富，如原本的数据集中可能只有一个光线较暗的下午进行抢劫的，画面偏向右倾斜角度的暴力监控图片，经过样本增强后可以得到向左倾斜角度的、光线较亮就像是在中午的、光线更加暗就像是在傍晚的、画面比例改变原本是瘦子变成了较胖的人、镜像转换后的等等；进一步地，每个动作类别id都有独属于自己的id序号，生成一个抽样序列，在抽样序列给每一个动作类别id设置m个id序号，然后使用抽样序列进行抽取，若抽到了某个id序号，则对对应的动作类别id进行一次随机抽样，因为每个Id序号在抽样序列中出现的次数相等，从而确保了采样的均衡性，很大程度上避免了因为有的动作类别数据庞大而有的动作类别数据少，从而造成了训练的失衡。设置相似区间（a，b）的作用是将经过样本增强后的样本中严重失真的样本挑选出来，避免过度失真的样本对训练造成负面影响，其中x小于y，且x，y的值同样根据数据库的样本多少进行适应性调整，但根据多次实验，原则上，x的值不小于0.35，y的值不大于0.65，超过这个相似区间以后的样本与类中心的相似度不高，对于训练基本没有增强的意义。

实施例2：

本实施例在上述实施例1的基础上，为了更好地实现本发明，进一步地，如图2所示，所述校园监控视频特征提取的具体步骤为：

工作原理：通过上述操作可以实现2D与3D的融合，从而在实现长时间的视频动作异常监控的同时，减少了数据的处理量和存储量，做到了实时的异常监控，可以对异常的动作或者异常的事故进行实时报警，如打架斗殴、抢劫、火灾烟雾等。同时对每次收集到的5组特征图进行1:1:2:4:8的采样，可以弱化时间久一点的样本的影响，增强时间近一点的样本的影响，使得预测更加精准。

本实施例的其他部分与上述实施例1相同，故不再赘述。

实施例3：

本实施例在上述实施例1-2任一项的基础上，为了更好地实现本发明，进一步地，如图3所示，所述异常分类打分的具体操作为：

步骤SC、将互补信息分别与时域序列特征和空域序列特征进行融合，得到融合后的时域序列特征和融合后的空域序列特征；

步骤SD、将融合后的时域序列特征和融合后的空域序列特征进行序列特征聚合，得到时域特征和空域特征。

工作原理：将从视频帧中提取出的空域序列特征和从视频光流场中提取出的时域序列特征进行融合，具体公式为：

式中，

为度量变量相似性的函数，函数具体表达为

，

其中

，而

为需要学习的函数；Y为时空域特征的异构相关性矩阵，尺寸大小为一个行列数等于视频采样数的矩阵；

根据步骤一得到的异构相关性矩阵Y，从通过融合的空域序列特征和时域序列特征中分离出互补的时域序列特征和互补的空域序列特征，并将分离出的互补的时域序列特征和互补的空域序列特征分别融合回空域序列特征

和时域序列特征

中得到融合后的时域序列特征和融合后的空域序列特征，具体公式为：

式中，

为空域和时域分离互补特征的交互函数，分别为

和

为需要学习的参数，

为融合后的时域序列特征；

为融合后的空域序列特征；所述融合后的空域序列特征，表达式为

，所述融合后的时域序列特征，表达式为

；

所述融合后的空域序列特征被聚合为空域特征

，所述融合后的时域序列特征被聚合为时域特征

。

本实施例的其他部分与上述实施例1-2任一项相同，故不再赘述。

实施例4：

本发明在上述实施例1-3任一项的基础上，为了更好地实现本发明，进一步地，所述第二次模型训练时同样生成时域特征和空域特征，并计算出交叉熵损失函数L1、异构三连体对损失函数L2、判别嵌入限制损失函数L3，将三个函数结合为第二次模型训练的损失函数L进行模型训练，得到各动作类别id的类别索引。将时域特征和空域特征同时进行正则化处理，再输入共享权值层，从而提取出时域特征分数和空域特征分数；然后将时域特征分数和空域特征分数进行融合，得到用于预测监控视频中动作类别的预测时空特征分类分数向量。将生成的预测时空特征分类分数向量按照从大到小的顺序进行排序，值最大的预测时空特征分类分数向量对应的类别索引即代表了监控视频中的动作类别。

工作原理：选取样本集进行预训练，训练一个分类器模型，引入交叉熵损失函数、异构三联体对损失函数、判别嵌入限制损失函数的结合函数作为训练的损失函数可以使得预训练得到的分类器模型更加的真实可靠，分类更加聚合。

所述共享权值层还将输入的时域特征

和空域特征

分别构造出空域特征的异构三联体对和时域特征的异构三联体对；所述空域特征的异构三联体对表达式为

，时域特征的异构三联体对表达式为

，其中下标a、p、n分别表示锚点、正例点、和负例点，i和j表示样本对动作类别索引；所述异构三联体对损失函数具体为：

其中，

表示三联对的损失值；

表示2范数距离度量；如果x大于0，则

，如果x小于等于0，则

为阈值；

同时还求出空域特征的类中心和时域特征的类中心；所述空域特征的类中心表达式为

，时域特征的类中心表达式为

，其中

为表类标签，

为第i个样本的标签，

为指示函数；所述判别嵌入限制损失函数具体为：

式中，

表示判别嵌入的损失值，

为阈值；

所述交叉熵损失函数表达式为：

式中，

表示交叉熵损失值，

表示第i个样本输出后真实的类别索引对应的最大时空特征分类分数，

表示第i个样本输出到j类时的预测的时空特征分类分数中最大值的分数；通过本损失函数，可以使真实分类类别的特征更加突出聚合；

所述对整个网络进行训练的损失函数表达式为：

此处由经验可得：

。

本实施例的其他部分与上述实施例1-3任一项相同，故不再赘述。

实施例5：

本发明在上述实施例1-4任一项的基础上，为了更好地实现本发明，进一步地，将生成的预测时空特征分类分数向量按照从大到小的顺序进行排序，值最大的预测时空特征分类分数向量对应的类别索引即代表了监控视频中的动作类别。

为了更好地实现本发明，进一步地，事先设置报警动作类别，将实际的监控视频识别中每一个识别出的动作类别都送入缓存队列进行时间先后排序，对排序后的动作类别进行判断，当判断为报警动作类别时，将被判断为报警动作类别的样本进行保存，并进行报警推送；

同时设置阈值K，当识别为报警动作后，若在缓冲队列后续K个动作类别中再次出现了判断为报警动作识别的，将再次判断为报警动作类别的样本与前一次被判断为报警动作类别的样本进行识别，若两组样本的相似度高于或等于U，则继续判断后序的动作类别，若相似度低于U，则将再次判断为报警动作类别的样本进行保存，并再次进行报警推送；

对于保存的判断为报警动作识别的样本，在样本图片上使用圈选框将样本上对应的报警动作位置圈选出来。

本实施例的其他部分与上述实施例1-4任一项相同，故不再赘述。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于深度学习的校园安全视频监测方法，首先训练预训练模型，然后进行校园监控视频特征提取，最后进行异常分类打分，其特征在于，所述校园监控视频特征提取的具体步骤为：

2.如权利要求1所述的一种基于深度学习的校园安全视频监测方法，其特征在于，所述异常分类打分的具体操作为：

3.如权利要求2所述的一种基于深度学习的校园安全视频监测方法，其特征在于，将时域特征和空域特征同时进行正则化处理，再输入共享权值层，从而提取出时域特征分数和空域特征分数；然后将时域特征分数和空域特征分数进行融合，得到用于预测监控视频中动作类别的预测时空特征分类分数向量。

4.如权利要求3所述的一种基于深度学习的校园安全视频监测方法，其特征在于，所述训练预训练模型的具体步骤为：

5.如权利要求4所述的一种基于深度学习的校园安全视频监测方法，其特征在于，在选出与类中心的相似度在（a，b）区间范围内的增强后的样本后，还要生成一项用于抽样的抽样序列，所述抽样序列的元素为各动作类别id的id序号；每个id序号在所述抽样序列中出现的次数为h，所述次数h为可变值，根据实际需要的样本数量及数据集的样本大小进行调节。

6.如权利要求4或5任一项所述的一种基于深度学习的校园安全视频监测方法，其特征在于，所述第二次模型训练时同样生成时域特征和空域特征，并计算出交叉熵损失函数L1、异构三连体对损失函数L2、判别嵌入限制损失函数L3，将三个函数结合为第二次模型训练的损失函数L进行模型训练，得到各动作类别id的类别索引。

7.如权利要求6所述的一种基于深度学习的校园安全视频监测方法，其特征在于，将生成的预测时空特征分类分数向量按照从大到小的顺序进行排序，值最大的预测时空特征分类分数向量对应的类别索引即代表了监控视频中的动作类别。

8.如权利要求7所述的一种基于深度学习的校园安全视频监测方法，其特征在于，事先设置报警动作类别，将实际的监控视频识别中每一个识别出的动作类别都送入缓存队列进行时间先后排序，对排序后的动作类别进行判断，当判断为报警动作类别时，将被判断为报警动作类别的样本进行保存，并进行报警推送。

9.如权利要求8所述的一种基于深度学习的校园安全视频监测方法，其特征在于，设置阈值K，当识别为报警动作后，若在缓冲队列后续K个动作类别中再次出现了判断为报警动作识别的，将再次判断为报警动作类别的样本与前一次被判断为报警动作类别的样本进行识别，若两组样本的相似度高于或等于U，则继续判断后序的动作类别，若相似度低于U，则将再次判断为报警动作类别的样本进行保存，并再次进行报警推送。

10.如权利要求9所述的一种基于深度学习的校园安全视频监测方法，其特征在于，对于保存的判断为报警动作识别的样本，在样本图片上使用圈选框将样本上对应的报警动作位置圈选出来。