CN113011322A

CN113011322A - 监控视频特定异常行为的检测模型训练方法及检测方法

Info

Publication number: CN113011322A
Application number: CN202110286753.3A
Authority: CN
Inventors: 梅雪; 吴欣红; 李云柯; 王莉; 何毅
Original assignee: Guizhou Security Engineering Technology Research Center Co ltd; Nanjing Tech University
Current assignee: Guizhou Security Engineering Technology Research Center Co ltd; Nanjing Tech University
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-06-22
Anticipated expiration: 2041-03-17
Also published as: CN113011322B

Abstract

本发明公开了一种监控视频特定异常行为的检测模型训练方法及检测方法，属于视频处理技术领域。在训练模型时，包括：将数据集中每个训练视频均分成数量相等的视频片段，构成正例包和负例包；将视频片段输入预训练好的特征提取网络提取视频特征；将所提取的视频特征输入串联的至少一个全连接层，得到视频片段特征；利用所得到的视频片段特征构造无向图，将无向图输入串联的至少一个图卷积神经网络层得到异常得分；根据异常得分，计算正负样本之间的排序损失，并更新权重，完成至少一个全连接层和至少一个图卷积神经网路层的训练。检测时，利用所训练出的模型进行检测。本发明能够对视频监控中特定异常行为进行较好的检测，并具有较快的检测速度。

Description

监控视频特定异常行为的检测模型训练方法及检测方法

技术领域

本发明属于视频处理技术领域，具体涉及一种监控视频特定异常行为的检测模型训练方法及检测方法。

背景技术

传统的视频监控系统大多只能完成监控录像、视频联网这些基本功能，因此多数时候只能用于事后取证，无法起到事前预防、突发情况预警作用。智能分析是视频监控的发展趋势，能够提升监控系统的有效性，加快安保人员对各类异常事件的反应速度和处理时间。

智能视频监控采用图像处理、模式识别和计算机视觉技术，通过对摄像机拍录的图像序列进行自动分析来对动态场景中的目标进行定位、识别和跟踪，并在此基础上分析和判断目标的行为，若在某些特定场所或特定时间内出现可疑或反常的行为，系统会自动发出报警。它的优势在于它可以一天24小时不间断地对监控区域进行监控和自动分析，使安保人员从庞大的数据处理中解脱出来。相对于人工监看视频画面，智能监控可靠性更高，能够有效提高监控和报警精确度，大大降低误报和漏报现象的发生。

视频分析是智能视频监控的主要技术，基于深度学习的方法近年来在视频分析领域也逐渐兴起，涌现了许多卓越的研究工作，为在线视频分析提供了可靠的技术支撑。但是对于视频健康，通常要面临异常数据缺乏、背景和动作复杂等问题，导致现有的技术仍然难以有效的对视频监控进行有效监测。例如，申请号为202010345247.2的中国专利公开了一种基于人体骨架的行人异常行为检测方法，该方法首先利用YOLOv3目标检测算法检测行人得到行人检测框，然后提取人体骨架信息并利用基于残差的多尺度信息融合网络对预处理后的人体骨架信息进行异常行为检测。该方法摒弃了场景信息，优点是不受场景约束，但彻底弃用背景信息，只考虑前景人体的特征信息难免会限制对视频数据的完整性描述，使得一些人物交互构成的异常行为的学习变得更复杂。再例如，申请号为201910413528.4的中国专利公开了一种基于深度学习的行为识别技术方法，该方法采用3D双流卷积神经网络和GRU网络相结合的方式搭建时空双流CNN-GRU神经网络模型，双流的输入数据分别为视频帧块和光流图块。使用时空双流CNN-GRU网络对视频外观信息和时序信息建模，优点在于识别准确率高，但它的网络较复杂，内存消耗大，在一般计算设备上若要保证实时性，必须进行大量的丢帧处理，可能造成漏检和误检。

因此，现有技术中所涉及的方法，在对视频监控的行为进行检测时，效果仍不理想，例如，针对面向公共安全的监控视频特定行为的检测，效果不佳。

发明内容

技术问题：针对现有技术对监控视频中对复杂的异常行为检测效果不佳的问题，本申请提供一种监控视频特定异常行为的检测模型训练方法以及检测方法，从而对监控视频中的特定异常行为进行准确检测；此外，本申请的方案在具有较好的检测效果的同时，检测速度也相对较快。

技术方案：本申请一方面提供了一种监控视频特定异常行为的检测模型训练方法，包括：

将数据集中每个训练视频均分成数量相等的视频片段，构成正例包和负例包；

将视频片段输入预训练好的特征提取网络提取视频特征；

将所提取的视频特征输入串联的至少一个全连接层，得到视频片段特征；

利用所得到的视频片段特征构造无向图，将所述无向图输入串联的至少一个图卷积神经网络层得到异常得分；

根据所述异常得分，计算正负样本之间的排序损失，并更新权重，完成所述至少一个全连接层和至少一个图卷积神经网络层的训练。

进一步地，所述的特征提取网络包括依次连接的深度可分离卷积层C1、池化层P1、深度可分离卷积层C2、池化层P2、深度可分离卷积层C3、池化层P3、深度可分离卷积层C4、池化层P4、深度可分离卷积层C5、池化层P5、全连接层FC6。

进一步地，所述至少一个全连接层包括串联的全连接层FC7和全连接层FC8，其中，FC7具有512个单元，FC8具有128个单元，FC7和FC8之间随机舍弃，参数保留概率为k_p。

进一步地，所述至少一个图卷积神经网络层包括串联的图卷积神经网络层GCN1和图卷积神经网络层GCN2，其中，图卷积神经网络层GCN1的输出的特征维度为32维，图卷积神经网络层GCN2的输出特征维度为1维。

进一步地，利用所得到的视频片段特征构造无向图，将所述无向图输入串联的至少一个图卷积神经网络层得到异常得分的方法包括：

将每个视频片段特征当作节点，将片段特征之间的关系当作边，构造无向图；

将无向图输入串联的至少一个图卷积神经网络层；

利用非线性的Sigmoid函数将特征表示投影到标签空间，生成异常分数。

进一步地，所述根据异常得分，计算正负样本之间的排序损失的方法包括：

基于排序铰链损失函数及稀疏约束，构建排序损失函数；

利用所述排序损失函数计算排序损失。

进一步地，所述排序损失函数为：

其中，

其中，β_a、β_n分别代表样本正负包，f(v^a)、f(vⁿ)分别表示正负包中示例的异常得分，i为序号，P为每个训练视频分割成的片段个数，k为P个视频片段中得分较高的片段个数，λ为稀疏约束项的可调参数，P、k、λ的大小均可根据实际训练情况调整；

‖w‖_F表示L2正则项。

本申请另一方面提供一种监控视频特定异常行为的检测方法，采用所述的训练方法对检测模型进行训练，所述检测方法包括：

将待检测的视频数据输入特征提取网络提取视频特征；

利用所得到的视频片段特征构造无向图，将所述无向图输入串联的至少一个图卷积神经网络层得到异常得分，根据所述异常得分判断视频区域是否异常。

进一步地，所述根据异常得分判断视频区域是否异常的方法包括：采用所述的训练方法完成模型训练后，使用约登指数寻找最佳ROC曲线阈值α，当异常得分小于或等于阈值α，则判断为正常区域；当异常得分大于阈值α则判断为异常区域。

进一步地，还包括：将待测视频输入特征提取网络前，对视频进行预处理。

有益效果：本发明与现有技术相比，具有以下优点：

(1)在本申请的实施例中，在训练检测模型时，利用预训练好的特征提取网络进行特征提取，可以在检测模型的训练过程中，更准确进行特征提取；利用图神经网络层对视频连续片段间的相关性进行了建模，使得模型的检测性能得到提高；此外，利用的是多示例学习方法(MIL)的训练策略，属于弱监督学习框架，使得模型具有更好的泛化能力；利用本申请所提供的训练方案，能够有效地提高检测模型的检测效果，从而能够使得训练出的检测模型适应监控视频中复杂的特定异常行为的检测。

(2)在本申请的一个实施例中，利用深度可分离卷积构建了特征提取网络模型，从而有效地降低了模型的计算量，提高了模型的运算速度。

(3)本申请的检测方法的实施例中，利用本申请的检测模型训练方法进行模型训练，并利用训练好的检测模型进行监控视频特定行为检测，能够更加快速准确地检测出监控视频中的特定行为。

附图说明

图1为本申请实施例中的监控视频特定异常行为的检测模型训练方法的流程图；

图2为本申请实施例中的监控视频特定异常行为的检测模型训练方法的模型架构图；

图3为本申请实施例中特征提取网络的架构图；

图4为本申请实施例中的特征提取网络的网络层特征格式图；

图5为标准卷积方法的示意图；

图6为深度可分离卷积的示意图；

图7为本申请实施例中训练好的检测模型的架构图；

图8为本申请实施例中监控视频特定异常行为的检测方法的流程图。

具体实施方式

下面结合实施例和说明书附图对本发明作进一步的说明。

参考图1，其示出了本申请的监控视频特定异常行为的检测模型训练方法的实施例的流程图，图2示出了本申请的检测模型训练方法中模型的网络结构图；根据图1和图2，具体包括以下步骤：

步骤S100：将数据集中每个训练视频均分成数量相等的视频片段，构成正例包和负例包。在申请的实施例中，该步骤在具体操作时，选取待检测的数据集，视频数据集为未剪辑的长视频数据，分为训练集和测试集，训练集包含视频层级异常分类标签，测试集包含视频层级异常分类标签，以及异常行为发生的起始帧和结束帧标签。将数据集中的一个视频定义为一个包，包的标签为对应视频的标签，每个视频平均分为P段作为示例，示例不具有标签。

步骤S110：将视频片段训练样本输入预训练好的特征提取网络提取视频特征。

在本申请的一个实施例中，如图3所示，特征提取网络结构包括依次连接的深度可分离卷积层C1、池化层P1、深度可分离卷积层C2、池化层P2、深度可分离卷积层C3、池化层P3、深度可分离卷积层C4、池化层P4、深度可分离卷积层C5、池化层P5、全连接层FC6，网络各层的特征格式如图4所示，其中dw代表深度卷积操作，p代表逐点卷积操作。为了加快网络的收敛速度，防止梯度爆炸，提高模型的精度，在每个深度可分离卷积层和全连接层后放置批量归一化(Batch Normalization，BN)层。

利用深度可分离卷积构建特征提取网络可以显著降低网络的计算量，因此可以有效的提高整个检测模型的计算速度，节省计算资源和运算时间，从而在利用训练好的模型进行监控视频特定行为进行检测时，可以更快的完成检测。下面对其能够提高检测速度的原理进行说明。

在标准卷积中，如图5所示，滤波与组合计算通过一个运算步骤完成，对输入图像的特征进行提取形成新的输出。对于深度可分离卷积，如图6所示，先对输入图像的每个通道进行卷积，再采用逐点卷积对第一步的卷积结果进行进一步的卷积运算，实现了将滤波和通道信息组合运算完全分离。

假定一个标准卷积层输入D_F*D_F*M的特征图F，并得到一个D_G*D_G*N的输出特征图G，其中D_F表示输入特征图的宽和高，M是输入的通道数(输入的深度)，D_G为输出特征图的宽和高，N是输出的通道数(输出的深度)。标准卷积层卷积核大小为D_K*D_K*M*N，其中D_K是卷积核的空间维数，M是输入通道数，N是输出通道数。假设步长为1并考虑padding，标准卷积的输出的特征图由下式计算：

G_k,l,n＝Σ_i,j,mK_i,j,m,n·F_{k+i-1,l+j-1,m}

其计算量为D_k*D_K*M*N*D_F*D_F，其由输入通道数M、输出通道数N、卷积核大小D_k、输出特征图大小D_F决定，i、j、k、m、l表示序号。

深度可分离卷积由两层构成：深度卷积和逐点卷积。深度卷积对每个通道使用一种卷积核，可以写成：

其中

是深度卷积核的尺寸D_k*D_K*M，

中第m个卷积核应用于F中的第m个通道来产生第m个通道的卷积输出特征图

深度卷积的计算量为：D_k*D_K*M*D_F*D_F。

深度卷积只对输入通道进行卷积，没有对其进行组合来产生新的特征。因此下一层利用另外的层利用1x1卷积来对深度卷积的输出计算一个线性组合从而产生新的特征。

因此深度可分离卷积的计算量为：D_k*D_K*M*D_F*D_F+M*N*D_F*D_F，即深度卷积和1x1的逐点卷积的和。

深度可分离卷积和标准卷积计算量之比为：

假设卷积核大小D_k为3，深度可分离卷积相较于标准卷积少了8到9倍的计算量。并且卷积分解只是改变了卷积神经网络中间的处理过程，并不会影响初始输入和最终输出结果，因此，利用深度可分离卷积构件特征提取网络，能够有效的降低计算量，从而提高了整个模型的计算速度，节省计算资源和运算时间。

在本申请的实施例中，在进行检测模型的训练时，提前将特征提取网络送入Sports-1M数据集中预先训练好，从而能够提高整体模型的训练速度。

步骤S120：将所提取的视频特征输入串联的至少一个全连接层，得到视频片段特征。

在本申请的一个实施例中，包括串联的两个全连接层，分别为全连接层FC7和全连接层FC8，其中FC7具有512个单元，FC8具有128个单元，在全连接层FC7和FC8之间使用随机舍弃(dropout)，参数保留概率为k_p，从而可以减少参数以及防止过拟合发生。

步骤S130：利用所得到的视频片段特征构造无向图，将所述无向图输入串联的至少一个图卷积神经网络层得到异常得分。

在本申请的实施例中，具体方法为：

首先，将每个视频片段特征当作节点v_i∈v，将片段特征之间的关系当作边e_ij＝(v_i,υ_j)∈e，邻接矩阵A∈R^P×P，构建无向图，这里用g(v,e)表示P个节点的图。然后，在本申请的一个实施例中，将无向图结构数据输入到串联的图卷积神经网络层GCN1和图卷积神经网络层GCN2，其中，图卷积神经网络层GCN1的输出的特征维度为32维，图卷积神经网络层GCN2的输出特征维度为1维。

在图神经网络中，特征分层传播规则如下：

式中，

表示添加自连接的无向图g的邻接矩阵，A表示图的邻接矩阵，I表示单位矩阵；

表示

的度矩阵，定义为

i、j表示序号；H^l表示第l层的特征表达，W表示参数矩阵；σ表示非线性激活函数。

上式需要计算邻接矩阵A，本发明通过分配特定的权重来设计邻接矩阵，用余弦相似度来估计边e_ij的权重，公式如下：

A_ij表示第i和第j个片段之间特征相似度，x_i、x_j分别为示例包中的第i和第j个特征向量。

最后使用非线性的Sigmoid函数来将特征表示投影到标签空间，生成异常分数。

图卷积神经网络(Graph Convolutional Networks，GCN)是近年来逐渐流行的一种神经网络结构。不同于只能用于欧式空间结构数据的传统卷积神经网络CNN，图卷积网络能够处理具有广义拓扑图结构的数据，并深入发掘其特征和规律。GCN包含聚合和更新两个基本操作，聚合操作用于从全局顶点(长期依赖)编译信息，而更新函数执行非线性转换来计算新的表示，其中聚合操作类似于注意力机制在捕获远程依赖方面的作用。在本申请的实施例中，考虑到视频片段之间存在时间上下文信息，用图卷积神经网络对视频片段特征进行相关性建模，GCN的聚合操作类似于注意力机制在捕获远程依赖方面的作用，在图卷积之后，每个节点聚合它邻近点的信息，以增强自身特征，最终帮助提高检测性能，从而使得最终训练出的神经网络具有更好的检测效果。

步骤S140：根据所述异常得分，计算正负样本之间的排序损失，并更新权重，完成所述至少一个全连接层和至少一个图卷积神经网路层的训练。

本申请中，检测模型的训练过程，可以看作是一个基于多示例学习方法(MIL)的训练策略，多示例学习是机器学习中典型的弱监督学习方法，在多示例学习中，训练集由一组具有分类标签的多示例包组成，每个包含有若干个没有分类标签的示例。正类多示例包(正包)至少含有一个正示例，负类多示例包(负包)中的所有示例都是负示例。本发明将数据集中的一个视频定义为一个包，其中含有异常行为的是正包，不含异常行为的是负包，每个视频平均分为P段作为示例。

考虑到一个视频可能存在多个异常行为片段，使用示例包中的K个最大得分(K-max)的平均值来计算异常样本和正常样本的得分。正包中K-max得分对应的实例为异常视频中K个最有可能是真正的异常实例，负包中K-max得分对应的实例是正常视频中的K个最容易被误判断为异常片段的实例。将异常检测定义为回归问题，采用多示例学习方法，搭建弱监督学习框架，为了让正负样本之间的距离尽可能远，使用排序铰链损失(rankinghinge loss)更新模型参数，定义为：

式中β_a、β_n分别代表样本正负包，f(v^a)、f(vⁿ)分别表示正负包中示例的异常得分，P为每个训练视频分割成的片段个数，k为P个视频片段中得分较高的片段个数，λ为稀疏约束项的可调参数，在具体的实施过程中，P、k、λ的大小均可根据实际训练情况进行调整。

因为异常很少发生，应该只有少数异常得分高的片段，因此我们采用稀疏约束，损失函数变为：

添加L2正则项‖w‖_F，最终损失函数为：

采用得到的排序损失函数计算出正负样本之间的排序损失，并更新权重，训练上述的至少一个全连接层和至少一个图神经网络卷积层。

多示例学习方法(MIL)训练模型，每个视频被分割成了固定数量的片段,这些片段被看作MIL中的示例,而每个视频则看作MIL中的包，属于弱监督框架，这种方法只需要标注视频层级的标签，不需要精确标注每个异常行为在视频中的时间位置，大大的节省了标注成本，方便进行数据集扩充，训练更具泛化能力的模型。

最终，利用上述的方法，训练出用于监控视频特定异常行为的检测模型，在本申请的一个实施例中，训练出的模型结构如图7所示，包括特征提取网络、全连接层FC7、全连接层FC8、图卷积神经网络层GCN1、图卷积神经网络层GCN2。

在本申请的实施例中，在训练检测模型时，利用预训练好的特征提取网络进行特征提取，可以在检测模型的训练过程中，更准确进行特征提取；利用图神经网络层对连续视频片段间的相关性进行了建模，使得模型的检测性能得到提高；此外，利用的是多示例学习方法(MIL)的训练策略，属于弱监督学习框架，从而使得模型具有更好的泛化能力；利用本申请所提供的训练方案，能够有效地提高检测模型的检测效果，从而能够使得训练出的检测模型适应监控视频中复杂的特定异常行为的检测，尤其是面向公共安全的监控视频中，训练出的模型可以对监控视频特定异常行为进行很好的检测。

另一方面，本申请提供一种监控视频特定异常行为的检测方法，如图8所示，其示出了该检测方法的一个实施例的流程图，包括：

步骤S200：将待检测的视频数据输入特征提取网络提取视频特征。

在本申请的实施例中，在将待检测的视频数据输入特征提取网络前，需要对视频数据进行预处理，在读取待检测的视频数据后，提取视频的RGB图像序列，图像尺寸规范化为W×H，W和H分别代表图像的高和宽，得到待检测的图像序列，并且，在本申请的实施例中，将视频数据每16帧作为一个clib输入特征提取网络，得到一个特征向量。

步骤S210：将所提取的视频特征输入串联的至少一个全连接层，得到视频片段特征。该步骤与模型的训练方法中的步骤S120对应，此处就不再赘述。

步骤S220：利用所得到的视频片段特征构造无向图，将所述无向图输入串联的至少一个图卷积神经网络层得到异常得分，根据所述异常得分判断视频区域是否异常。

对于构造无向图以及获得异常得分的过程，在对步骤S130中已经进行了相应说明，此处就不再赘述，而在本申请的实施例中，根据异常得分判断视频区域是否正常的方法为：

在利用本申请所提出的模型训练方法完成模型训练后，使用约登指数寻找最佳ROC曲线阈值α，当异常得分小于或等于阈值α，则判断为正常区域；当异常得分大于阈值α则判断为异常区域。

利用本申请提供检测方法，因为采用的模型能够迅速准确地进行对监控视频特定行为进行检测，因此，该检测方法能够适用于视频监控中复杂的特定异常行为的检测，能够快速准确地检测出监控视频中的特定异常行为，当应用于面向公共安全的监控视频时，可以更好的检测出监控视频中的特定异常行为。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种监控视频特定异常行为的检测模型训练方法，其特征在于，包括：

将视频片段输入预训练好的特征提取网络提取视频特征；

根据所述异常得分，计算正负样本之间的排序损失，并更新权重，完成所述至少一个全连接层和至少一个图卷积神经网路层的训练。

2.根据权利要求1所述的训练方法，其特征在于，所述的特征提取网络包括依次连接的深度可分离卷积层C1、池化层P1、深度可分离卷积层C2、池化层P2、深度可分离卷积层C3、池化层P3、深度可分离卷积层C4、池化层P4、深度可分离卷积层C5、池化层P5、全连接层FC6。

3.根据权利要求1所述的训练方法，其特征在于，所述至少一个全连接层包括串联的全连接层FC7和全连接层FC8，其中，FC7具有512个单元，FC8具有128个单元，FC7和FC8之间随机舍弃，参数保留概率为k_p。

4.根据权利要求1所述的训练方法，其特征在于，所述至少一个图卷积神经网络层包括串联的图卷积神经网络层GCN1和图卷积神经网络层GCN2，其中，图卷积神经网络层GCN1的输出的特征维度为32维，图卷积神经网络层GCN2的输出特征维度为1维。

5.根据权利要求1-4任一项所述的训练方法，其特征在于，利用所得到的视频片段特征构造无向图，将所述无向图输入串联的至少一个图卷积神经网络层得到异常得分的方法包括：

将无向图输入串联的至少一个图卷积神经网络层；

6.根据权利要求5所述的训练方法，其特征在于，所述根据异常得分，计算正负样本之间的排序损失的方法包括：

基于排序铰链损失函数及稀疏约束，构建排序损失函数；

利用所述排序损失函数计算排序损失。

7.根据权利要求6所述的训练方法，其特征在于，所述排序损失函数为：

其中，

其中，β_a、β_n分别代表样本正负包，f(v^a)、f(vⁿ)分别表示正负包中示例的异常得分，i为序号，P为每个训练视频分割成的片段个数，k为P个视频片段中得分较高的片段个数，λ为稀疏约束项的可调参数；

‖w‖_F表示L2正则项。

8.一种监控视频特定异常行为的检测方法，其特征在于，采用权利要求1-7任一项所述的训练方法对检测模型进行训练，所述检测方法包括：

将待检测的视频数据输入特征提取网络提取视频特征；

9.根据权利要求8所述的方法，其特征在于，所述根据异常得分判断视频区域是否异常的方法包括：

采用权利要求1-7任一项所述的方法完成模型训练后，使用约登指数寻找最佳ROC曲线阈值α，当异常得分小于或等于阈值α，则判断为正常区域；当异常得分大于阈值α则判断为异常区域。

10.根据权利要求8-9任一项所述的方法，其特征在于，还包括：将待测视频输入特征提取网络前，对视频进行预处理。