CN112016403A

CN112016403A - 一种视频异常事件检测方法

Info

Publication number: CN112016403A
Application number: CN202010778939.6A
Authority: CN
Inventors: 李冠彬; 吴捷; 陈宇洋
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2020-12-01
Anticipated expiration: 2040-08-05
Also published as: CN112016403B

Abstract

本发明公开了一种视频异常事件检测方法，使用了管道‑时间双支结构，在不同的粒度上反映了视频中的信息，一个分支可以把学习到的知识分享给另外一个分支，充当额外的监督作用，鼓励另外一个分支从不同的粒度学习异常事件的特征；从而减轻对人力资源依赖，提高检测效率，同时在只有时序标签的数据集上，利用不同粒度的信息，检测出视频中异常事件发生的事件和区域，并且探索区域之间的关系，提升准确率。

Description

一种视频异常事件检测方法

技术领域

本发明涉及异常事件检测技术领域，尤其涉及一种视频异常事件检测方法。

背景技术

视频中的异常事件检测技术，在城市交通分析、交通事故预测以及证据勘察等应用中起着至关重要的作用。目前，视频异常事件检测可以进一步分为人工检测和自动检测两种方案。

(1)、人工检测需要安排大量的工作人员参与其中，让工作人员观察视频的每一秒，标出视频中异常事件的时间、空间信息。

然而，人工检测需要大量的人力，需要工作人员在较长的视频中标记异常事件，劳动力成本较高，并且存在一定的漏检情况。

(2)、自动诊断基于深度学习视频分析技术。通过预先使用一定数量的包含异常事件的视频、不包含异常事件的视频以及其相关的标注数据，训练网络模型自主学习视频中的异常事件的物体形状、物体变化等典型特征，进而检测出视频中的异常事件。

然而，现有的自动检测技术尽管经过不断发展，检测效果越来越好。但是在只有时序标签的数据集上，很多技术仅仅只能在时序上粗糙地标出异常事件发生时间和结束时间，不仅针对的粒度不够，而且不能够提供异常事件发生的区域信息。而既有时序标签又有空间标签的数据集又需要大量的人力去标记。

目前，现有的视频异常事件检测方法主要包括使用了统计学方法，自动编码器，C3D网络模型，GCN网络模型等。统计学方法对数据点进行建模，再以假定的模型根据点的分布来确定是否异常视频，如隐马尔可夫模型和马尔可夫随机场等。自动编码器重构正常视频后的结果与原视频对比错误较少，故而可以使用视频重构后的结果与原视频的差别作为异常事件检测的重要依据。C3D网络模型是一种三维卷积神经网络，改进了二维卷积神经网络在捕捉视频时序信息中的不足，可以作为视频的特征抽取器，使用MIL方法可以训练异常事件检测模型。GCN网络模型在异常事件检测中纠正标签中的噪音，把异常事件检测当作有噪音标签的监督学习，使得在只有弱标签的情况下，也可以使用全监督的分类器去检测异常事件。

因此，目前市面上亟需一种自动化视频异常事件检测策略，可以减轻对人力资源依赖，提高检测效率并提升准确率。

发明内容

本发明提供了一种视频异常事件检测方法，可以减轻对人力资源依赖，提高检测效率并提升准确率。

为了解决上述技术问题，本发明实施例提供了一种视频异常事件检测方法，包括：

获取视频源文件，分别对所述视频源文件进行管道级别实例抽取和视频级别实例抽取，得到管道级别实例和视频级别实例；

分别对所述管道级别实例和视频级别实例进行特征提取，得到管道级别特征和视频级别特征；

分别将所述管道级别特征和视频级别特征输入至各自对应的关系建模中进行特征处理，得到管道高级特征和视频高级特征；

分别将所述管道高级特征和视频高级特征输入至各自对应的全连接神经网络进行异常预测，得到管道预测数值和视频预测数值；

根据所述管道预测数值和视频预测数值计算得到异常事件预测分数。

作为优选方案，所述对所述视频源文件进行管道级别实例抽取的步骤具体为：

将所述视频源文件输入到深度学习模型中，输出得到每一帧中物体的区域；

对所有区域中自信心最大的区域进行提取，并在自信心最大的所在区域的同一帧的其他区域中提取出IoU值大于预设阈值的区域，将所述IoU值大于预设阈值的区域合并入已提取的区域组成更大的区域；

在当前帧的所有区域合并完毕之后，选择下一帧的扩展分数最高的区域并入此区域所属的管道，直至所述视频源文件中的所有帧处理完成。

作为优选方案，所述扩展分数定义为：S_l(B_i，B_j)＝S(B_i)+S(B_j)+nU(B_i，B_j)；

其中，B表示区域，S(B_i)为区域B_i的自信心，U(B_i，B_j)为区域B_i和B_j的IoU分数。

作为优选方案，所述对所述视频源文件进行视频级别实例抽取的步骤具体为：

将所述视频源文件切割为互不重合的多个视频片段，每个视频片段就是一个视频级别的实例。

作为优选方案，所述进行特征提取的步骤，具体为：

把实例输入到C3D网络之后，从所述C3D网络中抽取出fc6层的特征，再进行平均池化层以统一维度。

作为优选方案，所述关系建模的具体结构包括：多层多头自注意力层，每一层多头自注意层均包括多层全连接层和缩放点乘注意层。

作为优选方案，所述进行特征处理的步骤具体为：

将输入的原始特征同时输入到多层全连接层；

将各层全连接层的输出结果输入到缩放点乘注意层中；

将缩放点乘注意层的输出结果输入到下一层的多头自注意力层；

当最后一层多头自注意力层输出结果时，将原始特征和最后一层多头自注意力层输出结果，作为关系建模的最终输出。

作为优选方案，所述进行异常预测的步骤具体为：

分别将所述管道高级特征和视频高级特征输入至各自对应的全连接神经网络，得到管道预测值和视频预测值；

通过sigmoid函数分别对所述管道预测值和视频预测值进行归一化处理，得到管道预测数值和视频预测数值。

作为优选方案，所述根据所述管道预测数值和视频预测数值计算得到异常事件预测分数的步骤具体为：

计算所述管道预测数值和视频预测数值的平均数，作为异常事件预测分数。

作为优选方案，在所述分别将所述管道级别特征和视频级别特征输入至各自对应的关系建模中进行特征处理之前，还包括：通过管道损失函数对其对应的关系建模进行训练；同时，通过时间损失函数对其对应的关系建模进行训练；

所述管道损失函数定义如下：

所述时间损失函数定义如下：

其中p_v是时间分支的预测函数，p_t是管道分支的预测函数，

是最大的正样本的全局管道实例，

是最大的正样本的局部管道实例，

是最大的负样本的局部管道实例；

是最大的正样本的视频实例，

为最大的负样本的视频实例。

相比于现有技术，本发明实施例具有如下有益效果：

本发明技术方案使用了管道-时间双支结构，在不同的粒度上反映了视频中的信息，一个分支可以把学习到的知识分享给另外一个分支，充当额外的监督作用，鼓励另外一个分支从不同的粒度学习异常事件的特征；从而减轻对人力资源依赖，提高检测效率，同时在只有时序标签的数据集上，利用不同粒度的信息，检测出视频中异常事件发生的事件和区域，并且探索区域之间的关系，提升准确率。

附图说明

图1：为本发明实施例提供的一种视频异常事件检测方法的步骤流程图；

图2：为本发明实施例提供的一种视频异常事件检测方法的原理结构图；

图3：为本发明实施例中的关系建模结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

请参照图1，本发明实施例提供的一种视频异常事件检测方法的步骤流程图，包括步骤101至步骤105，各步骤具体如下：

步骤101，获取视频源文件，分别对所述视频源文件进行管道级别实例抽取和视频级别实例抽取，得到管道级别实例和视频级别实例。

具体地，首先对输入的视频做实例抽取，接下来的网络针对的是实例而不是整个视频。在本步骤使用的视频输入源可以是已经保存好的完整视频，也可以是视频流。如图2所示，为本发明实施例提供的一种视频异常事件检测方法的原理结构图。本步骤使用的是管道-时间双支结构，每一支针对的实例类型不一样。管道分支的输入是管道级别实例，时间分支的输入是视频级别实例。

管道级别实例抽取过程如下：首先使用Faster-RCNN深度学习模型检测视频的每一帧，抽出每一帧中物体的区域，在时间上序列区域即是一个管道。先从所有区域中选取自信心最大的区域，在该区域的同一帧的其他区域中选择IoU(intersection-over-union)大于某个阈值的其他区域，把该区域合并入已选区域组成更大的区域。在该帧的所有区域合并完毕之后，选择下一帧的扩展分数最高的区域并入此区域所属的管道。扩展分数定义为：S_l(B_i，B_j)＝S(B_i)+S(B_j)+nU(B_i，B_j)。其中B表示某个区域，S(B_i)为某个区域B_i的自信心，U(B_i，B_j)为区域B_i和B_j的IoU分数。

视频级别实例抽取过程如下：将输入的视频切割为互不重合的32个视频片段，每个视频片段就是一个视频级别的实例。

管道级别实例将会输入到管道分支的特征提取器，视频级别实例将会输入到时间分支的特征提取器。

步骤102，分别对所述管道级别实例和视频级别实例进行特征提取，得到管道级别特征和视频级别特征。

具体地，在抽取出实例之后，需要进行特征提取以便后续操作。本实施例使用的特征提取器基于C3D网络。把实例输入到训练好的C3D网络之后，从该网络抽取出fc6层的特征，再进行平均池化层以统一维度。

步骤103，分别将所述管道级别特征和视频级别特征输入至各自对应的关系建模中进行特征处理，得到管道高级特征和视频高级特征。

具体地，得到实例的特征之后，使用多层多头自注意力机制(multi-head self-attention)对实例之间的关系进行建模。如图3所示，为本发明实施例中的关系建模结构示意图，其中SDPA代表缩放点乘注意层(scaled dot-production attention)。关系建模的步骤如下：第一步，把输入的原始特征同时输入到多层全连接层(图3所示为3层全连接层)；第二步，把全连接层的输出输入到SDPA模块中去；第三步，SDPA模块的输出输入到下一层的多头自注意力层；第四步，重复第二步、第三步若干次。第五步，把原始输入加上最后一层的SDPA模块的输出，就可以得到关系建模的最终输出。

在SDPA模块中，管道分支的SDPA模块的询问输入(query)和关键输入(key)为管道级别特征和视频级别特征，时间分支的SDPA模块的输入类似。

本实施例通过关系建模，充分利用双支优势，使得输出的特征较原始特征而言，更加能够表达实例之间、实例与背景之间的关系，更加能捕捉特征内部的关系。

步骤104，分别将所述管道高级特征和视频高级特征输入至各自对应的全连接神经网络进行异常预测，得到管道预测数值和视频预测数值。

具体地，把关系建模后输出的特征输入到含有三层隐含层的全连接神经网络。异常预测的步骤如下：第一步：把各支的关系建模的输出输入到各支的异常预测模块中的全连接神经网络中，输出为Y^tube和Y^tem；第二步，使用sigmoid函数作为全连接神经网络的输出归一化，该函数定义为

得到的输出是Pred^tube和Pred^tem。

步骤105，根据所述管道预测数值和视频预测数值计算得到异常事件预测分数。

具体地，对Pred^tube和Pred^tem取平均数得到最终预测分数Pred，即

最终预测分数Pred是一个一维向量，向量中每一个数字取值在[0,1]之间，代表着某个异常事件的预测分数，预测分数越高，神经网络更有自信认为该异常事件在输入的视频中发生了。

在另一实施例中，在所述分别将所述管道级别特征和视频级别特征输入至各自对应的关系建模中进行特征处理之前，还包括：通过管道损失函数对其对应的关系建模进行训练；同时，通过时间损失函数对其对应的关系建模进行训练。

具体地，神经网络的训练需要定义好损失函数。使用梯度下降法优化损失函数，训练神经网络，使得神经网络的预测值更加接近真实值。

管道分支的损失函数定义如下：

时间分支的损失定义函数如下：

其中p_v是时间分支的预测函数，p_t是管道分支的预测函数，

是最大的正样本的全局管道实例，

是最大的正样本的局部管道实例，

是最大的负样本的局部管道实例。

是最大的正样本的视频实例，

为最大的负样本的视频实例。

整个模型最终的损失定义如下：

其中，λ为取值为0到1的实数，L_CE是交叉熵，定义如下：

本实施例的网络训练过程中，随机挑选30个正样本和30个负样本组成60个样本为1个训练批次，使用了Adam梯度下降优化器，学习率为0.0005。

与人工检测方案相比，本发明技术方案不需要大量的工作人员人工检测，降低人为错误的可能性，实现智能化检测，提高检测速度；与现有自动检测方案相比，本发明技术方案仅需要只有时序标签的数据集，不依赖空间标签，就能够检测出视频中异常发生的时间和区域；此外，本发明技术方案在视频级别AUC和时空定位准确率指标都在公开数据集ST-UCF-Crime和STRA取得了不错的效果。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。