CN115410116A

CN115410116A - 一种多任务的视频异常检测方法、装置、设备及介质

Info

Publication number: CN115410116A
Application number: CN202210948987.4A
Authority: CN
Inventors: 马培龙; 马倩; 冯广辉
Original assignee: Jiayuan Technology Co Ltd
Current assignee: Jiayuan Technology Co Ltd
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2022-11-29
Anticipated expiration: 2042-08-09
Also published as: CN115410116B

Abstract

本发明公开一种多任务的视频异常检测方法、装置、设备及介质。该方法包括如下步骤：获取视频帧，并对视频帧进行预处理；基于预处理后视频帧是否具有标签进行模式筛选，若有，则进入有监督识别模式，基于模型融合的Transformer网络进行异常帧监测；若无，则进入无监督识别模式，基于乘积量化的卷积神经网络进行异常帧监测；将有监督识别模式或无监督识别模式的预测结果作为最后的输出结果。本发明能够实现对有监督与无监督两种不同情况下视频异常处理，整体的系统能够在不下降模型分类性能的基础上，进一步提高模型对异常视频帧的检测效率。

Description

一种多任务的视频异常检测方法、装置、设备及介质

技术领域

本发明涉及视频检测技术领域，尤其涉及一种多任务的视频异常检测方法、装置、设备及介质。

背景技术

目前国内外视频监控系统已经遍布于地铁、车站、社区、校园等人流量较大的各类公共场所。传统的视频监控系统仅仅依靠大量的人力对视频进行监控，不仅人工成本大、时间周期长，而且易造成遗漏或者错误的判断。随着现代经济社会的快速发展，以及计算机、互联网相关技术产业的蓬勃兴起，人工智能时代已经到来。因此利用人工智能技术实现智能化的监控视频异常检测技术是未来发展的必然趋势。监控视频异常检测技术是计算机视觉领域一个重要研究热点，通过提取并分析视频场景中目标外观及行为，可以对正常的数据中检测出扭曲或者有偏差的异常值进行智能预警。

近年来，已有大量的国内外专家学者针对视频事件的异常检测进行了深入地研究。根据是否需要人工标注的训练数据进行训练，常见的视频异常检测方法可分为无监督学习、半监督学习以及监督学习。其中，无监督的视频异常检测算法由于不需要训练数据，是目前最接近现实世界人脑学习的一种方式,并且在实际的任务中异常行为发生频率较低，而监控视频数据量大且多以正常行为为主，因此对视频进行人工标注成本太高；另一方面，实际获取的数据集只是真实场景下正常行为和异常行为的子集，故无法囊括所有发生的行为。这种数据不平衡和异常样本缺乏的问题使得当前的大多数研究都是基于无监督学习和半监督学习方法。利用自动编码器的重建误差来检测异常事件是一种常用的半监督视频异常事件检测方法。现有方法通常将正常类别的视频帧输入到深度神经网络，尝试以较小的误差来重建这些视频帧。传统的自动编码器结构采用参数全连接的方式，这样的做法会引入大量的冗余参数，并且难以描述图像或视频的二维特征。虽然基于重建模型的方法在视频异常事件检测任务上有较高的适应性，但由于深度神经网络强大的表征和“生成”能力，使得一些异常样本也能被重建或预测得很好，使得模型失去对正常事件和异常事件的区分能力，导致漏检的发生，并且后期重构需要大量的计算资源，时间开销比较大，导致重构方法检测视频帧异常效率较低。

发明内容

为了解决上述技术问题，本发明提出一种多任务的视频异常检测方法、装置、设备及介质，能够实现对有监督与无监督两种不同情况下视频异常处理，整体的系统能够在不下降模型分类性能的基础上，进一步提高模型对异常视频帧的检测效率。基于多任务的视频异常检测装置主要实现对有监督视频片段以及无监督视频帧的异常检测。两者的共性是首先对视频片段进行预处理。对于有监督视频片段的异常检测：首先对视频帧进行采样，同时为了获取全局上下语义信息以及空间信息，采用多模型融合方式以获取更丰富的全局空间特征信息，使用Transformer关联其事件序列上的特征信息，从而实现对监控片段的异常检测。对于无监督的视频异常帧检测：通过设计的基于乘积量化的特征分布模型检测异常视频帧。若检测到的视频帧与正常视频帧库的分布距离较大，则可以判定为异常视频帧，反之则可判定为正常视频帧。

为了达到上述目的，本发明的技术方案如下：

一种多任务的视频异常检测方法，包括如下步骤：

获取视频帧，并对视频帧进行预处理；

基于预处理后视频帧是否具有标签进行模式筛选，若有，则进入有监督识别模式，基于模型融合的Transformer网络进行异常帧监测；若无，则进入无监督识别模式，基于乘积量化的卷积神经网络进行异常帧监测；

将有监督识别模式或无监督识别模式的预测结果作为最后的输出结果。

优选地，采取随机抽样的方式从视频中抽取视频帧，公式如下所示：

其中S为监控视频中视频帧数量，L为需要采样的视频帧数量，I为采样因子范围在0～1之间，JIT为通过正态分布选取的随机数范围为-1～1之间。

优选地，所述预处理包括灰度处理，以及引入直方图均衡算法对视频帧进行增强。

优选地，所述基于预处理后视频帧是否具有标签进行模式筛选前，还包括如下步骤：

判断预处理后视频帧的数量是否达到预设阈值，若是，则进入下一步；若否，则进行补帧直至数量达到预设阈值，并进入下一步。

优选地，基于模型融合的Transformer网络进行异常帧监测，具体包括如下步骤：

采用三个并行的VGG16子模型、ResNet50子模型和Inception V3模型分别提取视频帧中的空间特征信息，通过通道级联的方法将提取的空间特征进行融合；

将融合后的特征信息输入到ConvTransformer网络中获取时间特征，利用多头注意力机制对空间特征和时间特征进行加权，得到时空特征；

将时空特征输入全连接层中，得到预测结果。

优选地，所述ConvTransformer网络采用自适应损失函数L_total，公式如下所示：

其中，

是调制因子，

是权重参数，

是样本参数用于调整N_pos中正负样本个数，

代表真实值的标签，

是用以预测boundingbox的中心点坐标。

优选地，基于乘积量化的卷积神经网络进行异常帧监测，具体包括如下步骤：

采用卷积神经网络提取数据样本集的特征信息；

通过乘积量化操作，对特征信息的维度进行降维，通过均值和协方差确定初步特征集合；

每次迭代训练中，计算提取的特征信息与初步特征集合间的马氏距离，若满足预设异常阈值则将该特征向量保留，若不满足，则将该特征向量剔除，直至迭代训练结束，获得正常视频帧库；

异常检测阶段，将待检测视频帧进行特征提取并进行乘积量化处理，求取处理后的各个特征向量与正常视频帧库的马氏距离，若计算的马氏距离大于预设异常阈值，则判断该帧为视频异常帧，否则为正常视频帧。

本发明还公开了一种多任务的视频异常检测装置，包括：获取模块、分析模块和输出模块，其中，

所述获取模块，用于获取视频帧，并对视频帧进行预处理；

所述分析模块，用于基于预处理后视频帧是否具有标签进行模式筛选，若有，则进入有监督识别模式，基于模型融合的Transformer网络进行异常帧监测；若无，则进入无监督识别模式，基于乘积量化的卷积神经网络进行异常帧监测；

所述输出模块，用于将有监督识别模式或无监督识别模式的预测结果作为最后的输出结果。

本发明还公开了一种计算机设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现如上述任一项所述的方法。

本发明还公开了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述的方法。

基于上述技术方案，本发明的有益效果是：

1)本发明视频预处理以及增强：原始视频帧中包含大量的冗余信息，通过从视频中抽取关键帧，采用少数的视频帧表示视频中可能发生的异常片段情况。因此设计了一种随机采样方法并增加了时间搅动策略对视频帧图像进行提取。摄像头在不同环境拍摄的画面背景不同，易导致监控视频中的视频帧亮度不同，从而出现亮度极端变化情况，产生噪音数据。因此需要对视频数据进行特定处理，对图像进行灰度处理,并引入直方图均衡算法，对帧图像进行增强；

2)本发明针对有监督情况下的视频片段异常检测提出了两个发明点：设计了一种基于模型融合的Transformer网络检测模型。通过采样视频帧，模型融合方法和Transformer等优化方案提取帧的时间和空间特征进行分类。目前基于Transformer关联多帧视频帧的结构都没有考虑到时间特征信息之间的相关性。通过基于模型融合的Transformer网络检测模型有效的改善了现有的检测方法只利用了空间维度信息而忽视了时间信息的问题；由于异常检测问题中，异常样本存在严重的类内类间样本不均衡的问题,即异常样本与正常样本数量差距极大，同时异常样本中各类异常行为的数量差距过大。若使用交叉熵损失训练辅助分支时，会造成网络偏向学习类别占比大的样本的特征，占比类别大的样本会更加易于学习，导致其在网络损失中的贡献加大，致使困难样本的损失基本被几乎忽略，造成困难样本无法被学习，设计了一种新颖的自适应损失函数，解决了决以上辅助分支中类别不均衡以及行为类间极易错分的问题；

3)本发明针对无监督情况下的视频帧异常检测：设计了一种基于乘积量化的特征分布模型，解决了监控视频异常检测中视频帧异常检测模型视频帧效率较低的问题，避免了编码器解码器模式下特征提取中耗费大量时间，从而提高了异常视频帧的检测效率。

附图说明

图1是一个实施例中一种多任务的视频异常检测方法流程图；

图2是一个实施例中预处理后对比效果图，其中，(a)为未处理视频帧；(b)为灰度图；(c)为像素直方图；

图3是一个实施例中基于模型融合的Transformer整体网络框架图；

图4是一个实施例中ConvTransformer的结构示意图；

图5是一个实施例中编码器的结构示意图；

图6是一个实施例中解码器的结构示意图；

图7是一个实施例中基于乘积量化的卷积神经网络框架图；

图8是一个实施例中一种多任务的视频异常检测装置的结构框图；

图9是一个实施例中一种计算机设备的结构框图；

图10是一个实施例中一种多任务的视频异常检测方法的程序产品的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图1所示，本实施例提供一种多任务的视频异常检测方法，包括如下步骤：

步骤S1，获取视频帧，并对视频帧进行预处理。

本实施例中，考虑到原始视频帧中包含大量的冗余信息，通过从视频中抽取关键帧，采用少数的视频帧表示视频中可能发生的异常片段情况。通过采用随机抽样的方式对视频帧进行采样，可以有效的丰富训练视频帧的多样性，避免造成对视频中提取的信息不充分的问题。由于采样的视频帧数量不固定，所采集的特征信息也大不相同，所以需要采样不同数量的视频帧，进行随机采样。在采样的过程中，为丰富训练视频帧的多样性，增加了时间因子，由于进行时间搅动策略。具体的采样过程可用以下公式进行表示:

其中S代表着监控视频中视频帧数量，L代表着需要采样的视频帧数量，I为采样因子范围在0～1之间，JIT代表着通过正态分布选取的随机数范围为-1～1之间。

由于摄像头拍摄的视频会随着外界时间，光照的变化，导致监控视频帧中的视频帧亮度不一，因此需要将采样后的图像转化为灰度图。对于任意一张RGB图像，可以以逐像素的处理方式进行灰度图的转化，公式如下:

Gray＝0.2989*R+0.5870*G+0.1140*B

其中，R表示对应像素点的R值，G表示对应像素点的G值，B表示对应像素点的B值，Gray为计算出来的新的像素值。

将像素值为0到39的像素判断为暗像素,统计其中偏暗像素个数和图片中像素总个数的比值，得到图片中像素中暗像素的百分比，预处理后的效果对比图如图2所示。

步骤S2，基于预处理后视频帧是否具有标签进行模式筛选，若有，则进入有监督识别模式，基于模型融合的Transformer网络进行异常帧监测；若无，则进入无监督识别模式，基于乘积量化的卷积神经网络进行异常帧监测。

本实施例中，进入有监督识别模式:

1、基于模型融合的Transformer整体网络框架图如图3所示，

在对监控视频帧进行预处理后，在合理的范围内对监控视频采样，当采样的视频帧数量不够的情况下，通过视频帧补帧得到合适的输入数据。然后在预训练模型的基础上加入多模型融合方法,三个并行的VGG16子模型、ResNet50子模型和Inception V3模型分别提取视频帧中的空间特征信息，采用通道级联的方法进行融合。

特征提取阶段:使用预训练模型提取视频帧之间的空间特征信息，在提取空间特征信息后通过ConvTransformer关联多帧视频帧的时间特征信息。最后通过全连接层汇总特征信息，判断视频帧片段是否存在异常，实现对异常片段检测功能。ConvTransformer的具体结构如图4所示。

编码器的输入为第n次抽取帧的特征信息，解码器的特征是第n-1次的抽取帧的特征信息。在编码器结构中，编码器结构的细节如下图5所示。

首先输入的n次特征进行铺平操作,将输入特征变成一个向量列表,通过编码器结构中的自注意力机制使得模型不仅能够关注当前位置的特征信息，而且能够关注向量中其他位置的特征信息。对于每一帧的输入都会增加对应的位置编码，位置编码的作用在于对编码器的输入序列提供位置信息,具体的表达式如下所示:

PE_(pos,2i)＝sin(pos/10000^2i/dmodel)

PE_(pos,2i)＝cos(pos/10000^2i/dmodel)

其中PE为2维矩阵,大小和输入的维度一样；pos表示在所有输入的具体位置；dmodel代表着向量的维度；i表示向量的位置。

编码器的输出以及前一帧的特征会作为解码器的输入，具体的解码器结构的细节如图6所示。

通过多头注意力机制的使用可实现不同时序特征信息之间的融合，捕捉时序维度的信息。解码器的输出信息，通过全连接层后实现异常预测。

2.自适应损失函数

在异常检测的过程中，我们发现由于大多数样本进行人工标注的时候都只有单一目标，这些简单正样本主导着该方法中网络的训练，使得存在过拟合现象，在测试集中网络的鲁棒性并不好。为了解决这个问题，设计了一种新颖的自适应损失函数如下：

其中，

是调制因子，

是权重参数，

是样本参数用于调整N_pos中正负样本个数，

代表真实值的标签，

是用以预测bounding box的中心点坐标。由于困难样本输出的特征图容易被分类为负样本，且其概率估计

很小，所以接近于1，这就意味着，困难样本带来的损失值对训练结果的影响不大。通过调制因子调整损失函数中权重和样本参数控制正负样本个数的方法，可以更多的关注由于分层卷积导致的损失过多的问题，同样也控制了简单样本权重的下降速度。

进入无监督识别模式：

如图7所示，提供一种基于乘积量化的卷积神经网络：在特征提取阶段采用预训练模型提取有用的特征信息，接着通过乘积量化操作，对数据维度进行降维，并构建正常的视频帧特征库。具体步骤如下所示：

1)首先选用预训练模型部分网络提取视频帧特征信息；

2)使用乘积量化对特征信息维度较高的部分进行降维，集合M代表着量化后的特征信息；

3)从M中选取若干量化后的特征构成集合Q，并对集合Q通过求均值以及协方差的形式，确定Q的集合分布；

4)依次将量化后的特征集合中的特征Mi与集合Q进行马氏距离计算，并将距离大于阈值的特征加入到Q集合中去；

5)对集合Q进行剪枝，去除初始M个特征中的多余特征，与量化特征在集合Q中之间计算所计算的马氏距离，小于阈值的则可判定为非候选集，并将该冗余特征从集合Q中剔除；

6)重复上述步骤，直至训练样本完成所有训练，集合Q构建成功；

7)对输入的视频帧进行异常预测，先通过模型的特征提取以及乘积量化将特征进行处理，得到量化后的特征v_i；

8)将v_i与集合Q的分布计算马氏距离，若计算的距离值大于设定的阈值，则判断该帧为视频异常帧，否则为正常视频帧，马氏距离计算公式为dist＝(v_i-μ)*K*(v_i-μ)'，其中v_i表示量化后的特征，dist表示候选特征集合与v_i的距离特征，μ表示集合的特征均值，K表示特征向量协方差矩阵。

步骤S3，将有监督识别模式或无监督识别模式的预测结果作为最后的输出结果。

如图8所示，在一个实施例中提供一种多任务的视频异常检测装置，包括：获取模块、分析模块和输出模块，其中，

所述获取模块，用于获取视频帧，并对视频帧进行预处理；

如图9所示，提供了一种计算机设备200的结构框图。计算机设备200包括至少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230。

存储器210可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)211和/或高速缓存存储器212，还可以进一步包括只读存储器(ROM)213。

其中，存储器210还存储有计算机程序，计算机程序可以被处理器220执行，使得处理器220实现上述任一项方法的步骤，其具体实现方式与上述一种多任务的视频异常检测方法实施方式中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

存储器210还可以包括具有至少一个程序模块215的实用工具214，这样的程序模块215包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例的每一个或某种组合中可能包括网络环境的实现。

相应的，处理器220可以执行上述计算机程序，以及可以执行实用工具214。

总线230可以为表示几类总线结构的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构的任意总线结构的局域总线。

计算机设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信，还可与一个或者多个能够与该计算机设备200交互的设备通信，和/或与使得该计算机设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入输出接口250进行。并且，计算机设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与计算机设备200的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，所述计算机程序被执行时实现上述任一项方法的步骤，其具体实现方式与上述方法实施方式中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

参见图10，图10示出了本申请提供的一种多任务的视频异常检测方法的程序产品300的结构示意图。程序产品300可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品300不限于此，在本申请中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言诸如Java、C++等，还包括常规的过程式程序设计语言诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本申请从使用目的上，效能上，进步及新颖性等观点进行阐述，已符合专利法所强调的功能增进及使用要件，本申请以上的说明书及说明书附图，仅为本申请的较佳实施例而已，并非以此局限本申请，因此，凡一切与本申请构造，装置，特征等近似、雷同的，即凡依本申请专利申请范围所作的等同替换或修饰等，皆应属本申请的专利申请保护的范围之内。