CN117376575A

CN117376575A - 一种基于条件扩散模型的压缩域视频异常检测方法

Info

Publication number: CN117376575A
Application number: CN202311343737.9A
Authority: CN
Inventors: 贺丽君; 刘昊; 张淼; 李凡
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2024-01-09

Abstract

本发明公开了一种基于条件扩散模型的压缩域视频异常检测方法，包括：对输入的压缩视频流进行稀疏采样；将1个I帧和其后3个P帧称为一组GoP；将重构MV与原始MV的均方误差MSE作为异常重构分数；将输入中的最后一个I帧作为目标I帧，对该帧进行扩散操作，然后进行加噪；以加噪后的目标I帧作为输入，重构MV与其时间顺序对应的I帧在通道上的拼接作为条件，输入进噪声预测器Unet中进行噪声预测；将上述步骤得到的异常重构分数和异常预测分数进行加权，即可得到最终的异常分数；对于数据集中不同视频流进行处理，从而得到整个数据集的异常分数，得到最终的压缩域视频的异常检测结果。本发明在保持高检测性能的同时降低了复杂性。

Description

一种基于条件扩散模型的压缩域视频异常检测方法

技术领域

本发明属于电子信息技术领域，具体涉及一种基于条件扩散模型的压缩域视频异常检测方法。

背景技术

视频异常检测(Video anomaly detection，VAD)是计算机视觉领域的一个关键和艰巨的挑战。随着监控技术的广泛应用，人工异常识别变得越来越困难。因此，必须将这项任务委托给自动化系统。本任务的主要目标是检测正常场景中穿插的异常，这些异常通常分为外观异常和运动信息异常。异常的多样性和收集它们的难度使得不可能将这个任务视为一个简单的二元分类问题。因此，必须构建一个能够在无监督设置中区分正常和异常样本的模型。无监督方法需要通过使用一个训练集来学习正常模式，该训练集中仅包含正常样本。随后，通过评估实例与获得的正常模式之间的距离来识别测试集中的异常事件。

在传统的云端视频异常检测中，其过程是在终端对视频进行压缩，传输到云端进行完全解码，然后进行异常检测。然而，这种方法在传输和解码阶段引入了显著的时间延迟和内存使用。在物联网(IoT)兴起的推动下，边缘服务器的计算能力不断增强，使得能够在边缘部署各种技术。因此，压缩视频现在可以在附近的边缘服务器上有效地处理，显著提高了整体效率。但现有的视频异常检测方法要么网络架构过于复杂，要么性能不足。此外，这些方法需要对压缩视频流进行完全解码，使得其不适合部署在计算资源和存储容量有限的边缘服务器上。因此，研究一种能够部署在边缘服务器上且检测精度高的轻量级异常检测方法仍然是一项具有挑战性的任务。

由于在工业界广阔的前景，视频异常检测现已获得了研究人员显著的关注。在该领域的早期阶段，研究人员主要从统计学的角度进行异常检测，利用手工制作的特征与传统的机器学习算法相结合。在这一类中，方法依赖于集成到模型中的预定义的、手工制作的特征来进行异常检测。这些特征通常是基于对特定场景的先验知识设计的。然而，这种方法的缺点是它们适应不同场景的能力有限，经常导致检测精度低于标准。

随着深度学习的出现，大量基于深度神经网络的异常检测方法已经出现。由于深度神经网络强大的特征提取能力，这一类算法已成为当今VAD算法的主流。基于深度学习的方法可以进一步分为两大基线：基于重建的方法和基于帧预测的方法。基于重建的方法依靠学习正常数据的模式，然后重建测试数据，通过评估重建误差来识别异常。然而，这些基于重建的方法有一个局限性，即它们独立地重建每帧，导致在时域中丢失运动信息。基于帧预测的方法通过理解连续帧的时域模式，进而预测未来帧，通过评估预测误差来识别异常。这些帧预测方法通常通过自编码器、变分自编码器和生成对抗网络进行帧预测，但这些生成模型很难学习数据集的分布，经常生成模糊的图像，这使得错误分类率更高，或者出现模式崩溃，这使得训练非常困难。

此外，在这两种方法中，研究人员通常采用光流的重建或预测来识别运动模式中的异常。对于检测外观异常，他们通常将重建或预测的帧与完全解码的RGB域中的真实情况进行比较。但是，这些过程不适合部署在边缘服务器上，因为光流的提取和视频的完整解码非常复杂且耗时。

总之，现有的视频异常检测方法面临着几个需要解决的关键挑战：1)运动信息提取和完整视频解码产生的复杂性问题。许多当前的VAD算法只在图像域操作，这必须进行压缩视频流完全解码。其中一些方法还需要提取光流作为辅助信息源，这引入了复杂性和时间消耗，并增加了对存储和计算资源的需求。2)现有的生成模型学习正常模式分布的能力有限。依赖自编码器进行帧预测或重建的方法通常需要集成补充的时间特征提取模块，并且往往表现不佳。变分自编码器会导致帧失真，增加误分类率。生成对抗网络容易发生模式崩溃，这使得它们难以适应不同的应用场景，并产生较少多样性的生成帧。

发明内容

本发明的目的在于提供一种复杂度低、高检测精度，能够部署在边缘服务器上的基于条件扩散模型的压缩域视频异常检测方法。

本发明是通过以下技术方案来实现：

一种基于条件扩散模型的压缩域视频异常检测方法，包括以下步骤：

步骤1，对输入的压缩视频流进行稀疏采样，保留所有的独立编码帧I帧，从帧间编码帧P帧中提取出运动矢量MV；

步骤2，将1个I帧和其后3个P帧称为一组GoP，在对视频流进行顺序处理时，以4个GoP的I帧与MV和下一个GoP的I帧作为输入；

步骤3，将输入中的4组MV作为重构端的输入，分组进行重构，将重构MV与原始MV的均方误差MSE作为异常重构分数；

步骤4，将输入中的最后一个I帧作为目标I帧，对该帧进行扩散操作，条件扩散模型是一种生成模型，其旨在对数据集进行加噪去噪的过程中学习数据集的分布，从而生成符合该分布的新数据，而扩散操作便是条件扩散模型的第一过程，对数据进行加噪，该操作在[0，T]之间随机采样一个值作为图像的加噪程度t，然后对目标I帧进行程度t加噪，其中T所代表的便是加噪的程度阈值，即最大的加噪等级；

步骤5，以加噪后的目标I帧作为输入，重构MV与其时间顺序对应的I帧在通道上的拼接作为条件，输入进噪声预测器Unet中进行噪声预测，这一步骤便是条件扩散模型的第二过程——逆扩散过程，即对加噪图像进行去噪，此处得到的预测I帧与目标I帧的均方误差MSE将作为异常预测分数；

步骤6：将步骤3和步骤5中得到的异常重构分数和异常预测分数进行加权，即可得到最终的异常分数；

步骤7：重复步骤2-6，对于数据集中不同视频流进行处理，从而得到整个数据集的异常分数，并与数据集原始标注的异常分数进行比对，超出所设阈值的帧将判定为异常帧，得到最终的压缩域视频的异常检测结果。

本发明进一步的改进在于，所述步骤1中，压缩视频流中包含独立编码帧I帧和帧间编码帧P帧。

本发明进一步的改进在于，对I帧直接进行保留；对于帧间编码帧P帧，采用HEVC标准的官方编解码器HM，对P帧中的MV进行采样，仅保留MV作为输入。

本发明进一步的改进在于，所述步骤3中的MV重构方法包括：

S31，首先为训练过程，根据在训练集中重构MV和原始MV的差距要求尽可能小，得到重构端自编码器的目标函数为：

其中φ是自编码器的编码器，ψ是解码器，是损失函数，用来计算重构MV和原始MV之间差距，如下式所示：

由此对重构自编码器进行训练，训练结束后便可进行测试；

S32，推理过程便是将测试集中MV输入进训练好的重构自编码器中，得到重构MV。

本发明进一步的改进在于，所述步骤4中对目标I帧进行扩散操作的方法包括：

S41，扩散过程q_t是一个马尔科夫过程，每一个状态都由上一状态决定，用x₀代指I帧，则扩散[1，T]程度即可表示为：

其中超参数是一个大于0小于1的值；

S42，如步骤4中所述，在[0，T]之中随机采样一个值t作为加噪程度，这种加噪方法与S41不同，直接加噪到t程度，如式：

式中

本发明进一步的改进在于，所述步骤4中，选定T＝1000。

本发明进一步的改进在于，所述步骤5中对加噪后的I帧进行逆扩散操作的方法包括：

S51，逆扩散过程p_t即是要对加噪后的I帧进行去噪，其中利用Unet来进行噪声预测，由

可知

其中∈是为高斯分布中随机采样噪声，将利用以θ作为参数的条件去噪Unet对输入的噪声进行预测，如式：

式中y为一系列条件；

S52，现以过去的I帧和重构/>进行拼接作为条件，此时的逆扩散过程为p_θ，如式：

式中其中∈_θ为

S53，在训练过程中优化一个去噪U-Net，以MV，P为条件，加噪目标I帧T为输入，去噪U-Net的主要目标是预测噪声目标I帧中存在的噪声，其损失函数为

其中

S54，在推理过程，根据在高斯分布中随机采样的噪声图进行目标I帧的预测。

本发明进一步的改进在于，所述步骤6中进行异常分数计算的方法为：

S61，异常重构分数为其中/>是原始MV，/>是重构MV；

S62，异常预测分数其中I_i是原始目标I帧，/>是预测目标I帧；

S63，最终的异常分数为S＝w_rS_R+w_pS_P，其中w_r是异常重构分数的权重，w_p是异常预测分数的权重。

本发明至少具有如下有益的技术效果：

本发明提供的一种基于条件扩散模型的压缩域视频异常检测方法，该方法直接在压缩域中操作，在保持高检测性能的同时降低了复杂性。首先，我们对压缩视频采用稀疏采样策略，处理i帧和运动向量作为外观和运动信息，通过重建和帧预测的融合完成视频异常检测任务。其具有如下优点：

第一：其直接在压缩域进行操作，使其可以部署在边缘服务器上；

第二：通过直接在压缩域进行处理，避免了视频的完全解码，从而减少了时间损耗；

第三：引入运动矢量作为运动信息，与传统的光流法相比其提取和处理更加快速、高效，内存占用更少，减少了边缘服务器的时间损耗和内存负担；

第四：算法中需要进行训练的网络结构简单，只有一个用来重构的自编码器和进行噪声预测的Unet，与当前主流算法相比网络参数更少，模型更简单；

第五：为了解决过往生成模型带来的一些缺陷，我们将扩散模型引入到视频异常检测中，并利用该模型建立了一个以I帧和运动作为条件的条件扩散模型。这既保证了生成帧的时间一致性，又保证了对正常模式分布的有效学习，同时得到了质量更好的预测帧，并且训练稳健不会出现模式崩溃。

第六：采用独特的稀疏采样策略，提高了算法的检测效率。

附图说明

图1为发明的整体结构图。

在监控终端进行视频获取，通过HEVC(High Efficient Video Compression)进行视频压缩后，在压缩视频中进行稀疏采样得到I帧和MV，对MV进行重构，并将重构MV与I帧进行通道拼接作为扩散模型的条件，随即进行目标I帧的预测。

图2为稀疏采样的具体流程图，保留每个GoP中的I帧，从P帧中提取出MV。

图3为重建MV的自编码器示意图，编码和解码端具有对称的五层结构。

图4为本发明中进行噪声预测的Unet具体结构，Unet由resnetblock和Attentionblock组成，。

图5为本发明实施例的ROC曲线图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

一种基于条件扩散模型的压缩视频异常检测方法，包括如下步骤，

步骤1，对输入的压缩视频流进行稀疏采样，保留所有的独立编码帧I帧，从帧间编码帧P帧中提取出运动矢量(Motion Vectors，MV)；

步骤2，将1个I帧和其后3个P帧称为一组GoP(Group of Pictures)，在对视频流进行顺序处理时，以4个GoP的I帧与MV和下一个GoP的I帧作为输入，详见图1中的压缩域信息提取部分和图2；

步骤3，将输入中的4组MV作为重构端的输入，分组进行重构，将重构MV和MV的均方差作为重构自编码器的训练损失函数，具体过程可见图1中的运动矢量重构部分，其重构自编码器的结构如图3所示；

步骤4，将输入中的最后一个I帧作为目标I帧，对该帧进行扩散操作，扩散操作是扩散模型的一个过程，其目的是将图像转化为一个各向同性的高斯噪声，其具体操作是在[0，T](本发明中T取1000)之间随机采样一个值作为图像的加噪次数t，然后对目标I帧进行程度t加噪；

步骤5，以加噪后的目标I帧作为输入，重构MV与其时间顺序对应的I帧在通道上的拼接作为条件，输入进噪声预测器Unet中进行噪声预测，将预测噪声与加入噪声的L2距离作为损失函数，对Unet进行训练，具体的流程可见图1中的目标I帧预测部分的训练过程；

步骤6：将步骤2-5，对于数据集中不同视频流进行多次重复，从而完成训练。

推理过程包括如下步骤：

步骤1，对输入的压缩视频流进行稀疏采样，保留所有的独立编码帧I帧，从帧间编码帧P帧中提取出运动矢量；

步骤1中的采样方法包括：

S11：压缩视频流中包含独立编码帧I帧和帧间编码帧P帧，对I帧直接进行保留；

S12：对于帧间编码帧P帧，采用HEVC标准的官方编解码器HM(HEVC Test Model)，对P帧中的MV进行采样，仅保留MV作为输入。

步骤2，在对视频流进行顺序处理时，以4个GoP的I帧与MV和下一个GoP的I帧作为输入；

步骤3，将输入中的4组MV作为重构端的输入，分组进行重构，；

步骤4，在标准高斯分布中采样出一个噪声z；

步骤5，以噪声z作为输入，重构MV与其时间顺序对应的I帧在通道上的拼接作为条件，输入进噪声预测器Unet中进行噪声预测，从噪声z中去除预测出的噪声，得到最终预测得到的目标I帧，具体的流程可见图1中的目标I帧预测部分的推理过程；

步骤6：计算原始MV和重构MV，原始目标I帧与预测目标I帧的均方差，将两个均方误差进行加权，计算得到最终的异常分数，该分数超出预定的阈值则将该帧视为异常帧，对于视频流中未采样的P帧，由于相邻帧的变化极小，所以可以以其相邻两个I帧的评价异常分数作为其异常分数，这种操作也能降低整体算法的耗时。

实施例

如图1所示，本发明提供的一种基于条件扩散模型的压缩域视频异常检测方法，包括以下步骤：

步骤1，以UCSD Ped2数据集作为具体测试对象，首先将原始数据集利用HEVC进行压缩编码得到压缩视频流，再对输入的压缩视频流进行稀疏采样，保留所有的独立编码帧I帧，从帧间编码帧P帧中提取出运动矢量MV；

步骤2，将以4个GoP的I帧与MV和下一个GoP的I帧作为输入；

步骤4，将输入中的最后一个I帧作为目标I帧，对该帧进行扩散操作该操作在[0，T]之间随机采样一个值作为图像的加噪程度t，然后对目标I帧进行程度t加噪；

步骤5，以加噪后的目标I帧作为输入，重构MV与其时间顺序对应的I帧在通道上的拼接作为条件，输入进噪声预测器Unet中进行逆扩散操作，即噪声预测，此处得到的预测I帧与目标I帧的均方误差MSE将作为异常预测分数；

步骤7，对UCSD Ped2的全部视频帧进行异常检测，最终与标定的异常标签进行比对，计算得AUC(areaunderthe curve)为98.245％，具体ROC曲线如图5所示。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于条件扩散模型的压缩域视频异常检测方法，其特征在于，包括以下步骤：

步骤4，将输入中的最后一个I帧作为目标I帧，对该帧进行扩散操作，条件扩散模型是一种生成模型，其旨在对数据集进行加噪去噪的过程中学习数据集的分布，从而生成符合该分布的新数据，而扩散操作便是条件扩散模型的第一过程，对数据进行加噪，该操作在[0,T]之间随机采样一个值作为图像的加噪程度t，然后对目标I帧进行程度t加噪，其中T所代表的便是加噪的程度阈值，即最大的加噪等级；

2.根据权利要求1所述的一种基于条件扩散模型的压缩域视频异常检测方法，其特征在于，所述步骤1中，压缩视频流中包含独立编码帧I帧和帧间编码帧P帧。

3.根据权利要求2所述的一种基于条件扩散模型的压缩域视频异常检测方法，其特征在于，对I帧直接进行保留；对于帧间编码帧P帧，采用HEVC标准的官方编解码器HM，对P帧中的MV进行采样，仅保留MV作为输入。

4.根据权利要求1所述的一种基于条件扩散模型的压缩域视频异常检测方法，其特征在于，所述步骤3中的MV重构方法包括：

由此对重构自编码器进行训练，训练结束后便可进行测试；

5.根据权利要求1所述的一种基于条件扩散模型的压缩域视频异常检测方法，其特征在于，所述步骤4中对目标I帧进行扩散操作的方法包括：

S41，扩散过程q_t是一个马尔科夫过程，每一个状态都由上一状态决定，用x₀代指I帧，则扩散[1,T]程度即可表示为：

其中超参数是一个大于0小于1的值；

S42，如步骤4中所述，在[0,T]之中随机采样一个值t作为加噪程度，这种加噪方法与S41不同，直接加噪到t程度，如式：

式中

6.根据权利要求1所述的一种基于条件扩散模型的压缩域视频异常检测方法，其特征在于，所述步骤4中，选定T＝1000。

7.根据权利要求1所述的一种基于条件扩散模型的压缩域视频异常检测方法，其特征在于，所述步骤5中对加噪后的I帧进行逆扩散操作的方法包括：

可知

式中y为一系列条件；

式中其中∈_θ为

S53，在训练过程中优化一个去噪U-Net，以MV,P为条件，加噪目标I帧T为输入，去噪U-Net的主要目标是预测噪声目标I帧中存在的噪声，其损失函数为

其中/>

8.根据权利要求1所述的一种基于条件扩散模型的压缩域视频异常检测方法，其特征在于，所述步骤6中进行异常分数计算的方法为：

S61，异常重构分数为其中/>是原始MV，/>是重构MV；

S62，异常预测分数其中I_i是原始目标I帧，/>是预测目标I帧；