CN117351392A

CN117351392A - 一种视频异常行为检测的方法

Info

Publication number: CN117351392A
Application number: CN202311268291.8A
Authority: CN
Inventors: 周学荣; 吴鹏; 王鹏; 张艳宁
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2024-01-05

Abstract

本公开实施例是关于一种视频异常行为检测的方法。该方法包括：构建VadCLIP模型；将训练视频输入至VadCLIP模型中进行训练，利用冻结的CLIP图像编码器和利用冻结的CLIP文本编码器提取图像特征和文本标签的标签特征；对图像特征进行处理，以得到视频帧级别特征；对视频帧级别特征进行粗粒度二元分类，以得到异常置信度；对标签特征和异常置信度进行细粒度多分类，以得到文本标签特征；根据视频帧级别特征和文本标签特征，以得到训练视频的预测结果。本公开实施例的局部时序建模‑全局时序建模联合的时序建模模块用于从不同的角度捕获视频帧之间时序依赖性；可学习提示和异常聚焦的视觉提示机制使冻结的VadCLIP模型有效地适应弱监督视频异常行为检测任务。

Description

一种视频异常行为检测的方法

技术领域

本公开实施例涉及视频异常行为检测技术领域，尤其涉及一种视频异常行为检测的方法。

背景技术

近年来，弱监督视频异常行为检测因其广阔的应用前景而受到越来越多的关注，例如，借助视频异常行为检测算法，可以开发出功能更强大的智能视频监控系统和视频内容审核系统。弱监督视频异常行为检测的核心要求是希望异常检测器在仅提供视频级注释的情况下生成视频帧级的异常置信度。目前该领域的大部分研究都遵循如下的流程，初始步骤是使用预训练的视觉模型提取帧级特征，例如三维卷积神经网络，然后将这些特征输入基于多示例学习的二元分类器以进行模型训练，最后一步是使用模型预测的异常置信度来检测异常行为。例如Sultani等人在文献“Sultani W,Chen C,Shah M.real-worldanomaly detection in surveillance videos.ieee conference on computer visionand pattern recognition.2018”和Zhou等人在文献“Zhou H,Yu J,Yang W.dual memoryunits with uncertainty regulation for weakly supervised video anomalydetection.aaai conference on artificial intelligence.2023”中的方法都是基于上述流程。尽管这种基于分类范式的方案实现简单、性能良好，但未能充分利用跨模态关系，例如视觉-语言关联，限制了该类方案的性能进一步提升和实际应用潜力。最近的对比语言图像预训练大模型在广泛的图像级任务中取得了巨大的成功，揭示了学习具有丰富语义的强大视觉表示的非凡能力。因此如何有效地将这种包含丰富知识的大模型应用于视频领域并设计一个强大的视频异常检测器是值得深入挖掘的问题。

发明内容

为了避免现有技术的不足之处，本发明提供一种视频异常行为检测的方法，用以解决现有技术中存在不能有效地将包含丰富知识的大模型应用于视频领域的问题。

根据本公开实施例，提供一种视频异常行为检测的方法，该方法包括：

构建VadCLIP模型，所述VadCLIP模型包括CLIP图像编码器、CLIP文本编码器、时序建模模块和视觉提示模块；其中，

所述CLIP图像编码器和所述CLIP文本编码器分别为冻结的所述CLIP图像编码器和冻结的所述CLIP文本编码器，所述时序建模模块中引入时序Transformer编码器，所述时序Transformer编码器上设置多个等长局部注意力窗口，以构成局部时序建模，在所述等长局部注意力窗口后设置图卷积模块，以构成全局时序建模，所述视觉提示模块中设有前馈网络层；

将训练视频输入至所述VadCLIP模型中进行训练，利用冻结的所述CLIP图像编码器提取所述训练视频的图像特征，利用冻结的所述CLIP文本编码器提取所述训练视频对应的文本标签的标签特征；

利用所述局部时序建模和所述全局时序建模对所述图像特征进行处理，以得到视频帧级别特征；

利用二元分类器对所述视频帧级别特征进行粗粒度二元分类，以得到异常置信度；

利用所述视觉提示模块对所述标签特征和所述异常置信度进行细粒度多分类，以得到文本标签特征；

根据所述视频帧级别特征和所述文本标签特征，以得到所述训练视频的预测结果。

所述利用冻结的所述CLIP图像编码器提取所述训练视频的图像特征的步骤中，还包括：

每隔预设值帧，抽样一帧送入所述CLIP图像编码器中，以得到所述图像特征。

所述利用冻结的所述CLIP文本编码器提取所述训练视频对应的文本标签的标签特征的步骤中，包括：

将所述文本标签通过Tokenizer转换为类别向量；

将所述类别向量与可学习提示进行连接，以得到向量序列；

所述CLIP文本编码器对所述向量序列进行提取，以得到所述标签特征。

所述利用所述局部时序建模和所述全局时序建模对所述图像特征进行处理，以得到视频帧级别特征的步骤中，包括：

利用所述局部时序建模对所述图像特征建立短程时序关联；

利用所述全局时序建模实现全局的时序关联，以得到所述视频帧级别特征。

所述局部时序建模的所述时序Transformer编码器和所述全局时序建模的所述图卷积模块串联在一起，且所述时序Transformer编码器和所述图卷积模块中均包含残差连接。

所述二元分类器包括：

前馈网络层、全连接层和Sigmoid激活函数；其中，所述前馈网络层来自所述时序Transformer编码器，所述全连接层的神经元数为1。

所述利用所述视觉提示模块对所述标签特征和所述异常置信度进行细粒度多分类，以得到文本标签特征的步骤中，包括：

将所述异常置信度作为异常注意力，通过所述异常注意力和所述视频帧级别特征的点积计算视频级提示，再做归一化操作，以得到异常聚焦的视觉提示；

将所述异常聚焦的视觉提示添加到所述标签特征中，以得到所述文本标签特征。

所述根据所述视频帧级别特征和所述文本标签特征，以得到所述训练视频的预测结果的步骤中，包括：

根据所述视频帧级别特征和所述文本标签特征，计算所述视频帧级别特征和所述文本标签特征之间的匹配相似度以获得对齐矩阵；

利用多示例学习对齐机制所述训练视频的预测结果。

该方法还包括：

将测试视频输入至训练后的所述VadCLIP模型中，以得到所述测试视频的预测结果。

所述将测试视频输入至训练后的所述VadCLIP模型中的步骤中，还包括：

对于所述粗粒度二元分类，使用所述多示例学习机制在异常和正常视频中选择K个高异常置信度的平均值作为所述测试视频的视频级预测，然后使用所述视频级预测和真实标签之间的二元交叉熵来计算分类损失；

对于所述细粒度多分类，利用所述对齐矩阵计算得到对齐损失；

根据所述分类损失和所述对齐损失计算总的损失函数。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开的实施例中，通过上述视频异常行为检测的方法，局部时序建模-全局时序建模联合的时序建模模块用于从不同的角度捕获视频帧之间时序依赖性；可学习提示和异常聚焦的视觉提示机制使冻结的VadCLIP模型有效地适应弱监督视频异常行为检测任务；基于多示例学习的跨模态对齐机制实现了弱监督下的优化，从而尽可能地保留预训练的知识。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开示例性实施例中一种视频异常行为检测的方法的步骤图；

图2示出本公开示例性实施例中VadCLIP模型的框架图；

图3示出本公开示例性实施例中视频异常行为检测的方法流程图；

图4示出本公开示例性实施例中在XD-Violence数据集上细粒度检测定性示意图；

图5示出本公开示例性实施例中在XD-Violence数据集上粗粒度检测定性示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开实施例的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

本示例实施方式中首先提供了一种视频异常行为检测的方法。参考图1中所示，该视频异常行为检测的方法可以包括：步骤S101～步骤S106。

步骤S101：构建VadCLIP模型，所述VadCLIP模型包括CLIP图像编码器、CLIP文本编码器、时序建模模块和视觉提示模块；其中，

步骤S102：将训练视频输入至所述VadCLIP模型中进行训练，利用冻结的所述CLIP图像编码器提取所述训练视频的图像特征，利用冻结的所述CLIP文本编码器提取所述训练视频对应的文本标签的标签特征；

步骤S103：利用所述局部时序建模和所述全局时序建模对所述图像特征进行处理，以得到视频帧级别特征；

步骤S104：利用二元分类器对所述视频帧级别特征进行粗粒度二元分类，以得到异常置信度；

步骤S105：利用所述视觉提示模块对所述标签特征和所述异常置信度进行细粒度多分类，以得到文本标签特征；

步骤S106：根据所述视频帧级别特征和所述文本标签特征，以得到所述训练视频的预测结果。

通过上述视频异常行为检测的方法，局部时序建模-全局时序建模联合的时序建模模块用于从不同的角度捕获视频帧之间时序依赖性；可学习提示和异常聚焦的视觉提示机制使冻结的VadCLIP模型有效地适应弱监督视频异常行为检测任务；基于多示例学习的跨模态对齐机制实现了弱监督下的优化，从而尽可能地保留预训练的知识。

下面，将参考图1至视频异常行为检测的方法对本示例实施方式中的上述视频异常行为检测的方法的各个步骤进行更详细的说明。

本申请提供了一种用于弱监督视频异常行为检测的新范式，它通过直接利用冻结的预训练大模型(即CLIP模型)来构建异常检测模型(即VadCLIP模型)，这无需任何预训练和微调过程。本申请使用的预训练大模型是OpenAI开源的CLIP(Contrastive Language-Image Pre-Training，语言-图像对比预训练)模型，它是一个大型的图像-文本跨模态对比学习模型，由一个基于transformer结构的图像编码器和一个基于transformer结构的文本编码器组成，通过4亿对高质量的图像-文本对的对比学习进行训练，这让CLIP拥有了较高的图像识别准确率和强大的泛化能力，可以在不经过额外训练或微调参数的情况下完成众多下游任务。

如图2所示，本申请充分利用了预训练大模型的优势，并构建了双分支网络来实现粗粒度检测和细粒度视觉-语言关联。其中一个分支简单地利用视觉特征进行粗粒度二元分类，而另一个分支则充分利用细粒度语言-图像对齐。借助双分支的优势，本申请通过将预训练的知识有效地转移到弱监督视频异常行为检测任务，同时实现了粗粒度和细粒度的视频异常行为检测。如图3所示，为本申请的视频异常行为检测的方法流程图，本申请解决其技术问题所采用的技术方案包括如下步骤：

在步骤S101中，输入训练视频，获取图像特征

给定训练集中的视频，首先使用冻结的预训练大模型的CLIP图像编码器来提取帧级别的图像特征X_clip。

具体的，给定训练集中的视频，首先使用冻结的预训练大模型的CLIP图像编码器作为视频帧特征提取器，提取后的特征维度是512维。由于计算资源限制，对于给定的一个训练视频，提取特征时每隔16帧抽样一帧送入图像编码器中。最终得到视频帧级别特征X_clip。在本申请中，支持视频输入最长的时序长度为256，即帧级别图像特征X_clip最大长度为256。对于超出最大时序长度的情况直接截断为多个最大长度为256的分段，小于最大长度的情况补0补全。

在步骤S102中，输入对应标签，获取标签特征

对于该视频对应的文本标签，使用冻结的预训练大模型的CLIP文本编码器来提取标签特征t_out。

具体的，文本标签通常是单词或短语，过于简洁，无法很好地概括异常事件。为了学习文本嵌入的鲁棒可迁移性，将可学习提示添加到原始标签信息中。具体来说，原始文本标签首先通过Tokenizer转换为类别向量，转换过程如下，

t＝Tokenizer(Label) (1)

其中“Label”是离散的文本标签，例如，战斗、射击、交通事故等。然后将t与包含l个的可学习提示{c₁,...,c_l}连接起来，组成一个完整的句子向量序列，作为文本编码器的输入。该向量序列具体如下所示，

t_p＝{c₁, ... , t, ... , c_l} (2)

将这个向量序列加入位置编码以获得位置信息，之后输入到预训练大模型的CLIP文本编码器中生成标签特征t_out。

在步骤S103中，对视频帧级别特征进行时序建模

由于预训练大模型的图像编码器是在图像级别上进行训练的，所以缺乏对时序关系捕获。本申请提供了短时序(即局部时序建模)-长时序(即全局时序建模)的建模思路来捕获时序关系，具体而言，首先使用短时序网络对图像特征X_clip建立短程时序关联，之后再利用长时序网络实现全局的时序关联，最终得到视频帧级别特征X。

具体的，为了捕获短程时序关联，本申请首先设计了局部时序建模，即在帧级别图像特征X_clip上引入了时序Transformer编码器，该编码器不同于常规的Transformer编码器，它在时序上设置了多个等长局部注意力窗口，自注意力只在各个窗口内进行，窗口之间不进行信息交换。具体地说，将X_clip划分为重叠的等长度的多个局部自注意力窗口，在窗口内完成自注意力的计算，这样与卷积一样具有局部感受野，并降低了计算复杂度，可以有效提高局部时序关系的捕获能力。

为了进一步捕获全局时序关系，本申请的方法在局部时序建模后引入了一个轻量级的图卷积模块，该方法在已有的弱监督异常视频检测工作中，已被广泛运用并证明了其优异性能，具体原理在此不做具体赘述。图卷积操作可以用如下公式描述：

X_g＝gelu([Softmax(H_sim)；Softmax(H_dis)]X_lW) (3)

其中H_sim和H_dis是邻接矩阵，使用softmax归一化确保邻接矩阵的每行之和等于1，X_l为通过局部时序建模得到的视频特征，W为一个用于转换特征空间的可学习权重。H_sim为通过计算两帧特征的余弦相似度得到的邻接矩阵，计算方式可以写为以下公式：

根据该公式，两帧之间相似度越高，邻接矩阵的对应值越大，这两帧的信息交流越多。同时设置一个小于1的阈值，当计算得到的相似度低于该阈值，则邻接矩阵的值直接设为0，减少对相似度过低的两帧之间的信息交流。

H_dis为通过计算两帧位置距离长度得到的邻接矩阵，计算方式可以写为以下公式：

其中第i帧和第j帧的距离长度关系仅由它们的相对时序位置决定，σ是控制距离关系影响范围的超参数。根据该公式，两帧的相对距离越近，得分越高，邻接矩阵的值越大，信息交流越多。

两个图卷积全局时序建模分支的最终结果进行特征维度通道连接，然后通过1024维到512维的全连接层重新投影到原维度。局部时序建模Transformer和全局时序建模图卷积模块串联在一起，为了防止梯度消失以及原特征过度失真，这两个模块都带有残差连接。最后得到时序关系建模后的视频帧级别特征X。

在步骤S104中，视频帧级别特征粗粒度二元分类

将X馈送到包含前馈网络层(FFN)、全连接层和Sigmoid激活函数的二元分类器中以获得异常置信度A。其中前馈网络层来自于Transformer网络，全连接层的神经元数为1。

在步骤S105中，基于视频信息的文本标签提示学习

因为视觉上下文可以使简洁的文本标签更加准确，为了进一步提高文本标签对异常事件的表示能力，提出了一种异常聚焦的视觉提示，将视频异常片段中的视觉信息融入到文本标签信息中，最终获得包含视频信息提示的文本标签特征T。

具体的，因为视觉上下文可以使简洁的文本标签更加准确，为了进一步提高文本标签对异常事件的表示能力，本申请提出了一种异常聚焦的视觉提示，将视频异常片段中的视觉信息融入到文本标签信息中，最终获得包含视频信息提示的文本标签特征T。具体而言，首先将异常置信度A作为异常注意力，然后通过异常注意力和视频特征的点积计算视频级提示，之后做归一化(Norm)操作，如下所示，

V＝Norm(A^TX) (6)

其中V是异常聚焦的视觉提示向量，然后我们将V添加到类嵌入t_out中，并通过一个简单的前馈网络层和一个跳连接操作获得最终的特定于视频实例的类别向量T，

T＝FFN(ADD(V,t_out)+t_out) (7)

其中ADD(·)是元素对元素的加法操作。

在步骤S106中，基于视频-标签对齐的细粒度多分类

给定X和T，计算两者余弦相似度来获取相似矩阵M，再利用多示例学习对齐机制来得到视频级别多类别预测结果P。

具体的，计算所有类别向量和帧级视觉特征之间的匹配相似度以获得对齐矩阵M。即，

对于粗粒度二元分类，使用多示例学习机制在异常和正常视频中选择K个高异常置信度的平均值作为视频级预测。然后使用视频级预测和真实标签之间的二元交叉熵来计算分类损失L_bce。

对于细粒度多分类，考虑使用对齐矩阵M，因为它表达了帧级视频特征和所有类别向量之间的相似性。对于M的每一行，选择前K个高相似度的平均值来衡量该视频与当前类之间的对齐程度。然后可以得到一个向量S＝{s₁,...,s_m}表示这个视频和所有类别标签之间的相似度。希望视频及其配对的文本标签的相似度最高，为此，首先按如下方式计算多类预测，

其中p_i是关于第i类的预测，τ是指用于缩放的超参数。最后，对齐损失L_nce可以通过交叉熵计算。最终总的损失函数为L_bce+L_nce。

下面结合仿真实验对本申请的效果做进一步的描述。

1.仿真条件:

本申请的仿真是在包含一个英伟达RTX3090显卡的服务器上用PyTorch软件进行的。

2.仿真内容及结果分析：

使用本申请与现有技术的八种方法(包含两个半监督方法和六个弱监督方法)在常用的XD-Violence数据集进行对比仿真。

本申请所用的仿真实验数据为XD-Violence，它是目前规模最大的数据集，总时长为217小时。它包含来自6个异常类别的4754个视频，其中训练集包含3954个视频，测试集包含800个视频。

表1在XD-Violence数据集上本申请方法与现有方法对比结果

对本申请与现有半监督和弱监督视频异常行为检测方法在相同的实验设置和实验环境下进行仿真，得到XD-Violence数据集定量评估以及丰度值对比如表1所示。从表1可见，本申请方法在明显优于基于半监督和弱监督的方法。更准确地说，本申请方法在XD-Violence达到84.51％的平均精度，优于最佳竞争对手CLIP-TSA和DMU2.3％和2.1％。如图4所示，为在XD-Violence数据集上细粒度检测定性示意图；如图5所示，为在XD-Violence数据集上粗粒度检测定性示意图。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行结合和组合。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种视频异常行为检测的方法，其特征在于，该方法包括：

2.根据权利要求1所述视频异常行为检测的方法，其特征在于，所述利用冻结的所述CLIP图像编码器提取所述训练视频的图像特征的步骤中，还包括：

3.根据权利要求2所述视频异常行为检测的方法，其特征在于，所述利用冻结的所述CLIP文本编码器提取所述训练视频对应的文本标签的标签特征的步骤中，包括：

将所述文本标签通过Tokenizer转换为类别向量；

将所述类别向量与可学习提示进行连接，以得到向量序列；

4.根据权利要求3所述视频异常行为检测的方法，其特征在于，所述利用所述局部时序建模和所述全局时序建模对所述图像特征进行处理，以得到视频帧级别特征的步骤中，包括：

利用所述局部时序建模对所述图像特征建立短程时序关联；

5.根据权利要求4所述视频异常行为检测的方法，其特征在于，所述局部时序建模的所述时序Transformer编码器和所述全局时序建模的所述图卷积模块串联在一起，且所述时序Transformer编码器和所述图卷积模块中均包含残差连接。

6.根据权利要求4所述视频异常行为检测的方法，其特征在于，所述二元分类器包括：

7.根据权利要求6所述视频异常行为检测的方法，其特征在于，所述利用所述视觉提示模块对所述标签特征和所述异常置信度进行细粒度多分类，以得到文本标签特征的步骤中，包括：

8.根据权利要求7所述视频异常行为检测的方法，其特征在于，所述根据所述视频帧级别特征和所述文本标签特征，以得到所述训练视频的预测结果的步骤中，包括：

利用多示例学习对齐机制所述训练视频的预测结果。

9.根据权利要求8所述视频异常行为检测的方法，其特征在于，该方法还包括：

10.根据权利要求9所述视频异常行为检测的方法，其特征在于，所述将测试视频输入至训练后的所述VadCLIP模型中的步骤中，还包括：

根据所述分类损失和所述对齐损失计算总的损失函数。