CN114842371A

CN114842371A - 一种无监督视频异常检测方法

Info

Publication number: CN114842371A
Application number: CN202210326903.3A
Authority: CN
Inventors: 曹聪琦; 路悦; 张艳宁
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-08-02
Anticipated expiration: 2042-03-30
Also published as: CN114842371B

Abstract

本发明公开了一种无监督视频异常检测方法，首先获取待处理训练视频或测试视频中设定数量的视频帧，分别输入深度神经网络，提取特征向量；通过自监督学习方式训练可学习局部敏感哈希模型；利用训练完成的可学习局部敏感哈希模型进行异常检测，异常检测的过程包括构造哈希表和查询哈希表两个阶段，最终得到测试视频帧的异常概率。本发明将局部敏感哈希实现为一个参数化网络，并在对比学习框架中进行端到端的训练，可以高效灵活地利用正常数据的知识来判别异常和正常事件。

Description

一种无监督视频异常检测方法

技术领域

本发明属于模式识别技术领域，具体涉及一种视频异常检测方法。

背景技术

无监督视频异常检测旨在识别不符合预期的异常事件，其特点是在训练期间只有包含正常事件的数据可用。若当前数据与已知数据偏差较大，则将当前数据定义为异常数据。异常事件是指不在已知范围内的事件或不期望发生的事件，比如在步行道上骑车、在草坪上行走。无监督视频异常检测技术在智能监控系统、视频分析中有重要的现实应用意义。

相关技术中，无监督视频异常检测方法可分为基于距离的方法、基于重建的方法和基于预测的方法。基于距离的方法根据测试数据和所有已知正常数据特征之间的距离来检测异常，其中代表性方法包括基于视频分块、单类支持向量机的决策边界和聚类中心的方法。然而，由于一些关键参数设置，如聚类数量，是人为确定的，因此这类方法适应性不强。此外，这些方法还面临计算量大的问题。基于重建的方法和基于预测的方法在训练数据上训练自编码器，以重建当前帧或预测下一帧。这两种方法假设异常帧很难重建或预测，因此可以根据较高的重建或预测误差来检测异常。这两类方法的主要缺点是它们没有明确地考虑正常模式的多样性，因此对复杂场景的适应性和可扩展性是有限的。为了解决这个问题，一些工作使用基于距离的方法来增强基于重建或基于预测的方法。具体来说，这些方法设计一个记忆模块，在训练阶段存储典型的正常模式，并在测试阶段检索它们以进行重建或预测。但是，训练数据中并没有足够有效的监督知识来指导可以丢弃哪些信息，以上方法无法充分利用训练数据中完整的正常模式。

发明内容

为了克服现有技术的不足，本发明提供了一种无监督视频异常检测方法，首先获取待处理训练视频或测试视频中设定数量的视频帧，分别输入深度神经网络，提取特征向量；通过自监督学习方式训练可学习局部敏感哈希模型；利用训练完成的可学习局部敏感哈希模型进行异常检测，异常检测的过程包括构造哈希表和查询哈希表两个阶段，最终得到测试视频帧的异常概率。本发明将局部敏感哈希实现为一个参数化网络，并在对比学习框架中进行端到端的训练，可以高效灵活地利用正常数据的知识来判别异常和正常事件。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：获取待处理训练视频或测试视频中设定数量的视频帧，将训练视频帧和测试视频帧分别输入预先训练好的深度神经网络，提取训练视频帧的特征向量和测试视频帧的特征向量；

步骤2；利用训练视频帧的特征向量，通过自监督学习方式训练可学习局部敏感哈希模型；

所述可学习局部敏感哈希模型包括左右对称的两部分，两部分分别为第一哈希编码器和第二哈希编码器；

步骤3：利用训练完成的可学习局部敏感哈希模型进行异常检测，异常检测的过程包括构造哈希表和查询哈希表两个阶段；

步骤3-1：在构造哈希表阶段，将训练视频帧的特征向量送入已训练的第一哈希编码器，第一哈希编码器包含多个哈希层，每个哈希层输出一个哈希编码；对所有哈希编码进行二值化处理，得到训练视频帧的二值编码；将训练视频帧的二值编码作为键、哈希编码作为值，构造哈希表；

步骤3-2：在查询哈希表阶段，将测试视频帧的特征向量送入已训练的第一哈希编码器，得到多个哈希编码，并进行二值化处理，得到测试视频帧的二值编码；将测试视频帧的二值编码作为键，在哈希表中查找具有相同键的训练视频帧的哈希编码；计算查找到的训练视频帧的哈希编码与测试视频帧的哈希编码之间的距离，将其中的最小距离作为测试视频帧的异常概率；对于一段视频内所有帧进行异常检测过程，得到所有帧的异常概率，并进行归一化，规定一个异常概率阈值，异常概率高于阈值的帧即判定为发生了异常事件，反之则为正常事件。

进一步地，所述预训练的深度神经网络为Kinetics-400行为识别数据集上训练的I3D网络。

进一步地，所述提取训练视频帧的特征向量和测试视频帧的特征向量的过程包括：

对于一个给定视频，从第t帧开始，按照采样率s，总共T帧被采样为一个视频片段I_t，然后，片段I_t被送入预训练的深度神经网络，输出特征向量x_q。

进一步地，所述通过自监督学习方式训练可学习局部敏感哈希模型的过程包括：

步骤2-1：所述第一哈希编码器和第二哈希编码器均由b个并行哈希层H₁,H₂,…,H_i,…,H_b组成，哈希层H_i将x_q映射为长度为r的短哈希编码；每个哈希层是一个带有sigmoid激活函数的全连接层，并且无偏置项，输出维度为r；

步骤2-2：对一个训练视频中采样片段I_t，通过预训练的深度神经网络提取特征向量x_q，经过第一哈希编码器E_q得到b个长度为r的短哈希编码，所有的短哈希编码连接起来作为一个紧凑哈希编码z_q；

步骤2-3：在训练视频中再次采样一个片段I_t+Δt，其中Δt是一个时间偏移量，提取特征并送入第二哈希编码器E_k，将输出的短哈希编码连接起来作为紧凑哈希编码z_k；将第二哈希编码器最近输出的l个紧凑哈希编码表示为z_k ⁽¹⁾,…,z_k ^(l)，将其放入先入先出队列；

步骤2-4：按照如下损失函数公式(1)，计算z_q和队列中l个紧凑哈希编码之间的信息噪声对比估计损失：

其中z_k+是最近放入先入先出队列的一个紧凑哈希编码，τ是温度系数；

步骤2-5：通过梯度下降法更新第一哈希编码器E_q的参数θ_q；按照如下公式(2)，通过动量更新第二哈希编码器E_k的参数θ_k：

θ_k←mθ_k+(1-m)θ_q (2)

其中m∈[0,1)是动量系数；

在更新过程中，预训练深度神经网络的参数被冻结，不参与更新；

步骤2-5：由损失函数L判断第一哈希编码器是否收敛；如果收敛，则采用第一哈希编码器，用于异常检测的构造哈希表和查询哈希表阶段；如果未收敛，则返回步骤2-2继续训练第一哈希编码器直到收敛。

进一步地，所述异常检测的构造哈希表过程包括：

将训练视频帧的特征向量表示为x₁,…,x_N，其中N表示训练样本的数量；对于第n个特征向量x_n，将其送入第一哈希编码器E_q；第一哈希编码器包含b个并行哈希层H₁,…,H_b，将特征向量x_n映射到r位的哈希编码h_1,xn,…,h_b,xn；然后构建b个哈希表D_j，j∈{1,…,b}来存储训练数据x_n的哈希编码，其中第j个哈希表的键为哈希编码h_i,xn的二值化表示bin(h_j,xn)，值为哈希编码h_j,xn；

所述二值化函数bin(h)定义为：

在第j个哈希表D_j中，对所有n∈{1,…,N}，哈希编码h_j,xn及其二值化编码bin(h_j,xn)分别作为一组值和键存储到哈希表中；在一个哈希表中，如果若干个哈希编码具有相同的二值化编码，则将这些具有相同二值化编码的哈希编码存储在同一个桶中；最终得到了b个哈希表D₁,…,D_b，每个哈希表通过若干二值化键存储了N个哈希编码，完成哈希表构造过程。

进一步地，所述异常检测的查询哈希表过程包括：

测试视频帧的特征向量表示为y₁,…,y_M，其中M表示测试样本的数量；第m个特征y_m通过第一哈希编码器的b个哈希层，映射到b个长度为r的哈希编码h_1,ym,…,h_b,ym；

对第j个哈希编码h_j,ym，通过二值化函数，将哈希编码映射为二值编码bin(h_j,ym)，将二值编码bin(h_j,ym)作为键在对应哈希表D_j中查找对应的桶；

如果在哈希表D_j中存在以二值编码bin(h_j,ym)为键的桶，则计算该桶中存储的所有训练视频帧特征向量的哈希编码与测试视频帧特征向量的哈希编码y_m之间的平均距离；如果二值编码bin(h_j,ym)在哈希表D_j中不存在，则为二值编码bin(h_j,ym)距离值指定一个大于其它所有距离值的常数；

对所有哈希表D₁,…,D_b，总共得到b个距离值，将其中的最小距离作为测试视频帧的异常概率；对于一段视频内所有帧进行异常检测过程，得到所有帧的异常概率，并进行归一化，规定一个异常概率阈值，异常概率高于阈值的帧即判定为发生了异常事件，反之则为正常事件。

本发明的有益效果如下：

本发明将局部敏感哈希实现为一个参数化网络，并在对比学习框架中进行端到端的训练，可以高效灵活地利用正常数据的知识来判别异常和正常事件。大量的实验表明，LLSH在效率、适应性和可扩展性方面具有优越性，在视频异常检测基准上达到了新的水平。本发明方法在视频异常检测数据集ShanghaiTech_Campus上，异常检测准确率达到77.6％，比多种记忆增强预测方法的准确率高出4％～7％；在视频异常检测数据集IITB_Corridor上，本发明的异常检测准确率达到73.5％，比其他方法的准确率高出约4％。

附图说明

图1是本发明方法的流程图。

图2是本发明哈希编码器示意图。

图3是本发明哈希编码器训练过程示意图。

图4是本发明构造哈希表过程示意图。

图5是本发明查找哈希表过程示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1所示，一种无监督视频异常检测方法，包括如下步骤：

如图3所示，进一步地，所述提取训练视频帧的特征向量和测试视频帧的特征向量的过程包括：

步骤2-1：如图2所示，所述第一哈希编码器和第二哈希编码器均由b个并行哈希层H₁,H₂,…,H_i,…,H_b组成，哈希层H_i将x_q映射为长度为r的短哈希编码；每个哈希层是一个带有sigmoid激活函数的全连接层，并且无偏置项，输出维度为r；

θ_k←mθ_k+(1-m)θ_q (2)

其中m∈[0,1)是动量系数；

如图4所示，进一步地，所述异常检测的构造哈希表过程包括：

所述二值化函数bin(h)定义为：

如图5所示，进一步地，所述异常检测的查询哈希表过程包括：

对所有哈希表D₁,…,D_b，总共得到b个距离值，将其中的最小距离作为测试视频帧的异常概率。对于一段视频内所有帧进行异常检测过程，得到所有帧的异常概率，并进行归一化，规定一个异常概率阈值，异常概率高于阈值的帧即判定为发生了异常事件，反之则为正常事件。

具体实施例：

对于一个给定视频，从第t帧开始，按照采样率s，总共T帧被采样为一个视频片段I_t。然后，片段I_t被送入预训练的深度神经网络，输出特征向量x_q。在本实施例中，t的取值为{1,2,…,n-(T-1)*s}，其中n为所述视频的帧数，s的取值为2，一个视频片段包含T＝8帧；预训练的深度神经网络为Kinetics-400行为识别数据集上训练的I3D网络。

哈希编码器由b个并行哈希层H₁,…,H_b组成，其中一层H_i将x_q映射为长度为r的短哈希编码。具体地，每个哈希层是一个带有sigmoid激活函数的全连接层，并且无偏置项，输出维度为r。在本实施例中，哈希编码器包含b＝8个哈希层，输出维度r设置为32。

在一个训练视频中采样片段I_t，通过深度神经网络提取特征向量x_q，经过第一哈希编码器E_q得到8个长度为32的短哈希编码，所有的短哈希编码连接起来作为一个紧凑哈希编码z_q。

在视频中再次采样一个片段I_t+Δt，其中Δt是一个时间偏移量，提取特征并送入第二哈希编码器E_k，将输出的短哈希编码连接起来作为紧凑哈希编码z_k；将第二哈希编码器最近输出的l个紧凑哈希编码表示为z_k ⁽¹⁾,…,z_k ^(l)，将其放入长度为l的先入先出队列。在本实施例中，时间偏移量Δt是从均匀分布U(-150,150)中采样的数值，先入先出队列l的长度为8192。

按照如下损失函数公式，计算z_q和队列中8192个紧凑哈希编码之间的信息噪声对比估计损失：

其中z_k+是最近放入先入先出队列的一个紧凑哈希编码，τ是温度系数。在本实施例中，温度系数τ设置为0.2。

通过梯度下降法更新第一哈希编码器E_q的参数θ_q；按照如下公式，通过动量更新第二哈希编码器E_k的参数θ_k：

θ_k←mθ_k+(1-m)θ_q

其中m∈[0,1)是动量系数。在本实施例中，动量系数m设置为0.999。

预训练深度神经网络的参数被冻结，不参与更新；

根据所述损失值判断所述待第一哈希编码器是否收敛；如果收敛，则采用第一哈希编码器，用于异常检测的构造哈希表和查询哈希表阶段；如果未收敛，则继续采样训练视频并按照所述训练过程训练第一编码器。

将训练视频特征送入已训练的第一哈希编码器，所述哈希编码器包含多个哈希层，输出多个哈希编码；对所有哈希编码进行二值化处理，得到训练视频特征的二值编码；将所述二值编码作为键、哈希编码作为值，保存在哈希表中。

具体地，将训练视频特征表示为x1,…,x_N，其中N表示训练样本的数量；对于第n个特征向量x_n，将其送入第一哈希编码器E_q；哈希编码器包含8个并行哈希层H₁,…,H₈，将特征向量x_n映射到32位的哈希编码h_1,xn,…,h_8,xn；然后，构建8个哈希表来存储训练数据x_n的哈希编码，其中第j个哈希表的键为哈希编码h_i,xn的二值化表示bin(h_j,xn)，值为哈希编码h_j,xn；所述二值化函数bin(h)定义为：

在第j个哈希表D_j中，对所有n∈{1,…,N}，哈希编码h_j,xn及其二值化编码bin(h_j,xn)分别作为一组值和键存储到哈希表中；在一个哈希表中，如果若干个哈希编码具有相同的二值化编码，则将这些哈希编码存储在同一个桶中；最终得到了8个哈希表D₁,…,D₈，每个哈希表通过若干二值化键存储了N个哈希编码，完成哈希表构造过程。

将测试视频的特征送入已训练的第一哈希编码器，得到多个哈希编码，并进行二值化处理，得到测试视频的二值编码；将测试视频的二值编码作为键，在上述构造的哈希表中查找对应的桶，该桶中包含若干个存储的训练视频特征的哈希编码；计算查找到的训练视频的哈希编码与所述测试视频的哈希编码之间的距离，作为所述测试视频的异常概率。

具体地，测试视频的特征表示为y₁,…,y_M，其中M表示测试样本的数量；第m个特征y_m通过所述第一哈希编码器的8个哈希层，映射到8个长度为32的哈希编码h_1,ym,…,h_8,ym；

对第j个哈希编码h_j,ym，通过所述二值化函数，将哈希编码映射为二值编码bin(h_j,ym)，作为键在对应哈希表D_j中查找对应的桶；

如果在哈希表D_j中存在以二值编码bin(h_j,ym)为键的桶，则计算该桶中存储的所有训练特征的哈希编码与所述测试特征的哈希编码y_m之间的平均距离；如果所述二值编码bin(h_j,ym)在哈希表D_j中不存在，则为距离指定一个较大的常数。在本实施例中，所述距离计算方式为余弦距离。

对所有哈希表D₁,…,D₈，总共得到8个距离值，将其中的最小距离作为所述测试视频的异常概率。对于一段视频内所有帧进行所述异常检测过程，得到所有帧的异常概率，并进行归一化。规定异常概率阈值为0.5，异常概率高于0.5的帧即判定为发生了异常事件，异常概率等于或低于0.5的帧判定为正常事件。

Claims

1.一种无监督视频异常检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种无监督视频异常检测方法，其特征在于，所述预训练的深度神经网络为Kinetics-400行为识别数据集上训练的I3D网络。

3.根据权利要求2所述的一种无监督视频异常检测方法，其特征在于，所述提取训练视频帧的特征向量和测试视频帧的特征向量的过程包括：

4.根据权利要求3所述的一种无监督视频异常检测方法，其特征在于，所述通过自监督学习方式训练可学习局部敏感哈希模型的过程包括：

θ_k←mθ_k+(1-m)θ_q (2)

其中m∈[0,1)是动量系数；

5.根据权利要求4所述的一种无监督视频异常检测方法，其特征在于，所述异常检测的构造哈希表过程包括：

所述二值化函数bin(h)定义为：

6.根据权利要求5所述的一种无监督视频异常检测方法，其特征在于，所述异常检测的查询哈希表过程包括：