CN113869182B

CN113869182B - 一种视频异常检测网络及其训练方法

Info

Publication number: CN113869182B
Application number: CN202111120381.3A
Authority: CN
Inventors: 范哲意; 易淑涵; 吴迪; 刘志文
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2024-05-31
Anticipated expiration: 2041-09-24
Also published as: CN113869182A

Abstract

一种视频异常检测网络的训练方法，包括：对训练集中的所有视频进行原始特征提取，获得维度统一的原始特征；选取b个正常视频原始特征和b个异常视频原始特征处理，得到2b个时间特征f；基于时间特征f，获得异常分数；对2b个时间特征f进行维度变换；基于b个时间特征fⁿ组成的正常包和b个时间特征f^a组成的异常包，计算正常包中的时间特征的均值和标准差，再用该均值和标准差对两个包同时进行标准化，并计算二范数，输出正常包的b个时间特征量级和异常包的b个时间特征量级；以及计算损失函数，最小化损失函数来调整视频异常检测网络的参数。然后重新选取b个正常视频的原始特征和b个异常视频的原始特征进行参数调整，直至训练至网络拟合。

Description

一种视频异常检测网络及其训练方法

技术领域

本发明涉及一种图像处理技术，更具体地，涉及一种视频异常检测网络和视频异常检测网络的训练方法。

背景技术

随着经济的飞速发展，视频监控的数量呈爆炸式增长。监控设备记录下的生活中的异常事件或行为层出不穷，如在校园人行区驾驶机动车辆或者骑自行车，公共区域发生爆炸或者火灾，商业区域的偷盗、抢劫等行为。为了及时检测到异常并定位这些异常发生的时间，人们通常是手动查看监控视频，逐帧浏览监控视频以获取关于异常的信息，然而监控视频的数量繁多，依靠人力很难及时检测异常，更不能实时监控异常。随着国家对于公共安全的日益重视，视频异常检测得到了越来越广泛的关注，它能够通过提取视频图像中的特征自动检测监控视频中异常行为，在智能安防、公共安全管理等方面发挥着重要作用。

近年来，随着深度学习的飞速发展，卷积神经网络已广泛应用于图像分类，目标检测，图像迁移学习等多个计算机视觉领域，也在视频异常检测方向取得了重大进展。卷积神经网络可以自动提取视频图像中的高级特征，无需手动定义和提取特征。

目前的基于卷积神经网络的方法主要分为半监督方法和弱监督方法。

半监督方法在过去一直是研究的重点，它仅利用正常事件作为训练数据，通过对正常事件的典型模式建模，不符合此模式的行为被判断为异常。然而半监督方法存在以下几个问题：第一，生活中的正常事件是无穷无尽的，不可能在训练模型时考虑到所有的正常事件，模型容易将没见过的正常事件也判别为异常，因此容易造成检测时虚报率高。第二，大多数半监督方法使用自编码器，由于卷积神经网络的泛化能力过强，容易发生异常的漏检的情况，形成安全隐患。第三，半监督方法没有引入异常数据参与训练，其准确率通常不高。

卷积神经网络的弱监督异常检测方法使得群体计数视频异常检测有了新的发展。目前广泛使用的基于多示例学习的弱监督异常检测将一个视频视为一个包，视频里面的若干片段看成包里的多个实例，正常包中全部都是正常数据，而异常包中有正常数据也有异常数据。但是这种方法通常只考虑了包和实例级别的数据关系，而忽略了批级别的数据分布关系，导致正常数据和异常数据不能很好地被分开，造成准确率欠佳的情况，限制了视频异常检测算法在现实世界中的应用。

因此，需要一种高效且准确的视频异常检测方法。

发明内容

本发明是为了解决上述问题而提出的，其目的在于提供一种视频异常检测网络装置，所述装置包括：

多尺度时间特征网络模块，处理从维度统一为10*t*2048的视频选取的b个正常视频的原始特征和b个异常视频的原始特征，得到2b个时间特征f，其维度保持不变；

全连接神经网络模块，处理多尺度时间特征网络输出的2b个时间特征f，基于式(1)至(3)获得异常分数S，

分别为时间特征f的权重和偏置，/>分别为时间特征/>的权重和偏置，/>分别为时间特征/>的权重和偏置，D()表示dropout操作；

时间特征维度变换模块，变换多尺度时间特征网络输出的2b个时间特征f的维度，输出维度为10*k*2048的b个正常视频的时间特征fⁿ组成正常包，以及维度为10*k*2048的b个异常视频的时间特征f^a组成异常包，其中，k<t；

时间特征标准化模块，计算时间特征fⁿ的各个通道的均值和标准差/>γ表示通道数,如式(4),(5)所示：

利用所求的和/>对正常包的各个通道的时间特征/>和异常包的各个通道的时间特征/>进行标准化操作得到标准化后的特征/>和/>如式(6),(7)所示：

利用二范数计算时间特征和/>的量级D_n和D_a，如式(8)，(9)所示：

以及

损失函数计算模块，基于时间特征标准化模块获得的时间特征和/>的量级D_n和D_a以及全连接神经网络获得的异常分数S来计算损失函数L，如式(10)所示：

L＝λ₁L_separate+λ₂L_tirplet+λ₃L_cls (10)

其中，λ₁表示L_separate的系数，λ₂表示L_tirplet的系数，λ₃表示L_cls的系数，L_separate是多实例学习排序损失，如式(11)：

L_separate＝max{0，ε-(D_a-D_n)} (11)

其中，ε表示可调的超参数，

L_triplet是三元组损失，如式(15)：

d₁＝‖D_n-(D_a)₁‖₁ (13)

d₀＝‖D_n-(D_a)₀‖₁ (14)

L_triplet＝max{0，d₁-d₀+θ} (15)

其中，θ表示可调的超参数，D_a是b个异常包的时间特征量级，D_n是b个正常包的时间特征量级D_n，以1为阈值，当时间特征量级的差值大于1时，则记为(D_a)₀，当时间特征量级的差值小于1时，则记为(D_a)₁，d₁为正常包与(D_a)₁的距离，d₀为正常包与(D_a)₀的距离，

L_cls是交叉熵损失，利用全连接神经网络获得的2b个异常分数S和对应的视频标签y计算，如式(16)：

L_cls＝-[ylog(S)+(1-y)log(1-S)] (16)。

为了达到上述发明目的，根据本发明的一方面，提供一种视频异常检测网络的训练方法，所述方法包括：从维度统一为10*t*2048的视频选取b个正常视频的原始特征和b个异常视频的原始特征；处理b个正常视频的原始特征和b个异常视频的原始特征，得到2b个时间特征f，其维度保持不变；处理2b个时间特征f，基于式(1)至(3)获得异常分数S；变换2b个时间特征f的维度，输出维度为10*k*2048的b个正常视频的时间特征fⁿ组成正常包，以及维度为10*k*2048的b个异常视频的时间特征f^a组成异常包，其中，k<t；计算时间特征fⁿ的各个通道的均值和标准差/>γ表示通道数,如式(4),(5)所示，利用所求的/>和/>对正常包的各个通道的时间特征/>和异常包的各个通道的时间特征/>进行标准化操作得到标准化后的特征/>和/>如式(6),(7)所示，利用二范数计算时间特征/>和的量级D_n和D_a，如式(8)，(9)所示，以及基于获得时间特征/>和/>的量级D_n和D_a以及异常分数S来计算损失函数，如式(10)，通过最小化损失函数来调整视频异常检测网络的参数；再次从维度统一为10*t*2048的视频选取的b个正常视频的原始特征和b个异常视频的原始特征，以进行迭代处理，继续调整视频异常检测网络的参数至最优，直至将视频异常检测网络训练至网络拟合。

附图说明

图1示出根据本公开的实施例的视频异常检测网络的框图；

图2示出根据本公开的实施例的多尺度时间特征网络的结构；

图3示出根据本公开的实施例的特征标准化模块的结构；

图4示意性地示出使用测试集中的视频进行测试的结果；以及

图5示出根据本公开的实施例的视频异常检测网络的训练方法的流程图。

具体实施方式

在本公开中，将参照附图描述本公开的各种实施例。然而，应当理解，本公开不限于这些特定实施例，而是还包括其各种修改、等同形式和/或替代形式。

图1示出根据本公开的实施例的视频异常检测网络的框图。

参照图1，视频异常检测网络包括多尺度时间特征网络10、全连接神经网络20、时间特征维度变换模块30、时间特征标准化模块40以及损失函数计算模块50。

首先，需要获取数据集，构建训练集和测试集。可以通过各种方式获得数据集，例如，通过网络下载，或者通过本地数据库获取。通常情况下，数据集已经包括训练集和测试集。如果获取的数据集尚未划分训练集和测试集，需自行划分。按照训练集和测试集相互独立且均为数据集的子集的方式划分即可。

在本发明的一个实施例中，可以下载公开数据集ShanghaiTech，该公开数据集中包括已分好的训练集和测试集，训练集和测试集互相独立，且均为公开数据集的子集。参照训练集中包含238个视频，其中正常视频175个，异常视频63个。测试集中包含199个视频，其中正常视频155个，异常视频44个。

将训练集输入原始特征提取模块，以进行原始特征提取。原始特征提取模块对训练集中的所有视频进行原始特征提取，以将所有视频转换为对应的高维原始特征，每个视频对应一个原始特征，便于后续建模计算。首先，对视频中的每个视频帧进行预处理，将每个视频帧从中间，左上，右上，左下，右下五个方向裁剪，再镜面翻转，得到数据增强后的视频数据。然后，每个视频被分为若干个视频片段，按照经验可以选择每个视频片段包括16个视频帧，根据情况，也可以包括其他数量的视频帧。以视频片段为单位进行特征提取，利用Inflated 3D网络提取10*t*2048维的原始特征。其中，10表示将一个视频经过数据增强操作后变为10个新样本，t表示一个视频中视频片段的数量，2048表示一个视频片段的维度，即训练集最终得到了来自不同视频的多个原始特征。为了统一这些原始特征的维度，将提取的原始特征进行通道缩放。为了便于处理，根据经验可以将每个视频中视频片段数量统一为32，最终每个视频转换为10*32*2048维的原始特征。

在根据本发明的一个实施例中，对公开数据集ShanghaiTech的训练集进行处理的情况下，对训练集中的238个视频进行原始特征提取，最终视频特征维度转换为10*32*2048，即原始特征提取模块将输出238个维度为10*32*2048的原始特征。

原始特征提取模块输出的原始特征被输入训练视频异常检测网络，以训练视频异常检测网络直至网络拟合。

训练视频异常检测网络的优化算法是批量梯度下降法，每次迭代时，随机选取原始特征提取模块提取的正常视频的特征中的b个正常视频的原始特征和原始特征提取模块提取的异常视频的特征中的b个异常视频的原始特征输入训练视频异常检测网络，其中，b是自然数，小于正常视频的数量且小于异常视频的数量。

首先，b个正常视频的原始特征和b个异常视频的原始特征被输入训练视频异常检测网络的多尺度时间特征网络10。

图2是多尺度时间特征网络10的结构。多尺度时间特征网络10包括空洞卷积模块和自注意力模块。

将选取的b个正常视频的原始特征和b个异常视频的原始特征输入多尺度时间特征网络，得到2b个时间特征f，其维度保持不变，仍为10*32*2048。

在构建多尺度时间特征网络时，利用空洞卷积模块和自注意力模块在多层次、有选择地学习原始特征。空洞卷积是在传统卷积核间加入空洞，使得卷积核采样不连续，空洞卷积的使用能够在不增加参数的前提下，扩大卷积核的感受野，膨胀倍率决定了感受野的大小，当设置不同膨胀倍率时，可提取多尺度信息。自注意力模块则是旨在获取视频片段之间的全局时间依赖性，通过生成注意力图来估计片段间的关系。具体操作如下：

空洞卷积模块包括三个空洞卷积层1-3。将原始特征提取模块提取的原始特征输入空洞卷积模块，如上所述，该原始特征的维度为10*32*2048，将其分别输入空洞卷积层1，2，3，分别得到三个输出特征P1，P2，P3，其维度均为10*32*512。

自注意力模块包括五个卷积层4-8。将原始特征提取模块提取的原始特征输入自注意力模块的卷积层4，得到特征P4，其维度为10*32*512；

将得到的特征P4分别输入卷积层5，6，7，分别得到三个输出P5，P6，P7，其维度均为10*32*256；

将特征P6转置后与P7做矩阵乘法，得到特征P8，其维度为10*32*32；

将特征P8与P5做矩阵乘法，得到特征P9，其维度为10*32*256；

将特征P9输入卷积层8，得到特征P10，其维度为10*32*512；

将特征P10与P4做矩阵加法，得到特征P11，其维度为10*32*512。

然后，将空洞卷积模块输出的特征P1，P2，P3与自注意力模块输出的特征P11连接，得到特征P12，其维度为10*32*2048；

将特征P12输入卷积层9，得到特征P13，其维度为10*32*2048；

将特征P13与原始特征提取模块提取的原始特征做矩阵加法，得到时间特征f，其维度保持为10*32*2048。

在空洞卷积模块中，Conv1d表示1维卷积层，A,B,d＝C表示卷积核大小为A，输出特征通道数为B，膨胀倍率为C。空洞卷积模块中空洞卷积层1-3具体如下：

空洞卷积层1：Conv1d:3,512,d＝1；

空洞卷积层2：Conv1d:3,512,d＝2；

空洞卷积层3：Conv1d:3,512,d＝4。

在自注意力模块中，Conv1d表示1维卷积层，A,B表示卷积核大小为A，输出特征通道数为B。自注意力模块中的卷积层4-8具体如下：

卷积层4：Conv1d:1,512；

卷积层5：Conv1d:1,256；

卷积层6：Conv1d:1,256；

卷积层7：Conv1d:1,256；

卷积层8：Conv1d:1,512。

另外，卷积层9具体如下：

卷积层9：Conv1d:3,2048。

经过上述处理，多尺度时间特征网络10输出2b个时间特征f。

将多尺度时间特征网络10输出的2b个维度为10*32*2048的时间特征f输入全连接神经网络20，获得异常分数S。具体地，首先，基于时间特征f生成时间特征如式(1)所示，/>分别为前向传播过程中时间特征f的权重和偏置，D()表示dropout操作，其保留神经元的概率设置为0.7。在此过程中，2b个时间特征f的变为了2b个维度为10*32*512的时间特征/>接着如式(2)所示得到时间特征/>分别为前向传播过程中时间特征/>的权重和偏置，D()表示dropout操作，其保留神经元的概率设置为0.7。在此过程中，2b个时间特征/>的变为了2b个维度为10*32*128的时间特征/>最终得到如式(3)所示异常分数S，/>分别为前向传播过程中时间特征/>的权重和偏置，D()表示dropout操作，其保留神经元的概率设置为0.7。在此过程中，2b个时间特征/>的变为了2b个维度为10*32*1的异常分数S。

获得的异常分数S将用于计算交叉熵损失函数。将在下面损失函数计算模块50的计算中详细描述。

接下来，将多尺度时间特征网络10输出的2b个维度为10*32*2048的时间特征f输入时间特征维度变换模块30，时间特征维度变换模块30将经过维度变换的时间特征送入时间特征标准化模块40。

具体地，由于时间特征f中时间维度里最大的k个值对此时间特征的影响很大，因此为了提高网络计算效率，选取时间特征f在时间维度上最大的k个值送入时间特征标准化模块40，其维度为10*k*2048，根据经验，可以选取k＝3。当然，根据不同的应用场景，k可以选取不同值。时间特征维度变换模块30将正常视频的时间特征f命名为fⁿ，异常视频的时间特征f命名为f^a，输出维度为10*k*2048的b个正常视频的时间特征fⁿ组成正常包，以及维度为10*k*2048的b个异常视频的时间特征f^a组成异常包。

在构建时间特征标准化模块40时，利用标准化操作使得正常特征聚拢，促进异常和正常特征的分离，更好地检测出异常。由于正常包和异常包中的正常时间特征具有相似的数据分布情况，因此通过标准化操作能够使异常包中的正常时间特征较好地聚合，增大正常时间特征与异常时间特征的距离。

基于时间特征维度变换模块30输出的维度为10*k*2048的b个时间特征fⁿ组成的正常包和b个时间特征f^a组成的异常包，时间特征标准化模块40首先计算出正常包中的时间特征的均值和标准差，再用该均值和标准差对两个包同时进行标准化，并计算二范数，时间特征标准化模块40最终输出b个特征量级D_n和D_a。下面参照图3对时间特征标准化模块40进行描述，具体如下：

首先计算时间特征fⁿ的各个通道的均值和标准差/>右上角的n表示特征的类别为正常，γ表示通道数,如式(4),(5)所示。

利用所求的和/>对正常包的各个通道的时间特征/>和异常包的各个通道的时间特征/>进行标准化操作得到标准化后的特征/>和/>标准化公式如式(6),(7)所示。

时间特征的量级可以用来表示时间特征的大小，利用二范数计算时间特征和的量级D_n和D_a，如式(8)，(9)所示。

基于时间特征标准化模块40获得的时间特征和/>的量级D_n和D_a以及全连接神经网络20获得的异常分数S来计算用于训练本发明的视频异常检测网络的损失函数。在训练网络时，考虑了多个部分共同作为损失函数L。损失函数计算模块50如式(10)计算损失函数L，通过最小化损失函数L将视频异常检测网络的参数调至最优。

L＝λ₁L_separate+λ₂L_tirplet+λ₃L_cls (10)

其中，λ₁表示L_separate的系数，λ₂表示L_tirplet的系数，λ₃表示L_cls的系数。在此可以取λ₁＝0.0005，λ₂＝0.01，λ₃＝1。

L_separate是多实例学习排序损失，如式(11)。

L_separate＝max{0，ε-(D_a-D_n)} (11)

其中，ε表示可调的超参数，在此可以取ε＝100。

L_triplet是三元组损失，获得L_triplet的计算分为两步。由于通常异常视频的时间特征量级大于正常视频的时间特征量级，所以对时间特征标准化模块40的b个异常包的时间特征量级D_a和b个正常包的时间特征量级D_n做差，以1为阈值，当时间特征量级的差值大于1时，则粗略认为此时间特征具有明显的异常特征，记为(D_a)₀。当时间特征量级的差值小于1时，则认为此时间特征不具有明显的异常特征，可以认为其与正常包时间特征接近，记为(D_a)₁，如式(12)。因此，对正常包，(D_a)₁，(D_a)₀三者可做三元组损失，首先将正常包与(D_a)₁的距离记为d₁，将正常包与(D_a)₀的距离记为d₀，再对d₁和d₀计算三元组损失，如式(13)-(15)。

d₁＝||D_n-(D_a)₁||₁ (13)

d₀＝||D_n-(D_a)₀||₁ (14)

L_triplet＝max{0，d₁-d₀+θ} (15)

其中，θ表示可调的超参数，在此可以取θ＝5。

L_cls是交叉熵损失，利用全连接神经网络20获得的2b个异常分数S和对应的视频标签y计算，如式(16)。

L_cls＝-[ylog(S)+(1-y)log(1-S)] (16)

其中，视频标签y可以从数据集中直接获得。

可以最小化损失函数计算模块50计算的损失函数L调整视频异常检测网络的参数。

然后重新选取b个正常视频的原始特征和b个异常视频的原始特征被输入训练视频异常检测网络进行网络训练，继续调整视频异常检测网络的参数至最优，直至将视频异常检测网络训练至网络拟合，可以将测试集的视频输入训练后的视频异常检测网络，预测异常事件。

在训练视频异常检测网络时，可以在每五次训练迭代之后(可以根据训练集的视频数量调整迭代次数)，将测试集的测试视频输入视频异常检测网络，得到预测的异常分数曲线，异常分数大于0.5视为检测出的异常，反之视为正常。根据生成的异常分数曲线和真实标签，绘制ROC曲线并计算对应的AUC值，即预测异常的准确率。

表1：根据实验结果统计的迭代次数与准确率之间的关系表。

迭代次数	准确率(％)
		325	94.83
7220	96.62
		20000	97.65

可以参照图4A-图4C的预测的异常分数曲线，图4A中灰色区域表示真实的异常出现的视频范围，对应的异常视频帧区域大致是85-370帧，图4A中曲线为预测的异常分数曲线，超过阈值线的异常分数为检测出的异常视频帧。可以看到，本发明的视频异常检测网络可以准确地检测到异常。以330帧为例说明对应的异常事件的情况，该处异常分数较高，对应的异常事件为人行道上有两个青年骑滑板经过。

图4B中灰色区域表示真实的异常出现的视频范围，对应的异常视频帧区域大致是80-600帧，图4B中曲线为预测的异常分数曲线，超过阈值线的异常分数为检测出的异常视频帧。可以看到，模型可以准确地检测到异常。以350帧为例说明对应的异常事件的情况，该处异常分数较高，对应的异常事件分别为有人骑自行车经过和有人推着婴儿车经过。

图4C中没有灰色区域，表明该视频没有异常行为，是正常视频。图4C中几乎看不到曲线，表示预测的异常分数接近于0，模型准确地检测出了此视频为正常视频。

根据本发明的视频异常检测网络，时间特征标准化模块可以将正常时间特征和异常时间特征均以正常时间特征的均值和标准差进行标准化。对正常包而言，标准化可以聚拢包内时间特征。对异常包而言，由于交叉熵损失L_cls损失的目的是扩大实例间的距离，而异常视频中的正常实例和异常实例的异常分数在训练早期相似度高，交叉熵损失L_cls不可避免地会产生错误的标签分配。因此，异常包内的正常实例的类内距离也扩大了，这将降低测试阶段的检测精度。而标准化操作使得异常包内的正常时间特征学习正常包内的正常时间特征，减小其类内距离。虽然异常时间特征也因为标准化一定程度上聚拢了，但是其聚拢程度显著小于正常数据，因此该操作也增大了正常时间特征和异常时间特征的类间距离，增强了模型鉴别异常的能力。

另外，在损失函数L中加入三元组损失L_triplet则是对异常包和正常包做差，拟认为异常包中差值大于阈值的包具有明显的异常特性，而差值小于阈值的包不具有明显的异常特性。利用三元组损失减小正常包和不具有明显异常特性的包的距离，增大正常包和具有明显异常特征的包的距离，提高了视频异常检测的准确性。

在步骤S501，获取数据集，构建训练集和测试集，并且对训练集中的所有视频进行原始特征提取，最终每个视频转换为维度为10*32*2048的原始特征。具体实现方式在上面已经进行详细描述，在此不再赘述。

在步骤S502，从步骤S501提取的特征选取b个正常视频的原始特征和b个异常视频的原始特征进行处理，得到2b个时间特征f，其维度保持不变，仍为10*32*2048。具体实现方式在上面已经进行详细描述，在此不再赘述。

在步骤S503，基于步骤S502获得的2b个维度为10*32*2048的时间特征f，获得异常分数S。具体实现方式在上面已经进行详细描述，在此不再赘述。

接下来，在步骤S504，对步骤S502获得的2b个维度为10*32*2048的时间特征f进行维度变换，输出维度为10*k*2048的b个正常视频的时间特征fⁿ组成正常包，以及维度为10*k*2048的b个异常视频的时间特征f^a组成异常包。具体实现方式在上面已经进行详细描述，在此不再赘述。

然后，在步骤S505，基于输出的维度为10*k*2048的b个时间特征fⁿ组成的正常包和b个时间特征f^a组成的异常包，首先计算出正常包中的时间特征的均值和标准差，再用该均值和标准差对两个包同时进行标准化，并计算二范数，最终输出正常包的b个时间特征量级D_n和异常包的b个时间特征量级D_a。具体实现方式在上面已经进行详细描述，在此不再赘述。

在步骤S506，计算损失函数L。具体地，基于步骤S505获得时间特征和/>的量级D_n和D_a以及步骤S503获得的异常分数S来计算损失函数。损失函数L的计算公式如上面的公式(10)所示。通过最小化损失函数L来调整视频异常检测网络的参数。具体实现方式在上面已经进行详细描述，在此不再赘述。

然后返回步骤S502重新选取b个正常视频的原始特征和b个异常视频的原始特征进行处理，继续调整视频异常检测网络的参数至最优，直至将视频异常检测网络训练至网络拟合，可以将测试集的视频输入训练后的视频异常检测网络，预测异常事件。

在训练时，可以在每五次训练迭代之后(可以根据训练集的视频数量调整迭代次数)，将测试集的测试视频输入视频异常检测网络，得到预测的异常分数曲线，异常分数大于0.5视为检测出的异常，反之视为正常。根据生成的异常分数曲线和真实标签，绘制ROC曲线并计算对应的AUC值，即预测异常的准确率。

本公开的实施例可以被写为计算机程序，并且可以在使用计算机可读记录介质执行程序的通用数字计算机中实现。

在这种状态下，介质可以连续地存储可以由计算机执行的程序，或者可以临时地存储用于执行或下载的程序。此外，介质可以是在组合了单个或多个硬件的各种记录设备或存储设备，不限于直接接入计算机系统的介质，并且可以以分布方式存在于网络。介质的示例包括被配置为存储程序指令的磁存储介质(诸如软盘或硬盘)、光学记录介质(诸如CD-ROM或DVD)、磁光介质(诸如软盘)以及Rom、RAM、闪存等。此外，其他介质的示例可以包括：用于分发应用程序的应用程序商店，用于提供或分发其他各种软件的站点，以及在服务器处管理的记录介质或存储介质。

尽管已经参考使用特定术语的优选实施例来具体示出和描述了本公开，但是应当仅以描述性的意义考虑实施例和术语，而不是出于限制的目的。因此，本领域普通技术人员将理解，在不脱离由所附权利要求限定的本公开的精神和范围的情况下，可以在形式和细节上进行各种改变。

Claims

1.一种视频异常检测网络装置，所述装置包括：

以及

L＝λ₁L_separate+λ₂L_tirplet+λ₃L_cls (10)

其中，λ₁表示L_separate的系数，λ₂表示L_tirplet的系数，λ₃表示L_cls的系数，

L_separate是多实例学习排序损失，如式(11)：

L_separate＝max{0，ε-(D_a-D_n)} (11)

其中，ε表示可调的超参数，

L_triplet是三元组损失，如式(12)至(15)：

d₁＝‖D_n-(D_a)₁‖₁ (13)

d₀＝‖D_n-(D_a)₀‖₁ (14)

L_triplet＝max{0，d₁-d₀+θ}(15)

L_cls＝-[ylog(S)+(1-y)log(1-S)] (16)。

2.根据权利要求1所述的装置，其特征在于，维度统一的b个正常视频的原始特征和b个异常视频的原始特征维度为10*32*128。

3.根据权利要求2所述的装置，其特征在于，多尺度时间特征网络包括空洞卷积模块和自注意力模块以及独立卷积层，其中，空洞卷积模块包括三个空洞卷积层1-3，自注意力模块包括五个卷积层4-8，

将原始特征输入空洞卷积层1，2，3，分别得到三个输出特征P1，P2，P3，其维度均为10*32*512；

将原始特征输入自注意力模块的卷积层4，得到特征P4，其维度为10*32*512；

将特征P8与P5做矩阵乘法，得到特征P9，其维度为10*32*256；

将特征P9输入卷积层8，得到特征P10，其维度为10*32*512；

将特征P10与P4做矩阵加法，得到特征P11，其维度为10*32*512；

特征P1，P2，P3与特征P11连接，得到特征P12，其维度为10*32*2048；

将特征P12输入独立卷积层，得到特征P13，其维度为10*32*2048；

将特征P13与原始特征做矩阵加法，得到时间特征f，其维度保持为10*32*2048。

4.根据权利要求3所述的装置，其特征在于，在空洞卷积模块中：

空洞卷积层1：Conv1d:3,512,d＝1；

空洞卷积层2：Conv1d:3,512,d＝2；

空洞卷积层3：Conv1d:3,512,d＝4，

其中，Conv1d表示1维卷积层，3表示卷积核大小，512表示输出特征通道数，d表示膨胀倍率。

5.根据权利要求4所述的装置，其特征在于，在自注意力模块中：

卷积层4：Conv1d:1,512；

卷积层5：Conv1d:1,256；

卷积层6：Conv1d:1,256；

卷积层7：Conv1d:1,256；

卷积层8：Conv1d:1,512，

其中，Conv1d表示1维卷积层，1表示卷积核大小，512和256表示输出特征通道数。

6.根据权利要求2所述的装置，其特征在于，另外，独立卷积层9为Conv1d:3,2048，其中，Conv1d表示1维卷积层，3表示卷积核大小，2048表示输出特征通道数。

7.一种视频异常检测网络的训练方法，所述方法包括：

从维度统一为10*t*2048的视频选取b个正常视频的原始特征和b个异常视频的原始特征；

处理b个正常视频的原始特征和b个异常视频的原始特征，得到2b个时间特征f，其维度保持不变；

处理2b个时间特征f，基于式(1)至(3)获得异常分数S，

变换2b个时间特征f的维度，输出维度为10*k*2048的b个正常视频的时间特征fⁿ组成正常包，以及维度为10*k*2048的b个异常视频的时间特征f^a组成异常包，其中，k<t；

计算时间特征fⁿ的各个通道的均值和标准差/>γ表示通道数,如式(4),(5)所示：

以及

基于获得时间特征和/>的量级D_n和D_a以及异常分数S来计算损失函数，如式(10)所示：

L＝λ₁L_separate+λ₂L_tirplet+λ₃L_cls (10)

L_separate是多实例学习排序损失，如式(11)：

L_separate＝max{0，ε-(D_a-D_n)} (11)

其中，ε表示可调的超参数，

L_triplet是三元组损失，如式(12)至(15)：

d₁＝‖D_n-(D_a)₁‖₁ (13)

d₀＝‖D_n-(D_a)₀‖₁ (14)

L_triplet＝max{0，d₁-d₀+θ} (15)

L_cls是交叉熵损失，利用2b个异常分数S和对应的视频标签y计算，如式(16)：

L_cls＝-[ylog(S)+(1-y)log(1-S)] (16)，

通过最小化损失函数来调整视频异常检测网络的参数；

再次从维度统一为10*t*2048的视频选取的b个正常视频的原始特征和b个异常视频的原始特征进行迭代处理，继续调整视频异常检测网络的参数至最优，直至将视频异常检测网络训练至网络拟合。

8.一种在计算机存储介质上编码的计算机程序产品，包括指令，当指令由一个或多个计算机执行时，将使一个或多个计算机执行权利要求7所述的方法。