CN114882434A

CN114882434A - 基于背景抑制的无监督异常行为检测方法

Info

Publication number: CN114882434A
Application number: CN202210525135.4A
Authority: CN
Inventors: 路文; 伍凌帆; 李璐
Original assignee: Suzhou Haiyuhong Intelligent Technology Co ltd
Current assignee: Suzhou Haiyuhong Intelligent Technology Co ltd
Priority date: 2022-05-14
Filing date: 2022-05-14
Publication date: 2022-08-09

Abstract

本发明提出了一种基于背景抑制的无监督异常行为检测方法，实现步骤为：(1)获取训练样本集和测试样本集；(2)构建无监督异常行为检测网络模型；(3)对无监督异常行为检测网络模型H进行迭代训练；(4)定义无监督异常行为检测网络模型H^*的异常分数函数score；(5)获取异常行为检测结果。本发明构建的无监督异常行为检测网络模型，克服了现有技术没有考虑视频帧的背景特征对算法感知的影响和训练集标注准确度对于有监督学习的影响，提高了异常行为检测方法的异常行为识别准确率。

Description

基于背景抑制的无监督异常行为检测方法

技术领域

本发明属于计算机视觉技术领域，涉及一种异常行为检测方法，具体涉及一种基于背景抑制的无监督道路监控视频异常行为检测方法。

背景技术

道路监控是观察路人行为最方便、直接的一种方式，随着路人不按交通规定使用人行道导致的交通事故越来越多，产生了对路人异常行为检测的迫切需求。

近年来，随着深度学习和开源数据集的快速发展，智能监控设备也得到了对应的发展，异常行为检测是当前智能监控设备在日常生活中应用最为广泛的一项功能，它为人们日常工作生活提供可靠的安全保障。但是目前内置检测算法的智能监控设备在检测路人的过程中，很容易受到环境光照，背景目标、背景相似特征等因素的影响，此外若采用有监督异常行为检测算法，则使用的人工标注数据集的准确率也会对算法产生影响，最终不可避免的引入干扰，降低了异常行为检测的准确率，弱化了算法的鲁棒性。因此，异常行为检测的准确率和算法鲁棒性是用于评估异常行为检测算法性能的重要指标。

南京工业大学在其申请的专利文献“一种基于深度学习的异常行为检测方法”(专利申请号：CN202110611720.1；申请公布号：CN113361370A)中，公开了一种基于深度学习的异常行为检测方法，该方法首先利用摄像机获取实际场景的 RGB图像，然后使用YOLOv5算法检测当前视频帧中的行人，输出检测框的位置信息、置信度与类别，使用构建的外观特征网络对相邻帧目标进行级联匹配得到匹配出来的轨迹，最终使用卡尔曼预测方法对轨迹结果进行删除、新建和跟踪，得到最终的轨迹并与下一帧进行匹配，以此循环。该方法存在的不足之处是，首先该方法没有考虑视频帧的背景特征对算法感知的影响，使得算法在背景信息干扰下异常行为检测算法准确率会受到影响，其次，该方法中采用的YOLOv5算法是有监督算法，在对YOLOv5算法进行训练时人工标注的数据集中行人的标注恰当程度也会对检测算法的准确率产生影响。

哈尔滨理工大学在其申请的专利文献“一种基于深度学习的暴力异常行为检测方法”(专利申请号：CN202110224967.8；申请公布号：CN113191182A)中，提出了一种暴力异常行为检测方法。该方法首先对数据集中的视频进行分帧处理得到视频帧，然后堆叠多个连续的帧组成一个立方体，在立方体中使用三维卷积神经网络，提取三维特征并进行特征融合，使用YOLO算法判断提取到的特征中是否存在违禁物品如刀、枪、棍、棒的特征。该方法存在两个不足之处是，首先该方法没有充分考虑到实际的生活场景中相似背景信息特征对于前景信息的干扰。其次，该方法中采用的YOLO算法是有监督算法，在对YOLO算法进行训练时人工标注的数据集中行人的标注准确程度也会对检测算法的准确率产生影响。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于背景抑制的无监督异常行为检测方法，用于解决现有技术因忽略被测视频背景信息和人工划分数据集导致的检测准确率较低的技术问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取训练样本集和测试样本集：

(1a)随机选取M个人行道监控视频进行分解，得到M个帧序列集合，

其中

表示第m个包含K_m幅图像帧的帧序列，

v^k表示

中第k帧图像，M≥200，K_m≥100；

(1b)从帧序列集合S_v1包含的每个帧序列

中分别筛选出的仅包含行人走路事件的N_m个帧图像组成正常行为帧序列

并将 M个帧序列包含的所有正常行为帧序列组成训练样本集B_train，然后将

中剩余的P_m个帧图像组成异常行为帧序列

再将所有异常行为帧序列组成测试样本集B_test，其中，N_m≥P_m，P_m＝K_m-N_m；

(2)构建无监督异常行为检测网络模型H：

(2a)构建顺次连接的背景抑制模块、预测模块和背景抑制约束模块的无监督异常行为检测网络模型H，背景抑制模块的输出端还连接有上下文记忆模块；其中：

预测模块包括顺次连接的空间编码器、卷积长短期记忆模块和解码器，空间编码器采用包含多个二维卷积层和多个激活函数层的特征提取网络；卷积长短期记忆模块采用包含多个二维卷积层、多个张量分解层和多个激活函数层的记忆卷积神经网络；解码器采用包含多个二维转置卷积层和多个激活函数层的转置卷积神经网络；

上下文记忆模块包括顺次连接的运动匹配编码器和记忆模块，其中，运动匹配编码器采用包含多个三维卷积层、多个激活函数层、多个三维最大池化层和1 个三维平均池化层的三维卷积神经网络；

上下文记忆模块中记忆模块的输出端与预测模块中解码器的输入端连接；

(2b)定义背景抑制约束模块的背景抑制损失函数L_BGS、背景约束损失函数L_restrain、最小平方误差L₂、最小绝对值偏差L₁：

L_restrain＝L_BGS+L₂+L₁

其中，||·||₁表示求1范数，Binary(·)表示二值化操作，

表示

的预测结果，

表示

的第n帧图像；

(3)对无监督异常行为检测网络模型H进行迭代训练：

(3a)初始化迭代次数为t，最大迭代次数为T，T≥80，第t次迭代特征提取网络参数为θ_{G1_t}，记忆卷积神经网络参数为θ_{G2_t}，转置卷积神经网络参数为θ_{G3_t}，三维卷积神经网络参数为θ_{G4_t}，并令t＝1；

(3b)将训练样本集B_train作为无监督异常行为检测网络模型H的输入，得到第t次迭代时帧序列

的预测结果

(3b1)背景抑制模块对训练样本集B_train中每个正常行为帧序列

中的每幅正常行为帧图像

进行背景信息抑制，得到M个背景抑制后的帧序列；

(3b2)预测模块中的空间编码器对一个背景抑制后的帧序列

中的每个帧图像进行特征提取，卷积长短期记忆模块对

所提取的所有特征组成的特征张量

进行分解，得到

的特征信息

并存储，c∈[2,M-1]；

(3b3)上下文记忆模块对除帧序列

以外的其他M-1个正常行为帧序列中的每个帧图像进行特征提取，并将

之前的所有帧图像的特征组成上文信息

并存储，同时将

之后的所有帧图像的特征组成下文信息

并存储；

(3b4)预测模块中的解码器对步骤(3b2)得到的特征信息

和步骤(3b3) 得到的上文信息

和下文信息

进行解码，得到第t次迭代时帧序列

的预测结果

(3c)背景抑制约束模块对预测结果

和正常行为帧序列

中的正常行为帧图像

进行二值化处理，得到t时刻预测结果

的二值化图像

第n幅正常行为帧图像

的二值化图像

(3d)采用背景抑制损失函数L_BGS，通过

和

计算H_t的背景抑制损失值L_BGS，并采用背景约束损失函数L_restrain，通过L_BGS、L₂和L₁计算H_t的背景约束损失值L_restrain；

(3e)采用反向传播方法，并通过L_restrain计算H_t的网络参数梯度，然后采用随机梯度下降法通过H_t的网络参数梯度对网络参数θ_{G1_t}、θ_{G2_t}、θ_{G3_t}、θ_{G4_t}进行更新，得到本次迭代的无监督异常行为检测网络模型H_t；

(3f)判断t≥T是否成立，若成立，得到训练好的无监督异常行为检测网络模型H^*，否则令t＝t+1，H_t＝H，并执行步骤(3b)；

(4)获取异常行为检测结果：

(4a)将测试样本集B_test中第c个异常行为帧序列

作为训练好的无监督异常行为检测网络模型H^*的输入进行前向传播，得到

的预测帧图像

(4b)采用异常分数函数score，并通过预测帧图像

和帧图像

计算

的异常分数F，并判断F与预先设置的异常分数检测阈值I是否满足F≥I，若是，则

存在异常行为，反之不存在异常行为，其中：

本发明与现有技术相比较，具有以下优点：

第一，本发明由于所构建的异常行为检测网络模型包含有背景抑制模块和背景抑制约束模块，在对该模型进行训练和获取检测结果的过程中，考虑到背景目标特征信息对于前景异常检测的影响，异常行为检测网络模型先借助背景抑制模块对静态背景信息进行弱化，再借助背景抑制约束模块抑制动态背景信息，最终加强了前景目标的信息，避免了现有技术中由于仅考虑前景信息而忽略背景信息导致的误检缺陷，有效提高了检测的准确率。

第二，本发明由于所构建的异常行为检测网络模型中包含的预测模块采用顺次连接空间编码器、卷积长短期记忆模块和解码器的结构，借助空间编码器和解码器实现了无监督的异常行为检测，克服了人工标注数据集的准确性对有监督学习带来的影响，使得本发明具有在不同数据集下鲁棒性强的优点。

附图说明

图1是本发明的实现流程图。

图2是本发明构建的异常行为检测网络模型的结构示意图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述。

参照图1，本发明包括如下步骤：

步骤1)获取训练样本集和测试样本集：

其中

表示第m个包含K_m幅图像帧的帧序列，

v^k表示

中第k帧图像，M≥200，K_m≥100；

在本实例中，经过实验得出当M＝200时，训练速度较快，模型的检测效果较好。

(1b)从帧序列集合S_v1包含的每个帧序列

中剩余的P_m个帧图像组成异常行为帧序列

在本实例中，将人行道监控视频中出现的行人走路定义为正常行为，将骑自行车，滑滑板定义为异常行为。

步骤2)构建无监督异常行为检测网络模型H：

(2a)构建顺次连接的背景抑制模块、预测模块和背景抑制约束模块的无监督异常行为检测网络模型H，背景抑制模块的输出端还连接有上下文记忆模块；其中，预测模块包括顺次连接的空间编码器、卷积长短期记忆模块和解码器，空间编码器采用包含多个二维卷积层和多个激活函数层的特征提取网络；卷积长短期记忆模块采用包含多个二维卷积层、多个张量分解层和多个激活函数层的记忆卷积神经网络；解码器采用包含多个二维转置卷积层和多个激活函数层的转置卷积神经网络；上下文记忆模块包括顺次连接的运动匹配编码器和记忆模块，该记忆模块的输出端与视频预测模块中解码器的输入端连接；其中，运动匹配编码器采用包含多个三维卷积层、多个激活函数层、多个三维最大池化层和一个三维平均池化层的三维卷积神经网络；

空间编码器,其包含的二维卷积层和激活函数层的个数均为4，该空间编码器的具体结构为：第一二维卷积层→第一激活函数层→第二二维卷积层→第二激活函数层→第三二维卷积层→第三激活函数层→第四二维卷积层→第四激活函数层；其中第一二维卷积层输入通道为1，输出通道为64，步长为2；第二二维卷积层输入通道为64，输出通道为64，步长为1；第三二维卷积层输入通道为64，输出通道为128，步长为2；第四二维卷积层输入通道为128，输出通道为 128，步长为1；4个二维卷积层使用的卷积核大小相同均为3×3；4个激活函数层均采用ELU函数；

由于本实例中的每一个帧序列均是由视频分解之后得到的，因此帧序列中的帧图像特征信息之间有很强的关联性，相较于现有技术中只使用普通的卷积神经网络提取帧图像特征信息，本实例使用空间编码器对

中的每个帧图像进行特征提取，可以使提取到的特征信息也具有很强的关联性，该特征信息在解码器中解码时可以获得更好的解码效果。

卷积长短期记忆模块，其包含二维卷积层和张量分解层的个数均为2，激活函数层的个数为3，具体结构为：第一二维卷积层→第二二维卷积层→第一张量分解层→第二张量分解层→第一激活函数层→第二激活函数层→第三激活函数层；其中第一二维卷积层和第二二维卷积层相同，输入通道为128，输出通道为 128；3个激活函数层均采用sigmoid函数；

解码器，其包含的二维转置卷积层的个数为4，激活函数层的个数为3，具体结构为：第一二维转置卷积层→第一激活函数层→第二二维转置卷积层→第二激活函数层→第三二维转置卷积层→第三激活函数层→第四二维转置卷积层；其中第一二维转置卷积层输入通道为256，输出通道为128，步长为1；第二二维转置卷积层输入通道为128，输出通道为64，步长为2；第三二维转置卷积层输入通道为64，输出通道为64，步长为1；第四二维转置卷积层输入通道为64，输出通道为1，步长为1；4个二维转置卷积层使用的卷积核大小相同均为3×3， 3个激活函数层均采用ELU函数；

运动匹配编码器，其包含的三维卷积层和激活函数层的个数均为6，三维最大池化层的个数为4，三维平均池化层的个数为1，具体结构为：第一三维卷积层→第一激活函数层→第一三维最大池化层→第二三维卷积层→第二激活函数层→第二三维最大池化层→第三三维卷积层→第三激活函数层→第四三维卷积层→第四激活函数层→第三三维最大池化层→第五三维卷积层→第五激活函数层→第六三维卷积层→第六激活函数层→第四三维最大池化层→平均三维池化层；其中第一三维卷积层输入通道为1，输出通道为64；第二三维卷积层输入通道为64，输出通道为128；第三三维卷积层输入通道为128，输出通道为256；第四三维卷积层输入通道为256，输出通道为256；第五三维卷积层输入通道为 256，输出通道为512；第六三维卷积层输入通道为512，输出通道为512；步长相同均为1；6个三维卷积层使用的卷积核大小相同均为3×3×3；第一三维最大池化层池化核大小为1×2×2，步长为1×2×2；第二三维最大池化层池化核、第三三维最大池化层池化核、第四三维最大池化层池化核大小相同均为2×2×2，步长均为2×2×2；平均三维池化层卷积核大小为1×2×2；6个激活函数层均采用ReLU函数；

L_restrain＝L_BGS+L₂+L₁

其中，||·||₁表示求1范数，Binary(·)表示二值化操作，

表示

的预测结果，

表示

的第n帧图像；

在本实例中，如果背景约束损失函数L_restrain只使用最小平方误差L₂和背景抑制损失函数L_BGS计算无监督异常行为检测网络模型的损失，虽然可以保证预测结果

和正常行为帧图像

的像素相似性，但也容易使预测结果

出现模糊，因此为了减轻

的模糊效果，将最小绝对值偏差L₁也加入背景约束损失函数L_restrain计算无监督异常行为检测网络模型的损失。

步骤3)对无监督异常行为检测网络模型H进行迭代训练：

在本实例中，经过实验得出最大迭代次数为T＝100时，训练出的无监督异常行为检测网络模型检测效果最好；

的预测结果

(3b1)背景抑制模块对训练样本集B_train中每个正常行为帧序列

中的每幅正常行为帧图像

进行背景信息抑制，并将所有背景信息抑制后的帧图像组成帧图像序列，实现步骤为：

背景抑制模块对训练样本集B_train中每个正常行为帧序列

中的每一幅正常行为帧图像

进行伽马校正调整帧图像的光照，并对伽马校正后的帧图像

进行高斯滤波去除帧图像中的噪点，再对高斯滤波后的帧图像

进行拉普拉斯锐化抑制背景信息，得到背景信息抑制后的帧图像

(3b2)预测模块中的空间编码器对一个背景抑制后的帧序列

中的每个帧图像进行特征提取，卷积长短期记忆模块对

所提取的所有特征组成的特征张量

进行分解，得到

的特征信息

并存储，c∈[2,M-1]，其过程如下：

空间编码器借助特征提取网络中的卷积层和激活函数层对帧序列

中的每一帧图像进行特征提取并堆叠得到特征张量

卷积长短期记忆模块借助卷积层、张量分解层和激活函数层对

进行分解，得到特征信息

(3b3)上下文记忆模块对除帧序列

之前的所有帧图像的特征组成上文信息

并存储，同时将

之后的所有帧图像的特征组成下文信息

并存储，其过程如下：

对除帧序列

外，将所有帧序列中的每一帧图像借助三维卷积神经网络进行特征提取并对提取到的特征进行编码，帧序列

之前的所有帧序列

的特征作为上文信息

并存储，帧序列

之后的所有帧序列

的特征作为下文信息

并存储。

(3b4)预测模块中的解码器对步骤(3b2)得到的特征信息

和步骤 (3b3)得到的上文信息

和下文信息

进行解码，得到第t次迭代时帧序列

的预测结果

其过程如下：

解码器借助转置卷积神经网络对上文信息

下文信息

和帧序列

的特征信息

所组成的张量进行转置解码，得到第t次迭代时帧序列

的预测结果

在本实例中预测模块中的解码器同时使用空间编码器提取到的帧序列

的特征信息和运动匹配编码器对其他帧序列进行特征提取得到的特征信息进行解码，使得预测结果更加多样，模型的智能化程度更高。

(3c)背景抑制约束模块对预测结果

和正常行为帧序列

中的正常行为帧图像

进行二值化处理，得到t时刻预测结果

的二值化图像

第n幅正常行为帧图像

的二值化图像

预测结果

和正常行为帧序列

中的正常行为帧图像

在背景抑制约束模块中进行二值化处理，将帧图像中所有不为0的像素值全部变为1。

由于前景目标和背景目标在视频中都在连续运动，像素值的变化也是连续的，因此当运动的目标经过某一区域时，会使该区域的像素值发生变化，算法在提取特征的过程中会把像素值的波动也作为潜在特征提取，进而造成误检。

在本实例中，二值化处理将正常行为帧图像

和预测结果

中所有不为0 的像素值全部变为1，再通过二者差帧消除目标运动导致的运动目标经过区域像素值不为0的问题，从而抑制动态背景信息，提高检测的准确率。

(3d)采用背景抑制损失函数L_BGS，通过

和

随机梯度下降算法通过H_t的网络参数梯度对H_t的特征提取网络参数θ_{G1_t}、记忆卷积神经网络参数θ_{G2_t}、转置卷积神经网络参数θ_{G3_t}、三维卷积神经网络参数θ_{G4_t}进行更新，更新公式为：

m_t＝β₁·v_t-1+(1-β₁)·g_t

其中：g_t为迭代次数t时的梯度，

分别为特征提取网络参数θ_{G1_t}、记忆卷积神经网络参数θ_{G2_t}、转置卷积神经网络参数θ_{G3_t}、三维卷积神经网络参数θ_{G4_t}更新后的参数，{f_ti(θ)|i＝1,2,3,4}为参数θ_{Gi_t}的目标函数，β₁，β₂分别为一阶矩和二阶矩的指数衰减率，{m_ti|i＝1,2,3,4}为H_t网络参数梯度的一阶矩估计，{v_ti|i＝1,2,3,4}为对H_t网络参数梯度的二阶矩估计，

为对{m_ti|i＝1,2,3,4}的校正，

为β_i的t次幂，

对 {v_ti|i＝1,2,3,4}的校正，{α_i|i＝1,2,3,4}为学习率，{ε_i|i＝1,2,3,4}为维持数值稳定性而添加的常数。

步骤4)获取异常行为检测结果：

(4a)将测试样本集B_test中第c个异常行为帧序列

的预测帧图像

(4b)采用异常分数函数score，并通过预测帧图像

和帧图像

计算

存在异常行为，反之不存在异常行为，其中：

下面结合实验对本发明的效果做进一步的说明：

1.实验条件：

本发明的实验的硬件平台为：2块NVIDIA GeForce GTX 2080Ti GPU。

本发明的实验的软件平台为：Ubuntu 16操作系统，Pytorch 1.7框架，Python3.8。

实验所使用的数据集为ShanghaiTech数据集，该数据集中共有437个视频，每个视频具有不同的光照条件和摄像机角度。

2.实验内容及其结果分析：

(1)评价指标

视频监控异常行为检测领域的主要评价指标是受试者操作特征曲线 (ReceiverOperating Characteristic，ROC)的曲线下的面积(Area Under Curve， AUC)。ROC以假阳性率为横坐标，真阳性率为纵坐标。假阳性率是指所有负样本中预测为正样本的概率，真阳性率是指所有正样本中预测为正样本的概率。 ROC越靠近左上角，AUC值越大，算法模型的性能越好。对于异常行为检测任务，基于图像级异常分数计算AUC值。

(3)实验结果及分析

本实验主要是为了验证本发明和现有其他异常行为检测方法在检测准确率上的优势。本实验采用多种异常行为检测方法在ShanghaiTech数据集上进行训练、测试，最后得到在此数据集上的评价指标AUC。

表1不同算法在ShanghaiTech数据集上的实验结果

方法	AUC
		Conv-AE	60.9％
Stacked RNN	68％
		Liu et al.	72.8％
VEC	74.8％
		HF<sup>2</sup>-VED	76.2％
本发明	76.5％

由表1的实验结果可以看出，本发明相较于现有技术具有更高的准确率。

综上所述，本发明相比于现有技术对异常行为的检测准确率更高，具有重要的实际意义。以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围内。

Claims

1.一种基于背景抑制的无监督异常行为检测方法，其特征在于包括如下步骤：

(1)获取训练样本集和测试样本集：

其中

表示第m个包含K_m幅图像帧的帧序列，

v^k表示

中第k帧图像，M≥200，K_m≥100；

(1b)从帧序列集合S_v1包含的每个帧序列

并将M个帧序列包含的所有正常行为帧序列组成训练样本集B_train，然后将

中剩余的P_m个帧图像组成异常行为帧序列

(2)构建无监督异常行为检测网络模型H：

上下文记忆模块包括顺次连接的运动匹配编码器和记忆模块，其中，运动匹配编码器采用包含多个三维卷积层、多个激活函数层、多个三维最大池化层和1个三维平均池化层的三维卷积神经网络；

L_restrain＝L_BGS+L₂+L₁

其中，||·||₁表示求1范数，Binary(·)表示二值化操作，

表示

的预测结果，

表示

的第n帧图像；

(3)对无监督异常行为检测网络模型H进行迭代训练：

的预测结果

(3b1)背景抑制模块对训练样本集B_train中每个正常行为帧序列

中的每幅正常行为帧图像

进行背景信息抑制，并将所有背景信息抑制后的帧图像组成帧图像序列；

(3b2)预测模块中的空间编码器对一个背景抑制后的帧序列

中的每个帧图像进行特征提取，卷积长短期记忆模块对

所提取的所有特征组成的特征张量

进行分解，得到

的特征信息

并存储，c∈[2,M-1]；

(3b3)上下文记忆模块对除帧序列

之前的所有帧图像的特征组成上文信息

并存储，同时将

之后的所有帧图像的特征组成下文信息

并存储；

(3b4)预测模块中的解码器对步骤(3b2)得到的特征信息

和步骤(3b3)得到的上文信息

和下文信息

进行解码，得到第t次迭代时帧序列

的预测结果

(3c)背景抑制约束模块对预测结果

和正常行为帧序列

中的正常行为帧图像

进行二值化处理，得到t时刻预测结果

的二值化图像

第n幅正常行为帧图像

的二值化图像

(3d)采用背景抑制损失函数L_BGS，通过

和

(4)获取异常行为检测结果：

(4a)将测试样本集B_test中第c个异常行为帧序列

的预测帧图像

(4b)采用异常分数函数score，并通过预测帧图像

和帧图像

计算

存在异常行为，反之不存在异常行为，其中：

2.根据权利要求1所述的基于背景抑制的无监督异常行为检测方法，其特征在于，步骤(2a)中所述的无监督异常行为检测网络模型H，其中：

空间编码器,其包含的二维卷积层和激活函数层的个数均为4，该空间编码器的具体结构为：第一二维卷积层→第一激活函数层→第二二维卷积层→第二激活函数层→第三二维卷积层→第三激活函数层→第四二维卷积层→第四激活函数层；其中第一二维卷积层输入通道为1，输出通道为64，步长为2；第二二维卷积层输入通道为64，输出通道为64，步长为1；第三二维卷积层输入通道为64，输出通道为128，步长为2；第四二维卷积层输入通道为128，输出通道为128，步长为1；4个二维卷积层使用的卷积核大小相同均为3×3；4个激活函数层均采用ELU函数；

卷积长短期记忆模块，其包含二维卷积层和张量分解层的个数均为2，激活函数层的个数为3，具体结构为：第一二维卷积层→第二二维卷积层→第一张量分解层→第二张量分解层→第一激活函数层→第二激活函数层→第三激活函数层；其中第一二维卷积层和第二二维卷积层相同，输入通道为128，输出通道为128；3个激活函数层均采用sigmoid函数；

解码器，其包含的二维转置卷积层的个数为4，激活函数层的个数为3，具体结构为：第一二维转置卷积层→第一激活函数层→第二二维转置卷积层→第二激活函数层→第三二维转置卷积层→第三激活函数层→第四二维转置卷积层；其中第一二维转置卷积层输入通道为256，输出通道为128，步长为1；第二二维转置卷积层输入通道为128，输出通道为64，步长为2；第三二维转置卷积层输入通道为64，输出通道为64，步长为1；第四二维转置卷积层输入通道为64，输出通道为1，步长为1；4个二维转置卷积层使用的卷积核大小相同均为3×3，3个激活函数层均采用ELU函数；

运动匹配编码器，其包含的三维卷积层和激活函数层的个数均为6，三维最大池化层的个数为4，三维平均池化层的个数为1，具体结构为：第一三维卷积层→第一激活函数层→第一三维最大池化层→第二三维卷积层→第二激活函数层→第二三维最大池化层→第三三维卷积层→第三激活函数层→第四三维卷积层→第四激活函数层→第三三维最大池化层→第五三维卷积层→第五激活函数层→第六三维卷积层→第六激活函数层→第四三维最大池化层→平均三维池化层；其中第一三维卷积层输入通道为1，输出通道为64；第二三维卷积层输入通道为64，输出通道为128；第三三维卷积层输入通道为128，输出通道为256；第四三维卷积层输入通道为256，输出通道为256；第五三维卷积层输入通道为256，输出通道为512；第六三维卷积层输入通道为512，输出通道为512；步长相同均为1；6个三维卷积层使用的卷积核大小相同均为3×3×3；第一三维最大池化层池化核大小为1×2×2，步长为1×2×2；第二三维最大池化层池化核、第三三维最大池化层池化核、第四三维最大池化层池化核大小相同均为2×2×2，步长均为2×2×2；平均三维池化层卷积核大小为1×2×2；6个激活函数层均采用ReLU函数。

3.根据权利要求1所述的基于背景抑制的无监督异常行为检测方法，其特征在于，步骤(3b1)中所述的背景抑制模块对训练样本集B_train中每个正常行为帧序列