CN111079509A

CN111079509A - 一种基于自注意力机制的异常行为检测方法

Info

Publication number: CN111079509A
Application number: CN201911011377.6A
Authority: CN
Inventors: 公茂果; 张斯佳; 帅文静; 李豪; 解宇; 武越; 张明阳
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2020-04-28
Anticipated expiration: 2039-10-23
Also published as: CN111079509B

Abstract

本发明公开了一种基于自注意力机制的异常行为检测方法，包括构建自注意力生成对抗网络；将正常行为数据输入训练，得到一个可以产生正常行为数据的生成器以及一个能够比较输入与输出数据分布差异的判别器；将异常行为的数据输入训练好的生成器，通过对比输入与原模型生成的图的L2距离，从而生成与原输入图较为近似的图，可以认为重建出了异常图的理想的正常情况；将生成数据与测试数据经过之前训练好的判别模型进行对比，从而确定是否发生异常。本发明通过自注意力模型能够有效关注到人群行为之间的互相关联，提高了异常检测的准确度。

Description

一种基于自注意力机制的异常行为检测方法

技术领域

本发明属于深度学习领域，具体涉及一种基于自注意力机制的异常行为检测方法。

背景技术

近几年随着人群密集而产生踩踏等事件的频率上升，实时监测人群状态引起了各国研究人员的重视，经过多年的积累在人群异常检测方面已有显著的发展，但是很多方法只是在一定程度上解决了某一方面的问题，仍需要进一步优化。目前，有很多国内外的院校以及研究机构都在致力于研究人群异常检测算法，并取得了一些成果。

对人群异常状态进行检测的难点在于理解人群的复杂行为模式及特征提取和相互遮挡等问题。首先可将人群异常事件分为两类，分别是个体上的异常和群体中的异常。从整体来看，人群有其特定的整体运动模式，因此可以从人群整体特征出发，利用其来描述人群状态。从个体来看，人群中的每个个体都有着各自不同的行为模式，但是其中个体异常是指人群中存在部分个体的行为模式明显异于人群中其他个体的行为模式，在这种情况下群体的行为检测就转化为单个目标的行为识别问题，在实际中，由于人群中的相互影响，常常表现为多个目标的同时出现异常。在识别目标时通常通过提取不同方面的视觉特征，如图像的灰度梯度、光流场和将视频分割为单元块，提取单元块的特征，进而整合后从整体上表示人群事件等等方法。目前在这一方面所研究的方法已经较为成熟简单。除去上述的算法优化方面的难点，在所获取的视频数据方面经常会存在视频质量不高而使得目标模糊，以及人群中存在相互遮挡等问题，从而较难实现对单个目标的检测跟踪。同时，上述方法学习到的人群交互特征较为浅层，不能学习到人群相互影响的隐藏结构。

人群异常状态的模型也在不断趋于优化，早期的研究工作集中在通过一组简单的模型描述人类行为，例如二维轮廓模型和三维圆柱模型。之后逐渐有学者提出了隐马尔科夫模型(Hidden Markov Model,HMM)和动态贝叶斯网络(Dynamic Bayesian Network,DBN)等，这些方法通过提取不同特征出现的概率，然后根据数据的聚类运算结果建立表示事件的模型，针对不同模型建立概率密度函数，根据每个待测事件属于建立模型的可能性大小来判断事件的属性。此外人群异常状态检测的算法优化也在不断向研究运动特征和人群密度方面进行，在人群密度方面，有研究人员提出了于像素统计的密度估计法，其主要思想是视频图像中的人类目标数量与图像中除去背景的像素数量呈线性关系，由此可估计出人群密度。首先可通过人群密度来判断为低密度人群或中高密度人群，接着通过对人群密度的不同运算建模来进行下一步的异常检测。在人群的运动特征方面，如对于运动序列采用主成成分分析法(Principal Component Analysis,PCA)降维处理，并使用支持向量机(Support Vector Machines,SVM)分类以建立异常事件检测模型。但这两种方法对于样本的模式多样性要求较高，在目前的样本中存在正负样本不均衡的特点，在使用这两种方法时，由于负样本过少会导致对学习到的负样本模式单一，从而不能较好的判断出异常。

发明内容

针对现有技术中的缺陷和不足，本发明提供了一种基于自注意力机制的异常行为检测方法，解决现有技术在处理人群行为时较少关注人群之间交互影响的问题。

为达到上述目的，本发明采取如下的技术方案：

一种基于自注意力机制的异常行为检测方法，该方法包括如下步骤：

步骤1，构建自注意力生成对抗网络：先构建生成对抗网络(GAN网络)，该网络包含生成器与判别器，在生成器和判别器中分别加入自注意力机制，得到自注意力生成对抗网络；为了使自注意力生成对抗网络训练更加稳定，使用DRA-GAN模型的惩罚项作为损失函数来更新自注意力生成对抗网络中的权重；

步骤2，向步骤1得到的自注意力网络中的判别器中输入正常行为数据，向自注意力网络中的生成器中输入噪声，进行训练并使用谱归一化来更新生成器与判别器的权重，得到能生成正常行为图像的生成器G1和能分辨隐藏结构的判别器D；

步骤3，将测试数据输入生成器G1得到生成数据，对比生成数据与测试数据之间的L2距离，并用L2距离更新生成器G1以得到生成器G2，从而从生成器G2得到生成数据，从生成器G2得到的生成数据是测试数据的正常理想情况；

步骤4，将步骤3中生成器G2得到的生成数据与测试数据输入判别器D进行对比，判别器可比较二者数据分布的差异，若二者差异过大，即超过阈值，判断为异常；此处阈值设置为0.6-0.8。

本发明还包括如下技术特征：

具体的，步骤1中，使用DRA-GAN模型的惩罚项作为损失函数，采用公式(1)(2)分别计算生成器与判别器的损失，从而可更新生成器与判别器中的权值：

其中

为判别器的损失计算公式，

为生成器的损失计算公式；

分别为生成器和判别器原始的损失函数，均为交叉熵函数，可描述两个随机分布的差异；λ为超参数，其设置取决于所在的结构，E为求括号内的均值，

为求判别器的梯度，x+δ为防止数据扰动以及为数据多样性进行调整的一项表示。

具体的，步骤1中，在生成器和判别器中分别加入自注意力机制包括如下步骤：采用公式(3)、(4)分别计算不同的特征，并由公式(5)计算出自注意力值：

f(x)＝W_fx (3)

g(x)＝W_gx (4)

其中s_ij＝f(x_i)^Tg(x_j) (5)

其中x为上一级对自注意力机制的输入，W_f，W_g均为1×1的卷积，f,g分别为输入转换后的特征空间；β_j,i为对f(x_i)和g(x_j)矩阵相乘后进行softmax运算，表示在生成区域j时区域i对区域j的影响，其中s_ij表示f(x_i)和g(x_j)矩阵相乘，将不同的区域i与区域j联结在一起。

具体的，步骤2中使用谱归一化来更新生成器与判别器的权重，具体采用公式(6)-(8)进行计算：

其中

为权重矩阵的主特征向量，

在开始时为随机初始化的一个噪声向量，代入公式(6)(7)中迭代计算，W为判别器的权重；在每一次迭代中，

为谱归一化项，矩阵除以

可满足利普希茨连续条件，函数的梯度上界被限制，因此函数更平滑，在神经网络的优化过程中，参数变化也会更稳定，不容易出现梯度爆炸；每更新一次权重W，即更新一次

和

并将矩阵归一化一次。

具体的，步骤2中，使用谱归一化来更新生成器与判别器的权重中，采用的优化算法为Adam优化算法。

具体的，步骤3中通过对比生成数据与测试数据之间的L2距离，具体采用公式(9)对二者的L2距离进行计算：

其中x₁，x₂分别为生成数据与测试数据，

分别为数据中每一像素点的大小。

本发明与现有技术相比，有益的技术效果是：

1、本发明通过自注意力机制能够获取图像中各像素点之间的关系，从而能够表示人群之间的交互影响，对异常行为出现时周边群体的表现有较好的学习作用，相比于现有方法，本发明具有更好的鲁棒性，其生成的每个像素点具有群体性，从而提高了异常行为检测的准确度。

2、本发明中利用生成图与输入之间的L2距离来更新噪声，生成尽量靠近输入的正常图，从而判断是否异常，充分利用DRA-GAN的生成模型与判别模型，采用L2距离的更新方式，使得生成模型学习到的结构更加灵活且准确，得到输入的理想正常图，而训练好的判别模型则对输入与输出之间的潜在结构更为灵敏，从而在异常行为检测时有更高的准确度。

附图说明

图1是本发明的流程图；

图2为本发明在分别输入正常图时的输出；

图3为本发明在分别输入异常图时的输出；

图4为本发明在UCSD数据集上的ROC曲线图。

具体实施方式

遵从上述技术方案，以下给出本发明的具体实施例，需要说明的是本发明并不局限于以下具体实施例，凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。下面结合实施例对本发明做进一步详细说明。

实施例1：

如图1所示，本发明提供了一种基于自注意力机制的异常行为检测方法，具体包括以下步骤：

本发明通过自注意力机制能够获取图像中各像素点之间的关系，从而能够表示人群之间的交互影响，对异常行为出现时周边群体的表现有较好的学习作用，相比于现有方法，本发明具有更好的鲁棒性，其生成的每个像素点具有群体性，从而提高了异常行为检测的准确度。

本发明中利用生成图与输入之间的L2距离来更新噪声，生成尽量靠近输入的正常图，从而判断是否异常，充分利用DRA-GAN的生成模型与判别模型，采用L2距离的更新方式，使得生成模型学习到的结构更加灵活且准确，得到输入的理想正常图，而训练好的判别模型则对输入与输出之间的潜在结构更为灵敏，从而在异常行为检测时有更高的准确度。

其中