CN115100599A

CN115100599A - 基于掩码transformer的半监督人群场景异常检测方法

Info

Publication number: CN115100599A
Application number: CN202210765871.7A
Authority: CN
Inventors: 黄少年; 全琪; 杨正杰; 陈荣元
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2022-09-23

Abstract

本发明实施例中提供了一种基于掩码transformer的半监督人群场景异常检测方法，属于数据识别技术领域，具体包括：生成带异常信息的前景图序列；生成人群图像正常事件的潜在特征表示；构造潜在表示优化器，输入带掩码符号的特征图，预测被掩码部分的真实图像，并引入多重掩码预测损失，结合损失值优化改进的transformer前景特征提取器相关参数；采用反卷积构造重建器，并定义正常事件类间的差异约束模块；优化网络参数得到检测模型；利用检测模型对人群图像序列进行判别，输出异常分值，并对异常分值进行阈值判别，筛选出异常图像并输出相关异常数据。通过本发明的方案，在满足实时性检测的需求下，提高了检测准确率。

Description

基于掩码transformer的半监督人群场景异常检测方法

技术领域

本发明实施例涉及数据识别技术领域，尤其涉及一种基于掩码transformer的半监督人群场景异常检测方法。

背景技术

目前，随着信息化的发展，在对于人群场景的检测中，可以采用图像设备拍摄场景图像进行异常检测。但是传统方法中由于图像异常数据信息高度冗余，导致产生漏检、误检，以及现有深度学习方法中存在的正常事件潜在表示优化困难、类间差异难以约束、计算资源消耗巨大等问题。

可见，亟需一种实时高效、检测精准的基于掩码transformer的半监督人群场景异常检测方法。

发明内容

有鉴于此，本发明实施例提供一种基于掩码transformer的半监督人群场景异常检测方法，至少部分解决现有技术中存在实时性、检测效率和精准度较差的问题。

本发明实施例提供了一种基于掩码transformer的半监督人群场景异常检测方法，包括：

步骤1，对输入的人群场景图像提取光流序列，采用目标检测网络定位具备运动前景的区域，并进行冗余信息过滤，生成带异常信息的前景图序列；

步骤2，对前景图序列进行均等切分，并以预设比例进行掩码，将未被掩码部分输入到改进的transformer前景特征提取器中进行特征提取，生成人群图像正常事件的潜在特征表示；

步骤3，结合掩码机制，采用transformer块构造潜在表示优化器，输入带掩码符号的特征图，预测被掩码部分的真实图像，并引入多重掩码预测损失，结合损失值优化改进的transformer前景特征提取器相关参数；

步骤4，采用反卷积构造重建器，并定义正常事件类间的差异约束模块；

步骤5，采用半监督式训练方式，训练改进的transformer前景特征提取器、潜在表示优化器和重建器，以及结合掩码策略，优化网络参数得到检测模型；

步骤6，利用检测模型对人群图像序列进行判别，输出异常分值，并对异常分值进行阈值判别，筛选出异常图像并输出相关异常数据。

根据本发明实施例的一种具体实现方式，所述步骤1具体包括：

步骤1.1，采用Flownet2深度网络提取光流序列；

步骤1.2，采用Cascade RCNN深度网络定位运动前景区域；

步骤1.3，将过滤后的前景图统一归一化到到32×32大小，形成带异常信息的前景图序列。

根据本发明实施例的一种具体实现方式，所述改进的transformer前景特征提取器包括多层transformer块，其中，每层transformer包括Attention层和前馈网络层。

根据本发明实施例的一种具体实现方式，所述步骤2具体包括：

步骤2.1，对于生成的前景图切分成大小相等且不重叠的块，并以适合图像类数据的预设比例进行掩码，将未掩码的部分输入到改进的transformer前景特征提取器中；

步骤2.2，利用改进的transformer前景特征提取器对未掩码的部分X＝(x₁，…x_t)进行块编码，引入位置信息并进行归一化，然后对X朝三个方向做线性映射，生成三个矩阵Q,K,V,表示为：

步骤2.3，对矩阵Q,K进行平均池化处理后输入Attention层计算注意力；

步骤2.4，将Attention层的计算结果输入到前馈网络层中完成一层transformer块的计算；

步骤2.5，通过多层transformer块的计算提取前景特征，形成人群图像正常事件的潜在特征表示。

根据本发明实施例的一种具体实现方式，所述前馈网络层包括两层全连接层。

根据本发明实施例的一种具体实现方式，所述步骤3具体包括：

步骤3.1，采用一层tranformer块以及多个卷积构成潜在表示优化器；

步骤3.2，将改进的transformer前景特征提取器中除最后一层外每层transformer块得到的特征图与掩码符号按位置顺序排列组合，输入到潜在表示优化器中，通过潜在表示优化器预测被掩码部分的真实图像，并引入多重损失，表示如下：

其中，G表示优化器接收前景特征提取器获得的特征图的次数，Φ表示原始前景图中被掩码区域的真实值，

表示优化器第i次接收特征图时，被掩码区域的预测值。

根据本发明实施例的一种具体实现方式，所述步骤4具体包括：

步骤4.1，利用反卷积以及多个正常事件类间差异约束模块组成重建器，并利用其接收改进的transformer前景特征提取器最后一层transformer块输出的特征图以及表示优化器预测的前景图作为输入；

步骤4.2，更新每个正常事件类间差异约束模块对应的正常模式记忆矩阵M，更新表达式如下：

M＝softmax(MP^T)M

其中，P为输入的记忆矩阵M的特征图；

步骤4.3，引入约束损失至正常事件类间差异约束模块，约束损失的表达式如下：

其中D表示记忆矩阵M的个数，w_i,j表示第i个记忆矩阵中第j个记忆槽的匹配概率。

根据本发明实施例的一种具体实现方式，所述步骤5具体包括：

步骤5.1，采用随机梯度下降算法和不包含异常数据的训练集训练改进的transformer前景特征提取器、潜在表示优化器和重建器；

步骤5.2，假设为y输入数据，

为重建结果，重建损失定义如下：

步骤5.3，结合多重掩码损失以及约束损失，定义总损失为：

L＝λ_RECONL_RECON+λ_MASKL_MASK+λ_CONL_CON

其中，λ_RECON，λ_MASK，λ_CON表示相应损失的平衡因子；

步骤5.4，根据总损失优化网络参数得到检测模型。

根据本发明实施例的一种具体实现方式，所述步骤6具体包括：

步骤6.1，将人群图像序列输入检测模型，根据正常类特征重构原始图像，得到重构误差作为异常分值；

步骤6.2，当异常分值大于预设阈值时，输出异常分值对应的异常图像以及异常信息。

本发明实施例中的基于掩码transformer的半监督人群场景异常检测方案，包括：步骤1，对输入的人群场景图像提取光流序列，采用目标检测网络定位具备运动前景的区域，并进行冗余信息过滤，生成带异常信息的前景图序列；步骤2，对前景图序列进行均等切分，并以预设比例进行掩码，将未被掩码部分输入到改进的transformer前景特征提取器中进行特征提取，生成人群图像正常事件的潜在特征表示；步骤3，结合掩码机制，采用transformer块构造潜在表示优化器，输入带掩码符号的特征图，预测被掩码部分的真实图像，并引入多重掩码预测损失，结合损失值优化改进的transformer前景特征提取器相关参数；步骤4，采用反卷积构造重建器，并定义正常事件类间的差异约束模块；步骤5，采用半监督式训练方式，训练改进的transformer前景特征提取器、潜在表示优化器和重建器，以及结合掩码策略，优化网络参数得到检测模型；步骤6，利用检测模型对人群图像序列进行判别，输出异常分值，并对异常分值进行阈值判别，筛选出异常图像并输出相关异常数据。

本发明实施例的有益效果为：采用改进的transformer结构作为特征提取器，结合掩码机制，在引入多重掩码预测损失优化网络、降低计算成本的同时，在重建器中设计了类间的差异约束模块帮助网络增大异常重建误差，在满足实时性检测的需求下，提高了检测准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种基于掩码transformer的半监督人群场景异常检测方法的流程示意图；

图2为本发明实施例提供的一种基于掩码transformer的半监督人群场景异常检测方法涉及的数据处理流程示意图；

图3为本发明实施例提供的一种基于掩码transformer的半监督人群场景异常检测方法涉及的模型示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本发明，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本发明实施例提供一种基于掩码transformer的半监督人群场景异常检测方法，所述方法可以应用于商场、景区或城市管控场景的人员分析过程。

参见图1，为本发明实施例提供的一种基于掩码transformer的半监督人群场景异常检测方法的流程示意图。如图1所示，所述方法主要包括以下步骤：

进一步的，所述步骤1具体包括：

步骤1.1，采用Flownet2深度网络提取光流序列；

步骤1.2，采用Cascade RCNN深度网络定位运动前景区域；

步骤1.3，将过滤后的前景图统一归一化到到32*32大小，形成带异常信息的前景图序列。

具体实施时，输入为任意大小且不含异常的人群场景图序列，首先采用已预训练的Flownet2深度网络提取相应的光流图序列。然后采用已预训练的Cascade RCNN深度网络定位光流图中具备运动前景的区域，考虑到同一大小的光流图所包含的前景区域的个数不同，且每张光流图中包含前景区域的具体大小也不一致，为方便模型后续的计算，可以将前景区域统一归一化为32×32×2大小，组成人群前景图序列，其中，32×32为分辨率大小，2为通道数。

可选的，所述改进的transformer前景特征提取器包括多层transformer块，其中，每层transformer包括Attention层和前馈网络层。

进一步的，所述步骤2具体包括：

可选的，所述前馈网络层包括两层全连接层。

具体实施时，如图2所示，可以将每张32×32×2的前景图按横纵各16份的比例切分成大小相等且不重叠的块，共256个块，每个块的大小为2×2×2。对所有的块按适合图像类数据75％的比例进行掩码，即掩码块数为192，未掩码块数为64。将未被掩码的64个块输入到前景特征提取器中。

前景特征提取器由四个阶段的transformer组成，每个阶段transformer都设置为相同的大小，具体维度为768，深度为3，多头数为12。每个transformer主要由注意力层以及前馈网络层组成。

Transformer首先对未被掩码的64个块采用卷积核为2，步长为2的二维卷积进行块编码，并引入块位置信息。生成64×768的特征图。将特征图朝三个方向做线性映射生成Q,K,V三个矩阵，三个矩阵的大小相同且都为64×64。然后在K，V矩阵上应用输出大小为4的一维自适应平均池化，将K,V矩阵的大小降为4×64，以达到降低transformer计算成本的目的。

将处理好后的三个矩阵送入transformer的注意力层中进行注意力计算，即计算K，V矩阵的点乘注意力，得到64×4的注意力矩阵，将注意力矩阵经过softmax进行概率映射后的结果与矩阵Q相乘从而完成注意力计算，此时矩阵的大小为64×64。因为多头数为12，所以此部分要并行计算12次，获得64×(64×12)＝64×768大小的特征图。将特征图进行归一化后送入由两层全连接层组成的前馈网络层中。最终获得正常特征的潜在表示，其特征图大小也为64×768。至此完成一个阶段的transformer的计算。整个前景特征提取器共有四个阶段的transformer。transformer整个过程的计算并未改变输入特征图大小，因此每个阶段输出的特征图都为64×768。表示为64个未被掩码的块每块由768维向量表示。

具体的，transformer首先对输入块X＝(x₁，…x_t)进行块编码，引入位置信息，并进行归一化，然后对X朝三个方向做线性映射，生成三个矩阵Q,K,V,表示为：

Transformer主要分为Attention层以及前馈网络层，主要改进在Attention层计算注意力前对矩阵Q,K进行平均池化处理，记为:

目的是为了节约计算成本。然后进行transformer注意力计算，具体表示如下：

d_k表示K的维度，t表示输入transformer的块的个数。通过

点积生成二维相关矩阵

其中，第i行代表

对所有

的注意力值，并针对每一行使用softmax算法计算注意力的概率分布。将Attention层计算结果输入到由两层全连接层组成的前馈网络层中完成一层transformer块的计算。通过多层transformer块的计算提取前景特征，并获得正常事件的潜在表示。

在上述实施例的基础上，所述步骤3具体包括：

表示优化器第i次接收特征图时，被掩码区域的预测值。

具体实施时，潜在表示优化器由一个阶段的transformer以及两次下采样组成，目的是为了优化前景特征提取网络以及为重建器提供信息补充。其中transformer的维度为512，深度为2，多头数为8。下采样由卷积操作完成。

以下为优化器对前景特征提取器的优化操作。前景特征提取器前三个阶段提取的潜在表示只包含未被掩码部分的特征，优化器中transformer的作用是对掩码部分的图像进行预测并引入多重掩码损失优化前景特征提取器。为获得完整图像的特征表示，前景特征提取器每次将潜在表示送入优化器前都需要按位置顺序引入掩码符号，掩码符号为一系列随机生成的值，共有192个掩码符号，每个掩码符号表示为768维的向量。图2中灰色部分表示掩码符号。将加入掩码符号的潜在表示特征图线性映射成512维并输入到优化器的transformer中，按照步骤二中描述的transformer的计算流程完成一阶段transformer计算，生成256×512的特征图。将特征图通过线性映射以及反卷积操作变换成与原始前景图统一的大小(32×32×2)，并将未掩码部分数值全部置0，此时获得优化器对未掩码部分的预测结果，此结果与原始前景图计算多重掩码损失。多次训练中，优化器会根据损失值进行反向传播，从而达到优化前景特征提取器的目的。因优化器接收了前景特征提取器三个阶段的潜在表示，因此，此过程会在一次训练中的不同阶段共进行三次优化。

以下为优化器对重建器的优化操作。优化器经transformer获得的256×512的特征图展开为16×16×512的形式输入到重建器中作为第一次信息补充。然后，采用卷积操作对16×16×512特征图进行第一次下采样，生成8×8×1024大小的特征图作为第二次补充信息输入到重建器中。最后，采用卷积操作对8×8×1024特征图进行第二次下采样，生成4×4×2048的特征图作为第三次信息补充输入到重建器中。三次信息补充完成对重建器的优化工作。

进一步的，所述步骤4具体包括：

M＝softmax(MP^T)M

其中，P为输入的记忆矩阵M的特征图；

具体实施时，重建器由反卷积以及多个正常事件类间差异约束模块组成，它接收前景特征提取器最后一层transformer输出的特征图以及优化器预测的前景图作为输入。由于正常事件的多样性，网络提取到的正常特征存在类间差异。为防止这种不被约束的类间差异影响检测性能,设计正常事件类间差异约束模块应用于重建器中。

每个类间差异约束模块存在一个可学习的正常模式记忆矩阵M∈□^N×C,每个记忆矩阵M有N个记忆槽，每个槽代表一种正常事件模式,表示为m_i,其中i＝1,2…,N。约束模块旨在将正常类特征转化的更具突出性的N个正常特征模式，并在每次训练中维护更新这些模式。重建时，利用这N个模式而不是原来的潜在特征进行重构，防止一些不突出的正常特征影响重构效果。

矩阵M中每个槽的更新方式为相似记忆槽的加权和。M的更新表达式如下，其中P为输入的记忆矩阵M的特征图：

M＝softmax(MP^T)M

类间差异约束模块引入约束损失定义如下，其中D表示记忆矩阵M的个数，w_i,j表示第i个记忆矩阵中第j个记忆槽的匹配概率：

例如，重建器由多个类间差异约束模块以及上采样部分组成，其中R表示类间差异约束模块。重建器首先接收前景特征提取器第四个阶段获得的潜在表示并按位置顺序加入掩码符号后(加掩码符号后的特征图大小为16×16×512)经过8倍下采样后获得的特征图(大小为2×2×4096)。

具体来说，此特征图首先被重建器中的类间差异约束模块所接收。类间差异约束模块维持一个可学习的正常模式记忆矩阵M，M具有2000个记忆槽，每个记忆槽记录一个正常类特征模式。约束模块的作用即将所有的特征集成具有代表性的2000个正常类特征，以减缓不明显的正常类特征可能带来的影响。具体操作上矩阵M首先进行随机初始化，然后将特征图与矩阵M相乘并经过softmax后得到2000个匹配权重，再将权重作用于矩阵M形成新的强化后的特征图，大小为(2×2×4096)。此过程在训练阶段引入约束损失帮助类间差异模块逐步校正矩阵M记录的特征形式。此时，第一个类间差异约束模块工作完成。将得到的2×2×4096特征图采用反卷积进行两倍上采样后与优化器第三次补充的信息(大小为4×4×2048)在通道上进行连接，再降低通道数得到4×4×2048大小的特征图。至此完成第一次上采样。然后进入第二个类间差异约束模块，进行第二次两倍上采样并与优化器第二次补充的信息在通道上连接，降低通道数后得到8×8×1024大小的特征图。最后，进入第三个类间差异约束模块，进行第二次两倍上采样并与优化器第一次补充的信息在通道上连接，降低通道数后得到16×16×512大小的特征图。将特征图线性映射成与原始前景图相同的大小(32×32×2)，此为整个网络最终获得的重建图。最后计算重建图与原始前景图的重建误差，并根据重建损失进行反向传播，优化整体网络参数。

在上述实施例的基础上，所述步骤5具体包括：

步骤5.2，假设为y输入数据，

为重建结果，重建损失定义如下：

步骤5.3，结合多重掩码损失以及约束损失，定义总损失为：

L＝λ_RECONL_RECON+λ_MASKL_MASK+λ_CONL_CON

其中，λ_RECON，λ_MASK，λ_CON表示相应损失的平衡因子；

步骤5.4，根据总损失优化网络参数得到检测模型。

具体实施时，采用随机梯度下降算法，训练前景特征提取器、潜在表示优化器、重建器。将上述全部过程进行至少50轮训练，训练时采用半监督式训练方式，即只采用正常类数据进行训练，使网络学习正常类特征，此过程中，假设为y输入数据，

为重建结果，重建损失定义如下：

结合上述多重掩码损失以及约束损失，总损失定义为：

L＝λ_RECONL_RECON+λ_MASKL_MASK+λ_CONL_CON

其中，λ_RECON，λ_MASK，λ_CON表示相应损失的平衡因子。然后根据总损失优化网络参数得到检测模型如图3所示。

进一步的，所述步骤6具体包括：

具体实施时，将人群图像序列输入检测模型，根据正常类特征重构原始图像，输入的人群图像序列包含异常图像，网络很难根据学习到的正常类特征对异常图像进行很好的重建，重建结果与原始图像将具备较大的重建误差，然后将重建误差值映射到[0,1]的范围内即为异常分值。然后对异常分值进行阈值判别。阈值设定根据异常分值大小以及实际需求可进行自定义，初始设定为0.5异常分值超过0.5的图像被判定为异常，若实际需求要求筛选异常十分明显的图像，则可适当调高阈值；若实际需求要求不能有漏检情况发生则可适当调低阈值。由此筛选出异常图像后输出相关异常数据。当然，还可以进行异常语音播报提示，并在系统中的存储器上记录检测日志，方便后续对检测过程进行分析。

本实施例提供的基于掩码transformer的半监督人群场景异常检测方法，通过采用改进的transformer结构作为特征提取器，结合掩码机制，在引入多重掩码预测损失优化网络、降低计算成本的同时，在重建器中设计了类间的差异约束模块帮助网络增大异常重建误差，能有效提高系统异常检测效率，更能适应环境复杂、异常未知的人群场景。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。