CN115147921A

CN115147921A - 基于多域信息融合的重点区域目标异常行为检测与定位方法

Info

Publication number: CN115147921A
Application number: CN202210643944.5A
Authority: CN
Inventors: 陈亮; 李琦; 张婧; 剧立伟
Original assignee: Nanjing Institute Of Information Technology
Current assignee: Nanjing Institute Of Information Technology
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-10-04
Anticipated expiration: 2042-06-08
Also published as: CN115147921B

Abstract

本发明公开一种基于多域信息融合的重点区域目标异常行为检测与定位方法，对重点区域中行人图像在视频帧中进行像素级定位，输出的特征图上进行语义解析，通过级联聚类生成人体部位的伪标签，同时提取全局特征以完成对目标的行为理解；接着将目标位置信息、网络信息与场景信息融合，将融合信息分解为频域特征与时域特征，以及将频域特征与时域特征融合得到多维信息融合特征；接着利用多层感知器异常得分网络对每组多维融合信息打分并生成置信度，通过偏差损失函数对异常得分网络进行优化，检测出具有异常行为的目标及进行定位。本发明结合多域信息判断监视区域内的可疑人员，并结合异常得分网络对异常行为进行判别与确认。

Description

基于多域信息融合的重点区域目标异常行为检测与定位方法

技术领域

本发明涉及计算机视觉技术，特别是异常行为检测，具体涉及一种基于多域信息融合的重点区域目标异常行为检测与定位方法。

背景技术

异常行为检测，即通过各种设备采集特定区域内数据，根据分析数据自动检测区域内是否存在异常行为。其主要应用于具有高清摄像头的公共场所或建筑物周围环境，例如，利用精密摄像头对某重点建筑物周围环境中的人群聚集或者个体异常行为进行监测。最常见的异常检测方法就是基于视频图像实现，因为图像中包含着大量的信息，对于异常行为检测非常有效。如何从图像、文字中提取有用信息一直是一个重要且具有挑战性的任务，主要是因为图像或文字中有许多与我们任务不相关的信息。

近几年来，随着深度学习的兴起，越来越多研究者使用深度学习的方式来实现异常行为检测。基于深度学习的实现方式，主要通过对特定场所内目标的特定行为进行特征描述，然后通过建立深度学习的模型进行更高维特征的学习，通过采用合理的损失函数和分类函数使模型能成功的自动检测识别出目标的特定异常行为。

仅仅只靠异常行为检测这一项技术来判断目标的具体行为与危险程度还是不够的，于是我们考虑将多重信息融合以辅助对异常行为的检测。通过截取目标的通讯信号与网络数据，再将信息变换到其他域中，并从多域中分别提取有用信息并融合成为了一个有效的方法，但是一些融合方法对不同域间信息的融合时不能利用到其中的关联性。最近，半监督偏差网络模型在异常检测方面的应用取得了巨大的成功，对于给定一个训练数据对象，所提出的框架首先使用一个神经异常分数学习器来为其分配异常分数，然后基于先验概率定义正常数据对象的异常分数的平均值，将其作为参考分数来指导后续的异常分数学习。但是，正态数据的参考分数是通过先验概率获得的，不能很好的解释正常数据。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的行为辨识度不高等问题，提供一种基于多域信息融合的重点区域目标异常行为检测与定位方法，利用人类语义解析的方法对人体各个部位进行细粒度的特征提取，然后来对行为进行的判断，同时利用变分自编码器使用数据驱动的方法来学习每个正常数据的参考分数，使其可信度更高。

技术方案：本发明的一种基于多域信息融合的重点区域目标异常行为检测与定位方法，包括以下步骤：

步骤一、将重点区域的人像抓拍图像作为CNN骨干网络的输入图像，然后使用语义解析法来进行像素级定位人体部位和个人物品：在骨干网络输出的特征图

上使用级联聚类生成人体部位的伪标签，伪标签用于监督部位估计，最后根据自学习的部位估计得到全局特征以及人体部位、随身物品等的局部特征，并记录目标位置信息；c为骨干网络通道数，h和w分别为特征图的高度和宽度；

步骤二、根据步骤一所得目标位置信息对周围区域的位置信息、场景信息和网络信息分别进行特征提取得到对应特征v_loc,v_scene,v_net；将所得三种特征进行融合获得得到新的包含所有信息的融合特征u；

步骤三、将融合特征u输入到频域和时域子网络，分别获得频域特征和时域特征，然后利用注意力机制融合频域和时域的特征，得到新的多维融合特征f；

步骤四、将目标的多维融合特征f与步骤一所得全局特征、局部特征进行拼接，得到联合特征。利用多层感知器异常得分网络为重点区域的每个目标生成一个异常分数，即利用多层感知器网络作为隐藏层网络，使得每组融合特征均可通过隐藏层输出单个神经元来获得对应的异常分数；

步骤五、利用变分自编码网络对步骤四所述的联合特征进行学习生成参考分数，即在编码器中构建两个神经网络来计算输入的均值和正态分布的方差作为每个数据的参考分数，然后利用数据的概率分布使得解码器生成接近正态分布的参考分数，并通过偏差损失函数对网络参数进行优化更新，生成每个目标的异常分数，最终获得具有异常行为的目标及其位置信息。

进一步地，所述步骤一在特征图上设计级联聚类来生成人体部位的伪标签的具体方法为：

先使用G_g(x,y)表示特征图

在空间位置(x,y)处的特征，且

再将G_g(x,y)进行全局平均池化得到全局特征；

对于K-1个人体部位(包括随身物品)和一个背景，需要估计K个不同语义部分的置信度图，用D₀,D₁,D₂,...,D_K-1来表示，使用D_k(x,y)表示属于语义部分k的空间位置(x,y)的置信度，k∈{0,...,K-1}，然后通过使用下式来提取语义部分k的局部特征图：

表示按元素相乘；

对于人体部分预测，使用线性层和softmax激活函数作为分类器，其公式如下：

其中，exp(·)表示e^(·)，W表示线性层的参数；

通过利用交叉熵损失函数Loss来优化分类器，

其中，L是空间位置(x,y)的人体部位生成的伪标签；最后，利用伪标签L来监督人体部位估计。

进一步地，所述步骤二获得包含所有信息的融合特征u的方法为：

使v_loc,v_scene,v_net分别表示提取的位置信息、场景信息和网络信息的对应特征，然后使用双模注意力机制进行特征融合的计算公式如下：

p＝softmax(W_Ph_A+b_P)，

其中，h_A表示注意力分数(代表网络信息与场景信息之间的关联性，之后经过softmax得到注意力权重，即和为1的概率分布)，W_s,W_l,W_n,W_P为可学习的权重，b_A,b_P为偏置向量，v_i为向量v_scene的一个元素，p_i为注意力分数向量p的一个元素，u表示新的包含所有信息的融合特征。

进一步地，所述步骤三的详细过程为：

先将融合特征u分别输入频域子网络和时域子网络；在频域子网络中，先将融合特征u变换到频域，再经过一系列卷积层和池化层，最后通过全连接层，得到频域特征l₀，并将特征l₀作为融合网络的一个输入；在时域子网络中，将融合特征u直接经过一系列卷积层和池化层，并将各池化层输出的时域特征l₁,l₂,...,l_n作为融合网络的另外n个输入；

然后使用注意力机制将特征l₀,l₁,l₂,...,l_n进行融合得到多域头融合特征f：

atten(l_i)＝v^Ttanh(W_fl_i+b_f)，

其中,下标i∈[0,4]，atten为注意力评分函数，v^T为权重向量，W_f为权重矩阵，b_f为偏置单元，κ_i为注意力权重,exp(·)表示e^(·)。

进一步地，所述步骤四获取目标异常分数的方法为：

设定多层感知器异常分数学习器表示为：AS(x；ω)＝S(I(x；ω_t)；ω_s)；

其中，x表示多维融合特征f与全局和局部联合特征的拼接特征，

为多层感知器异常分数网络(异常分数学习器)，ω＝{ω_t,ω_s}表示网络的权重参数；I(x；ω_t)∈Q为中间表示层(多层感知网络)，且中间表示层是一种具有h个隐藏层的特征学习网络(也就是h代表中间隐藏层即多层感知器网络层数)，其权重ω_t＝{w₁,w₂,...,w_h}(是指每个隐藏层与其前一层的权重参数)；

为异常计分器，ω_s为异常计分器的权重参数，异常计分器使用单个神经单元通过中间表示层输出的特征表示获得异常分数，具体表示为：

其中，α∈Q,ω_s∈{θ^s},

是偏差参数。

进一步地，所述步骤四根据变分自编码器生成的正常数据的参考得分，优化异常分数的偏差损失函数为：

其中，μ_R,σ_R是变分自编码器生成的参考分数的均值和标准差；

然后，将偏差损失函数作为损失函数来对网络参数进行优化：

L(AS(x；ω),μ_R,σ_R)＝(1-y)·|D(x)|+y·max(0,β-D(x))，

其中，y表示变分自编码器的输出，若y＝1，则表示异常数据，此时损失函数的前一项为0，使得异常得分网络产生的异常得分偏离参考分数R；若y＝0，则表示正常数据，此时损失函数的后一项将为0，前一项为D(x)，优化异常分数，使正常数据更接近参考得分R；β是一个阈值例如可以取值为5。

有益效果：与现有技术相比，本发明具有以下优点：

(1)本发明利用相对较小的模型实现目标异常检测，加快检测速度，实现在线异常目标检测与粗略定位。

(2)本发明由于结合多域信息特征，对目标进行行为检测，通过异常得分网络对异常行为进行判别与确认，显著提高了鲁棒性和准确性。

(3)本发明将视频中的各个目标与其位置信息、重点区域场景信息、网络信息(即目标使用手机电脑等联网设备进行联网活动如聊天、视频等信息)进行结合，提高异常目标检测准确性。

(4)本发明的网络整体框架由各个独立模块构成，用相对较小的模型实现目标异常检测，加快检测速度，实现在线异常目标检测与粗略定位。

附图说明

图1为本发明多域信息融合的行为异常检测与定位总流程图，

图2为本发明的特征提取模块示意图，

图3为本发明的异常检测得分模块图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

如图1所示，本发明公开一种基于多域信息融合的重点区域目标异常行为检测与定位方法，首先，对监视的重点区域中行人图像在视频帧中进行像素级定位，输出的特征图上进行语义解析，通过级联聚类生成人体部位的伪标签，同时提取全局特征以完成对目标的行为理解；接着，通过截取可疑人员的手机通话记录与网络数据，将目标的位置信息、网络信息与场景信息三种信息进行融合，将融合后的信息通过两个子网络分解为频域特征与时域特征，再通过融合网络聚合特征提取模块输出的频域特征与时域特征，得到最终的融合特征；接着将异常行为检测模块与特征提取模块的输出送入异常得分检测模块，利用多层感知器异常得分网络对每组多维融合信息打分并生成置信度，并且通过偏差损失函数对异常得分网络进行优化。最后，检测出具有异常行为的目标，并进行粗略定位，同时结合粗略位置点附近摄像头对目标进行精确定位。

本发明用于实时分析监控视频数据，结合多域信息判断监视区域内的可疑人员，并结合异常得分网络对异常行为进行判别与确认，若该目标行为异常，则返回目标的位置信息，从而达到及时预警，保护重点区域人员人身安全与信息安全的目的。

本发明利用多域信息针对特定区域内的异常目标进行检测并返回异常的目标及其粗略的定位，使得使用者可以调用粗略定位附近的摄像头去追踪异常的目标和进行精确定位。

本实施例具体包括以下步骤：

步骤一

如图1所示，将某一特定区域内的行人人像抓拍图像作为CNN骨干网络的输入图像，然后使用语义解析的方法，在像素级定位人体部位和个人物品。也就是在骨干网络输出的特征图上使用级联聚类算法来生成人体部位的伪标签，用来监督部位估计，最终根据自学习的部位估计得到人体部位和随身物品的局部特征以及全局特征，并记录目标位置信息。

具体来说，首先记录目标位置信息，便于后期联合多维信息(如上网数据、电话数据等)来对目标进行异常行为判断，若判断出目标存在异常行为再对目标进行定位。其中，用T_i来表示第i帧的时间，用Loc_i,j来表示第i帧第j个目标的位置，Loc_i,j＝(a_i,j,b_i,j,h_i,j,w_i,j)，其中(a_i,j,b_i,j)表示目标的边界框的左上角坐标，w_i,j和h_i,j分别表示边界框的宽和高。

其次，对目标进行特征提取，其过程为：将目标图像输入到骨干网络，得到特征图，记为

其中c为通道数，h和w分别为特征图的高度和宽度。为了清楚地说明，使用G_g(x,y)来表示特征图空间位置(x,y)处的特征，这是一个c维的向量，再通过全局平均池化，得到全局特征。

然后，基于分类网络对前景像素的反应比对背景像素的反应更强烈这一合理假设，将特征图上的激活情况归为前景和后景，前景部分是网络自动搜索的。

最后给行人部分分配前景像素，使用级联聚类来对人体部位生成伪标签，并用这些伪标签来监督部位估计。使用对应部分的像素来表示人体部分，这是由一组置信图加权的像素级表示的集合，每个置信度图都被用来代替人体的一部分。具体的级联聚类方法如下：

假设有K-1个人体部位(包括随身物品)和一个背景，则需要估计K个不同语义部分的置信度图，并用D₀,D₁,D₂,...,D_K-1来表示，本实施例使用D_k(x,y)来表示属于语义部分k的空间位置(x,y)的置信度，通过使用下面公式来提取语义部分k的局部特征图：

其中，

表示按元素相乘。

对于人体部分预测，使用线性层和softmax激活作为分类器，其公式如下：

其中，k∈{0,...,K-1}，exp(·)表示e^(·)，W表示线性层的参数。

通过利用交叉熵损失来优化分类器，损失函数如下：

其中，L是像素(x,y)的人体部位生成的伪标签。

步骤二

首先，分别获取位置信息、网络信息和场景信息的特征表示v_loc,v_scene,v_net。通过CNN以及LSTM分别提取位置信息、网络信息、场景信息，其中位置信息是指重点区域的人像抓拍图片中各个目标相对于监控视频中的不同位置坐标，网络信息是该目标出现在重点区域内时的上网数据以及电话数据(包括通话、短信、GPS等)，场景信息是指在视频帧中该目标周围的环境，包括人群、基础设施(例如，邮箱、桌椅、交通工具等)。

然后，使用双模注意力机制进行特征的融合，将v_loc,v_scene,v_net作为双模注意力机制的输入，根据三种信息的相关性输出融合特征u，其计算公式如下：

p＝softmax(W_Ph_A+b_P)，

这里h_A表示注意力分数，W_s,W_l,W_n,W_P为可学习的权重，b_A,b_P为偏置向量，v_i为向量v_scene的一个元素，p_i为向量p的一个元素。

步骤三

将步骤二得到的融合特征u分别输入频域子网络和时域子网络。如图2所示，在频域子网络中，先通过快速傅里叶变换将特征u变换到频域，再经过一系列卷积层和池化层，最后通过两个全连接层，得到频域特征l₀，并将特征l₀作为融合网络的一个输入；在时域子网络中，将特征u直接经过n组卷积、池化层，并将各池化层输出的时域特征l₁,l₂,…,l_n作为融合网络的另外n个输入。

然后，使用注意力机制融合时域和频域的特征，并按如下方式计算得到多维融合特征f：

atten(l_i)＝v^Ttanh(W_fl_i+b_f)，

其中，下标i∈[0,4]，atten为注意力评分函数，v^T为权重向量，W_f为权重矩阵，b_f为偏置单元，κ_i为注意力权重,exp(·)表示e^(·)。

步骤四

将目标的多维融合特征f与步骤一得到的全局、局部的特征进行拼接，得到联合特征。利用图3中的多层感知器异常得分网络为重点区域的每个目标生成一个异常分数。其过程为：使x表示多层感知器异常得分网络的输入即多维融合特征f与全局、局部联合特征的拼接特征，异常分数学习器表示为

其中ω＝{ω_t,ω_s}表示网络的权重参数。中间表示层即多层感知器网络表示为I(x；ω_t)∈Q，该层是具有h个隐藏层的特征学习网络，其中权重ω_t＝{w₁,w₂,...,w_h}。异常计分器表示为

ω_s为异常计分器的权重参数，其通过隐藏层输出单个神经元来获得对应的异常分数，具体表示为：

其中，α∈Q,ω_s＝{θ^s},

是偏差参数。

最终整体的多层感知器异常分数学习器表示为：AS(x；ω)＝S(I(x；ω)；ω_s)，进而得到每个目标的异常分数。

步骤五

利用图3中的变分自编码网络对拼接特征x进行学习生成参考分数。首先，在编码器网络中构建两个神经网络来计算输入的均值和正态分布的方差作为每个数据的参考分数，其次利用数据的概率分布使得解码器生成接近正态分布的参考分数，然后通过偏差损失函数对网络参数进行优化更新，则优化异常分数的偏差函数定义为：

其中，μ_R,σ_R是变分自编码器生成的参考分数的均值和标准差。接着，将偏差函数作为损失函数来对网络参数进行优化：

L(AS(x；ω),μ_R,σ_R)＝(1-y)·|D(x)|+y·max(0,β-D(x))，

其中，y表示变分自编码器的输出，当y＝0时，表示正常数据，此时损失函数的后一项将为0，前一项为D(x)，优化异常分数，使正常数据更接近参考得分R。当y＝1时，则表示异常数据，此时损失函数的前一项为0，使得异常得分网络产生的异常得分偏离R，此时，损失函数max(0,β-D(x))为了促使异常分数与参考得分有显著偏差，从而使异常数据最大程度地偏离参考数据。本实施例中可以设置阈值β＝5，这让二者产生了显著偏差。由此，得到每个目标的异常分数，根据异常分数判断目标行为是否异常，最终可以得到具有异常行为的目标，并根据该目标的位置信息进行粗略定位，再利用粗略位置点附近摄像头对异常行为目标位置进行精确定位。

Claims

1.一种基于多域信息融合的重点区域目标异常行为检测与定位方法，其特征在于：包括以下步骤：

上使用级联聚类生成人体部位的伪标签，伪标签用于监督部位估计，最后根据自学习的部位估计得到全局特征以及人体部位、随身物品的局部特征，并记录目标位置信息；c为骨干网络通道数，h和w分别为特征图的高度和宽度；

步骤三、将融合特征u输入到频域子网络和时域子网络，分别获得频域特征和时域特征，然后利用注意力机制融合频域和时域的特征，得到新的多维融合特征f；

步骤四、将目标的多维融合特征f与步骤一所得全局特征、局部特征进行拼接，得到联合特征；利用多层感知器异常得分网络为重点区域的每个目标生成一个异常分数，即利用多层感知器网络作为隐藏层网络，使得每组融合特征均可通过隐藏层输出单个神经元来获得对应的异常分数；

2.根据权利要求1所述的基于多域信息融合的重点区域目标异常行为检测与定位方法，其特征在于：所述步骤一中在特征图上设计级联聚类来生成人体部位的伪标签的具体方法为：

先使用G_g(x,y)表示特征图

在空间位置(x,y)处的特征，且

再将G_g(x,y)进行全局平均池化得到全局特征；

对于K-1个人体部位包括随身物品和一个背景，需要估计K个不同语义部分的置信度图，用D₀,D₁,D₂,...,D_K-1来表示，使用D_k(x,y)表示属于语义部分k的空间位置(x,y)的置信度，k∈{0,...,K-1}，然后通过使用下式来提取语义部分k的局部特征图：

表示按元素相乘；

其中，exp(·)表示e^(·)，W表示线性层的参数；

通过利用交叉熵损失函数Loss来优化分类器，

3.根据权利要求1所述的基于多域信息融合的重点区域目标异常行为检测与定位方法，其特征在于：所述步骤二获得包含所有信息的融合特征u的方法为：

使v_loc,v_scene,v_net分别表示提取的位置信息、场景信息、网络信息的对应特征，然后使用双模注意力机制进行特征融合的计算公式如下：

p＝softmax(W_Ph_A+b_P),

其中，h_A表示注意力分数，W_s,W_l,W_n,W_P为可学习的权重，b_A,b_P为偏置向量，v_i为向量v_scene的一个元素，p_i为向量p的一个元素，u表示新的包含所有信息的融合特征。

4.根据权利要求1所述的基于多域信息融合的重点区域目标异常行为检测与定位方法，其特征在于：所述步骤三的详细过程为：

atten(l_i)＝v^Ttanh(W_fl_i+b_f)，

其中，下标i∈[0,4]，atten为注意力评分函数，v^T为权重向量，W_f为权重矩阵，b_f为偏置单元，κ_i为注意力权重，exp(·)表示e^(·)。

5.根据权利要求1所述的基于多域信息融合的重点区域目标异常行为检测与定位方法，其特征在于：所述步骤四获取目标异常分数的方法为：

设定多层感知器异常分数学习器为：AS(x；ω)＝S(I(x；ω_t)；ω_s)；

为多层感知器异常分数网络，ω＝{ω_t,ω_s}表示网络的权重参数；I(x；ω_t)∈Q为中间表示层，且中间表示层具有h个隐藏层，其权重ω_t＝{w₁,w₂,...,w_h}；

其中，α∈Q,ω_s＝{θ^s},

是偏差参数。

6.根据权利要求1所述的基于多域信息融合的重点区域目标异常行为检测与定位方法，其特征在于：所述步骤四根据变分自编码器生成的正常数据的参考得分，优化异常分数的偏差损失函数为：

L(AS(x；ω),μ_R,σ_R)＝(1-y)·|D(x)|+y·max(0,β-D(x))，

其中，y表示变分自编码器的输出，若y＝1，则表示异常数据，此时损失函数的前一项为0，使得异常得分网络产生的异常得分偏离参考分数R；若y＝0，则表示正常数据，此时损失函数的后一项将为0，前一项为D(x)，优化异常分数，使正常数据更接近参考分数R；β是一个阈值。