CN115147921A - 基于多域信息融合的重点区域目标异常行为检测与定位方法 - Google Patents

基于多域信息融合的重点区域目标异常行为检测与定位方法 Download PDF

Info

Publication number
CN115147921A
CN115147921A CN202210643944.5A CN202210643944A CN115147921A CN 115147921 A CN115147921 A CN 115147921A CN 202210643944 A CN202210643944 A CN 202210643944A CN 115147921 A CN115147921 A CN 115147921A
Authority
CN
China
Prior art keywords
network
feature
information
target
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210643944.5A
Other languages
English (en)
Other versions
CN115147921B (zh
Inventor
陈亮
李琦
张婧
剧立伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute Of Information Technology
Original Assignee
Nanjing Institute Of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute Of Information Technology filed Critical Nanjing Institute Of Information Technology
Priority to CN202210643944.5A priority Critical patent/CN115147921B/zh
Publication of CN115147921A publication Critical patent/CN115147921A/zh
Application granted granted Critical
Publication of CN115147921B publication Critical patent/CN115147921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Social Psychology (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于多域信息融合的重点区域目标异常行为检测与定位方法,对重点区域中行人图像在视频帧中进行像素级定位,输出的特征图上进行语义解析,通过级联聚类生成人体部位的伪标签,同时提取全局特征以完成对目标的行为理解;接着将目标位置信息、网络信息与场景信息融合,将融合信息分解为频域特征与时域特征,以及将频域特征与时域特征融合得到多维信息融合特征;接着利用多层感知器异常得分网络对每组多维融合信息打分并生成置信度,通过偏差损失函数对异常得分网络进行优化,检测出具有异常行为的目标及进行定位。本发明结合多域信息判断监视区域内的可疑人员,并结合异常得分网络对异常行为进行判别与确认。

Description

基于多域信息融合的重点区域目标异常行为检测与定位方法
技术领域
本发明涉及计算机视觉技术,特别是异常行为检测,具体涉及一种基于多域信息融合的重点区域目标异常行为检测与定位方法。
背景技术
异常行为检测,即通过各种设备采集特定区域内数据,根据分析数据自动检测区域内是否存在异常行为。其主要应用于具有高清摄像头的公共场所或建筑物周围环境,例如,利用精密摄像头对某重点建筑物周围环境中的人群聚集或者个体异常行为进行监测。最常见的异常检测方法就是基于视频图像实现,因为图像中包含着大量的信息,对于异常行为检测非常有效。如何从图像、文字中提取有用信息一直是一个重要且具有挑战性的任务,主要是因为图像或文字中有许多与我们任务不相关的信息。
近几年来,随着深度学习的兴起,越来越多研究者使用深度学习的方式来实现异常行为检测。基于深度学习的实现方式,主要通过对特定场所内目标的特定行为进行特征描述,然后通过建立深度学习的模型进行更高维特征的学习,通过采用合理的损失函数和分类函数使模型能成功的自动检测识别出目标的特定异常行为。
仅仅只靠异常行为检测这一项技术来判断目标的具体行为与危险程度还是不够的,于是我们考虑将多重信息融合以辅助对异常行为的检测。通过截取目标的通讯信号与网络数据,再将信息变换到其他域中,并从多域中分别提取有用信息并融合成为了一个有效的方法,但是一些融合方法对不同域间信息的融合时不能利用到其中的关联性。最近,半监督偏差网络模型在异常检测方面的应用取得了巨大的成功,对于给定一个训练数据对象,所提出的框架首先使用一个神经异常分数学习器来为其分配异常分数,然后基于先验概率定义正常数据对象的异常分数的平均值,将其作为参考分数来指导后续的异常分数学习。但是,正态数据的参考分数是通过先验概率获得的,不能很好的解释正常数据。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的行为辨识度不高等问题,提供一种基于多域信息融合的重点区域目标异常行为检测与定位方法,利用人类语义解析的方法对人体各个部位进行细粒度的特征提取,然后来对行为进行的判断,同时利用变分自编码器使用数据驱动的方法来学习每个正常数据的参考分数,使其可信度更高。
技术方案:本发明的一种基于多域信息融合的重点区域目标异常行为检测与定位方法,包括以下步骤:
步骤一、将重点区域的人像抓拍图像作为CNN骨干网络的输入图像,然后使用语义解析法来进行像素级定位人体部位和个人物品:在骨干网络输出的特征图
Figure BDA0003683321890000021
上使用级联聚类生成人体部位的伪标签,伪标签用于监督部位估计,最后根据自学习的部位估计得到全局特征以及人体部位、随身物品等的局部特征,并记录目标位置信息;c为骨干网络通道数,h和w分别为特征图的高度和宽度;
步骤二、根据步骤一所得目标位置信息对周围区域的位置信息、场景信息和网络信息分别进行特征提取得到对应特征vloc,vscene,vnet;将所得三种特征进行融合获得得到新的包含所有信息的融合特征u;
步骤三、将融合特征u输入到频域和时域子网络,分别获得频域特征和时域特征,然后利用注意力机制融合频域和时域的特征,得到新的多维融合特征f;
步骤四、将目标的多维融合特征f与步骤一所得全局特征、局部特征进行拼接,得到联合特征。利用多层感知器异常得分网络为重点区域的每个目标生成一个异常分数,即利用多层感知器网络作为隐藏层网络,使得每组融合特征均可通过隐藏层输出单个神经元来获得对应的异常分数;
步骤五、利用变分自编码网络对步骤四所述的联合特征进行学习生成参考分数,即在编码器中构建两个神经网络来计算输入的均值和正态分布的方差作为每个数据的参考分数,然后利用数据的概率分布使得解码器生成接近正态分布的参考分数,并通过偏差损失函数对网络参数进行优化更新,生成每个目标的异常分数,最终获得具有异常行为的目标及其位置信息。
进一步地,所述步骤一在特征图上设计级联聚类来生成人体部位的伪标签的具体方法为:
先使用Gg(x,y)表示特征图
Figure BDA0003683321890000022
在空间位置(x,y)处的特征,且
Figure BDA0003683321890000023
再将Gg(x,y)进行全局平均池化得到全局特征;
对于K-1个人体部位(包括随身物品)和一个背景,需要估计K个不同语义部分的置信度图,用D0,D1,D2,...,DK-1来表示,使用Dk(x,y)表示属于语义部分k的空间位置(x,y)的置信度,k∈{0,...,K-1},然后通过使用下式来提取语义部分k的局部特征图:
Figure BDA0003683321890000035
Figure BDA0003683321890000036
表示按元素相乘;
对于人体部分预测,使用线性层和softmax激活函数作为分类器,其公式如下:
Figure BDA0003683321890000031
其中,exp(·)表示e(·),W表示线性层的参数;
通过利用交叉熵损失函数Loss来优化分类器,
Figure BDA0003683321890000032
其中,L是空间位置(x,y)的人体部位生成的伪标签;最后,利用伪标签L来监督人体部位估计。
进一步地,所述步骤二获得包含所有信息的融合特征u的方法为:
使vloc,vscene,vnet分别表示提取的位置信息、场景信息和网络信息的对应特征,然后使用双模注意力机制进行特征融合的计算公式如下:
Figure BDA0003683321890000033
p=softmax(WPhA+bP),
Figure BDA0003683321890000034
Figure BDA0003683321890000037
其中,hA表示注意力分数(代表网络信息与场景信息之间的关联性,之后经过softmax得到注意力权重,即和为1的概率分布),Ws,Wl,Wn,WP为可学习的权重,bA,bP为偏置向量,vi为向量vscene的一个元素,pi为注意力分数向量p的一个元素,u表示新的包含所有信息的融合特征。
进一步地,所述步骤三的详细过程为:
先将融合特征u分别输入频域子网络和时域子网络;在频域子网络中,先将融合特征u变换到频域,再经过一系列卷积层和池化层,最后通过全连接层,得到频域特征l0,并将特征l0作为融合网络的一个输入;在时域子网络中,将融合特征u直接经过一系列卷积层和池化层,并将各池化层输出的时域特征l1,l2,...,ln作为融合网络的另外n个输入;
然后使用注意力机制将特征l0,l1,l2,...,ln进行融合得到多域头融合特征f:
atten(li)=vTtanh(Wfli+bf),
Figure BDA0003683321890000041
Figure BDA0003683321890000042
其中,下标i∈[0,4],atten为注意力评分函数,vT为权重向量,Wf为权重矩阵,bf为偏置单元,κi为注意力权重,exp(·)表示e(·)
进一步地,所述步骤四获取目标异常分数的方法为:
设定多层感知器异常分数学习器表示为:AS(x;ω)=S(I(x;ωt);ωs);
其中,x表示多维融合特征f与全局和局部联合特征的拼接特征,
Figure BDA0003683321890000043
为多层感知器异常分数网络(异常分数学习器),ω={ωts}表示网络的权重参数;I(x;ωt)∈Q为中间表示层(多层感知网络),且中间表示层是一种具有h个隐藏层的特征学习网络(也就是h代表中间隐藏层即多层感知器网络层数),其权重ωt={w1,w2,...,wh}(是指每个隐藏层与其前一层的权重参数);
Figure BDA0003683321890000044
为异常计分器,ωs为异常计分器的权重参数,异常计分器使用单个神经单元通过中间表示层输出的特征表示获得异常分数,具体表示为:
Figure BDA0003683321890000045
其中,α∈Q,ωs∈{θs},
Figure BDA0003683321890000046
是偏差参数。
进一步地,所述步骤四根据变分自编码器生成的正常数据的参考得分,优化异常分数的偏差损失函数为:
Figure BDA0003683321890000047
其中,μRR是变分自编码器生成的参考分数的均值和标准差;
然后,将偏差损失函数作为损失函数来对网络参数进行优化:
L(AS(x;ω),μRR)=(1-y)·|D(x)|+y·max(0,β-D(x)),
其中,y表示变分自编码器的输出,若y=1,则表示异常数据,此时损失函数的前一项为0,使得异常得分网络产生的异常得分偏离参考分数R;若y=0,则表示正常数据,此时损失函数的后一项将为0,前一项为D(x),优化异常分数,使正常数据更接近参考得分R;β是一个阈值例如可以取值为5。
有益效果:与现有技术相比,本发明具有以下优点:
(1)本发明利用相对较小的模型实现目标异常检测,加快检测速度,实现在线异常目标检测与粗略定位。
(2)本发明由于结合多域信息特征,对目标进行行为检测,通过异常得分网络对异常行为进行判别与确认,显著提高了鲁棒性和准确性。
(3)本发明将视频中的各个目标与其位置信息、重点区域场景信息、网络信息(即目标使用手机电脑等联网设备进行联网活动如聊天、视频等信息)进行结合,提高异常目标检测准确性。
(4)本发明的网络整体框架由各个独立模块构成,用相对较小的模型实现目标异常检测,加快检测速度,实现在线异常目标检测与粗略定位。
附图说明
图1为本发明多域信息融合的行为异常检测与定位总流程图,
图2为本发明的特征提取模块示意图,
图3为本发明的异常检测得分模块图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
如图1所示,本发明公开一种基于多域信息融合的重点区域目标异常行为检测与定位方法,首先,对监视的重点区域中行人图像在视频帧中进行像素级定位,输出的特征图上进行语义解析,通过级联聚类生成人体部位的伪标签,同时提取全局特征以完成对目标的行为理解;接着,通过截取可疑人员的手机通话记录与网络数据,将目标的位置信息、网络信息与场景信息三种信息进行融合,将融合后的信息通过两个子网络分解为频域特征与时域特征,再通过融合网络聚合特征提取模块输出的频域特征与时域特征,得到最终的融合特征;接着将异常行为检测模块与特征提取模块的输出送入异常得分检测模块,利用多层感知器异常得分网络对每组多维融合信息打分并生成置信度,并且通过偏差损失函数对异常得分网络进行优化。最后,检测出具有异常行为的目标,并进行粗略定位,同时结合粗略位置点附近摄像头对目标进行精确定位。
本发明用于实时分析监控视频数据,结合多域信息判断监视区域内的可疑人员,并结合异常得分网络对异常行为进行判别与确认,若该目标行为异常,则返回目标的位置信息,从而达到及时预警,保护重点区域人员人身安全与信息安全的目的。
本发明利用多域信息针对特定区域内的异常目标进行检测并返回异常的目标及其粗略的定位,使得使用者可以调用粗略定位附近的摄像头去追踪异常的目标和进行精确定位。
本实施例具体包括以下步骤:
步骤一
如图1所示,将某一特定区域内的行人人像抓拍图像作为CNN骨干网络的输入图像,然后使用语义解析的方法,在像素级定位人体部位和个人物品。也就是在骨干网络输出的特征图上使用级联聚类算法来生成人体部位的伪标签,用来监督部位估计,最终根据自学习的部位估计得到人体部位和随身物品的局部特征以及全局特征,并记录目标位置信息。
具体来说,首先记录目标位置信息,便于后期联合多维信息(如上网数据、电话数据等)来对目标进行异常行为判断,若判断出目标存在异常行为再对目标进行定位。其中,用Ti来表示第i帧的时间,用Loci,j来表示第i帧第j个目标的位置,Loci,j=(ai,j,bi,j,hi,j,wi,j),其中(ai,j,bi,j)表示目标的边界框的左上角坐标,wi,j和hi,j分别表示边界框的宽和高。
其次,对目标进行特征提取,其过程为:将目标图像输入到骨干网络,得到特征图,记为
Figure BDA0003683321890000061
其中c为通道数,h和w分别为特征图的高度和宽度。为了清楚地说明,使用Gg(x,y)来表示特征图空间位置(x,y)处的特征,这是一个c维的向量,再通过全局平均池化,得到全局特征。
然后,基于分类网络对前景像素的反应比对背景像素的反应更强烈这一合理假设,将特征图上的激活情况归为前景和后景,前景部分是网络自动搜索的。
最后给行人部分分配前景像素,使用级联聚类来对人体部位生成伪标签,并用这些伪标签来监督部位估计。使用对应部分的像素来表示人体部分,这是由一组置信图加权的像素级表示的集合,每个置信度图都被用来代替人体的一部分。具体的级联聚类方法如下:
假设有K-1个人体部位(包括随身物品)和一个背景,则需要估计K个不同语义部分的置信度图,并用D0,D1,D2,...,DK-1来表示,本实施例使用Dk(x,y)来表示属于语义部分k的空间位置(x,y)的置信度,通过使用下面公式来提取语义部分k的局部特征图:
Figure BDA0003683321890000071
其中,
Figure BDA0003683321890000072
表示按元素相乘。
对于人体部分预测,使用线性层和softmax激活作为分类器,其公式如下:
Figure BDA0003683321890000073
其中,k∈{0,...,K-1},exp(·)表示e(·),W表示线性层的参数。
通过利用交叉熵损失来优化分类器,损失函数如下:
Figure BDA0003683321890000074
其中,L是像素(x,y)的人体部位生成的伪标签。
步骤二
首先,分别获取位置信息、网络信息和场景信息的特征表示vloc,vscene,vnet。通过CNN以及LSTM分别提取位置信息、网络信息、场景信息,其中位置信息是指重点区域的人像抓拍图片中各个目标相对于监控视频中的不同位置坐标,网络信息是该目标出现在重点区域内时的上网数据以及电话数据(包括通话、短信、GPS等),场景信息是指在视频帧中该目标周围的环境,包括人群、基础设施(例如,邮箱、桌椅、交通工具等)。
然后,使用双模注意力机制进行特征的融合,将vloc,vscene,vnet作为双模注意力机制的输入,根据三种信息的相关性输出融合特征u,其计算公式如下:
Figure BDA0003683321890000075
p=softmax(WPhA+bP),
Figure BDA0003683321890000081
Figure BDA0003683321890000085
这里hA表示注意力分数,Ws,Wl,Wn,WP为可学习的权重,bA,bP为偏置向量,vi为向量vscene的一个元素,pi为向量p的一个元素。
步骤三
将步骤二得到的融合特征u分别输入频域子网络和时域子网络。如图2所示,在频域子网络中,先通过快速傅里叶变换将特征u变换到频域,再经过一系列卷积层和池化层,最后通过两个全连接层,得到频域特征l0,并将特征l0作为融合网络的一个输入;在时域子网络中,将特征u直接经过n组卷积、池化层,并将各池化层输出的时域特征l1,l2,…,ln作为融合网络的另外n个输入。
然后,使用注意力机制融合时域和频域的特征,并按如下方式计算得到多维融合特征f:
atten(li)=vTtanh(Wfli+bf),
Figure BDA0003683321890000082
Figure BDA0003683321890000083
其中,下标i∈[0,4],atten为注意力评分函数,vT为权重向量,Wf为权重矩阵,bf为偏置单元,κi为注意力权重,exp(·)表示e(·)
步骤四
将目标的多维融合特征f与步骤一得到的全局、局部的特征进行拼接,得到联合特征。利用图3中的多层感知器异常得分网络为重点区域的每个目标生成一个异常分数。其过程为:使x表示多层感知器异常得分网络的输入即多维融合特征f与全局、局部联合特征的拼接特征,异常分数学习器表示为
Figure BDA0003683321890000084
其中ω={ωts}表示网络的权重参数。中间表示层即多层感知器网络表示为I(x;ωt)∈Q,该层是具有h个隐藏层的特征学习网络,其中权重ωt={w1,w2,...,wh}。异常计分器表示为
Figure BDA0003683321890000091
ωs为异常计分器的权重参数,其通过隐藏层输出单个神经元来获得对应的异常分数,具体表示为:
Figure BDA0003683321890000092
其中,α∈Q,ωs={θs},
Figure BDA0003683321890000093
是偏差参数。
最终整体的多层感知器异常分数学习器表示为:AS(x;ω)=S(I(x;ω);ωs),进而得到每个目标的异常分数。
步骤五
利用图3中的变分自编码网络对拼接特征x进行学习生成参考分数。首先,在编码器网络中构建两个神经网络来计算输入的均值和正态分布的方差作为每个数据的参考分数,其次利用数据的概率分布使得解码器生成接近正态分布的参考分数,然后通过偏差损失函数对网络参数进行优化更新,则优化异常分数的偏差函数定义为:
Figure BDA0003683321890000094
其中,μRR是变分自编码器生成的参考分数的均值和标准差。接着,将偏差函数作为损失函数来对网络参数进行优化:
L(AS(x;ω),μRR)=(1-y)·|D(x)|+y·max(0,β-D(x)),
其中,y表示变分自编码器的输出,当y=0时,表示正常数据,此时损失函数的后一项将为0,前一项为D(x),优化异常分数,使正常数据更接近参考得分R。当y=1时,则表示异常数据,此时损失函数的前一项为0,使得异常得分网络产生的异常得分偏离R,此时,损失函数max(0,β-D(x))为了促使异常分数与参考得分有显著偏差,从而使异常数据最大程度地偏离参考数据。本实施例中可以设置阈值β=5,这让二者产生了显著偏差。由此,得到每个目标的异常分数,根据异常分数判断目标行为是否异常,最终可以得到具有异常行为的目标,并根据该目标的位置信息进行粗略定位,再利用粗略位置点附近摄像头对异常行为目标位置进行精确定位。

Claims (6)

1.一种基于多域信息融合的重点区域目标异常行为检测与定位方法,其特征在于:包括以下步骤:
步骤一、将重点区域的人像抓拍图像作为CNN骨干网络的输入图像,然后使用语义解析法来进行像素级定位人体部位和个人物品:在骨干网络输出的特征图
Figure RE-FDA0003769927350000011
上使用级联聚类生成人体部位的伪标签,伪标签用于监督部位估计,最后根据自学习的部位估计得到全局特征以及人体部位、随身物品的局部特征,并记录目标位置信息;c为骨干网络通道数,h和w分别为特征图的高度和宽度;
步骤二、根据步骤一所得目标位置信息对周围区域的位置信息、场景信息和网络信息分别进行特征提取得到对应特征vloc,vscene,vnet;将所得三种特征进行融合获得得到新的包含所有信息的融合特征u;
步骤三、将融合特征u输入到频域子网络和时域子网络,分别获得频域特征和时域特征,然后利用注意力机制融合频域和时域的特征,得到新的多维融合特征f;
步骤四、将目标的多维融合特征f与步骤一所得全局特征、局部特征进行拼接,得到联合特征;利用多层感知器异常得分网络为重点区域的每个目标生成一个异常分数,即利用多层感知器网络作为隐藏层网络,使得每组融合特征均可通过隐藏层输出单个神经元来获得对应的异常分数;
步骤五、利用变分自编码网络对步骤四所述的联合特征进行学习生成参考分数,即在编码器中构建两个神经网络来计算输入的均值和正态分布的方差作为每个数据的参考分数,然后利用数据的概率分布使得解码器生成接近正态分布的参考分数,并通过偏差损失函数对网络参数进行优化更新,生成每个目标的异常分数,最终获得具有异常行为的目标及其位置信息。
2.根据权利要求1所述的基于多域信息融合的重点区域目标异常行为检测与定位方法,其特征在于:所述步骤一中在特征图上设计级联聚类来生成人体部位的伪标签的具体方法为:
先使用Gg(x,y)表示特征图
Figure RE-FDA0003769927350000012
在空间位置(x,y)处的特征,且
Figure RE-FDA0003769927350000013
再将Gg(x,y)进行全局平均池化得到全局特征;
对于K-1个人体部位包括随身物品和一个背景,需要估计K个不同语义部分的置信度图,用D0,D1,D2,...,DK-1来表示,使用Dk(x,y)表示属于语义部分k的空间位置(x,y)的置信度,k∈{0,...,K-1},然后通过使用下式来提取语义部分k的局部特征图:
Figure RE-FDA0003769927350000021
Figure RE-FDA0003769927350000022
表示按元素相乘;
对于人体部分预测,使用线性层和softmax激活函数作为分类器,其公式如下:
Figure RE-FDA0003769927350000023
其中,exp(·)表示e(·),W表示线性层的参数;
通过利用交叉熵损失函数Loss来优化分类器,
Figure RE-FDA0003769927350000024
其中,L是空间位置(x,y)的人体部位生成的伪标签;最后,利用伪标签L来监督人体部位估计。
3.根据权利要求1所述的基于多域信息融合的重点区域目标异常行为检测与定位方法,其特征在于:所述步骤二获得包含所有信息的融合特征u的方法为:
使vloc,vscene,vnet分别表示提取的位置信息、场景信息、网络信息的对应特征,然后使用双模注意力机制进行特征融合的计算公式如下:
Figure RE-FDA0003769927350000025
p=softmax(WPhA+bP),
Figure RE-FDA0003769927350000026
Figure RE-FDA0003769927350000027
其中,hA表示注意力分数,Ws,Wl,Wn,WP为可学习的权重,bA,bP为偏置向量,vi为向量vscene的一个元素,pi为向量p的一个元素,u表示新的包含所有信息的融合特征。
4.根据权利要求1所述的基于多域信息融合的重点区域目标异常行为检测与定位方法,其特征在于:所述步骤三的详细过程为:
先将融合特征u分别输入频域子网络和时域子网络;在频域子网络中,先将融合特征u变换到频域,再经过一系列卷积层和池化层,最后通过全连接层,得到频域特征l0,并将特征l0作为融合网络的一个输入;在时域子网络中,将融合特征u直接经过一系列卷积层和池化层,并将各池化层输出的时域特征l1,l2,...,ln作为融合网络的另外n个输入;
然后使用注意力机制将特征l0,l1,l2,...,ln进行融合得到多域头融合特征f:
atten(li)=vTtanh(Wfli+bf),
Figure RE-FDA0003769927350000031
Figure RE-FDA0003769927350000032
其中,下标i∈[0,4],atten为注意力评分函数,vT为权重向量,Wf为权重矩阵,bf为偏置单元,κi为注意力权重,exp(·)表示e(·)
5.根据权利要求1所述的基于多域信息融合的重点区域目标异常行为检测与定位方法,其特征在于:所述步骤四获取目标异常分数的方法为:
设定多层感知器异常分数学习器为:AS(x;ω)=S(I(x;ωt);ωs);
其中,x表示多维融合特征f与全局和局部联合特征的拼接特征,
Figure RE-FDA0003769927350000033
为多层感知器异常分数网络,ω={ωts}表示网络的权重参数;I(x;ωt)∈Q为中间表示层,且中间表示层具有h个隐藏层,其权重ωt={w1,w2,...,wh};
Figure RE-FDA0003769927350000034
为异常计分器,ωs为异常计分器的权重参数,异常计分器使用单个神经单元通过中间表示层输出的特征表示获得异常分数,具体表示为:
Figure RE-FDA0003769927350000035
其中,α∈Q,ωs={θs},
Figure RE-FDA0003769927350000036
是偏差参数。
6.根据权利要求1所述的基于多域信息融合的重点区域目标异常行为检测与定位方法,其特征在于:所述步骤四根据变分自编码器生成的正常数据的参考得分,优化异常分数的偏差损失函数为:
Figure RE-FDA0003769927350000041
其中,μRR是变分自编码器生成的参考分数的均值和标准差;
然后,将偏差损失函数作为损失函数来对网络参数进行优化:
L(AS(x;ω),μRR)=(1-y)·|D(x)|+y·max(0,β-D(x)),
其中,y表示变分自编码器的输出,若y=1,则表示异常数据,此时损失函数的前一项为0,使得异常得分网络产生的异常得分偏离参考分数R;若y=0,则表示正常数据,此时损失函数的后一项将为0,前一项为D(x),优化异常分数,使正常数据更接近参考分数R;β是一个阈值。
CN202210643944.5A 2022-06-08 2022-06-08 基于多域信息融合的重点区域目标异常行为检测与定位方法 Active CN115147921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210643944.5A CN115147921B (zh) 2022-06-08 2022-06-08 基于多域信息融合的重点区域目标异常行为检测与定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210643944.5A CN115147921B (zh) 2022-06-08 2022-06-08 基于多域信息融合的重点区域目标异常行为检测与定位方法

Publications (2)

Publication Number Publication Date
CN115147921A true CN115147921A (zh) 2022-10-04
CN115147921B CN115147921B (zh) 2024-04-30

Family

ID=83409197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210643944.5A Active CN115147921B (zh) 2022-06-08 2022-06-08 基于多域信息融合的重点区域目标异常行为检测与定位方法

Country Status (1)

Country Link
CN (1) CN115147921B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824525A (zh) * 2023-08-29 2023-09-29 中国石油大学(华东) 一种基于交通道路影像的图像信息提取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021208719A1 (zh) * 2020-11-19 2021-10-21 平安科技(深圳)有限公司 基于语音的情绪识别方法、装置、设备及存储介质
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
CN114155879A (zh) * 2021-12-06 2022-03-08 哈尔滨工程大学 一种利用时频融合补偿异常感知及稳定性的异音检测方法
CN114202803A (zh) * 2021-12-17 2022-03-18 北方工业大学 一种基于残差网络的多阶段人体异常动作检测方法
CN114220136A (zh) * 2021-11-02 2022-03-22 阿里巴巴(中国)有限公司 用户行为识别模型的训练、面部识别的方法、系统及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
WO2021208719A1 (zh) * 2020-11-19 2021-10-21 平安科技(深圳)有限公司 基于语音的情绪识别方法、装置、设备及存储介质
CN114220136A (zh) * 2021-11-02 2022-03-22 阿里巴巴(中国)有限公司 用户行为识别模型的训练、面部识别的方法、系统及装置
CN114155879A (zh) * 2021-12-06 2022-03-08 哈尔滨工程大学 一种利用时频融合补偿异常感知及稳定性的异音检测方法
CN114202803A (zh) * 2021-12-17 2022-03-18 北方工业大学 一种基于残差网络的多阶段人体异常动作检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张阳;陈新;: "时域与频域特征的光纤安全系统入侵信号分析", 激光杂志, no. 06, 25 June 2017 (2017-06-25) *
沈文祥;秦品乐;曾建潮;: "基于多级特征和混合注意力机制的室内人群检测网络", 计算机应用, no. 12, 31 December 2019 (2019-12-31) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824525A (zh) * 2023-08-29 2023-09-29 中国石油大学(华东) 一种基于交通道路影像的图像信息提取方法
CN116824525B (zh) * 2023-08-29 2023-11-14 中国石油大学(华东) 一种基于交通道路影像的图像信息提取方法

Also Published As

Publication number Publication date
CN115147921B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
Chan et al. Modeling, clustering, and segmenting video with mixtures of dynamic textures
CN108960184B (zh) 一种基于异构部件深度神经网络的行人再识别方法
Gowsikhaa et al. Suspicious Human Activity Detection from Surveillance Videos.
CN108875708A (zh) 基于视频的行为分析方法、装置、设备、系统及存储介质
CN109344285A (zh) 一种面向监控的视频图谱构建和挖掘方法、设备
US20120321137A1 (en) Method for building and extracting entity networks from video
CN107230267B (zh) 基于人脸识别算法的幼儿园智能签到方法
CN111241989A (zh) 图像识别方法及装置、电子设备
Li et al. Anomaly scoring for prediction-based anomaly detection in time series
CN113378675A (zh) 一种同时检测和特征提取的人脸识别方法
CN112507893A (zh) 一种基于边缘计算的分布式无监督行人重识别方法
Roheda et al. Robust multi-modal sensor fusion: An adversarial approach
CN115147921B (zh) 基于多域信息融合的重点区域目标异常行为检测与定位方法
Wang et al. Mutuality-oriented reconstruction and prediction hybrid network for video anomaly detection
CN113627380B (zh) 一种用于智能安防及预警的跨视域行人重识别方法及系统
Girdhar et al. Incept_LSTM: Accession for human activity concession in automatic surveillance
CN108280408A (zh) 一种基于混合跟踪和广义线性模型的人群异常事件检测方法
CN111738059A (zh) 一种面向无感场景的人脸识别方法
CN116978093A (zh) 基于空间数据增强和对称互注意力的跨模态行人重识别方法
CN111160150A (zh) 基于深度残差神经网络卷积的视频监控人群行为的识别方法
CN115798055A (zh) 一种基于cornersort跟踪算法的暴力行为检测方法
Katkar et al. Detection and Tracking the Criminal Activity using Network of CCTV cameras
Arshad et al. Anomalous situations recognition in surveillance images using deep learning
CN114783054A (zh) 一种基于无线和视频特征融合的步态识别方法
Bhargava et al. A comprehensive study and detection of anomalies for autonomous video surveillance using neuromorphic computing and self learning algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant