CN115527150A - 一种结合卷积注意力模块的双分支视频异常检测方法 - Google Patents

一种结合卷积注意力模块的双分支视频异常检测方法 Download PDF

Info

Publication number
CN115527150A
CN115527150A CN202211343864.4A CN202211343864A CN115527150A CN 115527150 A CN115527150 A CN 115527150A CN 202211343864 A CN202211343864 A CN 202211343864A CN 115527150 A CN115527150 A CN 115527150A
Authority
CN
China
Prior art keywords
frames
branch
optical flow
video
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211343864.4A
Other languages
English (en)
Inventor
李群
潘许贝
杨锐
肖甫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202211343864.4A priority Critical patent/CN115527150A/zh
Publication of CN115527150A publication Critical patent/CN115527150A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于视频异常检测技术领域,公开了一种结合卷积注意力模块的双分支视频异常检测方法,包括:取训练集中的原始帧,再将原始帧输入到光流提取网络中得到光流帧,然后将原始帧和光流帧分别输入到预测和重建两个分支网络中,并通过联合损失函数对双分支网络进行训练,从而得到一个完整的视频异常检测检测模型,类似的,在测试阶段,取测试集中原始帧,并通过光流提取网络得到光流帧,再将原始帧和光流帧分别输入到预测和重建分支中,分别得到预测帧和重建帧,通过计算得到预测帧和真实帧的预测误差,重建帧和光流帧的重建误差,对两种误差进行加权平衡,得到视频帧异常得分,实现对异常视频帧的检测。本发明可以实现更高的检测精度。

Description

一种结合卷积注意力模块的双分支视频异常检测方法
技术领域
本发明属于视频异常检测技术领域,具体的说是涉及一种结合卷积注意力模块的双分支视频异常检测方法。
背景技术
视频异常检测是计算机视觉领域一个重要的研究课题,近些年来,越来越受到研究者们的关注。视频异常检测任务具体是从一段视频中检测出与正常活动不相符的事件,例如打斗、交通事故或抛物等等,而这些异常事件往往会对公共安全带来危害,因此对视频异常检测的研究对于尽早发现异常事件,进而降低异常事件的危害程度有着重要的意义。
但是由于异常事件种类繁多而且发生的频率很低,从而导致我们不可能收集到所有且足够的异常事件对模型进行训练。与之相反,正常事件很多且采集方便。因此,目前主流的方法是只使用正常事件对模型进行训练。主流的方法可以分为视频帧重建和视频帧预测两大类。视频帧重建是将当前帧通过一个自动编码器,重建得到一个重建帧,通过计算当前帧和重建帧的重构误差,使用重构误差代表异常得分,从而实现异常事件的检测,如AE方法(Mahmudul Hasan,Jonghyun Choi,Jan Neumann,Amit K Roy-Chowdhury,and Larry SDavis.Learning temporal regularity in video sequences.In CVPR,2016.),但是由于自动编码器具有较强的泛化能力,一些异常事件也能够被很好的重建,因此检测精度不高;视频帧预测是通过连续若干帧预测得到下一个视频帧,再将预测得到的视频帧输入一个判别器判断是否为异常事件,从而实现对异常事件的检测,如(Wen Liu,Weixin Luo,DongzeLian,Shenghua Gao.Future Frame Prediction for Anomaly Detection--A NewBaseline.In CVPR,2018.),但是由于一些正常事件例如开灯,开门等事件不能很好的预测,从而导致检测的精度不高。
发明内容
为解决现有技术中视频异常检测方法的检测精度不高的技术缺陷,本发明提供了一种结合卷积注意力模块的双分支视频异常检测方法,该方法构造了一个嵌入卷积注意力模块的双分支网络,分别进行视频帧预测和光流帧重建任务,并通过一个联合损失函数对双分支网络进行训练,从而构建一个能对异常事件进行有效检测的网络模型。该视频异常检测方法的具体步骤如下:
S1,收集视频数据,将视频数据分为训练集和待测集。
S2,取S1训练集中的连续t个视频帧,即原始帧,输入到双分支结构中的视频帧预测分支中,预测得到第t+1个视频帧,即预测帧
Figure BDA0003917585430000021
S3,将S2中的t个原始帧输入到光流提取网络中,提取可得到原始帧的t个光流图像,即光流帧y1:t,然后将光流帧输入到双分支结构中的光流帧重建分支中,重建得到t个新的光流帧,即重建帧
Figure BDA0003917585430000022
S4,计算S2中得到的第t+1个预测帧
Figure BDA0003917585430000023
和第t+1个真实帧xt+1之间的预测误差Lpred,计算S3中得到的t个重建帧
Figure BDA0003917585430000024
和输入的t个光流帧y1:t之间的重构误差Lrecon
S5,结合S4中得到的预测误差Lpred和重构误差Lrecon,以及提出的梯度损失Lgrad、交叉熵损失Lentro构建一个联合损失函数L对双分支网络进行训练。最终训练得到一个能对异常事件进行有效检测的网络模型。
S6,类似地,取S1中的待测集数据,即连续t个视频帧,依次通过S2、S3和S5步骤,得到待测视频帧的预测误差Spred和重构误差Srecon,再对两种误差进行加权平衡,最终得到待测视频帧的异常得分S,进而实现对异常事件的检测。
进一步地,所述S1中训练集仅有正常事件视频构成,不含任何异常事件,待测集既有正常事件也有异常事件。
进一步地,所述S2所提出的视频帧预测分支,其主要由一个自动编码器、多个嵌入其中的记忆内存模块以及一个卷积注意力模块构成,该分支的输出结果为第t+1帧的预测结果
Figure BDA0003917585430000025
具体结构如下:
S2-1,自动编码器主要由一个编码器和解码器构成,二者都具有三层的结构,在编码器中每层的结构由两个卷积层和一个下采样层构成;类似地,在解码器中每层的结构由两个卷积层和一个上采样层构成。
S2-2,由于在编解码的过程中会造成信息的损失,因此在编码器和解码器的对应层之间加入跳跃连接,直接将编码器每一层的特征图和解码器对应层的特征图进行通道拼接操作,从而减少信息的损失。
S2-3,为了让网络更好的学习正常事件的特征表示,在自动编码器结构中嵌入了多个多尺度的记忆内存模块,该模块可以根据余弦相似性原理,得到一个新的特征图,公式如下:
Figure BDA0003917585430000031
其中,Fin为输入特征图,mi为记忆内存中每个维度的特征向量,d(Fin,mi)表示余弦相似性,T表示转置。
Figure BDA0003917585430000032
其中,exp表示取e的指数,N表示记忆内存的维度,ri表示记忆内存对应特征向量的查询权重。
根据以上公式可以得到记忆内存模块中每个特征向量对应的查询权重,再将查询权重与对应的特征向量相乘并拼接可以得到一个新的特征图,其公式如下:
Figure BDA0003917585430000033
其中,Fout表示输出特征图,N表示记忆内存的维度,ri表示对应记忆内存特征向量的查询权重,mi表示对应的记忆内存特征向量。
为了学习不同尺度的特征信息,记忆内存模块被嵌入在自动编码器的中间位置和解码器的不同层之间。
S2-4,为了进一步加强网络对输入图像周边语义信息的学习,在自动解码器之后嵌入一个卷积注意力模块。该模块由掩码卷积层和通道注意力层构建。其中掩码卷积层主要由四个小卷积组成,每个小卷积对特征图的边角区域进行操作,最后将四个小卷积的结果相加得到卷积注意力模块的输出结果。通道注意力层分为三个步骤:1、压缩阶段:对输入特征图的每个通道进行全局平均池化,得到一个维度等于特征通道数的一维向量;2、激发阶段:将上一步得到的一维向量输入到两个全连接层中,获得每个特征通道对应一维权重向量;3、重新调整阶段:用上一步得到的一维权重向量与输入的特征图进行相乘操作,从而得到最终的输出结果。为了和输入数据的通道数保持一致,卷积注意力模块的使用个数等于输入数据的通道数。
进一步地,所述S3中的光流提取网络采用常用的flownet2网络。与之前S2中的预测分支类似,所述S3所提出的光流帧重建分支,其主要也由一个自动编码器、多个嵌入其中的记忆内存模块以及一个卷积注意力模块构成,不同的是该分支的输出结果为t个光流重建帧
Figure BDA0003917585430000045
进一步地,所述S4中的预测误差Lpred和重建误差Lrecon分别由以下两个公式得到:
Figure BDA0003917585430000041
其中,||||2表示取l2范数。
Figure BDA0003917585430000042
其中,||||2表示取l2范数。
进一步地,为使预测地结果更加接近于真实结果,所述S5加入了梯度损失Lgrad,其公式如下:
Figure BDA0003917585430000043
其中,k,l代表视频帧的时空索引,||||1表示取l1范数,||表示取绝对值。
为了使记忆模块能更好地学习正常事件,我们希望查询权重更加的稀疏,因此,我们加入了交叉熵损失Lentro对查询权重进行约束,其公式如下:
Figure BDA0003917585430000044
其中,O代表记忆模块的数量,N代表记忆模块的维度,ri,j代表对应记忆内存中特征向量的查询权重。
对上述四种损失函数进行加权平衡可以得到联合损失函数L,其公式如下:
Figure BDA0003917585430000051
其中,λpred,λgrad,λrecon和λentro为平衡参数。
进一步地,所述S6中的异常得分S由预测误差Spred和重构误差Srecon加权平衡得到,公式为:
S=wpSpred+wrSrecon
其中,
Figure BDA0003917585430000052
wp和wr为平衡参数。
本发明的有益效果是:
(1)本发明提出了一种双分支的网络结构,分别进行视频帧预测和重建任务,生成的特征具有丰富的信息,在多个公开数据集上进行了实验,相比于之前的方法,本发明取得了更好的检测效果。
(2)本发明将卷积注意力模块嵌入双分支网络结构中,有利于分支学习局部特征的全局结构,进一步提高了模型的性能。
(3)本发明在自动编码器中嵌入了多个多尺度的记忆内存模块,有利于网络学习不同尺度下的正常事件特征,进一步提高了模型对异常事件的检测能力。
(4)本发明属于半监督的学习方法,只是用了正常事件作为训练数据,极大地降低了数据采集的成本。
本发明的双分支视频异常检测方法,针对视频帧预测和视频帧重建两个任务设计了双分支的网络结构,并在其中嵌入了卷积注意力模块,再通过设计的联合损失函数对双分支网络进行训练,最终能得到一个能对异常事件进行有效检测的网络模型。
附图说明
图1为本发明实施例中的异常检测方法的流程图。
图2为本发明实施例中的双分支网络的整体结构图。
图3为本发明实例中的分支网络具体结构图。
图4为本发明实施例中的卷积注意力模块掩码卷积核的结构图。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。
本发明是一种结合卷积注意力模块的双分支视频异常检测方法,该异常检测方法具体包括如下步骤:
步骤1,收集视频数据,将视频数据分为训练集和待测集,其中,训练集仅有正常事件视频构成,不含任何异常事件,待测集既有正常事件也有异常事件。
步骤2,取步骤1训练集中的连续t个视频帧,即原始帧,输入到双分支结构中的视频帧预测分支中,预测得到第t+1个视频帧,即预测帧
Figure BDA0003917585430000062
该预测分支主要由一个自动编码器、多个嵌入其中的记忆内存模块以及一个卷积注意力模块构成,该分支的输出结果为第t+1帧的预测结果
Figure BDA0003917585430000063
具体结构的构建过程如下:
S2-1,自动编码器主要由一个编码器和解码器构成,二者都具有三层的结构,在编码器中每层的结构由两个卷积层和一个下采样层构成;类似地,在解码器中每层的结构由两个卷积层和一个上采样层构成。
S2-2,由于在编解码的过程中会造成信息的损失,因此在编码器和解码器的对应层之间加入跳跃连接,直接将编码器每一层的特征图和解码器对应层的特征图进行通道拼接操作,从而减少信息的损失。
S2-3,为了让网络更好的学习正常事件的特征表示,在自动编码器结构中嵌入了多个多尺度的记忆内存模块,该记忆内存模块可以根据余弦相似性原理,得到一个新的特征图,公式如下:
Figure BDA0003917585430000061
其中,Fin为输入特征图,mi为记忆内存中每个维度的特征向量,d(Fin,mi)表示余弦相似性,T表示转置。
Figure BDA0003917585430000071
其中,exp表示取e的指数,N表示记忆内存的维度,ri表示记忆内存对应特征向量的查询权重。
根据以上公式可以得到记忆内存模块中每个特征向量对应的查询权重,再将查询权重与对应的特征向量相乘并拼接可以得到一个新的特征图,其公式如下:
Figure BDA0003917585430000072
其中,Fout表示输出特征图,N表示记忆内存的维度,ri表示对应记忆内存特征向量的查询权重,mi表示对应的记忆内存特征向量。
为了学习不同尺度的特征信息,记忆内存模块被嵌入在自动编码器的中间位置和解码器的不同层之间,如图2所示。
S2-4,为了进一步加强网络对输入图像周边语义信息的学习,在自动解码器之后嵌入一个卷积注意力模块。该模块由掩码卷积层和通道注意力层构建。其中掩码卷积层主要由四个小卷积组成,每个小卷积对特征图的边角区域进行操作,最后将四个小卷积的结果相加得到卷积注意力模块的输出结果。通道注意力层分为三个步骤:1、压缩阶段:对输入特征图的每个通道进行全局平均池化,得到一个维度等于特征通道数的一维向量;2、激发阶段:将上一步得到的一维向量输入到两个全连接层中,获得每个特征通道对应一维权重向量;3、重新调整阶段:用上一步得到的一维权重向量与输入的特征图进行相乘操作,从而得到最终的输出结果。为了和输入数据的通道数保持一致,卷积注意力模块的使用个数等于输入数据的通道数。
步骤3,将步骤2中的t个原始帧输入到光流提取网络中,提取可得到原始帧的t个光流图像,即光流帧y1:t,然后将光流帧输入到双分支结构中的光流帧重建分支中,重建得到t个新的光流帧,即重建帧
Figure BDA0003917585430000073
其中,光流提取网络采用常用的flownet2网络。与之前步骤2中的预测分支类似,该光流帧重建分支,其主要也由一个自动编码器、多个嵌入其中的记忆内存模块以及一个卷积注意力模块构成,不同的是该分支的输出结果为t个光流重建帧
Figure BDA0003917585430000085
步骤4,计算步骤2中得到的第t+1个预测帧
Figure BDA0003917585430000086
和第t+1个真实帧xt+1之间的预测误差Lpred,计算步骤3中得到的t个重建帧
Figure BDA0003917585430000087
和输入的t个光流帧y1:t之间的重构误差Lrecon。其中,步骤4中的预测误差Lpred和重建误差Lrecon分别由以下两个公式得到:
Figure BDA0003917585430000081
其中,||||2表示取l2范数。
Figure BDA0003917585430000082
其中,||||2表示取l2范数。
步骤5,结合步骤4中得到的预测误差Lpred和重构误差Lrecon,以及提出的梯度损失Lgrad、交叉熵损失Lentro构建一个联合损失函数L对双分支网络进行训练,最终训练得到一个能对异常事件进行有效检测的网络模型。
为使预测地结果更加接近于真实结果,所述步骤5加入了梯度损失Lgrad,其公式如下:
Figure BDA0003917585430000083
其中,k,l代表视频帧的时空索引,||||1表示取l1范数,||表示取绝对值。
为了使记忆模块能更好地学习正常事件,本发明希望查询权重更加的稀疏,因此,本发明加入了交叉熵损失Lentro对查询权重进行约束,其公式如下:
Figure BDA0003917585430000084
其中,O代表记忆模块的数量,N代表记忆模块的维度,ri,j代表对应记忆内存中特征向量的查询权重。
对上述四种损失函数进行加权平衡可以得到联合损失函数L,其公式如下:
Figure BDA0003917585430000091
其中,λpred,λgrad,λrecon和λentro为平衡参数。
步骤6,类似地,取步骤1中的待测集数据,即连续t个视频帧,依次通过步骤2、步骤3和步骤5,得到待测视频帧的预测误差Spred和重构误差Srecon,再对两种误差进行加权平衡,最终得到待测视频帧的异常得分S,进而实现对异常事件的检测。所述步骤6中的异常得分S由预测误差Spred和重构误差Srecon加权平衡得到,公式为:
S=wpSpred+wrSrecon
其中,
Figure BDA0003917585430000092
wp和wr为平衡参数。
本发明属于半监督的学习方法,只是用了正常事件作为训练数据,极大地降低了数据采集的成本。本发明采用了双分支的结构,每个分支分别对不同的任务进行学习,可以有效提高模型的学习能力。同时,本发明将多个记忆模块和卷积注意力模块嵌入双分支网络中,进一步提高了模型对不同尺寸特征的学习能力,因此本发明相比于之前的方法,大大提高了异常检测的精确度。
为使本发明的技术方案更加清楚,下面将结合实验对本发明的检测精确度进行验证。
实验条件
1.实验数据库
在Ped2、Avenue和ShanghaiTech数据集上进行训练和测试。异常检测过程中将数据集分成训练类(有需要再细分成训练类和验证类)和测试集,在不同数据集上有不同的划分,训练类加验证类即为已知类别,测试类为未知类别,二者之间没有交集。
详细介绍见如下表1。
表1数据集的详细介绍
Figure BDA0003917585430000101
2.实验参数设置
模型固定参数设置如下表2所示:
表2模型固定参数
N λ<sub>pred</sub> λ<sub>grad</sub> λ<sub>recon</sub> λ<sub>entro</sub>
2000 1 1 1 0.0002
对于不同的数据集异常得分的平衡参数设置如表3所示:
表3异常得分平衡参数
数据集 w<sub>p</sub> w<sub>r</sub>
Ped2 1.0 0.1
Avenue 0.1 1.0
ShanghaiTech 0.02 1.0
A、实验结果评价标准
此模型针对于异常检测设置,异常检测中测试类的类别有未知类别,也有已知类别,这里用AUC来衡量检测效果。AUC值越高,说明模型效果越好。AUC的计算公式如下:
Figure BDA0003917585430000102
其中,M为正包样本数,N为负包样本数,分子为预测结果为正包的概率大于预测结果为负包的概率的组合总数。
B、对比试验方案
本实施例在Ped2、Avenue和ShanghaiTech数据集上与其他目前前沿的异常检测方法进行对比。
表4异常检测方法性能比较:
Methods Ped2 Avenue ShanghaiTech
Memae 0.941 0.833 0.712
VEC 0.973 0.902 0.748
MPN 0.969 0.895 0.738
sRNN 0.922 0.835 0.696
Ours 0.994 0.911 0.766
Ours是本发明提出的方法,通过表4与目前前沿的异常检测方法对比结果表明本方法的异常检测效果超过了其它比较的方法,客观说明了本文所提出的方法的有效性。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (10)

1.一种结合卷积注意力模块的双分支视频异常检测方法,其特征在于:该方法基于一个双分支的网络结构,并将卷积注意力模块嵌入该双分支网络结构中,加强对特征的学习,两个分支分别进行视频帧预测和光流帧重建任务,具体的该双分支视频异常检测方法包括如下步骤:
步骤1:收集视频数据,将视频数据分为训练集和待测集;
步骤2:取步骤1所述训练集中的连续t个视频帧,即原始帧,输入到双分支结构中的视频帧预测分支中,预测得到第t+1个视频帧,即预测帧
Figure FDA0003917585420000011
步骤3:将步骤2中的t个原始帧输入到光流提取网络中,提取得到原始帧的t个光流图像,即光流帧y1:t,然后将光流帧y1:t输入到双分支结构中的光流帧重建分支中,重建得到t个新的光流帧,即重建帧
Figure FDA0003917585420000012
步骤4:计算步骤2中得到的第t+1个预测帧
Figure FDA0003917585420000013
和第t+1个真实帧xt+1之间的预测误差Lpred,计算步骤3中得到的t个重建帧
Figure FDA0003917585420000014
和输入的t个光流帧y1:t之间的重构误差Lrecon
步骤5:结合步骤4中得到的预测误差Lpred和重构误差Lrecon,以及梯度损失Lgrad、交叉熵损失Lentro构建一个联合损失函数L对双分支网络进行训练,最终训练得到一个能对异常事件进行有效检测的网络模型;
步骤6:取步骤1中的待测集数据,即连续t个视频帧,依次通过步骤2、步骤3和步骤5,得到待测视频帧的预测误差Spred和重构误差Srecon,再对预测误差Spred和重构误差Srecon进行加权平衡,最终得到待测视频帧的异常得分S,进而实现对异常事件的检测。
2.根据权利要求1所述的一种结合卷积注意力模块的双分支视频异常检测方法,其特征在于:步骤2中提出的所述视频帧预测分支主要由一个自动编码器、多个嵌入其中的记忆内存模块以及一个卷积注意力模块构成,该分支的输出结果为第t+1帧的预测结果
Figure FDA0003917585420000015
3.根据权利要求2所述的一种结合卷积注意力模块的双分支视频异常检测方法,其特征在于:所述视频帧预测分支的构建方法为:
步骤2-1:构建自动编码器:自动编码器主要由一个编码器和解码器构成,所述编码器和解码器都具有三层结构,所述编码器由两个卷积层和一个下采样层构成,所述解码器由两个卷积层和一个上采样层构成;
步骤2-2:对步骤2-1中的自动编码器进行通道拼接:在所述编码器和所述解码器的对应层之间加入跳跃连接,直接将所述编码器每一层的特征图和解码器对应层的特征图进行通道拼接操作,从而减少信息的损失;
步骤2-3:在自动编码器结构中嵌入了多个多尺度的记忆内存模块,所述记忆内存模块根据余弦相似性原理,得到一个新的特征图,公式如下:
Figure FDA0003917585420000021
其中,Fin为输入特征图,mi为记忆内存中每个维度的特征向量,d(Fin,mi)表示余弦相似性,T表示转置;
Figure FDA0003917585420000022
其中,exp表示取e的指数,N表示记忆内存的维度,ri表示记忆内存对应特征向量的查询权重;
根据以上公式可以得到记忆内存模块中每个特征向量对应的查询权重,再将查询权重与对应的特征向量相乘并拼接得到一个新的特征图,其公式如下:
Figure FDA0003917585420000023
其中,Fout表示输出特征图,N表示记忆内存的维度,ri表示对应记忆内存特征向量的查询权重,mi表示对应的记忆内存特征向量;
步骤2-4:嵌入卷积注意力模块:为了加强网络对输入图像周边语义信息的学习,在自动解码器之后嵌入一个卷积注意力模块,所述卷积注意力模块由掩码卷积层和通道注意力层构建,其中所述掩码卷积层主要由四个小卷积组成,每个小卷积对特征图的边角区域进行操作,最后将四个小卷积的结果相加得到卷积注意力模块的输出结果。
4.根据权利要求3所述的一种结合卷积注意力模块的双分支视频异常检测方法,其特征在于:步骤2-4中所述通道注意力层构建主要包括如下步骤:
步骤2-4-1:压缩阶段:对输入特征图的每个通道进行全局平均池化,得到一个维度等于特征通道数的一维向量;
步骤2-4-2:激发阶段:将步骤2-4-1压缩阶段得到的一维向量输入到两个全连接层中,获得每个特征通道对应一维权重向量;
步骤2-4-3:重新调整阶段:用步骤2-4-2激发阶段得到的一维权重向量与输入的特征图进行相乘操作,从而得到最终的输出结果。
5.根据权利要求4所述的一种结合卷积注意力模块的双分支视频异常检测方法,其特征在于:卷积注意力模块的使用个数等于输入数据的通道数。
6.根据权利要求1所述的一种结合卷积注意力模块的双分支视频异常检测方法,其特征在于:所述步骤4中的预测误差Lpred和重建误差Lrecon分别由以下两个公式得到:
Figure FDA0003917585420000031
其中,|| ||2表示取l2范数,
Figure FDA0003917585420000032
其中,|| ||2表示取l2范数。
7.根据权利要求6所述的一种结合卷积注意力模块的双分支视频异常检测方法,其特征在于:所述步骤5中联合损失函数的构建过程为:
步骤5-1:在所述步骤5中加入了梯度损失Lgrad,其公式如下:
Figure FDA0003917585420000033
其中,k,l代表视频帧的时空索引,|| ||1表示取l1范数,| |表示取绝对值;
步骤5-2:为了使记忆模块能更好地学习正常事件,查询权重更加的稀疏,因此,加入了交叉熵损失Lentro对查询权重进行约束,其公式如下:
Figure FDA0003917585420000034
其中,O代表记忆模块的数量,N代表记忆模块的维度,ri,j代表对应记忆内存中特征向量的查询权重;
步骤5-3:对步骤4中得到的预测误差Lpred和重构误差Lrecon,以及梯度损失Lgrad、交叉熵损失Lentro进行加权平衡可以得到联合损失函数L,其公式如下:
Figure FDA0003917585420000041
其中,λpred,λgrad,λrecon和λentro为平衡参数。
8.根据权利要求1所述的一种结合卷积注意力模块的双分支视频异常检测方法,其特征在于:步骤3中的所述光流提取网络采用常用的flownet2网络,所述S3所提出的光流帧重建分支主要由一个自动编码器、多个嵌入其中的记忆内存模块以及一个卷积注意力模块构成,所述光流帧重建分支的输出结果为t个光流重建帧
Figure FDA0003917585420000042
9.根据权利要求1所述的一种结合卷积注意力模块的双分支视频异常检测方法,其特征在于:步骤6中的异常得分S由预测误差Spred和重构误差Srecon加权平衡得到,公式为:
S=wpSpred+wrSrecon
其中,
Figure FDA0003917585420000043
wp和wr为平衡参数。
10.根据权利要求1所述的一种结合卷积注意力模块的双分支视频异常检测方法,其特征在于:所述步骤1中训练集仅有正常事件视频构成,不含任何异常事件,待测集既有正常事件也有异常事件。
CN202211343864.4A 2022-10-31 2022-10-31 一种结合卷积注意力模块的双分支视频异常检测方法 Pending CN115527150A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211343864.4A CN115527150A (zh) 2022-10-31 2022-10-31 一种结合卷积注意力模块的双分支视频异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211343864.4A CN115527150A (zh) 2022-10-31 2022-10-31 一种结合卷积注意力模块的双分支视频异常检测方法

Publications (1)

Publication Number Publication Date
CN115527150A true CN115527150A (zh) 2022-12-27

Family

ID=84703419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211343864.4A Pending CN115527150A (zh) 2022-10-31 2022-10-31 一种结合卷积注意力模块的双分支视频异常检测方法

Country Status (1)

Country Link
CN (1) CN115527150A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152722A (zh) * 2023-04-19 2023-05-23 南京邮电大学 基于残差注意力块和自选择学习结合的视频异常检测方法
CN116543335A (zh) * 2023-05-08 2023-08-04 天津大学 一种基于时序空间信息增强的视觉异常检测方法
CN117392590A (zh) * 2023-12-13 2024-01-12 深圳须弥云图空间科技有限公司 视频异常检测方法及装置
CN117409354A (zh) * 2023-12-11 2024-01-16 山东建筑大学 基于三路视频流和上下文感知的视频异常检测方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152722A (zh) * 2023-04-19 2023-05-23 南京邮电大学 基于残差注意力块和自选择学习结合的视频异常检测方法
CN116152722B (zh) * 2023-04-19 2023-07-04 南京邮电大学 基于残差注意力块和自选择学习结合的视频异常检测方法
CN116543335A (zh) * 2023-05-08 2023-08-04 天津大学 一种基于时序空间信息增强的视觉异常检测方法
CN117409354A (zh) * 2023-12-11 2024-01-16 山东建筑大学 基于三路视频流和上下文感知的视频异常检测方法及系统
CN117409354B (zh) * 2023-12-11 2024-03-22 山东建筑大学 基于三路视频流和上下文感知的视频异常检测方法及系统
CN117392590A (zh) * 2023-12-13 2024-01-12 深圳须弥云图空间科技有限公司 视频异常检测方法及装置

Similar Documents

Publication Publication Date Title
CN115527150A (zh) 一种结合卷积注意力模块的双分支视频异常检测方法
Wang et al. SSA-SiamNet: Spectral–spatial-wise attention-based Siamese network for hyperspectral image change detection
CN111259853A (zh) 一种高分辨率遥感图像变化检测方法、系统及装置
CN113569756B (zh) 异常行为检测与定位方法、系统、终端设备及可读存储介质
CN115601661A (zh) 一种用于城市动态监测的建筑物变化检测方法
CN114360030A (zh) 一种基于卷积神经网络的人脸识别方法
CN112446331A (zh) 基于知识蒸馏的时空双流分段网络行为识别方法及系统
CN115830531A (zh) 一种基于残差多通道注意力多特征融合的行人重识别方法
CN114202803A (zh) 一种基于残差网络的多阶段人体异常动作检测方法
CN116596151A (zh) 基于时空图注意力的交通流量预测方法及计算设备
CN113569788A (zh) 一种建筑物语义分割网络模型训练方法、系统及应用方法
CN116152658A (zh) 一种基于域对抗特征融合网络的林火烟雾检测方法
Du et al. Convolutional neural network-based data anomaly detection considering class imbalance with limited data
CN116703885A (zh) 一种基于Swin Transformer的表面缺陷检测方法及系统
Guo et al. Adaln: a vision transformer for multidomain learning and predisaster building information extraction from images
Zhou et al. A method of CNN traffic classification based on sppnet
CN115147641A (zh) 一种基于知识蒸馏和多模态融合的视频分类方法
CN114612803A (zh) 一种改进CenterNet的输电线路绝缘子缺陷检测方法
CN115456957B (zh) 一种全尺度特征聚合的遥感影像变化检测的方法
CN116665099A (zh) 一种基于双生成器与通道注意力机制的视频异常检测方法
CN116778318A (zh) 一种卷积神经网络遥感影像道路提取模型及方法
CN116758610A (zh) 基于注意力机制和特征融合的轻量化人耳识别方法及系统
CN106897735A (zh) 一种快速移动目标的跟踪方法及装置
CN114494893B (zh) 基于语义重用上下文特征金字塔的遥感图像特征提取方法
CN116468667A (zh) 一种加入Transformer的串式知识蒸馏的无监督缺陷检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination