CN116665099A - 一种基于双生成器与通道注意力机制的视频异常检测方法 - Google Patents

一种基于双生成器与通道注意力机制的视频异常检测方法 Download PDF

Info

Publication number
CN116665099A
CN116665099A CN202310622716.4A CN202310622716A CN116665099A CN 116665099 A CN116665099 A CN 116665099A CN 202310622716 A CN202310622716 A CN 202310622716A CN 116665099 A CN116665099 A CN 116665099A
Authority
CN
China
Prior art keywords
frame
generator
abnormal
reconstructed
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310622716.4A
Other languages
English (en)
Inventor
吉根林
戚小莎
赵斌
谈超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Normal University
Original Assignee
Nanjing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Normal University filed Critical Nanjing Normal University
Priority to CN202310622716.4A priority Critical patent/CN116665099A/zh
Publication of CN116665099A publication Critical patent/CN116665099A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

本发明公开了一种基于双生成器与通道注意力机制的视频异常检测方法,包括如下步骤:拆分视频集,得到多个帧级别的序列,划分为正常训练视频帧和测试视频帧;利用正常训练视频帧和鉴别器对噪声生成器进行训练,通过训练好的噪声生成器生成伪异常帧;利用伪异常帧和正常训练视频帧训练重构生成器,得到训练好的重构生成器;将测试视频帧输入到训练好的重构生成器中,得到重构帧,计算重构帧与真实帧的重构误差,根据重构误差对视频帧进行异常分类。本发明提出了以双生成器和通道注意力机制的生成对抗网络为核心的视频异常事件检测方法,通过噪声生成器和重构生成器,同时在生成器中引入二阶通道注意力模块,提升了视频异常事件检测的检测准确率。

Description

一种基于双生成器与通道注意力机制的视频异常检测方法
技术领域
本发明属于计算机视觉领域,涉及视频异常检测技术,具体涉及一种基于双生成器与通道注意力机制的视频异常检测方法。
背景技术
在科技高速发展的时代,为了保障社会的运行以及人民的安全,大量的监控摄像被用于道路、学校以及商场等各类公共场所,不计其数的监控视频由此产生。仅用人力去对这些监控视频进行筛选检测需要花费大量的时间精力,因此视频异常检测得到了大力的发展。视频异常可以被认为是不正常的外观或运动,或者正常的外观或运动在不正常的位置或时间发生。视频中事件是否异常需要根据所处场景进行判定,在某一场景中被判定为异常的事件在另一场景中可能是正常的,例如在校园中卡车等交通工具是异常的,在交通道路的场景下则是正常的。
现有的视频异常检测方法仅能用正常视频帧对检测模型进行训练,该方法无法提前学习到异常模式,对异常没有一定感知能力,在检测时会对异常帧分类存在歧义,所以最终异常检测准确率不是很理想。
发明内容
发明目的:为了克服现有技术中存在的不足,提供一种基于双生成器与通道注意力机制的视频异常检测方法,用以解决训练数据只包括正常事件,导致模型难以提前学习异常模式的问题,其能够提高对异常现象的感知能力,来提前学习异常分布,最终提高异常检测准确率。
技术方案:为实现上述目的,本发明提供一种基于双生成器与通道注意力机制的视频异常检测方法,包括如下步骤:
S1:拆分视频集,得到多个帧级别的序列,并且划分为正常训练视频帧和测试视频帧;
S2:利用正常训练视频帧和鉴别器对噪声生成器进行训练,通过训练好的噪声生成器生成伪异常帧;
S3:利用伪异常帧和正常训练视频帧训练重构生成器,得到训练好的重构生成器;
S4:将测试视频帧输入到训练好的重构生成器中,得到重构帧,计算重构帧与真实帧的重构误差,根据重构误差对视频帧进行异常分类。
进一步地,所述步骤S2中噪声生成器包括噪声模块、生成器和二阶通道注意力模块,噪声生成器共训练两次,第一次对不含噪声模块的生成器进行训练,第二次对加入噪声模块的噪声生成器进行训练,训练方法为:生成器通过与鉴别器之间相互对抗进行训练,使生成帧无法被鉴别器区分为异常,在得到训练好的生成器后,固定生成器的参数,并在生成器中加入噪声模块,再次与鉴别器进行生成对抗,更新噪声模块的参数,得到噪声生成器。
进一步地,所述步骤S2中生成器采用自编码器网络,由编码器以及解码器构成,对于生成器的训练方法为:
当正常训练视频帧输入生成器中,首先进入由池化层、卷积层以及激活函数重复构成的编码器部分,经过多次尺寸减半、通道翻倍后,得到潜在特征;
其次将潜在特征输入二阶通道注意力模块中,提高特征的相互依赖性,获得更丰富更密集的信息关联性,得到全局特征与局部特征关联紧密的特征;
最后将得到的特征输入解码器,重新构建潜在特征,输出得到与输入帧相同尺寸的图像,从而生成高质量的重构帧;
将得到的重构帧与真实帧一起输入鉴别器中,让鉴别器与生成器产生对抗,使得生成器生成的重构帧被鉴别器判定为真实帧。
进一步地,所述步骤S2中噪声模块由三层全连接结构的自编码器构成,包括噪声模块A和噪声模块B,通过噪声模块对噪声生成器的训练方法为:
将随机噪声输入噪声模块中,进行三次卷积、批标准化以及激活函数的操作,得到适用于生成伪视频帧的噪声;
在得到训练好的生成器后,将噪声模块加入生成器中,在编码器第一次卷积池化后以及解码器最后一次上采样前采用跳跃连接,并加入噪声模块A,在得到潜在特征后加入噪声模块B,将带有噪声的潜在特征进行重新构建得到伪异常帧;
将伪异常帧与真实帧共同输入鉴别器中,让鉴别器与生成器产生对抗,最大化两帧之间的距离,其中噪声模块A和噪声模块B的尺寸与相对应的特征尺寸相同。
进一步地,所述步骤S3中重构生成器的训练方法为:在重构伪异常帧和重构正常训练视频帧中分别加入最大约束函数和最小约束函数,使重构伪异常帧、重构真实帧与真实帧产生对抗,拉远重构伪异常帧与真实帧的距离,拉近重构真实帧与真实帧的距离。
进一步地,所述步骤S3中重构生成器由自编码器与二阶通道注意力模块共同组成,其中自编码器由编码器和解码器两部分组成,采用U-net作为其网络结构,具体训练过程为:将伪异常帧与真实帧分别输入重构生成器中,首先进入编码器模块,通过多次卷积池化处理后得到每层不同尺寸不同通道数的潜在特征;其次将每层潜在特征输入二阶通道注意力模块中学习相互依赖、密切度更高的关联信息,得到信息关联度高的特征;将每层的特征经过跳跃连接与解码器上采样后得到的每层重构特征进行拼接,最终得到与输入帧尺寸相同的重构帧;在得到重构伪异常帧与重构真实帧后,在其与真实帧之间进行最大最小约束,与真实帧产生对抗,最大化重构伪异常帧与真实帧之间的距离,最小化重构真实帧与真实帧之间的距离。
进一步地,所述步骤S3中通过二阶通道注意力模块得到信息关联度高的特征的具体过程为:
将特征图输入二阶通道注意力模块后,首先进行全局协方差池化操作,将输入特征改成为C×H×W的矩阵X,算出其对应的协方差矩阵∑,其公式如下所示:
其中,I和O分别是s×s的单位矩阵(对角线是1)和全1矩阵;
用∑做协方差归一化,由于此矩阵为对称正定矩阵,其特征值分解公式如下所示:
∑=UAUT
U是正交矩阵,Λ指的是特征值在不递增时的对角矩阵;
将协方差归一化转换成特征值的幂,其公式如下所示:
α表示一个正实数,Λα表示对角矩阵,当α=1时,不需要标准化,当其α<1时,会非线性的收缩大于1.0的特征值;通常设定α=0.5。
其次进入通道注意力中,经过两层卷积,第一层卷积用于通道降维,第二层卷积则用于通道还原,得到最终的二阶通道注意力向量ω,其公式如下所示:
ω=f(WUδ(WDz))
WU和WD是卷积层的权重,特征通道为C/r和C,f(·)表示sigmoid函数,δ表示RELU函数;
信道统计量z∈RC×1可以通过收缩/>得到;z的第c维公式如下所示:
其中,HGCP(·)表示全局协方差池化函数;与一阶池化相比,全局协方差池化能够获得更高阶的特征信息和更具有判别性的特征信息;
最终将二阶通道注意力向量与输入特征按通道相乘得到新的内部信息相关的特征。
进一步地,所述步骤S2中利用表观约束对噪声生成器进行优化,表观约束分为梯度约束Lgc与强度约束Lsc,其公式如下所示:
其中,a,b表示视频帧像素的横纵坐标;
由梯度约束Lgc和强度约束Lsc可得到表观约束Lapp,其公式如下所示:
Lapp=mLgc+nLsc
其中m∶n=1∶1;
具体的优化过程为:
在训练噪声生成器阶段,首先训练无噪声模块的生成器,为了拉近重构帧与真实帧的距离,固定鉴别器,在表观层面对生成器进行约束,其目标函数如下所示:
其次训练对应的鉴别器,固定生成器,使得鉴别器能够将重构帧分类为异常帧,将真实帧分类为正常帧,以此对重建帧与真实帧进行准确地分类;经过标签平滑处理后,将代表“正常”的标签异常值0和代表“异常”的标签异常值1分别替换为0.05和0.95;其损失函数为:
其中i,j是帧的索引,D(·)∈[0,1],L(·,·)表示两者之差的绝对值;
得到训练好的生成器与鉴别器后,在生成器中加入噪声模块,固定鉴别器,在表观层面加入约束函数拉远生成帧与真实帧的距离,更新噪声模块的参数,最终使得噪声生成器生成伪异常帧,其目标函数如下所示:
其中θn为噪声模块的参数。
进一步地,所述步骤S3中采用最大约束函数和最小约束函数对重构生成器进行优化,具体为:
在伪异常帧方面,采用最大约束拉远重构伪异常帧与真实帧之间的距离,通过强度约束增加重构伪异常帧与真实帧之间的像素帧间距离,通过梯度约束增加重构伪异常帧中相邻像素点距离与真实帧中相邻像素点距离的差距,同时加入了光流约束在运动层面对其进行了约束;
运动约束则为光流约束,其公式如下所示:
其中,xt表示第t帧;
最大约束公式如下所示:
λgc、λsc、λopt分别为梯度、强度以及光流的权重;
在真实帧方面,采用最小约束拉近重构真实帧与真实帧之间的距离,在表观层面拉近重构真实帧与真实帧相对应的帧间距离以及帧内距离,在运动层面提高重构真实帧与真实帧分别和上一时刻真实帧之间的光流相似度;
最小约束公式如下所示:
进一步地,所述步骤S4中利用伪异常帧和正常训练帧对重构生成器进行训练,使生成器能够提前识别异常分布,提高对异常的感知能力。在测试阶段,将测试帧输入训练好的重构生成器,生成重构的测试帧。将重构帧与真实帧进行比较,计算重构误差并归一化得到重构分数。当重构分数大于设定的阈值时,就判定该帧包含异常事件,是异常帧;相反,就判定该帧不包含异常事件,是正常帧;
重构误差的计算公式为:
S(x″)=λLapp+(1-λ)Lopt
其中λ为权重参数;
在得到重构误差后将其归一化得到重构分数:
若第t帧的重构分数小于阈值,则判定该帧为正常帧,反之,则该视频帧中包含异常事件。
本发明方法的实现中主要包括噪声生成器、重构生成器、鉴别器和二阶通道注意力模块。噪声生成器主要用于生成伪异常帧,重构生成器旨在全面学习训练视频帧的分布。此外,引入二阶通道注意模块,增强模型的学习能力。
本发明采用将视频帧进行重新构建计算重构误差的方法来对视频中的异常事件进行分类。在视频重构的异常检测方法中,常用的深度学习网络为自编码器,自编码器能够很好地得到视频帧的潜在特征并将其重构。然而自编码器在重构视频帧时会有边缘模糊的现象,为了避免这一问题,本发明采用生成对抗网络来作为整个方法中的主要模型结构,同时将自编码器作为生成器部分以保证对网络模型的稳定训练,提高重构帧的清晰度。为了使提取到的特征信息上下文关联更加密切,在生成器中加入二阶通道注意力模块,该模块通过二阶特征的分布学习特征内部依赖关系,使得检测模型能够专注于更有益的信息,最终提高检测能力。
为减少模型因为本身重构能力过强将异常帧完美重构出来这一事件的发生概率,本发明在生成对抗网络中加入一个生成器,该生成器将正常的训练帧转变成伪异常帧,以此来补充原本训练时缺乏的异常帧。让伪异常帧与原训练帧共同训练生成对抗网络中原有的生成器,从而使得该生成器能够提前学习到异常分布模式,提高对异常未知事件的感知能力。
本发明方法在训练阶段,对噪声生成器和重构生成器分别进行训练。前者利用正常训练帧生成伪异常帧,而后者通过正常训练帧和生成的伪异常帧进行训练,努力提高其重构正常帧的能力。在测试阶段,将测试帧输入经过训练的重构生成器,生成的重构分数用于对视频帧是否异常进行分类。
基于上述内容,可将本发明方法依次分为训练噪声生成器、训练重构生成器、异常帧判断三部分,具体分析如下:
训练噪声生成器:噪声生成器采用噪声模块生成伪异常帧,并通过与鉴别器博弈对抗拉近伪异常帧与正常帧之间的距离。为了使视频帧中上下文信息联系紧密,在生成器中加入二阶通道注意力模块,以获得视频帧中更有益的信息从而能够提高判别学习的能力。
训练重构生成器:用伪异常帧和正常帧训练重构生成器,并加入最大最小约束与真实帧进行对抗,拉近重构正常帧与真实帧的距离,拉远重构伪异常帧与真实帧的距离,使得重构生成器能够更好的学习正常视频帧的学习分布,并且提高对异常帧的感知能力。为了使视频帧中上下文信息联系紧密,在生成器中加入二阶通道注意力模块,以获得视频帧中更有益的信息从而能够提高判别学习的能力。
异常帧判断:利用训练好的重构生成器重构测试帧,计算重构帧与真实帧的距离并归一化得到重构分数,判断该视频帧是否是异常帧。
本发明提出了以双生成器和通道注意力机制的生成对抗网络为核心的视频异常事件检测方法。双生成器生成对抗网络构建了作用不同的两个生成器:重构生成器和噪声生成器。噪声生成器通过正常训练帧产生伪异常帧。重构生成器由生成的伪异常帧和正常训练帧共同训练,提高其对异常的感知能力。同时在生成器中引入二阶通道注意力模块,提高特征内信息的相互依赖性,改善特征图中信息的关联度。最终提升了视频异常事件检测的检测准确率。
有益效果:本发明与现有技术相比,具备如下优点:
1、本发明对以往的仅用正常帧训练模型进行了改进,设计噪声生成器生成用于训练的伪异常帧。提出双生成器和通道注意力机制的视频异常检测方法,噪声生成器生成伪异常帧后,用伪异常帧和正常帧共同训练重构生成器,使得重构生成器能够提前学习异常分布,提高对异常的感知能力。
2、本发明在双生成器生成对抗网络中,对生成器添加二阶通道注意力模块,以便模型能够更好地学习到帧内相互依赖关系,改善特征图中信息的关联度,更好地利用重要信息,最终提高异常检测准确率。
3、本发明采用最大最小约束函数,使双生成器生成对抗网络能够更好地收敛,使得训练后的模型能够在测试时使正常帧与重构帧距离相近,异常帧与其重构帧距离相远,有利于提高最终的异常检测准确率。
附图说明
图1所示为本发明的视频异常检测方法总体框架图;
图2所示为本发明的双生成器生成对抗网络的噪声生成器结构图;
图3所示为本发明的噪声生成器的噪声模块结构图;
图4所示为本发明的双生成器生成对抗网络的重构生成器结构图;
图5所示为本发明的二阶通道注意力模块结构图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明提供一种基于双生成器与通道注意力机制的视频异常检测方法,包括如下步骤:
S1:拆分视频集,得到多个帧级别的序列,并且划分为正常训练视频帧和测试视频帧;
S2:利用正常训练视频帧和鉴别器对噪声生成器进行训练,通过训练好的噪声生成器生成伪异常帧;
S3:利用伪异常帧和正常训练视频帧训练重构生成器,得到训练好的重构生成器;
S4:将测试视频帧输入到训练好的重构生成器中,得到重构帧,计算重构帧与真实帧的重构误差,根据重构误差对视频帧进行异常分类。
一、以下对步骤S2~S4进行详细说明:
步骤S2中:
如图2所示,噪声生成器包括噪声模块、生成器和二阶通道注意力模块,噪声生成器共训练两次,第一次对不含噪声模块的生成器进行训练,第二次对加入噪声模块的噪声生成器进行训练,训练方法为:生成器通过与鉴别器之间相互对抗进行训练,使生成帧无法被鉴别器区分为异常,在得到训练好的生成器后,固定生成器的参数,并在生成器中加入噪声模块,再次与鉴别器进行生成对抗,更新噪声模块的参数,得到噪声生成器。
生成器采用自编码器网络,由编码器以及解码器构成,对于生成器的训练方法为:
当正常训练视频帧输入生成器中,首先进入由池化层、卷积层以及激活函数重复构成的编码器部分,经过多次尺寸减半、通道翻倍后,得到潜在特征;
其次将潜在特征输入二阶通道注意力模块中,提高特征的相互依赖性,获得更丰富更密集的信息关联性,得到全局特征与局部特征关联紧密的特征;
最后将得到的特征输入解码器,重新构建潜在特征,输出得到与输入帧相同尺寸的图像,从而生成高质量的重构帧;
将得到的重构帧与真实帧一起输入鉴别器中,让鉴别器与生成器产生对抗,使得生成器生成的重构帧被鉴别器判定为真实帧。
如图3所示,噪声模块由三层全连接结构的自编码器构成,包括噪声模块A和噪声模块B,通过噪声模块对噪声生成器的训练方法为:
将随机噪声输入噪声模块中,进行三次卷积、批标准化以及激活函数的操作,得到适用于生成伪视频帧的噪声;
在得到训练好的生成器后,将噪声模块加入生成器中,在编码器第一次卷积池化后以及解码器最后一次上采样前采用跳跃连接,并加入噪声模块A,在得到潜在特征后加入噪声模块B,将带有噪声的潜在特征进行重新构建得到伪异常帧;
将伪异常帧与真实帧共同输入鉴别器中,让鉴别器与生成器产生对抗,最大化两帧之间的距离,其中噪声模块A和噪声模块B的尺寸与相对应的特征尺寸相同。
步骤S3中:
重构生成器的训练方法为:在重构伪异常帧和重构正常训练视频帧中分别加入最大约束函数和最小约束函数,使重构伪异常帧、重构真实帧与真实帧产生对抗,拉远重构伪异常帧与真实帧的距离,拉近重构真实帧与真实帧的距离。
如图4所示,重构生成器由自编码器与二阶通道注意力模块共同组成,其中自编码器由编码器和解码器两部分组成,采用U-net作为其网络结构,具体训练过程为:将伪异常帧与真实帧分别输入重构生成器中,首先进入编码器模块,通过多次卷积池化处理后得到每层不同尺寸不同通道数的潜在特征;其次将每层潜在特征输入二阶通道注意力模块中学习相互依赖、密切度更高的关联信息,得到信息关联度高的特征;将每层的特征经过跳跃连接与解码器上采样后得到的每层重构特征进行拼接,最终得到与输入帧尺寸相同的重构帧;在得到重构伪异常帧与重构真实帧后,在其与真实帧之间进行最大最小约束,与真实帧产生对抗,最大化重构伪异常帧与真实帧之间的距离,最小化重构真实帧与真实帧之间的距离。
如图5所示,二阶通道注意力模块是在一阶通道注意力模块的基础上,探索了二阶特征统计的注意力。采用全局协方差池化操作,并使用牛顿迭代法求解协方差归一化,以减少所需的计算资源。通过二阶通道注意力模块得到信息关联度高的特征的具体过程为:
将特征图输入二阶通道注意力模块后,首先进行全局协方差池化操作,将输入特征改成为C×H×W的矩阵X,算出其对应的协方差矩阵∑,其公式如下所示:
其中,I和O分别是s×s的单位矩阵(对角线是1)和全1矩阵;
用∑做协方差归一化,由于此矩阵为对称正定矩阵,其特征值分解公式如下所示:
∑=UAUT
U是正交矩阵,Λ指的是特征值在不递增时的对角矩阵;
将协方差归一化转换成特征值的幂,其公式如下所示:
α表示一个正实数,Λα表示对角矩阵,当α=1时,不需要标准化,当其α<1时,会非线性的收缩大于1.0的特征值;通常设定α=0.5。
其次进入通道注意力中,经过两层卷积,第一层卷积用于通道降维,第二层卷积则用于通道还原,得到最终的二阶通道注意力向量ω,其公式如下所示:
ω=f(WUδ(WDz))
WU和WD是卷积层的权重,特征通道为C/r和C,f(·)表示sigmoid函数,δ表示RELU函数;
信道统计量z∈RC×1可以通过收缩/>得到;z的第c维公式如下所示:
其中,HGCP(·)表示全局协方差池化函数;与一阶池化相比,全局协方差池化能够获得更高阶的特征信息和更具有判别性的特征信息;
最终将二阶通道注意力向量与输入特征按通道相乘得到新的内部信息相关的特征。
步骤S4中:
利用伪异常帧和正常训练帧对重构生成器进行训练,使生成器能够提前识别异常分布,提高对异常的感知能力。在测试阶段,将测试帧输入训练好的重构生成器,生成重构的测试帧。将重构帧与真实帧进行比较,计算重构误差并归一化得到重构分数。当重构分数大于设定的阈值时,就判定该帧包含异常事件,是异常帧;相反,就判定该帧不包含异常事件,是正常帧;
重构误差的计算公式为:
S(x″)=λLopp+(1-λ)Lopt
其中λ为权重参数;
在得到重构误差后将其归一化得到重构分数:
若第t帧的重构分数小于阈值,则判定该帧为正常帧,反之,则该视频帧中包含异常事件。
二、双生成器生成对抗网络的优化:
上述第一部分获得的双生成器生成对抗网络的构建过程中还需要同步进行优化,为了在训练时,双生成器生成对抗网络能够更好地收敛以达到想要的效果,使用约束函数对双生成器生成对抗网络进行约束。为了使双生成器中噪声生成器生成的伪异常帧与真实帧距离相远,重构生成器生成的重构伪异常帧与真实帧距离相远,重构真实帧与真实帧距离相近,在表观与运动层面进行约束。
步骤S2中利用表观约束对噪声生成器进行优化,表观约束分为梯度约束Lgc与强度约束Lsc,其公式如下所示:
其中,a,b表示视频帧像素的横纵坐标;
由梯度约束Lgc和强度约束Lsc可得到表观约束Lapp,其公式如下所示:
Lapp=mLgc+nLsc
其中m∶n=1∶1;
具体的优化过程为:
在训练噪声生成器阶段,首先训练无噪声模块的生成器,为了拉近重构帧与真实帧的距离,固定鉴别器,在表观层面对生成器进行约束,其目标函数如下所示:
其次训练对应的鉴别器,固定生成器,使得鉴别器能够将重构帧分类为异常帧,将真实帧分类为正常帧,以此对重建帧与真实帧进行准确地分类;经过标签平滑处理后,将代表“正常”的标签异常值0和代表“异常”的标签异常值1分别替换为0.05和0.95;其损失函数为:
其中i,j是帧的索引,D(·)∈[0,1],L(·,·)表示两者之差的绝对值;
得到训练好的生成器与鉴别器后,在生成器中加入噪声模块,固定鉴别器,在表观层面加入约束函数拉远生成帧与真实帧的距离,更新噪声模块的参数,最终使得噪声生成器生成伪异常帧,其目标函数如下所示:
其中θn为噪声模块的参数。
步骤S3中采用最大约束函数和最小约束函数对重构生成器进行优化,具体为:
在伪异常帧方面,采用最大约束拉远重构伪异常帧与真实帧之间的距离,通过强度约束增加重构伪异常帧与真实帧之间的像素帧间距离,通过梯度约束增加重构伪异常帧中相邻像素点距离与真实帧中相邻像素点距离的差距,同时加入了光流约束在运动层面对其进行了约束;
运动约束则为光流约束,其公式如下所示:
其中,xt表示第t帧;
最大约束公式如下所示:
λgc、λsc、λopt分别为梯度、强度以及光流的权重;
在真实帧方面,采用最小约束拉近重构真实帧与真实帧之间的距离,在表观层面拉近重构真实帧与真实帧相对应的帧间距离以及帧内距离,在运动层面提高重构真实帧与真实帧分别和上一时刻真实帧之间的光流相似度;
最小约束公式如下所示:
基于上述内容,为了验证本发明方案的有效性,本实施例将上述方案进行了实例应用,具体如下:
在两个公开的数据集UCSD Ped1&Ped2和CUHK Avenue上进行评估实验。数据集都包含训练集和测试集,测试集中的视频会出现异常事件。在训练阶段,输入UCSD Ped1&Ped2和CUHK Avenue的训练集,使噪声生成器能够输出伪异常帧,重构生成器则利用训练帧以及生成的伪异常帧进行训练提高其对正常帧的重构能力以及对异常的感知能力。在测试阶段,测试帧被输入到训练好的重构生成器中并得到相应的重构分数,该分数用于鉴别输入帧的正常或异常。
整个实验在NVIDIA GeForce RTX 3080Ti(12GB GPU内存)上进行,采用PyTorch深度学习框架。通过曲线下面积(area under The curve,AUC)标准对实验结果进行评价。AUC是一种用于评价二元分类器性能的指标。它表示在一定概率阈值下,分类器正确分类正样本的概率与错误分类负样本的概率之间的折线图(ROC曲线)下的面积。AUC值越大,分类器的性能越好,值为1即为完美分类。在视频异常检测算法中,AUC值越高,算法对异常的识别越准确。
本实施例中将本发明检测方法与当前先进的几种视频异常检测方法进行了对比,如表1所示。实验结果显示,本发明提供的基于双生成器和通道注意力机制的视频异常检测方法有更高的AUC,明显优于其他对比方法。
根据Ped1数据集上的实验显示,可见本发明在异常检测精度方面有一定的提高。具体而言,与R-VAE、DDGAN和Attention Prediction相比,本发明的AUC分别提高了10.7%、2.9%和1.8%。在Ped2数据集上,虽然ASTNet和SSMTL两种SOTA方法的AUC达到了97%,但与本发明相比仍有一定的差异。其他方法得到的AUC明显低于本方法。这也证实了本发明在检测Ped2异常时仍有一定的优势。
在Avenue数据集上,ASTNet的AUC仅比本发明高0.5%。SSMTL的AUC明显高于本发明,推测为该方法中使用的自我监督学习和师生模型所导致,但该方法不能使模型在训练阶段提前对异常有一定认知。其他SOTA方法的AUC明显低于本发明。
表1与其他方法的AUC对比
从实验结果中可看出由于重构生成器在训练时采用了伪视频帧进行训练,提前对异常有了一定的认知,因此在判别视频帧时,减少了异常帧被正常重构的概率,提高了本发明的AUC。
为研究噪声模块A、噪声模块B以及二阶通道注意力模块对本发明检测准确率的影响,在Ped1、Ped2和Avenue数据集上进行了不同情况下的消融实验,如表2所示。
表2各个模块的AUC对比
在这些数据集上,包含噪声生成器与重构生成器的双生成器生成对抗网络检测模型AUC高于仅重构生成器的生成对抗网络检测模型。采用二阶通道注意力模块的双生成器生成对抗网络检测模型AUC高于不存在二阶通道注意力模块的双生成器生成对抗网络检测模型。
具体而言,以不添加噪声模块A、噪声模块B以及二阶通道注意力模块的模型为基线。仅加入噪声模块A模块,三个数据集(即Ped1、Ped2、Avenue,下同)的AUC将分别提高1.9%、2.4%和0.4%。仅增加噪声模块B模块时,模型AUC分别提高0.6%,1.2%,2.2%。同时加入噪声模块A和噪声模块B时,模型AUC分别提高2.6%、3.3%和1.6%。当同时添加三个模块时,模型的性能有了很大的提高(+3.4%,+4.4%和+2.5%)。
可见在两个公共数据集上进行实验,证明了本发明方法的优越性,并表明本发明方法可以在预先学习伪异常分布后有效地检测出异常帧,上述实验数据验证了本发明方法能够有效提升视频异常事件检测的检测准确率。

Claims (10)

1.一种基于双生成器与通道注意力机制的视频异常检测方法,其特征在于,包括如下步骤:
S1:拆分视频集,得到多个帧级别的序列,并且划分为正常训练视频帧和测试视频帧;
S2:利用正常训练视频帧和鉴别器对噪声生成器进行训练,通过训练好的噪声生成器生成伪异常帧;
S3:利用伪异常帧和正常训练视频帧训练重构生成器,得到训练好的重构生成器;
S4:将测试视频帧输入到训练好的重构生成器中,得到重构帧,计算重构帧与真实帧的重构误差,根据重构误差对视频帧进行异常分类。
2.根据权利要求1所述的一种基于双生成器与通道注意力机制的视频异常检测方法,其特征在于,所述步骤S2中噪声生成器包括噪声模块、生成器和二阶通道注意力模块,噪声生成器共训练两次,第一次对不含噪声模块的生成器进行训练,第二次对加入噪声模块的噪声生成器进行训练,训练方法为:生成器通过与鉴别器之间相互对抗进行训练,使生成帧无法被鉴别器区分为异常,在得到训练好的生成器后,固定生成器的参数,并在生成器中加入噪声模块,再次与鉴别器进行生成对抗,更新噪声模块的参数,得到噪声生成器。
3.根据权利要求2所述的一种基于双生成器与通道注意力机制的视频异常检测方法,其特征在于,所述步骤S2中生成器采用自编码器网络,由编码器以及解码器构成,对于生成器的训练方法为:
当正常训练视频帧输入生成器中,首先进入由池化层、卷积层以及激活函数重复构成的编码器部分,经过多次尺寸减半、通道翻倍后,得到潜在特征;
其次将潜在特征输入二阶通道注意力模块中,得到全局特征与局部特征关联紧密的特征;
最后将得到的特征输入解码器,重新构建潜在特征,输出得到与输入帧相同尺寸的图像,从而生成高质量的重构帧;
将得到的重构帧与真实帧一起输入鉴别器中,让鉴别器与生成器产生对抗,使得生成器生成的重构帧被鉴别器判定为真实帧。
4.根据权利要求3所述的一种基于双生成器与通道注意力机制的视频异常检测方法,其特征在于,所述步骤S2中噪声模块由三层全连接结构的自编码器构成,包括噪声模块A和噪声模块B,通过噪声模块对噪声生成器的训练方法为:
将随机噪声输入噪声模块中,进行三次卷积、批标准化以及激活函数的操作,得到适用于生成伪视频帧的噪声;
在得到训练好的生成器后,将噪声模块加入生成器中,在编码器第一次卷积池化后以及解码器最后一次上采样前采用跳跃连接,并加入噪声模块A,在得到潜在特征后加入噪声模块B,将带有噪声的潜在特征进行重新构建得到伪异常帧;
将伪异常帧与真实帧共同输入鉴别器中,让鉴别器与生成器产生对抗,最大化两帧之间的距离,其中噪声模块A和噪声模块B的尺寸与相对应的特征尺寸相同。
5.根据权利要求1所述的一种基于双生成器与通道注意力机制的视频异常检测方法,其特征在于,所述步骤S3中重构生成器的训练方法为:在重构伪异常帧和重构正常训练视频帧中分别加入最大约束函数和最小约束函数,使重构伪异常帧、重构真实帧与真实帧产生对抗,拉远重构伪异常帧与真实帧的距离,拉近重构真实帧与真实帧的距离。
6.根据权利要求5所述的一种基于双生成器与通道注意力机制的视频异常检测方法,其特征在于,所述步骤S3中重构生成器由自编码器与二阶通道注意力模块共同组成,其中自编码器由编码器和解码器两部分组成,采用U-net作为其网络结构,具体训练过程为:将伪异常帧与真实帧分别输入重构生成器中,首先进入编码器模块,通过多次卷积池化处理后得到每层不同尺寸不同通道数的潜在特征;其次将每层潜在特征输入二阶通道注意力模块中学习相互依赖、密切度更高的关联信息,得到信息关联度高的特征;将每层的特征经过跳跃连接与解码器上采样后得到的每层重构特征进行拼接,最终得到与输入帧尺寸相同的重构帧;在得到重构伪异常帧与重构真实帧后,在其与真实帧之间进行最大最小约束,与真实帧产生对抗,最大化重构伪异常帧与真实帧之间的距离,最小化重构真实帧与真实帧之间的距离。
7.根据权利要求6所述的一种基于双生成器与通道注意力机制的视频异常检测方法,其特征在于,所述步骤S3中通过二阶通道注意力模块得到信息关联度高的特征的具体过程为:
将特征图输入二阶通道注意力模块后,首先进行全局协方差池化操作,将输入特征改成为C×H×W的矩阵X,算出其对应的协方差矩阵∑,其公式如下所示:
其中,I和O分别是s×s的单位矩阵和全1矩阵;
用∑做协方差归一化,由于此矩阵为对称正定矩阵,其特征值分解公式如下所示:
v=UΛUT
U是正交矩阵,Λ指的是特征值在不递增时的对角矩阵;
将协方差归一化转换成特征值的幂,其公式如下所示:
α表示一个正实数,Λα表示对角矩阵,当α=1时,不需要标准化,当其α<1时,会非线性的收缩大于1.0的特征值;
其次进入通道注意力中,经过两层卷积,第一层卷积用于通道降维,第二层卷积则用于通道还原,得到最终的二阶通道注意力向量ω,其公式如下所示:
ω=f(WUδ(WDz))
WU和WD是卷积层的权重,特征通道为C/r和C,f(·)表示sigmoid函数,δ表示RELU函数;
信道统计量z∈RC×1可以通过收缩/>得到;z的第C维公式如下所示:
其中,HGCP(·)表示全局协方差池化函数;
最终将二阶通道注意力向量与输入特征按通道相乘得到新的内部信息相关的特征。
8.根据权利要求1所述的一种基于双生成器与通道注意力机制的视频异常检测方法,其特征在于,所述步骤S2中利用表观约束对噪声生成器进行优化,表观约束分为梯度约束Lgc与强度约束Lsc,其公式如下所示:
其中,a,b表示视频帧像素的横纵坐标;
由梯度约束Lgc和强度约束Lsc可得到表观约束Lapp,其公式如下所示:
Lapp=mLgc+nLsc
其中m:n=1:1;
具体的优化过程为:
在训练噪声生成器阶段,首先训练无噪声模块的生成器,为了拉近重构帧与真实帧的距离,固定鉴别器,在表观层面对生成器进行约束,其目标函数如下所示:
其次训练对应的鉴别器,固定生成器,使得鉴别器能够将重构帧分类为异常帧,将真实帧分类为正常帧,以此对重建帧与真实帧进行准确地分类;经过标签平滑处理后,将代表“正常”的标签异常值0和代表“异常”的标签异常值1分别替换为0.05和0.95;其损失函数为:
其中i,j是帧的索引,D(·)∈[0,1],L(·,·)表示两者之差的绝对值;
得到训练好的生成器与鉴别器后,在生成器中加入噪声模块,固定鉴别器,在表观层面加入约束函数拉远生成帧与真实帧的距离,更新噪声模块的参数,最终使得噪声生成器生成伪异常帧,其目标函数如下所示:
其中θn为噪声模块的参数。
9.根据权利要求5所述的一种基于双生成器与通道注意力机制的视频异常检测方法,其特征在于,所述步骤S3中采用最大约束函数和最小约束函数对重构生成器进行优化,具体为:
在伪异常帧方面,采用最大约束拉远重构伪异常帧与真实帧之间的距离,通过强度约束增加重构伪异常帧与真实帧之间的像素帧间距离,通过梯度约束增加重构伪异常帧中相邻像素点距离与真实帧中相邻像素点距离的差距,同时加入了光流约束在运动层面对其进行了约束;
运动约束则为光流约束,其公式如下所示:
其中,xt表示第t帧;
最大约束公式如下所示:
λsgc、λsc、λopt分别为梯度、强度以及光流的权重;
在真实帧方面,采用最小约束拉近重构真实帧与真实帧之间的距离,在表观层面拉近重构真实帧与真实帧相对应的帧间距离以及帧内距离,在运动层面提高重构真实帧与真实帧分别和上一时刻真实帧之间的光流相似度;
最小约束公式如下所示:
10.根据权利要求9所述的一种基于双生成器与通道注意力机制的视频异常检测方法,其特征在于,所述步骤S4中重构误差的计算公式为:
S(x”)=λLapp+(1-λ)Lopt
其中λ为权重参数;
在得到重构误差后将其归一化得到重构分数:
若第t帧的重构分数小于阈值,则判定该帧为正常帧,反之,则该视频帧中包含异常事件。
CN202310622716.4A 2023-05-30 2023-05-30 一种基于双生成器与通道注意力机制的视频异常检测方法 Pending CN116665099A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310622716.4A CN116665099A (zh) 2023-05-30 2023-05-30 一种基于双生成器与通道注意力机制的视频异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310622716.4A CN116665099A (zh) 2023-05-30 2023-05-30 一种基于双生成器与通道注意力机制的视频异常检测方法

Publications (1)

Publication Number Publication Date
CN116665099A true CN116665099A (zh) 2023-08-29

Family

ID=87720042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310622716.4A Pending CN116665099A (zh) 2023-05-30 2023-05-30 一种基于双生成器与通道注意力机制的视频异常检测方法

Country Status (1)

Country Link
CN (1) CN116665099A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117079079A (zh) * 2023-09-27 2023-11-17 中电科新型智慧城市研究院有限公司 视频异常检测模型的训练方法、视频异常检测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117079079A (zh) * 2023-09-27 2023-11-17 中电科新型智慧城市研究院有限公司 视频异常检测模型的训练方法、视频异常检测方法及系统
CN117079079B (zh) * 2023-09-27 2024-03-15 中电科新型智慧城市研究院有限公司 视频异常检测模型的训练方法、视频异常检测方法及系统

Similar Documents

Publication Publication Date Title
Liu et al. A hybrid video anomaly detection framework via memory-augmented flow reconstruction and flow-guided frame prediction
Chen et al. Integrating the data augmentation scheme with various classifiers for acoustic scene modeling
Rahmon et al. Motion U-Net: Multi-cue encoder-decoder network for motion segmentation
Putra et al. Convolutional neural network for person and car detection using yolo framework
CN112164054A (zh) 基于知识蒸馏的图像目标检测方法和检测器及其训练方法
Li et al. Detection-friendly dehazing: Object detection in real-world hazy scenes
CN111027576B (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
CN113537027B (zh) 基于面部划分的人脸深度伪造检测方法及系统
CN116311483B (zh) 基于局部面部区域重构和记忆对比学习的微表情识别方法
CN116665099A (zh) 一种基于双生成器与通道注意力机制的视频异常检测方法
CN115527150A (zh) 一种结合卷积注意力模块的双分支视频异常检测方法
CN114565594A (zh) 基于软掩膜对比损失的图像异常检测方法
Hongmeng et al. A detection method for deepfake hard compressed videos based on super-resolution reconstruction using CNN
Zhu et al. An object detection method combining multi-level feature fusion and region channel attention
CN113989709A (zh) 目标检测方法及装置、存储介质、电子设备
US11954917B2 (en) Method of segmenting abnormal robust for complex autonomous driving scenes and system thereof
CN113505640A (zh) 一种基于多尺度特征融合的小尺度行人检测方法
Ren et al. Student behavior detection based on YOLOv4-Bi
CN114120202B (zh) 一种基于多尺度目标模型和特征融合的半监督视频目标分割方法
Lu et al. Research on Lip Recognition Algorithm Based on Optimized MobileNet
Li et al. Refined division features based on Transformer for semantic image segmentation
Du et al. Bag of tricks for building an accurate and slim object detector for embedded applications
Li et al. Pyramid convolution and multi-frequency spatial attention for fine-grained visual categorization
Fu et al. Surface Defect Detection Based on ResNet Classification Network with GAN Optimized
Liu et al. MFANet: Multifaceted feature aggregation network for oil stains detection of high-speed trains

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination