CN113869182A - 一种视频异常检测网络及其训练方法 - Google Patents

一种视频异常检测网络及其训练方法 Download PDF

Info

Publication number
CN113869182A
CN113869182A CN202111120381.3A CN202111120381A CN113869182A CN 113869182 A CN113869182 A CN 113869182A CN 202111120381 A CN202111120381 A CN 202111120381A CN 113869182 A CN113869182 A CN 113869182A
Authority
CN
China
Prior art keywords
feature
time
normal
videos
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111120381.3A
Other languages
English (en)
Other versions
CN113869182B (zh
Inventor
范哲意
易淑涵
吴迪
刘志文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202111120381.3A priority Critical patent/CN113869182B/zh
Publication of CN113869182A publication Critical patent/CN113869182A/zh
Application granted granted Critical
Publication of CN113869182B publication Critical patent/CN113869182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

一种视频异常检测网络的训练方法,包括:对训练集中的所有视频进行原始特征提取,获得维度统一的原始特征;选取b个正常视频原始特征和b个异常视频原始特征处理,得到2b个时间特征f;基于时间特征f,获得异常分数;对2b个时间特征f进行维度变换;基于b个时间特征fn组成的正常包和b个时间特征fa组成的异常包,计算正常包中的时间特征的均值和标准差,再用该均值和标准差对两个包同时进行标准化,并计算二范数,输出正常包的b个时间特征量级和异常包的b个时间特征量级;以及计算损失函数,最小化损失函数来调整视频异常检测网络的参数。然后重新选取b个正常视频的原始特征和b个异常视频的原始特征进行参数调整,直至训练至网络拟合。

Description

一种视频异常检测网络及其训练方法
技术领域
本发明涉及一种图像处理技术,更具体地,涉及一种视频异常检测网络和视频异常检测网络的训练方法。
背景技术
随着经济的飞速发展,视频监控的数量呈爆炸式增长。监控设备记录下的生活中的异常事件或行为层出不穷,如在校园人行区驾驶机动车辆或者骑自行车,公共区域发生爆炸或者火灾,商业区域的偷盗、抢劫等行为。为了及时检测到异常并定位这些异常发生的时间,人们通常是手动查看监控视频,逐帧浏览监控视频以获取关于异常的信息,然而监控视频的数量繁多,依靠人力很难及时检测异常,更不能实时监控异常。随着国家对于公共安全的日益重视,视频异常检测得到了越来越广泛的关注,它能够通过提取视频图像中的特征自动检测监控视频中异常行为,在智能安防、公共安全管理等方面发挥着重要作用。
近年来,随着深度学习的飞速发展,卷积神经网络已广泛应用于图像分类,目标检测,图像迁移学习等多个计算机视觉领域,也在视频异常检测方向取得了重大进展。卷积神经网络可以自动提取视频图像中的高级特征,无需手动定义和提取特征。
目前的基于卷积神经网络的方法主要分为半监督方法和弱监督方法。
半监督方法在过去一直是研究的重点,它仅利用正常事件作为训练数据,通过对正常事件的典型模式建模,不符合此模式的行为被判断为异常。然而半监督方法存在以下几个问题:第一,生活中的正常事件是无穷无尽的,不可能在训练模型时考虑到所有的正常事件,模型容易将没见过的正常事件也判别为异常,因此容易造成检测时虚报率高。第二,大多数半监督方法使用自编码器,由于卷积神经网络的泛化能力过强,容易发生异常的漏检的情况,形成安全隐患。第三,半监督方法没有引入异常数据参与训练,其准确率通常不高。
卷积神经网络的弱监督异常检测方法使得群体计数视频异常检测有了新的发展。目前广泛使用的基于多示例学习的弱监督异常检测将一个视频视为一个包,视频里面的若干片段看成包里的多个实例,正常包中全部都是正常数据,而异常包中有正常数据也有异常数据。但是这种方法通常只考虑了包和实例级别的数据关系,而忽略了批级别的数据分布关系,导致正常数据和异常数据不能很好地被分开,造成准确率欠佳的情况,限制了视频异常检测算法在现实世界中的应用。
因此,需要一种高效且准确的视频异常检测方法。
发明内容
本发明是为了解决上述问题而提出的,其目的在于提供一种视频异常检测网络,所述网络包括:
多尺度时间特征网络,处理从维度统一为10*t*2048的视频选取的b个正常视频的原始特征和b个异常视频的原始特征,得到2b个时间特征f,其维度保持不变;
全连接神经网络,处理多尺度时间特征网络输出的2b个时间特征f,基于式(1)至(3)获得异常分数S,
Figure BDA0003276854400000021
Figure BDA0003276854400000022
Figure BDA0003276854400000023
Figure BDA0003276854400000024
分别为时间特征f的权重和偏置,
Figure BDA0003276854400000025
分别为时间特征
Figure BDA0003276854400000026
的权重和偏置,
Figure BDA0003276854400000027
分别为时间特征
Figure BDA0003276854400000028
的权重和偏置,D()表示dropout操作;
时间特征维度变换模块,变换多尺度时间特征网络输出的2b个时间特征f的维度,输出维度为10*k*2048的b个正常视频的时间特征fn组成正常包,以及维度为10*k*2048的b个异常视频的时间特征fa组成异常包,其中,k<t;
时间特征标准化模块,计算时间特征fn的各个通道的均值
Figure BDA0003276854400000029
和标准差
Figure BDA00032768544000000210
γ表示通道数,如式(4),(5)所示:
Figure BDA00032768544000000211
Figure BDA00032768544000000212
利用所求的
Figure BDA00032768544000000213
Figure BDA00032768544000000214
对正常包的各个通道的时间特征
Figure BDA00032768544000000215
和异常包的各个通道的时间特征
Figure BDA0003276854400000031
进行标准化操作得到标准化后的特征
Figure BDA0003276854400000032
Figure BDA0003276854400000033
如式(6),(7)所示:
Figure BDA0003276854400000034
Figure BDA0003276854400000035
利用二范数计算时间特征
Figure BDA0003276854400000036
Figure BDA0003276854400000037
的量级Dn和Da,如式(8),(9)所示:
Figure BDA0003276854400000038
Figure BDA0003276854400000039
以及
损失函数计算模块,基于时间特征标准化模块获得的时间特征
Figure BDA00032768544000000310
Figure BDA00032768544000000311
的量级Dn和Da以及全连接神经网络获得的异常分数S来计算损失函数L,如式(10)所示:
L=λ1Lseparate2Ltirplet3Lcls (10)
其中,λ1表示Lseparate的系数,λ2表示Ltirplet的系数,λ3表示Lcls的系数,
Lseparate是多实例学习排序损失,如式(11):
Lseparate=max{0,ε-(Da-Dn)} (11)
其中,ε表示可调的超参数,
Ltriplet是三元组损失,如式(15):
Figure BDA00032768544000000312
d1=||Dn-(Da)1||1 (13)
d0=||Dn-(Da)0||1 (14)
Ltriplet=max{0,d1-d0+θ} (15)
其中,θ表示表示可调的超参数,Da是b个异常包的时间特征量级,Dn是b个正常包的时间特征量级Dn,以1为阈值,当时间特征量级的差值大于1时,则记为(Da)0,当时间特征量级的差值小于1时,则记为(Da)1,d1为正常包与(Da)1的距离,d0为正常包与(Da)0的距离,
Lcls是交叉熵损失,利用全连接神经网络获得的2b个异常分数S和对应的视频标签y计算,如式(16):
Lcls=-[ylog(S)+(1-y)log(1-S)] (16)。
为了达到上述发明目的,根据本发明的一方面,提供一种视频异常检测网络的训练方法,所述方法包括:从维度统一为10*t*2048的视频选取b个正常视频的原始特征和b个异常视频的原始特征;处理b个正常视频的原始特征和b个异常视频的原始特征,得到2b个时间特征f,其维度保持不变;处理2b个时间特征f,基于式(1)至(3)获得异常分数S;变换2b个时间特征f的维度,输出维度为10*k*2048的b个正常视频的时间特征fn组成正常包,以及维度为10*k*2048的b个异常视频的时间特征fa组成异常包,其中,k<t;计算时间特征fn的各个通道的均值
Figure BDA0003276854400000041
和标准差
Figure BDA0003276854400000042
γ表示通道数,如式(4),(5)所示,利用所求的
Figure BDA0003276854400000043
Figure BDA0003276854400000044
对正常包的各个通道的时间特征
Figure BDA0003276854400000045
和异常包的各个通道的时间特征
Figure BDA0003276854400000046
进行标准化操作得到标准化后的特征
Figure BDA0003276854400000047
Figure BDA0003276854400000048
如式(6),(7)所示,利用二范数计算时间特征
Figure BDA0003276854400000049
Figure BDA00032768544000000410
的量级Dn和Da,如式(8),(9)所示,以及基于获得时间特征
Figure BDA00032768544000000411
Figure BDA00032768544000000412
的量级Dn和Da以及异常分数S来计算损失函数,如式(10),通过最小化损失函数来调整视频异常检测网络的参数;再次从维度统一为10*t*2048的视频选取的b个正常视频的原始特征和b个异常视频的原始特征,以进行迭代处理,继续调整视频异常检测网络的参数至最优,直至将视频异常检测网络训练至网络拟合。
附图说明
图1示出根据本公开的实施例的视频异常检测网络的框图;
图2示出根据本公开的实施例的多尺度时间特征网络的结构;
图3示出根据本公开的实施例的特征标准化模块的结构;
图4示意性地示出使用测试集中的视频进行测试的结果;以及
图5示出根据本公开的实施例的视频异常检测网络的训练方法的流程图。
具体实施方式
在本公开中,将参照附图描述本公开的各种实施例。然而,应当理解,本公开不限于这些特定实施例,而是还包括其各种修改、等同形式和/或替代形式。
图1示出根据本公开的实施例的视频异常检测网络的框图。
参照图1,视频异常检测网络包括多尺度时间特征网络10、全连接神经网络20、时间特征维度变换模块30、时间特征标准化模块40以及损失函数计算模块50。
首先,需要获取数据集,构建训练集和测试集。可以通过各种方式获得数据集,例如,通过网络下载,或者通过本地数据库获取。通常情况下,数据集已经包括训练集和测试集。如果获取的数据集尚未划分训练集和测试集,需自行划分。按照训练集和测试集相互独立且均为数据集的子集的方式划分即可。
在本发明的一个实施例中,可以下载公开数据集ShanghaiTech,该公开数据集中包括已分好的训练集和测试集,训练集和测试集互相独立,且均为公开数据集的子集。参照训练集中包含238个视频,其中正常视频175个,异常视频63个。测试集中包含199个视频,其中正常视频155个,异常视频44个。
将训练集输入原始特征提取模块,以进行原始特征提取。原始特征提取模块对训练集中的所有视频进行原始特征提取,以将所有视频转换为对应的高维原始特征,每个视频对应一个原始特征,便于后续建模计算。首先,对视频中的每个视频帧进行预处理,将每个视频帧从中间,左上,右上,左下,右下五个方向裁剪,再镜面翻转,得到数据增强后的视频数据。然后,每个视频被分为若干个视频片段,按照经验可以选择每个视频片段包括16个视频帧,根据情况,也可以包括其他数量的视频帧。以视频片段为单位进行特征提取,利用Inflated 3D网络提取10*t*2048维的原始特征。其中,10表示将一个视频经过数据增强操作后变为10个新样本,t表示一个视频中视频片段的数量,2048表示一个视频片段的维度,即训练集最终得到了来自不同视频的多个原始特征。为了统一这些原始特征的维度,将提取的原始特征进行通道缩放。为了便于处理,根据经验可以将每个视频中视频片段数量统一为32,最终每个视频转换为10*32*2048维的原始特征。
在根据本发明的一个实施例中,对公开数据集ShanghaiTech的训练集进行处理的情况下,对训练集中的238个视频进行原始特征提取,最终视频特征维度转换为10*32*2048,即原始特征提取模块将输出238个维度为10*32*2048的原始特征。
原始特征提取模块输出的原始特征被输入训练视频异常检测网络,以训练视频异常检测网络直至网络拟合。
训练视频异常检测网络的优化算法是批量梯度下降法,每次迭代时,随机选取原始特征提取模块提取的正常视频的特征中的b个正常视频的原始特征和原始特征提取模块提取的异常视频的特征中的b个异常视频的原始特征输入训练视频异常检测网络,其中,b是自然数,小于正常视频的数量且小于异常视频的数量。
首先,b个正常视频的原始特征和b个异常视频的原始特征被输入训练视频异常检测网络的多尺度时间特征网络10。
图2是多尺度时间特征网络10的结构。多尺度时间特征网络10包括空洞卷积模块和自注意力模块。
将选取的b个正常视频的原始特征和b个异常视频的原始特征输入多尺度时间特征网络,得到2b个时间特征f,其维度保持不变,仍为10*32*2048。
在构建多尺度时间特征网络时,利用空洞卷积模块和自注意力模块在多层次、有选择地学习原始特征。空洞卷积是在传统卷积核间加入空洞,使得卷积核采样不连续,空洞卷积的使用能够在不增加参数的前提下,扩大卷积核的感受野,膨胀倍率决定了感受野的大小,当设置不同膨胀倍率时,可提取多尺度信息。自注意力模块则是旨在获取视频片段之间的全局时间依赖性,通过生成注意力图来估计片段间的关系。具体操作如下:
空洞卷积模块包括三个空洞卷积层1-3。将原始特征提取模块提取的原始特征输入空洞卷积模块,如上所述,该原始特征的维度为10*32*2048,将其分别输入空洞卷积层1,2,3,分别得到三个输出特征P1,P2,P3,其维度均为10*32*512。
自注意力模块包括五个卷积层4-8。将原始特征提取模块提取的原始特征输入自注意力模块的卷积层4,得到特征P4,其维度为10*32*512;
将得到的特征P4分别输入卷积层5,6,7,分别得到三个输出P5,P6,P7,其维度均为10*32*256;
将特征P6转置后与P7做矩阵乘法,得到特征P8,其维度为10*32*32;
将特征P8与P5做矩阵乘法,得到特征P9,其维度为10*32*256;
将特征P9输入卷积层8,得到特征P10,其维度为10*32*512;
将特征P10与P4做矩阵加法,得到特征P11,其维度为10*32*512。
然后,将空洞卷积模块输出的特征P1,P2,P3与自注意力模块输出的特征P11连接,得到特征P12,其维度为10*32*2048;
将特征P12输入卷积层9,得到特征P13,其维度为10*32*2048;
将特征P13与原始特征提取模块提取的原始特征做矩阵加法,得到时间特征f,其维度保持为10*32*2048。
在空洞卷积模块中,Conv1d表示1维卷积层,A,B,d=C表示卷积核大小为A,输出特征通道数为B,膨胀倍率为C。空洞卷积模块中空洞卷积层1-3具体如下:
空洞卷积层1:Conv1d:3,512,d=1;
空洞卷积层2:Conv1d:3,512,d=2;
空洞卷积层3:Conv1d:3,512,d=4。
在自注意力模块中,Conv1d表示1维卷积层,A,B表示卷积核大小为A,输出特征通道数为B。自注意力模块中的卷积层4-8具体如下:
卷积层4:Conv1d:1,512;
卷积层5:Conv1d:1,256;
卷积层6:Conv1d:1,256;
卷积层7:Conv1d:1,256;
卷积层8:Conv1d:1,512。
另外,卷积层9具体如下:
卷积层9:Conv1d:3,2048。
经过上述处理,多尺度时间特征网络10输出2b个时间特征f。
将多尺度时间特征网络10输出的2b个维度为10*32*2048的时间特征f输入全连接神经网络20,获得异常分数S。具体地,首先,基于时间特征f生成时间特征
Figure BDA0003276854400000071
如式(1)所示,
Figure BDA0003276854400000072
分别为前向传播过程中时间特征f的权重和偏置,D()表示dropout操作,其保留神经元的概率设置为0.7。在此过程中,2b个时间特征f的变为了2b个维度为10*32*512的时间特征
Figure BDA0003276854400000073
接着如式(2)所示得到时间特征
Figure BDA0003276854400000074
分别为前向传播过程中时间特征
Figure BDA0003276854400000075
的权重和偏置,D()表示dropout操作,其保留神经元的概率设置为0.7。在此过程中,2b个时间特征
Figure BDA0003276854400000076
的变为了2b个维度为10*32*128的时间特征
Figure BDA0003276854400000077
最终得到如式(3)所示异常分数S,
Figure BDA0003276854400000078
分别为前向传播过程中时间特征
Figure BDA0003276854400000079
的权重和偏置,D()表示dropout操作,其保留神经元的概率设置为0.7。在此过程中,2b个时间特征
Figure BDA00032768544000000710
的变为了2b个维度为10*32*1的异常分数S。
Figure BDA00032768544000000711
Figure BDA00032768544000000712
Figure BDA00032768544000000713
获得的异常分数S将用于计算交叉熵损失函数。将在下面损失函数计算模块50的计算中详细描述。
接下来,将多尺度时间特征网络10输出的2b个维度为10*32*2048的时间特征f输入时间特征维度变换模块30,时间特征维度变换模块30将经过维度变换的时间特征送入时间特征标准化模块40。
具体地,由于时间特征f中时间维度里最大的k个值对此时间特征的影响很大,因此为了提高网络计算效率,选取时间特征f在时间维度上最大的k个值送入时间特征标准化模块40,其维度为10*k*2048,根据经验,可以选取k=3。当然,根据不同的应用场景,k可以选取不同值。时间特征维度变换模块30将正常视频的时间特征f命名为fn,异常视频的时间特征f命名为fa,输出维度为10*k*2048的b个正常视频的时间特征fn组成正常包,以及维度为10*k*2048的b个异常视频的时间特征fa组成异常包。
在构建时间特征标准化模块40时,利用标准化操作使得正常特征聚拢,促进异常和正常特征的分离,更好地检测出异常。由于正常包和异常包中的正常时间特征具有相似的数据分布情况,因此通过标准化操作能够使异常包中的正常时间特征较好地聚合,增大正常时间特征与异常时间特征的距离。
基于时间特征维度变换模块30输出的维度为10*k*2048的b个时间特征fn组成的正常包和b个时间特征fa组成的异常包,时间特征标准化模块40首先计算出正常包中的时间特征的均值和标准差,再用该均值和标准差对两个包同时进行标准化,并计算二范数,时间特征标准化模块40最终输出b个特征量级Dn和Da。下面参照图3对时间特征标准化模块40进行描述,具体如下:
首先计算时间特征fn的各个通道的均值
Figure BDA0003276854400000081
和标准差
Figure BDA0003276854400000082
右上角的n表示特征的类别为正常,γ表示通道数,如式(4),(5)所示。
Figure BDA0003276854400000083
Figure BDA0003276854400000084
利用所求的
Figure BDA0003276854400000085
Figure BDA0003276854400000086
对正常包的各个通道的时间特征
Figure BDA0003276854400000087
和异常包的各个通道的时间特征
Figure BDA0003276854400000088
进行标准化操作得到标准化后的特征
Figure BDA0003276854400000089
Figure BDA00032768544000000810
标准化公式如式(6),(7)所示。
Figure BDA00032768544000000811
Figure BDA00032768544000000812
时间特征的量级可以用来表示时间特征的大小,利用二范数计算时间特征
Figure BDA00032768544000000813
Figure BDA00032768544000000814
的量级Dn和Da,如式(8),(9)所示。
Figure BDA00032768544000000815
Figure BDA00032768544000000816
基于时间特征标准化模块40获得的时间特征
Figure BDA0003276854400000093
Figure BDA0003276854400000092
的量级Dn和Da以及全连接神经网络20获得的异常分数S来计算用于训练本发明的视频异常检测网络的损失函数。在训练网络时,考虑了多个部分共同作为损失函数L。损失函数计算模块50如式(10)计算损失函数L,通过最小化损失函数L将视频异常检测网络的参数调至最优。
L=λ1Lseparate2Ltirplet3Lcls (10)
其中,λ1表示Lseparate的系数,λ2表示Ltirplet的系数,λ3表示Lcls的系数。在此可以取λ1=0.0005,λ2=0.01,λ3=1。
Lseparate是多实例学习排序损失,如式(11)。
Lseparate=max{0,ε-(Da-Dn)} (11)
其中,ε表示可调的超参数,在此可以取ε=100。
Ltriplet是三元组损失,获得Ltriplet的计算分为两步。由于通常异常视频的时间特征量级大于正常视频的时间特征量级,所以对时间特征标准化模块40的b个异常包的时间特征量级Da和b个正常包的时间特征量级Dn做差,以1为阈值,当时间特征量级的差值大于1时,则粗略认为此时间特征具有明显的异常特征,记为(Da)0。当时间特征量级的差值小于1时,则认为此时间特征不具有明显的异常特征,可以认为其与正常包时间特征接近,记为(Da)1,如式(12)。因此,对正常包,(Da)1,(Da)0三者可做三元组损失,首先将正常包与(Da)1的距离记为d1,将正常包与(Da)0的距离记为d0,再对d1和d0计算三元组损失,如式(13)-(15)。
Figure BDA0003276854400000091
d1=||Dn-(Da)1||1 (13)
d0=||Dn-(Da)0||1 (14)
Ltriplet=max{0,d1-d0+θ} (15)
其中,θ表示表示可调的超参数,在此可以取θ=5。
Lcls是交叉熵损失,利用全连接神经网络20获得的2b个异常分数S和对应的视频标签y计算,如式(16)。
Lcls=-[ylog(S)+(1-y)log(1-S)] (16)
其中,视频标签y可以从数据集中直接获得。
可以最小化损失函数计算模块50计算的损失函数L调整视频异常检测网络的参数。
然后重新选取b个正常视频的原始特征和b个异常视频的原始特征被输入训练视频异常检测网络进行网络训练,继续调整视频异常检测网络的参数至最优,直至将视频异常检测网络训练至网络拟合,可以将测试集的视频输入训练后的视频异常检测网络,预测异常事件。
在训练视频异常检测网络时,可以在每五次训练迭代之后(可以根据训练集的视频数量调整迭代次数),将测试集的测试视频输入视频异常检测网络,得到预测的异常分数曲线,异常分数大于0.5视为检测出的异常,反之视为正常。根据生成的异常分数曲线和真实标签,绘制ROC曲线并计算对应的AUC值,即预测异常的准确率。
表1:根据实验结果统计的迭代次数与准确率之间的关系表。
迭代次数 准确率(%)
325 94.83
7220 96.62
20000 97.65
可以参照图4A-图4C的预测的异常分数曲线,图4A中灰色区域表示真实的异常出现的视频范围,对应的异常视频帧区域大致是85-370帧,图4A中曲线为预测的异常分数曲线,超过阈值线的异常分数为检测出的异常视频帧。可以看到,本发明的视频异常检测网络可以准确地检测到异常。以330帧为例说明对应的异常事件的情况,该处异常分数较高,对应的异常事件为人行道上有两个青年骑滑板经过。
图4B中灰色区域表示真实的异常出现的视频范围,对应的异常视频帧区域大致是80-600帧,图4B中曲线为预测的异常分数曲线,超过阈值线的异常分数为检测出的异常视频帧。可以看到,模型可以准确地检测到异常。以350帧为例说明对应的异常事件的情况,该处异常分数较高,对应的异常事件分别为有人骑自行车经过和有人推着婴儿车经过。
图4C中没有灰色区域,表明该视频没有异常行为,是正常视频。图4C中几乎看不到曲线,表示预测的异常分数接近于0,模型准确地检测出了此视频为正常视频。
根据本发明的视频异常检测网络,时间特征标准化模块可以将正常时间特征和异常时间特征均以正常时间特征的均值和标准差进行标准化。对正常包而言,标准化可以聚拢包内时间特征。对异常包而言,由于交叉熵损失Lcls损失的目的是扩大实例间的距离,而异常视频中的正常实例和异常实例的异常分数在训练早期相似度高,交叉熵损失Lcls不可避免地会产生错误的标签分配。因此,异常包内的正常实例的类内距离也扩大了,这将降低测试阶段的检测精度。而标准化操作使得异常包内的正常时间特征学习正常包内的正常时间特征,减小其类内距离。虽然异常时间特征也因为标准化一定程度上聚拢了,但是其聚拢程度显著小于正常数据,因此该操作也增大了正常时间特征和异常时间特征的类间距离,增强了模型鉴别异常的能力。
另外,在损失函数L中加入三元组损失Ltriplet则是对异常包和正常包做差,拟认为异常包中差值大于阈值的包具有明显的异常特性,而差值小于阈值的包不具有明显的异常特性。利用三元组损失减小正常包和不具有明显异常特性的包的距离,增大正常包和具有明显异常特征的包的距离,提高了视频异常检测的准确性。
图5示出根据本公开的实施例的视频异常检测网络的训练方法的流程图。
在步骤S501,获取数据集,构建训练集和测试集,并且对训练集中的所有视频进行原始特征提取,最终每个视频转换为维度为10*32*2048的原始特征。具体实现方式在上面已经进行详细描述,在此不再赘述。
在步骤S502,从步骤S501提取的特征选取b个正常视频的原始特征和b个异常视频的原始特征进行处理,得到2b个时间特征f,其维度保持不变,仍为10*32*2048。具体实现方式在上面已经进行详细描述,在此不再赘述。
在步骤S503,基于步骤S502获得的2b个维度为10*32*2048的时间特征f,获得异常分数S。具体实现方式在上面已经进行详细描述,在此不再赘述。
接下来,在步骤S504,对步骤S502获得的2b个维度为10*32*2048的时间特征f进行维度变换,输出维度为10*k*2048的b个正常视频的时间特征fn组成正常包,以及维度为10*k*2048的b个异常视频的时间特征fa组成异常包。具体实现方式在上面已经进行详细描述,在此不再赘述。
然后,在步骤S505,基于输出的维度为10*k*2048的b个时间特征fn组成的正常包和b个时间特征fa组成的异常包,首先计算出正常包中的时间特征的均值和标准差,再用该均值和标准差对两个包同时进行标准化,并计算二范数,最终输出正常包的b个时间特征量级Dn和异常包的b个时间特征量级Da。具体实现方式在上面已经进行详细描述,在此不再赘述。
在步骤S506,计算损失函数L。具体地,基于步骤S505获得时间特征
Figure BDA0003276854400000111
Figure BDA0003276854400000112
的量级Dn和Da以及步骤S503获得的异常分数S来计算损失函数。损失函数L的计算公式如上面的公式(10)所示。通过最小化损失函数L来调整视频异常检测网络的参数。具体实现方式在上面已经进行详细描述,在此不再赘述。
然后返回步骤S502重新选取b个正常视频的原始特征和b个异常视频的原始特征进行处理,继续调整视频异常检测网络的参数至最优,直至将视频异常检测网络训练至网络拟合,可以将测试集的视频输入训练后的视频异常检测网络,预测异常事件。
在训练时,可以在每五次训练迭代之后(可以根据训练集的视频数量调整迭代次数),将测试集的测试视频输入视频异常检测网络,得到预测的异常分数曲线,异常分数大于0.5视为检测出的异常,反之视为正常。根据生成的异常分数曲线和真实标签,绘制ROC曲线并计算对应的AUC值,即预测异常的准确率。
本公开的实施例可以被写为计算机程序,并且可以在使用计算机可读记录介质执行程序的通用数字计算机中实现。
在这种状态下,介质可以连续地存储可以由计算机执行的程序,或者可以临时地存储用于执行或下载的程序。此外,介质可以是在组合了单个或多个硬件的各种记录设备或存储设备,不限于直接接入计算机系统的介质,并且可以以分布方式存在于网络。介质的示例包括被配置为存储程序指令的磁存储介质(诸如软盘或硬盘)、光学记录介质(诸如CD-ROM或DVD)、磁光介质(诸如软盘)以及Rom、RAM、闪存等。此外,其他介质的示例可以包括:用于分发应用程序的应用程序商店,用于提供或分发其他各种软件的站点,以及在服务器处管理的记录介质或存储介质。
尽管已经参考使用特定术语的优选实施例来具体示出和描述了本公开,但是应当仅以描述性的意义考虑实施例和术语,而不是出于限制的目的。因此,本领域普通技术人员将理解,在不脱离由所附权利要求限定的本公开的精神和范围的情况下,可以在形式和细节上进行各种改变。

Claims (8)

1.一种视频异常检测网络,所述网络包括:
多尺度时间特征网络,处理从维度统一为10*t*2048的视频选取的b个正常视频的原始特征和b个异常视频的原始特征,得到2b个时间特征f,其维度保持不变;
全连接神经网络,处理多尺度时间特征网络输出的2b个时间特征f,基于式(1)至(3)获得异常分数S,
Figure FDA0003276854390000011
Figure FDA0003276854390000012
Figure FDA0003276854390000013
Figure FDA0003276854390000014
分别为时间特征f的权重和偏置,
Figure FDA0003276854390000015
分别为时间特征
Figure FDA0003276854390000016
的权重和偏置,
Figure FDA0003276854390000017
分别为时间特征
Figure FDA0003276854390000018
的权重和偏置,D()表示dropout操作;
时间特征维度变换模块,变换多尺度时间特征网络输出的2b个时间特征f的维度,输出维度为10*k*2048的b个正常视频的时间特征fn组成正常包,以及维度为10*k*2048的b个异常视频的时间特征fa组成异常包,其中,k<t;
时间特征标准化模块,计算时间特征fn的各个通道的均值
Figure FDA0003276854390000019
和标准差
Figure FDA00032768543900000110
γ表示通道数,如式(4),(5)所示:
Figure FDA00032768543900000111
Figure FDA00032768543900000112
利用所求的
Figure FDA00032768543900000113
Figure FDA00032768543900000114
对正常包的各个通道的时间特征
Figure FDA00032768543900000115
和异常包的各个通道的时间特征
Figure FDA00032768543900000116
进行标准化操作得到标准化后的特征
Figure FDA00032768543900000117
Figure FDA00032768543900000118
如式(6),(7)所示:
Figure FDA00032768543900000119
Figure FDA00032768543900000120
利用二范数计算时间特征
Figure FDA00032768543900000121
Figure FDA00032768543900000122
的量级Dn和Da,如式(8),(9)所示:
Figure FDA00032768543900000123
Figure FDA0003276854390000021
以及
损失函数计算模块,基于时间特征标准化模块获得的时间特征
Figure FDA0003276854390000022
Figure FDA0003276854390000023
的量级Dn和Da以及全连接神经网络获得的异常分数S来计算损失函数L,如式(10)所示:
L=λ1Lseparate2Ltirplet3Lcls (10)
其中,λ1表示Lseparate的系数,λ2表示Ltirplet的系数,λ3表示Lcls的系数,
Lseparate是多实例学习排序损失,如式(11):
Lseparate=max{0,ε-(Da-Dn)} (11)
其中,ε表示可调的超参数,
Ltriplet是三元组损失,如式(12)至(15):
Figure FDA0003276854390000024
d1=‖Dn-(Da)11 (13)
d0=‖Dn-(Da)01 (14)
Ltriplet=max{0,d1-d0+θ} (15)
其中,θ表示表示可调的超参数,Da是b个异常包的时间特征量级,Dn是b个正常包的时间特征量级Dn,以1为阈值,当时间特征量级的差值大于1时,则记为(Da)0,当时间特征量级的差值小于1时,则记为(Da)1,d1为正常包与(Da)1的距离,d0为正常包与(Da)0的距离,
Lcls是交叉熵损失,利用全连接神经网络获得的2b个异常分数S和对应的视频标签y计算,如式(16):
Lcls=-[ylog(S)+(1-y)log(1-S)] (16)。
2.根据权利要求1所述的方法,其特征在于,维度统一的b个正常视频的原始特征和b个异常视频的原始特征维度为10*32*128。
3.根据权利要求2所述的方法,其特征在于,多尺度时间特征网络包括空洞卷积模块和自注意力模块以及独立卷积层,其中,空洞卷积模块包括三个空洞卷积层1-3,自注意力模块包括五个卷积层4-8,
将原始特征输入空洞卷积层1,2,3,分别得到三个输出特征P1,P2,P3,其维度均为10*32*512;
将原始特征输入自注意力模块的卷积层4,得到特征P4,其维度为10*32*512;
将得到的特征P4分别输入卷积层5,6,7,分别得到三个输出P5,P6,P7,其维度均为10*32*256;
将特征P6转置后与P7做矩阵乘法,得到特征P8,其维度为10*32*32;
将特征P8与P5做矩阵乘法,得到特征P9,其维度为10*32*256;
将特征P9输入卷积层8,得到特征P10,其维度为10*32*512;
将特征P10与P4做矩阵加法,得到特征P11,其维度为10*32*512;
特征P1,P2,P3与特征P11连接,得到特征P12,其维度为10*32*2048;
将特征P12输入独立卷积层,得到特征P13,其维度为10*32*2048;
将特征P13与原始特征做矩阵加法,得到时间特征f,其维度保持为10*32*2048。
4.根据权利要求3所述的方法,其特征在于,在空洞卷积模块中:
空洞卷积层1:Conv1d:3,512,d=1;
空洞卷积层2:Conv1d:3,512,d=2;
空洞卷积层3:Conv1d:3,512,d=4,
其中,Conv1d表示1维卷积层,3表示卷积核大小,512表示输出特征通道数,d表示膨胀倍率。
5.根据权利要求4所述的方法,其特征在于,在自注意力模块中:
卷积层4:Conv1d:1,512;
卷积层5:Conv1d:1,256;
卷积层6:Conv1d:1,256;
卷积层7:Conv1d:1,256;
卷积层8:Conv1d:1,512,
其中,Conv1d表示1维卷积层,1表示卷积核大小,512和256表示输出特征通道数。
6.根据权利要求2所述的方法,其特征在于,另外,独立卷积层9为Conv1d:3,2048,其中,Conv1d表示1维卷积层,3表示卷积核大小,2048表示输出特征通道数。
7.一种视频异常检测网络的训练方法,所述方法包括:
从维度统一为10*t*2048的视频选取b个正常视频的原始特征和b个异常视频的原始特征;
处理b个正常视频的原始特征和b个异常视频的原始特征,得到2b个时间特征f,其维度保持不变;
处理2b个时间特征f,基于式(1)至(3)获得异常分数S,
Figure FDA0003276854390000041
Figure FDA0003276854390000042
Figure FDA0003276854390000043
Figure FDA0003276854390000044
分别为时间特征f的权重和偏置,
Figure FDA0003276854390000045
分别为时间特征
Figure FDA0003276854390000046
的权重和偏置,
Figure FDA0003276854390000047
分别为时间特征
Figure FDA0003276854390000048
的权重和偏置,D()表示dropout操作;
变换2b个时间特征f的维度,输出维度为10*k*2048的b个正常视频的时间特征fn组成正常包,以及维度为10*k*2048的b个异常视频的时间特征fa组成异常包,其中,k<t;
计算时间特征fn的各个通道的均值
Figure FDA0003276854390000049
和标准差
Figure FDA00032768543900000410
γ表示通道数,如式(4),(5)所示:
Figure FDA00032768543900000411
Figure FDA00032768543900000412
利用所求的
Figure FDA00032768543900000413
Figure FDA00032768543900000414
对正常包的各个通道的时间特征
Figure FDA00032768543900000415
和异常包的各个通道的时间特征
Figure FDA00032768543900000416
进行标准化操作得到标准化后的特征
Figure FDA00032768543900000417
Figure FDA00032768543900000418
如式(6),(7)所示:
Figure FDA00032768543900000419
Figure FDA00032768543900000420
利用二范数计算时间特征
Figure FDA00032768543900000421
Figure FDA00032768543900000422
的量级Dn和Da,如式(8),(9)所示:
Figure FDA00032768543900000423
Figure FDA00032768543900000424
以及
基于获得时间特征
Figure FDA00032768543900000425
Figure FDA00032768543900000426
的量级Dn和Da以及异常分数S来计算损失函数,如式(10)所示:
L=λ1Lseparate2Ltirplet3Lcls (10)
其中,λ1表示Lseparate的系数,λ2表示Ltirplet的系数,λ3表示Lcls的系数,
Lseparate是多实例学习排序损失,如式(11):
Lseparate=max{0,ε-(Da-Dn)} (11)
其中,ε表示可调的超参数,
Ltriplet是三元组损失,如式(12)至(15):
Figure FDA0003276854390000051
d1=‖Dn-(Da)11 (13)
d0=‖Dn-(Da)01 (14)
Ltriplet=max{0,d1-d0+θ} (15)
其中,θ表示表示可调的超参数,Da是b个异常包的时间特征量级,Dn是b个正常包的时间特征量级Dn,以1为阈值,当时间特征量级的差值大于1时,则记为(Da)0,当时间特征量级的差值小于1时,则记为(Da)1,d1为正常包与(Da)1的距离,d0为正常包与(Da)0的距离,
Lcls是交叉熵损失,利用2b个异常分数S和对应的视频标签y计算,如式(16):
Lcls=-[ylog(S)+(1-y)log(1-S)] (16),
通过最小化损失函数来调整视频异常检测网络的参数;
再次从维度统一为10*t*2048的视频选取的b个正常视频的原始特征和b个异常视频的原始特征进行迭代处理,继续调整视频异常检测网络的参数至最优,直至将视频异常检测网络训练至网络拟合。
8.一种在计算机存储介质上编码的计算机程序产品,包括指令,当指令由一个或多个计算机执行时,将使一个或多个计算机执行权利要求7所述的方法。
CN202111120381.3A 2021-09-24 2021-09-24 一种视频异常检测网络及其训练方法 Active CN113869182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111120381.3A CN113869182B (zh) 2021-09-24 2021-09-24 一种视频异常检测网络及其训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111120381.3A CN113869182B (zh) 2021-09-24 2021-09-24 一种视频异常检测网络及其训练方法

Publications (2)

Publication Number Publication Date
CN113869182A true CN113869182A (zh) 2021-12-31
CN113869182B CN113869182B (zh) 2024-05-31

Family

ID=78993757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111120381.3A Active CN113869182B (zh) 2021-09-24 2021-09-24 一种视频异常检测网络及其训练方法

Country Status (1)

Country Link
CN (1) CN113869182B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170374334A1 (en) * 2015-01-15 2017-12-28 Thomson Licensing Methods and apparatus for motion-based video tonal stabilization
CN110502988A (zh) * 2019-07-15 2019-11-26 武汉大学 视频中的组群定位与异常行为检测方法
CN111241996A (zh) * 2020-01-09 2020-06-05 桂林电子科技大学 一种用于识别视频中人物动作的方法
WO2020221278A1 (zh) * 2019-04-29 2020-11-05 北京金山云网络技术有限公司 视频分类方法及其模型的训练方法、装置和电子设备
CN112926472A (zh) * 2021-03-05 2021-06-08 深圳先进技术研究院 视频分类方法、装置及设备
CN112953924A (zh) * 2021-02-04 2021-06-11 西安电子科技大学 网络异常流量检测方法、系统、存储介质、终端及应用
US20210256392A1 (en) * 2020-02-10 2021-08-19 Nec Laboratories America, Inc. Automating the design of neural networks for anomaly detection

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170374334A1 (en) * 2015-01-15 2017-12-28 Thomson Licensing Methods and apparatus for motion-based video tonal stabilization
WO2020221278A1 (zh) * 2019-04-29 2020-11-05 北京金山云网络技术有限公司 视频分类方法及其模型的训练方法、装置和电子设备
CN110502988A (zh) * 2019-07-15 2019-11-26 武汉大学 视频中的组群定位与异常行为检测方法
CN111241996A (zh) * 2020-01-09 2020-06-05 桂林电子科技大学 一种用于识别视频中人物动作的方法
US20210256392A1 (en) * 2020-02-10 2021-08-19 Nec Laboratories America, Inc. Automating the design of neural networks for anomaly detection
CN112953924A (zh) * 2021-02-04 2021-06-11 西安电子科技大学 网络异常流量检测方法、系统、存储介质、终端及应用
CN112926472A (zh) * 2021-03-05 2021-06-08 深圳先进技术研究院 视频分类方法、装置及设备

Also Published As

Publication number Publication date
CN113869182B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
CN108491817B (zh) 一种事件检测模型训练方法、装置以及事件检测方法
Mirza Computer network intrusion detection using various classifiers and ensemble learning
Thounaojam et al. A genetic algorithm and fuzzy logic approach for video shot boundary detection
Yang et al. Real-time intrusion detection in wireless network: A deep learning-based intelligent mechanism
CN107766823B (zh) 基于关键区域特征学习的视频中异常行为检测方法
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN109145030B (zh) 一种异常数据访问的检测方法和装置
CN111126576A (zh) 一种深度学习的新型训练策略
CN109818971B (zh) 一种基于高阶关联挖掘的网络数据异常检测方法与系统
CN117155706B (zh) 网络异常行为检测方法及其系统
Chavda et al. Support vector machines for image spam analysis
CN115801374A (zh) 网络入侵数据分类方法、装置、电子设备及存储介质
CN116232694A (zh) 轻量级网络入侵检测方法、装置、电子设备及存储介质
Pang et al. Federated learning for crowd counting in smart surveillance systems
Liu et al. Automatic feature extraction and selection for machine learning based intrusion detection
Wang et al. An evolutionary computation-based machine learning for network attack detection in big data traffic
Babu et al. Improved Monarchy Butterfly Optimization Algorithm (IMBO): Intrusion Detection Using Mapreduce Framework Based Optimized ANU-Net.
CN113869182B (zh) 一种视频异常检测网络及其训练方法
CN111581640A (zh) 一种恶意软件检测方法、装置及设备、存储介质
CN116912480A (zh) 一种基于图匹配的域自适应目标检测方法
CN109918905B (zh) 行为推论模型生成装置及其行为推论模型生成方法
Othman et al. Impact of dimensionality reduction on the accuracy of data classification
Lin et al. An attention-based ambient network with 3D convolutional network for incomplete traffic flow prediction
Yu et al. A Review of Intrusion Detection Technology Based on Deep Rein-forcement Learning
CN114168648B (zh) 基于连续监督的鲁棒深度半监督异常检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant