CN113011322B - 监控视频特定异常行为的检测模型训练方法及检测方法 - Google Patents

监控视频特定异常行为的检测模型训练方法及检测方法 Download PDF

Info

Publication number
CN113011322B
CN113011322B CN202110286753.3A CN202110286753A CN113011322B CN 113011322 B CN113011322 B CN 113011322B CN 202110286753 A CN202110286753 A CN 202110286753A CN 113011322 B CN113011322 B CN 113011322B
Authority
CN
China
Prior art keywords
video
graph
layer
neural network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110286753.3A
Other languages
English (en)
Other versions
CN113011322A (zh
Inventor
梅雪
吴欣红
李云柯
王莉
何毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Security Engineering Technology Research Center Co ltd
Nanjing Tech University
Original Assignee
Guizhou Security Engineering Technology Research Center Co ltd
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Security Engineering Technology Research Center Co ltd, Nanjing Tech University filed Critical Guizhou Security Engineering Technology Research Center Co ltd
Priority to CN202110286753.3A priority Critical patent/CN113011322B/zh
Publication of CN113011322A publication Critical patent/CN113011322A/zh
Application granted granted Critical
Publication of CN113011322B publication Critical patent/CN113011322B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种监控视频特定异常行为的检测模型训练方法及检测方法,属于视频处理技术领域。在训练模型时,包括:将数据集中每个训练视频均分成数量相等的视频片段,构成正例包和负例包;将视频片段输入预训练好的特征提取网络提取视频特征;将所提取的视频特征输入串联的至少一个全连接层,得到视频片段特征;利用所得到的视频片段特征构造无向图,将无向图输入串联的至少一个图卷积神经网络层得到异常得分;根据异常得分,计算正负样本之间的排序损失,并更新权重,完成至少一个全连接层和至少一个图卷积神经网路层的训练。检测时,利用所训练出的模型进行检测。本发明能够对视频监控中特定异常行为进行较好的检测,并具有较快的检测速度。

Description

监控视频特定异常行为的检测模型训练方法及检测方法
技术领域
本发明属于视频处理技术领域,具体涉及一种监控视频特定异常行为的检测模型训练方法及检测方法。
背景技术
传统的视频监控系统大多只能完成监控录像、视频联网这些基本功能,因此多数时候只能用于事后取证,无法起到事前预防、突发情况预警作用。智能分析是视频监控的发展趋势,能够提升监控系统的有效性,加快安保人员对各类异常事件的反应速度和处理时间。
智能视频监控采用图像处理、模式识别和计算机视觉技术,通过对摄像机拍录的图像序列进行自动分析来对动态场景中的目标进行定位、识别和跟踪,并在此基础上分析和判断目标的行为,若在某些特定场所或特定时间内出现可疑或反常的行为,系统会自动发出报警。它的优势在于它可以一天24小时不间断地对监控区域进行监控和自动分析,使安保人员从庞大的数据处理中解脱出来。相对于人工监看视频画面,智能监控可靠性更高,能够有效提高监控和报警精确度,大大降低误报和漏报现象的发生。
视频分析是智能视频监控的主要技术,基于深度学习的方法近年来在视频分析领域也逐渐兴起,涌现了许多卓越的研究工作,为在线视频分析提供了可靠的技术支撑。但是对于视频健康,通常要面临异常数据缺乏、背景和动作复杂等问题,导致现有的技术仍然难以有效的对视频监控进行有效监测。例如,申请号为202010345247.2的中国专利公开了一种基于人体骨架的行人异常行为检测方法,该方法首先利用YOLOv3目标检测算法检测行人得到行人检测框,然后提取人体骨架信息并利用基于残差的多尺度信息融合网络对预处理后的人体骨架信息进行异常行为检测。该方法摒弃了场景信息,优点是不受场景约束,但彻底弃用背景信息,只考虑前景人体的特征信息难免会限制对视频数据的完整性描述,使得一些人物交互构成的异常行为的学习变得更复杂。再例如,申请号为201910413528.4的中国专利公开了一种基于深度学习的行为识别技术方法,该方法采用3D双流卷积神经网络和GRU网络相结合的方式搭建时空双流CNN-GRU神经网络模型,双流的输入数据分别为视频帧块和光流图块。使用时空双流CNN-GRU网络对视频外观信息和时序信息建模,优点在于识别准确率高,但它的网络较复杂,内存消耗大,在一般计算设备上若要保证实时性,必须进行大量的丢帧处理,可能造成漏检和误检。
因此,现有技术中所涉及的方法,在对视频监控的行为进行检测时,效果仍不理想,例如,针对面向公共安全的监控视频特定行为的检测,效果不佳。
发明内容
技术问题:针对现有技术对监控视频中对复杂的异常行为检测效果不佳的问题,本申请提供一种监控视频特定异常行为的检测模型训练方法以及检测方法,从而对监控视频中的特定异常行为进行准确检测;此外,本申请的方案在具有较好的检测效果的同时,检测速度也相对较快。
技术方案:本申请一方面提供了一种监控视频特定异常行为的检测模型训练方法,包括:
将数据集中每个训练视频均分成数量相等的视频片段,构成正例包和负例包;
将视频片段输入预训练好的特征提取网络提取视频特征;
将所提取的视频特征输入串联的至少一个全连接层,得到视频片段特征;
利用所得到的视频片段特征构造无向图,将所述无向图输入串联的至少一个图卷积神经网络层得到异常得分;
根据所述异常得分,计算正负样本之间的排序损失,并更新权重,完成所述至少一个全连接层和至少一个图卷积神经网络层的训练。
进一步地,所述的特征提取网络包括依次连接的深度可分离卷积层C1、池化层P1、深度可分离卷积层C2、池化层P2、深度可分离卷积层C3、池化层P3、深度可分离卷积层C4、池化层P4、深度可分离卷积层C5、池化层P5、全连接层FC6。
进一步地,所述至少一个全连接层包括串联的全连接层FC7和全连接层FC8,其中,FC7具有512个单元,FC8具有128个单元,FC7和FC8之间随机舍弃,参数保留概率为kp
进一步地,所述至少一个图卷积神经网络层包括串联的图卷积神经网络层GCN1和图卷积神经网络层GCN2,其中,图卷积神经网络层GCN1的输出的特征维度为32维,图卷积神经网络层GCN2的输出特征维度为1维。
进一步地,利用所得到的视频片段特征构造无向图,将所述无向图输入串联的至少一个图卷积神经网络层得到异常得分的方法包括:
将每个视频片段特征当作节点,将片段特征之间的关系当作边,构造无向图;
将无向图输入串联的至少一个图卷积神经网络层;
利用非线性的Sigmoid函数将特征表示投影到标签空间,生成异常分数。
进一步地,所述根据异常得分,计算正负样本之间的排序损失的方法包括:
基于排序铰链损失函数及稀疏约束,构建排序损失函数;
利用所述排序损失函数计算排序损失。
进一步地,所述排序损失函数为:
其中,
其中,βa、βn分别代表样本正负包,f(va)、f(vn)分别表示正负包中示例的异常得分,i为序号,P为每个训练视频分割成的片段个数,k为P个视频片段中得分较高的片段个数,λ为稀疏约束项的可调参数,P、k、λ的大小均可根据实际训练情况调整;
‖w‖F表示L2正则项。
本申请另一方面提供一种监控视频特定异常行为的检测方法,采用所述的训练方法对检测模型进行训练,所述检测方法包括:
将待检测的视频数据输入特征提取网络提取视频特征;
将所提取的视频特征输入串联的至少一个全连接层,得到视频片段特征;
利用所得到的视频片段特征构造无向图,将所述无向图输入串联的至少一个图卷积神经网络层得到异常得分,根据所述异常得分判断视频区域是否异常。
进一步地,所述根据异常得分判断视频区域是否异常的方法包括:采用所述的训练方法完成模型训练后,使用约登指数寻找最佳ROC曲线阈值α,当异常得分小于或等于阈值α,则判断为正常区域;当异常得分大于阈值α则判断为异常区域。
进一步地,还包括:将待测视频输入特征提取网络前,对视频进行预处理。
有益效果:本发明与现有技术相比,具有以下优点:
(1)在本申请的实施例中,在训练检测模型时,利用预训练好的特征提取网络进行特征提取,可以在检测模型的训练过程中,更准确进行特征提取;利用图神经网络层对视频连续片段间的相关性进行了建模,使得模型的检测性能得到提高;此外,利用的是多示例学习方法(MIL)的训练策略,属于弱监督学习框架,使得模型具有更好的泛化能力;利用本申请所提供的训练方案,能够有效地提高检测模型的检测效果,从而能够使得训练出的检测模型适应监控视频中复杂的特定异常行为的检测。
(2)在本申请的一个实施例中,利用深度可分离卷积构建了特征提取网络模型,从而有效地降低了模型的计算量,提高了模型的运算速度。
(3)本申请的检测方法的实施例中,利用本申请的检测模型训练方法进行模型训练,并利用训练好的检测模型进行监控视频特定行为检测,能够更加快速准确地检测出监控视频中的特定行为。
附图说明
图1为本申请实施例中的监控视频特定异常行为的检测模型训练方法的流程图;
图2为本申请实施例中的监控视频特定异常行为的检测模型训练方法的模型架构图;
图3为本申请实施例中特征提取网络的架构图;
图4为本申请实施例中的特征提取网络的网络层特征格式图;
图5为标准卷积方法的示意图;
图6为深度可分离卷积的示意图;
图7为本申请实施例中训练好的检测模型的架构图;
图8为本申请实施例中监控视频特定异常行为的检测方法的流程图。
具体实施方式
下面结合实施例和说明书附图对本发明作进一步的说明。
参考图1,其示出了本申请的监控视频特定异常行为的检测模型训练方法的实施例的流程图,图2示出了本申请的检测模型训练方法中模型的网络结构图;根据图1和图2,具体包括以下步骤:
步骤S100:将数据集中每个训练视频均分成数量相等的视频片段,构成正例包和负例包。在申请的实施例中,该步骤在具体操作时,选取待检测的数据集,视频数据集为未剪辑的长视频数据,分为训练集和测试集,训练集包含视频层级异常分类标签,测试集包含视频层级异常分类标签,以及异常行为发生的起始帧和结束帧标签。将数据集中的一个视频定义为一个包,包的标签为对应视频的标签,每个视频平均分为P段作为示例,示例不具有标签。
步骤S110:将视频片段训练样本输入预训练好的特征提取网络提取视频特征。
在本申请的一个实施例中,如图3所示,特征提取网络结构包括依次连接的深度可分离卷积层C1、池化层P1、深度可分离卷积层C2、池化层P2、深度可分离卷积层C3、池化层P3、深度可分离卷积层C4、池化层P4、深度可分离卷积层C5、池化层P5、全连接层FC6,网络各层的特征格式如图4所示,其中dw代表深度卷积操作,p代表逐点卷积操作。为了加快网络的收敛速度,防止梯度爆炸,提高模型的精度,在每个深度可分离卷积层和全连接层后放置批量归一化(Batch Normalization,BN)层。
利用深度可分离卷积构建特征提取网络可以显著降低网络的计算量,因此可以有效的提高整个检测模型的计算速度,节省计算资源和运算时间,从而在利用训练好的模型进行监控视频特定行为进行检测时,可以更快的完成检测。下面对其能够提高检测速度的原理进行说明。
在标准卷积中,如图5所示,滤波与组合计算通过一个运算步骤完成,对输入图像的特征进行提取形成新的输出。对于深度可分离卷积,如图6所示,先对输入图像的每个通道进行卷积,再采用逐点卷积对第一步的卷积结果进行进一步的卷积运算,实现了将滤波和通道信息组合运算完全分离。
假定一个标准卷积层输入DF*DF*M的特征图F,并得到一个DG*DG*N的输出特征图G,其中DF表示输入特征图的宽和高,M是输入的通道数(输入的深度),DG为输出特征图的宽和高,N是输出的通道数(输出的深度)。标准卷积层卷积核大小为DK*DK*M*N,其中DK是卷积核的空间维数,M是输入通道数,N是输出通道数。假设步长为1并考虑padding,标准卷积的输出的特征图由下式计算:
Gk,l,n=Σi,j,mKi,j,m,n·Fk+i-1,l+j-1,m
其计算量为Dk*DK*M*N*DF*DF,其由输入通道数M、输出通道数N、卷积核大小Dk、输出特征图大小DF决定,i、j、k、m、l表示序号。
深度可分离卷积由两层构成:深度卷积和逐点卷积。深度卷积对每个通道使用一种卷积核,可以写成:
其中是深度卷积核的尺寸Dk*DK*M,/>中第m个卷积核应用于F中的第m个通道来产生第m个通道的卷积输出特征图/>深度卷积的计算量为:Dk*DK*M*DF*DF
深度卷积只对输入通道进行卷积,没有对其进行组合来产生新的特征。因此下一层利用另外的层利用1x1卷积来对深度卷积的输出计算一个线性组合从而产生新的特征。
因此深度可分离卷积的计算量为:Dk*DK*M*DF*DF+M*N*DF*DF,即深度卷积和1x1的逐点卷积的和。
深度可分离卷积和标准卷积计算量之比为:
假设卷积核大小Dk为3,深度可分离卷积相较于标准卷积少了8到9倍的计算量。并且卷积分解只是改变了卷积神经网络中间的处理过程,并不会影响初始输入和最终输出结果,因此,利用深度可分离卷积构件特征提取网络,能够有效的降低计算量,从而提高了整个模型的计算速度,节省计算资源和运算时间。
在本申请的实施例中,在进行检测模型的训练时,提前将特征提取网络送入Sports-1M数据集中预先训练好,从而能够提高整体模型的训练速度。
步骤S120:将所提取的视频特征输入串联的至少一个全连接层,得到视频片段特征。
在本申请的一个实施例中,包括串联的两个全连接层,分别为全连接层FC7和全连接层FC8,其中FC7具有512个单元,FC8具有128个单元,在全连接层FC7和FC8之间使用随机舍弃(dropout),参数保留概率为kp,从而可以减少参数以及防止过拟合发生。
步骤S130:利用所得到的视频片段特征构造无向图,将所述无向图输入串联的至少一个图卷积神经网络层得到异常得分。
在本申请的实施例中,具体方法为:
首先,将每个视频片段特征当作节点vi∈v,将片段特征之间的关系当作边eij=(vij)∈e,邻接矩阵A∈RP×P,构建无向图,这里用g(v,e)表示P个节点的图。然后,在本申请的一个实施例中,将无向图结构数据输入到串联的图卷积神经网络层GCN1和图卷积神经网络层GCN2,其中,图卷积神经网络层GCN1的输出的特征维度为32维,图卷积神经网络层GCN2的输出特征维度为1维。
在图神经网络中,特征分层传播规则如下:
式中,表示添加自连接的无向图g的邻接矩阵,A表示图的邻接矩阵,I表示单位矩阵;/>表示/>的度矩阵,定义为/>i、j表示序号;Hl表示第l层的特征表达,W表示参数矩阵;σ表示非线性激活函数。
上式需要计算邻接矩阵A,本发明通过分配特定的权重来设计邻接矩阵,用余弦相似度来估计边eij的权重,公式如下:
Aij表示第i和第j个片段之间特征相似度,xi、xj分别为示例包中的第i和第j个特征向量。
最后使用非线性的Sigmoid函数来将特征表示投影到标签空间,生成异常分数。
图卷积神经网络(Graph Convolutional Networks,GCN)是近年来逐渐流行的一种神经网络结构。不同于只能用于欧式空间结构数据的传统卷积神经网络CNN,图卷积网络能够处理具有广义拓扑图结构的数据,并深入发掘其特征和规律。GCN包含聚合和更新两个基本操作,聚合操作用于从全局顶点(长期依赖)编译信息,而更新函数执行非线性转换来计算新的表示,其中聚合操作类似于注意力机制在捕获远程依赖方面的作用。在本申请的实施例中,考虑到视频片段之间存在时间上下文信息,用图卷积神经网络对视频片段特征进行相关性建模,GCN的聚合操作类似于注意力机制在捕获远程依赖方面的作用,在图卷积之后,每个节点聚合它邻近点的信息,以增强自身特征,最终帮助提高检测性能,从而使得最终训练出的神经网络具有更好的检测效果。
步骤S140:根据所述异常得分,计算正负样本之间的排序损失,并更新权重,完成所述至少一个全连接层和至少一个图卷积神经网路层的训练。
本申请中,检测模型的训练过程,可以看作是一个基于多示例学习方法(MIL)的训练策略,多示例学习是机器学习中典型的弱监督学习方法,在多示例学习中,训练集由一组具有分类标签的多示例包组成,每个包含有若干个没有分类标签的示例。正类多示例包(正包)至少含有一个正示例,负类多示例包(负包)中的所有示例都是负示例。本发明将数据集中的一个视频定义为一个包,其中含有异常行为的是正包,不含异常行为的是负包,每个视频平均分为P段作为示例。
考虑到一个视频可能存在多个异常行为片段,使用示例包中的K个最大得分(K-max)的平均值来计算异常样本和正常样本的得分。正包中K-max得分对应的实例为异常视频中K个最有可能是真正的异常实例,负包中K-max得分对应的实例是正常视频中的K个最容易被误判断为异常片段的实例。将异常检测定义为回归问题,采用多示例学习方法,搭建弱监督学习框架,为了让正负样本之间的距离尽可能远,使用排序铰链损失(rankinghinge loss)更新模型参数,定义为:
式中βa、βn分别代表样本正负包,f(va)、f(vn)分别表示正负包中示例的异常得分,P为每个训练视频分割成的片段个数,k为P个视频片段中得分较高的片段个数,λ为稀疏约束项的可调参数,在具体的实施过程中,P、k、λ的大小均可根据实际训练情况进行调整。
因为异常很少发生,应该只有少数异常得分高的片段,因此我们采用稀疏约束,损失函数变为:
添加L2正则项‖w‖F,最终损失函数为:
采用得到的排序损失函数计算出正负样本之间的排序损失,并更新权重,训练上述的至少一个全连接层和至少一个图神经网络卷积层。
多示例学习方法(MIL)训练模型,每个视频被分割成了固定数量的片段,这些片段被看作MIL中的示例,而每个视频则看作MIL中的包,属于弱监督框架,这种方法只需要标注视频层级的标签,不需要精确标注每个异常行为在视频中的时间位置,大大的节省了标注成本,方便进行数据集扩充,训练更具泛化能力的模型。
最终,利用上述的方法,训练出用于监控视频特定异常行为的检测模型,在本申请的一个实施例中,训练出的模型结构如图7所示,包括特征提取网络、全连接层FC7、全连接层FC8、图卷积神经网络层GCN1、图卷积神经网络层GCN2。
在本申请的实施例中,在训练检测模型时,利用预训练好的特征提取网络进行特征提取,可以在检测模型的训练过程中,更准确进行特征提取;利用图神经网络层对连续视频片段间的相关性进行了建模,使得模型的检测性能得到提高;此外,利用的是多示例学习方法(MIL)的训练策略,属于弱监督学习框架,从而使得模型具有更好的泛化能力;利用本申请所提供的训练方案,能够有效地提高检测模型的检测效果,从而能够使得训练出的检测模型适应监控视频中复杂的特定异常行为的检测,尤其是面向公共安全的监控视频中,训练出的模型可以对监控视频特定异常行为进行很好的检测。
另一方面,本申请提供一种监控视频特定异常行为的检测方法,如图8所示,其示出了该检测方法的一个实施例的流程图,包括:
步骤S200:将待检测的视频数据输入特征提取网络提取视频特征。
在本申请的实施例中,在将待检测的视频数据输入特征提取网络前,需要对视频数据进行预处理,在读取待检测的视频数据后,提取视频的RGB图像序列,图像尺寸规范化为W×H,W和H分别代表图像的高和宽,得到待检测的图像序列,并且,在本申请的实施例中,将视频数据每16帧作为一个clib输入特征提取网络,得到一个特征向量。
步骤S210:将所提取的视频特征输入串联的至少一个全连接层,得到视频片段特征。该步骤与模型的训练方法中的步骤S120对应,此处就不再赘述。
步骤S220:利用所得到的视频片段特征构造无向图,将所述无向图输入串联的至少一个图卷积神经网络层得到异常得分,根据所述异常得分判断视频区域是否异常。
对于构造无向图以及获得异常得分的过程,在对步骤S130中已经进行了相应说明,此处就不再赘述,而在本申请的实施例中,根据异常得分判断视频区域是否正常的方法为:
在利用本申请所提出的模型训练方法完成模型训练后,使用约登指数寻找最佳ROC曲线阈值α,当异常得分小于或等于阈值α,则判断为正常区域;当异常得分大于阈值α则判断为异常区域。
利用本申请提供检测方法,因为采用的模型能够迅速准确地进行对监控视频特定行为进行检测,因此,该检测方法能够适用于视频监控中复杂的特定异常行为的检测,能够快速准确地检测出监控视频中的特定异常行为,当应用于面向公共安全的监控视频时,可以更好的检测出监控视频中的特定异常行为。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。

Claims (5)

1.一种监控视频特定异常行为的检测模型训练方法,其特征在于,包括:
将数据集中每个训练视频均分成数量相等的视频片段,构成正例包和负例包;
将视频片段输入预训练好的特征提取网络提取视频特征;
将所提取的视频特征输入串联的至少一个全连接层,得到视频片段特征;
利用所得到的视频片段特征构造无向图,将所述无向图输入串联的至少一个图卷积神经网络层得到异常得分;
根据所述异常得分,计算正负样本之间的排序损失,并更新权重,完成所述至少一个全连接层和至少一个图卷积神经网络层的训练;
所述至少一个图卷积神经网络层包括串联的图卷积神经网络层GCN1和图卷积神经网络层GCN2,其中,图卷积神经网络层GCN1的输出的特征维度为32维,图卷积神经网络层GCN2的输出特征维度为1维;
图卷积神经网络层包含聚合和更新两个基本操作,聚合操作用于从全局顶点编译信息,而更新函数执行非线性转换来计算新的表示;
考虑到视频片段之间存在时间上下文信息,用图卷积神经网络对视频片段特征进行相关性建模,在图卷积之后,每个节点聚合它邻近点的信息,以增强自身特征;
将每个视频片段特征当作节点,将片段特征之间的关系当作边,构造无向图;
将无向图输入串联的至少一个图卷积神经网络层;
利用非线性的Sigmoid函数将特征表示投影到标签空间,生成异常分数;
将每个视频片段特征当作节点vi∈v,将片段特征之间的关系当作边eij=(vi,vj),eij∈e,邻接矩阵A∈RP×P,构建无向图;p表示节点的个数;
将无向图结构数据输入到串联的图卷积神经网络层GCN1和图卷积神经网络层GCN2,
在图神经网络中,特征分层传播规则如下:
式中,表示添加自连接的无向图g的邻接矩阵,A表示图的邻接矩阵,I表示单位矩阵;/>表示/>的度矩阵,定义为/>i、j表示序号;Hl表示第l层的特征表达,W表示参数矩阵;σ表示非线性激活函数;
上式需要计算邻接矩阵A,通过分配特定的权重来设计邻接矩阵,用余弦相似度来估计边eij的权重,公式如下:
Aij表示第i和第j个片段之间特征相似度,xi、xj分别为示例包中的第i和第j个特征向量;
最后使用非线性的Sigmoid函数来将特征表示投影到标签空间,生成异常分数;
所述的特征提取网络包括依次连接的深度可分离卷积层C1、池化层P1、深度可分离卷积层C2、池化层P2、深度可分离卷积层C3、池化层P3、深度可分离卷积层C4、池化层P4、深度可分离卷积层C5、池化层P5、全连接层FC6;
所述根据异常得分,计算正负样本之间的排序损失的方法包括:
基于排序铰链损失函数及稀疏约束,构建排序损失函数;
利用所述排序损失函数计算排序损失;
所述排序损失函数为:
其中,
其中,βa、βn分别代表样本正负包,分别表示正负包中示例的异常得分,i为序号,P为每个训练视频分割成的片段个数,k为P个视频片段中得分较高的片段个数,λ为稀疏约束项的可调参数;
‖w‖F表示L2正则项。
2.根据权利要求1所述的训练方法,其特征在于,所述至少一个全连接层包括串联的全连接层FC7和全连接层FC8,其中,FC7具有512个单元,FC8具有128个单元,FC7和FC8之间随机舍弃,参数保留概率为kp
3.一种监控视频特定异常行为的检测方法,其特征在于,采用权利要求1-2任一项所述的训练方法对检测模型进行训练,所述检测方法包括:
将待检测的视频数据输入特征提取网络提取视频特征;
将所提取的视频特征输入串联的至少一个全连接层,得到视频片段特征;
利用所得到的视频片段特征构造无向图,将所述无向图输入串联的至少一个图卷积神经网络层得到异常得分,根据所述异常得分判断视频区域是否异常。
4.根据权利要求3所述的方法,其特征在于,所述根据异常得分判断视频区域是否异常的方法包括:
完成模型训练后,使用约登指数寻找最佳ROC曲线阈值α,当异常得分小于或等于阈值α,则判断为正常区域;当异常得分大于阈值α则判断为异常区域。
5.根据权利要求3或4任一项所述的方法,其特征在于,还包括:将待测视频输入特征提取网络前,对视频进行预处理。
CN202110286753.3A 2021-03-17 2021-03-17 监控视频特定异常行为的检测模型训练方法及检测方法 Active CN113011322B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110286753.3A CN113011322B (zh) 2021-03-17 2021-03-17 监控视频特定异常行为的检测模型训练方法及检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110286753.3A CN113011322B (zh) 2021-03-17 2021-03-17 监控视频特定异常行为的检测模型训练方法及检测方法

Publications (2)

Publication Number Publication Date
CN113011322A CN113011322A (zh) 2021-06-22
CN113011322B true CN113011322B (zh) 2023-09-05

Family

ID=76409302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110286753.3A Active CN113011322B (zh) 2021-03-17 2021-03-17 监控视频特定异常行为的检测模型训练方法及检测方法

Country Status (1)

Country Link
CN (1) CN113011322B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102555031B1 (ko) * 2021-10-28 2023-07-12 전남대학교산학협력단 행동 인식을 위한 영상 내 2차원 방향성 정보 및 기울기 정보 기반의 학습 모델 생성 방법 및 생성된 학습 모델을 이용한 행동 인식 방법.
CN114201475B (zh) * 2022-02-16 2022-05-03 北京市农林科学院信息技术研究中心 危险行为监管方法、装置、电子设备及存储介质
CN114841312B (zh) * 2022-03-30 2024-02-27 西北工业大学 一种基于自适应图卷积网络的弱监督视频异常检测方法
CN114722937A (zh) * 2022-04-06 2022-07-08 腾讯科技(深圳)有限公司 一种异常数据检测方法、装置、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980826A (zh) * 2017-03-16 2017-07-25 天津大学 一种基于神经网络的动作识别方法
CN110084151A (zh) * 2019-04-10 2019-08-02 东南大学 基于非局部网络深度学习的视频异常行为判别方法
CN110909673A (zh) * 2019-11-21 2020-03-24 河北工业大学 一种基于自然语言描述的行人再识别方法
CN111160117A (zh) * 2019-12-11 2020-05-15 青岛联合创智科技有限公司 一种基于多示例学习建模的异常行为检测方法
CN111488815A (zh) * 2020-04-07 2020-08-04 中山大学 基于图卷积网络和长短时记忆网络的篮球比赛进球事件预测方法
CN111582095A (zh) * 2020-04-27 2020-08-25 西安交通大学 一种轻量级行人异常行为快速检测方法
CN112364939A (zh) * 2020-12-04 2021-02-12 中信银行股份有限公司 异常值检测方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897714B (zh) * 2017-03-23 2020-01-14 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980826A (zh) * 2017-03-16 2017-07-25 天津大学 一种基于神经网络的动作识别方法
CN110084151A (zh) * 2019-04-10 2019-08-02 东南大学 基于非局部网络深度学习的视频异常行为判别方法
CN110909673A (zh) * 2019-11-21 2020-03-24 河北工业大学 一种基于自然语言描述的行人再识别方法
CN111160117A (zh) * 2019-12-11 2020-05-15 青岛联合创智科技有限公司 一种基于多示例学习建模的异常行为检测方法
CN111488815A (zh) * 2020-04-07 2020-08-04 中山大学 基于图卷积网络和长短时记忆网络的篮球比赛进球事件预测方法
CN111582095A (zh) * 2020-04-27 2020-08-25 西安交通大学 一种轻量级行人异常行为快速检测方法
CN112364939A (zh) * 2020-12-04 2021-02-12 中信银行股份有限公司 异常值检测方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于时空融合图网络学习的视频异常事件检测;周航 等;《计算机研究与应用》;第58卷(第1期);第2.1-2.2节,第2.4节 *

Also Published As

Publication number Publication date
CN113011322A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN113011322B (zh) 监控视频特定异常行为的检测模型训练方法及检测方法
CN110084151B (zh) 基于非局部网络深度学习的视频异常行为判别方法
Ullah et al. Intelligent dual stream CNN and echo state network for anomaly detection
US20210326638A1 (en) Video panoptic segmentation
CN111079674B (zh) 一种基于全局和局部信息融合的目标检测方法
CN112861635B (zh) 一种基于深度学习的火灾及烟雾实时检测方法
Lin et al. Learning to detect anomaly events in crowd scenes from synthetic data
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN111914778A (zh) 一种基于弱监督学习的视频行为定位方法
CN110826702A (zh) 一种多任务深度网络的异常事件检测方法
CN111738044A (zh) 一种基于深度学习行为识别的校园暴力评估方法
Ali et al. Destruction from sky: Weakly supervised approach for destruction detection in satellite imagery
Cao et al. Learning spatial-temporal representation for smoke vehicle detection
Tao et al. An adaptive frame selection network with enhanced dilated convolution for video smoke recognition
CN115761881A (zh) 一种基于改进yolov5-SFF的检测方法及系统
CN113095199B (zh) 一种高速行人识别方法及装置
Li et al. A Deep Pedestrian Tracking SSD‐Based Model in the Sudden Emergency or Violent Environment
CN115240163A (zh) 一种基于一阶段检测网络的交通标志检测方法及系统
CN114943873A (zh) 一种工地人员异常行为分类方法及装置
Lian et al. An improved fire and smoke detection method based on YOLOv7
Arshad et al. Anomalous situations recognition in surveillance images using deep learning
CN113486754A (zh) 基于视频的事件演化预测方法、系统
Xudong et al. Pedestrian detection and tracking with deep mutual learning
Pan et al. An Improved Two-stream Inflated 3D ConvNet for Abnormal Behavior Detection.
Wang et al. Self-trained video anomaly detection based on teacher-student model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 550081 12th floor, building 5, Science City, No. 3491, Baijin Avenue, shawen Science Park, Guiyang National High tech Industrial Development Zone, Guiyang City, Guizhou Province

Applicant after: GUIZHOU SECURITY ENGINEERING TECHNOLOGY RESEARCH CENTER Co.,Ltd.

Applicant after: Nanjing Tech University

Address before: 211816 Puzhu South Road, Pukou District, Nanjing, Jiangsu Province, No. 30

Applicant before: Nanjing Tech University

Applicant before: GUIZHOU SECURITY ENGINEERING TECHNOLOGY RESEARCH CENTER Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant