CN114841312B - 一种基于自适应图卷积网络的弱监督视频异常检测方法 - Google Patents
一种基于自适应图卷积网络的弱监督视频异常检测方法 Download PDFInfo
- Publication number
- CN114841312B CN114841312B CN202210326905.2A CN202210326905A CN114841312B CN 114841312 B CN114841312 B CN 114841312B CN 202210326905 A CN202210326905 A CN 202210326905A CN 114841312 B CN114841312 B CN 114841312B
- Authority
- CN
- China
- Prior art keywords
- graph
- video
- feature
- network
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005096 rolling process Methods 0.000 title claims abstract description 20
- 238000001514 detection method Methods 0.000 title claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 34
- 230000002159 abnormal effect Effects 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims description 25
- 239000012634 fragment Substances 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 238000010030 laminating Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 5
- 230000005856 abnormality Effects 0.000 description 4
- 230000002547 anomalous effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于自适应图卷积网络的弱监督视频异常检测方法,提出一个基于弱监督的自适应图卷积网络(WAGCN)来建模视频片段之间的上下文关系,而且在生成每个片段的异常概率时,充分考虑了其他视频片段对当前片段的影响。首先结合视频特征具有的时间连续性以及空间上的相似性进行构图,充分利用了视频中异常事件时空特征间存在的关联信息。其次,提出了一个图学习层,打破人为设定拓扑结构的局限性,它基于数据自适应地提取稀疏图邻接矩阵。在两个公共数据集上进行了大量的实验证明了方法的有效性。
Description
技术领域
本发明属于视频监控技术领域,具体涉及一种弱监督视频异常检测方法。
背景技术
随着人们的安全意识逐渐提高,监控摄像日益普及,迫切需要开发一种能够自动检测出异常事件并发出警报的技术,实现高效准确的公共安全管理。异常行为是指那些外观或者动作不同于常见模式的行为,例如打架等行为。这些异常行为通常并不会单独发生,而是直接夹杂在正常的行为活动之中,具有罕见性和辨识的困难性。视频异常检测,作为具有挑战性的问题之一,已被广泛研究多年。最普遍的方法为单分类法,在正常数据集下进行训练,使模型能够较好地拟合正常模式,这样在异常发生时会有较强的响应。但是现实世界中的事件是复杂多样的,数据集不可能包含所有的正常情况,易产生误报。随着弱监督学习算法的发展,另一种有效的方法是使用包含正常和异常视频的弱标记训练数据来训练二元分类器。对正常和异常视频的联合训练可以很好地提高模型的异常识别能力,仅对视频级别进行标记就可以大大减少对训练数据集进行细粒度人工标注所需的时间和精力。在之前的工作中,弱监督异常检测问题被视为多实例学习任务。文献1【Waqas Sultani,ChenChen,and Mubarak Shah,“Real-World Anomaly Detection in Surveillance Videos,”in Proceedings of the IEEE conference on computer vision and patternrecognition,2018,pp.6479-6488.】构建了一个大规模的异常数据集,并提出了使用深度多实例学习排序损失来分离异常实例和正常实例的异常分数。随后,基于此提出了几种改进的方法。文献2【Zhihua Zhou,Yuyin Sun and Yufeng Li,“Multi-instance learningby treating instances as non-iid samples,”in Proceedings of the 26th annualinternational conference on machine learning,2009.】提出在多示例学习中各个示例并不是独立同分布的,它们之间存在一定的关系,学习并利用这种关系将更好地表达视频的动态性特征,更适合于多样性视频的异常事件检测。然而,上述工作忽略了视频片段间的时空联系。
近年来,一些工作在图上应用图卷积网络(GCNs)来建模不同节点之间的关系,并学习计算机视觉的强大表示。文献3【J.-X.Zhong,N.Li,W.Kong,S.Liu,T.H.Li,and G.Li,“Graph convolutional label noise cleaner:Train a plug-and-play actionclassifier for anomaly detection,”in Proceedings of the IEEE conference oncomputer vision and pattern recognition,2019,pp.12237-1246.】利用图卷积网络进行时间关系建模,对异常视频中的正常片段进行去噪,用得到的伪标签训练三维卷积神经网络进行异常检测。然而,尽管在训练阶段捕捉到了完整视频的长距离时间依赖性,但在测试阶段模型只使用了当前信息。而且去噪过程可能会将异常清理,造成信息丢失,从而导致异常事件的识别与定位不够准确。文献4【Peng Wu,Jing Liu,Yujia Shi,Yujia Sun,Fangtao Shao, Zhaoyang Wu,and Zhiwei Yang,“Not only look,but also listen:Learning multimodal violence detection under weak supervision,”in EuropeanConference on Computer Vision, 2020,pp.322-339.】在此基础上改进算法,提出了一个包含三个并行分支的神经网络分别捕获长期依赖关系,局部位置关系和预测得分的接近度来描述视频片段之间的不同关系。然而,三个独立分支不能有效建模视频中耦合在一起的多重关系并且导致迭代优化速度慢。此外,图的邻接矩阵中没有可学习的参数,而自定义的图可能不适合异常检测任务。
已有工作在使用图卷积网络建模时间上下文信息时存在以下挑战,(1)仅采用一种网络结构建模一种类型的关系,或者采用多条独立分支分别建模不同类型的关系,无法有效建模视频内部耦合在一起的多重关系。(2)大多数基于图卷积网络的方法忽略了自定义的图结构不是最优的,应该在训练过程中更新的事实。
发明内容
为了克服现有技术的不足,本发明提供了一种基于自适应图卷积网络的弱监督视频异常检测方法,提出一个基于弱监督的自适应图卷积网络(WAGCN)来建模视频片段之间的上下文关系,而且在生成每个片段的异常概率时,充分考虑了其他视频片段对当前片段的影响。首先结合视频特征具有的时间连续性以及空间上的相似性进行构图,充分利用了视频中异常事件时空特征间存在的关联信息。其次,提出了一个图学习层,打破人为设定拓扑结构的局限性,它基于数据自适应地提取稀疏图邻接矩阵。在两个公共数据集上进行了大量的实验证明了方法的有效性。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:特征提取;
训练集有N个训练视频和相应的弱监督标签/>其中yn∈{0,1}, yn=1表示视频Vn包含至少一个异常片段,但开始和结束时间未知,yn=0表示视频Vn里全都是无异常片段;
在每一个视频Vn被送入特征提取器之前,将视频Vn分成固定数量的不重叠的时间片段,用Tn表示片段的数量;采用预训练的神经网络作为特征提取网络提取视频Vn外观和运动信息,构成特征矩阵Xn,Xn的维度为Tn×D维,D表示片段特征的维度;
步骤2:构造全局图模块;
步骤2-1:特征相似图;
首先将特征矩阵Xn经过一个全连接层压缩特征维数;
用图学习层构建一个特征相似图F;采用公式(1)表示视频中每两个片段之间的关系;由于片段之间的邻接矩阵是非负的,用一个归一化的指数函数将相似度约束在 (0,1]的范围内;因此,特征相似图的邻接矩阵AF被定义为:
其中,W1和W2是维度为d×d的权重参数,随着反向传播而更新,所以,AF的元素在训练过程中与其他模型参数一起进行优化;
步骤2:时间连续图;
时间连续图T直接建立在视频的时间结构上,时间连续图T的邻接矩阵AT∈RN×N只依赖于片段的时间位置:
对于第j个片段,离第i个片段越近,分配给它的权重越大,可以更好地反映该段对第i个片段的影响;
步骤3:图卷积模块;
用图卷积网络来建模视频片段之间的关系;对于图卷积网络第k层,图卷积的结果为:
Xk=σ(WkXk-1(AF+AT))+Xk-1 (3)
其中是所有视频片段在图卷积网络k-1层的特征,dm是特征维度, 为可训练的参数矩阵,σ为激活函数;
此外,给每个层添加了残差连接,以解决图卷积网络的过平滑问题;如果输入通道的维度与输出通道的维度不一致,则在残差连接中插入一个1×1的卷积,将输入转化为与输出一致的通道维度;
步骤4:损失函数;
使用k-max损失函数;
具体来说,一个包含Tn个片段的视频Vn通过预训练的特征提取器得到Tn×D的特征矩阵F,然后输入图卷积网络得到视频Vn的异常得分选择s中的前m个元素表示其中/>最终的分类损失是预测的标签和训练视频上的真值之间的二元交叉熵值,它由以下公式给出:
优选地,所述预训练的神经网络为在Kinetics数据集上预训练的Inflated 3D。
本发明的有益效果如下:
本发明提出了一个用于视频异常检测的自适应图卷积网络。该方法在考虑了视频片段时空特征间的相似性和片段间的时间连续性的情况下构建了一个全局图。此外,引入了一个图学习层来自适应地构建视频中各片段之间的连接,可以有效地捕捉视频片段之间的时空关系,并增强当前的时间特征。在两个典型的异常数据集上进行的大量实验表明,所提出的方法在视频异常检测方面取得了较高的性能。
附图说明
图1是本发明方法框架图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提出了一种自适应的图卷积网络来克服现有技术中的挑战,框架如图1所示。对于背景技术的挑战(1),用时间连续图来刻画一个事件发生区间内的特征关联关系,特征相似图来表达有明确异常事件视频片段特征的关联关系。然而单一的时间连续图卷积网络和单一特征相似图卷积网络对于准确地进行异常事件检测和定位都不是最优的。为了更好地利用视频片段间的内在关联关系,本发明综合考虑这两个角度共同构建一个全局图进行异常事件的时空特征学习。
对于挑战(2),在邻接矩阵的学习过程中,打破人为设定的局限性,同时考虑视频片段时空特征的相似度以及其他潜在上下文语义关系,学习一个视频内容自适应的图连接矩阵。此外,图卷积网络存在过平滑问题,所有节点的表示都会收敛到一个平稳点,使它们与输入特征无关,并导致梯度消失,考虑加了入残差连接。
一种基于自适应图卷积网络的弱监督视频异常检测方法,包括如下步骤:
步骤1:特征提取;
训练集有N个训练视频和相应的弱监督标签/>其中yn∈{0,1}, yn=1表示视频Vn包含至少一个异常片段,但开始和结束时间未知,yn=0表示视频Vn里全都是无异常片段;
在每一个视频Vn被送入特征提取器之前,将视频Vn分成固定数量的不重叠的时间片段,用Tn表示片段的数量;采用在Kinetics数据集上预训练的Inflated 3D(13D)作为特征提取网络提取视频Vn外观和运动信息,构成特征矩阵Xn,Xn的维度为Tn×D维, D表示片段特征的维度;
步骤2:构造全局图模块;
异常事件是发生在一段连续的时间内以及会有长时间一致的行为模式。因此,为了更好的建模视频的时间关系,更好地表达视频的动态性特征,结合视频片段时空特征上的相似度以及视频片段时间上的接近度进行构图。
步骤2-1:特征相似图;
来自特征提取器的特征首先经过一个全连接层压缩特征维数。本发明提出用图学习层构建一个特征相似图F,来自适应地提取片段之间的时空相似度。考虑捕捉动态的时空依赖关系。两个连接节点的权重不是直接根据结点输入自定义的,而是随着模型的训练动态地调整。一旦模型用于在线学习,图邻接矩阵随着模型的参数被新的训练数据所更新也可以自适应地变化。
首先将特征矩阵Xn经过一个全连接层压缩特征维数;
采用公式(1)表示视频中每两个片段之间的关系;由于片段之间的邻接矩阵是非负的,用一个归一化的指数函数将相似度约束在(0,1]的范围内;因此,特征相似图的邻接矩阵AF被定义为:
其中,W1和W2是维度为d×d的权重参数,随着反向传播而更新,所以,AF的元素在训练过程中与其他模型参数一起进行优化;
步骤2:时间连续图;
对于大部分异常视频而言,并不是所有异常段类似于爆炸事件产生得那么剧烈,大部分异常事件需要一个起伏波动的过程时间,时间连续性有利于基于视频的任务。时间连续图T直接建立在视频的时间结构上,时间连续图T的邻接矩阵AT∈RN×N只依赖于片段的时间位置:
对于第j个片段,离第i个片段越近,分配给它的权重越大,可以更好地反映该段对第i个片段的影响;
步骤3:图卷积模块;
为了探索和利用视频片段之间的关系,用图卷积网络来建模视频片段之间的关系;对于图卷积网络第k层,图卷积的结果为:
Xk=σ(WkXk-1(AF+AT))+Xk-1 (3)
其中是所有视频片段在图卷积网络k-1层的特征,dm是特征维度, 为可训练的参数矩阵,σ为激活函数;
此外,给每个层添加了残差连接,以解决图卷积网络的过平滑问题;如果输入通道的维度与输出通道的维度不一致,则在残差连接中插入一个1×1的卷积,将输入转化为与输出一致的通道维度;
步骤4:损失函数;
每个视频只有正常或异常的视频级标签。显然,在异常视频中具有较大异常得分的片段更可能是异常片段,而在正常片段中具有较大异常得分的片段仍然是正常片段。为了扩大弱监督下异常片段和正常片段的类间距离,使用k-max损失函数;
具体来说,一个包含Tn个片段的视频Vn通过预训练的特征提取器得到Tn×D的特征矩阵F,然后输入图卷积网络得到视频Vn的异常得分选择s中的前m个元素表示其中/>最终的分类损失是预测的标签和训练视频上的真值之间的二元交叉熵值,它由以下公式给出:
具体实施例:
1、数据集
UCF-Crime是由长时间未经剪辑的监控视频构成的大规模数据集。涵盖13个真实世界的异常,包括虐待,逮捕,纵火,袭击,交通事故、入室盗窃、爆炸、打架、抢劫、枪击、偷窃、商店盗窃和故意破坏,这些异常现象都对公共安全有重大影响。数据集包含1,900个未剪辑的长视频,其中包括1,610个训练视频和290个测试视频,训练视频只有视频级别的标签。数据集涵盖了不同的光条件、图像分辨率和相机在复杂场景下的姿势,因此是非常具有挑战性的。
ShanghaiTech是包含437个视频的中型数据集,平均每个视频726帧。数据集包括在上海科技大学收集的13个场景中的130个异常事件,具有复杂的光线和摄像机视角,异常事件包含校园里不寻常的模式,如骑自行车或者开汽车。为了使其适用于评估弱监督异常检测方法,将数据分成两个子集:训练集由175个正常视频和63个异常视频组成,测试集包含155个正常视频和44个异常视频。
2、评估标准
参照以前的工作,使用帧级接收者操作曲线(receiver operatingcharacteristic curve, ROC)和相应的曲线下面积(area under curve,AUC)来评估本发明方法和比较方法的性能,AUC值越高模型的检测效果越好。
3、实验细节
每个视频被分为32个视频片段,即T=32。模型中的全连接层有512个节点,图卷积网络层分别有128、32和1个节点,其中除最后一层外,每一层后面都有一个ReLU 激活函数和一个dropout函数。最后一层后是一个Sigmoid激活函数。从预训练特征提取网络I3D的“mix 5c”层中提取2048维的特征。采用Adam优化器进行训练,权重衰减为 0.0005,学习率为0.001。批量数为64,每个小批次由随机选择的32个正常和32个异常视频样本组成。
4、实验结果和讨论
在两个数据集上将我们的方法与目前已有的方法进行比较。在UCF-Crime数据集上的结果如表1所示,比较结果表明,使用相同的I3D-RGB特性,我们的方法优于之前基于图卷积网络的方法,高于文献3的方法1.42%,高于文献4的方法0.7%。此外,本发明方法给UCF-Crime数据集增加了时空标记,并且训练卷积三维网络(C3D)和非局部网络(NLN)进行异常检测。这些结果验证了本发明方法比以前的工作更有效。
表1:在UCF-Crime上的AUC结果
表1中,带的结果是用I3D特征重新复现的。
ShanghaiTech数据集的帧级AUC结果见表2。与之前的弱监督学习方法相比,本发明方法取得了更好的性能。本发明方法性能比基于图卷积网络的弱监督方10.58%。这表明本发明方法图卷积网络模块能够更有效地捕捉时间依赖性。使用相同的特征(即结合I3DRGB和I3D Flow),本发明方法比以前基于多实例学习方法的最佳性能高 4.6%。
表格1:在ShanghaiTech上的AUC结果
表2中,带的结果是用I3D特征重新复现的。
5、消融实验
为了验证本发明提出的图邻接矩阵AF构造方法的有效性,用不同的方法构造图邻接矩阵进行了实验研究。表3显示了不同形式的AF的实验结果。使用的Dynamic-A1如公式1所示,Dynamic-A2如公式5所示,Global-A假设邻接矩阵是一个参数矩阵,它包含N2个参数。Csim-A是由片段特征的余弦相似度分数计算的。Jsim-A是由片段特征的杰卡德相似性得分计算的。根据表3观察到:动态构建的邻接矩阵AF实现了最佳性能。以不同的方式动态构建邻接矩阵对模型的性能影响不大,但都比一开始就固定构建的邻接矩阵要好。如果图的结构完全不依赖于结点的输入特征,最后的结果就会差一些,可能是因为设计的图学习层的在学习中是有局限性的。
表格2:在UCF-Crime数据集上不同图邻接矩阵AF构造方法的AUC结果
为了验证构建全局图的有效性,构建了特征相似图和时间连续图来训练两个独立的分支并计算两个独立分支结果的平均值。在UCF-Crime数据集上的性能比较见表4,可以看出构造全局图更能表达片段间耦合在一起的复杂关系。
表格3:在UCF-Crime数据集上不同图的AUC结果
Claims (2)
1.一种基于自适应图卷积网络的弱监督视频异常检测方法,其特征在于,包括如下步骤:
步骤1:特征提取;
训练集有N个训练视频和相应的弱监督标签/>其中yn∈{0,1},yn=1表示视频Vn包含至少一个异常片段,但开始和结束时间未知,yn=0表示视频Vn里全都是无异常片段;
在每一个视频Vn被送入特征提取器之前,将视频Vn分成固定数量的不重叠的时间片段,用Tn表示片段的数量;采用预训练的神经网络作为特征提取网络提取视频Vn外观和运动信息,构成特征矩阵Xn,Xn的维度为Tn×D维,D表示片段特征的维度;
步骤2:构造全局图模块;
步骤2-1:特征相似图;
首先将特征矩阵Xn经过一个全连接层压缩特征维数;
用图学习层构建一个特征相似图F;采用公式(1)表示视频中每两个片段之间的关系;由于片段之间的邻接矩阵是非负的,用一个归一化的指数函数将相似度约束在(0,1]的范围内;因此,特征相似图的邻接矩阵AF被定义为:
其中,W1和W2是维度为d×d的权重参数,随着反向传播而更新,所以,AF的元素在训练过程中与其他模型参数一起进行优化;
步骤2:时间连续图;
时间连续图T直接建立在视频的时间结构上,时间连续图T的邻接矩阵AT∈RN×N只依赖于片段的时间位置:
对于第j个片段,离第i个片段越近,分配给它的权重越大,可以更好地反映该段对第i个片段的影响;
步骤3:图卷积模块;
用图卷积网络来建模视频片段之间的关系;对于图卷积网络第k层,图卷积的结果为:
Xk=σ(WkXk-1(AF+AT))+Xk-1 (3)
其中是所有视频片段在图卷积网络k-1层的特征,dm是特征维度,/> 为可训练的参数矩阵,σ为激活函数;
此外,给每个层添加了残差连接,以解决图卷积网络的过平滑问题;如果输入通道的维度与输出通道的维度不一致,则在残差连接中插入一个1×1的卷积,将输入转化为与输出一致的通道维度;
步骤4:损失函数;
使用k-max损失函数;
具体来说,一个包含Tn个片段的视频Vn通过预训练的特征提取器得到Tn×D的特征矩阵F,然后输入图卷积网络得到视频Vn的异常得分选择s中的前m个元素表示其中/>最终的分类损失是预测的标签和训练视频上的真值之间的二元交叉熵值,它由以下公式给出:
2.根据权利要求1所述的一种基于自适应图卷积网络的弱监督视频异常检测方法,其特征在于,所述预训练的神经网络为在Kinetics数据集上预训练的Inflated 3D。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210326905.2A CN114841312B (zh) | 2022-03-30 | 2022-03-30 | 一种基于自适应图卷积网络的弱监督视频异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210326905.2A CN114841312B (zh) | 2022-03-30 | 2022-03-30 | 一种基于自适应图卷积网络的弱监督视频异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114841312A CN114841312A (zh) | 2022-08-02 |
CN114841312B true CN114841312B (zh) | 2024-02-27 |
Family
ID=82563627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210326905.2A Active CN114841312B (zh) | 2022-03-30 | 2022-03-30 | 一种基于自适应图卷积网络的弱监督视频异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114841312B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN110084151A (zh) * | 2019-04-10 | 2019-08-02 | 东南大学 | 基于非局部网络深度学习的视频异常行为判别方法 |
CN113011322A (zh) * | 2021-03-17 | 2021-06-22 | 南京工业大学 | 监控视频特定异常行为的检测模型训练方法及检测方法 |
CN113516032A (zh) * | 2021-04-29 | 2021-10-19 | 中国科学院西安光学精密机械研究所 | 基于时域注意力的弱监督监控视频异常行为检测方法 |
CN113822155A (zh) * | 2021-08-12 | 2021-12-21 | 上海光华智创网络科技有限公司 | 一种聚类辅助的弱监督视频异常检测方法和装置 |
CN113887363A (zh) * | 2021-09-24 | 2022-01-04 | 武汉科技大学 | 基于序列识别的视频异常事件检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11538143B2 (en) * | 2018-10-26 | 2022-12-27 | Nec Corporation | Fully convolutional transformer based generative adversarial networks |
-
2022
- 2022-03-30 CN CN202210326905.2A patent/CN114841312B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN110084151A (zh) * | 2019-04-10 | 2019-08-02 | 东南大学 | 基于非局部网络深度学习的视频异常行为判别方法 |
CN113011322A (zh) * | 2021-03-17 | 2021-06-22 | 南京工业大学 | 监控视频特定异常行为的检测模型训练方法及检测方法 |
CN113516032A (zh) * | 2021-04-29 | 2021-10-19 | 中国科学院西安光学精密机械研究所 | 基于时域注意力的弱监督监控视频异常行为检测方法 |
CN113822155A (zh) * | 2021-08-12 | 2021-12-21 | 上海光华智创网络科技有限公司 | 一种聚类辅助的弱监督视频异常检测方法和装置 |
CN113887363A (zh) * | 2021-09-24 | 2022-01-04 | 武汉科技大学 | 基于序列识别的视频异常事件检测方法 |
Non-Patent Citations (2)
Title |
---|
基于深度学习和稀疏组合的异常事件检测方法;齐华青;;电子测量技术;20191023(20);全文 * |
基于行动片段补充生成器的异常行为检测方法;赵春晖;杨莹;宿南;;沈阳大学学报(自然科学版);20191215(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114841312A (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Attention-based anomaly detection in multi-view surveillance videos | |
US10445885B1 (en) | Methods and systems for tracking objects in videos and images using a cost matrix | |
CN112131929B (zh) | 一种基于区块链的跨摄像机行人跟踪系统及方法 | |
Ullah et al. | Vision transformer attention with multi-reservoir echo state network for anomaly recognition | |
CN111738218A (zh) | 人体异常行为识别系统及方法 | |
Ji et al. | Tam-net: Temporal enhanced appearance-to-motion generative network for video anomaly detection | |
Sharma et al. | A fully integrated violence detection system using CNN and LSTM. | |
Fatima et al. | Global feature aggregation for accident anticipation | |
CN113642403A (zh) | 基于边缘计算的人群异动智能安全检测系统 | |
Abbas et al. | Anomaly detection in surveillance videos based on H265 and deep learning | |
Jang et al. | Detection of dangerous situations using deep learning model with relational inference | |
Kumar et al. | Abnormal human activity detection by convolutional recurrent neural network using fuzzy logic | |
Siddique et al. | Analysis of real-time hostile activitiy detection from spatiotemporal features using time distributed deep CNNs, RNNs and attention-based mechanisms | |
Sanjana et al. | Deep learning models for fire detection using surveillance cameras in public places | |
CN114841312B (zh) | 一种基于自适应图卷积网络的弱监督视频异常检测方法 | |
Sridhar et al. | Anomaly Detection using CNN with SVM | |
CN116958769A (zh) | 基于融合特征的翻越行为检测方法及相关装置 | |
Vijayan et al. | Video anomaly detection in surveillance cameras | |
CN115798055A (zh) | 一种基于cornersort跟踪算法的暴力行为检测方法 | |
Girdhar et al. | An Improved Empirical Hyper-Parameter Tuned Supervised Model for Human Activity Recognition based on Motion Flow and Deep Learning | |
CN115578690A (zh) | 一种基于场景分类的视频异常检测方法、系统及设备 | |
Damera et al. | Normalized Attention Neural Network with Adaptive Feature Recalibration for Detecting the Unusual Activities Using Video Surveillance Camera. | |
Abeyrathna et al. | Anomaly proposal-based fire detection for cyber-physical systems | |
Rahman et al. | Real-time anomaly detection and classification from surveillance cameras using Deep Neural Network | |
Marsiano et al. | Deep Learning-Based Anomaly Detection on Surveillance Videos: Recent Advances |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |