CN113269103B - 基于空间图卷积网络的异常行为检测方法、系统、存储介质和设备 - Google Patents
基于空间图卷积网络的异常行为检测方法、系统、存储介质和设备 Download PDFInfo
- Publication number
- CN113269103B CN113269103B CN202110592124.3A CN202110592124A CN113269103B CN 113269103 B CN113269103 B CN 113269103B CN 202110592124 A CN202110592124 A CN 202110592124A CN 113269103 B CN113269103 B CN 113269103B
- Authority
- CN
- China
- Prior art keywords
- abnormal
- skeleton
- score
- video frame
- abnormal score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 206010000117 Abnormal behaviour Diseases 0.000 title claims abstract description 34
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 230000002159 abnormal effect Effects 0.000 claims abstract description 196
- 238000010586 diagram Methods 0.000 claims abstract description 55
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000011176 pooling Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 59
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 230000006399 behavior Effects 0.000 claims description 10
- 230000005856 abnormality Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000002547 anomalous effect Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 230000033001 locomotion Effects 0.000 abstract description 8
- 238000000354 decomposition reaction Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 2
- 238000011158 quantitative evaluation Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于空间图卷积网络的异常行为检测方法、系统、存储介质和设备,属于机器视觉处理技术领域,提取待检测的视频帧中所有个体的骨架特征空间图;利用训练好的异常得分模型,将对空间图进行处理,获取该视频帧中每个骨架的异常得分;对该视频帧中所有骨架的异常得分进行最大池化操作,获取该视频帧的异常得分;按照视频帧的异常得分高低,对该帧视频进行异常行为级别识别分类。本发明采用空间图表征人体骨架特征,并分解为全局和局部特征成分,全局成分包含骨架刚性运动信息,局部成分描绘骨架关节点内部非刚性形变,联合全局特征和局部特征,不需要人工标定的正常数据来建立检测模型,实现了在完全无监督设置下异常行为检测,检测准确,计算效率高。
Description
技术领域
本发明涉及机器视觉处理技术领域,具体涉及一种基于空间图卷积网络的异常行为检测方法、系统、存储介质和设备。
背景技术
智能视频监控系统为保障社会公共安全起到了重要作用,该系统能够及时地自动分析处理监控摄像机采集的视频数据,从而减轻人力物力资源浪费。其中,作为智能监控的一个重要分支,复杂拥挤场景中的自动视频异常检测(Automatic Video AnomalyDetection in Complex and Crowded Scenes)逐渐成为研究热点之一,其致力于快速并准确地检测非常规行为如人群暴乱来保证公共安全。
然而,视频异常检测在应用上仍然一些缺陷:一方面,不同场景下对异常定义不同,例如,人群逃散在做游戏时被认为是正常事件,但在火车站和机场,可能会被认定为异常事件;另一方面,异常行为发生频率较低,导致实验过程中正样本数量不足,因此无法将异常检测任务视为二分类问题(正常,异常),从而无法使用传统的有监督分类方法完成该任务。
因此许多研究提出在训练阶段从只包含正常样本的训练数据中建模正常模式分布,在测试阶段将不符合正常模式分布的测试样本判为异常。该类方法在训练检测模型之前需要严格指定训练数据只包含正常事件,即需要一定人为监督,因此被称为半监督方法。早期方法使用轨迹特征表征正常模式的方法,因其很大程度上取决于目标检测跟踪算法表现,容易受到拥挤场景中遮挡与复杂背景等因素影响,所以,在拥挤场景下会失效。为了克服轨迹特征缺点,使用低层次人工设计特征,例如时空梯度特征、梯度直方图 (HOG)、光流直方图(HOF)来刻画描述视频事件的正常模式。继而使用从正常视频中提取出的特征训练一个异常检测模型。然而,特征提取是一个复杂且耗时的过程,除此之外,人工设计特征的表征能力具有局限性。
基于深度学习的方法,鉴于其在提取重要与精细特征方面的较强能力,在包括行为识别,目标检测与图像分类在内的多种机器视觉任务上表现出优异性能。基于深度网络的半监督异常检测方法通常采用正常数据训练一个深度自编码器网络,并通过重构策略建模正常模式分布。在测试阶段,异常事件对应的重构误差将明显高于正常事件对应的重构误差,因为在训练阶段搭建的模型未见过异常模式。
尽管半监督方法在异常事件检测任务上取得了较好结果,但是仍然面临两个问题:首先,在事先知道所有正常事件的前提下建立一个完美的正常模型是不实际的;其次,人工标定正常训练数据是相当耗时的。因此需要研究完全无监督方法实现异常行为检测,现有无监督异常检测工作大都采用基于像素特征如光流作为视频事件描述。由于基于像素的特征包含大量视频背景冗余信息,且通常背景中存在不相关目标人员,采用基于像素特征将不可避免地引入噪声,从而增加异常检测模型的负担,以从噪声中区分出有效信号。
发明内容
本发明的目的在于提供一种无监督的基于空间图卷积网络的异常行为检测方法及系统,以解决上述背景技术中存在的至少一项技术问题。
为了实现上述目的,本发明采取了如下技术方案:
一方面,本发明提供一种基于空间图卷积网络的异常行为检测方法,包括:
提取待检测的视频帧中所有个体的骨架特征空间图;
利用训练好的异常得分模型,将提取的骨架特征空间图进行处理,获取该视频帧中每个骨架的异常得分;
对该视频帧中所有骨架的异常得分进行最大池化操作,获取该视频帧的异常得分;
按照视频帧的异常得分高低,对该帧视频进行异常行为级别识别分类。
优选的,训练异常得分模型包括:
提取每帧视频中所有个体骨架特征,并采用空间图表示骨架特征;
将空间图中的骨架个体进行异常骨架和正常骨架分类,并对每类集合中的样本设置异常分值标签,作为训练集;
利用训练集,以期望输出的两个中成员的异常得分与设置的相应标签值偏差最小为目标,对搭建基于图卷积网络的异常得分模型进行迭代训练,获得训练好的异常得分模型。
优选的,采用自训练机制进行异常得分模型的训练过程的每一次迭代,包括:使用上一轮迭代得到的模型计算所有骨架相应的新的异常得分,根据新计算的异常得分更新初始正常骨架集合和初始异常骨架集合中的成员,基于更新的初始正常骨架集合和初始异常骨架集合进行新的一次训练迭代,直到找到最佳的模型。
优选的,将空间图中的骨架个体进行异常骨架和正常骨架分类,并对每类集合中的样本设置异常分值标签,作为训练集,包括:
将骨架空间图中的关节点集合对应的特征向量集合分解成全局特征分量和局部特征分量;
基于全局特征分量和局部特征分量,利用孤立森林算法,分别计算得到全局特征分量的异常得分和局部特征分量的异常得分;
将全局特征分量的异常得分和局部特征分量的异常得分规范化到一个范围内,将该范围内的融合值作为相应骨架的初始异常得分;
基于初始异常得分,将得分高于一阈值的骨架分到初始异常骨架集合,将得分低于该阈值的分到初始正常骨架集合,并对两个集合中每个样本设置异常分值标签。
优选的,基于初始异常得分,将得分高于一阈值的骨架分到初始异常骨架集合,将得分低于该阈值的分到初始正常骨架集合,将集合A中每个样本设置异常分值标签l1,将集合N中每个样本设置异常分值标签l2,其中, l 1 >> l 2。
优选的,训练中的目标函数为:
其中,G表示个体骨架图,当G∈A,yG=l1;当G∈N,yG=l2,λ表示避免过拟合的正则化参数。
第二方面,本发明提供一种基于空间图卷积网络的异常行为检测系统,包括:
提取模块,用于提取待检测的视频帧中所有个体的骨架特征空间图;
第一计算模块,用于利用训练好的异常得分模型,将提取的骨架特征空间图进行处理,获取该视频帧中每个骨架的异常得分;
第二计算模块,用于对该视频帧中所有骨架的异常得分进行最大池化操作,获取该视频帧的异常得分;
分类模块,用于按照视频帧的异常得分高低,对该帧视频进行异常行为级别识别分类。
第三方面,本发明提供一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质包括用于执行如上所述的基于空间图卷积网络的异常行为检测的指令。
第四方面,本发明提供一种电子设备,包括如上所述的非暂态计算机可读存储介质;以及能够执行所述非暂态计算机可读存储介质的所述指令的一个或多个处理器。
本发明有益效果:使用空间图表征人体骨架特征,并将空间骨架图的特征向量集合分解为全局和局部特征成分,全局成分包含整个骨架图的刚性运动信息,定义为图像帧内骨架图的边界框中心点的绝对位置,局部成分描绘骨架关节点内部非刚性形变,联合全局特征和局部特征,不需要人工标定的正常数据来建立检测模型,实现了在完全无监督设置下异常行为检测,检测准确,计算效率高。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所述的提取的视频帧中的骨架特征空间示意图。
图2为本发明实施例所述的异常事件检测流程示意图。
图3为本发明实施例所述的全局特征分量和局部特征分量分解示意图。
具体实施方式
下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语 (包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。
本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
实施例1
本发明实施例1提供一种基于空间图卷积网络的异常行为检测系统,该系统包括:
提取模块,用于提取待检测的视频帧中所有个体的骨架特征空间图;
第一计算模块,用于利用训练好的异常得分模型,将提取的骨架特征空间图进行处理,获取该视频帧中每个骨架的异常得分;
第二计算模块,用于对该视频帧中所有骨架的异常得分进行最大池化操作,获取该视频帧的异常得分;
分类模块,用于按照视频帧的异常得分高低,对该帧视频进行异常行为级别识别分类。
在本实施例1中,利用上述的系统,实现了基于空间图卷积网络的异常行为检测方法,包括:
使用提取模块,提取待检测的视频帧中所有个体的骨架特征空间图;
使用第一计算模块,利用训练好的异常得分模型,将提取的骨架特征空间图进行处理,获取该视频帧中每个骨架的异常得分;
使用第二计算模块,对该视频帧中所有骨架的异常得分进行最大池化操作,获取该视频帧的异常得分;
使用分类模块,按照视频帧的异常得分高低,对该帧视频进行异常行为级别识别分类。得分高的视频帧,其异常级别较高,得分低的视频帧,其异常级别低。
在本实施例1中,训练异常得分模型包括:
提取每帧视频中所有个体骨架特征,并采用空间图表示骨架特征;
将空间图中的骨架个体进行异常骨架和正常骨架分类,并对每类集合中的样本设置异常分值标签,作为训练集;
利用训练集,以期望输出的两个中成员的异常得分与设置的相应标签值偏差最小为目标,对搭建基于图卷积网络的异常得分模型进行迭代训练,获得训练好的异常得分模型。
在本实施例1中,采用自训练机制进行异常得分模型的训练过程的每一次迭代,包括:使用上一轮迭代得到的模型计算所有骨架相应的新的异常得分,根据新计算的异常得分更新初始正常骨架集合和初始异常骨架集合中的成员,基于更新的初始正常骨架集合和初始异常骨架集合进行新的一次训练迭代,直到找到最佳的模型。
在本实施例1中,将空间图中的骨架个体进行异常骨架和正常骨架分类,并对每类集合中的样本设置异常分值标签,作为训练集,包括:
将骨架空间图中的关节点集合对应的特征向量集合分解成全局特征分量和局部特征分量;
基于全局特征分量和局部特征分量,利用孤立森林算法,分别计算得到全局特征分量的异常得分和局部特征分量的异常得分;
将全局特征分量的异常得分和局部特征分量的异常得分规范化到一个范围内,将该范围内的融合值作为相应骨架的初始异常得分;
基于初始异常得分,将得分高于一阈值的骨架分到初始异常骨架集合,将得分低于该阈值的分到初始正常骨架集合,并对两个集合中每个样本设置异常分值标签。
在本实施例1中,基于初始异常得分,将得分高于一阈值的骨架分到初始异常骨架集合,将得分低于该阈值的分到初始正常骨架集合,将集合A中每个样本设置异常分值标签l1,将集合N中每个样本设置异常分值标签l2,其中,l1>>l2。
在本实施例1中,训练中的目标函数为:
其中,G表示个体骨架图,当G∈A,yG=l1;当G∈N,yG=l2,λ表示避免过拟合的正则化参数。
实施例2
本实施例2提供了一种全新的基于人体骨架特征的无监督方法进行视频中与人相关异常事件检测。包括:
步骤1:骨架空间图分解,具体为:
提取每帧视频图像中所有人体骨架特征,并采用空间图表示骨架特征;
使用分解模型将骨架空间图的图节点集合对应的特征向量集合分解成全局特征成分和局部特征成分。
步骤2:基于每个骨架图的全局和局部特征成分,采用无监督异常检测算法iForest产生初始正常骨架集合和初始异常骨架集合。
步骤4:在实际应用中,利用计算得到的由视频序列中提取的人体骨架的异常得分,计算每一视频帧的异常得分,实现帧级别异常事件检测。
骨架特征由视频序列中人体所有关节点空间坐标组成,通常采用姿态估计算法如Alphapose进行提取。与传统特征相比,骨架特征更加关注视频中前景人体目标,不含背景噪声,且能够有效描绘人体行为与运动。
本实施例2中,使用空间图表示骨架特征,如图1所示。图中每个节点 (黑色圆点)表示人体骨架关节点,黑色线条表示遵循人体骨架关节点自然连接规律的空间边。继而,采用空间图卷积网络来挖掘空间图中关节点间的空间特征。
本实施例2中,提供的无监督视频异常检测方法基于一个自训练回归模型,整个框架包括两个阶段:首先,使用无监督异常检测器将从视频中提取的所有骨架粗略地分成正常骨架集合和异常骨架集合。具体地来说,使用一个分解模型直接将空间图(骨架特征表示)分成全局特征分量和局部特征分量作为初始异常检测器的输入来获取初始正常骨架集合和初始异常骨架集合。继而,定义一个自训练回归模型自动迭代更新初始正常和异常骨架集合中骨架异常得分,该模型包含多个特征表示层和一个异常得分学习器。
本实施例2中,初始粗略分类的正常骨架集合和异常骨架集合中骨架的异常得分可以通过异常得分学习器进行更新和优化,实现更好的检测结果。
对应于骨架特征的表示空间图,本实施例2中,采用空间图卷积网络作为特征学习和全连接层搭建自训练回归模型。
如图2所示,本实施例2中,使用姿态估计算法提取视频序列每一帧中所有行人2D骨架特征,并采用空间图来表示人体骨架,骨架关节点作为图节点,符合人体结构的关节点间的自然连接作为图空间边。每个空间图被分成两个子部分:全局人体运动和局部人体姿态。将全局特征和局部特征输入到初始无监督异常检测器中计算相应特征异常得分来产生初始异常骨架集合和初始正常骨架集合。以初始异常和正常骨架集合作为训练数据来更新由空间图卷积网络和全连接层组成的异常得分模块的参数。相应地,更新后的异常得分模块用来计算所有个体骨架新的异常得分,并根据新的异常得分更新初始正常和异常骨架集合中的成员。为了实现更好的异常检测表现,以迭代方式进行上述步骤,也就是异常得分学习器实现回归的自训练过程。最后,在异常得分器训练过程结束后,将给出最终异常检测结果。
在本实施例2中,骨架空间图分解,具体包括:
传统方法通常使用由人体骨架关节点二维坐标连接成的特征向量表示人体骨架特征,本发明中使用空间图表示人体骨架。基于时刻t且具有M个关节点的人体骨架搭建的空间图表示为Gt=(Vt,Et),其中Vt表示图节点集合,Et表示图边集合。每个空间图中,节点集合包含时刻t的骨架中所有身体关节点,边集合包含所有刻画人体关节点间自然连接的空间边。图节点集合的特征向量集合由每个节点的坐标向量组成,表示为
人体骨架图运动由两部分组成:人体整体刚性运动和内部骨架关节点非刚性形变。本实施例2中,采用分解模型将时刻t空间骨架图的特征向量集合分解为全局和局部特征成分。全局成分包含整个骨架图的刚性运动信息,定义为图像帧内骨架图的边界框中心点的绝对位置。局部成分描绘骨架关节点内部非刚性形变,定义为图节点(骨架关节点)的坐标向量减去全局成分剩下的部分。分解过程见如图3所示,表示为:
其中,Ft g和Ft l,i分别表示全局和局部特征成分。
本实施例2中,联合骨架空间图边界框的宽和高以及边界框的中心点绝对坐标组成全局特征,因为边界框的尺寸包含视频场景中骨架深度信息,表示为全局成分特征的元素基于坐标向量集合Ft使用公式(2) 进行计算,局部成分特征在公式(3)中通过从原始坐标向量中减去全局成分进行计算,因此,局部成分表示考虑边界框的骨架图节点相对位置。
全局成分可以用来检测具有明显非常规运动状态的异常事件如人骑行自行车,而局部成分可以用于检测类似人扔东西或者跳跃等具有明显姿态变化的异常。因此,同时使用全局和局部特征成分作为无监督异常检测器输入来进行初始异常检测,并产生初始正常和异常骨架集合。
本实施例2中,进行了初始异常检测,包括:
初始异常检测的目的是基于每个骨架图的全局和局部特征成分,产生初始正常骨架集合N和初始异常骨架集合A。本实施例2中,采用一个适用于特征向量数据的无监督异常检测算法iForest来完成这个任务。因此,对于每个骨架空间图G,其相应的局部特征成分在输入到iForest算法之前需要调整大小为一个特征向量,对于全局特征成分Fg=(xg,yg,w,h),其维度为1,由此可以直接输入到iForest算法中。
iForest算法假定异常数据易于被孤立,并相应地在随机数据子空间上建立多棵独立树对其进行检测。每棵树通过随机采样一部分数据进行构造,构造过程中每个数据被逐一孤立,形成多个树节点,每个树节点上的特征是随机选择的。从根到每个数据对应叶节点的路径长度的倒数被计算为该数据的异常分数。因此,每个骨架图的全局和局部成分的异常分数计算如下:
其中,为从视频提取骨架集合的随机子集,h(Fl)和h(Fg)分别表示随机子集中局部成分和全局成分的路径长度,E(h(Fl))和E(h(Fg))分别表示n 棵独立树中局部成分和全局成分的平均路径长度,c(•) 表示预期路径长度。
本实施例2中,将全局和局部成分的异常得分规范化到范围[0,1],并使用他们的融合值作为相应骨架的初始异常得分。继而,该异常得分被用作判断标准将最可能异常骨架分到初始异常骨架集合A,将最有可能正常骨架分到初始正常骨架集合N。将集合A中每个样本设置标签l1,将集合N中每个样本设置标签l2,其中l1>>l2。
本实施例2中,异常得分模块的具体训练及工作原理如下:
异常得分模块以集合A和N作为输入,学习去更新异常得分,实现为与集合中数据具有相同行为的可疑数据计算得到较大(小)得分。得分模块定义为一个函数ρ(·;Θ),由一个特征表示学习器φ(·;Θr)和一个异常得分学习器组成,其中,Θ={Θr,Θs}包含所有需要去学习的参数。
对应于骨架空间图,特征表示学习器φ(·;Θr)被指定为空间图卷积网络。空间图卷积网络的输入是空间图节点集合对应的坐标向量集合,表示为 F={(xi,yi)|i=1,...,M}。
具体来说,特征表示学习器包含9层空间图卷积网络单元。每个空间图卷积网络单元中,空间图卷积操作后为批量规范化和ReLU激活操作。除此之外,每个单元中采用了Resnet机制。前三层输出通道数为32,随后的三层输出通道数为48。继而,接下来的两层由64个输出通道,最后一层的输出有32个通道。
特征学习器表示为:
q=φ(G;Θr), (6)
其中,G为输入骨架空间图,q为特征学习器输出特征图。
异常得分学习器定义为一个四层全连接网络。网络前三层隐含层分别有300,150,50个神经元,输出层只有一个线性神经元因此得分学习器输出为一个单一值,表示输入骨架的异常得分。得分学习器的输入为特征学习器输出,预先调整为一维特征向量。异常得分学习器表示为:
其中a为异常得分学习器的输出单一得分。
因此,异常得分模块可以表示为:
本实施例2中,迭代训练策略具体为:
为了获得更好的异常检测性能,在训练阶段基于集合A和N采用自训练策略对异常得分模块进行迭代优化:不同于传统训练策略,对于训练过程的每一次迭代,首先采用上一次训练迭代得到的异常得分模块生成所有骨架新的异常得分来更新集合A和N中成员,继而基于更新的A和N重新训练模型。直到找到最佳的得分模块ρ,迭代才会停止。
在训练过程的每次迭代期间,期望A和N中成员的异常得分尽可能接近设置标签l1(l2)。为了实现这一点,通过最小化以下目标函数来训练异常得分模块ρ:
在通过最小化损失函数迭代更新模块参数后,异常评分模块在测试阶段能够为任何与集合A和N中骨架有相似特征的骨架产生接近预设标签l1和l2的异常评分,从而实现分配给异常骨架的异常得分高于正常骨架。训练后模型用于计算集合中所有骨架的最终异常得分来检测与人相关异常事件。
本实施例2中,对于视频帧的异常得分计算:
对视频帧xt中存在的所有骨架实例的异常分数进行最大池化操作,以获取该帧相应的异常得分:
实施例3
本实施例3中,提出的一种无监督的图卷积网络的异常行为检测方法,整体方法包括如下步骤:
步骤1:骨架空间图分解,具体为:
提取每帧视频图像中所有人体骨架特征,并采用空间图表示骨架特征;
使用分解模型将骨架空间图的图节点集合对应的特征向量集合分解成全局特征成分和局部特征成分。
步骤2:基于每个骨架图的全局和局部特征成分,采用无监督异常检测算法iForest产生初始正常骨架集合N和初始异常骨架集合A。
将骨架图的全局特征成分和局部特征成分分别输入到iForest算法中,计算得到全局和局部成分的异常得分。
将全局和局部成分的异常得分规范化到范围[0,1],并使用他们的融合值作为相应骨架的初始异常得分。基于异常得分将最可能异常骨架分到初始异常骨架集合A,将最有可能正常骨架分到初始正常骨架集合N。
步骤3:基于初始集合A和N采用自训练机制迭代训练异常得分模块ρ,以获取更佳的骨架异常得分。
训练过程中期望A和N中成员的异常得分尽可能接近设置标签l1和l2,为了实现这一点,通过最小化以下目标函数来训练异常得分模块ρ:
训练过程的每一次迭代中,首先使用上一轮迭代得到的得分模块ρ计算所有骨架相应的新的异常得分,根据新计算的异常得分更新集合A和N中成员,继而基于更新的A和N进行新的一次训练迭代,直到找到最佳的得分模块ρ。该模块用于计算所有骨架的最终异常得分来检测与人相关异常事件。
步骤4:在实际应用中,利用计算得到的由视频序列中提取的人体骨架的异常得分,计算每一视频帧的异常得分,实现帧级别异常事件检测。
对视频帧xt中存在的所有骨架实例的异常分数进行最大池化操作,以获取该帧相应的异常得分:
本实施例3中,利用上述的方法,验证实验如下:
(1)在ShanghaiTech数据集和HR-ShanghaiTech数据集上进行实验:
ShanghaiTech数据集是目前最具挑战性的视频异常检测数据集之一,它包含了13个不同光照条件和视角场景的视频序列。数据集包括27万多个训练帧和130个测试异常事件。此外,该数据集还提供了异常事件的帧级和像素级真值。由于数据集的复杂性,最近的算法很难在数据集上获得良好的性能。
ShanghaiTech数据集中存在的异常事件大多与人的行为有关,然而,在数据集的测试集中有6个视频序列含有与人类无关的异常事件,例如不规则运动的汽车。本实施例3中,将这些视频从ShanghaiTech数据集中删除,其余视频组成Human-relatedShanghaiTech(HR-ShanghaiTech)数据集,在ShanghaiTech和HR ShanghaiTech数据集上进行了实验。
采用帧级(frame-level)评价准则,并绘制ROC(Receiver OperatorCharacteristic)曲线,通过ROC曲线计算AUC(Area Under Curve)、EER (Equal ErrorRate)3个重要量化评价指标评价算法优劣。AUC的值越大, EER的值越小,算法性能越好。
在ShanghaiTech数据集和HR-ShanghaiTech数据集上实验结果较半监督异常检测算法和弱监督异常检测算法如下:
(2)在Avenue数据集和HR-Avenue数据集上进行实验:
Avenue数据集包括16段训练视频与21段测试视频。训练视频中仅有正常行为,测试视频中既有正常行为又有异常行为,异常行为包括:奔跑、投掷物品、徘徊、反方向行走以及异常目标。
Avenue数据集与ShanghaiTech数据集相同,其中包括一组视频帧,其中异常与人无关,或者相关人员不可见。本发明将这些帧从原始数据集中进行人工移除,剩余的数据集称为Human-related Avenue(HR-Avenue)数据集。本发明同样使用Avenue和HR-Avenue数据集来评估提出的方法的性能
采用帧级(frame-level)评价准则,并绘制ROC(Receiver OperatorCharacteristic)曲线,通过ROC曲线计算AUC(Area Under Curve)、EER (Equal ErrorRate)2个重要量化评价指标评价算法优劣。AUC的值越大, EER的值越小,算法性能越好。
在Avenue数据集和HR-Avenue数据集上实验结果较半监督异常检测算法和其他无监督异常检测算法如下:
实施例4
本发明实施例4提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质包括用于执行基于空间图卷积网络的异常行为检测方法的指令,该方法包括:
提取待检测的视频帧中所有个体的骨架特征空间图;
利用训练好的异常得分模型,将提取的骨架特征空间图进行处理,获取该视频帧中每个骨架的异常得分;
对该视频帧中所有骨架的异常得分进行最大池化操作,获取该视频帧的异常得分;
按照视频帧的异常得分高低,对该帧视频进行异常行为级别识别分类。
实施例5
本发明实施例5提供一种电子设备,该电子设备包括一种非暂态计算机可读存储介质;以及能够执行所述非暂态计算机可读存储介质的所述指令的一个或多个处理器。所述非暂态计算机可读存储介质包括用于执行基于空间图卷积网络的异常行为检测方法的指令,该方法包括:
提取待检测的视频帧中所有个体的骨架特征空间图;
利用训练好的异常得分模型,将提取的骨架特征空间图进行处理,获取该视频帧中每个骨架的异常得分;
对该视频帧中所有骨架的异常得分进行最大池化操作,获取该视频帧的异常得分;
按照视频帧的异常得分高低,对该帧视频进行异常行为级别识别分类。
综上所述,本发明实施例所述的基于空间图卷积网络的异常行为检测方法及系统,为全新的基于骨架特征的无监督视频异常检测方法,不需要任何人工标记训练数据。该方法是第一个使用骨架特征的无监督异常检测工作。首先,从视频序列每一帧中提取所有个体的骨架特征,继而进行无监督视频异常检测。检测过程包含两个阶段:第一阶段,采用分解模型将骨架特征分成全局特征和局部特征并使用无监督异常检测器分出初始正常骨架集合和初始异常骨架集合。第二阶段,使用空间图卷积网络和全连接层的组合作为异常得分模块来迭代更新初始正常和异常骨架集合中骨架对应的异常得分。使用学习到的异常得分模块来计算所有个体骨架的异常得分来进行最终异常检测。实验结果证明提出的算法优于其他先进方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种基于空间图卷积网络的异常行为检测方法,其特征在于,包括:
提取待检测的视频帧中所有个体的骨架特征空间图;
利用训练好的异常得分模型,将提取的骨架特征空间图进行处理,获取该视频帧中每个骨架的异常得分;
对该视频帧中所有骨架的异常得分进行最大池化操作,获取该视频帧的异常得分;
按照视频帧的异常得分高低,对该帧视频进行异常行为级别识别分类;
训练异常得分模型包括:
提取每帧视频中所有个体骨架特征,并采用空间图表示骨架特征;
将空间图中的骨架个体进行异常骨架和正常骨架分类,并对每类集合中的样本设置异常分值标签,作为训练集;
利用训练集,以期望输出的两个中成员的异常得分与设置的相应标签值偏差最小为目标,对搭建基于图卷积网络的异常得分模型进行迭代训练,获得训练好的异常得分模型;
所述将空间图中的骨架个体进行异常骨架和正常骨架分类,并对每类集合中的样本设置异常分值标签,作为训练集,包括:
将骨架空间图中的关节点集合对应的特征向量集合分解成全局特征分量和局部特征分量;
基于全局特征分量和局部特征分量,利用孤立森林算法,分别计算得到全局特征分量的异常得分和局部特征分量的异常得分;
将全局特征分量的异常得分和局部特征分量的异常得分规范化到一个范围内,将该范围内的融合值作为相应骨架的初始异常得分;
基于初始异常得分,将得分高于一阈值的骨架分到初始异常骨架集合,将得分低于该阈值的分到初始正常骨架集合,并对两个集合中每个样本设置异常分值标签;
联合骨架空间图边界框的宽和高以及边界框的中心点绝对坐标组成全局特征,因为边界框的尺寸包含视频场景中骨架深度信息,表示为全局成分特征的元素基于坐标向量集合Ft使用公式(2)进行计算,局部成分特征在公式(3)中通过从原始坐标向量中减去全局成分进行计算,因此,局部成分表示考虑边界框的骨架图节点相对位置;
2.根据权利要求1所述的基于空间图卷积网络的异常行为检测方法,其特征在于,采用自训练机制进行异常得分模型的训练过程的每一次迭代,包括:使用上一轮迭代得到的模型计算所有骨架相应的新的异常得分,根据新计算的异常得分更新初始正常骨架集合和初始异常骨架集合中的成员,基于更新的初始正常骨架集合和初始异常骨架集合进行新的一次训练迭代,直到找到最佳的模型。
3.根据权利要求1所述的基于空间图卷积网络的异常行为检测方法,其特征在于,基于初始异常得分,将得分高于一阈值的骨架分到初始异常骨架集合,将得分低于该阈值的分到初始正常骨架集合,将集合A中每个样本设置异常分值标签l1,将集合N中每个样本设置异常分值标签l2,其中,l1>>l2;
所述集合N和集合A为基于每个骨架图的全局和局部特征成分产生的初始正常骨架集合N和初始异常骨架集合A。
6.一种基于空间图卷积网络的异常行为检测系统,其特征在于,包括:
提取模块,用于提取待检测的视频帧中所有个体的骨架特征空间图;
第一计算模块,用于利用训练好的异常得分模型,将提取的骨架特征空间图进行处理,获取该视频帧中每个骨架的异常得分;
第二计算模块,用于对该视频帧中所有骨架的异常得分进行最大池化操作,获取该视频帧的异常得分;
分类模块,用于按照视频帧的异常得分高低,对该帧视频进行异常行为级别识别分类;
将空间图中的骨架个体进行异常骨架和正常骨架分类,并对每类集合中的样本设置异常分值标签,作为训练集,包括:
将骨架空间图中的关节点集合对应的特征向量集合分解成全局特征分量和局部特征分量;
基于全局特征分量和局部特征分量,利用孤立森林算法,分别计算得到全局特征分量的异常得分和局部特征分量的异常得分;
将全局特征分量的异常得分和局部特征分量的异常得分规范化到一个范围内,将该范围内的融合值作为相应骨架的初始异常得分;
基于初始异常得分,将得分高于一阈值的骨架分到初始异常骨架集合,将得分低于该阈值的分到初始正常骨架集合,并对两个集合中每个样本设置异常分值标签;
联合骨架空间图边界框的宽和高以及边界框的中心点绝对坐标组成全局特征,因为边界框的尺寸包含视频场景中骨架深度信息,表示为全局成分特征的元素基于坐标向量集合Ft使用公式(2)进行计算,局部成分特征在公式(3)中通过从原始坐标向量中减去全局成分进行计算,因此,局部成分表示考虑边界框的骨架图节点相对位置;
7.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质包括用于执行如权利要求1-5任一项所述的基于空间图卷积网络的异常行为检测的指令。
8.一种电子设备,其特征在于,包括如权利要求7所述的非暂态计算机可读存储介质;以及能够执行所述非暂态计算机可读存储介质的所述指令的一个或多个处理器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110592124.3A CN113269103B (zh) | 2021-05-28 | 2021-05-28 | 基于空间图卷积网络的异常行为检测方法、系统、存储介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110592124.3A CN113269103B (zh) | 2021-05-28 | 2021-05-28 | 基于空间图卷积网络的异常行为检测方法、系统、存储介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113269103A CN113269103A (zh) | 2021-08-17 |
CN113269103B true CN113269103B (zh) | 2022-08-19 |
Family
ID=77233470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110592124.3A Active CN113269103B (zh) | 2021-05-28 | 2021-05-28 | 基于空间图卷积网络的异常行为检测方法、系统、存储介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113269103B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114240681A (zh) * | 2021-12-27 | 2022-03-25 | 杭州趣链科技有限公司 | 异常行为检测方法、电子设备和计算机可读存储介质 |
CN115331154B (zh) * | 2022-10-12 | 2023-01-24 | 成都西交智汇大数据科技有限公司 | 一种实验步骤评分方法、装置、设备及可读存储介质 |
CN116403162B (zh) * | 2023-04-11 | 2023-10-27 | 南京航空航天大学 | 一种机场场面目标行为识别方法、系统及电子设备 |
CN116450187B (zh) * | 2023-05-05 | 2024-06-25 | 北京慧和伙科技有限公司 | 应用于ai分析的数字化在线应用处理方法及ai应用系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309732A (zh) * | 2019-06-13 | 2019-10-08 | 浙江大学 | 基于骨架视频的行为识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522793B (zh) * | 2018-10-10 | 2021-07-23 | 华南理工大学 | 基于机器视觉的多人异常行为检测与识别方法 |
CN110135319B (zh) * | 2019-05-09 | 2022-09-16 | 广州大学 | 一种异常行为检测方法及其系统 |
CN111680614B (zh) * | 2020-06-03 | 2023-04-14 | 安徽大学 | 一种基于视频监控中的异常行为检测方法 |
CN112699771B (zh) * | 2020-12-26 | 2022-10-14 | 南京理工大学 | 基于人体姿态预测的异常行为检测方法 |
-
2021
- 2021-05-28 CN CN202110592124.3A patent/CN113269103B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309732A (zh) * | 2019-06-13 | 2019-10-08 | 浙江大学 | 基于骨架视频的行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113269103A (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113269103B (zh) | 基于空间图卷积网络的异常行为检测方法、系统、存储介质和设备 | |
US10282589B2 (en) | Method and system for detection and classification of cells using convolutional neural networks | |
Trnovszky et al. | Animal recognition system based on convolutional neural network | |
CN110569793B (zh) | 一种无监督相似性判别学习的目标跟踪方法 | |
Liu et al. | Fully convolutional attention networks for fine-grained recognition | |
Yan et al. | Multi-attributes gait identification by convolutional neural networks | |
Becker et al. | Learning context cues for synapse segmentation | |
Aoun et al. | Graph-based approach for human action recognition using spatio-temporal features | |
CN108960059A (zh) | 一种视频动作识别方法及装置 | |
KR20160096460A (ko) | 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법 | |
Yu et al. | An object-based visual attention model for robotic applications | |
Aurangzeb et al. | Human behavior analysis based on multi-types features fusion and Von Nauman entropy based features reduction | |
CN105139004A (zh) | 基于视频序列的人脸表情识别方法 | |
CN113989890A (zh) | 基于多通道融合和轻量级神经网络的人脸表情识别方法 | |
CN111539320B (zh) | 基于互相学习网络策略的多视角步态识别方法及系统 | |
Henrio et al. | Anomaly detection in videos recorded by drones in a surveillance context | |
Naseer et al. | Pixels to precision: features fusion and random forests over labelled-based segmentation | |
Chan et al. | A 3-D-point-cloud system for human-pose estimation | |
Milletari et al. | Robust segmentation of various anatomies in 3d ultrasound using hough forests and learned data representations | |
CN111860056A (zh) | 基于眨眼的活体检测方法、装置、可读存储介质及设备 | |
KR20200026409A (ko) | 영상분류 방법 및 장치 | |
Sharir et al. | Video object segmentation using tracked object proposals | |
CN109815887B (zh) | 一种基于多智能体协作的复杂光照下人脸图像的分类方法 | |
Płaczek | Rough sets in identification of cellular automata for medical image processing | |
García-González et al. | Deep autoencoder architectures for foreground object detection in video sequences based on probabilistic mixture models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |