CN117994743A - 基于动态目标分割时空网络的事故检测方法及相关装置 - Google Patents
基于动态目标分割时空网络的事故检测方法及相关装置 Download PDFInfo
- Publication number
- CN117994743A CN117994743A CN202410404735.4A CN202410404735A CN117994743A CN 117994743 A CN117994743 A CN 117994743A CN 202410404735 A CN202410404735 A CN 202410404735A CN 117994743 A CN117994743 A CN 117994743A
- Authority
- CN
- China
- Prior art keywords
- feature vector
- interest
- space
- video
- traffic operation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 230000011218 segmentation Effects 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 122
- 238000000034 method Methods 0.000 claims description 33
- 238000000605 extraction Methods 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 206010039203 Road traffic accident Diseases 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/44—Event detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于动态目标分割时空网络的事故检测方法及相关装置,本发明摒弃了对车辆轨迹的依赖,利用交通事故的时空特征关系,通过特征提取与融合,快速有效判断视频流中事故是否发生,提高了事故识别的准确率和效率。
Description
技术领域
本发明涉及一种基于动态目标分割时空网络的事故检测方法及相关装置,属于图像识别技术与交通安全管理领域。
背景技术
随着机动车(尤其是汽车)保有量迅猛增长,道路交通事故迅猛增长,交通事故实时检测可以提高事故识别与响应速度,降低交通管控难度,减少事故带来的财产与安全损失、为交通事故致因研究和交通政策制定提供帮助,提高道路安全性。
在现有的道路交通事故检测方法中,通常先对图像进行车辆检测并进行车辆跟踪,根据车辆位置变化信息以及车辆与其他物体的关联关系判断事故是否发生。此类算法均依赖于车辆轨迹作为事故判断前提条件;然而在车流密集时往往会出现轨迹断裂、丢失、错误轨迹关联等问题,再者,事故发生时车辆位置、速度、形状的突变以及可能出现的翻倒、扬尘、火焰均会对目标跟踪产生显著影响,最后,事故的多样性导致判断用的轨迹规则在很多场景下并不适用;以上问题都会导致此类算法的结果不准确。
发明内容
本发明提供了一种基于动态目标分割时空网络的事故检测方法及相关装置,解决了背景技术中披露的问题。
根据本公开的一个方面,提供一种基于动态目标分割时空网络的事故检测方法,包括:对待检测的交通运行视频片段进行等间隔视频帧采样;提取各视频帧的特征向量和兴趣区域;其中,兴趣区域为与历史事故发生区域具有相似特征向量的区域;将兴趣区域的特征向量和兴趣区域所在视频帧的特征向量进行融合,获取各视频帧的空间特征向量;根据各视频帧的空间特征向量,获取交通运行视频片段的时空特征向量;根据交通运行视频片段的时空特征向量,进行交通运行视频片段的事故检测。
在本公开的一些实施例中,将兴趣区域的特征向量和兴趣区域所在视频帧的特征向量进行融合,获取各视频帧的空间特征向量,包括:针对每个视频帧,重新提取兴趣区域的特征向量,将重新提取的兴趣区域的特征向量与兴趣区域所在视频帧的特征向量进行堆叠,获得视频帧的空间特征向量。
在本公开的一些实施例中,采用卷积神经网络重新提取兴趣区域的特征向量;在卷积神经网络中,卷积层对输入特征图的处理公式为:
;
式中,为第l卷积层输出特征图第u行第v列的值,m和n分别为卷积核的列数和行数,/>为第l卷积层输入特征图第i+u行第j+v列的值,/>为第l卷积层中卷积核第i行第j列的值,b l 为第l卷积层的偏置项。
在本公开的一些实施例中,根据各视频帧的空间特征向量,获取交通运行视频片段的时空特征向量,包括:按照视频帧的时间顺序对各视频帧的空间特征向量进行排序,将排序后的空间特征向量输入Transformer编码器,获取交通运行视频片段的时空特征向量。
在本公开的一些实施例中,根据交通运行视频片段的时空特征向量,进行交通运行视频片段的事故检测,包括:根据交通运行视频片段的时空特征向量,计算交通运行视频片段的事故发生指标,根据事故发生指标和阈值,获得交通运行视频片段的事故检测结果。
在本公开的一些实施例中,计算交通运行视频片段的事故发生指标,公式为:
R=W*Z+b;
式中,R为事故发生指标,Z为交通运行视频片段的时空特征向量,W为针对Z的权重,b为偏置。
在本公开的一些实施例中,还包括,若检测出事故发生,以待检测的交通运行视频片段为中心,将前、后预设时段的视频片段保存,并在保存的视频片段中标识不断变化的兴趣区域。
根据本公开的另一个方面,提供一种基于动态目标分割时空网络的事故检测装置,包括:
采样模块,对待检测的交通运行视频片段进行等间隔视频帧采样;
提取模块,提取各视频帧的特征向量和兴趣区域;其中,兴趣区域为与历史事故发生区域具有相似特征向量的区域;
融合模块,将兴趣区域的特征向量和兴趣区域所在视频帧的特征向量进行融合,获取各视频帧的空间特征向量;
时空特征向量模块,根据各视频帧的空间特征向量,获取交通运行视频片段的时空特征向量;
事故检测模块,根据交通运行视频片段的时空特征向量,进行交通运行视频片段的事故检测。
根据本公开的另一个方面,提供一种计算机可读存储介质,计算机可读存储介质存储一个或多个程序,一个或多个程序包括指令,指令当由计算设备执行时,使得计算设备执行基于动态目标分割时空网络的事故检测方法。
根据本公开的另一个方面,提供一种计算机设备,包括一个或多个处理器、以及一个或多个存储器,一个或多个程序存储在一个或多个存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行基于动态目标分割时空网络的事故检测方法的指令。
本发明所达到的有益效果:本发明摒弃了对车辆轨迹的依赖,利用交通事故的时空特征关系,通过特征提取与融合,快速有效判断视频流中事故是否发生,提高了事故识别的准确率和效率。
附图说明
图1为基于动态目标分割时空网络的事故检测方法的流程图;
图2为裁剪兴趣区域示意图;
图3为基于动态目标分割时空网络的事故检测装置的结构框图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外具有说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不做详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其他示例可以具有不同值。
应注意到:相似的符号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
为了解决现有事故检测方法不准确的问题,本公开提出一种基于动态目标分割时空网络的事故检测方法及相关装置,摒弃了对车辆轨迹的依赖,利用交通事故的时空特征关系,通过特征提取与融合,快速有效判断视频流中事故是否发生,提高了事故识别的准确率和效率。
图1为本公开基于动态目标分割时空网络的事故检测方法一个实施例的示意图,图1的实施例可由交通安全与智能交通系统的服务器周期性的执行。
如图1所示,实施例的步骤1,对待检测的交通运行视频片段进行等间隔视频帧采样。
需要说明的是,交通安全与智能交通系统会实时接收道路摄像头采集的交通运行视频,如果采用逐帧检测方式,那么事故检测的计算成本过高,对服务器的损耗较大,因此这里可以周期性的截取视频,即周期性的获取交通运行视频片段,如将m1帧作为滑动窗口尺寸,n1帧作为滑动距离,也就是每隔n1帧将接下来m1帧作为一个检测片段,同时为了降低计算成本,这里对视频片段进行等间隔视频帧采样,如每个片段中按k帧的间距获取采样帧。
上述m1、n1、k均为整数,取值可以参考具体道路环境与设备性能进行取值。一般而言,当道路环境复杂,交通运行速度快时,需要选取较小的k值,道路环境简单,交通运行速度慢时,可以选取较大的k值,k值推荐选取在4~16的范围内。当设备性能较强时,可以选取较大的m1值以及较小的n1值,当设备性能较差时,可以选取较小的m1值以及较大的n1值,建议n1值不大于m1值,m1值不小于80帧,不大于300帧,实例中可取m1为100,n1为50,k为5。上述通过可控滑动窗口进行视频流帧采样,可以针对不同交通场景以及设备条件获取合适的视频采样帧。
返回图1,实施例的步骤2,提取各视频帧的特征向量和兴趣区域;其中,兴趣区域为与历史事故发生区域具有相似特征向量的区域。
需要说明的是,进一步针对步骤1中视频帧进行兴趣区域识别,并将兴趣区域进行裁剪与分割,这样每个视频帧都会得到一个对应的兴趣区域。
具体可预先构建基于卷积神经网络的目标识别网络,采用事故发生区域框的事故图像数据集,对目标识别网络进行训练,利用训练的目标识别网络对视频帧进行特征向量提取与兴趣区域定位,将兴趣区域进行裁切,即获取与事故发生区域具有相似特征向量的区域。
这里的目标识别网络为EfficientDet目标识别网络,网络包含了三个部分,1、卷积特征提取网络EfficentNet,2、特征融合网络FPN,3、兴趣区域输出头。网络输入为发生事故的视频帧图像,网络输出为图像中发生事故的具体区域。针对上述方法,这里的网络做了以下调整:认为画面中不会同时出现多起事故,对于同时检测出多个事故兴趣区域框时,当存在复数置信度大于0.75的兴趣区域框时,对所有置信度大于0.75的兴趣区域框取并集,当存在置信度大于0.75的兴趣区域框时,置信度小于0.75的框均被筛除,当置信度均在0.75和0.4之间时,取兴趣区域并集,当所有框置信度均小于0.4时,将整个视频帧全画面认为是兴趣区域。
兴趣区域通过目标识别网络获取,其流程在于首先利用卷积网络对视频帧进行特征提取,利用特征金字塔(FPN)对不同层级的卷积网络特征进行特征融合,将融合后的特征传入类别判断与锚框调整输出头中输出兴趣区域。融合后的特征作为视频帧整体的特征向量,标定出置信度最高的锚框区域作为兴趣区域。
如图2所示,某视频帧及其裁剪兴趣区域示例,其中框选区域即为网络捕获的兴趣区域。
假设步骤1中获得20个视频帧{frame1,frame2,……,frame20},那么通过目标识别网络可获得20个兴趣区域和20个特征向量,如第s个视频帧获得第s个兴趣区域areas和第s个特征向量,用集合表示为兴趣区域集合{area1,area2,……,area20}和特征向量集合{feature1,feature2,……,feature20};其中,1≤s≤20。
返回图1,实施例的步骤3,将兴趣区域的特征向量和兴趣区域所在视频帧的特征向量进行融合,获取各视频帧的空间特征向量。
在一些实施例中,步骤3的具体过程为:针对每个视频帧,重新提取兴趣区域的特征向量,将重新提取的兴趣区域的特征向量与兴趣区域所在视频帧的特征向量(即步骤2中提取的特征向量)进行堆叠,获得视频帧的空间特征向量。
需要说明的是,这里兴趣区域的特征向量采用一个另外的卷积神经网络提取,即兴趣区域的特征提取和上述视频帧的特征提取采用不同的网络。在进行特征提取时,先将兴趣区域放缩为统一格式,然后输入卷积神经网络进行特征提取,进一步将提取的特征向量和对应的步骤2中提取的视频帧的特征向量进行堆叠得到视频帧的空间特征。
这里的卷积神经网络结构可使用EfficientNet或者Resnet等卷积神经网络进行特征提取。
在卷积神经网络中,卷积层对输入特征图的处理公式为:
;
式中,为第l卷积层输出特征图第u行第v列的值,m和n分别为卷积核的列数和行数,/>为第l卷积层输入特征图第i+u行第j+v列的值,/>为第l卷积层中卷积核第i行第j列的值,b l 为第l卷积层的偏置项。
这里的空间特征提取,有别于过往基于轨迹或基于图片全局特征的提取方式,采用了兴趣区域动态目标分割方法,在保证了检测效率的情况下强化了神经网络有效特征学习能力。
还是以上面20个视频帧为例,经过步骤3后,兴趣区域特征与步骤2中得到的特征进行堆叠,得到每个采样帧所对应的空间特征向量,用集合可表示为{frame_feature1,frame_feature2,……,frame_feature20}。
返回图1,实施例的步骤4,根据各视频帧的空间特征向量,获取交通运行视频片段的时空特征向量。
需要说明的是,上述时空特征向量为结合了时序关系的时空特征向量,因此在一些实施例中,先按照视频帧的时间顺序对各视频帧的空间特征向量进行排序,将排序后的空间特征向量输入Transformer编码器,获取交通运行视频片段的时空特征向量。
由于Transformer编码器中采用了注意力机制,因此利用注意力方法对不同时刻采样帧的兴趣区域以及兴趣区域所在的视频帧的特征(即全局特征)进行特征查询,增强有效特征的表达能力并进行特征融合得到视频的时空特征。这里的查询和特征处理是把整个视频中不同采样帧的特征进行查询和整合,即网络的输入是每个时刻的空间特征向量,输出是时空特征向量,从而提高了事故识别的准确率。
假设将第q个视频帧提取出的空间特征向量为x q ,对于每个x q ,利用训练好的Transformer编码器将其编码为多组V、K、Q矩阵,进行特征查询,融合不同x q 关系计算出结合了时序关系的时空特征,处理公式可以如下:
Z=Concat(head 1,…,head n2)W 0;
;
;
式中,Z为交通运行视频片段的时空特征向量,Concat表示将多个特征查询头使用concat方法(连接方法)连接为一个向量,X为x q 的堆叠矩阵,head 1~head n2为n2个特征查询头(特征查询头不是和视频帧相对应的,而是网络中的检测头,其数量和视频帧数量一般不一致,输入的不同视频帧的空间特征向量会先在时间维度上进行拼接,而后再被传入网络处理),分别为第q个特征查询头的Q矩阵编码权重、K矩阵编码权重、V矩阵编码权重,W 0为聚合多头注意力特征的权重,d k 为K矩阵的维度,上标T表示转置。
返回图1,实施例的步骤5,根据交通运行视频片段的时空特征向量,进行交通运行视频片段的事故检测。
需要说明的是,可利用编码完成的时空特征向量以及训练完成的神经网络对视频时空特征进行解析,判断视频中是否发生了事故。这里可使用全连接神经网络,对全连接神经网络没有特定要求,网络的输入维度需要与时空特征维度匹配,输出结果应当为一个值(事故发生指标),解析即为全连接神经网络对时空特征的处理,即使用下面提到的计算公式对时空特征赋权值,计算得到事故发生指标。
当然在一些实施例中,可根据交通运行视频片段的时空特征向量,计算交通运行视频片段的事故发生指标,根据事故发生指标和阈值,获得交通运行视频片段的事故检测结果,其中,具体计算公式可以如下:
R=W*Z+b;
式中,R为事故发生指标,W为针对Z的权重,b为偏置,W*Z实质就是一个矩阵乘法,利用权重将时空特征向量转换为一个数值,最后加一个偏置得到具体指标数值,当R>0.5时判定为事故发生,否则判断事故不发生。
进一步,若检测出事故发生,以待检测的交通运行视频片段为中心,将前、后预设时段(一般为3分钟)的视频片段保存,并在保存的视频片段中标识不断变化的兴趣区域,这些保存的片段将作为事故证据。
本发明利用兴趣区域动态分割增强网络特征提取针对性特征(在部分现有研究的方法中,仅考虑对视频帧整体进行特征提取,未考虑到事故发生区域在视频中往往所占面积小的问题,本发明中结合了事故兴趣区域的识别以及对兴趣区域特征进行单独提取,强调了对于事故相关特征提取的针对性),同时保留原始视频帧的特征,强化网络鲁棒性,通过基于注意力的特征查询Transformer网络对所提取视频空间特征进行交互融合,提取视频时空特征,最后基于视频时空特征判断视频片段是否发生事故并保存证据。本发明摒弃了对车辆轨迹的依赖,对于拥挤复杂交通环境有着更强的适应力,能够克服事故发生时复杂场景变化对事故识别本身所造成的影响,有着更高的识别准确率,具有实际的工程运用价值。
图3为本公开基于动态目标分割时空网络的事故检测装置一个实施例的示意图,图3的实施例为一个虚拟装置,可由交通安全与智能交通系统的服务器装置并周期性的执行,包括采样模块、提取模块、融合模块、时空特征向量模块和事故检测模块。
实施例的采样模块被配置为:对待检测的交通运行视频片段进行等间隔视频帧采样。
需要说明的是,采样模块周期性的截取交通安全与智能交通系统实时获取的交通运行视频,对每个交通运行视频片段进行等间隔视频帧采样。通过周期性的截取和等间隔采样,可以大大降低计算成本。
实施例的提取模块被配置为:提取各视频帧的特征向量和兴趣区域;其中,兴趣区域为与历史事故发生区域具有相似特征向量的区域。
需要说明的是,提取模块采用预选训练的基于卷积神经网络的目标识别网络,提取视频帧的特征向量和兴趣区域。
实施例的融合模块配置为:将兴趣区域的特征向量和兴趣区域所在视频帧的特征向量进行融合,获取各视频帧的空间特征向量。
需要说明的是,融合模块配置采用另外的卷积神经网络提取兴趣区域的特征向量,然后将其与所在视频帧的特征向量堆叠,获得视频帧的空间特征。
实施例的时空特征向量模块被配置为:根据各视频帧的空间特征向量,获取交通运行视频片段的时空特征向量。
需要说明的是,将各视频帧的空间特征向量按时间进行排序,将排序后的空间特征向量输入Transformer编码器,获取交通运行视频片段的时空特征向量,由于Transformer编码器中采用了注意力机制,因此利用注意力方法对不同时刻采样帧的兴趣区域以及兴趣区域所在的视频帧的特征进行特征查询,增强有效特征的表达能力并进行特征融合得到视频的时空特征,从而提高了事故识别的准确率。
实施例的事故检测模块被配置为:根据交通运行视频片段的时空特征向量,进行交通运行视频片段的事故检测。
该装置摒弃了对车辆轨迹的依赖,利用交通事故的时空特征关系,通过特征提取与融合,快速有效判断视频流中事故是否发生,提高了事故识别的准确率和效率。
基于相同的技术方案,本公开还涉及一种计算机可读存储介质,计算机可读存储介质存储一个或多个程序,一个或多个程序包括指令,指令当由计算设备执行时,使得计算设备执行基于动态目标分割时空网络的事故检测方法。
基于相同的技术方案,本公开还涉及一种计算机设备,包括一个或多个处理器、以及一个或多个存储器,一个或多个程序存储在一个或多个存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行基于动态目标分割时空网络的事故检测方法的指令。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
Claims (10)
1.基于动态目标分割时空网络的事故检测方法,其特征在于,包括:
对待检测的交通运行视频片段进行等间隔视频帧采样;
提取各视频帧的特征向量和兴趣区域;其中,兴趣区域为与历史事故发生区域具有相似特征向量的区域;
将兴趣区域的特征向量和兴趣区域所在视频帧的特征向量进行融合,获取各视频帧的空间特征向量;
根据各视频帧的空间特征向量,获取交通运行视频片段的时空特征向量;
根据交通运行视频片段的时空特征向量,进行交通运行视频片段的事故检测。
2.根据权利要求1所述的基于动态目标分割时空网络的事故检测方法,其特征在于,将兴趣区域的特征向量和兴趣区域所在视频帧的特征向量进行融合,获取各视频帧的空间特征向量,包括:
针对每个视频帧,重新提取兴趣区域的特征向量,将重新提取的兴趣区域的特征向量与兴趣区域所在视频帧的特征向量进行堆叠,获得视频帧的空间特征向量。
3.根据权利要求2所述的基于动态目标分割时空网络的事故检测方法,其特征在于,采用卷积神经网络重新提取兴趣区域的特征向量;在卷积神经网络中,卷积层对输入特征图的处理公式为:
;
式中,为第l卷积层输出特征图第u行第v列的值,m和n分别为卷积核的列数和行数,为第l卷积层输入特征图第i+u行第j+v列的值,/>为第l卷积层中卷积核第i行第j列的值,b l 为第l卷积层的偏置项。
4.根据权利要求1所述的基于动态目标分割时空网络的事故检测方法,其特征在于,根据各视频帧的空间特征向量,获取交通运行视频片段的时空特征向量,包括:
按照视频帧的时间顺序对各视频帧的空间特征向量进行排序,将排序后的空间特征向量输入Transformer编码器,获取交通运行视频片段的时空特征向量。
5.根据权利要求1所述的基于动态目标分割时空网络的事故检测方法,其特征在于,根据交通运行视频片段的时空特征向量,进行交通运行视频片段的事故检测,包括:
根据交通运行视频片段的时空特征向量,计算交通运行视频片段的事故发生指标,根据事故发生指标和阈值,获得交通运行视频片段的事故检测结果。
6.根据权利要求5所述的基于动态目标分割时空网络的事故检测方法,其特征在于,计算交通运行视频片段的事故发生指标,公式为:
R=W*Z+b;
式中,R为事故发生指标,Z为交通运行视频片段的时空特征向量,W为针对Z的权重,b为偏置。
7.根据权利要求1所述的基于动态目标分割时空网络的事故检测方法,其特征在于,还包括,若检测出事故发生,以待检测的交通运行视频片段为中心,将前、后预设时段的视频片段保存,并在保存的视频片段中标识不断变化的兴趣区域。
8.基于动态目标分割时空网络的事故检测装置,其特征在于,包括:
采样模块,对待检测的交通运行视频片段进行等间隔视频帧采样;
提取模块,提取各视频帧的特征向量和兴趣区域;其中,兴趣区域为与历史事故发生区域具有相似特征向量的区域;
融合模块,将兴趣区域的特征向量和兴趣区域所在视频帧的特征向量进行融合,获取各视频帧的空间特征向量;
时空特征向量模块,根据各视频帧的空间特征向量,获取交通运行视频片段的时空特征向量;
事故检测模块,根据交通运行视频片段的时空特征向量,进行交通运行视频片段的事故检测。
9.计算机可读存储介质,其特征在于,计算机可读存储介质存储一个或多个程序,一个或多个程序包括指令,指令当由计算设备执行时,使得计算设备执行权利要求1~7任一方法。
10.计算机设备,其特征在于,包括:
一个或多个处理器、以及一个或多个存储器,一个或多个程序存储在一个或多个存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行权利要求1~7任一方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410404735.4A CN117994743B (zh) | 2024-04-07 | 2024-04-07 | 基于动态目标分割时空网络的事故检测方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410404735.4A CN117994743B (zh) | 2024-04-07 | 2024-04-07 | 基于动态目标分割时空网络的事故检测方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117994743A true CN117994743A (zh) | 2024-05-07 |
CN117994743B CN117994743B (zh) | 2024-06-11 |
Family
ID=90890856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410404735.4A Active CN117994743B (zh) | 2024-04-07 | 2024-04-07 | 基于动态目标分割时空网络的事故检测方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117994743B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113936175A (zh) * | 2021-10-15 | 2022-01-14 | 上海交通大学 | 一种识别视频中的事件的方法及系统 |
CN114677618A (zh) * | 2022-03-01 | 2022-06-28 | 讯飞智元信息科技有限公司 | 事故检测方法、装置、电子设备和存储介质 |
CN117292338A (zh) * | 2023-11-27 | 2023-12-26 | 山东远东保险公估有限公司 | 基于视频流解析的车辆事故识别和分析方法 |
-
2024
- 2024-04-07 CN CN202410404735.4A patent/CN117994743B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113936175A (zh) * | 2021-10-15 | 2022-01-14 | 上海交通大学 | 一种识别视频中的事件的方法及系统 |
CN114677618A (zh) * | 2022-03-01 | 2022-06-28 | 讯飞智元信息科技有限公司 | 事故检测方法、装置、电子设备和存储介质 |
CN117292338A (zh) * | 2023-11-27 | 2023-12-26 | 山东远东保险公估有限公司 | 基于视频流解析的车辆事故识别和分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117994743B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020173226A1 (zh) | 一种时空行为检测方法 | |
CN109344725B (zh) | 一种基于时空关注度机制的多行人在线跟踪方法 | |
CN109034018B (zh) | 一种基于双目视觉的低空小型无人机障碍物感知方法 | |
CN110276783B (zh) | 一种多目标跟踪方法、装置及计算机系统 | |
CN111488795A (zh) | 应用于无人驾驶车辆的实时行人跟踪方法 | |
CN111832413B (zh) | 基于时空多尺度网络的人流密度图估计、定位和跟踪方法 | |
CN113506317A (zh) | 一种基于Mask R-CNN和表观特征融合的多目标跟踪方法 | |
CN103824070A (zh) | 一种基于计算机视觉的快速行人检测方法 | |
CN102799900A (zh) | 一种基于检测中支持在线聚类学习的对象跟踪方法 | |
CN112435276B (zh) | 一种车辆跟踪方法、装置、智能终端及存储介质 | |
CN114220061B (zh) | 一种基于深度学习的多目标跟踪方法 | |
CN113378675A (zh) | 一种同时检测和特征提取的人脸识别方法 | |
CN117994987B (zh) | 基于目标检测技术的交通参数提取方法及相关装置 | |
CN118334085B (zh) | 一种基于改进型机器学习的无人机目标跟踪方法及系统 | |
CN114529583B (zh) | 基于残差回归网络的电力设备跟踪方法及跟踪系统 | |
Liu et al. | Temporal shift and spatial attention-based two-stream network for traffic risk assessment | |
CN113255549B (zh) | 一种狼群围猎行为状态智能识别方法及系统 | |
CN114707604A (zh) | 一种基于时空注意力机制的孪生网络跟踪系统及方法 | |
CN112487911B (zh) | 智能监控环境下基于改进yolov3的实时行人检测方法及装置 | |
CN116434150B (zh) | 面向拥挤场景的多目标检测跟踪方法、系统及存储介质 | |
Karim et al. | An attention-guided multistream feature fusion network for localization of risky objects in driving videos | |
CN117994743B (zh) | 基于动态目标分割时空网络的事故检测方法及相关装置 | |
CN109492530B (zh) | 基于深度多尺度时空特征的健壮性视觉物体跟踪方法 | |
CN114820723B (zh) | 一种基于联合检测和关联的在线多目标跟踪方法 | |
CN115100565B (zh) | 一种基于空间相关性与光流配准的多目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |