CN117994743A

CN117994743A - 基于动态目标分割时空网络的事故检测方法及相关装置

Info

Publication number: CN117994743A
Application number: CN202410404735.4A
Authority: CN
Inventors: 郭延永; 江典峰; 周继彪; 吕浩; 岳全胜; 陈晓薇; 吴秀梅; 罗元炜
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2024-04-07
Filing date: 2024-04-07
Publication date: 2024-05-07
Anticipated expiration: 2044-04-07
Also published as: CN117994743B

Abstract

本发明公开了一种基于动态目标分割时空网络的事故检测方法及相关装置，本发明摒弃了对车辆轨迹的依赖，利用交通事故的时空特征关系，通过特征提取与融合，快速有效判断视频流中事故是否发生，提高了事故识别的准确率和效率。

Description

基于动态目标分割时空网络的事故检测方法及相关装置

技术领域

本发明涉及一种基于动态目标分割时空网络的事故检测方法及相关装置，属于图像识别技术与交通安全管理领域。

背景技术

随着机动车（尤其是汽车）保有量迅猛增长，道路交通事故迅猛增长，交通事故实时检测可以提高事故识别与响应速度，降低交通管控难度，减少事故带来的财产与安全损失、为交通事故致因研究和交通政策制定提供帮助，提高道路安全性。

在现有的道路交通事故检测方法中，通常先对图像进行车辆检测并进行车辆跟踪，根据车辆位置变化信息以及车辆与其他物体的关联关系判断事故是否发生。此类算法均依赖于车辆轨迹作为事故判断前提条件；然而在车流密集时往往会出现轨迹断裂、丢失、错误轨迹关联等问题，再者，事故发生时车辆位置、速度、形状的突变以及可能出现的翻倒、扬尘、火焰均会对目标跟踪产生显著影响，最后，事故的多样性导致判断用的轨迹规则在很多场景下并不适用；以上问题都会导致此类算法的结果不准确。

发明内容

本发明提供了一种基于动态目标分割时空网络的事故检测方法及相关装置，解决了背景技术中披露的问题。

根据本公开的一个方面，提供一种基于动态目标分割时空网络的事故检测方法，包括：对待检测的交通运行视频片段进行等间隔视频帧采样；提取各视频帧的特征向量和兴趣区域；其中，兴趣区域为与历史事故发生区域具有相似特征向量的区域；将兴趣区域的特征向量和兴趣区域所在视频帧的特征向量进行融合，获取各视频帧的空间特征向量；根据各视频帧的空间特征向量，获取交通运行视频片段的时空特征向量；根据交通运行视频片段的时空特征向量，进行交通运行视频片段的事故检测。

在本公开的一些实施例中，将兴趣区域的特征向量和兴趣区域所在视频帧的特征向量进行融合，获取各视频帧的空间特征向量，包括：针对每个视频帧，重新提取兴趣区域的特征向量，将重新提取的兴趣区域的特征向量与兴趣区域所在视频帧的特征向量进行堆叠，获得视频帧的空间特征向量。

在本公开的一些实施例中，采用卷积神经网络重新提取兴趣区域的特征向量；在卷积神经网络中，卷积层对输入特征图的处理公式为：

；

式中，为第l卷积层输出特征图第u行第v列的值，m和n分别为卷积核的列数和行数，/>为第l卷积层输入特征图第i+u行第j+v列的值，/>为第l卷积层中卷积核第i行第j列的值，b ^l为第l卷积层的偏置项。

在本公开的一些实施例中，根据各视频帧的空间特征向量，获取交通运行视频片段的时空特征向量，包括：按照视频帧的时间顺序对各视频帧的空间特征向量进行排序，将排序后的空间特征向量输入Transformer编码器，获取交通运行视频片段的时空特征向量。

在本公开的一些实施例中，根据交通运行视频片段的时空特征向量，进行交通运行视频片段的事故检测，包括：根据交通运行视频片段的时空特征向量，计算交通运行视频片段的事故发生指标，根据事故发生指标和阈值，获得交通运行视频片段的事故检测结果。

在本公开的一些实施例中，计算交通运行视频片段的事故发生指标，公式为：

R=W*Z+b；

式中，R为事故发生指标，Z为交通运行视频片段的时空特征向量，W为针对Z的权重，b为偏置。

在本公开的一些实施例中，还包括，若检测出事故发生，以待检测的交通运行视频片段为中心，将前、后预设时段的视频片段保存，并在保存的视频片段中标识不断变化的兴趣区域。

根据本公开的另一个方面，提供一种基于动态目标分割时空网络的事故检测装置，包括：

采样模块，对待检测的交通运行视频片段进行等间隔视频帧采样；

提取模块，提取各视频帧的特征向量和兴趣区域；其中，兴趣区域为与历史事故发生区域具有相似特征向量的区域；

融合模块，将兴趣区域的特征向量和兴趣区域所在视频帧的特征向量进行融合，获取各视频帧的空间特征向量；

时空特征向量模块，根据各视频帧的空间特征向量，获取交通运行视频片段的时空特征向量；

事故检测模块，根据交通运行视频片段的时空特征向量，进行交通运行视频片段的事故检测。

根据本公开的另一个方面，提供一种计算机可读存储介质，计算机可读存储介质存储一个或多个程序，一个或多个程序包括指令，指令当由计算设备执行时，使得计算设备执行基于动态目标分割时空网络的事故检测方法。

根据本公开的另一个方面，提供一种计算机设备，包括一个或多个处理器、以及一个或多个存储器，一个或多个程序存储在一个或多个存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行基于动态目标分割时空网络的事故检测方法的指令。

本发明所达到的有益效果：本发明摒弃了对车辆轨迹的依赖，利用交通事故的时空特征关系，通过特征提取与融合，快速有效判断视频流中事故是否发生，提高了事故识别的准确率和效率。

附图说明

图1为基于动态目标分割时空网络的事故检测方法的流程图；

图2为裁剪兴趣区域示意图；

图3为基于动态目标分割时空网络的事故检测装置的结构框图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外具有说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不做详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其他示例可以具有不同值。

应注意到：相似的符号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

为了解决现有事故检测方法不准确的问题，本公开提出一种基于动态目标分割时空网络的事故检测方法及相关装置，摒弃了对车辆轨迹的依赖，利用交通事故的时空特征关系，通过特征提取与融合，快速有效判断视频流中事故是否发生，提高了事故识别的准确率和效率。

图1为本公开基于动态目标分割时空网络的事故检测方法一个实施例的示意图，图1的实施例可由交通安全与智能交通系统的服务器周期性的执行。

如图1所示，实施例的步骤1，对待检测的交通运行视频片段进行等间隔视频帧采样。

需要说明的是，交通安全与智能交通系统会实时接收道路摄像头采集的交通运行视频，如果采用逐帧检测方式，那么事故检测的计算成本过高，对服务器的损耗较大，因此这里可以周期性的截取视频，即周期性的获取交通运行视频片段，如将m1帧作为滑动窗口尺寸，n1帧作为滑动距离，也就是每隔n1帧将接下来m1帧作为一个检测片段，同时为了降低计算成本，这里对视频片段进行等间隔视频帧采样，如每个片段中按k帧的间距获取采样帧。

上述m1、n1、k均为整数，取值可以参考具体道路环境与设备性能进行取值。一般而言，当道路环境复杂，交通运行速度快时，需要选取较小的k值，道路环境简单，交通运行速度慢时，可以选取较大的k值，k值推荐选取在4~16的范围内。当设备性能较强时，可以选取较大的m1值以及较小的n1值，当设备性能较差时，可以选取较小的m1值以及较大的n1值，建议n1值不大于m1值，m1值不小于80帧，不大于300帧，实例中可取m1为100，n1为50，k为5。上述通过可控滑动窗口进行视频流帧采样，可以针对不同交通场景以及设备条件获取合适的视频采样帧。

返回图1，实施例的步骤2，提取各视频帧的特征向量和兴趣区域；其中，兴趣区域为与历史事故发生区域具有相似特征向量的区域。

需要说明的是，进一步针对步骤1中视频帧进行兴趣区域识别，并将兴趣区域进行裁剪与分割，这样每个视频帧都会得到一个对应的兴趣区域。

具体可预先构建基于卷积神经网络的目标识别网络，采用事故发生区域框的事故图像数据集，对目标识别网络进行训练，利用训练的目标识别网络对视频帧进行特征向量提取与兴趣区域定位，将兴趣区域进行裁切，即获取与事故发生区域具有相似特征向量的区域。

这里的目标识别网络为EfficientDet目标识别网络，网络包含了三个部分，1、卷积特征提取网络EfficentNet，2、特征融合网络FPN，3、兴趣区域输出头。网络输入为发生事故的视频帧图像，网络输出为图像中发生事故的具体区域。针对上述方法，这里的网络做了以下调整：认为画面中不会同时出现多起事故，对于同时检测出多个事故兴趣区域框时，当存在复数置信度大于0.75的兴趣区域框时，对所有置信度大于0.75的兴趣区域框取并集，当存在置信度大于0.75的兴趣区域框时，置信度小于0.75的框均被筛除，当置信度均在0.75和0.4之间时，取兴趣区域并集，当所有框置信度均小于0.4时，将整个视频帧全画面认为是兴趣区域。

兴趣区域通过目标识别网络获取，其流程在于首先利用卷积网络对视频帧进行特征提取，利用特征金字塔（FPN）对不同层级的卷积网络特征进行特征融合，将融合后的特征传入类别判断与锚框调整输出头中输出兴趣区域。融合后的特征作为视频帧整体的特征向量，标定出置信度最高的锚框区域作为兴趣区域。

如图2所示，某视频帧及其裁剪兴趣区域示例，其中框选区域即为网络捕获的兴趣区域。

假设步骤1中获得20个视频帧{frame₁，frame₂，……，frame₂₀}，那么通过目标识别网络可获得20个兴趣区域和20个特征向量，如第s个视频帧获得第s个兴趣区域area_s和第s个特征向量，用集合表示为兴趣区域集合{area₁，area₂，……，area₂₀}和特征向量集合{feature₁，feature₂，……，feature₂₀}；其中，1≤s≤20。

返回图1，实施例的步骤3，将兴趣区域的特征向量和兴趣区域所在视频帧的特征向量进行融合，获取各视频帧的空间特征向量。

在一些实施例中，步骤3的具体过程为：针对每个视频帧，重新提取兴趣区域的特征向量，将重新提取的兴趣区域的特征向量与兴趣区域所在视频帧的特征向量（即步骤2中提取的特征向量）进行堆叠，获得视频帧的空间特征向量。

需要说明的是，这里兴趣区域的特征向量采用一个另外的卷积神经网络提取，即兴趣区域的特征提取和上述视频帧的特征提取采用不同的网络。在进行特征提取时，先将兴趣区域放缩为统一格式，然后输入卷积神经网络进行特征提取，进一步将提取的特征向量和对应的步骤2中提取的视频帧的特征向量进行堆叠得到视频帧的空间特征。

这里的卷积神经网络结构可使用EfficientNet或者Resnet等卷积神经网络进行特征提取。

在卷积神经网络中，卷积层对输入特征图的处理公式为：

；

这里的空间特征提取，有别于过往基于轨迹或基于图片全局特征的提取方式，采用了兴趣区域动态目标分割方法，在保证了检测效率的情况下强化了神经网络有效特征学习能力。

还是以上面20个视频帧为例，经过步骤3后，兴趣区域特征与步骤2中得到的特征进行堆叠，得到每个采样帧所对应的空间特征向量，用集合可表示为{frame_feature₁，frame_feature₂，……，frame_feature₂₀}。

返回图1，实施例的步骤4，根据各视频帧的空间特征向量，获取交通运行视频片段的时空特征向量。

需要说明的是，上述时空特征向量为结合了时序关系的时空特征向量，因此在一些实施例中，先按照视频帧的时间顺序对各视频帧的空间特征向量进行排序，将排序后的空间特征向量输入Transformer编码器，获取交通运行视频片段的时空特征向量。

由于Transformer编码器中采用了注意力机制，因此利用注意力方法对不同时刻采样帧的兴趣区域以及兴趣区域所在的视频帧的特征（即全局特征）进行特征查询，增强有效特征的表达能力并进行特征融合得到视频的时空特征。这里的查询和特征处理是把整个视频中不同采样帧的特征进行查询和整合，即网络的输入是每个时刻的空间特征向量，输出是时空特征向量，从而提高了事故识别的准确率。

假设将第q个视频帧提取出的空间特征向量为x _q，对于每个x _q，利用训练好的Transformer编码器将其编码为多组V、K、Q矩阵，进行特征查询，融合不同x _q关系计算出结合了时序关系的时空特征，处理公式可以如下：

Z=Concat(head ₁,…,head _n2)W ⁰；

；

式中，Z为交通运行视频片段的时空特征向量，Concat表示将多个特征查询头使用concat方法（连接方法）连接为一个向量，X为x _q的堆叠矩阵，head ₁~head _n2为n2个特征查询头（特征查询头不是和视频帧相对应的，而是网络中的检测头，其数量和视频帧数量一般不一致，输入的不同视频帧的空间特征向量会先在时间维度上进行拼接，而后再被传入网络处理），分别为第q个特征查询头的Q矩阵编码权重、K矩阵编码权重、V矩阵编码权重，W ⁰为聚合多头注意力特征的权重，d _k为K矩阵的维度，上标T表示转置。

返回图1，实施例的步骤5，根据交通运行视频片段的时空特征向量，进行交通运行视频片段的事故检测。

需要说明的是，可利用编码完成的时空特征向量以及训练完成的神经网络对视频时空特征进行解析，判断视频中是否发生了事故。这里可使用全连接神经网络，对全连接神经网络没有特定要求，网络的输入维度需要与时空特征维度匹配，输出结果应当为一个值（事故发生指标），解析即为全连接神经网络对时空特征的处理，即使用下面提到的计算公式对时空特征赋权值，计算得到事故发生指标。

当然在一些实施例中，可根据交通运行视频片段的时空特征向量，计算交通运行视频片段的事故发生指标，根据事故发生指标和阈值，获得交通运行视频片段的事故检测结果，其中，具体计算公式可以如下：

R=W*Z+b；

式中，R为事故发生指标，W为针对Z的权重，b为偏置，W*Z实质就是一个矩阵乘法，利用权重将时空特征向量转换为一个数值，最后加一个偏置得到具体指标数值，当R>0.5时判定为事故发生，否则判断事故不发生。

进一步，若检测出事故发生，以待检测的交通运行视频片段为中心，将前、后预设时段（一般为3分钟）的视频片段保存，并在保存的视频片段中标识不断变化的兴趣区域，这些保存的片段将作为事故证据。

本发明利用兴趣区域动态分割增强网络特征提取针对性特征（在部分现有研究的方法中，仅考虑对视频帧整体进行特征提取，未考虑到事故发生区域在视频中往往所占面积小的问题，本发明中结合了事故兴趣区域的识别以及对兴趣区域特征进行单独提取，强调了对于事故相关特征提取的针对性），同时保留原始视频帧的特征，强化网络鲁棒性，通过基于注意力的特征查询Transformer网络对所提取视频空间特征进行交互融合，提取视频时空特征，最后基于视频时空特征判断视频片段是否发生事故并保存证据。本发明摒弃了对车辆轨迹的依赖，对于拥挤复杂交通环境有着更强的适应力，能够克服事故发生时复杂场景变化对事故识别本身所造成的影响，有着更高的识别准确率，具有实际的工程运用价值。

图3为本公开基于动态目标分割时空网络的事故检测装置一个实施例的示意图，图3的实施例为一个虚拟装置，可由交通安全与智能交通系统的服务器装置并周期性的执行，包括采样模块、提取模块、融合模块、时空特征向量模块和事故检测模块。

实施例的采样模块被配置为：对待检测的交通运行视频片段进行等间隔视频帧采样。

需要说明的是，采样模块周期性的截取交通安全与智能交通系统实时获取的交通运行视频，对每个交通运行视频片段进行等间隔视频帧采样。通过周期性的截取和等间隔采样，可以大大降低计算成本。

实施例的提取模块被配置为：提取各视频帧的特征向量和兴趣区域；其中，兴趣区域为与历史事故发生区域具有相似特征向量的区域。

需要说明的是，提取模块采用预选训练的基于卷积神经网络的目标识别网络，提取视频帧的特征向量和兴趣区域。

实施例的融合模块配置为：将兴趣区域的特征向量和兴趣区域所在视频帧的特征向量进行融合，获取各视频帧的空间特征向量。

需要说明的是，融合模块配置采用另外的卷积神经网络提取兴趣区域的特征向量，然后将其与所在视频帧的特征向量堆叠，获得视频帧的空间特征。

实施例的时空特征向量模块被配置为：根据各视频帧的空间特征向量，获取交通运行视频片段的时空特征向量。

需要说明的是，将各视频帧的空间特征向量按时间进行排序，将排序后的空间特征向量输入Transformer编码器，获取交通运行视频片段的时空特征向量，由于Transformer编码器中采用了注意力机制，因此利用注意力方法对不同时刻采样帧的兴趣区域以及兴趣区域所在的视频帧的特征进行特征查询，增强有效特征的表达能力并进行特征融合得到视频的时空特征，从而提高了事故识别的准确率。

实施例的事故检测模块被配置为：根据交通运行视频片段的时空特征向量，进行交通运行视频片段的事故检测。

该装置摒弃了对车辆轨迹的依赖，利用交通事故的时空特征关系，通过特征提取与融合，快速有效判断视频流中事故是否发生，提高了事故识别的准确率和效率。

基于相同的技术方案，本公开还涉及一种计算机可读存储介质，计算机可读存储介质存储一个或多个程序，一个或多个程序包括指令，指令当由计算设备执行时，使得计算设备执行基于动态目标分割时空网络的事故检测方法。

基于相同的技术方案，本公开还涉及一种计算机设备，包括一个或多个处理器、以及一个或多个存储器，一个或多个程序存储在一个或多个存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行基于动态目标分割时空网络的事故检测方法的指令。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。

Claims

1.基于动态目标分割时空网络的事故检测方法，其特征在于，包括：

对待检测的交通运行视频片段进行等间隔视频帧采样；

提取各视频帧的特征向量和兴趣区域；其中，兴趣区域为与历史事故发生区域具有相似特征向量的区域；

将兴趣区域的特征向量和兴趣区域所在视频帧的特征向量进行融合，获取各视频帧的空间特征向量；

根据各视频帧的空间特征向量，获取交通运行视频片段的时空特征向量；

根据交通运行视频片段的时空特征向量，进行交通运行视频片段的事故检测。

2.根据权利要求1所述的基于动态目标分割时空网络的事故检测方法，其特征在于，将兴趣区域的特征向量和兴趣区域所在视频帧的特征向量进行融合，获取各视频帧的空间特征向量，包括：

针对每个视频帧，重新提取兴趣区域的特征向量，将重新提取的兴趣区域的特征向量与兴趣区域所在视频帧的特征向量进行堆叠，获得视频帧的空间特征向量。

3.根据权利要求2所述的基于动态目标分割时空网络的事故检测方法，其特征在于，采用卷积神经网络重新提取兴趣区域的特征向量；在卷积神经网络中，卷积层对输入特征图的处理公式为：

；

式中，为第l卷积层输出特征图第u行第v列的值，m和n分别为卷积核的列数和行数，为第l卷积层输入特征图第i+u行第j+v列的值，/>为第l卷积层中卷积核第i行第j列的值，b ^l为第l卷积层的偏置项。

4.根据权利要求1所述的基于动态目标分割时空网络的事故检测方法，其特征在于，根据各视频帧的空间特征向量，获取交通运行视频片段的时空特征向量，包括：

按照视频帧的时间顺序对各视频帧的空间特征向量进行排序，将排序后的空间特征向量输入Transformer编码器，获取交通运行视频片段的时空特征向量。

5.根据权利要求1所述的基于动态目标分割时空网络的事故检测方法，其特征在于，根据交通运行视频片段的时空特征向量，进行交通运行视频片段的事故检测，包括：

根据交通运行视频片段的时空特征向量，计算交通运行视频片段的事故发生指标，根据事故发生指标和阈值，获得交通运行视频片段的事故检测结果。

6.根据权利要求5所述的基于动态目标分割时空网络的事故检测方法，其特征在于，计算交通运行视频片段的事故发生指标，公式为：

R=W*Z+b；

7.根据权利要求1所述的基于动态目标分割时空网络的事故检测方法，其特征在于，还包括，若检测出事故发生，以待检测的交通运行视频片段为中心，将前、后预设时段的视频片段保存，并在保存的视频片段中标识不断变化的兴趣区域。

8.基于动态目标分割时空网络的事故检测装置，其特征在于，包括：

9.计算机可读存储介质，其特征在于，计算机可读存储介质存储一个或多个程序，一个或多个程序包括指令，指令当由计算设备执行时，使得计算设备执行权利要求1~7任一方法。

10.计算机设备，其特征在于，包括：

一个或多个处理器、以及一个或多个存储器，一个或多个程序存储在一个或多个存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行权利要求1~7任一方法的指令。