CN116341710A

CN116341710A - 交通事故预测方法、装置、电子设备及存储介质

Info

Publication number: CN116341710A
Application number: CN202310098924.9A
Authority: CN
Inventors: 刘玮; 张涛; 卢益胜; 陈珺; 魏龙生
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2023-02-03
Filing date: 2023-02-03
Publication date: 2023-06-27

Abstract

本发明公开了一种交通事故预测方法，包括：获取车载视频并进行预处理，得到连续的图像帧，对连续的图像帧提取时间特征与空间特征；并将时空特征进行中期融合；对对象级特征进行基于图结构的位置加权；对加权后的对象级特征进行空间注意；将对象级特征与全帧特征拼接并进行帧级聚合和时段级聚合，以充分学习交通场景上下文信息，对获得的双层聚合信息进行时空关系推理，以获得当前时间步的隐藏状态表示；将当前时间步的隐藏状态表示输入至全连接网络，得到事故评分，并在事故评分超过预定阈值时给出预警信号。该方法可以提前2～4秒成功的预测交通事故的发生，从而给与驾驶系统或驾驶员足够的反应时间，因此大大减少交通事故发生的可能性。

Description

交通事故预测方法、装置、电子设备及存储介质

技术领域

本发明涉及交通领域，具体涉及一种交通事故预测方法、装置、电子设备及存储介质。

背景技术

交通事故给人们的生命和财产造成了不可估量的损失，因此安全驾驶成为了大众迫切的需求。安全驾驶面临的最大挑战之一是如何准确预测事故的发生，那样在即将发生交通事故时采取必要措施可以避免交通事故发生。若能得到准确的交通事故预测结果，驾驶员和自动驾驶汽车能够有足够的反应的时间采取紧急避险，所以交通事故预测能够增强人类驾驶以及自动驾驶的安全驾驶能力。

目前大多数车辆都安装了行车记录仪，可以记录车辆行驶过程中的视频图像，车载视频能为交通事故预测方法提供稳定的预测数据来源，如果能够根据行车记录仪拍摄的视频即车载视频，实时对本车前方未来可能发生交通事故进行预测，就能让驾驶员在行车过程中有足够的时间避免交通事故的发生。

现有的交通事故预测方法主要包括以下几种：文献[Chan F H,Chen Y T,XiangY,et al.Anticipating accidents in dashcam videos[C].Asian Conference onComputer Vision.Springer,Cham,2016:136-153]利用循环神经网络进行交通事故预测；文献[Zeng K H,Chou S H,Chan F H,et al.Agent-centric risk assessment:Accidentanticipation and risky region localization[C].Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2017:2222-2230]提出使用一种软注意力循环神经网络对候选目标之间、候选目标与风险区域之间的非线性交互进行建模；文献[Suzuki T,Kataoka H,Aoki Y,et al.Anticipating traffic accidents withadaptive loss and large-scale incident db[C].Proceedings of the IEEEconference on computer vision and pattern recognition.2018:3521-3529]选择包含时间卷积的准递归神经网络对交通事故预测任务进行建模；文献[Bao W,Yu Q,KongY.Uncertainty-based traffic accident anticipation with spatio-temporalrelational learning[C].Proceedings of the 28th ACM International Conferenceon Multimedia.2020:2682-2690]使用图卷积循环神经网络与贝叶斯神经网络对交通事故进行预测；文献[Yu S Y,Malawade A V,Muthirayan D,et al.Scene-graph augmenteddata-driven risk assessment of autonomous vehicle decisions[J].IEEETransactions on Intelligent Transportation Systems,2021,23(7):7941-7951]提出了使用场景图作为中间表示来建立模型来预测驾驶操作的主观风险；文献[Malawade AV,Yu S Y,Hsu B,et al.Spatiotemporal scene-graph embedding for autonomousvehicle collision prediction[J].IEEE Internet of Things Journal,2022,9(12):9379-9388]提出了时空场景图嵌入方法，使用图神经网络和长短时记忆层通过视觉场景感知来预测未来的碰撞。然而这些模型都在预测中考虑了视频帧中的无关对象与车载视频中的无关帧，这降低了交通事故预测的精度。

发明内容

本发明针对车载视频帧中存在大量与交通事故预测无关的交通对象与车载视频中存在与交通事故预测无关的视频帧问题，围绕交通场景中无关信息减弱和交通场景中关键信息增强问题进行研究，通过分析交通场景中无关信息的性质，提出可以减少交通场景中无关对象影响和车载视频中无关帧影响的深度学习方法，并用于车载视频的交通事故预测。本发明使用RGB图像提取光流信息对视频中静止的目标做一个减弱处理，并通过双流网络的中期融合使视频信息中的时空信息实现融合，使时空信息彼此交互。再针对交通场景中的相距较近的目标进行基于图结构的位置加权处理，使相距较近的目标获得更大权重。然后通过空间注意模块，通过神经网络的学习，自动让交通事故预测模型着重注意更可能发生交通事故的目标，从而实现交通事故预测的高准确性。最后为了提高交通预测模型的场景理解能力，提出使用门控循环单元、帧级聚合和时段级聚合的结合使用，利用深度学习对视频帧和视频时间段进行时间注意运算，使事故推理能够充分学习到车载视频中的交通场景上下文信息。这种交通场景上下文信息减弱了交通场景中与交通事故不相关的目标信息与车载视频中与交通事故无关的视频帧信息，提高了交通事故预测的准确度，极大的促进了本发明交通事故预测方法的实用性。

本发明是通过以下技术方案来实现：

第一方面，一种交通事故预测方法，包括如下步骤：

步骤S1、获取车载视频并进行预处理，得到连续的图像帧；

步骤S2、对连续的图像帧提取时间特征与空间特征；

步骤S3、对提取的时间特征与空间特征进行中期融合；

步骤S4、对对象级特征进行基于图结构的位置加权；

步骤S5、对位置加权后的对象级特征进行空间注意后，将对象级特征与全帧特征拼接并进行帧级聚合和时段级聚合，以充分学习车载视频中的交通场景上下文信息，对获得的双层聚合信息进行时空关系推理，以获得当前时间步的隐藏状态表示；

步骤S6、将聚合得到的当前时间步的隐藏状态表示输入至全连接网络，得到最终的事故评分；

步骤S7、针对获得的事故评分，在事故评分超过预定阈值的时刻系统给出预警信号。

第二方面，一种交通事故预测装置，包括以下模块：

获取及预处理模块，用于获取车载视频并进行预处理，得到连续的图像帧；

特征提取模块，用于对连续的图像帧提取时间特征与空间特征；

时空融合模块，用于对提取的时间特征与空间特征进行中期融合；

位置加权模块，用于对对象特征进行基于图结构的位置加权；

双层聚合模块，用于对位置加权后的对象级特征进行空间注意后，将对象特征与全帧特征拼接并进行帧级聚合和时段级聚合，以充分学习车载视频中的交通场景上下文信息，对获得的双层聚合信息进行时空关系推理，以获得当前时间步的隐藏状态表示；

事故评分模块，用于将聚合得到的当前时间步的隐藏状态表示输入至全连接网络，得到最终的事故评分；

事故预警模块，用于针对获得的事故评分，在事故评分超过预定阈值的时刻系统给出预警信号。

第三方面，一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的交通事故预测方法的步骤。

第四方面，一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的交通事故预测方法的步骤。

与现有技术相比，本发明具有以下有益的技术效果：

本发明提供一种交通事故预测方法、装置、电子设备及存储介质，通过将车载视频分帧，从视频帧序列提取光流图片序列，在视频帧与光流图像中分别提取空间特征与时间特征，利用基于图结构的位置加权，突出彼此距离较近的交通目标影响，然后通过空间注意模块，通过神经网络的学习，自动让交通事故预测模型着重注意更可能发生交通事故的目标，从而实现交通事故预测的高准确性。最后为了提高交通预测模型的场景理解能力，提出使用门控循环单元、帧级聚合和时段级聚合的结合使用，利用深度学习对视频帧和视频时间段进行时间注意运算，使事故推理能够充分学习到车载视频中的交通场景上下文信息。通过对得到的上下文信息进行降维，可以得到交通事故预测分数，当交通事故预测分数超过阈值时，可以对驾驶员进行危险警告，从而使驾驶员有时间进行紧急避险，有利于减少交通事故的发生。在DAD数据集上本发明方法的平均准确率高于现有方法21.7％，平均事故提前预测时间高于现有方法0.48秒。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明一种交通事故预测的危险预警的流程图；

图2为本发明一种交通事故预测方法的具体流程图；

图3为本发明相邻帧图片的提取光流方法示意图；

图4为本发明具体实施例中场景一事故发生概率曲线图(有事故)；

图5为本发明具体实施例中场景二事故发生概率曲线图(有事故)；

图6为本发明具体实施例中场景三事故发生概率曲线图(有事故)；

图7为本发明具体实施例中场景四事故发生概率曲线图(无事故)；

图8为本发明一种交通事故预测装置的结构示意图；

图9为本发明一种电子设备的结构示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

本发明提供一种交通事故预测方法，如图1、图2所示，包括如下步骤：

步骤S1、获取车载视频并进行预处理，得到连续的图像帧；

步骤S2、对连续的图像帧提取时间特征与空间特征；

步骤S3、对提取的时间特征与空间特征进行中期融合；

步骤S4、对对象级特征进行基于图结构的位置加权；

本发明实施例所述交通事故预测方法由电子设备执行。所述电子设备可以是各类型的电子设备；例如，所述电子设备可以是但不限于是以下至少之一：服务器、计算机、平板电脑或者其他电子设备。

基于上述方法，步骤S1具体包括如下步骤：

步骤S11、获取行车记录仪拍摄的车载视频进行分帧操作得到T个连续图像帧并将图像的分辨率缩放至1080*720。

基于上述方法，步骤S2包括如下步骤：

步骤S21、对获得的T个连续图像帧进行交通目标检测，检测的交通目标包含人、自行车、摩托车、汽车与公共汽车，得到每帧图像中N个交通目标的包围框；

本实施例采用基于Faster R-CNN建立的检测模型进行交通目标检测，交通目标检测模型采用COCO数据集进行训练，其输出为图像中的交通目标包围框，每个包围框用4维向量表示；视频中的图像尺寸在输入Faster R-CNN前统一缩放至1024*1024。其中交通目标检测框的个数为N，若图像中的交通目标数量不足N个，则使用4维0向量表示，若图像中的交通目标数量多于N个，则只保留检测得分最高的N个包围框。在实验过程中，设定N＝19。

应该理解的是，任何目标检测算法都可以用于交通目标的检测，比如SSD、YOLO等，本实施例考虑到Faster R-CNN的准确度更高，且能够实现对小目标的良好检测，故作为一种优选的实施方式。

步骤S22、对获得的T个连续图像帧进行提取光流操作。

所述的提取光流操作采用如下步骤计算：对连续T个时刻的视频帧图像，计算每一帧与其前一帧图像的光流，得到T图像对应的光流图像，共计T-1个光流图像；本实施例优选FlowNet2算法进行相邻帧的光流计算；所述光流图中第j个像素点的二维光流矢量为：I_j＝(u_j,v_j)，u_j，v_j分别为光流矢量的垂直分量和水平分量；如图3所示。

步骤S23、对获得的T-1个光流图像进行插入空白帧操作；

所述的插入空白帧操作为在光流图像首位插入一张分辨率为1080*720的白色图片，白色图片对应的rgb值为(255,255,255)，由此获得共计T帧光流图像序列。

步骤S24、对序列长度为T的连续图像帧提取对应的空间特征；

所述的提取空间特征操作为：输入RGB图像，采用卷积神经网络提取RGB图像空间视觉表示，其中RGB图像为红绿蓝色彩模式图像，采用的卷积神经网络为VGG16网络，特征提取范围为每帧图像中的N个包围框与全帧画面，每帧RGB图像空间特征分为对象级空间特征与全帧空间特征，其特征维度分别为D*N与D*1。在实验过程中，设定D＝4096。

需要说明的是，VGG16网络只是本实施例一种优选的卷积神经网络，在其他实施例中，也可以选择其他任意特征提取网络用于时间特征和空间特征的提取。

步骤S25、对序列长度为T的光流图像提取对应的时间特征；

所述的提取时间特征操作为，输入光流图像，采用卷积神经网络分别提取时间视觉表示，其中光流图像为红绿蓝色彩模式图像，采用的卷积神经网络为VGG16网络，特征提取范围为每帧图像中的N个包围框与全帧画面，每帧光流图像时间特征分为对象时间特征与全时间特征，其特征维度分别为D*N与D*1。

基于上述方法，步骤S3包括如下步骤：

步骤S31、对提取到的空间特征与时间特征，进行相加操作；其中对象级空间特征与全帧空间特征，对象级时间特征与全帧时间特征分别相加，相加得到第t帧图像的中期融合对象特征

与中期融合全帧特征/>

中期融合对象特征的特征维度为D*N，中期融合全帧特征的特征维度为D*1。

其中步骤S4包括以下步骤：

步骤S41、根据步骤S21获得的目标包围框可以获得第t帧图像中每个包围框的中心点坐标C_t，C_t为二维向量的集合，根据以下公式得到视频序列中第t帧图像目标i与目标j之间的欧式距离

步骤S42、根据下列公式获得第t帧图像中的目标i与图像中其他所有交通目标之间的欧式距离之和：

步骤S43、根据下列公式获得第t帧图像中的目标i的位置权值

其中b为一常量。在实验过程中，设定b＝1.675。

步骤S44、根据步骤S43中获得的第t帧图像目标i的位置权值

与步骤S31中获得的第t帧目标i的中期融合对象特征/>

相乘得到第t帧目标i的位置加权特征/>

其中·代表元素相乘。

步骤S45、将步骤S31中获得的第t帧图像中期融合全帧特征与步骤S44中得到的第t帧图像位置加权特征分别经过全连接层得到相对应的低维特征：分别为第t帧图像低维位置加权对象级特征

与第t帧图像低维帧级特征/>

其中/>

的特征维度为d*N，/>

的特征维度为d*1。在实验过程中，设定d＝512。

基于上述方法，步骤S5包括以下步骤：

步骤S51、获得第t帧图像空间注意权值α_t：

其中

为SoftMax激活函数，tanh为tanh激活函数，w_sa、w_b、w_c、w_d为可学习参数，h′_t-1为第t-1帧获得的隐藏状态表示，/>

为第t帧图像低维位置加权对象级特征，其中

步骤S52、获得第t帧图像空间注意目标级特征

步骤S53、将第t帧图像空间注意目标级特征

与第t帧图像低维帧级特征/>

相串联，获得第t帧图像交通场景特征X_t：

其中；代表拼接；

步骤S54、获得单个时间段隐藏状态表示H_t-i：

H_t-i＝[h_t-1,...,h_t-i],i∈(1,...,z)

其中h_t-i为t-i帧获得的隐藏状态表示，Z为一常数，在实验过程中，设定Z＝10。

步骤S55、在帧级聚合层中，将时间注意力操作应用于单个帧隐藏状态表示，通过帧级聚合获得帧级加权隐藏状态表示，并表示为：

其中

为SoftMax激活函数，w_ta为可学习参数，/>

tanh代表双曲正切激活函数；

步骤S56、获得多个时间段隐藏状态表示A_t-Z：

A_t-Z＝[H′_t-1,H′_t-2,...,H′_t-Z]

步骤S57、在时段级聚合层中，将时间注意力操作应用于多个时段隐藏状态表示，通过时段级聚合获得时段级隐藏状态表示h′_t-1，这一过程可表示为：

其中

为SoftMax激活函数，w_tsa为可学习参数，/>

tanh代表双曲正切激活函数；

步骤S58、使用门控循环单元进行时空关系推理；

门控循环单元有两个门，重置门

和更新门/>

用以保留视频序列中与交通事故最相关的信息，总体可通过如下方程式描述：

其中σ代表sigmoid激活函数，h′_t-1代表经过双层聚合得到的t-1帧的时段级隐藏状态表示，X_t代表当前时刻输入的交通场景特征，

代表元素乘积运算符，r_t代表时间步t的候选隐藏状态，h_t代表第t帧图像的隐藏状态表示，tanh代表双曲正切激活函数，

均为可学习参数，其维度均为d*d。

基于上述方法，步骤S6包括以下步骤：

将S5获得的第t帧图像的隐藏状态表示的维度通过全连接层降低至1，即得到第t帧图像的交通事故评分，这一过程可用公式表达为：

FC代表全连接层，用于减小特征维度，特征维度由d减小为1，全连接层包含512个神经元，输入维度为512，输出维度为1。

基于上述方法，在步骤S7中，当交通事故评分超过预定阈值时，系统发出报警信号，本实施例中的预定阈值优选0.5。

损失函数：

在实验训练过程中，模型预测的目标是使交通事故预测结果尽可能地接近实际交通事故状态，达到提前预测时间长度与预测精度之间的均衡，即损失函数的目的是最小化两者之间的误差，因此，模型损失函数的方程式可表示为：

第一项针对事故帧，第二项针对正常帧。Loss代表损失函数，a_t代表第t帧图像的交通事故预测评分，y代表实际事故发生的帧数，f代表车载视频的帧率，T代表车载视频总帧数。

具体实施例：

本发明实施例中整个系统结构采用多输入单输出的模型，本方法通过pytorch深度学习框架构建网络模型，利用Adma优化器优化整个网络的参数，学习速率为0.0001。在DAD数据集上分别进行训练与测试。

其中DAD数据集中620个事故视频序列和1130个正常视频序列，共计175000帧图像。取三分之二作为训练集，三分之一作为测试集，在数据集上进行80个周期的训练，并与七中已有算法DSA(出自论文Chan F H,Chen Y T,Xiang Y,et al.Anticipatingaccidents in dashcam videos[C].Asian Conference on Computer Vision.Springer,Cham,2016:136-153)、SP(出自论文Alahi A,Goel K,Ramanathan V,et al.Social lstm:Human trajectory prediction in crowded spaces[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2016:961-971)、L-RAI(出自论文Zeng K H,Chou S H,Chan F H,et al.Agent-centric risk assessment:Accidentanticipation and risky region localization[C].Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2017:2222-2230)、AdaLEA(出自论文Suzuki T,Kataoka H,Aoki Y,et al.Anticipating traffic accidents withadaptive loss and large-scale incident db[C].Proceedings of the IEEEconference on computer vision and pattern recognition.2018:3521-3529)、GCRNN(出自论文Bao W,Yu Q,Kong Y.Uncertainty-based traffic accident anticipationwith spatio-temporal relational learning[C].Proceedings of the 28th ACMInternational Conference on Multimedia.2020:2682-2690)、FA(出自论文Fatima M,Khan M U K,Kyung C M.Global feature aggregation for accident anticipation[C].2020 25th International Conference on Pattern Recognition(ICPR).IEEE,2021:2809-2816)、DSTA(出自论文Karim M M,Li Y,Qin R,et al.Adynamic spatial-temporalattention network for early anticipation of traffic accidents[J].IEEETransactions on Intelligent Transportation Systems,2022)进行了性能比较，比较结果见表1：

表1：与已有算法的性能比较

AP(％)：平均准确率；

mTTA(秒)：预测提前的时间间隔。

此外，还将本发明方法与DSA、GCRNN、DSTA这三种算法进行了对比仿真，仿真得到的事故发生概率曲线如图4、图5、图6、图7所示，分别对应场景一至场景四，其中场景一、场景二和场景三中均发生了交通事故，对应的TTA(Time-to-Accident，事故发生时间)分别为2.05秒、1.6秒和3.8秒，场景四中未发生交通事故。由表1和图4-7可知，在DAD数据集上本发明所提出的交通事故预测方法在各项指标上均取得了优于当前最好方法的结果，在DAD数据集上本发明方法的平均准确率高于现有方法21.7％，平均事故提前预测时间高于现有方法0.48秒。

下面对本发明提供的一种交通事故预测装置进行描述，下文描述的交通事故预测装置与上文描述的交通事故预测方法可相互对应参照。

如图8所示，一种交通事故预测装置，包括以下模块：

获取及预处理模块010，用于获取车载视频并进行预处理，得到连续的图像帧；

特征提取模块020，用于对连续的图像帧提取时间特征与空间特征；

时空融合模块030，用于对提取的时间特征与空间特征进行中期融合；

位置加权模块040，用于对对象特征进行基于图结构的位置加权；

双层聚合模块050，用于对位置加权后的对象级特征进行空间注意后，将对象特征与全帧特征拼接并进行帧级聚合和时段级聚合，以充分学习车载视频中的交通场景上下文信息，对获得的双层聚合信息进行时空关系推理，以获得当前时间步的隐藏状态表示；

事故评分模块060，用于将聚合得到的当前时间步的隐藏状态表示输入至全连接网络，得到最终的事故评分；

事故预警模块070，用于针对获得的事故评分，在事故评分超过预定阈值的时刻系统给出预警信号。

如图9所示，示例了一种电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610、通信接口620、存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行上述交通事故预测方法的步骤，具体包括：获取车载视频并进行预处理，得到连续的图像帧；对连续的图像帧提取时间特征与空间特征；对提取的时间特征与空间特征进行中期融合；对对象级特征进行基于图结构的位置加权；对位置加权后的对象级特征进行空间注意后，将对象级特征与全帧特征拼接并进行帧级聚合和时段级聚合，以充分学习车载视频中的交通场景上下文信息，对获得的双层聚合信息进行时空关系推理，以获得当前时间步的隐藏状态表示；将聚合得到的当前时间步的隐藏状态表示输入至全连接网络，得到最终的事故评分；针对获得的事故评分，在事故评分超过预定阈值的时刻系统给出预警信号。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random15 Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明实施例还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述交通事故预测方法的步骤，具体包括：

获取车载视频并进行预处理，得到连续的图像帧；对连续的图像帧提取时间特征与空间特征；对提取的时间特征与空间特征进行中期融合；对对象级特征进行基于图结构的位置加权；对位置加权后的对象级特征进行空间注意后，将对象级特征与全帧特征拼接并进行帧级聚合和时段级聚合，以充分学习车载视频中的交通场景上下文信息，对获得的双层聚合信息进行时空关系推理，以获得当前时间步的隐藏状态表示；将聚合得到的当前时间步的隐藏状态表示输入至全连接网络，得到最终的事故评分；针对获得的事故评分，在事故评分超过预定阈值的时刻系统给出预警信号。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种交通事故预测方法，其特征在于，包括如下步骤：

步骤S1、获取车载视频并进行预处理，得到连续的图像帧；

步骤S2、对连续的图像帧提取时间特征与空间特征；

步骤S3、对提取的时间特征与空间特征进行中期融合；

步骤S4、对对象级特征进行基于图结构的位置加权；

2.根据权利要求1所述的交通事故预测方法，其特征在于，步骤S1中，包括如下步骤：

获取行车记录仪拍摄的车载视频，对车载视频进行分帧操作，得到T个连续的图像帧，并将图像的分辨率缩放至1080*720。

3.根据权利要求1所述的交通事故预测方法，其特征在于，步骤S2中，包括如下步骤：

步骤S21、对获得的T个连续的图像帧进行交通目标检测，检测的交通目标包含人、自行车、摩托车、汽车与公共汽车，得到每帧图像中N个交通目标的包围框；

步骤S22、对获得的T个连续的图像帧进行提取光流操作；

所述的提取光流操作采用如下步骤计算：对连续T个时刻的视频帧图像，计算每一帧与其前一帧图像的光流，得到T图像对应的光流图像，共计T-1个光流图像；

步骤S23、对获得的T-1个光流图像进行插入空白帧操作；

所述的插入空白帧操作为：在光流图像首位插入一张分辨率为1080*720的白色图片，白色图片对应的rgb值为(255,255,255)，由此获得共计T帧光流图像序列；

步骤S24、对序列长度为T的连续图像帧提取对应的空间特征；

所述的提取空间特征操作为：输入RGB图像，采用卷积神经网络提取RGB图像空间视觉表示，其中RGB图像为红绿蓝色彩模式图像，采用的卷积神经网络为VGG16网络，特征提取范围为每帧图像中的N个包围框与全帧画面，每帧RGB图像空间特征分为对象级空间特征与全帧空间特征，其特征维度分别为D*N与D*1；

步骤S25、对序列长度为T的光流图像提取对应的时间特征；

所述的提取时间特征操作为：输入光流图像，采用卷积神经网络分别提取时间视觉表示，其中光流图像为红绿蓝色彩模式图像，采用的卷积神经网络为VGG16网络，特征提取范围为每帧图像中的N个包围框与全帧画面，每帧光流图像时间特征分为对象级时间特征与全帧时间特征，其特征维度分别为D*N与D*1。

4.根据权利要求1所述的交通事故预测方法，其特征在于，步骤S3中，包括如下步骤：

与中期融合全帧特征/>

5.根据权利要求4所述的交通事故预测方法，其特征在于，步骤S4中，包括如下步骤：

步骤S41、根据步骤S21获得的目标包围框获得第t帧图像中每个包围框的中心点坐标C_t，C_t为二维向量的集合，根据以下公式得到视频序列中第t帧图像目标i与目标j之间的欧式距离

步骤S42、根据下列公式获得第t帧图像中的目标i与图像中其他所有交通目标之间的欧式距离之和

步骤S43、根据下列公式获得第t帧图像中的目标i的位置权值

其中b为一常量；

步骤S44、根据步骤S43中获得的第t帧图像目标i的位置权值

与步骤S31中获得的第t帧目标i的中期融合对象特征/>

相乘，得到第t帧目标i的位置加权特征/>

其中·代表元素相乘；

与第t帧图像低维帧级特征/>

其中/>

的特征维度为d*N，/>

的特征维度为d*1。

6.根据权利要求1所述的交通事故预测方法，其特征在于，步骤S5中，包括如下步骤：

步骤S51、获得第t帧图像空间注意权值α_t：

其中

为SoftMax激活函数，tanh为tanh激活函数，w_sa、w_b、w_c、w_d为可学习参数，h_t′_-1为第t-1帧获得的隐藏状态表示，/>

为第t帧图像低维位置加权对象级特征，其中

步骤S52、获得第t帧图像空间注意目标级特征

步骤S53、将第t帧图像空间注意目标级特征

与第t帧图像低维帧级特征/>

相串联，获得第t帧图像交通场景特征X_t：

其中；代表拼接；

步骤S54、获得单个时间段隐藏状态表示H_t-i：

H_t-i＝[h_t-1,...,h_t-i],i∈(1,...,z)

其中h_t-i为t-i帧获得的隐藏状态表示，Z为一常数；

其中

为SoftMax激活函数，w_ta为可学习参数，/>

tanh代表双曲正切激活函数；

步骤S56：获得多个时间段隐藏状态表示A_t-Z：

A_t-Z＝[H'_t-1,H'_t-2,...,H'_t-Z]

其中

为SoftMax激活函数，w_tsa为可学习参数，/>

tanh代表双曲正切激活函数；

步骤S58、使用门控循环单元进行时空关系推理；

门控循环单元有两个门，重置门

和更新门/>

代表元素乘积运算符，r_t代表时间步t的候选隐藏状态，h_t代表第t帧图像的隐藏状态表示，tanh代表双曲正切激活函数，/>

W_r、

均为可学习参数，其维度均为d*d。

7.根据权利要求1所述的交通事故预测方法，其特征在于，步骤S6中，包括如下步骤：

FC代表全连接层，用于减小特征维度，特征维度由d减小为1。

8.一种交通事故预测装置，其特征在于，包括以下模块：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的交通事故预测方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的交通事故预测方法的步骤。