CN116341710A - 交通事故预测方法、装置、电子设备及存储介质 - Google Patents
交通事故预测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116341710A CN116341710A CN202310098924.9A CN202310098924A CN116341710A CN 116341710 A CN116341710 A CN 116341710A CN 202310098924 A CN202310098924 A CN 202310098924A CN 116341710 A CN116341710 A CN 116341710A
- Authority
- CN
- China
- Prior art keywords
- frame
- features
- level
- image
- traffic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010039203 Road traffic accident Diseases 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000002776 aggregation Effects 0.000 claims abstract description 53
- 238000004220 aggregation Methods 0.000 claims abstract description 53
- 230000004927 fusion Effects 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 230000003287 optical effect Effects 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 10
- 230000002123 temporal effect Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 5
- 238000003780 insertion Methods 0.000 claims description 4
- 230000037431 insertion Effects 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 2
- 230000035484 reaction time Effects 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012502 risk assessment Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- AGGKEGLBGGJEBZ-UHFFFAOYSA-N tetramethylenedisulfotetramine Chemical compound C1N(S2(=O)=O)CN3S(=O)(=O)N1CN2C3 AGGKEGLBGGJEBZ-UHFFFAOYSA-N 0.000 description 2
- 230000003712 anti-aging effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Primary Health Care (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种交通事故预测方法,包括:获取车载视频并进行预处理,得到连续的图像帧,对连续的图像帧提取时间特征与空间特征;并将时空特征进行中期融合;对对象级特征进行基于图结构的位置加权;对加权后的对象级特征进行空间注意;将对象级特征与全帧特征拼接并进行帧级聚合和时段级聚合,以充分学习交通场景上下文信息,对获得的双层聚合信息进行时空关系推理,以获得当前时间步的隐藏状态表示;将当前时间步的隐藏状态表示输入至全连接网络,得到事故评分,并在事故评分超过预定阈值时给出预警信号。该方法可以提前2~4秒成功的预测交通事故的发生,从而给与驾驶系统或驾驶员足够的反应时间,因此大大减少交通事故发生的可能性。
Description
技术领域
本发明涉及交通领域,具体涉及一种交通事故预测方法、装置、电子设备及存储介质。
背景技术
交通事故给人们的生命和财产造成了不可估量的损失,因此安全驾驶成为了大众迫切的需求。安全驾驶面临的最大挑战之一是如何准确预测事故的发生,那样在即将发生交通事故时采取必要措施可以避免交通事故发生。若能得到准确的交通事故预测结果,驾驶员和自动驾驶汽车能够有足够的反应的时间采取紧急避险,所以交通事故预测能够增强人类驾驶以及自动驾驶的安全驾驶能力。
目前大多数车辆都安装了行车记录仪,可以记录车辆行驶过程中的视频图像,车载视频能为交通事故预测方法提供稳定的预测数据来源,如果能够根据行车记录仪拍摄的视频即车载视频,实时对本车前方未来可能发生交通事故进行预测,就能让驾驶员在行车过程中有足够的时间避免交通事故的发生。
现有的交通事故预测方法主要包括以下几种:文献[Chan F H,Chen Y T,XiangY,et al.Anticipating accidents in dashcam videos[C].Asian Conference onComputer Vision.Springer,Cham,2016:136-153]利用循环神经网络进行交通事故预测;文献[Zeng K H,Chou S H,Chan F H,et al.Agent-centric risk assessment:Accidentanticipation and risky region localization[C].Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2017:2222-2230]提出使用一种软注意力循环神经网络对候选目标之间、候选目标与风险区域之间的非线性交互进行建模;文献[Suzuki T,Kataoka H,Aoki Y,et al.Anticipating traffic accidents withadaptive loss and large-scale incident db[C].Proceedings of the IEEEconference on computer vision and pattern recognition.2018:3521-3529]选择包含时间卷积的准递归神经网络对交通事故预测任务进行建模;文献[Bao W,Yu Q,KongY.Uncertainty-based traffic accident anticipation with spatio-temporalrelational learning[C].Proceedings of the 28th ACM International Conferenceon Multimedia.2020:2682-2690]使用图卷积循环神经网络与贝叶斯神经网络对交通事故进行预测;文献[Yu S Y,Malawade A V,Muthirayan D,et al.Scene-graph augmenteddata-driven risk assessment of autonomous vehicle decisions[J].IEEETransactions on Intelligent Transportation Systems,2021,23(7):7941-7951]提出了使用场景图作为中间表示来建立模型来预测驾驶操作的主观风险;文献[Malawade AV,Yu S Y,Hsu B,et al.Spatiotemporal scene-graph embedding for autonomousvehicle collision prediction[J].IEEE Internet of Things Journal,2022,9(12):9379-9388]提出了时空场景图嵌入方法,使用图神经网络和长短时记忆层通过视觉场景感知来预测未来的碰撞。然而这些模型都在预测中考虑了视频帧中的无关对象与车载视频中的无关帧,这降低了交通事故预测的精度。
发明内容
本发明针对车载视频帧中存在大量与交通事故预测无关的交通对象与车载视频中存在与交通事故预测无关的视频帧问题,围绕交通场景中无关信息减弱和交通场景中关键信息增强问题进行研究,通过分析交通场景中无关信息的性质,提出可以减少交通场景中无关对象影响和车载视频中无关帧影响的深度学习方法,并用于车载视频的交通事故预测。本发明使用RGB图像提取光流信息对视频中静止的目标做一个减弱处理,并通过双流网络的中期融合使视频信息中的时空信息实现融合,使时空信息彼此交互。再针对交通场景中的相距较近的目标进行基于图结构的位置加权处理,使相距较近的目标获得更大权重。然后通过空间注意模块,通过神经网络的学习,自动让交通事故预测模型着重注意更可能发生交通事故的目标,从而实现交通事故预测的高准确性。最后为了提高交通预测模型的场景理解能力,提出使用门控循环单元、帧级聚合和时段级聚合的结合使用,利用深度学习对视频帧和视频时间段进行时间注意运算,使事故推理能够充分学习到车载视频中的交通场景上下文信息。这种交通场景上下文信息减弱了交通场景中与交通事故不相关的目标信息与车载视频中与交通事故无关的视频帧信息,提高了交通事故预测的准确度,极大的促进了本发明交通事故预测方法的实用性。
本发明是通过以下技术方案来实现:
第一方面,一种交通事故预测方法,包括如下步骤:
步骤S1、获取车载视频并进行预处理,得到连续的图像帧;
步骤S2、对连续的图像帧提取时间特征与空间特征;
步骤S3、对提取的时间特征与空间特征进行中期融合;
步骤S4、对对象级特征进行基于图结构的位置加权;
步骤S5、对位置加权后的对象级特征进行空间注意后,将对象级特征与全帧特征拼接并进行帧级聚合和时段级聚合,以充分学习车载视频中的交通场景上下文信息,对获得的双层聚合信息进行时空关系推理,以获得当前时间步的隐藏状态表示;
步骤S6、将聚合得到的当前时间步的隐藏状态表示输入至全连接网络,得到最终的事故评分;
步骤S7、针对获得的事故评分,在事故评分超过预定阈值的时刻系统给出预警信号。
第二方面,一种交通事故预测装置,包括以下模块:
获取及预处理模块,用于获取车载视频并进行预处理,得到连续的图像帧;
特征提取模块,用于对连续的图像帧提取时间特征与空间特征;
时空融合模块,用于对提取的时间特征与空间特征进行中期融合;
位置加权模块,用于对对象特征进行基于图结构的位置加权;
双层聚合模块,用于对位置加权后的对象级特征进行空间注意后,将对象特征与全帧特征拼接并进行帧级聚合和时段级聚合,以充分学习车载视频中的交通场景上下文信息,对获得的双层聚合信息进行时空关系推理,以获得当前时间步的隐藏状态表示;
事故评分模块,用于将聚合得到的当前时间步的隐藏状态表示输入至全连接网络,得到最终的事故评分;
事故预警模块,用于针对获得的事故评分,在事故评分超过预定阈值的时刻系统给出预警信号。
第三方面,一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的交通事故预测方法的步骤。
第四方面,一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的交通事故预测方法的步骤。
与现有技术相比,本发明具有以下有益的技术效果:
本发明提供一种交通事故预测方法、装置、电子设备及存储介质,通过将车载视频分帧,从视频帧序列提取光流图片序列,在视频帧与光流图像中分别提取空间特征与时间特征,利用基于图结构的位置加权,突出彼此距离较近的交通目标影响,然后通过空间注意模块,通过神经网络的学习,自动让交通事故预测模型着重注意更可能发生交通事故的目标,从而实现交通事故预测的高准确性。最后为了提高交通预测模型的场景理解能力,提出使用门控循环单元、帧级聚合和时段级聚合的结合使用,利用深度学习对视频帧和视频时间段进行时间注意运算,使事故推理能够充分学习到车载视频中的交通场景上下文信息。通过对得到的上下文信息进行降维,可以得到交通事故预测分数,当交通事故预测分数超过阈值时,可以对驾驶员进行危险警告,从而使驾驶员有时间进行紧急避险,有利于减少交通事故的发生。在DAD数据集上本发明方法的平均准确率高于现有方法21.7%,平均事故提前预测时间高于现有方法0.48秒。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明一种交通事故预测的危险预警的流程图;
图2为本发明一种交通事故预测方法的具体流程图;
图3为本发明相邻帧图片的提取光流方法示意图;
图4为本发明具体实施例中场景一事故发生概率曲线图(有事故);
图5为本发明具体实施例中场景二事故发生概率曲线图(有事故);
图6为本发明具体实施例中场景三事故发生概率曲线图(有事故);
图7为本发明具体实施例中场景四事故发生概率曲线图(无事故);
图8为本发明一种交通事故预测装置的结构示意图;
图9为本发明一种电子设备的结构示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
本发明提供一种交通事故预测方法,如图1、图2所示,包括如下步骤:
步骤S1、获取车载视频并进行预处理,得到连续的图像帧;
步骤S2、对连续的图像帧提取时间特征与空间特征;
步骤S3、对提取的时间特征与空间特征进行中期融合;
步骤S4、对对象级特征进行基于图结构的位置加权;
步骤S5、对位置加权后的对象级特征进行空间注意后,将对象级特征与全帧特征拼接并进行帧级聚合和时段级聚合,以充分学习车载视频中的交通场景上下文信息,对获得的双层聚合信息进行时空关系推理,以获得当前时间步的隐藏状态表示;
步骤S6、将聚合得到的当前时间步的隐藏状态表示输入至全连接网络,得到最终的事故评分;
步骤S7、针对获得的事故评分,在事故评分超过预定阈值的时刻系统给出预警信号。
本发明实施例所述交通事故预测方法由电子设备执行。所述电子设备可以是各类型的电子设备;例如,所述电子设备可以是但不限于是以下至少之一:服务器、计算机、平板电脑或者其他电子设备。
基于上述方法,步骤S1具体包括如下步骤:
步骤S11、获取行车记录仪拍摄的车载视频进行分帧操作得到T个连续图像帧并将图像的分辨率缩放至1080*720。
基于上述方法,步骤S2包括如下步骤:
步骤S21、对获得的T个连续图像帧进行交通目标检测,检测的交通目标包含人、自行车、摩托车、汽车与公共汽车,得到每帧图像中N个交通目标的包围框;
本实施例采用基于Faster R-CNN建立的检测模型进行交通目标检测,交通目标检测模型采用COCO数据集进行训练,其输出为图像中的交通目标包围框,每个包围框用4维向量表示;视频中的图像尺寸在输入Faster R-CNN前统一缩放至1024*1024。其中交通目标检测框的个数为N,若图像中的交通目标数量不足N个,则使用4维0向量表示,若图像中的交通目标数量多于N个,则只保留检测得分最高的N个包围框。在实验过程中,设定N=19。
应该理解的是,任何目标检测算法都可以用于交通目标的检测,比如SSD、YOLO等,本实施例考虑到Faster R-CNN的准确度更高,且能够实现对小目标的良好检测,故作为一种优选的实施方式。
步骤S22、对获得的T个连续图像帧进行提取光流操作。
所述的提取光流操作采用如下步骤计算:对连续T个时刻的视频帧图像,计算每一帧与其前一帧图像的光流,得到T图像对应的光流图像,共计T-1个光流图像;本实施例优选FlowNet2算法进行相邻帧的光流计算;所述光流图中第j个像素点的二维光流矢量为:Ij=(uj,vj),uj,vj分别为光流矢量的垂直分量和水平分量;如图3所示。
步骤S23、对获得的T-1个光流图像进行插入空白帧操作;
所述的插入空白帧操作为在光流图像首位插入一张分辨率为1080*720的白色图片,白色图片对应的rgb值为(255,255,255),由此获得共计T帧光流图像序列。
步骤S24、对序列长度为T的连续图像帧提取对应的空间特征;
所述的提取空间特征操作为:输入RGB图像,采用卷积神经网络提取RGB图像空间视觉表示,其中RGB图像为红绿蓝色彩模式图像,采用的卷积神经网络为VGG16网络,特征提取范围为每帧图像中的N个包围框与全帧画面,每帧RGB图像空间特征分为对象级空间特征与全帧空间特征,其特征维度分别为D*N与D*1。在实验过程中,设定D=4096。
需要说明的是,VGG16网络只是本实施例一种优选的卷积神经网络,在其他实施例中,也可以选择其他任意特征提取网络用于时间特征和空间特征的提取。
步骤S25、对序列长度为T的光流图像提取对应的时间特征;
所述的提取时间特征操作为,输入光流图像,采用卷积神经网络分别提取时间视觉表示,其中光流图像为红绿蓝色彩模式图像,采用的卷积神经网络为VGG16网络,特征提取范围为每帧图像中的N个包围框与全帧画面,每帧光流图像时间特征分为对象时间特征与全时间特征,其特征维度分别为D*N与D*1。
基于上述方法,步骤S3包括如下步骤:
步骤S31、对提取到的空间特征与时间特征,进行相加操作;其中对象级空间特征与全帧空间特征,对象级时间特征与全帧时间特征分别相加,相加得到第t帧图像的中期融合对象特征与中期融合全帧特征/>中期融合对象特征的特征维度为D*N,中期融合全帧特征的特征维度为D*1。
其中步骤S4包括以下步骤:
步骤S42、根据下列公式获得第t帧图像中的目标i与图像中其他所有交通目标之间的欧式距离之和:
其中b为一常量。在实验过程中,设定b=1.675。
其中·代表元素相乘。
步骤S45、将步骤S31中获得的第t帧图像中期融合全帧特征与步骤S44中得到的第t帧图像位置加权特征分别经过全连接层得到相对应的低维特征:分别为第t帧图像低维位置加权对象级特征与第t帧图像低维帧级特征/>其中/>的特征维度为d*N,/>的特征维度为d*1。在实验过程中,设定d=512。
基于上述方法,步骤S5包括以下步骤:
步骤S51、获得第t帧图像空间注意权值αt:
其中;代表拼接;
步骤S54、获得单个时间段隐藏状态表示Ht-i:
Ht-i=[ht-1,...,ht-i],i∈(1,...,z)
其中ht-i为t-i帧获得的隐藏状态表示,Z为一常数,在实验过程中,设定Z=10。
步骤S55、在帧级聚合层中,将时间注意力操作应用于单个帧隐藏状态表示,通过帧级聚合获得帧级加权隐藏状态表示,并表示为:
步骤S56、获得多个时间段隐藏状态表示At-Z:
At-Z=[H′t-1,H′t-2,...,H′t-Z]
步骤S57、在时段级聚合层中,将时间注意力操作应用于多个时段隐藏状态表示,通过时段级聚合获得时段级隐藏状态表示h′t-1,这一过程可表示为:
步骤S58、使用门控循环单元进行时空关系推理;
其中σ代表sigmoid激活函数,h′t-1代表经过双层聚合得到的t-1帧的时段级隐藏状态表示,Xt代表当前时刻输入的交通场景特征,代表元素乘积运算符,rt代表时间步t的候选隐藏状态,ht代表第t帧图像的隐藏状态表示,tanh代表双曲正切激活函数,均为可学习参数,其维度均为d*d。
基于上述方法,步骤S6包括以下步骤:
将S5获得的第t帧图像的隐藏状态表示的维度通过全连接层降低至1,即得到第t帧图像的交通事故评分,这一过程可用公式表达为:
FC代表全连接层,用于减小特征维度,特征维度由d减小为1,全连接层包含512个神经元,输入维度为512,输出维度为1。
基于上述方法,在步骤S7中,当交通事故评分超过预定阈值时,系统发出报警信号,本实施例中的预定阈值优选0.5。
损失函数:
在实验训练过程中,模型预测的目标是使交通事故预测结果尽可能地接近实际交通事故状态,达到提前预测时间长度与预测精度之间的均衡,即损失函数的目的是最小化两者之间的误差,因此,模型损失函数的方程式可表示为:
第一项针对事故帧,第二项针对正常帧。Loss代表损失函数,at代表第t帧图像的交通事故预测评分,y代表实际事故发生的帧数,f代表车载视频的帧率,T代表车载视频总帧数。
具体实施例:
本发明实施例中整个系统结构采用多输入单输出的模型,本方法通过pytorch深度学习框架构建网络模型,利用Adma优化器优化整个网络的参数,学习速率为0.0001。在DAD数据集上分别进行训练与测试。
其中DAD数据集中620个事故视频序列和1130个正常视频序列,共计175000帧图像。取三分之二作为训练集,三分之一作为测试集,在数据集上进行80个周期的训练,并与七中已有算法DSA(出自论文Chan F H,Chen Y T,Xiang Y,et al.Anticipatingaccidents in dashcam videos[C].Asian Conference on Computer Vision.Springer,Cham,2016:136-153)、SP(出自论文Alahi A,Goel K,Ramanathan V,et al.Social lstm:Human trajectory prediction in crowded spaces[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2016:961-971)、L-RAI(出自论文Zeng K H,Chou S H,Chan F H,et al.Agent-centric risk assessment:Accidentanticipation and risky region localization[C].Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2017:2222-2230)、AdaLEA(出自论文Suzuki T,Kataoka H,Aoki Y,et al.Anticipating traffic accidents withadaptive loss and large-scale incident db[C].Proceedings of the IEEEconference on computer vision and pattern recognition.2018:3521-3529)、GCRNN(出自论文Bao W,Yu Q,Kong Y.Uncertainty-based traffic accident anticipationwith spatio-temporal relational learning[C].Proceedings of the 28th ACMInternational Conference on Multimedia.2020:2682-2690)、FA(出自论文Fatima M,Khan M U K,Kyung C M.Global feature aggregation for accident anticipation[C].2020 25th International Conference on Pattern Recognition(ICPR).IEEE,2021:2809-2816)、DSTA(出自论文Karim M M,Li Y,Qin R,et al.Adynamic spatial-temporalattention network for early anticipation of traffic accidents[J].IEEETransactions on Intelligent Transportation Systems,2022)进行了性能比较,比较结果见表1:
表1:与已有算法的性能比较
AP(%):平均准确率;
mTTA(秒):预测提前的时间间隔。
此外,还将本发明方法与DSA、GCRNN、DSTA这三种算法进行了对比仿真,仿真得到的事故发生概率曲线如图4、图5、图6、图7所示,分别对应场景一至场景四,其中场景一、场景二和场景三中均发生了交通事故,对应的TTA(Time-to-Accident,事故发生时间)分别为2.05秒、1.6秒和3.8秒,场景四中未发生交通事故。由表1和图4-7可知,在DAD数据集上本发明所提出的交通事故预测方法在各项指标上均取得了优于当前最好方法的结果,在DAD数据集上本发明方法的平均准确率高于现有方法21.7%,平均事故提前预测时间高于现有方法0.48秒。
下面对本发明提供的一种交通事故预测装置进行描述,下文描述的交通事故预测装置与上文描述的交通事故预测方法可相互对应参照。
如图8所示,一种交通事故预测装置,包括以下模块:
获取及预处理模块010,用于获取车载视频并进行预处理,得到连续的图像帧;
特征提取模块020,用于对连续的图像帧提取时间特征与空间特征;
时空融合模块030,用于对提取的时间特征与空间特征进行中期融合;
位置加权模块040,用于对对象特征进行基于图结构的位置加权;
双层聚合模块050,用于对位置加权后的对象级特征进行空间注意后,将对象特征与全帧特征拼接并进行帧级聚合和时段级聚合,以充分学习车载视频中的交通场景上下文信息,对获得的双层聚合信息进行时空关系推理,以获得当前时间步的隐藏状态表示;
事故评分模块060,用于将聚合得到的当前时间步的隐藏状态表示输入至全连接网络,得到最终的事故评分;
事故预警模块070,用于针对获得的事故评分,在事故评分超过预定阈值的时刻系统给出预警信号。
如图9所示,示例了一种电子设备的实体结构示意图,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610、通信接口620、存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行上述交通事故预测方法的步骤,具体包括:获取车载视频并进行预处理,得到连续的图像帧;对连续的图像帧提取时间特征与空间特征;对提取的时间特征与空间特征进行中期融合;对对象级特征进行基于图结构的位置加权;对位置加权后的对象级特征进行空间注意后,将对象级特征与全帧特征拼接并进行帧级聚合和时段级聚合,以充分学习车载视频中的交通场景上下文信息,对获得的双层聚合信息进行时空关系推理,以获得当前时间步的隐藏状态表示;将聚合得到的当前时间步的隐藏状态表示输入至全连接网络,得到最终的事故评分;针对获得的事故评分,在事故评分超过预定阈值的时刻系统给出预警信号。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random15 Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
又一方面,本发明实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述交通事故预测方法的步骤,具体包括:
获取车载视频并进行预处理,得到连续的图像帧;对连续的图像帧提取时间特征与空间特征;对提取的时间特征与空间特征进行中期融合;对对象级特征进行基于图结构的位置加权;对位置加权后的对象级特征进行空间注意后,将对象级特征与全帧特征拼接并进行帧级聚合和时段级聚合,以充分学习车载视频中的交通场景上下文信息,对获得的双层聚合信息进行时空关系推理,以获得当前时间步的隐藏状态表示;将聚合得到的当前时间步的隐藏状态表示输入至全连接网络,得到最终的事故评分;针对获得的事故评分,在事故评分超过预定阈值的时刻系统给出预警信号。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种交通事故预测方法,其特征在于,包括如下步骤:
步骤S1、获取车载视频并进行预处理,得到连续的图像帧;
步骤S2、对连续的图像帧提取时间特征与空间特征;
步骤S3、对提取的时间特征与空间特征进行中期融合;
步骤S4、对对象级特征进行基于图结构的位置加权;
步骤S5、对位置加权后的对象级特征进行空间注意后,将对象级特征与全帧特征拼接并进行帧级聚合和时段级聚合,以充分学习车载视频中的交通场景上下文信息,对获得的双层聚合信息进行时空关系推理,以获得当前时间步的隐藏状态表示;
步骤S6、将聚合得到的当前时间步的隐藏状态表示输入至全连接网络,得到最终的事故评分;
步骤S7、针对获得的事故评分,在事故评分超过预定阈值的时刻系统给出预警信号。
2.根据权利要求1所述的交通事故预测方法,其特征在于,步骤S1中,包括如下步骤:
获取行车记录仪拍摄的车载视频,对车载视频进行分帧操作,得到T个连续的图像帧,并将图像的分辨率缩放至1080*720。
3.根据权利要求1所述的交通事故预测方法,其特征在于,步骤S2中,包括如下步骤:
步骤S21、对获得的T个连续的图像帧进行交通目标检测,检测的交通目标包含人、自行车、摩托车、汽车与公共汽车,得到每帧图像中N个交通目标的包围框;
步骤S22、对获得的T个连续的图像帧进行提取光流操作;
所述的提取光流操作采用如下步骤计算:对连续T个时刻的视频帧图像,计算每一帧与其前一帧图像的光流,得到T图像对应的光流图像,共计T-1个光流图像;
步骤S23、对获得的T-1个光流图像进行插入空白帧操作;
所述的插入空白帧操作为:在光流图像首位插入一张分辨率为1080*720的白色图片,白色图片对应的rgb值为(255,255,255),由此获得共计T帧光流图像序列;
步骤S24、对序列长度为T的连续图像帧提取对应的空间特征;
所述的提取空间特征操作为:输入RGB图像,采用卷积神经网络提取RGB图像空间视觉表示,其中RGB图像为红绿蓝色彩模式图像,采用的卷积神经网络为VGG16网络,特征提取范围为每帧图像中的N个包围框与全帧画面,每帧RGB图像空间特征分为对象级空间特征与全帧空间特征,其特征维度分别为D*N与D*1;
步骤S25、对序列长度为T的光流图像提取对应的时间特征;
所述的提取时间特征操作为:输入光流图像,采用卷积神经网络分别提取时间视觉表示,其中光流图像为红绿蓝色彩模式图像,采用的卷积神经网络为VGG16网络,特征提取范围为每帧图像中的N个包围框与全帧画面,每帧光流图像时间特征分为对象级时间特征与全帧时间特征,其特征维度分别为D*N与D*1。
5.根据权利要求4所述的交通事故预测方法,其特征在于,步骤S4中,包括如下步骤:
其中b为一常量;
其中·代表元素相乘;
6.根据权利要求1所述的交通事故预测方法,其特征在于,步骤S5中,包括如下步骤:
步骤S51、获得第t帧图像空间注意权值αt:
其中;代表拼接;
步骤S54、获得单个时间段隐藏状态表示Ht-i:
Ht-i=[ht-1,...,ht-i],i∈(1,...,z)
其中ht-i为t-i帧获得的隐藏状态表示,Z为一常数;
步骤S55、在帧级聚合层中,将时间注意力操作应用于单个帧隐藏状态表示,通过帧级聚合获得帧级加权隐藏状态表示,并表示为:
步骤S56:获得多个时间段隐藏状态表示At-Z:
At-Z=[H't-1,H't-2,...,H't-Z]
步骤S57、在时段级聚合层中,将时间注意力操作应用于多个时段隐藏状态表示,通过时段级聚合获得时段级隐藏状态表示h′t-1,这一过程可表示为:
步骤S58、使用门控循环单元进行时空关系推理;
8.一种交通事故预测装置,其特征在于,包括以下模块:
获取及预处理模块,用于获取车载视频并进行预处理,得到连续的图像帧;
特征提取模块,用于对连续的图像帧提取时间特征与空间特征;
时空融合模块,用于对提取的时间特征与空间特征进行中期融合;
位置加权模块,用于对对象特征进行基于图结构的位置加权;
双层聚合模块,用于对位置加权后的对象级特征进行空间注意后,将对象特征与全帧特征拼接并进行帧级聚合和时段级聚合,以充分学习车载视频中的交通场景上下文信息,对获得的双层聚合信息进行时空关系推理,以获得当前时间步的隐藏状态表示;
事故评分模块,用于将聚合得到的当前时间步的隐藏状态表示输入至全连接网络,得到最终的事故评分;
事故预警模块,用于针对获得的事故评分,在事故评分超过预定阈值的时刻系统给出预警信号。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的交通事故预测方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的交通事故预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310098924.9A CN116341710A (zh) | 2023-02-03 | 2023-02-03 | 交通事故预测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310098924.9A CN116341710A (zh) | 2023-02-03 | 2023-02-03 | 交通事故预测方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116341710A true CN116341710A (zh) | 2023-06-27 |
Family
ID=86878124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310098924.9A Pending CN116341710A (zh) | 2023-02-03 | 2023-02-03 | 交通事故预测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116341710A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116705307A (zh) * | 2023-08-07 | 2023-09-05 | 天津云检医学检验所有限公司 | 基于ai模型的儿童心脏功能评估方法、系统和存储介质 |
CN117953470A (zh) * | 2024-03-26 | 2024-04-30 | 杭州感想科技有限公司 | 全景拼接相机的高速公路事件识别方法及装置 |
-
2023
- 2023-02-03 CN CN202310098924.9A patent/CN116341710A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116705307A (zh) * | 2023-08-07 | 2023-09-05 | 天津云检医学检验所有限公司 | 基于ai模型的儿童心脏功能评估方法、系统和存储介质 |
CN117953470A (zh) * | 2024-03-26 | 2024-04-30 | 杭州感想科技有限公司 | 全景拼接相机的高速公路事件识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020173226A1 (zh) | 一种时空行为检测方法 | |
CN116341710A (zh) | 交通事故预测方法、装置、电子设备及存储介质 | |
CN109086797B (zh) | 一种基于注意机制的异常事件检测方法及系统 | |
US9159137B2 (en) | Probabilistic neural network based moving object detection method and an apparatus using the same | |
CN114972418A (zh) | 基于核自适应滤波与yolox检测结合的机动多目标跟踪方法 | |
CN113011322B (zh) | 监控视频特定异常行为的检测模型训练方法及检测方法 | |
CN110084201B (zh) | 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法 | |
CN110633643A (zh) | 一种面向智慧社区的异常行为检测方法及系统 | |
CN114202743A (zh) | 自动驾驶场景下基于改进faster-RCNN的小目标检测方法 | |
CN111461213A (zh) | 一种目标检测模型的训练方法、目标快速检测方法 | |
CN110853074A (zh) | 一种利用光流增强目标的视频目标检测网络系统 | |
WO2021243947A1 (zh) | 对象再识别方法及装置、终端和存储介质 | |
CN112818871B (zh) | 一种基于半分组卷积的全融合神经网络的目标检测方法 | |
CN115761409A (zh) | 一种基于深度学习的火情检测方法、装置、设备和介质 | |
CN110097571B (zh) | 快速高精度的车辆碰撞预测方法 | |
CN105469054A (zh) | 正常行为的模型构建方法及异常行为的检测方法 | |
CN114763136A (zh) | 一种基于深度学习的引导车驾驶辅助系统 | |
CN117392638A (zh) | 一种服务于机器人场景的开放物体类别感知方法及装置 | |
CN110503049B (zh) | 基于生成对抗网络的卫星视频车辆数目估计方法 | |
Duan | [Retracted] Deep Learning‐Based Multitarget Motion Shadow Rejection and Accurate Tracking for Sports Video | |
CN117333753A (zh) | 基于pd-yolo的火灾检测方法 | |
CN116311154A (zh) | 一种基于YOLOv5模型优化的车辆检测与识别方法 | |
CN114998801A (zh) | 基于对比自监督学习网络的森林火灾烟雾视频检测方法 | |
CN115619827A (zh) | 基于Transformer和时空记忆的多目标跟踪方法 | |
CN115861595A (zh) | 一种基于深度学习的多尺度域自适应异源图像匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |