CN116307103A - 一种基于硬参数共享多任务学习的交通事故预测方法 - Google Patents
一种基于硬参数共享多任务学习的交通事故预测方法 Download PDFInfo
- Publication number
- CN116307103A CN116307103A CN202310121835.1A CN202310121835A CN116307103A CN 116307103 A CN116307103 A CN 116307103A CN 202310121835 A CN202310121835 A CN 202310121835A CN 116307103 A CN116307103 A CN 116307103A
- Authority
- CN
- China
- Prior art keywords
- prediction
- data
- traffic accident
- network
- traffic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010039203 Road traffic accident Diseases 0.000 title claims abstract description 150
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000006870 function Effects 0.000 claims abstract description 66
- 230000003068 static effect Effects 0.000 claims abstract description 49
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 16
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000004913 activation Effects 0.000 claims description 21
- 230000007787 long-term memory Effects 0.000 claims description 20
- 230000006403 short-term memory Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 16
- 208000027418 Wounds and injury Diseases 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 13
- 230000006378 damage Effects 0.000 claims description 13
- 208000014674 injury Diseases 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 9
- 230000009471 action Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims description 4
- 208000003443 Unconsciousness Diseases 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000034994 death Effects 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 208000037974 severe injury Diseases 0.000 claims description 3
- 230000009528 severe injury Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Operations Research (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于硬参数共享多任务学习的交通事故预测方法,其步骤如下:对交通事故原始数据进行预处理;对影响交通事故发生的外部因素的数据进行处理分别得到静态因素数据和动态因素数据;通过多通道卷积网络和压缩‑激发网络提取各种静态因素数据的特征;通过Transformer网络提取各种动态因素数据的特征;进行信息融合;根据不同的预测任务分别构建其特定的网络层,在特定的网络层得到不同预测任务的预测值;构建多个预测任务的联合损失函数,利用Adam优化器得到预测模型;利用预测模型得到多个交通事故预测任务的预测结果。本发明实现了对多个交通事故预测任务的共同学习,提供更加全面更加明确的交通事故预测结果,且提高了预测精度。
Description
技术领域
本发明涉及交通事故预测的技术领域,尤其涉及一种基于硬参数共享多任务学习的交通事故预测方法。
背景技术
随着城市的快速发展和交通流量的急剧增加,发生交通事故的频率也明显增加。根据世界卫生组织(WHO)2018年全球道路安全状况的报告,每年约有135万人死于道路交通事故,另有2000万至5000万人遭受非致命性伤害,其中许多人因此残疾。道路交通事故给个人、家庭和整个国家带来了巨大的经济损失,其损失占大多数国家国内生产总值的3%。交通事故预测可以帮助政府和政策制定者采取某些方法和策略来减少交通事故造成的损失。对于个人来说,交通事故预测可以帮助人们通过提前预警来避免交通事故。
早期,一些传统的基于统计和线性回归的方法,如支持向量机(SVM)和自回归综合移动平均(ARIMA)被广泛用于预测交通事故。它们把一个地区的交通事故数量作为时间序列数据,这种方法的局限性在于不能捕捉到不同地区间交通事故复杂的空间和时间相关性。近年来,随着交通数据的普及和深度学习技术的发展,各种深度学习模型,如长短时记忆网络(LSTM)、卷积神经网络(CNN)、基于自动编码器(AE)和基于时空注意力等被应用于预测整个城市的交通事故。深度学习模型可以有效地学习交通事故数据的非线性时空关联性,与传统方法相比,这是一个很大的进步。然而,这些深度学习方法仍然存在着一些问题。
首先,这些深度学习方法对区域划分的主要方式是网格图,即把整个城市划分为若干个方格。这种方式破坏了地理的固有属性,打破了空间上固有的地理信息,而且预测的结果很难与原始的交通区域相匹配。其次,这些深度学习方法大多只预测未来交通事故的风险指数这一个任务。交通风险指数是一个很模糊的指标,对于非专业人士来说可以获得的信息不够明确且过于单一。第三,这些深度学习方法在考虑外部因素对交通事故的影响时,大多将其作为固有特征加入到模型中,而不考虑其对交通事故不同的影响程度。最后一个问题是所有交通事故预测模型均存在的共性问题,即由于交通事故的发生是一个小概率事件,从而导致在很长一段时间内只有少量的非零样本。这就导致了严重的样本不平衡问题,影响模型的预测效果。
发明内容
针对现有交通事故预测方法预测精度低,预测结果不全面的技术问题,本发明提出一种基于硬参数共享多任务学习的交通事故预测方法,通过构建一个硬参数共享底层将多个交通事故预测任务的模型参数共享,使多个任务结合在一起相互影响,能够实现全面的交通事故预测;且由于多任务学习可以相互促进的特性,每个预测任务的精度都会比单独进行预测时的精度要高。
为了达到上述目的,本发明的技术方案是这样实现的:一种基于硬参数共享多任务学习的交通事故预测方法,其步骤如下:
步骤S1:对交通事故原始数据进行预处理,得到多个预测任务的历史数据;
步骤S2:对预处理后的历史数据中影响交通事故发生的外部因素的数据进行处理,分别得到静态因素数据和动态因素数据;
步骤S3:利用多通道卷积网络、压缩-激发网络、Transformer网络和注意力长短期记忆网络搭建多任务学习架构的硬参数共享底层;
步骤S4:通过多通道卷积网络和压缩-激发网络的共同作用提取各种静态因素数据的特征,得到静态因素相关性信息;
步骤S5:通过Transformer网络提取各种动态因素数据的特征,得到随时间变化影响交通事故发生的动态因素相关性信息;
步骤S6:将静态因素相关性信息和动态因素相关性信息与多个预测任务的历史数据进行信息融合来提取外部因素对交通事故的影响,得到信息融合数据;利用注意力长短期记忆网络对信息融合数据进行处理捕捉交通事故复杂的时间相关性;
步骤S7:根据不同的预测任务分别构建其特定的网络层,在特定的网络层分别提取不同预测任务的特定表示,得到不同预测任务的预测值;
步骤S8:构建多个预测任务的联合损失函数,将多个预测任务的历史数据按照比例8:2划分为训练集和测集,利用Adam优化器和训练集优化硬参数共享底层和特定的网络层得到预测模型;
步骤S9:保存训练好的预测模型,使用测试集对预测模型进行预测,得到多个交通事故预测任务的预测结果。
优选地,所述多个预测任务包括:预测交通事故风险指数任务、预测是否会发生交通事故任务、预测交通事故风险等级任务。
优选地,所述步骤S1中预处理的实现方法为:对于预测交通事故风险指数任务的历史数据,根据交通事故原始数据在一定时间内发生的交通事故数量及严重程度进行加权得到交通事故风险指数值:
其中,Δt为时间间隔,d为区域,s为受伤的严重程度,按照轻伤有意识、轻伤无意识、重伤、死亡分为4级,为在区域d、时间间隔Δt内受伤程度为s的人数;scoreΔt,d表示在区域d、时间间隔Δt内的交通事故风险指数值;
对于预测是否会发生交通事故任务的历史数据,根据交通事故原始数据采取布尔值进行二分类,若在一定时间间隔内某区域d内发生了交通事故则记为1,若没有发生则记为0;
对于预测交通事故风险等级任务的历史数据,将得到的所有时间所有区域的交通事故风险指数值按照从小到大的顺序排列,剔除相同值,然后按照6:3:1的比例将风险指数划分三个取值范围,分别记作低风险、中风险和高风险三个风险等级。
优选地,所述步骤S2中得到静态因素数据和动态因素数据的方法为:将交通事故原始数据中影响交通事故的外部因素中不随时间发生变化的因素的数据归纳整合在一起作为静态因素数据;将交通事故原始数据中影响交通事故的外部因素中随时间发生变化的因素的数据归纳整合在一起作为动态因素数据;不随时间发生变化的因素包括兴趣点、道路特征或行政区域人口;随时间发生变化的因素包括天气、交通流量或日期。
优选地,所述步骤S4中多通道卷积网络和压缩-激发网络的处理方法为:将每种静态因素数据视为一个特征通道输入到多通道卷积网络中,多通道卷积网络通过多个通道卷积层的作用将其通道数压缩至与批大小相同,学习和聚合不同静态因素数据的特征在局部感受野上的表征;
将多通道卷积网络输出的数据输入到压缩-激发网络中,通过自适应全局平均池化层将多通道卷积网络输出的数据顺着空间维度进行特征压缩,将每个二维的特征通道变成一个实数,然后通过两个全连接层和两个激活层分别为每个特征通道生成权重,其中的参数被学习用来显式地建模特征通道间的相关性;最后与多通道卷积网络输出的数据逐通道进行点积求和完成对静态因素数据的相关性加权处理,得到包含相关性的带权静态因素数据即静态因素相关性信息;其中,两个激活层的激活函数分别为ReLu激活函数和Sigmoid激活函数。
优选地,所述步骤S5中动态因素相关性信息的获取方法为:将动态因素数据输入到Transformer网络中,通过多头自注意力层计算不同属性的动态因素在其子空间内的动态相关性权重,然后在多头自注意力联合层将不同子空间中的信息合并;将合并后的数据通过残差连接、归一化后送入前馈网络,将前馈网络的输出数据通过残差连接、归一化后得到包含动态相关性的带权动态因素数据,即动态因素相关性信息;
所述步骤S6中的信息融合的实现方法为:将多个预测任务的历史数据、静态因素相关性信息与动态因素相关性信息进行拼接,得到包含历史数据、静态因素相关性信息和动态因素相关性信息的信息融合数据。
优选地,所述步骤S7中注意力长短期记忆网络的处理方法为:将信息融合数据输入到注意力长短期记忆网络中,通过LSTM模块学习连续时间内的时间相关性,其实现过程表示为:
ft=σ(Wf[ht-1,X]+bf)
it=σ(Wi[ht-1,X]+bi)
ct=ft⊙ct-1+it⊙tanh(Wc[ht-1,X]+bc);
ot=σ(Wo[ht-1,X]+bo)
ht=ot⊙tanh(ct)
其中,ft是遗忘门的输出,it和ot分别是输入门和输出门的输出,ct和ht分别是每个LSTM模块的输出和隐藏状态;Wf、Wi、Wo均为可学习的参数,σ是sigmoid激活函数,ht-1是上一层LSTM模块的隐藏状态,X是注意力长短期记忆网络的输入,bf、bi、bc、bo均为偏置参数,ct-1是上一层LSTM单元的输出,⊙表示点积运算,tanh表示激活函数;
然后对于单元的隐藏状态ht的输出采取注意力机制调整长期时间和短期时间的相关性权重,实现过程为:
其中,m是时间步数,Wq和Wk均是超参数;Q是查询值,Kt是键值,αt是注意力值,Attention是注意力分数,Softmax是softmax函数,output是注意力长短期记忆网络的输出。
优选地,所述硬参数共享底层中不同的预测任务的参数是共享的;
所述特定的网络层均采用多层感知机网络来处理注意力长短期记忆网络的输出数据以提取各个预测任务的特定表示,获得对应的预测值;多层感知机网络由两层全连接层组成,用于建模特征间的非线性关系。
优选地,所述多个预测任务的联合损失函数为:
其中,LossBCE为预测是否会发生交通事故任务的二元交叉熵的损失函数,LossCCE为预测交通事故风险等级任务的分类交叉熵的损失函数,LossMSE为预测交通事故风险指数任务的均方误差的损失函数,λ1、λ2、λ3均为超参数,通过模型训练进行调整;
所述二元交叉熵的损失函数为:
所述分类交叉熵的损失函数为:
其中,LossCCE为分类交叉熵损失函数,batch表示模型中批处理的大小;
所述均方误差的损失函数为:
优选地,所述步骤S8中得到预测模型的方法为:使用Adam优化器和训练集优化硬参数共享底层和特定的网络层,调节所有超参数到合适的范围直到联合损失函数Loss不再下降时终止训练;
所述步骤S9的实现方法为:将得到的联合损失函数最小时的预测模型的参数保存作为预测模型的参数,使用测试集对预测模型进行预测,分别得到预测交通事故风险指数任务、预测是否会发生交通事故任务、预测交通事故风险等级任务的预测结果。
与现有技术相比,本发明的有益效果:本发明实现了对三个交通事故预测任务的共同学习,可以提供更加全面更加明确的交通事故预测结果。且本发明通过引入一种可学习的联合损失函数,有效地缓解了交通事故预测任务中存在的样本不平衡问题,提高了模型的拟合效果,提高了预测结果的精度。同时,本发明在模型上通过多通道卷积网络和压缩-激发网络的共同作用捕获了静态因素中各因素影响交通事故的重要程度,采用Transformer网络捕获了动态因素与交通事故随时间变化的动态相关性,使用注意力长短期记忆网络捕捉交通事故复杂的时间相关性,能够实现精准的交通事故预测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程图。
图2为本发明数据处理的框架图。
图3为本发明的多通道卷积网络及压缩-激发网络对静态因素数据处理的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于硬参数共享多任务学习的交通事故预测方法,首先根据静态因素数据、动态因素数据和多个预测任务的历史数据建立能够实现精准的交通事故预测任务的硬参数共享的共享底层网络,然后根据不同的预测任务分别构建其特定的网络层,在特定的网络层采用多层感知机网络来提取任务的特定表示,最后构建预测模型获得对应的预测值。具体包括以下步骤:
步骤S1:对Seoul2016数据集和Seoul2018数据集的交通事故原始数据进行预处理,得到多个预测任务的历史数据。
所述步骤S1中预处理的实现方法具体为:
S1.1:对于预测交通事故风险指数任务的历史数据,根据Seoul2016数据集和Seoul2018数据集的交通事故原始数据一定时间内发生的交通事故数量及严重程度加权得到交通事故风险指数值,其计算方法为:
其中,Δt为时间间隔,d为区域,s为受伤的严重程度,按照轻伤有意识、轻伤无意识、重伤、死亡分为4级,为在d区域、时间间隔Δt内受伤程度为s的人数;scoreΔt,d表示在区域d、时间间隔Δt内的交通事故风险指数值。
S1.2:对于预测是否会发生交通事故任务的历史数据,根据Seoul2016数据集和Seoul2018数据集的交通事故原始数据进行二分类,若在一定时间间隔内某区域d内发生了交通事故则记为1,若没有发生则记为0。
S1.3:对于预测交通事故风险等级任务的历史数据,将步骤S1.1中得到的所有时间所有区域的交通事故风险指数值按照从小到大的顺序排列,剔除相同值,然后按照6:3:1的比例将风险指数划分三个取值范围,分别记作低风险、中风险和高风险三个风险等级。进行风险指数划分可以使得风险评估变得更为科学,也使得对数据的管理更加合理。Seoul2016和Seoul2018两个真实世界数据集具有更高的数据准确性,可以帮助更好地评估模型的性能,从而提高模型的准确性和可靠性。
步骤S2:对Seoul2016数据集和Seoul2018数据集中记录的可能影响交通事故发生的外部因素的数据进行处理,分别得到静态因素数据和动态因素数据。
所述步骤S2中得到静态因素数据和动态因素数据的具体实现方法为:
将Seoul2016数据集和Seoul2018数据集中可能影响交通事故的外部因素中不随时间发生变化的因素如兴趣点、道路特征、行政区域人口等的数据归纳整合在一起作为静态因素数据。将Seoul2016数据集和Seoul2018数据集中可能影响交通事故的外部因素中随时间发生变化的因素如天气、交通流量、日期等的数据归纳整合在一起作为动态因素数据。
将静态数据和动态数据区分并分别处理可以帮助我们更准确、更快地分析数据,从而得到更有价值的结果。
步骤S3:通过多通道卷积网络和压缩-激发网络的共同作用提取各种静态因素数据的特征,得到影响交通事故发生的相关性权重,即静态因素相关性信息。
所述步骤S3的实现方法具体为:
S3.1:将步骤S2.1生成的静态因素数据输入到多通道卷积网络中。如图3所示,将每种静态因素数据视为一个特征通道输入到多通道卷积网络中,通过多个通道卷积层的作用将其通道数压缩至与批大小相同,从而学习和聚合不同静态因素的特征在局部感受野上的表征。多通道卷积网络可以提取数据的核心特征,从而使得模型更加高效地处理数据。此外,将通道数压缩至与批大小相同可以降低模型的参数数量,进而减小训练时间和内存需求。
S3.2:将步骤S3.1多通道卷积网络输出的数据输入到压缩-激发网络中。如图3所示,通过自适应全局平均池化层将多通道卷积网络输出的数据顺着空间维度进行特征压缩,将每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野。然后通过两个全连接层和两个激活函数为每个特征通道生成权重,其中的参数可以被学习用来显式地建模特征通道间的相关性。最后与多通道卷积网络输出的数据逐通道进行点积求和,完成对静态因素数据的相关性加权处理,得到包含相关性的带权静态因素数据。其中,两个激活层的激活函数分别为ReLu激活函数和Sigmoid激活函数。压缩-激发网络可以选择性地增强有用的特征通道,抑制无用的特征通道,从而实现提取各种静态因素影响交通事故发生的相关性,提高网络的泛化能力。压缩-激发网络还可以控制特征图中不必要的信息,减少过拟合。多通道卷积网络和压缩-激发网络结合处理静态因素数据能够合理地调整各个因素影响交通事故的权重,使交通事故预测任务更加真实合理、快速准确。
步骤S4:通过Transformer网络提取各种动态因素数据的特征,得到随时间变化影响交通事故发生的动态因素相关性信息。
所述步骤S4的实现方法具体为:
S4.1:将步骤S2.2生成的动态因素数据输入到Transformer网络中,通过多头自注意力层计算不同属性的动态因素在其子空间内的动态相关性权重,然后在多头自注意力联合层将不同子空间中的信息合并。该过程可以表示为:
MultiHead(Q,K,V)=Concat(head1,…,headh)WO
headi=Attention(QWi Q,KWi K,VWi V)
其中,WO、Wi Q、Wi K、Wi V是超参数,Concat()表示拼接操作,Attention()表示计算注意力分数,Q是查询值,K是键值,V是注意力值。
S4.2:将步骤S4.1的输出数据通过残差连接、归一化后送入前馈网络。残差连接、归一化用于减少过拟合和防止梯度消失。前馈网络由两个全连接层组成,用于挖掘特征的非线性关系,增强特征的表现能力。
S4.3:将步骤S4.2的输出数据通过残差连接、归一化后得到包含动态相关性的带权动态因素数据,即动态因素相关性信息。残差连接用于防止梯度消失/爆炸的问题,并提高模型的性能。归一化操作用于消除数据的不一致性,提高模型的稳定性和可靠性。
步骤S5:将包含静态因素相关性信息和动态因素相关性信息与多个预测任务的历史数据进行信息融合来提取外部因素对交通事故的影响,得到信息融合数据。
如图2所示,将步骤S1生成的数据即多个预测任务的历史数据、步骤S3.2生成的数据即静态因素相关性信息与步骤S4.3生成的数据即动态因素相关性信息进行拼接,得到包含历史数据、静态因素相关性信息和动态因素相关性信息的融合数据,使在接下来的网络中可以同时考虑到历史数据、静态因素和动态因素对交通事故的影响。
步骤S6:利用注意力长短期记忆网络对信息融合数据进行处理捕捉交通事故复杂的时间相关性。
所述步骤S6具体为:将步骤S5生成的信息融合数据输入到注意力长短期记忆网络中,通过LSTM模块学习连续时间内的时间相关性,其实现过程可以表示为:
ft=σ(Wf[ht-1,X]+bf)
it=σ(Wi[ht-1,X]+bi)
ct=ft⊙ct-1+it⊙tanh(Wc[ht-1,X]+bc);
ot=σ(Wo[ht-1,X]+bo)
ht=ot⊙tanh(ct)
其中,ft是遗忘门的输出,it和ot分别是输入门和输出门的输出,ct和ht分别是每个LSTM单元的输出和隐藏状态。Wf、Wi、Wo均为可学习的参数,σ是sigmoid激活函数,ht-1是上一层LSTM单元的隐藏状态,X是注意力长短期记忆网络的输入,bf、bi、bc、bo均为偏置参数,ct-1是上一层LSTM单元的输出,⊙表示点积运算,tanh表示tanh激活函数。
然后对于单元的隐藏状态ht的输出采取注意力机制调整长期时间和短期时间的相关性权重,其实现过程可以表示为:
Q=Wqht
Kt=Wkht
αt=Kt ΤQ
Attention=Softmax(α1,…,αm)
其中,m是时间步数,Wq和Wk均是超参数。Q是查询值,Kt是键值,αt是注意力值,Attention是注意力分数,Softmax是softmax函数,output是注意力长短期记忆网络的输出。
注意力长短期记忆网络处理信息融合数据用于捕获交通事故复杂的时间依赖性,其中每层LSTM模块用于处理当前时刻的信息是否将被输出到下一个时刻。注意力长短期记忆网络的输出为影响交通事故发生的综合特征数据,它将作为输入分别传递给不同预测任务的特定网络层中。
步骤S7:利用硬参数共享多任务学习架构,使用多层感知机网络分别提取不同预测任务的特定表示,得到预测值。
所述步骤S7的是实现方法具体为:
S7.1:如图2所示,将步骤S3、步骤S4、步骤S5、步骤S6中提到的网络作为多任务学习架构的硬参数共享底层,在硬参数共享底层不同的预测任务的参数是共享的。硬参数共享通过在多个任务中使用相同的共享底层,并通过一个共享的权重矩阵和偏置向量实现参数共享。这样可以在保证每个任务独立性的同时,利用所有任务之间的关系和相似性来提高模型的性能。
S7.2:根据不同的预测任务分别构建其特定的网络层,在特定的网络层采用多层感知机网络来提取任务的特定表示,最后获得对应的预测值。其中多层感知机网络是由两层全连接层组成的网络,其用于建模特征的非线性关系。在每个任务特定的网络层中,模型都计算其损失函数并更新参数使得联合损失函数最小。
S7.3:使用二元交叉熵作为预测是否会发生交通事故任务的损失函数:
其中,LossBCE为二元交叉熵损失函数,n为验证集中的数据总数,yi是对应数据的真实值,是对应数据的预测值,log表示以10为底的对数函数;二元交叉熵损失函数是用来评判一个二分类模型预测结果的好坏程度的。
S7.4:使用分类交叉熵作为预测交通事故风险等级任务的损失函数:
其中,LossCCE为分类交叉熵损失函数,batch表示模型中批处理的大小。分类交叉熵损函数用于衡量离散分类任务中的概率误差。
S7.5:使用均方误差作为预测交通事故风险指数任务的损失函数:
均方误差是反映估计量与被估计量之间差异程度的一种损失函数。
步骤S8:构建多个任务的联合损失函数,利用Adam优化器优化得到预测模型。
所述步骤S8的实现方法具体为:
S8.1:联合损失函数为:
其中,LossBCE为步骤S7.3中的二元交叉熵的损失函数,LossCCE为步骤S7.4中的分类交叉熵的损失函数,LossMSE为步骤S7.5中的均方误差的损失函数,λ1、λ2、λ3均为超参数,通过模型训练进行调整。
S8.2:将多个预测任务的历史数据按照8:2划分为训练集和测试集,使用Adam优化器和训练集优化包含基于硬参数共享多任务学习模型的进程,具体步骤为:1、初始化参数;2、计算梯度;3、计算二次动量;4、调整学习率;5、更新参数;6、重复步骤2-5直到联合损失函数Loss不再下降时终止训练。
步骤S9:保存训练完成的预测模型,使用测试集对预测模型进行预测,得到多个交通事故预测任务的预测结果。
所述步骤S9具体为:将步骤S8.2中得到的联合损失函数最小时的预测模型的参数保存作为预测模型的参数,使用测试集对预测模型进行预测,分别得到预测交通事故风险指数任务、预测是否会发生交通事故任务、预测交通事故风险等级任务的预测结果。
本发明提出了一种基于硬参数共享架构的多任务学习方法,实现了对三个交通事故预测任务的共同学习,其可以提供更加全面更加明确的交通事故预测结果。并且本发明通过引入一种可学习的联合损失函数,有效地缓解了交通事故预测任务中存在的样本不平衡问题,提高了模型的拟合效果,提高了预测结果的精度。同时本发明在模型上通过多通道卷积网络和压缩-激发网络的共同作用捕获了静态因素中各因素影响交通事故的重要程度,采用Transformer模块捕获了动态因素与交通事故随时间变化的动态相关性,使用注意力长短期记忆网络捕捉交通事故复杂的时间相关性,能够实现精准的交通事故预测。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于硬参数共享多任务学习的交通事故预测方法,其特征在于,其步骤如下:
步骤S1:对交通事故原始数据进行预处理,得到多个预测任务的历史数据;
步骤S2:对预处理后的历史数据中影响交通事故发生的外部因素的数据进行处理,分别得到静态因素数据和动态因素数据;
步骤S3:利用多通道卷积网络、压缩-激发网络、Transformer网络和注意力长短期记忆网络搭建多任务学习架构的硬参数共享底层;
步骤S4:通过多通道卷积网络和压缩-激发网络的共同作用提取各种静态因素数据的特征,得到静态因素相关性信息;
步骤S5:通过Transformer网络提取各种动态因素数据的特征,得到随时间变化影响交通事故发生的动态因素相关性信息;
步骤S6:将静态因素相关性信息和动态因素相关性信息与多个预测任务的历史数据进行信息融合来提取外部因素对交通事故的影响,得到信息融合数据;利用注意力长短期记忆网络对信息融合数据进行处理捕捉交通事故复杂的时间相关性;
步骤S7:根据不同的预测任务分别构建其特定的网络层,在特定的网络层分别提取不同预测任务的特定表示,得到不同预测任务的预测值;
步骤S8:构建多个预测任务的联合损失函数,将多个预测任务的历史数据按照比例8:2划分为训练集和测集,利用Adam优化器和训练集优化硬参数共享底层和特定的网络层得到预测模型;
步骤S9:保存训练好的预测模型,使用测试集对预测模型进行预测,得到多个交通事故预测任务的预测结果。
2.根据权利要求1所述的基于硬参数共享多任务学习的交通事故预测方法,其特征在于,所述多个预测任务包括:预测交通事故风险指数任务、预测是否会发生交通事故任务、预测交通事故风险等级任务。
3.根据权利要求2所述的基于硬参数共享多任务学习的交通事故预测方法,其特征在于,所述步骤S1中预处理的实现方法为:对于预测交通事故风险指数任务的历史数据,根据交通事故原始数据在一定时间内发生的交通事故数量及严重程度进行加权得到交通事故风险指数值:
其中,Δt为时间间隔,d为区域,s为受伤的严重程度,按照轻伤有意识、轻伤无意识、重伤、死亡分为4级,为在区域d、时间间隔Δt内受伤程度为s的人数;scoreΔt,d表示在区域d、时间间隔Δt内的交通事故风险指数值;
对于预测是否会发生交通事故任务的历史数据,根据交通事故原始数据进行二分类,若在一定时间间隔内某区域d内发生了交通事故则记为1,若没有发生则记为0;
对于预测交通事故风险等级任务的历史数据,将得到的所有时间所有区域的交通事故风险指数值按照从小到大的顺序排列,剔除相同值,然后按照6:3:1的比例将风险指数划分三个取值范围,分别记作低风险、中风险和高风险三个风险等级。
4.根据权利要求2或3所述的基于硬参数共享多任务学习的交通事故预测方法,其特征在于,所述步骤S2中得到静态因素数据和动态因素数据的方法为:将交通事故原始数据中影响交通事故的外部因素中不随时间发生变化的因素的数据归纳整合在一起作为静态因素数据;将交通事故原始数据中影响交通事故的外部因素中随时间发生变化的因素的数据归纳整合在一起作为动态因素数据;不随时间发生变化的因素包括兴趣点、道路特征或行政区域人口;随时间发生变化的因素包括天气、交通流量或日期。
5.根据权利要求4所述的基于硬参数共享多任务学习的交通事故预测方法,其特征在于,所述步骤S4中多通道卷积网络和压缩-激发网络的处理方法为:将每种静态因素数据视为一个特征通道输入到多通道卷积网络中,多通道卷积网络通过多个通道卷积层的作用将其通道数压缩至与批大小相同,学习和聚合不同静态因素数据的特征在局部感受野上的表征;
将多通道卷积网络输出的数据输入到压缩-激发网络中,通过自适应全局平均池化层将多通道卷积网络输出的数据顺着空间维度进行特征压缩,将每个二维的特征通道变成一个实数,然后通过两个全连接层和两个激活层分别为每个特征通道生成权重,其中的参数被学习用来显式地建模特征通道间的相关性;最后与多通道卷积网络输出的数据逐通道进行点积求和完成对静态因素数据的相关性加权处理,得到包含相关性的带权静态因素数据即静态因素相关性信息;其中,两个激活层的激活函数分别为ReLu激活函数和Sigmoid激活函数。
6.根据权利要求5所述的基于硬参数共享多任务学习的交通事故预测方法,其特征在于,所述步骤S5中动态因素相关性信息的获取方法为:将动态因素数据输入到Transformer网络中,通过多头自注意力层计算不同属性的动态因素在其子空间内的动态相关性权重,然后在多头自注意力联合层将不同子空间中的信息合并;将合并后的数据通过残差连接、归一化后送入前馈网络,将前馈网络的输出数据通过残差连接、归一化后得到包含动态相关性的带权动态因素数据,即动态因素相关性信息;
所述步骤S6中的信息融合的实现方法为:将多个预测任务的历史数据、静态因素相关性信息与动态因素相关性信息进行拼接,得到包含历史数据、静态因素相关性信息和动态因素相关性信息的信息融合数据。
7.根据权利要求6所述的基于硬参数共享多任务学习的交通事故预测方法,其特征在于,所述步骤S7中注意力长短期记忆网络的处理方法为:将信息融合数据输入到注意力长短期记忆网络中,通过LSTM模块学习连续时间内的时间相关性,其实现过程表示为:
ft=σ(Wf[ht-1,X]+bf)
it=σ(Wi[ht-1,X]+bi)
ct=ft⊙ct-1+it⊙tanh(Wc[ht-1,X]+bc);
ot=σ(Wo[ht-1,X]+bo)
ht=ot⊙tanh(ct)
其中,ft是遗忘门的输出,it和ot分别是输入门和输出门的输出,ct和ht分别是每个LSTM模块的输出和隐藏状态;Wf、Wi、Wo均为可学习的参数,σ是sigmoid激活函数,ht-1是上一层LSTM模块的隐藏状态,X是注意力长短期记忆网络的输入,bf、bi、bc、bo均为偏置参数,ct-1是上一层LSTM单元的输出,⊙表示点积运算,tanh表示激活函数;
然后对于单元的隐藏状态ht的输出采取注意力机制调整长期时间和短期时间的相关性权重,实现过程为:
其中,m是时间步数,Wq和Wk均是超参数;Q是查询值,Kt是键值,αt是注意力值,Attention是注意力分数,Softmax是softmax函数,output是注意力长短期记忆网络的输出。
8.根据权利要求5-7中任意一项所述的基于硬参数共享多任务学习的交通事故预测方法,其特征在于,所述硬参数共享底层中不同的预测任务的参数是共享的;
所述特定的网络层均采用多层感知机网络来处理注意力长短期记忆网络的输出数据以提取各个预测任务的特定表示,获得对应的预测值;多层感知机网络由两层全连接层组成,用于建模特征的非线性关系。
9.根据权利要求8所述的基于硬参数共享多任务学习的交通事故预测方法,其特征在于,所述多个预测任务的联合损失函数为:
其中,LossBCE为预测是否会发生交通事故任务的二元交叉熵的损失函数,LossCCE为预测交通事故风险等级任务的分类交叉熵的损失函数,LossMSE为预测交通事故风险指数任务的均方误差的损失函数,λ1、λ2、λ3均为超参数,通过模型训练进行调整;
所述二元交叉熵的损失函数为:
所述分类交叉熵的损失函数为:
其中,LossCCE为分类交叉熵损失函数,batch表示模型中批处理的大小;
所述均方误差的损失函数为:
10.根据权利要求9所述的基于硬参数共享多任务学习的交通事故预测方法,其特征在于,所述步骤S8中得到预测模型的方法为:使用Adam优化器和训练集优化硬参数共享底层和特定的网络层,调节所有超参数到合适的范围直到联合损失函数Loss不再下降时终止训练;
所述步骤S9的实现方法为:将得到的联合损失函数最小时的预测模型的参数保存作为预测模型的参数,使用测试集对预测模型进行预测,分别得到预测交通事故风险指数任务、预测是否会发生交通事故任务、预测交通事故风险等级任务的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310121835.1A CN116307103A (zh) | 2023-02-15 | 2023-02-15 | 一种基于硬参数共享多任务学习的交通事故预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310121835.1A CN116307103A (zh) | 2023-02-15 | 2023-02-15 | 一种基于硬参数共享多任务学习的交通事故预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116307103A true CN116307103A (zh) | 2023-06-23 |
Family
ID=86802302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310121835.1A Pending CN116307103A (zh) | 2023-02-15 | 2023-02-15 | 一种基于硬参数共享多任务学习的交通事故预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116307103A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116978236A (zh) * | 2023-09-25 | 2023-10-31 | 南京隼眼电子科技有限公司 | 交通事故预警方法、装置和存储介质 |
CN117435918A (zh) * | 2023-12-20 | 2024-01-23 | 杭州市特种设备检测研究院(杭州市特种设备应急处置中心) | 一种基于空间注意力网络与特征划分的电梯风险预警方法 |
CN117521882A (zh) * | 2023-11-02 | 2024-02-06 | 昆明理工大学 | 基于集成学习模型预测城市轨道交通事故后果的方法 |
-
2023
- 2023-02-15 CN CN202310121835.1A patent/CN116307103A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116978236A (zh) * | 2023-09-25 | 2023-10-31 | 南京隼眼电子科技有限公司 | 交通事故预警方法、装置和存储介质 |
CN116978236B (zh) * | 2023-09-25 | 2023-12-15 | 南京隼眼电子科技有限公司 | 交通事故预警方法、装置和存储介质 |
CN117521882A (zh) * | 2023-11-02 | 2024-02-06 | 昆明理工大学 | 基于集成学习模型预测城市轨道交通事故后果的方法 |
CN117521882B (zh) * | 2023-11-02 | 2024-05-24 | 昆明理工大学 | 基于集成学习模型预测城市轨道交通事故后果的方法 |
CN117435918A (zh) * | 2023-12-20 | 2024-01-23 | 杭州市特种设备检测研究院(杭州市特种设备应急处置中心) | 一种基于空间注意力网络与特征划分的电梯风险预警方法 |
CN117435918B (zh) * | 2023-12-20 | 2024-03-15 | 杭州市特种设备检测研究院(杭州市特种设备应急处置中心) | 一种基于空间注意力网络与特征划分的电梯风险预警方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109142171B (zh) | 基于特征扩张的融合神经网络的城市pm10浓度预测方法 | |
CN116307103A (zh) | 一种基于硬参数共享多任务学习的交通事故预测方法 | |
CN109376913A (zh) | 降水量的预测方法及装置 | |
CN111091196B (zh) | 客流数据确定方法、装置、计算机设备和存储介质 | |
CN112085947A (zh) | 一种基于深度学习和模糊聚类的交通拥堵预测方法 | |
CN110837523A (zh) | 一种基于级联神经网络的高置信改造质量和减假暂量化评估方法 | |
CN112735097A (zh) | 一种区域滑坡预警方法及系统 | |
CN110674858B (zh) | 一种基于时空关联与大数据挖掘的交通舆情检测方法 | |
Esquivel et al. | Spatio-temporal prediction of Baltimore crime events using CLSTM neural networks | |
CN112949821B (zh) | 基于双重注意力机制的网络安全态势感知方法 | |
CN112966871A (zh) | 基于卷积长短期记忆神经网络的交通拥堵预测方法及系统 | |
CN112132321A (zh) | 一种基于机器学习对森林火灾预测分析的方法 | |
CN117611015B (zh) | 一种建筑工程质量实时监测系统 | |
CN115470962A (zh) | 一种基于LightGBM的企业失信风险预测模型构建方法 | |
CN113435124A (zh) | 一种基于长短时记忆和径向基函数神经网络的水质时空关联预测方法 | |
CN115983465A (zh) | 一种基于小样本学习的冲击地压时序预测模型构建方法 | |
CN115879509A (zh) | 基于代理辅助进化算法的卷积神经网络结构优化方法 | |
CN117636183A (zh) | 一种基于自监督预训练的小样本遥感图像分类方法 | |
CN116304941A (zh) | 一种基于多模型组合的海洋数据质量控制方法及装置 | |
Mao et al. | Naive Bayesian algorithm classification model with local attribute weighted based on KNN | |
CN116028803A (zh) | 一种基于敏感属性再平衡的去偏方法 | |
CN114401135A (zh) | 基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法 | |
CN115392618A (zh) | 一种基于ahp-ew和ae-rnn融合的食品安全风险预警模型及其建立方法 | |
Bi et al. | Multi-indicator water time series imputation with autoregressive generative adversarial networks | |
CN117932347B (zh) | 基于对抗性迁移学习的pm2.5预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |