CN116128108A - 一种交通事故严重程度预测方法、系统及计算机存储介质 - Google Patents
一种交通事故严重程度预测方法、系统及计算机存储介质 Download PDFInfo
- Publication number
- CN116128108A CN116128108A CN202211627456.1A CN202211627456A CN116128108A CN 116128108 A CN116128108 A CN 116128108A CN 202211627456 A CN202211627456 A CN 202211627456A CN 116128108 A CN116128108 A CN 116128108A
- Authority
- CN
- China
- Prior art keywords
- prediction
- training
- data
- predicted
- traffic accident
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010039203 Road traffic accident Diseases 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 74
- 238000005457 optimization Methods 0.000 claims abstract description 27
- 238000007637 random forest analysis Methods 0.000 claims description 23
- 238000003066 decision tree Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 32
- 230000006870 function Effects 0.000 description 33
- 230000000875 corresponding effect Effects 0.000 description 12
- 230000012010 growth Effects 0.000 description 12
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 208000027418 Wounds and injury Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 208000014674 injury Diseases 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000002015 leaf growth Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 208000037974 severe injury Diseases 0.000 description 1
- 230000009528 severe injury Effects 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Operations Research (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种交通事故严重程度预测方法、系统及计算机存储介质,方法包括:对训练特征数据进行选择;建立基于轻量梯度提升机的预测网络;将选择后的训练特征数据输入预测网络,获得相应的训练预测结果;采用损失函数确定训练预测结果和目标结果之间的差异;对预测网络的参数进行优化调整,获得预测模型;获取待预测特征数据;将待预测特征数据输入预测模型,预测得到相应的交通事故严重程度。本申请选用训练速度更快的LightGBM模型进行事故严重程度预测,采用焦点损失作为损失函数,并调整划分正负样本的分类阈值,最后利用贝叶斯优化算法寻找模型参数的最优值,使得预测模型的查全率提高了17.4%,进而提高了对严重事故的预测能力。
Description
技术领域
本申请涉及计算机数据处理技术领域,特别涉及一种交通事故严重程度预测方法、系统及计算机存储介质。
背景技术
随着经济的发展,交通资源供需矛盾日益加剧,由此引发的交通事故也愈发频繁。然而,在事故救援的过程中,因缺少对事故严重程度的预测,容易导致派出的救援资源与实际需求不匹配,造成人员伤亡。因此,在事故发生后进行事故严重程度预测,为事故救援机构提供科学的参考决策,是当下一个重要的研究方向。
近年来,各国交通信息化水平不断提升,交通事故数据集规模也飞速增长,交通事故严重程度的预测也称为亟需解决的问题。然而,交通事故数据集通常具有类别不平衡的特点:大多样本为“轻微”事故样本,且当中存在大量的容易分类的简单样本,对损失函数的收敛起了主导作用,导致模型对“严重”事故的识别能力较差,查全率较低。
发明内容
本申请实施例提供了一种交通事故严重程度预测方法、系统及计算机存储介质,用以解决现有技术中交通事故严重程度预测方法对严重事故的识别能力较差的问题。
一方面,本申请实施例提供了一种交通事故严重程度预测方法,包括:
获取训练特征数据;
采用随机森林方法对训练特征数据进行选择;
建立基于轻量梯度提升机的预测网络,以焦点损失作为损失函数;
将选择后的训练特征数据输入预测网络,获得相应的训练预测结果;
采用损失函数确定训练预测结果和目标结果之间的差异;
采用贝叶斯优化方法根据差异对预测网络的参数进行优化调整,获得预测模型;
获取待预测特征数据;
将待预测特征数据输入预测模型,预测得到相应的交通事故严重程度。
另一方面,本申请实施例还提供了一种交通事故严重程度预测系统,包括:
训练数据获取模块,用于获取训练特征数据;
数据选择模块,用于采用随机森林方法对训练特征数据进行选择;
网络建立模块,用于建立基于轻量梯度提升机的预测网络,以焦点损失作为损失函数;
网络训练模块,用于将选择后的训练特征数据输入预测网络,获得相应的训练预测结果;
差异确定模块,用于采用损失函数确定训练预测结果和目标结果之间的差异;
参数调整模块,用于采用贝叶斯优化方法根据差异对预测网络的参数进行优化调整,获得预测模型;
待预测数据获取模块,用于获取待预测特征数据;
事故预测模块,用于将待预测特征数据输入预测模型,预测得到相应的交通事故严重程度。
另一方面,本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有多条计算机指令,该多条计算机指令用于使计算机执行上述的方法。
本申请中的一种交通事故严重程度预测方法、系统及计算机存储介质,具有以下优点:
1、选用训练速度更快的LightGBM模型进行事故严重程度预测,采用焦点损失作为损失函数,并调整划分正负样本的分类阈值,最后利用贝叶斯优化算法寻找模型参数的最优值,使得预测模型的查全率提高了17.4%,进而提高了对严重事故的预测能力。
2、选取事故现场直观信息作为模型输入数据,救援中心可以在事故发生后快速获取相关信息,对事故严重程度进行预测,及时启动相应级别的应急措施,具有一定的实际应用价值。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种交通事故严重程度预测方法的流程图;
图2为本申请实施例提供的直方图优化算法的流程图;
图3为本申请实施例提供的按层生长和按叶生长策略示意图;
图4为本申请实施例提供的α因子和γ因子与损失函数的关系图;
图5为本申请实施例提供的实验数据中各大区的人口数和事故数示意图;
图6为本申请实施例提供的实验数据中交通事故分布图;
图7为本申请实施例提供的迭代次数和误差指标的联合分布图;
图8为本申请实施例提供的多个现有预测模型的结果对比图;
图9为本申请实施例提供的本申请的预测模型和其他预测模型的结果对比图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现有技术中,随机森林、贝叶斯算法与人工神经网络等模型已被用于预测道路交通事故严重程度。Yan等提出了一种基于随机森林和贝叶斯优化的交通事故严重程度预测模型,通过偏依赖图考察了各影响因素如何影响交通事故严重程度,为针对性预防交通事故提供了参考依据。Dadashova等通过随机森林对交通事故严重程度进行预测,分析了与事故严重程度有关的主要影响因素。Manzoor等使用随机森林与卷积神经网络结合的RCNN模型对美国420万条车祸数据进行事故严重性预测,虽然精度得到显著提高,但训练时间不具有优势。Ke等基于梯度提升决策树,提出了一种在大规模数据集上训练速度快,预测能力好的轻量梯度提升机模型。针对类别不平衡的问题,Zheng等采用基于重采样技术的改进Borderline-SMOTE2算法,该算法在数据层面降低了正负样本不平衡对模型的影响,但同时容易导致数据冗余,增加模型复杂度。王清斌等设计了带有学习敏感度的新损失函数,为少数类事故增加了学习权重,在算法层面降低了正负样本不平衡对模型的影响,但未能解决样本难易程度不平衡的问题。
针对现有技术的问题,本申请针对交通事故数据中存在的类别不平衡问题,提出了一种基于改进轻量梯度提升机的交通事故严重程度预测方法。该方法采用随机森林的袋外估计进行特征数据选择,剔除冗余特征数据,可降低特征数据选择过程的主观性;并引入焦点损失函数对损失函数进行改进,同时调整模型的分类阈值,减小数据类别不平衡对模型精度的影响,最后利用树结构概率估计(tree-structuredparzen estimator)作为概率代理模型的贝叶斯优化算法求出最优的焦点损失函数参数和分类阈值,以进一步优化模型结构,提高泛化能力。
图1为本申请实施例提供的一种交通事故严重程度预测方法的流程示意图。本申请实施例提供了一种交通事故严重程度预测方法,包括:
步骤1,获取训练特征数据。
示例性地,在获取训练特征数据后,还对训练特征数据进行预处理。预处理的内容包括:删除训练特征数据或待预测特征数据中缺失比例超过设定值,例如60%的特征数据;对保留的特征数据中仍存在缺失的特征数据进行补全。
步骤2,采用随机森林方法对训练特征数据进行选择。
示例性地,步骤2具体包括:采用训练特征数据中的部分数据建立采用随机森林方法中的决策树;记录训练特征数据中其余数据的初始错误率,记为初始袋外误差;在其余数据的随机一列特征数据中加入干扰噪声,计算干扰袋外误差;根据初始袋外误差和干扰袋外误差确定平均精度下降率,根据平均精度下降率对训练特征数据进行选择。
训练特征数据集中的训练特征数据通常分为相关特征、无关特征和冗余特征,其中只有相关特征是对学习模型有益的,而无关特征和冗余特征会增加过拟合风险,降低模型精度,导致维度灾难。因此,从所有训练特征数据中选取相关特征对于提高学习算法的效率具有重要意义。本申请采用随机森林(random forest)方法进行特征数据选择。
随机森林是根据集成学习思想,利用多棵决策树对特征数据进行训练并预测的一种分类器,常被用来进行特征数据选择。随机森林在构建决策树时是对特征数据集进行有放回的随机选取,所以由采样概率可知,特征数据集中约36.8%的特征数据不会参与决策树的建立,这些特征数据称为袋外数据,可以用来作为决策树的验证集对特征数据的重要性进行评估。首先记录袋外数据验证得到的初始错误率,记为初始袋外误差,之后随机对袋外数据的某列特征数据加入干扰噪声,再次计算袋外误差,得到干扰袋外误差,以平均精度下降率(MDA)作为指标进行特征数据重要性计算:
式中:n为决策树的个数;errOOBt为初始袋外误差;errOOB’t为干扰袋外误差。MDA越大,证明插入干扰噪声的对应特征数据对模型结果的影响越大,进而说明重要程度比较高,以此进行特征数据重要性排序,选择最优特征数据。
步骤3,建立基于轻量梯度提升机的预测网络,以焦点损失作为损失函数。
示例性地,交通事故严重程度预测通常需要面临大样本,高维度的数据处理,决策树模型计算速度快,结果容易解释并且鲁棒性强,很适合用于建立事故严重程度预测模型。轻量梯度提升机(light gradient boosting machine,LightGBM)是一款基于决策树算法的分布式梯度提升框架,相比于其他梯度提升模型,LightGBM的改进内容有:直方图算法、带深度限制的按叶生长策略、多线程优化等,其中直方图算法与带深度限制的按叶生长策略,可以显著降低算法复杂度,降低内存消耗。LightGBM模型之所以优异,最重要的原因就是使用了直方图优化算法,直方图优化算法的基本思路是将每个特征数据用分桶的方式离散化为k个区间,对应直方图的k个桶,桶的高度对应着区间内数据值。例如将[0,2.5)范围的取值变为0,将[2.5,5)范围的取值变为1,将浮点数离散化为k个整数后,建立宽度为k的直方图,以此直方图取代原本数据,训练时可以减少内存消耗,降低计算代价。算法如图2所示。
决策树的决策结构为树状,其中包含了根节点、叶子节点与非叶子节点,具有多个特征属性的节点可以不断向下分裂。传统的决策树算法分裂时都采用按层生长的策略,该策略在会扫描所有数据并将该层的每个可分裂节点向下分裂,这种策略生成的树是对称的,并且一层中的每个叶子节点都将具有子节点,从而导致额外的深度层。LightGBM模型则采用按叶生长策略,只选择有最大分裂增益的叶子节点进行分裂,在分裂次数相同时,比按层生长策略有更好的精度。对于规模不大的数据集,按层生长策略表现更好,而按叶生长策略则容易产生过拟合,在较大数据集中,按叶生长策略的表现更好,计算速度远快于按层生长策略,并且LightGBM通过有限制的最大深度避免了过拟合。本申请采用的数据集规模较大,从精度与训练时间上考虑,使用直方图算法与按叶生长策略的LightGBM模型十分符合本申请的需求。按层生长与按叶生长对比如图3所示。
损失函数用于确定输出与给定目标值,即与特征函数对应的目标结果之间的误差。通俗地说,损失函数表达了模型计算输出值与目标值有多大的偏差,损失函数的度量与模型训练的好坏直接相关。在机器学习二分类任务中,常用的损失函数是交叉熵函数,如下式所示:
式中:y∈{0,1}表示目标值;y′∈{0,1}表示模型输出的概率值。由于交通事故数据中,“轻微”事故样本往往多于“严重”事故样本,“轻微”事故累计的损失大于“严重”事故的累计损失,这会使得模型对“轻微”事故样本的学习更加充分,而缺少对急需救援的“严重”样本的学习,导致较大的预测代价。
本申请针对上述问题,本申请采用的焦点损失包含权重因子和指数因子,权重因子和指数因子均通过贝叶斯优化方法优化得到。本申请对交叉熵损失函数进行相应改进,见下式。通过权重因子α调整正负样本在算法中的损失比重,从而平衡损失函数的分布,减小样本不平衡问题对模型精度的影响,如图4中的a所示。
尽管权重因子α可以解决样本的类别不平衡问题,但是没有解决简单样本与困难样本不平衡问题。为此,本申请通过添加大于零的指数因子γ,让损失函数聚焦在困难样本的训练。以正样本为例,对于简单样本,较小的(1-y′)γ使得损失较小,对于困难样本,较大的(1-y′)γ使得损失较大。从而进行学习时,会更聚焦于输出值较小且实际取值为1的困难样本。由图4中b也可看出,随着γ逐渐增大,困难样本在算法中的损失值占比也逐渐升高。对于负样本同理可知。整个焦点损失(focalloss)函数见下式:
步骤4,将选择后的训练特征数据输入预测网络,获得相应的训练预测结果。
示例性地,在获得训练预测结果后,还根据设定的分类阈值对训练预测结果进行分类,而且在预测得到交通事故严重程度后,还利用分类阈值对交通事故严重程度进行分类。具体地,分类阈值采用贝叶斯优化方法优化得到。
使用机器学习模型进行预测时,模型直接输出的预测值实际上是一个在区间[0,1]内的实数值,例如预测网络返回的值为0.995,则证明该事故极有可能是严重事故,如果返回的实际预测值为0.002,那该事故应该是一个轻微事故。为了将预测值映射到二元类别中,需要将预测结果与设定好的分类阈值T进行比较,大于阈值则为1,否则为0。阈值通常默认取值为0.5。因此,标准LightGBM的模型的训练预测结果为:
式中,ypred为最终预测结果,yout为预测网络的输出值。然而当训练特征数据集中的训练特征数据分类不平衡时,将阈值设定为0.5是显然不合理的。因而,本申请采用移动阈值法,使用贝叶斯优化方法找到最优阈值,提升对严重事故的预测能力。
步骤5,采用损失函数确定训练预测结果和目标结果之间的差异。
步骤6,采用贝叶斯优化方法根据差异对预测网络的参数进行优化调整,获得预测模型。
示例性地,贝叶斯优化是一种十分有效的全局优化算法,基于贝叶斯定理,以代理函数来拟合超参数与模型评价之间的关系,并根据前序采样结果选择下一个评估点,最后得出效果最好的超参数组合。贝叶斯优化与随机搜索和网格搜索相比,迭代次数较少,速度较快,且不易陷入局部最优。该方法可表示为:
θ*=argminθòΘL
式中:θ为超参数,包括权重因子α、指数因子γ和阈值T;Θ为超参数搜索空间;θ*为最优参数组合;L为模型的损失函数。
步骤7,获取待预测特征数据。
示例性地,在获取待预测特征数据后,也需要对待预测特征数据进行预处理。预处理的方式和对训练特征数据的处理方式一致。
步骤8,将待预测特征数据输入预测模型,预测得到相应的交通事故严重程度。
示例性地,在将待预测特征数据输入预测模型之前,还采用随机森林方法对待预测特征数据进行选择。
本申请实施例还提供了一种交通事故严重程度预测系统,该系统包括:
训练数据获取模块,用于获取训练特征数据;
数据选择模块,用于采用随机森林方法对训练特征数据进行选择;
网络建立模块,用于建立基于轻量梯度提升机的预测网络,以焦点损失作为损失函数;
网络训练模块,用于将选择后的训练特征数据输入预测网络,获得相应的训练预测结果;
差异确定模块,用于采用损失函数确定训练预测结果和目标结果之间的差异;
参数调整模块,用于采用贝叶斯优化方法根据差异对预测网络的参数进行优化调整,获得预测模型;
待预测数据获取模块,用于获取待预测特征数据;
事故预测模块,用于将待预测特征数据输入预测模型,预测得到相应的交通事故严重程度。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有多条计算机指令,该多条计算机指令用于使计算机执行上述的方法。
实验说明
1、数据描述
本申请使用了法国交通部公开的2005-2016年交通事故数据,该数据集记录了839985起交通事故,伤亡人数为1876005,涉事车辆达到了1048576辆。交通事故数据的局部特征有38项,包括事故点所属行政区、事故时间特征、车辆类型、驾驶员性别、安全设备使用情况、光照条件、天气条件、路面条件和其他数据特征。本申请从人、车、路、环境四个方面对整个数据集进行简单的描述性统计分析。在事故数据集中,74%的事故伤员为司机,17%为乘客,其余为路上行人;68%的事故司机为男性,其余为女性;最多的事故车型是汽车,占68%,其次是自行车,约占6%;发生事故最多的道路类型是普通道路,约占55%,其次是省道,约33%;有81%的事故发生在晴天,10%事故发生在小雨天气;至于事故严重程度,约76%为轻伤或无人受伤的轻微事故,24%为出现重伤员或死亡的严重事故。
2、数据可靠性分析
由于该数据集从未应用于交通事故的严重程度预测,因此在对数据进行处理之前先进行可靠性分析。合理的数据分布是数据可靠的重要体现,本申请从空间分布、日期分布与时间分布三个维度检验数据可靠性。
在空间维度上,本申请首先根据原始数据集的事故发生地信息,提取出2016年法国各个大区的交通事故发生量,并与2016年法国各大区人口进行对比,如图5所示,除热门旅游区普罗旺斯-阿尔卑斯大区外,数据集记录的各区事故数量趋势与各区人口数量趋势基本匹配,不存在超出13个大区范围的偏差数据,证明该事故数据集在空间维度上是可靠的。
“日期”维度和“时间”维度也是分析数据集可靠性的重要维度。“日期”维度中,首先将交通事故按照月份进行分布,从图6中a不难发现,事故数量在二月与八月出现大幅下降,这与法国人民习惯在二月与八月休假的传统相符。之后将交通事故按照每月30天进行分布,如图6中b所示,可以看到事故在1日至30日中均等分布,完全符合实际情况。对于“时间”维度,将事故数据按发生时间分布在一天24小时中,如图6中c所示,可以看出事故多发生在早晚高峰时段,这与人们工作日的出行特征完全一致。因此,从以上三个维度可以推断出数据是可靠的。
3、数据预处理与特征选择
交通事故是在特定的交通环境影响下,由于人、车、路、环境诸要素配合失调而发生的,因此,确定交通事故的有关变量,需要从人、车、路、环境四方面着手。人包括行人和司机;车包括道路上的机动车和非机动车;路指道路的条件状态;环境指自然环境及社会环境。本申请的目标是建立一个在事故发生后可以根据现场信息预测出交通事故严重程度的模型,为事故救援机构提供参考建议。因此,综合考虑人、车、路、环境四方面因素,对38个相关数据特征进行筛选,只保留报警人可以从现场得到的直观信息,删除缺失比例大于60%的特征,对缺失比例不到60%特征,使用众数进行补全后,得到14个相关变量,如表1所示,最后利用随机森林算法进行特征重要性排序,剔除重要性最低的3个变量,得到最终筛选结果。
表1模型特征
4、实验设置
本申请将处理后的839985条实例按4:1随机划分为训练集与测试集。硬件环境为一台内存为16GB、搭载2.30GHz的AMD Ryzen 55600U、512G硬盘空间、安装Windows 10系统的电脑。编程语言和平台版本为Python 3.8.5,主要的机器学习库为Scikit-learn 1.0.1、LightGBM 3.3.2,贝叶斯优化框架采用Hyperopt0.2.7搭建。本申请采用改进的LightGBM算法进行交通事故严重程度的预测,模型中采用焦点损失作为损失函数,对分类的阈值T进行调整,其中α、γ与T由贝叶斯优化算法得出。贝叶斯优化算法的概率代理模型采用树结构概率估计。采集函数采用基于提升的策略中的EI(expected improvement)函数,迭代次数设置为200次,最终寻优结果为α=0.63、γ=1.57、T=0.49。贝叶斯优化过程如图7所示。
5、评价指标
本申请模型性能评价指标通过表2的混淆矩阵定义。混淆矩阵中:TP表示实际程度为“严重”,模型预测为“严重”的样本数;FN表示实际程度为“严重”,模型预测为“轻微”的样本数;FP表示实际程度为“轻微”,模型预测为“严重”的样本数;TN表示实际程度为“轻微”,模型预测为“轻微”的样本数。
表2混淆矩阵
基于混淆矩阵,选用预测模型中常用的查全率(recall)、准确率(accuracy)和F1分数(f1-score)作为本申请模型性能评估依据。计算公式分别为:
式中:查全率表示的是所有严重事故中被正确预测的比例,准确率表示的是模型预测正确的数据占总数据的比例,F1分数是衡量二分类模型精确度的综合指标。
此外,AUC值作为ROC曲线右下方几何面积,对样本是否均衡不敏感,是检测准确性的综合代表。本申请用以上4个指标来多方面评估模型的优劣。其中,代表着模型对严重事故识别能力的查全率是本申请最关心的指标。
6、实验结果
为论证本申请方法的有效性,首先将处理后的数据集导入标准型LightGBM模型进行实验,并与逻辑回归、朴素贝叶斯(naive bayes)、随机森林(random forest)、KNN邻近算法、决策树(decision tree)、AdaBoost、GBDT算法进行对比。各模型预测结果如表3和图8所示。
表3各模型预测结果
对各模型预测结果进行分析,LightGBM模型在各个指标上均明显优于朴素贝叶斯等预测算法,也优于同为集成模型的随机森林等模型。但因为样本不平衡问题的存在,表现最好的标准型LightGBM查全率也未达到70%,这意味着100个“严重”样本中,仅有约60个样本可以被正确预测,在实际应用中会将约40%的严重事故误判为轻微事故,影响救援效率,预测代价过大。为更好的解决样本不平衡问题,提升查全率,使用以Focal Loss为损失函数的改进LightGBM算法,并用贝叶斯优化算法进行关键参数寻优。将改进LightGBM与标准模型等进行对比,其结果如表4和图9所示。
表4各模型预测结果
对预测结果进行分析,贝叶斯优化算法效果优于随机搜索、网格搜索与手动调参,同时在模型中引入Focal Loss函数后,准确率虽然略有降低,但对严重事故的识别能力得到了大幅提升,最关键的查全率提高了17.4%,更有效的切合了事故救援中心对交通事故严重程度预测模型的需求。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种交通事故严重程度预测方法,其特征在于,包括:
获取训练特征数据;
采用随机森林方法对所述训练特征数据进行选择;
建立基于轻量梯度提升机的分类网络,以焦点损失作为损失函数;
将选择后的所述训练特征数据输入所述预测网络,获得相应的训练预测结果;
采用所述损失函数确定所述训练预测结果和目标结果之间的差异;
采用贝叶斯优化方法根据所述差异对所述预测网络的参数进行优化调整,获得预测模型;
获取待预测特征数据;
将所述待预测特征数据输入所述预测模型,预测得到相应的交通事故严重程度。
2.根据权利要求1所述的一种交通事故严重程度预测方法,其特征在于,在获得所述训练预测结果后,还根据设定的分类阈值对所述训练预测结果进行分类,而且在预测得到所述交通事故严重程度后,还利用所述分类阈值对所述交通事故严重程度进行分类。
3.根据权利要求2所述的一种交通事故严重程度预测方法,其特征在于,所述分类阈值采用贝叶斯优化方法优化得到。
4.根据权利要求1所述的一种交通事故严重程度预测方法,其特征在于,所述采用随机森林方法对所述训练特征数据进行选择,包括:
采用所述训练特征数据中的部分数据建立所述采用随机森林方法中的决策树;
记录所述训练特征数据中其余数据的初始错误率,记为初始袋外误差;
在所述其余数据的随机一列特征数据中加入干扰噪声,计算干扰袋外误差;
根据所述初始袋外误差和干扰袋外误差确定平均精度下降率,根据所述平均精度下降率对所述训练特征数据进行选择。
5.根据权利要求1所述的一种交通事故严重程度预测方法,其特征在于,所述焦点损失包含权重因子和指数因子,所述权重因子和指数因子均通过贝叶斯优化方法优化得到。
6.根据权利要求1所述的一种交通事故严重程度预测方法,其特征在于,在获取所述训练特征数据后,还对所述训练特征数据进行预处理;在获取所述待预测特征数据后,也对所述待预测特征数据进行预处理。
7.根据权利要求6所述的一种交通事故严重程度预测方法,其特征在于,对所述训练特征数据或待预测特征数据的预处理包括:
删除所述训练特征数据或待预测特征数据中缺失比例超过设定值的特征数据;
对保留的特征数据中仍存在缺失的特征数据进行补全。
8.根据权利要求1所述的一种交通事故严重程度预测方法,其特征在于,在将所述待预测特征数据输入所述预测模型之前,还采用随机森林方法对所述待预测特征数据进行选择。
9.一种交通事故严重程度预测系统,其特征在于,包括:
训练数据获取模块,用于获取训练特征数据;
数据选择模块,用于采用随机森林方法对所述训练特征数据进行选择;
网络建立模块,用于建立基于轻量梯度提升机的分类网络,以焦点损失作为损失函数;
网络训练模块,用于将选择后的所述训练特征数据输入所述预测网络,获得相应的训练预测结果;
差异确定模块,用于采用所述损失函数确定所述训练预测结果和目标结果之间的差异;
参数调整模块,用于采用贝叶斯优化方法根据所述差异对所述预测网络的参数进行优化调整,获得预测模型;
待预测数据获取模块,用于获取待预测特征数据;
事故预测模块,用于将所述待预测特征数据输入所述预测模型,预测得到相应的交通事故严重程度。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有多条计算机指令,所述多条计算机指令用于使计算机执行权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211627456.1A CN116128108A (zh) | 2022-12-13 | 2022-12-13 | 一种交通事故严重程度预测方法、系统及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211627456.1A CN116128108A (zh) | 2022-12-13 | 2022-12-13 | 一种交通事故严重程度预测方法、系统及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116128108A true CN116128108A (zh) | 2023-05-16 |
Family
ID=86305569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211627456.1A Pending CN116128108A (zh) | 2022-12-13 | 2022-12-13 | 一种交通事故严重程度预测方法、系统及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116128108A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116610958A (zh) * | 2023-06-20 | 2023-08-18 | 河海大学 | 面向无人机群水库水质检测的分布式模型训练方法及系统 |
-
2022
- 2022-12-13 CN CN202211627456.1A patent/CN116128108A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116610958A (zh) * | 2023-06-20 | 2023-08-18 | 河海大学 | 面向无人机群水库水质检测的分布式模型训练方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109034264B (zh) | 交通事故严重性预测csp-cnn模型及其建模方法 | |
CN107918921B (zh) | 刑事案件判决结果度量方法及系统 | |
Xi et al. | A traffic accident causation analysis method based on AHP-Apriori | |
Tonkin et al. | A comparison of logistic regression and classification tree analysis for behavioural case linkage | |
Elyassami et al. | Road crashes analysis and prediction using gradient boosted and random forest trees | |
CN116128108A (zh) | 一种交通事故严重程度预测方法、系统及计算机存储介质 | |
CN111612261A (zh) | 基于区块链的金融大数据分析系统 | |
CN114118507A (zh) | 一种基于多维信息融合的风险评估预警方法和装置 | |
CN116307103A (zh) | 一种基于硬参数共享多任务学习的交通事故预测方法 | |
Handoyo et al. | The varying threshold values of logistic regression and linear discriminant for classifying fraudulent firm | |
CN114764682B (zh) | 一种基于多机器学习算法融合的大米安全风险评估方法 | |
Haque et al. | Driving maneuver classification from time series data: a rule based machine learning approach | |
Boldt et al. | Predicting burglars’ risk exposure and level of pre-crime preparation using crime scene data | |
CN113468538A (zh) | 一种基于相似性度量的漏洞攻击数据库构建方法 | |
Yadav et al. | Machine learning based real-time vehicle data analysis for safe driving modeling | |
Rao et al. | Medical Big Data Analysis using LSTM based Co-Learning Model with Whale Optimization Approach. | |
CN116432864A (zh) | 一种区域营运驾驶员群体安全态势的预测方法及系统 | |
CN116434203A (zh) | 考虑驾驶人语言因素的愤怒驾驶状态识别方法 | |
Mujalli et al. | Modeling traffic crashes on rural and suburban highways using ensemble machine learning methods | |
Jain et al. | Analysis of road accidents in India and prediction of accident severity | |
Mishra et al. | Crime Prediction Using Fuzzy c-means Algorithm | |
Amiri et al. | Developing an Accident Severity Model Based on Related Crash Type: Comparison of Four Commonly Used Discrete Choice Models | |
CN113989767A (zh) | 一种自动驾驶测试场景复杂度分析方法及系统 | |
David et al. | Crime Forecasting using Interpretable Regression Techniques | |
Iliyasu et al. | Predictive Analysis of Road Traffic Accidents in Katsina State, Nigeria Using Machine Learning Algorithms: A Study on Factors and Mitigation Strategies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |