CN110826785B - 一种基于k-medoids聚类和泊松逆高斯的高风险路段识别方法 - Google Patents
一种基于k-medoids聚类和泊松逆高斯的高风险路段识别方法 Download PDFInfo
- Publication number
- CN110826785B CN110826785B CN201911032899.4A CN201911032899A CN110826785B CN 110826785 B CN110826785 B CN 110826785B CN 201911032899 A CN201911032899 A CN 201911032899A CN 110826785 B CN110826785 B CN 110826785B
- Authority
- CN
- China
- Prior art keywords
- road
- road section
- risk
- clustering
- sections
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 206010039203 Road traffic accident Diseases 0.000 claims abstract description 24
- 230000007774 longterm Effects 0.000 claims abstract description 19
- 238000011160 research Methods 0.000 claims abstract description 13
- 230000003864 performance function Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 7
- 238000005315 distribution function Methods 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013398 bayesian method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及一种基于k‑medoids聚类和泊松逆高斯的高风险路段识别方法,该方法包括如下步骤:(1)基于k‑medoids聚类方法对所有研究路段进行聚类划分相似路段并鉴别异质性特征指标;(2)基于异质性特征指标构建道路交通事故分布模型;(3)利用道路交通事故分布模型计算各路段的预期事故数;(4)根据预期事故数识别高风险路段。与现有技术相比,本发明方法识别准确性高,该方法可灵活使用,可以根据研究时间范围的要求来描述高风险路段的长期风险。
Description
技术领域
本发明涉及一种高风险路段识别方法,尤其是涉及一种基于k-medoids聚类和泊松逆高斯的高风险路段识别方法。
背景技术
近些年来,随着我国经济的快速发展和城市化进程的不断加快,我国的汽车保有量持续增加,高速公路的里程迅速增长,道路交通运行的过程从单个的、独立式的、简单的过程逐步演变成群体的、交互式的、复杂的综合过程,各类交通问题也随之出现,其中道路交通安全问题屡见不鲜。高速公路上发生的交通事故不仅严重危害道路使用者的生命安全,而且也给国家带来相当巨大的经济损失,极大地制约了交通乃至各行各业的发展,因此对存在事故风险的高速公路进行有效治理迫在眉睫,这就对道路管理者提出了一定的要求。
目前我国的高速公路交通安全治理形势十分严峻,在有限的人力、物力和资金的条件下,难以对所有存在风险的高速公路做到面面俱到,那么如何在有限的资源下达到更好、更高效的治理效果就显得尤为重要。在这样的要求下,需要对高速公路的交通事故风险进行量化,从交通安全的角度对高速公路进行客观评价,从而鉴别高速公路进行安全治理的实际需求水平,这样才能合理分配有限的资源,做到有针对性、有导向性的治理,提升交通安全治理的精准度、高效性。
高风险路段识别的方法可以较为客观地评价研究路段的事故风险水平,对不同路段安全治理的轻重缓急进行描述,从而筛选出更具紧迫性的高风险路段,为高速公路的交通安全治理工作提供科学的依据和参考。目前的高风险路段识别方法主要有基于地理位置的分析方法、多指标综合评价方法和基于事故率排序的方法。这三种方法的前两者都存在较为明显的缺点,主要体现在主观性较强,无法科学客观地给出高风险路段的判定依据。
对于事故率排序方法,即采用实际的或估算的事故率进行排序并设置阈值,从而识别出高风险路段,常见的方法包括事故率统计法、BP神经网络法、经验贝叶斯法。但这几种方法都存在着一些缺陷,从而影响识别效果。并且目前的高风险路段识别仅针对较短时间段内的数据进行分析,或将较长时间内的数据当做单一时间段的样本进行分析,这样就会忽略路段的长期风险。
传统的事故率统计法仅仅依靠历史观测事故数据进行事故率计算和排序,没有考虑由于历史观测事故数据的随机波动性而造成的影响。
BP神经网络法属于一种机器学习算法,通过大量地学习和存储输入与输出变量之间的模式来生成输入输出之间的映射关系,它不需要提前确定变量间的关系式,但同时也就没有考虑道路交通事故数据的一般特性,也无法针对输入与输出变量之间的关联进行深入的分析。
经验贝叶斯法可以克服以上两种方法的缺点,其核心思想是将预期事故数表示为历史观测事故数据和估算事故数的加权组合,其中估算事故数通过一种安全性能函数回归得到。该方法的缺陷是,在使用安全性能函数时应当考虑同类型路段的事故信息,但道路交通事故数据经常包含潜在的异质性,主要体现在道路设计特征、交通特征等方面,这种异质性将降低经验贝叶斯法的准确性,因此需要通过一种方式来选择相同类型地点进行安全性能函数的计算,以提高判别准确性。并且在所需基础资料可以获取的条件下,需要通过一种方式对较长时间段内或多个时间段内的高风险路段进行识别,即路段的长期风险识别。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于k-medoids聚类和泊松逆高斯的高风险路段识别方法。
本发明的目的可以通过以下技术方案来实现:
一种基于k-medoids聚类和泊松逆高斯的高风险路段识别方法,该方法包括如下步骤:
(1)基于k-medoids聚类方法对所有研究路段进行聚类划分相似路段并鉴别异质性特征指标;
(2)基于异质性特征指标构建道路交通事故分布模型;
(3)利用道路交通事故分布模型计算各路段的预期事故数;
(4)根据预期事故数识别高风险路段。
步骤(1)具体为:
(11)对所有研究路段编制ID号,ID号从1编制至n,n为研究路段的总个数,获取各路段的特征指标;
(12)每个研究路段作为一个样本点,每个样本点包括相应路段的特征指标,采用k-medoids聚类方法对所有研究路段进行聚类,每一类簇划分为一个相似路段类别;
(13)计算不同类别路段的特征指标均值的数理统计特征,获取不同类别路段之间的异质性特征指标。
步骤(11)中路段的特征指标包括路段长度Li、路段宽度LWi、路肩总宽度SWi、年平均日交通量Fi和路段事故数Ci,i=1,2……n。
步骤(12)采用k-medoids聚类方法进行聚类具体为:
(121)初始化聚类数目k=2;
(122)在n个样本点中选取k个点作为初始聚类中心点;
(123)按照当前类簇中其他点与聚类中心点距离之和最小的准则,将总体中其余n-k个点分配至当前各个聚类中心点所属的类簇中;
(124)对于每一类簇,随机选择一个非中心点,与当前聚类中心点交换,重新计算交换后的距离成本,遍历所有可能,选取距离成本最小时的中心点作为新的聚类中心点;
(125)重复步骤(123)、(124),直至距离成本收敛,聚类中心点不再变动为止,完成此次聚类;
(126)计算此次聚类结果的平均轮廓系数Sk:
其中,S(i)为第i个样本点的轮廓系数,a(i)为第i个样本点到同类簇其他样本点的平均距离,b(i)为第i个样本点到其他类簇所有样本点的平均距离的最小值,i=1,2……n;
(127)令k=k+1,重复步骤(122)~(126),直至k>10为止,记录Sk随k变化的趋势,依据肘部法则,当其数值出现较大转折且Sk趋近于1时,选取对应的k作为最终聚类数目,重复步骤(122)~(125)步骤完成路段聚类。
步骤(2)具体为:
(21)构建道路交通事故泊松逆高斯分布模型PIG(μi,σ),其概率分布函数为:
其中,μi为路段i的事故数均值,σ为形状参数,yi为路段i的事故数,α为分布参数,e为自然底数,Kλ(t)为第三类修正的贝塞尔函数,x为积分变量,αi为路段i的不定参数,yi!为路段i的事故数的阶乘;
(22)基于异质性构建各类路段的安全性能函数:
其中,SPFr为第r类路段的安全性能函数,μir为第r类路段中第i个路段的估算事故数,Lir为第r类路段中第i个路段的长度,β0r为第r类路段对应于路段长度的回归系数,Fir为第r类路段中第i个路段异质性特征指标对应数值,β1r为第r类路段对应于年平均日交通量的回归系数,e为自然底数,βjr为第r类路段对应于第j个特征指标的回归系数,Xijr为第r类路段中第i个路段的除异质性特征指标外的第j个特征指标对应数值,r=1,2,……k,k为路段类别总数,j=2,3,……l,l为特征指标总数;
(23)构建基于泊松逆高斯的经验贝叶斯预期事故数估计模型:
其中,为第r类路段中第i个路段的预期事故数,wir为第r类路段中第i个路段的权重参数,E(κir)为第r类路段中第i个路段的事故数均值,Kir为第r类路段中第i个路段的历史观测事故数,VAR(κir)为第r类路段中第i个路段的事故数方差,μir为第r类路段中第i个路段的估算事故数,σr为第r类路段的形状参数。
步骤(3)具体为:
(31)通过回归拟合方法估计各类路段的安全性能函数中的参数;
(32)利用各类路段的安全性能函数求取各路段的估算事故数;
(33)利用预期事故数估计模型估计得到各路段的预期事故数。
步骤(4)具体为:
(41)将所有研究路段按照预期事故数从大到小的顺序排列,选取高风险比例p;
(42)计算高风险路段数目m:
其中,n为研究路段的总个数,[np]表示对np取整;
(43)将步骤(41)中前m个路段识别为高风险路段。
采用该方法在进行多时间段长期高风险路段识别时包括以下步骤:
(A)针对每一个时间段,利用步骤(1)~(4)识别该时间段中的高风险路段;
(B)对于第r个时间段,计算第r个时间段内第j个高风险路段在所有时间段内被识别为高风险路段的总次数Qrj,r=1,2,……,s,j=1,2,……,m,s表示时间段总个数,m表示每个时间段中的高风险路段的个数;
(C)根据Qrj对高风险路段进行整合,选取Qrj大于设定值的路段为长期高风险路段。
与现有技术相比,本发明具有如下优点:
(1)本发明提出使用聚类方法来选择相似路段计算安全性能函数,道路交通事故数据经常包含潜在的异质性,这种异质性将降低高风险路段识别的准确性,而该方法进行恰当的路段划分以及异质性因素的鉴别,能够提高经验贝叶斯在高风险路段识别上的准确性。
(2)本发明将泊松逆高斯分布引入到道路交通事故分布模型中,能够适应事故数据这类高度离散化的分布数据,并且得益于逆高斯分布的灵活性和易于计算,道路交通事故分布模型的似然函数、参数估计等计算步骤都更为简便和易于理解。
(3)本发明使用了基于轮廓系数的k-medoids算法,当样本数据中出现了不合理的极端值,或者聚类数目选择的不合理,会导致最终聚类结果效果不好,从而影响后续的计算与识别,该方法能够削弱异常值的影响,同时能够根据轮廓系数评价不同聚类数下内聚度与分离度的相对好坏,从而为聚类数的选择提供依据,提升高风险路段识别的精准性。
(4)本发明提出了一种多时间段下的长期高风险路段识别方法,当单个研究时间范围过长或研究时间区段数过少,容易导致识别过程中忽略路段在较长时间内的高风险趋势,而该方法可以捕捉到路段的长期风险趋势,为高风险路段的优先治理、重点治理提供依据。
(5)本发明中识别高风险路段的方法具有易实施性的较好的灵活性,特征指标亦可选用更多不同的指标,聚类数目可以根据划分结果的轮廓系数灵活选取,高风险比例能够在给定范围内灵活选取,这样可以根据不同严格程度的要求来确定高风险路段,多时间段的选取或划分个数也能够在给定范围内灵活选取,这样可以根据研究时间范围的要求来描述高风险路段的长期风险。
附图说明
图1为本发明一种基于k-medoids聚类和泊松逆高斯的高风险路段识别方法流程图。
图2为本发明聚类及异质性鉴别主要步骤流程图。
图3为本发明基于轮廓系数的k-medoids聚类流程图。
图4为本发明道路交通事故分布模型及各部分关系示意图。
图5为本发明多时间段长期高风险路段识别方法流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例
本发明提出了一种基于k-medoids聚类和泊松逆高斯的高风险路段识别方法,该方法将聚类方法应用于安全性能函数的划分,并将泊松逆高斯分布引入到经验贝叶斯的安全性能函数中,同时提出了路段的长期风险识别方法。因此该方法能够鉴别路段之间存在的异质性因素,提升经验贝叶斯的准确性,从而提升高风险路段识别的可靠性,并且对于较长时间段内或多个时间段内的样本,该方法能够捕捉到路段的长期风险特征。
本发明包含如图1所示的五个步骤,结合实施例及图表作进一步说明,具体如下所述:实施例选取美国德克萨斯州1499个不同路段在1997年至1998年间的数据进行分析。
步骤1:划分相似路段以及鉴别异质性
步骤1.1:基础资料收集与路段ID编制
相似路段划分及异质性鉴别的主要流程如图2所示,具体如下:针对上述时间段内的所有研究路段,收集与其道路设计特征、交通特征相关的四类指标,包括路段长度、路段宽度、路肩总宽度、年平均日交通量,分别用L、LW、SW、F来表示,同时由于高风险路段的识别依赖于路段上发生的事故数,因此还需收集给定时间段内的路段事故数,用C来表示。另外,对于所有研究路段,编制其唯一的路段ID号,现研究路段共有1499个,则ID号从1编制至1499,基础资料如下表1所示:
表1基础资料及路段ID表
步骤1.2:基于k-medoids聚类方法划分路段
将上述五个指标视为路段的五类特征,并根据这五类特征基于k-medoids聚类方法对路段进行划分,以便于后续工作中构造与区分不同性质路段的安全性能函数。
k-medoids聚类方法的主要步骤包括:
1)将每一个路段视作一个样本点,每个样本点包含五个维度的坐标信息;
2)给定初始的聚类数目k,即最终需要将所有样本点归为几类;
3)在总体n个样本点中选取k个点作为初始聚类中心;
4)按照当前类簇中其他点与中心点距离之和最小的准则,将总体中其余n-k个点分配至当前各个聚类中心所属的类簇中;
5)对于每一类簇,随机选择一个非中心点,与当前中心点交换,重新计算交换后的距离成本,遍历所有可能,选取距离成本最小时的中心点作为新的中心点;
6)重复4)、5)步骤,直至距离成本收敛,中心点不再变动为止。
针对k-medoids方法需要事先给出聚类数目的不足,使用轮廓系数Sk(SilhouetteCoefficient)评价聚类的内聚度与分离度,从而确定较优的聚类数目k,则应用k-medoids进行聚类的主要步骤如图3所示,具体包括:
1)将每一个路段视作一个样本点,每个样本点包含五个维度的坐标信息,令k取2;
2)在总体n个样本点中选取k个点作为初始聚类中心;
3)按照当前类簇中其他点与中心点距离之和最小的准则,将总体中其余n-k个点分配至当前各个聚类中心所属的类簇中;
4)对于每一类簇,随机选择一个非中心点,与当前中心点交换,重新计算交换后的距离成本,遍历所有可能,选取距离成本最小时的中心点作为新的中心点;
5)重复3)、4)步骤,直至距离成本收敛,中心点不再变动为止;
6)计算此次聚类结果的平均轮廓系数Sk,越趋近于1代表内聚度和分离度都较优:
其中,S(i)为第i个样本点的轮廓系数,a(i)为第i个样本点到同类簇其他样本点的平均距离,b(i)为第i个样本点到其他类簇所有样本点的平均距离的最小值,i=1,2……n;
7)令k=k+1,重复2)~6)步骤,直至k>10为止,记录Sk随k变化的趋势,依据肘部法则,当其数值出现较大转折且Sk较趋近于1时,选取对应的k作为最终聚类数,重复一遍2)~5)步骤即可完成路段聚类,以上涉及的距离均为欧式距离。
本实施例中,针对k在2~10之间的取值进行了聚类,记录轮廓系数,如表2所示:
表2不同k取值时的平均轮廓系数
由表2可知,当k取2时,轮廓系数最大,因此选取k=2为聚类数目。
聚类完毕的结果及其统计结果如步骤1.3中的表3所示。
步骤1.3:根据不同分类的统计特征鉴别异质性
基于步骤1.2的聚类结果,将属于不同类别的路段视为具有异质性,而同一类别中的路段之间具有相似性质。通过计算各个指标的两个数理统计特征,即均值和方差,可以找出不同类别路段之间的异质性,同时可以推断异质性因素与事故数的关联性。
表3聚类中心及各类簇统计特征
由表3可以找到两类样本的相似性和异质性,相似性体现在路段长度L、路段宽度LW、路肩总宽度SW上,两类样本的这三个特征较为相似,但年均日交通量F存在较大差异,并且事故数也存在较大差异,因此F即为两类样本之间的异质性因素,导致了事故数的差异。
步骤2:基于异质性构建道路交通事故分布模型
步骤2.1:构建道路交通事故泊松逆高斯模型
步骤2中模型的构建及各部分关系如图4所示。
令道路交通事故数服从(3)式的泊松分布,该分布由均值μ确定,且各路段相互独立,均值μ由(4)式的形式给出:
Yi|μi~Poisson(μi),i=1,2,...n (3)
μi=E(Yi|μi)=Var(Yi|μi)=f(X;β)=EXP(XTβ) (4)
EXP(XTβ+εi)=μiEXP(εi)=μiνi (5)
P(Yi=yi|μi)=∫f(yi|μi,vi)g(vi)dvi (6)
在(4)式中,各个路段的均值μ即为需要计算的估算事故数,用自然底数的指数函数来描述均值与各个自变量之间的关系,X即为自变量向量,具体地,包含L、LW、SW、F这几个分量,β是回归得到的自变量系数向量,与X的分量一一对应。在经验贝叶斯模型中,(4)式所确定的自变量X与估算事故数μ之间的关系称为安全性能函数,通过构造其具体形式并进行回归,可以得到各个待估参数,最后用于μ的估算。
在(5)式中,由于道路交通事故数据中方差大于均值的特性,为避免过度离散化,引入误差项εi,则道路交通事故数的概率分布函数如(6)式所示。
令νi与其他参数相互独立,且服从均值为1、形状参数为1/σ的逆高斯分布,如(7)式所示,则νi的概率密度函数如(8)式所示:
νi~IG(1,1/σ) (7)
其中,σ=Var(νi);E(νi)=1。
综上,得到道路交通事故的泊松逆高斯(Poisson Inverse Gaussian)分布PIG(μi,σ),概率分布函数如(9)式所示:
其中,μi为路段i的事故数均值,σ为形状参数,yi为路段i的事故数,α为分布参数,e为自然底数,αi为路段i的不定参数,yi!为路段i的事故数的阶乘,Kλ(t)为第三类修正的贝塞尔函数,具体见公式(11),道路交通事故数的期望和方差如(12)、(13)式所示:
E(Yi)=E{E(Yi|μiνi)}=E(μiνi)=μi (12)
Var(Yi)=Var{E(Yi|μiνi)}+E{Var(Yi|μiνi)}=μi+σμi 2 (13)
步骤2.2:构建基于泊松逆高斯的经验贝叶斯模型
将预期事故数表示为历史观测事故数和估算事故数的加权组合,用K表示服从泊松逆高斯分布的历史观测事故数,κ表示预期事故数,E(κ)表示由(12)式计算得到的估算事故数,则经验贝叶斯的估计值EB(即预期事故数的估计值,Empirical Bayesian)为:
其中,权重参数w在0到1之间,由下式确定:
根据(12)、(13)式,对(15)式进行推导得到下式,σ又可称为离散参数。
步骤2.3:基于异质性构建各类路段的安全性能函数
要由(12)式计算得到每一路段的E(κ),就需先依据(4)式计算出估算事故数μi,因此需要构建安全性能函数,用SPFi(Safety Performance Function,i=1,2,…k)表示。
将路段五个特征中的长度L视为存在事故风险的基数,而(4)式中的指数函数部分视为每单位长度路段发生事故的风险大小,则安全性能函数的一般形式构造如下:
其中μi为估算事故数,Fi、Li分别为路段年均日交通量、路段长度,Xij为其他特征(路段宽度等),βj为回归系数。
针对k类路段构成的k类样本,分别构建其安全性能函数:
其中,SPFr为第r类路段的安全性能函数,μir为第r类路段中第i个路段的估算事故数,Lir为第r类路段中第i个路段的长度,β0r为第r类路段对应于路段长度的回归系数,Fir为第r类路段中第i个路段异质性特征指标对应数值,本实施例中异质性特征指标为年平均交通量,因此,此处Fir为第r类路段中第i个路段的年平均交通量,β1r为第r类路段对应于年平均日交通量的回归系数,e为自然底数,βjr为第r类路段对应于第j个特征指标的回归系数,Xijr为第r类路段中第i个路段的除异质性特征指标外的第j个特征指标对应数值,r=1,2,……k,k为路段类别总数,j=2,3,……l,l为特征指标总数,需要说明的是,将异质性特征指标标号为1,即j=1时对应的特征指标为异质性特征指标(本实施例中为年平均交通量)。
本实施例中,依据步骤1中的结果,构建2类安全性能函数。
步骤3:计算不同类型路段的预期事故数
步骤3.1:估计事故分布模型各项参数
针对每一类路段构成的一类样本,利用(18)式中的形式,规定其属于泊松逆高斯分布族,回归得到对应于各个自变量的各项系数β,同时输出对应于该类样本的离散参数σ,对于2类样本,其结果如下表4:
表4各类样本的回归系数及离散参数
步骤3.2:计算各路段预期事故数
各项自变量的系数确定后,其SPFi函数即可确定。用SPFi函数以及自变量可以计算出该类样本中的每一路段的估算事故数μi,根据(12)式得到每一路段的E(κ),同时根据(16)式得到每一路段的权重w,最后根据(14)式得到EB估计值,即预期事故数。
对每一类路段都分别进行参数估计和EB值估算工作,得到所有路段的EB值。
本实施例中的部分路段计算结果如下表5:
表5部分路段的计算结果
注:表中仅列出第1类样本中的部分路段。
步骤4:识别道路交通事故高风险路段
当样本总数为n时,将n个路段的EB值按照从大到小的顺序排列,选取高风险比例p,记高风险路段数目为m,m满足下式:
则排序中前m个路段被识别为高风险路段,记录高风险路段的ID信息。
其中,p的取值范围为1%到10%之间(包含1%和10%)。
本实施例中,选取p为1%,n为1499,则m等于15,即排序前15名的路段为高风险路段,最终识别部分结果如下表6所示:
表6高风险路段识别部分结果
注:表中仅列出排序前5的高风险路段。
步骤5:多时间段长期高风险路段识别
步骤1至步骤4可针对单个时间段内的数据进行高风险路段的识别,当研究时间范围较长,用T表示,且数据可按时间划分为多个时间段时:
T=t1+t2+...+ts (20)
其中s为时间段个数,取值范围为1到10之间(包含1和10),且划分时间段时尽可能令所有t相等。
对每一个小时间段内的样本进行步骤1至步骤4的操作,从而完成各个时间段内的EB值估计和排序。令Q1j(j=1,2,…,m)为t1时间段内第j个高风险路段在所有时间段内被识别为高风险路段的总次数,Q2j(j=1,2,…,m)为t2时间段内第j个高风险路段在所有时间段内被识别为高风险路段的总次数,以此类推,Qsj(j=1,2,…,m)为ts时间段内第j个高风险路段在所有时间段内被识别为高风险路段的总次数,即可就将所有曾经被识别为高风险样本的路段列举出来(总个数一定在m与sm之间,且sm一定小于等于n),同时对重复路段进行整合,可以得到与之相应的高风险出现次数Q,在这些路段中选取前m个路段或Q较大的路段,即可视为长期高风险路段。
本实施例中,扩展了上述1499个路段在1999年至2001年时间段内的事故据,因此以两个小时间段为例进行识别,基础资料如下表7:
表7两时间段内基础资料表
注:表中仅列出部分路段的数据。
同样应用步骤1至步骤4对第二个时间段内的路段进行识别,得到最终识别部分结果如下表8所示:
表8高风险路段识别部分结果
注:表中仅列出排序前5的高风险路段。
接着计算各时间段内各路段被识别为高风险路段的总次数Q1j和Q2j,其中j=1,2,…15,再对相同ID的路段进行合并处理。
本实施例以表8中路段1417为例,它在时间段1内排序为1,因此j取1,在时间段2内排序为2,因此j取2,Q=Q11=Q22=2,即该路段在两次识别中均被识别为高风险路段。该步骤中对多时间段内路段的计算与识别如图5所示。
结果如下表9所示:
表9高风险路段被识别总次数
注:表中仅列出了Q=2的路段及部分Q=1的路段。
由表9可知,有9个路段在两个时间段内均被识别为高风险路段,其余有12个路段仅在某一个时间段内被识别为高风险路段,因此将这9个路段标记为长期高风险路段,捕捉到它们的长期风险倾向,鉴别出安全治理需求更紧张的路段,从而合理分配有限的资源,更有针对性地对这类长期高风险路段进行治理,提升交通安全治理的精准度、高效性。
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。
Claims (5)
1.一种基于k-medoids聚类和泊松逆高斯的高风险路段识别方法,其特征在于,该方法包括如下步骤:
(1)基于k-medoids聚类方法对所有研究路段进行聚类划分相似路段并鉴别异质性特征指标;
(2)基于异质性特征指标构建道路交通事故分布模型;
(3)利用道路交通事故分布模型计算各路段的预期事故数;
(4)根据预期事故数识别高风险路段;
步骤(1)具体为:
(11)对所有研究路段编制ID号,ID号从1编制至n,n为研究路段的总个数,获取各路段的特征指标;
(12)每个研究路段作为一个样本点,每个样本点包括相应路段的特征指标,采用k-medoids聚类方法对所有研究路段进行聚类,每一类簇划分为一个相似路段类别;
(13)计算不同类别路段的特征指标均值的数理统计特征,获取不同类别路段之间的异质性特征指标;
步骤(11)中路段的特征指标包括路段长度Li、路段宽度LWi、路肩总宽度SWi、年平均日交通量Fi和路段事故数Ci,i=1,2……n;
步骤(2)具体为:
(21)构建道路交通事故泊松逆高斯分布模型PIG(μi,σ),其概率分布函数为:
其中,μi为路段i的事故数均值,σ为形状参数,yi为路段i的事故数,α为分布参数,e为自然底数,Kλ(t)为第三类修正的贝塞尔函数,t=α,x为积分变量,αi为路段i的不定参数,yi!为路段i的事故数的阶乘;
(22)基于异质性构建各类路段的安全性能函数:
其中,SPFr为第r类路段的安全性能函数,μir为第r类路段中第i个路段的估算事故数,Lir为第r类路段中第i个路段的长度,β0r为第r类路段对应于路段长度的回归系数,Fir为第r类路段中第i个路段异质性特征指标对应数值,β1r为第r类路段对应于年平均日交通量的回归系数,e为自然底数,βjr为第r类路段对应于第j个特征指标的回归系数,Xijr为第r类路段中第i个路段的除异质性特征指标外的第j个特征指标对应数值,r=1,2,……k,k为路段类别总数,j=2,3,……l,l为特征指标总数;
(23)构建基于泊松逆高斯的经验贝叶斯道路交通事故分布模型:
2.根据权利要求1所述的一种基于k-medoids聚类和泊松逆高斯的高风险路段识别方法,其特征在于,步骤(12)采用k-medoids聚类方法进行聚类具体为:
(121)初始化聚类数目k=2;
(122)在n个样本点中选取k个点作为初始聚类中心点;
(123)按照当前类簇中其他点与聚类中心点距离之和最小的准则,将总体中其余n-k个点分配至当前各个聚类中心点所属的类簇中;
(124)对于每一类簇,随机选择一个非中心点,与当前聚类中心点交换,重新计算交换后的距离成本,遍历所有点,选取距离成本最小时的中心点作为新的聚类中心点;
(125)重复步骤(123)、(124),直至距离成本收敛,聚类中心点不再变动为止,完成此次聚类;
(126)计算此次聚类结果的平均轮廓系数Sk:
其中,S(i)为第i个样本点的轮廓系数,a(i)为第i个样本点到同类簇其他样本点的平均距离,b(i)为第i个样本点到其他类簇所有样本点的平均距离的最小值,i=1,2……n;
(127)令k=k+1,重复步骤(122)~(126),直至k>10为止,记录Sk随k变化的趋势,依据肘部法则,当其数值出现转折且Sk趋近于1时,选取对应的k作为最终聚类数目,重复步骤(122)~(125)步骤完成路段聚类。
3.根据权利要求1所述的一种基于k-medoids聚类和泊松逆高斯的高风险路段识别方法,其特征在于,步骤(3)具体为:
(31)通过回归拟合方法估计各类路段的安全性能函数中的参数;
(32)利用各类路段的安全性能函数求取各路段的估算事故数;
(33)利用道路交通事故分布模型估计得到各路段的预期事故数。
5.根据权利要求1所述的一种基于k-medoids聚类和泊松逆高斯的高风险路段识别方法,其特征在于,采用该方法在进行多时间段长期高风险路段识别时包括以下步骤:
(A)针对每一个时间段,利用步骤(1)~(4)识别该时间段中的高风险路段;
(B)对于第r个时间段,计算第r个时间段内第j个高风险路段在所有时间段内被识别为高风险路段的总次数Qrj,r=1,2,……,s,j=1,2,……,m,s表示时间段总个数,m表示每个时间段中的高风险路段的个数;
(C)根据Qrj对高风险路段进行整合,选取Qrj大于设定值的路段为长期高风险路段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911032899.4A CN110826785B (zh) | 2019-10-28 | 2019-10-28 | 一种基于k-medoids聚类和泊松逆高斯的高风险路段识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911032899.4A CN110826785B (zh) | 2019-10-28 | 2019-10-28 | 一种基于k-medoids聚类和泊松逆高斯的高风险路段识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110826785A CN110826785A (zh) | 2020-02-21 |
CN110826785B true CN110826785B (zh) | 2022-07-05 |
Family
ID=69550885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911032899.4A Active CN110826785B (zh) | 2019-10-28 | 2019-10-28 | 一种基于k-medoids聚类和泊松逆高斯的高风险路段识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110826785B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112884041B (zh) * | 2021-02-22 | 2024-08-02 | 西安航空学院 | 一种基于养护历史路段划分方法、系统、设备及存储介质 |
CN113298128B (zh) * | 2021-05-14 | 2024-04-02 | 西安理工大学 | 基于时间序列聚类的云服务器异常检测方法 |
CN116434543B (zh) * | 2023-03-27 | 2024-04-05 | 南京理工大学 | 一种基于事故分布规律和事故成因的交通隐患点预警方法 |
CN117435131B (zh) * | 2023-10-09 | 2024-03-29 | 国家电网有限公司 | 基于城市电力设备监测的大数据存储方法、装置和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205312A (zh) * | 2015-09-08 | 2015-12-30 | 重庆大学 | 道路事故热点成因分析和破坏度评估方法 |
CN108682149A (zh) * | 2018-05-21 | 2018-10-19 | 东南大学 | 基于二项Logistic回归的公路事故黑点路段线形致因分析方法 |
CN108717175A (zh) * | 2018-04-18 | 2018-10-30 | 同济大学 | 基于区域划分和稀疏支持向量回归的室内指纹定位方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9911327B2 (en) * | 2015-06-30 | 2018-03-06 | Here Global B.V. | Method and apparatus for identifying a split lane traffic location |
-
2019
- 2019-10-28 CN CN201911032899.4A patent/CN110826785B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205312A (zh) * | 2015-09-08 | 2015-12-30 | 重庆大学 | 道路事故热点成因分析和破坏度评估方法 |
CN108717175A (zh) * | 2018-04-18 | 2018-10-30 | 同济大学 | 基于区域划分和稀疏支持向量回归的室内指纹定位方法 |
CN108682149A (zh) * | 2018-05-21 | 2018-10-19 | 东南大学 | 基于二项Logistic回归的公路事故黑点路段线形致因分析方法 |
Non-Patent Citations (2)
Title |
---|
面向NSM的高速公路大区段事故风险预测方法;吴佩洁等;《交通信息与安全》;20180828(第04期);全文 * |
高速公路网事故多发路段鉴别研究;郭礼扬;《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》;20190115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110826785A (zh) | 2020-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110826785B (zh) | 一种基于k-medoids聚类和泊松逆高斯的高风险路段识别方法 | |
CN107122594B (zh) | 一种新能源车辆电池的健康预测方法和系统 | |
CN113096388B (zh) | 一种基于梯度提升决策树的短时交通流量预测方法 | |
CN108985380B (zh) | 一种基于聚类集成的转辙机故障识别方法 | |
CN103617435B (zh) | 一种主动学习图像分类方法和系统 | |
CN112687349A (zh) | 一种降低辛烷值损失模型的构建方法 | |
CN108417033A (zh) | 基于多维因素的高速路交通事故分析预测方法 | |
CN107480686B (zh) | 一种筛选机器学习特征的方法和装置 | |
CN105373606A (zh) | 一种改进c4.5决策树算法下的不平衡数据抽样方法 | |
CN113689594A (zh) | 一种新的汽车行驶工况构造方法 | |
CN111145546B (zh) | 一种城市全域交通态势分析方法 | |
CN113240185A (zh) | 一种基于随机森林的县域碳排放的预测方法 | |
CN117828539B (zh) | 数据智能融合分析系统及方法 | |
Datla | Bench marking of classification algorithms: Decision Trees and Random Forests-a case study using R | |
CN116739376A (zh) | 一种基于数据挖掘的公路路面预防性养护决策方法 | |
CN117541095A (zh) | 一种农用地土壤环境质量类别划分的方法 | |
Bondu et al. | Fears: a feature and representation selection approach for time series classification | |
CN114048798B (zh) | 基于改进降噪自编码器的汽车行驶工况构建方法 | |
CN113159220B (zh) | 基于随机森林的混凝土侵彻深度经验算法评价方法和装置 | |
CN114842645A (zh) | 一种基于k-means的路网速度态势规律提取方法 | |
CN108388769B (zh) | 基于边驱动的标签传播算法的蛋白质功能模块识别方法 | |
CN109147320B (zh) | 一种基于卡口数据的路段交通状态判别方法 | |
CN113159139B (zh) | 一种基于改进声发射密度聚类的伤损状态诊断方法 | |
CN108090635B (zh) | 一种基于聚类分类的路用性能预测方法 | |
CN113919729A (zh) | 一种区域三生空间影响与协作水平评估方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |