CN110232398A - 一种基于Canopy+Kmeans聚类的路网子区划分及其评估方法 - Google Patents

一种基于Canopy+Kmeans聚类的路网子区划分及其评估方法 Download PDF

Info

Publication number
CN110232398A
CN110232398A CN201910336084.9A CN201910336084A CN110232398A CN 110232398 A CN110232398 A CN 110232398A CN 201910336084 A CN201910336084 A CN 201910336084A CN 110232398 A CN110232398 A CN 110232398A
Authority
CN
China
Prior art keywords
canopy
road network
road
data
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910336084.9A
Other languages
English (en)
Inventor
林晓辉
曹成涛
廖建尚
李少伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Communications Polytechnic
Original Assignee
Guangdong Communications Polytechnic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Communications Polytechnic filed Critical Guangdong Communications Polytechnic
Priority to CN201910336084.9A priority Critical patent/CN110232398A/zh
Publication of CN110232398A publication Critical patent/CN110232398A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及神经网络技术方法领域,更具体地,涉及一种基Canopy+Kmeans聚类的路网子区划分及其评估方法,路网子区划分方法以实时采集路段中心经纬度、路段平均速度、路段平均密度为样本数据,具体步骤如下:(1)进行数据预处理;采用基于“最小最大原则”的Canopy算法,确定若干个Canopy及Canopy中心点;(2)在步骤(1)之后,进行Kmeans的二次聚类;采集步骤(1)中的Canopy中心点,Canopy的中心点个数为Kmeans算法的K值;(3)在步骤(2)之后,分别计算各数据点到K个聚类中心点的欧氏距离,并将其划分到距离最小的聚类中,形成新的聚类。以实时采集的路段中心经纬度、路段平均速度、路段平均密度为样本数据,提出基于Canopy‑Kmeans聚类算法的路网子区划分方法,以弥补Kmeans算法的不足。

Description

一种基于Canopy+Kmeans聚类的路网子区划分及其评估方法
技术领域
本发明涉及神经网络技术方法领域,更具体地,涉及一种基于Canopy+Kmeans聚类的路网子区划分及其评估方法。
背景技术
随着城市范围越来越大,以及存在路网拥堵分布不均、道路类型多样等因素,导致城市路网呈现异构性,不利于城市交通管理与控制,因此有必要对城市路网进行子区划分。而路网子区划分可以当做是属性接近的路段划分聚类的过程,因此可以采用聚类算法对路网子区进行划分。聚类(Clustering)就是将数据集合分成属性和特征接近的若干簇(类),同一个簇中的对象属性或特征彼此相似,与其它簇中的对象差别较大。目前聚类算法可分为划分方法(代表:K-means算法、K-MEDOIDS算法、CLARANS算法)、层次方法(代表:BIRCH算法、CURE算法、CHAMELEON算法等)、基于密度的方法(代表:DBSCAN算法、OPTICS算法、DENCLUE算法等)、基于网格的方法(代表:STING算法、CLIQUE算法、WAVE-CLUSTER算法)、基于模型的方法(代表:FCM算法)、基于图论的方法(代表:谱聚类)等。聚类算法已广泛应用于商业、计算机、生物学、医学、经济学、地理、数学等诸多领域,在交通领域中主要应用于交通状态判别、路网子区划分、交通控制时段划分、交通事故点划分、交通流量划分等,但目前聚类算法在路网子区划分中的应用还处于起步阶段,部分学者运用聚类算法进行路网子区划分的研究。如李晓丹(2009)等提出了基于空间统计聚类算法的路网子区自动划分方法,并利用上海实际路网的浮动车数据,实现了路网子区的自动划分。戴炳奎(2010)等建立基于FCM的加权模糊聚类分析法,并采用层次分析方法对加权进行优化,最后以海峡西岸经济区为实验区,验证该方法的可行性。尹洪英(2010)等根据实时变化的交通流数据和道路交叉口的拓扑结构属性,以谱图理论为基础结合谱聚类算法进行路网动态分区。杜彩军(2014)等基于高速公路联网收费的收费站点之间OD交通量数据,转换计算交通联系量,运用加权平均距离聚类分析方法,构建基于高速公路交通联系的交通区划分方法框架。冯树民(2015)等针对路网子区合并问题,提出基于二维图论聚类算法的路网子区合并模型,并用F检验法确定最优合并结果。林丹(2017)在无权网络中增加边权、点权的描述并结合复杂网络中度的概念,对Newman聚类算法进行改进,最后基于改进的Newman聚类算法对路网子区进行划分。王晓轩(2017)提出了基于Kmeans聚类的路网子区划分方法和基于改进FCM算法的路网子区划分方法,并通过实际路网分析,比较了两种方法的优劣。其中王晓轩(2017)提出了基于Kmeans聚类的路网分区方法,但该方法的K值是预先设置的,K值一般是难以估计的,不具备普遍性,同时随机选择聚类中心,每次运行有可能出现不同的聚类结果,所得获取的结果也有可能不是最优解。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于Canopy+Kmeans聚类的路网子区划分方法,以实时采集的路段中心经纬度、路段平均速度、路段平均密度为样本数据,提出基于Canopy-Kmeans聚类算法的路网子区划分方法,以弥补Kmeans算法的不足。
为解决上述技术问题,本发明采用的技术方案是:
提供一种基于Canopy+Kmeans聚类的路网子区划分方法,路网子区划分方法以实时采集路段中心经纬度、路段平均速度、路段平均密度等为样本数据,具体步骤如下:
(1)进行数据预处理;采用基于“最小最大原则”的Canopy算法,确定若干个Canopy及Canopy中心点;
(2)在步骤(1)之后,进行Kmeans的二次聚类;采集步骤(1)中的Canopy中心点,Canopy的中心点个数为Kmeans算法的K值;
(3)在步骤(2)之后,分别计算各数据点到K个聚类中心点的欧氏距离,并将其划分到距离最小的聚类中,形成新的聚类;
(4)在步骤(3)之后,计算K个新聚类中各数据点的均值,并将该值作为新的聚类中心uk,其公式如下:
式中,rnk——是否属于第K类的系数,若xn属于在第K类的范围内,则rnk=1,否则rnk=0,rnk的公式如下:
(5)在步骤(4)之后,然后循环步骤(3)到(4),直到聚类中心不再变化;
(6)在步骤(5)之后,输出结果,得到K个聚类,根据K个聚类完成路网子区的划分。
优选地,在步骤(1)中,确定若干个Canopy形成Canopy集合,具体步骤如下:
首先采集路网数据,形成路网数据集合X={xi|i=1,2,…,n},其中xi为路网中第i条路段的子区划分参数,xi={路段中心经度xi1,路段中心纬度xi2,路段平均速度xi3,路段平均密度xi4}。对于若其满足如下公式:
则,称xi为Canopy集合,Cj为Canopy中心点且
假设已知前m个Canopy中心点,则Distmin(i)表示第i个候选数据点xi与前m个Canopy中心点之间最小距离的最大者,其公式如下:
式中,——待确定的第i个Canopy中心点与前m个已确定的Canopy中心点的所有间距中最小距离。
优选地,在步骤(1)中,确定Canopy中心点,具体步骤如下:
首先采集路网数据,形成路网数据集合X={xi|i=1,2,…,n},对于若其满足如下公式:
则称Cm为非Canopy候选中心点集合。
本发明还提供一种应用基于Canopy+Kmeans聚类的路网子区划分方法的评估方法,采用浮动车数据FCD,估测路网的宏观基本图MFD(Macroscopic FundamentalDiagrams),对路网子区划分方法的划分结果进行合理性测试评估。
优选地,采用浮动车数据FCD,估测路网MFD的公式如下:
式中:kw——利用浮动车数据估算的路网交通密度(veh/km);
qw——利用浮动车数据估算的路网交通流量(veh/h);
ρ——浮动车在路网中的覆盖率;
m′——采集周期T内记录的浮动车数;
n——路网中路段总数;
t′j——采集周期T内第j浮动车的行驶时间(s);
li——第i路段的长度(m);
T——采集周期(s);
d′j——采集周期T内第j辆车的行驶距离(m)。
优选地,对路网子区划分方法的划分结果进行合理性测试评估的具体步骤如下:
(a)首先,绘制各子区MFD,并确定其拟合函数;利用估测路网MFD的相关理论,绘制各子区的MFD,在MFD散点图上拟合曲线函数;
(b)其次,计算误差平方和SEE、确定系数R-Square;
计算散点与拟合函数之间的误差平方和(Sum of Squaresfor Error,SSE)和确定系数(R-Square),从而对路网子区MFD进行定量评价;
(c)最后,分析各子区的MFD拟合程度。
优选地,在步骤(b)中,SSE是数据拟合值与数据实际值之间的偏差值,SSE的值越小,表示数据拟合值与数据实际值的偏差越小,其公式如下:
式中,yi——实际值;
——拟合值;
i,n——第i个数据,数据总数;
确定系数R-Square由回归平方和SSR(Sum of Squares for Regression)和总偏差平方和SST(Sum of Squares for Total)共同决定;
其中总偏差平方和SST(Sum of Squares for Total)为每个实际值yi与平均值之差的平方和,反映了散点的总体波动情况,回归平方和SSR(Sum of Squares forRegression)为拟合值与均值之差的平方和,其公式如下:
从公式(9)可知,R-square的值在0-1之间,该值越接近1,表示曲线拟合的效果越合理。
优选地,在步骤(c)中,采用SSE和R-square描述MFD的拟合程度;当SSE越小,R-square越接近1时,说明MFD的拟合程度越高,表现为MFD散点更加居中,散射性更低,图像更加清晰,易于确定路网的临界交通密度和最大交通流量,易于从宏观层面对路网进行交通状态判别,整个路网内部交通流密度更加均匀;相反,当SSE越大,R-square越小时,反映出MFD的拟合程度越差,表现为MFD散点比较分散,拟合曲线不明显,不易确定最大流量和临界交通密度,路网交通状态难以判断。
与现有技术相比,本发明的有益效果是:
本发明提供一种基于Canopy+Kmeans聚类的路网子区划分方法及其评估方法,以实时采集的路段中心经纬度、路段平均速度、路段平均密度为样本数据,提出基于Canopy-Kmeans聚类算法的路网子区划分方法,以弥补Kmeans算法的不足,并搭建车联网仿真模型,采用Kmeans、Canopy-Kmeans等2种聚类算法分别进行路网子区划分,最后采用基于MFD的路网子区划分定量评价方法对路网子区划分结果进行评价,确定最优路网子区划分算法。
附图说明
图1为实施例基于Canopy+Kmeans聚类的路网子区划分方法的流程图。
图2为实施例基于MFD的路网子区划分评价方法的流程图。
图3为实施例的Canopy算法示意图。
图4为实施例的仿真实验区域布局图。
图5为实施例的联网车覆盖率P与路网MFD参数的MAPE之间关系的示意图。
图6为实施例的仿真路网MFD二维图。
图7为实施例的基于谱聚类的路网仿真时段划分结果的示意图。
图8为实施例的过饱和状态下基于Kmeans的路网分区结果的示意图。
图9为实施例的过饱和状态下基于FCM聚类算法的路网分区结果的示意图。
图10为过饱和状态下基于Canopy-Kmeans的路网分区结果的示意图。
图11为Kmeans算法的子区1MFD的示意图。
图12为Kmeans算法的子区2MFD的示意图。
图13为Kmeans算法的子区3MFD的示意图。
图14为Kmeans算法的子区4MFD的示意图。
图15为FCM算法的子区3MFD的示意图。
图16为FCM算法的子区4MFD的示意图。
图17为Canopy-Kmeans算法的子区1MFD的示意图。
图18为Canopy-Kmeans算法的子区2MFD的示意图。
图19为Canopy-Kmeans算法的子区3MFD的示意图。
图20为Canopy-Kmeans算法的子区4MFD的示意图。
具体实施方式
下面结合具体实施方式对本发明作进一步的说明。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
实施例
如图1至20所示为本发明一种基于Canopy+Kmeans聚类的路网子区划分及其评估方法的实施例,路网子区划分方法以实时采集路段中心经纬度、路段平均速度、路段平均密度等为样本数据,具体步骤如下:
(1)进行数据预处理;采用基于“最小最大原则”的Canopy算法,确定若干个Canopy及Canopy中心点;
(2)在步骤(1)之后,进行Kmeans的二次聚类;采集步骤(1)中的Canopy中心点,Canopy的中心点个数为Kmeans算法的K值;
(3)在步骤(2)之后,分别计算各数据点到K个聚类中心点的欧氏距离,并将其划分到距离最小的聚类中,形成新的聚类;
(4)在步骤(3)之后,计算K个新聚类中各数据点的均值,并将该值作为新的聚类中心uk,其公式如下:
式中,rnk——是否属于第K类的系数,若xn属于在第K类的范围内,则rnk=1,否则rnk=0,rnk的公式如下:
(5)在步骤(4)之后,然后循环步骤(3)到(4),直到聚类中心不再变化;
(6)在步骤(5)之后,输出结果,得到K个聚类,根据K个聚类完成路网子区的划分。
其中,在步骤(1)中,确定若干个Canopy形成Canopy集合,具体步骤如下:
首先采集路网数据,形成路网数据集合X={xi|i=1,2,…,n},其中xi为路网中第i条路段的子区划分参数,xi={路段中心经度xi1,路段中心纬度xi2,路段平均速度xi3,路段平均密度xi4}。对于若其满足如下公式:
则,称xi为Canopy集合,Cj为Canopy中心点且
假设已知前m个Canopy中心点,则Distmin(i)表示第i个候选数据点xi与前m个Canopy中心点之间最小距离的最大者,其公式如下:
式中,——待确定的第i个Canopy中心点与前m个已确定的Canopy中心点的所有间距中最小距离。
另外,在步骤(1)中,确定Canopy中心点,具体步骤如下:
首先采集路网数据,形成路网数据集合X={xi|i=1,2,…,n},对于若其满足如下公式:
则称Cm为非Canopy候选中心点集合。
另外,本发明还提供一种应用基于Canopy+Kmeans聚类的路网子区划分方法的评估方法,采用浮动车数据FCD,估测路网MFD,对路网子区划分方法的划分结果进行合理性测试评估。
另外,采用浮动车数据FCD,估测路网MFD的公式如下:
式中:kw——利用浮动车数据估算的路网交通密度(veh/km);
qw——利用浮动车数据估算的路网交通流量(veh/h);
ρ——浮动车在路网中的覆盖率;
m′——采集周期T内记录的浮动车数;
n——路网中路段总数;
t′j——采集周期T内第j浮动车的行驶时间(s);
li——第i路段的长度(m);
T——采集周期(s);
d′j——采集周期T内第j辆车的行驶距离(m)。
其中,对路网子区划分方法的划分结果进行合理性测试评估的具体步骤如下:
(a)首先,绘制各子区MFD,并确定其拟合函数;利用MFD相关理论,绘制各子区的MFD,在MFD散点图上拟合曲线函数;
(b)其次,计算误差平方和SEE、确定系数R-Square;
计算散点与拟合函数之间的误差平方和SSE(Sum of Squaresfor Error)和确定系数R-Square,从而对路网子区MFD进行定量评价;
(c)最后,分析各子区的MFD拟合程度。
另外,在步骤(b)中,SSE是数据拟合值与数据实际值之间的偏差值,SSE的值越小,表示数据拟合值与数据实际值的偏差越小,其公式如下:
式中,yi——实际值;
——拟合值;
i,n——第i个数据,数据总数;
确定系数R-Square由回归平方和SSR(Sum of Squares for Regression)和总偏差平方和SST(Sum of Squares for Total)共同决定;
其中,总偏差平方和SST(Sum of Squares for Total)为每个实际值yi与平均值之差的平方和,反映了散点的总体波动情况,回归平方和SSR(Sum of Squares forRegression)为拟合值与均值之差的平方和,其公式如下:
从公式(9)可知,R-square的值在0-1之间,该值越接近1,表示曲线拟合的效果越合理。
其中,在步骤(c)中,采用SSE和R-square描述MFD的拟合程度;当SSE越小,R-square越接近1时,说明MFD的拟合程度越高,表现为MFD散点更加居中,散射性更低,图像更加清晰,易于确定路网的临界交通密度和最大交通流量,易于从宏观层面对路网进行交通状态判别,整个路网内部交通流密度更加均匀;相反,当SSE越大,R-square越小时,反映出MFD的拟合程度越差,表现为MFD散点比较分散,拟合曲线不明显,不易确定最大流量和临界交通密度,路网交通状态难以判断。
另外,Kmeans算法是一种基于距离的经典无监督学习聚类方法,它将数据集特征值距离方差接近的样本划分在一起,形成多个聚类,认为两个对象的距离越近,相似程度越高。该算法从n个数据对象中随机选择K个数据对象作为初始聚类中心,然后计算剩余数据对象到达K个聚类中心的距离,将剩余数据对象划分给距离最小的对应聚类,在重新计算每个所获新样本的聚类中所有数据对象的对均值,作为新聚类中心,不断重复这一过程直到均方差和最小为止。
假设有待分类任意数据点i和j,分别用p维数组表示:
i=[xi1,xi2,…,xip] (42)
j=[xj1,xj2,…,xjp] (13)
那么i,j两个数据点之间的距离d(i,j),可采用欧氏距离公式进行计算,其公式如下:
Kmeans算法以误差平方和(Sum of the Squared Error,SSE)为聚类目标,其公式如下:
对SSE求导,令其导数等于0,可求解出SSE最小时,对应的第K个聚类中心uk值,其计算步骤如下:
由此可见,各聚类中心的最佳质心就是聚类中各数据点的均值。
Kmeans算法的优点有:1)算法思路简单、运行速度快;2)对大数据集的计算效率较高,并且具有可伸缩性;3)时间复杂度较低,适合大规模数据集的数据挖掘。
但该算法存在以下缺点:
1)预先选定的K值难以估计;2)初始聚类中心是随机选择,每次运行可能出现不同的结果,若选择了不当初始值,所得的聚类结果可能不是最优聚类结果。
另外,Canopy算法是一种粗聚类算法,不需要事先指定K值,执行速度快,因此具有很大的实际应用价值。其主要思路是对于任意的数据集合V,预先随机选取1个数据对象为初始聚类中心,设定其两个同心区域半径T1、T2,采用粗糙距离计算方法计算数据集合中所有数据对象的相似性,按照各个数据对象的相似性把数据集合划分成若干可重叠的小数据集合(定义为Canopy),经过多次迭代计算后,最终可使得所有数据对象均落在Canopy覆盖的范围内,如图3所示。
针对Canopy区域半径T1、T2以及随机初始聚类中心点的问题,毛典辉(2012)等提出一种基于“最小最大原则”的Canopy优化选取方法,使Canopy算法的聚类准确率得到提高。
Canopy算法能够有效地克服Kmeans算法的缺点,但其存在精度低的缺点,可将上述两种算法结合起来,先使用基于“最小最大原则”的Canopy算法,将数据对象划分成若干个Canopy,然后在各个Canopy中使用Kmeans算法,计算同一Canopy中所有数据向量的距离。
具体的实施例如下:
以广州市天河区核心路网交叉口群作为仿真路网,搭建了基于Vissim仿真软件的车联网仿真平台,如图4所示。该路网包括8处立体交叉口、60余个平面交叉口,100余个出入口。
联网车覆盖率P从1-20%范围内,按1%递增,经过20次仿真验证,建立联网车覆盖率P与路网MFD参数的平均绝对相对误差(MAPE)之间的关系图,如图5所示。
对图中数据点进行函数拟合,得到联网车覆盖率P与路网加权交通流量的MAPE的拟合函数为y=0.0163x-0.522,相关系数R2=0.9968;联网车覆盖率P与路网加权交通密度的MAPE的拟合函数为y=0.019x-0.513,相关系数R2=0.9903。依据拟合函数,可计算得到MAPE在1%-5%内,对应的所需联网车最小覆盖率,如表1所示。
表1满足精度要求的联网车最小覆盖率
由表1可知,当联网车覆盖了达到42%时,路网的MFD估测精度可达到97%。因此,将联网车覆盖率设置为42%,每隔15秒读取一次每辆联网车的相关数据,选取数据统计周期为120s,仿真时间为32400s。将仿真结果的联网车数据文件(*.fzp)导入EXCEL文件中,利用VBA宏编程实现FCD估测法,最后得到270个路网加权交通流量qw、路网加权交通密度kw,绘制仿真路网的MFD,如图6所示。
以仿真时间、路网加权交通密度为原始数据,在Matlab软件中编程谱聚类算法,将路网仿真时间划分为低峰、平峰、高峰、过饱和等4个阶段,如图7所示。
依据图5,统计出车联网仿真平台仿真时段的划分结果,如表2所示。
表2车联网仿真平台仿真时段划分
以过饱和状态下的路网子区划分为例,分析过饱和状态下Kmeans算法、FCM算法和Canopy-Kmeans算法等3种聚类算法的路网子区划分结果。将仿真结果路段评价数据文件(*.str)导入EXCEL文件中,依据路段起讫点坐标计算路段中心点坐标,依据表2的时段划分结果,计算过饱和状态下的路段平均速度、路段平均密度。将过饱和状态下各路段的中心点X坐标,中心点Y坐标,平均速度,平均密度作为样本数据,在Matlab软件中分别编程实现Kmeans算法、FCM算法和Canopy-Kmeans算法,对路网进行子区划分,如图8至图10所示。
由图8至图10可知,整个路网划分成了4个子区,FCM算法与Kmeans算法的路网子区划分结果基本一致,少数路段归属子区不同,存在E4与E5之间的两条路段是归属子3,还是归属子区4,具有可比性。
Kmeans算法和Canopy-Kmeans算法的子区1、子区2、子区4所包含的路段略有差异,具有可比性,而子区3所包含的路段差异较大,不具备可比性。从表面上看,无法评价3种算法划分结果的优劣,需要采用基于MFD的路网子区划分定量评价方法做进一步的比较。
依据上述路网子区划分结果,筛选出各路网子区内的路段,如表3所示。
表3路网子区所包含路段情况
利用车联网仿真平台的仿真数据,按表3中各路网子区所包含的路段,采用FCD估测法,估测各路网子区的加权交通流量和加权交通密度,在Matlab软件中绘制路网子区的MFD,如图11至图20所示。
从上述3种算法各子区的MFD可以看出,MFD较好的反映了路网子区的交通状态变化。从子区MFD的图像变化来看,仅能对路网子区划分结果做定性评价,下面将采用基于MFD的路网子区划分定量评价方法,对上述子区划分结果做定量评价。对各子区的MFD进行一元三次函数拟合,整理得到过饱和状态下路网子区的MFD拟合函数表达式、SSE和R-square,如表4所示。
表4 Kmeans和Canopy-Kmeans的路网分区结果MFD拟合函数情况
由表4可知,采用3种聚类算法进行路网分区后,各路网子区MFD的SSE和R-square均优于整个路网MFD的SSE和R-square,3种算法的子区2和子区4的MFD拟合效果最好(R-square均超过0.9)。为了更加明显地对比Kmeans、FCM、Canopy-Kmeans等3种聚类算法的路网子区划分结果,依据SSE和R-square重新对表3进行组合,如表5、表6所示。
表5三种聚类算法下路网子区MFD拟合数据的SSE
表6三种聚类算法下路网子区MFD拟合数据的R-square
由表4和表5可知,FCM算法下路网子区(3、4)MFD的SSE和R-square均优于Kmeans算法,FCM算法与Kmeans算法的路网子区(1和2)MFD的SSE和R-square一致。采用Canopy-Kmeans算法后,子区1、子区2和子区4的路网MFD的SSE和R-square均优于FCM算法和Kmeans算法,子区3因路网差异较大,不具备可比性。由此可见,按分区结果定量评价指标从最优到次优进行排序,3种聚类算法的次序为:Canopy-Kmeans聚类算法→FCM聚类算法→Kmeans聚类算法。
综上所述,根据实证分析结果,得出以下结论:
(1)Kmeans、FCM、Canopy-Kmeans等3种聚类算法均把整个路网划分成了4个子区,FCM算法与Kmeans算法的路网子区划分结果基本一致,Kmeans算法和Canopy-Kmeans算法的子区1、子区2、子区4所包含的路段略有差异,仅从表面上看,无法评价3种算法划分结果的优劣。
(2)按分区结果定量评价指标(SSE和R-square)从最优到次优进行排序,3种聚类算法的次序为:Canopy-Kmeans聚类算法→FCM聚类算法→Kmeans聚类算法。
(3)需要说明的是,本实施例是以车联网仿真平台所得的仿真数据作为样本数据,未考虑交通事故、道路施工、天气等特殊情况对路网交通数据的影响,因此,在接下来的工作中,将利用实际路网交通数据对本算法进行验证分析。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (8)

1.一种基于Canopy+Kmeans聚类的路网子区划分方法,其特征在于,路网子区划分方法以实时采集路段中心经纬度、路段平均速度、路段平均密度为样本数据,具体步骤如下:
(1)进行数据预处理;采用基于“最小最大原则”的Canopy算法,确定若干个Canopy及Canopy中心点;
(2)在步骤(1)之后,进行Kmeans的二次聚类;采集步骤(1)中的Canopy中心点,以各Canopy中心点为K个聚类中心点;
(3)在步骤(2)之后,分别计算各数据点到K个聚类中心点的欧氏距离,并将其划分到距离最小的聚类中,形成新的聚类;
(4)在步骤(3)之后,计算K个新聚类中各数据点的均值,并将该值作为新的聚类中心uk,其公式如下:
式中,rnk——是否属于第K类的系数,若xn属于在第K类的范围内,则rnk=1,否则rnk=0,rnk的公式如下:
(5)在步骤(4)之后,然后循环步骤(3)到(4),直到聚类中心不再变化;
(6)在步骤(5)之后,输出结果,得到K个聚类,根据K个聚类完成路网子区的划分。
2.根据权利要求1所述的基于Canopy+Kmeans聚类的路网子区划分方法,其特征在于,在步骤(1)中,确定若干个Canopy形成Canopy集合,具体步骤如下:
采集路网数据,形成路网数据集合X={xi|i=1,2,…,n},其中xi为路网中第i条路段的子区划分参数,xi={路段中心经度xi1,路段中心纬度xi2,路段平均速度xi3,路段平均密度xi4};对于若其满足如下公式:
则,称xi为Canopy集合,Cj为Canopy中心点且假设已知前m个Canopy中心点,则Distmin(i)表示第i个候选数据点xi与前m个Canopy中心点之间最小距离的最大者,其公式如下:
式中,——待确定的第i个Canopy中心点与前m个已确定的Canopy中心点的所有间距中最小距离。
3.根据权利要求1所述的基于Canopy+Kmeans聚类的路网子区划分方法,其特征在于,在步骤(1)中,确定Canopy中心点,具体步骤如下:
采集路网数据,形成路网数据集合X={xi|i=1,2,…,n},对于若其满足如下公式:
则称Cm为非Canopy候选中心点集合。
4.一种对权利要求1至3任一项所述的基于Canopy+Kmeans聚类的路网子区划分方法的评估方法,其特征在于,采用浮动车数据FCD,估测路网的宏观基本图MFD,对路网子区划分方法的划分结果的合理性进行测试评估。
5.根据权利要求4所述的基于Canopy+Kmeans聚类的路网子区划分方法的评估方法,其特征在于,采用浮动车数据FCD,估测路网MFD的公式如下:
式中:kw——利用浮动车数据估算的路网交通密度(veh/km);
qw——利用浮动车数据估算的路网交通流量(veh/h);
ρ——浮动车在路网中的覆盖率;
m′——采集周期T内记录的浮动车数;
n——路网中路段总数;
t′j——采集周期T内第j浮动车的行驶时间(s);
li——第i路段的长度(m);
T——采集周期(s);
d′j——采集周期T内第j辆车的行驶距离(m)。
6.根据权利要求5所述的基于Canopy+Kmeans聚类的路网子区划分方法的评估方法,其特征在于,对路网子区划分方法的划分结果进行合理性测试评估的具体步骤如下:
(a)首先,绘制各子区MFD,并确定其拟合函数;利用估测路网MFD的相关理论,绘制各子区的MFD,在MFD散点图上拟合曲线函数;
(b)其次,计算误差平方和SEE、确定系数R-Square;
计算散点与拟合函数之间的误差平方和SSE和确定系数R-Square,从而对路网子区MFD进行定量评价;
(c)最后,分析各子区的MFD拟合程度。
7.根据权利要求6所述的基于Canopy+Kmeans聚类的路网子区划分方法的评估方法,其特征在于,在步骤(b)中,SSE是数据拟合值与数据实际值之间的偏差值,SSE的值越小,表示数据拟合值与数据实际值的偏差越小,其公式如下:
式中,yi——实际值;
——拟合值;
i,n——第i个数据,数据总数;
确定系数R-Square由回归平方和(Sum of Squares for Regression,SSR)和总偏差平方和(Sum of Squares for Total,SST)共同决定;
其中总偏差平方和SST为每个实际值yi与平均值之差的平方和,反映了散点的总体波动情况,回归平方和SSR为拟合值与均值之差的平方和,其公式如下:
从公式(9)可知,R-square的值在0-1之间,该值越接近1,表示曲线拟合的效果越合理。
8.根据权利要求7所述的基于Canopy+Kmeans聚类的路网子区划分方法的评估方法,其特征在于,在步骤(c)中,采用SSE和R-square描述MFD的拟合程度;当SSE越小,R-square越接近1时,说明MFD的拟合程度越高;相反,当SSE越大,R-square越小时,反映出MFD的拟合程度越差。
CN201910336084.9A 2019-04-24 2019-04-24 一种基于Canopy+Kmeans聚类的路网子区划分及其评估方法 Pending CN110232398A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910336084.9A CN110232398A (zh) 2019-04-24 2019-04-24 一种基于Canopy+Kmeans聚类的路网子区划分及其评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910336084.9A CN110232398A (zh) 2019-04-24 2019-04-24 一种基于Canopy+Kmeans聚类的路网子区划分及其评估方法

Publications (1)

Publication Number Publication Date
CN110232398A true CN110232398A (zh) 2019-09-13

Family

ID=67860257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910336084.9A Pending CN110232398A (zh) 2019-04-24 2019-04-24 一种基于Canopy+Kmeans聚类的路网子区划分及其评估方法

Country Status (1)

Country Link
CN (1) CN110232398A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675630A (zh) * 2019-10-08 2020-01-10 广东交通职业技术学院 一种联网车最小覆盖率确定方法
CN110874584A (zh) * 2019-11-21 2020-03-10 河北工业大学 一种基于改进原型聚类的叶片故障诊断方法
CN111160465A (zh) * 2019-12-30 2020-05-15 广东工业大学 一种面向宏观基本图的多模式交通路网分区方法
CN111860699A (zh) * 2020-08-26 2020-10-30 重庆大学 一种基于波动率的通勤出行模式识别方法
CN111966951A (zh) * 2020-07-06 2020-11-20 东南数字经济发展研究院 一种基于社交电商交易数据的用户群体阶层划分方法
CN112652161A (zh) * 2019-10-12 2021-04-13 阿里巴巴集团控股有限公司 一种车流路径分布信息的处理方法、装置、及电子设备
CN112767189A (zh) * 2020-11-10 2021-05-07 国网浙江杭州市余杭区供电有限公司 一种计及风电并网下电网灵活性评估方法
CN112950243A (zh) * 2019-12-10 2021-06-11 大唐移动通信设备有限公司 一种5g站址规划方法、装置、电子设备及存储介质
CN113537555A (zh) * 2021-06-03 2021-10-22 太原理工大学 一种考虑扰动的交通子区模型预测滑模边界控制方法
CN113642138A (zh) * 2021-08-16 2021-11-12 复旦大学 T-cps框架下耦合网络元素处理与存储的多层网络构建方法
CN113947905A (zh) * 2021-10-19 2022-01-18 交通运输部公路科学研究所 一种交通运行态势感知方法、模块及系统
CN114186146A (zh) * 2021-12-14 2022-03-15 武汉理工大学 带容量限制的网约车服务网点选址方法及系统
CN114964777A (zh) * 2022-05-11 2022-08-30 盐城工学院 一种滚动轴承故障检测方法
CN115687577A (zh) * 2023-01-04 2023-02-03 交通运输部公路科学研究所 一种道路运输常态化问题诉求发现方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240507A (zh) * 2014-09-18 2014-12-24 银江股份有限公司 一种基于多视角融合的交通小区划分方法
CN105095266A (zh) * 2014-05-08 2015-11-25 中国科学院声学研究所 一种基于Canopy算法的聚类优化方法及系统
CN108268876A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于聚类的近似重复记录的检测方法及装置
CN108320511A (zh) * 2018-03-30 2018-07-24 江苏智通交通科技有限公司 基于谱聚类的城市道路交通子区划分方法
CN109271421A (zh) * 2018-09-20 2019-01-25 重庆第二师范学院 一种基于MapReduce的大型数据集聚类方法
CN109308805A (zh) * 2018-08-20 2019-02-05 广东交通职业技术学院 一种基于自适应加权平均数据融合的路网mfd估测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095266A (zh) * 2014-05-08 2015-11-25 中国科学院声学研究所 一种基于Canopy算法的聚类优化方法及系统
CN104240507A (zh) * 2014-09-18 2014-12-24 银江股份有限公司 一种基于多视角融合的交通小区划分方法
CN108268876A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于聚类的近似重复记录的检测方法及装置
CN108320511A (zh) * 2018-03-30 2018-07-24 江苏智通交通科技有限公司 基于谱聚类的城市道路交通子区划分方法
CN109308805A (zh) * 2018-08-20 2019-02-05 广东交通职业技术学院 一种基于自适应加权平均数据融合的路网mfd估测方法
CN109271421A (zh) * 2018-09-20 2019-01-25 重庆第二师范学院 一种基于MapReduce的大型数据集聚类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
林晓辉等: "基于自适应加权平均的路网MFD估测融合方法", 《交通运输系统工程与信息》 *
毛典辉: "基于MapReduce的Canopy-Kmeans改进算法", 《计算机工程与应用》 *
王晓轩: "基于聚类的城市交通路网分区和交通状态判别", 《中国优秀硕士学位论文全文数据库 工程科技ǁ辑》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675630A (zh) * 2019-10-08 2020-01-10 广东交通职业技术学院 一种联网车最小覆盖率确定方法
CN112652161A (zh) * 2019-10-12 2021-04-13 阿里巴巴集团控股有限公司 一种车流路径分布信息的处理方法、装置、及电子设备
CN110874584A (zh) * 2019-11-21 2020-03-10 河北工业大学 一种基于改进原型聚类的叶片故障诊断方法
CN112950243A (zh) * 2019-12-10 2021-06-11 大唐移动通信设备有限公司 一种5g站址规划方法、装置、电子设备及存储介质
CN112950243B (zh) * 2019-12-10 2024-04-09 大唐移动通信设备有限公司 一种5g站址规划方法、装置、电子设备及存储介质
CN111160465A (zh) * 2019-12-30 2020-05-15 广东工业大学 一种面向宏观基本图的多模式交通路网分区方法
CN111160465B (zh) * 2019-12-30 2022-07-05 广东工业大学 一种面向宏观基本图的多模式交通路网分区方法
CN111966951A (zh) * 2020-07-06 2020-11-20 东南数字经济发展研究院 一种基于社交电商交易数据的用户群体阶层划分方法
CN111860699B (zh) * 2020-08-26 2021-04-13 重庆大学 一种基于波动率的通勤出行模式识别方法
CN111860699A (zh) * 2020-08-26 2020-10-30 重庆大学 一种基于波动率的通勤出行模式识别方法
CN112767189A (zh) * 2020-11-10 2021-05-07 国网浙江杭州市余杭区供电有限公司 一种计及风电并网下电网灵活性评估方法
CN112767189B (zh) * 2020-11-10 2022-07-19 国网浙江杭州市余杭区供电有限公司 一种计及风电并网下电网灵活性评估方法
CN113537555A (zh) * 2021-06-03 2021-10-22 太原理工大学 一种考虑扰动的交通子区模型预测滑模边界控制方法
CN113642138A (zh) * 2021-08-16 2021-11-12 复旦大学 T-cps框架下耦合网络元素处理与存储的多层网络构建方法
CN113642138B (zh) * 2021-08-16 2023-03-21 复旦大学 T-cps框架下耦合网络元素处理与存储的多层网络构建方法
CN113947905A (zh) * 2021-10-19 2022-01-18 交通运输部公路科学研究所 一种交通运行态势感知方法、模块及系统
CN114186146A (zh) * 2021-12-14 2022-03-15 武汉理工大学 带容量限制的网约车服务网点选址方法及系统
CN114964777A (zh) * 2022-05-11 2022-08-30 盐城工学院 一种滚动轴承故障检测方法
CN115687577A (zh) * 2023-01-04 2023-02-03 交通运输部公路科学研究所 一种道路运输常态化问题诉求发现方法及系统

Similar Documents

Publication Publication Date Title
CN110232398A (zh) 一种基于Canopy+Kmeans聚类的路网子区划分及其评估方法
CN109272170B (zh) 一种基于Louvain算法的交通小区划分系统
CN108961758A (zh) 一种基于梯度提升决策树的路口展宽车道探测方法
Lin et al. Road network partitioning method based on canopy-kmeans clustering algorithm
CN110413855B (zh) 一种基于出租车下客点的区域出入口动态提取方法
CN108648445A (zh) 基于交通大数据的动态交通态势预测方法
Yu et al. Passenger flow prediction for new line using region dividing and fuzzy boundary processing
CN110659774B (zh) 大数据方法驱动的停车需求预测方法
CN108898244A (zh) 一种耦合多源要素的数字标牌位置推荐方法
CN116485239A (zh) 一种针对城市绿道建设成效的综合评价系统和方法
CN113327079B (zh) 一种基于网约车轨迹的路径选择潜在因素可视分析方法
Demiryurek et al. Towards modeling the traffic data on road networks
Carpentieri et al. GIS-Based Spatial Analysis for the Integrated Transport-Land Use-Energy Planning: An Application to the Greater London
CN104463442B (zh) 一种城乡建设集聚性的探测方法
Zhang et al. Off-deployment traffic estimation—a traffic generative adversarial networks approach
Wang et al. Prediction of estimated time of arrival for multi-airport systems via “Bubble” mechanism
Qin et al. Spatiotemporal K-Nearest Neighbors Algorithm and Bayesian Approach for Estimating Urban Link Travel Time Distribution From Sparse GPS Trajectories
CN111008730B (zh) 基于城市空间结构的人群聚集度预测模型构建方法及装置
Peng et al. Predicting high taxi demand regions using social media check-ins
CN108764518B (zh) 一种基于物联网大数据的交通资源动态优化方法
Guler et al. Optimal location selection for electric vehicle charging stations using GIS
Dong et al. An identification model of urban critical links with macroscopic fundamental diagram theory
Abbas et al. Evaluation of the use of streaming graph processing algorithms for road congestion detection
CN110543535A (zh) 一种基于网约车检索请求数据的交通小区划分方法
Feng et al. Urban Traffic Congestion Identification Based on Adaptive Graph Convolutional Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190913