一种基于POI及流量特征的交通小区划分方法和系统
技术领域
本申请属于智能交通管理领域,具体涉及一种基于POI及流量特征的交通小区划分方法和系统。
背景技术
城市的发展逐渐形成了不同功能的区域,如教育区、商业区等,若能自动对城市不同区域的功能进行识别,就可以宏观把握城市特点,为城市规划部门提供决策支持。同时,具有不同功能的区域也可作为我们进一步进行流量分析的基本单元,忽略个体运动的随机性和波动性,进行区域级的流量统计与预测,可有效挖掘其背后的交通运动模式和规律。为了确定基于功能特性的交通小区,我们需要考虑到这些地区的POI和这些地区之间的人员流动性两个方面:
1)POI数据:一方面,POI可以揭示特定功能。例如,一个包含一些大学和学校的地区很有可能成为一个教育区域。另一方面,区域通常包含各种POI,从而具有复合功能而不是单个功能。一些城市可以作为一个城市的商业区和娱乐区。此外,POI数据的信息难以细致刻画建筑质量。例如,餐馆在城市无处不在,但是它们可以表示不同的功能。一些小餐馆只是为了满足当地居民的日常需要而建造的,而一些吸引很多人来的有名餐厅可能被视为娱乐区的特色。也就是说,两个共享相似POI分布的两个区域仍然可以有不同的功能。
2)人员流动:一个地区的职能与访问该地区的人的出行行为有很强的相关性。人类流动性有助于揭示一个地区功能的原因主要在于两个方面。一是人们出行的时间及地点。一般来说,在一个工作日,人们通常早上离开一个住宅区,晚上回来。然而,人们进入娱乐区的主要时间是工作日的傍晚或非工作日的整天。此外,不同功能的区域与人群流动性是相关的。例如,人们在工作区(工作日)和住宅区(非工作日)到达娱乐区有很高的可能性。因此,如果人们要去往类似的功能区(或者离开类似的功能区),则他们的起点(或终点)很可能就处于类似的功能区。
目前,存在一些对城市进行交通小区划分的方法,例如专利申请号为CN201810409886.3的文献公开了一种基于出租车上下客点空间聚类的交通小区中心点选取方法,该方法提出了基于出租车上下客点空间聚类的交通小区中心点选取,但其只考虑了流量特性,忽略了POI对于分析城市小区的重要影响,且通过聚类得到的小区边界很难匹配真实路网,所以该方法仅停留在给出小区中心点的层面上。
又如专利申请号为CN201711204504.5的文献公开了一种基于POI的城市交通需求预测方法,该方法以交通小区为单元集计各POI出行生成能力指数,包括出行发生相对量和出行吸引相对量,考虑到了POI对划分小区的影响,但又忽略了流量特性这一间接表征小区特性的重要因素。
当前交通小区划分的方法主要存在以下问题:
1)传统分析对象往往为点集——出租起讫点或POI点,缺点是:对特征点聚类得到的小区边界不具备明确的物理含义,往往会将一个路段划分到两个交通小区中,这明显违背常理,缺乏实际应用价值;
2)以出租起讫点为核心的分区算法,缺点是:起讫点只表征了流量特征,不能全面的反应小区功能特性;
3)以POI点为核心的分区算法,缺点是:POI点只表征了小区的建筑特征,不能全面的反应小区流量特性。
在城市人口快速增长的情况下,急需开发城市计算和分析工具来指导城市的有序发展。借助POI数据及人员流动特性进行基于功能特性的交通小区的划分,可以客观的了解城市构成,为城市规划部门把握城市发展动态、统计调控交通流量提供决策依据。
发明内容
本申请的目的在于提供一种基于POI及流量特征的交通小区划分方法和系统,以路网为单位划分交通小区,并且结合POI和流量特征,克服单一因素的影响,得到更具物理含义和实际价值的划分结果。
为实现上述目的,本申请所采取的技术方案为:
本申请提供一种基于POI及流量特征的交通小区划分方法,所述的基于POI及流量特征的交通小区划分方法用于对城市空间进行交通小区划分,包括以下步骤:
获取路网数据、POI数据以及出租车的轨迹数据,所述的路网数据包括:高速公路、城市快速路和城市主干路;
根据所述路网数据将所述城市空间划分为若干个基本单元,包括:根据高速公路、城市快速路和城市主干路的延伸自然地将城市空间划分为不同的基本单元;
以合并流量特性相近的基本单元和合并后得到的高层次区域间的流量具有可比性为目标,根据所述出租车的轨迹数据,采用图聚类算法将若干个基本单元合并为多个高层次区域;
根据所述POI数据和出租车的轨迹数据,采用基于DMR-LDA的主题模型算法得到各所述高层次区域的功能特征;
根据每个高层次区域的功能特征,采用K-means算法对所有高层次区域进行功能聚类,聚类得到针对于所述城市空间的K个交通小区,并根据各所述交通小区中的POI分布对每一交通小区进行功能标注;
其中,所述以合并流量特性相近的基本单元和合并后得到的高层次区域间的流量具有可比性为目标,根据所述出租车的轨迹数据,采用图聚类算法将若干个基本单元合并为多个高层次区域,包括:
设城市空间的空间区域图为G=(V,E,N,W);
其中,V为基本单元集合,V={v1,v2,v3,…,vp},vp表示基本单元,p表示基本单元的个数;
E为边集,E={(vi,vj)|vi和vj为在空间区域图中相邻的两个基本单元};
N为节点权重,第i个基本单元v
i的节点权重
其中
表示在时间t∈[0,n-1]中流入基本单元v
i的人群流量,
表示在时间t∈[0,n-1]中流出基本单元v
i的人群流量;
W为边缘权重,两个相邻的基本单元v
i和v
j的边缘权重为
并将
定义为一定时段内两相邻基本单元v
i和v
j的人群流量之间的相关系数;
利用基本单元在时间t∈[0,n-1]中的人群流量表示各基本单元,则根据所述空间区域图G可得第i个基本单元可表示为向量vi,
根据各基本单元的向量数据,采用Pearson相关系数算法计算得到每一组两相邻基本单元之间的相关系数;
设合并后得到m个高层次区域,且高层次区域的集合为R={u1,u2,u3,…,um},其中,每个高层次区域为相邻的若干个基本单元合并得到;
根据合并流量特性相近的基本单元的目标,设定边权最小化公式:
其中,R为高层次区域的集合,v
i和v
j为在空间区域图中相邻的两个基本单元,
为两相邻基本单元v
i和v
j的人群流量之间的相关系数;u
k和u
l为两个高层次区域;
根据合并后得到的高层次区域间的流量具有可比性的目标,设定集群平衡公式:
其中,v
i为第i个基本单元,u
j为第j个高层次区域,
为第i个基本单元v
i的节点权重,V为基本单元集合,m为高层次区域的个数,ζ为预设的不平衡系数,且ζ>0,R为高层次区域的集合;
根据上述两个目标的公式,将p个基本单元聚类得到m个高层次区域。
作为优选,所述根据每个高层次区域的功能特征,采用K-means算法对所有高层次区域进行功能聚类,聚类得到针对于所述城市空间的K个交通小区,并根据各所述交通小区中的POI分布对每一交通小区进行功能标注,包括:
设高层次区域r的功能特征为一个J维向量θr=(θr,1,θr,2,…,θr,J),其中θr,i表示高层次区域r在功能i中的比例,根据比例值将所有高层次区域划分为5~8个功能区;
利用聚类评价指标silhouette:
其中,a表示样本与同一功能区所有其他样本之间的平均距离,b表示样本与下一个距离最近的功能区中的所有其他样本之间的平均距离,样本为高层次区域的功能特征,即J维向量;
计算每种功能区个数下相应的silhouette指标,取使得silhouette指标值最大的功能区个数记为K,从而得到针对城市空间的K个交通小区,并根据各所述交通小区中的POI分布对每一交通小区进行功能标注。
本申请还提供一种基于POI及流量特征的交通小区划分系统,所述基于POI及流量特征的交通小区划分系统包括:
数据获取模块,用于获取路网数据、POI数据以及出租车的轨迹数据,所述的路网数据包括:高速公路、城市快速路和城市主干路;
路网划分模块,用于根据所述路网数据将所述城市空间划分为若干个基本单元,包括:根据高速公路、城市快速路和城市主干路的延伸自然地将城市空间划分为不同的基本单元;
单元合并模块,用于以合并流量特性相近的基本单元和合并后得到的高层次区域间的流量具有可比性为目标,根据所述出租车的轨迹数据,采用图聚类算法将若干个基本单元合并为多个高层次区域;
功能分析模块,用于根据所述POI数据和出租车的轨迹数据,采用基于DMR-LDA的主题模型算法得到各所述高层次区域的功能特征;
功能标注模块,用于根据每个高层次区域的功能特征,采用K-means算法对所有高层次区域进行功能聚类,聚类得到针对于所述城市空间的K个交通小区,并根据各所述交通小区中的POI分布对每一交通小区进行功能标注;
其中,所述单元合并模块以合并流量特性相近的基本单元和合并后得到的高层次区域间的流量具有可比性为目标,根据所述出租车的轨迹数据,采用图聚类算法将若干个基本单元合并为多个高层次区域,执行如下操作:
设城市空间的空间区域图为G=(V,E,N,W);
其中,V为基本单元集合,V={v1,v2,v3,…,vp},vp表示基本单元,p表示基本单元的个数;
E为边集,E={(vi,vj)|vi和vj为在空间区域图中相邻的两个基本单元};
N为节点权重,第i个基本单元v
i的节点权重
其中
表示在时间t∈[0,n-1]中流入基本单元v
i的人群流量,
表示在时间t∈[0,n-1]中流出基本单元v
i的人群流量;
W为边缘权重,两个相邻的基本单元v
i和v
j的边缘权重为
并将
定义为一定时段内两相邻基本单元v
i和v
j的人群流量之间的相关系数;
利用基本单元在时间t∈[0,n-1]中的人群流量表示各基本单元,则根据所述空间区域图G可得第i个基本单元可表示为向量vi,
根据各基本单元的向量数据,采用Pearson相关系数算法计算得到每一组两相邻基本单元之间的相关系数;
设合并后得到m个高层次区域,且高层次区域的集合为R={u1,u2,u3,…,um},其中,每个高层次区域为相邻的若干个基本单元合并得到;
根据合并流量特性相近的基本单元的目标,设定边权最小化公式:
其中,R为高层次区域的集合,v
i和v
j为在空间区域图中相邻的两个基本单元,
为两相邻基本单元v
i和v
j的人群流量之间的相关系数;u
k和u
l为两个高层次区域;
根据合并后得到的高层次区域间的流量具有可比性的目标,设定集群平衡公式:
其中,v
i为第i个基本单元,u
j为第j个高层次区域,
为第i个基本单元v
i的节点权重,V为基本单元集合,m为高层次区域的个数,ζ为预设的不平衡系数,且ζ>0,R为高层次区域的集合;
根据上述两个目标的公式,将p个基本单元聚类得到m个高层次区域。
作为优选,所述功能标注模块根据每个高层次区域的功能特征,采用K-means算法对所有高层次区域进行功能聚类,聚类得到针对于所述城市空间的K个交通小区,并根据各所述交通小区中的POI分布对每一交通小区进行功能标注,执行如下操作:
设高层次区域r的功能特征为一个J维向量θr=(θr,1,θr,2,…,θr,J),其中θr,i表示高层次区域r在功能i中的比例,根据比例值将所有高层次区域划分为5~8个功能区;
利用聚类评价指标silhouette:
其中,a表示样本与同一功能区所有其他样本之间的平均距离,b表示样本与下一个距离最近的功能区中的所有其他样本之间的平均距离,样本为高层次区域的功能特征,即J维向量;
计算每种功能区个数下相应的silhouette指标,取使得silhouette指标指最大的功能区个数记为K,从而得到针对城市空间的K个交通小区,并根据各所述交通小区中的POI分布对每一交通小区进行功能标注。
本申请还提供一种基于POI及流量特征的交通小区划分系统,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述的基于POI及流量特征的交通小区划分方法的步骤。
本申请提供的基于POI及流量特征的交通小区划分方法和系统,通过采集路网数据,将城市分割为若干个以路网为边界的基本单元,进而采用图聚类的方式将这些低层次的基本单元进一步聚合成高层次的区域,解决基本单元域数量过多,且含有无效流量数据的问题。接着,采用基于LDA和DMR的高级主题模型算法,结合POI和流量特征将交通小区划分的问题映射为主题挖掘的问题,克服了单一因素的影响。最后,根据主题模型分析出来的小区功能特性进行K均值聚类,完成交通小区域标定,得到更具物理含义和实际价值的划分结果。
附图说明
图1为本申请的基于POI及流量特征的交通小区划分方法的流程框图;
图2为本申请的路网道路分布的一种实施例示意图;
图3为以图2中的路网道路分布进行城市空间划分的一种实施例示意图;
图4为图3中矩形框内的基本单元的区域图;
图5为本申请中DMR-LDA的主题模型的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
其中一实施例中,提供了一种基于POI及流量特征的交通小区划分方法,所述的基于POI及流量特征的交通小区划分方法用于对城市空间进行交通小区划分。
如图1所示,基于POI及流量特征的交通小区划分方法包括以下步骤:
步骤1:获取路网数据、POI数据以及出租车的轨迹数据。
获取路网数据、POI数据以及出租车的轨迹数据时,可通过与相关部门或单位之间建立数据接口,直接获取上述数据;也可以通过第三方平台收集并整合得到上述数据。
在得到上述数据之后,还可以选择性的对上述原始数据进行清洗、筛选或纠错等处理,以提高基础数据的可靠性。
步骤2:根据所述路网数据将所述城市空间划分为若干个基本单元。
路网数据通常包括高速公路和城市道路,且城市道路一般分为快速路、主干路、次干路和支路。为了得到合理大小的基本单元,本实施例中采用的路网数据包括:高速公路、城市快速路和城市主干路。根据高速公路、城市快速路和城市主干路的延伸自然地将城市空间划分为不同的基本单元。
如图2所示,图中粗线表示某城市空间中高速公路和城市快速路的分布,细线表示某城市空间中城市主干路的分布,将各道路交叉形成的闭合区域作为不同的基本单元。
步骤3:采用图聚类算法将若干个基本单元合并为多个高层次区域。
为了得到较优的划分结果,首先建立以下两个划分目标:
(i)合并流量特性相近的基本单元;
(ii)合并后得到的高层次区域间的流量具有可比性。
在步骤2中使用路网数据将城市空间划分为若干个基本单元,得到如图3所示的基本单元,图中每一个闭合区域均作为一个独立的基本单元。很显然这些基本单元由于受到道路的约束,从而可以自然地捕捉到人类活动的分割,使最终的交通小区划分结果更具实际应用价值。
然而,由道路划分得到的闭合区域数量可能有很多,导致难以监测;此外,这些闭合区域的交通流量也有很大的变化:一方面,城市管理者决定如何在全市分配流量并不直接;另一方面,根据一个小区域的稀少数据,很难预测这个区域的人潮流动。因此需要将基本单元进行合并。
在进行基本单元合并时,设城市空间的空间区域图为G=(V,E,N,W)。
其中,V为基本单元集合,V={v1,v2,v3,…,vp},vp表示基本单元,p表示基本单元的个数。
E为边集,E={(vi,vj)|vi和vj为在空间区域图中相邻的两个基本单元}。
N为节点权重,第i个基本单元v
i的节点权重
其中
表示在时间t∈[0,n-1]中流入基本单元v
i的人群流量,
表示在时间t∈[0,n-1]中流出基本单元v
i的人群流量;人群流量根据出租车的轨迹数据得到。
W为边缘权重,两个相邻的基本单元v
i和v
j的边缘权重为
并将
定义为一定时段内两相邻基本单元v
i和v
j的人群流量之间的相关系数。
利用基本单元在时间t∈[0,n-1]中的人群流量表示各基本单元,则根据所述空间区域图G可得第i个基本单元可表示为向量vi,在图聚类的处理中,一个基本单元的数学抽象即为由时序流量构成的向量,故vi既表示第i个基本单元,又表示与第i个基本单元对应的向量:
根据各基本单元的向量数据,采用Pearson相关系数算法计算得到每一组两相邻基本单元之间的相关系数。
如图4所示,图中的每个节点表示一个基本单元,基本单元的大小则表示节点权重,若两基本单元共享一条边界路,则两节点之间形成一条边,且边缘宽度与边缘权重成比例。
设合并后得到m个高层次区域,且高层次区域的集合为R={u1,u2,u3,…,um},其中,每个高层次区域为相邻的若干个基本单元合并得到。
根据合并流量特性相近的基本单元的目标,设定边权最小化公式:
其中,R为高层次区域的集合,v
i和v
j为在空间区域图中相邻的两个基本单元,
为两相邻基本单元v
i和v
j的人群流量之间的相关系数;u
k和u
l为两个高层次区域。采用文字表述边权最小化公式即为:取遍所有高级区域对(u
k、u
l),计算每个区域对内,所有(遍历高级区域对内所有节点,形成边)边权W的总和。
根据合并后得到的高层次区域间的流量具有可比性的目标,设定集群平衡公式:
其中,v
i为第i个基本单元,u
j为第j个高层次区域,
为第i个基本单元v
i的节点权重,V为基本单元集合,m为高层次区域的个数,ζ为预设的不平衡系数,且ζ>0,R为高层次区域的集合。
根据上述两个目标的公式,将p个基本单元聚类得到m个高层次区域。
该步骤将低层次区域(基本单元)进一步集中为高层次区域,且这些高层次区域既可进行交通流量比较,也包含了具有相似人群流动模式(人群流动模式理解为基本单元在时间t中的人群流量,例如向量vi)的低级区域。其中第一个目标将高度相似的低层次区域组合在一起,第二个目标约束每个集合中的节点权重之和接近平均值。平衡集群之间的总流量,将有助于城市规划和流量管理。
步骤4:根据所述POI数据和出租车的轨迹数据,采用基于DMR-LDA的主题模型算法得到各所述高层次区域的功能特征。
将一个高层次区域视为一个文档,区域中的一个功能视为一个主题,因此具有多个功能的区域就类似于包含各种主题的文档。区域功能到文档主题的映射关系如表1所示。
表1从区域功能到文档主题的类比
区域 |
文档 |
区域的一个功能 |
一个文档的主题 |
人群流动模式 |
单词 |
POI条目 |
一个文档的元数据 |
一般情况下,传统的主题模型只能分析单一特征的影响,本实施例中采用基于LDA和Dirichlet多项式回归(DMR)的主题模型,给定的人群流动模式和POI数据条目特征,可得到每个区域的功能特征。
如图5所示,基于LDA和DMR的主题模型生成过程如下:
1)对于每一个区域主题k:
a、绘制特征参数分布λk~N(0,σ2);
b、绘制词分布βk~Dir(η);
其中N为具有σ作为超参数的高斯分布,Dir为具有η作为超参数的Dirichlet分布
2)给定的区域r:
b、绘制主题分布θr~Dir(αr);
c、对于第r个区域中的第n个移动模式mr,n:
c1、绘制主题编号zr,n~Mult(θr);
其中移动模式为利用观测到的人群流动模式拟合主题分布的超参数。
与基本的LDA主题模型不同,本实施例中基于每个区域的观察到的POI特征,将Dirichlet先验α指定给各个区域(αr)。因此,对于POI类别分布的不同组合,所得到的α值是不同的。不难发现,上述过程导致区域主题分布由POI特征和移动模式两者引发。因此,上述模型可以兼顾人群流动模式和POI分布特征,突破了传统主题模型局限于单一特征的限制。
步骤5:根据每个高层次区域的功能特征,采用K-means算法对所有高层次区域进行功能聚类,聚类得到针对于所述城市空间的K个交通小区,并根据各所述交通小区中的POI分布对每一交通小区进行功能标注。
该步骤主要通过执行聚类算法以聚合类似功能的区域。具体地,在一实施例中,采用K-means对功能特征聚类,标注交通小区的功能,包括:
对于每一个高层次区域,在步骤4执行之后,即通过基于DMR-LDA的主题模型算法得到的功能特征为一个J维向量θ=(θ1,θ2,…,θJ)。
设高层次区域r的功能特征为一个J维向量θr=(θr,1,θr,2,…,θr,J),其中θr,i表示高层次区域r在功能(主题)i中的比例,根据比例值将所有高层次区域划分为5~8个功能区。
在此基础上,利用聚类评价指标silhouette:
其中,a表示样本与同一功能区所有其他样本之间的平均距离,b表示样本与下一个距离最近的功能区中的所有其他样本之间的平均距离,样本为高层次区域的功能特征,即J维向量;
在聚类评价指标计算时,遍历所有有可能的功能区个数,计算每种功能区个数下相应的silhouette指标,取使得silhouette指标值最大的功能区个数记为K,从而得到针对城市空间的K个交通小区。其中Silhouette指标越大意味着划分得到的同一个区域功能特性相近,而不同区域功能特性差别明显,因而也意味着相应的划分方法更优秀。
为了了解各交替小区的真实功能,我们要进行区域标注,根据各所述交通小区中的POI分布,并结合实际经验给出其最可能的区域属性,对每一交通小区进行功能标注。区域属性或功能例如商业区、住宅区或娱乐区等。
需要说明的是,本实施例进行功能特征聚类时采用K-means算法本身为现有技术,对K-means算法本身不再进行过多的赘述。
在一实施例中,提供了一种基于POI及流量特征的交通小区划分系统,所述基于POI及流量特征的交通小区划分系统包括:
数据获取模块,用于获取路网数据、POI数据以及出租车的轨迹数据;
路网划分模块,用于根据所述路网数据将所述城市空间划分为若干个基本单元;
单元合并模块,用于以合并流量特性相近的基本单元和合并后得到的高层次区域间的流量具有可比性为目标,根据所述出租车的轨迹数据,采用图聚类算法将若干个基本单元合并为多个高层次区域;
功能分析模块,用于根据所述POI数据和出租车的轨迹数据,采用基于DMR-LDA的主题模型算法得到各所述高层次区域的功能特征;
功能标注模块,用于根据每个高层次区域的功能特征,采用K-means算法对所有高层次区域进行功能聚类,聚类得到针对于所述城市空间的K个交通小区,并根据各所述交通小区中的POI分布对每一交通小区进行功能标注。
关于基于POI及流量特征的交通小区划分系统的具体限定可以参见上文中对于基于POI及流量特征的交通小区划分方法的限定,在此不再赘述。
在一个实施例中,提供了一种计算机设备,即一种基于POI及流量特征的交通小区划分系统,该计算机设备可以是终端,其内部结构可以包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述基于POI及流量特征的交通小区划分方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本实施例的基于POI及流量特征的交通小区划分系统,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述的基于POI及流量特征的交通小区划分方法的步骤。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。