CN109686091A

CN109686091A - 一种基于多源数据融合的交通流量填补算法

Info

Publication number: CN109686091A
Application number: CN201910044570.3A
Authority: CN
Inventors: 王璞; 赖积宇
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2019-04-26
Anticipated expiration: 2039-01-17
Also published as: CN109686091B

Abstract

本发明公开了一种基于多源数据融合的交通流量填补算法，首先，利用手机信令数据获取城市居民的出行OD信息；利用卡口记录得到卡口对应路段在不同时段的车辆观测流量值；然后，将选定区域分为N块小区域，基于具有车辆观测流量值的路段，建立最优化目标函数，以求解所有区域之间的OD扩样系数矩阵α_t；再利用遗传算法求解最优化目标函数，得到α_t的最优解；最后基于α_t的最优解计算扩样后的OD矩阵，并将扩样后的OD矩阵分配至城市路网上，得到各个路段各时段的车辆仿真流量值；对于不具有车辆观测流量值的路段，将车辆仿真流量值作为其t时段的填补流量。本发明能得到精度和广度并存的较为真实的填补流量数据。

Description

一种基于多源数据融合的交通流量填补算法

技术领域

本发明涉及一种基于多源数据融合的交通流量填补算法。

背景技术

在城市道路交通状况分析中，道路交通流量是一个重要指标，是准确地进行后续分析、控制和诱导的基础。传统城市道路交通流量的获取方法主要是通过环形线圈检测器或视频检测器来实现，其具有精确度较高的优点，但由于投入成本高，导致获取的数据量较小，在城市路网中诸多道路无法覆盖。手机信令数据是一种覆盖范围较为宽广的城市居民活动行为活动数据，其具有广度较高的优点，但由于手机信令数据是城市居民活动所产生的数据，不能直接作为交通流量数据进行填补。城市道路交通研究中对交通流量分布的精度和广度都有一定的要求，交通流量数据的精度和广度影响着城市交通决策的结果，但通过上述数据特征的表述，可以发现，单种数据的优势部分有限，且同时受投入成本、硬件设施等方面条件的限制。

综上所述，目前城市交通流量的获取方法仍然存在不足，或数据覆盖范围较少，难以获取广度高的数据；或数据中存在噪声等成分过高，难以获取精度高的数据。由此可见，提供一种结合多源数据、充分利用不同数据的特性获取同时具有精度和广度的交通流量填补算法，对智能交通中的交通规划、交通组织、交通管理与控制与交通安全都具有很高的实际价值。

发明内容

本发明所解决的技术问题是，针对现有数据的不足，提出一种基于多源数据融合的交通流量填补算法，通过融合手机信令数据、浮动车GPS数据和卡口数据对城市路网中的道路交通流量进行填补工作，数据获取便利，具有实时性和较高的精度和广度，适用于城市道路交通研究和后续政策的制定。

一种基于多源数据融合的交通流量填补算法，包括以下步骤：

步骤一：利用手机信令数据获取城市居民的出行OD(起止点)信息，每个出行OD包含两个维度的信息，第1个维度为出行的起始节点，第2个维度为出行的终止节点；

步骤二：利用卡口记录得到卡口对应路段在不同时段的车辆观测流量值；

步骤三：将选定区域分为N块小区域(区域数量N为经验参数，根据实际情况确定，针对路网复杂的区域可以增大取值，路网简单的区域可以减小取值)，基于选定区域内具有车辆观测流量值的路段，建立最优化目标函数，计算各区域之间的分段OD扩样系数：

其中，f是目标函数值，Z是适应度，是路段k在t时段的车辆观测流量值，是路段k在t时段的车辆仿真流量值；是通过仿真方法将OD_t分配至城市路网上得到的，k＝1，2，...，K，K为选定区域内具有车辆观测流量值的路段的个数；OD_t为t时段校正后的OD矩阵，all-OD_ij，t为t时段以区域i中节点为出行的起始节点，区域j中节点为出行的终止节点的OD矩阵；α_ij，t为t时段区域i到区域j的OD扩样系数，最终生成t时段的扩样系数共有N²个；α_ij，t，i，j＝1，2，…，N构成一个N×N的扩样系数矩阵α_t；

步骤四：利用遗传算法求解最优化目标函数，得到α_t的全局最优结果；

步骤五：计算α_t取全局最优结果时的OD_t，记为通过仿真方法将分配至城市路网上，得到各个路段在t时段的车辆仿真流量值；

对于选定区域内不具有车辆观测流量值的路段，将该步骤中计算得到的车辆仿真流量值作为其t时段的流量值，填补于其路段信息中。

进一步地，所述的步骤一中，利用手机信令数据获取城市居民的出行OD信息，具体步骤如下：

1.1)对基站记录的手机用户的手机信令数据进行清洗处理，即删除错误(比如记录的时间错误，在某一天的数据中混杂的不属于当天的数据)或数据项缺失(比如每一个数据包括时间、基站两项信息，若某一个数据只有时间项，没有基站项，则存在数据项缺失)等数据；

1.2)对于每个手机用户，基于其手机信令数据，获取其出行轨迹，并结合手机信令数据中的时间信息判断手机用户的停留位置，基于停留位置将其出行轨迹将划分成连续的OD，得到基站OD信息；

1.3)结合基站和城市路网中节点对应关系，将基站OD信息转换为节点OD信息，并将节点OD信息作为城市居民的出行OD信息。

进一步地，在所述的步骤1.1)中，若连续6次记录某一手机用户数据的基站为同一基站，则将该基站位置作为该手机用户的停留位置；设用户第i和i+1个停留位置分别为和若和之间的距离则将和划分成一次出行，即形成一个基站OD；否则认为和是“乒乓现象”引起位置移动，不能划分为一次出行。通过设立的原则来排除由于为用户的手机提供服务的基站位置变化造成的“乒乓现象”。

进一步地，所述步骤四中，仿真方法采用增量分配法。

进一步地，计算浮动车在城市路网中各路段不同时段的平均速度，用于增量分配法分配OD_t时，计算路段路阻的初始值；

计算浮动车在城市路网中各路段不同时段的平均速度包括以下步骤：

1)获取浮动车GPS数据记录，并筛选出载客状态的浮动车GPS数据记录；

浮动车GPS数据中每个轨迹点为一个三维向量，第1个分量为UTC时间(世界协调时间)，第2个分量为浮动车所在位置的经度，第3个分量为浮动车所在位置的纬度；浮动车GPS数据中包含载客状态信息；由于本算法主要为针对人类出行活动中的机动车出行活动，而出租车若非载客状态时，可能按照某些固定路线(为拉客)行驶，而载客状态时才展示的是人类出行活动时的正常出行路线，因此本发明筛选出载客状态的浮动车GPS数据进行计算，结果更为准确。

2)在筛选出的数据记录中，将连续的数据记录作为一次出行，其中连续的数据记录根据数据记录条数、相邻数据记录时间差、相邻数据记录直线距离进行判断；

3)从所有出行中根据出行距离、出行时间、出行速度进行筛选，得到有效出行；其中出行距离是指该出行的第一个和最后一个轨迹点之间的直线距离，出行时间是指该出行的第一个和最后一个轨迹点之间的时间差，出行速度是指该出行的出行距离/出行时间；

4)将有效出行中的轨迹点通过ST-Matching地图匹配方法分配至城市路网上，以此为根据，计算浮动车在城市路网中各路段不同时段的平均速度。

进一步地，连续的数据记录的判定条件为：连续3条以上数据记录、相邻数据记录时间差小于35秒、相邻记录记录直线距离小于1500m。

进一步地，有效出行的判定条件为：0.5km＜出行距离＜32km，3min＜出行时间＜60min，出行速度0.5km/h＜Speed＜120km/h。

进一步地，浮动车在城市路网中第r个路段t时段的平均速度的计算公式为：

其中，为由t时段第i个匹配在路段r上的轨迹点对计算的平均速度，将轨迹点对匹配到路段上的真实行驶路径长度除以该轨迹点对之间的时间差，得到相应的平均速度；n_r，t为t时段匹配在路段r上的浮动车GPS数据点对的个数。

进一步地，在所述的步骤二中，利用DBSCAN聚类算法对多天内同一时段卡口记录的交通流量数据进行聚类，去除异常流量值，其中，聚类获得的最大团簇中包含的点被视为正常值，其余点视为异常值；若最大团簇中包含点个数小于记录流量天数的50％，则视为该卡口检测器硬件发生异常，不采用该卡口检测器记录的交通流量。

进一步地，所述步骤四具体包括以下步骤：

2.1)初始化：设置进化代数计数器g＝0，随机生成n个个体作为初始群体，每一个个体为一个扩样系数矩阵α_t，矩阵元素α_ij，t在[0,1]的范围内随机生成；设置遗传代数为N_g，收敛精度为Q；

2.2)个体选择：计算出第g代中种群中第q个个体被选择的概率其中Z_g(q)表示第g代种群中第q个个体的适应度，即将该个体中的元素代入最优化目标函数，得到的适应度值；根据不同个体被选中的概率连续对第g代种群中的个体重复进行n轮挑选，得到n个新的个体；

2.3)个体的交叉与变异：

将步骤2.2)得到的n个个体进行随机两两配对，取固定交叉概率p_c进行交叉操作；若某组个体需要进行交叉，则在该组个体的所有元素中随机产生一个交叉点，将该组个体交叉点之后的元素相互交换，产生两个新的个体；若某组个体不需要进行交叉，则该组个体保持不变；

取固定的变异概率p_m进行变异操作，对交叉操作后的n个个体依次进行选择，同时对每个个体的所有元素进行遍历，若某个元素需要变异，则在[0,1]的范围内随机改变该元素的取值；

由此得到了经遗传过后的n个个体，构成第g+1代种群；

其中交叉概率p_c和变异概率p_m，分别按照以下公式计算：

其中，p_c1是第g代种群中适应度值小于平均适应度值的个体的交叉概率，p_c2表示第g代种群中具有最大适应度值的个体的交叉概率，F_max为第g代种群所有个体的最大适应度值，F_ave为第g代种群所有个体的平均适应度值，F^*是进行交叉的两个个体中较大的适应度值；p_m1是第g代种群中适应度值小于平均适应度值的个体的变异概率，p_m2是第g代种群中中具有最大适应度值的个体的变异概率，F′是进行变异的个体的适应度值；p_c1、p_c2、p_m1、p_m2为经验参数(可通过多次实验调整获得)；

2.4)计算第g+1代种群中各个个体的适应度，得到第g+1代种群所有个体的最大适应度，即第g+1代种群对应的目标函数值f；

2.5)算法终止条件判断；

收敛性判断：将第g+1代和第g代种群所对应的目标函数值f进行对比，若差值小于精度Q，则认为满足收敛性，算法终止，将第g+1代种群中具有最大适应度的个体作为α_t的全局最优结果；

遗传代数判断：若当前遗传代数g＝N_g，则算法终止，将这N_g代种群中具有最大适应度的个体作为α_t的全局最优结果；

若不满足上述算法终止条件，则令遗传代数g＝g+1，返回到步骤2.2)循环进行操作。

有益效果：

本发明能够充分利用数量少但精度高的卡口记录信息、数量大且覆盖范围广的手机信令数据，将两种数据融合，获取动态的全路网流量，对无卡口流量数据的路段进行流量数据填补。

附图说明

图1为本发明流程示意图；

图2为梅林关区域早高峰时期平均速度分布图；

图3为梅林关区域分割示意图；

图4为8：00-8：30扩样系数矩阵。

具体实施方式

下面结合附图和具体实施实例对本发明作进一步详细描述，但不作为本发明的限定。

本文中使用的手机信令数据来自中国深圳2012年某日00：05至23：35，共587,286,499条信令数据；浮动车GPS数据为中国深圳2016年8月15日至22日数据，记录包含记录点经度坐标，纬度坐标和时间标签信息，数据记录总数为718,452,264条，浮动车总数为28,290辆；卡口数据为中国深圳2016年8月15日至8月28日的数据，共计14天。本发明具体实施包括以下步骤：

步骤一：对手机信令数据进行城市居民出行OD的提取工作，对数据进行清洗，其中数据有效率为95.32％，共16,300,083位用户。具体步骤如下：

步骤1：对手机信令数据进行筛选处理，获取城市居民出行轨迹，考虑到出行轨迹需要将信令数据划分为连续出行，并且基站之间覆盖范围的交错可能造成“乒乓效应”，故定义连续6次记录同一手机用户数据的基站为同一基站时，该基站位置为该手机用户的停留位置，设用户第i和i+1个停留位置分别为和若和之间的距离则将和划分成一次出行，即形成一个OD对；否则认为和是“乒乓现象”引起位置移动，不能划分为一次出行。通过设立的原则来排除由于为用户的手机提供服务的基站位置变化造成的“乒乓效应”；

步骤2：根据基站的覆盖范围将研究区域划分为泰森多边形，记录每个泰森多边形中的主要节点，生成城市道路网节点和基站对应关系，将用户的具体节点位置定义为用户所在基站的泰森多边形范围内的随机一节点，将基站到基站的OD转换为节点到节点的OD，获取手机信令数据所得到的城市居民出行OD；

步骤二：浮动车GPS数据记录总数为718,452,264条，载客状态的浮动车GPS数据为202,391,745条；浮动车总数为28,290辆，其中有载客状态记录的车辆8,168辆。

步骤1：将连续的载客记录作为一次出行，其判定条件为：连续3条以上记录、相邻记录时间差小于35秒、相邻记录直线距离小于1500m。

步骤2：筛选出有效出行，对所有出行用以下条件进行筛选：0.5km＜出行距离Distance＜32km；3min＜出行时间Time＜60min；出行速度0.5km/h＜Speed＜120km/h。通过筛选一共获得了3446,107次有效出行。

步骤3：ST-Matching地图匹配算法是一种适用于低采样率的地图匹配算法，利用该地图匹配算法将有效出行中的轨迹点匹配到城市道路网络上，并计算浮动车在城市路网中各路段不同时段的平均速度；算法具体步骤如下所示：

3.1)输入出租车一次有效出行的轨迹trajectory和深圳市路网信息；

3.2)将深圳市路网划分为10*10的区域范围；

3.3)将路网划分为小区域后，将在同一小区域内的出行轨迹信息进行路段匹配，将轨迹点利用距离为依据匹配到侯选边上，获得轨迹匹配的路径；

3.4)计算路段速度：针对匹配好的路径，计算同一路段上轨迹点A与轨迹点B之间的距离和时间差，利用公式speed＝distance(gpsA，gpsB)/time计算速度值，并对路段上所有速度值取平均值，将平均值作为路段速度；

3.5)输出匹配路径信息和路段平均速度。

步骤三：利用增量分配法将步骤一中获得的节点出行OD分配到城市道路网上，得到各个路段的仿真流量和仿真的出行路径。将获取的节点OD数据分为4份，分别占比例为40％、35％、20％、15％，分4次将OD数据分配到深圳路网中，在分配过程中采用的是A-Star最短路径算法，每次分配时都应根据上一次分配结果重新计算路段的权重和路阻，并重新计算最短路径，再进行下一次流量的分配，经过4次分配后获得OD的路径信息和经过路段的仿真流量；

本实施例中采用BPR路阻函数更新路阻，即各路段的行驶时间，其中t_a为更新后的路阻，t₀为更新前的路阻，q_a为路段a的交通流量，c_a为路段a的交通容量，α和β为两个参数值。最终通过4次分配的增量分配法得出路段的分配流量。

步骤四：卡口数据在14天的检测中一共5,287,649辆计数数据，定义出现天数大于等于2天的车辆为常用车辆，共287万辆；将卡口检测器与记录路段匹配，其中包括卡口检测的路口及方向，以此作为该路段在该方向上的观测流量。

由于卡口可能因为硬件或其他外部因素造成故障，因而产生一些异常数据，为了去除这些异常数据，本文中采用DBSCAN方法进行聚类，以去除异常数据；聚类获得的最大团簇中包含的点被视为正常值，其余点视为异常值；若最大团簇中包含点个数小于记录流量天数的50％，则视为该卡口检测器硬件发生异常，不采用该卡口检测器记录的交通流量。

DBSCAN聚类算法所需主要的主要参数有两个：一个参数是半径(Eps)，表示以给定点A(在本发明中，A表示流量)为中心的圆形邻域的范围；另一个参数是以点A为中心的圆形邻域内最少点的数量(MinAts)。如果满足：以点A为中心、半径为Eps的邻域内的点的个数不少于MinAts，则称点P为核心点。

将卡口在多天同一个时段记录的流量数据记为数据集A＝{a(i)；i＝1，...n}，其中a(i)表示该卡口在第i天该时段的流量；对于每一个点a(i)，计算点a(i)到集合A的子集B＝{a(1)，a(2)，...，a(i-1)，a(i+1)，...，a(n)}中所有点之间的距离，距离按照从小到大的顺序排序，得到排序后的距离集合为D＝{d(1)，d(2)，…，d(k-1)，d(k)，d(k+1)，…，d(n-1)}，其中d(k)称为k-距离，k-距离是点a(i)到除了a(i)点以外的所有点之间距离中第k近的距离；

根据经验确定k-距离中k的值，从而确定最少点的数量MinAts；本实施例中取k＝4，则MinAts＝4；

对待聚类集合中每个点a(i)都计算k-距离，最后得到所有点的k-距离集合E＝{e(1),e(2),…,e(n)}。

根据得到的所有点的k-距离集合E，对集合E进行升序排序后得到k-距离集合E’，拟合一条E’集合中k-距离的变化曲线图，变化曲线图中，x轴坐标点直接使用递增的自然数序列，每个点对应一个自然数，y轴坐标点为E’集合中k-距离；选用变化曲线图中的最速递增点作为流量半径Eps，斜率最大的两点的对应的k-距离的平均即为最速递增点；

根据给定MinAts的值，以及半径Eps的值，计算所有核心点；根据得到的核心点集合，以及半径Eps的值，计算能够连通的核心点；将能够连通的每一组核心点，以及到核心点距离小于半径Eps的点，都放到一起，形成一个簇；由此聚类得到一组簇；

本发明利用该种基于密度的异常值检测方法，能够有效的抵抗异常值(“噪声”)的干扰。本实施例中，得到卡口记录数据的有效率为72％。

步骤五：对选定区域进行分块工作，如图2所示，将梅林关区域作为研究区域，将该区域分为4*4的16块小区域，以起始点和终止点的位置所在区块为依据，计算各时段各区块之间的OD扩样系数α_ij，t，最终生成的每个时段扩样系数共有256个；最优化问题可以作以下描述：

其中，f是目标函数值，Z是适应度，是路段k在t时段的车辆观测流量值，是路段k在t时段的车辆仿真流量值；是通过仿真方法将OD_t分配至城市路网上得到的，k＝1，2，...，K，K为选定区域内具有车辆观测流量值的路段的个数；OD_t为t时段校正后的OD矩阵，all-OD_ij，t为t时段以区域i中节点为出行的起始节点，区域j中节点为出行的终止节点的OD矩阵(由手机信令数据得到)；最后通过遗传算法进行最优化问题的求解，具体步骤如下：

2.1)初始化：设置进化代数计数器g＝0，随机生成n个个体作为初始群体，每一个个体为一个扩样系数矩阵α_t，矩阵元素α_ij，t在[0,1]的范围内随机生成；设置遗传代数为N_g(本实施例中取为800)，收敛精度为Q(本实施例中取为0.01)；

2.3)个体的交叉与变异：

由此得到了经遗传过后的n个个体，构成第g+1代种群；

其中交叉概率p_c和变异概率p_m，分别按照以下公式计算：

其中，p_c1是第g代种群中适应度值小于平均适应度值的个体的交叉概率，p_c2表示第g代种群中具有最大适应度值的个体的交叉概率，F_max为第g代种群所有个体的最大适应度值，F_ave为第g代种群所有个体的平均适应度值，F^*是进行交叉的两个个体中较大的适应度值；p_m1是第g代种群中适应度值小于平均适应度值的个体的变异概率，p_m2是第g代种群中中具有最大适应度值的个体的变异概率，F′是进行变异的个体的适应度值；p_c1、p_c2、p_m1、p_m2为经验参数(可通过多次实验调整获得)；本实施例中p_c1取0.9，p_m1取0.1，p_c2和p_m2分别取两组值，p_c2＝0.6和p_m2＝0.001或p_c2＝0.5和p_m2＝0.05。

2.5)算法终止条件判断；

最终得出结果为t时段的扩样系数矩阵α_t，如图4所示为8：00-8：30的扩样系数矩阵。

对于选定区域内不具有车辆观测流量值的路段，将该步骤中计算得到的车辆仿真流量值作为其t时段的流量值，由此得到精度和广度并存的较为真实的填补流量数据，填补于其路段信息中。

与传统的交通流量获取方式有所不同，通过扩样系数计算后得出的填补流量，其实是针对区域间出行的特性来进行校正全区域的路段流量，本发明充分利用手机信令数据的广度与获取便利性、卡口数据精确性，实施简单，具有实时性，有利于在城市路网中开展交通流量填补的工作。

Claims

1.一种基于多源数据融合的交通流量填补算法，其特征在于，包括以下步骤：

步骤一：利用手机信令数据获取城市居民的出行OD信息，每个出行OD包含两个维度的信息，第1个维度为出行的起始节点，第2个维度为出行的终止节点；

步骤三：将选定区域分为N块小区域，基于选定区域内具有车辆观测流量值的路段，建立最优化目标函数，计算各区域之间的分段OD扩样系数：

其中，f是目标函数值，Z是适应度，是路段k在t时段的车辆观测流量值，是路段k在t时段的车辆仿真流量值；是通过仿真方法将OD_t分配至城市路网上得到的，k＝1，2，...，K，K为选定区域内具有车辆观测流量值的路段的个数；OD_t为t时段校正后的OD矩阵，all-OD_ij，t为t时段以区域i中节点为出行的起始节点，区域j中节点为出行的终止节点的OD矩阵；α_ij，t为t时段区域i到区域j的OD扩样系数，最终生成t时段的扩样系数共有N²个；α_ij，t，i，j＝1，2，...，N构成一个N×N的扩样系数矩阵α_t；

2.根据权利要求1所述的基于多源数据融合的交通流量填补算法，其特征在于，所述步骤一中，利用手机信令数据获取城市居民的出行OD信息，具体步骤如下：

1.1)对基站记录的手机用户的手机信令数据进行清洗处理；

3.根据权利要求2所述的基于多源数据融合的交通流量填补算法，其特征在于，所述步骤1.1)中，若连续6次记录某一手机用户数据的基站为同一基站，则将该基站位置作为该手机用户的停留位置；设用户第i和i+1个停留位置分别为和若和之间的距离则将和划分成一次出行，即形成一个基站OD；否则认为和是“乒乓现象”引起位置移动，不划分为一次出行。

4.根据权利要求2所述的基于多源数据融合的交通流量填补算法，其特征在于，所述步骤四中，仿真方法采用增量分配法。

5.根据权利要求4所述的基于多源数据融合的交通流量填补算法，其特征在于，计算浮动车在城市路网中各路段不同时段的平均速度，用于增量分配法分配OD_t时，计算路段路阻的初始值；

3)从所有出行中根据出行距离、出行时间、出行速度进行筛选，得到有效出行；

6.根据权利要求5所述的基于多源数据融合的交通流量填补算法，其特征在于，连续的数据记录的判定条件为：连续3条以上数据记录、相邻数据记录时间差小于35秒、相邻记录记录直线距离小于1500m。

7.根据权利要求5所述的基于多源数据融合的交通流量填补算法，其特征在于，有效出行的判定条件为：0.5km＜出行距离＜32km，3min＜出行时间＜60min，出行速度0.5km/h＜Speed＜120km/h。

8.根据权利要求5所述的基于多源数据融合的交通流量填补算法，其特征在于，浮动车在城市路网中第r个路段t时段的平均速度的计算公式为：

9.根据权利要求5所述的基于多源数据融合的交通流量填补算法，其特征在于，所述步骤二中，利用DBSCAN聚类算法对多天内同一时段卡口记录的交通流量数据进行聚类，去除异常流量值，其中，聚类获得的最大团簇中包含的点被视为正常值，其余点视为异常值；若最大团簇中包含点个数小于记录流量天数的50％，则视为该卡口检测器硬件发生异常，不采用该卡口检测器记录的交通流量。

10.根据权利要求1～9中任一项所述的基于多源数据融合的交通流量填补算法，其特征在于，所述步骤四具体包括以下步骤：

2.3)个体的交叉与变异：

由此得到了经遗传过后的n个个体，构成第g+1代种群；

其中交叉概率p_c和变异概率p_m，分别按照以下公式计算：

2.5)算法终止条件判断；