基于手机定位数据的实时城市道路交通流数据提取方法
技术领域
ITS(智能运输系统)作为提高道路运行效率,改善道路运行环境,保障交通安全的有效手段,已经成为国内外交通领域的研究热点。实时、准确、多样的交通数据采集是建立和应用智能运输系统的关键和基础。本发明涉及智能交通应用领域,特别是一种基于手机定位数据的实时城市道路交通流数据提取方法。
背景技术
目前主要的交通数据采集方式有两类:一类是基于固定式车辆检测器进行采集,常用的有微波检测器、线圈检测器、红外检测器、视频检测器、超声波检测器等,另一类是基于移动式车辆检测设备进行采集,常用的有车载GPS定位设备和车载手机等。固定检测器可以采集流量,速度,占有率等交通基础数据,但存在初期投资成本大,覆盖率低,后期维护复杂等问题,所以在大多数城市中只选择重点道路进行布设。目前应用较多的移动探测器是车载GPS定位设备,可以提供车辆实时的位置和状态信息,目前移动式交通信息采集主要通过浮动车来实现,即在车辆上装载GPS定位设备,浮动车可以采集车辆实时的位置和状态信息,但是由于目前的浮动车主要为出租车,而出租车特有的运行方式往往导致某些路段或路线上采集的交通流数据样本量不足及准确性不高等问题。随着手机普及率的提高和手机定位技术的成熟,基于手机定位数据采集交通数据已经显现出了巨大的应用潜力。
由于自身技术特点的限制,通过移动探测器采集方式无法直接得到交通流数据。
地图匹配技术是实现空间数据向交通流数据转换的关键。目前的地图匹配算法主要可以分为三类:简单的几何匹配算法,基于拓扑关系的匹配算法和基于概率统计的算法。由于实时性的要求,不宜采用复杂的基于概率统计的算法,较为适用的是基于拓扑关系的匹配算法,该算法在处理GPS数据时已经显示了良好的效果和较高的实时性。但是相比GPS定位数据,基于小区识别号的手机定位误差是其几十倍甚至上百倍,客观上增加了根据拓扑关系进行跨路段搜索的难度和复杂性,势必会增加出错率,同时也会增加系统负担。
国内外在基于手机定位数据交通流数据提取领域开展的研究和实践主要集中在三个层面:仿真层面,即通过仿真软件模拟现实交通流,从中研究基于手机定位提取交通流数据的可行性,提出了在一定置信水平约束下,可以满足交通流数据提取的手机数据需要满足的参数指标。典型的研究是美国伯克利大学开展的,研究测试了定位精度、定位更新频率、定位密度(单位面积、单位时间内坐标位置的数量)因素的影响,通过仿真试验提出了这些因素的量化指标。实地试验层面,2008年1~7月,中国移动委托国家1TS中心组织并实施了“基于手机位置采集实时交通信息科研项目”试验,试验表明利用手机切换技术分析得到的实时交通信息的准确率在行程时间项已经达到了70%以上,美国CAPITAL项目在弗吉尼亚州的几条州际公路和州内道路开展了实地测试,结果表明要得到可靠的交通流数据,还需要更多的定位点数据和提高路径匹配的算法效果。系统应用层面,具有代表性的是瑞士AirSage公司基于手机定位数据建立了实时交通状况监测系统,该公司公布的系统测试资料显示,在平均车速高于45千米/小时的情况下,系统平均绝对误差小于10公里/小时,在车流量较大的平均车速为22千米/每小时的情况下,68.2%的路段平均绝对误差大于或等于15千米/小时。
总结国内外在基于手机定位数据提取交通流数据的研究和实践中还存在着如下几个问题:
1.可行性研究较多,对实际数据分析处理方法的研究不足,如手机原始数据的预处理方法,乒乓切换效应产生的错误数据的剔除、车载手机数据的提取方法等;
2.未充分考虑数据处理的实时性要求,且试验多数集中在高速公路及独立的城市道路路段,未扩展到城市路网层面;
3.对基于手机定位数据特点的实时地图匹配算法的研究不足,匹配效果不理想;
4.国内基于手机定位数据实时交通流数据提取还只停留在研究试验阶段,没有实时的系统实施运作。
发明内容
发明目的
本发明的目的在于,基于小区识别号的手机定位数据特点,制定预处理规则,剔除错误和冗余数据;运用时间窗口的储存方式,动态更新数据,保障数据处理的实时性;剔除表现为乒乓切换效应的数据,提取车载手机数据;针对城市路网,采用基于路段的点到线的地图匹配方法确定匹配点及匹配路段,最终计算每个路段的空间平均速度,从而有效解决了目前该领域对实际数据分析处理不足、实时性不强、地图匹配算法效率低效果不佳的问题,建立了一套实时处理数据并生成结果的方法。
本发明的基于手机定位数据提取交通流数据的方法,其中手机定位是采用基于小区识别号的定位技术,所谓基于小区识别号的定位技术指的是在移动网络中,基站控制器(BSC)会在移动台的位置更新、呼叫处理、短消息传送以及切换等的过程中将用户所在基站扇区的小区识别号(CELL-ID)传给移动交换中心(MSC),利用这个网络标识(CELL-ID)得到手机终端所在扇区质心的经纬度来代表手机终端位置。由于是利用基站位置代表手机终端位置,故其精确度与地面蜂窝基站的密度成正比,若小区足够小,则基于小区识别号(CELL-ID)的定位技术的精度就较高。一般来说,基于小区识别号(CELL-ID)的定位技术精度在300米-20千米范围内。本专利发明实施例利用数据采集卡采集了北京市三环内主要路段和郊区主要道路路段GSM网络上的手机定位数据。在北京的城市中,由于基站比较密集,定位平均精度达到为300-500米。
本发明根据基于小区识别号的手机定位数据特点提出了一种基于路段的点到线的地图匹配算法。
技术方案
本发明的目的是通过如下步骤实现的:
基于手机定位数据的实时城市道路交通流数据提取方法,包括如下步骤:
1)手机定位数据预处理:
1-1)读取手机定位数据;
1-2)根据定位点经纬度坐标,判断该手机的位置是否在空间索引内:如果不是,则返回步骤1-1),如果是,则继续下一步;
1-3)判断该手机当前位置是否与前一时间点位置相同:如果是,则返回步骤1-1),如果不是,则进行下一步;
1-4)取该手机定位数据为参与匹配数据;
2)确定手机定位点候选匹配路段及每个路段的粗选匹配点集:
2-1)为每一个路段建立存储单元,储存路段编号、路段方向、路段功能等级、路段空间数据以及匹配点集;
2-2)建立固定长度的时间窗口,每间隔一段时间获取实时数据,更新一次时间窗口,并作如下处理:
依次读取每条手机定位数据,以经纬度坐标点即定位点为圆心作误差圆,并以相交的约束规则进行空间分析,选取候选路段集,对应路段的垂直投影点作为匹配点,根据匹配点与路段的空间关系,得到该匹配点距离路段起点的距离,并将手机定位点和距离信息存入候选路段集的匹配点集中,作为粗选匹配点集;
3)车载手机数据提取,即每个路段精选匹配点集的确定:
3-1)读取一条路段粗选匹配点集中的一条手机定位点序列;
3-2)判断序列中定位点坐标是否唯一:若不唯一,则删除该定位点序列,并返回步骤3-1);若唯一,则转入下一步;
3-3)依次读取序列中的手机定位点;
3-4)比较相邻手机定位点轨迹方向与路段矢量化方向差值,若值小于设定阀值,则判定为行驶于该路段上的车载手机数据,否则删除该定位点数据并返回步骤3-3)读取下一个定位点数据;
3-5)依次处理每一条路段,最终得到精选匹配点集;
4)以空间速度加权平均法计算路段空间平均速度。
步骤1)中,手机定位的方式是基于小区识别号的定位方法。
步骤2-2),误差圆的半径是300m。
步骤3-4)中,阀值是45度。
步骤1中,所述的手机定位的方式是基于小区识别号的定位方法,即利用基站位置代表手机终端位置,手机定位数据预处理是由于在汇集时间内手机数据中包含了大量定位于同一点的数据,即手机用户表征为处于相对固定的活动空间或处于相对缓慢的位置移动状态;同时由于网络的故障,存在着一定数量的重复冗余信息;以北京市区为例,其基站覆盖密度决定了定位平均精度为300-500米,在道路中心线空间范围300米内的定位数据集中包含了车载手机的定位数据。这些数据的剔除和筛选,可以有效的减少数据的处理量,提高处理效率,缩小车载手机数据的提取范围。
手机定位数据预处理的具体思想包括:
1)剔除时间属性连续,但定位于同一基站的数据;
2)剔除重复的冗余数据;
3)根据空间索引,剔除距离道路中心线超过300米的定位数据;
步骤1中,地图数据预处理措施主要是为了提高系统处理效率、保障地图匹配算法的实现,减小定位误差对匹配结果产生的影响以及保证在汇集时间内的样本数要求,具体措施包括:
a、根据手机数据定位误差、采集数据时间间隔及车辆运行速度限制,对电子地图路段要素以满足长度要求进行合并或者打断;
b、对矢量化方向和道路车流实际运行方向不一致的路段线要素调换起终点节点的位置,使二者方向一致;
c、对以一条独立线要素表示的双向道路,覆盖一条线形和位置相同但矢量化方向相反的线要素,使电子地图中完全包含道路的双向运行方向;
d、简化地图,只保留研究范围以内满足功能等级要求的路段;
e、对研究范围区域路网图层按经纬度等间距分格,将与以路段中心线为基准300米缓冲区范围相交的网格赋予识别属性,根据识别属性在程序初始化阶段生成空间索引数组。
所述a中,长度要求是不小于1500米。
步骤4中,所述的空间速度加权平均法是利用同一车载手机前后相邻的匹配点之间的行驶距离与时间差获取个体车辆的空间速度,进而对匹配至该路段所有车辆进行均值统计来估计路段的空间平均速度,加权系数为匹配点覆盖路段长度占路段总长度的比率。通过计算单个车载手机的空间速度
及其在检测路段上的权重因子w
k,可得出该检测路段的平均速度,具体公式如下:
式中,i——表示第i条路段;k——表示第k个手机;
——表示第i条路段的空间平均速度;w
k——表示第k个手机匹配点覆盖路段长度占总长度的比率。
——表示由第k个手机匹配点计算的空间速度。
附图说明
图1.基于手机定位数据的实时城市道路交通流数据提取方法流程图;
图2.中关村南大街路段空间平均速度变化曲线;
图3.广安门内大街路段空间平均速度变化曲线;
图4.北四环中路路段空间平均速度变化曲线。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明利用数据采集卡采集了北京市三环内主要路段和郊区主要道路路段GSM网络上的手机定位数据,原始数据包括手机识别号、时间戳、经纬度坐标、事件类型等信息,采集间隔为一分钟。计算程序采用长度为十五分钟的时间窗口,每一分钟更新一次数据,并处理十五分钟时间窗内储存的数据,将计算结果按路段编号存入数据库中。
如图1所示为数据处理流程图,具体实施步骤如下:
步骤1.手机定位数据以及地图数据预处理;
手机定位数据预处理包括了以下步骤:
1.读取一分钟实时数据,根据每一条数据的经纬度坐标结合空间索引格的单位长度计算定位点所属空间索引网格的行列索引号,由此读取空间索引属性,若判断为真,则表明该点位于研究区域且处于研究路段中心线300米范围内;
2.根据手机识别号,更新时间窗口,判断是否和前一时间点定位点数据坐标一致,若一致则不储存,处理下一条定位点数据;
地图预处理包括了以下步骤:
1.根据手机数据定位误差、采集数据时间间隔及车辆运行速度限制,对电子地图路段要素以满足不小于1500米长度要求进行合并或者打断;
2.对矢量化方向和道路车流实际运行方向不一致的路段线要素调换起终点节点的位置,使二者方向一致;
3.对以一条独立线要素表示的双向道路,覆盖一条线形和位置相同但矢量化方向相反的线要素,使电子地图中完全包含道路的双向运行方向;
4.简化地图,只保留研究范围以内满足功能等级要求的路段;
5.对研究范围区域路网图层按经纬度等间距分格,行列都是150格,通过空间分析的相交约束条件选取与以路段中心线为基准300米缓冲区范围相交的网格,并赋予识别属性,根据识别属性在程序初始化阶段生成行列对应的空间索引数组,将对应数组单元赋值为真。
步骤2.确定手机定位数据候选匹配路段及每个路段的粗选匹配点集,具体实施步骤如下:
1.程序初始化阶段,读取路段属性数据和空间数据,并根据路段编号为每一个路段建立存储单元,存储路段编号,路段方向,路段功能等级,路段空间数据以及匹配点集;
2.在系统内存中建立长度为十五分钟的时间窗口,通过实时数据接口每间隔一分钟更新时间窗口,并作如下处理:依次读取每条手机定位数据,以经纬度坐标点为圆心作300米误差圆,并以相交的约束规则进行空间分析,选取候选路段集,对应路段的投影点作为匹配点,根据匹配点与路段的空间关系,得到该匹配点距离路段起点的距离,并将定位点和距离信息存入候选路段集的匹配点集中,作为粗选点集。
步骤3.车载手机数据提取,即每个路段精选匹配点集的确定,具体实施步骤如下:
1.读取一条路段粗选匹配点集中的一条手机定位点序列;
2.判断序列中定位点坐标是否唯一,若不唯一,则说明该数据受乒乓切换效应影响,将该数据剔除,并返回步骤1;若唯一则转入步骤3;
3.依次读取序列中的手机定位点;
4.比较相邻手机定位点轨迹方向与路段矢量化方向差值,若值小于45度,则判定为行驶于该路段上的车载手机数据,否则删除该定位点数据并返回步骤3读取下一个定位点数据;
5.依次处理每一条路段,最终得到精选匹配点集。
步骤4.以空间速度加权平均法计算路段空间平均速度。具体实施步骤如下:
1.读取一条路段的精选匹配点集;
2.依次读取每一条手机定位点序列,计算相邻匹配点的相隔距离和间隔时间,计算空间速度,根据空间速度加权平均法,可得到整条路段在15分钟内的空间平均速度;
3.判断该条数据的合理性,合理的取值范围为大于5千米/小时且小于100千米/小时,若合理则写入数据库,若不合理则不写入数据库;
4.转入下一条路段的处理。
基于北京市2010年9月7日至2010年9月13日的手机定位数据,对部署于个人PC的系统进行了实际运行测试,下述内容将根据系统运算效率和实时性、有效数据提取结果、地图匹配精度、路段空间平均速度计算结果四个方面进一步说明和验证基于手机定位数据的实时城市道路交通流数据提取方法的性能和实际效果。
运算效率和实时性
手机定位点数据量受到基站空间分布密度、话务量以及用户活动等因素影响,在一天中呈现不均匀分布,在十五分钟的汇集时间内,部分路段最高数据量可以到8000个定位点。系统运行实际情况表明,每秒平均可处理392定位点,满足实时性要求;
有效数据提取结果
有效数据指的是最终提取的车载手机数据,通过对每天数据总量和有效数据总量的统计分析表明,系统在预处理过程中过滤了大量重复和冗余的数据,有效地剔除了受兵乓切换效应影响数据,表1列出了2010年9月7日上午7点至晚上20点典型路段的数据总量、有效数据总量以及有效数据比率;
表1.有效数据提取结果
路段名称 |
数据总量 |
有效数据总量 |
有效数据比率 |
中关村南大街 |
70782 |
2739 |
3.87% |
广安门内大街 |
32313 |
772 |
2.39% |
北四环中路 |
67704 |
1103 |
1.63% |
地图匹配精度
地图匹配精度的分析主要是通过比较系统匹配点与人工识别的匹配点之间的差异,通过对路段和时间段的随机抽样,结果表明基于路段的点到线的地图匹配方法平均匹配精度达到95%以上;
路段空间平均速度计算结果
图2、图3、图4列出了路段中关村南大街、广安门内大街、北四环中路在2010年9月7日和2010年9月8日两天内上午7点至晚上20点时间段的空间平均速度的变化曲线图。