CN102831191A - 一种基于网络数据源的公交到站信息轨迹生成方法 - Google Patents
一种基于网络数据源的公交到站信息轨迹生成方法 Download PDFInfo
- Publication number
- CN102831191A CN102831191A CN2012102744835A CN201210274483A CN102831191A CN 102831191 A CN102831191 A CN 102831191A CN 2012102744835 A CN2012102744835 A CN 2012102744835A CN 201210274483 A CN201210274483 A CN 201210274483A CN 102831191 A CN102831191 A CN 102831191A
- Authority
- CN
- China
- Prior art keywords
- link
- information
- fragment
- station
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于网络数据源的公交到站信息轨迹生成方法,包括获取公交到站信息数据和生成公交到站信息轨迹链路两部分,最后将输出的公交到站信息轨迹的完整链路保存到相应数据库中,生成公交到站信息轨迹链路是将提取的上述公交信息转化为链路片段,然后采用最小拼接距离链路拼接方法将所述链路片段进行拼接,输出公交到站信息轨迹的完整链路,保存到相应数据库中。本发明的基于网络数据源的公交到站信息轨迹生成方法抑制了网络数据源的各种信息干扰,从提取的公交到站信息轨迹中获取公交车在各站点上不同时间段的行驶时间,为进一步的城市路况软测量和公交信息服务等研究和云计算与服务奠定基础。
Description
技术领域
本发明涉及基于网络数据源的交通信息数据挖掘与云计算技术领域,具体涉及一种基于网络数据源的公交到站信息轨迹生成方法。
背景技术
近年来,随着“公交优先”政策的有效落实和城市智能公交信息化的建设,我国在杭州、苏州、上海、北京、大连、广州、柳州、厦门等城市部分或全部公交线路的公交车上安装了GPS定位系统和电子站牌,使得候车者可查询公交的实时到站信息,提高了公共交通服务质量,增强了市民的公交出行意愿,公交出行率的提高对城市交通疏堵和节能环保均有重要意义。部分城市建设了公交到站信息在线查询网站,使得公交乘坐者可通过因特网的网络数据源查询每路车或者某一站点相应线路的公交车到站情况。
然而对很多在线查询系统,网络数据源只提供公交进站时间,不提供到站公交车的识别号,因而网络数据源采集出的数据无法区分哪些进站信息是由同一辆公交车产生的,致使无法通过网络在线数据直接获取每一辆公交车在各路段和时间段的行驶时间。公交行车信息是开展城市交通路网路况软测量、公交行车优化、公交预报等相关研究的重要数据,因此如何从在线系统的网络数据源中采集的公交行车数据提取每一辆公交车的到站信息,即每一辆车的公交到站信息轨迹的提取是开展相关研究所需解决的首要问题。
受GPS设备、公交查询系统自身原因、Http连接阻塞等诸多因素影响,通过网络数据源获取的实际数据,存在一定程度的信息丢失和异常数据,使得公交到站信息轨迹的可靠提取具有一定的难度。图1是2011年9月2日通过http://m.sz-map.com的网络数据源获取的苏州10路北线公交的实时到站信息时空图,纵坐标为站点索引号,横坐标为到站时间,黑点为采集到的到站信息。由图1可见,对实际采集的信息存在一定程度的信息缺失和干扰,例如:
1)始发站或终点站存在过多的异常信息。当公交车处于始发或终点站时,该公交车尽管没有处于行驶状态,但车载GPS可能依然保持工作,并向服务器发送位置信息,图1中A区所示,可能是同一辆公交车对始发站产生的站点信息,该车在发车前GPS依然保持工作,向服务器发送位置信息。这些多余的位置信息会影响公交到站信息轨迹的正确提取。
2)存在较长时间的信息丢失。城市中的建筑密集区、天气恶劣等均可能对GPS信号产生影响,导致GPS位置信息漂移或者信号丢失,另外数传模块GPRS亦可能受到网络阻塞等影响,导致公交车的位置信息无法回传至服务器,这些因素会导致公交车位置信息的数据不全,更甚者会出现连续6个以上的站点信息丢失。图1中的B区,B1与B2是同一辆公交车产生的位置信息,期间缺失3个站点的信息,而B3、B4间则缺失了4个站点信息,经验证,在该段时间内,本地服务器采集周期维持在30s左右,排除了网络阻塞造成的信息丢失因素,系公交系统自身原因造成。缺失信息会破坏信息的完整性,增加了公交到站信息轨迹提取难度。
3)存在逆行线信息干扰。许多城市的公交车上下行线需要司机手工切换,有的司机有时粗心,在公交车到达终点站后没有切换上下行线路,从而在下行线的路线上发出的位置信息依然被服务器认为是上行线信息,服务器进行错误的解析会导致位置信息时空图上形成一条反向行车轨迹,例如图1中C区中形成了一条反向行车轨迹。造成该现象的原因可能是该辆公交车到达终点站后对GPS系统没有切换上下行线,导致反程中所发送的公交到站信息被服务器错误解析。逆行线干扰信息在数据稠密处会严重干扰公交到站信息轨迹的正确生成。
4)非始发站或终点站的异常信息干扰。公交车行驶过程中,由于信号干扰或者GPS信号漂移以及服务器自身的完善度不够,在同一辆公交车上会产生同一个站点的多个到站时间,例如图1中D区的D1、D2、D3、D4为公交车行驶过程中在同一站点产生的4个位置信息,对于公交到站信息轨迹生成需要剔除多余的干扰信息。
发明内容
为此,本发明所要解决的是网络数据源实际采集的信息存在一定程度的信息缺失和干扰从而干扰公交到站信息轨迹生成的技术问题,提供一种基于网络数据源的公交到站信息轨迹生成方法。
为解决上述技术问题,本发明采用的技术方案包括如下步骤:
一种基于网络数据源的公交到站信息轨迹生成方法,具体步骤如下:
第一步:获取公交到站信息数据:
通过连接公交实时到站信息查询网,发送对应线路的URL地址,通过Http Get方式获得查询结果,通过解析网页响应源码,提取公交线路、站点名称、站点索引号、进站时间的公交信息;
第二步:生成公交到站信息轨迹链路,过程如下:
(1)首先将提取的上述公交信息转化为链路片段,包括链路片段初始化过程和链路片段生成过程两部分,所述链路片段初始化过程用于生成初始的链路片段集和链路映射,所述链路片段生成过程生成链路片段;
(2)然后采用最小拼接距离链路拼接方法将所述链路片段进行拼接,输出公交到站信息轨迹的完整链路;
第三步:将输出公交到站信息轨迹的完整链路保存到相应数据库中。
所述的基于网络数据源的公交到站信息轨迹生成方法,所述链路片段初始化过程将首条有效的公交到站记录信息分解成若干辆公交车的行车数据,每一辆公交车对应一个链路片段,该过程通过非零索引集的操作实现。
所述的基于网络数据源的公交到站信息轨迹生成方法,所述链路片段初始化过程的具体步骤如下:
A1:给相关变量进行初始化设置,记录集索引n=1,链路片段索引k=1,链路映射Ψ=0;
A2:根据n索引值,取得当前记录Rp=S[n],并由非零索引集操作,取得Rp的非零索引集
A4:取出非0值站点的索引通过Ω[k][x]=Rp[x]实现当前记录Rp中的非0站点信息(x站点信息)加到链路片段集Ω中;通过Ψ[x]=k进行链路映射更新,用于表示当前最近第x站点的信息是由Ω[k]产生的;更新链路索引k值自增1;跳至步骤A3;
记为公交到站原始记录信息,为第i条记录,S[i][j]为第i条记录中第j站点的公交到站信息,若S[i][j]=0表示无公交到站信息,S[i][j]的非0值则为第i条记录中公交到达j站点的时间;为强关联生成片段,l[i]为站点i在生成片段l中的记录,为片段记录集,为记录站点最近更新链路片段索引值映射,即Ψ[i]值表示第i站点的最近有效更新值所在链路片段l在Ω中的索引值;表示向量V中非零索引集,表示当前记录,为上一条记录,n为记录索引号;所有集合元素从1开始索引。
所述的基于网络数据源的公交到站信息轨迹生成方法,所述链路片段生成过程利用记录信息的时间先后顺序与公交车运行的强关联度特性,将同一公交车同一班次产生的到站信息放入同一链路片段中,该过程通过引入异元索引集、非零索引集、正向异元索引集、站点记录相似度,实现相邻两条记录相关站点信息的快速提取和关联度计算,并运用相似度的上下限阀值制定站点信息加入链路片段的规则,在链路片段的生成过程中充分考虑链路映射的防覆盖处理。
所述的基于网络数据源的公交到站信息轨迹生成方法,所述链路片段生成过程的具体步骤如下:
B2:赋值当前记录Rp=S[n],取当前记录Rp与上一条记录Rl的异元索引集Xp,l;
B6:计算给定行驶参考时间TR下,当前记录中x站点的到站时间与上条记录y站点的到站时间在TR参考下的相似度γ(Rp[x],Rl[y])|TR;
B7:判断相似度是否在同一链路片段范围内,若γ(Rp[x],Rl[y])|TR∈[γmin,γmax],继续执行步骤B8;否则跳至步骤B12;
B8:取y站点的映射链路索引值z=Ψ[y],即取记录y站点的链路片段在Ω中的索引值;
B9:链路映射防覆盖处理,引入辅助变量与Ψ同维度,若包含x站点,则映射Ψ[x]在后续片段生成过程中存在被覆盖的风险,用辅助变量对x站点映射进行克隆,即当x站点与y站点所在链路片段相链时,首先判断若表示Ψ[y]已被覆盖过,链路索引值z需更新为并将清0;
B10:更新链路片段Ω[z][x]=Rp[x],更新链路映射表Ψ[x]=z,从而将x站点信息加入到索引为z的链路对应片段上,并有Ψ[y]=Ψ[y]=z,当前链路表上x站点和y站点指向同一链路片段;
B14:将指向的站点信息生成新的链路片段并加入Ω中,具体实现为Ω[k][x]=Rp[x],更新站点x的链路映射Ψ[x]=k,更新链路索引值k自增1;
B16:若记录集S遍历完毕,跳至步骤B18;否则执行步骤B17;
B18:输出由记录集S生成的强相关链路片段集合Ω;
定义站点记录相似度γ(S[i][x],S[j][y])|TR为第i条记录x站点的到站信息与第j条记录y站点的到站信息在行驶时间TR下的相似程度,其数学表达式为:
其中,TR(x,y)为从x站点行驶到y站点的参考时间;γ(S[i][x],S[j][y])|TR用于描述两条不同记录中的x站点与y站点在参考行驶时间下的相似程度,若S[i][x]-S[j][y]的值即为x至y站点的参考行驶时间,相似度γ(S[i][x],S[j][y])|TR=1,取得最高相似程度,则可将i记录的x站点信息与j记录的y站点信息视为是同一辆公交车产生的,将其置于同一个强关联轨迹片段中;参考行驶时间TR难以做到与实际行驶时间一致,对同一公交车产生的站点信息相似度γ(S[i][x],S[j][y])|TR在一定范围内变动,设γmin和γmax分别为同一公交车产生的站点信息在TR参考下的相似度下限值和上限值,则判定两条不同记录中x站点和y站点信息是同一辆公交车产生的依据为γ(S[i][x],S[j][y])|TR∈[γmin,γmax],TR对相邻站点的行驶时间初值均取为1分钟,γmin=0.5,γmax=4.0。
所述的基于网络数据源的公交到站信息轨迹生成方法,所述最小拼接距离链路拼接方法通过引入上游链路集、下游链路集、距离矩阵和拼接规则,按照链路片段离起始站的近远,由链路集选择参数筛选出相应的上下游链路集,计算对应距离矩阵,按照距离最小优先选出一对待拼接的链路,按拼接规则判断是否能拼接。
所述的基于网络数据源的公交到站信息轨迹生成方法,所述最小拼接距离链路拼接方法的具体步骤如下:
C1:各参数初始化,设置上游链路参数Iu=[2,3,4,5,6,7,8,9,10],Nu=2;设置下游链路参数Id=[3,4,5,6,7,8,9,10,11],Nd=2;将链路片段补集设为空集,即设置尝试次数n=0,拼接距离矩阵参数λ=15;由链路片段的相邻站点行驶时间按中位数方法初始化行驶参考时间TR;
C2:由上游链路集选择参数Iu,Nu获得上游链路片段集Su,即
C3:由下游链路集选择参数Id,Nd获得下游链路片段集 由Su,Sd计算不包含Su元素的Sd子集即
C6:按拼接规则判断<Lu,Ld>,若<Lu,Ld>可拼接,顺序执行步骤C7;否则跳至步骤C8;
C8:判断程序终止条件,若Id的最大元素大于终点站索引值,且n>10,表示从已覆盖到终点站的下游链路中按最小拼接距离查找出的链路对不可拼接,并尝试次数已大于10次,达到终止条件,跳至步骤C13;否则继续执行步骤C9;
C9:若尝试次数n≤10,继续执行步骤C10;否则跳至步骤C11;
C12:判断Id最小站点是否超出终点站索引,若min(Id)大于终点站索引,搜索终止,执行步骤C13;否则跳回步骤C3继续搜索下游链路集的配对链路;
C14:对拼接过的链路集合Ω进行链路梳理处理,删除非零站点数小于2的链路;对交叉的链路进行反交叉重连;
C15:输出拼接链路集。
其中,上游链路集Su为靠近始发站的链路集,具体由选择参数Iu和Nu确定,下游链路集Sd为靠近终点站的链路集,具体由选择参数Id和Nd确定;mi,j为矩阵中i行j列的元素;为链路Lx与Ly在TR参考下的有向拼接距离,λ为距离矩阵参数。由公式(3)确定:
其中,由链路Lx、Ly的到站信息计算,若遇到不完整链路无相应站点到站信息时则从TR相应站点取行驶时间;Lmin为Lx和Ly中最小非零索引集长度,即 为为两条链路Lx与Ly在参考下的无向距离,具体由式(4)确定:
所述的基于网络数据源的公交到站信息轨迹生成方法,所述最小拼接距离链路拼接方法的步骤C5中,最小距离链路对<Lu,Ld>的定义:在中寻找最小值的元素min{mij},该元素所对应的行索引i,列索引j,则Lu=Su[i],Ld=Sd[j]。
所述的基于网络数据源的公交到站信息轨迹生成方法,所述最小拼接距离链路拼接方法的步骤C6中,拼接规则的条件是,给定上游链路Lx与下游链路Ly可拼接,需满足:
(1)若Lx与Ly非零站点区域无重叠,则Lx的最后一个非零站点索引值a与Ly的最后一个非零站点索引值b需满足γ(Lx[a],Ly[b])|TR∈[γmin,γmax];
(2)若Lx与Ly非零站点区域发生重叠,则重叠区域需小于控制允许重叠的参数,所述控制允许重叠的参数Ne为3;且需同时满足条件(3);
(3)将Lx与Ly的重叠区域分离出来,非上游链路与下游链路非重叠部分需满足条件(1);
本发明的上述技术方案相比现有技术具有以下优点:
本发明提供一种基于网络数据源的公交到站信息轨迹生成方法,该方法包括获取公交到站信息数据和生成公交到站信息轨迹链路两部分,最后将输出的公交到站信息轨迹的完整链路保存到相应数据库中。获取公交到站信息数据是通过连接公交实时到站信息查询网,发送对应线路的URL地址,通过Http Get方式获得查询结果,通过解析网页响应源码,提取公交线路、站点名称、站点索引号、进站时间的公交信息;生成公交到站信息轨迹链路是将提取的上述公交信息通过链路片段初始化和链路片段生成两个过程转化为链路片段,然后采用最小拼接距离链路拼接方法将该链路片段进行拼接,输出公交到站信息轨迹的完整链路,保存到相应数据库中。本发明提供的基于网络数据源的公交到站信息轨迹生成方法抑制了网络数据源的各种信息干扰,从提取的公交到站信息轨迹中获取公交车在各站点上不同时间段的行驶时间,为进一步的城市路况软测量和公交信息服务等研究和云计算与服务奠定基础。
链路片段初始化过程将首条有效的公交到站记录信息分解成若干辆公交车的行车数据,每一辆公交车对应一个链路片段,该过程通过非零索引集的操作得以实现。为了更好地实现后续记录信息的到站信息与相应的公交车链路片段进行关联,本发明引入链路映射,用于描述最近处理信息中站点与公交车的映射关系。
链路片段生成在链路初始化过程之后进行。链路片段生成过程充分利用了记录信息的时间先后顺序与公交车运行的强关联度特性,尽可能地将同一公交车同一班次产生的到站信息放入同一链路片段中,该过程通过引入异元索引集、非零索引集、正向异元索引集、站点记录相似度,实现相邻两条记录相关站点信息的快速提取和关联度计算,并运用相似度的上下限阀值制定站点信息加入链路片段的规则,在链路片段的生成过程中充分考虑了链路映射的防覆盖处理。本发明的链路片段生成过程将具有高度相似的站点信息链于同一片段中,并很大程度上消除了逆行线行车数据的影响。
最小拼接距离链路拼接方法在链路片段生成之后进行,对于实际的数据,由于干扰信息的存在,同一公交车同一班次的到站信息在链路片段生成过程中会被分成若干片段,最小拼接距离链路拼接方法的目的是将这些片段拼接成完整的链路,最小拼接距离链路拼接过程通过引入上游链路集、下游链路集、距离矩阵和拼接规则,按照链路片段离起始站的近远,由链路集选择参数筛选出相应的上下游链路集,计算对应距离矩阵,按照距离最小优先选出一对待拼接的链路,按拼接规则判断是否能拼接,该过程充分考虑了不能拼接的链路片段从链路集中移到对应补集以及从补集中恢复至链路集的各种触发条件和停机判断。本发明的最小拼接距离链路拼接方法,将若干链路片段按最小拼接距离进行优先拼接,最后对拼接好的链路进行链路梳理处理,获得更为完整的公交到站信息轨迹链路。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1为2011年9月2日通过网络数据源获取的苏州10路北线公交的实时到站信息时空图;
图2为本发明一个实施例一种基于网络数据源的公交到站信息轨迹生成方法的流程图;
图3为图2所示实施例的一种基于网络数据源的公交到站信息轨迹生成方法的链路片段初始化流程图;
图4为图2所示实施例的一种基于网络数据源的公交到站信息轨迹生成方法的链路片段生成的流程图;
图5为图1所示的信息时空图按照图4所示强相关链路片段生成过程所生成的链路片段集时空图;
图6为图2所示实施例的一种基于网络数据源的公交到站信息轨迹生成方法的链路片段拼接的流程图;
图7为图5的链路片段集时空图按照图6的链路片段拼接方法后生成的公交到站信息轨迹时空图。
具体实施方式
实施例1:
下面给出本发明所述的一种基于网络数据源的公交到站信息轨迹生成方法一个具体的实施方式。一种基于网络数据源的公交到站信息轨迹生成方法,参见图2所示,具体步骤如下:
T1:获取公交到站信息数据:
通过连接公交实时到站信息查询网,发送对应线路的URL地址,通过Http Get方式获得查询结果,通过解析网页响应源码,提取公交线路、站点名称、站点索引号、进站时间的公交信息;
T2:生成公交到站信息轨迹链路,过程如下:
(1)首先将提取的上述公交信息转化为链路片段,包括链路片段初始化过程T21和链路片段生成过程T22两部分,所述链路片段初始化过程T21用于生成初始的链路片段集和链路映射,所述链路片段生成过程T22生成链路片段;
(2)然后经过最小拼接距离链路拼接过程T23将所述链路片段进行拼接,输出公交到站信息轨迹的完整链路;
T3:将输出的公交到站信息轨迹的完整链路保存到相应数据库中。
所述链路片段初始化过程T21将首条有效的公交到站记录信息分解成若干辆公交车的行车数据,每一辆公交车对应一个链路片段,该过程通过非零索引集的操作实现。本实施例中,所述链路片段初始化过程T21的具体步骤如下,参见图3所示:
A1:给相关变量进行初始化设置,记录集索引n=1,链路片段索引k=1,链路映射Ψ=0;
A4:取出非0值站点的索引通过Ω[k][x]=Rp[x]实现当前记录Rp中的非0站点信息(x站点信息)加到链路片段集Ω中;通过Ψ[x]=k进行链路映射更新,表示当前最近第x站点的信息是由Ω[k]产生的;更新链路索引k=k+1;跳至步骤A3;
A5:分别通过Rl=Rp和更新上条记录和上条记录的非零索引集;更新记录集索引n=n+1;
记为公交到站原始记录信息,为第i条记录,S[i][j]为第i条记录中第j站点的公交到站信息,若S[i][j]=0表示无公交到站信息,S[i][j]的非0值则为第i条记录中公交到达j站点的时间;为强关联生成片段,l[i]为站点i在生成片段l中的记录,为片段记录集,为记录站点最近更新链路片段索引值映射,即Ψ[i]值表示第i站点的最近有效更新值所在链路片段l在Ω中的索引值;表示向量V中非零索引集,表示当前记录,为上一条记录,n为记录索引号;所有集合元素从1开始索引。
所述链路片段生成过程T22利用记录信息的时间先后顺序与公交车运行的强关联度特性,将同一公交车同一班次产生的到站信息放入同一链路片段中,该过程通过引入异元索引集、非零索引集、正向异元索引集、站点记录相似度,实现相邻两条记录相关站点信息的快速提取和关联度计算,并运用相似度的上下限阀值制定站点信息加入链路片段的规则,在链路片段的生成过程T22中充分考虑链路映射的防覆盖处理。参见图4所示,本实施例中,所述链路片段生成过程T22的具体步骤如下:
B2:赋值当前记录Rp=S[n],取当前记录Rp与上一条记录Rl的异元索引集Xp,l;
B6:计算给定行驶参考时间TR下,当前记录中x站点的到站时间与上条记录y站点的到站时间在TR参考下的相似度γ(Rp[x],Rl[y])|TR;
B7:判断相似度是否在同一链路片段范围内,若γ(Rp[x],R[y])|TR∈[γmin,γmax],继续执行步骤B8;否则跳至步骤B12;
B8:取y站点的映射链路索引值z=Ψ[y],即取记录y站点的链路片段在Ω中的索引值;
B9:链路映射防覆盖处理,引入辅助变量与Ψ同维度,若包含x站点,则映射Ψ[x]在后续片段生成过程中存在被覆盖的风险,用辅助变量对x站点映射进行克隆,即当x站点与y站点所在链路片段相链时,首先判断若表示Ψ[y]已被覆盖过,链路索引值z需更新为并将清0;
B10:更新链路片段Ω[z][x]=Rp[x],更新链路映射表Ψ[x]=z,从而将x站点信息加入到索引为z的链路对应片段上,并有Ψ[y]=Ψ[y]=z,当前链路表上x站点和y站点指向同一链路片段;
B16:若记录集S遍历完毕,跳至步骤B18;否则执行步骤B17;
B18:输出由记录集S生成的强相关链路片段集合Ω。
定义站点记录相似度γ(S[i][x],S[j][y])|TR为第i条记录x站点的到站信息与第j条记录y站点的到站信息在行驶时间TR下的相似程度,其数学表达式为:
其中,TR(x,y)为从x站点行驶到y站点的参考时间;γ(S[i][x],S[j][y])|TR用于描述两条不同记录中的x站点与y站点在参考行驶时间下的相似程度,若S[i][x]-S[j][y]的值即为x至y站点的参考行驶时间,相似度γ(S[i][x],S[j][y])|TR=1,取得最高相似程度,则可将i记录的x站点信息与j记录的y站点信息视为是同一辆公交车产生的,将其置于同一个强关联轨迹片段中。参考行驶时间TR难以做到与实际行驶时间一致,对同一公交车产生的站点信息相似度γ(S[i][x],S[j][y])|TR在一定范围内变动,设γmin和γmax分别为同一公交车产生的站点信息在TR参考下的相似度下限值和上限值,则判定两条不同记录中x站点和y站点信息是同一辆公交车产生的依据为γ(S[i][x],S[j][y])|TR∈[γmin,γmax],TR对相邻站点的行驶时间初值均取为1分钟,γmin=0.5,γmax=4.0。
参见图5所示,是将图1所示的信息时空图的原始数据按照本发明提出的强相关链路片段生成过程T22所生成的链路片段集时空图。图5中虚线相连的站点信息是同一个链路片段产生的,由图5可见,本发明提出的链路片段生成方法根据上下关系,将具有高度相似的站点信息链于同一片段中,并很大程度上消除了逆行线行车数据的影响。由于干扰信息的存在,链路片段并不完善,如图5中B区域所示,同一辆公交车的公交到站信息轨迹会被断成若干链路片段,另外在图5的A区域中展示了对于某些干扰信息,链路片段依然无法有效地克服,并产生了错误的链接。针对上述情况,本发明采用最小拼接距离链路拼接方法T23,将若干链路片段按最小拼接距离进行优先拼接,最后对拼接好的链路进行链路梳理处理,以获得更为完整的公交到站信息轨迹链路。
所述最小拼接距离链路拼接方法T23通过引入上游链路集、下游链路集、距离矩阵和拼接规则,按照链路片段离起始站的近远,由链路集选择参数筛选出相应的上下游链路集,计算对应距离矩阵,按照距离最小优先选出一对待拼接的链路,按拼接规则判断是否能拼接。参见图6所示,本实施例中,所述最小拼接距离链路拼接方法T23的具体步骤如下:
C1:各参数初始化,设置上游链路参数Iu=[2,3,4,5,6,7,8,9,10],Nu=2;设置下游链路参数Id=[3,4,5,6,7,8,9,10,11],Nd=2;将链路片段补集设为空集,即设置尝试次数n=0,拼接距离矩阵参数λ=15;由链路片段的相邻站点行驶时间按中位数方法初始化行驶参考时间TR;
C2:由上游链路集选择参数Iu,Nu获得上游链路片段集Su,即
C3:由下游链路集选择参数Id,Nd获得下游链路片段集 由Su,Sd计算不包含Su元素的Sd子集即
C6:按拼接规则判断<Lu,Ld>,若<Lu,Ld>可拼接,顺序执行步骤C7;否则跳至步骤C8;
C8:判断程序终止条件,若Id的最大元素大于终点站索引值,且n>10,表示从已覆盖到终点站的下游链路中按最小拼接距离查找出的链路对不可拼接,并尝试次数已大于10次,达到终止条件,跳至步骤C13;否则继续执行步骤C9;
C9:若尝试次数n≤10,继续执行步骤C10;否则跳至步骤C11;
C12:判断Id最小站点是否超出终点站索引,若min(Id)大于终点站索引,搜索终止,执行步骤C13;否则跳回步骤C3继续搜索下游链路集的配对链路;
C14:对拼接过的链路集合Ω进行链路梳理处理,删除非零站点数小于2的链路;对交叉的链路进行反交叉重连;
C15:输出拼接链路集。
所述最小拼接距离链路拼接方法的步骤C5中,所述距离矩阵由式(2)确定:
其中,上游链路集Su为靠近始发站的链路集,具体由选择参数Iu和Nu确定,下游链路集Sd为靠近终点站的链路集,具体由选择参数Id和Nd确定;mi,j为矩阵中i行j列的元素;为链路Lx与Ly在TR参考下的有向拼接距离,λ为距离矩阵参数。由公式(3)确定:
其中,由链路Lx、Ly的到站信息计算,若遇到不完整链路无相应站点到站信息时则从TR相应站点取行驶时间;Lmin为Lx和Ly中最小非零索引集长度,即 为为两条链路Lx与Ly在参考下的无向距离,具体由式(4)确定:
所述最小拼接距离链路拼接方法T23的步骤C6中,拼接规则的条件是,
给定上游链路Lx与下游链路Ly可拼接,需满足:
(1)若Lx与Ly非零站点区域无重叠,则Lx的最后一个非零站点索引值a与Ly的最后一个非零站点索引值b需满足γ(Lx[a],Ly[b])|TR∈[γmin,γmax];
(2)若Lx与Ly非零站点区域发生重叠,则重叠区域需小于控制允许重叠的参数Ne,Ne为3;且需同时满足条件(3);
(3)将Lx与Ly的重叠区域分离出来,非上游链路与下游链路非重叠部分需满足条件(1)。
图7是由图5链路片段按最小拼接距离链路拼接方法T23拼接完毕的公交到站信息轨迹时空图,由图7可见,最小拼接距离链路拼接方法T23将链路片段按最小拼接距离进行优先拼接,最后形成合理的公交到站信息轨迹,并克服了各种干扰信息的影响。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种基于网络数据源的公交到站信息轨迹生成方法,其特征在于:具体步骤如下:
第一步:获取公交到站信息数据:
通过连接公交实时到站信息查询网,发送对应线路的URL地址,通过HttpGet方式获得查询结果,通过解析网页响应源码,提取公交线路、站点名称、站点索引号、进站时间的公交信息;
第二步:生成公交到站信息轨迹链路,过程如下:
(1)首先将提取的上述公交信息转化为链路片段,包括链路片段初始化过程和链路片段生成过程两部分,所述链路片段初始化过程用于生成初始的链路片段集和链路映射,所述链路片段生成过程生成链路片段;
(2)然后采用最小拼接距离链路拼接方法将所述链路片段进行拼接,输出公交到站信息轨迹的完整链路;
第三步:将输出公交到站信息轨迹的完整链路保存到相应数据库中。
2.根据权利要求1所述的基于网络数据源的公交到站信息轨迹生成方法,其特征在于:所述链路片段初始化过程将首条有效的公交到站记录信息分解成若干辆公交车的行车数据,每一辆公交车对应一个链路片段,该过程通过非零索引集的操作实现。
3.根据权利要求2所述的基于网络数据源的公交到站信息轨迹生成方法,其特征在于:所述链路片段初始化过程的具体步骤如下:
A1:给相关变量进行初始化设置,记录集索引n=1,链路片段索引k=1,链路映射Ψ=0;
A2:根据n索引值,取得当前记录Rp=S[n],并由非零索引集操作,取得Rp的非零索引集
A4:取出非0值站点的索引通过Ω[k][x]=Rp[x]实现当前记录Rp中的非0站点信息(x站点信息)加到链路片段集Ω中;通过Ψ[x]=k进行链路映射更新,用于表示当前最近第x站点的信息是由Ω[k]产生的;更新链路索引k值自增1;跳至步骤A3;
4.根据权利要求1所述的基于网络数据源的公交到站信息轨迹生成方法,其特征在于:所述链路片段生成过程利用记录信息的时间先后顺序与公交车运行的强关联度特性,将同一公交车同一班次产生的到站信息放入同一链路片段中,该过程通过引入异元索引集、非零索引集、正向异元索引集、站点记录相似度,实现相邻两条记录相关站点信息的快速提取和关联度计算,并运用相似度的上下限阀值制定站点信息加入链路片段的规则,在链路片段的生成过程中充分考虑链路映射的防覆盖处理。
5.根据权利要求4所述的基于网络数据源的公交到站信息轨迹生成方法,其特征在于:所述链路片段生成过程的具体步骤如下:
B2:赋值当前记录Rp=S[n],取当前记录Rp与上一条记录Rl的异元索引集Xp,l;
B6:计算给定行驶参考时间TR下,当前记录中x站点的到站时间与上条记录y站点的到站时间在TR参考下的相似度γ(Rp[x],Rl[y])|TR;
B7:判断相似度是否在同一链路片段范围内,若γ(Rp[x],Rl[y])|TR∈[γmin,γmax],继续执行步骤B8;否则跳至步骤B12;
B8:取y站点的映射链路索引值z=Ψ[y],即取记录y站点的链路片段在Ω中的索引值;
B9:链路映射防覆盖处理,引入辅助变量与Ψ同维度,若包含x站点,则映射Ψ[x]在后续片段生成过程中存在被覆盖的风险,用辅助变量对x站点映射进行克隆,即当x站点与y站点所在链路片段相链时,首先判断若表示Ψ[y]已被覆盖过,链路索引值z需更新为并将清0;
B10:更新链路片段Ω[z][x]=Rp[x],更新链路映射表Ψ[x]=z,从而将x站点信息加入到索引为z的链路对应片段上,并有Ψ[y]=Ψ[y]=z,当前链路表上x站点和y站点指向同一链路片段;
B13:遍历中所有剩余的元素x;
B16:若记录集S遍历完毕,跳至步骤B18;否则执行步骤B17;
B18:输出由记录集S生成的强相关链路片段集合Ω;
定义站点记录相似度γ(S[i][x],S[j][y])|TR为第i条记录x站点的到站信息与第j条记录y站点的到站信息在行驶时间TR下的相似程度,其数学表达式为:
其中,TR(x,y)为从x站点行驶到y站点的参考时间;γ(S[i][x],S[j][y])|TR用于描述两条不同记录中的x站点与y站点在参考行驶时间下的相似程度,若S[i][x]-S[j][y]的值即为x至y站点的参考行驶时间,相似度γ(S[i][x],S[j][y])|TR=1,取得最高相似程度,则可将i记录的x站点信息与j记录的y站点信息视为是同一辆公交车产生的,将其置于同一个强关联轨迹片段中;参考行驶时间TR难以做到与实际行驶时间一致,对同一公交车产生的站点信息相似度γ(S[i][x],S[j][y])|TR在一定范围内变动,设γmin和γmax分别为同一公交车产生的站点信息在TR参考下的相似度下限值和上限值,则判定两条不同记录中x站点和y站点信息是同一辆公交车产生的依据为γ(S[i][x],S[j][y])|TR∈[γmin,γmax],TR对相邻站点的行驶时间初值均取为1分钟,γmin=0.5,γmax=4.0。
6.根据权利要求1中所述的基于网络数据源的公交到站信息轨迹生成方法,其特征在于:所述最小拼接距离链路拼接方法通过引入上游链路集、下游链路集、距离矩阵和拼接规则,按照链路片段离起始站的近远,由链路集选择参数筛选出相应的上下游链路集,计算对应距离矩阵,按照距离最小优先选出一对待拼接的链路,按拼接规则判断是否能拼接。
7.根据权利要求6中所述的基于网络数据源的公交到站信息轨迹生成方法,其特征在于:所述最小拼接距离链路拼接方法的具体步骤如下:
C1:各参数初始化,设置上游链路参数Iu=[2,3,4,5,6,7,8,9,10],Nu=2;设置下游链路参数Id=[3,4,5,6,7,8,9,10,11],Nd=2;将链路片段补集设为空集,即设置尝试次数n=0,拼接距离矩阵参数λ=15;由链路片段的相邻站点行驶时间按中位数方法初始化行驶参考时间TR;
C2:由上游链路集选择参数Iu,Nu获得上游链路片段集Su,即
C6:按拼接规则判断<Lu,Ld>,若<Lu,Ld>可拼接,顺序执行步骤C7;否则跳至步骤C8;
C7:将<Lu,Ld>拼接成一条链路,即将Lu和Ld链路中的到站信息合并成一条链路的到站信息;将新拼接的链路替换掉Su和Ω中的对应链路Lu;将尝试次数n清0;将置为空集;将Ω中的Ld链路删除;
C8:判断程序终止条件,若Id的最大元素大于终点站索引值,且n>10,表示从已覆盖到终点站的下游链路中按最小拼接距离查找出的链路对不可拼接,并尝试次数已大于10次,达到终止条件,跳至步骤C13;否则继续执行步骤C9;
C9:若尝试次数n≤10,继续执行步骤C10;否则跳至步骤C11;
C12:判断Id最小站点是否超出终点站索引,若min(Id)大于终点站索引,搜索终止,执行步骤C13;否则跳回步骤C3继续搜索下游链路集的配对链路;
C14:对拼接过的链路集合Ω进行链路梳理处理,删除非零站点数小于2的链路;对交叉的链路进行反交叉重连;
C15:输出拼接链路集。
其中,上游链路集Su为靠近始发站的链路集,具体由选择参数Iu和Nu确定,下游链路集Sd为靠近终点站的链路集,具体由选择参数Id和Nd确定;mi,j为矩阵中i行j列的元素;为链路Lx与Ly在TR参考下的有向拼接距离,λ为距离矩阵参数。由公式(3)确定:
其中,由链路Lx、Ly的到站信息计算,若遇到不完整链路无相应站点到站信息时则从TR相应站点取行驶时间;Lmin为Lx和Ly中最小非零索引集长度,即 为为两条链路Lx与Ly在参考下的无向距离,具体由式(4)确定:
10.根据权利要求9所述的基于网络数据源的公交到站信息轨迹生成方法,其特征在于:所述最小拼接距离链路拼接方法的步骤C6中,拼接规则的条件是,给定上游链路Lx与下游链路Ly可拼接,需满足:
(1)若Lx与Ly非零站点区域无重叠,则Lx的最后一个非零站点索引值a与Ly的最后一个非零站点索引值b需满足γ(Lx[a],Ly[b])|TR∈[γmin,γmax];
(2)若Lx与Ly非零站点区域发生重叠,则重叠区域需小于控制允许重叠的参数,所述控制允许重叠的参数Ne为3;且需同时满足条件(3);
(3)将Lx与Ly的重叠区域分离出来,非上游链路与下游链路非重叠部分需满足条件(1);
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210274483.5A CN102831191B (zh) | 2012-08-03 | 2012-08-03 | 一种基于网络数据源的公交到站信息轨迹生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210274483.5A CN102831191B (zh) | 2012-08-03 | 2012-08-03 | 一种基于网络数据源的公交到站信息轨迹生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102831191A true CN102831191A (zh) | 2012-12-19 |
CN102831191B CN102831191B (zh) | 2015-08-26 |
Family
ID=47334328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210274483.5A Expired - Fee Related CN102831191B (zh) | 2012-08-03 | 2012-08-03 | 一种基于网络数据源的公交到站信息轨迹生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102831191B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150177A (zh) * | 2013-01-14 | 2013-06-12 | 北京百度网讯科技有限公司 | 一种更新公交线路数据的方法、装置和系统 |
CN104504894A (zh) * | 2014-12-30 | 2015-04-08 | 上海中安电子信息科技有限公司 | 基于北斗定位的运营车辆班次计算算法 |
CN105740395A (zh) * | 2016-01-28 | 2016-07-06 | 温州大学 | 一种基于模糊去噪与模糊拼接的公交轨迹提取方法 |
CN111307167A (zh) * | 2018-12-12 | 2020-06-19 | 赫尔环球有限公司 | 用于通过区域的路线生成的方法和系统 |
CN111554118A (zh) * | 2020-04-24 | 2020-08-18 | 深圳职业技术学院 | 一种公交车到站时间的动态预测方法及系统 |
CN111752254A (zh) * | 2019-03-28 | 2020-10-09 | 深圳市商汤科技有限公司 | 轨迹跟踪控制器的测试方法、装置、介质及设备 |
CN111882913A (zh) * | 2020-07-28 | 2020-11-03 | 上海屹脉信息科技有限公司 | 一种自动生成公交车辆线路走向的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008267875A (ja) * | 2007-04-17 | 2008-11-06 | Hitachi Ltd | デジタル道路地図の生成方法及び地図生成システム |
CN101614551A (zh) * | 2009-07-21 | 2009-12-30 | 中国科学院地理科学与资源研究所 | 步行网建立方法及装置、路径搜索方法及装置 |
CN101847322A (zh) * | 2010-05-21 | 2010-09-29 | 中国科学院地理科学与资源研究所 | 公交换乘线路确定方法 |
CN102298152A (zh) * | 2010-06-23 | 2011-12-28 | 爱信艾达株式会社 | 轨迹信息生成装置和方法以及计算机可读存储介质 |
US20110320113A1 (en) * | 2010-06-25 | 2011-12-29 | Gm Global Technology Operations, Inc. | Generating driving route traces in a navigation system using a probability model |
-
2012
- 2012-08-03 CN CN201210274483.5A patent/CN102831191B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008267875A (ja) * | 2007-04-17 | 2008-11-06 | Hitachi Ltd | デジタル道路地図の生成方法及び地図生成システム |
CN101614551A (zh) * | 2009-07-21 | 2009-12-30 | 中国科学院地理科学与资源研究所 | 步行网建立方法及装置、路径搜索方法及装置 |
CN101847322A (zh) * | 2010-05-21 | 2010-09-29 | 中国科学院地理科学与资源研究所 | 公交换乘线路确定方法 |
CN102298152A (zh) * | 2010-06-23 | 2011-12-28 | 爱信艾达株式会社 | 轨迹信息生成装置和方法以及计算机可读存储介质 |
US20110320113A1 (en) * | 2010-06-25 | 2011-12-29 | Gm Global Technology Operations, Inc. | Generating driving route traces in a navigation system using a probability model |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150177A (zh) * | 2013-01-14 | 2013-06-12 | 北京百度网讯科技有限公司 | 一种更新公交线路数据的方法、装置和系统 |
CN103150177B (zh) * | 2013-01-14 | 2019-05-24 | 北京百度网讯科技有限公司 | 一种更新公交线路数据的方法、装置和系统 |
CN104504894A (zh) * | 2014-12-30 | 2015-04-08 | 上海中安电子信息科技有限公司 | 基于北斗定位的运营车辆班次计算算法 |
CN105740395A (zh) * | 2016-01-28 | 2016-07-06 | 温州大学 | 一种基于模糊去噪与模糊拼接的公交轨迹提取方法 |
CN105740395B (zh) * | 2016-01-28 | 2019-03-05 | 温州大学 | 一种基于模糊去噪与模糊拼接的公交轨迹提取方法 |
CN111307167A (zh) * | 2018-12-12 | 2020-06-19 | 赫尔环球有限公司 | 用于通过区域的路线生成的方法和系统 |
CN111752254A (zh) * | 2019-03-28 | 2020-10-09 | 深圳市商汤科技有限公司 | 轨迹跟踪控制器的测试方法、装置、介质及设备 |
CN111554118A (zh) * | 2020-04-24 | 2020-08-18 | 深圳职业技术学院 | 一种公交车到站时间的动态预测方法及系统 |
CN111882913A (zh) * | 2020-07-28 | 2020-11-03 | 上海屹脉信息科技有限公司 | 一种自动生成公交车辆线路走向的方法 |
CN111882913B (zh) * | 2020-07-28 | 2022-04-29 | 上海屹脉信息科技有限公司 | 一种自动生成公交车辆线路走向的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102831191B (zh) | 2015-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102831191B (zh) | 一种基于网络数据源的公交到站信息轨迹生成方法 | |
CN110008413B (zh) | 一种交通出行问题查询方法和装置 | |
KR102007181B1 (ko) | 교통 텔레매틱스용 경로 데이터의 전송 방법 | |
CN101187996B (zh) | 一种基于自适应骨干网的快速公交选线方法 | |
US20210335133A1 (en) | Vehicle dispatching method, electronic device and storage medium | |
CN103150177A (zh) | 一种更新公交线路数据的方法、装置和系统 | |
CN104504065A (zh) | 导航路线生成方法和装置 | |
CN105509758A (zh) | 一种基于移动终端的线路规划方法、系统及移动终端 | |
CN103942312B (zh) | 公交换乘线路规划方法和装置 | |
CN105184393A (zh) | 一种复杂路径下辅助路径还原方法 | |
JP2009075858A (ja) | 道路情報収集システム | |
CN106373399B (zh) | 一种公交线路站点间运行瓶颈识别系统 | |
CN103886769A (zh) | 实时获取路况视频信息的车辆动态路径导航方法和装置 | |
CN109859505A (zh) | 高速站点的预警处理方法、装置、服务器和介质 | |
Malucelli et al. | Delay and disruption management in local public transportation via real-time vehicle and crew re-scheduling: a case study | |
CN113344268B (zh) | 一种城市交通出行数据分析方法 | |
CN105989716A (zh) | 一种交通信号灯的控制方法及系统 | |
CN109166310A (zh) | 基于lbs和传统交通路况数据的路段旅行时间估计方法 | |
CN105243848A (zh) | 实时路况的预测方法和系统 | |
CN102867426A (zh) | 实时交通信息采集发布平台系统 | |
CN114640964A (zh) | 一种基于最优rsu部署位置的车路协同设备部署方法 | |
CN105651292B (zh) | 导航方法及装置 | |
CN114971046A (zh) | 确定道路障碍物的方法、装置、设备以及存储介质 | |
KR100765126B1 (ko) | 2-pass방식의 경로 탐색 방법 및 상기 방법을수행하는 시스템 | |
CN103884346A (zh) | 能获取行车线路高程数据信息的车辆路径导航方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20160525 Address after: 325000 Zhejiang, Ouhai, South East Road, No. 38, Wenzhou National University Science Park Incubator Patentee after: Wenzhou University Address before: 325027 Zhejiang province Wenzhou City Station Road Jinyuan Wendy 11-603 Patentee before: Dai Dameng |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150826 Termination date: 20180803 |