CN113887617A - 一种市域内部铁路出行轨迹识别方法、装置及存储介质 - Google Patents

一种市域内部铁路出行轨迹识别方法、装置及存储介质 Download PDF

Info

Publication number
CN113887617A
CN113887617A CN202111156766.5A CN202111156766A CN113887617A CN 113887617 A CN113887617 A CN 113887617A CN 202111156766 A CN202111156766 A CN 202111156766A CN 113887617 A CN113887617 A CN 113887617A
Authority
CN
China
Prior art keywords
railway
station
base station
data
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111156766.5A
Other languages
English (en)
Inventor
钱晨
李玮峰
杨东援
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202111156766.5A priority Critical patent/CN113887617A/zh
Publication of CN113887617A publication Critical patent/CN113887617A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/20Services signaling; Auxiliary data signalling, i.e. transmitting data via a non-traffic channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/42Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for mass transport vehicles, e.g. buses, trains or aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Remote Sensing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Train Traffic Observation, Control, And Security (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于手机信令数据的市域内部铁路出行轨迹识别方法,该方法包括以下步骤:S1、对基站数据进行预处理,根据地图数据选择车站覆盖范围内的基站,计算邻近铁路的基站投影在铁路线路上的里程坐标,进而生成线路区段序列;S2、对手机信令数据进行预处理,根据缺失间隔阈值和市内城际出行时间阈值划分用户进出城市的行程片段,并对其进行基站匹配,得到匹配基站位置信息;S3、根据基站位置信息进行铁路位置信息分类;S4、对不同铁路位置信息的数据进行轨迹识别,并输出用户铁路出行的车站位置信息,与现有技术相比,本发明具有有效解决车站数据缺失情况下的市域内部多车站识别问题、排除非铁路出行等异常情况以及提高识别率等优点。

Description

一种市域内部铁路出行轨迹识别方法、装置及存储介质
技术领域
本发明涉及手机信令大数据挖掘技术领域,尤其是涉及一种基于手机信令数据的市域内部铁路出行轨迹识别方法、装置及存储介质。
背景技术
随着中国的城市化步入城镇群发展的新阶段,城市间的联系更加频繁,铁路作为城际主要出行方式,其客流数据对于城市交通运行管理有着重要意义,精确的客流数据由铁路运营部门采集管理,获取难度较大,而传统交通规划采用的问卷调查方式,获取的铁路出行信息样本量小、时效性差、采集成本高。手机信令数据作为一种新型的数据资源,具有数据量大、覆盖范围广、时效性强和采集成本低的特点,能实现对个体长期的轨迹追踪,不仅可以有效识别用户长距离移动的铁路出行,而且能追踪用户后续在城市中的活动轨迹,能对城市规划、交通管理提供定量参考。
手机信令数据是以位置区码(Location Area Code,简称LAC)和小区标识(CellIdentity,简称CI)确定的基站(Base Station,简称BS)为定点检测器,采集匿名手机用户(Mobile Subscriber,简称MS)在发生通信事件(包括收发短信、主被叫等)、漫游事件(包括开关机、位置更新等事件)以及切换事件时的经纬度位置与时刻信息,从而刻画手机用户个体在时空间维度上的连续出行轨迹。
国内外基于手机数据的交通方式识别研究,主要涉及3个步骤:数据清洗、行程识别和方式检测,基于规则的方法和地图匹配是交通方式识别中比较常用的方法。地图数据一般可以在地图处理软件获取开源地图,如OpenStreetMap。使用手机信令数据识别铁路出行相对复杂,处理过程中需要着重关注数据以下4个特点:
1)低采样率:由于火车高速移动、市郊区域基站分布密度低以及基站损坏等原因造成个体某次城际出行的数据量较少;
2)位置振荡:由于乒乓切换造成的噪声,在短时间内被两个以上距离相近的基站捕捉到信号而在数据上可能表现为沿铁路线路时进时退的现象;
3)非铁路出行的排除:由于忽略距离铁路过远的未匹配铁路基站而将与铁路平行的公路出行错误地判断为铁路出行,或者是速度较低的城区道路或地铁出行被错误地判断为铁路出行;
4)停留:火车在铁路线路上的中间站有可能停留,如果在中间站或终点站范围以外停留,则说明不是铁路出行方式。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于手机信令数据的市域内部铁路出行轨迹识别方法、装置及存储介质。
本发明的目的可以通过以下技术方案来实现:
一种市域内部铁路出行轨迹识别方法,该方法包括以下步骤:
S1、对基站数据进行预处理,根据地图数据选择车站覆盖范围内的基站,计算邻近铁路的基站投影在铁路线路上的里程坐标,进而生成线路区段组合;
S2、对手机信令数据进行预处理,根据缺失间隔阈值和市内城际出行时间阈值划分用户进出城市的行程片段,并对其进行基站匹配,得到匹配基站位置信息;
S3、根据基站位置信息进行铁路位置信息分类;
S4、对不同铁路位置信息的数据进行轨迹识别,并输出用户铁路出行的车站位置信息。
所述的步骤S1中,对基站数据进行预处理的过程具体包括以下步骤:
S101、采用ArcGIS软件中的在线地图OpenStreetMap生成城市内的铁路线路线要素图层{city_railway},铁路线路的方向为火车进入城市的方向,以判断用户进出城市的方向;
S102、根据铁路线路设置缓冲区并生成缓冲区面要素图层,设缓冲区的宽度为buffer米,将基于基站数据得到的基站点要素图层{bs_city}与缓冲区面要素图层进行相交操作,获得铁路沿线基站点要素图层{bs_railway1};
S103、获取覆盖城市终点站实际所在区域的基站,得到车站基站点要素图层{bs_station},在铁路沿线基站点要素图层{bs_railway1}上排除终点站附近的基站,得到不含终点站基站的铁路沿线基站点要素图层{bs_railway},根据地图数据获取覆盖城市各铁路线路的车站中心位置经纬度lonstation、latstation与覆盖半径Rangestation,车站包括中间站和终点站,得到列车可能出现停留的停留点要素图层{bs_stop};
S104、将铁路线路线要素图层{city_railway}进行要素折点转点,生成线路折点点要素图层{city_railway_points},设每条铁路线路起始点的里程坐标为0,将折线长度进行累加计算得到各铁路线路上折点的里程坐标;
S105、找到铁路沿线基站点要素图层{bs_railway}的铁路沿线基站在铁路线路线要素图层{city_railway}各条铁路线路上的投影点bs_railway_i(i=1,2,...,N),并合并这些投影点,生成为投影点要素图层{bs_railway_project},通过计算投影点到投影点所在铁路线路折线的起点之间的距离,再加上步骤S104中得到的该折线起点里程坐标,进而得到铁路沿线基站的里程坐标;
S106、将铁路沿线基站点要素图层{bs_railway}进行分区,对每个区段添加区段标号ZONE,根据区段转换为节点,铁路线路简化为节点之间的路径,形成城市铁路线路拓扑图,根据用户铁路出行进出城市的区段序列,以推断其到发的终点站,区段序列、铁路线路和终点站之间存在映射关系,映射关系表示为:
Line=f1(List)
Station=f2(Line)
其中,Line为铁路线路,List为区段序列,Station为终点站,f1、f2分别表示映射关系。
所述的步骤S2中,对手机信令数据进行预处理的过程具体包括以下步骤:
S201:将手机信令数据表与基站位置信息表中的位置区域编码LAC和小区标识CI字段进行匹配,筛选得到无重复且有效的用户所在时刻与位置信息,生成用户有效信令数据表T1,T1中的字段包括<MSID,DATETIME,LAC,CI,LON,LAT>,其中,MSID为用户唯一识别号,DATETIME为时间戳格式的时刻,LON为基站经度,LAT为基站纬度;
S202:将用户有效信令数据表T1中的所有用户有效信令数据记录按照DATETIME排序,对第一条数据记录添加信令分段标记VISIT,并标记为1,计算第一条数据记录与后一条数据记录的时间差并记为INTERVAL,若INTERVAL小于设定的缺失间隔阈值loss_interval,则后一条数据记录的VISIT与前一条数据记录相同,表示此条数据记录是用户第VISIT次在城市内,若INTERVAL不小于缺失间隔阈值loss_interval,则对后一条数据记录的VISIT在前一条数据记录的VISIT累加1,以此计算前后两条数据记录的时间差INTERVAL至所有数据记录被标记,并得到用户信令分段数据表T2,T2中的字段包括<MSID,DATETIME,LAC,CI,LON,LAT,VISIT>;
S203:T2中相同的信令分段标记VISIT为一个信令分段,获取用户的每个信令分段中的最小时刻和最大时刻,并生成用户分段始终时刻表T3,T3中的字段包括<MSID,VISIT,STIME,ETIME>,STIME为每个信令分段的开始时刻,即最小时刻,ETIME为每个信令分段的结束时刻,即最大时刻;
S204:T2匹配T3中对应的MSID和VISIT字段,在每条记录后添加STIME和ETIME,根据设定的市内城际出行时间阈值travel_threshold和方向标记公式筛选T2中用户每个信令分段中进入城市和离开城市的行程片段,并添加方向DIRECTION标记,进而生成用户出行信令数据表T4,T4中的字段包括<MSID,DATETIME,LAC,CI,LON,LAT,VISIT,STIME,ETIME,DIRECTION>,DIRECTION为方向,方向标记公式为:
Figure BDA0003288884750000041
其中,DIRECTION=in表示进入城市,DIRECTION=out表示离开城市;
S205:将车站基站点要素图层{bs_station}中的车站基站数据和铁路沿线基站点要素图层{bs_railway}中的铁路沿线基站数据合并至新表中,并添加基站位置信息GROUP,如果是车站基站,GROUP为车站名,如果是铁路沿线基站,GROUP为railway,如果没有匹配到基站则GROUP为none,将T4按照用户每个信令分段的每个行程片段进行分组,对每组数据的LAC和CI进行基站匹配,生成用户基站位置信息表T5,T5中的字段包括<MSID,DATETIME,LAC,CI,LON,LAT,VISIT,STIME,ETIME,DIRECTION,GROUP>。
所述的步骤S3中,进行铁路位置信息分类的具体操作为:
对T5的每条数据记录添加片段类别标记CLASS,若用户该次出行只与车站基站匹配则标记为stationonly,表示只有车站信息,若用户该次出行只与铁路沿线基站匹配则标记为railonly,表示只有铁路信息,若用户该次出行与车站基站和铁路沿线基站均匹配则标记为railstation,表示车站铁路信息都有,若GROUP为none则CLASS标记为none,并生成用户铁路位置信息分类T6,T6中的字段包括<MSID,DATETIME,LAC,CI,LON,LAT,VISIT,STIME,ETIME,DIRECTION,GROUP,CLASS>。
所述的步骤S4中,对只有车站信息的数据进行轨迹识别的过程具体包括以下步骤:
S401:提取T6中CLASS为stationonly的数据,并生成用户铁路出行数据临时表TEMP1,TEMP1的字段与T6的字段一致;
S402:提取TEMP1中方向DIRECTION为in的数据,并按照DATETIME的顺序排序,选择第一条且GROUP不为none的数据,生成用户进入车站表R1,并将GROUP字段名修改为STATION_ONLY1,R1中的字段包括<MSID,VISIT,DIRECTION,STATION_ONLY1>;
S403:提取TEMP1中方向DIRECTION为out的数据,并按照DATETIME的逆序排序,选择第一条且GROUP不为none的数据,生成用户离开车站表R2,并将GROUP字段名修改为STATION_ONLY2,R2中的字段包括<MSID,VISIT,DIRECTION,STATION_ONLY2>。
所述的步骤S4中,对只有铁路信息的数据以及车站铁路信息都有的数据进行轨迹识别的过程具体包括以下步骤:
S411:匹配铁路线路区段:选择T6中CLASS为railonly或railstation的数据,根据具有区段标号ZONE的铁路沿线基站点要素图层{bs_railway}生成用户铁路出行区段表T7,T7中的字段有<MSID,DATETIME,LAC,CI,LON,LAT,VISIT,STIME,ETIME,DIRECTION,GROUP,CLASS,ZONE>,ZONE表示铁路沿线基站的区段标号,ZONE为-1时表示该基站不在铁路沿线;
S412:预估线路和车站:根据T7生成用户不同的行程片段中ZONE不为-1的铁路沿线基站的区段标号序列LIST,根据方向DRECTION调整LIST顺序得到temp1,再根据temp1获取不重复区段标号序列temp2,记录该行程片段所有符合判断条件的铁路线路为预估线路line并汇总成预估线路结果LINE1,得到每条预估线路line对应的车站station并汇总成STATION1,进而生成用户铁路出行预估车站表T8,T8中的字段包括<MSID,VISIT,DIRECTION,LINE1,STATION1,CLASS>:
Figure BDA0003288884750000051
temp2=Fromkeys(temp1)
Figure BDA0003288884750000052
station=f2(line)
其中,Reverse(·)为逆序输出序列的函数,Fromkeys(·)为顺序输出不重复元素组成的序列的函数,Index(temp2p,Listi)为找到序列Listi中temp2p元素索引的函数,{·}为序列中不重复的元素组成的集合,|·|为序列或集合内元素的个数,Listi为铁路线路i沿线基站的区段序列,temp2p为用户某个行程片段内匹配铁路沿线基站并调整方向后的不重复区段标号序列中第p个元素,temp2q为用户某个行程片段内匹配铁路沿线基站并调整方向后的不重复区段标号序列中第q个元素;
S413:排除有异常点的预估线路和车站:将T8的预估线路结果LINE1与T7进行匹配,计算T7中ZONE为-1的基站投影到每条预估线路的投影距离,若投影距离大于设定的异常值阈值outliers_threshold,则删除该预估线路,进而生成用户铁路出行车站表T9,T9中的字段包括<MSID,VISIT,DIRECTION,LINE2,STATION2,CLASS>,LINE2和STATION2为排除异常点后的预估线路结果和车站;
S414:计算速度:将T9的预估线路结果LINE2与T8进行匹配,选择其中一条预估线路并记为LINE3,根据投影点要素图层{bs_railway_project}中含里程坐标的基站投影点获取ZONE不为-1的基站的里程,进而计算相邻匹配基站之间的里程差DIST1、时间差DIFF1以及平均车速SPEED1,并生成用户铁路出行车速表T10,T10中的字段包括<MSID,VISIT,DIRECTION,TIME1,TIME2,LON1,LAT1,LON2,LAT2,P1,P2,DIST1,DIFF1,SPEED1,LINE3>,计算相邻匹配基站之间里程差DIST1、时间差DIFF1以及平均车速SPEED1的公式分别为:
Figure BDA0003288884750000061
DIFF1=TIME2-TIME1
Figure BDA0003288884750000062
其中,TIME1为前一个匹配基站的时间戳,TIME2为后一个匹配基站的时间戳,P1为前一个匹配基站的里程,P2为后一个匹配基站的里程,DIST1为相邻匹配基站的里程之差,DIFF1为相邻匹配基站的时间戳之差,SPEED1为相邻匹配基站之间的车速,LINE3为提供里程数据的预估线路;
S415:生成特征指标:特征指标包括方向、路程、平均速度、有效记录数和出行数据有效性,根据T10生成用户铁路出行每条数据记录的数据有效性LABEL,再根据所有LABEL组成的集合{Label}以及时间和里程之间的相关系数R(TIME,P)计算特征指标有效记录数NUM、用户该次铁路出行所有数据记录的出行数据有效性STOP_INFO、路程DIST2、时间差DIFF2和平均车速SPEED2,并生成用户铁路出行特征表T11,T11中的字段包括<MSID,VISIT,DIRECTION,NUM,STOP_INFO,DIST2,DIFF2,SPEED2>;
S416:筛选合理出行:根据T11得到的特征指标,基于设定的识别规则筛选用户铁路出行的数据记录,根据T9匹配MSID、VISIT和DIRECTION字段,生成用户铁路出行表T12,T12中的字段包括<MSID,VISIT,DIRECTION,STATION2,CLASS>,识别规则具体为:
Figure BDA0003288884750000071
其中,TLL为路程下限,SLL为平均速度下限,RLL为出行数据有效性下限,NLL为有效记录数下限;
S417:输出只有铁路信息的识别结果:选择T12中CLASS为railonly的记录,并将STATION2字段名修改为RAIL_ONLY,输出只有铁路信息的用户车站表R3,R3中的字段包括<MSID,VISIT,DIRECTION,RAIL_ONLY>;
S418:输出车站铁路信息都有的识别结果:选择T12中CLASS为railstation的记录,匹配T12和T7的MSID、VISIT和DIRECTION字段,若STATION2和GROUP中存在唯一相同的车站,则识别出的车站信息为STATION2,否则取STATION2和GROUP的交集,并用RAIL_STATION表示最终车站结果,输出车站铁路信息都有的用户车站表R4,R4中的字段包括<MSID,VISIT,DIRECTION,RAIL_STATION>;
S419:将R1、R2、R3和R4合并,生成最终用户铁路车站结果表R5,R5中字段包括<MSID,VISIT,DIRECTION,RESULT>,RESULT为最终识别出的车站信息。
所述的步骤S415中,计算用户每条数据记录的数据有效性LABEL的公式为:
Figure BDA0003288884750000081
其中,LABEL表示用户每条数据记录的数据有效性,取值为0时表示无效,取值为1时表示正向低速移动,取值为2时表示高速移动,取值为3时表示反向移动,取值为4时表示在车站范围里停留,取值为5时表示在车站范围外停留,diff1_threshold为数据有效的时间间隔阈值,dist1_threshold为判断火车存在移动的距离阈值,speed1_threshold为高速移动的速度阈值,CalDist(LON,LAT,lonstation,latstation)为计算基站和车站中心经纬度距离的函数,lonstation、latstation和Rangestation分别为车站中心经度、车站中心纬度和车站覆盖半径,LON为基站经度,LAT为基站纬度,stop_threshold为火车在车站停留的时长阈值;
计算出行数据有效性STOP_INFO的公式为:
Figure BDA0003288884750000091
其中,STOP_INFO为用户该次铁路出行的出行数据有效性,取值为-2时表示无效,取值从-1到1时表示时间和里程之间的相关系数R,取值为2时表示存在高速移动,即铁路出行,取值为3时表示只有两条有效记录且里程增大,取值为-3时表示只有两条有效记录且里程减小,取值为4时表示相关系数R不存在,{Label}为每个行程片段中每行LABEL构成的集合,|·|为集合内元素的个数,R(TIME,P)为计算满足数据有效时间差阈值的时刻TIME和里程P两个变量的相关系数的函数,表示时间和里程之间的相关系数,取值范围为[-1,1],R大于0表示进入方向,R小于0表示离开方向。
所述的步骤S415中,计算路程DIST2、时间差DIFF2和平均车速SPEED2的公式分别为:
DIST2=max(P)-min(P)
Figure BDA0003288884750000092
Figure BDA0003288884750000093
其中,DIST2表示路程,DIFF2表示时间差,max(·)表示取最大值,min(·)表示取最小值,TIME为满足数据有效时间差阈值的时刻,P表示里程,SPEED2表示平均速度,TIMEmax(P)和TIMEmin(P)分别为里程最大值对应的时刻和里程最小值对应的时刻。
一种市域内部铁路出行轨迹识别装置,包括存储器和处理器;所述的存储器用以存储计算机程序;所述的处理器用以当执行所述计算机程序时,实现市域内部铁路出行轨迹识别方法。
一种存储介质,其上存储有程序,该程序被处理器执行时实现市域内部铁路出行轨迹识别方法。
与现有技术相比,本发明具有以下优点:
(1)将城市中二维的铁路网络简化为一维的铁路线路,根据该线路的铁路里程坐标计算出行距离、出行速度等相关指标,比根据基站经纬度直接计算更为精确;
(2)通过铁路出行轨迹的识别,在车站数据缺失的情况下依然能根据轨迹经过的铁路区段序列推断出车站位置;
(3)计算路程时考虑手机信令数据乒乓切换造成的数据振荡,增强了算法的鲁棒性;
(4)排除了偏离铁路线路较远或不在中间站或终点站停留的非铁路出行。
附图说明
图1为本发明的一种基于手机信令数据的市域内部铁路出行轨迹识别方法的流程框图。
图2为本发明实施例中上海市主要铁路沿线基站区段编号示意图。
图3为本发明实施例中上海市主要铁路线路拓扑图。
图4为本发明实施例中得到的特征指标分布图,其中,图(4a)为路程的分布图,图(4b)为平均速度的分布图,图(4c)为出行数据有效性的分布图,图(4d)为有效记录数的分布图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
在本实施例中以上海市的手机信令数据为数据基础进行说明,因城市瞬时人口中访客相比与居民城际出行更为频繁,因此本实例识别访客进出上海的火车站位置。
手机信令数据表和基站位置信息表如表1和表2所示:
表1手机信令数据表
Figure BDA0003288884750000111
表2基站位置信息表
Figure BDA0003288884750000112
如图1所示,一种基于手机信令数据的市域内部铁路出行轨迹识别方法,该方法包括以下步骤:
S1:对基站数据进行预处理,根据地图数据选择车站覆盖范围内的基站,计算邻近铁路的基站投影在铁路线路上的里程坐标,进而生成线路区段组合;
S2:对手机信令数据进行预处理,根据缺失间隔阈值和市内城际出行时间阈值划分用户进出城市的行程片段,并对其进行基站匹配,得到匹配基站位置信息;
S3:根据基站位置信息进行铁路位置信息分类;
S4:对不同铁路位置信息的数据进行轨迹识别,并输出用户铁路出行的车站位置信息。
步骤S1具体包括以下步骤:
S101:使用ArcGIS软件中的在线地图OpenStreetMap生成上海市内主要铁路线路线要素图层{sh_railway},包括上海站到发的既有京沪线、上海站到发的沪宁城际线、上海虹桥站到发的京沪高铁线、上海虹桥站到发的沪昆高铁线、上海站到发的沪杭高铁线(包括上海站与上海虹桥站之间的沪昆线和沪昆高铁线)、上海南站到发杭州方向的既有沪昆线和上海南站到发南京方向的既有沪昆线,共计7条线路,绘制线路时按照火车进入城市的方向绘制,以判断用户进出城市的方向;
S102:根据铁路线路设置缓冲区并生成缓冲区面要素图层,设缓冲区的宽度为buffer米,buffer取值为500,将基于基站数据得到的基站点要素图层{bs_shanghai}与缓冲区面要素图层进行相交操作,获得铁路沿线基站点要素图层{bs_railway1};
S103:找到覆盖上海市内铁路终点站上海站、上海南站和上海虹桥站实际所在区域的基站,得到车站基站点图层要素{bs_station},在铁路沿线基站点要素图层{bs_railway1}排除终点站附近的基站,得到不含终点站基站的铁路沿线基站点要素图层{bs_railway},根据地图数据获取覆盖上海市各主要铁路线路中间站(安亭北站、南翔北站、上海西站、松江南站、金山北站、松江站)以及终点站(上海站、上海南站、上海虹桥站)的车站中心位置经纬度lonstation、latstation与覆盖半径Rangestation,得到列车在终点站和中间站可能出现停留的停留点要素图层{bs_stop};
S104:将铁路线路线要素图层{sh_railway}进行“要素折点转点”操作,点类型选择“ALL”,并进行“添加XY坐标”的操作,得到线路折点点要素图层{sh_railway_points},设每条铁路线路起始点的里程坐标为0,将折线长度进行累加计算得到各铁路线路上折点的里程坐标;
S105:将铁路沿线基站点要素图层{bs_railway}与铁路线路线要素图层{sh_railway}进行生成近邻表的操作,并勾选“位置”,找到铁路沿线基站点要素图层{bs_railway}的铁路沿线基站在铁路线路线要素图层{sh_railway}各条铁路线路上的投影点bs_railway_i(i=1,2,...,N),并合并这些投影点,生成为投影点要素图层{bs_railway_project},通过计算投影点到投影点所在铁路线路折线的起点之间的距离,再加上步骤S104中得到的该折线起点里程坐标,进而得到铁路沿线基站的里程坐标;
S106:将铁路沿线基站点要素图层{bs_railway}进行分区,对每个区段添加区段标号ZONE,如图2所示,根据区段转换为节点,铁路线路简化为节点之间的路径,形成上海市主要铁路线路拓扑图,如图3所示,根据用户铁路出行进出城市的区段序列,以推断其到发的终点站,区段序列、铁路线路和终点站之间存在映射关系,如表3所示,且用公式可表示为:
Line=f1(List) (1)
Station=f2(Line) (2)
其中,Line为铁路线路,List为区段序列,Station为终点站,f1、f2分别表示映射关系。
表3线路、区段序列(进入上海方向)与车站对应关系表
Figure BDA0003288884750000131
步骤S2具体包括以下步骤:
S201:将手机信令数据表与基站位置信息表中的位置区域编码LAC和小区标识CI字段进行匹配,筛选得到无重复且有效的用户所在时刻与位置信息,生成用户有效信令数据表T1,T1中的字段包括<MSID,DATETIME,LAC,CI,LON,LAT>,其中,MSID为用户唯一识别号,DATETIME为时间戳格式的时刻,LON为基站经度,LAT为基站纬度;
S202:通过基于手机信令数据的城市访客识别方法识别出上海市的访客群体,并得到预处理中间过程数据表T2和用户分类表T3,具体方法为:
对有效信令数据表T1按用户唯一识别号MSID进行分组,对各个用户的有效信令数据进行分箱处理,各条有效信令数据按照分箱时长bin_length进行分组,每组生成加权时刻为TIME、加权经纬度坐标为(LON1,LAT1)的加权时空间信令数据;对空间坐标进行栅格划分,栅格边长为raster_length,将所有加权时空间信令数据中的经纬度坐标(LON1,LAT1)匹配至相应栅格,得到栅格标号为(LONID,LATID);然后进行出行生成算法处理,生成用户预处理中间过程数据表T2,并标记包括缺失记录的信令分段VISIT,T2中的字段包括<MSID,START_TIME,START_LONID,START_LATID,END_TIME,END_LONID,END_LATID,DURA,STOP,VISIT>,START_TIME为用户离开栅格(START_LONID,START_LATID)的时刻,END_TIME表示用户进入栅格(END_LONID,END_LATID)的时刻,(START_LONID,START_LATID)和(END_LONID,END_LATID)均为栅格标号,DURA为END_TIME和START_TIME的时间差,STOP=1表示前后栅格标号一致,用户在此栅格中活动,STOP=0表示前后栅格标号不同,用户产生了移动,如果DURA大于缺失间隔阈值loss_interval,则STOP=-1,表示此时段内信令数据存在缺失,VISIT标记为loss,表示此条信息的时间范围内用户不在城市内,如果DURA小于等于loss_interval,则V1SIT标记为数字,表示此条信息属于用户第V1SIT次在城市内,bin_length取值为10分钟,raster_length取值为500米,loss_interval取值为1800分钟;T3中的字段包括<MSID,TYPE>,TYPE取值为RESIDENT、VISITOR或UNKNOWN,选取T3中的VISITOR,再通过MSID匹配T2,得到访客信令分段数据表T4,T4中的字段包括<VISITOR_ID,START_TIME,END_TIME,VISIT>;
S203:根据T4中的信令分段标记VISIT计算访客每个信令分段中的开始时刻STIME和结束时刻ETIME,并生成访客分段始终时刻表T5,T5中的字段包括<VISITOR_ID,VISIT,STIME,ETIME>,STIME为每个信令分段的开始时刻,ETIME为每个信令分段的结束时刻;
STIME=min(START_TIME)-bin_length/2 (3)
ETIME=max(END_TIME)-bin_length/2 (4)
S204:T1匹配T5中对应的VISITOR_ID和VISIT字段,在每条记录后添加STIME和ETIME,再根据市内城际出行时间阈值travel_threshold和方向标记公式筛选T1中访客每次信令分段中进入城市和离开城市的行程片段,travel_threshold取值为60分钟,并添加方向DIRECTION标记(进入或离开),进而生成访客出行信令数据表T6,T6中的字段包括<VISITOR_ID,DATETIME,LAC,CI,LON,LAT,VISIT,STIME,ETIME,DIRECTION>,DIRECTION为方向,方向标记公式为:
Figure BDA0003288884750000141
S205:将车站基站点要素图层{bs_station}中的车站基站数据和铁路沿线基站点要素图层{bs_railway}中的铁路沿线基站数据合并至新表中,并添加基站位置信息GROUP,如果是车站基站,GROUP为车站名,如果是铁路沿线基站,GROUP为railway,如果没有匹配到基站则GROUP为none,然后将T6按照访客每个信令分段的每个行程片段进行分组,对每组数据匹配LAC和CI,生成基站位置信息表T7,T7中的字段包括<MSID,DATETIME,LAC,CI,LON,LAT,VISIT,STIME,ETIME,DIRECTION,GROUP>。
在步骤S3中,进行铁路位置信息分类的具体操作为:
对T7的每条数据记录添加片段类别标记CLASS,若用户该次出行只与车站基站匹配则标记为stationonly,表示只有车站信息,若用户该次出行只与铁路沿线基站匹配则标记为railonly,表示只有铁路信息,若用户该次出行与车站基站和铁路沿线基站均匹配则标记为railstation,表示车站铁路信息都有,若GROUP为none则CLASS标记为none,并生成访客铁路位置信息分类T8,T8中的字段包括<VISITOR_ID,DATETIME,LAC,CI,LON,LAT,VISIT,STIME,ETIME,DIRECTION,GROUP,CLASS>。
在步骤S4中,对只有车站信息的数据进行轨迹识别的过程具体包括以下步骤:
S401:选择T8中的CLASS为stationonly的数据,生成访客铁路出行数据临时表TEMP1,TEMP1中的字段与T8的字段一致;
S402:选择TEMP1中方向DIRECTION为in的数据,并按照访客DATETIME顺序进行排序,选择第一条且GROUP不为none的数据,生成访客进入车站表R1,并将GROUP字段名修改为STATION_ONLY1,R1中的字段包括<VISITOR_ID,VISIT,DIRECTION,STATION_ONLY1>;
S403:选择TEMP1中方向DIRECTION为out的数据,并按照访客DATETIME逆序排序,选择第一条且GROUP不为none的数据,生成访客离开车站表R2,将GROUP字段名修改为STATION_ONLY2,R2中的字段包括<VISITOR_ID,VISIT,DIRECTION,STATION_ONLY2>。
在步骤S4中,对只有铁路信息的数据以及车站铁路信息都有的数据进行轨迹识别的过程具体包括以下步骤:
S411:匹配铁路线路区段:选择T8中CLASS为railonly或railstation的数据,根据具有区段标号ZONE的铁路沿线基站点要素图层{bs_railway}的铁路沿线基站生成访客铁路出行区段表T9,T9中的字段包括<VISITOR_ID,DATETIME,LAC,CI,LON,LAT,VISIT,STIME,ETIME,DIRECTION,GROUP,CLASS,ZONE>,ZONE表示铁路沿线基站的区段标号,ZONE为-1时表示该基站不在铁路沿线;
S412:预估线路和车站:根据T9生成访客不同的行程片段中ZONE不为-1的铁路沿线基站的区段标号序列LIST,根据访客城际出行方向DRECTION通过公式(6)调整LIST顺序,得到temp1,再根据公式(7)获取LIST的不重复序列temp2,然后通过公式(8)判断LIST元素的集合是各条线路的区段序列的子集,验证temp2的各元素在线路区段序列中的索引单调递增,进而记录该访客城际出行所有符合判断条件的铁路线路line并汇总成预估线路结果LINE1,并根据公式(9)生成所有符合判断条件的铁路线路line对应的station,并汇总成STATION1,进而生成访客铁路出行预估车站表T10,T10中的字段包括<VISITOR_ID,VISIT,DIRECTION,LINE1,STATION1,CLASS>,调整LIST顺序的公式为:
Figure BDA0003288884750000161
其中,Reverse(·)为逆序输出某个序列的函数;
获取temp1的不重复区段标号序列temp2的公式为:
temp2=Fromkeys(temp1) (7)
其中,Fromkeys(·)为顺序输出某个序列的不重复元素组成的序列的函数;
生成所有符合判断条件的铁路线路line的公式为:
Figure BDA0003288884750000162
其中,Index(a,b)为找到序列b中a元素索引的函数,{·}为序列中不重复的元素组成的集合,|·|为序列或集合内元素的个数,Listi为铁路线路i沿线基站的区段序列,temp2p为用户某个行程片段被匹配铁路沿线基站并调整方向后的不重复区段标号序列中第p个元素,temp2q为用户某个行程片段匹配铁路沿线基站并调整方向后的不重复区段标号序列中第q个元素;
生成所有符合判断条件的铁路线路line对应的station的公式为:
station=f2(line) (9)
其中,station表示车站,包括中间站和终点站;
S413:排除有异常点的预估线路和车站:将T10的预估线路结果LINE1与T9进行匹配,计算T9中ZONE为-1的基站投影到每条预估线路的投影距离,若投影距离大于异常值阈值outliers_threshold,outliers_threshold取值为3千米,则删除该预估线路,进而生成访客铁路出行车站表T11,T11中的字段有包括<VISITOR_ID,VISIT、DIRECTION,LINE2,STATION2,CLASS>,其中,LINE2和STATION2为排除异常点后的预估线路与车站;
S414:计算速度:将T11的预估线路结果LINE2与T9进行匹配,选择其中一条预估线路并记为LINE3,根据投影点要素图层{bs_railway_project}中含里程坐标的基站投影点获取ZONE不为-1的基站的里程,进而计算相邻匹配基站之间的里程差DIST1、时间差DIFF1以及平均车速SPEED1,并生成访客铁路出行车速表T12,T12中的字段包括<VISITOR_ID,VISIT,DIRECTION,TIME1,TIME2,LON1,LAT1,LON2,LAT2,P1,P2,DIST1,DIFF1,SPEED1,LINE3>,计算相邻匹配基站之间里程差DIST1、时间差DIFF1以及平均车速SPEED1的公式分别为:
Figure BDA0003288884750000171
DIFF1=TIME2-TIME1 (11)
Figure BDA0003288884750000172
其中,TIME1为前一个匹配基站的时间戳,TIME2为后一个匹配基站的时间戳,P1为前一个匹配基站的里程,P2为后一个匹配基站的里程,DIST1为相邻匹配基站的里程之差,DIFF1为相邻匹配基站的时间戳之差,SPEED1为相邻匹配基站之间的车速,LINE3为提供里程数据的预估线路;
S415:生成特征指标:根据T12和公式(13)生成访客铁路出行每条数据记录的数据有效性LABEL,再根据所有LABEL组成的集合{Label}以及时间和里程之间的相关系数R(TIME,P)计算特征指标有效记录数NUM、访客该次铁路出行所有数据记录的出行数据有效性STOP_INFO、路程DIST2(最大里程与最小里程之差)、时间差DIFF2以及平均车速SPEED2,并生成访客铁路出行特征表T13,T13中的字段包括<VISITOR_ID,VISIT,DIRECTION,NUM,STOP_INFO,DIST2,DIFF2,SPEED2>,生成访客铁路出行每条数据记录的数据有效性LABEL的公式为:
Figure BDA0003288884750000181
其中,LABEL表示访客每条数据记录的数据有效性,取值为0时表示无效,取值为1时表示正向低速移动,取值为2时表示高速移动,取值为3时表示反向移动,取值为4时表示在车站范围里停留,取值为5时表示在车站范围外停留,diff1_threshold为数据有效的时间间隔阈值,设为3秒,dist1_threshold为判断火车存在移动的距离阈值,设为3千米,speed1_threshold为高速移动的速度阈值,设为120千米/小时,CalDist(LON,LAT,lonstation,latstation)为计算基站和车站中心经纬度距离的函数,lonstation、latstation和Rangestation为车站中心经度、车站中心纬度和车站覆盖半径,LON为基站经度,LAT为基站纬度,stop_threshold为火车在车站停留的时长阈值,设为2分钟;
计算出行数据有效性STOP_INFO的公式为:
Figure BDA0003288884750000191
其中,STOP_INFO为访客该次铁路出行的出行数据有效性,取值为-2时表示无效,取值从-1到1时表示时间和里程之间的相关系数R,取值为2时表示存在高速移动,即铁路出行,取值为3时表示只有两条有效记录且里程增大,取值为-3时表示只有两条有效记录且里程减小,取值为4时表示相关系数R不存在,{Label}为访客每个行程片段中每行LABEL构成的集合,|·|为集合内元素的个数,R(TIME,P)为计算满足数据有效时间差阈值的时刻TIME和里程P两个变量的相关系数的函数,表示时间和里程之间的相关系数,取值范围为[-1,1],R大于0表示进入方向,R小于0表示离开方向;
计算路程DIST2、时间差DIFF2和平均车速SPEED2的公式分别为:
DIST2=max(P)-min(P) (15)
Figure BDA0003288884750000192
Figure BDA0003288884750000193
其中,DIST2表示路程,DIFF2表示时间差,max(·)表示取最大值,min(·)表示取最小值,TIME为满足数据有效时间差阈值的时刻,P表示里程,SPEED2表示平均速度,TIMEmax(P)和TIMEmin(P)分别为里程最大值对应的时刻和里程最小值对应的时刻;
S416:筛选合理出行:根据T13计算特征指标的分布,如图4所示,设定路程下限TLL为10千米、平均速度下限SLL为80千米/小时、出行数据有效性下限RLL为0.95以及有效记录数下限NLL为5,然后定义访客合理铁路出行的识别规则,即若该出行为远距离高速出行、时刻里程呈明显线性关系或存在瞬时高速移动则认为是铁路出行,如表4所示:
表4访客铁路出行识别规则
Figure BDA0003288884750000201
根据识别规则对T13进行筛选,然后根据T11匹配VISITOR_ID、VISIT和DIRECTION字段,并生成访客铁路出行表T14,T14中的字段包括<VISITOR_ID,VISIT,DIRECTION,STATION2,CLASS>;
S417:输出只有铁路信息的识别结果:选择T14中CLASS为railonly的记录,将STATION2字段名修改为RAIL_ONLY,输出只有铁路信息的访客车站表R3,R3中的字段包括<VISITOR_ID,VISIT,DIRECTION,RAIL_ONLY>;
S418:输出车站铁路信息都有的识别结果:选择T14中CLASS为railstation的记录,匹配T14和T9的VISITOR_ID、VISIT和DIRECTION字段,若STATION2和GROUP中存在唯一的车站,则识别出的车站信息为STATION2,否则取STATION2和GROUP取值的交集,并用RAIL_STATION表示最终车站结果,输出车站铁路信息都有的访客车站表R4,R4中的字段包括<VISITOR_ID,VISIT,DIRECTION,RAIL_STATION>;
S419:将R1、R2、R3和R4合并,生成最终访客铁路车站结果表R5,R5中字段包括<VISITOR_ID,VISIT,DIRECTION,RESULT>,RESULT为最终识别出的车站信息。
根据出行方向汇总不同位置信息类别的车站访客到发量,如表5所示:
表5访客铁路车站识别结果
Figure BDA0003288884750000211
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种市域内部铁路出行轨迹识别方法,其特征在于,该方法包括以下步骤:
S1、对基站数据进行预处理,根据地图数据选择车站覆盖范围内的基站,计算邻近铁路的基站投影在铁路线路上的里程坐标,进而生成线路区段组合;
S2、对手机信令数据进行预处理,根据缺失间隔阈值和市内城际出行时间阈值划分用户进出城市的行程片段,并对其进行基站匹配,得到匹配基站位置信息;
S3、根据基站位置信息进行铁路位置信息分类;
S4、对不同铁路位置信息的数据进行轨迹识别,并输出用户铁路出行的车站位置信息。
2.根据权利要求1所述的一种市域内部铁路出行轨迹识别方法,其特征在于,所述的步骤S1中,对基站数据进行预处理的过程具体包括以下步骤:
S101、采用ArcGIS软件中的在线地图OpenStreetMap生成城市内的铁路线路线要素图层{city_railway},铁路线路的方向为火车进入城市的方向,以判断用户进出城市的方向;
S102、根据铁路线路设置缓冲区并生成缓冲区面要素图层,设缓冲区的宽度为buffer米,将基于基站数据得到的基站点要素图层{bs_city}与缓冲区面要素图层进行相交操作,获得铁路沿线基站点要素图层{bs_railway1};
S103、获取覆盖城市终点站实际所在区域的基站,得到车站基站点要素图层{bs_station},在铁路沿线基站点要素图层{bs_railway1}上排除终点站附近的基站,得到不含终点站基站的铁路沿线基站点要素图层{bs_railway},根据地图数据获取覆盖城市各铁路线路的车站中心位置经纬度lonstation、latstation与覆盖半径Rangestation,车站包括中间站和终点站,得到列车可能出现停留的停留点要素图层{bs_stop};
S104、将铁路线路线要素图层{city_railway}进行要素折点转点,生成线路折点点要素图层{city_railway_points},设每条铁路线路起始点的里程坐标为0,将折线长度进行累加计算得到各铁路线路上折点的里程坐标;
S105、找到铁路沿线基站点要素图层{bs_railway}的铁路沿线基站在铁路线路线要素图层{city_railway}各条铁路线路上的投影点bs_railway_i(i=1,2,...,N),并合并这些投影点,生成为投影点要素图层{bs_railway_project},通过计算投影点到投影点所在铁路线路折线的起点之间的距离,再加上步骤S104中得到的该折线起点里程坐标,进而得到铁路沿线基站的里程坐标;
S106、将铁路沿线基站点要素图层{bs_railway}进行分区,对每个区段添加区段标号ZONE,根据区段转换为节点,铁路线路简化为节点之间的路径,形成城市铁路线路拓扑图,根据用户铁路出行进出城市的区段序列,以推断其到发的终点站,区段序列、铁路线路和终点站之间存在映射关系,映射关系表示为:
Line=f1(List)
Station=f2(Line)
其中,Line为铁路线路,List为区段序列,Station为终点站,f1、f2分别表示映射关系。
3.根据权利要求1所述的一种市域内部铁路出行轨迹识别方法,其特征在于,所述的步骤S2中,对手机信令数据进行预处理的过程具体包括以下步骤:
S201:将手机信令数据表与基站位置信息表中的位置区域编码LAC和小区标识CI字段进行匹配,筛选得到无重复且有效的用户所在时刻与位置信息,生成用户有效信令数据表T1,T1中的字段包括<MSID,DATETIME,LAC,CI,LON,LAT>,其中,MSID为用户唯一识别号,DATETIME为时间戳格式的时刻,LON为基站经度,LAT为基站纬度;
S202:将用户有效信令数据表T1中的所有用户有效信令数据记录按照DATETIME排序,对第一条数据记录添加信令分段标记VISIT,并标记为1,计算第一条数据记录与后一条数据记录的时间差并记为INTERVAL,若INTERVAL小于设定的缺失间隔阈值loss_interval,则后一条数据记录的VISIT与前一条数据记录相同,表示此条数据记录是用户第VISIT次在城市内,若INTERVAL不小于缺失间隔阈值loss_interval,则对后一条数据记录的VISIT在前一条数据记录的VISIT累加1,以此计算前后两条数据记录的时间差INTERVAL至所有数据记录被标记,并得到用户信令分段数据表T2,T2中的字段包括<MSID,DATETIME,LAC,CI,LON,LAT,VISIT>;
S203:T2中相同的信令分段标记VISIT为一个信令分段,获取用户的每个信令分段中的最小时刻和最大时刻,并生成用户分段始终时刻表T3,T3中的字段包括<MSID,VISIT,STIME,ETIME>,STIME为每个信令分段的开始时刻,即最小时刻,ETIME为每个信令分段的结束时刻,即最大时刻;
S204:T2匹配T3中对应的MSID和VISIT字段,在每条记录后添加STIME和ETIME,根据设定的市内城际出行时间阈值travel_threshold和方向标记公式筛选T2中用户每个信令分段中进入城市和离开城市的行程片段,并添加方向DIRECTION标记,进而生成用户出行信令数据表T4,T4中的字段包括<MSID,DATETIME,LAC,CI,LON,LAT,VISIT,STIME,ETIME,DIRECTION>,DIRECTION为方向,方向标记公式为:
Figure FDA0003288884740000031
其中,DIRECTION=in表示进入城市,DIRECTION=out表示离开城市;
S205:将车站基站点要素图层{bs_station}中的车站基站数据和铁路沿线基站点要素图层{bs_railway}中的铁路沿线基站数据合并至新表中,并添加基站位置信息GROUP,如果是车站基站,GROUP为车站名,如果是铁路沿线基站,GROUP为railway,如果没有匹配到基站则GROUP为none,将T4按照用户每个信令分段的每个行程片段进行分组,对每组数据的LAC和CI进行基站匹配,生成用户基站位置信息表T5,T5中的字段包括<MSID,DATETIME,LAC,CI,LON,LAT,VISIT,STIME,ETIME,DIRECTION,GROUP>。
4.根据权利要求1所述的一种市域内部铁路出行轨迹识别方法,其特征在于,所述的步骤S3中,进行铁路位置信息分类的具体操作为:
对T5的每条数据记录添加片段类别标记CLASS,若用户该次出行只与车站基站匹配则标记为stationonly,表示只有车站信息,若用户该次出行只与铁路沿线基站匹配则标记为railonly,表示只有铁路信息,若用户该次出行与车站基站和铁路沿线基站均匹配则标记为railstation,表示车站铁路信息都有,若GROUP为none则CLASS标记为none,并生成用户铁路位置信息分类T6,T6中的字段包括<MSID,DATETIME,LAC,CI,LON,LAT,VISIT,STIME,ETIME,DIRECTION,GROUP,CLASS>。
5.根据权利要求4所述的一种市域内部铁路出行轨迹识别方法,其特征在于,所述的步骤S4中,对只有车站信息的数据进行轨迹识别的过程具体包括以下步骤:
S401:提取T6中CLASS为stationonly的数据,并生成用户铁路出行数据临时表TEMP1,TEMP1的字段与T6的字段一致;
S402:提取TEMP1中方向DIRECTION为in的数据,并按照DATETIME的顺序排序,选择第一条且GROUP不为none的数据,生成用户进入车站表R1,并将GROUP字段名修改为STATION_ONLY1,R1中的字段包括<MSID,VISIT,DIRECTION,STATION_ONLY1>;
S403:提取TEMP1中方向DIRECTION为out的数据,并按照DATETIME的逆序排序,选择第一条且GROUP不为none的数据,生成用户离开车站表R2,并将GROUP字段名修改为STATION_ONLY2,R2中的字段包括<MSID,VISIT,DIRECTION,STATION_ONLY2>。
6.根据权利要求5所述的一种市域内部铁路出行轨迹识别方法,其特征在于,所述的步骤S4中,对只有铁路信息的数据以及车站铁路信息都有的数据进行轨迹识别的过程具体包括以下步骤:
S411:匹配铁路线路区段:选择T6中CLASS为railonly或railstation的数据,根据具有区段标号ZONE的铁路沿线基站点要素图层{bs_railway}生成用户铁路出行区段表T7,T7中的字段有<MSID,DATETIME,LAC,CI,LON,LAT,VISIT,STIME,ETIME,DIRECTION,GROUP,CLASS,ZONE>,ZONE表示铁路沿线基站的区段标号,ZONE为-1时表示该基站不在铁路沿线;
S412:预估线路和车站:根据T7生成用户不同的行程片段中ZONE不为-1的铁路沿线基站的区段标号序列LIST,根据方向DRECTION调整LIST顺序得到temp1,再根据temp1获取不重复区段标号序列temp2,记录该行程片段所有符合判断条件的铁路线路为预估线路line并汇总成预估线路结果LINE1,得到每条预估线路line对应的车站station并汇总成STATION1,进而生成用户铁路出行预估车站表T8,T8中的字段包括<MSID,VISIT,DIRECTION,LINE1,STATION1,CLASS>:
Figure FDA0003288884740000041
temp2=Fromkeys(temp1)
Figure FDA0003288884740000042
station=f2(line)
其中,Reverse(·)为逆序输出序列的函数,Fromkeys(·)为顺序输出不重复元素组成的序列的函数,Index(temp2p,Listi)为找到序列Listi中temp2p元素索引的函数,{·}为序列中不重复的元素组成的集合,|·|为序列或集合内元素的个数,Listi为铁路线路i沿线基站的区段序列,temp2p为用户某个行程片段内匹配铁路沿线基站并调整方向后的不重复区段标号序列中第p个元素,temp2q为用户某个行程片段内匹配铁路沿线基站并调整方向后的不重复区段标号序列中第q个元素;
S413:排除有异常点的预估线路和车站:将T8的预估线路结果LINE1与T7进行匹配,计算T7中ZONE为-1的基站投影到每条预估线路的投影距离,若投影距离大于设定的异常值阈值outliers_threshold,则删除该预估线路,进而生成用户铁路出行车站表T9,T9中的字段包括<MSID,VISIT,DIRECTION,LINE2,STATION2,CLASS>,LINE2和STATION2为排除异常点后的预估线路结果和车站;
S414:计算速度:将T9的预估线路结果LINE2与T8进行匹配,选择其中一条预估线路并记为LINE3,根据投影点要素图层{bs_railway_project}中含里程坐标的基站投影点获取ZONE不为-1的基站的里程,进而计算相邻匹配基站之间的里程差DIST1、时间差DIFF1以及平均车速SPEED1,并生成用户铁路出行车速表T10,T10中的字段包括<MSID,VISIT,DIRECTION,TIME1,TIME2,LON1,LAT1,LON2,LAT2,P1,P2,DIST1,DIFF1,SPEED1,LINE3>,计算相邻匹配基站之间里程差DIST1、时间差DIFF1以及平均车速SPEED1的公式分别为:
Figure FDA0003288884740000051
DIFF1=TIME2-TIME1
Figure FDA0003288884740000052
其中,TIME1为前一个匹配基站的时间戳,TIME2为后一个匹配基站的时间戳,P1为前一个匹配基站的里程,P2为后一个匹配基站的里程,DIST1为相邻匹配基站的里程之差,DIFF1为相邻匹配基站的时间戳之差,SPEED1为相邻匹配基站之间的车速,LINE3为提供里程数据的预估线路;
S415:生成特征指标:特征指标包括方向、路程、平均速度、有效记录数和出行数据有效性,根据T10生成用户铁路出行每条数据记录的数据有效性LABEL,再根据所有LABEL组成的集合{Label}以及时间和里程之间的相关系数R(TIME,P)计算特征指标有效记录数NUM、用户该次铁路出行所有数据记录的出行数据有效性STOP_INFO、路程DIST2、时间差DIFF2和平均车速SPEED2,并生成用户铁路出行特征表T11,T11中的字段包括<MSID,VISIT,DIRECTION,NUM,STOP_INFO,DIST2,DIFF2,SPEED2>;
S416:筛选合理出行:根据T11得到的特征指标,基于设定的识别规则筛选用户铁路出行的数据记录,根据T9匹配MSID、VISIT和DIRECTION字段,生成用户铁路出行表T12,T12中的字段包括<MSID,VISIT,DIRECTION,STATION2,CLASS>,识别规则具体为:
Figure FDA0003288884740000061
其中,TLL为路程下限,SLL为平均速度下限,RLL为出行数据有效性下限,NLL为有效记录数下限;
S417:输出只有铁路信息的识别结果:选择T12中CLASS为railonly的记录,并将STATION2字段名修改为RAIL_ONLY,输出只有铁路信息的用户车站表R3,R3中的字段包括<MSID,VISIT,DIRECTION,RAIL_ONLY>;
S418:输出车站铁路信息都有的识别结果:选择T12中CLASS为railstation的记录,匹配T12和T7的MSID、VISIT和DIRECTION字段,若STATION2和GROUP中存在唯一相同的车站,则识别出的车站信息为STATION2,否则取STATION2和GROUP的交集,并用RAIL_STATION表示最终车站结果,输出车站铁路信息都有的用户车站表R4,R4中的字段包括<MSID,VISIT,DIRECTION,RAIL_STATION>;
S419:将R1、R2、R3和R4合并,生成最终用户铁路车站结果表R5,R5中字段包括<MSID,VISIT,DIRECTION,RESULT>,RESULT为最终识别出的车站信息。
7.根据权利要求6所述的一种市域内部铁路出行轨迹识别方法,其特征在于,所述的步骤S415中,计算用户每条数据记录的数据有效性LABEL的公式为:
Figure FDA0003288884740000071
其中,LABEL表示用户每条数据记录的数据有效性,取值为0时表示无效,取值为1时表示正向低速移动,取值为2时表示高速移动,取值为3时表示反向移动,取值为4时表示在车站范围里停留,取值为5时表示在车站范围外停留,diff1_threshold为数据有效的时间间隔阈值,dist1_threshold为判断火车存在移动的距离阈值,speed1_threshold为高速移动的速度阈值,CalDist(LON,LAT,lonstation,latstation)为计算基站和车站中心经纬度距离的函数,lonstation、latstation和Rangestation分别为车站中心经度、车站中心纬度和车站覆盖半径,LON为基站经度,LAT为基站纬度,stop_threshold为火车在车站停留的时长阈值;
计算出行数据有效性STOP_INFO的公式为:
Figure FDA0003288884740000081
其中,STOP_INFO为用户该次铁路出行的出行数据有效性,取值为-2时表示无效,取值从-1到1时表示时间和里程之间的相关系数R,取值为2时表示存在高速移动,即铁路出行,取值为3时表示只有两条有效记录且里程增大,取值为-3时表示只有两条有效记录且里程减小,取值为4时表示相关系数R不存在,{Label}为每个行程片段中每行LABEL构成的集合,|·|为集合内元素的个数,R(TIME,P)为计算满足数据有效时间差阈值的时刻TIME和里程P两个变量的相关系数的函数,表示时间和里程之间的相关系数,取值范围为[-1,1],R大于0表示进入方向,R小于0表示离开方向。
8.根据权利要求7所述的一种市域内部铁路出行轨迹识别方法,其特征在于,所述的步骤S415中,计算路程DIST2、时间差DIFF2和平均车速SPEED2的公式分别为:
DIST2=max(P)-min(P)
Figure FDA0003288884740000082
Figure FDA0003288884740000083
其中,DIST2表示路程,DIFF2表示时间差,max(·)表示取最大值,min(·)表示取最小值,TIME为满足数据有效时间差阈值的时刻,P表示里程,SPEED2表示平均速度,TIMEmax(P)和TIMEmin(P)分别为里程最大值对应的时刻和里程最小值对应的时刻。
9.一种市域内部铁路出行轨迹识别装置,其特征在于,包括存储器和处理器;所述的存储器用以存储计算机程序;所述的处理器用以当执行所述计算机程序时,实现如权利要求1~8任一项所述的方法。
10.一种存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1~8任一项所述的方法。
CN202111156766.5A 2021-09-30 2021-09-30 一种市域内部铁路出行轨迹识别方法、装置及存储介质 Pending CN113887617A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111156766.5A CN113887617A (zh) 2021-09-30 2021-09-30 一种市域内部铁路出行轨迹识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111156766.5A CN113887617A (zh) 2021-09-30 2021-09-30 一种市域内部铁路出行轨迹识别方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN113887617A true CN113887617A (zh) 2022-01-04

Family

ID=79004616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111156766.5A Pending CN113887617A (zh) 2021-09-30 2021-09-30 一种市域内部铁路出行轨迹识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113887617A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114501336A (zh) * 2022-02-16 2022-05-13 交通运输部科学研究院 一种公路出行量测算方法、装置、电子设备及存储介质
CN114866969A (zh) * 2022-04-12 2022-08-05 江苏欣网视讯软件技术有限公司 基于手机信令大数据的地铁清分清算方法与系统
CN116052436A (zh) * 2023-04-03 2023-05-02 深圳市城市交通规划设计研究中心股份有限公司 一种跨城出行方式识别方法、电子设备及存储介质
CN116980845A (zh) * 2023-09-18 2023-10-31 天津市城市规划设计研究总院有限公司 一种从手机信令数据中提取铁路乘客出行链信息的方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114501336A (zh) * 2022-02-16 2022-05-13 交通运输部科学研究院 一种公路出行量测算方法、装置、电子设备及存储介质
CN114866969A (zh) * 2022-04-12 2022-08-05 江苏欣网视讯软件技术有限公司 基于手机信令大数据的地铁清分清算方法与系统
CN114866969B (zh) * 2022-04-12 2023-08-01 江苏欣网视讯软件技术有限公司 基于手机信令大数据的地铁清分清算方法与系统
CN116052436A (zh) * 2023-04-03 2023-05-02 深圳市城市交通规划设计研究中心股份有限公司 一种跨城出行方式识别方法、电子设备及存储介质
CN116980845A (zh) * 2023-09-18 2023-10-31 天津市城市规划设计研究总院有限公司 一种从手机信令数据中提取铁路乘客出行链信息的方法
CN116980845B (zh) * 2023-09-18 2023-12-26 天津市城市规划设计研究总院有限公司 一种从手机信令数据中提取铁路乘客出行链信息的方法

Similar Documents

Publication Publication Date Title
CN113887617A (zh) 一种市域内部铁路出行轨迹识别方法、装置及存储介质
Hussain et al. Transit OD matrix estimation using smartcard data: Recent developments and future research challenges
Gong et al. A GPS/GIS method for travel mode detection in New York City
Michau et al. Bluetooth data in an urban context: Retrieving vehicle trajectories
Veloso et al. Sensing urban mobility with taxi flow
CN102521973B (zh) 一种手机切换定位的道路匹配方法
CN112150796B (zh) 基于手机信令数据的定制公交站点布局方法
CN108320501A (zh) 基于用户手机信令的公交线路识别方法
CN108053240B (zh) 生成车载广告投放公交线路方案的方法及装置
CN109729518B (zh) 基于手机信令的城市交通早高峰拥堵源头识别方法
CN103177595A (zh) 一种基于实时交通信息的动态路径寻优系统及方法
CN107403550A (zh) 公交路网数据采集方法、装置和终端设备
CN113079463A (zh) 一种基于手机信令数据的旅游景点游客出行活动识别方法
CN114446048A (zh) 基于手机信令数据的轨道交通出行者全出行链分析方法
CN115862331A (zh) 考虑卡口网络拓扑结构的车辆出行轨迹重构方法
KR20170080542A (ko) 버스운행관리시스템의 정보를 이용하여 교통정보를 생성하는 방법
CN112637781B (zh) 一种基于基站轨迹的用户通行方式判别方法
Zahabi et al. Transit trip itinerary inference with GTFS and smartphone data
KR101740471B1 (ko) 버스운행관리시스템의 정보를 이용하여 교통정보를 생성하는 방법
ZHAO et al. Big data-driven residents’ travel mode choice: a research overview
CN112711576A (zh) 一种识别手机信令数据高铁、飞机城际出行方式的方法
CN116668958A (zh) 基于手机信令数据的城市居民动态od矩阵提取方法
Dash et al. CDR-To-MoVis: Developing a mobility visualization system from CDR data
Shiomoto et al. An annotating method of GPS trajectory data for human mobility analysis in urban area
Wang et al. Travel patterns analysis of urban residents using automated fare collection system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination