CN116980845B - 一种从手机信令数据中提取铁路乘客出行链信息的方法 - Google Patents
一种从手机信令数据中提取铁路乘客出行链信息的方法 Download PDFInfo
- Publication number
- CN116980845B CN116980845B CN202311199605.3A CN202311199605A CN116980845B CN 116980845 B CN116980845 B CN 116980845B CN 202311199605 A CN202311199605 A CN 202311199605A CN 116980845 B CN116980845 B CN 116980845B
- Authority
- CN
- China
- Prior art keywords
- railway
- signaling
- passenger
- class
- station
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011664 signaling Effects 0.000 title claims abstract description 163
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 238000011160 research Methods 0.000 claims abstract description 5
- 238000012163 sequencing technique Methods 0.000 claims abstract description 4
- 230000003993 interaction Effects 0.000 claims description 6
- 230000014759 maintenance of location Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 238000011835 investigation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000001351 cycling effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Educational Administration (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mobile Radio Communication Systems (AREA)
- Train Traffic Observation, Control, And Security (AREA)
Abstract
本发明公开了一种从手机信令数据中提取铁路乘客出行链信息的方法,主要从海量的手机信令数据中挖掘出铁路乘客到达铁路车站前的出发点、乘车车站、行车路径与达到站点、以及出站后的最终终点,以此作为城市交通规划研究与交通枢纽选址分析的基础。基本过程是基于铁路站点和线路影响区选出铁路影响基站,并从手机信令数据集中初选出铁路乘客;构建以车站为节点铁路连线为边的有向图,利用乘客在节点间移动的高频基站计算移动速度,进一步判别初选乘客是否铁路乘客;将铁路乘客信令时空数据排序并按规则分组,对相邻组进行合并,识别状态找出乘客停留点,最终提取乘客出行链。基于此,可以服务于城市交通规划与交通枢纽的选址。
Description
技术领域
本发明涉及计算机技术与交通运输信息,尤其涉及一种从手机信令数据中提取铁路乘客出行链信息的方法。
背景技术
随着我国城市逐步向都市圈城市群方向发展,城际间远距离出行逐渐增多。铁路是城际间出行的重要交通方式,对城际间快速便捷联系起到重要作用。调查铁路乘客的出行链对于获取铁路乘客出行特征、了解铁路用户出行习惯、优化城市土地利用与枢纽协调性、改善铁路枢纽与其他城市内出行方式的衔接具有重要意义。铁路乘客出行链传统上可以通过在车站或列车内开展问卷调查获取,但问卷调查需要使用较多调查员,且仅能进行抽样调查,抽样规模有限;受调查场地和乘客配合度限制,调查获取数据的精度不高;调查通常须在限定天数内完成,铁路乘客不同时期差异性较大,难以在更长时间尺度上追踪乘客出行特征变化。因此,采用手机信令数据是一种获得铁路乘客出行链信息的理想方法。目前,手机信令数据分析已广泛应用城市通勤分析、城市出行OD分析、城市轨道交通客流分析等领域,目前尚无从手机信令数据中提取轨道乘客出行链的有效方法。
发明内容
针对上述现有技术,本发明提供一种从手机信令数据中提取铁路乘客出行链信息的方法,用于从海量的手机信令数据中挖掘出铁路乘客到达铁路车站前的出发点、乘车车站、行车路径与达到站点、以及出站后的最终终点。基于此,可以服务于城市交通规划与交通枢纽的选址。
为了解决上述技术问题,本发明提出的一种从手机信令数据中提取铁路乘客出行链信息的方法,主要包括,从海量的手机信令数据中挖掘出铁路乘客到达铁路车站前的出发点、乘车车站、行车路径与达到站点、以及出站后的最终终点,以此作为城市交通规划研究与交通枢纽选址分析的基础。
进一步讲,本发明所述的从手机信令数据中提取铁路乘客出行链信息的方法,其中,基于铁路站点和线路影响区选出铁路影响基站,并从手机信令数据集中初选出铁路乘客;构建以车站为节点铁路连线为边的有向图,利用乘客在节点间移动的高频基站计算移动速度,进一步判别初选乘客是否铁路乘客;将铁路乘客信令时空数据排序并按规则分组,对相邻组进行合并,识别状态找出乘客停留点,最终提取乘客出行链。具体步骤如下:
步骤1)构建铁路有向图:将不同火车站标记为铁路停留点,记为{V1、V2、V3、…、VN-1、VN};每一铁路停留点包含M个基站,其中,将铁路停留点Vi包含的基站的编号记为{Ri1,Ri2,…,Rik,…RiM},i=1、2、3、…N-1、N;以上述铁路停留点{V1、V2、V3、…、VN-1、VN}作为有向图节点;针对铁路停留点Vi和铁路停留点Vj,其中,j=1、2、3、…、N-1、N,且j≠i;
若两者之间未经其他节点有高速铁路线连接,则添加一对由铁路停留点Vi至铁路停留点Vj及由铁路停留点Vj至铁路停留点Vi的有向边,该对有向边记为HEij/HEji;
若如两者之间未经其他节点有普速铁路线连接,则添加一对由铁路停留点Vi至铁路停留点Vj及由铁路停留点Vj至铁路停留点Vi的有向边,该对有向边记为REij/REji;
若如两者之间未经其他节点既有高速铁路线连接也有普速铁路线连接,则同时添加所述的有向边HEij/HEji和REij/REji;
将自铁路停留点Vi至铁路停留点Vj与铁路走向一致的坐标序列点的连线定义为Vi与Vj的空间线位;
步骤2)受铁路出行影响的基站的选取:划定铁路线影响区和铁路车站影响区,对于铁路路线,以线路中心线为基准,两侧各覆盖500米的区域作为铁路线影响区,对于铁路车站,以铁路车站站体建筑基座向外扩展50米的范围作为铁路车站影响区;将位于所述铁路线影响区和铁路车站影响区内的基站作为铁路出行影响基站,记为{Rd};
步骤3)铁路乘客初选:从手机信令数据集中筛选出与铁路出行影响基站交互的手机用户,并提出该部分手机用户的手机信令时空数据,所述手机信令时空数据包含用户ID、基站编号、基站位置、交互开始时间和交互结束时间;根据基站编号在该部分手机用户的手机信令时空数据中选出包含两个以上不同铁路停留点的乘客作为初选的铁路乘客;
步骤4)路段高频基站选取:对初选的铁路乘客k的相邻两个铁路停留点间部分的
基站时空序列进行标记;在初选的铁路乘客中,对于先在铁路停留点Vi出现,再在铁路停留
点Vj出现的乘客记为Pk,列出乘客Pk中每位乘客从铁路停留点Vi移动至铁路停留点Vj的时空
序列{Rk-ViVj,Tk-ViVj},其中,Rk-ViVj中包含的铁路出行影响基站按该乘客经过的时间先后顺
序记为{Rk-ViVj-1,……,Rk-ViVj-d},所述的{Rk-ViVj-1,……,Rk-ViVj-d}属于{Rd},{Rd}包括有NR
个元素;
针对乘客Pk,计算铁路出行影响基站{Rd}中每个元素在{Rk-ViVj-1,……,Rk-ViVj-d}中的出现频率,并按照出现频率从高到低排列;从1到Nr进行循环,Nr=1、2、3、…NR-1、NR,直到满足每个乘客从Vi移动至Vj的时空序列{Rk-ViVj,Tk-ViVj}中至少包括2个基站,循环结束,将此时形成的Vi与Vj间的基站序列{R(Vi,Vj)}定义为Vi与Vj间的路段高频基站序列,将所述路段高频基站序列中每个基站的位置R(Vi,Vj)投射到有向图中的Vi与Vj的空间线位上,获得R(Vi,Vj)相对于铁路停留点Vi的线性参考值MP R(Vi,Vj);
步骤5)判断乘客是否为铁路乘客:针对乘客Pk,对所述的路段高频基站序列{R(Vi,
Vj)}中的元素,按线性参考值MP R(Vi,Vj)排序,如果相邻元素第()与第个间的线性
参考值的差<500m,则将此两基站合并,形成新的合并后的基站集{RN(Vi,Vj)},将合并的两
基站的线性参考值的平均值作为合并后的基站相对于铁路停留点Vi的线性参考值,标记为
MPRN(Vi,Vj);
计算乘客k在基站集{RN(Vi,Vj)}元素间的移动速度,若移动速度大于200km/h,则判定该乘客k为高铁乘客,若移动速度在80-150km/h之间,则判定该乘客k为普铁乘客;否则,判定该乘客k不是铁路乘客;
步骤6)铁路乘客信令分组排序:对所有识别出的铁路乘客按用户ID分组,对每个用户ID的记录按照时间戳排序;每条信令记录包含{Ri,Loni,Lati,Ti},Ri是基站编号,Loni是经度,Lati纬度,用户下一条信令记录时间与本条信令记录时间的差Ti+1-Ti为该乘客本条信令记录在基站位置Ri的停留时间Di;
步骤7)信令记录分组:按照时间戳顺序,对信令记录分组,各组均为一个独立的class,分组规则如下:
规则1:若从某条信令记录开始,连续n条信令记录的停留时间累计≥10分钟,且第n+1条信令记录的停留时间超过30分钟,则将第1~第n条记为组1,将第n+1条记为组2;
规则2:若从某条信令记录开始,连续n条信令记录的停留时间累计<10分钟,且第1~第n+1条信令记录的停留时间累计超过30min;则将第1~第n+1条记为同一组;
步骤8)相邻class的合并:针对同一class,以停留时间为权重,对该class内各条记录的经度和纬度分别加权计算,得到该class内各信令记录的平均位置;
针对所有的class,以每个class中各信令记录的平均位置为基础,计算相邻class之间的平均距离,若平均距离小于500米,则相邻的两个class合并,合并后标记为class_1;若平均距离≥500米,将时间靠后的该class归于一个新的class_1;
针对同一class_1,以停留时间为权重,对该class_1内各条记录的经度和纬度分别加权计算,得到该class_1内各信令记录的平均位置,同时计算该class_1内各信令记录相对于所述平均位置之间的距离,记为距离L;
步骤9)组状态识别与优化:针对所有的class_1,对于包含多个class的class_1,将其中第一个class标记为uncertain_start组,最后一个class标记为uncertain_end组;对仅包含1个class的class_1,将其中的class标记为uncertain_one组;
将所述的uncertain_start组、uncertain_end组和uncertain_one组之外的各class组标记为驻留状态;
针对uncertain_start组,将第一个距离L小于1公里的信令记录及其以前的信令记录均标记为驻留状态,其他的信令记录标记为非驻留状态;
针对uncertain_end组,将最后一个距离L小于1公里的信令记录及其以前的信令记录均标记为驻留状态,其他的信令记录标记为非驻留状态;
针对uncertain_one组,将第一个距离L小于500米的信令记录Ta、最后一个距离L小于500米的信令记录Tb、及其位于信令记录Ta和信令记录Tb之间的信令记录标记为驻留状态,其他的信令记录标记为非驻留状态;
针对所有的class_1内的信令记录,将连续标记为驻留状态的信令记录停留时间的累计≤20分钟的,则重新标记为非驻留状态;将连续标记为驻留状态的信令记录停留时间的累计超过20分钟的,则重新标记为驻留状态;
步骤10)铁路乘客出行链提取:针对所有的class_1内的信令记录,
如果连续n个标记为驻留状态的信令记录对应的基站编号属于{Ri1,Ri2,…,Rik,…RiM},则认定所述的信令记录在铁路停留点Vi驻留,与所述信令记录对应的乘客k在与铁路停留点Vi所指代的火车站驻留;
如果连续n个标记为驻留状态的信令记录对应的基站编号不属于{Ri1,Ri2,…,Rik,…RiM},则认定该乘客k在站外驻留;
如果连续n个标记为驻留状态的信令记录对应的基站编号属于{Rd},则认定为该乘客k在乘车段;
按照时间顺序连续出现“站外驻留—火车站驻留—乘车段—火车站驻留—站外驻留”为标准,从而获得该乘客k一次乘车的出行起点、上车车站、下车车站和出行终点。
与现有技术相比,本发明的有益效果是:
本发明方法中,通过构建铁路有向图的方法,通过乘客在路段高频基站间移动速度识别铁路乘客,可有效提高乘客识别准确率,区分使用手机信令识别铁路乘客过程中与铁路平行道通道出行者的干扰。在停留点识别过程中,针对火车站范围较大,且乘客在火车站驻留时间比非火车站驻留短的特点,引入时间分组的驻停状态识别方法,提高枢纽停留判别的准确性。
利用本发明提供的获得铁路乘客出行链的方法,可准确、大规模识别铁路乘客乘坐铁路列车的行为,并获取乘客从起点出发,到车站候车乘车、下车离站并到达最终目的地的全出行链信息。
附图说明
图1为本发明方法的流程框图;
图2为本发明方法中分组状态合并与判别优化示意图;
图3是本发明研究材料所列地域范围内基站分布图;
图4是图3所示地域范围内在运营的火车站示意图;
图5是对图4中所示每个火车站按涉及的基站;
图6是利用本发明方法识别出研究材料中一个手机用户上下车、进出站地点和乘车段的示意图。
具体实施方式
下面结合附图及具体实施例对本发明做进一步的说明,但下述实施例绝非对本发明有任何限制。
本发明提出的一种从手机信令数据中提取铁路乘客出行链信息的方法,主要包括,从海量的手机信令数据中挖掘出铁路乘客到达铁路车站前的出发点、乘车车站、行车路径与达到站点、以及出站后的最终终点,以此作为城市交通规划研究与交通枢纽选址分析的基础。本发明方法基于铁路站点和线路影响区选出铁路影响基站,并从手机信令数据集中初选出铁路乘客;构建以车站为节点铁路连线为边的有向图,利用乘客在节点间移动的高频基站计算移动速度,进一步判别初选乘客是否铁路乘客;将铁路乘客信令时空数据排序并按规则分组,对相邻组进行合并,识别状态找出乘客停留点,最终提取乘客出行链。
如图1所示,本发明方法的具体步骤如下:
步骤1)根据铁路线路、站点基础资料构建铁路有向图
将不同火车站标记为铁路停留点,记为{V1、V2、V3、…、VN-1、VN};其中,每一铁路停留点包含M个基站,这些基站为其影响区范围内的基站,其中,将铁路停留点Vi包含的基站的编号记为{Ri1,Ri2,…,Rik,…RiM},i=1、2、3、…N-1、N;构建铁路客运交通的有向图。有向图中节点为铁路客运站也即铁路停留点,以上述铁路停留点{V1、V2、V3、…、VN-1、VN}作为有向图节点;若两节点Vi、Vj间未经其他节点有高速铁路线连接,则添加一对由A到B和由B到A的有向边HEij/HEji;若未经其他节点有普速铁路连接,则添加一对由A到B和由B到A的有向边REij/REji;若既有高速铁路也有普速铁路连接,则同时添加高速和普速两对边HEij/HEji和REij/REji。详细内容如下:
针对铁路停留点Vi和铁路停留点Vj,其中,j=1、2、3、…、N-1、N,且j≠i;
若两者之间未经其他节点有高速铁路线连接,则添加一对由铁路停留点Vi至铁路停留点Vj及由铁路停留点Vj至铁路停留点Vi的有向边,该对有向边记为HEij/HEji。
若如两者之间未经其他节点有普速铁路线连接,则添加一对由铁路停留点Vi至铁路停留点Vj及由铁路停留点Vj至铁路停留点Vi的有向边,该对有向边记为REij/REji。
若如两者之间未经其他节点既有高速铁路线连接也有普速铁路线连接,则同时添加所述的有向边HEij/HEji和REij/REji。
将自铁路停留点Vi至铁路停留点Vj与铁路走向一致的坐标序列点的连线定义为Vi与Vj的空间线位。
步骤2)根据铁路线路、站点基础资料选取受铁路出行影响的基站:
划定铁路线影响区和铁路车站影响区,将影响区范围内基站作为铁路出行影响备选基站;对于铁路路线,以线路中心线为基准,两侧各覆盖500米的区域作为铁路线影响区,对于铁路车站,以铁路车站站体建筑基座向外扩展50米的范围作为铁路车站影响区;将位于所述铁路线影响区和铁路车站影响区内的基站作为铁路出行影响基站,记为{Rd}。
步骤3)选取受铁路出行影响的基站后对铁路乘客进行初选
从手机信令数据集中筛选出与铁路出行影响基站交互的手机用户,并提出该部分手机用户的手机信令时空数据集,所述手机信令时空数据集包含用户ID、基站编号、基站位置、交互开始时间和交互结束时间;根据基站编号在该部分手机用户的手机信令时空数据中选出包含两个以上不同铁路停留点的乘客作为初选的铁路乘客。
步骤4)根据构建的铁路有向图和铁路乘客初选的对路段高频基站进行选取
对初选的铁路乘客k的相邻两个铁路停留点间部分的基站时空序列进行标记。在
初选的铁路乘客中,对于先在铁路停留点Vi出现,再在铁路停留点Vj出现的乘客记为Pk,列
出乘客Pk中每位乘客从铁路停留点Vi移动至铁路停留点Vj的时空序列{Rk-ViVj,Tk-ViVj},其
中,Rk-ViVj中包含的铁路出行影响基站按该乘客经过的时间先后顺序记为{Rk-ViVj-1,……,
Rk-ViVj-d},所述的{Rk-ViVj-1,……,Rk-ViVj-d}属于{Rd},{Rd}包括有NR个元素。
针对乘客Pk,计算铁路出行影响基站{Rd}中每个元素在{Rk-ViVj-1,……,Rk-ViVj-d}中的出现频率,并按照出现频率从高到低排列;从1到Nr进行循环,Nr=1、2、3、…NR-1、NR,直到满足每个乘客从Vi移动至Vj的时空序列{Rk-ViVj,Tk-ViVj}中至少包括2个基站,循环结束,将此时形成的Vi与Vj间的基站序列{R(Vi,Vj)}定义为Vi与Vj间的路段高频基站序列,将所述路段高频基站序列中每个基站的位置R(Vi,Vj)投射到有向图中的Vi与Vj的空间线位上,获得R(Vi,Vj)相对于铁路停留点Vi的线性参考值MP R(Vi,Vj)。
如乘客k先在铁路停留点Vi出现,再在铁路停留点Vj出现,则可判定其通过的铁路边为HEij或REij。选出乘客k从Vi移动至Vj的时空序列{Rk-ViVj,Tk-ViVj}。其中Rk-ViVj中包含基站按其经过的时间先后顺序记为{ Rk-ViVj-1,。。。Rk-ViVj-d },其中任一基站为铁路出行影响备选基站记为{Rd}中的子元素。对于所有在Vi至Vj间移动的乘客,计算各基站Rd出现的累计频率,并将所有基站按出现频率从高到低排列,若所有基站共有N个,则从1到N进行循环,若循环至n,能选取前n个基站满足对每个乘客都在从Vi移动至Vj的时空序列{Rk-ViVj,Tk-ViVj}中至少保留2个,则停止计算。形成Vi与Vj间的高频中途点基站序列{R(Vi,Vj)},将每个R(Vi,Vj)投射到Vi与Vj的空间线位上,获得R(Vi,Vj)相对于起点的线性参考值MP R(Vi,Vj) 。
步骤5)基于旅行速度判断乘客是否为铁路乘客
针对乘客Pk,对所述的路段高频基站序列{R(Vi,Vj)}中的元素,按线性参考值
MP R(Vi,Vj)排序,如果相邻元素第()与第个间的线性参考值的差<500m,则将此两基
站合并,形成新的合并后的基站集{RN(Vi,Vj)},将合并的两基站的线性参考值的平均值作
为合并后的基站相对于铁路停留点Vi的线性参考值,标记为MPRN(Vi,Vj)。
对每一乘客k,计算其旅行途中两参考点间的移动速度,即计算乘客k在基站集{RN(Vi,Vj)}元素间的移动速度,若移动速度大于200km/h,则判定该乘客k为高铁乘客,若移动速度在80-150km/h之间,则判定该乘客k为普铁乘客;否则,判定该乘客k不是铁路乘客。
步骤6)铁路乘客信令分组排序
对所有识别出的铁路乘客按用户ID分组,对每个用户ID的记录按照时间戳排序;每条信令记录包含{Ri,Loni,Lati,Ti},Ri是基站编号,Loni是经度,Lati纬度,用户下一条信令记录时间与本条信令记录时间的差Ti+1-Ti为该乘客本条信令记录在基站位置Ri的停留时间Di。
步骤7)信令记录分组
信令记录时间分组。按照时间戳顺序,对信令记录分组,对不同组赋予不同的编码,各组均为一个独立的class,分组满足如下两个规则:
规则1:若从某条信令记录开始,连续n条信令记录的停留时间累计≥10分钟,且第n+1条信令记录的停留时间超过30分钟,则将第1~第n条记为组1,将第n+1条记录记为组2。
规则2:若从某条信令记录开始,连续n条信令记录的停留时间累计<10分钟,且第1~第n+1条信令记录的停留时间累计超过30min;则将第1~第n+1条记录记为同一组。
步骤8)相邻class的合并,包括:
针对同一class,以停留时间为权重,对该class组内各条记录的经度和纬度分别加权计算,得到该class组内各信令记录的平均位置。
针对所有的class,以每个class中各信令记录的平均位置为基础,计算相邻class之间的平均距离,若平均距离小于500米,则相邻的两个class合并,合并后标记为class_1;若平均距离≥500米,将时间靠后的该class归于一个新的组标记为class_1。
针对同一class_1,以停留时间为权重,对该class_1内各条记录的经度和纬度分别加权计算,得到该class_1内各信令记录的平均位置,同时计算该class_1内各信令记录相对于所述平均位置之间的距离,记为距离L。
步骤9)组状态识别与优化
针对所有的class_1,对于包含多个class的class_1,将其中第一个class标记为uncertain_start组,最后一个class标记为uncertain_end组;对仅包含1个class的class_1,将其中的class标记为uncertain_one组。
将所述的uncertain_start组、uncertain_end组和uncertain_one组之外的各class组标记为驻留状态。
针对uncertain_start组,将第一个距离L小于1公里的信令记录及其以前的信令记录均标记为驻留状态,其他的信令记录标记为非驻留状态。
针对uncertain_end组,将最后一个距离L小于1公里的信令记录及其以前的信令记录均标记为驻留状态,其他的信令记录标记为非驻留状态。
针对uncertain_one组,将第一个距离L小于500米的信令记录Ta、最后一个距离L小于500米的信令记录Tb、及其位于信令记录Ta和信令记录Tb之间的信令记录标记为驻留状态,其他的信令记录标记为非驻留状态。
针对所有的class_1内的信令记录,将连续标记为驻留状态的信令记录停留时间的累计≤20分钟的,则重新标记为非驻留状态;将连续标记为驻留状态的信令记录停留时间的累计超过20分钟的,则重新标记为驻留状态。
分组状态合并与判别优化参见图2,示例中组1,4,5,9,10,11,12需要判别相应小区是否驻留;标记为uncertain;首次出现标记为uncertain_start组,末次出现标记为uncertain_end组;只包含一个组标记为uncertain_one。
步骤10)基于铁路有向图和组状态优化识别进行铁路乘客出行链提取
针对所有的class_1内的信令记录,如果连续n个标记为驻留状态的信令记录对应的基站编号属于{Ri1,Ri2,…,Rik,…RiM},则认定所述的信令记录在铁路停留点Vi驻留,与所述信令记录对应的乘客k在与铁路停留点Vi所指代的火车站驻留;如果连续n个标记为驻留状态的信令记录对应的基站编号不属于{Ri1,Ri2,…,Rik,…RiM},则认定该乘客k在站外驻留;如果连续n个标记为驻留状态的信令记录对应的基站编号属于{Rd},则认定为该乘客k在乘车段。
按照时间顺序连续出现“站外驻留—火车站驻留—乘车段—火车站驻留—站外驻留”为标准,从而获得该乘客k一次乘车的出行起点、上车车站、下车车站和出行终点。
研究材料:以一城市为例,全市共有基站22091个(如图3),在运营的火车站共11个(如图4),对每个火车站按照其建筑边界范围,选出其中涉及的基站(如图5)。对于一个手机用户的信令记录,使用本发明上述方法可准确识别持有该手机的乘客的出行链,包括上下车、进出站地点和乘车段(如图6)。
尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。
Claims (1)
1.一种从手机信令数据中提取铁路乘客出行链信息的方法,其特征在于,从海量的手机信令数据中挖掘出铁路乘客到达铁路车站前的出发点、乘车车站、行车路径与达到站点、以及出站后的最终终点,以此作为城市交通规划研究与交通枢纽选址分析的基础;具体包括:
构建以车站为节点铁路连线为边的有向图,基于铁路站点和线路影响区选出铁路影响基站,并从手机信令数据集中初选出铁路乘客;利用乘客在节点间移动的高频基站计算移动速度,进一步判别初选乘客是否铁路乘客;将铁路乘客信令时空数据排序并按规则分组,对相邻组进行合并,识别状态找出乘客停留点,最终提取乘客出行链;具体步骤如下:
步骤1)构建铁路有向图:
将不同火车站标记为铁路停留点,记为{V1、V2、V3、…、VN-1、VN};每一铁路停留点包含M个基站,其中,将铁路停留点Vi包含的基站的编号记为{Ri1,Ri2,…,Rik,…RiM},i=1、2、3、…N-1、N;以上述铁路停留点{V1、V2、V3、…、VN-1、VN}作为有向图节点;针对铁路停留点Vi和铁路停留点Vj,其中,j=1、2、3、…、N-1、N,且j≠i;
若两者之间未经其他节点有高速铁路线连接,则添加一对由铁路停留点Vi至铁路停留点Vj及由铁路停留点Vj至铁路停留点Vi的有向边,该对有向边记为HEij/HEji;
若如两者之间未经其他节点有普速铁路线连接,则添加一对由铁路停留点Vi至铁路停留点Vj及由铁路停留点Vj至铁路停留点Vi的有向边,该对有向边记为REij/REji;
若如两者之间未经其他节点既有高速铁路线连接也有普速铁路线连接,则同时添加所述的有向边HEij/HEji和REij/REji;
将自铁路停留点Vi至铁路停留点Vj与铁路走向一致的坐标序列点的连线定义为Vi与Vj的空间线位;
步骤2)受铁路出行影响的基站的选取:
划定铁路线影响区和铁路车站影响区,对于铁路路线,以线路中心线为基准,两侧各覆盖500米的区域作为铁路线影响区,对于铁路车站,以铁路车站站体建筑基座向外扩展50米的范围作为铁路车站影响区;将位于所述铁路线影响区和铁路车站影响区内的基站作为铁路出行影响基站,记为{Rd};
步骤3)铁路乘客初选:
从手机信令数据集中筛选出与铁路出行影响基站交互的手机用户,并提出该部分手机用户的手机信令时空数据,所述手机信令时空数据包含用户ID、基站编号、基站位置、交互开始时间和交互结束时间;根据基站编号在该部分手机用户的手机信令时空数据中选出包含两个以上不同铁路停留点的乘客作为初选的铁路乘客;
步骤4)路段高频基站选取:
对初选的铁路乘客k的相邻两个铁路停留点间部分的基站时空序列进行标记;在初选的铁路乘客中,对于先在铁路停留点Vi出现,再在铁路停留点Vj出现的乘客记为Pk,列出乘客Pk中每位乘客从铁路停留点Vi移动至铁路停留点Vj的时空序列{Rk-ViVj,Tk-ViVj},其中,Rk-ViVj中包含的铁路出行影响基站按该乘客经过的时间先后顺序记为{Rk-ViVj-1,……,Rk-ViVj-d},所述的{Rk-ViVj-1,……,Rk-ViVj-d}属于{Rd}包括有NR个元素;
针对乘客Pk,计算铁路出行影响基站{Rd}中每个元素在{Rk-ViVj-1,……,Rk-ViVj-d}中的出现频率,并按照出现频率从高到低排列;从1到NR进行循环,若循环至Nr,Nr=1、2、3、…NR-1、NR,能选取前Nr个基站满足对每个乘客从Vi移动至Vj的时空序列{Rk-ViVj,Tk-ViVj}中至少保留2个基站,则停止计算,循环结束,
将此时形成的Vi与Vj间的基站序列{R(Vi,Vj)}定义为Vi与Vj间的路段高频基站序列,将所述路段高频基站序列中每个基站的位置R(Vi,Vj)投射到有向图中的Vi与Vj的空间线位上,获得R(Vi,Vj)相对于铁路停留点Vi的线性参考值MP R(Vi,Vj);
步骤5)判断乘客是否为铁路乘客:
针对乘客Pk,对所述的路段高频基站序列{R(Vi,Vj)}中的元素,按线性参考值MP R(Vi,Vj)排序,如果相邻元素第(m-1)与第m个间的线性参考值的差<500m,则将此两基站合并,形成新的合并后的基站集{RN(Vi,Vj)},将合并的两基站的线性参考值的平均值作为合并后的基站相对于铁路停留点Vi的线性参考值,标记为MPRN(Vi,Vj);
计算乘客k在基站集{RN(Vi,Vj)}元素间的移动速度,若移动速度大于200km/h,则判定该乘客k为高铁乘客,若移动速度在80-150km/h之间,则判定该乘客k为普铁乘客;否则,判定该乘客k不是铁路乘客;
步骤6)铁路乘客信令分组排序:
对所有识别出的铁路乘客按用户ID分组,对每个用户ID的记录按照时间戳排序;每条信令记录包含{Ri,Loni,Lati,Ti},Ri是基站编号,Loni是经度,Lati纬度,用户下一条信令记录时间与本条信令记录时间的差Ti+1-Ti为该乘客本条信令记录在基站位置Ri的停留时间Di;
步骤7)信令记录分组:
按照时间戳顺序,对信令记录分组,各组均为一个独立的class,分组规则如下:
规则1:若从某条信令记录开始,连续n条信令记录的停留时间累计≥10分钟,且第n+1条信令记录的停留时间超过30分钟,则将第1~第n条记为组1,将第n+1条记为组2;
规则2:若从某条信令记录开始,连续n条信令记录的停留时间累计<10分钟,且第1~第n+1条信令记录的停留时间累计超过30min;则将第1~第n+1条记为同一组;
步骤8)相邻class的合并:
针对同一class,以停留时间为权重,对该class内各条记录的经度和纬度分别加权计算,得到该class内各信令记录的平均位置;
针对所有的class,以每个class中各信令记录的平均位置为基础,计算相邻class之间的平均距离,若平均距离小于500米,则相邻的两个class合并,合并后标记为class_1;若平均距离≥500米,将时间靠后的该class归于一个新的class_1;
针对同一class_1,以停留时间为权重,对该class_1内各条记录的经度和纬度分别加权计算,得到该class_1内各信令记录的平均位置,同时计算该class_1内各信令记录相对于所述平均位置之间的距离,记为距离L;
步骤9)组状态识别与优化:
针对所有的class_1,对于包含多个class的class_1,将其中第一个class标记为uncertain_start组,最后一个class标记为uncertain_end组;对仅包含1个class的class_1,将其中的class标记为uncertain_one组;
将所述的uncertain_start组、uncertain_end组和uncertain_one组之外的各class组标记为驻留状态;
针对uncertain_start组,将第一个距离L小于1公里的信令记录及其以前的信令记录均标记为驻留状态,其他的信令记录标记为非驻留状态;
针对uncertain_end组,将最后一个距离L小于1公里的信令记录及其以前的信令记录均标记为驻留状态,其他的信令记录标记为非驻留状态;
针对uncertain_one组,将第一个距离L小于500米的信令记录Ta、最后一个距离L小于500米的信令记录Tb、及其位于信令记录Ta和信令记录Tb之间的信令记录标记为驻留状态,其他的信令记录标记为非驻留状态;
针对所有的class_1内的信令记录,将连续标记为驻留状态的信令记录停留时间的累计≤20分钟的,则重新标记为非驻留状态;将连续标记为驻留状态的信令记录停留时间的累计超过20分钟的,则重新标记为驻留状态;
步骤10)铁路乘客出行链提取:
针对所有的class_1内的信令记录,
如果连续n个标记为驻留状态的信令记录对应的基站编号属于{Ri1,Ri2,…,Rik,…RiM},则认定所述的信令记录在铁路停留点Vi驻留,与所述信令记录对应的乘客k在与铁路停留点Vi所指代的火车站驻留;
如果连续n个标记为驻留状态的信令记录对应的基站编号不属于{Ri1,Ri2,…,Rik,…RiM},则认定该乘客k在站外驻留;
如果连续n个标记为驻留状态的信令记录对应的基站编号属于{Rd},则认定为该乘客k在乘车段;
按照时间顺序连续出现“站外驻留—火车站驻留—乘车段—火车站驻留—站外驻留”为标准,从而获得该乘客k一次乘车的出行起点、上车车站、下车车站和出行终点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311199605.3A CN116980845B (zh) | 2023-09-18 | 2023-09-18 | 一种从手机信令数据中提取铁路乘客出行链信息的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311199605.3A CN116980845B (zh) | 2023-09-18 | 2023-09-18 | 一种从手机信令数据中提取铁路乘客出行链信息的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116980845A CN116980845A (zh) | 2023-10-31 |
CN116980845B true CN116980845B (zh) | 2023-12-26 |
Family
ID=88476956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311199605.3A Active CN116980845B (zh) | 2023-09-18 | 2023-09-18 | 一种从手机信令数据中提取铁路乘客出行链信息的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116980845B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109547930A (zh) * | 2019-01-10 | 2019-03-29 | 南京市城市与交通规划设计研究院股份有限公司 | 基于运营商数据的城市轨道交通客流来源分析的方法及装置 |
CN111681421A (zh) * | 2020-06-10 | 2020-09-18 | 南京瑞栖智能交通技术产业研究院有限公司 | 基于手机信令数据的对外客运枢纽集疏空间分布分析方法 |
CN113887617A (zh) * | 2021-09-30 | 2022-01-04 | 同济大学 | 一种市域内部铁路出行轨迹识别方法、装置及存储介质 |
CN113891252A (zh) * | 2021-09-18 | 2022-01-04 | 苏州规划设计研究院股份有限公司 | 基于手机信令数据的轨道客流全程od提取方法及系统 |
CN114446048A (zh) * | 2021-12-29 | 2022-05-06 | 东南大学 | 基于手机信令数据的轨道交通出行者全出行链分析方法 |
CN114866969A (zh) * | 2022-04-12 | 2022-08-05 | 江苏欣网视讯软件技术有限公司 | 基于手机信令大数据的地铁清分清算方法与系统 |
CN115168529A (zh) * | 2022-09-07 | 2022-10-11 | 广州市交通规划研究院有限公司 | 一种基于手机定位数据的枢纽客流溯源方法 |
EP4134887A1 (en) * | 2021-08-11 | 2023-02-15 | Hitachi, Ltd. | Control apparatus for a public transportation system, public transportation system, method for determining departure times of a public transportation system and computer program product |
-
2023
- 2023-09-18 CN CN202311199605.3A patent/CN116980845B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109547930A (zh) * | 2019-01-10 | 2019-03-29 | 南京市城市与交通规划设计研究院股份有限公司 | 基于运营商数据的城市轨道交通客流来源分析的方法及装置 |
CN111681421A (zh) * | 2020-06-10 | 2020-09-18 | 南京瑞栖智能交通技术产业研究院有限公司 | 基于手机信令数据的对外客运枢纽集疏空间分布分析方法 |
EP4134887A1 (en) * | 2021-08-11 | 2023-02-15 | Hitachi, Ltd. | Control apparatus for a public transportation system, public transportation system, method for determining departure times of a public transportation system and computer program product |
CN113891252A (zh) * | 2021-09-18 | 2022-01-04 | 苏州规划设计研究院股份有限公司 | 基于手机信令数据的轨道客流全程od提取方法及系统 |
CN113887617A (zh) * | 2021-09-30 | 2022-01-04 | 同济大学 | 一种市域内部铁路出行轨迹识别方法、装置及存储介质 |
CN114446048A (zh) * | 2021-12-29 | 2022-05-06 | 东南大学 | 基于手机信令数据的轨道交通出行者全出行链分析方法 |
CN114866969A (zh) * | 2022-04-12 | 2022-08-05 | 江苏欣网视讯软件技术有限公司 | 基于手机信令大数据的地铁清分清算方法与系统 |
CN115168529A (zh) * | 2022-09-07 | 2022-10-11 | 广州市交通规划研究院有限公司 | 一种基于手机定位数据的枢纽客流溯源方法 |
Non-Patent Citations (2)
Title |
---|
于春青 ; 万涛 ; 李科 ; 韩宇.基于电信数据的天津市对外客运出行分析.《品质交通与协同共治——2019年中国城市交通规划年会论文集》.2019,全文. * |
高铁综合体用户出行链构建方法及出行特征研究——以南京南站为例;齐超;《中国优秀硕士学位论文 工程科技II辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116980845A (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111681421B (zh) | 基于手机信令数据的对外客运枢纽集疏空间分布分析方法 | |
CN105788260B (zh) | 一种基于智能公交系统数据的公交乘客od推算方法 | |
CN107241512B (zh) | 基于手机数据的城际交通出行方式判断方法和设备 | |
CN103646560B (zh) | 出租车行车轨迹经验知识路径的提取方法 | |
CN102799897B (zh) | 基于gps定位的交通方式组合出行的计算机识别方法 | |
CN108848460B (zh) | 基于rfid和gps数据的人车关联方法 | |
CN112150796A (zh) | 基于手机信令数据的定制公交站点布局方法 | |
CN106251642B (zh) | 一种基于实时公交车gps数据的公交路链速度计算方法 | |
CN105809292A (zh) | 公交ic卡乘客下车站点推算方法 | |
CN111191816B (zh) | 城市轨道交通乘客出行时间链辨识系统 | |
CN105632173A (zh) | 利用出租车gps数据进行城市公交系统的优化识别方法 | |
CN109035787B (zh) | 一种利用移动通信数据识别交通工具类别的方法 | |
CN109102114B (zh) | 一种基于数据融合的公交出行下车站点估计方法 | |
CN112380398A (zh) | 一种空港旅客多交通方式换乘出行链构建装置 | |
CN104731963A (zh) | 一种基于车联网的网格化路径推荐方法及系统 | |
CN103632541B (zh) | 交通事件路链检测与数据填补方法 | |
CN114139251B (zh) | 一种边境地区陆路口岸整体布局方法 | |
CN107170236A (zh) | 一种基于浮动车数据的路网重要交叉口提取方法 | |
CN110188923A (zh) | 一种基于大数据技术的多模式公交客流推算方法 | |
CN112036757A (zh) | 基于手机信令和浮动车数据的停车换乘停车场的选址方法 | |
CN106327867B (zh) | 一种基于gps数据的公交准点预测方法 | |
CN107886189B (zh) | 一种基于地铁刷卡数据进行路径旅行时间推断的方法 | |
CN109489679A (zh) | 一种导航路径中的到达时间计算方法 | |
CN111341135A (zh) | 基于兴趣点及导航数据的手机信令数据出行方式识别方法 | |
CN116980845B (zh) | 一种从手机信令数据中提取铁路乘客出行链信息的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |