CN116980845B

CN116980845B - 一种从手机信令数据中提取铁路乘客出行链信息的方法

Info

Publication number: CN116980845B
Application number: CN202311199605.3A
Authority: CN
Inventors: 万涛; 崔扬; 于春青; 郭玉彬; 郑刘杰; 周长林; 李芮智; 魏星; 张博雅; 赵光; 马山; 胡沛; 周欣荣
Original assignee: Tianjin Urban Planning And Design Institute Co ltd
Current assignee: Tianjin Urban Planning And Design Institute Co ltd
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2023-12-26
Anticipated expiration: 2043-09-18
Also published as: CN116980845A

Abstract

本发明公开了一种从手机信令数据中提取铁路乘客出行链信息的方法，主要从海量的手机信令数据中挖掘出铁路乘客到达铁路车站前的出发点、乘车车站、行车路径与达到站点、以及出站后的最终终点，以此作为城市交通规划研究与交通枢纽选址分析的基础。基本过程是基于铁路站点和线路影响区选出铁路影响基站，并从手机信令数据集中初选出铁路乘客；构建以车站为节点铁路连线为边的有向图，利用乘客在节点间移动的高频基站计算移动速度，进一步判别初选乘客是否铁路乘客；将铁路乘客信令时空数据排序并按规则分组，对相邻组进行合并，识别状态找出乘客停留点，最终提取乘客出行链。基于此，可以服务于城市交通规划与交通枢纽的选址。

Description

一种从手机信令数据中提取铁路乘客出行链信息的方法

技术领域

本发明涉及计算机技术与交通运输信息，尤其涉及一种从手机信令数据中提取铁路乘客出行链信息的方法。

背景技术

随着我国城市逐步向都市圈城市群方向发展，城际间远距离出行逐渐增多。铁路是城际间出行的重要交通方式，对城际间快速便捷联系起到重要作用。调查铁路乘客的出行链对于获取铁路乘客出行特征、了解铁路用户出行习惯、优化城市土地利用与枢纽协调性、改善铁路枢纽与其他城市内出行方式的衔接具有重要意义。铁路乘客出行链传统上可以通过在车站或列车内开展问卷调查获取，但问卷调查需要使用较多调查员，且仅能进行抽样调查，抽样规模有限;受调查场地和乘客配合度限制，调查获取数据的精度不高；调查通常须在限定天数内完成，铁路乘客不同时期差异性较大，难以在更长时间尺度上追踪乘客出行特征变化。因此，采用手机信令数据是一种获得铁路乘客出行链信息的理想方法。目前，手机信令数据分析已广泛应用城市通勤分析、城市出行OD分析、城市轨道交通客流分析等领域，目前尚无从手机信令数据中提取轨道乘客出行链的有效方法。

发明内容

针对上述现有技术，本发明提供一种从手机信令数据中提取铁路乘客出行链信息的方法，用于从海量的手机信令数据中挖掘出铁路乘客到达铁路车站前的出发点、乘车车站、行车路径与达到站点、以及出站后的最终终点。基于此，可以服务于城市交通规划与交通枢纽的选址。

为了解决上述技术问题，本发明提出的一种从手机信令数据中提取铁路乘客出行链信息的方法，主要包括，从海量的手机信令数据中挖掘出铁路乘客到达铁路车站前的出发点、乘车车站、行车路径与达到站点、以及出站后的最终终点，以此作为城市交通规划研究与交通枢纽选址分析的基础。

进一步讲，本发明所述的从手机信令数据中提取铁路乘客出行链信息的方法，其中，基于铁路站点和线路影响区选出铁路影响基站，并从手机信令数据集中初选出铁路乘客；构建以车站为节点铁路连线为边的有向图，利用乘客在节点间移动的高频基站计算移动速度，进一步判别初选乘客是否铁路乘客；将铁路乘客信令时空数据排序并按规则分组，对相邻组进行合并，识别状态找出乘客停留点，最终提取乘客出行链。具体步骤如下：

步骤1）构建铁路有向图：将不同火车站标记为铁路停留点，记为{V₁、V₂、V₃、…、V_N-1、V_N}；每一铁路停留点包含M个基站，其中，将铁路停留点V_i包含的基站的编号记为{R_i1，R_i2，…,R_ik,…R_iM}，i=1、2、3、…N-1、N；以上述铁路停留点{V₁、V₂、V₃、…、V_N-1、V_N}作为有向图节点；针对铁路停留点V_i和铁路停留点V_j，其中，j=1、2、3、…、N-1、N，且j≠i；

若两者之间未经其他节点有高速铁路线连接，则添加一对由铁路停留点V_i至铁路停留点V_j及由铁路停留点V_j至铁路停留点V_i的有向边，该对有向边记为HE_ij/HE_ji；

若如两者之间未经其他节点有普速铁路线连接，则添加一对由铁路停留点V_i至铁路停留点V_j及由铁路停留点V_j至铁路停留点V_i的有向边，该对有向边记为RE_ij/RE_ji；

若如两者之间未经其他节点既有高速铁路线连接也有普速铁路线连接，则同时添加所述的有向边HE_ij/HE_ji和RE_ij/RE_ji；

将自铁路停留点V_i至铁路停留点V_j与铁路走向一致的坐标序列点的连线定义为V_i与V_j的空间线位；

步骤2）受铁路出行影响的基站的选取：划定铁路线影响区和铁路车站影响区，对于铁路路线，以线路中心线为基准，两侧各覆盖500米的区域作为铁路线影响区，对于铁路车站，以铁路车站站体建筑基座向外扩展50米的范围作为铁路车站影响区；将位于所述铁路线影响区和铁路车站影响区内的基站作为铁路出行影响基站，记为{R_d}；

步骤3）铁路乘客初选：从手机信令数据集中筛选出与铁路出行影响基站交互的手机用户，并提出该部分手机用户的手机信令时空数据，所述手机信令时空数据包含用户ID、基站编号、基站位置、交互开始时间和交互结束时间；根据基站编号在该部分手机用户的手机信令时空数据中选出包含两个以上不同铁路停留点的乘客作为初选的铁路乘客；

步骤4）路段高频基站选取：对初选的铁路乘客k的相邻两个铁路停留点间部分的基站时空序列进行标记；在初选的铁路乘客中，对于先在铁路停留点V_i出现，再在铁路停留点V_j出现的乘客记为P_k，列出乘客P_k中每位乘客从铁路停留点V_i移动至铁路停留点V_j的时空序列{R_k-ViVj，T_k-ViVj}，其中，R_k-ViVj中包含的铁路出行影响基站按该乘客经过的时间先后顺序记为{R_k-ViVj-1，……，R_k-ViVj-d}，所述的{R_k-ViVj-1，……，R_k-ViVj-d}属于{R_d}，{R_d}包括有NR 个元素；

针对乘客P_k，计算铁路出行影响基站{R_d}中每个元素在{R_k-ViVj-1，……，R_k-ViVj-d}中的出现频率，并按照出现频率从高到低排列；从1到Nr进行循环，Nr=1、2、3、…NR-1、NR，直到满足每个乘客从V_i移动至V_j的时空序列{R_k-ViVj，T_k-ViVj}中至少包括2个基站，循环结束，将此时形成的V_i与V_j间的基站序列{R(V_i,V_j)}定义为V_i与V_j间的路段高频基站序列，将所述路段高频基站序列中每个基站的位置R(V_i,V_j)投射到有向图中的V_i与V_j的空间线位上，获得R(V_i,V_j)相对于铁路停留点V_i的线性参考值MP_R(Vi,Vj)；

步骤5）判断乘客是否为铁路乘客：针对乘客P_k，对所述的路段高频基站序列{R（V_i, V_j）}中的元素，按线性参考值MP_R(Vi,Vj)排序，如果相邻元素第（）与第个间的线性参考值的差<500m，则将此两基站合并，形成新的合并后的基站集{RN（V_i,V_j）}，将合并的两基站的线性参考值的平均值作为合并后的基站相对于铁路停留点V_i的线性参考值，标记为 MP_RN(Vi,Vj)；

计算乘客k在基站集{RN（V_i,V_j）}元素间的移动速度，若移动速度大于200km/h，则判定该乘客k为高铁乘客，若移动速度在80-150km/h之间，则判定该乘客k为普铁乘客；否则，判定该乘客k不是铁路乘客；

步骤6）铁路乘客信令分组排序：对所有识别出的铁路乘客按用户ID分组，对每个用户ID的记录按照时间戳排序；每条信令记录包含{R_i,Lon_i,Lat_i,T_i}，R_i是基站编号，Lon_i是经度，Lat_i纬度，用户下一条信令记录时间与本条信令记录时间的差T_i+1-T_i为该乘客本条信令记录在基站位置R_i的停留时间D_i；

步骤7）信令记录分组：按照时间戳顺序，对信令记录分组，各组均为一个独立的class，分组规则如下：

规则1：若从某条信令记录开始，连续n条信令记录的停留时间累计≥10分钟，且第n+1条信令记录的停留时间超过30分钟，则将第1~第n条记为组1，将第n+1条记为组2；

规则2：若从某条信令记录开始，连续n条信令记录的停留时间累计＜10分钟，且第1~第n+1条信令记录的停留时间累计超过30min；则将第1~第n+1条记为同一组；

步骤8）相邻class的合并：针对同一class，以停留时间为权重，对该class内各条记录的经度和纬度分别加权计算，得到该class内各信令记录的平均位置；

针对所有的class，以每个class中各信令记录的平均位置为基础，计算相邻class之间的平均距离，若平均距离小于500米，则相邻的两个class合并，合并后标记为class_1；若平均距离≥500米，将时间靠后的该class归于一个新的class_1；

针对同一class_1，以停留时间为权重，对该class_1内各条记录的经度和纬度分别加权计算，得到该class_1内各信令记录的平均位置，同时计算该class_1内各信令记录相对于所述平均位置之间的距离，记为距离L；

步骤9）组状态识别与优化：针对所有的class_1，对于包含多个class的class_1，将其中第一个class标记为uncertain_start组，最后一个class标记为uncertain_end组；对仅包含1个class的class_1，将其中的class标记为uncertain_one组；

将所述的uncertain_start组、uncertain_end组和uncertain_one组之外的各class组标记为驻留状态；

针对uncertain_start组，将第一个距离L小于1公里的信令记录及其以前的信令记录均标记为驻留状态，其他的信令记录标记为非驻留状态；

针对uncertain_end组，将最后一个距离L小于1公里的信令记录及其以前的信令记录均标记为驻留状态，其他的信令记录标记为非驻留状态；

针对uncertain_one组，将第一个距离L小于500米的信令记录Ta、最后一个距离L小于500米的信令记录Tb、及其位于信令记录Ta和信令记录Tb之间的信令记录标记为驻留状态，其他的信令记录标记为非驻留状态；

针对所有的class_1内的信令记录，将连续标记为驻留状态的信令记录停留时间的累计≤20分钟的，则重新标记为非驻留状态；将连续标记为驻留状态的信令记录停留时间的累计超过20分钟的，则重新标记为驻留状态；

步骤10）铁路乘客出行链提取：针对所有的class_1内的信令记录，

如果连续n个标记为驻留状态的信令记录对应的基站编号属于{R_i1，R_i2，…,R_ik,…R_iM}，则认定所述的信令记录在铁路停留点V_i驻留，与所述信令记录对应的乘客k在与铁路停留点V_i所指代的火车站驻留；

如果连续n个标记为驻留状态的信令记录对应的基站编号不属于{R_i1，R_i2，…,R_ik,…R_iM}，则认定该乘客k在站外驻留；

如果连续n个标记为驻留状态的信令记录对应的基站编号属于{R_d}，则认定为该乘客k在乘车段；

按照时间顺序连续出现“站外驻留—火车站驻留—乘车段—火车站驻留—站外驻留”为标准，从而获得该乘客k一次乘车的出行起点、上车车站、下车车站和出行终点。

与现有技术相比，本发明的有益效果是：

本发明方法中，通过构建铁路有向图的方法，通过乘客在路段高频基站间移动速度识别铁路乘客，可有效提高乘客识别准确率，区分使用手机信令识别铁路乘客过程中与铁路平行道通道出行者的干扰。在停留点识别过程中，针对火车站范围较大，且乘客在火车站驻留时间比非火车站驻留短的特点，引入时间分组的驻停状态识别方法，提高枢纽停留判别的准确性。

利用本发明提供的获得铁路乘客出行链的方法，可准确、大规模识别铁路乘客乘坐铁路列车的行为，并获取乘客从起点出发，到车站候车乘车、下车离站并到达最终目的地的全出行链信息。

附图说明

图1为本发明方法的流程框图；

图2为本发明方法中分组状态合并与判别优化示意图；

图3是本发明研究材料所列地域范围内基站分布图；

图4是图3所示地域范围内在运营的火车站示意图；

图5是对图4中所示每个火车站按涉及的基站；

图6是利用本发明方法识别出研究材料中一个手机用户上下车、进出站地点和乘车段的示意图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步的说明，但下述实施例绝非对本发明有任何限制。

本发明提出的一种从手机信令数据中提取铁路乘客出行链信息的方法，主要包括，从海量的手机信令数据中挖掘出铁路乘客到达铁路车站前的出发点、乘车车站、行车路径与达到站点、以及出站后的最终终点，以此作为城市交通规划研究与交通枢纽选址分析的基础。本发明方法基于铁路站点和线路影响区选出铁路影响基站，并从手机信令数据集中初选出铁路乘客；构建以车站为节点铁路连线为边的有向图，利用乘客在节点间移动的高频基站计算移动速度，进一步判别初选乘客是否铁路乘客；将铁路乘客信令时空数据排序并按规则分组，对相邻组进行合并，识别状态找出乘客停留点，最终提取乘客出行链。

如图1所示，本发明方法的具体步骤如下：

步骤1）根据铁路线路、站点基础资料构建铁路有向图

将不同火车站标记为铁路停留点，记为{V₁、V₂、V₃、…、V_N-1、V_N}；其中，每一铁路停留点包含M个基站，这些基站为其影响区范围内的基站，其中，将铁路停留点V_i包含的基站的编号记为{R_i1，R_i2，…,R_ik,…R_iM}，i=1、2、3、…N-1、N；构建铁路客运交通的有向图。有向图中节点为铁路客运站也即铁路停留点，以上述铁路停留点{V₁、V₂、V₃、…、V_N-1、V_N}作为有向图节点；若两节点V_i、V_j间未经其他节点有高速铁路线连接，则添加一对由A到B和由B到A的有向边HE_ij/HE_ji；若未经其他节点有普速铁路连接，则添加一对由A到B和由B到A的有向边RE_ij/RE_ji；若既有高速铁路也有普速铁路连接，则同时添加高速和普速两对边HE_ij/HE_ji和RE_ij/RE_ji。详细内容如下：

针对铁路停留点V_i和铁路停留点V_j，其中，j=1、2、3、…、N-1、N，且j≠i；

若两者之间未经其他节点有高速铁路线连接，则添加一对由铁路停留点V_i至铁路停留点V_j及由铁路停留点V_j至铁路停留点V_i的有向边，该对有向边记为HE_ij/HE_ji。

若如两者之间未经其他节点有普速铁路线连接，则添加一对由铁路停留点V_i至铁路停留点V_j及由铁路停留点V_j至铁路停留点V_i的有向边，该对有向边记为RE_ij/RE_ji。

若如两者之间未经其他节点既有高速铁路线连接也有普速铁路线连接，则同时添加所述的有向边HE_ij/HE_ji和RE_ij/RE_ji。

将自铁路停留点V_i至铁路停留点V_j与铁路走向一致的坐标序列点的连线定义为V_i与V_j的空间线位。

步骤2）根据铁路线路、站点基础资料选取受铁路出行影响的基站：

划定铁路线影响区和铁路车站影响区，将影响区范围内基站作为铁路出行影响备选基站；对于铁路路线，以线路中心线为基准，两侧各覆盖500米的区域作为铁路线影响区，对于铁路车站，以铁路车站站体建筑基座向外扩展50米的范围作为铁路车站影响区；将位于所述铁路线影响区和铁路车站影响区内的基站作为铁路出行影响基站，记为{R_d}。

步骤3）选取受铁路出行影响的基站后对铁路乘客进行初选

从手机信令数据集中筛选出与铁路出行影响基站交互的手机用户，并提出该部分手机用户的手机信令时空数据集，所述手机信令时空数据集包含用户ID、基站编号、基站位置、交互开始时间和交互结束时间；根据基站编号在该部分手机用户的手机信令时空数据中选出包含两个以上不同铁路停留点的乘客作为初选的铁路乘客。

步骤4）根据构建的铁路有向图和铁路乘客初选的对路段高频基站进行选取

对初选的铁路乘客k的相邻两个铁路停留点间部分的基站时空序列进行标记。在初选的铁路乘客中，对于先在铁路停留点V_i出现，再在铁路停留点V_j出现的乘客记为P_k，列出乘客P_k中每位乘客从铁路停留点V_i移动至铁路停留点V_j的时空序列{R_k-ViVj，T_k-ViVj}，其中，R_k-ViVj中包含的铁路出行影响基站按该乘客经过的时间先后顺序记为{R_k-ViVj-1，……， R_k-ViVj-d}，所述的{R_k-ViVj-1，……，R_k-ViVj-d}属于{R_d}，{R_d}包括有NR个元素。

针对乘客P_k，计算铁路出行影响基站{R_d}中每个元素在{R_k-ViVj-1，……，R_k-ViVj-d}中的出现频率，并按照出现频率从高到低排列；从1到Nr进行循环，Nr=1、2、3、…NR-1、NR，直到满足每个乘客从V_i移动至V_j的时空序列{R_k-ViVj，T_k-ViVj}中至少包括2个基站，循环结束，将此时形成的V_i与V_j间的基站序列{R(V_i,V_j)}定义为V_i与V_j间的路段高频基站序列，将所述路段高频基站序列中每个基站的位置R(V_i,V_j)投射到有向图中的V_i与V_j的空间线位上，获得R(V_i,V_j)相对于铁路停留点V_i的线性参考值MP_R(Vi,Vj)。

如乘客k先在铁路停留点V_i出现，再在铁路停留点V_j出现，则可判定其通过的铁路边为HE_ij或RE_ij。选出乘客k从V_i移动至V_j的时空序列{R_k-ViVj，T_k-ViVj}。其中R_k-ViVj中包含基站按其经过的时间先后顺序记为{ R_{k-ViVj-1，。。。}R_k-ViVj-d }，其中任一基站为铁路出行影响备选基站记为{R_d}中的子元素。对于所有在V_i至V_j间移动的乘客，计算各基站R_d出现的累计频率，并将所有基站按出现频率从高到低排列，若所有基站共有N个，则从1到N进行循环，若循环至n，能选取前n个基站满足对每个乘客都在从V_i移动至V_j的时空序列{R_k-ViVj，T_k-ViVj}中至少保留2个，则停止计算。形成V_i与V_j间的高频中途点基站序列{R(V_i,V_j)}，将每个R(V_i,V_j)投射到V_i与V_j的空间线位上，获得R(V_i,V_j)相对于起点的线性参考值MP_R(Vi,Vj) 。

步骤5）基于旅行速度判断乘客是否为铁路乘客

针对乘客P_k，对所述的路段高频基站序列{R（V_i,V_j）}中的元素，按线性参考值 MP_R(Vi,Vj)排序，如果相邻元素第（）与第个间的线性参考值的差<500m，则将此两基站合并，形成新的合并后的基站集{RN（V_i,V_j）}，将合并的两基站的线性参考值的平均值作为合并后的基站相对于铁路停留点V_i的线性参考值，标记为MP_RN(Vi,Vj)。

对每一乘客k，计算其旅行途中两参考点间的移动速度，即计算乘客k在基站集{RN（V_i,V_j）}元素间的移动速度，若移动速度大于200km/h，则判定该乘客k为高铁乘客，若移动速度在80-150km/h之间，则判定该乘客k为普铁乘客；否则，判定该乘客k不是铁路乘客。

步骤6）铁路乘客信令分组排序

对所有识别出的铁路乘客按用户ID分组，对每个用户ID的记录按照时间戳排序；每条信令记录包含{R_i,Lon_i,Lat_i,T_i}，R_i是基站编号，Lon_i是经度，Lat_i纬度，用户下一条信令记录时间与本条信令记录时间的差T_i+1-T_i为该乘客本条信令记录在基站位置R_i的停留时间D_i。

步骤7）信令记录分组

信令记录时间分组。按照时间戳顺序，对信令记录分组，对不同组赋予不同的编码，各组均为一个独立的class，分组满足如下两个规则：

规则1：若从某条信令记录开始，连续n条信令记录的停留时间累计≥10分钟，且第n+1条信令记录的停留时间超过30分钟，则将第1~第n条记为组1，将第n+1条记录记为组2。

规则2：若从某条信令记录开始，连续n条信令记录的停留时间累计＜10分钟，且第1~第n+1条信令记录的停留时间累计超过30min；则将第1~第n+1条记录记为同一组。

步骤8）相邻class的合并，包括：

针对同一class，以停留时间为权重，对该class组内各条记录的经度和纬度分别加权计算，得到该class组内各信令记录的平均位置。

针对所有的class，以每个class中各信令记录的平均位置为基础，计算相邻class之间的平均距离，若平均距离小于500米，则相邻的两个class合并，合并后标记为class_1；若平均距离≥500米，将时间靠后的该class归于一个新的组标记为class_1。

针对同一class_1，以停留时间为权重，对该class_1内各条记录的经度和纬度分别加权计算，得到该class_1内各信令记录的平均位置，同时计算该class_1内各信令记录相对于所述平均位置之间的距离，记为距离L。

步骤9）组状态识别与优化

针对所有的class_1，对于包含多个class的class_1，将其中第一个class标记为uncertain_start组，最后一个class标记为uncertain_end组；对仅包含1个class的class_1，将其中的class标记为uncertain_one组。

将所述的uncertain_start组、uncertain_end组和uncertain_one组之外的各class组标记为驻留状态。

针对uncertain_start组，将第一个距离L小于1公里的信令记录及其以前的信令记录均标记为驻留状态，其他的信令记录标记为非驻留状态。

针对uncertain_end组，将最后一个距离L小于1公里的信令记录及其以前的信令记录均标记为驻留状态，其他的信令记录标记为非驻留状态。

针对uncertain_one组，将第一个距离L小于500米的信令记录Ta、最后一个距离L小于500米的信令记录Tb、及其位于信令记录Ta和信令记录Tb之间的信令记录标记为驻留状态，其他的信令记录标记为非驻留状态。

针对所有的class_1内的信令记录，将连续标记为驻留状态的信令记录停留时间的累计≤20分钟的，则重新标记为非驻留状态；将连续标记为驻留状态的信令记录停留时间的累计超过20分钟的，则重新标记为驻留状态。

分组状态合并与判别优化参见图2，示例中组1,4,5,9,10,11,12需要判别相应小区是否驻留；标记为uncertain；首次出现标记为uncertain_start组，末次出现标记为uncertain_end组；只包含一个组标记为uncertain_one。

步骤10）基于铁路有向图和组状态优化识别进行铁路乘客出行链提取

针对所有的class_1内的信令记录，如果连续n个标记为驻留状态的信令记录对应的基站编号属于{R_i1，R_i2，…,R_ik,…R_iM}，则认定所述的信令记录在铁路停留点V_i驻留，与所述信令记录对应的乘客k在与铁路停留点V_i所指代的火车站驻留；如果连续n个标记为驻留状态的信令记录对应的基站编号不属于{R_i1，R_i2，…,R_ik,…R_iM}，则认定该乘客k在站外驻留；如果连续n个标记为驻留状态的信令记录对应的基站编号属于{R_d}，则认定为该乘客k在乘车段。

研究材料：以一城市为例，全市共有基站22091个（如图3），在运营的火车站共11个（如图4），对每个火车站按照其建筑边界范围，选出其中涉及的基站（如图5）。对于一个手机用户的信令记录，使用本发明上述方法可准确识别持有该手机的乘客的出行链，包括上下车、进出站地点和乘车段（如图6）。

尽管上面结合附图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

Claims

1.一种从手机信令数据中提取铁路乘客出行链信息的方法，其特征在于，从海量的手机信令数据中挖掘出铁路乘客到达铁路车站前的出发点、乘车车站、行车路径与达到站点、以及出站后的最终终点，以此作为城市交通规划研究与交通枢纽选址分析的基础；具体包括：

构建以车站为节点铁路连线为边的有向图，基于铁路站点和线路影响区选出铁路影响基站，并从手机信令数据集中初选出铁路乘客；利用乘客在节点间移动的高频基站计算移动速度，进一步判别初选乘客是否铁路乘客；将铁路乘客信令时空数据排序并按规则分组，对相邻组进行合并，识别状态找出乘客停留点，最终提取乘客出行链；具体步骤如下：

步骤1)构建铁路有向图：

将不同火车站标记为铁路停留点，记为{V₁、V₂、V₃、…、V_N-1、V_N}；每一铁路停留点包含M个基站，其中，将铁路停留点V_i包含的基站的编号记为{R_i1，R_i2，…,R_ik,…R_iM}，i＝1、2、3、…N-1、N；以上述铁路停留点{V₁、V₂、V₃、…、V_N-1、V_N}作为有向图节点；针对铁路停留点V_i和铁路停留点V_j，其中，j＝1、2、3、…、N-1、N，且j≠i；

步骤2)受铁路出行影响的基站的选取：

划定铁路线影响区和铁路车站影响区，对于铁路路线，以线路中心线为基准，两侧各覆盖500米的区域作为铁路线影响区，对于铁路车站，以铁路车站站体建筑基座向外扩展50米的范围作为铁路车站影响区；将位于所述铁路线影响区和铁路车站影响区内的基站作为铁路出行影响基站，记为{R_d}；

步骤3)铁路乘客初选：

从手机信令数据集中筛选出与铁路出行影响基站交互的手机用户，并提出该部分手机用户的手机信令时空数据，所述手机信令时空数据包含用户ID、基站编号、基站位置、交互开始时间和交互结束时间；根据基站编号在该部分手机用户的手机信令时空数据中选出包含两个以上不同铁路停留点的乘客作为初选的铁路乘客；

步骤4)路段高频基站选取：

对初选的铁路乘客k的相邻两个铁路停留点间部分的基站时空序列进行标记；在初选的铁路乘客中，对于先在铁路停留点V_i出现，再在铁路停留点V_j出现的乘客记为P_k，列出乘客P_k中每位乘客从铁路停留点V_i移动至铁路停留点V_j的时空序列{R_k-ViVj，T_k-ViVj}，其中，R_k-ViVj中包含的铁路出行影响基站按该乘客经过的时间先后顺序记为{R_k-ViVj-1，……，R_k-ViVj-d}，所述的{R_k-ViVj-1，……，R_k-ViVj-d}属于{R_d}包括有NR个元素；

针对乘客P_k，计算铁路出行影响基站{R_d}中每个元素在{R_k-ViVj-1，……，R_k-ViVj-d}中的出现频率，并按照出现频率从高到低排列；从1到NR进行循环，若循环至Nr，Nr＝1、2、3、…NR-1、NR，能选取前Nr个基站满足对每个乘客从V_i移动至V_j的时空序列{R_k-ViVj，T_k-ViVj}中至少保留2个基站，则停止计算，循环结束，

将此时形成的V_i与V_j间的基站序列{R(V_i,V_j)}定义为V_i与V_j间的路段高频基站序列，将所述路段高频基站序列中每个基站的位置R(V_i,V_j)投射到有向图中的V_i与V_j的空间线位上，获得R(V_i,V_j)相对于铁路停留点V_i的线性参考值MP _R(Vi,Vj)；

步骤5)判断乘客是否为铁路乘客：

针对乘客P_k，对所述的路段高频基站序列{R(V_i,V_j)}中的元素，按线性参考值MP _R(Vi,Vj)排序，如果相邻元素第(m-1)与第m个间的线性参考值的差<500m，则将此两基站合并，形成新的合并后的基站集{RN(V_i,V_j)}，将合并的两基站的线性参考值的平均值作为合并后的基站相对于铁路停留点V_i的线性参考值，标记为MP_RN(Vi,Vj)；

计算乘客k在基站集{RN(V_i,V_j)}元素间的移动速度，若移动速度大于200km/h，则判定该乘客k为高铁乘客，若移动速度在80-150km/h之间，则判定该乘客k为普铁乘客；否则，判定该乘客k不是铁路乘客；

步骤6)铁路乘客信令分组排序：

对所有识别出的铁路乘客按用户ID分组，对每个用户ID的记录按照时间戳排序；每条信令记录包含{R_i,Lon_i,Lat_i,T_i}，R_i是基站编号，Lon_i是经度，Lat_i纬度，用户下一条信令记录时间与本条信令记录时间的差T_i+1-T_i为该乘客本条信令记录在基站位置R_i的停留时间D_i；

步骤7)信令记录分组：

按照时间戳顺序，对信令记录分组，各组均为一个独立的class，分组规则如下：

规则1：若从某条信令记录开始，连续n条信令记录的停留时间累计≥10分钟，且第n+1条信令记录的停留时间超过30分钟，则将第1～第n条记为组1，将第n+1条记为组2；

规则2：若从某条信令记录开始，连续n条信令记录的停留时间累计＜10分钟，且第1～第n+1条信令记录的停留时间累计超过30min；则将第1～第n+1条记为同一组；

步骤8)相邻class的合并：

针对同一class，以停留时间为权重，对该class内各条记录的经度和纬度分别加权计算，得到该class内各信令记录的平均位置；

步骤9)组状态识别与优化：

针对所有的class_1，对于包含多个class的class_1，将其中第一个class标记为uncertain_start组，最后一个class标记为uncertain_end组；对仅包含1个class的class_1，将其中的class标记为uncertain_one组；

步骤10)铁路乘客出行链提取：

针对所有的class_1内的信令记录，