CN112866934A

CN112866934A - 地铁用户识别方法与系统

Info

Publication number: CN112866934A
Application number: CN202011627949.6A
Authority: CN
Inventors: 李永军; 赵海燕; 马忠志; 王幸; 戴培; 赵志翔; 卢俊; 邵翰羽
Original assignee: Jiangsu Xinwang Video Signal Software Technology Co ltd
Current assignee: Jiangsu Xinwang Video Signal Software Technology Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-28
Anticipated expiration: 2040-12-31
Also published as: CN112866934B

Abstract

本发明提供一种地铁用户识别方法与系统，利于时间周期范围内的城市GIS地域界限范围内的用户的手机信令数据，进行轨迹处理和匹配后，通过时间和空间聚类处理，获得地铁用户训练数据，然后基于地铁用户训练数据训练每个站点的一级特征库并根据地铁线路每日实际发生的地铁轨迹计算二级特征库。由此，通过一级特征库和二级特征库可对用户的信令进行识别，识别出是否是地铁用户，从而利于进行断面客流预测和票务清分。

Description

地铁用户识别方法与系统

技术领域

本发明涉及智能交通技术领域，尤其是手机信令数据在智能交通上应用，具体而言涉及一种基于手机信令的地铁用户识别方法与系统。

背景技术

随着轨道交通网络的发展，客流诱导与预警、应急管理、票务清分等问题变得更加棘手。传统方法是基于最短路径进行票务清分和断面客流预测，可结果与实际往往存在较大差异。票务清分的不合理会影响运营商利益，断面客流计算的不准确会影响地铁应急管理方案。现阶段根据用户的位置数据匹配地铁站点经纬度，获取的地铁用户的数据并不准确，难以用来进行准确的票务清分。

现有技术文献：

专利文件1：CN110910293A一种基于基站位置的地铁人群行为标签识别方法

发明内容

本发明目的在于提供一种基于手机信令的地铁用户识别方法与系统，可剔除行人、机动车、周边居民、办公人员等非地铁用户，并且可以追踪用户的完整轨迹，获得真实换乘站点，使得断面客流预测和票务清分更加精准。

根据本发明的目的的第一方面提出一种基于手机信令的地铁用户识别方法，包括以下步骤：

步骤1、以地铁站点经纬度为中心、半径为第一阈值K1范围内的圆形区域设定作为地铁站点的工参范围，其中对于地铁线路首末站，其工参范围的圆形区域的半径位第二阈值K2，K2＝2*K1；

步骤2、获取设定时间周期范围内的城市GIS地域界限范围内的用户的手机信令数据，构造每个用户每天的信令轨迹，其中所述手机信令数据为用于的移动通信终端进行基站扇区切换时上报的包含终端号码、时间以及基站经纬度的数据；对用户按照预设的规则进行排序；

步骤3、从第一个用户开始，将用户一天中所有的上报的手机信令数据，将在地铁站点的工参范围内的上报数据打上标签，记为对应地铁站点的id；其中每个上报数据对应一个基站的轨迹点；

步骤4、遍历步骤3处理后的上报数据，把所有连续在一个地铁站点内的点聚合成一个站点；其中连续没有站标识参与聚合，判定为中间路段；

步骤5、将连续Q个有站点的轨迹点进行轨迹切割，得到单个用户单日时间跨度下所有的轨迹组；

步骤6、按照以上步骤3-5的方式遍历每个用户上报的手机信令数据，得到所有用户的轨迹组；

步骤7、根据地铁线网数据，按照线路进行分组，并且对每个线路上按照每三个连续的站点进行切割，得到站点组；然后将线路上每个站点的所在线路id、线路方向、站点名称一起，匹配到对应站点组上去，得到站点地图Map；

步骤8、将步骤6获得的轨迹组与步骤7的站点地图Map进行匹配，对匹配后的结果进行时间和空间聚类，获得地铁用户训练数据；

步骤9、基于地铁用户训练数据，将数据按照地铁线路id、地铁站点id、地铁方向标识对所有数据进行分组，并按照每个站点工参按照出现的概率进行过滤，获得每个站点的一级特征库；

步骤10、根据地铁线路每日实际发生的地铁轨迹计算二级特征库。

进一步的实施例中，所述步骤8中的具体处理包括：

ST1：将步骤6获得的轨迹组与步骤7的站点地图Map进行匹配，得到经过中间站点的用户轨迹，记为Map-traj；

ST2：将所有用户的map_traj拆分，对于一条线路两端的站点的轨迹不作优化，对于一条线路非两端的站点的轨迹，则切割掉第一个站点和第三个站点的上报位置数据，其中站点地图按照Map的key：line_id+line_direction+"站点名称"对Map-traj进行分组，得到Map[key，List(trajectory)]，其中的每个trajectory 代表在一条线路上经过连续三个站点的轨迹，每个List代表了一条线路一个方向一个站点一天所有的用户轨迹组；line_id表示地铁线路id，line_direction表示线路运行方向，

ST3：对List(trajectory)轨迹组中的轨迹，进行时间和空间的聚类，通过时间聚类输出簇划分结果，每个簇代表一个时间段的一个站点的一个方向所有的用户的轨迹组，然后对每个簇再进行空间聚类，将地铁用户和各个非地铁用户进行区分；

ST4：对ST3进行空间聚类后得到的结果按照station_order_id结合 line_direction进行排序，一个站点的所有簇记为一个seq；

从第一个Seq开始，对每一个Seq依次作为单独的一列，进行左关联处理，关联后获得一条地铁线路、一个固定方向维度下，当日内所有运营班次；

再按照预设的过滤条件，过滤出一个地铁一个方向当日运营的时间图，得到地铁用户训练数据，作为后续确定一级特征库和二级特征库的依据。

步骤8中的具体处理包括：

ST2：将所有用户的map_traj拆分，对于一条线路两端的站点的轨迹不作优化，对于一条线路非两端的站点的轨迹，则切割掉第一个站点和第三个站点的上报位置数据，其中站点地图按照Map的key：line_id+line_direction+station 对Map-traj进行分组，得到Map[key，List(trajectory)]，其中的每个trajectory代表在一条线路上经过连续三个站点的轨迹，每个List代表了一条线路一个方向一个站点一天所有的用户轨迹组；line_id表示地铁线路id，line_direction表示线路运行方向；station表示站点名称；

进一步的实施例中，所述左关联处理的预设过滤条件为：

(1)后一列簇的开始时间大于等于前一列簇的结束时间。

(2)后一列簇的开始时间和前一列簇的开始时间间隔在预定周期T之内。

(3)后一列的开始时间和前一列的开始时间在所述预定周期T之内不包含，先检索后一列时间间隔最短的20条数据和簇长度最长的20条数据去重，去重后的集合与再前一列关联匹配。

进一步的实施例中，所述过滤条件被设定为：

(1)后一列簇中的用户与前一列簇中的用户有50％相同；

(2)如果条件(1)不满足，则递归拉取近v个站点的乘坐用户，保留用户出现率最高的数据；如果拉取v站乘坐用户无法判断的，递归拉取v+1个站点，直至能判断出结果，其中v大于等于4。

进一步的实施例中，所述时间聚类基于DBSCAN聚类实现，具体包括：

数据预处理：对每个trajectory，将中间打地铁标签的节点的所有聚合基站的上报时间求和，再除以聚合基站的个数，得到平均时间作为该trajectory的时间；

输入：样本集D＝List(trajectory)，邻域参数(∈,MinPts)，∈为时间差值；

(1)初始化核心对象集合

初始化聚类簇数k＝0，初始化未访问样本集合Γ＝D,簇划分

(2)对于j＝1,2,...m,按下面的步骤找出所有的核心对象：

a)通过时间距离度量方式，获得样本xj的∈-邻域子样本集N∈(xj)；

b)如果子样本集样本个数满足|N∈(xj)|≥MinPts，将样本xj加入核心对象样本集合：Ω＝Ω∪{xj}；

(3)如果核心对象集合

则结束，否则转入下一步骤；

(4)在核心对象集合Ω中，随机选择一个核心对象o，初始化当前簇核心对象队列Ωcur＝{o},初始化类别序号k＝k+1，初始化当前簇样本集合 Ck＝{o},更新未访问样本集合Γ＝Γ-{o}；

(5)如果当前簇核心对象队列

则当前聚类簇Ck生成完毕,更新簇划分C＝{C1,C2,...,Ck},更新核心对象集合Ω＝Ω-Ck，转入步骤(3)；否则更新核心对象集合Ω＝Ω-Ck；

(6)在当前簇核心对象队列Ωcur中取出一个核心对象o′,通过邻域距离阈值∈找出所有的∈-邻域子样本集N∈(o′)，令Δ＝N∈(o′)∩Γ,更新当前簇样本集合Ck＝Ck∪Δ,更新未访问样本集合Γ＝Γ-Δ,更新Ωcur＝Ωcur∪ (Δ∩Ω)-o′，转入步骤(5)

输出结果为：簇划分C＝{C1,C2,...,Ck}，每个簇代表一个时间段一个站点一个方向所有的用户轨迹组。

(1)假设两条长度分别为m和n的轨迹组A(bts，bts1，bts2，……，btsm) 和B(bts1，bts2，……，btsn)，则最长公共子序列的长度为：

其中，γ为成员相似阀值，t＝1,2,3……m，i＝1,2,3……n，a_t表示轨迹组A中的第t个上报基站，b_i表示轨迹组B中的第i个上报基站；

基于上述公式，计算公共子序列相似度D_LCSS：

(2)从当前簇中随机取出一个还未进行分簇的轨迹组K，遍历当前簇中所有还未分簇的轨迹组，与轨迹组K进行公共子序列相似度的计算，若在预设的区间范围之间，则与轨迹组K归为一类，作为当前簇的一个子簇；

(3)重复上一步的步骤，直到簇中所有的轨迹组都划分到子簇中；

(4)为每个簇按照簇长度进行编号，取出每个簇中的所有用户作为一个Set 集合，该数据作为后面使用的一个关联条件；

(5)对于一个轨迹组，以轨迹组中第一个上报时间作为轨迹组的开始运行时间，以轨迹组中最后一个上报时间作为轨迹组的结束运行时间，据此计算簇中每个轨迹开始时间和结束时间的平均时间以及标准差时间：

*平均开始时间-标准差开始时间作为该簇的开始时间；

*平均结束时间+标准差结束时间作为该簇的结束时间。

进一步的实施例中，所述步骤9获得每个站点的一级特征库的具体过程包括：

(1)将地铁用户训练数据按照地铁线路id、地铁站点id、地铁方向标识对所有的训练数据进行分组，得到(line_id,station_id,line_direction)->List(trajectory) 键值对数据；

(2)对于每个键值对数据中的value，即List(trajectory)数据，首先计算该value的长度valueLength，然后将该value中的所有轨迹按照工参进行累加合并，得到 value中每个工参出现的次数btsNumber；

(3)计算每个工参在value中出现的概率，prob＝btsNumber/valueLength；

(4)对每个工参按照出现的概率进行过滤，当prob>＝50％时，保留该工参，当prob<50％时，删除该工参。其中保留的工参为一级特征工参；

(5)按照以上步骤(1)-(4)，对每个站点进行处理，得到的结果为每个站点的一级特征库，即地铁站点工参，表示一条线路上的一个站点、在一个方向的工参；

其中，第一次计算一级特征库时，将步骤(4)得到的一级特征工参全部保留，判定该工参结果就是该站点的特征库；然后在后续计算特征库时，首先对历史工参结果进行检查，如果新的工参与历史的一级特征工参相同，那么更新历史的一级特征工参的更新时间，如果新的工参在历史一级特征工参中没有出现过，那么添加新的工参到一级特征库中，并且记录更新时间。

有工参超过6个月时间未更新，那么在特征库中删除该工参。

进一步的实施例中，在一级特征库设定剔除机制，包括：

设定工参6个月的更新周期机制，如果某一工参超过6个月未更新时间，则在一级特征库中予以剔除。

进一步的实施例中，所述的二级特征库结合每日实际发生的地铁轨迹进行计算，具体包括：

(2)对于每个键值对数据中的value，即List(trajectory)，按照一级特征库进行过滤，保留与一级特征库工参相同的轨迹位置上报点记录；

(3)对于value中的每条轨迹，获取第一次出现一级特征工参的轨迹上报点，记录时间为开始时间，将所有value轨迹的开始时间合并成一个列表，作为开始时间列表，并且，获取最后一次出现一级特征工参的轨迹上报点，记录时间为结束时间，将所有value轨迹的结束时间合并成一个列表，作为结束时间列表；

(4)对开始时间列表和结束时间列表，将时间全部转化为时间戳，进行计算平均时间和标准差时间；

对于开始时间列表，按照平均时间减去标准差时间得到的时间数值为某运行班次开始时间特征；对于结束时间列表，按照平均时间加标准差时间，得到的时间数值为某运行班次结束时间特征；

(5)按照上面的步骤(2)-(4)，对每个value计算每个班次的开始时间特征和结束时间特征，得到的数据为二级特征库

根据本发明改进的第二方面还提出一种基于手机信令的地铁用户识别系统，包括：

一个或多个处理器；

存储器，存储可被操作的指令，所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括执行前述基于手机信令的地铁用户识别方法的过程。

与现有技术相比，本发明的显著优点在于：

1、传统识别方式通过地铁工参圈选地铁用户，也就是说，默认将只要经过地铁工参的用户，都会计算为地铁用户，这样计算出来的用户会大于实际地铁用户。本发明根据地铁站点时刻表(也就是优化后的二级特征库)与用户轨迹进行匹配，当时空匹配成功后，才确认是地铁用户，提高地铁用户识别的准确性。

2、传统识别方式通过最短距离算法对地铁用户轨迹进行补全，此方法并没有考虑时间因素，补全出的轨迹不一定是用户实际的乘坐轨迹。本发明再识别算法总使用地铁站点时刻表对用户缺失轨迹进行补全，这种补全方式能够提高用户乘坐地铁线路的准确性。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外，所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1是根据本发明示例性实施例的地铁用户识别方法的流程图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

结合图1所示，本发明示例性实施例的基于手机信令的地铁用户识别方法，包括以下步骤：

步骤5、将连续Q个有站点的轨迹点进行轨迹切割，得到单个用户单日时间跨度下所有的轨迹组；可选地，预设值Q＝3；

步骤7、根据地铁线网数据，按照线路进行分组，并且对每个线路上按照每三个连续的站点进行切割，得到站点组；然后将线路上每个站点的所在地铁线路id、线路运行方向、站点名称一起，匹配到对应站点组上去，得到站点地图 Map；

步骤10、根据地铁线路每日实际发生的地铁轨迹计算获得二级特征库。

其中，在步骤1中，地铁站点的工参范围设定，K1＝1km，则K2＝2km。

在步骤2中，信令轨迹LBS的格式如下：

根据本发明的实施例，地铁站点的工参数据如下：

工参信息Bts	Code
		基站Lac	lac
基站Ci	ci
		基站类型	type
基站经度	longitude
		基站维度	latitude
更新时间	updatatime

根据本发明的实施例的一级特征库，是指城市运行地铁线路信息，包括一条线路上的一个站点、在一个方向的工参信息，用于对城市范围内的用户轨迹 (用户信令数据得到的轨迹)进行比对，即与一级指纹库的工参比对识别，过滤掉不是地铁用户的数据。

在可选的实施例中，地铁站点信息表MetroInfo的工参信息，作为一级特征工参，是一级特征库，也称为一级指纹库，其中的工参特征被称为指纹工参。

根据本发明的实施例的二级特征库，也称为二级指纹库，是指每班次在各站点的停留时刻，记录该时刻。二级特征库的工参特征每天都可能不一样，所以每日使用前需要重新计算。二级特征库结果用于当日地铁用户识别。

线路站点工参信息StationFP	Code
		地铁站点ID	metro_station_id
地铁线路站点顺序ID	line_order_id(type:Int)
		地铁站点工参指纹	btsInfoFingerprint(type:List[Bts])
地铁站点时间指纹	timeFingerprint(type:List[(start_time,end_time)])

根据本发明的实施例的一种基于手机信令的地铁用户识别系统包括：一个或多个处理器；存储器，存储可被操作的指令，所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括执行前述基于手机信令的地铁用户识别方法的过程。

下面结合具体的实施例，对前述用户识别过程的具体实现进行说明。

第一步：初始化用户轨迹

ST1：以各个地铁站点经纬度为中心半径为1km的圆形区域作为地铁站点的工参范围，为了提高准确度，对于地铁线路首末站，工参范围半径提高一倍，也就是2km。

ST2：获取设定时间周期范围内的城市GIS地域界限范围内的用户的手机信令数据，构造每个用户每天的信令轨迹，其中所述手机信令数据为用于的移动通信终端进行基站扇区切换时上报的包含终端号码、时间以及基站经纬度的数据；对用户按照预设的规则进行排序；

然后，从第一个用户开始，将用户一天中所有的上报的手机信令数据，将在地铁站点的工参范围内的上报数据打上标签，记为对应地铁站点的id；其中每个上报数据对应一个基站的轨迹点。

ST3：遍历ST2处理后的上报数据(信令轨迹数据)，把所有连续在一个站点内的点聚合成一个站，其中连续没有站标识的数据也参与聚合，认为是中间路段。比如A(bts，bts1)->A*(bts2，bts3)->B(bts4，bts5)->B*(bts6，bts7)->C(bts8,bts9) ->C*(bts10,bts11)->D(bts12,bts13)。这里的bts指的是用户上报的基站工参，A*、 B*、C*指的是介于站之间没有站标识的工参集合。

ST4：对连续3个有站点的轨迹进行切割，比如A(bts，bts1)->A*(bts2，bts3)-> B(bts4，bts5)->B*(bts6，bts7)->C(bts8,bts9)|B(bts4，bts5)->B*(bts6，bts7)-> C(bts8,bts9)->C*(bts10,bts11)->D(bts12,bts13)，从而可以将不是按照地铁线路运行的用户直接过滤掉。

ST5：遍历每个用户，重复ST1、ST2、ST3的步奏，得到所有用户的初始化轨迹组。

第二步：初始化地铁站点组

按照线路分组，对每个线路上每三个连续的站点进行切割，得到一个站点组。对得到的站点组，和每个站点的所在地铁线路id，地铁线路方向，站点名称一起，匹配到每个站点组上去，得到一个Map。

第三步：地铁用户训练数据生成

ST1：将第一步得到的用户切割轨迹和第二步得到的地铁站点Map匹配，按照ABC和BCD匹配，这样可以得到经过中间站点(B站点、C站点)的用户轨迹，记为Map-traj。

ST2：将所有用户的map_traj拆分，对于一条线路两端的站点，该轨迹不需要优化，对于一条线路非两端的站点，该轨迹需要切割掉第一个站点和第三个站点的上报位置数据。由此，消除乘客在某一站停留时间过长导致后续计算站点的进入时间以及离开时间不准的影响。

按照Map的key：line_id+line_direction+"站点名称"对Map-traj进行分组，得到Map[key，List(trajectory)]，这里的每个trajectory代表在一条线路上经过连续三个站点的轨迹。每个List代表了一条线路一个方向一个站点一天所有的用户轨迹组。

ST3：由于ST2分组后的轨迹组中包含了一天中所有不同时间段的轨迹，所以需要进行时间聚类，并且轨迹组中存在跟地铁线路并线的一些其他轨迹，所以需要空间聚类来进行区分。对List(trajectory)轨迹组中的轨迹，进行时间和空间的聚类，每一类为一个簇。

*时间聚类(DBSCAN聚类)

数据预处理：对每个trajectory，将中间打地铁标签的节点的所有聚合基站的上报时间求和，再除以聚合基站的个数，求出平均时间作为该trajectory的时间。

输入：样本集D＝List(trajectory)，邻域参数(∈,MinPts)，∈为时间差值。其中，MinPts表示最少轨迹条数，例如设定MinPts＝5，根据项目进行参数调整。∈ 表示相似度，例如∈＝90s，可根据项目进行参数调整。

输出：簇划分C。

(1)：初始化核心对象集合

初始化聚类簇数k＝0，初始化未访问样本集合Γ＝D,簇划分

(2)：对于j＝1,2,...m,按下面的步骤找出所有的核心对象：

a)通过时间距离度量方式，找到样本xj的∈-邻域子样本集N∈(xj)；

(3)：如果核心对象集合

则算法结束，否则转入步骤4；

(4)：在核心对象集合Ω中，随机选择一个核心对象o，初始化当前簇核心对象队列Ωcur＝{o},初始化类别序号k＝k+1，初始化当前簇样本集合Ck＝{o},更新未访问样本集合Γ＝Γ-{o}；

(5)：如果当前簇核心对象队列

则当前聚类簇Ck生成完毕,更新簇划分C＝{C1,C2,...,Ck},更新核心对象集合Ω＝Ω-Ck，转入步骤3。否则更新核心对象集合Ω＝Ω-Ck；

(6)：在当前簇核心对象队列Ωcur中取出一个核心对象o′,通过邻域距离阈值∈找出所有的∈-邻域子样本集N∈(o′)，令Δ＝N∈(o′)∩Γ,更新当前簇样本集合Ck＝Ck∪Δ,更新未访问样本集合Γ＝Γ-Δ,更新Ωcur＝Ωcur∪ (Δ∩Ω)-o′，转入步骤(5)。

输出结果为：簇划分C＝{C1,C2,...,Ck}，这里的每个簇代表一个时间段一个站点一个方向所有的用户轨迹组，下面对每个簇再进行空间聚类，将地铁用户和各个非地铁用户进行区分。

*空间聚类(LCSS算法)

(1)：假设有两条长度分别为m和n的轨迹组A(bts，bts1， bts2，……btsm)和B(bts1，bts2，……btsn)，那么最长公共子序列的长度为：

其中，γ为成员相似阀值，包括空间阈值和时间阈值，即[空间阈值，时间阈值]＝[1000米，90秒]。t＝1,2,3……m，i＝1,2,3……n，at表示轨迹组A中的第t 个上报基站，bi表示轨迹组B中的第i个上报基站。基于上述公式，公共子序列相似度公式为：

通过计算和测试，LCSS区间的合理范围在0.4～0.5。

(2)：从当前簇中随机取出一个还未进行分簇的轨迹组K，遍历当前簇中所有还未分簇的轨迹组，与轨迹组K进行公共子序列相似度的计算，若在 0.4～0.5之间，则与轨迹组K归为一类，作为当前簇的一个子簇。

(3)：重复上一步的步骤，直到簇中所有的轨迹组都划分到子簇中。

*为每个簇按照簇长度进行编号。

*取出每个簇中的所有用户作为一个Set集合，该数据作为后面使用的一个关联条件。

*对于一个轨迹组，比如A(bts，bts1)->A*(bts2，bts3)->B(bts4， bts5)->B*(bts6，bts7)->C(bts8,bts9)，计算A*中第一个上报时间作为该轨迹组的开始运行时间，计算B*的最后一个上报时间作为该轨迹组的结束运行时间。

*计算簇中每个轨迹开始时间和结束时间的平均时间以及标准差时间，

*平均开始时间-标准差开始时间作为该簇的开始时间，平均结束时间+ 标准差结束时间作为该簇的结束时间，得到容错性较好的时间范围数据。

ST4：对ST3聚类后得到的结果按照station_order_id结合line_direction进行排序，一个站点的所有簇我们记为一个seq。

*从第一个Seq开始，对每一个Seq依次作为单独的一列，进行左关联，关联条件设定为：

(1)后一列簇的开始时间大于等于前一列簇的结束时间。

(2)后一列簇的开始时间和前一列簇的开始时间间隔在1hour之内。

(3)后一列的开始时间和前一列的开始时间在1hour之内找不到的，先找后一列时间间隔最短的20条数据和簇长度最长的20条数据去重，去后的集合与前一列关联匹配。

*关联后就能得到一条地铁线路、一个固定方向维度下，当日内所有运营班次

*此时按照合适的过滤条件，就可以过滤出一个地铁一个方向当日运营的时间图，过滤条件设定为：

(1)后一列中的用户与前一列中的用户有50％相同；

(2)如果条件(1)不满足，则递归拉取近4站的乘坐用户，保留用户出现率最高的数据。拉取4站乘坐用户无法判断的，递归拉取5站，直至能到判断出结果。

此时，指纹库训练数据准备完毕，该结果称为：FingerprintTrainData

第四步：一级指纹库生成

1、将训练数据按照地铁线路id、地铁站点id、地铁方向标识对所有的训练数据进行分组，得到(line_id,station_id,line_direction)->List(trajectory)键值对数据。

2、对于每个键值对数据中的value(也就是List(trajectory))，首先计算该value的长度valueLength，然后将该value中的所有轨迹按照工参进行累加合并，得到 value中每个工参出现的次数btsNumber。

3、计算每个工参在value中出现的概率，prob＝btsNumber/valueLength

4、对每个工参按照出现的概率进行过滤，当prob>＝50％时，保留该工参，当prob<50％时，删除该工参。其中保留的工参为特征工参。

5、第一次计算一级特征库时，将步骤4得到的特征工参全部保留，认为该工参结果就是该站点的特征库。第二次计算特征库时，开始对历史特征进行检查，如果新的特征工参与历史特征工参相同，那么更新历史特征工参的更新时间，如果新的特征工参在历史特征中没有出现过，那么添加新的特征工参到特征库中，并且记录更新是时间。如果历史工参中，有工参超过6个月时间未更新，那么在特征库中删除该工参。

6、按照以上步骤，对每个站点进行计算，得到的结果为每个站点的一级特征库。

第五步：二级特征库生成

1、二级特征库需要根据每日实际发生的地铁轨迹进行计算。

2、将训练数据按照地铁线路id、地铁站点id、地铁方向标识对所有的训练数据进行分组，得到(line_id,station_id,line_direction)->List(trajectory)键值对数据。

3、对于每个键值对数据中的value(也就是List(trajectory))，按照一级特征库(地铁站点工参)进行过滤，保留与一级特征库工参相同的轨迹位置上报点记录。

4、对于value中的每条轨迹，找到第一次出现一级特征工参的轨迹上报点，记录时间为开始时间，将所有value轨迹的开始时间合并成一个列表，称之为开始时间列表。同上，计算出结束时间列表。

5、对开始时间列表和结束时间列表，将时间全部转化为时间戳，进行计算平均时间和标准差时间。对于开始时间列表，按照平均时间减去标准差时间(将平均时间提前，提高容错性)，得到的时间数值为某班次开始时间特征；对于结束时间列表，按照平均时间加标准差时间(将平均时间延后，提高容错性)，得到的时间数值为某班次结束时间特征。

6、按照上面的步骤，对每个value计算每个班次的开始时间特征和结束之间特征，得到的数据为二级特征库。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于手机信令的地铁用户识别方法，其特征在于，包括以下步骤：

步骤7、根据地铁线网数据，按照线路进行分组，并且对每个线路上按照每三个连续的站点进行切割，得到站点组；然后将线路上每个站点的所在地铁线路id、线路运行方向、站点名称一起，匹配到对应站点组上去，得到站点地图Map；

2.根据权利要求1所述的基于手机信令的地铁用户识别方法，其特征在于，所述步骤8中的具体处理包括：

ST2：将所有用户的map_traj拆分，对于一条线路两端的站点的轨迹不作优化，对于一条线路非两端的站点的轨迹，则切割掉第一个站点和第三个站点的上报位置数据，其中站点地图按照Map的key：line_id+line_direction+station对Map-traj进行分组，得到Map[key，List(trajectory)]，其中的每个trajectory代表在一条线路上经过连续三个站点的轨迹，每个List代表了一条线路一个方向一个站点一天所有的用户轨迹组；line_id表示地铁线路id，line_direction表示线路运行方向；station表示站点名称；

ST4：对ST3进行空间聚类后得到的结果按照station_order_id结合line_direction进行排序，一个站点的所有簇记为一个seq；station_order_id表示地铁线路站点顺序ID；

3.根据权利要求2所述的基于手机信令的地铁用户识别方法，其特征在于，所述左关联处理的预设过滤条件为：

(1)后一列簇的开始时间大于等于前一列簇的结束时间。

4.根据权利要求2所述的基于手机信令的地铁用户识别方法，其特征在于，所述过滤条件被设定为：

(1)后一列簇中的用户与前一列簇中的用户有50％相同；

5.根据权利要求2所述的基于手机信令的地铁用户识别方法，其特征在于，所述时间聚类基于DBSCAN聚类实现，具体包括：

(1)初始化核心对象集合

初始化聚类簇数k＝0，初始化未访问样本集合Γ＝D,簇划分

(2)对于j＝1,2,...m,按下面的步骤找出所有的核心对象：

(3)如果核心对象集合

则结束，否则转入下一步骤；

(4)在核心对象集合Ω中，随机选择一个核心对象o，初始化当前簇核心对象队列Ωcur＝{o},初始化类别序号k＝k+1，初始化当前簇样本集合Ck＝{o},更新未访问样本集合Γ＝Γ-{o}；

(5)如果当前簇核心对象队列

(6)在当前簇核心对象队列Ωcur中取出一个核心对象o′,通过邻域距离阈值∈找出所有的∈-邻域子样本集N∈(o′)，令Δ＝N∈(o′)∩Γ,更新当前簇样本集合Ck＝Ck∪Δ,更新未访问样本集合Γ＝Γ-Δ,更新Ωcur＝Ωcur∪(Δ∩Ω)-o′，转入步骤(5)

6.根据权利要求2所述的基于手机信令的地铁用户识别方法，其特征在于，所述时间聚类基于DBSCAN聚类实现，具体包括：

(1)假设两条长度分别为m和n的轨迹组A(bts，bts1，bts2，……，btsm)和B(bts1，bts2，……，btsn)，则最长公共子序列的长度为：

其中，γ为成员相似阀值，即空间阈值和时间阈值，t＝1,2,3……m，i＝1,2,3……n，a_t表示轨迹组A中的第t个上报基站，b_i表示轨迹组B中的第i个上报基站；

基于上述公式，计算公共子序列相似度D_LCSS：

(4)为每个簇按照簇长度进行编号，取出每个簇中的所有用户作为一个Set集合，该数据作为后面使用的一个关联条件；

*平均开始时间-标准差开始时间作为该簇的开始时间；

*平均结束时间+标准差结束时间作为该簇的结束时间。

7.根据权利要求2所述的基于手机信令的地铁用户识别方法，其特征在于，所述步骤9获得每个站点的一级特征库的具体过程包括：

(2)对于每个键值对数据中的value，即List(trajectory)数据，首先计算该value的长度valueLength，然后将该value中的所有轨迹按照工参进行累加合并，得到value中每个工参出现的次数btsNumber；

有工参超过6个月时间未更新，那么在特征库中删除该工参。

8.根据权利要求7所述的基于手机信令的地铁用户识别方法，其特征在于，在一级特征库设定剔除机制，包括：

9.根据权利要求2所述的基于手机信令的地铁用户识别方法，其特征在于，所述的二级特征库结合每日实际发生的地铁轨迹进行计算，具体包括：

(1)将地铁用户训练数据按照地铁线路id、地铁站点id、地铁方向标识对所有的训练数据进行分组，得到(line_id,station_id,line_direction)->List(trajectory)键值对数据；

(5)按照上面的步骤(2)-(4)，对每个value计算每个班次的开始时间特征和结束时间特征，得到的数据为二级特征库。

10.一种基于手机信令的地铁用户识别系统，其特征在于，包括：

一个或多个处理器；

存储器，存储可被操作的指令，所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括执行所述权利要求1-9中任意一项所述基于手机信令的地铁用户识别方法的过程。