CN113543032B

CN113543032B - 模型训练方法和装置、用户识别方法和装置、电子设备

Info

Publication number: CN113543032B
Application number: CN202010319247.5A
Authority: CN
Inventors: 赵爽; 陈荣平; 张靓; 薛飞; 戴传智
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2022-12-16
Anticipated expiration: 2040-04-21
Also published as: CN113543032A

Abstract

本发明实施例提供一种模型训练方法，包括：获取基站位置时序数据，根据预设对应关系确定轨道路点时序数据；根据该数据与预获对应关系，确定轨道交通路线与各轨道路点间的时间间隔数据；获取出行方式，根据前述各数据生成正、负样本数据；根据正、负样本数据，训练轨道交通用户识别模型。本发明实施例的技术方案，能够获取基站位置时序数据、轨道路点时序数据，再获取轨道交通路线与各轨道路点间的时间间隔数据，生成正、负样本数据并训练轨道交通用户识别模型，该技术方案结合基站位置时序数据与轨道路点时序数据训练轨道交通用户识别模型，通过该模型识别轨道交通用户能够有效提高判断目标用户是否为轨道交通用户的准确率。

Description

模型训练方法和装置、用户识别方法和装置、电子设备

技术领域

本文件涉及移动通信技术、机器学习技术领域，尤其涉及一种轨道交通用户识别模型训练方法和装置、轨道交通用户识别方法和装置、电子设备及存储介质。

背景技术

目前，在判断目标用户是否为轨道交通用户时，根据目标用户的手机信令数据确定目标用户的目标出行路线，再根据该目标出行路线确定目标用户的出行方式，若目标用户的出行方式为乘坐轨道交通，则确定目标用户为轨道交通用户。该手机信令数据来自目标用户的出行路线附近的基站。

若基站存在弱覆盖问题，则导致根据目标用户的手机信令数据确定的目标出行路线与目标用户的实际出行路线存在较大差异，再根据该目标出行路线确定目标用户的出行方式时易造成误判，故通过该技术方案判断目标用户是否为轨道交通用户的准确率低下。因此，需要一种技术方案，以提高判断目标用户是否为轨道交通用户的准确率。

发明内容

本发明一个实施例的目的是提供一种轨道交通用户识别模型训练方法和装置、轨道交通用户识别方法和装置、电子设备及存储介质，以解决判断目标用户是否为轨道交通用户时准确率低的问题。

为解决上述技术问题，本发明一个实施例是这样实现的：

第一方面，本发明一个实施例提供了一种轨道交通用户识别模型训练方法，包括：获取各个样本用户对应的基站位置时序数据，根据基站位置时序数据与预先确定的轨道路点与基站之间的对应关系，确定样本用户对应的轨道路点时序数据；根据轨道路点时序数据与预先获取的轨道路点与轨道交通路线的对应关系，确定样本用户出行经过的轨道交通路线以及样本用户出行经过的各轨道路点之间的时间间隔数据；获取样本用户的出行方式，根据出行方式为乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成正样本数据，根据出行方式为非乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成负样本数据；根据正样本数据与负样本数据，对轨道交通用户识别模型进行训练；轨道交通用户识别模型用于根据待识别用户出行经过的各轨道路点之间的时间间隔数据识别待识别用户出行经过的轨道交通路线与出行方式。

第二方面，本发明一个实施例提供了一种轨道交通用户识别方法，包括：获取待识别用户对应的基站位置时序数据，根据基站位置时序数据与预先确定的轨道路点与基站之间的对应关系，确定待识别用户对应的轨道路点时序数据；根据轨道路点时序数据，确定待识别用户出行经过的各轨道路点之间的时间间隔数据；根据待识别用户出行经过的各轨道路点之间的时间间隔数据，生成待识别用户对应的出行特征数据，将出行特征数据输入如上述第一方面所述的轨道交通用户识别模型，识别得到待识别用户出行经过的轨道交通路线与出行方式；根据待识别用户出行经过的轨道交通路线与出行方式，判断待识别用户是否为轨道交通用户。

第三方面，本发明一个实施例提供了一种轨道交通用户识别模型训练装置，包括：路点时序数据确定模块，用于获取各个样本用户对应的基站位置时序数据，根据基站位置时序数据与预先确定的轨道路点与基站之间的对应关系，确定样本用户对应的轨道路点时序数据；路线及时间间隔数据确定模块，用于根据轨道路点时序数据与预先获取的轨道路点与轨道交通路线的对应关系，确定样本用户出行经过的轨道交通路线以及样本用户出行经过的各轨道路点之间的时间间隔数据；样本生成模块，用于获取样本用户的出行方式，根据出行方式为乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成正样本数据，根据出行方式为非乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成负样本数据；模型训练模块，用于根据正样本数据与负样本数据，对轨道交通用户识别模型进行训练；轨道交通用户识别模型用于根据待识别用户出行经过的各轨道路点之间的时间间隔数据识别待识别用户出行经过的轨道交通路线与出行方式。

第四方面，本发明一个实施例提供了一种轨道交通用户识别装置，包括：轨道路点时序数据确定模块，用于获取待识别用户对应的基站位置时序数据，根据基站位置时序数据与预先确定的轨道路点与基站之间的对应关系，确定待识别用户对应的轨道路点时序数据；时间间隔数据确定模块，用于根据轨道路点时序数据，确定待识别用户出行经过的各轨道路点之间的时间间隔数据；模型识别模块，用于根据待识别用户出行经过的各轨道路点之间的时间间隔数据，生成待识别用户对应的出行特征数据，将出行特征数据输入如上述第一方面所述的轨道交通用户识别模型，识别得到待识别用户出行经过的轨道交通路线与出行方式；轨道交通用户判断模块，用于根据待识别用户出行经过的轨道交通路线与出行方式，判断待识别用户是否为轨道交通用户。

第五方面，本发明一个实施例提供了一种电子设备，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机可执行指令，所述计算机可执行指令被所述处理器执行时实现如上述第一方面所述的轨道交通用户识别模型训练方法或如上述第二方面所述的轨道交通用户识别方法。

第六方面，本发明一个实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机可执行指令，所述计算机可执行指令被处理器执行时实现如上述第一方面所述的轨道交通用户识别模型训练方法或如上述第二方面所述的轨道交通用户识别方法。

根据本发明实施例的技术方案，首先，获取各个样本用户对应的基站位置时序数据，根据基站位置时序数据与预先确定的轨道路点与基站之间的对应关系，确定样本用户对应的轨道路点时序数据；然后，根据轨道路点时序数据与预先获取的轨道路点与轨道交通路线的对应关系，确定样本用户出行经过的轨道交通路线以及各轨道路点之间的时间间隔数据；接着，获取样本用户的出行方式，根据乘坐轨道交通的样本用户出行经过的轨道交通路线以及各轨道路点之间的时间间隔数据，生成正样本数据，根据非乘坐轨道交通的样本用户出行经过的轨道交通路线以及各轨道路点之间的时间间隔数据，生成负样本数据；最后，根据正样本数据与负样本数据，训练用于根据各轨道路点之间的时间间隔数据识别轨道交通路线与出行方式的轨道交通用户识别模型。通过本发明实施例，能够获取样本用户对应的基站位置时序数据以及对应的轨道路点时序数据，再获取轨道交通路线与各轨道路点之间的时间间隔数据，生成正样本数据与负样本数据并训练轨道交通用户识别模型，该技术方案结合基站位置时序数据与轨道路点时序数据训练轨道交通用户识别模型，通过该模型识别轨道交通用户能够有效提高判断目标用户是否为轨道交通用户的准确率。

附图说明

为了更清楚地说明本发明一个或多个实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例提供的一种轨道交通用户识别模型训练方法的流程示意图；

图2为本发明一个实施例提供的一种轨道交通用户识别方法的流程示意图；

图3为本发明一个实施例提供的基站路线纠偏算法的应用示意图；

图4为本发明一实施例提供的一种轨道交通用户识别模型训练装置的示意框图；

图5为本发明一实施例提供的一种轨道交通用户识别装置的示意框图；

图6为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明一个或多个实施例中的技术方案，下面将结合本发明一个或多个实施例中的附图，对本发明一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。

本发明实施例提供了一种轨道交通用户识别模型训练方法和装置、轨道交通用户识别方法和装置、电子设备及存储介质。该轨道交通用户识别模型训练方法和该轨道交通用户识别方法可以应用于电子设备，本发明实施例提及的电子设备包括但不限于手机、平板电脑、电脑、可穿戴设备、光调制解调器等。

图1为本发明一个实施例提供的一种轨道交通用户识别模型训练方法的流程示意图。参照图1所示，该轨道交通用户识别模型训练方法包括步骤S110、步骤S120、步骤S130以及步骤S140。下面对图1的示例实施例中的轨道交通用户识别模型训练方法进行详细的说明。

在步骤S110中，获取各个样本用户对应的基站位置时序数据，根据基站位置时序数据与预先确定的轨道路点与基站之间的对应关系，确定样本用户对应的轨道路点时序数据。

在示例实施例中，基站位置时序数据包括且不限于样本用户的特征信息，基站的全球小区识别码(CGI，Cell Global Identifier)，基站的位置信息，该基站位置时序数据对应的时间信息。其中，样本用户的特征信息，可以是样本用户的电话号码，也可以是其他用于标识样本用户的用户特征信息；基站CGI用于标识不同的基站小区；基站的位置信息，可以是基站的经度，可以是基站的纬度，可以是基站归属的预设地理区域；该基站位置时序数据对应的时间信息可以是基站生成该基站位置时序数据的时间。

在示例实施例中，样本用户的手机定期与附近的基站进行交互，通常情况下，该基站为距离手机最近的基站，当最近的基站存在弱覆盖的问题时，样本用户的手机也可能与距离手机并非最近的其他基站进行交互。当样本用户的手机与基站进行交互后，该基站生成5分钟粒度驻留基站数据的记录。例如，基站甲在12:00点生成一条5分钟粒度驻留基站数据的记录，该记录包括且不限于样本用户1的通信号码，时间12:00，基站CGI为000-00-0000-1000，基站经度120度，基站纬度60度。

在示例实施例中，各个基站中生成的5分钟粒度驻留基站数据的记录都会汇总到核心网，电子设备通过核心网的接口获取各条5分钟粒度驻留基站数据的记录，根据该记录生成如表1所示的基站位置时序数据。需要注意的是，5分钟仅为一种示例，生成记录的时间周期也可以是2分钟，20分钟，本发明对此不进行特殊限定。

表1

在示例实施例中，在确定样本用户对应的轨道路点时序数据前，获取各个轨道交通路线上的各个轨道路点的位置数据与各个基站的位置数据；根据基站的位置数据与轨道路点的位置数据，通过DBSCAN密度聚类算法对基站与轨道路点进行聚类，得到多个聚类簇；其中，聚类簇中包含至少一个基站与至多一个轨道路点；确定位于同一聚类簇内的基站与轨道路点之间存在对应关系。

在示例实施例中，各个轨道交通路线上的各个轨道路点的位置数据可以是从OpenStreetMap路网数据中获取的轨道交通路网数据，该轨道交通路网数据包括各个轨道路点的经纬度，各个轨道路点所在的轨道交通路线等。需要注意的是，轨道路点与轨道交通路线上的站点不一定重合，各个轨道交通路线上的各个轨道路点是根据OpenStreetMap路网数据确定的，划分轨道路点的依据可以是轨道路线长度，也可以是地形因素。

在示例实施例中，各个基站的位置数据可以是从前述基站位置时序数据中获得，也可以是由基站对应的运营商提供，本发明对此不进行特殊限定。

在示例实施例中，基于基站经纬度数据，使用DBSCAN密度聚类算法，通过设定Eps和MinPts参数，对基站位置和轨道路点位置进行聚类，将与轨道路点属于同一聚类簇的基站作为该轨道路点对应的基站，生成轨道路点与基站的对应表，若同一聚类簇中不包含轨道路点，则该聚类簇中的基站为非轨道路点基站。具体地，DBSCAN密度聚类算法使用的参数如下：

1)Eps参数：代表半径，表示以给定点P为中心的圆形邻域的范围；

2)MinPts参数：是以点P为中心的邻域内最少点的数量：

3)核心点：若以点P为中心、半径为Eps的邻域内的点的个数不少于MinPts，则称点P为核心点。

在示例实施例中，例如，设定Eps参数为20米，设定MinPts参数中基站数量为3个，轨道路点数量小于等于1，则根据DBSCAN密度聚类算法，得到多个半径20米的圆形区域以及各个圆形区域的圆心，该区域中包含至少3个基站与至多1个轨道路点，该圆形区域就是计算得到的聚类簇，各个圆形区域的圆心就是求得的核心点。

在示例实施例中，例如，当某个聚类簇中包含1个轨道路点与4个基站时，将4个基站与该轨道路点建立对应关系，当某个聚类簇中包含0个轨道路点与3个基站时，这3个基站与任何轨道路点都不具有对应关系。需要注意的是，各个聚类簇中的轨道路点不会超过1个，因此不存在多个基站同时对应多个轨道路点，或1个基站对应多个轨道路点的情况。通常情况下，每个基站至多对应一个轨道路点，每个轨道路点对应多个基站。根据轨道路点与至少一个基站的对应关系，生成轨道路点与基站的对应表。

在示例实施例中，由于每个基站至多对应一个轨道路点，因此，可根据样本用户的基站位置时序数据，确定与样本用户对应的轨道路点时序数据。该轨道路点时序数据包括且不限于样本用户的特征信息、轨道路点的标识信息、轨道路点的位置信息、该轨道路点时序数据对应的时间信息。其中，样本用户的特征信息，可以是样本用户的电话号码，也可以是其他用于标识样本用户的用户特征信息；轨道路点的标识信息来自OpenStreetMap路网数据，用于标识不同的轨道路点；轨道路点的位置信息，可以是轨道路点的经度，可以是轨道路点的纬度，还可以是轨道路点归属的预设地理区域；该轨道路点时序数据对应的时间信息可以与该轨道路点时序数据对应的基站位置时序数据中包含的时间信息，例如生成该基站位置时序数据的时间。

在步骤S120中，根据轨道路点时序数据与预先获取的轨道路点与轨道交通路线的对应关系，确定样本用户出行经过的轨道交通路线以及样本用户出行经过的各轨道路点之间的时间间隔数据。

在示例实施例中，由于基站可能存在弱覆盖等问题，样本用户的基站位置时序数据以及对应的轨道路点时序数据不一定能真实反映样本用户的实际位置。例如，样本用户的实际出行路线为A-B-D点，由于B点基站信号较弱，连接到了C点的基站，而根据样本用户的基站位置时序数据以及对应的轨道路点时序数据确定的出行路线为A-C-D，与实际轨迹存在偏差，可参考图3。

在示例实施例汇总，由于样本用户的基站位置时序数据以及对应的轨道路点时序数据不一定能真实反映样本用户的实际位置，电子设备需要使用出行路线纠偏算法，对该基站位置时序数据对应出行路线进行优化，使其更为符合样本用户的实际出行路线，并剔除由于基站弱覆盖等问题导致发生信号偏移的基站记录。由于轨道交通的运行速度较为稳定，同一路线不同站点间隔时间不会产生较大偏差，即使剔除C点基站记录，也不会影响A,D点之间的时间间隔。

在示例实施例中，根据轨道路点时序数据与预先获取的轨道路点与轨道交通路线的对应关系，确定样本用户出行经过的轨道交通路线以及样本用户出行经过的各轨道路点之间的时间间隔数据，包括：根据轨道路点时序数据，确定样本用户对应的最短出行路线，根据最短出行路线，对轨道路点时序数据进行修正；根据修正后的轨道路点时序数据和预先获取的轨道路点与轨道交通路线的对应关系，确定样本用户出行经过的轨道交通路线以及样本用户出行经过的各轨道路点之间的时间间隔数据。

在示例实施例中，轨道路点与轨道交通路线的对应关系可以从OpenStreetMap路网数据中获取。

在示例实施例中，在确定样本用户对应的最短出行路线前，根据轨道路点时序数据，确定依次相邻的三个轨道路点中两端的轨道路点之间的时间间隔；若时间间隔大于预设时间间隔，则舍弃轨道路点时序数据。

在示例实施例中，预设时间间隔可以是60分钟。例如，根据轨道路点时序数据，确定依次相邻的三个轨道路点(轨道路点1、轨道路点2以及轨道路点3)中，若轨道路点1与轨道路点3之间的时间间隔为20分钟，小于60分钟，可视为样本用户没有在轨道路点1、轨道路点2、轨道路点3之间进行过驻留，需要对该依次相邻的三个轨道路点进行路线纠偏；若轨道路点1与轨道路点3之间的时间间隔为80分钟，大于60分钟，可视为样本用户在轨道路点1、轨道路点2、轨道路点3之间进行过驻留，此时，该出行路线123(轨道路点1-轨道路点2-轨道路点3)不是同一次出行的出行路线，对该出行路线进行路线纠偏没有意义。电子设备可以舍弃该样本用户的轨道路点时序数据，也可以通过人工介入或其他预设的方式，将该出行路线123拆为独立的两次出行路线再进行纠偏。

在示例实施例中，根据轨道路点时序数据，确定样本用户对应的最短出行路线，根据最短出行路线，对轨道路点时序数据进行修正，包括：通过A*搜索算法，根据轨道路点时序数据中各个轨道路点的顺序，确定依次相邻的三个轨道路点中两端的轨道路点对应的最短出行路线；若依次相邻的三个轨道路点中两端的轨道路点对应的最短出行路线与相邻的三个轨道路点对应的出行路线不同，则剔除相邻的三个轨道路点中的中间轨道路点对应的轨道路点时序数据；将剔除后剩余的轨道路点时序数据确定为修正后的轨道路点时序数据。

在示例实施例中，例如，某个样本用户的轨道路点时序数据包括6个轨道路点，按照时间顺序依次为，轨道路点1、轨道路点2、轨道路点3、轨道路点4、轨道路点5以及轨道路点6，则通过A*搜索算法，确定轨道路点1与轨道路点3之间的最短出行路线，轨道路点2与轨道路点4之间的最短出行路线，轨道路点3与轨道路点5之间的最短出行路线以及轨道路点4与轨道路点6之间的最短出行路线。

在示例实施例中，例如，样本用户的轨道路点时序数据中的依次相邻的3个轨道路点，按照时间顺序依次为，轨道路点1、轨道路点2、轨道路点3。从轨道路点1与轨道路点3之间的路线中随机选取3个路点(例如轨道路点4、轨道路点5、轨道路点6)，依次代替轨道路点2，重新匹配这三个路点的最短路线，得到出行路线143(轨道路点1-轨道路点4-轨道路点3)、出行路线153(轨道路点1-轨道路点5-轨道路点3)、出行路线163(轨道路点1-轨道路点6-轨道路点3)，并与原出行路线123(轨道路点1-轨道路点2-轨道路点3)进行长度比较，选取长度较短的出行路线153作为样本用户的出行路线。

在示例实施例中，A*搜索算法的具体步骤如下：

1)以轨道路点时序数据中的轨道路点标识为索引建立轨道路点的哈希表，该哈希表中仅包含轨道路点标识以及对应的哈希地址，哈希表用于提高搜索效率。然后提取OpenStreetMap路网数据中的轨道交通信息，构建轨道信息列表，轨道中若包含多个路段，则将每个路段拆分成独立的轨道对象，轨道的起点和终点从轨道路点的哈希表中获取，最后形成轨道元数据对象列表。例如，轨道路点1-轨道路点2-轨道路点3为一个独立的轨道对象，轨道路点2-轨道路点3-轨道路点4为一个独立的轨道对象。

2)基于样本用户的轨道路点时序数据和轨道元数据对象列表(反映了路点之间的连通性)，使用A*搜索算法，搜索两个轨道路点间的最短出行路线作为用户出行轨迹。A*搜索算法使用以下公式评估每个点通往目标点的代价：

代价F＝G+H。

F表示通往目标点的代价。

G表示从起始点移动到该点的距离。

H则表示从该点到目标点的距离。

在示例实施例中，A*搜索算法仅为确定两个轨道路点之间的最短出行路线的一种示例性方法，本发明还可以使用其他算法确定两个轨道路点之间的最短出行路线。

在示例实施例中，若依次相邻的三个轨道路点中两端的轨道路点对应的最短出行路线与相邻的三个轨道路点对应的出行路线不同，则剔除相邻的三个轨道路点中的中间轨道路点对应的轨道路点时序数据。因此，即使连续多个基站存在弱覆盖问题，也能根据该方法确定样本用户对应的最短出行路线。例如，轨道路点1、轨道路点2、轨道路点3、轨道路点4中，与轨道路点2、轨道路点3均与实际出行路线存在偏差，则轨道路点1与轨道路点3之间的最短出行路线与出行路线123(轨道路点1-轨道路点2-轨道路点3)不同，剔除轨道路点2对应的轨道路点时序数据，轨道路点2与轨道路点4之间的最短出行路线与出行路线234(轨道路点2-轨道路点3-轨道路点4)不同，剔除轨道路点3对应的轨道路点时序数据，剩余轨道路点1与轨道路点4，可根据轨道路点1与轨道路点4确定样本用户对应的最短出行路线。

在示例实施例中，根据修正后的轨道路点时序数据，确定样本用户出行经过的各轨道路点之间的时间间隔数据。

在示例实施例中，根据修正后的轨道路点时序数据，可以确定样本用户的出行路线，但无法确定样本用户的出行方式，例如，根据样本用户的修正后的轨道路点时序数据，确定样本用户经过某条轨道交通路线上的轨道路点1、轨道路点2与轨道路点4，但样本用户可能是乘坐地铁，也可能是走路，还可能是骑自行车。

在示例实施例中，筛选出在与轨道路点对应的基站有驻留记录的样本用户，剔除静止不动的用户(例如，每天基站变化次数小于4次的用户)后，基于修正后的轨道路点时序数据，计算样本用户出行经过的各轨道路点之间的时间间隔，得到时间间隔数据。根据各个样本用户出行经过的各轨道路点之间的时间间隔数据，针对每条轨道交通路线生成独立的模型特征宽表。模型特征宽表具体字段如表2所示。

表2

序号	字段
		1	通信号码
2	轨道交通路线
		3	轨道路点1，2间隔时间
4	轨道路点1，3间隔时间
		5	轨道路点1，4间隔时间
…	…
		7	轨道路点n-1，n间隔时间

在示例实施例中，轨道交通路线可以是地铁路线，例如，地铁一号线，可以是轻轨路线，还可以是其他轨道交通路线。每条轨道交通路线生成一个模型特征宽表，例如，地铁1号线的模型特征宽表可以包含如下内容：样本用户甲的通信号码，地铁1号线，轨道路点1，2间隔时间为5分钟，轨道路点1，3间隔时间为12分钟……轨道路点7,8间隔时间为4分钟；样本用户乙的通信号码，地铁1号线，轨道路点1，2间隔时间为2分钟，轨道路点1，3间隔时间为10分钟……轨道路点10,11间隔时间为7分钟。

在步骤S130中，获取样本用户的出行方式，根据出行方式为乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成正样本数据，根据出行方式为非乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成负样本数据。

在示例实施例中，获取样本用户的出行方式，可以通过对样本用户进行问卷调查，也可以招募测试人员作为样本用户进行搭乘/不搭乘轨道交通出行的测试，进行数据样本采集，还可以采取其他方式，本发明不对此进行特殊限定。正样本数据包括样本数据特征与样本标签，负样本数据包括样本数据特征与样本标签。样本用户的出行方式包括乘坐轨道交通与非乘坐轨道交通。样本用户出行经过的各轨道路点之间的时间间隔数据可以从步骤S120中生成的各条轨道交通路线生成独立的模型特征宽表中提取。

在示例实施例中，根据出行方式为乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成正样本数据，根据出行方式为非乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成负样本数据，包括：将出行方式为乘坐轨道交通的样本用户出行经过的各轨道路点之间的时间间隔数据，确定为正样本数据的样本数据特征，将出行方式为非乘坐轨道交通的样本用户出行经过的各轨道路点之间的时间间隔数据，确定为负样本数据的样本数据特征；将出行方式为乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行方式，确定为正样本数据的样本标签，将出行方式为非乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行方式，确定为负样本数据的样本标签。

在示例实施例中，例如，正样本数据的样本数据特征包括且不限于：样本用户甲的通信号码，轨道路点1，2间隔时间为5分钟，轨道路点1，3间隔时间为12分钟……轨道路点7,8间隔时间为4分钟，正样本数据的样本标签包括地铁1号线与出行方式乘坐轨道交通；负样本数据的样本数据特征包括且不限于：样本用户丙的通信号码，轨道路点1，2间隔时间为2分钟，轨道路点1，3间隔时间为10分钟……轨道路点10,11间隔时间为7分钟，负样本数据的样本标签包括地铁1号线与出行方式非乘坐轨道交通。

在步骤S140中，根据正样本数据与负样本数据，对轨道交通用户识别模型进行训练；轨道交通用户识别模型用于根据待识别用户出行经过的各轨道路点之间的时间间隔数据识别待识别用户出行经过的轨道交通路线与出行方式。

在示例实施例中，该轨道交通用户识别模型使用K近邻算法进行建模。将正样本数据与负样本数据输入该轨道交通用户识别模型，把正样本数据与负样本数据随机不放回抽样，生成训练集和测试集。使用训练集的数据训练模型，然后使用测试集的数据测试该轨道交通用户识别模型的分类效果，计算分类结果的查准率、查全率和F值评估模型。

查准率、查全率和F值算法如下：

TP:预测为1(Positive)，实际也为1(Truth-预测对了)；

TN:预测为0(Negative)，实际也为0(Truth-预测对了)；

FP:预测为1(Positive)，实际为0(False-预测错了)；

FN:预测为0(Negative)，实际为1(False-预测错了)；

在示例实施例中，使用测试集的数据测试该轨道交通用户识别模型的分类效果，具体为，向该轨道交通用户识别模型输入样本用户的通信号码与出行经过的各轨道路点之间的时间间隔数据，则该轨道交通用户识别模型输出该样本用户的出行经过的轨道交通路线与出行方式。例如，若模型预测该样本用户的出行方式为乘坐轨道交通，实际上该样本用户也是乘坐轨道交通，则预测对了，若模型预测该样本用户的出行方式为乘坐轨道交通，实际上该样本用户的出行方式是非乘坐轨道交通，则预测错了。

在示例实施例中，通常情况下，对该轨道交通用户识别模型进行训练的次数越多，测试该模型的分类效果越好，计算得到的该模型的查准率、查全率和F值越符合期待，当该模型的查准率、查全率和F值达到预设阈值时，该模型可用于根据待识别用户出行经过的各轨道路点之间的时间间隔数据识别待识别用户出行经过的轨道交通路线与出行方式。

根据图1的示例实施例中的轨道交通用户识别模型训练方法，首先，获取各个样本用户对应的基站位置时序数据，根据基站位置时序数据与预先确定的轨道路点与基站之间的对应关系，确定样本用户对应的轨道路点时序数据；然后，根据轨道路点时序数据与预先获取的轨道路点与轨道交通路线的对应关系，确定样本用户出行经过的轨道交通路线以及各轨道路点之间的时间间隔数据；接着，获取样本用户的出行方式，根据乘坐轨道交通的样本用户出行经过的轨道交通路线以及各轨道路点之间的时间间隔数据，生成正样本数据，根据非乘坐轨道交通的样本用户出行经过的轨道交通路线以及各轨道路点之间的时间间隔数据，生成负样本数据；最后，根据正样本数据与负样本数据，训练用于根据各轨道路点之间的时间间隔数据识别轨道交通路线与出行方式的轨道交通用户识别模型。通过本发明实施例，能够获取样本用户对应的基站位置时序数据以及对应的轨道路点时序数据，再获取轨道交通路线与各轨道路点之间的时间间隔数据，生成正样本数据与负样本数据并训练轨道交通用户识别模型，该技术方案结合基站位置时序数据与轨道路点时序数据训练轨道交通用户识别模型，通过该模型识别轨道交通用户能够有效提高判断目标用户是否为轨道交通用户的准确率。

图2为本发明一个实施例提供的一种轨道交通用户识别方法的流程示意图。

参照图2所示，在步骤S210中，获取待识别用户对应的基站位置时序数据，根据基站位置时序数据与预先确定的轨道路点与基站之间的对应关系，确定待识别用户对应的轨道路点时序数据。

在示例实施例中，基站位置时序数据包括且不限于待识别用户的特征信息，基站CGI，基站的位置信息，该基站位置时序数据对应的时间信息。其中，待识别用户的特征信息，可以是待识别用户的电话号码，也可以是其他用于标识待识别用户的用户特征信息；基站CGI用于标识不同的基站小区；基站的位置信息，可以是基站的经度，可以是基站的纬度，可以是基站归属的预设地理区域；该基站位置时序数据对应的时间信息可以是基站生成该基站位置时序数据的时间。

在示例实施例中，获取各个轨道交通路线上的各个轨道路点的位置数据与各个基站的位置数据；根据基站的位置数据与轨道路点的位置数据，通过DBSCAN密度聚类算法对基站与轨道路点进行聚类，得到多个聚类簇；其中，聚类簇中包含至少一个基站与至多一个轨道路点；确定位于同一聚类簇内的基站与轨道路点之间存在对应关系。

在示例实施例中，获取待识别用户对应的基站位置时序数据后，确定与基站对应的唯一一个轨道路点，进而确定待识别用户对应的轨道路点时序数据。

在示例实施例中，轨道路点时序数据包括且不限于待识别用户的特征信息、轨道路点的标识信息、轨道路点的位置信息、该轨道路点时序数据对应的时间信息。其中，待识别用户的特征信息，可以是待识别用户的电话号码，也可以是其他用于标识待识别用户的用户特征信息；轨道路点的标识信息来自OpenStreetMap路网数据，用于标识不同的轨道路点；轨道路点的位置信息，可以是轨道路点的经度，可以是轨道路点的纬度，还可以是轨道路点归属的预设地理区域；该轨道路点时序数据对应的时间信息可以与该轨道路点时序数据对应的基站位置时序数据中包含的时间信息，例如生成该基站位置时序数据的时间。

在步骤S220中，根据轨道路点时序数据，确定待识别用户出行经过的各轨道路点之间的时间间隔数据。

在示例实施例中，根据轨道路点时序数据，确定待识别用户对应的最短出行路线，根据最短出行路线，对轨道路点时序数据进行修正；根据修正后的轨道路点时序数据和预先获取的轨道路点与轨道交通路线的对应关系，确定待识别用户出行经过的轨道交通路线以及待识别用户出行经过的各轨道路点之间的时间间隔数据。

在示例实施例中，筛选出在与轨道路点对应的基站有驻留记录的待识别用户，剔除静止不动的用户(例如，每天基站变化次数小于4次的用户)后，基于修正后的轨道路点时序数据，计算待识别用户出行经过的各轨道路点之间的时间间隔，得到时间间隔数据。根据各个待识别用户出行经过的各轨道路点之间的时间间隔数据，针对每条轨道交通路线生成独立的模型特征宽表。模型特征宽表具体字段如前述的表2所示。

在步骤S230中，根据待识别用户出行经过的各轨道路点之间的时间间隔数据，生成待识别用户对应的出行特征数据，将出行特征数据输入轨道交通用户识别模型，识别得到待识别用户出行经过的轨道交通路线与出行方式。

在示例实施例中，从各条轨道交通路线对应的模型特征宽表中提取待识别用户出行经过的各轨道路点之间的时间间隔数据，根据该时间间隔数据生成出行特征数据，例如，待识别用户甲的出行特征数据包括且不限于：待识别用户甲的通信号码，轨道路点1，2间隔时间为5分钟，轨道路点1，3间隔时间为12分钟……轨道路点7,8间隔时间为4分钟。

在示例实施例中，将出行特征数据输入轨道交通用户识别模型，识别得到待识别用户出行经过的轨道交通路线与出行方式，例如，将待识别用户甲的出行特征数据输入轨道交通用户识别模型，识别得到的结果包括且不限于：待识别用户甲的通信号码，出行方式为乘坐轨道交通，经过的轨道路点为轨道路点1、轨道路点2、轨道路点3……轨道路点8，地铁1号线，可参照表3所示。

表3

在步骤S240中，根据待识别用户出行经过的轨道交通路线与出行方式，判断待识别用户是否为轨道交通用户。

在示例实施例中，若待识别用户的出行方式为乘坐轨道交通，则判断该待识别用户为轨道交通用户；若待识别用户的出行方式是非乘坐轨道交通，则判断该待识别用户不是轨道交通用户。待识别用户出行经过的轨道交通路线可用于辅助验证该待识别用户是否为轨道交通用户。

图3为本发明一个实施例提供的基站路线纠偏算法的应用示意图。

参照图3所示，基站310对应轨道路点1、基站320对应轨道路点2、基站330对应轨道路点3、基站340对应轨道路点4，其中，轨道路点1、轨道路点2、轨道路点4均位于同一条轨道交通路线上且依次相邻，轨道路点3不在该轨道交通路线上。基站320存在弱覆盖的问题。

在示例实施例中，当待识别用户经过轨道路点1时，基站310生成该待识别用户的5分钟粒度驻留基站数据；当待识别用户经过轨道路点2时，基站320信号较弱，与基站320相比，距离轨道路点2较远的基站330生成该待识别用户的5分钟粒度驻留基站数据；当待识别用户经过基站340对应的轨道路点时，基站340生成该待识别用户的5分钟粒度驻留基站数据。因此，在电子设备收集该待识别用户的5分钟粒度驻留基站数据后，根据该数据确定的基站位置时序数据对应的轨道路点时序数据，再根据该轨道路点时序数据确定该待识别用户的出行路线为轨道路点1-轨道路点3-轨道路点4。即，纠偏前的基站路线为基站310、基站330、基站340对应的基站路线。

在示例实施例中，根据轨道路点的位置信息，确定轨道路点1与轨道路点4之间的最短路线。例如，在轨道路点1与轨道路点4之间的路线中，随机取3个轨道路点，例如轨道路点2、轨道路点5、轨道路点6，分布计算路线134(轨道路点1-轨道路点3-轨道路点4)、路线124(轨道路点1-轨道路点2-轨道路点4)、路线154(轨道路点1-轨道路点5-轨道路点4)、路线164(轨道路点1-轨道路点6-轨道路点4)的长度。将路线124、路线154、路线164分别与路线134的长度进行比较，根据比较结果确定路线124为在轨道路点1与轨道路点4之间的路线中的最短路线。轨道路点3不在轨道路点1与轨道路点4之间的路线中最短路线上，因此，将轨道路点3对应的基站330生成的5分钟粒度驻留基站数据从待识别用户的基站位置时序数据中剔除，同理，将轨道路点3对应的轨道路点时序数据从待识别用户的轨道路点时序数据中剔除。路线124为纠偏后的待识别用户的出行路线，同理，基站310、基站320、基站340对应的基站路线为纠偏后的基站路线。

图4为本发明一实施例提供的一种轨道交通用户识别模型训练装置的示意框图。

参照图4所示，该轨道交通用户识别模型训练装置400包括：路点时序数据确定模块410、路线及时间间隔数据确定模块420、样本生成模块430以及模型训练模块440。

其中，路点时序数据确定模块410，用于获取各个样本用户对应的基站位置时序数据，根据基站位置时序数据与预先确定的轨道路点与基站之间的对应关系，确定样本用户对应的轨道路点时序数据；路线及时间间隔数据确定模块420，用于根据轨道路点时序数据与预先获取的轨道路点与轨道交通路线的对应关系，确定样本用户出行经过的轨道交通路线以及样本用户出行经过的各轨道路点之间的时间间隔数据；样本生成模块430，用于获取样本用户的出行方式，根据出行方式为乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成正样本数据，根据出行方式为非乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成负样本数据；模型训练模块440，用于根据正样本数据与负样本数据，对轨道交通用户识别模型进行训练；轨道交通用户识别模型用于根据待识别用户出行经过的各轨道路点之间的时间间隔数据识别待识别用户出行经过的轨道交通路线与出行方式。

在本发明的一些实施例中，基于上述方案，路线及时间间隔数据确定模块420，包括：路点时序数据修正单元，用于根据轨道路点时序数据，确定样本用户对应的最短出行路线，根据最短出行路线，对轨道路点时序数据进行修正；路线及时间间隔数据确定单元，用于根据修正后的轨道路点时序数据和预先获取的轨道路点与轨道交通路线的对应关系，确定样本用户出行经过的轨道交通路线以及样本用户出行经过的各轨道路点之间的时间间隔数据。

在本发明的一些实施例中，基于上述方案，路点时序数据修正单元，具体用于：通过A*搜索算法，根据轨道路点时序数据中各个轨道路点的顺序，确定依次相邻的三个轨道路点中两端的轨道路点对应的最短出行路线；若依次相邻的三个轨道路点中两端的轨道路点对应的最短出行路线与相邻的三个轨道路点对应的出行路线不同，则剔除相邻的三个轨道路点中的中间轨道路点对应的轨道路点时序数据；将剔除后剩余的轨道路点时序数据确定为修正后的轨道路点时序数据。

在本发明的一些实施例中，基于上述方案，该轨道交通用户识别模型训练装置400还包括：位置数据获取模块，用于获取各个轨道交通路线上的各个轨道路点的位置数据与各个基站的位置数据；聚类簇生成模块，用于根据基站的位置数据与轨道路点的位置数据，通过DBSCAN密度聚类算法对基站与轨道路点进行聚类，得到多个聚类簇；其中，聚类簇中包含至少一个基站与至多一个轨道路点；对应关系确定模块，用于确定位于同一聚类簇内的基站与轨道路点之间存在对应关系。

在本发明的一些实施例中，基于上述方案，该轨道交通用户识别模型训练装置400还包括：时间间隔确定模块，用于根据轨道路点时序数据，确定依次相邻的三个轨道路点中两端的轨道路点之间的时间间隔；数据舍弃模块，用于若时间间隔大于预设时间间隔，则舍弃轨道路点时序数据。

在本发明的一些实施例中，基于上述方案，样本生成模块430，具体用于：将出行方式为乘坐轨道交通的样本用户出行经过的各轨道路点之间的时间间隔数据，确定为正样本数据的样本数据特征，将出行方式为非乘坐轨道交通的样本用户出行经过的各轨道路点之间的时间间隔数据，确定为负样本数据的样本数据特征；将出行方式为乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行方式，确定为正样本数据的样本标签，将出行方式为非乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行方式，确定为负样本数据的样本标签。

需要说明的是，本发明实施例中提供的轨道交通用户识别模型训练装置能够实现前述的轨道交通用户识别模型训练方法的各个过程，并达到相同的功能和效果，这里不再重复。

图5为本发明一实施例提供的一种轨道交通用户识别装置的示意框图。

参照图5所示，该轨道交通用户识别装置500包括：轨道路点时序数据确定模块510、时间间隔数据确定模块520、模型识别模块530以及轨道交通用户判断模块540。

其中，轨道路点时序数据确定模块510，用于获取待识别用户对应的基站位置时序数据，根据基站位置时序数据与预先确定的轨道路点与基站之间的对应关系，确定待识别用户对应的轨道路点时序数据；时间间隔数据确定模块520，用于根据轨道路点时序数据，确定待识别用户出行经过的各轨道路点之间的时间间隔数据；模型识别模块530，用于根据待识别用户出行经过的各轨道路点之间的时间间隔数据，生成待识别用户对应的出行特征数据，将出行特征数据输入如上述第一方面所述的轨道交通用户识别模型，识别得到待识别用户出行经过的轨道交通路线与出行方式；轨道交通用户判断模块540，用于根据待识别用户出行经过的轨道交通路线与出行方式，判断待识别用户是否为轨道交通用户。

根据本发明实施例的技术方案，首先，获取各个样本用户对应的基站位置时序数据，根据基站位置时序数据与预先确定的轨道路点与基站之间的对应关系，确定样本用户对应的轨道路点时序数据；然后，根据轨道路点时序数据确定样本用户出行经过的各轨道路点之间的时间间隔数据；接着，根据待识别用户出行经过的各轨道路点之间的时间间隔数据，生成待识别用户对应的出行特征数据，将出行特征数据输入如上述第一方面所述的轨道交通用户识别模型，识别得到待识别用户出行经过的轨道交通路线与出行方式；最后，根据待识别用户出行经过的轨道交通路线与出行方式，判断待识别用户是否为轨道交通用户。通过本发明实施例，能够获取样本用户对应的基站位置时序数据以及对应的轨道路点时序数据，再获取各轨道路点之间的时间间隔数据，生成待识别用户的出行特征数据，输入轨道交通用户识别模型，得到识别结果，再根据识别结果判断待识别用户是否为轨道交通用户，该技术方案通过训练好的轨道交通用户识别模型对待识别用户进行识别，能够有效提高判断目标用户是否为轨道交通用户的准确率。

需要说明的是，本发明实施例中提供的轨道交通用户识别装置能够实现前述的轨道交通用户识别方法的各个过程，并达到相同的功能和效果，这里不再重复。

进一步地，本发明一个实施例还提供了一种电子设备，图6为本发明一实施例提供的电子设备的结构示意图，如图6所示，该设备包括：存储器601、处理器602、总线603和通信接口604。存储器601、处理器602和通信接口604通过总线603进行通信，通信接口604可以包括输入输出接口，输入输出接口包括但不限于键盘、鼠标、显示器、麦克风、扩音器等。

图6中，存储器601上存储有可在处理器602上运行的计算机可执行指令，计算机可执行指令被处理器602执行时实现以下流程：

获取各个样本用户对应的基站位置时序数据，根据基站位置时序数据与预先确定的轨道路点与基站之间的对应关系，确定样本用户对应的轨道路点时序数据；根据轨道路点时序数据与预先获取的轨道路点与轨道交通路线的对应关系，确定样本用户出行经过的轨道交通路线以及样本用户出行经过的各轨道路点之间的时间间隔数据；获取样本用户的出行方式，根据出行方式为乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成正样本数据，根据出行方式为非乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成负样本数据；根据正样本数据与负样本数据，对轨道交通用户识别模型进行训练；轨道交通用户识别模型用于根据待识别用户出行经过的各轨道路点之间的时间间隔数据识别待识别用户出行经过的轨道交通路线与出行方式。

可选地，计算机可执行指令被处理器执行时，根据轨道路点时序数据与预先获取的轨道路点与轨道交通路线的对应关系，确定样本用户出行经过的轨道交通路线以及样本用户出行经过的各轨道路点之间的时间间隔数据，包括：

根据轨道路点时序数据，确定样本用户对应的最短出行路线，根据最短出行路线，对轨道路点时序数据进行修正；根据修正后的轨道路点时序数据和预先获取的轨道路点与轨道交通路线的对应关系，确定样本用户出行经过的轨道交通路线以及样本用户出行经过的各轨道路点之间的时间间隔数据。

可选地，计算机可执行指令被处理器执行时，根据轨道路点时序数据，确定样本用户对应的最短出行路线，根据最短出行路线，对轨道路点时序数据进行修正，包括：

通过A*搜索算法，根据轨道路点时序数据中各个轨道路点的顺序，确定依次相邻的三个轨道路点中两端的轨道路点对应的最短出行路线；若依次相邻的三个轨道路点中两端的轨道路点对应的最短出行路线与相邻的三个轨道路点对应的出行路线不同，则剔除相邻的三个轨道路点中的中间轨道路点对应的轨道路点时序数据；将剔除后剩余的轨道路点时序数据确定为修正后的轨道路点时序数据。

可选地，计算机可执行指令被处理器执行时，在确定样本用户对应的轨道路点时序数据前，还可以实现以下流程：

获取各个轨道交通路线上的各个轨道路点的位置数据与各个基站的位置数据；根据基站的位置数据与轨道路点的位置数据，通过DBSCAN密度聚类算法对基站与轨道路点进行聚类，得到多个聚类簇；其中，聚类簇中包含至少一个基站与至多一个轨道路点；确定位于同一聚类簇内的基站与轨道路点之间存在对应关系。

可选地，计算机可执行指令被处理器执行时，在确定样本用户对应的最短出行路线前，还可以实现以下流程：

根据轨道路点时序数据，确定依次相邻的三个轨道路点中两端的轨道路点之间的时间间隔；若时间间隔大于预设时间间隔，则舍弃轨道路点时序数据。

可选地，计算机可执行指令被处理器执行时，根据出行方式为乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成正样本数据，根据出行方式为非乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成负样本数据，包括：

将出行方式为乘坐轨道交通的样本用户出行经过的各轨道路点之间的时间间隔数据，确定为正样本数据的样本数据特征，将出行方式为非乘坐轨道交通的样本用户出行经过的各轨道路点之间的时间间隔数据，确定为负样本数据的样本数据特征；将出行方式为乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行方式，确定为正样本数据的样本标签，将出行方式为非乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行方式，确定为负样本数据的样本标签。

计算机可执行指令被处理器执行时实现以下流程：

获取待识别用户对应的基站位置时序数据，根据基站位置时序数据与预先确定的轨道路点与基站之间的对应关系，确定待识别用户对应的轨道路点时序数据；根据轨道路点时序数据，确定待识别用户出行经过的各轨道路点之间的时间间隔数据；根据待识别用户出行经过的各轨道路点之间的时间间隔数据，生成待识别用户对应的出行特征数据，将出行特征数据输入轨道交通用户识别模型，识别得到待识别用户出行经过的轨道交通路线与出行方式；根据待识别用户出行经过的轨道交通路线与出行方式，判断待识别用户是否为轨道交通用户。

本发明一实施例提供的电子设备能够实现前述轨道交通用户识别模型训练方法实施例或前述轨道交通用户识别方法实施例中的各个过程，并达到相同的功能和效果，这里不再重复。

进一步地，本发明另一个实施例还提供了一种存储介质，存储介质用于存储计算机可执行指令，计算机可执行指令被处理器执行时实现以下流程：

计算机可执行指令被处理器执行时实现以下流程：

其中，存储介质包括只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本发明一实施例提供的存储介质能够实现前述轨道交通用户识别模型训练方法实施例或前述轨道交通用户识别方法实施例中的各个过程，并达到相同的功能和效果，这里不再重复。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种轨道交通用户识别模型的训练方法，其特征在于，包括：

获取各个样本用户对应的基站位置时序数据，根据所述基站位置时序数据与预先确定的轨道路点与基站之间的对应关系，确定所述样本用户对应的轨道路点时序数据；

根据所述轨道路点时序数据与预先获取的轨道路点与轨道交通路线的对应关系，确定所述样本用户出行经过的轨道交通路线以及所述样本用户出行经过的各轨道路点之间的时间间隔数据；

获取所述样本用户的出行方式，根据所述出行方式为乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成正样本数据，根据所述出行方式为非乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成负样本数据；

根据所述正样本数据与负样本数据，对所述轨道交通用户识别模型进行训练；所述轨道交通用户识别模型用于根据待识别用户出行经过的各轨道路点之间的时间间隔数据识别待识别用户出行经过的轨道交通路线与出行方式，其中，根据所述轨道路点时序数据与预先获取的轨道路点与轨道交通路线的对应关系，确定所述样本用户出行经过的轨道交通路线以及所述样本用户出行经过的各轨道路点之间的时间间隔数据，包括：

根据所述轨道路点时序数据，确定所述样本用户对应的最短出行路线，根据所述最短出行路线，对所述轨道路点时序数据进行修正，包括：通过A*搜索算法，根据所述轨道路点时序数据中各个轨道路点的顺序，确定依次相邻的三个轨道路点中两端的轨道路点对应的最短出行路线；若所述依次相邻的三个轨道路点中两端的轨道路点对应的最短出行路线与所述相邻的三个轨道路点对应的出行路线不同，则剔除所述相邻的三个轨道路点中的中间轨道路点对应的轨道路点时序数据；将剔除后剩余的轨道路点时序数据确定为修正后的轨道路点时序数据；

根据修正后的所述轨道路点时序数据和预先获取的轨道路点与轨道交通路线的对应关系，确定所述样本用户出行经过的轨道交通路线以及所述样本用户出行经过的各轨道路点之间的时间间隔数据；

其中，根据所述出行方式为乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成正样本数据，根据所述出行方式为非乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成负样本数据，包括：

将出行方式为乘坐轨道交通的样本用户出行经过的各轨道路点之间的时间间隔数据，确定为正样本数据的样本数据特征，将出行方式为非乘坐轨道交通的样本用户出行经过的各轨道路点之间的时间间隔数据，确定为负样本数据的样本数据特征；

将出行方式为乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行方式，确定为所述正样本数据的样本标签，将出行方式为非乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行方式，确定为所述负样本数据的样本标签。

2.根据权利要求1所述的方法，其特征在于，在所述确定所述样本用户对应的轨道路点时序数据前，所述方法还包括：

获取各个轨道交通路线上的各个轨道路点的位置数据与各个基站的位置数据；

根据所述基站的位置数据与所述轨道路点的位置数据，通过DBSCAN密度聚类算法对所述基站与所述轨道路点进行聚类，得到多个聚类簇；其中，所述聚类簇中包含至少一个基站与至多一个轨道路点；

确定位于同一聚类簇内的基站与轨道路点之间存在对应关系。

3.根据权利要求1所述的方法，其特征在于，在确定所述样本用户对应的最短出行路线前，所述方法还包括：

根据所述轨道路点时序数据，确定依次相邻的三个轨道路点中两端的轨道路点之间的时间间隔；

若所述时间间隔大于预设时间间隔，则舍弃所述轨道路点时序数据。

4.一种轨道交通用户识别方法，其特征在于，包括：

获取待识别用户对应的基站位置时序数据，根据所述基站位置时序数据与预先确定的轨道路点与基站之间的对应关系，确定所述待识别用户对应的轨道路点时序数据；

根据所述轨道路点时序数据，确定所述待识别用户出行经过的各轨道路点之间的时间间隔数据；

根据所述待识别用户出行经过的各轨道路点之间的时间间隔数据，生成所述待识别用户对应的出行特征数据，将所述出行特征数据输入如权利要求1-3中任一项所述的轨道交通用户识别模型，识别得到所述待识别用户出行经过的轨道交通路线与出行方式；

根据所述待识别用户出行经过的轨道交通路线与出行方式，判断所述待识别用户是否为轨道交通用户；

其中，所述根据所述轨道路点时序数据，确定所述待识别用户出行经过的各轨道路点之间的时间间隔数据，包括：

根据轨道路点时序数据，确定待识别用户对应的最短出行路线，根据最短出行路线，对轨道路点时序数据进行修正；

根据修正后的轨道路点时序数据和预先获取的轨道路点与轨道交通路线的对应关系，确定待识别用户出行经过的轨道交通路线以及待识别用户出行经过的各轨道路点之间的时间间隔数据。

5.一种轨道交通用户识别模型的训练装置，其特征在于，包括：

路点时序数据确定模块，用于获取各个样本用户对应的基站位置时序数据，根据所述基站位置时序数据与预先确定的轨道路点与基站之间的对应关系，确定所述样本用户对应的轨道路点时序数据；

路线及时间间隔数据确定模块，用于根据所述轨道路点时序数据与预先获取的轨道路点与轨道交通路线的对应关系，确定所述样本用户出行经过的轨道交通路线以及所述样本用户出行经过的各轨道路点之间的时间间隔数据；

样本生成模块，用于获取所述样本用户的出行方式，根据所述出行方式为乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成正样本数据，根据所述出行方式为非乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行经过的各轨道路点之间的时间间隔数据，生成负样本数据；

模型训练模块，用于根据所述正样本数据与负样本数据，对所述轨道交通用户识别模型进行训练；所述轨道交通用户识别模型用于根据待识别用户出行经过的各轨道路点之间的时间间隔数据识别待识别用户出行经过的轨道交通路线与出行方式；

其中，所述路线及时间间隔数据确定模块，包括：

路点时序数据修正单元，用于根据轨道路点时序数据，确定样本用户对应的最短出行路线，根据最短出行路线，对轨道路点时序数据进行修正，包括：通过A*搜索算法，根据轨道路点时序数据中各个轨道路点的顺序，确定依次相邻的三个轨道路点中两端的轨道路点对应的最短出行路线；若依次相邻的三个轨道路点中两端的轨道路点对应的最短出行路线与相邻的三个轨道路点对应的出行路线不同，则剔除相邻的三个轨道路点中的中间轨道路点对应的轨道路点时序数据；将剔除后剩余的轨道路点时序数据确定为修正后的轨道路点时序数据；

路线及时间间隔数据确定单元，用于根据修正后的轨道路点时序数据和预先获取的轨道路点与轨道交通路线的对应关系，确定样本用户出行经过的轨道交通路线以及样本用户出行经过的各轨道路点之间的时间间隔数据；

所述样本生成模块具体用于：将出行方式为乘坐轨道交通的样本用户出行经过的各轨道路点之间的时间间隔数据，确定为正样本数据的样本数据特征，将出行方式为非乘坐轨道交通的样本用户出行经过的各轨道路点之间的时间间隔数据，确定为负样本数据的样本数据特征；将出行方式为乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行方式，确定为正样本数据的样本标签，将出行方式为非乘坐轨道交通的样本用户出行经过的轨道交通路线以及出行方式，确定为负样本数据的样本标签。

6.一种轨道交通用户识别装置，其特征在于，包括：

轨道路点时序数据确定模块，用于获取待识别用户对应的基站位置时序数据，根据所述基站位置时序数据与预先确定的轨道路点与基站之间的对应关系，确定所述待识别用户对应的轨道路点时序数据；

时间间隔数据确定模块，用于根据所述轨道路点时序数据，确定所述待识别用户出行经过的各轨道路点之间的时间间隔数据，包括：根据轨道路点时序数据，确定待识别用户对应的最短出行路线，根据最短出行路线，对轨道路点时序数据进行修正，根据修正后的轨道路点时序数据和预先获取的轨道路点与轨道交通路线的对应关系，确定待识别用户出行经过的轨道交通路线以及待识别用户出行经过的各轨道路点之间的时间间隔数据；

模型识别模块，用于根据所述待识别用户出行经过的各轨道路点之间的时间间隔数据，生成所述待识别用户对应的出行特征数据，将所述出行特征数据输入如权利要求1-3中任一项所述的轨道交通用户识别模型，识别得到所述待识别用户出行经过的轨道交通路线与出行方式；

轨道交通用户判断模块，用于根据所述待识别用户出行经过的轨道交通路线与出行方式，判断所述待识别用户是否为轨道交通用户。

7.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述计算机可执行指令在上述处理器上运行时，能够实现上述权利要求1-3任一项所述的轨道交通用户识别模型的训练方法或上述权利要求4所述的轨道交通用户识别方法。

8.一种存储介质，该存储介质中存储有计算机可执行指令，其特征在于，所述计算机可执行指令在被处理器执行时，能够实现上述权利要求1-3任一项所述的轨道交通用户识别模型的训练方法或上述权利要求4所述的轨道交通用户识别方法。