CN112653997A

CN112653997A - 一种基于基站序列的位置轨迹计算方法

Info

Publication number: CN112653997A
Application number: CN202011588922.0A
Authority: CN
Inventors: 程鹏飞; 赵逢波; 何芳; 刘敏
Original assignee: Xi'an Jiusuo Data Technology Co ltd
Current assignee: Xi'an Jiusuo Data Technology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-13

Abstract

本发明公开了一种基于基站序列的位置轨迹计算方法，该方法首先构建基站及位置序列数据S1、轨迹序列数据模块S2和深度网络模块S3，其中，基站及位置序列数据S1取自LBS，将计算路段序列问题看作为不定长序列问题；轨迹序列数据模块S2利用LBS数据中经纬度数据和城市道路交通网络数据进行比对和计算得来；深度网络模块S3以GRU模型为单元，通过编码器和解码器作为模型主要处理模块构造Seq2Seq模型；然后利用该Seq2Seq模型对输入基站序列数据，输出路段序列数据进行训练，最终以手机号码在城市道路运动过程中产生的基站序列预测号码可能经过的路段序列。

Description

一种基于基站序列的位置轨迹计算方法

技术领域

本发明属于计算机应用技术领域，涉及利用计算机技术智能预测城市人口交通状态的方法，具体而言是一种基于基站序列的位置轨迹计算方法，从而准确预测区域人口运动轨迹。

背景技术

城市人员道路轨迹的预测和甄别是城市管理服务中的一项重要的任务。掌握人员道路轨迹是对于政府相关部门作为高效管理城市的重要手段，也是对于建设平安城市也是核心要求。

目前业界对于人员道路轨迹的计算主要基于卫星定位系统，如通过手机开启定位服务则可以产生用户的实时移动轨迹，该方法面临的缺陷在于需要用户自主开启定位服务且和对于网络信号要求较高，对于信号较差的位置区域其定位精度存在较大的差异。并且在对于关键人员进行研判工作时，则无法追踪到其所处位置及产生的道路轨迹，因此传统的定位服务在城市管理服务中面临一定的局限性。

发明内容

针对上述传统定位系统计算轨迹存在的缺陷或不足，本发明的目的在于，提供一种基于基站序列的位置轨迹计算方法，该方法利用手机开启且保持信号的情况下，产生与基站进行互联的数据进行人员道路轨迹的推算和预测，为城市管理服务提供了强有力的技术支撑。

为了实现上述任务，本发明采用如下的技术解决方案：

一种基于基站序列的位置轨迹计算方法，其特征在于，该方法首先构建基站及位置序列数据S1、轨迹序列数据模块S2和深度网络模块S3，其中，基站及位置序列数据S1取自LBS，将计算路段序列问题看作为不定长序列问题；轨迹序列数据模块S2利用LBS数据中经纬度数据和城市道路交通网络数据进行比对和计算得来；深度网络模块S3以GRU模型为单元，通过编码器和解码器作为模型主要处理模块构造Seq2Seq模型；然后利用该Seq2Seq模型对输入基站序列数据，输出路段序列数据进行训练，最终以手机号码在城市道路运动过程中产生的基站序列预测号码可能经过的路段序列。

根据本发明，所述构建基站及位置序列数据S1的方法是：

从LBS数据提取用户手机号码、基站(lac、ci)、经纬度、时间戳等数据；

以用户手机号为单元对基站、经纬度、时间戳进行分组，并对数据进行清洗，包括去重和去除空值；

根据手机号前7位确定运营商字段，并作为属性添加到每组数据中；

将已分组的数据针对于每组按照时间戳进行过滤，过滤方法按照连续两个数据的时间间隔大于设定阈值30分钟；

对已过滤数据进行再次提取，提取规则遵循连续三个数据点为一个手机号码所产生，并且连续两个点的时间间隔小于设定阈值30分钟；

将连续三个数据点重新划分为一组，划分标准根据基站(lac、ci)字段进行；

统计已分组的数据，将各组基站序列完全相同的组进行合并，并对每条数据的经纬度进行拼接，而后得到的每组数据包含一个基站序列，若干个经纬度序列；

将每个基站(lac、ci)字段和运营商字段数据进行字符串形式的拼接，以此作为模块三的输入数据，保留经纬度字段数据并且使得基站与经纬度保持一一对应关系。

进一步地，所述轨迹序列数据模块S2构造方法如下：

基站及位置序列数据S1提取的位置基站等数据中的经纬度字段在轨迹序列数据模块S2中需要映射到道路交通网络中，以此获取手机号码所处位置对应的路段；

此处路网数据包括路段id、路段端点经纬度、相邻路段列表等；

认为切割后路段近似直线，则号码位置通过经纬度映射路段的方法按照三角形法进行计算，号码当前位置作为三角形顶点，路段两个端点作为三角形其他两个点。

本发明的基于基站序列的位置轨迹计算方法，是一种普适度更高，计算成本更低的计算方法。与现有技术相比，带来的积极效果是：

1)覆盖性：克服了传统技术计算道路交通轨迹基于卫星定位系统所产生的缺陷，如信号要求高，需要用户权限开启等；本发明只需要号码与基站的互联数据即可预测用户号码经过路段，因此具有覆盖面广的优势。

2)创新性：将路段序列预测的问题转换为NLP的生成式问题，采用业界前沿的算法模型，即Seq2Seq模型，具有很强的创新性特点。

3)优越性：构建的Seq2Seq模型采用GRU模型单元克服了传统RNN模型所带来的梯度缺陷，同时具有计算较易等优点，在时间序列预测中具有一定的优越性。

附图说明

图1为模拟用户号码运动轨迹图；

图2为GRU内部结构图；

图3为Seq2Seq模型结构图。

以下结合附图和实施例对本发明作进一步的详细说明。

具体实施方式

需要说明的是，在以下的实施例中，基站及位置序列数据取自LBS(LocationBased Services，基于位置的服务)。

本实施例给出一种基于基站序列的位置轨迹计算方法，该方法首先构建基站及位置序列数据S1、轨迹序列数据模块S2和深度网络模块S3，其中，基站及位置序列数据S1取自LBS，将计算路段序列问题看作为不定长序列问题；轨迹序列数据模块S2利用LBS数据中经纬度数据和城市道路交通网络数据进行比对和计算得来；深度网络模块S3以GRU模型为单元，通过编码器和解码器作为模型主要处理模块构造Seq2Seq模型；然后利用该Seq2Seq模型对输入基站序列数据，输出路段序列数据进行训练，最终以手机号码在城市道路运动过程中产生的基站序列预测号码可能经过的路段序列。

基站及位置序列数据S1(以下简称S1)的构建具体方法描述如下：

从LBS数据提取用户手机号码、基站(lac、ci)、经纬度、时间戳等数据。

以用户手机号为单元对基站、经纬度、时间戳进行分组，并对数据进行清洗，包括去重和去除空值。

根据手机号前7位确定运营商字段，并作为属性添加到每组数据中。

将已分组的数据针对于每组(每个手机号产生的基站、经纬度等数据)按照时间戳进行过滤，过滤方法按照连续两个数据的时间间隔大于设定阈值30分钟。

对已过滤数据进行再次提取，提取规则遵循连续三个数据点为一个手机号码所产生，并且连续两个点的时间间隔小于设定阈值30分钟。

将连续三个数据点重新划分为一组，划分标准根据基站(lac、ci)字段，如一组数据包括三条数据，每条数据包含四个字段：基站、号码位置经纬度及运营商。

统计已分组的数据，将各组基站序列完全相同的组进行合并，并对每条数据的经纬度进行拼接，而后得到的每组数据包含一个基站序列(3个基站)，若干个经纬度序列(1个经纬度序列为3经纬度拼接，在轨迹序列模块(S2)进一步映射为路段，表示为3个路段)。

进一步，将每个基站(lac、ci)字段和运营商字段数据进行字符串形式的拼接，以此作为模块三的输入数据，保留经纬度字段数据并且使得基站与经纬度保持一一对应关系，以此作为轨迹序列数据模块S2的基础数据。

轨迹序列数据模块S2(以下简称S2)的构造方法，主要利用LBS数据中经纬度数据和城市道路交通网络数据进行比对和计算得来，具体构造方法如下：

S1提取的位置基站等数据中的经纬度字段在S2中需要映射到道路交通网络中，以此获取手机号码所处位置对应的路段。

此处路网数据包括路段id(道路根据道路交叉切割为路段)、路段端点经纬度、相邻路段列表等。

计算号码当前位置、路段端点P和端点Q两两之间的距离即计算三角形的三条边长度，计算公式如式(1)所示。

D＝111.12cos{A/[sinΦAsinΦB+cosΦAcosΦBcos(λB-λA)]} (1)

式中，111.12为赤道上经度1°对应在地面上的弧长；λA和ΦA为A点对应的经度和纬度，λB和ΦB为B点对应的经度和纬度。

进一步，利用三边之长可以计算三角形顶点(号码位置)距离路段的直线距离，计算公式如(2)所示：

式中，d₁为号码位置到端点P的距离，d₂为号码位置到端点Q的距离，d₃为端点Q到端点Q的距离。

计算得到号码位置距离路段距离之后，此处设定距离阈值为10米，号码位置到路段直线距离d小于设定阈值5米，则认为该号码处于当前路段。

将号码位置映射得到的路段数据替换S1数据中的经纬度数据，该路段数据作为深度网路模块S3的输出。

深度网路模块S3(以下简称S3)的构造方法，主要以GRU模型为单元，通过Encoder(编码器)和Decoder(解码器)作为模型主要处理模块构造Seq2Seq模型，具体构造方法如下：

Seq2Seq模型采用GRU网络单元，由于RNN特有的链式结构具有保持信息持久性的特性，适用于时序性数据的处理。为了克服传统RNN神经网络梯度爆炸或梯度消失的缺陷，本实施例采用的GRU是LSTM的一种变种。GRU相对LSTM具有参数少、计算更易及不易过拟合等优点，更符合城市轨道交通轨迹预测的需求。

GRU内部结构如图2所示，一个GRU单元由复位门(resetgate)及更新门(updategate)组成，其中h_t-1为t时刻的输出，i_t为t时刻的输入向量，h_t为t时刻的候选向量。GRU的具体计算公式如下式(3)-(6)所示：

u_t＝σ(b_u+U_ui_t+W_uh_t-1) (3)

r_t＝σ(b_r+U_ri_t+W_rh_t-1) (4)

式中：σ(·)表示sigmoid函数；r_t表示重置门向量；u_t表示更新门向量；b表示偏置向量；U表示输入向量的权重；W表示循环权重。

利用GRU作为模型基本单元构建seq2seq模型，该模型是一种广泛应用于机器翻译和不等长序列网络的方法，申请人首次尝试应用在解决交通轨迹序列问题。

Seq2Seq模型的构成如图3所示。h1-h3及h1’-h3’为GRU单元。

基站序列A，B，C送入模型之前首先进行one-Hot编码，再经过Embedding转换为分布式向量，计算过程如下：

A，B，C序列经过one-hot编码后得到向量

向量列数为训练数据中去重后的总基站数，用n表示。

Embedding计算方法如式(7)所示，将原始高维稀疏向量转换为低维稠密向量，以此做为网络模型的输入特征。

Encoder模块中通过GRU网络单元将输入式(7)计算所得的分布式向量编码成一个定长向量c，认为这个向量包含了基站序列的所有信息。通过把Encoder的最后一个隐状态赋值给c。

进一步，Decoder模块通过GRU网络单元对定长向量c进行解码：在给定Target序列的前一个道路轨迹标签(<bos>为状态起始位)，通过训练来预测下一个道路轨迹标签。

最终预测的不等长序列中，代表用户手机在移动过程中产生的基站序列可以推测出用户手机所可能经过的不同路段组合方式。

进一步，计算用户手机最可能经过的路段，通过LBS数据路段人口概率计算，针对于每条路可计算概率，路段概率计算根据公式(8)所示：

式中，

为经过k_i道路的概率，可根据LBS数据的当前道路存在手机号码数量及城市道路总手机号码数量进行计算。

以下是发明人给出的实施例。

实施例：

图1给出了用户运动过程中产生的基站序列及真实经过的路段序列，用户1经过k1(长安路id1)，k2(雁塔西路id2)，用户2经过k1(长安路id1)，k3(长安路id2)，k3(小寨西路id1)，此处id表示对路进行了分段处理并进行id标识。两个用户均产生的基站序列为A，B，C。

首先输入数据模块S1是基于Spark1.6，Hadoop2.6平台进行数据处理并提取完成的，将原始LBS数据(西安市区范围)经过S1模块具体步骤处理并输出为基站(lac,ci,运营商)和经纬度字段，并保持一组基站序列对应多组经纬度序列。

根据西安市路网数据，将LBS所提取经纬度通过S2计算方式对应到市区各路段。

利用深度学习框架Tensorflow搭建Seq2Seq网络模型，模型单元为GRU。将提取的市区范围内的用户基站序列embedding后作为模型输入，多种路段的组合作为模型的输出序列，训练并保存模型。

模型进行预测时，首先将用户经过的基站序列(A，B，C)转换为embedding分布式向量并输入到模型，此时模型预测输出用户可能经过的路段包括从长安路id1至雁塔西路id2及长安路id1、长安路id2至小寨西路id1。

进一步确定用户可能经过的路段，需要计算两种路段序列下的条件概率，计算依据LBS西安市区用户数据。

Claims

1.一种基于基站序列的位置轨迹计算方法，其特征在于，该方法首先构建基站及位置序列数据S1、轨迹序列数据模块S2和深度网络模块S3，其中，基站及位置序列数据S1取自LBS，将计算路段序列问题看作为不定长序列问题；轨迹序列数据模块S2利用LBS数据中经纬度数据和城市道路交通网络数据进行比对和计算得来；深度网络模块S3以GRU模型为单元，通过编码器和解码器作为模型主要处理模块构造Seq2Seq模型；然后利用该Seq2Seq模型对输入基站序列数据，输出路段序列数据进行训练，最终以手机号码在城市道路运动过程中产生的基站序列预测号码可能经过的路段序列。

2.如权利要求1所述的方法，其特征在于，所述构建基站及位置序列数据S1的方法是：

3.如权利要求1所述的方法，其特征在于，所述轨迹序列数据模块S2构造方法如下：