CN109685109B

CN109685109B - 一种基于孪生神经网络的基站标号轨迹分类方法

Info

Publication number: CN109685109B
Application number: CN201811414586.0A
Authority: CN
Inventors: 吕明琪; 曾大建; 张�浩; 陈铁明
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2020-10-30
Anticipated expiration: 2038-11-26
Also published as: CN109685109A

Abstract

一种基于孪生神经网络的基站标号轨迹分类方法，包括如下步骤：(1)对智能手机所连接基站的标号发生切换时进行数据采集，形成历史基站标号轨迹数据集；(2)基于word2vec算法将离散的基站标号转化为具有语义的向量；(3)基于孪生神经网络训练基站标号轨迹相似度模型，用以估计任意两条基站标号轨迹的相似度；(4)基于基站标号轨迹相似度模型对基站标号轨迹进行在线分类。该方法可运行在智能手机上，其优势在于：(1)无需使用GPS、WiFi等定位手段，避免了智能手机定位方式的局限性问题；(2)基于深度学习端到端的方式自动发现基站标号轨迹间的关联，解决了现有方法过于依赖领域知识的不足。

Description

一种基于孪生神经网络的基站标号轨迹分类方法

技术领域

本发明涉及移动计算和数据挖掘技术，具体涉及一种基站标号轨迹分类方法。

背景技术

轨迹挖掘即从运动物体(如车辆、行人)的历史轨迹数据中挖掘出规律和模式。目前的轨迹挖掘方法大多要求历史轨迹数据包含明确的位置信息。例如，Y.Zheng在“Trajectory data mining:An overview”(ACM Transactions on Intelligent Systemsand Technology 6(2015))中，以及M.Lin和W.J.Hsu在“Mining GPS data for mobilitypatterns:A survey”(Pervasive and Mobile Computing 12(2014))中对轨迹挖掘的各种主题、方法和应用进行了综述，其中涉及的所有方法均要求轨迹数据包含明确的位置信息(主要为GPS定位信息)。然而，智能手机的定位方式具有很大的局限性，阻碍了这些方法在智能手机上的广泛应用：

(1)智能手机可通过GPS设备进行定位，其局限性在于：GPS定位能耗过大，持续使用GPS设备将会快速消耗智能手机的电池容量。

(2)智能手机可通过无线信号源(如基站、WiFi)进行定位，其局限性在于：需要频繁的通过网络查询无线信号源的实际位置(由于只有特定的运营商才拥有这些信息)，持续使用无线信号源定位将会极大的增加网络流量。

针对这些问题，目前出现了少量基站标号轨迹挖掘的工作，这些工作只考虑基站标号，不需要基站标号对应的实际位置。例如，M.Bayir、M.Demirbas和N.Eagle在“Mobilityprofiler:A framework for discovering mobility profiles of cell phone users”(Pervasive and Mobile Computing 6(2010))中提出了一种基于基站振荡图的轨迹模式挖掘算法，M.Lv、L.Chen、Y.Shen等人在“Measuring cell-id trajectory similarity formobile phone route classification”(Knowledge-Based Systems 89(2015))中考虑基站间相似度对基站标号轨迹进行分析从而实现基站标号轨迹分类。然而，这些工作均过于依赖领域知识(如定义基站振荡模式、定义基站相似度公式等)，当领域知识不准确或不适应新环境的情况下难以保证方法的可靠性。

发明内容

针对现有方法的不足，本发明提出了一种基于孪生神经网络的基站标号轨迹分类方法，无需明确的位置信息，避免了智能手机定位方式的局限性问题；基于word2vec算法自动发现基站标号间的潜在关联，提高了基站标号轨迹相似度的计算准确度；基于深度学习端到端的方式训练基站标号轨迹相似度模型，解决了现有方法过于依赖领域知识的不足。

为了解决上述技术问题本发明提供如下的技术方案：

一种基于孪生神经网络的基站标号轨迹分类方法，包括如下步骤：

(1)历史基站标号轨迹数据集采集：首先对用户智能手机所连接基站的标号发生切换时进行数据采集，然后对采集到的数据进行轨迹分割得到大量基站标号轨迹，以形成历史基站标号轨迹数据集；

(2)基站标号向量化：基于word2vec算法对历史基站标号轨迹数据集进行分析，在此基础上为其中包含的每个基站标号生成一个具有语义的向量；

(3)基站标号轨迹相似度模型训练：基于孪生神经网络训练基站标号轨迹相似度模型，用以估计任意两条基站标号轨迹的相似度；

(4)在线基站标号轨迹分类：给定一条新的基站标号轨迹，将其分类为历史基站标号轨迹类型的一种，或认定其为新的基站标号轨迹类型。

进一步，所述步骤(2)中，基站标号向量化的过程如下：

(2-1)基站标号轨迹“文档”化：将一条基站标号轨迹看作一个“文档”，将其中包含的每个基站标号看作一个“词”，则历史基站标号轨迹数据集可看作一个“语料库”；

(2-2)基站标号向量生成：基于word2vec算法对看作“语料库”的历史基站标号轨迹数据集进行分析，得到其中包含的每个看作“词”的基站标号对应的向量。

再进一步，所述步骤(3)中，基站标号轨迹相似度模型训练的过程如下：

(3-1)历史基站标号轨迹数据集标注：根据用户的运动路径人工将历史基站标号轨迹分成不同类型，则任意两条基站标号轨迹的关系为1或0，1表示相同类型，0表示不同类型；

(3-2)相似度模型训练：采用孪生神经网络训练相似度模型，对网络结构的解释如下：

输入层：网络的输入为两条基站标号轨迹，记为T_A和T_B，首先将T_A和T_B中所有的基站标号替换为其对应的向量，得到两条向量序列vT_A和vT_B；然后通过尾部截断或尾部填充全0向量的方式将vT_A和vT_B处理成固定相同的长度；

循环层：循环层用两个参数完全共享的GRU网络，记为GRU_A和GRU_B，分别处理输入的vT_A和vT_B，循环层的输出为GRU_A的最后一个隐状态向量

和GRU_B的最后一个隐状态向量

交互层：交互层基于余弦相似度计算

和

的相似度；

输出层：输出层的输出为T_A和T_B的预测相似度值，模型采用对比损失函数作为训练的损失函数。

更进一步，所述步骤(4)中，在线基站标号轨迹分类的过程如下：

(4-1)历史类型中心基站标号轨迹生成：对用户标注的每一个历史基站标号轨迹类型C_i，在其包含的基站标号轨迹集中找到一条中心基站标号轨迹cT_i；

(4-2)当前基站标号轨迹分类：给定一条新的基站标号轨迹nT，基于训练好的基站标号轨迹相似度模型计算nT与每个历史基站标号轨迹类型C_i的中心基站标号轨迹cT_i的相似度值s_i，若其中最大的相似度值s_i小于指定阈值sThres，或nT中包含的无对应向量的基站标号数量大于指定阈值nThres，则输出一种新的基站标号轨迹类型nC；反之，则输出历史基站标号轨迹类型C_i；

(4-3)历史基站标号轨迹数据集扩充：若nT的分类结果为C_i，则将nT加入C_i对应的基站标号轨迹集，并重新生成C_i的中心基站标号轨迹；若nT的分类结果为nC，则将nC加入历史基站标号轨迹类型集，并将nT作为nC的中心基站标号轨迹。

本发明的有益效果主要表现在：(1)仅基于基站标号轨迹数据，无需明确的位置信息，避免了智能手机定位方式的局限性问题；(2)基于word2vec算法自动发现基站标号间的潜在关联，提高了基站标号轨迹相似度的计算准确度；(3)基于深度学习端到端的方式训练基站标号轨迹相似度模型，解决了现有方法过于依赖领域知识的不足。

附图说明

图1为基于孪生神经网络的基站标号轨迹分类方法流程图；

图2为基站标号轨迹相似度模型网络结构图；

图3为在线基站标号轨迹分类流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于孪生神经网络的基站标号轨迹分类方法，包括如下步骤：

进一步，所述步骤(2)中，基站标号向量化的过程如下：

(3-2)相似度模型训练：采用孪生神经网络训练相似度模型，其网络结构如图2所示，对网络结构的解释如下：

和GRU_B的最后一个隐状态向量

交互层：交互层基于余弦相似度计算

和

的相似度；

参照图3，所述步骤(4)中，在线基站标号轨迹分类的过程如下：