CN109041217A

CN109041217A - 一种异构网络中的分级移动性预测方法

Info

Publication number: CN109041217A
Application number: CN201811109519.8A
Authority: CN
Inventors: 李曦; 刘振亚; 纪红; 张鹤立
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2018-12-18
Anticipated expiration: 2038-09-21
Also published as: CN109041217B

Abstract

本发明提出一种异构网络中的分级移动性预测方法，属于无线通信技术领域。具体步骤包括：首先根据数据网络记录DNRs中的用户移动轨迹得出小基站为用户提供数据服务的总时长，得到一个小基站的有序列表；对有序列表中的小基站进行聚类，得到一个地理区域的集合；然后将地理区域内小基站的服务时长累加得到该区域总的访问时长，得到最终的IGAs的集合；最后，判断用户当前所在位置是否位于IGAs内，如果是，执行粗粒度预测，然后执行细粒度预测；如果否，结束预测。本发明的预测过程被划分为两个不同粒度的预测阶段，并通过联合考虑预测准确度与复杂度实现一个折衷，提高了预测的精度，能够显著降低实现复杂度和预测消耗的时间。

Description

一种异构网络中的分级移动性预测方法

技术领域

本发明属于无线通信技术领域，具体涉及一种异构网络中的分级移动性预测方法。

背景技术

随着无线通信的迅猛发展，预计到2021年全球移动数据流量将达到每个月49艾字节(参考文件[1])。移动数据流量的急剧增长将给移动运营商带来巨大的压力，以满足日益增长的用户需求。研究成员已经提出在现有网络中部署小小区基站SBSs，从而与传统的宏小区基站MBSs协同工作形成所谓的异构网络(参考文件[2])。在未来的异构网络中，由于小基站的广泛部署，网络拓扑结构将变得非常复杂，这将给移动性管理引入额外的开销，以确保为用户提供一致和令人满意的服务。因此，移动性预测已经成为一个比较热门的研究方向。其中，预测准确度和计算复杂度是系统建模和算法设计中的两个主要关注点。为了建立预测模型，需要对用户过去的位置记录进行收集和整理。目前，存在很多标记位置的方法，比如全球定位系统GPS、呼叫详情记录CDRs等。此外，在用户访问移动数据网络时，顺带收集其位置信息不仅覆盖范围广，且能够产生比较精细的时间粒度(参考文件[3])。一方面，随着小基站的广泛部署，移动用户当前的位置可以通过其所在的小区进行标识。另一方面，用户终端上的许多应用程序在后台都有周期性的网络活动，即便是在用户不主动使用手机的情况下，也能提供其当前的位置信息。

在异构网络场景中，参考文献[4]基于隐马尔可夫模型HMM提出了两种预测模型：时空预测器和下一地点预测器，用于对用户访问的重要地点进行预测。并且重点研究了用户的生活习惯对这两种模型预测性能的影响。参考文献[5]基于HMM提出了一种改进的预测算法，在部署有分层蜂窝网络的特定区域中预测下一个小区。参考文献[6]基于用户终端当前和历史的移动信息，利用HMM预测工具，预测下一个可能经过的毫微微蜂窝。

现有技术为移动性预测提供了各种解决方案，以适应不同的场景和需求。从现有文献中，可以看出预测准确度是一个非常重要的性能指标。然而，在大多数情况下，实现预测的复杂度却经常被忽略。在现有网络中部署小小区基站SBSs，在显著提高系统容量、改善用户的服务质量的同时，也给移动性管理带来了新的挑战，在未来的异构网络中，由于低功率节点的广泛部署，网络拓扑结构将变得非常复杂。同时，移动通信需要更高质量的服务，这对预测准确度和实现复杂度的要求也将大大提高。在这两个重要性能指标之间的折衷也日益成为一个迫切需要考虑的问题。而随着网络拓扑变得越来越复杂，这些已有的预测技术可能由于较高的预测复杂度而变得不再适用。

参考文献：

[1]Cisco,“Cisco Visual Networking Index:Global Mobile Data TrafficForecast Update,2016-2021,”[Online].Available:https://www.cisco.com/c/en/us/solutions/collateral/service-provid er/visual-networking-index-vni/complete-white-paper-c11-481360.html,Sep 2017.

[2]J.G.Andrews,"Seven ways that HetNets are a cellular paradigmshift,"in IEEE Communications Magazine,vol.51,no.3,pp.136-144,March 2013.

[3]Y.Qiao,Y.Cheng,J.Yang,J.Liu and N.Kato,"A Mobility AnalyticalFramework for Big Mobile Data in Densely Populated Area,"in IEEE Transactionson Vehicular Technology,vol.66,no.2,pp.1443-1455,Feb.2017.

[4]Q.Lv,Y.Qiao,N.Ansari,J.Liu and J.Yang,"Big Data Driven HiddenMarkov Model Based Individual Mobility Prediction at Points of Interest,"inIEEE Transactions on Vehicular Technology,vol.66,no.6,pp.5204-5216,June 2017.

[5]H.Si,Y.Wang,J.Yuan and X.Shan,"Mobility Prediction in CellularNetwork Using Hidden Markov Model,"2010 7th IEEE Consumer Communications andNetworking Conference,Las Vegas,NV,2010,pp.1-5.

[6]A.Ben Cheikh,M.Ayari,R.Langar,G.Pujolle and L.A.Saidane,"OptimizedHandoff with Mobility Prediction Scheme Using HMM for femtocell networks,"2015IEEE International Conference on Communications(ICC),London,2015,pp.3448-3453.

发明内容

本发明针对未来的异构网络中网络拓扑结构非常复杂的情况，提供了一种异构网络中的分级移动性预测方法，在预测准确度和实现复杂度之间实现一个较好的折衷，为移动通信提供更高质量的服务。

本发明提供的异构网络中的分级移动性预测方法，包括如下步骤：

步骤1，在执行预测之前，采用如下聚类算法从用户的历史轨迹中识别出被频繁访问的地点，被频繁访问的地点用重要的地理区域IGAs来表征；

首先，确定重要的地理区域IGAs的半径阈值R_t和平均每天的访问时长阈值T_t；然后通过如下过程识别IGAs；

(1.1)从数据网络记录DNRs中提取出用户的移动轨迹，并从该移动轨迹中识别出所有的小基站SBS；根据用户的轨迹计算每个小基站为用户提供数据服务的总时长，然后按照总服务时长从大到小的顺序对在移动轨迹中出现的小基站进行排序，得到一个小基站的有序列表。

(1.2)对上述有序列表中的小基站进行聚类，得到一个包含所有地理区域的集合。将序列中的第一个小基站作为第一个地理区域的质心；遍历序列中每个剩余的小基站，将小基站的位置与识别出的所有地理区域的质心的位置进行比较，如果小基站与质心的距离大于半径阈值R_t，则将该小基站作为新的地理区域的质心，如果小基站落在某个地理区域质心的半径阈值R_t内，则将该小基站作为追随者添加到该地理区域的小基站集合中；遍历完所有的小基站后，将每个地理区域的质心调整为在该区域内所有小基站的平均位置；

(1.3)将每个地理区域内所有小基站的服务时长累加，得到该地理区域总的访问时长；基于用户的轨迹统计出每个地理区域被访问的天数，从而计算出每个地理区域的平均每天的访问时长；将平均每天的访问时长小于访问时长阈值T_t的地理区域移除，从而得到最终的IGAs的集合；

步骤2，判断用户当前所在位置是否位于IGAs内，如果是，首先执行粗粒度预测，然后执行细粒度预测；如果用户当前所在位置不位于IGAs内，结束预测；

所述的粗粒度预测是将用户的移动模式建模为二阶马尔可夫链，根据用户前两个最近访问的地点来计算下一可能访问地点的概率，选取概率值最大的地点作为粗粒度预测的结果；

所述的细粒度预测是使用HMM从时间和空间两个维度对用户所关联的小基站序列进行预测，即在当前所在的地理区域内，预测该用户在给定时间范围内的每个小时间段所连接的小基站，即用户所在的小区。

本发明与现有技术相比，具有以下明显优势：

1.本发明方法提高了预测准确度，仿真结果表明，与基于马尔可夫的预测模型相比，所提出的分级预测方法具有较高的预测准确度。同时，与对重要地点进行预测的方法(参考文献[4])相比，本发明方法提高了预测的精度，将预测的用户所在范围缩小到小小区级别；

2.本发明方法能够适用于具有复杂网络拓扑结构的未来异构网络，与在异构网络环境中仅使用HMM预测用户将要访问的下一个小区的方法(参考文献[5]、[6])相比，本发明方法能够显著降低实现复杂度和预测消耗的时间；

3.本发明方法在预测准确度和实现复杂度之间实现了一个较好的折衷。

附图说明

图1是本发明异构网络中的分级移动性预测方法的整体流程示意图；

图2是本发明方法步骤1中识别重要地理区域的伪代码示意图；

图3是本发明实施例中网络场景模型图；

图4是本发明中隐马尔可夫模型HMM的结构示意图；

图5是本发明中地理区域的数量随半径阈值R_t的变化(T_t＝0)关系图；

图6是本发明地理区域的数量随平均每天的访问时长阈值T_t的变化(R_t＝0.75)关系图；

图7是本发明中细粒度预测模型的预测准确度和提取出的隐状态数随每个小时间段长度的变化关系图；

图8是本发明中HMM和二阶马尔可夫链预测准确度的比较结果示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图和具体实施例对本发明作进一步的详细描述。

通过联合考虑预测准确度与复杂度，本发明提出了一种适用于未来异构网络的分级预测方法。在执行预测之前，需要从用户的历史轨迹中识别出被频繁访问的地点，这些地点可以由一些地理区域进行表征。然后，整个预测过程被划分为两个具有不同粒度的预测阶段，以在预测准确度与计算复杂度之间实现一个折衷。

如图1所示，为本发明的分级移动性预测流程，包括如下步骤：

步骤1，在执行预测之前，需要先从用户的历史轨迹中识别出被频繁访问的地点，这些地点可以由一些地理区域进行表征。本发明把与这些被频繁访问的地点对应的地理区域称为重要的地理区域IGAs。

研究表明，大多数人会将其大部分时间都花在一些固定的地点。每个被频繁访问的地点都可以由一个IGA进行表征。一般而言，IGAs主要从两个维度进行定义：访问时长和出现频率。一些地点在这两个维度上的取值都比较大，像家庭住所、工作场所；还有一些地点可能具有较高的出现频率，但每次访问的持续时间较短，像超市、咖啡屋。因此，本发明基于平均每天的访问时长提出了一种聚类算法，用于从用户轨迹中识别IGAs，IGAs的识别过程的伪代码如图2所示，下面说明实现步骤。

所用聚类算法主要取决于两个参数：重要的地理区域IGAs的半径阈值R_t和平均每天的访问时长阈值T_t。具体步骤如下：

(1.1)首先从数据网络记录DNRs中提取出用户的移动轨迹并从该段移动轨迹中识别出所有的小基站SBSs，小基站表示为c_i,i＝1,2,…,N_b，N_b表示小基站的数量。其次根据用户的轨迹计算每个小基站c_i为用户提供数据服务总时长δ_i，i＝1,2,…,N_b。然后按照服务时长δ_i从大到小的顺序对在移动轨迹中出现的小基站进行排序。具有最大服务时长的小基站位于小基站有序列表中的第一行。

(1.2)基于上述步骤(1.1)得到的有序列表对小基站进行聚类，并返回一个包含所有地理区域的集合。图2中，在聚类时，初始设置了聚类簇头集合IGAs集合和初始均为空集。首先把有序列表中的第一个小基站c₁看作是第一个地理区域的质心或者领导者。设置第一个地理区域集合为V₁，将c₁分别放入V₁和然后将剩余小基站的位置与识别出的所有地理区域的质心进行比较，对每个剩余小基站c_j，计算c_j与各地理区域质心h_k的距离，k＝1,2,…L，L为当前集合中地理区域的个数，记录与小基站c_j距离最近的质心编号k′和距离D_min；然后将距离D_min与R_t比较，如果它远离所有地理区域的质心，即满足条件D_min＞R_t，那么它将成为新的地理区域的质心，创建新的地理区域集合V_L+1。否则，如果它落在某个地理区域的半径阈值内，那么它将作为追随者添加到该地理区域内小基站的集合V_k′中。遍历完所有的小基站后，得到所有地理区域的集合将每个地理区域的质心调整为在该区域内所有小基站的平均位置。

(1.3)将每个地理区域内所有小基站的服务时长累加，得到该地理区域总的访问时长。设第n个地理区域的访问时长为η_n。然后，基于用户的轨迹统计出每个地理区域被访问的天数，从而可以计算出每个区域平均每天的访问时长。设第n个地理区域被访问的天数为ξ_n，平均每天的访问时长η_avg,n＝η_n/ξ_n。需要注意的是，对于一个特定用户而言，每个区域被访问的天数可能并不相同。最后，将平均每天的访问时长小于访问时长阈值T_t的地理区域移除，就可以得到最终的IGAs的集合。

上述聚类过程中，在利用R_t识别出的地理区域并不一定都是IGAs，需要再利用T_t进行确定。在识别出IGAs之后，用户的移动轨迹就转化为地点的访问序列，也可称之为该用户的移动模式。

重要的地理区域IGAs的半径阈值R_t和平均每天的访问时长阈值T_t这两个参数是在仿真的过程中，根据地理区域的数量分别随它们的变化确定出来的，即图5和图6。

步骤2，判断用户当前所在位置是否位于IGAs内。如果是，首先执行粗粒度预测，使用带有回退的二阶马尔可夫链预测用户下一个最可能访问的地点；然后，执行细粒度预测，使用HMM从时间和空间两个维度对用户在当前所在地点的精确位置进行预测。如果用户当前所在位置不位于IGAs内，结束预测。

如图3所示，为本发明实施例的一个网络场景示意图。本发明研究的网络场景是由一个宏基站与若干个小基站构成的典型异构网络场景。在日常生活中，每个人在一天内访问的地点个数通常都是有限的，而且大多数情况下这些地点都集中在一个特定的区域内。为了从用户轨迹中识别出被频繁访问的地点，可以将每个地点抽象成一个由若干个小基站覆盖的区域。本发明将把与这些被频繁访问的地点对应的地理区域称为重要的地理区域IGAs。用户在移动的过程中，不同的时刻可能连接到不同的小基站。随着用户从一个小区切换到另一个小区，其空间移动轨迹也会相应地生成。

用户轨迹的提取。数据网络记录可以通过部署在核心网的流量监测实体按照相等的时间间隔δ₀进行采集。在数据网络记录中包含用户的位置信息，即带有时间戳的小区ID(即Cell-IDs，下文将使用CIDs进行简写)信息。通过查询Google地图定位的应用程序编程接口API可以将CID转换为经度和纬度坐标，从而获取用户在相应时间戳所处的位置。为了从数据网络记录中提取用户的轨迹，需要对该用户的位置信息记录进行处理，处理过程如下。

首先，将连续的位置信息记录组织成三元组记录的序列。用户u在时刻的位置信息记录r_i ^u可以表示为：

其中，N_r表示从数据网络记录(DNRs)中得到的位置信息记录的总条数；r_i ^u表示用户u的第i条位置信息记录，该记录包含第i条位置信息记录的时间戳即生成该位置信息记录的时刻，以及该位置对应的经度和纬度

设表示在时刻为用户u提供数据服务的小基站的经纬度。

如果在时刻，用户终端没有产生数据流量，则将该时刻对应的位置信息记录表示为显然，由于移动设备的频繁使用以及在后台很多应用程序都具有周期性的网络活动，这种特殊情况在整个时间范围内是很少出现的。

然后，将属于同一服务小区的连续位置信息记录划分为一组。用户u与小基站的关联时长定义为：

公式(2)的含义是从第i条位置信息记录到第j条位置信息记录中的小基站是同一个，第j+1条位置信息记录中的小基站不再相同。其中，表示用户u的第j条位置信息记录的时间戳，表示用户u的第i条位置信息记录的时间戳，表示用户u在与小基站断开连接之后访问的第一个不同的小基站，即在时刻为用户u提供数据服务的小基站。表示在时刻为用户u提供数据服务的小基站，表示在时刻为用户u提供数据服务的小基站。

从而，在该小区内的连续记录可进一步表示为是小基站开始为用户u提供数据服务的时刻。对应于某个小基站在该小区内可能只存在一条记录在基于上述规则进行处理之后，可表示为其中，δ₀是数据网络记录的采样间隔。

最终，从数据网络记录中提取了用户u的移动轨迹，进一步进行如图2的IGAs识别。

本发明方法为了在预测准确度和实现复杂度之间实现一个折衷，采用分级预测。首先进行粗粒度的预测，即预测用户下一个最可能访问的地点。在用户到达下一地点之后，在其相应的地理区域内进行细粒度预测，即预测用户在给定时间范围内的每个小时间段所在的小区。下面说明本发明的分级预测方案。

由于在进行移动性预测时，二阶马尔可夫链易于实现，即原理简单，且预测性能优于高阶的马尔可夫链，因此本发明考虑将用户的移动模式建模为二阶马尔可夫链。也就是说，用户在IGAs之间的移动被认为是一个有记忆的随机过程。在这种情况下，一个用户将要访问的下一个地点V_i+1仅仅取决于前两个最近访问过的地点V_i和V_i-1，即：

其中，是一个随机变量，表示用户u的地点访问序列中第i个地点；P表示求概率，公式(3)的含义是，根据该用户前两个最近访问的地点V_i和V_i-1求用户将要访问的下一个地点的概率。

这些概率值可以由二阶马尔可夫链的状态转移概率矩阵M进行表示。设表示所有被频繁访问地点的集合，即重要的地理区域集合。表示任意两个地点的所有排列构成的集合，矩阵M的行和列的下标可以由中长度为2的地点序列进行标识，即：

其中，s＝V_iV_i-1，s表示当前状态，这个“状态”即为二阶马尔可夫链的状态；s'＝V_i+1V_i，s'是下一个状态。转移概率矩阵M最初是未知的，只能基于用户的移动模式进行估计。

通常，用户的位置与时间有关。用户在到达一个地点之后，在不同的时刻可能连接到对应地理区域内不同的小基站。因此，本发明考虑基于HMM从时间和空间两个维度对用户的精确位置进行预测。

HMM是一种经典的动态贝叶斯网络，适用于识别具有不可观测状态的马尔可夫过程产生的数据序列的时间模式。如图4所示，HMM模型的隐状态集合输出符号(可观测符号)集合状态转移概率a_i,j,1≤i≤N,1≤j≤N和发射概率b_i,k,1≤i≤N,1≤k≤T表征的双重随机过程，N和T均为正整数。值得注意的是，在该模型中，状态转移的序列是隐含的，它只能通过输出符号的序列进行估计。

HMM的这种结构包含两种条件概率：

状态转移概率a_i,j＝P(s_j|s_i),1≤i,j≤N和输出概率b_i,k＝P(o_k|s_i)，1≤i≤N,1≤k≤T。

s_i和s_j表示隐状态，对应本发明中用户连接的小基站，o_k表示输出符号，对应本发明中的小时间段。

为简单起见，HMM可以由符号λ＝{A,B,π}进行表征。其中，A＝{a_i,j}_N×N是状态转移矩阵，B＝{b_i,k}_N×T是混淆矩阵，π＝{P(s_i)}_1×N是初始状态概率矢量，N是隐状态的数目，T是可观测状态的数目。

对于HMM，存在三种典型问题，基本上也是在移动性预测中所关心的问题。

(1)概率计算问题

给定模型λ＝{A,B,π}，计算观测序列o_1:T出现的概率，即求P(o_1:T|λ)。应用动态规划的原理，该问题可以使用前向后向(Forward-backward)算法进行求解。

(2)译码问题

给定模型λ＝{A,B,π}和观测序列o_1:T，求最可能的隐状态序列s_1:N，即在所有可能的隐状态序列中，找出使概率p(s_1:N|λ,o_1:T)最大的隐状态序列。该问题可以使用维特比(Viterbi)算法进行求解。

(3)学习问题(参数估计)

已知观测序列o_1:T，估计模型λ＝{A,B,π}的参数，使得在该模型下观测序列的概率p(o_1:T|λ)最大。在参数学习的过程中，可以使用一种称为鲍姆韦尔奇(Baum-Welch)的迭代算法，用以获得最优的模型参数。

步骤2中进行粗粒度预测时，首先，需要根据用户的移动模式对状态转移概率矩阵M进行估计。其次，基于矩阵M和当前的状态预测下一个最可能访问的地点。也就是说，遍历矩阵M中下标对应于当前状态的那一行，选择具有最大概率值的状态，以此确定预测的结果。如果一个状态在该用户的历史地点访问序列中从未出现过，可以考虑使用回退机制，即使用一阶马尔可夫链的预测结果。可以看出，粗粒度预测模型的时间复杂度为O(1)。

之后，进行细粒度预测。在给出细粒度预测模型的具体定义和预测过程之前，首先考虑如下问题：假设用户u在时刻t₀进入某个被频繁访问的地点，对应的地理区域为V_i，地点V_i在一天内被该用户访问的最大时长用τ_i,max表示，预测该用户在时间范围(t₀,t₀+τ_i,max)内的每个小时间段所关联的小基站。

为了基于HMM进行时空移动性预测，每个小时被划分为x个小的时间段，并把从地理区域V_i内的用户轨迹中提取的所有小基站序列转化为一组向量集合Ψ＝{α₁,α₂,…,α_n}，Ψ中的每个元素都是一个向量，即小基站序列，这里n是在该用户的地点访问序列中V_i出现的次数。其中，x的值可以根据地点V_i在一天内被访问的最大时长进行调整。例如，假设用户u在上午9:05进入重要地理区域V_i内，在一天内对该地点的最大访问时长τ_i,max是2.5小时，x的值被设定为3。从上午9:05到11:35，用户u关联的小基站序列可以转化为一个向量α_j，如下表所示。其中，每个小时间段对应用户在该小时间段内连接时间最长的小基站。

表1关联的小基站序列

如表1所示，该实例中在时间范围9:00～11:40内，用户关联的小基站序列α_j＝{c₁,c₂,c₃,c₃,c₄,c₃,c₂,c₁}。

基于HMM的细粒度预测模型定义如下：

隐状态定义为地理区域内的小基站。对应地点V_i，对应的隐状态由表1中第二列和第四列的元素组成。可观测状态由时间范围(t₀,t₀+τ_i,max)内的小时间段组成。对应地点V_i，由表1的第一列和第三列的元素组成。

状态转移矩阵A＝{a_i,j}_N×N，a_i,j表示在不同隐状态之间的转移概率，即在相邻小区之间的切换概率。矩阵A中的每个元素a_i,j可根据以下公式进行计算：

其中，N(s_i,Ψ)表示在向量集合Ψ中s_i代表的小基站出现的次数；N(s_is_j,Ψ)表示在向量集合Ψ中，s_is_j代表的小基站序列出现的次数。

混淆矩阵B＝{b_i,k}_N×T表示从隐状态发出的可观测状态的输出概率，矩阵B中的每个元素b_i,k可根据以下公式进行计算：

其中，s_i:o_k表示对应于小基站s_i在时间段o_k被观测到的情况；N(s_i:o_k,V)表示在向量集合Ψ中，s_i:o_k这种情况出现的次数；N代表向量集合Ψ中小基站的数量，T代表时间段的数量。

初始状态概率矢量π＝{p(s_i)}_1×N表示用户在给定隐状态出现的概率。

对于一个给定的HMM模型λ＝{A,B,π}，细粒度预测是要预测用户在每个小时间段内最可能的位置(连接的小基站)，即：

可以发现，这个问题就是HMM的三个典型问题中的译码问题，可以使用维特比算法进行求解。在用户离开当前所在地点之后，定期更新对应于该地点的模型参数A、B和π。细粒度预测模型的时间复杂度为O(N²T)。

对本发明方法进行仿真及性能分析如下：

a)实验数据集描述。

在仿真中采用的数据集是捷克的一个博士生Michal Ficek在142天内的移动电话记录和小区切换信息。其中，应用程序LogExport用于记录通信事件的时间和类型(语音，短消息，数据)，应用程序CellTrack91用于记录小区的切换信息。通过查询Google地图的API将小区IDs转换为其经纬度坐标，从而获取该用户在小区内的位置。在该数据集中，比较重要的是用于定位的基站信息和相应的时间戳，即日期，时间，CIDs，纬度和经度坐标等。由于该数据集包含该用户在五个国家的八个不同运营商的移动电话使用情况，因此需要找到一个相对稳定的时段。在该时段内，用户的生活模式具有一定的规律性。最终，从2011年1月12日到2011年1月27日，总计6343条位置信息记录用于验证本发明提出的移动性预测方法的性能。具体来讲，从1月12日到1月23日的用户数据被用作训练集以构建预测模型，剩余的数据被用作测试集。

b)仿真结果分析。

利用本发明所提供的重要地理区域识别的聚类方法，从数据网络记录DNRs中提取出的用户轨迹并输入半径阈值R_t和平均每天的访问时长阈值T_t。IGAs的准确识别取决于合适的R_t和T_t的值，本发明通过研究地理区域的数量随阈值本身的变化来获得它们的值。在仿真中，由于原始数据不是按照相等的时间间隔进行采集的，假设每次用户位置信息的获取具有相同的持续时间，因此在该用户的移动轨迹中每个小基站总的关联时长可以由其出现的次数代替。

如图5所示，为本发明中地理区域的数量随半径阈值R_t的变化关系，通过固定平均每天的访问时长阈值T_t＝0，本发明首先研究了半径阈值R_t对地理区域数量的影响。为了找到最佳的半径阈值，考虑使用不同的半径运行本发明中的聚类算法，并将结果绘制在图5中。从图5中可以看出，可能的地理区域的数量随着半径阈值的增加而逐渐减小，并且可以发现在曲线中有一个拐点(0.75,93)。在拐点处，曲线的斜率出现显著的变化。这个拐点表示识别出的地理区域的数量开始收敛到实际的地点数量之前的半径。因此，将R_t的值设定为0.75公里。

如图6所示，为本发明地理区域的数量随平均每天的访问时长阈值T_t的变化关系，通过固定半径阈值R_t＝0.75公里，本发明接着研究了平均每天的访问时长阈值T_t对地理区域数量的影响。如图6所示，随着访问时长阈值T_t的逐渐增大，地理区域的数量急剧减小，并逐渐收敛到一个稳定的值。从图中6可以看到，曲线中存在一个拐点(20,11)。因此，将T_t的值设定为20分钟。此外，本发明还考虑使用地理区域被访问的天数来限制它的数目，假设IGAs在一周内至少被访问一次。最终，从该用户的历史轨迹中识别出5个被频繁访问的地点。而且，通过计算发现该用户在识别出的IGAs花费的时间占总的统计时长的74.3％。这就表明上述用于识别IGAs的聚类算法在对用户的移动轨迹进行分析方面是相当有效的。

本发明考虑从预测准确度和实现复杂度两个方面对上文中分级预测方法的性能进行评估。其中，预测准确度表示正确预测的次数与所有尝试预测的次数之间的比率，而实现复杂度是指预测模型的时间复杂度，它直接决定了预测的时间。在识别出IGAs之后，用户的轨迹就转化为地点的访问序列。测试集中地点的访问序列是分级预测模型中粗粒度预测的输入。通过仿真和计算，基于二阶马尔可夫链的粗粒度预测模型的预测准确度达到76.9％。

如图7所示，为本发明中细粒度预测模型的预测准确度和提取出的隐状态数随每个小时间段长度的变化关系，为了评估分级预测模型中细粒度预测的性能，本发明以其中一个IGAs为例进行了仿真。测试集中该地理区域内用户的轨迹是细粒度预测的输入。如图7所示，每个小时间段的长度从15分钟逐渐增加到180分钟，细粒度预测模型的预测准确度基本在60％到70％之间波动，而从用户轨迹中提取出的隐状态数从21个减少至11个。从图7中可以看出，随着小时间段长度的增加，提取出的隐状态数呈现出递减的趋势。此外，基于HMM的细粒度预测的准确度并没有发生显著的变化。一方面，每个小时间段的长度越长，用户可能访问的小基站数目就越多。另一方面，提取出的隐状态数目的减少降低了预测结果中切换到其它小基站的可能性。

如图8所示，本发明中HMM和二阶马尔可夫链预测准确度的比较结果，对细粒度预测采用不同模型时的预测准确度进行了比较。在仿真中，整个预测时长被划分为16个小时间段，每个小时间段的长度被设定为15分钟，分别计算了HMM和二阶马尔可夫链在各个小时间段内的预测准确度。从图8中可以看出，HMM用于预测时的性能整体优于二阶马尔可夫链。需要注意的是，所提出的分级移动性预测的预测准确度并不是两级预测模型准确度的乘积，因为它是一个整体的预测方法，在执行细粒度预测之前，粗粒度预测的结果已经出现。因此，与两级预测均采用马尔可夫链的预测方案相比，粗粒度预测基于二阶马尔可夫链和细粒度预测基于HMM的分级预测方案具有较高的预测准确度。

在未来的异构网络中，由于不同功率节点的广泛部署，网络拓扑结构将会变得极其复杂，预测模型的实现复杂度也逐渐成为一个必须要考虑的性能指标。其中，HMM的计算复杂度为O(N²T)，而马尔可夫链的计算复杂度为O(1)。与在异构网络环境中仅使用HMM预测用户将要访问的下一个小区的方法相比，提出的分级预测方法显著降低了预测消耗的时间。

因此，本发明基于二阶马尔可夫链和HMM的分级预测方法在预测准确度和实现复杂度这两个重要的性能指标之间实现了一个较好的折衷。

Claims

1.一种异构网络中的分级移动性预测方法，其特征在于，包括如下步骤：

(1.1)从数据网络记录DNRs中提取出用户的移动轨迹，并从该移动轨迹中识别出所有的小基站SBS；根据用户的轨迹计算每个小基站为用户提供数据服务的总时长，然后按照总服务时长从大到小的顺序对在移动轨迹中出现的小基站进行排序，得到一个小基站的有序列表；

(1.2)对上述有序列表中的小基站进行聚类，得到一个包含所有地理区域的集合；将序列中的第一个小基站作为第一个地理区域的质心；遍历序列中每个剩余的小基站，将小基站的位置与识别出的所有地理区域的质心的位置进行比较，如果小基站与质心的距离都大于半径阈值R_t，则将该小基站作为新的地理区域的质心，如果小基站落在某个地理区域的质心的半径阈值R_t内，则将该小基站作为追随者添加到该地理区域的小基站集合中；遍历完所有的小基站后，将每个地理区域的质心调整为在该区域内所有小基站的平均位置；

所述的粗粒度预测是将用户的移动模式建模为二阶马尔可夫链，根据用户在前两个最近访问的地点来计算下一可能访问地点的概率，选取概率值最大的地点作为粗粒度预测的结果；

2.根据权利要求1所述的方法，其特征在于，所述的步骤1还包括用户轨迹的提取，首先从数据网络记录DNRs中获得用户的轨迹，然后进行如下处理：

第一，将连续的位置信息记录组织成三元组记录的序列；设用户u在时刻的位置信息记录r_i ^u表示为：其中，N_r表示从DNRs中得到的位置信息记录的总条数；r_i ^u表示用户u的第i条位置信息记录，为第i条位置信息记录的时间戳，和分别为第i条记录中位置对应的经度和纬度；

如果在时刻，用户终端没有产生数据流量，则将该时刻对应的位置信息记录表示为

然后，将属于同一服务小区的连续位置信息记录划分为一组；用户u与小基站的关联时长定义为：其中，表示用户u的第j条位置信息记录的时间戳，表示用户u的第i条位置信息记录的时间戳，表示在时刻为用户u提供数据服务的小基站，表示在时刻为用户u提供数据服务的小基站，表示在时刻为用户u提供数据服务的小基站；

从而，在同一服务小区内的连续记录进一步表示为是小基站开始为用户u提供数据服务的时刻；

若对于某个小基站在该小区内只存在一条记录则进一步表示为其中，δ₀是数据网络记录的采样间隔。

3.根据权利要求1所述的方法，其特征在于，所述的步骤2中，在进行粗粒度预测时，根据用户的移动模式遍历状态转移概率矩阵M来对用户的下一位置进行预测；在步骤1中获得重要地理区域后，每个重要地理区域为用户的一个移动状态，根据二阶马尔可夫链模型，获得在任意两个移动状态组合下的下一移动状态的概率值，形成状态转移概率矩阵M。

4.根据权利要求1或3所述的方法，其特征在于，所述的步骤2中，在进行粗粒度预测时，若用户的某个移动状态在用户的历史地点访问序列中从未出现过，则使用回退机制，使用一阶马尔可夫链对用户的下一移动状态进行预测。

5.根据权利要求1所述的方法，其特征在于，所述的步骤2中，在进行细粒度预测时，设粗粒度预测用户在重要地理区域V_i内，将每个小时均划分为x个时间段，x为整数，预测用户在V_i内的给定时间范围内对应划分的每个时间段所关联的小基站，得到一个小基站序列形成的向量。

6.根据权利要求1或5所述的方法，其特征在于，所述的步骤2中，在进行细粒度预测时，HMM中的状态转移矩阵A和混淆矩阵B如下计算：

状态转移矩阵A＝{a_i,j}_N×N，a_i,j表示在不同隐状态之间的转移概率，元素a_i,j根据以下公式进行计算：

其中，N(s_i,Ψ)表示在向量集合Ψ中s_i代表的小基站出现的次数；N(s_is_j,Ψ)表示在向量集合Ψ中，s_is_j代表的小基站序列出现的次数；向量集合Ψ记录用户在当前重要地理区域内的各时间段关联的小基站序列；i,j均为正整数；

混淆矩阵B＝{b_i,k}_N×T，b_i,k表示从隐状态发出的可观测状态的输出概率，元素b_i,k根据以下公式进行计算：