CN103731916A

CN103731916A - 一种基于无线网络的用户位置预测系统和方法

Info

Publication number: CN103731916A
Application number: CN201410015052.6A
Authority: CN
Inventors: 刘臻; 卢扬; 韩筱璞; 周涛; 黄盼华; 吕琳媛; 刘润然; 李辉
Original assignee: SHANGHAI HEGUANG INFORMATION TECHNOLOGY Co Ltd
Current assignee: Shanghai Xinguang Data Technology Co., Ltd
Priority date: 2014-01-14
Filing date: 2014-01-14
Publication date: 2014-04-16
Anticipated expiration: 2034-01-14
Also published as: CN103731916B

Abstract

一种基于无线网络的用户位置预测系统，包括移动数据获取模块、移动数据清洗模块、用户历史移动记录模块、混合位置预测模块，混合位置预测模块设置有停留假设预测子模块、基于时段划分的历史预测子模块、跳转预测子模块、协同过滤预测子模块和预测结果子模块，预测结果子模块根据停留假设预测子模块、基于时段划分的历史预测子模块、跳转预测子模块和协同过滤预测子模块的预测结果，完成用户位置预测。本发明还提供一种基于无线网络的用户位置预测方法。本发明的系统和方法具有提供24小时内实时位置预测且预测结果准确度高的优点。

Description

一种基于无线网络的用户位置预测系统和方法

技术领域

本发明涉及一种基于无线网络的用户位置预测系统和方法，尤其是在移动通信领域中通过移动通信网用户无线上网数据来挖掘用户移动行为特征，做出用户未来24小时的动态位置预测，并能随时根据新数据的变化，实时动态修改预测结果的系统和方法。

背景技术

位置预测，已有很多相关的研究在进行，大部分使用GPS数据或者结合蓝牙等进行室内的定位。位置预测的方法有通过时序进行预测，还有的将地点试图做分类处理然后进行预测，有些采用神经网络的方法来做预测。但是，针对实时二十四小时或更长时间的位置预测，暂时还没有被考虑。

现有技术中提出的一些对移动终端的位置进行预测／估计的方法有：

中国申请号为CN200810118092.8的“预测移动终端位置的方法及装置”，该发明公开了一种预测移动终端位置的方法，包括在依次间隔相同时间长度的第一时间点、第二时间点、第三时间点上，分别获得移动终端所处第一位置、第二位置、第三位置的坐标信息，根据获得的移动终端所处的第一位置、第二位置、第三位置的坐标值，确定与第三时间点间隔所述时间长度的第四时间点上，移动终端所处的第四位置的位置信息。同时，该发明还公开了一种预测移动终端位置的装置。该发明预测方案过于简单，预测结果只依赖于前三个位置的坐标信息，只要用户改变移动计划，预测结果就会与现实情况产生巨大偏差，稳定性差。

本发明的目的在于建立用户实时二十四小时的位置预测，结合用户的历史移动行为进行分析，预测其访问各个地点的可能性，做出最大可能访问的地点预测。

发明内容

为了解决上面提出的问题，本发明提供了一种用户位置预测的系统，具有提供24小时内实时位置预测且预测结果准确度高的优点。

根据本发明的一个方面，提供一种基于无线网络的用户位置预测系统，包括移动数据获取模块、移动数据清洗模块、用户历史移动记录模块、混合位置预测模块，其中：移动数据获取模块用于从移动通信网中获取的用户数据识别地点字段，并将其提取出来，构建成为用户移动数据，所述用户数据包括该用户的标志字段、地点的标志字段、处于该地点的时间字段；移动数据清洗模块用于对获取到的用户移动数据进行清洗处理，输出一个已处理的用户移动数据信息；用户历史移动记录模块将用户新出现的访问记录及时更新到用户历史移动访问数据库中，用户历史移动访问数据库的每条记录包括用户标志字段、地点访问字段，地点访问时间等字段；混合位置预测模块设置有停留假设预测子模块、基于时段划分的历史预测子模块、跳转预测子模块、协同过滤预测子模块和预测结果子模块，预测结果子模块根据停留假设预测子模块、基于时段划分的历史预测子模块、跳转预测子模块和协同过滤预测子模块的预测结果，完成用户位置预测。

进一步，用户历史移动记录模块还更新基于时段的用户地点访问次数以及更新基于用户历史移动访问数据库中的用户跳转矩阵，基于时段的用户地点访问次数是在特定时间段内用户对不同地点的不同访问次数——向量

通过这个向量，确定用户在特定时间段内在某处的可能性大小

{\overset{&RightArrow;}{N}}_{T_{i}, l} = (n_{T_{i}, l_{1}}, n_{T_{i}, l_{2}}, . . ., n_{T_{i}, l_{m}})

p_{T_{i}, l_{k}} = n_{T_{i}, l_{k}} / Σ_{k = 1}^{m} n_{T_{i}, l_{k}}

其中

表示的是该用户在[T_i，T_i+1)时间段内对地点l_m的总访问次数，

基于用户历史移动访问数据库中的用户跳转矩阵是一个马尔科夫转移矩阵TransCountMatrix，

其中

表示的是在用户整个移动历史中从地点l_i下一步跳往地点l_j的统计次数，

用

表示用户从地点l_i下一步跳往其他地点的总和，则用户跳转概率矩阵为：

其中

表示用户从地点l_i下一步跳往地点l_j的概率大小。

进一步，移动数据清洗模块包括地点重复项合并子模块、时序再排序子模块和稀疏化数据采样子模块，

地点重复项合并子模块用于接收移动数据获取模块输出的移动位置信息，合并具有相同经纬度的地点，以统一的一个地点代表该地点，并将结果输出给时序再排序子模块；

时序再排序子模块用于接收地点重复项合并子模块输出的数据，将该数据按照时间的发生顺序进行再排序，并将结果输出给稀疏化数据采样子模块；

稀疏化数据采样子模块用于接收时序再排序子模块输出的已经过排序的数据，将那些短时间内连续记录的用户位置进行稀疏化采样，删去无意义的短时间内高频出现的重复位置信息。

进一步，移动数据清洗模块还可以与一个位置信息更新模块相连，

位置信息更新模块在数据清洗后，将位置信息数据库中不存在的地点的位置信息，更新到位置信息数据库中。

进一步，停留假设预测子模块在经过时间间隔Δt之后预测所处的地点为L_si(t+Δt)＝L_i(t)，

其中L_i(t)表示用户i在t时间所处的地点，为向量形式，所处的地点值为1，其余都为0，L_ti(t+Δt)表示用户i在t+Δt使用该预测方法得到的访问地点的概率结果为

\overset{&RightArrow;}{p_{s}} = (0,0,0, . . ., 0,1,0, . . ., 0) .

进一步，该停留假设发生的可能性是一个与间隔时间Δt有关的函数

其中位置参数λ可采用最大似然估计来得到。

进一步，基于时段划分的历史预测子模块将一周划分成七天，一天划分成24小时的时段，根据得到的概率向量，概率最大值对应的地点将是下一小时会访问的地点L_ti(t+Δt)=F_i(τ₁，τ₂)，

其中τ₁∈{1，2，3，4，5，6，7]表示一周的七天，τ₂∈{0，1，2，3，4，...，22，23]表示一天的24小时，F_i(τ₁，τ₂)表示基于当前(τ₁，τ₂)在t+Δt对应的时段下该用户对全部去过的地点的历史访问概率，L_ti(t+Δt)表示用户i在t+Δt使用该预测方法得到的访问地点的概率结果为：

{\overset{&RightArrow;}{p}}_{T_{i}} = (p_{T_{i}, l_{1},} p_{T_{i}, l_{2}}, . . ., p_{T_{i}, l_{m}}),

其中

Σ_{j = 1}^{m} p_{T_{i}, l_{j}} = 1 .

进一步，跳转预测子模块根据马尔科夫跳转矩阵，基于起始地点，得到该起始地点跳往其他地点的概率，作为用户对于每个地点的不同的访问概率预测结果：

L_mi(t+Δt)=Trans(L_i(t))

Trans(L_i(t))表示的是马尔科夫跳转矩阵中第L_i(t)行的数据，L_mi(t+Δt)表示用户i在t+Δt使用该预测方法得到的访问地点的概率结果：

\overset{&RightArrow;}{p_{m}} = (p_{m 1}, p_{m 2}, p_{m 3}, . . ., p_{mn}) = (p_{L_{i} (t), 1}, p_{L_{i} (t), 2}, p_{L_{i} (t), 2}, . . ., p_{L_{i} (t), n}),

其中

Σ_{j = 1}^{n} {Trans}_{L_{i} (t), j} = 1,

该结果是已知跳转起始点L_i(t)后的，跳转目的点的概率向量。

进一步，跳转是基于用户会发生跳转的假设进行的，而跳转假设实现的概率

跟间隔时间Δt、跳转地点与当前地点的距离Δd相关，

d_{Δt_max}=v*Δt

其中位置参数v同样也是采用最大似然估计来估算。

进一步，协同过滤预测子模块采用余弦相似度计算方法计算用户相似度：

Sim (u_{i}, u_{j}) = \cos (u_{i}, u_{j}) = \frac{\overset{&RightArrow;}{L_{i}} \cdot \overset{&RightArrow;}{L_{j}}}{| | \overset{&RightArrow;}{L_{i} | |} * | | \overset{&RightArrow;}{L_{j} | |}},

其中

表示用户u_i的历史地点访问序列向量，Sim(u_i，u_j)为最后计算得到的两用户间的相似度值，该值介于[0，1]之间，

通过设置相似度阈值得到与该用户相似度较高的相似度用户群体，通过叠加该群体内的用户不同时段下对不同地点的访问概率，最终得到该用户在协同过滤算法下的预测结果：

L_{ci} (t + Δt) = Σ_{{j &Element; s}_{i}} Sim (u_{i}, u_{j}) * F_{i} (τ_{1}, τ_{2})

(j∈S_i，其中S_i表示用户i的相似度较高的相似用户群体集合)，

L_ci(t+Δt)表示用户i在t+Δt使用该预测方法得到的访问地点的概率结果：

\overset{&RightArrow;}{p_{c}} = (p_{c 1}, p_{c 2}, p_{c 3}, . . ., p_{cn}),

其中

Σ_{j = 1}^{n} p_{cj} = 1 .

进一步，协同过滤预测子模块还包括用户相似度更新模块，

用户相似度更新模块用于从用户历史移动访问数据库中读取全体用户的历史移动访问记录，每隔一定周期重新计算系统内全部用户间彼此的移动行为的相似度，然后将计算后的新结果更新到用户相似度数据库。

再有，预测结果整合模块采用线性组合的策略组合停留假设预测子模块、基于时段划分的历史预测子模块、跳转预测子模块和协同过滤预测子模块的预测结果，生成最终的预测结果。

本发明还提供一种基于无线网络的用户位置预测方法，包括以下步骤：

步骤一，从移动通信网中获取的用户数据识别地点字段，并将其提取出来，构建成为用户移动数据，所述用户数据包括该用户的标志字段、地点的标志字段、处于该地点的时间字段；

步骤二，对获取到的用户移动数据进行清洗处理，输出一个已处理的用户移动数据信息；

步骤三，将用户移动数据信息中新出现的用户访问记录及时更新到用户历史移动访问数据库中，用户历史移动访问数据库的每条记录包括用户标志字段、地点访问字段，地点访问时间等字段；

步骤四，根据停留假设预测、基于时段划分的历史预测、跳转预测和协同过滤预测的预测结果，完成用户位置预测，

步骤三中还更新基于时段的用户地点访问次数以及更新基于用户历史移动访问数据库中的用户跳转矩阵，

基于时段的用户地点访问次数是在特定时间段内用户对不同地点的不同访问次数——向量

{\overset{&RightArrow;}{N}}_{T_{i}, l} = (n_{T_{i}, l_{1}}, n_{T_{i}, l_{2}}, . . ., n_{T_{i}, l_{m}})

p_{T_{i}, l_{k}} = n_{T_{i}, l_{k}} / Σ_{k = 1}^{m} n_{T_{i}, l_{k}}

其中

其中

用

其中

表示用户从地点l_i下一步跳往地点l_j的概率大小。

步骤二中的移动数据清洗处理包括地点重复项合并、时序再排序和稀疏化数据采样。地点重复项合并处理步骤包括接收移动数据获取模块输出的移动位置信息，合并具有相同经纬度的地点，以统一的一个地点代表该地点，并将结果输出用于时序再排序处理；时序再排序处理步骤包括接收地点重复项合处理后输出的数据，将该数据按照时间的发生顺序进行再排序，并将结果输出用于稀疏化数据采处理；稀疏化数据采样处理步骤包括接收时序再排序处理后输出的已经过排序的数据，将那些短时间内连续记录的用户位置进行稀疏化采样，删去无意义的短时间内高频出现的重复位置信息。

还可将步骤二中已处理的用户移动数据信息用于对一位置信息数据库中不存在的地点的位置信息进行更新。

优选的，步骤四中采用线性组合的策略组合停留假设预测、基于时段划分的历史预测、跳转预测和协同过滤预测的预测结果，生成最终的预测结果。

步骤四中的停留假设预测在经过时间间隔Δt之后预测所处的地点为L_si(t+Δt)=L_i(t)，

\overset{&RightArrow;}{p_{s}} = (0,0,0, . . ., 0,1,0, . . ., 0) .

步骤四中的基于时段划分的历史预测将一周划分成七天，一天划分成24小时的时段，根据得到的概率向量，概率最大值对应的地点将是下一小时会访问的地点L_ti(t+Δt)=F_i(τ₁，τ₂)，

其中τ₁∈{1，2，3，4，5，6，7]表示一周的七天，τ₂∈{0，1，2，3。4，...,22,23]表示一天的24小时，F_i(τ₁，τ₂)表示基于当前(τ₁，τ₂)在t+Δt对应的时段下该用户对全部去过的地点的历史访问概率，L_ti(t+Δt)表示用户i在t+Δt使用该预测方法得到的访问地点的概率结果为：

{\overset{&RightArrow;}{p}}_{T_{i}} = (p_{T_{i}, l_{1},} p_{T_{i}, l_{2}}, . . ., p_{T_{i}, l_{m}}),

其中

Σ_{j = 1}^{m} p_{T_{i}, l_{j}} = 1 .

步骤四中的跳转预测子模块根据马尔科夫跳转矩阵，基于起始地点，得到该起始地点跳往其他地点的概率，作为用户对于每个地点的不同的访问概率预测结果：

L_mi(t+Δt)=Trans(L_i(t))

\overset{&RightArrow;}{p_{m}} = (p_{m 1}, p_{m 2}, p_{m 3}, . . ., p_{mn}) = (p_{L_{i} (t), 1}, p_{L_{i} (t), 2}, p_{L_{i} (t), 2}, . . ., p_{L_{i} (t), n}),

其中

Σ_{j = 1}^{n} {Trans}_{L_{i} (t), j} = 1,

优选的，所述跳转是基于用户会发生跳转的假设进行的，而跳转假设实现的概率

跟间隔时间Δt、跳转地点与当前地点的距离Δd相关，

d_{Δt_max}=v*Δt

其中位置参数v同样也是采用最大似然估计来估算。

步骤四中的协同过滤预测采用余弦相似度计算方法计算用户相似度：

Sim (u_{i}, u_{j}) = \cos (u_{i}, u_{j}) = \frac{\overset{&RightArrow;}{L_{i}} \cdot \overset{&RightArrow;}{L_{j}}}{| | \overset{&RightArrow;}{L_{i} | |} * | | \overset{&RightArrow;}{L_{j} | |}},

其中表示用户u_i的历史地点访问序列向量，Sim(u_i，u_j)为最后计算得到的两用户间的相似度值，该值介于[0，1]之间，

L_{ci} (t + Δt) = Σ_{{j &Element; s}_{i}} Sim (u_{i}, u_{j}) * F_{i} (τ_{1}, τ_{2})

\overset{&RightArrow;}{p_{c}} = (p_{c 1}, p_{c 2}, p_{c 3}, . . ., p_{cn}),

其中

Σ_{j = 1}^{n} p_{cj} = 1 .

本发明具有以下技术效果：一、预测策略采用停留假设预测策略、基于时段划分的历史预测策略、跳转预测策略、协同过滤预测策略四种预测策略整合的预测方式，解决单一预测策略固有的预测结果误差大，预测稳定性不高的技术难点，发明了一种更好地融合以上方法以获得更优预测结果的预测系统，其预测准确度高于这四种预测结果的简单相加，达到了更好的技术效果，具有创新性及实用性，满足现实的需求。二、基于时段划分的历史预测模块，采用24小时时段划分的划分策略，便于根据用户以往形成的空间移动习惯，预测出基于当前时刻符合用户空间移动行为。现有的一些研究结果表明，用户的空间移动行为更类似是一种以24小时为周期的周期性行为，在不同的小时用户空间移动行为的信息熵会有一定波动。在本系统采用的无线移动数据上也同样呈现出了以24小时为周期的波动性的移动行为可预测性，这说明人类空间的移动具有一定的规律性，因而采用以24小时为缺省选择的时段划分策略结合最常访问来预测用户的行为，符合用户空间移动行为的特征，使得预测结果更具有可解释性，更加符合客观实际，提高系统预测的准确度。但事实上，时段的划分仍然有不同的组合，具体的可以根据数据的情况来进行微调。调整的方法，可以采用不同组合的策略下得到的预测结果进行对比，取较优的那种策略即可。

附图说明

图1为本发明基于无线网络的用户位置预测系统的一个实施例的结构示意图；

图2为本发明基于无线网络的用户位置预测系统的另一个实施例的结构示意图；

图3为本发明基于无线网络的用户位置预测系统的又一个实施例的结构示意图；

图4为本发明基于无线网络的用户位置预测系统的再一个实施例的结构示意图；

图5为本发明预测结果整合流程图。

具体实施方案

下面参照附图对本发明进行详细描述，其中说明本发明的优选实施例。本发明的优选实施例及其说明用于解释本发明，但并不构成对本发明的不当限定。

图1是本发明基于无线网络的用户位置预测系统的一个实施例的结构示意图。

如图1所示，该实施例的预测系统包括移动数据获取模块1、移动数据清洗模块2、用户历史移动记录模块3、混合位置预测模块4，其中，混合位置预测模块4设置有停留假设预测子模块41、基于时段划分的历史预测子模块42、跳转预测子模块43、协同过滤预测子模块44和预测结果子模块45。

具体地，移动数据获取模块1用于根据移动通信网中获取的用户数据识别地点字段，并将其提取出来，构建成为用户移动数据，用户移动数据包括该用户的标志字段、地点的标志字段、处于该地点的时间字段。

移动数据清洗模块2用于对获取到的用户移动数据进行清洗处理，输出一个已处理的用户移动数据信息。

如图2所示，移动数据清洗模块2包括地点重复项合并子模块21、时序再排序子模块22和稀疏化数据采样子模块23。

地点重复项合并子模块21用于接收移动数据获取模块1输出的移动位置信息，合并具有相同经纬度的地点，从位置信息数据库中找到地点的经纬度信息，将拥有相同经纬度信息的地点记录合并，以统一的一个地点(共享相同的经纬度信息)作为该地点的代表，并将结果输出给时序再排序子模块22；

时序再排序子模块22用于接收地点重复项合并子模块21输出的数据，将该数据按照时间的发生顺序进行再排序，由于真实的数据中存在一些发生在后面的行为被记录在了前面，所以需要对数据进行时序的排序以保证其按照发生顺序记录，并将结果输出给稀疏化数据采样子模块23；

稀疏化数据采样子模块23用于接收时序再排序子模块22输出的已经过排序的数据，将那些短时间内连续记录的用户位置进行稀疏化采样，删去无意义的短时间内高频出现的重复位置信息。

具体的，稀疏化数据采样子模块23针对存在的一连串同一地点的记录段，采用10分钟时间间隔的采样方法。例如，某用户的移动轨迹为AAAAAAAABBBBCCDDED，记录中存在A、B等的大量连续记录。对于两个以上的连续记录，如果每相邻两条记录之间的时间间隔小于10分钟，那么后面的那个记录需要被删除，反之，则保留下后一个记录，同时再继续检测直至没有两个以上的时间间隔小于10分钟的连续记录。

如图3所示，移动数据清洗模块2还可以与一个位置信息更新模块5相连。位置信息更新模块5在数据清洗后，将位置信息数据库中不存在的地点的位置信息，更新到位置信息数据库中。地点的位置信息一般包括该地点的编号以及地点的经纬度信息等信息。

用户历史移动记录模块3将各个用户新出现的访问记录及时更新到用户历史移动访问数据库中。用户历史移动访问数据库的每条记录包括用户标志字段、地点访问字段，地点访问时间等字段。同时，用户历史移动记录模块3还更新基于时段的用户地点访问次数以及更新用户历史移动访问数据库中的用户跳转矩阵等。

基于时段的用户地点访问次数指代的是在特定时间段内，用户对不同地点的不同访问次数，它是一个向量

其中表示的是该用户在[T_i，T_i+1)时间段内对地点l_m的总访问次数。通过这个向量，我们可以确定用户在特定时间段内在某处的可能性大小

{\overset{&RightArrow;}{N}}_{T_{i}, l} = (n_{T_{i}, l_{1}}, n_{T_{i}, l_{2}}, . . ., n_{T_{i}, l_{m}})

p_{T_{i}, l_{k}} = n_{T_{i}, l_{k}} / Σ_{k = 1}^{m} n_{T_{i}, l_{k}}

基于用户历史移动访问的用户跳转矩阵是一个马尔科夫转移矩阵TransCountMatrix，它统计了用户从a地点跳往b地点的次数(忽略a停留a的情况)，并可以根据得到的统计矩阵最后得到了跳转概率矩阵。

其中

表示的是在用户整个移动历史中从地点l_i下一步跳往地点l_j的统计次数。用

表示用户从地点l_i下一步跳往其他地点的总和，

则用户跳转概率矩阵如下所示：

其中

表示用户从地点l_i下一步跳往地点l_j的概率大小。

混合位置预测模块4包括停留假设预测子模块41、基于时段划分的历史预测子模块42、跳转预测子模块43、协同过滤预测子模块44以及预测结果子模块45。预测结果子模块45根据停留假设预测子模块41、基于时段划分的历史预测子模块42、跳转预测子模块43和协同过滤预测子模块44的预测结果，完成用户位置预测。

停留假设预测子模块41根据停留假设，假设用户每次都选择停留在上一时刻所在的地点，从而完成预测。

由此可以得到该模型在经过时间间隔Δt之后预测所处的地点为：

L_si(t+Δt)=L_i(t)

其中L_i(t)表示用户i在t时间所处的地点，为向量形式，所处的地点值为1，其余都为0。L_si(t+Δt)表示用户i在t+Δt使用该预测方法得到的访问地点的概率结果为：

\overset{&RightArrow;}{p_{s}} = (0,0,0, . . ., 0,1,0, . . ., 0)

对于停留假设(预测子模块41)，其(停留)发生跟间隔时间Δt是紧紧相关的。当间隔时间Δt比较小的时候，用户可能会比较倾向于停留在原地，而当间隔时间Δt比较大的时候，用户停留判定意义就不大。所以该停留假设发生的可能性是一个与间隔时间Δt有关的函数

可以通过停留概率与间隔时间Δt的概率分布函数进行函数拟合，并做适当的简化，从而得到最终的函数形式。在该系统中，我们分析了用户不同地点切换时间间隔分布，并多次实验，得到较好的拟合函数形式是指数下降分布形式，

函数

的位置参数λ可采用最大似然估计来完成，这里就不过多赘述。

基于时段划分的历史预测子模块42，基于用户地点访问的时间统计规律，返回用户在当前时段划分情况下访问不同地点的概率，根据得到的概率向量，概率最大值对应的地点将有可能是下一时段会访问的地点，不同的时段划分策略将导致不同的结果。

在本实施例中采用将一周划分成七天，一天划分成24小时的时段划分策略，根据得到的概率向量，概率最大值对应的地点将有可能是下一小时会访问的地点。

L_ti(t+Δt)=F_i(τ₁，τ₂)

其中τ₁∈{1,2,3，4，5，6，7]，表示一周的七天，τ₂∈{0，1，2，3，4，...，22，23]，表示一天的24小时，比如τ₂=15表示时间t+Δt∈[15,16)，F_i(τ₁，τ₂)表示基于当前(τ₁，τ₂)(t+Δt对应的时段)时段下该用户对全部去过的地点的历史访问概率，L_ti(t+Δt)表示用户i在t+Δt使用该预测方法得到的访问地点的概率结果为：

{\overset{&RightArrow;}{p}}_{T_{i}} = (p_{T_{i}, l_{1},} p_{T_{i}, l_{2}}, . . ., p_{T_{i}, l_{m}}),

其中

Σ_{j = 1}^{m} p_{T_{i}, l_{j}} = 1

跳转预测子模块43是生成一阶马尔科夫跳转概率矩阵，其中只保留用户轨迹当中的访问地点跳转的数据，而忽略那些停留的数据，体现用户移动过程中的地点跳转情况。

根据马尔科夫跳转矩阵，基于起始地点，就可以得到该起始地点跳往其他地点的概率，作为用户对于每个地点的不同的访问概率预测结果，得到的马尔科夫跳转矩阵在前面模块3已有介绍：

L_mi(t+Δt)=Trans(L_i(t))

Trans(L_i(t)〕表示的是马尔科夫跳转矩阵中第L_i(t)行的数据，L_mi(t+Δt)表示用户i在t+Δt使用该预测方法得到的访问地点的概率结果：

\overset{&RightArrow;}{p_{m}} = (p_{m 1}, p_{m 2}, p_{m 3}, . . ., p_{mn}) = (p_{L_{i} (t), 1}, p_{L_{i} (t), 2}, p_{L_{i} (t), 2}, . . ., p_{L_{i} (t), n}),

其中

Σ_{j = 1}^{n} {Trans}_{L_{i} (t), j} = 1

同时跳转模型是基于用户会发生跳转的假设进行的，而跳转假设实现的概率跟间隔时间Δt、跳转地点与当前地点的距离Δd是紧紧相关的。当间隔时间Δt比较小的时候，用户可能会比较倾向于停留在原地或者跳转到比较近的范围内，而当间隔时间Δt比较大的时候，跳转的范围也就更远了。

因而我们假设它的假设概率是关于间隔时间Δt和跳转地点与当前地点的距离Δd的函数可以通过跳转概率与间隔时间Δt、间隔距离Δd的概率分布函数进行函数拟合并利用机器学习方法做适当简化，从而得到最终的

函数形式，在本系统中，发现采用一个线性的函数得到时间间隔Δt下最大访问距离d_{Δt_max}，对比间隔距离Δd做一个对比，用分段函数的形式即可以简单地解决这个问题。

d_{Δt_max}=v*Δt

该函数中关键的位置参数v同样也是采用最大似然估计来估算。协同过滤预测子模块44，根据用户之间的相似度，筛选出相似度大于某一阈值的相似度用户群，统计该用户群体的移动行为特征，返回这个群体在该时段下的访问各个地点的整合概率，作为最终返回的预测结果。该模块44采用协同过滤，通过对与该用户移动轨迹类似的相似用户群体，得到他们基于时段的最常访问地点，作为对该用户位置的预测。

用户相似度计算公式采用余弦相似度计算方法Cosine：

Sim (u_{i}, u_{j}) = \cos (u_{i}, u_{j}) = \frac{\overset{&RightArrow;}{L_{i}} \cdot \overset{&RightArrow;}{L_{j}}}{| | \overset{&RightArrow;}{L_{i} | |} * | | \overset{&RightArrow;}{L_{j} | |}}

其中

表示用户u_i的历史地点访问序列向量，Sim(u_i，u_j)为最后计算得到的两用户间的相似度值，该值介于[0，1]之间。

L_{ci} (t + Δt) = Σ_{{j &Element; s}_{i}} Sim (u_{i}, u_{j}) * F_{i} (τ_{1}, τ_{2})

(j∈S_i，其中S_i表示用户i的相似度较高的相似用户群体集合)

\overset{&RightArrow;}{p_{c}} = (p_{c 1}, p_{c 2}, p_{c 3}, . . ., p_{cn}),

其中

Σ_{j = 1}^{n} p_{cj} = 1 .

如图4所示，协同过滤预测子模块44中还可以包括用户相似度更新模块441。

用户相似度更新模块441用于从用户历史移动访问数据库中读取全体用户的历史移动访问记录，每隔一定周期重新计算系统内全部用户间彼此的移动行为的相似度，然后将计算后的新结果更新到用户相似度数据库。

预测结果整合模块45用于整合四个预测子模块的结果及模块策略发生的概率，采用线性组合的策略组合以上四种位置预测方案得到的结果，生成最终的预测结果。

作为优选实施例，将数据集分为训练集以及测试集采用极大似然法估计四个线性组合参数{ω₁，ω₂，ω₃，ω₄}，形成最终的整合预测结果。

参数训练完成之后，得到四个线性组合参数{ω₁，ω₂，ω₃，ω₄}，将Δt∈{1,2,3，4，......，24]取值，即可得到该用户未来24小时的位置预测结果了，取得到的位置访问概率向量中最大访问概率的地点作为预测结果。

优选地，本系统返回整合结果后，判断时段是否发生变化，如果时段发生变化，则重新计算预测结果；如果时段未发生变化，则判断新数据的地点是否相对最近的记录发生了变化。如果新数据的地点相对最近的记录发生了变化，则重新计算预测结果；如果新数据的地点相对最近的记录未发生变化，则不需要重新计算预测结果也不需要更新预测结果，返回到对时段以及地点的变化监控当中。流程图见附图5。

本系统可结合数据业务推送系统为用户提供更好的基于位置的服务。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应该理解：本领域技术人员可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于无线网络的用户位置预测系统，其特征在于：包括移动数据获取模块、移动数据清洗模块、用户历史移动记录模块、混合位置预测模块，其中：

移动数据获取模块用于从移动通信网中获取的用户数据识别地点字段，并将其提取出来，构建成为用户移动数据，所述用户数据包括该用户的标志字段、地点的标志字段、处于该地点的时间字段；

移动数据清洗模块用于对获取到的用户移动数据进行清洗处理，输出一个已处理的用户移动数据信息；

用户历史移动记录模块将用户新出现的访问记录及时更新到用户历史移动访问数据库中，用户历史移动访问数据库的每条记录包括用户标志字段、地点访问字段，地点访问时间等字段；

混合位置预测模块设置有停留假设预测子模块、基于时段划分的历史预测子模块、跳转预测子模块、协同过滤预测子模块和预测结果子模块，预测结果子模块根据停留假设预测子模块、基于时段划分的历史预测子模块、跳转预测子模块和协同过滤预测子模块的预测结果，完成用户位置预测。

2.如权利要求1所述的基于无线网络的用户位置预测系统，其特征在于：用户历史移动记录模块还更新基于时段的用户地点访问次数以及更新基于用户历史移动访问数据库中的用户跳转矩阵，

基于时段的用户地点访问次数是在特定时间段内用户对不同地点的不同访问次数——向量通过这个向量，确定用户在特定时间段内在某处的可能性大小

{\overset{&RightArrow;}{N}}_{T_{i}, l} = (n_{T_{i}, l_{1}}, n_{T_{i}, l_{2}}, . . ., n_{T_{i}, l_{m}})

p_{T_{i}, l_{k}} = n_{T_{i}, l_{k}} / Σ_{k = 1}^{m} n_{T_{i}, l_{k}}

其中表示的是该用户在[T_i,T_i+1)时间段内对地点l_m的总访问次数，

其中

用表示用户从地点l_i下一步跳往其他地点的总和，则用户跳转概率矩阵为：

其中

表示用户从地点l_i下一步跳往地点l_j的概率大小。

3.如权利要求1所述的基于无线网络的用户位置预测系统，其特征在于：移动数据清洗模块包括地点重复项合并子模块、时序再排序子模块和稀疏化数据采样子模块，

4.如权利要求1或3所述的基于无线网络的用户位置预测系统，其特征在于：移动数据清洗模块还可以与一个位置信息更新模块相连，

5.如权利要求1-4之一所述的基于无线网络的用户位置预测系统，其特征在于：预测结果整合模块采用线性组合的策略组合停留假设预测子模块、基于时段划分的历史预测子模块、跳转预测子模块和协同过滤预测子模块的预测结果，生成最终的预测结果。

6.一种基于无线网络的用户位置预测方法，其特征在于：包括以下步骤：

步骤四，根据停留假设预测、基于时段划分的历史预测、跳转预测和协同过滤预测的预测结果，完成用户位置预测。

7.如权利要求6所述的基于无线网络的用户位置预测方法，其特征在于：步骤三中还更新基于时段的用户地点访问次数以及更新基于用户历史移动访问数据库中的用户跳转矩阵，

{\overset{&RightArrow;}{N}}_{T_{i}, l} = (n_{T_{i}, l_{1}}, n_{T_{i}, l_{2}}, . . ., n_{T_{i}, l_{m}})

p_{T_{i}, l_{k}} = n_{T_{i}, l_{k}} / Σ_{k = 1}^{m} n_{T_{i}, l_{k}}

其中

用

其中

表示用户从地点l_i下一步跳往地点l_j的概率大小。

8.如权利要求6所述的基于无线网络的用户位置预测方法，其特征在于：步骤二中的移动数据清洗处理包括地点重复项合并、时序再排序和稀疏化数据采样，

地点重复项合并处理步骤包括接收移动数据获取模块输出的移动位置信息，合并具有相同经纬度的地点，以统一的一个地点代表该地点，并将结果输出用于时序再排序处理；

时序再排序处理步骤包括接收地点重复项合处理后输出的数据，将该数据按照时间的发生顺序进行再排序，并将结果输出用于稀疏化数据采处理；

稀疏化数据采样处理步骤包括接收时序再排序处理后输出的已经过排序的数据，将那些短时间内连续记录的用户位置进行稀疏化采样，删去无意义的短时间内高频出现的重复位置信息。

9.如权利要求6或8所述的基于无线网络的用户位置预测系统，其特征在于：将步骤二中已处理的用户移动数据信息用于对一位置信息数据库中不存在的地点的位置信息进行更新。

10.如权利要求6-9之一所述的基于无线网络的用户位置预测系统，其特征在于：步骤四中采用线性组合的策略组合停留假设预测、基于时段划分的历史预测、跳转预测和协同过滤预测的预测结果，生成最终的预测结果。