CN110795519A

CN110795519A - 基于Markov模型和概率统计的位置预测方法及可读存储介质

Info

Publication number: CN110795519A
Application number: CN201911028627.7A
Authority: CN
Inventors: 李阳; 左磊; 韩剑锋; 张良晖
Original assignee: Tianju Dihe (suzhou) Data Co Ltd
Current assignee: Tianju Dihe (suzhou) Data Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-02-14

Abstract

本发明公开了一种基于Markov模型和概率统计的位置预测方法及可读存储介质，预测方法包括：采集用户的位置定位坐标集，并进行预处理，得到体现运动轨迹的位置序列数据集；建立变阶Markov模型，以对位置序列数据集进行位置预测，得到预测的第一位置预测坐标及对应的第一位置预测概率；利用用户累计的轨迹数据建立位置预测数据库，构建对应的概率矩阵，以对位置序列数据集进行位置预测，得到预测的第二位置预测坐标及对应的第二位置预测概率；若第一位置预测概率大于第二位置预测概率，则取第一位置预测坐标为位置预测结果；否则取第二位置预测坐标为位置预测结果。本发明采用Markov模型结合概率统计来获取位置预测的高精准度和低计算复杂度。

Description

基于Markov模型和概率统计的位置预测方法及可读存储介质

技术领域

本发明涉及地理位置信息预测领域，尤其涉及一种基于Markov模型和概率统计的位置预测方法及可读存储介质。

背景技术

随着计算机技术的日益发展和普及，智能移动设备已经成为每个人日常生活中必不可少的工具。为了更好得为用户提供精准的服务，LBS(Location Based Service)应运而生。而为了获得用户的位置信息数据，目前智能移动设备都内置了GPS传感器、加速度传感器等多种传感器以获取用户的位置信息。当用户在使用数字地图等需要位置相关信息的应用时，传感器都会记录下用户当前的位置信息。这些位置信息如果按照时间排列就可以用来展示用户在这段时间内的运动轨迹。用户的运动轨迹在一定程度上显示了用户的行为习惯，具有可预测性。目前LBS技术的研究中最重要的方向就是利用用户的历史位置信息，预测用户下一步将要到达的位置，即位置预测技术。

位置预测技术的应用非常广泛，如路径规划、服务推送、广告投放、用户画像等具有极高的商业价值，因此吸引了大量学者对该领域展开研究。但研究成功却令人不胜满意，首先目前的位置预测技术往往仅使用了GPS位置坐标进行预测，但是犹豫GPS位置坐标点本身就存在一定误差并且易受到地理特征的限制，因此导致预测的效果较差。其次在预测模型的选择上主要有基于运动模型的位置预测和基于频繁模式挖掘的位置预测，基于运动模型的位置预测方法主要是通过历史数据拟合出用户运动过程中的线性或非线性模型来进行预测，但是在实际情况中用户移动轨迹非常负责，很难用单一的线性或非线性模型进新描述；基于频繁模式挖掘的位置预测方法是目前位置预测领域中比较热门的方法，但任然存在一些问题如空间复杂度较高导致模型计算速度太慢，低阶矩阵预测准确率较低等问题。

综上所述，目前位置预测技术任然存在需要解决的问题。

发明内容

当前对于位置预测技术的精准度要求越来愈高，需求也越发广泛，为了解决现有技术中的问题，本发明提供了一种基于Markov模型和概率统计的位置预测方法及可读存储介质，能够高效准确地对位置进行预测，所述技术方案如下：

一方面，本发明提供了一种基于Markov模型和概率统计的位置预测方法，包括以下步骤：

采集用户的位置定位坐标集，并对其进行数据预处理，得到体现运动轨迹的位置序列数据集；

建立变阶Markov模型，以对所述位置序列数据集进行位置预测，得到预测的第一位置预测坐标及对应的第一位置预测概率；

利用用户累计的轨迹数据建立位置预测数据库，构建对应的概率矩阵，以对所述位置序列数据集进行位置预测，得到预测的第二位置预测坐标及对应的第二位置预测概率；

比较所述第一位置预测概率和第二位置预测概率的大小；

若所述第一位置预测概率大于第二位置预测概率，则取所述第一位置预测坐标为位置预测结果；否则取所述第二位置预测坐标为位置预测结果。

进一步地，将所述位置序列数据集构造成字典树序列集，变阶Markov模型通过以下公式对所述字典树序列集进行位置预测：

其中，s为字典树序列集，c为待预测数据集，escape为逃逸数据集，

为数据集中没有在字典树序列集s之后出现的数据集出现的概率，

为在字典树序列集s之后出现待预测数据集c出现的概率，P(c|s)为位置预测概率；

取最大的位置预测概率作为第一位置预测概率，取最大的位置预测概率对应的位置作为第一位置预测坐标。

进一步地，建立变阶Markov模型之前，先确定Markov模型的阶数，包括以下步骤：

采用序列模式算法PrefixSpan算法计算出位置序列数据集的支持度，当预测位置序列数据集中支持度超过阈值则直接输出其预测结果，否则根据长度匹配规则定位到对应阶数Markov模型进行预测；若预测位置在轨迹序列树中找不到对应路径，则根据二阶Markov模型进行预测。

进一步地，将地图简化为G＝＜V,E＞，其中，V为交叉路口的集合，E为所有路段的集合，G由邻接矩阵表示；

所述建立位置预测数据库中的数据包括用户所在位置信息及周边区域的位置信息以及用户历史轨迹信息；

根据用户移动产生的在地图上的运动轨迹，将所述位置序列数据集转化为包括交叉路口的集合和路段的集合的邻接矩阵，并将该用户移动时经过的路段数据存储为历史轨迹数据；

若用户在位置预测数据库中没有历史轨迹数据时，使用其他用户的历史轨迹数据作为该用户的位置预测数据；

所构建的概率矩阵数据根据用户的运动轨迹进行动态更新。

进一步地，对所述用户当前所在的交叉路口构建如下概率矩阵：

其中，E₁,E₂,...,E_n为当前所在的交叉路口处的n条路段，p(E_i|E_j)为用户在路段E_j且接下来预测位置在路段E_i的概率；

将所述概率矩阵M中最大的概率值作为所述第二位置预测概率，其对应的预测位置所在路段作为所述第二位置预测坐标。

进一步地，所述用户在路段E_j且接下来预测位置在路段E_i的概率通过以下公式计算：

其中，N_i为用户的历史轨迹数据中经过路段E_i的次数，N_j,i为用户从路段E_j走到路段E_i的次数，E₁,E₂,...,E_n为当前所在的交叉路口处的n条路段；

所述概率矩阵M通过以下公式进行计算：

其中，N_i为用户的历史轨迹数据中经过路段E_i的次数，N_j,i为用户从路段E_j走到路段E_i的次数，E₁,E₂,...,E_n为当前所在的交叉路口处的n条路段。

进一步地，所述基于Markov模型和概率统计的位置预测方法还包括：利用动态滑窗的方法缩小计算量并计算位置预测，包括：以用户当前位置为中心点，根据所述中心点获得窗口，限定窗口内所涉及的道路信息能够被用于位置预测；所述窗口的大小根据用户的运动速度以及预测周期进行动态变化。

进一步地，对所述位置定位坐标集进行的数据预处理包括数据过滤操作，包括以下步骤：

对所述位置定位坐标集中的每一个定位坐标分别求取算术平均值、残余误差和标准差，计算公式如下：

其中，

为算术平均值，N为位置定位坐标集的序列长度，x_i为所述位置定位坐标集中序列号为i的位置定位坐标；

其中，ΔV_i为残余误差，x_i为所述位置定位坐标集中序列号为i的位置定位坐标，

为算术平均值；

其中，

为标准差，N为位置定位坐标集的序列长度，x_i为所述位置定位坐标集中序列号为i的位置定位坐标，

为算术平均值；

若位置定位坐标x_i的残余误差和标准差之间满足

则将该位置定位坐标x_i从所述位置定位坐标集中去除，更新所述位置定位坐标集，得到所述位置序列数据集。

进一步地，对所述位置定位坐标集进行的数据预处理包括数据补全操作，包括以下步骤：

选择目标待插值点，获取所述待插值点与周围n个已知位置定位坐标之间的距离；

通过以下公式计算所述待插值点与已知位置定位坐标之间的权重系数：

其中，λ_i为待插值点与第i个已知位置定位坐标之间的权重系数，d_i为待插值点到第i个已知位置定位坐标的距离，r为可调幂次方参数，n为已知位置定位坐标的个数；

根据所述权重系数，通过以下公式计算所述待插值点的位置定位坐标：

其中，x_p为待插值点的位置定位坐标，λ_i为与第i个已知位置定位坐标之间的权重系数，x_i为第i个已知位置定位坐标，n为已知位置定位坐标的个数；

在所述待插值点插入所述位置定位坐标，更新所述位置定位坐标集，得到所述位置序列数据集。

另一方面，本发明还提供了一种非暂态可读存储介质，用于存储指令，所述指令用于执行以下步骤：

S1、采集用户的位置定位坐标集，并对其进行数据预处理，得到体现运动轨迹的位置序列数据集；

S2、建立变阶Markov模型，以对所述位置序列数据集进行位置预测，得到预测的第一位置预测坐标及对应的第一位置预测概率；

S3、利用用户累计的轨迹数据建立位置预测数据库，构建对应的概率矩阵，以对所述位置序列数据集进行位置预测，得到预测的第二位置预测坐标及对应的第二位置预测概率；

S4、比较所述第一位置预测概率和第二位置预测概率的大小；

S5、若所述第一位置预测概率大于第二位置预测概率，则取所述第一位置预测坐标为位置预测结果；否则执行S6；

S6、取所述第二位置预测坐标为位置预测结果。

本发明提供的基于Markov模型和概率统计的位置预测方法具有以下技术效果：

a.位置预测准确性较高：利用变阶Markov模型进行位置预测，对于预测初次出现的位置具有较高的准确性，同时利用基于概率统计的方法进行位置预测弥补变阶Markov模型的不足，提高了整体预测准确性；

b.位置预测速度快：使用变阶Markov模型进行位置预测，动态改变计算矩阵的阶数从而有效降低计算复杂度，提高预测计算速度，概率统计的预测方式利用历史累计数据建立的概率矩阵，同时采用了动态滑块方式减少了计算量，所以总体来说预测速度较快；

c.采用了动态滑块方式进行概率统计计算，预测速度较快。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于Markov模型和概率统计进行位置预测的统筹方法流程图；

图2为本发明实例提供的进行构建的二阶字典树的示意图；

图3为本发明实例提供的方法包含冗余数据的GPS轨迹示意图；

图4为本发明实例提供的圆形滑动窗口示意图；

图5为本发明实施例提供的基于Markov模型和概率统计的位置预测方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

本发明提供了一种基于Markov模型和概率统计的位置预测方法，采用Markov模型结合概率统计来进行位置预测，能够高精度地对位置进行预测，同时降低计算复杂度，统筹预测方法参见图1，即分别采用Markov模型、位置预测数据库对位置进行预测，分别得到预测的位置及对应的概率，选取对应概率比较大的作为位置预测结果。

在本发明的一个实施例中，提供了一种基于Markov模型和概率统计的位置预测方法，参见图5，所述追踪方法包括以下步骤：

S1、采集用户的位置定位坐标集，并对其进行数据预处理，得到体现运动轨迹的位置序列数据集。

具体地，将采集到的大量GPS数据做为原始数据，原始数据中包含了经纬度坐标及时间。但由于用户运动过程中的不规则性导致原始数据中普遍存在数据冗余(如图3中位置数据x₃,x₆,x₇)和缺失等问题，所以需要进行数据预处理以确保运动轨距数据集的完整有效。所述数据预处理可以至少包括数据过滤操作和/或数据补全操作，下面对两种数据操作作一一说明：

第一种是数据过滤操作，包括以下步骤：

其中，为算术平均值，N为位置定位坐标集的序列长度，x_i为所述位置定位坐标集中序列号为i的位置定位坐标；

其中，ΔV_i为残余误差，x_i为所述位置定位坐标集中序列号为i的位置定位坐标，为算术平均值；

其中，

为算术平均值；

若位置定位坐标x_i的残余误差和标准差之间满足

则将该位置定位坐标x_i从所述位置定位坐标集中去除(比如图3中的x₃,x₆,x₇)，并重复该步骤直到所有数据都满足限定条件即

更新所述位置定位坐标集(为图3中剩余的位置定位坐标x₁,x₂,x₄,x₅,x₈,x₉组成的数据集)，得到所述位置序列数据集。

第二种是数据补全操作，为了使位置序列数据更加平滑便于算法收敛，需要针对距离间隔较大的位置插入额外的补全数据，包括以下步骤：

S2、建立变阶Markov模型，以对所述位置序列数据集进行位置预测，得到预测的第一位置预测坐标及对应的第一位置预测概率。

传统Markov模型在位置预测中需要选定固定的历史轨迹长度做为计算矩阵的阶数。利用位置序列数据的长度建立对应阶数的Markov模型，计算出用户可能出现位置的概率。

具体地，树型结构的Markov模型对数据空间有所压缩，但并不是变阶模型，且需要在建立变阶Markov模型之前，先确定Markov模型的阶数，包括以下步骤：采用序列模式算法PrefixSpan算法计算出位置序列数据集的支持度，当预测位置序列数据集中支持度超过阈值则直接输出其预测结果，否则根据长度匹配规则定位到对应阶数Markov模型进行预测；若预测位置在轨迹序列树中找不到对应路径，则根据二阶Markov模型进行预测。

其次，将所述位置序列数据集构造成字典树序列集，用字典树结构代替传统Markov模型中的矩阵，字典树结构采用公共前缀所以对于零频率事件不会生成对应的叶子节点，从而大大减少了存储空间，在位置预测时，对于当前序列没有后续数据预测导致零频率数据模型预测结果概率总是为零的问题，本发明采用逃逸机制来解决，即对与之前无法预测出的数据根据数据集也给予一定概率。公式如下：

其中，s为字典树序列集，c为待预测数据集，escape为逃逸数据集，为数据集中没有在字典树序列集s之后出现的数据集出现的概率，

为在字典树序列集s之后出现待预测数据集c出现的概率，P(c|s)为位置预测概率。

将训练集中的数据构造长字典树T，对于N阶Markov模型字典树的深度为N+1，每个节点表示成二元组包含两个信息：位置数据和该数据出现的频率。字典树的根节点为空序列ω，每一条从根节点到叶子节点的路径代表一条子序列，叶子节点的概率为根节点到叶子节点数据出现的频率，其余节点的数值等于子节点数值之和。以图2构建的字典树为例，虽然该例的用户轨迹中没有出现e→a→b的路径，如果不采用逃逸机制，其位置概率即为0，但利用逃逸机制可以得出非0的位置概率，具体位置概率计算公式如下：

其中，P(b|ea)表示ea之后出现b的概率，P(escape|ea)表示ea之后逃逸的概率，此处逃逸赋值为1，在附图2中ea赋值为1，P(b|a)表示在a之后出现b的概率，在附图2中a赋值为(3+1)，a之后的b赋值为1，因此最终利用逃逸机制可以得出ea之后出现b的概率为0.25，由此减少了大量零概率事件。

在位置预测时，将每个位置序列看作一条子序列，每个位置信息相当于一个节点，构建出对应的字典树，根据上面的公式可以计算出用户可能出现位置的概率，取最大的位置预测概率作为第一位置预测概率，取最大的位置预测概率对应的位置作为第一位置预测坐标。

S3、利用用户累计的轨迹数据建立位置预测数据库，构建对应的概率矩阵，以对所述位置序列数据集进行位置预测，得到预测的第二位置预测坐标及对应的第二位置预测概率。

用户在道路上移动是可以将地图简化为点和线来表示，如图4所示，具体地，将地图简化为图G＝＜V,E＞，其中，V为交叉路口的集合，E为所有路段的集合，图G由邻接矩阵表示，该矩阵包含我们所需要知道用户所在位置信息及周边区域的位置信息；

所构建的概率矩阵数据根据用户的运动轨迹进行动态更新。

在基于概率统计的预测过程中，不同路径的选择会导致不用的轨迹数据，为此需要构建一个概率矩阵M，矩阵中包含了交叉路口被经过的概率，具体地，对所述用户当前所在的交叉路口构建如下概率矩阵：

其中，E₁,E₂,...,E_n为当前所在的交叉路口处的n条路段，p(E_i|E_j)为用户在路段E_j且接下来预测位置在路段E_i的概率。

利用历史轨迹数据，所述用户在路段E_j且接下来预测位置在路段E_i的概率通过以下公式计算：

所述概率矩阵M通过以下公式进行计算：

利用用户累计的轨迹数据建立的预测数据库，计算对应的概率矩阵。使用动态滑窗的方法缩小计算量并计算位置预测，因此在本发明的一个优选实施例中，利用动态滑窗的方法缩小计算量并计算位置预测，包括：以用户当前位置为中心点，根据所述中心点获得窗口，限定窗口内所涉及的道路信息能够被用于位置预测；所述窗口的大小根据用户的运动速度以及预测周期进行动态变化。

S4、比较所述第一位置预测概率和第二位置预测概率的大小。

S6、取所述第二位置预测坐标为位置预测结果。

变阶Markov模型能够较高概率的预测用户初次到达的位置，但降低了用户轨迹中所有位置的重要性，会导致整体预测的准确性降低，因此采用概率统计的方式弥补这部分的不足以提高整体预测准确性。将预测位置中概率最大的结果作为预测结果。

对于以上所有公开的实施例说明，本领域的专业技术人员都可以按照流程重新实现。本领域的专业技术人员也可以根据自己的或实际的需求，对其中某些约束修改，这是轻而易举的。本发明里面的所用的一些定义和一般原理可以在本发明的范围内，在其它不同情况的实施例中也可以实现。所以，本发明不会受限于本文所说的实施例，可以广泛地应用与本文公开的原理和特点相似的实施例。

需要说明的是，在本发明实施例中，步骤S2和S3不限定其执行顺序，即可以认为S2和S3是分别进行的独立的位置预测过程。另外，若出现第一位置预测概率与第二位置预测概率相等的情况，可视情况或者随意选择第一位置预测坐标或第二位置预测坐标作为位置预测结果，因此，像上述步骤S5和S6中指定第二位置预测坐标为位置预测结果仅为示例，事实上所述步骤S5可等同于“若所述第一位置预测概率大于或等于第二位置预测概率，则取所述第一位置预测坐标为位置预测结果；否则执行S6”，像此种变型应当同样落入本发明要求的保护范围内。

在本发明的一个实施例中，还提供了一种非暂态可读存储介质，用于存储指令，所述指令用于执行以下步骤：

S6、取所述第二位置预测坐标为位置预测结果。

通过以上实施方式的描述，本领域的技术人员可以清楚地了解到本发明提供的系统外部命令执行技术方案可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明实施例所述的方法。

需要说明的是：本实施例提供的非暂态可读存储介质实施例与上述实施例提供的位置预测方法属于同一构思，其具体实现过程详见方法实施例，即上述位置预测方法实施例中的所有特征都可以通过引用的方式引入本可读存储介质实施例。

本发明利用变阶Markov模型进行位置预测，对于预测初次出现的位置具有较高的准确性。同时利用基于概率统计的方法进行位置预测弥补变阶Markov模型的不足提高了整体预测准确性。另一方面，本发明使用变阶Markov模型进行位置预测，动态改变计算矩阵的阶数从而有效降低计算复杂度，提高预测计算速度。概率统计的预测方式是利用历史累计数据建立的概率矩阵同时采用了动态滑块方式减少了计算量，所以总体来说预测速度较快。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Markov模型和概率统计的位置预测方法，其特征在于，包括以下步骤：

比较所述第一位置预测概率和第二位置预测概率的大小；

2.根据权利要求1所述的基于Markov模型和概率统计的位置预测方法，其特征在于，将所述位置序列数据集构造成字典树序列集，变阶Markov模型通过以下公式对所述字典树序列集进行位置预测：

3.根据权利要求2所述的基于Markov模型和概率统计的位置预测方法，其特征在于，建立变阶Markov模型之前，先确定Markov模型的阶数，包括以下步骤：

4.根据权利要求1所述的基于Markov模型和概率统计的位置预测方法，其特征在于，将地图简化为G＝＜V,E＞，其中，V为交叉路口的集合，E为所有路段的集合，G由邻接矩阵表示；

所构建的概率矩阵数据根据用户的运动轨迹进行动态更新。

5.根据权利要求4所述的基于Markov模型和概率统计的位置预测方法，其特征在于，对所述用户当前所在的交叉路口构建如下概率矩阵：

6.根据权利要求5所述的基于Markov模型和概率统计的位置预测方法，其特征在于，所述用户在路段E_j且接下来预测位置在路段E_i的概率通过以下公式计算：

所述概率矩阵M通过以下公式进行计算：

7.根据权利要求4-6中任意一项所述的基于Markov模型和概率统计的位置预测方法，其特征在于，还包括：利用动态滑窗的方法缩小计算量并计算位置预测，包括：以用户当前位置为中心点，根据所述中心点获得窗口，限定窗口内所涉及的道路信息能够被用于位置预测；所述窗口的大小根据用户的运动速度以及预测周期进行动态变化。

8.根据权利要求1所述的基于Markov模型和概率统计的位置预测方法，其特征在于，对所述位置定位坐标集进行的数据预处理包括数据过滤操作，包括以下步骤：

其中，

为算术平均值；

其中，

为算术平均值；

若位置定位坐标x_i的残余误差和标准差之间满足

9.根据权利要求1所述的基于Markov模型和概率统计的位置预测方法，其特征在于，对所述位置定位坐标集进行的数据预处理包括数据补全操作，包括以下步骤：

10.一种非暂态可读存储介质，用于存储指令，其特征在于，所述指令用于执行以下步骤：

S6、取所述第二位置预测坐标为位置预测结果。