CN106250515B

CN106250515B - 基于历史数据的缺失路径恢复方法

Info

Publication number: CN106250515B
Application number: CN201610631065.5A
Authority: CN
Inventors: 孙未未; 吴昊
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2016-08-04
Filing date: 2016-08-04
Publication date: 2020-05-12
Anticipated expiration: 2036-08-04
Also published as: CN106250515A

Abstract

本发明属于轨迹计算技术领域，具体为一种基于历史数据的缺失路径恢复方法。本发明方法的步骤包括：训练阶段，利用马尔可夫决策过程模型对轨迹进行建模，根据历史轨迹数据训练模型参数；在线查询阶段根据已训练好的模型计算道路之间的转移概率，构建图，使用转移概率的负对数为边的权重赋值，在图中使用最短路径搜索来的到概率最高的路径，并使用该路径恢复缺失部分。本发明方法可在长距离的缺失情况下也能够保持算法的可靠性和准确性。

Description

基于历史数据的缺失路径恢复方法

技术领域

本发明属于轨迹计算技术领域，具体涉及一种基于历史数据的缺失路径恢复方法。

背景技术

移动端GPS设备的普及推动了基于位置的服务的发展，轨迹计算也应运而生。轨迹数据的准确性直接影响了服务的质量，然而现实生活中由于各种因素，如设备电力、存储空间、在线传输成本等原因，GPS数据的采样并不是高频率的，即有大量轨迹数据采样间隔在1分钟以上。低采样率的GPS轨迹数据直接带来了用户行驶路径的缺失，这些数据的缺失将会极大地影响基于位置的服务质量，如路径推荐、路况预计、轨迹预测、频繁模式挖掘等与行驶路径有关的应用。对于这些缺失路径的轨迹数据，如果能够利用剩下的部分高采样率的轨迹数据对其缺失部分进行恢复，那么毫无疑问将会提高数据的利用率。

现有路径恢复技术主要归纳为非数据驱动型与数据驱动型两类：

(1)非数据驱动型的路径恢复技术：

非数据驱动型的路径恢复技术仅仅根据道路网络特征对缺失路径进行恢复。具体地，一般通过定义路段的开销，如信号灯、转弯、道路等级等道路属性，最后选取开销最小的路径来补全缺失的路径。此类方法由于没有参考历史数据，根据人为设定的道路开销很难满足一些复杂的情况。

(2)数据驱动的路径恢复技术

数据驱动型的路径恢复技术不但使用道路的固有属性，还同时参考历史轨迹数据来进行推断。本发明属于这类技术。

传统的数据驱动型的路径恢复技术分为两种，一种是扫描历史数据，通过将历史轨迹根据特定规则构建遍历图后，在图上进行最短路径查询。这种方法是基于经验式的，没有理论保障，且在某些情况下，该方法会退化为直接在原路网中使用最短路径补全，效果变差。另一种是利用最热门路径，通过从历史数据中找出需要恢复路径的首尾路段之间的最热门路径来作为缺失路径的恢复结果。这种方法在长距离的缺失下会产生一定的问题，且对历史数据的数量有一定的要求。是当路径的缺失距离变长后，历史数据中在缺失路径的首尾路段之间的轨迹数量也将减少，且路径的多样性也将会变多，导致热门路径的特异性不强，最终导致恢复结果不理想。

发明内容

本发明的目的在于针对现有技术的不足，提出一种在长距离的缺失情况下也能够保持算法的可靠性和准确性的基于历史数据的缺失路径的恢复方法。

本发明提出的基于历史数据的缺失路径的恢复方法，具体步骤如下：

1.训练阶段，根据历史数据训练模型参数

(1)定义马尔可夫决策过程(MDP)模型，将道路作为状态s，所有道路构成状态集S，相邻道路之间的转移过程定义为动作，道路转移是确定的，因此不需要定义状态转移矩阵，定义每条道路存在回报函数，定义衰减系数γ。

(2)对每个状态s，使用其道路长度的负数作为该道路的初始回报函数R(s)，所有状态的回报函数构成总回报函数集合R。

(3)对于某一条历史轨迹，记其终点所在的状态为s_d，将s_d的回报函数设为0。

(4)对定义的MDP使用值迭代算法，得到每个状态s的最优值函数V^*(s)。

(5)对于轨迹中每相邻两个状态s_i，s_j，计算s_i转移到s_j的Q函数Q(s_i→s_j|R)＝R(s_i)+γV^*(s_j)。

(6)计算s_i到s_j的转移概率

s_k为与s_i相邻的状态。

(7)对于历史轨迹tr＝s₁→s₁→…→s_n，其对于当前总回报函数集R下的后验概率为

(8)重复步骤(3)—(7)，直至得到所有历史轨迹在当前总回报函数集R下的后验概率

公式中m表示历史轨迹的数量。

(9)对R中每个回报函数R(s)在[R(s)-δ，R(s)+δ]区间内均匀采样，得到新的回报函数集R’。

(10)根据步骤(3)—(7)，计算所有历史轨迹在新回报函数集R’下的后验概率

公式中m表示历史轨迹的数量。

(11)根据

的接受概率接受R’作为新的总回报函数集R。

(12)重复步骤(8)—(11)，直至马尔可夫链收敛后将当前的总回报函数集R作为模型的参数。

2.在线查询阶段，利用训练好的模型对缺失路径进行恢复

(1)定义MDP模型，将道路作为状态，所有道路构成状态集S，相邻道路之间的转移过程定义为动作，道路转移是确定的，因此不需要定义状态转移矩阵，定义每条道路存在回报函数，定义衰减系数γ；

(2)将每条道路作为MDP状态的回报函数设置成训练阶段中步骤(1)—(12)所得到的总回报函数R；

(3)记需要恢复轨迹的末端状态为s_d，将s_d的回报函数设为0；

(4)对定义的MDP使用值迭代算法，得到每个状态s的最优值函数V^*(s)；

(5)对于状态集S中每相邻两个状态s_i，s_j，计算s_i转移到s_j的Q函数Q(s_i→s_j|R)＝R(s_i)+γV^*(s_j)；

(6)计算s_i到s_j的对数转移概率

s_k为与s_i相邻的状态；

(7)构建图G，其中顶点定义为状态集S，边定义为：如果状态s_i与s_j在MDP中是相邻的，则在G中为s_i→s_j建立一条边，权值为-logP(s_j|s_i，R)；

(8)记需要恢复轨迹的初始状态为s_o，在G中从顶点s_o至s_d实施最短路径算法，得到的路径s_o→s₁→…→s_d，作为恢复的缺失路径。其箭头表示路径方向，下同。

本发明利用MDP模型对历史轨迹进行建模，通过将历史数据的后验概率最大化来得到模型代求参数R。在恢复缺失路径阶段，利用MDP模型得到道路之间转移的概率，对路径的概率进行马尔可夫假设，即路径的概率为相邻两条道路之间转移的概率的乘积。最终，将概率最高的路径作为缺失路径的恢复结果。

本发明方法，参考了历史数据中蕴含的丰富的信息，利用概率论的理论推导，对轨迹数据使用了合理的模型进行建模，并根据历史数据训练模型参数，并对缺失路径利用进行恢复。整个方法，通过概率模型的理论基础保障，使得在长距离的缺失情况下也能够保持算法的可靠性和准确性。

附图说明

图1中虚线轨迹tr₁：s₁→s₅→s₁₂→s₁₆→s₁₇与实线轨迹tr₂：s₃→s₆→s₉→s₈为用于训练模型的历史数据。

图2中实线的两个线段代表缺失路径的首尾路段，即恢复从s₁到s₁₇的路径。

图3为实施例中几种方法在不同的缺失长度下的准确率

具体实施方式

下面结合具体实例来说明本发明的具体实施过程：

1.根据历史数据训练模型参数

(1)定义MDP模型，状态集S＝{s₁，s₂，...，s₁₇}，动作定义为相邻两个状态间的转移，如s₁→s₂，s₁₃→s₁₇，定义衰减系数γ，如γ＝0.95。

(2)每个状态的初始回报函数定义为其道路长度，

即R(s₁)＝s₁.len，R(s₂)＝s₂.len，...，R(s₁₇)＝s₁₇.len，

其中，s.len代表路段s的长度。总回报函数集R＝{R(s₁)，R(s₂)，...，R(s₁₇)}。

(3)对虚线历史轨迹tr₁进行后验概率计算

(a)将终止状态s₁₇的回报函数置为0；

(b)对当前MDP使用值迭算法，得到每个状态s的最优值函数V^*(s)。

(c)计算Q(s₁→s₅|R)＝R(s₁)+γV^*(s₅)，

计算Q(s₅→s₁₂|R)＝R(s₅)+γV^*(s₁₂)，

计算Q(s₁₂→s₁₆|R)＝R(s₁₂)+γV^*(s₁₆)，

计算Q(s₁₆→s₁₇|R)＝R(s₁₆)+γV^*(s₁₇)。

(d)计

算，

计算

计算

计算

(4)对实线历史轨迹tr₂进行后验概率计算

(a)同步骤(3)得到P(tr₂|R)。

(5)计算所有历史轨迹的联合后验概率P(tr₁|R)*P(tr₂|R)。

(6)对R的δ领域进行采样，记为R′

(a)R′(s₁)～Uniform(R(s₁)-δ，R(s₁)+δ)，

R′(s₂)～Uniform(R(s₂)-δ，R(s₂)+δ)，

…

R′(s₁₇)～Uniform(R(s₁₇)-δ，R(s₁₇)+δ)，

(b)记R′＝{R′(s₁)，R′(s₂)，...R′(s₁₇)}。

(7)根据步骤(3)—(5)计算P(tr₁|R’)*P(tr₂|R’)

(8)按照

的概率决定是否接受R’代替R作为新的回报函数集。

(9)重复步骤(3)—(8)直至马尔可夫链收敛，将当前的R作为MDP的参数。

2.利用训练好的模型对缺失路径进行恢复

(2)每个状态的回报函数为步骤1中利用历史数据{tr₁，tr₂}训练得到的R。

(3)将R(s₁₇)置为0。

(4)转移概率计算

(a)对当前MDP使用值迭算法，得到每个状态s的最优值函数V^*(s)。

(b)对每个状态计算相邻状态的Q函数值，如Q(s₁→s₅|R)＝R(s₁)+γV^*(s₅)。

(c)计算每两个相邻状态之间转移的概率，如

(5)构建图G

(a)构建顶点集为{s₁，s₂，...s₁₇}，

(b)对每相邻两个状态建立一条边，边权值为转移概率的负对数，如e(s₁→s₂)＝-logP(s₂|s₁，R)，e(s₁→s₅)＝-logP(s₅|s₁，R)。

(6)在图G中使用最短路算法(如Dijkstra算法)计算s₁到s₇的最短路径，如s₁→s₅→s₁₂→s₁₆→s₁₇，则s₁→s₅→s₁₂→s₁₆→s₁₇就是s₁到s₁₇之间缺失的路径。

下面通过真实数据集上的实验来验证路径算法的准确性，以及在长距离缺失下的有效性。我们使用葡萄牙共78万条出租车轨迹的数据集，通过对原数据进行人为消除路径后让算法进行恢复以检测其正确率。正确率的评判标准为总共恢复出的路径的长度比上总缺失的路径长度。我们使用了最短路径、最快路径、最热门路径，数据驱动型方法的最新工作(HRIS@1、5、10)，以及本发明的方法。图3为这几种方法在不同的缺失长度下的准确率，可以看出，本发明方法在长距离路径缺失的情况下，依然具有很高的准确率。