CN112380400A

CN112380400A - 一种基于后缀树误差有界的轨迹预测方法

Info

Publication number: CN112380400A
Application number: CN202011309993.2A
Authority: CN
Inventors: 庞志飞; 鲁鹏; 姚畅; 伍赛; 陈刚
Original assignee: Institute Of Computer Innovation Technology Zhejiang University
Current assignee: Institute Of Computer Innovation Technology Zhejiang University
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-02-19

Abstract

本发明公开了一种基于后缀树误差有界的轨迹预测方法。历史轨迹输入到深度学习模型中进行处理获得预测轨迹，将历史轨迹存储到后缀树中，当有新的预测请求时，在后缀树中找到相似的轨迹作为预测结果，由后缀树直接返回预测结果。本发明能在后缀树中找到相似轨迹，由后缀树直接返回预测结果，无需进入神经网络进行预测，极大提高了轨迹预测的效率。

Description

一种基于后缀树误差有界的轨迹预测方法

技术领域

本发明涉及数据库领域中的时空索引方法，具体涉及到一种基于后缀树误差有界的轨迹预测方法。

背景技术

随着近年来移动互联网的迅速崛起，智能手机、车载GPS系统等持续不断地记录着用户的位置信息，众多服务商们利用这些轨迹数据来更好的为用户们提供商品以及服务，因此极大促进了轨迹大数据的发展。轨迹的最普遍形式是一个由位置坐标和相应时间组成的序列，其中坐标通常为二维坐标，例如经度和纬度。

在轨迹大数据的应用中，一个热门问题就是对轨迹数据的预测。随着人工智能技术的兴起，越来越多的研究工作使用神经网路对移动物体的轨迹进行预测，即将该对象的历史轨迹输入模型，模型输出该对象在未来一段时间内的预测轨迹。虽然利用神经网络对轨迹进行预测取得了比传统线性模型更好的准确率，但是一个最主要的问题就是其预测性能相较于线性模型是非常低下的。

发明内容

为了解决背景技术中存在的问题，本发明的目的在于针对现有技术的不足，提供一种基于后缀树误差有界的轨迹预测方法，将神经网络的预测结果以键值对的方式存储到后缀树中。

本发明解决其技术问题采用的技术方案如下：

历史轨迹输入到深度学习模型中进行预测处理获得预测轨迹，将历史轨迹存储到后缀树中，当有新的预测请求时，在后缀树中找到相似的轨迹作为预测结果，由后缀树直接返回预测结果，无需进入复杂的深度模型进行预测，极大的提高了轨迹预测的效率。

所述的方法步骤如下：

轨迹是由移动对象所产生的位置坐标沿时间顺序所构成的序列，信息由平面二维坐标(x，y)和对应的时间组成，轨迹分为历史轨迹和预测轨迹。

具体实施的位置坐标例如为纬度坐标。

轨迹包含事先已知的历史轨迹以及由深度学习模型输出的预测轨迹两部分。

所述的深度学习模型采用神经网络模型。

1)确定轨迹集合的位置坐标的取值范围并转为网格坐标表示

1.1)由所有历史轨迹和预测轨迹组成轨迹集合，针对轨迹集合的所有轨迹的位置坐标中选取横坐标和纵坐标的最小值x_min、y_min和最大值x_max、y_max，由以上坐标组成四角顶点坐标分别为(x_min，y_min)、(x_min，y_max)、(x_max，y_max)、(x_min，y_max)的矩形，作为路网区域；

1.2)根据粒度将路网区域划分为相等的格子，各个格子按照自身在路网区域中的行列顺序进行横纵坐标的坐标编号；

1.3)将历史轨迹转换成路网区域的格子坐标：历史轨迹上的各个位置坐标替换为所在格子的格子坐标编号，从而将历史轨迹转换为路网历史轨迹序列；

2)使用局部敏感性哈希函数将路网历史轨迹序列进行聚类：

使用局部敏感性哈希函数聚类时，使得每一个类中任意两条估计的距离不大于d：

其中，d表示最小误差距离，d表示给定概率p之后，任意两条轨迹在时刻t_i相距的最小距离；min()表示对于任意时刻

所产生距离集合中的最小值；

表示ft_i的逆函数，给定概率p，该逆函数返回在时刻t_i满足

的距离；

表示

小于误差上界e的概率；t_i表示第i时刻，e表示误差上界；

表示两条轨迹

和

之间的距离函数；

表示第1条预测轨迹在时刻t_i的点，

表示第2条预测轨迹在时刻t_i的点，

表示两点间在时刻t_i的距离；带上箭头表示预测轨迹，不带上箭头表不历史轨迹。

3)将每个类的中心轨迹经过坐标变换后插入到后缀树索引当中。

4)给定输入轨迹，在后缀树查询返回预测轨迹的候选集

将输入轨迹处理成路网历史轨迹序列，再转换成一维序列；然后对于输入轨迹的一维序列所有可能的后缀，在后缀树中寻找带有相同后缀的一维序列及其节点，以所有带有相同后缀的一维序列所对应的中心轨迹返回加入候选集；

5)设置相似函数，从候选集中返回最相似的中心轨迹所对应的预测轨迹作为最终预测结果，中心轨迹所对应的预测轨迹为中心轨迹所在类中所有历史轨迹对应预测轨迹的平均值。

所述步骤2)中的距离函数

计算为：

其中，n为轨迹中的长度，x和y分别表示为格子表示的横纵坐标，n为时刻的序号，

分别表示两条路网历史轨迹序列

和

经过神经网络处理获得时刻t_i的预测位置坐标，i∈[1，n]，n为预测轨迹长度；

所述步骤3)具体为：

3.1)轨迹坐标变换

将历史轨迹的路网历史轨迹序列转换成一维序列；

3.2)将轨迹插入到后缀树

提取一维序列中所有可能的后缀，后缀树中的根节点空，叶节点和中间节点均代表一种轨迹的后缀，并存储条目，条目以元组<id，偏移量>表示，id表示一维序列的编号，偏移量表示后缀在一维序列中的起始位置。

所述步骤5)具体设置相似函数如下：

t_diff＝∑|f_t(S_i)-f_t(S_o)|

其中，S_i和S_o分别表示输入的查询后缀和在后缀树中索引到的中心轨迹，|S_i|为查询后缀s_i的长度，t_diff表示两个的输入轨迹和候选轨迹的时间差。参数f_t()表示时间戳函数，即获得轨迹中某个点的时间，θ表示预设阈值；计算候选集中所有中心轨迹的θ值，返回θ值最大的中心轨迹。

本发明的方法将神经网络的预测结果以键值对的方式存储到后缀树中。其中键是输入轨迹，值为相应的预测结果。当有新的预测请求时，如果可以在后缀树中找到相似轨迹，则由后缀树直接返回预测结果，无需进入神经网络进行预测，极大的提高了轨迹预测的效率，提高轨迹的预测性能。

本发明使用局部敏感哈希将神经网络所预测的索引进行聚类，计算同一类中所有轨迹的中心轨迹，后缀树只索引该中心轨迹及其预测结果，大大降低了后缀树的存储开销，提高预测效率并减少后缀树的空间开销。同时，给定误差上界，后缀树所返回的预测结果也是误差有界的。

本发明的有益效果是：

本发明的方法能在后缀树中查询找到相似轨迹，由后缀树直接返回预测结果，无需进入神经网络进行预测，极大的提高了轨迹预测的效率，提高轨迹的预测性能。并且后缀树只索引该中心轨迹及其预测结果，大大降低了后缀树的存储开销，并同时提高了预测效率。

附图说明

图1是基于时隙的时空索引示意图。

具体实施方式

现结合具体实施和示例对本发明的技术方案作进一步说明。

本发明具体实施例及其实施过程如下：

1.确定轨迹集合的取值范围并将经纬度坐标转为网格坐标表示。这里的轨迹集合指的是从神经网络或其他深度学习模型所产生轨迹的集合。每个轨迹包含历史轨迹以及由模型输出的预测轨迹两部分。每条轨迹由二维经纬度坐标(x，y)和对应的时间组成。具体实施例子的轨迹采用城市中出租车的行驶轨迹。

1、确定轨迹集合的位置坐标的取值范围并转为网格坐标表示

1.1、由所有历史轨迹和预测轨迹组成轨迹集合，针对轨迹集合的所有轨迹的位置坐标中选取横坐标和纵坐标的最小值x_min、y_min和最大值x_max、y_max，由以上坐标组成四角顶点坐标分别为(x_min，y_min)、(x_min，y_max)、(x_max，y_max)、(x_min，y_max)的矩形，作为路网区域；

1.2、根据粒度将路网区域划分为相等的格子，各个格子按照自身在路网区域中的行列顺序进行横纵坐标的坐标编号；

粒度λ设置为λ＝(λ_x，λ_y)，其中λ_x和λ_y表示将宽和长各自等分的次数，即矩形的路网区域等分为λ_x×λ_y个格子。如下所示，当λ＝(3，3)时，宽和长分别被等分3和3份，共9个格子。实际操作过程中，路网一般会被划分为500米×500米的小格子。

1.3、将历史轨迹转换成路网区域的格子坐标：历史轨迹上的各个位置坐标替换为所在格子的格子坐标编号，从而将历史轨迹转换为路网历史轨迹序列。

2、使用局部敏感性哈希函数(LSH)将路网历史轨迹序列进行聚类：

使用局部敏感性哈希函数聚类时，由网格坐标表示的路网历史轨迹序列由符号

来表示，，使得每一个类中任意两条估计的距离不大于d：

所产生距离集合中的最小值；

表示

的逆函数；

表示

小于误差上界e的概率；t_i表示第i时刻，e表示误差上界；

表示两条轨迹

和

之间的距离函数；

表示第1条预测轨迹在时刻t_i的点，

表示第2条预测轨迹在时刻t_i的点，

表示两点间在时刻t_i的距离；

距离函数dist(g₁，g₂)计算为：

分别表示两条路网历史轨迹序列

和

只有相似的轨迹分享预测结果才能保证预测的误差在一定的范围内。因此，需要定义相似轨迹距离的阈值，只有当两个轨迹之间的距离小于该阈值时，才可以共享它们的预测结果。阈值是可调参数。较小的阈值会降低共享的可能性，而过高的阈值则会降低预测准确度。

本发明使用LSH方法并结合设置了最小误差距离对轨迹数据集中的轨迹聚类。当聚类完成之后，计算每个类的算数平均中心轨迹，即取每一个时间点的各个轨迹相应坐标的平均数。针对每个类，剔除那些距离和中心轨迹大于由算出d的轨迹。

3、将每个类的中心轨迹经过坐标变换后插入到后缀树索引当中；

中心轨迹是每个类中的所有轨迹的平均轨迹。

3.1、轨迹坐标变换

经过步骤1)轨迹中的位置坐标已经变成二维的格子坐标，将历史轨迹的路网历史轨迹序列转换成一维序列，具体是将每个格子坐标的横纵坐标值相加作为一个数值，各个格子坐标相加后排列。例如历史轨迹的路网历史轨迹序列为((0，1)，(0，1)，(0，1)，(1，2)，(1，2)，(2，3)，(3，4))，转换为一维序列(1，1，1，3，3，5，7)。

假设所有格子的坐标如下，例如(0，2)为2，(1，1)为4。

3.2、将轨迹插入到后缀树

提取一维序列中所有可能的后缀，后缀树中的根节点空，叶节点和中间节点均代表一种轨迹的后缀，后缀由沿叶节点路径的轨迹片段组成，并存储条目，条目以元组<id，偏移量>表示，id表示一维序列的编号，偏移量表示后缀在一维序列中的起始位置，用于描述后缀的位置。

图1展示了一个具有两条轨迹的后缀树。每个边都表示一个轨迹的片段。令符号$表示轨迹的终止符。每个叶节点都代表一个轨迹的后缀，该后缀由沿叶节点路径的轨迹片段组成。叶节点内的条目由元组<id，偏移量>来表示，用于描述后缀的位置。如图1中用虚线表示的路径所示，叶节点A表示的轨迹后缀是(2，3，2)。叶节点A包含两条记录<0：1>，<1：0>，这表明轨迹0和1具有相同的后缀(2，3，2)，且偏移量分别为1和0。

4、给定输入轨迹，在后缀树查询返回预测轨迹的候选集

假设输入轨迹为T_o，后缀树需要查询T_o的n个后缀，每个后缀表示为T_o[1：n](0≤i＜n)。如果轨迹是T_o＝(1，2，3，4)和n＝3，则查询后缀是(1，2，3，4)，(2，3，4)和(3，4)。在后缀树中查找到的所有轨迹均被放入候选集。

5、设置相似函数，从候选集中返回最相似的中心轨迹所对应的预测轨迹作为最终预测结果，中心轨迹所对应的预测轨迹为中心轨迹所在类中所有历史轨迹对应预测轨迹的平均值。

通过计算两个轨迹相隔时间的差值，相似函数设置如下：

t_diff＝∑|f_t(S_i)-f_t(S_o)|

其中，S_i和S_o分别表示输入的查询后缀和在后缀树中索引到的中心轨迹，|S_i|为查询后缀S_i的长度，t_diff表示两个的输入轨迹和候选轨迹的时间差。参数f_t()表示时间戳函数，即获得轨迹中某个点的时间，θ表示预设阈值。

计算候选集中所有中心轨迹的θ值，返回θ值最大的中心轨迹。