CN112380400A - 一种基于后缀树误差有界的轨迹预测方法 - Google Patents
一种基于后缀树误差有界的轨迹预测方法 Download PDFInfo
- Publication number
- CN112380400A CN112380400A CN202011309993.2A CN202011309993A CN112380400A CN 112380400 A CN112380400 A CN 112380400A CN 202011309993 A CN202011309993 A CN 202011309993A CN 112380400 A CN112380400 A CN 112380400A
- Authority
- CN
- China
- Prior art keywords
- track
- tracks
- suffix tree
- predicted
- suffix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 238000013136 deep learning model Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 23
- 230000009466 transformation Effects 0.000 claims description 6
- 230000035945 sensitivity Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/909—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于后缀树误差有界的轨迹预测方法。历史轨迹输入到深度学习模型中进行处理获得预测轨迹,将历史轨迹存储到后缀树中,当有新的预测请求时,在后缀树中找到相似的轨迹作为预测结果,由后缀树直接返回预测结果。本发明能在后缀树中找到相似轨迹,由后缀树直接返回预测结果,无需进入神经网络进行预测,极大提高了轨迹预测的效率。
Description
技术领域
本发明涉及数据库领域中的时空索引方法,具体涉及到一种基于后缀树误差有界的轨迹预测方法。
背景技术
随着近年来移动互联网的迅速崛起,智能手机、车载GPS系统等持续不断地记录着用户的位置信息,众多服务商们利用这些轨迹数据来更好的为用户们提供商品以及服务,因此极大促进了轨迹大数据的发展。轨迹的最普遍形式是一个由位置坐标和相应时间组成的序列,其中坐标通常为二维坐标,例如经度和纬度。
在轨迹大数据的应用中,一个热门问题就是对轨迹数据的预测。随着人工智能技术的兴起,越来越多的研究工作使用神经网路对移动物体的轨迹进行预测,即将该对象的历史轨迹输入模型,模型输出该对象在未来一段时间内的预测轨迹。虽然利用神经网络对轨迹进行预测取得了比传统线性模型更好的准确率,但是一个最主要的问题就是其预测性能相较于线性模型是非常低下的。
发明内容
为了解决背景技术中存在的问题,本发明的目的在于针对现有技术的不足,提供一种基于后缀树误差有界的轨迹预测方法,将神经网络的预测结果以键值对的方式存储到后缀树中。
本发明解决其技术问题采用的技术方案如下:
历史轨迹输入到深度学习模型中进行预测处理获得预测轨迹,将历史轨迹存储到后缀树中,当有新的预测请求时,在后缀树中找到相似的轨迹作为预测结果,由后缀树直接返回预测结果,无需进入复杂的深度模型进行预测,极大的提高了轨迹预测的效率。
所述的方法步骤如下:
轨迹是由移动对象所产生的位置坐标沿时间顺序所构成的序列,信息由平面二维坐标(x,y)和对应的时间组成,轨迹分为历史轨迹和预测轨迹。
具体实施的位置坐标例如为纬度坐标。
轨迹包含事先已知的历史轨迹以及由深度学习模型输出的预测轨迹两部分。
所述的深度学习模型采用神经网络模型。
1)确定轨迹集合的位置坐标的取值范围并转为网格坐标表示
1.1)由所有历史轨迹和预测轨迹组成轨迹集合,针对轨迹集合的所有轨迹的位置坐标中选取横坐标和纵坐标的最小值xmin、ymin和最大值xmax、ymax,由以上坐标组成四角顶点坐标分别为(xmin,ymin)、(xmin,ymax)、(xmax,ymax)、(xmin,ymax)的矩形,作为路网区域;
1.2)根据粒度将路网区域划分为相等的格子,各个格子按照自身在路网区域中的行列顺序进行横纵坐标的坐标编号;
1.3)将历史轨迹转换成路网区域的格子坐标:历史轨迹上的各个位置坐标替换为所在格子的格子坐标编号,从而将历史轨迹转换为路网历史轨迹序列;
2)使用局部敏感性哈希函数将路网历史轨迹序列进行聚类:
使用局部敏感性哈希函数聚类时,使得每一个类中任意两条估计的距离不大于d:
其中,d表示最小误差距离,d表示给定概率p之后,任意两条轨迹在时刻ti相距的最小距离;min()表示对于任意时刻所产生距离集合中的最小值;表示fti的逆函数,给定概率p,该逆函数返回在时刻ti满足的距离;表示小于误差上界e的概率;ti表示第i时刻,e表示误差上界;表示两条轨迹和之间的距离函数;表示第1条预测轨迹在时刻ti的点,表示第2条预测轨迹在时刻ti的点,表示两点间在时刻ti的距离;带上箭头表示预测轨迹,不带上箭头表不历史轨迹。
3)将每个类的中心轨迹经过坐标变换后插入到后缀树索引当中。
4)给定输入轨迹,在后缀树查询返回预测轨迹的候选集
将输入轨迹处理成路网历史轨迹序列,再转换成一维序列;然后对于输入轨迹的一维序列所有可能的后缀,在后缀树中寻找带有相同后缀的一维序列及其节点,以所有带有相同后缀的一维序列所对应的中心轨迹返回加入候选集;
5)设置相似函数,从候选集中返回最相似的中心轨迹所对应的预测轨迹作为最终预测结果,中心轨迹所对应的预测轨迹为中心轨迹所在类中所有历史轨迹对应预测轨迹的平均值。
所述步骤3)具体为:
3.1)轨迹坐标变换
将历史轨迹的路网历史轨迹序列转换成一维序列;
3.2)将轨迹插入到后缀树
提取一维序列中所有可能的后缀,后缀树中的根节点空,叶节点和中间节点均代表一种轨迹的后缀,并存储条目,条目以元组<id,偏移量>表示,id表示一维序列的编号,偏移量表示后缀在一维序列中的起始位置。
所述步骤5)具体设置相似函数如下:
tdiff=∑|ft(Si)-ft(So)|
其中,Si和So分别表示输入的查询后缀和在后缀树中索引到的中心轨迹,|Si|为查询后缀si的长度,tdiff表示两个的输入轨迹和候选轨迹的时间差。参数ft()表示时间戳函数,即获得轨迹中某个点的时间,θ表示预设阈值;计算候选集中所有中心轨迹的θ值,返回θ值最大的中心轨迹。
本发明的方法将神经网络的预测结果以键值对的方式存储到后缀树中。其中键是输入轨迹,值为相应的预测结果。当有新的预测请求时,如果可以在后缀树中找到相似轨迹,则由后缀树直接返回预测结果,无需进入神经网络进行预测,极大的提高了轨迹预测的效率,提高轨迹的预测性能。
本发明使用局部敏感哈希将神经网络所预测的索引进行聚类,计算同一类中所有轨迹的中心轨迹,后缀树只索引该中心轨迹及其预测结果,大大降低了后缀树的存储开销,提高预测效率并减少后缀树的空间开销。同时,给定误差上界,后缀树所返回的预测结果也是误差有界的。
本发明的有益效果是:
本发明的方法能在后缀树中查询找到相似轨迹,由后缀树直接返回预测结果,无需进入神经网络进行预测,极大的提高了轨迹预测的效率,提高轨迹的预测性能。并且后缀树只索引该中心轨迹及其预测结果,大大降低了后缀树的存储开销,并同时提高了预测效率。
附图说明
图1是基于时隙的时空索引示意图。
具体实施方式
现结合具体实施和示例对本发明的技术方案作进一步说明。
本发明具体实施例及其实施过程如下:
1.确定轨迹集合的取值范围并将经纬度坐标转为网格坐标表示。这里的轨迹集合指的是从神经网络或其他深度学习模型所产生轨迹的集合。每个轨迹包含历史轨迹以及由模型输出的预测轨迹两部分。每条轨迹由二维经纬度坐标(x,y)和对应的时间组成。具体实施例子的轨迹采用城市中出租车的行驶轨迹。
1、确定轨迹集合的位置坐标的取值范围并转为网格坐标表示
1.1、由所有历史轨迹和预测轨迹组成轨迹集合,针对轨迹集合的所有轨迹的位置坐标中选取横坐标和纵坐标的最小值xmin、ymin和最大值xmax、ymax,由以上坐标组成四角顶点坐标分别为(xmin,ymin)、(xmin,ymax)、(xmax,ymax)、(xmin,ymax)的矩形,作为路网区域;
1.2、根据粒度将路网区域划分为相等的格子,各个格子按照自身在路网区域中的行列顺序进行横纵坐标的坐标编号;
粒度λ设置为λ=(λx,λy),其中λx和λy表示将宽和长各自等分的次数,即矩形的路网区域等分为λx×λy个格子。如下所示,当λ=(3,3)时,宽和长分别被等分3和3份,共9个格子。实际操作过程中,路网一般会被划分为500米×500米的小格子。
1.3、将历史轨迹转换成路网区域的格子坐标:历史轨迹上的各个位置坐标替换为所在格子的格子坐标编号,从而将历史轨迹转换为路网历史轨迹序列。
2、使用局部敏感性哈希函数(LSH)将路网历史轨迹序列进行聚类:
其中,d表示最小误差距离,d表示给定概率p之后,任意两条轨迹在时刻ti相距的最小距离;min()表示对于任意时刻所产生距离集合中的最小值;表示的逆函数;表示小于误差上界e的概率;ti表示第i时刻,e表示误差上界;表示两条轨迹和之间的距离函数;表示第1条预测轨迹在时刻ti的点,表示第2条预测轨迹在时刻ti的点,表示两点间在时刻ti的距离;
距离函数dist(g1,g2)计算为:
只有相似的轨迹分享预测结果才能保证预测的误差在一定的范围内。因此,需要定义相似轨迹距离的阈值,只有当两个轨迹之间的距离小于该阈值时,才可以共享它们的预测结果。阈值是可调参数。较小的阈值会降低共享的可能性,而过高的阈值则会降低预测准确度。
本发明使用LSH方法并结合设置了最小误差距离对轨迹数据集中的轨迹聚类。当聚类完成之后,计算每个类的算数平均中心轨迹,即取每一个时间点的各个轨迹相应坐标的平均数。针对每个类,剔除那些距离和中心轨迹大于由算出d的轨迹。
3、将每个类的中心轨迹经过坐标变换后插入到后缀树索引当中;
中心轨迹是每个类中的所有轨迹的平均轨迹。
3.1、轨迹坐标变换
经过步骤1)轨迹中的位置坐标已经变成二维的格子坐标,将历史轨迹的路网历史轨迹序列转换成一维序列,具体是将每个格子坐标的横纵坐标值相加作为一个数值,各个格子坐标相加后排列。例如历史轨迹的路网历史轨迹序列为((0,1),(0,1),(0,1),(1,2),(1,2),(2,3),(3,4)),转换为一维序列(1,1,1,3,3,5,7)。
假设所有格子的坐标如下,例如(0,2)为2,(1,1)为4。
3.2、将轨迹插入到后缀树
提取一维序列中所有可能的后缀,后缀树中的根节点空,叶节点和中间节点均代表一种轨迹的后缀,后缀由沿叶节点路径的轨迹片段组成,并存储条目,条目以元组<id,偏移量>表示,id表示一维序列的编号,偏移量表示后缀在一维序列中的起始位置,用于描述后缀的位置。
图1展示了一个具有两条轨迹的后缀树。每个边都表示一个轨迹的片段。令符号$表示轨迹的终止符。每个叶节点都代表一个轨迹的后缀,该后缀由沿叶节点路径的轨迹片段组成。叶节点内的条目由元组<id,偏移量>来表示,用于描述后缀的位置。如图1中用虚线表示的路径所示,叶节点A表示的轨迹后缀是(2,3,2)。叶节点A包含两条记录<0:1>,<1:0>,这表明轨迹0和1具有相同的后缀(2,3,2),且偏移量分别为1和0。
4、给定输入轨迹,在后缀树查询返回预测轨迹的候选集
将输入轨迹处理成路网历史轨迹序列,再转换成一维序列;然后对于输入轨迹的一维序列所有可能的后缀,在后缀树中寻找带有相同后缀的一维序列及其节点,以所有带有相同后缀的一维序列所对应的中心轨迹返回加入候选集;
假设输入轨迹为To,后缀树需要查询To的n个后缀,每个后缀表示为To[1:n](0≤i<n)。如果轨迹是To=(1,2,3,4)和n=3,则查询后缀是(1,2,3,4),(2,3,4)和(3,4)。在后缀树中查找到的所有轨迹均被放入候选集。
5、设置相似函数,从候选集中返回最相似的中心轨迹所对应的预测轨迹作为最终预测结果,中心轨迹所对应的预测轨迹为中心轨迹所在类中所有历史轨迹对应预测轨迹的平均值。
通过计算两个轨迹相隔时间的差值,相似函数设置如下:
tdiff=∑|ft(Si)-ft(So)|
其中,Si和So分别表示输入的查询后缀和在后缀树中索引到的中心轨迹,|Si|为查询后缀Si的长度,tdiff表示两个的输入轨迹和候选轨迹的时间差。参数ft()表示时间戳函数,即获得轨迹中某个点的时间,θ表示预设阈值。
计算候选集中所有中心轨迹的θ值,返回θ值最大的中心轨迹。
Claims (5)
1.一种基于后缀树误差有界的轨迹预测方法,其特征在于:
历史轨迹输入到深度学习模型中进行预测处理获得预测轨迹,将历史轨迹存储到后缀树中,当有新的预测请求时,在后缀树中找到相似的轨迹作为预测结果,由后缀树直接返回预测结果。
2.根据权利要求1所述的一种基于后缀树误差有界的轨迹预测方法,其特征在于:所述的方法步骤如下:
1)确定轨迹集合的位置坐标的取值范围并转为网格坐标表示
1.1)由所有历史轨迹和预测轨迹组成轨迹集合,针对轨迹集合的所有轨迹的位置坐标中选取横坐标和纵坐标的最小值xmin、ymin和最大值xmax、ymax,由以上坐标组成四角顶点坐标分别为(xmin,ymin)、(xmin,ymax)、(xmax,ymax)、(xmin,ymax)的矩形,作为路网区域;
1.2)根据粒度将路网区域划分为相等的格子,各个格子按照自身在路网区域中的行列顺序进行横纵坐标的坐标编号;
1.3)将历史轨迹转换成路网区域的格子坐标:历史轨迹上的各个位置坐标替换为所在格子的格子坐标编号,从而将历史轨迹转换为路网历史轨迹序列;
2)使用局部敏感性哈希函数将路网历史轨迹序列进行聚类:
使用局部敏感性哈希函数聚类时,使得每一个类中任意两条估计的距离不大于d:
其中,d表示最小误差距离,d表示给定概率p之后,任意两条轨迹在时刻ti相距的最小距离;min()表示对于任意时刻所产生距离集合中的最小值;表示的逆函数;表示小于误差上界e的概率;ti表示第i时刻,e表示误差上界;表示两条轨迹和之间的距离函数;表示第1条预测轨迹在时刻ti的点,表示第2条预测轨迹在时刻ti的点,表示两点间在时刻ti的距离;
3)将每个类的中心轨迹经过坐标变换后插入到后缀树索引当中。
4)给定输入轨迹,在后缀树查询返回预测轨迹的候选集
将输入轨迹处理成路网历史轨迹序列,再转换成一维序列;然后对于输入轨迹的一维序列所有可能的后缀,在后缀树中寻找带有相同后缀的一维序列及其节点,以所有带有相同后缀的一维序列所对应的中心轨迹返回加入候选集;
5)设置相似函数,从候选集中返回最相似的中心轨迹所对应的预测轨迹作为最终预测结果,中心轨迹所对应的预测轨迹为中心轨迹所在类中所有历史轨迹对应预测轨迹的平均值。
4.根据权利要求2所述的一种基于后缀树误差有界的轨迹预测方法,其特征在于:所述步骤3)具体为:
3.1)轨迹坐标变换
将历史轨迹的路网历史轨迹序列转换成一维序列;
3.2)将轨迹插入到后缀树
提取一维序列中所有可能的后缀,后缀树中的根节点空,叶节点和中间节点均代表一种轨迹的后缀,并存储条目,条目以元组<id,偏移量>表示,id表示一维序列的编号,偏移量表示后缀在一维序列中的起始位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011309993.2A CN112380400A (zh) | 2020-11-20 | 2020-11-20 | 一种基于后缀树误差有界的轨迹预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011309993.2A CN112380400A (zh) | 2020-11-20 | 2020-11-20 | 一种基于后缀树误差有界的轨迹预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112380400A true CN112380400A (zh) | 2021-02-19 |
Family
ID=74584432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011309993.2A Pending CN112380400A (zh) | 2020-11-20 | 2020-11-20 | 一种基于后缀树误差有界的轨迹预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380400A (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247961A (zh) * | 2017-05-10 | 2017-10-13 | 西安交通大学 | 一种应用模糊轨迹序列的轨迹预测方法 |
-
2020
- 2020-11-20 CN CN202011309993.2A patent/CN112380400A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247961A (zh) * | 2017-05-10 | 2017-10-13 | 西安交通大学 | 一种应用模糊轨迹序列的轨迹预测方法 |
Non-Patent Citations (1)
Title |
---|
SAI WU,ET AL: "NEIST:A Neural-Enhanced Index for Spatio-Temporal Queries", IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, pages 1 - 4 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106897374B (zh) | 一种基于轨迹大数据最近邻查询的个性化推荐方法 | |
CN100416560C (zh) | 通过在线和离线组件聚类进化数据流的方法和设备 | |
Elmongui et al. | Continuous aggregate nearest neighbor queries | |
CN111209261A (zh) | 基于信令大数据的用户出行轨迹提取方法和系统 | |
CN106326923B (zh) | 一种顾及位置重复和密度峰值点的签到位置数据聚类方法 | |
Liu et al. | Efficient similar region search with deep metric learning | |
CN112579921B (zh) | 基于倒排序索引及前缀树的轨迹索引和查询方法及系统 | |
Gao et al. | Efficient mutual nearest neighbor query processing for moving object trajectories | |
Jin et al. | Moving object linking based on historical trace | |
CN108549696B (zh) | 一种基于内存计算的时间序列数据相似性查询方法 | |
Qi et al. | Efficient point-based trajectory search | |
CN110334290B (zh) | 一种基于MF-Octree的时空数据快速检索方法 | |
Qian et al. | Detecting taxi trajectory anomaly based on spatio-temporal relations | |
Abbasifard et al. | Efficient indexing for past and current position of moving objects on road networks | |
CN112052405B (zh) | 一种基于司机经验的寻客区域推荐方法 | |
CN115687429A (zh) | 一种社交媒体用户行为模式挖掘方法 | |
CN112633389A (zh) | 一种基于mdl和速度方向的飓风运动轨迹趋势计算方法 | |
Wu et al. | A spatiotemporal trajectory data index based on the Hilbert curve code | |
CN111782663A (zh) | 一种提升聚合查询效率的聚合索引结构及聚合索引方法 | |
CN112380400A (zh) | 一种基于后缀树误差有界的轨迹预测方法 | |
Wu et al. | Neist: a neural-enhanced index for spatio-temporal queries | |
Pola et al. | Similarity sets: A new concept of sets to seamlessly handle similarity in database management systems | |
Liu et al. | Mining method based on semantic trajectory frequent pattern | |
Chen et al. | Detecting trajectory outliers based on spark | |
Vieira et al. | Spatio-temporal databases: Complex motion pattern queries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |