CN113704565B

CN113704565B - 基于全局区间误差的学习型时空索引方法、装置及介质

Info

Publication number: CN113704565B
Application number: CN202111259608.2A
Authority: CN
Inventors: 胡林舒; 张丰; 陈宁华; 覃梦娇; 汪愿愿; 吴森森; 杜震洪; 傅晨华
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-02-18
Anticipated expiration: 2041-10-28
Also published as: CN113704565A

Abstract

本发明公开了一种基于全局区间误差的学习型时空索引方法、装置及介质。该索引方法分为索引模型构建与基于索引模型的范围检索两大流程，是一种多向学习型时空索引。索引模型构建时需要对重复数据进行聚合，然后将数据转化为均匀分布，再对索引模型进行训练；基于索引模型的范围检索时，需要将检索范围转化至均匀分布数据空间，再对各个维度独立进行位置分布范围检索，最后将各个维度的位置分布范围交叉比对，确定最终的多维检索返回结果。该索引方法相较于常用时空树形索引具有更优的时空范围检索性能，特别是索引模型构建流程中的重复数据聚合操作与数据空间转换操作，对于其优越性起到了有效地提升作用。

Description

基于全局区间误差的学习型时空索引方法、装置及介质

技术领域

本发明涉及大数据技术领域，尤其涉及一种地理时空大数据高性能存储领域中时空索引和数据检索方法。

背景技术

常见单节点时空索引分为基于空间划分的格网索引与数据驱动的树状索引两种类型。

格网状索引按照预定规则划分整体空间区域形成格网体系，每个格网单元被赋予唯一编号，将时空对象与格网坐标一一对应实现数据索引，是最早的一类空间索引。格网索引实现方式简单，且查询效率较高，但是会造成极大的数据冗余，无法直接应用于大规模时空数据的场景，且当数据的时空分布不平衡时，每个格网单元内部的时空对象数量差异大，导致检索效率不均衡。

基于不同的空间划分方式将数据根据不同的规则聚合在树索引的不同层级的节点中即可以实现不同的树状结构索引，其中应用较广的有K-D树、R树、R+树，R*树等。K-D树的平衡性使其检索效率相较于四叉树更高效且更稳定，但是当数据维度较大时，K-D树的分支会随之增多，数据检索路径倍级增长，极大限制了树索引效率。R树以及R树变种的检索效率与数据总量呈负相关，索引存储大小与数据总量呈强正相关的问题一直没有得到有效解决，因此，在海量时空数据场景下以及现实中高维时空数据对象的随机分布等各方面原因，这些索引在各方面都具有性能限制，无法很好地发挥有效作用。

传统的单节点索引方案的空间代价过高且每次查询需要多次间接搜索，难以满足大体量的时空数据索引与分析，各类并行框架下的时空数据索引方案成为了值得探索的研究方向。在地理流大数据时代背景下，随着数据量不断增长，传统时空索引技术通过并行化方式使得更多的内存资源及计算资源可以被同时使用于索引的构建与检索过程以满足索引持久化的内存容量需要以及检索效率需求，但其缺陷也日益突出，主要有两点：1）索引存储空间代价过高，2）索引层级深，导致传统索引无法有效适应不断增长的时空数据存储。因此如何实现海量时空数据的高效索引，是目前亟待解决的技术问题。

发明内容

本发明的目的是克服现有索引技术在海量时空数据场景下，索引结构复杂，查询效率不足的问题，提供一种基于全局区间误差的学习型时空索引方法、装置及介质。

本发明具体采用的技术方案如下：

第一方面，本发明提供了一种基于全局区间误差的学习型时空索引方法，它的步骤如下：

S1、针对待建立时空索引的时空点数据，分别对经度、纬度和时间三个坐标维度下的坐标值进行重复数据的聚合并按序排列，每一个坐标维度均得到一条坐标值无重复的单调有序序列；

S2、利用分位数转换分别将每一个坐标维度下的单调有序序列映射到均匀分布数据空间，得到每一个坐标维度下的均匀分布序列；

S3、针对每一个坐标维度，分别以该坐标维度下的均匀分布序列全量数据作为训练数据，通过训练全连接神经网络模型得到该坐标维度对应的索引模型，用于根据该坐标维度下的坐标值预测其在该坐标维度下的均匀分布序列中所处的位置；且全连接神经网络模型通过最小化总损失函数进行训练，总损失函数为均方误差损失和全局误差范围损失的加权和，所述全局误差范围损失为训练数据中所有训练样本对应的模型输出误差中最大值和最小值之差；

S4、获取用户输入的经度、纬度和时间三个坐标维度的检索范围，然后将每一个坐标维度的检索范围通过S2中相同的分位数转换映射到均匀分布数据空间得到均匀化检索范围，再通过对应坐标维度的索引模型得到均匀化检索范围内的坐标值在均匀分布序列中的位置分布范围；最终将三个坐标维度的位置分布范围内的重合时空点数据作为用户检索的返回结果。

作为优选，所述S1的具体实现步骤包括：

S11、针对所有需要建立时空索引的时空点数据，获取每个时空点的三个维度坐标值以及唯一标志符，其中三个坐标维度分别为经度x、纬度y和时间t；

S12、针对每一个坐标维度k，将所有时空点在该坐标维度k下的坐标值进行排序和重复点聚合，得到坐标值无重复的单调有序序列O' _k，单调有序序列O' _k中每一个序列点用于记录一个与其他序列点均不重复的坐标值以及具有该坐标值的所有时空点的唯一标志符。

进一步的，所述S12中，通过排序和重复点聚合得到坐标值无重复的单调有序序列的方法为：

S121、将所有时空点在目标坐标维度下的坐标值进行分区，坐标值的整数部分相同的划分至同一分区；

S122、针对每一个分区，按照分区内的坐标值小数部分进行排序后，形成有序序列分段；

S123、扫描每一条有序序列分段，将坐标值重复的时空点的唯一标志符拼接为字符串，并聚合关联至对应坐标值下，使每一条有序序列分段中的坐标值均不重复；再将所有有序序列分段按序拼接，形成坐标值无重复的单调有序序列。

作为优选，所述S2中，针对每一个坐标维度k对应的单调有序序列O' _k进行分位数转换的方法为：

S21、按照设定的分位数个数以及单调有序序列O' _k的长度，计算每一个分位数在单调有序序列O' _k中的位置，从而形成位置序列；

S22、从单调有序序列O' _k中提取位置序列中每一个位置对应的坐标值，从而构成分位序列；

S23、根据分位序列，利用一维分段线性插值方法对单调有序序列O' _k进行拉伸，从而将其转换为均匀分布数据空间下的均匀分布序列O'' _k。

作为优选，所述S3的具体实现步骤包括：

S31、针对每一个坐标维度k，利用均匀分布序列O'' _k的全量数据作为训练数据，通过训练一个全连接神经网络模型从而得到该坐标维度对应的索引模型，其中模型输入为该坐标维度k下的坐标值，模型输出为输入的坐标值在均匀分布序列O'' _k中的位置预测值；所述全连接神经网络模型的激活函数使用ReLU函数，训练全连接神经网络模型时，在所有训练样本的均方误差损失基础上根据预设比例叠加全局误差范围损失作为总损失函数，通过最小化总损失函数完成模型训练，其中所述全局误差范围损失为所有训练样本对应的模型输出误差中最大值和最小值之差，所述模型输出误差为输入模型的坐标值在均匀分布序列O'' _k中的位置真值与预测值之差；

S32、针对每一个坐标维度k对应的索引模型，获取其对于所有训练样本的模型输出误差，将模型输出误差的最小值作为坐标维度k对应的精度下限Error_Lower _k，将模型输出误差的最大值作为坐标维度k对应的精度上限Error_Upper _k。

进一步的，所述的预设比例大于0且小于1。

进一步的，所述全连接神经网络模型训练时，通过随机梯度下降方法更新模型参数，同时引入学习率衰减策略。

进一步的，所述S4的具体实现步骤包括：

S41、获取用户输入的经度x、纬度y和时间t三个坐标维度的检索范围，将每个坐标维度的检索范围上下限按照S2中对应坐标维度的分位数转换方法进行完全相同的分位数转换，得到每个坐标维度的均匀化检索范围；

S42、针对每个坐标维度k的均匀化检索范围，将均匀化检索范围的下限输入坐标维度k对应的索引模型中，根据模型输出的第一预测值Range_Min' _k构建第一预测区间，其中第一预测区间的下限为第一预测值与坐标维度k对应的精度下限Error_Lower _k之和，第一预测区间的上限为第一预测值与坐标维度k对应的精度上限Error_Upper _k之和，再对第一预测区间进行二分搜索，找到不小于均匀化检索范围下限的区间内最小值及其位置P _kmin；同时，将均匀化检索范围的上限输入坐标维度k对应的索引模型中，根据模型输出的第二预测值Range_Max' _k构建第二预测区间，其中第二预测区间的下限为第二预测值与坐标维度k对应的精度下限Error_Lower _k之和，第二预测区间的上限为第二预测值与坐标维度k对应的精度上限Error_Upper _k之和，再对第二预测区间进行二分搜索，找到不小于均匀化检索范围上限的区间内最大值及其位置P _kmax；以区间内最小值的位置P _kmin和区间内最大值的位置P _kmax为上下限，构成坐标维度k的位置分布范围；

S43、基于时空点的唯一标志符，确定三个坐标维度的位置分布范围内的所有重合时空点，并作为用户检索的返回结果。

第二方面，本发明提供了一种基于全局区间误差的学习型时空索引装置，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如第一方面任一方案所述的基于全局区间误差的学习型时空索引方法。

第三方面，本发明提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，能实现如第一方面任一方案所述的基于全局区间误差的学习型时空索引方法。

本发明与现有技术相比具有的有益效果如下：

1、本发明通过引入学习型索引，将检索问题转化为预测问题，为大规模地理流数据高效检索提供一个先进的解决方案，可以解决时空数据体量快速增长所带来的时空索引存储空间大、检索效率迅速降低的问题，实现海量地理流数据快速检索。

2、本发明对待建立时空索引的时空点数据进行聚合，使每个坐标维度的数据都形成无重复的有序序列，由于有序序列中数据重复率降低，因此可以大大提高索引模型的精度。

3、本发明将数据用于索引模型构建前，预先将其转化到均匀分布数据空间，相较于正态分布，当数据接近于均匀分布时，其累计分布函数(Cumulative DistributionFunction, CDF)更接近于直线，索引模型训练过程能够更快收敛，索引模型也能够得到更高的精度。

附图说明

图1是基于全局区间误差的学习型时空索引方法的流程图；

图2是D₉数据集中经度维度的原始数据序列分布以及聚合和分位数转换后的数据分布，其中a）为原始数据序列经度维度的数据分布直方图，b）为聚合和分位数转换后经度维度的数据分布直方图，c）为原始数据序列经度维度的CDF图，d）为聚合和分位数转换后经度维度数据序列的CDF图；

图3是D₉数据集中纬度维度的原始数据序列分布以及聚合分位数转换后的数据分布，其中a）为原始数据序列纬度维度的数据分布直方图，b）为聚合和分位数转换后纬度维度的数据分布直方图，c）为原始数据序列纬度维度的CDF图，d）为聚合和分位数转换后纬度维度数据序列的CDF图；

图4是D₉数据集中时间维度的原始数据序列分布以及聚合分位数转换后的数据分布，其中a）为原始数据序列时间维度的数据分布直方图，b）为聚合和分位数转换后时间维度的数据分布直方图，c）为原始数据序列时间维度的CDF图，d）为聚合和分位数转换后时间维度数据序列的CDF图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下，均可进行相应组合。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于区分描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

在本发明的一个较佳实施例中，提供了一种基于全局区间误差的学习型时空索引方法，该索引方法用于在大规模时空数据场景中对地理流数据的时空点数据建立高效的索引，以便于实现准确快速地检索。时空点数据具有三个不同的坐标维度，即经度、纬度和时间，用户在进行检索时会输入这三个坐标维度中各自的检索范围，本发明需要根据用户输入的检索范围检索出符合要求的时空点数据。

如图1所示，下面对该索引方法在本实施例中的具体实现步骤S1~S4进行详细描述。

S1、针对待建立时空索引的时空点数据，分别对经度、纬度和时间三个坐标维度下的坐标值进行重复数据的聚合并按序排列，每一个坐标维度均得到一条坐标值无重复的单调有序序列。

S2、利用分位数转换分别将每一个坐标维度下的单调有序序列映射到均匀分布数据空间，得到每一个坐标维度下的均匀分布序列。

S3、针对每一个坐标维度，分别以该坐标维度下的均匀分布序列全量数据作为训练数据，通过训练全连接神经网络模型得到该坐标维度对应的索引模型，用于根据该坐标维度下的坐标值预测其在该坐标维度下的均匀分布序列中所处的位置；且全连接神经网络模型通过最小化总损失函数进行训练，总损失函数为均方误差损失和全局误差范围损失的加权和，且该全局误差范围损失为训练数据中所有训练样本对应的模型输出误差中最大值和最小值之差。

由此可见，该索引方法用于时空点数据范围检索主要分为索引模型构建与基于索引模型的范围检索两个流程，是一种多向学习型时空索引。S1、S2和S3步骤组成了索引模型构建流程，该部分需要对重复数据进行聚合，然后将数据转化为均匀分布，再对索引模型进行训练。而S4步骤为基于索引模型的范围检索流程，需要将检索范围转化至均匀分布数据空间，再对各个维度独立进行位置分布范围检索，最后将各个维度的位置分布范围交叉比对，确定最终的多维检索返回结果。该索引方法相较于常用时空树形索引具有更优的时空范围检索性能，特别是索引模型构建流程中的重复数据聚合操作与数据空间转换操作，对于其优越性起到了有效地提升作用。

下面对上述索引方法中S1~S4步骤的具体实现形式以及技术效果进行展开描述。

步骤S1的主要目的是将待建立时空索引的时空点数据进行聚合，使每个坐标维度的数据都可以形成无重复的有序序列。经过大量的实例数据分析发现，在对时空点数据建立索引时，数据的整体重复率越高，索引模型的精度越低，而且其中连续重复数量对于索引模型精度的影响较大。经过S1的聚合，最终得到的有序序列中数据重复率降低，可以大大提高索引模型的精度。

在本实施例中，步骤S1的具体实现步骤包括：

S11、针对所有需要建立时空索引的时空点数据，获取每个时空点的三个维度坐标值以及唯一标志符id，其中经度x、纬度y和时间t三个坐标维度的坐标值分别为经度坐标、纬度坐标和时间坐标，经度x、纬度y和时间t三个坐标维度的坐标值数据分别形成一列数据序列，分别记为O _x、O _y、O _t。而唯一标志符id则用于标记每一个时空点，以便于后续检索，任意两个时空点的唯一标志符id均不重复。为了便于描述，用字符k来通性代表坐标维度，k =x、y、t。因此O _x、O _y、O _t亦可用O _k通性表示。

S12、针对每一个坐标维度k，将所有时空点在该坐标维度k下的坐标值进行排序和重复点聚合，得到坐标值无重复的单调有序序列O' _k。该排序和重复点聚合就是将数据序列O _k中的坐标值进行排序然后将所有重复坐标值进行聚合的过程。最终得到的单调有序序列O' _k中每一个序列点内记录了两种信息，第一种信息是该序列点对应的坐标值，而第二种信息是具有该坐标值的所有时空点的唯一标志符。由于在聚合过程中，重复的坐标值都被聚合在一个序列点中了，因此第一种信息中每个序列点的坐标值与其他序列点的坐标值都是不重复的，而第二种信息内的唯一标志符则需要囊括所有坐标值为该序列点对应坐标值的时空点id。因此，假如数据序列O _k中某一坐标值有多个重复，则这些重复的坐标值所属的时空点唯一标志符id都会被记录在一个序列点中，如果某一坐标值仅有一个没有重复，则其序列点中也仅有一个唯一标志符id。

在本实施例中，数据序列O _k（其中k = x、y、t）通过排序和重复点聚合得到坐标值无重复的单调有序序列O' _k的方法可以按照如下步骤来实现：

S121、将所有时空点在目标坐标维度k下的坐标值进行取整，即对数据序列O _k中每个数据取整，然后按取整部分进行分区，坐标值的整数部分相同的坐标值（带有小数部分）划分至同一分区。

S122、针对每一个分区，按照分区内的坐标值小数部分进行递增排序后，形成有序序列分段O _ki。

S123、扫描每一条有序序列分段O _ki，将坐标值重复的时空点的唯一标志符拼接为字符串，并聚合关联至对应坐标值下，使每一条有序序列分段中的坐标值均不重复。再将所有经过聚合的有序序列分段O _ki按照其对应整数部分的大小顺序拼接，形成坐标值无重复的单调递增的有序序列O' _k。

在实际实现S12步骤时，其排序和重复点聚合的过程可基于Spark来实现，具体如下：

1) 首先读取各时空点数据的x、y、t坐标值及其对应唯一标志符id；

2) 对于x、y、t各个维度的数据，利用Spark框架将其重复点聚合，以x坐标维度为例，其排序聚合过程为：

2.1)构建JavaPairRDD<Double,String> rdd1，其中key为x值，value为id

2.2)根据x值的整数部分int(x)将数据进行分区；

2.3)在每个分区内部，根据x值进行快排排序得到递增的有序序列O _x；

2.4)顺序扫描O _x并将重复的x值的id拼接成新的String；

2.5)返回新构建的JavaPairRDD<Double,String>并聚合到主节点得到无重复的单调有序序列O' _x；

3) 对于y和t坐标维度，重复步骤2）中x坐标维度的排序聚合过程，得到单调有序序列O' _y和单调有序序列O' _t。

步骤S2的主要目的是通过分位映射（Quantile Quantile Quantile MappingMapping，QM）对单调有序序列O' _k进行数据空间的转换，使原本并不处于均匀分布数据空间的单调有序序列O' _k被映射至均匀分布数据空间，即执行了一种均匀标准化流程。进行该转换的原因是经过大量的实例数据分析发现：数据统计分布特征对于索引模型精度存在明显的影响，利用数据峰度和偏度表征数据的不同分布，发现当数据分布越接近于均匀分布，索引模型精度越高。相较于正态分布，当数据接近于均匀分布时，其累计分布函数(Cumulative Distribution Function, CDF)更接近于直线，索引模型训练过程能够更快收敛，索引模型也能够得到更高的精度。因此，在将数据用于索引模型构建前，需将其尽可能地转化到均匀分布。在上述S2步骤中，均匀分布数据空间的映射是通过分位数转换来实现的，每一个坐标维度下的单调有序序列均可通过分位数转换映射到均匀分布数据空间，得到各自坐标维度下的均匀分布序列。在本实施例中，针对每一个坐标维度k（k = x、y、t）对应的单调有序序列O' _k进行分位数转换的方法可按照如下步骤来实现：

S21、按照设定的分位数个数N _p以及单调有序序列O' _k的长度，计算每一个分位数在单调有序序列O' _k中的位置，从而形成位置序列。其中，序列中的位置即坐标值在序列中的排序编号，由于该序列是无重复的单调有序序列，因此不同的排序编号对应了不同的坐标值，所有分位数的位置组成了上述位置序列。分位数个数N _p可以根据需要进行设置。

S22、从单调有序序列O' _k中提取位置序列中每一个位置对应的坐标值，所有提取的坐标值构成了分位序列P _k。

S23、根据分位序列P _k，利用一维分段线性插值方法对单调有序序列O' _k进行拉伸，从而将其转换为均匀分布数据空间下的均匀分布序列O'' _k。本实施例中的均匀分布数据空间为归一化后的均匀分布数据空间，均匀分布序列O'' _k中的值均被归一化为[0,1]区间。

因此，上述S23步骤实际基于分位序列P _k完成了坐标维度k对应的分位数转换，该转换过程可以记为函数F _k。在后续检索阶段，每个坐标维度k的检索范围也需要进行相同的分位数转换，因此在实际运算时可以利用函数F _k进行数据空间的转换。本实施例中，可将x，y，t三个坐标维度的分位数转换的计算过程存储并记为函数集合F={F _x,F _y,F _z}。

步骤S3的主要目的是基于全连接神经网络模型来训练不同坐标维度各自的索引模型，索引模型的作用是以坐标值为输入来预测该坐标值再前述均匀分布序列中的位置。需注意的是每个坐标维度均需要训练各自独立的索引模型。在本实施例中，S3步骤可通过如下S31和S32两个步骤来实现：

S31、针对每一个坐标维度k（k = x、y、t），利用均匀分布序列O'' _k的全量数据作为训练数据，通过训练一个全连接神经网络模型从而得到该坐标维度对应的索引模型，其中模型输入为该坐标维度k下的坐标值，模型输出为输入的坐标值在均匀分布序列O'' _k中的位置预测值。

全连接神经网络模型结构属于现有技术，由输入层、隐藏层和输出层组成，模型的激活函数使用ReLU函数。需注意的是，在训练全连接神经网络模型时，均匀分布序列O'' _k的全量数据即所有序列点都需要用于构建训练样本，每一个序列点都是一个训练样本，序列点的坐标值作为输入值，而序列点在均匀分布序列中的位置作为输出标签。

另外，对每一个坐标维度k（k = x、y、t），在训练全连接神经网络模型时，在所有训练样本的均方误差损失基础上根据预设比例叠加全局误差范围损失作为总损失函数，通过最小化总损失函数完成模型训练，其中全局误差范围损失为所有训练样本对应的模型输出误差中最大值和最小值之差，而且模型输出误差为输入模型的坐标值在均匀分布序列O'' _k中的位置真值与预测值之差。上述总损失函数用公式可表示如下：

L _range =L _MSE+p×(Max(Y-Y')-Min(Y-Y'))

其中：所有训练样本是以向量形式批量输入全连接神经网络模型的，以所有训练样本的坐标值构成向量X，则Y为输入全连接神经网络模型的坐标值向量X在均匀分布序列O'' _k中对应的位置真值标签序列；Y'为输入全连接神经网络模型的坐标值向量X在均匀分布序列O'' _k中对应的位置预测值序列，即X输入全连接神经网络模型后的输出；Max、Min函数分别代表取向量中的最大标量值和取向量中的最小标量值。p为前述的预设比例，用于调整均方误差损失L _MSE和全局误差范围损失(Max(Y-Y')-Min(Y-Y'))的加权比例，p的取值范围为（0，1）。

该总损失函数L _range是一个考虑全局区间误差的函数，记为Range-Loss函数。均方误差损失L _MSE用公式可以表示为：

L _MSE=(Y _i '-Y _i)²/n

其中：Y _i和Y _i '分别表示第i个训练样本的坐标值在均匀分布序列O'' _k中对应的位置真值标签和预测值。

本发明中，上述Range-Loss函数在常规的均方误差损失L _MSE基础上引入了全局误差范围损失项(Max(Y-Y')-Min(Y-Y'))，其目的是增强训练过程对于索引模型预测区域误差的优化能力。因为均方误差损失L _MSE是Pixel-Wise的，其目标为最小化全局拟合误差，而索引误差区间是仅与拟合误差极值有关的，因此均方误差损失L _MSE无法有效面对局部较大误差导致的最终索引预测误差区域变大的情况。

模型的具体训练过程属于现有技术，对此不再详细赘述，本实施例中可通过随机梯度下降（SGD）方法更新模型参数，同时引入学习率衰减策略来加快模型的收敛。

S32、针对每一个坐标维度k对应的索引模型，获取其对于所有训练样本的模型输出误差，将模型输出误差的最小值作为坐标维度k对应的精度下限Error_Lower _k，将模型输出误差的最大值作为坐标维度k对应的精度上限Error_Upper _k。在具体实现时，将Y序列与索引模型输出的Y'序列进行做差（Y-Y'），差值序列中的最小标量和最大标量分别为精度下限Error_Lower _k和精度上限Error_Upper _k。

对x、y和z三个坐标维度，分别以O'' _x、O'' _y、O'' _t作为全连接神经网络模型的训练数据，执行上述步骤S31和S32，即可得到x、y和z三个坐标维度各自对应的索引模型M _x、M _y和M _z以及各自的精度下限和精度上限，将三个索引模型存储记为集合M={M _x,M _y,M _z}。

步骤S4的主要目的是基于用户输入的三个坐标维度的检索范围，将每一个坐标维度k下的检索范围R _k进行数据空间转换，并按照上述对应的索引模型进行预测输出，查找其在均匀分布序列O'' _k中对应的位置分布范围。各个维度独立进行位置分布范围检索后进行交叉比对，确定重合的时空点记为检索返回结果。在本实施例中，步骤S4的具体实现步骤如下：

S41、获取用户输入的经度x、纬度y和时间t三个坐标维度的检索范围R _x、R _y和R _z，用户输入的每一个坐标维度k下的检索范围R _k都是一个具有上下限端点的范围区间。将每个坐标维度的检索范围上下限按照S2中对应坐标维度的分位数转换方法进行完全相同的分位数转换，得到每个坐标维度的均匀化检索范围。实际对坐标维度k（k = x、y、t）下的检索范围R _k进行分位数转换时，可以调用前述保存的函数集合F={F _x,F _y,F _z}中坐标维度k对应的函数F _k进行数据空间的转换，检索范围上限和下限分别用函数F _k转换后，即可形成新的均匀化检索范围R _k '的上限和下限，从而完成原始输入的检索范围R _k到均匀化检索范围R _k '的转换。此处，将均匀化检索范围R _k '记为[Range_Min _k,Range_Max _k]。

S42、针对每个坐标维度k的均匀化检索范围R _k，分别对其上下限进行位置检索：

1）将均匀化检索范围的下限Range_Min _k输入坐标维度k对应的索引模型M _k中，输出值记为第一预测值Range_Min' _k，根据模型输出的第一预测值Range_Min' _k构建第一预测区间，其中第一预测区间的下限为第一预测值Range_Min' _k与坐标维度k对应的精度下限Error_Lower _k之和，第一预测区间的上限为第一预测值Range_Min' _k与坐标维度k对应的精度上限Error_Upper _k之和，即第一预测区间为[Error_Lower _k+Range_Min' _k, Error_Upper _k+Range_Min' _k]；再对第一预测区间进行二分搜索，找到不小于均匀化检索范围下限Range_ Min _k的区间内最小值k _min及k _min在均匀分布序列O'' _k中的位置P _kmin；

2）将均匀化检索范围的上限Range_Max _k输入坐标维度k对应的索引模型M _k中，输出值记为第一预测值Range_Max' _k，根据模型输出的第二预测值Range_Max' _k构建第二预测区间，其中第二预测区间的下限为第二预测值Range_Max' _k与坐标维度k对应的精度下限Error_Lower _k之和，第二预测区间的上限为第二预测值Range_Max' _k与坐标维度k对应的精度上限Error_Upper _k之和，即第二预测区间为[Error_Lower _k+Range_Max' _k, Error_Upper _k+Range_Max' _k]；再对第二预测区间进行二分搜索，找到不小于均匀化检索范围上限Range_ Max _k的区间内最大值k _max及k _max在均匀分布序列O'' _k中的位置P _kmax；

3）以区间内最小值的位置P _kmin和区间内最大值的位置P _kmax为上下限，构成坐标维度k的位置分布范围[P _kmin,P _kmax]。

S43、由于任一坐标维度k在均匀分布序列O'' _k中的位置都关联了时空点的唯一标志符，因此基于时空点的唯一标志符，可以确定三个坐标维度的位置分布范围内的所有重合时空点，这些重合时空点构成的数据集子序列，即可作为用户检索的返回结果。

由此可见，本发明针对高维降维曲线序列顺序无法有效表达时空聚集性导致学习型时空索引检索效率不均衡的问题，顾及地理流数据分布对于学习型时空索引的影响，提出了一种基于全局区间误差地理流数据学习型时空索引方法，该方法面向全局预测误差精度范围的区间损失函数，集成数据均匀标准化流程，通过多个单维学习型索引检索结果交叉检验实现动态高维数据的范围检索。对于高维时空数据的范围检索而言，本发明提出的索引模型较典型传统时空索引有明显效率提升。

另外，在本发明的其他实施例中，还提供了一种基于全局区间误差的学习型时空索引装置，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如上S1~S4所述的基于全局区间误差的学习型时空索引方法。

另外，在本发明的其他实施例中，还提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，能实现如上S1~S4所述的基于全局区间误差的学习型时空索引方法。

需要注意的是，上述的存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit， CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。当然，还装置中还应当具有实现程序运行的必要组件，例如电源、通信总线等等。

下面基于上述实施例中S1~S4所述的基于全局区间误差的学习型时空索引方法，将其应用至具体的实例中对其效果进行展示。具体的过程如前所述，不再完全赘述，下面主要展示其具体示例和实现效果。

实施例：

本实例以真实纽约出租车数据为实验数据以探究方法在真实数据场景下的先进性，这个数据集被称为D₉。数据集D₉的数据总量为5000000，数据的空间四至为[-74.2605,40.4964,-73.7347,40.9192]，时间范围为[1396281600000,1398873597000]。

按照前述S1步骤和S2步骤进行聚合及分位数转换（即QM转换），将原始数据集D₉的经度x、纬度y和时间t三个坐标维度下的坐标值进行重复数据的聚合并按序排列形成三条单调有序序列，再利用QM转换分别将每条单调有序序列映射到均匀分布数据空间，得到三个坐标维度下的均匀分布序列。其中，分位数个数N _p与单调有序序列O' _k的长度一致，即单调有序序列O' _k中的所有坐标值构成了分位序列P _k。

图2、图3、图4分别为数据集D₉的经度x、纬度y和时间t三个坐标维度的原始数据序列分布以及聚合和QM转换后的均匀分布序列数据分布，其展示了D₉数据集原始数据序列最大最小标准化各个维度的数据分布直方图、CDF图以及数据经过聚合及QM转换后各个维度的数据直方图及其CDF图。由图可知，经过聚合及QM转换预处理后，D₉各个维度的数据分布均接近于均匀分布，符合操作目标。

再按照前述S3步骤训练三个维度下的索引模型，在本实例中全连接神经网络模型采用五层神经网络，包括一层输入层，三层隐藏层和一层输出层，输入层和输出层的节点数均为1，而三层隐藏层的节点数分别为10个、20个和10个。激活函数使用如下ReLU函数：

ReLU函数函数中的x'表示激活函数输入值。

全连接神经网络模型的训练策略如下：

1）每一个坐标维度在开始训练之前需将全连接神经模型网络参数进行随机初始化，模型训练的目标为最小化全局L _range。

2）模型训练Epoch总数为3000。

3）模型训练选取优化器为随机梯度下降（SGD），同时引入学习率衰减策略MultiStepLR，设定模型的学习率为0.2，学习率策略如下：

new _lr=initial _lr×γ ^{bisect-right(milestones,epoch)}

其中，new _lr表示得到的新学习率；initial _lr表示初始学习率；γ表示更新学习率的乘法因子；milestones是递增的列表，存放要更新学习率的Epoch；bisect-right返回把Epoch插入排序好的列表milestones中的位置。模型中的学习率更新milestones为[100,200,500,800,1200,1500,2000,2500]，γ为0.5。

当三个索引模型训练完毕后，即可按照前述步骤S4获取用户输入的经度、纬度和时间三个坐标维度的检索范围，进行相应的时空检索。

由此，本实例中上述S1~S4的学习型时空索引方法即可实现地理流数据的时空检索，下面将其称为本发明索引方法（NN-Agg-Trans）。

为了进一步展示本发明与其他现有技术中索引方法的对比，本实例中还引入了四叉树（Quad-Tree）、STR树（STR-Tree）和STR*树（STR*-Tree）作为现有索引的对比。另外，为了验证本发明索引方法NN-Agg-Trans中S1步骤的重复数据聚合和S2步骤的分位数转换所起的作用，进一步设置了NN和NN-Agg两种索引方法，其中NN-Agg与NN-Agg-Trans的区别在于用于训练索引模型的数据不进行S2步骤的分位数转换，NN与NN-Agg的区别在于用于训练索引模型的数据进一步不进行S1步骤的重复数据聚合。

结果表明，随着数据量的增加，各个索引的检索时间也逐步增加。在数据单维检索中，四叉树的检索效率与单纯NN方法的检索效率接近，甚至更优，但是在多维数据检索中，四叉树的检索性能明显低于NN。这表明传统四叉树索引在进行多维检索时，性能会有非常大的降低，而一般学习型索引由于其强大的非线性拟合能力和快速解算能力，在处理高维数据时更有优势。相较于四叉树索引，STR树和STR*树索引更能适应数据的分布特征，其检索效率也更高，但随着数据量的增加，树索引的层级结构变深，其检索效率与本发明索引方法NN-Agg-Trans之间的差距也逐渐增大。对于时空检索查询层级为6，数据量为500万的检索测试而言，Quad-Tree、STR-Tree、STR*-Tree、NN、NN-Agg、NN-Agg-Trans的平均查询时间分别为22605852.1554 ns、9627357.3812 ns、10548976.5262 ns、3971637.3920 ns、2685956.8661 ns、2465623.0089 ns。因此本发明的索引方法NN-Agg-Trans的表现最优，效率相较于单纯NN和NN-Agg有明显提升，更是明显由于其他的现有索引方法。该结果有效证实了S1步骤的重复数据聚合能够很好地改善重复性效应的影响，进而提高查询性能，同时也证实了对时空数据进行S2步骤的分位数转换之后，也能够极大提高查询性能。

另外，为了对比本发明所采用的Range-Loss总损失函数L _range的优越性，本实例还采用单独的L1损失L _L1和单独的均方误差损失L _MSE来代替L _range，开展了使用不同损失函数下模型性能的差异对比。实验设置除损失函数的区别外，其他均保持一致。采用这三种损失函数分别对时间（t）、经度（x）和纬度（y）这三个维度展开了模型的训练和检索实验，最终得到结果如表1所示。

表1 各类损失函数对比实验结果

由此可见，本发明提出的Range-Loss能有效增强区域误差信息在模型训练中的约束作用，极大地减小模型预测最终的误差范围，从而有效提高学习型索引的检索效率。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于全局区间误差的学习型时空索引方法，其特征在于，它的步骤如下：

2.根据权利要求1所述的基于全局区间误差的学习型时空索引方法，其特征在于，所述S1的具体实现步骤包括：

S11、针对所有需要建立时空索引的时空点数据，获取每个时空点的三个维度坐标值以及唯一标志符，其中三个坐标维度分别为经度、纬度和时间；

S12、针对每一个坐标维度k，将所有时空点在该坐标维度k下的坐标值进行排序和重复点聚合，得到坐标值无重复的单调有序序列，单调有序序列中每一个序列点用于记录一个与其他序列点均不重复的坐标值以及具有该坐标值的所有时空点的唯一标志符。

3.根据权利要求2所述的基于全局区间误差的学习型时空索引方法，其特征在于，所述S12中，通过排序和重复点聚合得到坐标值无重复的单调有序序列的方法为：

4.根据权利要求1所述的基于全局区间误差的学习型时空索引方法，其特征在于，所述S2中，针对每一个坐标维度k对应的单调有序序列进行分位数转换的方法为：

S21、按照设定的分位数个数以及单调有序序列的长度，计算每一个分位数在单调有序序列中的位置，从而形成位置序列；

S22、从单调有序序列中提取位置序列中每一个位置对应的坐标值，从而构成分位序列；

S23、根据分位序列，利用一维分段线性插值方法对单调有序序列进行拉伸，从而将其转换为均匀分布数据空间下的均匀分布序列。

5.根据权利要求1所述的基于全局区间误差的学习型时空索引方法，其特征在于，所述S3的具体实现步骤包括：

S31、针对每一个坐标维度k，利用均匀分布序列的全量数据作为训练数据，通过训练一个全连接神经网络模型从而得到该坐标维度对应的索引模型，其中模型输入为该坐标维度k下的坐标值，模型输出为输入的坐标值在均匀分布序列中的位置预测值；所述全连接神经网络模型的激活函数使用ReLU函数，训练全连接神经网络模型时，在所有训练样本的均方误差损失基础上根据预设比例叠加全局误差范围损失作为总损失函数，通过最小化总损失函数完成模型训练，其中所述全局误差范围损失为所有训练样本对应的模型输出误差中最大值和最小值之差，所述模型输出误差为输入模型的坐标值在均匀分布序列中的位置真值与预测值之差；

S32、针对每一个坐标维度k对应的索引模型，获取其对于所有训练样本的模型输出误差，将模型输出误差的最小值作为坐标维度k对应的精度下限，将模型输出误差的最大值作为坐标维度k对应的精度上限。

6.根据权利要求5所述的基于全局区间误差的学习型时空索引方法，其特征在于，所述的预设比例大于0且小于1。

7.根据权利要求5所述的基于全局区间误差的学习型时空索引方法，其特征在于，所述全连接神经网络模型训练时，通过随机梯度下降方法更新模型参数，同时引入学习率衰减策略。

8.根据权利要求5所述的基于全局区间误差的学习型时空索引方法，其特征在于，所述S4的具体实现步骤包括：

S41、获取用户输入的经度、纬度和时间三个坐标维度的检索范围，将每个坐标维度的检索范围上下限按照S2中对应坐标维度的分位数转换方法进行完全相同的分位数转换，得到每个坐标维度的均匀化检索范围；

S42、针对每个坐标维度k的均匀化检索范围，将均匀化检索范围的下限输入坐标维度k对应的索引模型中，根据模型输出的第一预测值构建第一预测区间，其中第一预测区间的下限为第一预测值与坐标维度k对应的精度下限之和，第一预测区间的上限为第一预测值与坐标维度k对应的精度上限之和，再对第一预测区间进行二分搜索，找到不小于均匀化检索范围下限的区间内最小值及其在均匀分布序列中的位置；同时，将均匀化检索范围的上限输入坐标维度k对应的索引模型中，根据模型输出的第二预测值构建第二预测区间，其中第二预测区间的下限为第二预测值与坐标维度k对应的精度下限之和，第二预测区间的上限为第二预测值与坐标维度k对应的精度上限之和，再对第二预测区间进行二分搜索，找到不小于均匀化检索范围上限的区间内最大值及其在均匀分布序列中的位置；以区间内最小值的位置和区间内最大值的位置为上下限，构成坐标维度k的位置分布范围；

9.一种基于全局区间误差的学习型时空索引装置，其特征在于，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如权利要求1~8任一所述的基于全局区间误差的学习型时空索引方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，能实现如权利要求1~8任一所述的基于全局区间误差的学习型时空索引方法。