CN116414867B

CN116414867B - 一种基于量化哈希编码的时空数据检索方法

Info

Publication number: CN116414867B
Application number: CN202310684479.4A
Authority: CN
Inventors: 杨柳; 张恺庭; 杨展; 龙军; 陈云飞; 李逸楠
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-08-22
Anticipated expiration: 2043-06-12
Also published as: CN116414867A

Abstract

本发明公开了一种基于量化哈希编码的时空数据检索方法，包括：S1，提取待检索的原始数据的时间信息和空间信息，形成序列化编码。S2，对序列化编码聚类，得到编码矩阵。S3，提取原始数据的原始特征向量，然后核化得到语义特征矩阵。S4，将语义特征矩阵与编码矩阵进行拼接，得到语义融合矩阵。S5，基于min‑hash算法和随机分桶映射，获得哈希检索函数。S6，对语义融合矩阵基于段长来得到下标，然后转换为二进制数并拼接得到语义融合量化码，形成时空量化码。S7，基于哈希检索函数执行检索。本发明通过将时间和空间特征与传统哈希编码融合学习，使得量化码具备了时空特征，从而提高大规模时空检索的检索速度和检索效率。

Description

一种基于量化哈希编码的时空数据检索方法

技术领域

本发明涉及计算机数据检索和机器学习领域，尤其涉及一种基于量化哈希编码的时空数据检索方法。

背景技术

随着大数据技术的不断发展，数据的时间和空间信息也越来越被重视起来，从而诞生了时空数据的概念。由于传统数据天然地蕴含了时间和空间信息，即某数据产生于某时某地。海量数据不仅仅含有语义信息，若以特定形式标记它们的时间和空间信息，即可构建为时空数据，例如空间地理数据、能源环境监测数据、交通数据、自然人采集数据等，都必要地存储时空信息才能最大程度的保证数据价值。可见，时空大数据包括时间、空间、属性多维信息，具有多源、海量、更新快速的综合特点。

现有数据检索方法通常采用以位置敏感哈希（LSH）为代表的基于哈希学习编码方法，这类方法将数据的各类特征通过哈希函数映射到汉明空间中的量化编码，以计算汉明空间相似度的方式检索数据，因此存储效率高，检索速度快，能够大大提升检索效率。

但是，目前的基于哈希的检索并没有针对时空信息检索采取特定处理，使得时间和空间信息仅作为查询集的二次筛选条件，因此在进行大规模的时空检索时，现有检索方式出现检索耗时长，检索效率低，难以复用等问题，故如何将数据的时空特征应用于提高时空检索效率的优化过程成为亟待解决的难题。

发明内容

为了解决目前在大规模的时空检索中检索耗时长、检索效率低的技术问题，本发明提供一种基于量化哈希编码的时空数据检索方法，通过对时空信息采取特定处理，将时间和空间特征与传统哈希编码融合学习，使得量化码具备了时空特征，从而提高大规模时空检索的检索速度和检索效率。

为实现上述技术目的，本发明的技术方案是：

一种基于量化哈希编码的时空数据检索方法，包括：

步骤1，提取待检索的原始数据的时间信息和空间信息，并分别将时间信息和空间信息表征为序列化编码，然后对编码化后的时间信息和空间信息按预设顺序进行排列，以每一列代表一个数据的序列化编码，分别得到时间信息和空间信息的序列化编码集；

步骤2，根据时间信息和空间信息的序列化编码集，分别对时间和空间两个维度进行聚类从而形成多个聚类中心；再将每条数据的序列化编码替换为所在聚类的聚类中心的编码，从而得到时间编码矩阵和空间编码矩阵；

步骤3，对原始数据中的每个数据，基于模态类型来进行特征提取以得到原始特征向量，并以每一列代表一个数据的特征向量、每一行代表数据的一种特征的形式来构成原始特征矩阵；然后对原始特征矩阵通过核化来减少特征数量，得到语义特征矩阵；

步骤4，将语义特征矩阵分别与时间编码矩阵和空间编码矩阵进行拼接，得到时间语义融合矩阵和空间语义融合矩阵；

步骤5，构建随机数量的哈希函数以形成哈希函数组，其中每个哈希函数均是采用不同的随机参数组合来进行构建，并利用哈希函数组来基于min-hash算法分别将时间语义融合矩阵和空间语义融合矩阵进行降维，形成时间语义签名矩阵和空间语义签名矩阵，其中签名矩阵中的每一列代表一个数据的所有min-hash值，每一行代表一个哈希函数对于所有数据产生的min-hash值；再对得到的两个签名矩阵，进行分段后基于随机生成的哈希映射函数执行随机分桶映射；然后循环执行步骤5，且在每次循环时均采用不同数量的哈希函数来执行min-hash算法，并在随机分桶映射时采用不同的分段的长度，直到在规定准确度阈值下查找到最小相似的概率最大后，保存所采用的哈希函数组、分段的长度和哈希映射函数来作为哈希检索函数，进入步骤6；

步骤6，对时间语义融合矩阵和空间语义融合矩阵基于步骤5中保存的分段的长度来进行分段，然后基于步骤5中保存的哈希映射函数来得到每段的下标，再将所有下标转换为二进制数并拼接，得到时间语义融合量化码和空间语义融合量化码；将所有数据的量化码构成时间语义融合量化码集和空间语义融合量化码集，并组合后作为时空量化码；

步骤7，执行检索，包括：

当进行数据相似性时空检索时，输入需要检索的原始数据，并执行步骤3来得到特征向量，再与空的时间编码和空间编码来基于步骤4进行拼接得到时间语义融合向量和空间语义融合向量，然后基于保存的哈希检索函数执行步骤5，获得虚拟量化码，最后与步骤6中的时空量化码进行汉明空间查询，最终得到与需要检索的原始数据在时间和空间上相似的数据；

当进行时间范围和空间范围检索时，输入时间和空间范围，然后取中心点并基于步骤2生成时间编码和空间编码，再与空的特征向量来基于步骤4进行拼接得到时间语义融合向量和空间语义融合向量，然后基于保存的哈希检索函数执行步骤5，获得虚拟量化码，最后与步骤6中的时空量化码进行汉明空间查询，最终得到在输入的时间和空间范围内的数据。

所述的方法，所述步骤1中，提取原始数据的时间信息，是对原始数据进行关于数据自身创建或修改的时间信息进行提取；并将不能提取时间信息的数据剔除；

提取原始数据的空间信息，是对原始数据进行关于数据自身在创建或修改时所处的地理位置信息进行提取，并将不能提取地理位置信息的数据剔除。

所述的方法，所述步骤1中，对时间信息表征为序列化编码，是首先将不同格式的时间转换为世界标准时间，然后再基于世界标准时间转换为UNIX时间戳，最后将UNIX时间戳转换为64位的二进制码，其中的空位置零；

对空间信息表征为序列化编码，是首先将空间信息转换为标准经纬度，然后将标准经纬度利用GeoHash算法转换为二进制码。

所述的方法，所述步骤4包括，

将编码矩阵和原始数据特征矩阵中对应数据进行拼接，得到融合矩阵为M ^n×c，其中n为原始数据的个数，c为混合特征数，M=[X，T]，其中X为步骤3中得到的原始数据特征矩阵X ^n×d，d为核化后的特征维度，T为步骤2中得到的编码矩阵T ^n×k，k为每个数据的编码长度，c=d+k。

所述的方法，所述步骤5中，min-hash算法包括：

以通过min-hash算法获得的语义签名矩阵为S ^m×n，其中每一行为基于一个哈希函数得到各数据的min-hash值，每一列代表一条数据在不同哈希函数下得到的所有min-hash值，则获得S ^m×n的步骤为：

1）首先随机选取m组不同的参数a,b,p组合来构造哈希函数组H =｛h₁，h₂，... h_m｝，其中的哈希函数设计为：h_m(x) =(a×x+b)mod p，其中a和b为正实数，且a与p互质，mod表示求余运算，x表示融合矩阵M的列标即每一列的标号；并以融合矩阵M的列标为

x∈[0，c)，通过哈希函数组来计算最小列标以实现随机重排来作为语义签名矩阵S；

2）初始化S中每个元素为最大列标c；

3）基于哈希函数组中的一个哈希函数，进行如下操作：遍历融合矩阵M中第i个数据的所有值，也即M中第i行中所有值，当第j个值即M[i][j]不为0时，则令S[m][i]=min(S[m][i]，h_m(j))，即更新S[m][i]的值为所有计算出的h(x)的值的最小值，作为当前哈希函数下得到的min-hash值；

4）更换哈希函数组中的另一个哈希函数来重复执行步骤3），直至哈希函数组中所有哈希函数均被执行完毕，得到这个数据的所有min-hash值；

5）对融合矩阵M中另一个数据重复步骤3）和步骤4），直到遍历完毕所有数据，从而得到语义签名矩阵S；

然后基于min-hash算法中的m值来对S执行随机分桶映射，步骤包括：

①将语义签名矩阵S随机分为k段，每段中有t行，即t=m÷k，并将每段称为行条；

②随机选取一个t维向量R∈R^t×1，其中R表示实数，随机选取参数e构成哈希映射函数，其中f为桶的数量，e和f均为正整数，v表示由t个min-hash值构成的向量；

③对一段行条，遍历其中每一列，即由t个min-hash值构成的向量v，计算H(v)的值，将结果作为被分到的bucket下标；

④重复执行③，直到遍历所有行条，使得所有至少一段签名相同的数据被分在同一个bucket内，即具有相同的bucket下标；

返回步骤1），并修改m值之后执行步骤1）-5），然后再修改k值后执行①-④，直到在规定准确度阈值p下的最小相似概率值P最大，得到最佳的t,k组合；其中最小相似概率值P=1-(1-p^t)^k，t×k=m。

所述的方法，所述的步骤5中，min-hash执行过程中采用的哈希函数组H，以及随机分桶映射中获得的最佳t,k组合和哈希映射函数H(v)，一并保存为哈希检索函数G=｛H，H(v)，k｝。

所述的方法，所述的步骤6中，构建时间语义融合量化码集和空间语义融合量化码集，其中每个数据的时间和空间语义融合量化码由步骤5所保存的t,k组合和哈希映射函数H(v)得到，即bucket下标值的二值化编码，表示为：b=[ H(v₁)_（2），H(v₂)_（2），... H(v_k)_（2）]。

本发明的技术效果在于，可以将输入数据的时空信息转化为哈希编码，进行相似数据检索，优化了时空检索过程，提高了大规模时空数据检索的检索效率，缩短了检索时间。

附图说明

图1为本发明方法的流程示意图。

图2为本发明的数据处理过程示意图。

图3为本发明的概念示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本实施例所提供的基于量化哈希编码的时空数据检索方法，包括以下步骤：

S1，提取待检索的原始数据的时间信息和空间信息，并分别将时间信息和空间信息表征为序列化编码，然后对编码化后的时间信息和空间信息按预设顺序进行排列，以每一列代表一个数据的序列化编码，分别得到时间信息和空间信息的序列化编码集。

其中原始数据的时间信息，是指原始数据的精确创建时间或能表达该数据自身时间信息的内容，但并非数据中记录的时间相关内容。在结构化数据（例如数据库二维表，即行数据）中，该时间通常作为表字段存储，通过SQL等数据库操作语句直接获取。在非结构化数据（例如字符串，文档，图像、音频、视频等）中，时间通常以元数据属性方式存在于数据内部，能够通过文件系统获取。在本实施例中，若数据未能提取到时间信息或在语义上没有时间检索的必要，则标记为不符合时间检索范畴的数据，即将时间标记为NULL，不考虑进行后续时间表征操作。

而原始数据的空间信息，是指原始数据的精确创建位置或能表达该数据自身位置信息的内容，但并非数据记录的空间相关内容。在结构化数据中，该位置信息通常以数据库二维表所在的真实地理空间为准，其提取方法分为两类，一是人工批量标定数据位置，二是自动根据数据库表所在物理存储器（通常为服务器或PC）接入互联网的公网IP地址转换得到，具体可使用映射表解决。若附带地理采集器（例如GPS设备）则直接获取精确位置信息即可。在非结构化数据中，位置信息可能包含在元数据属性中，也可根据数据实际情况采用上述结构化数据的方式获取。若数据未能提取到位置信息或在语义上没有空间检索的必要，则标记为不符合空间检索范畴的数据，即将位置标记为NULL，不考虑进行后续空间表征操作。

时间信息的标准化表征主要分为两步，第一步为标准化，首先将不同格式精确时间（通常为字符串格式）转换为世界标准时间（UTC），其格式为YYYY-MM-DDThh:mm:ssZ之后，将UTC时间通过算法得到计算机UNIX时间戳。第二步为表征学习，将UNIX时间戳的二进制码进行处理：统一位数为64位，空位则置零。

空间信息的标准化表征的第一步为获取经纬度，将不同的空间信息按照地理信息对照表转换为标准经纬度。第二步为GeoHash二进制编码，根据经纬度和空间信息中的范围约束（可选），利用GeoHash算法得到二进制编码。

S2，根据序列化编码集来以时间、空间两个维度构建聚类，形成多个聚类中心，再将每条数据的序列化编码替换为所在聚类的聚类中心的编码，从而得到时间编码矩阵和空间编码矩阵。

表征结果分为时间表征结果和空间表征结果，时间表征结果通常包含不同的时间编码集合，这些集合可能不是按物理时序排列的，但与待表征数据的时间集合保持一致性。同理，空间表征结果包含不同的位置编码集合，这些集合可能不是按地理位置排列的，但与待表征数据的空间集合保持一致性。

使用K-Means算法分别对时间表征结果和空间表征结果构建时间和空间两个维度的聚类中心。通过迭代更新计算得到最终的聚类中心，此时使用聚类中心表示在同一集合内的所有时间或空间，即在时间维，一个聚类中心表示在某一时间范围内存在的数据。在空间维，一个聚类中心表示在某一地理范围内存在的数据，通过这种聚类方法损失了单一数据的时空信息精确度，但约束了数据海量且复杂时空信息对语义表征学习的影响，提高时空检索效率，同时，由于聚类算法的参数可控，也使得最终得到的时空量化码的检索精确度能够动态调整。

S3，对原始数据中的每个数据，基于模态类型来进行特征提取以得到原始特征向量，并以每一列代表一个数据的特征向量、每一行代表数据的一种特征的形式来构成原始特征矩阵。然后对原始特征矩阵通过核化来减少特征数量，得到语义特征矩阵。

本步骤中，首先对原始数据进行特征提取，这里是根据数据不同模态类型（文字、图片等）使用不同的特征提取模型，最终得到全局数据的高维特征矩阵。然后对特征矩阵进行核化以减少特征数量，得到语义特征矩阵，在实际执行时，核化可以根据需要进行调整。

S4，将语义特征矩阵分别与时间编码矩阵和空间编码矩阵进行拼接，得到时间语义融合矩阵和空间语义融合矩阵。

本步骤中，将编码矩阵和原始数据特征矩阵中对应数据进行拼接，得到融合矩阵为M ^n×c，其中n为原始数据的个数，c为混合特征数，M=[X，T]，其中X为步骤3中得到的原始数据特征矩阵X ^n×d，d为核化后的特征维度，T为步骤2中得到的编码矩阵T ^n×k，k为每个数据的编码长度，c=d+k。

S5，构建随机数量的哈希函数以形成哈希函数组，其中每个哈希函数均是采用不同的随机参数组合来进行构建，并利用哈希函数组来基于min-hash算法分别将时间语义融合矩阵和空间语义融合矩阵进行降维，形成时间语义签名矩阵和空间语义签名矩阵，其中签名矩阵中的每一列代表一个数据的所有min-hash值，每一行代表一个哈希函数对于所有数据产生的min-hash值。再对得到的两个签名矩阵，进行分段后基于随机生成的哈希映射函数执行随机分桶映射。然后循环执行S5，且在每次循环时均采用不同数量的哈希函数来执行min-hash算法，并在随机分桶映射时采用不同的分段的长度，直到在规定准确度阈值下查找到最小相似的概率最大后，保存所采用的哈希函数组、分段的长度和哈希映射函数来作为哈希检索函数，进入S6。

本步骤中的min-hash算法包括：

以通过min-hash算法获得的语义签名矩阵为S ^m×n，其中每一行为基于一个哈希函数得到各数据的的min-hash值，每一列代表一条数据在不同哈希函数下得到的所有min-hash值，则获得S ^m×n的步骤为：

1）首先随机选取m组不同的参数a,b,p组合来构造哈希函数组H =｛h₁，h₂，... h_m｝，其中的哈希函数设计为：h_m(x) =(a×x+b)mod p，其中a和b为正实数，a与p互质，mod表示求余运算，x表示融合矩阵M的列标即每一列的标号。并以融合矩阵M的列标为x∈[0，c)，通过哈希函数组来计算最小列标以实现随机重排来作为语义签名矩阵S。

2）首先初始化S中每个元素为最大列标c。

3）基于哈希函数组中的一个哈希函数，进行如下操作：遍历融合矩阵M中第i个数据的所有值，也即M中第i行中所有值，当第j个值即M[i][j]不为0时，则令S[m][i]=min(S[m][i]，h_m(j))，即更新S[m][i]的值为所有计算出的h(x)的值的最小值，作为当前哈希函数下得到的min-hash值。

4）更换哈希函数组中的另一个哈希函数来重复步骤3），直至哈希函数组中所有哈希函数被执行完毕，得到这个数据的所有min-hash值。

5）对融合矩阵M中另一个数据重复步骤3）和步骤4），直到遍历完毕所有数据，从而得到语义签名矩阵S。

①将语义签名矩阵S随机分为k段，每段中有t行，即t=m÷k，并将每段称为行条。

②随机选取一个t维向量R∈R^t×1，其中R表示实数，随机选取参数e构成哈希映射函数，其中f为桶的数量，e和f均为正整数，v表示由t个min-hash值构成的向量。

③对一段行条，遍历其中每一列，即由t个min-hash值构成的向量v，计算H(v)的值，将结果作为被分到的bucket下标。

④重复执行③，直到遍历所有行条，使得所有至少一段签名相同的数据被分在同一个bucket内，即具有相同的bucket下标。

返回步骤1），并修改m值之后执行步骤1）-5），然后再修改k值后执行①-④，直到在规定准确度阈值p下的最小相似概率值P最大，得到最佳的t,k组合。其中最小相似概率值P=1-(1-p^t)^k，t×k=m。

然后以哈希函数组、哈希映射函数H(v)以及分段长度来作为哈希检索函数。即min-hash执行过程中采用的哈希函数组H，以及随机分桶映射中获得的最佳t,k组合和哈希映射函数H(v)，一并作为哈希检索函数G=｛H，H(v)，k｝。

S6，利用S5得到的最佳t,k组合及哈希映射函数H(v)构建时间和空间语义融合量化码集，其中每个数据的时间和空间语义融合量化码为每个行条的bucket下标值的二值化编码，表示为：b=[ H(v₁)_（2），H(v₂)_（2），... H(v_k)_（2）]，具体步骤为：

对时间语义融合矩阵和空间语义融合矩阵基于步骤5中保存的分段的长度来进行分段，然后基于步骤5中保存的哈希映射函数来得到每段的下标，再将所有下标转换为二进制数并拼接，得到时间语义融合量化码和空间语义融合量化码。将所有数据的量化码构成时间语义融合量化码集和空间语义融合量化码集，并组合后作为时空量化码。其中每个数据的时间和空间语义融合量化码由步骤5所保存的t,k组合和哈希映射函数H(v)得到，即bucket下标值的二值化编码，表示为：b=[ H(v₁)_（2），H(v₂)_（2），... H(v_k)_（2）]。

本步骤中，需要将 H(v₁)，H(v₂)，... H(v_k)的值转换为统一位数的二进制数，然后按顺序进行拼接，例如：H(v₁)=2，则转换为二进制数为0010，H(v₂)=4转换为二进制数为0100， H(v_k)=1转换为二进制数为0001，最后拼接得到的量化码为00100100…0001。

S7，执行检索，包括：

当进行数据相似性时空检索时，输入需要检索的原始数据，并执行S3来得到特征向量，再与空的时间编码和空间编码来基于S4进行拼接得到时间语义融合向量和空间语义融合向量，然后基于保存的哈希检索函数执行步骤S5，获得虚拟量化码，最后与步骤S6中的时空量化码进行汉明空间查询，最终得到与需要检索的原始数据在时间和空间上相似的数据。

当进行时间范围和空间范围检索时，输入时间和空间范围，然后取中心点并基于S2生成时间编码和空间编码，再与空的特征向量来基于S4进行拼接得到时间语义融合向量和空间语义融合向量，然后基于保存的哈希检索函数执行S5，获得虚拟量化码，最后与S6中的时空量化码进行汉明空间查询，最终得到在输入的时间和空间范围内的数据。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于量化哈希编码的时空数据检索方法，其特征在于，包括：

步骤7，执行检索，包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤1中，提取原始数据的时间信息，是对原始数据进行关于数据自身创建或修改的时间信息进行提取；并将不能提取时间信息的数据剔除；

3.根据权利要求1所述的方法，其特征在于，所述步骤1中，对时间信息表征为序列化编码，是首先将不同格式的时间转换为世界标准时间，然后再基于世界标准时间转换为UNIX时间戳，最后将UNIX时间戳转换为64位的二进制码，其中的空位置零；

4.根据权利要求1所述的方法，其特征在于，所述步骤4包括，

将编码矩阵和原始数据特征矩阵中对应数据进行拼接，得到融合矩阵为M ^n×c，其中n为原始数据的个数，c为混合特征数，M=[X，T]，其中X为步骤3中得到的原始数据特征矩阵X ⁿ ^×d，d为核化后的特征维度，T为步骤2中得到的编码矩阵T ^n×k，k为每个数据的编码长度，c=d+k。

5.根据权利要求4所述的方法，其特征在于，所述步骤5中，min-hash算法包括：

1）首先随机选取m组不同的参数a,b,p组合来构造哈希函数组，其中的哈希函数设计为：/>，其中a和b为正实数，且a与p互质，mod表示求余运算，x表示融合矩阵M的列标即每一列的标号；并以融合矩阵M的列标为/>，通过哈希函数组来计算最小列标以实现随机重排来作为语义签名矩阵S；

2）初始化S中每个元素为最大列标c；

3）基于哈希函数组中的一个哈希函数，进行如下操作：遍历融合矩阵M中第i个数据的所有值，也即M中第i行中所有值，当第j个值即M[i][j]不为0时，则令，即更新S[m][i]的值为所有计算出的h(x)的值的最小值，作为当前哈希函数下得到的min-hash值；

②随机选取一个t维向量，其中/>表示实数，随机选取参数e构成哈希映射函数，其中f为桶的数量，e和f均为正整数，v表示由t个min-hash值构成的向量；

返回步骤1），并修改m值之后执行步骤1）-5），然后再修改k值后执行①-④，直到在规定准确度阈值p下的最小相似概率值P最大，得到最佳的t,k组合；其中最小相似概率值，/>。

6.根据权利要求5所述的方法，其特征在于，所述的步骤5中，min-hash执行过程中采用的哈希函数组H，以及随机分桶映射中获得的最佳t,k组合和哈希映射函数H(v)，一并保存为哈希检索函数。

7.根据权利要求5所述的方法，其特征在于，所述的步骤6中，构建时间语义融合量化码集和空间语义融合量化码集，其中每个数据的时间和空间语义融合量化码由步骤5所保存的t,k组合和哈希映射函数H(v)得到，即bucket下标值的二值化编码，表示为：。