CN116304213B

CN116304213B - 基于图神经网络的rdf图数据库子图匹配查询优化方法

Info

Publication number: CN116304213B
Application number: CN202310266235.4A
Authority: CN
Inventors: 邓泽; 李响; 王力哲; 符来恩
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2024-03-19
Anticipated expiration: 2043-03-20
Also published as: CN116304213A

Abstract

本发明涉及数据处理技术领域，公开了一种基于图神经网络的RDF图数据库子图匹配查询优化方法，该方法包括：根据RDF图数据训练GraphSAGE图神经网络模型，得到训练后的网络模型；将查询负载中的SPARQL查询语句转换为第一查询图，确定频繁查询子图；将频繁查询子图的结构特征转换为第一子图嵌入特征向量；获取频繁查询子图在RDF图数据库索引中的查询结果和索引中间值；构建辅助索引；将目标SPARQL查询语句转换为第二查询图，将第二查询图的结构特征转换为第二子图嵌入特征向量；在辅助索引中对第二子图嵌入特征向量进行检索，确定查询结果。上述方案将子图匹配转换成向量匹配，加速RDF数据的查询。

Description

基于图神经网络的RDF图数据库子图匹配查询优化方法

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种基于图神经网络的RDF图数据库子图匹配查询优化方法。

背景技术

近年来，RDF数据的使用越来越多，大量RDF图数据库不断涌现，如何加速RDF图数据库的查询，高效处理SPARQL查询对图数据管理极其重要。

目前，对于RDF数据管理主要有两种方案，包括基于关系模型和基于图模型的存储方案。传统基于关系模型的存储方案未利用RDF数据的图结构特征优化存储，使得数据库表中含有大量空值，空间开销较大，而复杂的表连接操作导致查询性能较低。而基于图模型的方法管理RDF数据，在保留RDF数据间关联信息的同时不损失语义信息，可有效支持SPARQL查询，该方法将回答SPARQL查询转换为找到查询图在数据图上的匹配。相较于传统基于关系模型的RDF数据管理方法，基于图模型的RDF图数据库系统如gStore、Jena、RDF4J等，在RDF数据的存储和查询方面都具有更优的性能。目前基于图模型的RDF图数据库所使用的索引分为两类：基于树的方法和基于路径匹配的方法。这两类查询方法虽然都能检索整个RDF数据图并具有一定剪枝能力，但未能对子图的结构特征进行有效的总结和利用，难以进一步提升大规模RDF图数据库的查询速率。

发明内容

本发明解决的问题是大规模RDF图数据库的查询速率慢的问题。

为解决上述问题，本发明提供一种基于图神经网络的RDF图数据库子图匹配查询优化方法，包括：

基于DGL图神经网络框架，根据RDF图数据训练GraphSAGE图神经网络模型，得到训练后的网络模型；

将查询负载中的SPARQL查询语句转换为第一查询图，确定所述第一查询图中的频繁查询子图；

利用所述训练后的网络模型将所述频繁查询子图的结构特征转换为对应的第一子图嵌入特征向量；

获取所述频繁查询子图在RDF图数据库索引中的查询结果和索引中间值；

根据所述第一子图嵌入特征向量、所述查询结果以及所述索引中间值构建辅助索引；

将目标SPARQL查询语句转换为第二查询图，利用所述训练后的网络模型将所述第二查询图的结构特征转换为第二子图嵌入特征向量；

在所述辅助索引中对所述第二子图嵌入特征向量进行检索，确定查询结果。

可选地，所述根据所述第一子图嵌入特征向量、所述查询结果以及所述索引中间值构建辅助索引包括：

对所述第一子图嵌入特征向量进行矢量量化压缩，确定压缩后的第一子图嵌入特征向量；

根据所述压缩后的第一子图嵌入特征向量、所述查询结果以及所述索引中间值构建散列表。

可选地，所述根据所述压缩后的第一子图嵌入特征向量、所述查询结果以及所述索引中间值构建散列表后，还包括：

基于所述压缩后的第一子图嵌入特征向量训练维度划分器，根据训练好的维度划分器对所述压缩后的第一子图嵌入特征向量进行维度划分并存储到各分区，获得分配后的第一子图嵌入特征向量；

基于所述分配后的第一子图嵌入特征向量训练成本估计器，获得训练好的成本估计器。

可选地，在所述散列表中，将所述压缩后的第一子图嵌入特征向量设置为键，将所述查询结果以及所述索引中间值设置为值。

可选地，所述在所述辅助索引中对所述第二子图嵌入特征向量进行检索，确定查询结果包括：

在所述辅助索引中对所述第二子图嵌入特征向量进行NN检索，确定最相邻的所述压缩后的第一子图嵌入特征向量；

根据所述最相邻的所述压缩后的第一子图嵌入特征向量与所述第二子图嵌入特征向量的匹配结果确定最终查询结果。

可选地，所述根据所述最相邻的所述压缩后的第一子图嵌入特征向量与所述第二子图嵌入特征向量的匹配结果确定最终查询结果包括：

若所述最相邻的所述压缩后的第一子图嵌入特征向量与所述第二子图嵌入特征向量为精确匹配，输出所述最相邻的所述压缩后的第一子图嵌入特征向量在所述辅助索引中对应的所述查询结果。

可选地，所述根据所述最相邻的所述压缩后的第一子图嵌入特征向量与所述第二子图嵌入特征向量的匹配结果确定最终查询结果还包括：

若所述最相邻的所述压缩后的第一子图嵌入特征向量与所述第二子图嵌入特征向量不是精确匹配，确定所述最相邻的所述压缩后的第一子图嵌入特征向量对应的所述频繁查询子图；

根据所述最相邻的所述压缩后的第一子图嵌入特征向量对应的所述频繁查询子图所对应的所述索引中间值对RDF图数据库中的索引空间进行剪枝，然后进行进一步检索并输出查询结果。

可选地，所述在所述辅助索引中对所述第二子图嵌入特征向量进行NN检索，确定最相邻的所述压缩后的第一子图嵌入特征向量包括：

对所述第二子图嵌入特征向量进行矢量量化压缩，确定压缩后的第二子图嵌入特征向量；

根据所述训练好的维度划分器对所述压缩后的第二子图嵌入特征向量进行维度划分，获得分配后的第二子图嵌入特征向量；

基于所述分配后的第二子图嵌入特征向量和所述训练好的成本估计器对所述各分区进行阈值分配，确定所述各分区的最优阈值；

按所述各分区计算所述分配后的第二子图嵌入特征向量和分区中所述分配后的第一子图嵌入特征向量的余弦相似度，基于所述各分区的最优阈值和所述余弦相似度确定所述最相邻的所述压缩后的第一子图嵌入特征向量。

可选地，所述利用所述训练后的网络模型将所述频繁查询子图的结构特征转换为对应的第一子图嵌入特征向量包括：

利用所述训练后的网络模型将所述频繁查询子图的结构特征转换为第一节点嵌入特征向量；

根据所述第一节点嵌入特征向量确定第一边嵌入特征向量；

根据所述第一边嵌入特征向量确定所述第一子图嵌入特征向量。

可选地，还包括：基于子图挖掘算法确定所述第一查询图中的所述频繁查询子图。

本发明的基于图神经网络的RDF图数据库子图匹配查询优化方法的有益效果为：本发明利用RDF图数据训练GraphSAGE图神经网络模型，确定训练后的网络模型，将查询负载中的SPARQL查询语句转换为第一查询图，确定第一查询图中的频繁查询子图，利用训练后的网络模型将频繁查询子图的结构特征转换为第一子图嵌入特征向量，提取了频繁查询子图的结构特征；然后根据第一子图嵌入特征向量、查询结果以及索引中间值构建辅助索引。基于目标SPARQL查询语句确定第二子图嵌入特征向量，提取了第二子图的结构特征，在辅助索引中对第二子图嵌入特征向量进行检索，从而将子图匹配转换成子图的向量匹配，利用辅助索引加速了查询过程，进而提高RDF数据的查询效率。

附图说明

图1为本发明实施例的基于图神经网络的RDF图数据库子图匹配查询优化方法的流程示意图；

图2为辅助索引构建过程的示意图；

图3为训练维度划分器和成本估计器的示意图；

图4为确定最相邻的压缩后的第一子图嵌入特征向量的流程示意图；

图5为基于辅助索引进行查询的流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1为本发明实施例提供的一种基于图神经网络的RDF图数据库子图匹配查询优化方法，该方法包含如下步骤：

步骤101、基于DGL图神经网络框架，根据RDF图数据训练GraphSAGE图神经网络模型，得到训练后的网络模型。

基于DGL(Deep Graph Library)图神经网络框架，使用RDF图数据训练GraphSAGE图神经网络模型，该模型将节点嵌入特征向量的学习过程分为邻居采样和邻居聚合，首先选取目标节点的部分邻居进行采样，然后不断的聚合目标节点的邻居信息，进行迭代更新。随着迭代次数的增加，每个节点聚合的结构特征几乎都是全局的，避免了对整个RDF图数据进行训练，从而加速模型的学习。同时DGL图神经网络框架通过设置边权重，支持RDF图数据的有向性学习，得到训练后的模型可反映图中各节点至整张RDF图的结构特征。其中，有向性是指RDF图数据是有方向的。

具体地，考虑到图神经网络模型的计算效率，选择邻居节点采样的方法。首先对RDF图数据进行预处理，消除其多边性，并依据节点、边的属性初始化节点特征和边特征。然后针对目标节点采样周围的s_k个邻居节点，聚合本层的节点特征与所有采样邻居节点的特征信息。将边的特征和源节点的特征相乘，得到包含边特征信息的节点特征以学习RDF图数据的有向性，并通过激活函数得到新的特征。不断迭代上述步骤以得到最后一层的特征，即节点嵌入特征向量。最后利用节点嵌入特征向量依次生成边嵌入特征向量和子图嵌入特征向量。GraphSAGE图神经网络模型的具体训练过程如下：

(1)输入：RDF图数据和未训练的基于DGL图神经网络框架的GraphSAGE模型。

(2)对RDF图数据进行预处理，将任意两个节点之间相同方向的多条边合并为一条，以消除RDF图数据的多边性。然后依据节点、边的属性初始化节点特征和边特征。

(3)对每个节点采样一定数量的邻居节点作为待聚合信息的节点v。设每一跳采样数量不多于S_k个，若节点邻居数少于S_k,则采用有放回的采样方法，直到采样出S_k个节点。若节点邻居数大于S_k，则采用无放回的采样，其中K为跳数(k＝1,2,…,a)。

(4)将该层源节点特征依据节点、边的属性初始化节点特征和边特征。将源节点特征和边特征e_(u，w)相乘生成包含边特征信息的邻居节点特征，具体公式如下：

式中：u表示节点u，(u,w)表示节点u指向w的有向边，E_u表示节点u的出射边集合，表示节点v在t-1层的节点嵌入特征向量，e_(v，u)表示节点v指向u的有向边的边嵌入特征向量，(v，u)表示节点v指向u的有向边，t表示模型计算节点嵌入特征向量的迭代层次，N_v表示目标节点v的邻居集合，E_v表示目标节点v的出射边集合。

(5)采用平均聚合方法，将目标节点和邻居节点的第t-1层特征向量拼接起来，然后对向量的每个维度进行求均值的操作，将得到的结果通过非线性激活函数sigmoid产生目标节点的第t层特征向量，具体公式如下：

式中：表示节点v在t层的节点嵌入特征向量，W表示特征矩阵，MEAN()表示累加求平均。

(6)不断迭代步骤(3)(4)(5)以得到最后一层的特征，即节点嵌入特征向量。再通过平均相邻节点的嵌入特征向量来构造边嵌入特征向量，最后通过平均边嵌入特征向量来表示子图嵌入特征向量，具体公式如下：

式中：h_s表示子图嵌入特征向量，h_(u，v)表示边嵌入特征向量，h_v表示节点嵌入特征向量，E_s表示子图s的所有边集合，h_u表示节点u的节点嵌入特征向量，(u,v)表示子图s中的一条边，该条边是节点u指向节点v。

(7)基于DGL图神经网络框架的GraphSAGE模型。

通过上述训练过程即可获得基于DGL图神经网络框架的GraphSAGE模型。

步骤102、将查询负载中的SPARQL查询语句转换为第一查询图，确定所述第一查询图中的频繁查询子图。

其中，查询负载是由RDF图数据库的查询日志中SPARQL查询语句所构成的一个查询集合，第一查询图不止一个，该第一查询图是一个查询图集合。第一查询图为RDF图，子图是原图中的一部分，获取第一查询图后，根据第一查询图的子图的频率得到所有第一查询图中的所有频繁查询子图，第一查询图中的频繁查询子图不止一个，该频繁查询子图是一个频繁查询子图集合。

步骤103、利用所述训练后的网络模型将所述频繁查询子图的结构特征转换为对应的第一子图嵌入特征向量。

GraphSAGE图神经网络模型采用归纳学习算法，训练一个新的图或者有若干个新节点加入到已训练的图中时，该模型通过共享的参数，将图的结构特征转换为嵌入特征向量。因此利用训练后的网络模型可以将每一个频繁查询子图的结构特征转换为对应的第一子图嵌入特征向量，此处的第一子图嵌入特征向量为一个向量集合。

步骤104、获取所述频繁查询子图在RDF图数据库索引中的查询结果和索引中间值。

在获取每一个频繁查询子图在RDF图数据库索引中的查询结果和索引中间值后进行记录。具体地，索引中间值为基于结构特征的索引中间值，原有RDF图数据库的索引结构中定义了一些变量，该类变量包括RDF数据图的结构信息，可以提前存储该类变量，若在查询过程中遇到相同的结构信息，便可通过存储的变量对原数据库索引结构进行定位，避免了从头进行计算，从而加速子图匹配过程。

步骤105、根据所述第一子图嵌入特征向量、所述查询结果以及所述索引中间值构建辅助索引。

具体地，通过第一子图嵌入特征向量提取频繁查询子图的结构特征信息，由于查询结果为频繁查询子图在RDF图数据库索引中的查询结果，因此每一个查询频繁子图都有对应的查询结果，而每一个查询频繁子图都有对应的第一子图嵌入特征向量，因此第一子图嵌入特征向量与查询结果是对应关系。基于第一子图嵌入特征向量、查询结果以及索引中间值构建辅助索引，便于后续通过辅助索引快速完成查询。

步骤106、将目标SPARQL查询语句转换为第二查询图，利用所述训练后的网络模型将所述第二查询图的结构特征转换为第二子图嵌入特征向量。

具体地，第二查询图为单一的一个查询图，将目标SPARQL查询语句转换为第二查询图后，利用训练后的GraphSAGE图神经网络模型的可移植性，将第二查询图的结构特征转换为第二子图嵌入特征向量。

步骤107、在所述辅助索引中对所述第二子图嵌入特征向量进行检索，确定查询结果。

在辅助索引中对第二子图嵌入特征向量进行检索，根据第二子图嵌入特征向量以及检索到的辅助索引中的第一子图嵌入特征向量的关系确定最终查询结果。

综上，在本发明实施例中，利用RDF图数据训练GraphSAGE图神经网络模型，确定训练后的网络模型，将查询负载中每一条SPARQL查询语句转换为第一查询图，根据第一查询图确定所有第一查询图中的所有频繁查询子图，利用训练后的网络模型将每一个频繁查询子图的结构特征转换为第一子图嵌入特征向量，提取了频繁查询子图的结构特征；然后根据第一子图嵌入特征向量、查询结果以及索引中间值构建辅助索引。基于目标SPARQL查询语句确定第二子图嵌入特征向量，提取了第二子图的结构特征，在辅助索引中对第二子图嵌入特征向量进行检索，从而将子图匹配转换成子图的向量匹配，利用辅助索引加速了查询过程，进而提高RDF数据的查询效率。

在一种可能的实施方式中，还包括：基于子图挖掘算法确定所述第一查询图中的所述频繁查询子图。

具体地，使用子图挖掘算法获取子图的访问频率，对子图访问频率进行排序，设定最小支持度并选取不小于该支持度的所有子图，即可得到第一查询图中的频繁查询子图。子图挖掘算法的具体过程如下：

(1)输入：一组查询图G；

(2)从每个查询图G_b中选出f个模式p_{b(b＝1，...，f)}；

(3)在所有查询图G_b中计算子图访问频率acc(p)；

(4)设定最小支持度minSup，当模式p的访问频率acc(p)不小于最小支持度minSup时，将其置为频繁查询子图；

(5)输出：频繁查询子图。

上述实施例中通过子图挖掘算法抽取第一查询图中具有相似结构的查询子图，获得具有高访问率的频繁查询子图。

在一种可能的实施方式中，所述利用所述训练后的网络模型将所述频繁查询子图的结构特征转换为对应的第一子图嵌入特征向量包括：

根据所述第一节点嵌入特征向量确定第一边嵌入特征向量；

具体地，嵌入特征向量是一种在某些数值空间中表示概念的模型，具体来说，是将离散变量表示为连续向量的方法。在同一模型下，数据图结构中相似节点的嵌入特征向量是邻近的向量，因此，结构相似的子图也具有相似的嵌入特征向量表示。每一个频繁查询子图都有一个表示图结构的子图嵌入特征向量。获得第一节点嵌入特征向量后，通过平均相邻节点嵌入特征向量来构造第一边嵌入特征向量，最后通过平均边嵌入特征向量来表示第一子图嵌入特征向量。

上述实施例中基于训练后的网络模型将每一个频繁查询子图的结构特征转换为第一节点嵌入特征向量，继而确定第一边嵌入特征向量以及第一子图嵌入特征向量，从而将图转换为嵌入特征向量，以便后续将子图匹配转换为向量匹配。

在一种可能的实施方式中，所述根据所述第一子图嵌入特征向量、所述查询结果以及所述索引中间值构建辅助索引包括：

具体地，矢量量化压缩为现有技术，它的优点是压缩比大，解码简单且能够很好的保留信号的细节。

参照图2，根据RDF图数据训练GraphSAGE图神经网络模型，得到训练后的GraphSAGE图神经网络模型。基于SPARQL查询语句确定频繁查询子图，利用训练后的网络模型将频繁查询子图的结构特征转换为对应的第一节点嵌入特征向量，根据第一节点嵌入特征向量确定第一子图嵌入特征向量。RDF图数据库内置索引结构，获取频繁查询子图在RDF图数据库索引中的查询结果和索引中间值；对第一子图嵌入特征向量进行矢量量化压缩，根据压缩后的第一子图嵌入特征向量、查询结果以及索引中间值构建辅助索引。辅助索引由散列表实现，查询结果为在RDF数据库索引中的查询结果，索引中间值包含了与RDF图数据库索引相关的结构特征。在构建散列表后，通过压缩后的第一子图嵌入特征向量训练维度划分器和成本估计器，利用维度划分器对压缩后的第一子图嵌入特征向量进行维度划分使得索引开销最小，获得分配后的第一子图嵌入特征向量。

在一种可能的实施方式中，在所述散列表中，将所述压缩后的第一子图嵌入特征向量设置为键，将所述查询结果以及所述索引中间值设置为值。

具体地，辅助索引基于散列表实现，构建一个长度不超过n的散列表，其中，n与RDF数据图的大小保持正相关，散列表的中每个元素即代表一个频繁查询子图，通过哈希函数映射在散列表中的不同位置。将散列表元素的第一部分内容设置为频繁查询子图在数据库中查询的最终结果，散列表元素的第二部分内容为基于RDF图数据库原有的索引结构，可反映频繁查询子图结构特征的索引中间值。

上述实施例先对第一子图嵌入特征向量进行矢量量化压缩，然后根据压缩后的第一子图嵌入特征向量、查询结果以及索引中间值构建辅助索引，有助于后续利用辅助索引加速查询过程，进而提高RDF数据的查询效率。

在一种可能的实施方式中，所述根据所述压缩后的第一子图嵌入特征向量、所述查询结果以及所述索引中间值构建散列表后，还包括：

在图3中，历史查询压缩嵌入特征向量是压缩后的第一子图嵌入特征向量中出现频率更大的第一子图嵌入特征向量的集合，通过历史查询压缩嵌入特征向量训练维度划分器和成本估计器，进行历史查询就是找出数据库中与压缩后的第一子图嵌入特征向量相似度阈值低于目标阈值的所有向量。维度划分器的输入为压缩后的第一子图嵌入特征向量、历史查询压缩嵌入特征向量、分区个数m、重叠维度、目标阈值，输出为分配后的第一子图嵌入特征向量。通过维度划分器对压缩后的第一子图嵌入特征向量进行维度划分，并存储到各个分区，获得分配后的第一子图嵌入特征向量。基于维度划分，初始化空列表，得到反向列表，该反向列表存储每个分区下所有划分向量与其完全向量的映射。成本估计器(SimCardNet)是一个神经网络模型，该模型的输入为分配后的第一子图嵌入特征向量、历史查询压缩嵌入特征向量、目标阈值，输出为Card<q,r>，即在目标阈值下查询历史查询压缩嵌入特征向量，检索索引所需要的估计成本。MLP表示多层感知器，在成本估计器(SimCardNet)的训练过程中，将MLP学习到的嵌入通过全连接层(FC)，并将ReLu函数作为激活函数，从而得到估计成本。

具体地，参照图3，通过压缩后的第一子图嵌入特征向量训练维度划分器，通过训练好的维度划分器对压缩后的第一子图嵌入特征向量进行分区，从而得到分配后的第一子图嵌入特征向量。在获得分配后的第一子图嵌入特征向量后，根据分配后的第一子图嵌入特征向量训练成本估计器(SimCardNet)。

由于高维度嵌入特征向量定义了一个余弦相似度空间，为了过滤出不合格的候选空间，加速后续NN检索，本发明提出了一种CSAP方法，该方法首先对嵌入特征向量进行矢量量化压缩，再利用压缩后的嵌入特征向量训练维度划分器和成本估计器。维度划分器使压缩后的嵌入特征向量划分成多个可相交的不等长子向量，并建立反向列表保持从子向量到原向量的映射，以过滤出不合格的候选空间。成本估计器对不同阈值的候选成本进行估计，预测NN初始搜索阈值，并分配至各子向量空间，以加速后续NN检索。

本发明中的CSAP方法是对现有的HAP方法的改进，将原有HAP方法中的汉明距离替换成余弦相似度，以及增加对嵌入特征向量进行矢量量化压缩步骤。汉明距离用来表示两个相同长度的字符串在相同位置上不同字符的个数，它可以用来计算两个文本之间的相似度，根据不同字符的个数来判断两个文本是否相似。

原本压缩后的第一子图嵌入特征向量很长，对压缩后的第一子图嵌入特征向量进行维度划分，将原本的压缩后的第一子图嵌入特征向量划分成多段。

辅助索引基于CSAP方法，由散列表实现。

在一种可能的实施方式中，所述在所述辅助索引中对所述第二子图嵌入特征向量进行检索，确定查询结果包括：

NN检索就是根据数据的相似性，从数据库中寻找与目标数据最相似的项目，而这种相似性通常会被量化到空间上数据之间的距离，可以认为数据在空间中的距离越近，则数据之间的相似性越高。计算第一子图嵌入特征向量与第二子图嵌入特征向量的余弦相似性，获得最相邻的一个压缩后的第一子图嵌入特征向量，通过NN检索确定的最相邻的一个压缩后的第一子图嵌入特征向量是与第二子图嵌入特征向量最相似的压缩后的第一子图嵌入特征向量。

在一种可能的实施方式中，所述在所述辅助索引中对所述第二子图嵌入特征向量进行NN检索，确定最相邻的所述压缩后的第一子图嵌入特征向量包括：

具体地，第二查询图为目标查询图，所以压缩后的第二子图嵌入特征向量也就是目标子图嵌入特征向量，按照压缩后的第一子图嵌入特征向量训练好的维度划分规则对压缩后的第二子图嵌入特征向量进行维度划分，然后按分区进行阈值分配。

由于对压缩后的第一子图嵌入特征向量进行了维度划分，对压缩后的第二子图嵌入特征向量进行了维度划分和阈值分配，因此按分区计算分配后的第一子图嵌入特征向量和分配后的第二子图嵌入特征向量的余弦相似度，获得最相邻的一个压缩后的第一子图嵌入特征向量。成本估计器可以估计各个阈值下第一子图嵌入特征向量和第二子图嵌入特征向量的余弦相似度的成本，然后选取成本最小且满足NN的阈值输出，这样，通过NN检索时就不用从0这个阈值开始循环加一进行匹配，而是从成本估计预测的阈值开始循环加一进行匹配。

图4为确定最相邻的一个压缩后的第一子图嵌入特征向量的流程示意图。

在图4中，对第二子图嵌入特征向量进行矢量量化压缩，获得压缩后的第二子图嵌入特征向量，对压缩后的第二子图嵌入特征向量进行了维度划分，得到Q1，…，Qm。在查询预处理器中，通过成本估计器可以确定各阈值下的候选成本，将最小候选成本对应的阈值作为NN查询的整体初始估计阈值，通过阈值分配器把阈值进行拆分，分配到每一个分区。阈值分配器的输入为分配后的第二子图嵌入特征向量，输出为各个分区的阈值，在阈值分配的过程中，随机对每个分区分配初始阈值，利用成本估计器计算各个分区的候选成本，该候选成本为估计值，使用动态规划算法，求出最小成本时的各分区阈值，从而为不同分区分配最优阈值。对于每一个分区，若计算的余弦相似度小于该分区的阈值，则根据反向列表将符合阈值要求的向量所映射的压缩后的第一子图嵌入特征向量添加到候选嵌入特征向量的列表中，将所有分区的候选嵌入特征向量取并集，得到整个数据库的候选嵌入特征向量，再计算整个候选嵌入特征向量与第二子图嵌入特征向量的余弦相似度。图4中的反向列表是构建辅助索引时，基于维度划分初始化空列表L₁,L₂,..L_i,..L_m，每个列表存储该分区下所有划分向量与其完全向量的映射。若通过计算余弦相似度得到的余弦相似度均大于当前整体估计阈值，则提高整体估计阈值，通过阈值分配器把阈值进行拆分，分配到每一个分区。按照和上述相同的方法进行处理，直至得到的余弦相似度存在小于或等于当前整体估计阈值的情况，从而确定NN查询的查询结果。

在本发明实施例中，由于对第一子图嵌入特征向量进行了矢量量化压缩，对压缩后的第一子图嵌入特征向量进行维度划分，因此，对第二子图嵌入特征向量进行矢量量化压缩，对压缩后的第二子图嵌入特征向量进行维度划分，另外，对各分区进行阈值分配，从而便于进行NN检索时快速确定检索到的向量。

在一种可能的实施方式中，所述根据所述最相邻的所述压缩后的第一子图嵌入特征向量与所述第二子图嵌入特征向量的匹配结果确定最终查询结果包括：

具体地，第一子图嵌入特征向量与第二子图嵌入特征向量为精确匹配的含义是第一子图嵌入特征向量与第二子图嵌入特征向量的余弦相似度为1。参照图5，对第二子图嵌入特征向量进行矢量量化压缩，确定压缩后的第二子图嵌入特征向量，再通过CSAP方法进行NN检索，得到最相邻的第一子图嵌入特征向量，该第一子图嵌入特征向量为压缩后的第一子图嵌入特征向量，若最相邻的压缩后的第一子图嵌入特征向量与压缩后的第二子图嵌入特征向量为精确匹配，确定该最相邻的压缩后的第一子图嵌入特征向量在散列表中的定位，从而直接输出提前存储的查询结果。

在一种可能的实施方式中，所述根据所述最相邻的所述压缩后的第一子图嵌入特征向量与所述第二子图嵌入特征向量的匹配结果确定最终查询结果还包括：

具体地，相似匹配是指第一子图嵌入特征向量与第二子图嵌入特征向量的余弦相似度不为1，参照图5，若最相邻的压缩后的第一子图嵌入特征向量与第二子图嵌入特征向量不是精确匹配，也就是相似匹配，判断是否满足成本模型，该成本模型根据数据库的不同进行具体设计，若满足成本模型，获取最相邻的压缩后的第一子图嵌入特征向量在散列表中的定位，从而得到该最相邻的压缩后的第一子图嵌入特征向量提前存储的索引中间值，利用该索引中间值对原始数据库索引结构进行剪枝，回到原始数据库索引结构进行检索，输出查询结果；若不满足成本模型，则回到原始RDF数据库的索引结构，从头进行检索，最后输出查询结果。

上述实施例基于辅助索引进行查询，在检索到的最相邻的压缩后的第一子图嵌入特征向量与第二子图嵌入特征向量精确匹配时，将子图匹配转换成子图的向量匹配，在不是精确匹配时，对RDF图数据库中的索引空间进行剪枝，从而利用辅助索引加速了查询过程，进而提高RDF数据的查询效率。

虽然本发明公开披露如上，但本发明公开的保护范围并非仅限于此。本领域技术人员在不脱离本发明公开的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。

Claims

1.一种基于图神经网络的RDF图数据库子图匹配查询优化方法，其特征在于，包括：

将查询负载中的SPARQL查询语句转换为第一查询图，确定所述第一查询图中的频繁查询子图，其中，所述查询负载是由RDF图数据库的查询日志中SPARQL查询语句所构成的一个查询集合；

获取所述频繁查询子图在RDF图数据库索引中的查询结果和索引中间值，其中，所述索引中间值为原有RDF图数据库中预先定义的变量，所述变量用于表征RDF数据图的结构信息；

2.根据权利要求1所述的基于图神经网络的RDF图数据库子图匹配查询优化方法，其特征在于，所述根据所述第一子图嵌入特征向量、所述查询结果以及所述索引中间值构建辅助索引包括：

3.根据权利要求2所述的基于图神经网络的RDF图数据库子图匹配查询优化方法，其特征在于，所述根据所述压缩后的第一子图嵌入特征向量、所述查询结果以及所述索引中间值构建散列表后，还包括：

4.根据权利要求2所述的基于图神经网络的RDF图数据库子图匹配查询优化方法，其特征在于，在所述散列表中，将所述压缩后的第一子图嵌入特征向量设置为键，将所述查询结果以及所述索引中间值设置为值。

5.根据权利要求3所述的基于图神经网络的RDF图数据库子图匹配查询优化方法，其特征在于，所述在所述辅助索引中对所述第二子图嵌入特征向量进行检索，确定查询结果包括：

6.根据权利要求5所述的基于图神经网络的RDF图数据库子图匹配查询优化方法，其特征在于，所述根据所述最相邻的所述压缩后的第一子图嵌入特征向量与所述第二子图嵌入特征向量的匹配结果确定最终查询结果包括：

7.根据权利要求6所述的基于图神经网络的RDF图数据库子图匹配查询优化方法，其特征在于，所述根据所述最相邻的所述压缩后的第一子图嵌入特征向量与所述第二子图嵌入特征向量的匹配结果确定最终查询结果还包括：

8.根据权利要求5所述的基于图神经网络的RDF图数据库子图匹配查询优化方法，其特征在于，所述在所述辅助索引中对所述第二子图嵌入特征向量进行NN检索，确定最相邻的所述压缩后的第一子图嵌入特征向量包括：

根据所述训练好的维度划分器对所述压缩后的第二子图嵌入特征向量进行维度划分，并存储到各分区，获得分配后的第二子图嵌入特征向量；

9.根据权利要求1所述的基于图神经网络的RDF图数据库子图匹配查询优化方法，其特征在于，所述利用所述训练后的网络模型将所述频繁查询子图的结构特征转换为对应的第一子图嵌入特征向量包括：

根据所述第一节点嵌入特征向量确定第一边嵌入特征向量；

10.根据权利要求1所述的基于图神经网络的RDF图数据库子图匹配查询优化方法，其特征在于，还包括：基于子图挖掘算法确定所述第一查询图中的所述频繁查询子图。