CN113326284A

CN113326284A - 基于正则路径查询的搜索系统

Info

Publication number: CN113326284A
Application number: CN202110883483.4A
Authority: CN
Inventors: 张宾; 孙喜民; 周晶; 李晓明; 王帅; 孙博; 郑斌; 刘丹
Original assignee: State Grid E Commerce Co Ltd; State Grid E Commerce Technology Co Ltd
Current assignee: State Grid E Commerce Co Ltd; State Grid E Commerce Technology Co Ltd
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-08-31
Anticipated expiration: 2041-08-03
Also published as: CN113326284B

Abstract

本发明公开了基于正则路径查询的搜索系统，包括：数据库构建模块，用来对RDF数据图进行哈希编码，获得哈希值数据图；再以哈希值数据图的谓词作为key，以三元组作为value，使用key‑value分布式存储方式对哈希值数据图进行存储，获得克林闭包特征数据形式的key‑value数据图；遍历key‑value数据图，标记其中存在克林闭包的谓词及克林闭包谓词对应的三元组簇，将递归形式的三元组簇以递归树结构存储；选择度计算模块，用来基于递归树计算谓词的静态选择度以及两个谓词之间的连接选择度；搜索模块，用来在接收到查询语句时在数据库中进行搜索。本发明可获得查询路路径，可有效提高正则路径查询问题的效率，适合广泛应用。

Description

基于正则路径查询的搜索系统

技术领域

本发明属于搜索技术领域，具体涉及基于正则路径查询的搜索系统。

背景技术

随着知识图的不断扩展，资源描述框架（RDF）被广泛认为是一种代表大规模集成的灵活图数据模型。在各领域中实现大型RDF图的高效且可扩展的查询处理，已变得至关重要。RDF集合由一组三元组组成，包括形式主语、谓词、宾语，该三元组可简写为

，其中主语

代表一个全局唯一的资源，宾语

可以代表一个唯一的资源或文本（即字符串或数字），谓词

表示主语和宾语之间的关系。

RDF数据图

是一个有向、有标记的多图，其中，

表示数据节点集，

表示连接

中节点的有向边集，

表示边和节点的标签集。作为查询图形数据的基本操作之一，正则路径查询RPQ可以导航的方式浏览RDF图，这是大多数图查询语言中必不可少的组成部分。在RDF数据图上的正则路径查询

，是指在RDF数据图

上，其中

，

是由

组成的正则表达式，正则表达式

被递归地定义为

，其中

，

表示数据图G中的谓词，/表示连接，*表示克林闭包形式。其目的是找到一组资源对

，使得G中存在从x到y的路径ρ，该路径满足Q中的正则表达式r。

传统上，RPQ（Regular path query，正则路径查询）提供节点对，即正则表达式r起点和终点。但从RPQ标准语义来看，仅仅只能获知整个表达式r的起点和终点，无法获知正则表达式r到底经过了哪些节点，无处感知节点对出处。这种无法进行路径查询的搜索不适用存在复杂关系的搜索。

发明内容

本发明目的是提供基于正则路径查询的搜索系统，该系统聚焦查询的出处感知，通过谓词的选择性，将查询语句分解为多个较小的子查询，并分别查询子查询，在一个RDF图上得到整个表达式r所经过的子图，获得包含路径的搜索结果。

本发明实施例提供的基于正则路径查询的搜索系统，包括：

数据库构建模块，用来对RDF数据图进行哈希编码，获得哈希值数据图；再以哈希值数据图的谓词作为key，以三元组作为value，使用key-value分布式存储方式对哈希值数据图进行存储，获得克林闭包特征数据形式的key-value数据图；遍历key-value数据图，标记其中存在克林闭包的谓词及克林闭包谓词对应的三元组簇，将递归形式的三元组簇以递归树结构存储，获得数据库；

选择度计算模块，用来基于递归树计算谓词的静态选择度以及两个谓词之间的连接选择度；所述谓词的静态选择度为包含该谓词的三元组数量和递归树上三元组总数量的比值；所述连接选择度

；其中，

和

分别表示以p和q为谓词的三元组数量，

则是谓词p和q之间的连接选择度，l为RDF数据图的平均分枝l，

表示谓词p和其他谓词平均可能连接的最大次数，

表示谓词q和其他谓词平均可能连接的最大次数，

表示谓词p和q之间最多可能存在的连接次数；

搜索模块，用来在接收到查询语句时在数据库中进行搜索；所述查询语句由若干普通的路径查询和若干克林闭包表达式查询构成；

所述搜索模块进一步包括：

查询分解子模块，用来基于克林闭包表达式将查询语句分解为多个子查询；

查询序列生成子模块，用来按总选择度从高到低对子查询排序，生成查询序列；所述总选择度指子查询中所有谓词的静态选择度之和；

查询执行子模块，用来按序对查询序列中各子查询依次在数据库中执行查询，查询时以子查询中静态选择度最高的谓词作为起点，并选择连接选择度大的方向进行方向连接，获得子查询结果；

连接子模块，用来连接所得所有子查询结果并输出。

可选的，在一些实施例中，连接所得所有子查询结果，包括：

子查询全部生成结果表后，从左到右依次连接；先把两个结果表的接点进行连接操作；然后左列新生成的结果去和左结果表做连接操作，右列新生成的结果去和右结果表做连接操作；最后将两个结果表合并在一起，继续和下一个结果表做连接操作。

可选的，在一些实施例中，RDF数据图为社交关系RDF数据图、高校关系RDF数据图或交通网络RDF数据图。

本发明采用上述的技术方案，取得如下技术效果：

本发明通过将查询分解，可在RDF图上得到整个表达式r所经过的所有子图，便于重现工作；可有效提高正则路径查询问题的效率，适合广泛应用。

附图说明

图1为实施例中本发明系统的结构框图；

图2为具体实施方式中RDF数据图示意；

图3为图2中RDF数据图的key-value分布式存储示意；

图4为递归树示意图。

具体实施方式

下面将结合附图对本发明的具体实施方式做详细说明。显然，所描述的具体实施方式仅仅是本发明的一部分实施例，而不是全部的实施例。基于所描述的具体实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

本发明基于正则路径查询的搜索系统的执行主体可以是任意的软件和/或硬件。本发明基于正则路径查询的搜索系统，可对包含关系的数据图进行正则路径查询，获得包含关系的查询结果。包含关系的数据图可以为包含人物关系的RDF数据图、包含学校关系的RDF数据图、交通网络RDF数据图等。本发明基于正则路径查询的搜索系统适用于存在复杂关系的知识图谱构建，例如高校知识图谱、社交知识图谱、交通知识图谱等。

参见图1，所示为本发明系统的结构图，包括如下模块：

（一）数据库构建模块，用来将RDF数据图进行预处理，得到克林闭包特征数据形式的key-value数据图，并存储于数据库。

首先，将收集的RDF数据图进行预处理，并以key-value形式存储，作为查询对象。RDF数据图可以为社交关系RDF数据图、高校关系RDF数据图、交通网络RDF数据图等。

数据库构建模块的执行流程具体如下：

（1）对RDF数据图进行哈希编码，获得哈希值数据图。

本实施例中利用C++编写哈希值编码方法和相应的哈希值解码方法，以保证数据的可靠性。本发明对哈希值编码方法和哈希值解码方法不做限制，采用常用的哈希值编解码方法即可。

（2）以哈希值数据图的谓词作为key，以三元组作为value，使用key-value分布式存储方式对哈希值数据图进行存储，获得克林闭包特征数据形式的key-value数据图。

图2所示为一常见的RDF数据图，图中a、b、c代表3种不同路径，实际应用中则表示关系，就图2而言，1和3之间以及2和3之间具有相同的关系a，箭头则表示关系的方向。例如，1表示小明，3表示小刚，关系a表示父子关系，则小明是小刚的父亲。图3所示为将图2的RDF数据图处理后以key-value形式存储，即key-value数据图。其中“1-3”、“3-4”、“5-3”、“3-2”、“2-6”则分别为三元组。本发明利用哈希值数据图的三元组数据特点进行key-value存储。谓词对应的三元组必定存在多条，因此谓词和三元组之间的联系更紧密。本发明通过以谓词作焦点，把整个RDF数据图分割开来，当进行处理时，可保证不被其他无关谓词的三元组打扰。

（3）遍历key-value数据图，标记其中可能存在克林闭包的谓词及克林闭包谓词对应的三元组簇，将递归形式的三元组簇以递归树结构存储，以方便以后的查询。

图4所示仅用来示意递归树形式，其并不与图2和图3所举例对应。递归树中每一节点表示一个实体，即三元组中的主语s或宾语o，节点之间的边是谓词。在同一递归树中，所有的边表示的谓词都是同一个，这样就形成了对某一个谓词能够以克林闭包形式查找的数据结构。即从原本的三元组簇中抽取出能够符合图4形式的部分，作为该谓词的递归树，如果不存在则不会生成。

参见图4，1’、2’、3’、4’、5’、6’、7’、8’分别表示不同的实体，带箭头的线段表示实体间的关系。一个实施例中，1’、2’、3’、4’、5’、6’、7’、8’分别表示赵一、钱二、孙三、李四、周五、吴六、郑七、陈八；带箭头的线段表示孩子关系，即赵一的孩子是钱二，钱二的孩子是孙三，孙三的孩子是李四，李四的孩子是周五，吴六的孩子也是钱二，陈八的孩子是郑七，郑七的孩子也是李四。

存在克林闭包的谓词指：对某个谓词或某个谓词表达式反复进行递归查询，直到没有结果，其中查找到的所有结果都是该谓词的克林闭包答案，该某个谓词即克林闭包谓词，通常意义上以“*”作为标志符，如a*表示谓词a是一个克林闭包谓词。递归查询指对谓词或谓词表达式生成的结果，继续以该谓词或谓词表达式进行查询。

（二）选择度计算模块，用来基于递归树计算谓词的静态选择度以及两个谓词之间的连接选择度。

谓词的静态选择度定义为：该谓词对应的三元组数量和递归树上三元组总数量的比值。两个谓词之间的连接选择度定义为：每两个谓词，通过他们所有三元组连接的可能和他们各自三元组的数量乘以整个数据图平均分支的数量的比值，整个数据图的平均分枝l就是三元组总数和谓词数量的比值。公式（1）中，

和

分别表示递归树中以p和q为谓词的三元组数量，

则是通过谓词p和q连接的所有可能三元组，

表示谓词p和其他谓词平均可能连接的最大次数，

表示谓词q和其他谓词平均可能连接的最大次数，

即谓词p和q之间的连接选择度。基于谓词之间的连接选择度选择下一步查询方向。

（1）

利用已存储的key-value数据图，每两个谓词作为一组，使用二者对应的三元组数量比值作为两个谓词做连接操作的选择度。

（三）搜索模块，用来在接收到查询语句时在数据库中进行搜索。

搜索模块进一步包括如下子模块：

（1）查询分解子模块，用来基于克林闭包表达式将查询语句分解为多个子查询。

一个完整的查询应包括多个普通路径查询和多个克林闭包表达式查询，以克林闭包表达式作为查询分解的界限，将大查询分成多个子查询。此次分解是通过克林闭包表达式为界做分解，每个子查询组内包含一条路径。由于克林闭包表达式是以括号来包含括号内容并采用符号“*”来修饰，因此，以克林闭包表达式为界，则可将克林闭包表达式中括号左侧、括号内以及括号右侧的查询分别作为分解后的子查询。

例如一个完整查询为（a’/(b’/c’)*/d’，克林闭包表达式以括号加符号“*”来修饰，所以该查询中(b’/c’)*为克林闭包表达式，a’和d’为普通的查询表达式。利用克林闭包表达式为界，可将该查询语句分解为a’、d’和b’/c’三个子查询。

（2）查询序列生成子模块，用来按总选择度从高到低对子查询排序，生成查询序列。

针对由多个普通路径查询和多个克林闭包路径查询构成的完整查询，本发明通过克林闭包表达式将查询分解，每个克林闭包表达式对应一个子查询，被分割开的查询也成为了多个子查询。进一步利用子查询的总选择度，一个子查询的总选择度即其中所有谓词的静态选择度之和，将子查询按总选择度排序，按序顺次查找子查询。这样，就生成了一个查询序列。

（3）查询执行子模块，用来按序对查询序列中各子查询依次在数据库中执行查询，查询时以子查询中静态选择度最高的谓词作为起点，并选择连接选择度大的方向进行方向连。

首先选择查询序列中总选择度最高的子查询，以该子查询中静态选择度最高的谓词作为当前子查询的起点，对该当前子查询执行查询。

本查询执行子模块直接执行一个子查询内的操作，选定静态选择度最高的谓词，并把该谓词对应的三元组全部存入到结果表中。在对子查询进行查询时，从起点开始，向左右连接操作，以谓词之间连接选择度的作为优先。在对子查询进行查询时，从起点开始，比较该起点与其左右谓词间的连接选择度，选择连接选择度高的方向左优先连接。

此处实际为连接操作，先利用结果表中的最右侧结果列和下一条查询语句中最左端谓词引入的三元组，做连接操作生成进一步的结果。克林闭包的查询将会记录谓词出现在递归树中的位置以及生成在结果表中的位置，因为当克林闭包的查询结果向右连接时，它们递归产生的那些结果不应该被算入其中，只有左连接那些结果是需要参与的。连接操作为：结果表中的最右列和谓词对应的三元组簇，两者分别取出一个三元组，如果结果列三元组的宾语和谓词三元组的主语相同，就代表谓词三元组是答案之一，就将该三元组放入到新的结果列中，如果结果列三元组无法再谓词三元组簇中找到相匹配的，就把这个三元组从结果列中移除。最后生成的新结果列和结果表合并，新结果列就成为了结果表的最右列，然后去和下一个谓词做连接操作。

（4）连接子模块，用来连接所得所有子查询结果并输出。

子查询全部生成结果表后，将所有的子查询结果表合成一个结果表，即该正则路径查询的答案。具体来说，将所有结果表从左到右依次合并，先把两个结果表的接点进行连接操作；然后左列新生成的结果去和左结果表做连接操作，右列新生成的结果去和右结果表做连接操作。最后将两个结果表合并在一起，继续和下一个结果表做连接操作。生成最后的结果表，表中每行数据则是正则路径查询出处感知结果。

本发明搜索系统可对包含关系的数据图进行正则路径查询，并获得包含关系的查询结果。下面将提供该搜索系统一个具体的应用场景。例如，对于查询语句，将查询语句表示为正则表示式r=（父亲/儿子/（妻子/弟弟）^*），对查询语句进行分解，获得子查询（父亲/儿子）和（妻子/弟弟），分别记为子查询Q1和Q2。通过比较子查询Q1和Q2的总选择度大小，将子查询Q1、Q2根据总选择度高低排序，获得相应的查询序列。如果Q1的总选择度高于Q2的，则按照先Q1后Q2的顺序分别对子查询Q1、Q2进行查询。

本具体应用场景中，假设子查询Q1获得的查询结果为：张三的父亲是李四，李四的儿子是王五；假设子查询Q2获得查询结果为：王五的妻子是赵六，赵六的弟弟是冯七。再对子查询Q1、Q2的查询结果做连接操作，则获得张三和冯七符合正则表达式r的关系，即带路径的查询结果。如果子查询Q2的查询结果为：赵六的妻子是王五，王五的弟弟是冯七，则子查询Q1、Q2的查询结果的连接操作没有答案，因为身为李四儿子的王五，不可能是妻子。正则表示式中“*”表示克林闭包修饰符，表示（妻子/弟弟）可反复查询自身。如子查询Q2的查询结果为：王五的妻子是赵六，赵六的弟弟是冯七。根据克林闭包特性，可以继续查找冯七的妻子是某某，某某的弟弟是某。例如冯七的妻子是amy，amy的弟弟是tom，那么冯七->amy->tom和王五->赵六->冯七都是子查询Q2的查询答案。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。