CN107229704A

CN107229704A - 一种基于ksp算法的资源描述框架查询方法和系统

Info

Publication number: CN107229704A
Application number: CN201710379796.XA
Authority: CN
Inventors: 吴定明; 石杰明; 尼克斯·孟每恩; 袁帅
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2017-05-25
Filing date: 2017-05-25
Publication date: 2017-10-03

Abstract

本发明提供一种基于KSP算法的资源描述框架查询方法，用于利用KSP算法在RDF图上搜索查询关键字的语义位置，该查询方法对用户是友好的，用户不需要掌握专门的查询语言，只需要输入查询的关键字，查询方法将返回在查询位置附近，包含所有输入的查询关键字的子树。

Description

一种基于KSP算法的资源描述框架查询方法和系统

技术领域

本发明涉及语义网数据检索技术，尤其涉及一种基于KSP算法的资源描述框架查询方法和系统。

背景技术

资源描述框架(ResourceDescriptionFramework，RDF)是用于表达WEB资源的元数据的通用框架，它使用统一资源描述符(URI)来表示事物，用简单的属性和属性值来描述事物，RDF把数据表示为<主体，谓词，客体>，其中用于标识事物为主体，用于区分主语对象各个不同属性的那部分为谓词，陈述中用于区分各个属性的值的部分叫做客体。因此RDF知识库也可以看做是一个有向图，其中顶点是资源、性质、文字、描述，边是谓词用来描述顶点之间的关系。

RDF知识库可以建模成一个有向图，其中顶点表示实体，边表示实体之间关系。在RDF图中我们称存在空间坐标的顶点为位置顶点(places)。我们用v表示RDF图中的任意顶点，用p表示位置顶点。每一个RDF三元组对应一条从一个实体(主体)到另一个实体(客体)的有向边。为了实现关键字的搜索，每一个实体都对应一个文档，用ψ表示，该文档是从该实体对应的资源、性质、文字、描述中提取的关键字组成。语义位置(semantic place)是RDF图的一颗子树，该子树以位置顶点p为根，且包含所有的查询关键字。从一个给定的位置顶点p出发可以构造多个语义位置。

现有的RDF数据是使用结构化查询语言(Structured Query Language)进行访问，如SPARQL(Simple Protocol and RDF Query Language)。但是标准的SPARQL查询需要用户完全了解语言本身，并且了解数据域。因此SPARQL限制数据访问主要是数据域专家，因为它对普通用户是不友好的，也就是说对RDF数据进行查询时，需要用户懂得查询语言和RDF语义，否则无法进行查询。

发明内容

本发明旨在解决现有技术中需要用户懂得查询语言和RDF语义否则无法进行查询的技术问题，提供一种基于KSP算法的资源描述框架查询方法和系统。

本发明的实施例提供一种基于KSP算法的资源描述框架查询方法，用于利用KSP算法在RDF图上搜索查询关键字的语义位置，所述查询方法包括以下步骤：

初始化存放结果函数H_k，其中存放结果函数H_k用于保存符合条件的语义位置QSP，符合条件的语义位置QSP为包含所有查询关键字的子树，k为符合条件的语义位置QSP的数量；

根据预设的文档倒排索引表和预设的所有查询关键字对应的半径字领域表，对用户输入的查询关键字中的每个关键字进行循环遍历，得到输入的查询关键字对应的倒排索引表，以及得到每个关键字对应的值，并加载在预设的所有查询关键字对应的半径字领域表中；

根据所述输入的查询关键字和输入的查询关键字对应的倒排索引表，构建字典结构，其中所述字典结构表示含有所述输入的查询关键字的节点；

初始化单调排序函数的值θ，其中单调排序函数表示对根据输入的查询关键字查找的多个最紧凑的符合条件的语义位置进行排序，最紧凑的符合条件的语义位置表示为以p为根节点的松散度最小的符合条件的语义位置；

预设的空间索引中根节点进入队列，得到位置节点队列Q；

根据输入的查询关键字和位置节点队列Q，遍历预设的空间索引得到节点e，并对节点e进行判断；

当节点e为包含空间位置信息的顶点，判断e是否为不符合条件节点，若e为不符合条件节点则结束本次循环，进入下次循环，当节点e为包含空间位置信息的顶点，且判断节点e不是不符合条件节点时，则执行函数GETSEMANTICPLACE，得到符合条件的语义位置的子树T_p和子树T_p的松散度值L(T_p)，并判断是否为L(T_p)＝＝+∞，如果是，则结束本次循环，如果否,计算松散度值L(T_p)的排序分数f，并将松散度值L(T_p)和对应排序分数f插入存放结果函数H_k且更新单调排序函数的值θ；

当节点e为节点N时，循环遍历节点N下的每一个节点，计算N下每个节点e对应的半径字的松散度值和对应半径字的排序分数当时，则把对应节点e插入位置节点队列Q并返回所述根据输入的查询关键字和位置节点队列Q，在预设的空间索引中查找节点e的步骤，直到

根据存放结果函数H_k向用户返回查询结果。

本发明还提供一种实施例的基于KSP算法的资源描述框架查询系统，用于利用KSP算法在RDF图上搜索查询关键字的语义位置，所述查询系统包括：

第一初始化模块，用于初始化存放结果函数H_k，其中存放结果函数H_k用于保存符合条件的语义位置QSP，符合条件的语义位置QSP为包含所有查询关键字的子树，k为符合条件的语义位置QSP的数量；

循环遍历模块，用于根据预设的文档倒排索引表和预设的所有查询关键字对应的半径字领域表，对用户输入的查询关键字中的每个关键字进行循环遍历，得到输入的查询关键字对应的倒排索引表，以及得到每个关键字对应的值，并加载在预设的所有查询关键字对应的半径字领域表中；

构建模块，用于根据所述输入的查询关键字和输入的查询关键字对应的倒排索引表，构建字典结构，其中所述字典结构表示含有所述输入的查询关键字的节点；

第二初始化模块，用于初始化单调排序函数的值θ，其中单调排序函数表示对根据输入的查询关键字查找的多个最紧凑的符合条件的语义位置进行排序，最紧凑的符合条件的语义位置表示为以p为根节点的松散度最小的符合条件的语义位置；

生成队列模块，用于预设的空间索引的根节点进入队列，得到位置节点队列Q；

查找循环模块，用于根据输入的查询关键字和位置节点队列Q，遍历预设的空间索引得到节点e并对节点e进行判断；

顶点处理模块，用于当节点e为包含空间位置信息的顶点时，判断节点e是否为不符合条件节点，若节点e为不符合条件节点则结束本次循环，进入下次循环，当节点e为包含空间位置信息的顶点，且节点e不是不符合条件节点，则执行函数GETSEMANTICPLACE，得到符合条件的语义位置的子树T_p和子树T_p的松散度值L(T_p)，并判断是否为L(T_p)＝＝+∞，如果是，则结束本次循环，如果否,计算松散度值L(T_p)的排序分数f，并将松散度值L(T_p)和对应排序分数f插入存放结果函数H_k且更新单调排序函数的值θ；

节点处理模块，用于节点e为节点N时，循环遍历节点N下的每一个节点，计算N下每个节点e对应的半径字的松散度值和对应半径字的排序分数当时，则把对应节点e插入位置节点队列Q并进入查找循环模块，直到

输出结果模块，用于根据存放结果函数H_k向用户返回查询结果。

本发明还提供一种实施例的计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明的技术方案与现有技术相比，有益效果在于：该KSP算法对用户是友好的，用户不需要掌握专门的查询语言，只需要输入查询的关键字，算法将返回在查询位置附近，包含所有关键字的子树。

附图说明

图1是本发明基于KSP算法的资源描述框架查询方法一种实施例的流程图。

图2是本发明基于KSP算法的资源描述框架查询方法另一种实施例的流程图。

图3是本发明文档倒排索引表一种实施例的示意图。

图4是本发明所有查询关键字对应的半径字领域表的创建方法一种实施例的流程图。

图5是本发明基于KSP算法的资源描述框架查询系统一种实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

具体的，KSP算法中的查询序列q由三部分组成，包括查询位置q.λ，查询关键字q.ψ,和语义位置数量k。

具体的，对于一个给定kSP查询序列q，和一个RDF图G＝<V,E>，其中V表示RDF图的顶点，E表示RDF图的边，符合条件的语义位置QSP是一棵树T_p＝<V',E'>，其中T_p的根节点为p，并且满足

为了方便介绍，用<p,(v₁,v₂...)>表示一个语义位置，其中p是根节点，(v₁,v₂...)表示其他所有的顶点。给定一个查询序列q可能存在多个符合条件的语义位置QSP，符合条件的语义位置QSP有相同的根节点p，但(v₁,v₂...)不同。因此还需要计算T_p的松散度L(T_p)。

具体的，对于一个给定QSP T_p＝<V',E'>，令表示从根节点p到包含关键字t_i的节点v的最短距离，其中t_i∈q.ψ，d(p,v)为p到v的最短距离，所以T_p的松散度值L(T_p)为：如果松散度越小，根节点和其他节点覆盖了所有输入的查询关键字的相关性越高。因此对于一个给定的位置顶点p,以位置顶点p为根节点，我们要找的是最紧凑的符合条件的语义位置TQSP，表示以p为根节点的松散度值最小的QSP。

另外，在RDF图上，对于一个给定的kSP的查询序列q，查询结果为K个TQSP，且这K个TQSP的分数(Ranking Score)是所有TQSP中最小的，松散度L(T_p)的排序分数f，用函数f(L(T_p),S(q,p))表示，L(T_p)为子树T_p松散度，S(q,p)为q.λ查询位置和p之间的欧式距离。函数f(L(T_p),S(q,p))可以为任意的单调排序函数，f(L(T_p),S(q,p))＝L(T_p)×S(q,p)。

本发明一个实施例的基于KSP算法的资源描述框架查询方法，用于利用KSP算法在RDF图上搜索查询关键字的语义位置，如图1所示，所述构造方法包括以下步骤：

步骤S101，初始化存放结果函数H_k，其中存放结果函数H_k用于保存符合条件的语义位置QSP，符合条件的语义位置QSP为包含所有查询关键字的子树，k为符合条件的语义位置QSP的数量；

步骤S102，根据预设的文档倒排索引表和预设的所有查询关键字对应的半径字领域表，对用户输入的查询关键字中的每个关键字进行循环遍历，得到输入的查询关键字对应的倒排索引表，以及得到每个关键字对应的值，并加载在预设的所有查询关键字对应的半径字领域表中；

步骤S103，根据所述输入的查询关键字和输入的查询关键字对应的倒排索引表，构建字典结构，其中所述字典结构表示含有所述输入的查询关键字的节点；

步骤S104，初始化单调排序函数的值θ，其中单调排序函数表示对根据输入的查询关键字查找的多个最紧凑的符合条件进行排序，最紧凑的符合条件的语义位置表示为以p为根节点的松散度最小的符合条件的语义位置；

步骤S105，预设的空间索引的根节点进入队列，得到位置节点队列Q；

步骤S106，根据输入的查询关键字和位置节点队列Q，遍历预设的空间索引得到节点e，并对节点e进行判断，当节点e为包含空间位置信息的顶点，进入步骤S107，当节点e为节点N，进入步骤S111；

步骤S107，判断节点e是否为不符合条件节点，如果是，则结束本次循环，进入下次循环即返回步骤S106，如果否，进入步骤S108；

步骤S108，执行函数GETSEMANTICPLACE，得到符合条件的语义位置的子树T_p和子树T_p的松散度值L(T_p)；

步骤S109，判断是否为L(T_p)＝＝+∞，如果是，结束本次循环即返回步骤S106，如果否，进入步骤S110；

步骤S110；计算松散度值L(T_p)的排序分数f，并将松散度值L(T_p)和对应排序分数f插入存放结果函数H_k且更新单调排序函数的值θ，进入步骤S115；

步骤S111，循环遍历每一个节点N，计算节点e对应的半径字的松散度值和节点e对应半径字的排序分数

步骤S112，判断是否如果是，进入步骤S113，如果否，进入步骤S114；

步骤S113，当时，节点e符合条件，将对应的节点e插入位置节点队列Q，并返回S106；

步骤S114，进入步骤S115；

步骤S115，根据存放结果函数H_k向用户返回查询结果，也就是说，向用户返回包含所有输入的查询关键字的子树，并且该子树的根节点靠近查询位置。

步骤S101，具体为，初始化H_k中的元素按照f(L(T_p),S(q,p))排序；H_k中存放的是QSP，即存放最终的结果，其中QSP为包含所有查询关键字的子树。

步骤S102，具体为：循环遍历查询关键字q.ψ中的每个关键字t_i，做一下处理：首先从预设的文档倒排索引表I中，查找关键字t_i对一个的值，并保存，接着从预设的所有查询关键字对应的半径字领域表即α-radius word neighborhood表I^α中，加载关键字t_i所对应的值，并保存。

步骤S103，具体为，建立一个字典结构M_q.ψ，结构为{节点，(t₁,t₂,...)}表示含有查询关键字的节点。

步骤S104，具体为，初始化θ＝+∞；θ为Ranking Score f的值。

在步骤S105中，对于预设的空间索引是在查询之前建立好的，所以用于输入不同的查询关键字对应的空间索引是相同的。另外，位置节点队列Q中保存多个位置节点，所述多个位置节点是符合查询要求的，其中位置节点包含位置信息，而普通节点不包含位置信息。

步骤S106，具体为：查找循环条件为e＝GETNEXT(Q,R,q)，函数GETNEXT表示在R-tree上使用增强NN算法(Incremental NN Algorithm)查找节点e，若节点e是位置顶点，即包含空间位置信息的顶点，则进入步骤S107，若节点e不是位置顶点则进入步骤S111。

当节点e是位置顶点，做以下处理：首先若节点e不符合删除规则1，则跳出本次循环，进入下次循环；再次回到步骤S106，开始新的循环；接着，执行函数GETSEMANTICPLACE，得到T_p的值；若L(T_p)＝＝+∞，说明没有找到，则跳出本次循环，进入下次循环；接着，计算L(T_p)的Ranking Score，并将L(T_p)和对应的Ranking Score f插入到H_k中，即H_k.add(T_p,f)；最后，更新θ的值，进入步骤S115。

当节点e是节点N时，循环遍历N下的每一个节点e，做以下操作；针对每个节点：首先，计算节点e的α-bound on the looseness删除规则2，接着计算节点e的α-boundon the ranking score删除规则3，最后根据删除规则2,3可以判定，当是，对应的节点e符合条件，可以插入队列Q，即to Q，直到进入步骤S115。

具体的，所述存放结果函数H_k中保存符合条件的语义位置QSP按照最紧凑的符合条件的语义位置的排序分数大小进行排序。

在具体实施中，步骤S108，所述执行函数GETSEMANTICPLACE，如图2所示，具体包括：

步骤S201，初始化子树T_p，其中，T_p表示以p为顶点，包含所有查询关键字的一颗子树；

步骤S202，初始化子树T_p的松散度值L(T_p)以使L(T_p)＝1；

步骤S203，查询的关键字q.ψ保存到数字集B中；

步骤S204，从顶点p开始使用BFS(breadth-first-search)方式遍历RDF图且数字集B不为空；

步骤S205，把BFS方式得到的节点v添加到子树T_p中；

步骤S206，在所述字典结构中查找节点v包含的查询关键字；

步骤S207，判断节点v包含的查询关键字和数字集B的交集是否为空，如果否，进入步骤S208，如果是，进入步骤S209；

步骤S208，如果否，输出L(T_p)＝+∞和T_p＝NULL；

步骤S209，如果是，根据节点v包含的查询关键字和数字集B的交集中元素的个数以及节点v和顶点p之间的距离的得到子树T_p的松散度值L(T_p)；

步骤S210，从数字集B中删除节点v包含的查询关键字和数字集B的交集得到当前的数字集B；

步骤S211，当前的数字集B是否为空，如果否，返回步骤S204，如果是，进入步骤S208，也就是说，直到数字集B为空，输出L(T_p)＝+∞和T_p＝NULL。

具体的，步骤S209的计算公式如下：

L(T_p)+＝|B∩v.ψ_q|×d(p,v)；

其中，|B∩v.ψ_q|表示B和v.ψ_q的交集中元素的个数，d(p,v)为位置顶点p到节点v的最短距离。

也就是说，KSP算法通过执行SP和GETSEMANTICPLACE两个函数以输出输入的查询关键字的返回结果，SP函数内部调用GETSEMANTICPLACE函数，函数SP(q,R,G,I,I^a)的内容具体为，步骤S101至步骤S115的过程。函数GETSEMANTICPLACE(q.ψ,p,G,M_q.ψ)的内容具体为，步骤S201至步骤S211的过程，该函数的作用是输出T_p和L(T_p)，其中q表示查询序列，R表示预设的空间索引，G表示RDF图，I表示预设的文档倒排索引表，I^α表示预设的所有查询关键字对应的半径字领域表。

在具体实施中，所述查询方法还包括以下步骤：创建预设的空间索引。具体的，在步骤S101之前，创建预设的空间索引。

所述创建预设的空间索引的步骤，具体为：

从RDF数据中提取含有坐标信息的数据，得到预设的空间索引。因为RDF图数据比较大，为了提高查询的速度，首先从RDF数据中提取含有坐标信息的数据，创建预设的空间索引R-tree使得查询的速度可以得到有效的提高。

在具体实施中，所述查询方法还包括以下步骤：对每个节点的文档中的关键字建立倒排索引以得到预设的文档倒排索引表，倒排索引表的格式为(关键字，节点)，具体的，在步骤S101之前，对每个节点的文档中的关键字建立倒排索引以得到预设的文档倒排索引表I，文档倒排索引表的格式为(关键字，节点)，如图3所示。

在具体实施中，如图4所示，所述查询方法还包括以下步骤：

步骤S401，从顶点p开始使用BFS方式遍历RDF图；

步骤S402，当遍历到节点v时，遍历节点v的文档中的关键字t，若(t,d(p,v))在WN(p)中没有出现过，则将(t,d(p,v))添加到预设的所有查询关键字对应的半径字领域表中，其中WN(p)表示从p到每一个查询关键字t_i的最短距离的集合{(t_i,d_g(p,t_i))}，d_g(p,t_i)≤α表示从根节点p到包含查询关键字t_i的顶点的最短的距离,(t,d(p,v))表示顶点v对应的文档信息，包含查询关键字t；

步骤S403，当得到所有的叶子节点的半径字领域后，按照从叶子节点到非叶子节点的顺序，计算WN(N)的值，WN(N)表示非叶子节点N下所有的位置顶点{p_j}对应的WN(p_j)的联合，非叶子节点N下面包含一系列的位置顶点{p_j}；

步骤S404，对于非叶子节点N，{e_i}表示N下的节点，WN(N)初始化为空，若(t,d_g(e_i,t))在WN(N)没有相应的值则将(t,d_g(e_i,t))添加到预设的所有查询关键字对应的半径字领域表中，若有值则将所述半径字邻域表中非叶子节点N对应的值更新为min(d_g(N,t),d_g(e_i,t))，其中，(t,d_g(e_i,t))为关键字_t在所述半径字邻域表中对应的值。

具体的，顶点p可以是根节点，如果是根节点，则包含位置信息。顶点p可以是包含位置信息的节点，所以它是包含位置信息的所有可能节点，包括根节点。另外，所述预设的所有查询关键字对应的半径字领域表：是根据树建立起来的，其中树中的有叶子节点p，和非叶子节点N,首先算叶子节点的值，然后算非叶子节点的值，所以是叶子节点到非叶子节点，是一种自下到上的顺序。比如，以下所示表格为所述预设的所有查询关键字对应的半径字领域表。

q.ψ	abbey	...	ancient	catholic	roman	history	...
								d_g(p₁，t_i)	0	...	1	1	1	-	...
d_g(p₂,t_i)	-	...	-	0	0	1	...
								d_g(N，t_i)	0	...	1	0	0	1	...

具体的，开始时初始化，使得所述预设的所有查询关键字对应的半径字领域表为空，步骤S401-步骤S404就是填充这张表。

其中:abbey,ancient,catholic,roman,history为所述半径字领域表中关键字。(t,d(p,v))：表示顶点v的文档信息中，有查询关键字t，则对应的值就会插入到半径字邻域表中。(t,d_g(e_i,t))：表示关键字t，在半径字邻域表中对应的值。此处的e_i就是上表中的p₁，p₂，即d_g(e_i,t)就是表中d_g(p₁,t_i)对应的值。min(d_g(N,t),d_g(e_i,t))：就是表中d_g(N,t_i)的值去掉所在列的最小值。比如，catholic所在的列，有值1,0所以min(d_g(N,t),d_g(e_i,t))的值为0,也就是d_g(N,t_i)的值。

由于在根据KSP算法构建TQSP的时候可能会遇到以下两种情况：(i)遍历完这个图后仍未找到包含输入查询关键字的T_p，(ii)找到了T_p，但是T_p的排序分数f大于θ(当前已经找到的第K个T_p的排序分数)。其中，TQSP为松散度最小的QSP针对情况。

对于(i)的情况，在RDF图中，让表示以p为根节点子树不能包含所有的查询关键字。对于给定的查询关键字序列q.ψ，若此时的p节点为不符合条件节点。

针对(ii)情况，为了提高算法的效率，定义WN(p)，对位置顶点p，它的WN(p)表示从p到每一个查询关键字t_i的最短距离的集合{(t_i,d_g(p,t_i))}，其中d_g(p,t_i)≤α，表示从根节点p到包含查询关键字t_i的顶点的最短的距离。

根据上述中对一个点的字邻域描述，我们可以得出对节点N的字邻域的定义，如对R-tree中的顶点N。定义WN(N)，对于R-tree的节点N下面包含一系列的位置顶点{p_j}，WN(N)为一系列的{(t_i,d_g(N,t_i))}，其中WN(N)是节点N下所有的位置顶点{p_j}对应的WN(p_j)的联合，其中对于每个关键字t_i，显然d_g(N,t_i)≤α。

根据定义WN(p)和定义WN(N)，可以创建节点对应的半径字领域表I^α即预设的所有查询关键字对应的半径字领域表(α-radius word neighborhood表)，用于提高算法效率。

进一步，为了提高算法的效率，引理1：由于WN(p)表示位置定点p的半径字领域(α-radius word neighborhood)。对于给定的查询关键字q.ψ＝{t₁,...,t_j,...t_m}，为了不失一般性，假设第j个关键字在WN(p)已经有值，则以p为根节点的T_p的TQSP的半径字松散度(α-bound on the looseness)可表示为并且

引理2：由于表示以p为根节点的T_p的TQSP的半径字松散度，则对于给定的查询序列q对应的T_p的半径字排序分数(α-bound on the ranking score)可表示为且

引理3：由于WN(N)表示顶点N的半径字领域(α-radius word neighborhood)，查询关键字q.ψ＝{t₁...,t_j...,t_m}，为了不失一般性，假设第j个关键字在WN(N)中已经有相应的值，则在N节点下以p为根节点的T_p对应的所有的TQSP可表示为并且

引理4：由于表示以在节点N下以p为根节点的T_p的TQSP对应的半径字松散度，对于给定的查询序列q，则在节点N下以p为根节点的所有的T_p的半径字松散度可表示为其中S(q,N)表示q和N之间最小的空间距离，且

根据引理2我们得出删除规则2，根据引理4得出删除规则3，来提高算法的效率，具体删除规则如下：

删除规则2：对于给定的查询序列q，θ表示第k个候选TQSP的ranking score。表示以p为根节点的T_p的TQSP的α-bound on the ranking score。当时T_p不是我们要查的结果，p可以被删除。

删除规则3：对于给定的查询序列q，θ表示第k个候选TQSP的ranking score，表示节点N下以p为根节点的T_p的TQSP的α-bound on the ranking score，若则在N节点下任何节点都不满足条件，N可以被删除。

基于KSP算法的资源描述框架查询方法，主要是实现图上关键字的搜索和RDF数据上关键字的搜索：由于关键字检索对用户的友好性，不仅用户检索网络数据，而且用于检索XML文档，关系型数据库，和图。传统上图的搜索算法将查询转化为在特征空间上的搜索，例如路径，频繁模式，和序列。这种搜索算法更多的关注图的结构而不是图的语义内容。图上关键字的查询通过利用内容和链接结构两者来确定图中一组密集链接的节点。由于这两种信息的重新实施，可提高结果的整体质量。而RDF数据上关键字的搜索，由于RDF数据是一种特殊类型的图数据也可以提供查询的效率。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明的一实施例中提供一种基于资源描述框架的KSP算法查询系统，用于利用KSP算法在RDF图上搜索查询关键字的语义位置，如图5所示，所述查询系统包括：

第一初始化模块51，用于初始化存放结果函数H_k，其中存放结果函数H_k用于保存符合条件的语义位置QSP，符合条件的语义位置QSP为包含所有查询关键字的子树，k为符合条件的语义位置QSP的数量；

循环遍历模块52，用于根据预设的文档倒排索引表和预设的所有查询关键字对应的半径字领域表，对用户输入的查询关键字中的每个关键字进行循环遍历，得到输入的查询关键字对应的倒排索引表，以及得到每个关键字对应的值，并加载在预设的所有查询关键字对应的半径字领域表中；

构建模块53，用于根据所述输入的查询关键字和输入的查询关键字对应的倒排索引表，构建字典结构，其中所述字典结构表示含有所述输入的查询关键字的节点；

第二初始化模块54，用于初始化单调排序函数的值θ，其中单调排序函数表示对根据输入的查询关键字查找的多个最紧凑的符合条件的语义位置进行排序，最紧凑的符合条件的语义位置表示为以p为根节点的松散度最小的符合条件的语义位置；

生成队列模块55，用于预设的空间索引的根节点进入队列，得到位置节点队列Q；

查找循环模块56，用于根据输入的查询关键字和位置节点队列Q，遍历预设的空间索引得到节点e，并对节点e进行判断；

顶点处理模块57，于当节点e为包含空间位置信息的顶点时，判断节点e是否为不符合条件节点，若节点e为不符合条件节点则结束本次循环，进入下次循环，当节点e为包含空间位置信息的顶点，且节点e不是不符合条件节点，则执行函数GETSEMANTICPLACE，得到符合条件的语义位置的子树T_p和子树T_p的松散度值L(T_p)，并判断是否为L(T_p)＝＝+∞，如果是，则结束本次循环，如果否,计算松散度值L(T_p)的排序分数f，并将松散度值L(T_p)和对应排序分数f插入存放结果函数H_k且更新单调排序函数的值θ；

节点处理模块58，用于节点e为节点N时，循环遍历节点N下的每一个节点，计算N下每个节点e对应的半径字的松散度值和对应半径字的排序分数当时，则把对应节点e插入位置节点队列Q并进入查找循环模块，直到

输出结果模块59，用于根据存放结果函数H_k向用户返回查询结果。

在具体实施中，顶点处理模块57还用于：

初始化子树T_p，其中，T_p表示以p为顶点，包含所有查询关键字的一颗子树；

初始化子树T_p的松散度L(T_p)以使L(T_p)＝1；

查询的关键字q.ψ保存到数字集B中；

从顶点p开始使用BFS(breadth-first-search)方式遍历RDF图且数字集B不为空；

把BFS方式得到的节点v添加到子树T_p中；

在所述字典结构中查找节点v包含的查询关键字；

判断节点v包含的查询关键字和数字集B的交集是否为空；

如果否，输出L(T_p)＝+∞和T_p＝NULL；

如果是，根据节点v包含的查询关键字和数字集B的交集中元素的个数以及节点v和顶点p之间的距离的，得到子树T_p的松散度值L(T_p)；

从数字集B中删除节点v包含的查询关键字和数字集B的交集得到当前的数字集B；

当前的数字集B是否为空，如果否，执行从顶点p开始使用BFS(breadth-first-search)方式遍历RDF图且数字集B不为空的内容；

如果是，输出L(T_p)＝+∞和T_p＝NULL，也就是说，直到数字集B为空，输出L(T_p)＝+∞和T_p＝NULL。

具体的，根据节点v包含的查询关键字和数字集B的交集中元素的个数以及节点v和顶点p之间的距离的得到子树T_p的松散度L(T_p)的值计算公式如下：

L(T_p)+＝|B∩v.ψ_q|×d(p,v)；

其中，|B∩v.ψ_q|表示B和v.ψ_q的交集中元素的个数，d(p,v)为顶点p到节点v的最短距离。

在具体实施中，所述查询系统还包括创建模块，用于创建预设的空间索引。具体的，创建模块还用于：

在具体实施中，创建模块还用于：对每个节点的文档中的关键字建立倒排索引以得到预设的文档倒排索引表，倒排索引表的格式为(关键字，节点)，如图3所示。

在具体实施中，如图4所示，创建模块还用于：

从位置顶点p开始使用BFS方式遍历RDF图；

当遍历到节点v时，遍历节点v的文档中的关键字t，若(t,d(p,v))在WN(p)中没有出现过，则将(t,d(p,v))添加到预设的所有查询关键字对应的半径字领域表中，其中WN(p)表示从p到每一个查询关键字t_i的最短距离的集合{(t_i,d_g(p,t_i))}，d_g(p,t_i)≤α表示从根节点p到包含查询关键字t_i的顶点的最短的距离,(t,d(p,v))表示顶点v对应的文档信息，包含查询关键字t；

得到所有的叶子节点的半径字领域后，按照从叶子节点到非叶子节点的顺序，计算WN(N)的值，WN(N)表示非叶子节点N下所有的位置顶点{p_j}对应的WN(p_j)的联合，非叶子节点N下面包含一系列的位置顶点{p_j}；

对于非叶子节点N，{e_i}表示N下的节点，WN(N)初始化为空，若(t,d_g(e_i,t))在WN(N)没有相应的值则将(t,d_g(e_i,t))添加到预设的所有查询关键字对应的半径字领域表中，若有值则将所述半径字邻域表中非叶子节点N对应的值更新为min(d_g(N,t),d_g(e_i,t))，其中，(t,d_g(e_i,t))为关键字t在所述半径字邻域表中对应的值。

具体的，开始时初始化，使得所述预设的所有查询关键字对应的半径字领域表为空，创建模块的工作过程就是填充这张表。

进一步，为了提高算法的效率，引理1：由于WN(p)表示顶点p的半径字领域(α-radius word neighborhood)。对于给定的查询关键字q.ψ＝{t₁,...,t_j,...t_m}，为了不失一般性，假设第j个关键字在WN(p)已经有值，则以p为根节点的T_p的TQSP的半径字松散度(α-bound on the looseness)可表示为并且

基于KSP算法的资源描述框架查询系统，主要是实现图上关键字的搜索和RDF数据上关键字的搜索：由于关键字检索对用户的友好性，不仅用户检索网络数据，而且用于检索XML文档，关系型数据库，和图。传统上图的搜索算法将查询转化为在特征空间上的搜索，例如路径，频繁模式，和序列。这种搜索算法更多的关注图的结构而不是图的语义内容。图上关键字的查询通过利用内容和链接结构两者来确定图中一组密集链接的节点。由于这两种信息的重新实施，可提高结果的整体质量。而RDF数据上关键字的搜索，由于RDF数据是一种特殊类型的图数据也可以提供查询的效率。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于KSP算法的资源描述框架查询方法，其特征在于：用于利用KSP算法在RDF图上搜索查询关键字的语义位置，所述查询方法包括以下步骤：

预设的空间索引中根节点进入队列，得到位置节点队列Q；

根据存放结果函数H_k向用户返回查询结果。

2.如权利要求1所述的查询方法，其特征在于：所述执行函数GETSEMANTICPLACE，具体包括：

初始化子树T_p，其中，T_p表示以p为位置顶点，包含所有查询关键字的一颗子树；

初始化子树T_p的松散度值L(T_p)以使L(T_p)＝1；

查询的关键字q.ψ保存到数字集B中；

从位置顶点p开始使用BFS方式遍历RDF图且数字集B不为空；

把BFS方式得到的节点v添加到子树T_p中以得到子树T_p；

在所述字典结构中查找节点v包含的查询关键字；

判断节点v包含的查询关键字和数字集B的交集是否为空；

如果否，输出L(T_p)＝+∞和T_p＝NULL；

如果是，根据节点v包含的查询关键字和数字集B的交集中元素的个数以及节点v和位置顶点p之间的距离，得到子树T_p的松散度值L(T_p)，以及从数字集B中删除节点v包含的查询关键字和数字集B的交集，返回到从位置顶点p开始使用BFS方式遍历RDF图且数字集B不为空的步骤，直到数字集B为空，输出L(T_p)＝+∞和T_p＝NULL。

3.如权利要求2所述的查询方法，其特征在于：根据节点v包含的查询关键字和数字集B的交集中元素的个数以及节点v和位置顶点p之间的距离的得到子树T_p的松散度值L(T_p)的计算公式如下：

L(T_p)+＝|B∩v.ψ_q|×d(p,v)；

其中，|B∩v.ψ_q|表示B和v.ψ_q的交集中元素的个数，d(p,v)为p到v的最短距离。

4.如权利要求1所述的查询方法，其特征在于：所述存放结果函数H_k中保存符合条件的语义位置QSP按照最紧凑的符合条件的语义位置的排序分数大小进行排序。

5.如权利要求1所述的查询方法，其特征在于：所述查询方法还包括以下步骤：创建预设的空间索引。

6.如权利要求5所述的查询方法，其特征在于：所述创建预设的空间索引的步骤，具体为：

从RDF数据中提取含有坐标信息的数据，得到预设的空间索引。

7.如权利要求1所述的查询方法，其特征在于：所述查询方法还包括以下步骤：对每个节点的文档中的关键字建立倒排索引以得到预设的文档倒排索引表，倒排索引表的格式为(关键字，节点)。

8.如权利要求1所述的查询方法，其特征在于：所述查询方法还包括以下步骤：

从位置顶点p开始使用BFS方式遍历RDF图；

当遍历到节点v时，遍历节点v的文档中的关键字，若(t,d(p,v))在WN(p)中没有出现过，则将(t,d(p,v))添加到预设的所有查询关键字对应的半径字领域表中，其中WN(p)表示从位置顶点p到每一个查询关键字t_i的最短距离的集合{(t_i,d_g(p,t_i))}，d_g(p,t_i)≤α表示从位置顶点p到包含查询关键字t_i的顶点的最短的距离，(t,d(p,v))表示顶点v对应的文档信息，包含查询关键字t；

当得到所有的叶子节点的半径字领域后，按照从叶子节点到非叶子节点的顺序，计算WN(N)的值，WN(N)表示非叶子节点N下所有的位置顶点{p_j}对应的WN(p_j)的联合，非叶子节点N下面包含一系列的位置顶点{p_j}；

9.一种基于KSP算法的资源描述框架查询系统，其特征在于：用于利用KSP算法在RDF图上搜索查询关键字的语义位置，所述查询系统包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8任意一项所述方法的步骤。