CN109710621A

CN109710621A - 结合语义类节点与边权重的关键词搜索ksanew算法

Info

Publication number: CN109710621A
Application number: CN201910039058.XA
Authority: CN
Inventors: 汪璟玢; 管健
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2019-05-03
Anticipated expiration: 2039-01-16
Also published as: CN109710621B

Abstract

本发明涉及一种结合语义类节点与边权重的关键词搜索KSANEW算法。包括：数据存储阶段，该阶段随着知识碎片的到来，动态地更新知识库中语义类、实体和属性等数据；关键词查询阶段，该阶段考虑到知识图谱的模式层相较于数据层数据量小，提出查询种子模型，该模型将查询关键词映射到模式层上，接着通过两类扩展方式，分别是基于节点的大权值方向扩展方式和基于边的大权值方向扩展方式生成候选种子模型，然后通过评分函数对候选种子集合进行评分排序，最后以高评分的候选种子作为查询种子，将查询种子作为指引，在数据层上进行分布式搜索，得到查询结果。

Description

结合语义类节点与边权重的关键词搜索KSANEW算法

技术领域

本发明属于知识图谱下的海量数据存储与检索技术领域，具体涉及一种结合语义类节点与边权重的关键词搜索KSANEW算法。

背景技术

目前，关键词权值的计算方式主要分为两类：基于关键词自身的特征计算方式和基于文本结构特征的计算方式。基于关键词自身的特征的计算方式主要包括：TF-IDF方法、CHI方法、IG方法和基于语义的方法等。TF-IDF权值计算方式最大的不足是将关键词作为独立的个体，忽略了关键词之间相互组合而产生的额外权值；基于语义的计算方式虽然从关键词本质特性出发进行权值计算，然而依赖于语义词典的准确性，语义词典的缺血性将制约这一方式计算的准确性。基于文本结构特征的计算方式从文本的结构特征出发对关键词权值进行定义，这种方式对于结构较为规整的文本较为有效，对于结构混乱的文本则相对效果不佳。

由于知识碎片的到来将使得知识库动态变化，知识库的时效特性也将变得考量的重点之一，然而现存的关键词权值计算方法没有充分考虑时效特性，因此本发明基于知识图谱的背景下，提出了结合语义类节点与边权重的关键词搜索算法，该算法将时效特性与语义类节点及边的权重计算公式相结合，并且在知识图谱模式层上构建具有时效特点的查询种子模型，然后以查询种子为指引在数据层上进行分布式关键词检索，得到查询结果。

发明内容

本发明的目的在于提供一种结合语义类节点与边权重的关键词搜索KSANEW算法，该算法能够利用知识图谱的时效特性，计算得到结合时效特性的语义类节点与边的权值，且使得检索效率大大提高。

为实现上述目的，本发明的技术方案是：一种结合语义类节点与边权重的关键词搜索KSANEW算法，包括两个阶段：

数据存储阶段：随着知识碎片存储入知识图谱数据库中，动态地更新知识图谱数据库中包括语义类、实体和属性数据；

关键词查询阶段：首先，考虑到知识图谱的模式层相较于数据层数据量小，提出查询种子模型，该种子模型将查询关键词映射到模式层上，接着，通过基于节点的大权值方向扩展方式和基于边的大权值方向扩展方式生成候选种子模型，然后，通过评分函数对候选种子模型集合进行评分排序，最后以高评分的候选种子模型作为查询种子模型，将查询种子模型作为指引，在数据层上进行分布式搜索，得到查询结果。

在本发明一实施例中，所述基于节点的大权值方向扩展方式采用的为结合时间特性的语义类节点权重计算算法，具体如下：

节点链接关系的集合，即节点出入度边的集合Lr(u)，其计算公式如下：

Lr(u)＝{p|p∈subObj(u)∧currenttime-p.timestamp＜δ} (1)

式(1)中，subObj(u)表示u为模式三元组的主语或者宾语时的属性的集合；currenttime表示当前查询的时间；p.timestamp表示属性p的时间戳；δ表示时间范围阈值，Lr(u)所计算的结果其实是节点u所关联的活跃的链接关系的集合，|Lr(u)|则表示节点u链接关系的数量；

节点综合权重Nw(u)，其计算方法如下式所示：

Nw(u)＝α·(|Lr(u)|+log(Ec(u)))+β·log(u.timestamp) (2)

式(2)中，Ec(u)表示语义类节点u所对应的实体节点的数量；u.timestamp表示语义类节点的时间戳。

在本发明一实施例中，所述基于边的大权值方向扩展方式采用的为结合时间特性的属性边权重计算算法，具体如下：

关联顶点的权重之和Rn(p)，其计算公式如下：

其中，currenttime-u_i.timestamp＜δ

式(3)中，n的取值为当前属性边p对应的类对集合所包含的不同的语义类顶点的数目；δ表示时间范围阈值，Rn(p)表示的是属性边p所连接的所有活跃顶点的权重之和，而currenttime-u_i.timestamp<δ表示的是顶点u_i为活跃顶点；

属性边综合权重Pw(p)，其计算方法如下：

Pw(p)＝α·(Rn(p)+log(Pc(p)))+β·log(p.timestamp) (4)

式(4)中，Pc(p)表示属性边p所对应的数据层上的数量；p.timestamp表示属性的时间戳。

在本发明一实施例中，α和β的取值范围为[0,1]，且α<β。

在本发明一实施例中，所述评分函数的计算公式如下：

其中，

式(5)中，Length(G)表示的是任意两个类之间的距离之和，距离越小，其值越小，则知识图谱数据G的内容联系越紧密；weight(G_node)表示的是图G中所有节点的权重之和；weight(G_edge)表示的是知识图谱数据G中所有边的权重之和；因此，SE(G)计算的结果越大，则表明候选种子图成为查询种子的可能性越高。

相较于现有技术，本发明具有以下有益效果：

1、现有的关键词检索方案在进行关键词权值计算时，无法有效适应动态知识库，并且没有考虑到知识图谱的时效特性，而本发明提出的算法能够利用知识图谱的时效特性，计算得到结合时效特性的语义类节点与边的权值；

2、现有的关键词检索方案主要通过在实体数据层直接构建结果子图集，效率相对较慢，而本发明提出的算法通过在模式层上构建查询种子模型，再利用查询种子为指引在实体数据层上检索得到Top-k个结果，该方法使得检索效率大大提高。

附图说明

图1为本发明KSANEW算法框架图。

图2为本发明查询种子模型生成的流程图。

图3为基于节点的一次扩展图。

图4为基于节点扩展生成的关联类图。

图5为基于属性的一次扩展图。

图6为基于属性扩展生成的关联类图。

图7为候选种子集合图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供了一种结合语义类节点与边权重的关键词搜索KSANEW算法，包括两个阶段：

所述基于节点的大权值方向扩展方式采用的为结合时间特性的语义类节点权重计算算法，具体如下：

Lr(u)＝{p|p∈subObj(u)∧currenttime-p.timestamp＜δ} (1)

式(1)中，subObj(u)表示u为模式三元组的主语或者宾语时的属性的集合；currenttime表示当前查询的时间；p.timestamp表示的是属性p的时间戳；δ表示时间范围阈值，Lr(u)所计算的结果其实是节点u所关联的活跃的链接关系的集合，|Lr(u)|则表示节点u链接关系的数量；

节点综合权重Nw(u)，其计算方法如下式所示：

Nw(u)＝α·(|Lr(u)|+log(Ec(u)))+β·log(u.timestamp) (2)

所述基于边的大权值方向扩展方式采用的为结合时间特性的属性边权重计算算法，具体如下：

关联顶点的权重之和Rn(p)，其计算公式如下：

其中，currenttime-u_i.timestamp＜δ

式(3)中，n的取值为当前属性边p对应的类对集合所包含的不同的语义类顶点的数目；δ表示时间范围阈值，Rn(p)表示的是属性边p所连接的所有活跃顶点的权重之和，而currenttime-u_i.timestamp<δ表示的是当前顶点u_i为活跃顶点；

属性边综合权重Pw(p)，其计算方法如下：

Pw(p)＝α·(Rn(p)+log(Pc(p)))+β·log(p.timestamp) (4)

式(4)中，Pc(p)表示属性边p所对应的数据层上的数量；p.timestamp表示属性的时间戳。α和β的取值范围为[0,1]，且α<β。

所述评分函数的计算公式如下：

其中，

以下为本发明的具体实现过程。

本发明提出了一个简称为KSANEW的算法，该算法的主要处理过程分为两个阶段：第一阶段，数据存储阶段，该阶段随着知识碎片的到来，动态地更新知识库中语义类、实体和属性等数据；第二阶段，关键词查询阶段，该阶段考虑到知识图谱的模式层相较于数据层数据量小，提出查询种子模型，该模型将查询关键词映射到模式层上，接着通过两类扩展方式，分别是基于节点的大权值方向扩展方式和基于边的大权值方向扩展方式生成候选种子模型，然后通过评分函数对候选种子集合进行评分排序，最后以高评分的候选种子作为查询种子，将查询种子作为指引，在数据层上进行分布式搜索，得到Top-k个查询结果。KSANEW算法的总体框架设计如图1所示。

以下给出本申请的相关定义。

问题定义：给定关键词查询Q＝{k₁，k₂，...，k_n}，知识图谱数据G，返回Top-k个查询结果。

定义1(知识图谱，G)设知识图谱G＝<S,E,A,P,V,L>,其中S表示SemanticClass(语义类，即概念)的集合，E表示Entity(实体)的集合，A表示Attribute(自身属性)的集合，P表示Property(属性)的集合，V表示Value(自身属性值)的集合，L表示Literal。知识图谱主要分为模式层与数据层。

定义2(语义类，S)语义类集S表示全体的语义类的集合S＝{S₁,S₂,...,S_n}，它描述了知识图谱模式层中的所有概念，并且对应RDF(资源描述框架)中的本体集合。

定义3(实体，E)实体集E表示全体的实体的集合E＝{E₁,E₂,...,E_n}，它描述了知识图谱数据层中的所有实体，并且对应RDF中的实例集合。

定义4(自身属性，A)自身属性集A表示全体的属性的集合A＝{A₁,A₂,...,A_n}，它将S或E与文本对应的类L或自身属性值V关联起来。

定义5(自身属性值，V)自身属性值集V表示全体的自身属性值的集合V＝{V₁,V₂,...,V_n}，它表示文本等节点。

定义6(文本对应的类，L)文本对应的类L表示所有文本映射到模式层上的同一个类Literal上。

定义7(属性，P)属性集P表示全体的属性的集合P＝{P₁,P₂,...,P_n}，它表示实体与实体，或者语义类与语义类之间的关系。

定义8(模式层，PL)模式层PL(Patternlayer)表示知识图谱上所有概念及其关系的集合PL＝{S,P,A,L}，其中

定义9(数据层，DL)数据层DL(Datalayer)表示知识图谱上所有实体及其关系及属性值的集合DL＝{E,P,A,V}，其中

1、本发明KSAARM算法的分布式存储方案设计

该算法使用Redis分布式内存数据库集群作为数据存储的媒介。集群中内存数据库的数量可以根据需求动态增加或者减少。具体的表及存储内容说明如表1所示：

表1 Redis表设计及存储内容说明

2、结合时间特性的语义类节点与边的权重计算

由于知识库具有时效性，我们认为时间越新的知识具有的意义越大，所以我们提出了结合时间特性的语义类节点与边的权重计算方法，它们计算出的权重值将在构建查询种子模型阶段指导语义类节点与边的扩展，下面将分别介绍这两种方法：

2.1结合时间特性的语义类节点权重计算

在计算语义类节点权重时，综合考虑了语义类节点链接关系的数量、语义类节点拥有实体节点的数量以及语义类节点本身具有的时间属性等多方面因素，该计算方法的基本原理如下：

定义10节点链接关系的集合(即，节点出入度边的集合)Lr(u)，如下式所示：

Lr(u)＝{p|p∈subObj(u)∧currenttime-p.timestamp＜δ} (1)

式(1)中，subObj(u)表示u为模式三元组的主语或者宾语时的属性的集合；currenttime表示当前查询的时间；p.timestamp表示的是属性p的时间戳；δ表示时间范围阈值，因此currenttime-p.timestamp落在该阈值内说明当前属性是时间较新的，我们认为它是相对活跃的，所以Lr(u)所计算的结果其实是节点u所关联的活跃的链接关系的集合，|Lr(u)|则表示节点u链接关系的数量。

定义11节点综合权重Nw(u)，其计算方法如下式所示：

Nw(u)＝α·(|Lr(u)|+log(Ec(u)))+β·log(u.timestamp) (2)

式(2)中，Ec(u)表示语义类节点u所对应的实体节点的数量，该值可通过读表Class_EntityCount来获得；u.timestamp表示语义类节点的时间戳；α和β的取值范围为[0,1]，由于时间属性对节点综合权重的影响更大，因此通常α<β。

2.2结合时间特性的属性边权重计算

在计算属性边权重时，综合考虑了关联顶点的权重之和、边对应数据层上的数量以及属性边本身具有的时间属性等多方面因素，该计算方法的基本原理如下：

定义12关联顶点的权重之和Rn(p)，如下式所示：

并且式子应该满足：currenttime-u_i.timestamp＜δ

式(3)中，n的取值为C_C_Property表中当前属性p对应的类对集合所包含的不同的语义类顶点的数目；δ表示时间范围阈值，currenttime-ui.timestamp的值落在该范围内说明该顶点是相对较活跃的；因此，Rn(p)表示的是属性边p所连接的所有活跃顶点的权重之和，而currenttime-u_i.timestamp<δ表示当前顶点u_i为活跃顶点。

定义13属性边综合权重Pw(p)，其计算方法如下式所示：

Pw(p)＝α·(Rn(p)+log(Pc(p)))+β·log(p.timestamp) (4)

式(4)中，Pc(p)表示属性边p所对应的数据层上的数量，该值可通过读表SC_OP_OC来获得；p.timestamp表示属性的时间戳；α和β的取值范围为[0,1]，由于时间属性对属性边综合权重的影响更大，因此通常α<β。

3构建KSANEW相关的查询种子模型

随着互联网的发展，知识图谱的数据量早已是海量级别的。如果直接在知识图谱的数据层进行关键词的搜索，其效率一定是非常低的。而由于知识图谱的模式层上的数据不仅体量小，还能够清晰表达实体之间的语义联系，其实质就相当于数据层数据的摘要表示，因此，本算法考虑在知识图谱的模式层上构建查询种子模型，再将查询种子模型用于知识图谱的数据层上，以此来加快查询效率。同时，本算法将利用3.4节中提出的结合时间特性的语义类节点与边的权重计算公式，分别计算节点与边的权值，再将它们分别用于基于节点的扩展和基于边的扩展，用以生成候选种子模型。接下来将详细介绍该算法。

3.1构建KSANEW相关的评分函数

评分函数的好坏能够直接影响最终搜索结果的优劣。本小节将介绍结合KSANEW算法特点的评分函数。

其中，

3.2查询种子模型生成

查询种子模型生成的总体思想是：首先将查询映射到知识图谱的模式层上；然后分别基于节点与基于边进行扩展，生成两类关联类图；接着由关联类图获得候选种子集合；最后利用评分函数对候选种子集合进行排名，得分高的候选种子将作为查询种子，我们使用查询种子指导我们在知识图谱数据层上进行分布式检索，得到Top-k个查询结果。构建该模型的流程图如下图2所示。

以下为本发明的具体实例。

以LUBM(1000)数据集为例，将该数据集分成10份，每份100所学校的数据，并且设置每天流入1份数据。同时，设置公式(1)和(3)中的时间范围阈值δ为1天，设置公式(2)和(4)中的α为0.4，β为0.6，LUBM数据集中的部分本体数据如例1所示：

假设用户输入的关键词查询Q为“University1,teacherOf,Course39”，构建当前查询对应的查询种子模型的具体执行过程如下所示：

(1)关键词映射至模式层

Q中的每个关键词映射到模式层上对应的类或者属性如下表2所示：

表2关键词映射的类或属性

(2)分别基于节点和基于边进行扩展，生成两类关联类图

(a)经过公式(2)计算后的相关节点的权重如下表3所示：

表3相关节点的权重

因此，“University”、“Course”和“GraduateCourse”类，以及“teacherOf”属性经过一次节点扩展后(向权重高的节点方向扩展)形成的图如图3所示。

由图3可以看出，“University”、“Course”和“GraduateCourse”类都是向相邻的权值最大的节点扩展，“teacherOf”属性是向着它所指向的最大权值的节点方向扩展。

此时，由图3生成的关联类图如图4所示。

由图4可以看出，该关联类图包含所有的关键词，因此由该图可以生成若干候选种子图。

(b)经过公式(4)计算后的相关属性的权重如下表4所示：

表4相关属性的权重

因此，“University”、“Course”和“GraduateCourse”类经过一次属性扩展后(向权重高的属性方向扩展)形成的图如图5所示。

由图5可以看出，“University”、“Course”和“GraduateCourse”类都是向相邻的权值最大的属性扩展。

此时，由图5生成的关联类图如图6所示。

由图6可以看出，该关联类图包含所有的关键词，因此由该图可以生成若干候选种子图。

(3)根据关联类图生成候选种子集合

由第(2)步骤基于节点和基于边生成的关联类图构造的候选种子集合如图7所示。

(4)根据上一小节提出的评分函数((5)中的α取0.5)对候选种子集合进行评分可得，SE(a)＝38.07，SE(b)＝36.45，SE(c)＝37.99和SE(d)＝32.92，后将评分高的候选种子，即图7(a)作为查询种子，最后以查询种子为指引，在数据层上进行分布式搜索，得到Top-k个查询结果。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种结合语义类节点与边权重的关键词搜索KSANEW算法，其特征在于，包括两个阶段：

2.根据权利要求1所述的结合语义类节点与边权重的关键词搜索KSANEW算法，其特征在于，所述基于节点的大权值方向扩展方式采用的为结合时间特性的语义类节点权重计算算法，具体如下：

Lr(u)＝{p|p∈subObj(u)∧currenttime-p.timestamp＜δ} (1)

式(1)中，subObj(u)表示u为模式三元组的主语或者宾语时的属性的集合；currenttime表示当前查询的时间；p.timestamp表示属性的时间戳；δ表示时间范围阈值，Lr(u)所计算的结果其实是节点u所关联的活跃的链接关系的集合，|Lr(u)|则表示节点u链接关系的数量；

节点综合权重Nw(u)，其计算方法如下式所示：

Nw(u)＝α·(|Lr(u)|+log(Ec(u)))+β·log(u.timestamp) (2)

3.根据权利要求2所述的结合语义类节点与边权重的关键词搜索KSANEW算法，其特征在于，所述基于边的大权值方向扩展方式采用的为结合时间特性的属性边权重计算算法，具体如下：

关联顶点的权重之和Rn(p)，其计算公式如下：

其中，currenttime-ui.timestamp＜δ

式(3)中，n的取值为当前属性边p对应的类对集合所包含的不同的语义类顶点的数目；δ表示时间范围阈值，Rn(p)表示的是属性边p所连接的所有活跃顶点的权重之和，而currenttime-u_i.timestamp<δ表示当前顶点是活跃顶点；

属性边综合权重Pw(p)，其计算方法如下：

Pw(p)＝α·(Rn(p)+log(Pc(p)))+β·log(p.timestamp) (4)

4.根据权利要求2或3所述的结合语义类节点与边权重的关键词搜索KSANEW算法，其特征在于，α和β的取值范围为[0,1]，且α<β。

5.根据权利要求1所述的结合语义类节点与边权重的关键词搜索KSANEW算法，其特征在于，所述评分函数的计算公式如下：

其中，