CN112256835A

CN112256835A - 一种精准描述知识图谱中元素语义的子图抽取方法

Info

Publication number: CN112256835A
Application number: CN202011175554.7A
Authority: CN
Inventors: 汪鹏; 徐忠锴
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-01-22
Anticipated expiration: 2040-10-29
Also published as: CN112256835B

Abstract

本发明公开了一种用于精准描述知识图谱中元素语义的子图抽取方法。通过分析概念、关系、实体等知识图谱元素的语义在知识图谱中的表示特点，利用电路模型实现描述元素的语义子图建模和抽取。语义子图可准确描述元素在知识图谱中的语义上下文，并且这种描述具有易于理解和可解释的特点，能广泛应用于各种基于知识图谱的智能应用中。

Description

一种精准描述知识图谱中元素语义的子图抽取方法

技术领域

本发明属于人工智能知识图谱领域，特别涉及一种精准描述知识图谱中元素语义的子图抽取方法。

背景技术

知识图谱是认知智能的核心技术之一，广泛应用于机器翻译、信息检索、智能问答等场景中。如何构建和描述知识图谱中元素的真实语义是大量知识图谱应用的一个基础问题。虽然基于深度学习的知识图谱表示学习方法可将其中的元素和三元组表示为向量形式，但这种隐式表示形式不具有直观的可解释性和可理解性。在显式语义表示上，元素的标识和注释文本可在一定程度上反映其所代表的部分语义，但由于知识图谱构建的随意性，并非每个知识图谱都会提供理想的描述文本，并且这种文本描述对元素语义的解释是含糊的，即其中并不包含明确的语义关系描述。因此，只利用元素自身的信息并不能保证全面理解元素语义。为了正确理解元素在知识图谱中的特定语义，往往还需要考虑与该元素相关的其它知识图谱元素，并称其为元素的语义上下文。同时，大多数知识图谱映射系统并不依靠外部知识库来构造真实的语义，因此本发明考虑在不借助外部知识库的情况下如何直接从知识图谱中获得元素真实的语义描述。本发明借助知识图谱图来分析元素的语义上下文。直观上，知识图谱图中与元素相关的点和边构成了元素在知识图谱中的语义上下文，这种语义上下文是知识图谱图中的一个子图，称之为元素的语义子图。然而，目前尚未一种有效的方法来精准描述知识图谱中表述实体语义子图并对其进行高效抽取。

发明内容

为解决上述问题，本发明提出了一种精准描述知识图谱中元素语义的子图抽取方法，通过分析概念、关系、实体等知识图谱元素的语义在知识图谱中的表示特点，利用电路模型实现描述元素的语义子图建模和抽取。语义子图可准确描述元素在知识图谱中的语义上下文，并且这种描述具有易于理解和可解释的特点，能广泛应用于各种基于知识图谱的智能应用中，本专利提供一种精准描述知识图谱中元素语义的子图抽取方法，该方法包括以下内容：

1)知识图谱的图表示和预处理：根据知识图谱的三元组表示特点，将其转换为一个带标签的有向图G_r，由于G_r中两节点间可能存在多条边，因此G_r是一个多图，为了解决多图在应用中难以处理的问题，采用一种结合知识图谱原始图和二部图特点的混合表示方式，并这种图称为知识图谱混合图G_h，进一步，为简化G_h中语义信息表示和明确隐含的语义关系，对G_h分别进行语义扩充、语义明确和精炼操作；

2)语义子图：语义子图是用于精确描述知识图谱中给定的概念、属性和实体元素的有限规模子图，其并不强调语义完整性，即知识图谱中有限个三元组便能精确描述元素在该知识图谱中的语义，且元素语义的解释无须用到整个知识图谱全部的知识，语义子图由描述给定元素的Top-k个三元组组成；

3)语义子图抽取的电路模型构建：提出一种利用电路模型来解决语义子图抽取，即将抽取语义子图的问题转化为一个电路模型进行求解，基于步骤1)中构建的图，图中的边传递信息的能力对应于电路中的电导率C，图中的顶点容纳信息的能力对应于电路中的电压V，电流I表征单位时间内在边上通过的信息量，并给图中增加一个接地的陷入点z，同时让其它的所有点都增加一条指向z的边，知识图谱中s点的语义子图即从s到z的连接子图中捕获电流最大的子图；

4)电路模型中的电导率计算方法：针对知识图谱图的特点，提出了一套电导率权重计算规则，知识图谱的图中主要包括概念、属性、实体及元语，首先分析不同成分传递信息时的权重，然后给出由它们构成的三元组的电导率计算规则，包括频率规则、层次规则、实体空间规则、实体属性描述规则和独生实体优先规则；

5)语义子图的抽取算法：为解决抽取语义子图的效率问题，采用一种贪心策略设计语义子图抽取算法，算法中的贪心思想是优先选择分配电流与所引入的新节点之比最大的前缀路径，设G_max是所求的语义子图，首先令G_max为空，接下来迭代地不断加入从s到z的前缀路径到G_max中，随着G_max不断增长，新加入的路径可能包含G_max中已经存在的点，为了使得算法尽快得到满足图规模约束的结果，贪心规则优先选择分配电流和给G_max所带来的新节点之比最大的前缀路径。

作为本发明进一步改进，对所述步骤1)中的知识图谱混合图G_h，如果两节点间存在k，k>1，则将k-1条边对应的三元组作为二部图处理，保留剩下的1条边，这种处理在保证G_h可还原为原始图G_r的同时，也可使得G_h可以存放在邻接矩阵中，对G_h的语义扩充指将知识图谱中的一些隐含语义关系显式表示在图中，对G_h的语义明确是指将知识图谱中的容器和集合这种超图的表示形式变成简单图的表示形式，对G_h的精炼是指去除图中对语义分析无关的三元组，精炼通常能减小图的大小，有利于提高后继对图进行分析的效率。

作为本发明进一步改进，对所述步骤2)中的语义子图并非否认其它的语义描述与该元素不相关，而只是说舍弃它们并没有对元素的语义理解产生明显的负面影响，同时，语义子图优先关注那些最能将元素与其它元素区分开的语义信息，这些语义信息最能体现元素在知识图谱中的真实含义，语义不等价的元素对应的语义子图也应该不同，不同三元组对元素语义描述的重要程度是不同的，三元组与元素距离越近，并不一定代表它对元素的语义描述就越重要。

作为本发明进一步改进，对所述步骤3)中电路模型可根据欧姆定律和基尔霍夫电流定律进行求解，从计算得到电路中节点的电压和边上的电流数值，给定要抽取语义子图的元素s，其初始电压为1，陷入点z的电压为0，不同三元组具有一定对语义信息传播的传到能力，即电阻率，由此求出电路模型中节点的电压和流过三元组的电流。

作为本发明进一步改进，对所述步骤3)中的陷入点z，其有三个作用：(1)产生电势差和电流，提供一个电流流向的目标点，该点电压恒为0，即V(z)＝0，从而，寻找给定点s语义子图的问题变为求从s到z的连接子图；(2)惩罚度大的节点，从s出发的路径在经过度较大的点时会损失较多的语义信息；(3)惩罚长路径，由于每个点上的信息都有一部分流向z，因此路径越长，流入z的电流越多，路径上的电流减少越快。

作为本发明进一步改进，对所述步骤3)中的捕获电流，其量化表示一个子图携带关于s的信息量，对于同样规模的语义子图，取其中捕获电流最大的子图为所求语义子图，一个子图的捕获电流是所有组成该子图的前缀路径的分配电流总和，前缀路径指从s出发的路径P的下行路径，分配电流为单位时间内从s出发，严格经过前缀路径P的电流。

作为本发明进一步改进，对所述步骤4)中的电导率，其表示信息通过三元组<s,p,o>传递时会受到一定的阻力，因此对应电路图中边的电导率应该是一个位于区间[0,1]间的值，此外，信息从s传递到o和从o传递到s所受到的阻力可能不同，即三元组传递信息时还具有方向性。

作为本发明进一步改进，对于所述步骤5)中的语义子图抽取问题，其可分解为两个子问题：(1)遍历有向图中所有从s到z的前缀路径，计算每条路径上的分配电流；(2)遍历所有由前缀路径组成的满足图规模约束的子图，计算每个子图的捕获电流，并取其中捕获电流最大者为语义子图，不难分析两个子问题的求解过程都是N-P问题，所以需要一种近似的快速求解算法。

与现有技术相比，本发明具有如下优点和有益效果：

本发明方法提出了一种精准描述知识图谱中元素语义的子图抽取方法，通过分析元素语义在知识图谱中的表示特点，利用电路模型实现语义子图的抽取。语义子图可准确描述元素在特定知识图谱中的语义，因此，以语义子图为基础构造的应用更具可信度，能在一定程度上降低知识不确定性的负面影响。本发明提出的描述实体语义的方法具有较好的通用性，可直接应用到现有的知识图谱应用中。因此本发明具有较好的应用前景和推广范围。

附图说明

图1为本发明方法的逻辑流程图；

图2为电路模型计算示例图；

图3为分配矩阵计算示例图；

图4为属性语义子图抽取示例图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提出了一种精准描述知识图谱中元素语义的子图抽取方法，通过分析概念、关系、实体等知识图谱元素的语义在知识图谱中的表示特点，利用电路模型实现描述元素的语义子图建模和抽取。语义子图可准确描述元素在知识图谱中的语义上下文，并且这种描述具有易于理解和可解释的特点，能广泛应用于各种基于知识图谱的智能应用中。

作为本发明一种具体实施例，本发明提供逻辑流程图如图1所示的一种精准描述知识图谱中实体语义的子图抽取方法，包括步骤为：

1)知识图谱的图表示和预处理。知识图谱的基本构成是三元组形式的声明(Statement)，即<Subject,Predicate,Object>的形式，简写为<s,p,o>，这样的形式使得一个知识图谱很容易被表示为图的形式。三元组中的成分包括：统一资源标识符(URIs)表示的资源，表示属性值的文本(Literals)以及表示空节点(也称匿名节点)的空节点(Blanknodes)。令知识图谱中资源、文本和空节点的集合为univ(O)；将资源和文本的集合称为词汇，表示为vocab(O)；令sub(O)、pred(O)和obj(O)分别表示知识图谱中出现在subject、predicate和object位置的资源、文本和空节点的集合，显然这三个集合是有可能相交的。知识图谱的三元组表示特点使得它直接对应于一个图结构。

定义1(原始知识图谱图)；知识图谱O对应着一个带标签的有向图G_r＝<V,E,l_V,l_E>，其中V是节点的集合，E是变的集合，l_V和l_E分别是图中点和边到对应标签的映射函数。G_r中的两个顶点和连接顶点的边与知识图谱中的三元组描述具有严格对应关系，称G_r为原始知识图谱图。

原始知识图谱图G_r是一个多图(Multigraph)。由于组成知识图谱的三元组<s,p,o>中，一对s和o间可以有多个p_x相连，即知识图谱图中两节点间可能存在多条边，因此图G_r是多图。为了解决多图的表示以及避免全部采用二部图表示所产生的问题，这里采用一种综合知识图谱原始图和二部图优点的混合表示方式，并称这种图为混合知识图谱图。混合知识图谱图的主要思想是：当原始图中的两顶点间存在唯一边时，其表示不变，如果两顶点间存在k(k>1)条边，则将其中的k-1条边采用二部图描述。

定义2(混合知识图谱图)；给定知识图谱O的原始图G_r＝<V,E,l_V,l_E>，则O的混合知识图谱图G_h＝<V′,E,l_V,l_E>由如下规则构造：

(1)如果两节点间的边数k＝1,则将对应的边和点直接转化到G_h中；

(2)如果两节点间的边数k>1，则任取其中1条边直接转化到G_h中，并将其余k-1条边转化为二部图表示后再保存到G_h中。

混合知识图谱图能用邻接矩阵存储，在需要对节点间关系进行分析的时候只需将其中的二部图表示的边转化为原始图的形式。混合知识图谱图与原始知识图谱图均不要求所有的元素必须位于图的节点上。

2)语义子图。知识图谱图中与元素相关的点和边构成了元素在知识图谱中的语义上下文，这种语义上下文是知识图谱图中的一个子图，称之为元素的语义子图。

定义3(语义子图)；给定知识图谱O，e是O中的元素，称精确描述e的语义的三元组构成的子图为e的语义子图G_s(e)。语义子图具有如下特点：

(1)元素的语义子图规模是有限的。本发明认为知识图谱中有限个三元组便能精确描述元素在该知识图谱中的语义，或者说对元素语义的解释无须用到整个知识图谱全部的知识。这并非否认其它的语义描述与该元素不相关，而只是说舍弃它们并没有对元素的语义理解产生明显的影响。

(2)语义子图并不强调语义完整性，而优先关注那些最能将元素与其它元素区分开的语义信息，这些语义信息最能体现元素在知识图谱中的真实含义。

(3)同一知识图谱中，语义不等价的元素对应的语义子图也应该不同。

(4)不同三元组对元素语义描述的重要程度是不同的，应用中优先选择与元素关系密切的三元组信息将会有益于得到质量更好的结果。

(5)三元组与元素距离越近，并不一定代表它对元素的语义描述就越重要，所以构成元素语义子图的三元组不一定都是与元素直接关联的。

语义子图的上述特点使得它能给出一种关于元素语义的清晰、准确和可信的描述。本发明认为，根据语义子图所得到的显示表示更具可信度，有利于减少知识不确定性对应用造成的负面影响。

3)语义子图抽取的电路模型构建。假设关于s的语义信息是可度量的，设为1。s的语义信息由节点s发出，并通过与之关联的三元组传播到其它节点s_i。由于三元组对语义信息的传播具有一定阻力，使得s_i得到的关于s的语义信息会有损失。这样的传播过程在知识图谱图中不断进行。s的语义子图由那些从节点s出发，经过若干次传播后，依然保留较多关于s的语义信息的若干条路径组成。上述过程正好对应一个电路模型：s点发出语义信息的过程相当于在电路中s点加上+1伏的电压；从s出发，经过一条路径到达s_i点的语义信息相当于通过这条路径到达s_i的电流；传播中的阻力对应于电路中的电阻。

本发明将予以子图抽取问题转化为一个电路模型进行求解。图中的边传递信息的能力对应于电路中的电导率C，图中的顶点容纳信息的能力对应于电路中的电压V，电流I表征单位时间内在边上通过的信息量。在s上加上+1伏的电压，同时，在语义子图中增加一个陷入点(sink node)z，令z接地，即V(z)＝0，让其它的所有点都增加一条指向z的边，从而将问题变为求从s到z的连接子图。

给定图G，u和v是图中的点。令I(u，v)表示从u流向v的电流，V(u)和V(v)分别表示u和v的电压，C(u，v)是对应边的电导率，它与电阻的关系为C(u，v)＝1/R(u，v)。

根据欧姆定律有：

根据基尔霍夫电流定律有：

由上两式可得电路图中关于电压的线性方程：

其中，C(u)＝∑_vC(u，v)表示与点u相邻的所有边的电导率之和。

根据问题的描述可知电路图中的电压初始条件为：

V(s)＝1，V(z)＝0

联立可求得电路图中全部节点的电压，并可进一步求得各边的电流。

电路图中指向陷入点z的边的电导率为：

C(u，z)＝α∑_w≠sC(u，w)

其中，系数α＞0，本发明实现中取α＝0.85。

陷入点z有三个作用：(1)使电路有电势差，产生由s流出的电流。由于z点接地，电压为0，s出发的电流将会经过某些路径流入z。(2)惩罚度大的节点。由于节点会将拥有的语义信息通过相邻边进一步传播下去，从s出发的路径在经过度较大的点时会损失较多的语义信息，因此包含度较大的三元组并不是传播路径优先选择的对象。节点的度越大，经由该点指向z的边的电导率也可能越大，从该点流入z的电流便越多，从该点传播出去的电流也越少，从而避免路径优先选择度较大的点。(3)惩罚长路径。z的另一个额外的作用是惩罚长路径，由于每个点上的信息都有一部分流向z，因此路径越长，流入z的电流越多，路径上的电流减少越快。

语义子图对元素的描述程度，即语义子图的质量可通过它们的捕获电流进行定量衡量。子图的捕获电流越大，表明该子图携带关于s的信息越多，但同时会导致语义子图规模增加。因此，对于同样规模的语义子图，取其中捕获电流最大的子图为所求语义子图。有关捕获电流的相关定义如下：

定义4(下行关系)；给定电路中相邻两点u，v，如果I(u，v)＞0，则有V(u)＞V(v)，称v是u的下行，表示为u→_dv。

从点u流出的电流总和为：I_out(u)＝∑_{v|u→v}I(u，v)。

定义5(前缀路径)；对于从s出发的路径P＝(s＝u₁，...，u_i)，如果路径上相邻点满足下行关系，即u_j→_d u_j+1，则称P为一条前缀路径。

由下行关系的特点可知，前缀路径不会出现环路。

定义6(分配电流)；将单位时间内从s出发，严格经过前缀路径P＝(S＝u₁，...，u_i)到达u_i的电子总量称为P上的分配电流，记为

分配电流可用如下公式归纳计算：

分配电流在物理上描述了源自于s点的电流，在经过某条前缀路径后所剩下的总量。这里用它描述知识图谱图中经过特定路径后，该路径还保留多少关于源点的信息。

若干条前缀路径可组合为一个关于点s的子图，定义该子图的捕获电流为：

定义7(捕获电流)；子图G_s的捕获电流是所有组成G_s的前缀路径的分配电流总和：

在给定语义子图规模为N的限制条件下，其中具有最大捕获电流的子图便是所求的语义子图。

图2给出抽取最大捕获电流子图的示例。如图2所示的电路图，源点s和陷入点t的电压分别为+1伏和0伏。为简单起见，这里省略了每个节点指向陷入点的边。设图中每条边的电导率均为1。容易得知，图中共有5条从s到t的前缀路径，如(d)所示。其中，携带分配电流最多的路径是s→b→t，它的分配电流计算如下：经s→b的电流是0.5A，这部分电流的1/5流向c，4/5流向t，因此这条前缀路径的分配电流是0.5×4/5＝2/5A。点{s，b，c，t}构成的图G_s是连接s和t的一个子图，G_s的捕获电流是其中包含的所有前缀路径的分配电流之和，即s→b→c→t和s→b→t两条路径上的分配电流和：2/5+1/10＝0.5A。进一步的分析还可以得知，在连接s和t的所有规模为4的子图中，G_s具有最大捕获电流，即它是当前规模下s的语义子图。注意，G_s并不是规模为4的条件下唯一的语义子图，本例中的另一个语义子图由点{s，a，b，t}组成，它同样具有0.5A的捕获电流。

4)电路模型中的电导率计算方法。本发明认为信息通过三元组<s，p，o>传递时会受到一定的阻力，因此对应电路图中边的电导率应该是一个位于区间[0，1]间的值；此外，信息从s传递到o和从o传递到s所受到的阻力可能不同，即三元组传递信息时还具有方向性。本发明针对知识图谱图的特点提出了一套全面和适用的电导率权重计算规则。

首先分析不同成分传递信息时所拥有的权重，然后给出由它们构成的三元组的电导率。

规则1.频率规则

如果一个元素频繁出现在不同三元组中，那么当它对应知识图谱图中顶点时，该顶点的度会较大；当它对应图中边时，这条边会涉及较多三元组。这里将元素出现次数视为频率。可见，元素频率越大，它传递信息的能力越弱。这种传递能力可表示为权重。为了避免直接用频率倒数衡量权重而导致权重随频率增加而迅速下降，先引入一个退火函数g(x，m)：

其中，m是一个预先设定的常数；ε是一个很小的正常数，用于避免出现分子为0的情况。这里将退火函数中的x设为元素频率f(e)，m设为某成分中元素的最大频率f_max(e_k)，则元素对应的权重为：

μ_f(e)＝g(f(e)，f_max(e_k))

此时退火函数中的前半部分衡量元素在知识图谱中的全局频率权重，后半部分衡量在同类元素中的相对频率权重。

这种根据元素频率计算权重的方法称为频率规则。频率规则对知识图谱中的概念、关系和元语都适用。由于知识图谱一般不会将领域内的实例相关的知识全部加入进来，因此得到的实例频率并不可信，所以实例权重计算时不采用频率规则。

规则2.层次规则

层次关系rdfs：subClassOf和rdfs：subPropertyOf是知识图谱中的概念和关系重要组织形式。直观上，元素越是位于层次结构中的底层，它传播信息的能力就越强。因此，由层次造成的传播能力可用如下权重衡量：

其中d(ei)表示元素在层次中的深度，而H_max(e_k)表示e_i所处的层次结构最大深度。

层次规则适用于概念和关系。

规则3.实例空间规则

概念和关系都是知识图谱中的抽象资源，它所对应的实体或事实的集合称为其实例空间。称概念C对应的全部实例的集合I_sp(C)＝{a_i|a_i∈C}为它的实例空间。称关系P所对应的形如<a_i，P，b_j>的全部二元组<a_i，b_j>的集合为它的实例空间，记作I_sp(P)＝{<a_i，b_j>|a_i∈Dom(P)，b_j∈Rng(P)}，其中Dom(P)和Rng(P)分别表示P的值域和定义域。

在知识图谱描述中，组成概念C的实例空间的a_i满足<a_i，rdf：type，C>形式的三元组，组成关系P的实例空间的<a_i，b_j>满足<a_i，P，b_j>形式的三元组。概念的实例空间的规模越大，说明它对应的实例越多，则它位于概念层次上层的可能性越大，因此包含此概念的三元组传递的信息就越少。类似地，如果关系的实例空间规模越大，说明该关系被使用得越普遍，因此相应的三元组传递的信息就越少。考虑实例空间所得到的权重仍然可用退火函数计算：

其中|I_sp(e)|表示元素e对应的实例空间大小，

表示知识图谱中同类元素所对应的实例空间大小的最大值。

规则4.实例属性描述规则

通常，当一个实例比较重要时，知识图谱会用较多的三元组来对其进行描述。由于对任意实例a_i的描述都具有<a_i，p_m，b_j>的形式，这里属性值b_j可能是具体数值或其它实例对象，因此可通过统计p_m的数目来衡量知识图谱对于实例a_i的描述程度。这里采用如下的公式来计算实例的这种权重：

其中，dp(a_i)和op(a_i)分别表示描述中使用的DatatypeProperty和ObjectProperty，dp_max(a_k)和op_max(a_k)是所有实例的描述中使用的两类属性的最大数目。

规则5.独生实例优先规则

设实例a_i对应的概念是C，那么C中所包含的实例个数越少，这些实例传播信息的能力越强，即概念的实例越少，这些实例传递的语义信息越多。这种计算实例权重的规则称为独生实例优先规则，它也可采用退火函数来计算：

μ_Io(a_i)＝g(|C(a_i)|，C_max(a_k))

其中，|C(a_i)|表示实例a对应的概念所包含的实例总数，|C_max(a_k)|表示知识图谱中概念所包含的最大实例数目。

知识图谱中各类元素的总权重可综合上述5条规则计算得到。设有概念C、关系P、实例I和元语M，它们的综合权重如下：

μ(C)＝γ_c1×μ_f(C)+γ_C2×μ_H(C)+γ_C3×μ_Isp(C)

μ(P)＝γ_P1×μ_f(P)+γ_P2×μ_H(P)+γ_P3×μ_Isp(P)

μ(I)＝γ_I1×μ_Id(I)+γ_I2×μ_Io(I)

μ(M)＝μ_f(M)

其中，γ_c1+γ_C2+γ_C3＝1，γ_P1+γ_P2+γ_P3＝1，γ_I1+γ_I2＝1。

三元组t＝<s，p，o>的电导率可综合s、p和o的权重得到。电导率计算时，考虑到s和o由于位于顶点，它们的权重会被分化到多个三元组中，因此除以度。本发明用下式计算三元组t的电导率。

上述得到的电导率是从s到o方向的，如果电流是从o到s的逆方向，则将此时的电导率设为正向的α(0<α≤1)倍。本发明实现中取α＝0.8。

虽然这5条权重计算规则都较为直观，但均是本发明具体实践中的经验性总结，它们在本质上符合信息论中熵的观点，即事件出现的概率越小，它所传播的信息就越多。

5)语义子图抽取的抽取算法。

由于语义子图是由若干条前缀路径组合而成，因此寻找语义子图的问题可分解为两个子问题：(1)遍历有向图中所有从s到z的前缀路径，计算每条路径上的分配电流；(2)遍历所有由前缀路径组成的满足图规模约束的子图，计算每个子图的捕获电流，并取其中捕获电流最大者为语义子图。不难分析两个子问题的求解过程都是N-P问题，对于规模较大的图，效率较低。

为有效解决语义子图抽取问题，本发明采用贪心思想进行近似求解，改算法优先选择分配电流与所引入的新节点之比最大的前缀路径。设G_max是所求的语义子图。首先令G_max为空，接下来迭代地不断加入从s到z的前缀路径到G_max中。随着G_max不断增长，新加入的路径可能包含G_max中已经存在的点。为了使得算法尽快得到满足图规模约束的结果，贪心规则优先选择分配电流和给G_max所带来的新节点之比最大的前缀路径。

可构造一个矩阵D来辅助上述的贪心算法思想的实现。矩阵中k行v列位置的值d_v，k由此确定：d_v，k表示从s出发，沿前缀路径P＝(s＝u₁，...u_x＝v)到达v，且满足条件(i)和(ii)的分配电流：

(i).P正好有k个点不在图G_max中；

(ii).在所有从s到v的前缀路径中，P的分配电流最大。

可见，矩阵D中的列为电路图中的顶点，行方向为G_max不包括前缀路径中点的数目，称矩阵D为分配矩阵。

为方便计算D，可利用电流的一个特性：将D中列方向的点u₁＝s，u₂，u₃，...，t＝u_n按照下行关系排列，即如果u_i是u_i的下行，则u_j在序列中排在u_i之后。这样，列方向中的顶点按照电压从高到低排列，于是电流总是从序列中左边的点流向右边的点。按照这样的拓扑序列填充表D，可以保证当计算d_v，k时，对任意的u→_d v，d_u，x已经被计算。需要注意的是，分配矩阵是动态的，对于一个特定的G_max，有着一个特定的分配矩阵。如图3的例子所示，当G_max是由{s，b，t}组成，且语义子图的规模约束为4时，对应的分配矩阵如图中(b)表所示。分配矩阵中某个位置所对应的前缀路径需要额外的空间记录下来。

根据上面的分析，可得到抽取关于s的语义子图的贪心算法，如算法1所示。

其中算法1语义子图抽取的贪心算法具体如下；

算法中的I(u，v)/I_out(u)表示到达u的电流中继续流向v的比例，它乘以D_u，k′表示通过这条前缀路径分配到v的电流。这里需要得到满足d_z，k/k最大的前缀路径，它可以通过查表D得到。图3中，算法将选择d_t，1＝1/10所对应的前缀路径s→b→c→t加入G_max；虽然d_t，2/2＝1/8＞d_t，1/1，但由于加入d_t，2对应的路径s→a→c→t会导致G_max的规模超过4，所以不能选择这条路径。

下面对语义子图构造的复杂度进行分析。求解元素的语义子图的电路模型可分为两个步骤，即解电路线性方程和抽取语义子图。对于一个有n个点e条边的电路图，利用直接法求解电路线性方程的复杂度为O(n³)。而语义子图抽取算法的时间复杂度为O(ekb)，其中k是从s到z的路径中的最大长度，b是输出图的期望规模。因此，模型求解总的时间复杂度为O(n³+ekb)。由于b是常数，通常b远小于n，k≤n-1，且在通常的图中，可假定边和点的数目具有线性关系e＝λn，则总时间复杂度的后一项可视为n²级别的，所以该模型求解的复杂度可进一步简化为O(n³)，即求解速度主要取决于解电路线性方程所需的时间。解线性方程组需要O(n²)空间，而抽取算法需要O(nk)空间，因此总的空间复杂度为O(n²)。

在实际求解中，由于知识图谱图对应的电路线性方程通常是稀疏的线性方程，因此本发明实现中采用专门的稀疏线性方程求解方法，并进一步使用运行较快的C++语言来提高解线性方程的求解效率。本发明利用了Lapack++提供的API实现对稀疏线性方程的快速求解，其速度约为普通求解方法的8～10倍。

由于语义子图是由若干条分配路径组合得到，其中的分配电流体现了分配路径与元素的相关程度，因此可将语义子图中存在的最小分配电流作为算法的结束条件。假设分配电流的阀值为

则当不存在分配电流大于该阀值的分配路径存在时就可结束抽取过程。然而，根据前面的描述，抽取所使用的贪心算法并非按照分配电流的大小顺序来寻找分配路径的，因此这种结束条件得到的是一个近似结果。本发明实现中取

另一种结束条件则是直接限制语义子图的规模，当语义子图达到预计规模时算法就结束。为了便于分析各种映射方法随语义子图变化的情况，本发明主要使用第二种抽取结束条件。

概念和实体总是位于知识图谱图中顶点位置。对于任意概念C，只需在顶点C加上1伏电压，然后寻找从C到陷入点z的不大于规模约束N且具有最大捕获电流的子图作为C的语义子图。当抽取过程碰到二部图形式的边时，需要将其还原为<s,p,o>的原始形式进行分析，这样的处理可保证结果图中的多重边信息是完整的。算法2描述了概念语义子图的抽取过程。

其中算法2.概念和实体语义子图抽取算法具体如下；

关系的语义子图抽取与概念语义子图抽取具有差异，这种差异主要是由于关系在知识图谱图中既可以在顶点出现，也可出现在边的特点造成的。当知识图谱中对关系进行抽象声明描述时，关系对应于知识图谱图中的点，当实例使用关系进行属性值描述时，关系对应于知识图谱图中的边。图4正是关系属性P_i同时出现在边和点的例子，如果仅仅在点P_i上施加1伏电压，有可能会使得那些以P_i为边的三元组<c_k,P_i,d_k>上通过的电流过少，而这些三元组有可能对描述P_i的语义是有益的。这里采用添加辅助边的方法来弥补语义子图抽取中P_i同时出现在点和边的问题，即通过添加由P_i指向c_k的边t_k，增加流经三元组<c_k,P_i,d_k>的电流，从而提高语义子图中包含<c_k,P_i,d_k>的可能性。

直观上，c_k和d_k的权重越大，辅助边t_k的权重也相应越大。此外，当<P_i,rdfs:domain,C>和<P_i,rdfs:range,D>的电导率

和

越大，从P_i流出的电子也越容易经过边t_k。综上分析，可用下式计算辅助边t_k的电导率。

根据上述思路，同样可得关系语义子图抽取算法3，抽取过程中的多重边处理同概念语义子图抽取过程相同。

其中算法3.知识图谱关系语义子图抽取算法具体如下；

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.一种精准描述知识图谱中元素语义的子图抽取方法，其特征在于，该方法包括以下内容：

2.根据权利要求1所述的一种精准描述知识图谱中元素语义的子图抽取方法，其特征在于：对所述步骤1)中的知识图谱混合图G_h，如果两节点间存在k，k>1，则将k-1条边对应的三元组作为二部图处理，保留剩下的1条边，这种处理在保证G_h可还原为原始图G_r的同时，也可使得G_h可以存放在邻接矩阵中，对G_h的语义扩充指将知识图谱中的一些隐含语义关系显式表示在图中，对G_h的语义明确是指将知识图谱中的容器和集合这种超图的表示形式变成简单图的表示形式，对G_h的精炼是指去除图中对语义分析无关的三元组，精炼通常能减小图的大小，有利于提高后继对图进行分析的效率。

3.根据权利要求1所述的一种精准描述知识图谱中元素语义的子图抽取方法，其特征在于：对所述步骤2)中的语义子图并非否认其它的语义描述与该元素不相关，而是指舍弃它们并没有对元素的语义理解产生明显的负面影响，同时，语义子图优先关注那些最能将元素与其它元素区分开的语义信息，这些语义信息最能体现元素在知识图谱中的真实含义，语义不等价的元素对应的语义子图也应该不同，不同三元组对元素语义描述的重要程度是不同的，三元组与元素距离越近，并不一定代表它对元素的语义描述就越重要。

4.根据权利要求1所述的一种精准描述知识图谱中元素语义的子图抽取方法，其特征在于：对所述步骤3)中电路模型可根据欧姆定律和基尔霍夫电流定律进行求解，从计算得到电路中节点的电压和边上的电流数值，给定要抽取语义子图的元素s，其初始电压为1，陷入点z的电压为0，不同三元组具有一定对语义信息传播的传到能力，即电阻率，由此求出电路模型中节点的电压和流过三元组的电流。

5.根据权利要求1所述的一种精准描述知识图谱中元素语义的子图抽取方法，其特征在于：对所述步骤3)中的陷入点z，其有三个作用：(1)产生电势差和电流，提供一个电流流向的目标点，该点电压恒为0，即V(z)＝0，从而，寻找给定点s语义子图的问题变为求从s到z的连接子图；(2)惩罚度大的节点，从s出发的路径在经过度较大的点时会损失较多的语义信息；(3)惩罚长路径，由于每个点上的信息都有一部分流向z，因此路径越长，流入z的电流越多，路径上的电流减少越快。

6.根据权利要求1所述的一种精准描述知识图谱中元素语义的子图抽取方法，其特征在于：对所述步骤3)中的捕获电流，其量化表示了一个子图携带关于s的信息量，对于同样规模的语义子图，取其中捕获电流最大的子图为所求语义子图，一个子图的捕获电流是所有组成该子图的前缀路径的分配电流总和，前缀路径指从s出发的路径P的下行路径，分配电流为单位时间内从s出发，严格经过前缀路径P的电流。

7.根据权利要求1所述的一种精准描述知识图谱中元素语义的子图抽取方法，其特征在于：对所述步骤4)中的电导率，其表示信息通过三元组<s,p,o>传递时会受到一定的阻力，因此对应电路图中边的电导率应该是一个位于区间[0,1]间的值，此外，信息从s传递到o和从o传递到s所受到的阻力可能不同，即三元组传递信息时还具有方向性。

8.根据权利要求1所述的一种精准描述知识图谱中元素语义的子图抽取方法，其特征在于：对于所述步骤5)中的语义子图抽取问题，其可分解为两个子问题：(1)遍历有向图中所有从s到z的前缀路径，计算每条路径上的分配电流；(2)遍历所有由前缀路径组成的满足图规模约束的子图，计算每个子图的捕获电流，并取其中捕获电流最大者为语义子图，不难分析两个子问题的求解过程都是N-P问题，所以需要一种近似的快速求解算法。