CN111444317A

CN111444317A - 一种语义敏感的知识图谱随机游走采样方法

Info

Publication number: CN111444317A
Application number: CN202010185892.2A
Authority: CN
Inventors: 徐小良; 洪启帆; 王宇翔
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2020-07-24
Anticipated expiration: 2040-03-17
Also published as: CN111444317B

Abstract

本发明公开了一种语义敏感的知识图谱随机游走采样方法。本发明首先，利用知识图谱嵌入方法进行知识图谱的表示学习，获取谓词向量空间。其次，利用谓词向量空间计算查询谓词与知识图谱谓词的语义相似度，并将其转换为知识图谱中边的权重。第三，基于语义相似性在知识图谱中框定一个给定实体的

跳邻域子图作为知识图谱采样的总体空间。第四，通过邻边语义相似性的归一化和转移概率的衰减设计马尔科夫转移矩阵。随后，基于上述转移矩阵进行随机游走以达到马尔科夫稳定状态。最后，根据马尔科夫稳态下的节实体访问概率进行采样。本发明可根据用户的采样需求快速获取高质量样本数据，该样本数据可直接用于聚集型图查询问题中，以提高聚集型查询效率。

Description

一种语义敏感的知识图谱随机游走采样方法

技术领域

本发明涉及知识图谱领域，具体涉及一种语义敏感的知识图谱随机游走采样方法。

背景技术

知识图谱(Knowledge Graph)于2012年由Google最先提出，其基本理念就是将网络中存在的多源异构数据进行实体、属性与关系的抽取，以属性来描述实体，以实体间的关系刻画客观存在的事实(即客观存在的知识)。最终这些实体、属性与关系都将以图的形式进行存储形成一张丰富的知识图谱，并在此基础上实现基于图的查询与分析，进而为用户提供更智能、更丰富的知识获取、挖掘与搜索服务。其中，聚集型图查询问题是知识图谱图查询的重要研究内容之一，即针对实体数值属性的聚集函数查询问题，而知识图谱的采样则是回答聚集类图查询问题的基础。

目前采样技术多用于结构化数据(如关系型数据)的聚集查询过程中，根据具体的采样需求对其中的一列或者多列构建索引，通过索引快速访问满足条件的记录，从而达到采样的目的。然而，在非结构化数据的采样过程中，由于其数据结构不规则或不完整性，无法直接将结构化数据的采样方法迁移过来。

综上所述，目前聚集查询过程中的采样技术大多是针对结构化数据，缺少对非结构化数据，如图数据的采样方法。

发明内容

本发明的目的在于解决知识图谱中的采样问题，提出一种基于马尔科夫随机游走的语义敏感的知识图谱随机游走采样方法。

本发明先对谓词语义相似度进行计算，接着从融入语义信息的知识图谱中框定出n跳子图作为总体空间，然后利用谓词的相似度计算出转移矩阵并在总体空间中进行随机游走达到马尔科夫稳态，最终基于每个实体的稳态概率进行采样，形成一种语义敏感的知识图谱随机游走采样方法，为基于知识图谱的聚集查询提供有效的样本支持，具体内容如下：

步骤1：谓词语义相似度计算

以知识图谱G为输入，利用知识图谱嵌入模型(如TransE等)对知识图谱中的实体与谓词进行学习表示，即通过随机梯度下降(SGD)训练方法得到所有实体与谓词的向量表示，形成一种将实体与关系嵌入到低维向量空间中的模型M。

接着通过模型M计算G中每一个谓词与其他谓词之间的语义向量距离，再通过归一化得到谓词之间标准的语义相似度值。最终，任意两个谓词之间都有一个语义相似度，可为后续步骤提供必要的语义信息。

步骤2：语义敏感的n跳子图框定

考虑到完整知识图谱过于庞大，在其上进行随机游走以进行实采样存在两个问题：一是游走空间太大，基于马尔科夫的随机游走收敛速率较低；二是大量查询无关节点会对马尔科夫稳定状态下各个节点的访问概率产生影响，无法满足样本的无偏性(样本质量较低)。此外，知识图谱图查询的答案分布往往具有局部性，即大多数答案能在给定实体的n跳邻域内找到。因此本方法将利用图查询结果分布的局部性，基于第一步获取的语义信息框定n跳子图以构建马尔科夫网络。

步骤2.1：语义敏感的n跳子图框定的初始化

用户给定一个查询图，其需要包含三类信息：已知实体e₀，谓词p，目标实体类型t。根据查询图中谓词p选取该谓词与知识图谱G中其他谓词的语义相似度，维持一个关于谓词p的语义映射表H，作为后续知识图谱G中实体与实体间边的权重。

目标是根据已知实体e₀作为子图框定的起始点，对其n跳领域进行搜索，保留语义相似度大于阈值τ的实体及相关谓词，作为随机游走采样的总体空间。

步骤2.2：语义敏感的n跳子图框定的过程

首先，需要创建两个集合C₁和C₂，分别用来保存n跳子图的实体及两个实体间相连的边。

接着将实体e₀作为根结点，通过广度优先搜索(BFS)算法在知识图谱G中往外遍历。

循环遍历完e₀的邻居实体e，并记录当前广度优先搜索的层数layer。

若邻居实体e的类型为t，则直接将该实体添加于集合C₁中，将连接到邻居实体e的边添加于集合C₂中。若邻居实体e的类型符合目标实体类型t，则利用路径选择收益模型计算到邻居实体e的代价pss。

若代价pss大于阈值τ且从邻居实体e出发往后遍历n-layer层能找到实体类型符合目标实体类型t的实体，则将该实体添加于集合C₁中，将连接到实体e的边添加于集合C₂中，新建候选集合CSet，将符合条件的实体添加到候选集合CSet中作为下次迭代的结点。

不断迭代直到当前遍历层数layer大于用户限定跳数n结束，最终框定出n跳子图G′。其中路径选择收益模型计算代价pss的公式为：

其中，n为从已知实体e₀到遍历到的实体的路径长度，w_i为从已知实体e₀到遍历到的实体点的所有边的权重，从语义映射表H中获得。

为已知实体e₀到遍历到的实体路径上的权重的乘积。

步骤3：转移矩阵的设计

针对步骤2框定出的n跳子图G′，根据语义相似性来设计该子图的转移矩阵。

步骤3.1：基于邻边语义相似性的归一化

对于子图中的每一个实体，考虑该实体与其周围相连实体的谓词分布，据此进行基于邻边语义相似性的归一化。当邻边的语义相似度越大，表明向其相连的邻结点具有更高的转移概率。

假设当前实体e_i周围相连实体为N(e_i)，e_i与周围相连实体e_j的边为e_ij，其中e_j∈N(e_i)，通过邻边语义相似性归一化公式计算实体间的转移概率p_ij。其中邻边语义相似性归一化公式为：

p_ij＝Z·M(e_ij)

其中Z为归一化常数，M(e_ij)为边e_ij在语义映射表H中的映射值。

步骤3.2：转移概率的衰减

在考虑步骤3.1的基础上，为了消除无效点对转移概率的影响，据此可以给限定层数m之外的边进行转移概率衰减。d表示已知实体e₀与当前实体e_i的距离，当d＞m时，进行转移概率的衰减(其中f为衰减系数)，当d≤m时，转移概率不变，其中，p_ij为转移矩阵中第i行第j列的元素。

步骤4：随机游走达到马尔科夫稳态

根据步骤3生成的转移矩阵，在子图G′上进行随机游走，获得一个稳定的概率分布π，对子图G′上任意一实体都有其对应的稳态访问概率π_i，且满足

步骤5：基于稳态概率分布的采样

筛选出子图G′中所有类型为t的实体，得到符合类型的实体集合E_t，其中实体分别为

对应稳态概率分别为

对集合E_t中m个实体的稳态概率按如下公式进行归一化，其中Z为归一化常数。

用户给定样本容量k，创建结果集R存放样本点，循环遍历集合E_t，假设当前遍历到的结点为

其稳态访问概率为

接着针对每一个遍历到的结点生成一个随机小数r，0≤r≤1。若

则将该结点存放于结果集R中，若

不做处理。最终循环遍历直到结果集中样本点数量达到用户指定的样本容量k时结束。

本发明的有益效果：本发明通过融入利用TransE方法训练出的语义信息，利用语义敏感的知识图谱随机游走采样方法，能根据用户的采样需求快速地给出质量较高的样本结果。该样本结果能直接用于聚集型图查询问题中，打破了原有需要统计所有答案再调用聚集函数进行计算的聚集型图查询方法，极大提高查询效率。此外，本发明提出的采样方法可保证大多数样本点为正确答案，提高了查询精度。

附图说明

图1为本发明的系统流程图。

具体实施方式

为了使本发明的内容、特点阐述的更加清晰明白，下面结合附图1做出详细的介绍。

步骤1：谓词语义相似度计算

将知识图谱构建成TransE的输入数据，数据的格式要求有三个输入文件，分别为实体编号与实体文件、谓词编号与谓词文件和实体编号与谓词编号文件，通过这种实体与谓词编号组成的三元组格式进行训练，最终产生一种将实体与关系嵌入到低维向量空间中的模型M。

接着加载模型M，找到谓词在向量空间中的向量表示，计算谓词与其他谓词之间的语义向量距离，语义向量距离越大说明谓词之间的相近程度越小，语义向量距离越小说明谓词之间的相近程度越大。最终对语义向量距离取反并归一化得到谓词之间标准的语义相似度值。

最终，任意两个谓词之间都有一个语义相似度值。比如，计算谓词assembly与谓词{assembly,birthPlace,location}的语义相似度，通过语义向量距离取反并归一化得assembly与这三个谓词间的语义相似度为1,0.6,0.8。

步骤2：语义敏感的n跳子图框定

考虑到完整知识图谱过于庞大，先将每个实体与谓词进行编号，再构建起邻接表的结构，将整张图加载到内存中。

根据查询图中已知实体作为子图框定的起始点。根据用户指定的谓词选取该谓词与知识图谱中其他谓词的语义相似度，作为实体与实体间边的权重。

给定限定的跳数，从已知实体出发进行广度优先搜索(BFS),根据遍历到的实体点的类型、pss值和在限定跳数内找到实体类型符合目标实体类型三个条件来判断是否将其添加到子图中。

比如用户指定的起始点为Germany，谓词为assembly，目标实体类型为automobile，限定跳数为3跳，阈值为0.5。Germany周围的实体有{BMW_X6,Johannes_Manthey,Porsche}，分别相连谓词{assembly,birthPlace,location}，这三个谓词的权重分别是1,0.6,0.8。对周围第一个实体BMW_X6进行判断，因为该实体类型是automobile，所以直接将该实体及其对应边添加到子图中，接着对第二个实体Johannes_Manthey进行判断，该实体类型为soccermanager，则第一步先根据路径选择收益模型计算公式：

可以计算出其值为

满足阈值条件，第二步往后遍历两层，发现之后遍历到的所有实体类型都不为automobile。第二步条件不满足，则不添加结点Johannes_Manthey以及边至子图中。最后对第三个实体Porsche进行判断，计算出

且其下一层结点中有类型为automobile的实体Porsche_Cayman，则将其添加到子图中。不断迭代直到当前遍历层数大于用户限定跳数3时结束，得到框定的子图。

步骤3：转移矩阵的设计

该步骤需要从基于邻边语义相似性的归一化和转移矩阵的衰减两方面综合考虑，对步骤2框定出的子图进行转移矩阵的设计。

对于子图中的每一个实体，考虑该实体与其周围相连实体的谓词分布，据此进行基于邻边语义相似性的归一化，当邻边的语义相似度越大，表明向其相连的邻结点具有更高的转移概率。但由于离用户指定点距离越大，无效点越多，则需要考虑转移概率的衰减，减小向无效点转移的概率。

比如用户指定广度优先搜索起始点为Germany，谓词为assembly，目标实体类型为automobile，距离超过2即考虑转移概率衰减。距离为1的邻居点有{Porsche,BMW_X6,Munich}，分别相连谓词{location,assembly,locationCountry}，这三个谓词的权重分别是0.8,1,0.9，则根据邻边语义相似性归一化公式：

p_ij＝Z·M(e_ij)

计算得到从Germany到实体Porsche的转移概率为0.30，到实体BMW_X6的转移概率为0.37，到实体Munich的转移概率为0.33。再比如Jews为某一距离为2的实体，其邻居点有{United_States,Israel,Kugel}，分别相连谓词{populationPlace,populationPlace,origin}，这三个谓词的权重分别是0.5,0.5,0.7。United_States是距离为2的实体，Israel和Kugel是距离为3的实体，给定衰减系数f＝0.5，Israel和Kugel的转移概率衰减为原来的一半，根据邻边语义相似性归一化公式计算得到到三个邻居实体的转移概率分别为0.45,0.23,0.32。最终，对整张子图完成遍历，计算所有实体与其相连实体间的转移概率，得到转移矩阵。

步骤4：随机游走达到马尔科夫稳态

在子图上进行随机游走的目的是获得一个稳定的稳态分布，对于图中的每个点都有对应的稳态访问概率。首先，为图中每个实体随机赋值初始访问概率，使得所有实体访问概率之和为1，访问概率为矩阵中的每一项，组成一个1×n维的矩阵P，其中n代表子图中实体点的数目。接着通过与步骤3所得转移矩阵进行矩阵相乘运算，直至P中每个元素的值保持不变，即达到稳态分布。此时，P中每个元素之和仍为1。比如，实体访问概率构成的初始矩阵P＝[0.1 0.2 0.7]，转移矩阵为

经过矩阵运算最终得到稳态分布P＝[0.62 0.32 0.06]，矩阵中的每一项都对应着每个实体的稳态访问概率。

步骤5：基于稳态概率分布的采样

根据用户输入的采样类型对实体进行采样，首先需要先筛选出子图中所有符合采样类型的实体，对其稳态访问概率做归一化处理。接着循环遍历所有符合采样类型的实体，通过生成0到1的随机小数与当前遍历到的采样实体的稳态访问概率比较的方式来判断该实体是否添加到样本集中。最后当样本集中的样本数量达到用户指定的采样数量时停止采样。

比如当前图中符合目标实体类型automobile的实体分别有{BMW_X6,Kia_Cadenza,Porsche_968}，对应稳态访问概率分别为0.3,0.25,0.3。首先对实体的稳态访问概率进行归一化，得到0.35,0.3,0.35，接着通过比较随机小数与归一化后的访问概率的大小来判断是否将该实体添加至样本集中，目的是让访问概率与采样概率相挂钩，访问概率高的实体采样概率也高，得以采样到一批质量较高的样本点。