CN114491080B - 一种面向人物关系网络的未知实体关系推断方法 - Google Patents
一种面向人物关系网络的未知实体关系推断方法 Download PDFInfo
- Publication number
- CN114491080B CN114491080B CN202210183719.8A CN202210183719A CN114491080B CN 114491080 B CN114491080 B CN 114491080B CN 202210183719 A CN202210183719 A CN 202210183719A CN 114491080 B CN114491080 B CN 114491080B
- Authority
- CN
- China
- Prior art keywords
- meta
- path
- entity
- network
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向人物关系网络的未知实体关系推断方法,获取人物关系网络的模式图和实例图并划分为训练集/测试集;使用智能体通过马尔科夫决策过程来挖掘元路径,智能体的奖励由实例图中元路径的覆盖率得到;使用策略网络进行迭代训练,得到识别的元路径与其覆盖率和置信度;将过滤后的测试集构成正样本,去除样本对中在训练集中出现的节点;选取测试集中的事实三元组和两个未知待预测的实体,推断两个实体之间的关系。本发明将实体关系的元路径查找问题建模为模式网络上的MDP过程,使用具有复杂策略的强化学习智能体,该策略由长短期记忆网络参数化,能够找到具有高覆盖率的元路径,推断出的未知实体间关系的准确度更高。
Description
技术领域
本发明属于人工智能技术领域,尤其涉及一种面向人物关系网络的未知 实体关系推断方法。
背景技术
异质信息网络(HIN)(如DBPedia、亚马逊产品图和蛋白质数据库)在 近年来发展迅速,为许多现实应用(例如人物关系、学术活动、商业活动和 药物-目标作用关系)提供了宝贵资源。如图1所示的异质信息网络是一种人 物关系网络,区分了网络中的实体类型和关系类型。为了更好地描述人物关 系的复杂结构,我们同时从两个视角来表征人物关系,即:(1)提供网络元 级描述的模式图(2)提供特定实体的实例级描述的实例图。为了捕获人物关 系中丰富的结构信息,元路径的概念被学者提出,以提供人物关系的元级描 述。给定两个特定实体,元路径是连接它们的实体类型和关系类型的序列, 是人物关系中路径的元级描述。例如在图1中,实体对普朗克和德国可以通 过以下元路径连接:
这些元路径尽管中间实体类型和长度各不相同,但都在一定程度上说明 了普朗克是德国的公民。由于元路径在预测人物关系中缺失链接的同时提供 了很好的可解释性,许多工作利用元路径进行人物关系链接预测任务。此外, 由于元路径描述的是模式级别的概念,因此它们对于在推断性实验中也具有 强大的知识传递能力。传统上,基于元路径的工作主要面向模式简单的人物 关系(如只有少数实体类型的文献网络),而其中的元路径通常是专家根据 专家知识进行定制的。将元路径用于模式复杂人物关系(如具有数百个实体 和关系类型的知识库(KB))的工作却寥寥无几,这是由于在模式复杂人物关 系上枚举固定长度的所有可能元路径是NP-难的。
尽管元路径具有显著优势,但在实践中获取它们通常是十分费力的。大 多数现有的基于元路径的研究仅采用模式简单的人物关系(例如仅4个实体 类型的DBLP)来展示其元路径下相似性函数的性能。这些工作中,一部分基 于领域知识人为地定义元路径,而另一部分枚举所有可能元路径并根据他们 的需要选择元路径。然而,现实世界还存在范围广泛的模式复杂人物关系(例 如知识库),涵盖着大量的实体类型和关系类型。例如,NELL中包含285 个实体类型和827种关系。所有的可能元路径的数量随着元路径长度的增加 而呈指数增长,这使得为各种任务挖掘高质量的元路径在计算上非常昂贵, 也是元路径在知识库的应用中不像在模式简单人物关系中那样普及的主要原 因。
近期的部分工作在模式复杂人物关系中元路径挖掘进行了先驱性的尝试。 然而他们中的大多数是在实例级别进行元路径的学习。他们依靠贪婪策略或 强化学习来学习两个实体之间的路径实例以进行链接预测。尽管它们在知识 图谱补全任务中取得了很好的性能,但它们缺乏将路径实例这些部分观察总 结为模式级别的一般规则的能力。另一些方法则在模式级别上进行广度优先 搜索或A*算法来生成元路径,但是都缺乏来自实例级别网络的合适信号。
在Sun等人提出携带语义信息和衡量实体相关性的元路径概念之后,越 来越多论文在各种任务中验证了其适用性和性能,其中典型的应用就是链接 预测。基于元路径的推理方法最关键的步骤是发现元路径。最简单的发现方 法是通过枚举固定长度的元路径,但对于复杂HIN而言计算成本非常高。Lao 和Cohen在固定长度l内生成元路径,并提出了基于这些元路径的可学习邻 近度量,但是算法性能对l严重依赖,并且合适的l在数据集之间差异很大。 Shi和Weninger提出了一个从复杂HIN中挖掘元路径的通用框架,采用经典 知识发现方法并讨论了类型粒度对相似性的影响。Meng等人提出一种贪心算 法FSPG,该算法可以考虑用户输入并推导出与所选实体对最相关的元路径子 集。Yang等人融合了深度嵌入和连续强化学习进行隐式元路径的学习,并将 相似度分数计算为到达目标实体的经验概率。但是,他们的模型需要预先指 定源类型和目标类型(源类型和目标类型通常也需一致),并且只能处理简 单的元路径。值得注意的是Wan等人首先提出考虑类型上下文的强化学习框 MPDRL,先生成路径实例再将其抽象为元路径。然而MPDRL很容易受限于 其寻路组件性能,且其整体性能取决于部分观察(生成的路径实例)。
对于包含众多事实三元组,如(德国,首都,柏林)等的事实图谱,要 预测给定两个实体之间是否存在某种关系,现有的未知实体关系推断方法对 于完全新的实体,即待预测的实体在训练的时候没有出现过的情况下,现有 的模型推断的准确性不够高。
发明内容
有鉴于此,本发明提出了一种面向人物关系网络的自动元路径挖掘方法, 该方法基于神经强化学习的框架SchemaWalk:智能体直接在模式图上学习行 走并建立以查询关系为目标的理想元路径。与在实例图上学习的元路径挖掘 方法相比,SchemaWalk更为有效。因为它直接在模式网络上获得高质量的 元路径,而不需要从局部观察中进行总结。与模式图上的其他图遍历方法相 比SchemaWalk更高效,这得益于具有适当奖励信号引导的强化学习方法在 超大搜索空间中的良好表现。在两个大型知识图谱的大量实验证明了SchemaWalk在分析模式复杂HIN的卓越性能。这一结果还强调了高质量元 路径对于知识图谱也具有显著的重要性。
本发明公开的一种面向人物关系网络的未知实体关系推断方法,包括以 下步骤:
获取人物关系网络的模式图和实例图;
基于广度优先搜索,去除模式图和实例图中查询关系rq连接的所有实体 对中去除rq后存在若干跳内的实例路径,剩下的实体对划分为训练集/测试集;
检查训练集中与rq相关的所有实体对,使用智能体通过马尔科夫决策过 程来挖掘元路径,智能体的奖励由实例图中元路径的覆盖率得到;
使用策略网络进行迭代训练,训练过程中使用类型节点嵌入表示来表示 模式图中的类型节点,加快元路径的搜索;训练结束后得到识别的元路径与 其覆盖率和置信度;
将过滤后的测试集构成正样本,从实例图中去除样本对中在训练集中出 现的节点;选取测试集中的事实三元组和两个待预测的实体,其中待预测的 实体在训练集中没有出现过,推断两个实体之间是否存在某种关系;
输出推断的两个实体间关系。
进一步的,所述模式图包括实体类型T、关系R、类型映射和关系映射 φ;针对查询关系rq,智能体随机从在模式图上由rq连接的实体类型对(tsrc, ttgt)中的头类型tsrc开始,并使用所述马尔科夫决策过程通过行走以最大化元路 径对应的奖励。
动作给定状态Si=(ti,tsrc,rq,ttgt),动作空间是模式图TG中类型节点 ti的所有出边加上一个保持不动的操作,即从实体类型节点tsrc开始,所述智能体根据边r和尾实体类型节点t的嵌入表 示,迭代地选l-1次最偏好的动作,形成一条l长的元路径或者保持在ttgt,一 旦智能体在最大步数前到达ttgt;
进一步的,所述奖励计算如下:
其中,ConM(vi,vj)代表实体对(vi,vj)由元路径M相连;
所述到达指标如下式计算:
进一步的,所述策略网络包括编码器和解码器,所述编码器由一个双层 长短期记忆网络参数化,将时间步i的状态Si编码为向量表示Si,并将Si与 实体类型ti,查询关系rq以及由rq连接的实体类型对中的目标类型节点ttgt和 rq的差值项拼接在一起,形成编码enci;
P=SoftmaX(Di(W2(ReLU(W1enci+b1))+b2)
其中,W1和W2分别为两层感知网络的权重,b1和b2分别为两层感知网 络的偏差;
基于动作概率分布P,智能体采取行动并移动到下一个类型节点。
进一步的,所述决策特征矩阵Di的通过以下方法得到:
通过候选关系rc和类型节点tc拼接来代表一条边,堆叠所有边的向量表 示以获得决策特征矩阵Di,
进一步的,所述策略网络的强化学习目标是:
进一步的,所述训练目标沿着如下方向进行优化,
进一步的,为表示模式图中的类型节点,将实例图中相同类型实体的嵌 入向量的平均池化作为初始化,数学计算如下:
进一步的,所述面向人物关系网络是一种模式复杂异质信息网络,由多 种类型的节点和边构成,节点表示人物或组织及其特征,边表示人物或组织 之间的关系,元路径是连接给定两个特定实体的实体类型和关系类型的序列, 是人物关系中路径的元级描述;所述面向人物关系网络包括Yago和NELL知 识图谱,所述Yago是建立在从维基百科和WordNet中自动提取的事实基础 上的知识图谱,所述NELL是从非结构化网页中提取结构化信息而构建的知 识图谱。
本发明的有益效果如下:
首次面向人物关系网络探索了模式级别的自动元路径发现方法,并用于 推断未知实体间关系的推断,该方法将元路径查找问题建模为模式网络上的 确定性马尔可夫决策过程(MDP)。智能体的奖励是由实例图中元路径的覆 盖率得到。
设计了一个具有复杂策略的强化学习智能体,该策略由长短期记忆网络 参数化,能够找到具有高覆盖率的元路径。
在两个大规模真实世界的人物关系网络进行了大量实验,证明了本发明 优于其余先进的基线算法,表明元路径在分析模式复杂的HIN方面(例如知 识图谱)也非常有效。
附图说明
图1人物关系网络两个视角示例图,其中实例图中每个实体都与模式图中的 实体类型相关联;
图2本发明中形式化为确定性马尔可夫过程的元路径挖掘环境示意图;
图3本发明的基于编码器-解码器架构的策略网络;
图4本发明和RotatE在ROC-AUC数据集下的推断实验结果;
图5本发明和RotatE在AP数据集下的推断实验结果。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以 限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
本发明首先定义异质信息网络、网络模式、元路径、覆盖率和置信度,之 后将元路径寻找问题形式化为马尔科夫决策过程。基于此,先介绍SchemaWalk模型(包括策略网络架构和类型节点表示)以及强化学习训练方 法。
示例1:图1展示了一个微型HIN示例图,其中T={人,科学家,大学,城 市,国家}和R={是...市民,出生于,工作于,毕业于,位于}。普朗克和 德国之间的关系是φ(普朗克,德国)={是...市民},普朗克的类型为τ(普 朗克)={人,科学家}。
定义3(元路径)每条元路径M是模式图TG长度为l的路径,其定义为其中ti∈T表示实体类型,ri∈R代 表关系。路径满足元路径M当且仅当 且ei∈φ(vi,vi+1); 在这种情况下,实体对(v1,vl)由M相连。
其中,ConM(vi,vj)代表实体对(vi,vj)由元路径M相连。
图2和图3为本发明的SchemaWalk的总体架构。图2为形式化为MDP 的元路径挖掘环境。模式图中的粗箭头代表智能体走出的路径,虚线箭头表 示HIN两层之间的联系。点状虚线表示逆关系。图3为SchemaWalk中基于 编码器-解码器架构的策略网络。此图中,向量箭头代表变量的向量表示。
将模式图上的元路径挖掘问题建模为一个马尔可夫决策过程(MDP)。针对 查询关系rq,智能体随机从在模式图上由rq连接的实体类型对(tsrc,ttgt)中的头 类型tsrc开始,并自适应地调整其策略并通过适当的探索和利用来行走以最大 化元路径对应的奖励。该MDP可以用元组描述如下:
动作给定状态Si=(ti,tsrc,rq,ttgt),动作空间是模式图TG中类型节 点ti的所有出边加上一个保持不动的操作,即 从类型节点tsrc开始,智能体根据边r和尾 实体类型节点t的嵌入表示,迭代地选l-1次最偏好的动作,形成一条l长的 元路径或者保持在ttgt,一旦其在最大步数前到达。
其中&表示逻辑与运算符。到达指标用于检查智能体的终点位置tl是否到 达目标类型节点ttgt(第一项),同时防止智能体一直停留在起始节点tsrc(第二 项)。第二个逻辑在推理连接相同类型的关系时是必不可少的,例如在推理队 伍队伍时,智能体可能会错误地认为它在开始时已经到达目标类型 (队伍),并自始至终不进行移动,无法生成元路径。奖励的这两项由λ加权 组合,并归一化在[0,1]区间:
基于实验结果,本实施例中设置λ=2。
本部分详细介绍SchemaWalk中基于编码器-解码器架构的策略网络和类 型节点的嵌入表示方法。
策略网络:为高效地搜索模式复杂HIN中的元路径,我们按照编码器- 解码器架构设计了一个策略网络。如图3所示,其编码器由一个双层长短期 记忆网络(LSTM)参数化,将在时间步i的状态Si编码为向量表示Si。具体 而言,LSTM将关系和类型节点的向量表示的拼接作 为输入并输出Si和更新后的历史向量hi。Si进一步与ti,rq以及ttgt和rq的差 值项拼接在一起,形成编码enci。采用差值项在为了帮助智能体找到查询目标类型相邻的头实体类型。[·||·]表示拼接运算符。
hi,Si=LSTM(hi,[ri-1||ti])
enci=[Si||ti||rq||(ttgt-rq)] (5)
解码器由带有整流线性单元(ReLU)的两层多层感知(MLP)网络(隐 藏层维度为dh)参数化。所有候选关系rc和类型节点tc由当前类型节点的出 边确定。我们通过rc和tc的拼接来代表一条边,并堆叠所有向量表示以获得 决策特征矩阵Di。将enci传入MLP后,其输出乘以Di并通过一个softmax层 计算动作概率分布
P=softmax(Di(W2(ReLU(W1enci+b1))+b2) (6)
类型节点嵌入表示若仅仅关注模式图的网络连接性,智能体的类型节点理 解能力会降低,阻碍元路径挖掘过程。为表示模式图中的类型节点,本实施 例运用实例图中相同类型实体的嵌入向量的平均池化作为初始化(公式(7)) 在训练期间可以选择自适应调整。实例节点嵌入由TransE(TransE为本领域 的公知常识,不再赘述)获得。
训练方法:由于在复杂网络模式中元路径挖掘问题的复杂性,本实施例 运用强化学习训练SchemaWalk智能体的策略网络πθ,并进行It次训练迭代, 以最大化公式(4)。其训练目标为,
其中,πθ(M)是遵循策略πθ生成的长度为l的元路径分布。依据 REINFORCE算法,公式(8)可以沿着如下方向进行优化,
本实施例采用移动平均基线来减少方差以稳定训练过程。该基线通过平 均累积折扣奖励计算得到。尽管在强化学习领域中,带有参数化基线的 Actor-Critic算法很盛行,但我们在采用这一算法时并没有观察到性能上的提 高。尽管如此,为鼓励SchemaWalk的探索行为进行差异化的元路径发现,我 们在损失函数中加入了一个额外的由β加权的熵正则化项。最终,采用ADAM 优化器以α的速率最小化损失。
本部分通过在两个具有代表性的真实模式复杂HIN上的链接预测实验来 说明SchemaWalk模型的有效性。
本发明将SchemaWalk与六种现有先进的关系推理方法进行比较,这些 方法可以分别落入基于元路径、基于嵌入或基于多跳的方法的范畴。这些基 线包括:
MPDRL在强化学习智能体发现实例路径后将它们总结为元路径。我们使 用Wan等人发布的代码实现和文中报告的参数。
PCRW基于随机游走进行元路径的挖掘。可使用Github上发布的Python 代码。
Autopath结合了强化学习和深度内容嵌入,并将实例对之间的相似性建 模为使用训练模型计算头实体到达尾实体的经验概率。我们将训练集和生成 的样本输入到模型中,并报告调整参数后的最佳结果。
RotatE学习向量嵌入来表示知识图谱中的实体和关系。我们采用文中报告 的在Yago数据集上的超参数,并在NELL上沿用这一超参数。
TransE通过使头实体/关系向量之和接近尾实体向量来构建三元组的嵌入。 我们使用Han等人的Pytorch代码实现。对于RotatE和T-ansE,我们计算头 /尾实体嵌入的Hadamard乘积,并使用SVM分类器进行链接预测。
MINERVA是一种基于神经强化学习多跳用于自动推理的方法。类似于他 们在NELL上运用头/尾实体对的预测分数(logits)的评估方法,我们计算所有 正样本和负样本的预测分数,并通过对这些分数进行softmax操作获得相似 性,这种做法比使用原始分数效果更好。数据集的统计数据总结在表1中。
表1:数据集的统计数据
表1中类型链接为将实例图中的实体映射至模式图中的实体类型的链接。
信息提取技术的进步推动了现实世界知识图谱的生成,我们可以将其视为 模式复杂的HIN。
Yago26K-906 Yago是建立在从维基百科和WordNet中自动提取的事实 基础上的知识图谱。原始的Yago对实体类型之间的语义关系施加了限制。 因此,本发明采用Hao等人预处理后的具有丰富语义的核心Yago数据。
NELL NELL是通过不断努力从5亿个非结构化网页中提取结构化信 息而构建的知识图谱。本发明利用预处理后的第1115部分NELL,其中删除 了由冗余关系generalizations连接的事实。
在每个数据集中各考虑三个关系:{是…市民,去世于,毕业于}用于 Yago,{工作于,与…竞争,与…比赛}用于NELL。为查询关系rq挖掘固 定长度l的元路径时,本实施例先基于广度优先搜索,检查关系rq连接的所有 实体对中是否去除rq后存在l-1跳内的实例路径。以这种方式失败的实体对 将被过滤,剩下的实体对以比例8:2被划分为训练/测试集。
在训练前,测试集中的事实会从实例图中删除,基于这个去除后的实例 图进行元路径覆盖率和置信度的计算。值得注意的是,NELL上的关系可以连 接许多实体类型(比如关系与...竞争这一关系连接了1488实体类型)。如 果我们平等地为这些类型对挖掘并不同样有用的元路径,本实施例将忽略大 量有效元路径。为避免这种情况,本实施例检查训练集中与rq相关的所有实 体对,并专注于为满足一定比例覆盖实例对(设置为80%)的最少类型对挖 掘元路径。训练结束后,识别的元路径与其覆盖率和置信度存储在文件中。 超参数的设置可以参考表2。
表2:超参数设置
在链路预测实验中,经过过滤后的测试集构成正样本。按照Wan等人的 做法,用相同类型的假实体替换实例图样本中的尾实体来生成负样本。正/负 样本的比例为2:1。针对每个样本,将连接该样本所有元路径的置信度相加, 该置信度总和为相似性。采用具有L1正则化的线性回归模型来进行链接预 测,并将SchemaWalk与其他基线算法进行比较。
对于SchemaWalk和所有基线方法,采用两个指标进行比较,分别为 ROC曲线下面积(ROC-AUC)和平均精度(AP)。针对每种方法,独立运 行5次,每个指标均以(均值±方差)的格式展示平均性能。
本实施例在10核CPU、32GB内存和12GB RTX-2080Ti GPU的台式 计算机上进行实验。即便使用稀疏矩阵计算所有潜在元路径的覆盖率和置信 度也是耗时的。因此在训练期间将已探索元路径的覆盖率和信任度暂存在内 存中,以减少不必要的计算。
以NELL数据集为例进行推断性实验,对于事实图谱(NELL,来源于维 基百科或互联网爬虫,包含众多事实三元组,如(德国,首都,柏林)等,预 测给定两个实体之间是否存在某种关系,其中待预测的实体在训练的时候没 有出现过,对于模型而言,属于完全新的实体。本实施例采样40%的正测试 样本,从实例图中依次去除0%、20%、50%和100%在这一样本对中出现的 节点后,进行训练和链接预测。四个去除比例下SchemaWalk和RotatE的ROC-AUC和AP结果如图4和图5所示。
通过ROC-AUC指标,我们发现SchemaWalk在关系与...比赛的移除率 仅为20%的情况下就已经击败了RotatE,并且SchemaWalk在移除率超过 50%时所有关系的两个指标均优于RotatE。RotatE的性能随着去除率的增加而 急剧下降,而SchemaWalk受影响的迹象非常轻微。值得注意的是,在推理与… 比赛时,当去除率从50%提高到100%,SchemaWalk-AUC和AP分别下降了 15.1%和6%。有两个原因可以解释这种现象:⑴实例节点的移除改变了其余节 点的周围环境,影响了元路径的覆盖率和置信度,⑵一些关键实例节点的移 除可能会切断大量的实例路径,从而切断这些路径推断出的元路径。
本部分进行消融试验,分析各组件对SchemaWalk模型性能的贡献。选择 面向Yago数据集,依次改变实体类型表示方法和元路径相似度函数并进行实 验。
表3:运用不同实例实体嵌入的模型性能比较。ROC-AUC/AP的最佳和次佳结 果分别以粗体和下划线标记。
本发明中,类型节点嵌入表示是由采用T-ansE得到实例节点嵌入后均值 池化得到的,类型节点嵌入表示在训练过程中不进行调整。本发明研究训练 时可调整的嵌入对实验的影响。此外,由于RotatE往往可以产生比TransE 更好的表征嵌入,本发明也将其进行比较。因为SchemaWalk的网络拓扑仅接 受相同维度的实体/关系嵌入,因此采用与RotatE一并提出的变体pRotatE。 本发明还考虑带/不带调整的随机初始化作为替代嵌入方案。
如表3所示,选择不进行调整的TransE综合表现最好,同时具有良好的 预测性能和搜索效率。随机初始化方案则以牺牲计算时间为代价带来了比此 相对较好的结果(探索过的元路径几乎是运用TransE的两倍)。相比之下, pRotatE延迟了元路径挖掘过程,因为其建模实体和关系嵌入的机制不符合 SchemaWalk的距离度量。另一方面,虽然调整嵌入可以一定程度提高 SchemaWalk的搜索效率,但是仅当初始嵌入不合适时才会提高。如果SchemaWalk已经运用了合适其模型的嵌入(如TransE),进行嵌入的调整 会不断震荡其类型表示,进而干扰挖掘过程。
元路径相似度函数指给定元路径如何计算两个实体的相似度。本发明采 用的相似度是连接两个实体的所有元路径置信度之和(置信度和),我们将 其与元路径数、置信特征和连通特征进行比较。元路径数是经过实体对的元 路径总数。连通特征是一维向量,其元素表示实体对上每条元路径的连通性。 置信特征将连通特征为1的元素替换为其置信度。采用后两个函数时,LASSO 线性回归模型可以自动选择特征、计算权重并返回相似度。
如表4所示,置信度和的性能比元路径数,考虑到不同的元路径具有不 同的置信度。采用置信度和与元路径数优于置信特征和连通特征,因为这两 种情况下不需要回归模型选择并确定特征的权重。
表4:运用不同元路径相似函数的模型性能比较。粗体表示最佳结果。
本发明研究了如何在大型模式复杂HIN中自动发现有效元路径的方法。 设计了强化学习智能体SchemaWalk,它在网络模式上行走,并受定义在实 例图上的奖励引导。经过训练,智能体能根据查询关系挖掘有效的元路径。 链接预测实验充分验证了SchemaWalk挖掘元路径的高效性能,这一结果还 强调了元路径在架构复杂HIN(如知识图谱)中的重要性,并有希望取代当 前主流的基于嵌入的方法。一旦为模式复杂的HIN挖掘出了高质量的元路径, 就可以获得更好且可解释的性能。
表5:SchemaWalk找到的元路径示例及其覆盖率和置信度
从发现的元路径中选择覆盖率或置信度较高的元路径进行展示,如表5 所示。本发明不仅可以为“人”这一高级别实体类型挖掘元路径,还可以为“科 学家”等子实体类型挖掘元路径。每条元路径的覆盖率和置信度在对应知识图 谱下进行了全局评估。我们观察到24.6%有着是...市民信息的人有他们毕业 院校的信息而满足这条元路径的人中有13.4%有着是…市民的信息。元路径 具有高覆盖率和低置信度。 这一奇怪现象是由于知识图谱中链接缺失造成的:如果检查满足这些元路径 的实体对,可以直观地人为推断出公民身份的联系。然而,由于知识库世界 中经常缺少链接公式(2)中的分子往往比我们感知的现实世界中的分子要小。 同理,因为知识库中只存在少数“生活在”这一关系的链接注释,元路径人 国家的覆盖率也较低。本发明还透过挖掘出的元路径,观察到一些有关 政治家、科学家和教练的有趣事实,例如12.5%的科学家会从他们的科学家 配偶工作的同一所大学毕业。
本发明的有益效果如下:
首次面向人物关系网络探索了模式级别的自动元路径发现方法,并用于 推断未知实体间关系的推断,将元路径查找问题建模为模式网络上的确定性 马尔可夫决策过程(MDP)。智能体的奖励是由实例图中元路径的覆盖率得 到。
设计了一个具有复杂策略的强化学习智能体,该策略由长短期记忆网络 参数化,能够找到具有高覆盖率的元路径。
在两个大规模真实世界的人物关系网络进行了大量实验,证明了本发明 优于其余先进的基线算法,表明元路径在分析模式复杂的HIN方面(例如知 识图谱)非常有效。
本文所使用的词语“优选的”意指用作实例、示例或例证。本文描述为“优 选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优 选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意 指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使 用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或 X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。
而且,尽管已经相对于一个或实现方式示出并描述了本公开,但是本领 域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。 本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特 别地关于由上述组件(例如元件等)执行的各种功能,用于描述这样的组件的 术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意 组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现 方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于 若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定 应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且,就术 语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求 中而言,这样的术语旨在以与术语“包含”相似的方式包括。
本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各 个单元单独物理存在,也可以多个或多个以上单元集成在一个模块中。上述 集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实 现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售 或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介 质可以是只读存储器,磁盘或光盘等。上述的各装置或系统,可以执行相应 方法实施例中的存储方法。
综上所述,上述实施例为本发明的一种实施方式,但本发明的实施方式并 不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的 改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明 的保护范围之内。
Claims (8)
1.一种面向人物关系网络的未知实体关系推断方法,其特征在于,包括以下步骤:
获取人物关系网络的模式图和实例图;其中,模式图包括实体类型T、关系R、类型映射τ和关系映射φ;实例图为G=(V,E,τ,φ),其中V代表图中的实体集合,代表连接V的边集合,τ:V→2T表示类型映射,其中T代表实体类型集合;关系映射为φ:E→2R,其中R代表关系集合;
基于广度优先搜索,去除模式图和实例图中查询关系rq连接的所有实体对中去除rq后存在若干跳内的实例路径,剩下的实体对划分为训练集/测试集;
检查训练集中与rq相关的所有实体对,使用智能体通过马尔科夫决策过程来挖掘元路径,智能体的奖励由实例图中元路径的覆盖率得到;其中,在识别查询关系rq时,元路径M的覆盖率为由rq和M连接的实体对与在异质信息网络中由rq连接的所有实体对的比率,
其中,ConM(vi,vj)代表实体对(vi,vj)由元路径M相连,将模式图上的元路径挖掘问题建模为一个马尔可夫决策过程,针对查询关系rq,智能体随机从在模式图上由rq连接的实体类型对(tsrc,ttgt)中的头类型tsrc开始,并自适应地调整其策略并通过适当的探索和利用来行走以最大化元路径对应的奖励,所述马尔科夫决策过程用元组描述如下:
在第i步,状态Si由(ti,tsrc,rq,ttgt)表示,其中ti代表当前实体类型,tsrc和ttgt为在模式图上由rq连接的实体类型对,状态空间包含了T×T×R×T中的所有有效组合;
动作给定状态Si=(ti,tsrc,rq,ttgt),动作空间是模式图TG中类型节点ti的所有出边加上一个保持不动的操作,即从实体类型节点tsrc开始,所述智能体根据边r和尾实体类型节点t的嵌入表示,迭代地选l-1次最偏好的动作,形成一条l长的元路径或者保持在ttgt,一旦智能体在最大步数前到达ttgt;
环境机制由状态转移概率 描述,即智能体当前状态根据选择的r连接的类型节点t调整,为状态空间,为动作;
奖励对当前发现的元路径的质量进行评估,并不断指导训练;
所述奖励计算如下:
其中为实例图中元路径M的覆盖率,Iarrival(M)∈{0,1}为到达指标,λ为加权组合系数,并归一化所述奖励在[0,1]区间;
所述到达指标如下式计算:
其中&表示逻辑与运算符,其中I{tl=ttgt}用于检查智能体的终点位置tl是否到达目标类型节点ttgt,用于防止智能体一直停留在起始节点tsrc;使用策略网络进行迭代训练,训练过程中使用类型节点嵌入表示来表示模式图中的类型节点,加快元路径的搜索;训练结束后得到识别的元路径与其覆盖率和置信度;
将过滤后的测试集构成正样本,从实例图中去除样本对中在训练集中出现的节点;选取测试集中的事实三元组和两个待预测的实体,其中待预测的实体在训练集中没有出现过,推断两个实体之间是否存在某种关系;
输出推断的两个实体间关系。
2.根据权利要求1所述的面向人物关系网络的未知实体关系推断方法,其特征在于,针对查询关系rq,智能体随机从在模式图上由rq连接的实体类型对(tsrc,ttgt)中的头类型tsrc开始,并使用所述马尔科夫决策过程通过行走以最大化元路径对应的奖励。
3.根据权利要求1所述的面向人物关系网络的未知实体关系推断方法,其特征在于,所述策略网络包括编码器和解码器,所述编码器由一个双层长短期记忆网络参数化,将时间步i的状态Si编码为向量表示Si,并将Si与实体类型ti,查询关系rq以及由rq连接的实体类型对中的目标类型节点ttgt和rq的差值项拼接在一起,形成编码enci;
所述解码器由带有整流线性单元的两层多层感知网络参数化,将enci解码,将解码输出乘以决策特征矩阵Di,并通过一个softmax层计算动作概率分布
P=softmax(Di(W2(ReLU(W1enci+bi))+b2))
其中,W1和W2分别为两层感知网络的权重,b1和b2分别为两层感知网络的偏差;
基于动作概率分布P,智能体采取行动并移动到下一个类型节点。
4.根据权利要求3所述的面向人物关系网络的未知实体关系推断方法,其特征在于,所述决策特征矩阵Di的通过以下方法得到:
通过候选关系rc和类型节点tc拼接来代表一条边,堆叠所有边的向量表示以获得决策特征矩阵Di,
其中,表示堆叠运算符,候选关系rc和类型节点tc由当前类型节点的出边确定,为动作空间。
5.根据权利要求1所述的面向人物关系网络的未知实体关系推断方法,其特征在于,所述策略网络的强化学习目标是:
其中,πθ(M)是遵循所述策略网络πθ生成的长度为l的元路径分布,θ为LSTM和MLP中的参数,为所述奖励。
6.根据权利要求5所述的面向人物关系网络的未知实体关系推断方法,其特征在于,所述强化学习目标沿着如下方向进行优化,
为估计上式中梯度,随机从异质信息网络中采样K个实体类型对(tsrc,ttgt)并为每个样本并行地试运行N次轨迹,梯度以此采样方式得到的轨迹通过下式进行近似:
7.根据权利要求1所述的面向人物关系网络的未知实体关系推断方法,其特征在于,为表示模式图中的类型节点,将实例图中相同类型实体的嵌入向量的平均池化作为初始化,数学计算如下:
其中vi为相同类型实体的嵌入向量,τ为基于当前策略采样出的行动轨迹。
8.根据权利要求1所述的面向人物关系网络的未知实体关系推断方法,其特征在于,所述面向人物关系网络是一种模式复杂异质信息网络,由多种类型的节点和边构成,节点表示人物或组织及其特征,边表示人物或组织之间的关系,元路径是连接给定两个特定实体的实体类型和关系类型的序列,是人物关系中路径的元级描述;所述面向人物关系网络包括Yago和NELL知识图谱,所述Yago是建立在从维基百科和WordNet中自动提取的事实基础上的知识图谱,所述NELL是从非结构化网页中提取结构化信息而构建的知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210183719.8A CN114491080B (zh) | 2022-02-28 | 2022-02-28 | 一种面向人物关系网络的未知实体关系推断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210183719.8A CN114491080B (zh) | 2022-02-28 | 2022-02-28 | 一种面向人物关系网络的未知实体关系推断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114491080A CN114491080A (zh) | 2022-05-13 |
CN114491080B true CN114491080B (zh) | 2023-04-18 |
Family
ID=81483643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210183719.8A Active CN114491080B (zh) | 2022-02-28 | 2022-02-28 | 一种面向人物关系网络的未知实体关系推断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114491080B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368074A (zh) * | 2020-02-24 | 2020-07-03 | 西安电子科技大学 | 一种基于网络结构和文本信息的链路预测方法 |
CN113672735A (zh) * | 2021-09-08 | 2021-11-19 | 北京邮电大学 | 一种基于主题感知异质图神经网络的链接预测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150324481A1 (en) * | 2014-05-06 | 2015-11-12 | International Business Machines Corporation | Building Entity Relationship Networks from n-ary Relative Neighborhood Trees |
CN111507543B (zh) * | 2020-05-28 | 2022-05-17 | 支付宝(杭州)信息技术有限公司 | 用于预测实体间业务关系的模型训练方法及装置 |
CN113282818B (zh) * | 2021-01-29 | 2023-07-07 | 中国人民解放军国防科技大学 | 基于BiLSTM的挖掘网络人物关系的方法、装置及介质 |
CN113010691A (zh) * | 2021-03-30 | 2021-06-22 | 电子科技大学 | 一种基于图神经网络的知识图谱推理关系预测方法 |
CN113254549B (zh) * | 2021-06-21 | 2021-11-23 | 中国人民解放军国防科技大学 | 人物关系挖掘模型的训练方法、人物关系挖掘方法及装置 |
-
2022
- 2022-02-28 CN CN202210183719.8A patent/CN114491080B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368074A (zh) * | 2020-02-24 | 2020-07-03 | 西安电子科技大学 | 一种基于网络结构和文本信息的链路预测方法 |
CN113672735A (zh) * | 2021-09-08 | 2021-11-19 | 北京邮电大学 | 一种基于主题感知异质图神经网络的链接预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114491080A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413844A (zh) | 基于时空注意力深度模型的动态链路预测方法 | |
CN113158033A (zh) | 一种基于知识图谱偏好传播的协同推荐模型构建方法 | |
CN112633478A (zh) | 一种基于本体语义的图卷积网络学习模型的构建 | |
Kan et al. | Zero-shot scene graph relation prediction through commonsense knowledge integration | |
Zhou et al. | Biased random walk with restart for link prediction with graph embedding method | |
CN117149974A (zh) | 一种子图检索优化的知识图谱问答方法 | |
Liu et al. | Conversational Question Answering with Reformulations over Knowledge Graph | |
CN114722212A (zh) | 一种面向人物关系网络的自动元路径挖掘方法 | |
Manchanda et al. | Text segmentation on multilabel documents: A distant-supervised approach | |
Salama et al. | Learning multi-tree classification models with ant colony optimization | |
CN114491080B (zh) | 一种面向人物关系网络的未知实体关系推断方法 | |
Ming | A rough set based hybrid method to feature selection | |
Bai et al. | Unsupervised inductive whole-graph embedding by preserving graph proximity | |
KR102221263B1 (ko) | 뇌기능 지식 베이스 자가 성장 시스템 및 방법 | |
Ktistakis et al. | Methods for optimizing fuzzy inference systems | |
CN116719947A (zh) | 一种用于电力巡检缺陷检测的知识处理方法及装置 | |
Arrar et al. | A comprehensive survey of link prediction methods | |
CN116208399A (zh) | 一种基于元图的网络恶意行为检测方法及设备 | |
Christoforidis et al. | Recommending points of interest in LBSNs using deep learning techniques | |
CN113869034B (zh) | 基于强化依赖图的方面情感分类方法 | |
Zhang | Deep loopy neural network model for graph structured data representation learning | |
CN114662693A (zh) | 一种基于动作采样的强化学习知识图谱推理方法 | |
CN114842247A (zh) | 基于特征累加的图卷积网络半监督节点分类方法 | |
CN114626530A (zh) | 一种基于双边路径质量评估的强化学习知识图谱推理方法 | |
CN114218446A (zh) | 基于动态异构信息网络可扩展表示的链路预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |