CN112861538A

CN112861538A - 一种基于上下文语义关系和文档一致性约束的实体链接方法

Info

Publication number: CN112861538A
Application number: CN202110182336.4A
Authority: CN
Inventors: 张海军; 伍映吉
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2021-05-28

Abstract

本发明为解决传统实体链接方法需要大量人工标注，所带来的成本等问题，提出了一种基于上下文语义关系和文档一致性约束的实体链接方法。本发明分为三个步骤：数据预处理，候选实体生成和候选实体消歧；在数据预处理阶段，解决数据存在的噪音问题；在候选实体生成阶段，利用维基百科连接图的过滤技术，得到具有较高召回率的候选实体集合；在候选实体消歧阶段，利用候选实体集合作为弱监督约束，考虑实体与其局部上下文之间的关系和文档中实体与实体之间的连贯性信息，通过神经网络进行候选实体消歧，得到最终的实体链接结果，将候选实体对应到知识图谱中。

Description

一种基于上下文语义关系和文档一致性约束的实体链接方法

技术领域

本发明涉及知识图谱实体链接领域，具体地，涉及一种基于上下文语义关系和文档一致性约束的实体链接方法。

背景技术

近年来，随着人工智能技术的迅猛发展，如何通过自然语言处理技术(NLP)让机器实现人类语言理解受到众多学者的关注。而如何训练计算机识别文本中的实体，并将实体正确无误的链接到数据库中，这是让计算机理解人类语言的关键步骤。实体链接(EntityLinking，EL)是指挖掘人类语言文本出现的潜在实体关系，并链接到所在的知识图谱实体上，解决实体间存在歧义性(即一词多义)和多样性(即多词一义)的任务。常用于知识图谱的构建、信息事件抽取和智能问答等应用中。目前传统的实体链接模型往往依赖于海量的文本标注，存在着需要消耗大量人工、大量时间、大量金钱的问题、且存在受限于语言和无法快速规模化的困难。如何利用自然语言处理技术、机器学习技术(ML)和深度学习技术(DL)等前沿方法，自动或者高效进行实体关系的链接，成为了当前亟需攻克的问题。因此，实体链接的方法研究得到了世界范围内研究人员的广泛关注。

发明内容

本发明为了解决现有技术中的不足，依托上下文语义关系以及文档一致性匹配模型，提出了一种基于上下文语义关系和文档一致性约束的实体链接方法。

一种基于上下文语义关系和文档一致性约束的实体链接方法：所述方法包括以下步骤：

A、数据预处理：对实验数据集中选择未标记的文档和维基百科数据进行预处理，因为当使用多个数据集时候，会存在以下两个问题：多个数据集的数据组织格式不统一；部分数据集的实体标注不完整；

B、候选实体生成：因为本步骤最初所选择的候选实体集合的锚定实体信息都来源于维基百科，所以通过维基百科来产生弱监督，通过将候选实体生成分为两个候选实体，来筛选得到高召回率的候选实体集：先使用Ganea and Hofmann预处理技术进行粗召回，再创建连接图进行精召回；

C、候选实体消歧：将步骤B获得的候选实体消歧，本步骤不仅需要考虑实体与其局部上下文之间的关系，而且还要考虑在文档中实体与实体之间的连贯性；从这两个方面进行建模，根据得分高的作为候选实体集合中的正确选项。

进一步地，所述步骤A包括以下步骤：

A1、针对实体标注不完整数据进行补全：针对原始的CoNLL 2003数据集包含的英语部分，将对语言无关的命名实体进行识别并剔除；通过实体嵌入，使用deep-ed预训练技术的Word2Vec来提取300维词向量；

A2、部分数据集的实体标注不完整，需要通过Wikipedia、YAGO、Freebase知识图谱进行实体标注。

进一步地，所述步骤B包括以下步骤：

B1、使用Ganea and Hofmann预处理技术进行粗召回：

将步骤A得到的候选列表进行过滤，Ganea and Hofmann预处理技术使用一个模型，来衡量在嵌入空间中实体e、指代跨度m、及其周围的上下文窗口c中的单词w之间的相似度q为；

是对实体e和单词w的外部词嵌入，p为实验结合准确率，则有根据P_wiki(e|m)提取前4个分数最高的候选，N_q＝4；根据q_wiki(e|m,c)选择3个分数最高的候选N_q＝3，此时召回率R为97.2％；

最少需要两个候选实体集合列表才能保持高的召回率；

B2、使用Wikipedia链接统计进一步减少候选实体列表，创建一个连接图进行精召回，实体作为所述连接图中的顶点；所述连接图定义了概率图模型的结构，本步骤用该连接图来对候选实体列表进行排名；本步骤只为每个指代实体选择最高的候选实体，并且仍然保持较高的召回率；

B21、进行无向图构建，从Wikipedia中构建无向图，图中的顶点为Wikipedia实体；链接顶点e_u和e_v，需要满足如下条件：

(1)D为Wikipedia的文章描述，且e_u和e_v同时出现在文章中m_i；

(2)D包含e_u和e_v，且e_u和e_v的距离小于L个实体；

B22、进行模型优化，考虑未标记(非维基百科)的文档；因此本步骤在优化训练文档的同时，也在测试时优化新的未贴标签的文档；

因此，为文档D中的每个指代实体m_i最多生成N_q+N_p个候选者，将文档D中的实体定义一个概率模型：

如果e_i和e_j在连接图中被链接，则否认为大于0的正数；因为该模型根据分配中未链接实体对的数量评分实体e₁，...，e_n；使用LBP的max-product版本来产生近似边际：.

候选数量的一个根据r_wiki(e_i|D)排序的函数；将候选集从N_q+N_p＝7到N_w＝2保持了93.9％的召回率；这个遗留的N_q+N_p-N_w实体被作为负样本E_i去训练消歧模型。

进一步地，所述步骤C包括以下步骤：

C1、计算实体上下文得分，通过实体上下文得分进行候选实体与文章局部相关性筛选；选择得分较高的候选实体；

m_i为指代实体，c_i为围绕该指代实体的上下文窗口，ξ(e_i，e_j)是成对的兼容性评分即相似性，α_ij是注意力权重，衡量位置j处的实体相对于预测实体e_i的相关性，其中

本地分数φ与Ganea and Hofmann预处理技术中使用的分数相同，兼容性分数计算公式为：

C2、计算实体相关性得分，通过实体相关性计算实体与全文的匹配度关系，选择得分较高的候选实体，Xei和Xej∈Rde是外部实体嵌入，使用外部的词嵌入得到，

是对角矩阵；注意力权重计算公式：

其中，A属于

是一个对角矩阵，函数h(m_i，c_i)将文档指代的实体与上下文映射到

空间，选择得分较高的候选实体作为候选实体集合中的正确选项。

本发明有益效果

(1)本发明将候选实体生成任务采用Wikipedia创建一个连接图，并进行候选实体召回。

(2)本发明候选实体消歧的目标设定为不仅需要考虑实体与其局部上下文之间的关系，而且还要考虑在文档中实体与实体之间的连贯性。

(3)本发明通过弱监督学习的方法减少人工标注，降低成本。

附图说明

图1为本发明的基于上下文语义关系和文档一致性约束的实体链接方法的流程图；

图2为实体连接在知识图谱问答系统中回答关于“Obama”问题的应用；

图3为本发明的无向连接图构建示意图；

图4为本发明的候选列表个数与召回率关系图；

图5为本发明的候选实体消歧算法示意图；

图6为本发明中h(m_i,c_i)生成方式示意图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以实体链接技术在知识图谱问答场景下的一个示例，来介绍其具体的研究场景和应用价值。如图2所示，针对问答场景下的问题“where was Zhangsan Born？”实体链接系统将问题单词“Zhangsan”作为一个实体指代，并将“Zhangsan”映射到知识图谱“BarackZhangsan”上。

所述步骤A包括以下步骤：

所述步骤B包括以下步骤：

B1、使用Ganea and Hofmann预处理技术进行粗召回：

将步骤A得到的候选列表进行过滤，Ganea and Hofmann预处理技术使用一个模型，来衡量在嵌入空间中实体e、指代跨度m、及其周围的上下文窗口c中的单词w之间的相似度；

是对嵌入空间中实体e和单词w的外部词嵌入，根据P_wiki(e|m)提取前 4个分数最高的候选，N_q＝4；根据q_wiki(e|m,c)选择3个分数最高的候选N_q＝3，此时召回率为97.2％；

因为小的候选实体集合缺乏足够的约束力，无法约束潜在分配的空间推动实体歧义消除模型进行特征学习，所以小的候选实体合集对于弱监督学习是无效的；

因此进行粗召回之后，候选实体集合的列表必须保持相当大，最少需要两个候选实体集合列表才能保持较高的召回率；

(1)D为Wikipedia的文档描述，且e_u和e_v同时出现在文档中m_i；

(2)D包含e_u和e_v，且e_u和e_v的距离小于L个实体。

如图3所示，在文档中“Brexit”，模型将实体Brexit连接到所有其他实体上，但是模型未将United Kingdom和Greek withdrawal from Eurozone连接起来，原因是它们的距离超过了L个实体。

如图4所示，绘制了在AIDACoNLL验证集上，候选数量的一个函数(根据r_wiki(e_i|D)排序)；可以看到把候选集从N_q+N_p＝7到N_w＝2保持了93.9％的召回率；这个遗留的 (N_q+N_p-N_w)实体被作为负样本E_i去训练消歧模型。

所述步骤C包括以下步骤：

是对角矩阵；注意力权重计算公式：

其中，A属于

以上对本发明所提出的一种基于上下文语义关系和文档一致性约束的实体链接方法，进行了详细介绍，本文中应用了数值模拟算例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。