CN110147401A

CN110147401A - 融合先验知识和上下文相关度的知识库抽取方法

Info

Publication number: CN110147401A
Application number: CN201910428092.6A
Authority: CN
Inventors: 孔芳; 李明扬; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-08-20

Abstract

本发明公开了一种融合先验知识和上下文相关度的知识库抽取方法。本发明提出了一种融合先验知识和上下文相关度的知识库抽取方法，包括：多知识库生成候选集：为了获取适用于实体链接任务的知识库(即：抽取与语料相关领域的维基页面)，通过统计维基百科(Wikipedia)、大型网络语料库Crosswikis(Spitkovsky and Chang)和Yago知识库(Hoffart et al.)中<mention‑entity>共现的次数来生成每个mention的候选集以及mention与每个候选entity之间的先验概率本发明的有益效果：先利用候选实体的先验知识抽取知识库，再利用候选实体的锚文本所对应的维基页面的上下文相关度来进一步抽取知识库，最终得到与实验语料领域相关的知识库，最大限度的减少知识库带来的噪声干扰与资源消耗。

Description

融合先验知识和上下文相关度的知识库抽取方法

技术领域

本发明涉及知识库抽取方法领域，具体涉及一种融合先验知识和上下文相关度的知识库抽取方法。

背景技术

知识库是基于知识的系统，知识库中知识根据它们的应用领域特征、背景特征、使用特征等而被组织成便于使用的、有结构的组织形式。知识库可用于自然语言处理的诸多任务中(例如关系抽取、事件抽取、阅读理解、问答等)，同时也是实体链接不可或缺的核心部件。常见的知识库包括Wikipedia、DBpedia、YAGO、Freebase等，本发明是对Wikipedia知识库进行抽取从而服务于实体链接任务。

知识库抽取的研究历史悠久。Alani H等人[1]于2003年首先将知识抽取工具与本体相结合，实现持续的知识支持和指导信息抽取，并直接从Web上的非结构化文本中构建所需的知识库。Wang J H等人[2]于2008年为每个条目设计多个模板和与每个模板相关的多个属性的知识库结构，最后根据设计的结构自动构建维基百科问答系统知识库。Shin J等人[3]于2015年提出DeepDive系统构建知识库，同时采用抽样和变分技术动态的扩充知识库。Lehmann J等人[4]于2015年从维基百科中提取结构化、多语言的知识，并使用语义网和链接数据技术构建出DBpedia知识库。Rebele T等人[5]于2016年将来自维基百科的10种不同语言的信息整合成一个连贯的整体，再将空间和时间的信息附加到各自的实例上，最后构建出允许用户在空间和时间上查询数据的YAGO知识库。

目前，实体链接任务所使用的知识库几乎都是Wikipedia_2014，服务于实体链接的知识库抽取的研究甚少，考虑到Wikipedia_2014知识库繁冗的信息会造成高价运行成本和负面噪音，所以本发明针对于实体链接任务进行知识库抽取具有很重要的研究价值。

传统技术存在以下技术问题：

知识库作为实体链接任务不可或缺的核心部件，知识库的质量直接决定了实体链接的性能。近年来，国内外的实体链接任务几乎都是使用Wikipedia_2014知识库，还未有人针对于实体链接任务进行知识库的抽取，从而进一步服务于实体链接任务。

由于Wikipedia_2014知识库结构工整、完备性较高，所以成为实体链接任务的首选知识库。但是完整的Wikipedia_2014知识库存在数据繁冗、多领域信息混杂等问题，导致知识库中掺杂了大量的噪声，影响实体链接任务的性能，同时极大地增加了系统不必要的资源消耗与训练时间。

相关文献：

[1]Alani H,Kim S,Millard D E,et al.Automatic ontology-based knowledgeextraction from web documents[J].IEEE Intelligent Systems,2003,18(1):14-21.

[2]Wang J H,Chung E S,Jang M G.Semi-automatic construction method forknowledge base of encyclopedia question answering system:U.S.Patent 7,428,487[P].2008-9-23.

[3]Shin J,Wu S,Wang F,et al.Incremental knowledge base constructionusing DeepDive[J].Proceedings of the VLDB Endowment,2015,8(11):1310-1321.

[4]Lehmann J,Isele R,Jakob M,et al.DBpedia–a large-scale,multilingualknowledge base extracted from Wikipedia[J].Semantic Web,2015,6(2):167-195.

[5]Rebele T,Suchanek F,Hoffart J,et al.YAGO:A multilingual knowledgebase from wikipedia,wordnet,and geonames[C]//International Semantic WebConference.Springer,Cham,2016:177-185.

[6]Le,Phong,and Ivan Titov."Improving entity linking by modelinglatent relations between mentions."arXiv preprint arXiv:1804.10637(2018).

发明内容

本发明要解决的技术问题是提供一种融合先验知识和上下文相关度的知识库抽取方法，先利用候选实体的先验知识抽取知识库，再利用候选实体的锚文本所对应的维基页面的上下文相关度来进一步抽取知识库，最终得到与实验语料领域相关的知识库，最大限度的减少知识库带来的噪声干扰与资源消耗。

为了解决上述技术问题，本发明提供了一种融合先验知识和上下文相关度的知识库抽取方法，包括：

多知识库生成候选集：

为了获取适用于实体链接任务的知识库(即：抽取与语料相关领域的维基页面)，通过统计维基百科(Wikipedia)、大型网络语料库Crosswikis(Spitkovsky and Chang)和Yago知识库(Hoffart et al.)中<mention-entity>共现的次数来生成每个mention的候选集以及mention与每个候选entity之间的先验概率若在上述3种不同的资源中得到了相同<mention-entity>的不同共现次数，则取共现次数最大的值；先验概率的计算公式为：

其中，m表示mention，m表示mention，e_i表示mention的第i个候选实体；

按先验知识比例抽取：

候选集中候选实体会按照先验概率进行排序，候选实体集中的候选实体以三元组的形式存储：<Wiki_id,Prior probability,Wiki_name>；

抽取出由第一步骤生成的mention候选集中的候选实体，同时将选出的候选实体所对应的维基百科页面放入抽取的知识库中；

按抽取实体的锚文本扩充：

在按比例抽取出候选实体以及将候选实体所对应的维基页面存入知识库的基础上，将利用知识库结构中“Other”部分的锚文本对抽取的知识库进行扩充；每个维基页面的“Other”部分的锚文本都可以发散性的指向相关的页面，而被指向的页面同理也能指向更深一层的文章，使用了锚文本指向的第一层页面信息；

按上下文相关度比例抽取：

在以上步骤得到按先验知识比例抽取的知识库的基础上，使用实体链接模型进行性能评测，分别得到Wikipedia_2014和Wikipedia_2018性能最好的抽取比例；每个维基百科页面中的“Description”部分都是对“title”(知识库中的entity)进行下定义式的详细描述，将使用mention所在的上下文分别与由第二步骤抽取出的候选实体的“Description”部分进行相似度计算，从而进一步筛选候选实体；

为了能更好的评测出mention所在的上下文和候选实体的“Description”部分的相似度，从语义的角度出发，使用以下无监督策略来计算相关度：ELMo+Euclideandistance；

ELMo(Embeddings from Language Models)是深层的双向语言模型(DeepBidirectional Language Model)的多层内部状态(internal state)表示的组合，是基于大量无标签文本训练完成的；ELMo不仅能够学习到词汇用法的复杂性，还能够学习不同上下文情况下的词汇多义性；

对于某一个词语t_k，一个L层的双向语言模型能够由2L+1个向量表示，计算公式为：

其中，是词语t_k的词向量，

使用预先训练好的ELMo模型来对每篇锚文本对应的维基百科的“Description”部分放入同一个语义空间中进行嵌入式表征，再分别对每个“Description”的嵌入式表征进行平均池化(Average Pooling)，最后进行相似度计算；

在经过进一步筛选候选实体之后，会候选实体重复进行锚文本扩充，最终得到服务于实体链接任务的知识库。

在其中一个实施例中，“抽取出由第一步骤生成的mention候选集中的候选实体，同时将选出的候选实体所对应的维基百科页面放入抽取的知识库中；”中，将按照1/4、1/3、1/2、2/3、3/4、7/8和1的比例抽取出由第一步骤生成的mention候选集中的候选实体。

在其中一个实施例中，“在以上步骤得到按先验知识比例抽取的知识库的基础上，使用实体链接模型进行性能评测，分别得到Wikipedia_2014和Wikipedia_2018性能最好的抽取比例；每个维基百科页面中的“Description”部分都是对“title”(知识库中的entity)进行下定义式的详细描述，将使用mention所在的上下文分别与由第二步骤抽取出的候选实体的“Description”部分进行相似度计算，从而进一步筛选候选实体”，其中，按上下文相关度的抽取比例为：50％、60％、70％、80％和90％。

在其中一个实施例中，“使用预先训练好的ELMo模型来对每篇锚文本对应的维基百科的“Description”部分放入同一个语义空间中进行嵌入式表征，再分别对每个“Description”的嵌入式表征进行平均池化(Average Pooling)，最后使用欧式距离进行相似度计算”中，使用欧式距离进行相似度计算。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

先利用候选实体的先验知识抽取知识库，再利用候选实体的锚文本所对应的维基页面的上下文相关度来进一步抽取知识库，最终得到与实验语料领域相关的知识库，最大限度的减少知识库带来的噪声干扰与资源消耗。

附图说明

图1是本发明背景技术中的知识库的内部结构的示意图。

图2是本发明背景技术中的实体链接模型的示意图。

图3是本发明融合先验知识和上下文相关度的知识库抽取方法的流程示意图。

图4是本发明融合先验知识和上下文相关度的知识库抽取方法的实体候选集内部结构图。

图5是本发明融合先验知识和上下文相关度的知识库抽取方法的England维基页面的锚文本示意图。

图6是本发明融合先验知识和上下文相关度的知识库抽取方法的ELMo模型示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

在使用Wikipedia_2014知识库的同时，考虑到知识库的完备性与时效性，从2018年的维基百科页面中抽取出Wikipedia_2018知识库。采用半结构化数据的存储方式，该知识库由若干篇结构化的维基页面并且按“doc id”递增顺序排列组成，结构如图1所示。

其中，“doc id”会赋予“title”，是全局唯一的。“title”即是实体链接任务中存储于知识库的entity。每篇文章中“Description”和“Other”部分都会保留初始维基页面中的多个链接，这些链接指向知识库中的其他实体页面。上述包含多个链接的文本即为锚文本(anchor)，本文将用来发散地寻找相关维基页面。

Wikipedia_2014和Wikipedia_2018两个知识库的对比信息如表1所示。

表1知识库对比信息

实体链接(EntityLinking，EL)是指将文本中的实体指称(mention)链接到知识库(Knowledge base，KB)中相应实体(Entity)的任务。实体链接任务通常分为两个主要阶段：候选集生成和候选实体消歧。候选集生成是为每一个mention提供知识库内相应的entity作为候选集，本文采用统计mention与entity的在知识库中共现次数来生成候选集。候选实体消歧在已有候选集的基础上，通过对候选实体进行相关性排序来实现。

将采用Le等人^[6]于2018年提出的对提及之间的潜在关系建模的实体链接模型来评估本发明最终抽取得到的知识库的质量，该模型如图2所示。

该模型有2个关键组件：局部模型和全局模型，step_1至step_3是局部模型，step_4是全局模型。

局部模型

局部模型是通过mention周围的上下文信息为每个mention生成每个候选实体与上下文的相关性得分。考虑到上下文中并不是所有单词都能提供有用的信息，会存在无信息的单词(停顿词、定冠词等)因为出现频数、出现位置等因素获得较大的得分，往往会对<mention-entity>产生负面影响。所以提出假设：若上下文中的单词是与mention相关，则它至少与该mention的一个候选实体是强相关的。鉴于以上的假设，通过计算mention周围单词与该mention的所有候选实体之间相关性得分，并选出每个单词与所有候选实体最高得分来筛选出相关的上下文单词。如图2中的step_1所示，选出得分排名前25个单词后，将不需要的单词的得分值设为-∞，以便在softmax操作后得到的权重为0，即忽视该单词。数学定义如下：将每个mention记做m，mention的候选实体集记做Γ(m)，候选实体e∈Γ(m)。mention的上下文单词记做c＝{w₁，w₂，...，w_K}，简记每个w∈c。则step_1的计算公式为：

step_2是在step_1得出上下文单词权重的基础上得出上下文的嵌入式表示，计算公式为：

step_3是将上下文嵌入式表示和自注意力机制生成的嵌入式相结合后再与候选实体进行相似度计算得到局部模型的<mention-entity>得分Ψ(e，c)，计算公式为：

Fin_cont＝Cont+Rel_mention

全局模型

由局部模型得到候选实体与该mention的上下文单词的相关性得分后，提出假设：每篇文章中与mention相链接的所有entity都应该具有同一个“主题”(例如前文中的“中国”指向“中国篮球队”，那么后文中的“美国”应倾向于指向“美国篮球队”)，即同一篇文章内的被链接的entity应该存在制约关系，甚至会互相影响最终的链接结果。基于上述的假设，的全局模型采用全连接成对的条件随机场(Conditional Random Field，CRF)，计算公式为：

其中，Ψ表示2.3节得到的局部上下文信息与候选实体的得分，Φ表示在全局模式下实体对的得分，是用来学习的对角矩阵。

因为上述公式为NP-hard问题，所以通过截断消息传递进行反向传播，从而与CRF协同工作。本文使用最大乘积循环置信度传播(Loopy Belief Propagation，LBP)为每个mention(记为m_i)估算最大边际概率，最后再结合先验概率得到最终的<mention-entity>得分。计算公式为：

其中，表示仅限于m_i时选择实体e的概率，g为简单双层全连接神经网络，用来改变输出的维度。

最终经过局部模型和全局模型两次排序后，候选实体集中排第一位的就是最终实体链接结果。

本发明将通过5个步骤抽取出服务于实体链接任务的知识库，如图3所示。

多知识库生成候选集

为了获取适用于实体链接任务的知识库(即：抽取与语料相关领域的维基页面)，考虑到知识库庞大的规模不适合采用遍历之类的“暴力”策略进行筛选，所以通过统计的方法进行优化筛选。

考虑到抽取出的知识库的完备性和覆盖率，通过统计维基百科(Wikipedia)、大型网络语料库Crosswikis(Spitkovsky and Chang)和Yago知识库(Hoffart et al.)中<mention-entity>共现的次数来生成每个mention的候选集以及mention与每个候选entity之间的先验概率若在上述3种不同的资源中得到了相同<mention-entity>的不同共现次数，则取共现次数最大的值。先验概率的计算公式为：

其中，m表示mention，m表示mention，e_i表示mention的第i个候选实体。

按先验知识比例抽取

候选集中候选实体会按照先验概率进行排序，候选实体集中的候选实体以三元组的形式存储：<Wiki_id,Prior probability,Wiki_name>，图4给出了mention为England所对应的候选集。

本节将按照1/4、1/3、1/2、2/3、3/4、7/8和1的比例抽取出由第一步骤生成的mention候选集中的候选实体，同时将选出的候选实体所对应的维基百科页面放入抽取的知识库中。

按抽取实体的锚文本扩充

在第二步骤按比例抽取出候选实体以及将候选实体所对应的维基页面存入知识库的基础上，本节将利用知识库结构中“Other”部分的锚文本对抽取的知识库进行扩充。图5给出了England所在的维基页面的锚文本信息。

由图1可知，每个维基页面的“Other”部分的锚文本都可以发散性的指向相关的页面，而被指向的页面同理也能指向更深一层的文章，本文仅使用了锚文本指向的第一层页面信息。

按上下文相关度比例抽取

在以上步骤得到按先验知识比例抽取的知识库的基础上，使用Le等人于2018年提出的实体链接模型进行性能评测，分别得到Wikipedia_2014和Wikipedia_2018性能最好的抽取比例。由图1可知，每个维基百科页面中的“Description”部分都是对“title”(知识库中的entity)进行下定义式的详细描述，本节将使用mention所在的上下文分别与由第二步骤抽取出的候选实体的“Description”部分进行相似度计算，从而进一步筛选候选实体。按上下文相关度的抽取比例为：50％、60％、70％、80％和90％。

为了能更好的评测出mention所在的上下文和候选实体的“Description”部分的相似度，从语义的角度出发，使用以下无监督策略来计算相关度：ELMo+Euclideandistance。

ELMo(Embeddings from Language Models)是深层的双向语言模型(DeepBidirectional Language Model)的多层内部状态(internal state)表示的组合，是基于大量无标签文本训练完成的。ELMo不仅能够学习到词汇用法的复杂性，还能够学习不同上下文情况下的词汇多义性。ELMo模型如图6所示。

其中，是词语t_k的词向量，

使用预先训练好的ELMo模型来对每篇锚文本对应的维基百科的“Description”部分放入同一个语义空间中进行嵌入式表征，再分别对每个“Description”的嵌入式表征进行平均池化(Average Pooling)，最后使用欧式距离进行相似度计算。

在经过本节进一步筛选候选实体之后，会候选实体重复进行第三步骤的锚文本扩充，最终得到服务于实体链接任务的知识库。

利用Le等人于2018年提出的目前性能最好的实体链接模型在以下6个公开语料上进行实验，在保留Le等人默认参数的基础上来评测抽取的知识库的质量。公开语料结构如表2所示。

表2实体链接公开语料结构

其中，AIDA-train作为训练集，AIDA-A作为开发集，AIDA-B、MSB、AQ、ACE、WW和CWEB为测试集。

按先验知识比例抽取的知识库信息如表3所示。

表3按先验知识比例抽取知识库信息表

在上述知识库基础上Le的实体链接模型性能如表4、5所示。

表4AIDA-B数据集实验结果

表5其他数据集实验结果

从表中可以看出，Wikipedia_2014和Wikipedia_2018知识库按先验知识抽取的最好比例分别是3/4和2/3，此时和原始知识库规模相比分别只有原始规模的1/2和2/5。接下来将在Wikipedia_2014_3/4和Wikipedia_2018_2/3知识库的基础上进一步筛选候选实体，抽取出最终知识库。

按上下文相关度比例抽取的知识库信息如表6所示。

表6按上下文相关度比例抽取知识库结果

同样的，再一次利用Le等人提出的实体链接模型进行实验。表7和表8给出了各个比例的知识库在6个测试数据集上的实验结果。从表中可以看出，Wiki_2014_3/4_0.6知识库在AIDA-B数据集上的性能仅低于Wiki_2014知识库约0.39％，在其他5个数据集上的平均性能仅低于Wiki_2014知识库约1.05％。同样的，Wiki_2018_2/3_0.8知识库在AIDA-B数据集上的性能仅低于Wiki_2018知识库约0.36％，在其他5个数据集上的平均性能仅低于Wiki_2018知识库约0.84％。实验表明本文提出的服务于实体链接任务的知识库抽取方法取得了与使用规模较大的通用知识库相当的性能，并且对于规模更大的知识库性能降低的幅度更小。

表7AIDA-B数据集实验结果

表8其他数据集实验结果

存储空间与时间效率对比

最后，将从知识库的存储空间和实验运行的时间这两个角度来表现出本文所提出的知识库抽取方法对于实体链接任务的有效价值。由表9可知，Wiki_2014_3/4_0.6和Wiki_2018_2/3_0.8知识库在取得与使用通用知识库相当性能的同时，节省了约70％的存储空间和约60％运行时间，对于实体链接任务有着重要的价值。

表9知识库存储空间与时间效率对比信息

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种融合先验知识和上下文相关度的知识库抽取方法，其特征在于，包括：

多知识库生成候选集：

按先验知识比例抽取：

按抽取实体的锚文本扩充：

按上下文相关度比例抽取：

为了能更好的评测出mention所在的上下文和候选实体的“Description”部分的相似度，从语义的角度出发，使用以下无监督策略来计算相关度：ELMo+Euclidean distance；

ELMo(Embeddings from Language Models)是深层的双向语言模型(DeepBidirectionalLanguage Model)的多层内部状态(internalstate)表示的组合，是基于大量无标签文本训练完成的；ELMo不仅能够学习到词汇用法的复杂性，还能够学习不同上下文情况下的词汇多义性；

其中，是词语t_k的词向量，

2.如权利要求1所述的融合先验知识和上下文相关度的知识库抽取方法，其特征在于，“抽取出由第一步骤生成的mention候选集中的候选实体，同时将选出的候选实体所对应的维基百科页面放入抽取的知识库中；”中，将按照1/4、1/3、1/2、2/3、3/4、7/8和1的比例抽取出由第一步骤生成的mention候选集中的候选实体。

3.如权利要求1所述的融合先验知识和上下文相关度的知识库抽取方法，其特征在于，“在以上步骤得到按先验知识比例抽取的知识库的基础上，使用实体链接模型进行性能评测，分别得到Wikipedia_2014和Wikipedia_2018性能最好的抽取比例；每个维基百科页面中的“Description”部分都是对“title”(知识库中的entity)进行下定义式的详细描述，将使用mention所在的上下文分别与由第二步骤抽取出的候选实体的“Description”部分进行相似度计算，从而进一步筛选候选实体”，其中，按上下文相关度的抽取比例为：50％、60％、70％、80％和90％。

4.如权利要求1所述的融合先验知识和上下文相关度的知识库抽取方法，其特征在于，“使用预先训练好的ELMo模型来对每篇锚文本对应的维基百科的“Description”部分放入同一个语义空间中进行嵌入式表征，再分别对每个“Description”的嵌入式表征进行平均池化(Average Pooling)，最后使用欧式距离进行相似度计算”中，使用欧式距离进行相似度计算。

5.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到4任一项所述方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到4任一项所述方法的步骤。

7.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到4任一项所述的方法。