CN112287119B

CN112287119B - 一种在线资源相关信息抽取的知识图谱生成方法

Info

Publication number: CN112287119B
Application number: CN202011193522.XA
Authority: CN
Inventors: 冯冲; 赵赫; 唐雨馨
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-06-23
Filing date: 2020-10-30
Publication date: 2022-10-18
Anticipated expiration: 2040-10-30
Also published as: CN112287119A

Abstract

本发明提供了一种在线资源相关信息抽取的知识图谱生成方法，属于自然语言处理信息抽取技术领域。所述方法包括：在输入的在线资源引用句子上枚举生成候选span，基于BERT编码器学习句子中的token表示进而得到每个候选span的表示，从而将实体抽取和关系抽取两个任务转化为基于span表示的分类计算问题，将两个任务的目标函数通过加权得到联合目标函数，进而利用多任务学习策略进行联合训练。通过将训练好的信息抽取模型应用在大规模的科技文献语料中，生成在线资源的知识图谱。该方法解决了实体和关系抽取对在线资源属性描述刻画不足的问题，减少了构建在线资源知识图谱的人工成本，提高了知识图谱生成效率。

Description

一种在线资源相关信息抽取的知识图谱生成方法

技术领域

本发明涉及一种在线资源相关信息抽取的知识图谱生成方法，涉及自然语言处理中的信息抽取技术领域。

背景技术

目前，科技文献中的元数据信息抽取问题得到了越来越多的关注，然而除了普遍的关键词、文献引用、科技实体以及实体关系外，科技文献中的在线资源作为另外一种重要元数据信息，到目前为止还没有受到足够的重视。

伴随着科技文献规模的不断扩大，如今在文献中被引用的在线资源数量也正在迅速地增长，如何从海量的现有文献和不断产生的最新文献中发现、追踪并了解这些在线资源，已然成为了一个极富有挑战性的问题。从应用角度出发，对在线科技资源进行深入的分析和理解能够帮助科研人员快速掌握有关资源的基本信息，了解资源的种类、用途以及其他研究对于该资源的利用情况，从而帮助科研人员迅速定位到能够帮助解决其研究问题的在线资源，或对多个在线资源进行对比来选择最适合的资源，极大地加快了科研工作的进程和效率。此外，基于对在线科技资源的全面分析和深度理解，能够帮助开发出具备有效性和实用性的科学研究辅助工具，如在线科技资源百科知识库、在线科技资源搜索引擎和检索系统、在线科技资源个性化推荐系统等。

现有技术中，近几年来已有一些来自工业界的团队开发出专门面向在线资源的搜索、百科等系统工具，如谷歌数据集搜索引擎(Google Dataset Search)等。在该搜索引擎的开发过程中，核心问题是对数据集的相关信息进行深层次的理解与刻画。然而，现有的工业界应用仍旧主要面向“科研数据集”这一种在线科技资源，还有许多其他种类的在线科技资源，如科研问题、算法模型、工具软件、帮助文档等没有得到充分的关注。另外一些技术基于对有限数量的科技文献进行分析，并通过人工总结的方式构建规则，从而对科技文献文本中的在线资源名称、种类或功能等信息进行抽取。这类基于人工总结规则的方法需要消耗大量的人工成本，且总结得到的规则无法做到适用于全部科技文献，从而导致信息抽取的准确率和召回率难以保证。此外，现有的一些科技信息抽取技术大多从科技文献摘要中抽取一般的科技实体或关系，而在线资源分布在文献正文中，对资源的引用处上下文的内容和文本语义更加复杂，且在线资源的种类与一般实体的种类有很大不同，这使得现有的科技信息抽取技术难以适用于在线资源相关的信息抽取。

发明内容

本发明旨在解决使用现有实体和关系抽取技术对科技文献中的在线资源相关信息抽取准确度有限的问题，且相关技术对在线资源属性的描述刻画不足，以及通过人工方式构建在线资源知识图谱费时费力的问题，提出了一种在线资源相关信息抽取的知识图谱生成方法。

为达到上述目的，本发明采用如下技术方案：

所述在线资源相关信息抽取的知识图谱生成方法中涉及如下定义：

定义1：上下文句子s，其表达式为：{s＝w₁,w₂,...,w_N}，含义为一个包含资源实体的科技文献句子，该句子中有N个单词w₁,w₂,...,w_N；

其中，下标N为句子单词序列长度，w代表单词；

定义2：目标资源实体res，其表达式为：res＝(r_s,r_e)，含义为：给定科技文献句子的包含目标引用的单词序列

其中，r_s和r_e分别代表该起始单词索引和结束单词索引；

定义3：在线资源相关科技实体集合T，其表达式为T＝{(i,j,C_t)|1≤i≤j≤n；j-i+1≤L},含义为：给定的在线资源所属关系组的属性描述，每个在线资源对应多个在线资源相关科技实体；

其中，i和j为序列中的单词索引，C_t为在线资源相关科技实体的类别，L表示在线资源相关科技实体的最大长度；

定义4：资源-实体关系R：其表达式为R＝{(res,term,C_r)∪(term,res,C_r)|term∈T}，含义为：T中的每个在线资源相关科技实体term，其与目标资源实体res之间的关系；

其中，C_r为资源-实体关系R的类别，下标r代表资源；在线资源相关科技实体见定义3；

所述知识图谱生成方法，包括以下步骤：

步骤1)对于输入的包含有在线资源引用的科技文献句子，即上下文句子，由span生成器在科技文献句子上进行n-gram枚举得到候选span的集合；

其中，上下文句子的含义见定义1；

步骤2)基于BERT编码器对步骤1)中的科技文献句子进行单词token的文本表示，并输出token的文本表示以及整个句子的文本表示；

步骤3)在步骤2)基础上通过结合token的文本表示、span长度大小及整个句子的文本表示得到span集合中每个候选span的文本表示；

其中，token的文本表示为用向量表示的token文本，span长度大小为一个span包含的单词个数，整个句子的文本表示为用向量表示的整个句子；

步骤4)构建在线资源相关科技实体抽取任务的目标函数，该目标函数用于训练，训练目标为对每个候选span的文本表示进行分类，即判断每个span所属的实体类别或判断其为“非正确科技实体”；

步骤5)构建资源-实体关系抽取任务的目标函数，该目标函数用于训练，训练目标为基于输入的“在线资源引用的科技文献句子”中包含的目标资源实体判断span与目标资源实体之间的关系或判断其为“span与目标资源实体之间不存在关系”；

其中，目标资源实体见定义2；资源-实体关系见定义4；

步骤6)基于span的文本表示，以及步骤4)和步骤5)中构建出的在线资源相关科技实体抽取以及资源-实体关系抽取两个任务的目标函数，通过多任务学习，即通过使用共享span的文本表示并行训练两个任务，基于加权构建在线资源相关科技实体抽取任务和资源-实体关系抽取任务的联合目标函数，进行联合训练，学习两个任务之间的潜在影响关系，得到训练好的在线资源相关信息抽取模型；

步骤7)生成在线资源知识图谱，具体为：输入大量科技文献，基于步骤6)训练好的在线资源相关信息抽取模型，抽取出科技文献中全部的在线资源相关科技实体和资源-实体关系，将每一种在线资源与科技实体之间的关系作为在线资源的一种属性，并对抽取出的信息进行整合形成自我中心网络，即生成在线资源知识图谱；

其中，自我中心网络，即ego network。

有益效果

本发明所述的一种在线资源相关信息抽取的知识图谱生成方法，与现有的实体关系抽取方法和以科技文献作为目标语料的科技信息抽取方法，具有以下有益效果：

1.所述方法设计了在线资源相关的信息抽取模型，该模型采用基于span的多任务实体-关系联合抽取框架，充分利用BERT编码结构学习单词和span的文本表示，并通过多任务学习的方法同时对句子中的在线资源相关科技实体抽取、目标资源实体与在线资源相关科技实体之间的关系抽取两个任务进行联合训练；

2.通过在构建的SciResTR数据集上对本发明所述方法进行有效验证，结果表明，本发明与其他实体关系联合抽取方法以及科技信息抽取方法相比，抽取结果的F1值有明显提升；

3.所述方法通过将在线资源相关信息抽取方法应用于大规模的科技文献语料，利用在线资源相关科技实体、资源-实体关系信息来自动构建在线资源知识图谱，极大地减少了人工成本，提高了知识图谱的构建效率，并展示了部分生成的知识图谱实例。

附图说明

图1为本发明一种在线资源相关信息抽取的知识图谱生成方法的框架图；

图2为本发明一种在线资源相关信息抽取的知识图谱生成方法的流程图；

图3为使用BRAT进行人工标注的数据标注结果的实例；

图4为ARC文献语料库中在线资源知识图谱大小排名前10的资源；

图5为使用本发明一种在线资源相关信息抽取的知识图谱生成方法构建的在线资源Word2Vec的知识图谱实例；

图6为使用本发明一种在线资源相关信息抽取的知识图谱生成方法构建的在线资源OpenNLP的知识图谱实例。

具体实施方式

下面将结合说明书附图对本发明一种在线资源相关信息抽取的知识图谱生成方法作进一步的阐述。

实施例1

首先需要说明，本发明一种在线资源相关信息抽取的知识图谱生成方法，目的是对科技文献中的在线资源引用上下文句子中，与资源相关的细粒度信息进行抽取，基于抽取到的信息生成知识图谱。其中细粒度信息抽取包括对在线资源相关科技实体的抽取和目标资源实体与在线资源相关科技实体之间关系的抽取。该问题有如下的形式化定义：给定一个包含有在线资源引用的上下文句子s＝{w₁,w₂,...,w_N}，例如上下文句子“We selectedour vocabulary from terms(words and phrases)in WordNet lexicon”，N为句子单词序列长度(在上述给出的例子中，上下文句子由12个单词组成，因此N为12)，以及给定其中包含的目标资源实体res，例如上述上下文句子中，给定其包含的目标资源实体res为“WordNet lexicon”，该细粒度信息抽取问题由两个子问题构成：

在线资源相关科技实体抽取：从句子中抽取出全部与目标资源实体res相关的其他在线资源相关科技实体T＝{(i,j,C_t)|1≤i≤j≤n；j-i+1≤L}，其中i和j为序列中的单词索引，C_t为在线资源相关科技实体的类别，L表示在线资源相关科技实体的最大长度。例如上述上下文句子中，在线资源相关科技实体有“vocabulary”、“term”、“words”、“phrases”，其在线资源相关科技实体类别为Data，即数据。所有的在线资源相关实体类别的定义及举例见实施例2。

资源-实体关系抽取：针对每个在线资源相关科技实体term，在上述例句中为“vocabulary”、“term”、“words”、“phrases”。抽取其与目标资源实体res(上述例句中为“WordNet lexicon”)之间的关系R＝{(res,term,C_r)∪(term,res,C_r)|term∈T}，其中，C_r为资源-实体关系的类别。例如，在上述例句中，目标资源实体“WordNet lexicon”与在线资源相关科技实体“vocabulary”的关系为“Used-for”(使用关系)，目标资源实体“WordNetlexicon”与在线资源相关科技实体“term”的关系为“Part-of”(部分关系)。所有的资源-实体关系类别的定义及举例见实施例2。

此外需要注意的是，由于关系类别中存在部分非对称关系，因此对于每一对“目标资源实体-在线资源相关科技实体”的组合，需要对(res,term)和(term,res)的关系类别分别进行判断。

如图1所示，本发明一种在线资源相关信息抽取的知识图谱生成方法主要由三部分组成，分别为span生成方法、文本表示方法以及多任务优化目标函数构建方法。首先，对于给定的资源引用上下文句子s，span生成器通过在句子上进行枚举得到候选的span集合SP＝{sp₁,sp₂,...,sp_k}，每个span为在句子中出现的最大长度不超过l_s的单词子序列，且将作为在线资源相关科技实体的候选。基于BERT模型的编码器学习句子中单词token的文本表示，在此基础上每个span的文本表示可以通过结合token的文本表示、span长度大小的表示以及整个句子的文本表示来得到。因此，针对于每个候选span的表示，在线资源相关科技实体抽取的目标转化为判断每个sp∈SP所属的实体类别或判断其为null(即非正确的科技实体)，资源-实体关系抽取的目标转化为判断(res,sp)∪(sp,res)，即判断span与目标资源实体之间的关系类别或判断其为null(即span与res之间不存在关系)。通过多任务的学习策略，两个任务的目标函数通过加权组合成最终的联合学习目标函数，因此在训练的过程中能够同时对两个任务进行优化，并学习到两个任务之间的潜在影响关系。下面参考图1分别对该方法的每个步骤进行详细描述及举例说明：

如图1所示，首先通过一个span生成器在输入的在线资源引用上下文句子上，通过枚举获得所有可能的span作为在线资源相关科技实体的候选。给定一个上下文句子s及其中的目标资源实体res，span生成器将以目标资源实体为中心，分别在资源实体左边的单词序列和右边的单词序列上枚举单词序列生成span。一个span定义为sp_i＝{w_START(i),...,w_END(i)}，即起始单词索引为START(i)而结尾单词索引为END(i)的单个单词或多个单词组成的短语，且span的最大长度不超过l_s：

1≤START(i)≤END(i)<r_s|r_e≤START(i)≤END(i)≤N (1)

END(i)-START(i)<l_s (2)

例如，给定一个上下文句子“We selected our vocabulary from terms(wordsand phrases)in WordNet lexicon”，给定其目标资源实体res为“WordNet lexicon”，span生成器将枚举所有长度小于ls的单词序列，例如设置ls为3，则span生成器会生成：“vocabulary”、“terms”、“words”、“phrases”(长度为1)，“our vocabulary”、“fromterms”、“terms(words”、“and phrase”(长度为2)的候选span，这些候选span一起构成候选span集合。

首先，为了得到每个token的表示，采用预训练的BERT模型结构来对资源引用上下文句子中的每个token进行编码。对于一个输入的资源引用上下文句子，将其经过分词处理后得到token序列：s＝x₁,x₂,...,x_N。对于每个token，可以使用BERT模型得到其编码的文本表示为：

h_t＝BERT(x_t) (3)

考虑到资源引用上下文文本中可能会出现大量未录入词表中的单词，这会使得BERT编码器难以学习到这些未录入单词的实际语义信息，从而降低模型的文本表示学习效果。因此，为了增强文本表示的学习能力，本发明使用了BPE(byte-pair encoded)的token序列表示方法来表示输入句子。BPE表示法将一些不常出现的单词token表示为其几个子token的组合，例如，toolkit被可以表示为tool和kit两个子单词的组合。这样，通过使用BERT分别对每个子token进行编码表示，再将各部分子token表示连接起来既得到了原token的表示，避免了对未录入单词无法正确编码的问题。因此，最终每个token可以被编码表示为：

其中h_t为x_t的第i个子token的BERT编码表示，最终形成的编码为一个向量，例如[0.11,0.32,…,0.25]。

步骤3)在步骤2)基础上通过结合token的文本表示、span长度大小以及整个句子的文本表示得到span集合中每个候选span的文本表示；

因为目标资源实体与span一样均为资源引用上下文句子输入中的token序列，因此本小节将以span为例介绍其文本表示方法，目标资源实体的文本表示方法本质上与span一致。对于每个span生成器生成的候选span，本发明提出分别从边界表示和整体表示两个方面来对span级别的本文语义信息进行编码学习。边界表示直接由BERT模型对span的边界token的表示构成，即分别为span的起始token的表示h_START(i)以及span的结尾token的表示h_END(i)。例如一个span为“annotate a dataset”，那么其边界表示由起始token“annotate”的文本表示，以及结尾token“dataset”的文本表示构成；而整体表示融合了span内部所有token的信息，且需要学习到token之间的语义关系，对span的理解同样起到至关重要的作用。本发明采用了自注意力机制(self-attention)来学习span的整体表示，该自注意力机制使用前馈神经网络(FFNN，Feed Forward Neural Network)实现：

其中，θ_α是前馈神经网络的参数，而

是span(sp_i)内全部token表示的加权之和。此外，基于一个显而易见的假设：过长的token序列不太可能构成一个在线资源科技实体，可见候选span的长度也是需要重点考虑的因素。为了在span的文本表示中融入与span所包含的token个数有关的信息，本发明同时对span的长度进行编码，既得到了φ(sp_i)。最后，为了不丢失与整个资源引用上下文句子的全局信息，将由BERT编码的能够表达整个句子的隐含层输出

也加入到span最终的表示中。因此，基于BERT编码的token文本表示，最终对于span(sp_i)的文本表示p_i由五部分表示通过联接得到：

在span文本表示上进行计算，即可判断每个候选的span是否为正确的在线资源相关科技实体，而目标资源实体与在线资源相关科技实体之间的关系抽取任务，也被简单转化为对span的文本表示与目标资源实体文本表示之间的关系进行计算的问题。

步骤4)构建在线资源相关科技实体抽取任务的目标函数，其目标为对每个候选span的文本表示进行分类，即判断每个span所属的实体类别或判断其为“非正确科技实体”；

在线资源相关科技实体抽取目标函数的具体构建方法如下：给定一个span的文本表示，在线资源相关科技实体抽取任务的目标为输出一个在线资源相关科技实体类别上的分布。其中除包括已定义的六种在线资源相关科技实体类别外，还包括null，即表示该span不构成任何一种在线资源相关科技实体。每个候选span的文本表示，即span的文本向量表示p_i，被输入到前馈神经网络(FFNN)中，然后通过softmax函数映射为在线资源相关科技实体类别上的向量分布：

其中

代表在线资源相关科技实体的类别，

代表span(sp_i)的类别为

的概率，而

是神经网络的参数。因此，在线资源相关科技实体抽取任务的优化目标函数即可表示为预测得到的实体类别分布

与正确的实体类别分布

之间的交叉熵损失函数：

步骤5)构建资源-实体关系抽取任务的目标函数，其目标为输入上述在线资源引用的科技文献句子中包含的目标资源实体，判断span与目标资源实体之间的关系或判断其为“span与目标资源实体之间不存在关系”；

资源-实体关系抽取任务的目标函数构建方法如下：给定目标资源实体的文本表示和一个span的文本表示，资源-实体关系抽取任务的目标为输出一个资源-实体关系类别上的分布。其中除包括已定义的六种资源-实体关系类别外，还包括null，既表示该span与目标资源实体之间不具有任何关系。为了使与目标资源实体进行配对的span尽可能地是正确的在线资源相关科技实体，而不是其他无关的token子序列，本发明首先使用FFNN对每个span属于在线资源相关科技实体的概率进行计算：

其中

是神经网络的参数。为了减少候选span的搜索空间，本发明根据span的得分

对全部候选span进行排序，并且只选择排名在top-k的span作为候选的在线资源相关科技实体来计算与目标资源实体之间的关系。为计算资源-实体关系，本发明利用目标资源实体的文本表示res、候选span的文本表示p_i以及二者的点积进行联接，形成的向量表示作为FFNN的输入。由于在本任务中，目标资源实体和在线资源相关科技实体之间存在非对称关系，所以计算关系时资源实体和候选span的相对位置是非常重要的。因此，对于目标资源实体res和每个span，本发明分别构建两种有序的向量输入：

rel(r,p_i)_s＝[r；p_i；r⊙p_i] (13)

rel(r,p_i)_o＝[p_i；r；p_i⊙r]

基于有序的资源-span向量输入，本发明进一步使用FFNN来计算资源实体与候选span之间存在关系：

其中，x∈s,o，既rel(r,p_i)_x分别代表两种有序的向量输入，

为神经网络的参数；

步骤6)基于span的文本表示，以及步骤4)和步骤5)中构建出的两个任务的目标函数，通过多任务学习的方法，即通过使用共享span的文本表示并行训练两个任务的方法，构建在线资源相关科技实体抽取任务和资源-实体关系抽取任务的联合目标函数，进行联合训练，学习两个任务之间的潜在影响关系，得到训练好的在线资源相关信息抽取模型；

基于学习到的span的文本表示，进一步构建多任务的优化目标函数来同时解决在线资源相关科技实体抽取和资源-实体关系抽取问题。在共享的span表示上，使用前馈神经网络(FFNN)，来分别计算一个span属于每一个在线资源相关科技实体类别

的可能性，以及目标资源实体res和span(sp_i)之间关系为每一种关系类别

的可能性。多任务的优化目标函数由两部分联合构成，分别为实体抽取目标函数和关系抽取目标函数。

最后，本发明利用softmax函数，将span属于在线资源相关科技实体的得分以及资源与span之间关系的得分相结合作为函数的输入，计算得到资源-实体关系类别上的分布：

其中，

表示目标关系实体与候选span当以x为顺序时所具有的关系类别，而

则表示目标资源实体与候选span当以x为顺序时关系类别为

的概率。因此，资源-实体关系抽取任务的优化目标函数即可表示为预测得到的关系类别分布

与正确的关系类别分布

之间的交叉熵损失函数：

其中k为需要判断的候选span个数。

多任务联合目标函数：为了在模型训练过程中同时对在线资源相关科技实体抽取任务和资源-实体关系抽取任务进行优化，将两个任务的目标函数进行组合形成多任务的联合目标函数：

其中

为在线资源相关科技实体抽取任务的目标损失函数，

为资源-实体关系任务的目标损失函数，λ_T和λ_R为平衡两个任务的超参数。

步骤7)生成在线资源知识图谱，具体为：输入大量科技文献，基于步骤6)训练好的在线资源相关信息抽取模型，抽取出科技文献中全部的在线资源相关科技实体和资源-实体关系，将每一种在线资源的目标资源实体与在线资源相关科技实体之间的关系作为在线资源的一种属性，并对抽取出的信息进行进一步整合，从而形成自我中心网络，即生成在线资源知识图谱；

下面将介绍在线资源的知识图谱具体的生成步骤：

如图2所示，本发明一种在线资源相关信息抽取的知识图谱生成方法，该方法通过构建面向在线资源的自我中心网络(ego network)，利用从大量科技文献中抽取出的与目标资源实体相关的在线资源相关科技实体和关系信息，来生成在线资源的知识图谱。该方法具体包括：

首先，基于如图1所示本发明一种在线资源相关信息抽取的知识图谱生成方法，对科技文献进行抽取得到的全部在线资源相关科技实体，根据其与目标资源实体之间具有的不同资源-实体关系，全部在线资源相关科技实体可以被划分为十个不同的小组，分别为：被目标资源使用(Used-for)、使用了目标资源(Uses)、是目标资源的特征(Feature-of)、以目标资源为特征(Featured-by)、是目标的下位词(Hyponym-of)、以目标资源为下位词(Hypernym-of)、被目标资源包含(Part-of)、包含目标资源(Include)、与目标资源相比较(Compare)以及与目标资源是同位词(Conjunction)。

然后，将每一种资源-实体关系看作为在线资源的一种属性，而该对应关系小组内的全部在线资源相关科技实体可以看作为对该在线资源属性的描述，从而将对在线资源知识图谱的构建转化为以在线资源为中心的自我中心网络构建过程，该过程如图2所示。具体步骤为，给定一个在线资源引用上下文句子，首先根据资源超链接出现的位置，采用基于启发式规则的方法定位到其中的目标资源实体。以资源引用上下文句子和目标资源实体作为输入，使用上述本发明提供的在线资源相关的信息抽取模型从中抽取出全部在线资源相关科技实体，并抽取出对应的资源-实体的关系。根据资源-实体关系，每个在线资源相关科技实体即可被分入对应目标资源的属性小组中。

最后，以目标资源实体为中心，将来自不同在线资源引用上下文句子但实际为同一个指代对象的在线资源相关科技实体进行整合，既得到了在线资源的自我中心网络，从而生成了在线资源的知识图谱。在图2中，红色节点为目标资源实体，其他颜色节点为与该目标资源实体相关的其他在线资源相关科技实体，通过对目标资源实体以及在线资源相关科技实体进行共指整合，最终得到以目标资源实体为中心知识图谱结构。

实施例2

(1)实验数据设置

在开始介绍实验数据之前，首先给出本发明中作为细粒度信息抽取对象的在线资源相关科技实体以及资源-实体关系定义。

对于与目标资源实体相关的在线资源相关科技实体，共有六个不同的实体类别，分别为：任务(Task)、方法(Method)、数据(Data)、评价指标(Metric)以及一般实体(Generic Term)。每个科技实体类别的详细定义以及示例并说明如下：

1)任务(Task)：包括需要解决的问题、需要构建的系统、具体应用场景等可以作为目标完成的科技实体描述。

例如.：Language modeling,relation classification,transductiveinference,tree parsing...

2)方法(Method)：包括算法、策略、模型、工具、软件、代码库、框架、使用的系统以及系统的部分组价等可以作为方法的科技实体描述。

例如：language model,POS tagger,Apache OpenNLP tools,TreeTagger,CRF++...

3)数据(Data)：包括数据库、数据集、文本语料、知识库等可以作为实验数据的科技实体描述。

例如：WordNet,Wikipedia,Arabic Wikipedia articles,lexical semanticresource,list of phrases and tokens,part of speech tags...

4)服务(Service)：包括网站、相关网页、在线服务、网络平台等可以以在线或离线的服务方式供用户访问的科技实体描述。

例如：Google Translate,Twitter’s Streaming API Service,informationretrieval platform...

5)评价指标(Metric)：包括准确率、召回率、F1值、吞吐量、延迟等可以作为评价指标来度量方法效果及各方面性能的科技实体描述。

例如：F1,BLEU,METEOR,recall,precision,ROC curve,mean-squared error,robustness,time complexity...

6)一般实体(Generic Term)：不属于以上几类的其他一般实体或名词，常常作为对于资源的某种特征描述出现。

例如：social sciences,humanities,languages,phrase-based,open-source,multi-task...

对于目标资源实体与在线资源相关科技实体之间的关系，共具有了六个不同的类别，其中包括四种非对称关系和两种对称关系。非对称关系，既若关系中的两个实体交换位置，该关系的含义将会被改变，包括使用关系(Used-for)、特征关系(Feature-of)、部分关系(Part-of)以及下位词关系(Hyponym-of)。而对称关系，既关系中的两个实体交换位置不会使关系的含义发生改变，包括比较关系(Compare)和同位词关系(Conjunction)。每个资源-实体关系类别的详细定义以及示例说明如下：

1)使用关系(Used-for)：<A,B,Used-for>，包括A被用于B、使用A对B建模、使用A训练B、B利用A、B基于A等。

例如：We focus on the subproblem of[target language modeling]_B andconsider two English text collections,namely the in-domain TED and the[out-of-domain NEWS]_A,summarized in Table 2.

2)特征关系(Feature-of)：<A,B,Feature-of>，A是B的特征，A是B的属性,A描述了B的某方面特性或相关设置等。

例如：For our experiments,we used the[phrase-based,open-source]_A SMTtoolkit[Moses]_B(Koehn et al.,2007).

3)下位词关系(Hyponym-of)：<A,B,Hyponym-of>，A是B的下位词，A是B的一种等。

例如：The setup allows us to efficiently process large amounts of datapoints using a[Map-Reduce framework]_B via[Hadoop]_A.

4)部分关系(Part-of)：<A,B,Part-of>，A是B的一部分，A包含于B。

例如：Next we consider the[context-predicting vectors(DSMikolov)]_Aavailable as part of the[word2vec project]_B(Mikolov et al.,2013a).

5)比较关系(Compare)：<A,B,Compare>，一种对称关系，将两个实体A和B进行比较，或A与B是相对的。

例如：We also ran[another implementation of LDA]_A,which was 30timesslower than[Mallet]_B.

6)同位词关系(Conjunction)：<A,B,Conjunction>，一种对称关系，两个实体A和B属于同一种类、在句子中扮演同种角色、起到同种作用，通常用and、or等连词相连接。

例如：Existing online translation systems such as[Google Translate]_Aand[Bing Translator]_B are thus a great service.

通过从大规模的科技文献中收集在线资源引用句子，并经过人工标注，本发明构建了一个同时包含有目标资源实体、在线资源相关科技实体、资源-实体关系的细粒度信息数据集SciResTR。

具体地，首先从ACL文献选集语料库(既ARC语料库)中收集科技文献，并使用PDFbox来分别得到包含在线资源的上下文句子。然后，通过对PDFbox输出的XML格式文件中的上标进行抽取，能够定位到相应的超链接，进而从文献中抽取出目标资源实体。抽取得到的一条数据由一个资源引用超链接和一个包含有至少一个目标资源实体的上下文句子组成。因此出现在不同文献或不同引用位置中的同一个在线资源能够由其对应的在线超链接来唯一确定。为了验证PDF解析器，即PDFbox的有效性，本发明从ARC语料库中随机抽取了一个包含有50篇文献的集合来对解析器的性能进行测试。这些文献大多来自于各大自然语言处理领域的顶级学术会议，包括ACL、EMNLP、NAACL-HLT等。测试结果显示，在共计94个在线资源引用中，85个能够被正确地抽取，抽取准确率达到90.43％。

为进行人工数据标注，本发明从全部的在线资源中，根据资源链接的出现次数选择出现最频繁的前150个资源。以这150个资源为目标，随机选择了1,000个在线资源引用上下文句子构成数据子集。在一个引用了目标资源实体的上下文句子范围内，对于给定的目标资源实体，标注人员需要标注出两类信息：1)全部与目标资源实体直接相关的在线资源相关科技实体的边界和类别；2)目标资源实体与每个在线资源相关科技实体之间关系的类别。数据的标注由一组六名研究方向为自然语言处理的硕博研究生组成的标注团队完成，标注基于BRAT在线标注工具完成，部分标注结果的实例如图3所示。为评估人工标注的质量，在采用Fleiss Kappa(κ)系数对标注结果进行的一致性检验中，对于在线资源相关科技实体，κ系数值为0.67；对于资源-实体关系，κ系数值为0.85。标注中的大多数不一致问题发生在在线资源相关科技实体的边界判断上，对于全部标注不一致问题，经由全部标注者讨论后进行投票决定。最终，得到了由1,000条人工标注的在线资源引用上下文句子构成的SciResTR数据集，对于六种在线资源相关科技实体类别和六种资源-实体关系类别在SciResTR数据集中的1,000个句子中的统计情况，分别如表1和表2所示。

表1六种在线资源相关科技实体类别在SciResTR数据集中的统计分布

在线资源相关科技实体类别	实体数量	占比％
			任务(Task)	443	20.6
方法(Method)	603	28.0
			数据(Data)	873	40.5
服务(Service)	104	4.8
			评价指标(Metric)	35	1.6
一般实体(Generic Term)	96	4.5

表2六种资源-实体关系类别在SciResTR数据集中的统计分布

资源-实体关系类别	关系数量	占比-％
			使用关系(Used-for)	1100	51.7
特征关系(Feature-of)	79	3.7
			部分关系(Part-of)	279	13.0
下位词关系(Hyponym-of)	345	16.1
			比较关系(Compare)	17	0.8
同位词关系(Conjunction)	319	14.8

为了对本发明所述的在线资源相关信息抽取方法的性能进行评估，对该方法和其他基线模型在SciResTR数据集上进行实验。该数据集被分为三部分：其中，80％的数据样例作为训练集，10％的数据样例作为测试集，10％的数据样例作为验证集。通过对SciResTR数据集进行分析可以看出该数据集在在线资源相关科技实体类别和资源-实体关系类别上的分布是十分不均衡的。但由于本发明采用了基于span的实体关系联合抽取模型，其将在线资源相关科技实体抽取任务转化为对于span的分类任务，而将资源-实体关系抽取任务转化为对于span和资源实体之间的关系分类任务，该框架在枚举span的过程中产生了许多非正确科技实体的负例，实际上这相当于通过负采样的方法扩大了数据集。因此，尽管实验所采用的SciResTR数据集所包含的数据量较小，且其中在线资源相关科技实体和资源-实体关系的类别分布不均衡，但仍能够保证本发明信息抽取方法的训练效果，而不需要再采用其他策略对数据集进行增强。

本发明分别在在线资源相关科技实体抽取任务和资源-实体关系抽取任务上验证本发明方法的抽取效果。对于抽取结果的评估方法，采用“严格匹配”的标注：一个抽取得到的在线资源相关科技实体，当且仅当其边界和所属的在线资源相关科技实体类别均预测正确时，则认为该在线资源相关科技实体抽取正确；而对于一个资源-实体关系，当且仅当其中的在线资源相关科技实体抽取正确并且其与目标资源实体的关系方向正确时，则任务该资源-实体抽取正确。与经典的实体、关系抽取工作相同，在本发明实验中采用准确率(precision)、召回率(recall)和F1值(F1-score)来作为对实体和关系抽取结果的评价指标。

本发明使用Tensorflow-1.12.0深度学习框架进行SciResTR-IE模型的代码实现。对于BERT文本编码结构，本发明基于BERT-base模型(不区分大小写，12个隐含层，768个隐含层单元，12头，参数规模为110M)。对于BERT的微调训练，本发明采用了BertAdam优化器。最大的单词序列长度设置为128，学习率设置为2e-5，并且在warmup阶段之后令学习率进行线性衰退，其余参数全部与默认的设置相同。枚举span的最大长度限制为10个单词，既l_s＝10。对于全部候选span，其中得分最高的前10％被选择作为候选在线资源相关科技实体与目标资源实体进行关系计算。此外，对于模型中用到的前馈神经网络，其隐含层大小均设置为100维，并采用ReLU函数作为非线性激活函数。用来平衡在线资源相关科技实体抽取任务和资源-实体关系抽取任务的两个超参数λ_T和λ_R被分别设置为0.4和0.6。SciResTR-IE模型和全部基线模型的最优参数全部通过在验证集上进行调参得到，当在验证集上达到最好效果时停止训练并得到训练完成的模型，最终的实验结果为该训练完成模型在测试集上的预测结果。

(2)基线方法实验设置：

E2E Rel：基于神经网络的端到端实体和关系抽取模型，采用LSTM-RNN网络结构，并在其上叠加了双向树形结构来学习单词序列和成分依赖树之间的信息，从而实现在单个模型中通过共享的参数来对实体和关系进行联合表示，进而通过该端到端的模型实现对实体和关系的联合抽取。

LSTM+CRF：一种基于神经网络结构和CRF条件随机场的实体、关系联合抽取模型，首先基于BIO标注模式提出了一种新的序列标注方法，从而将对实体和关系的联合抽取问题转化为一个序列标注问题。基于该序列标注方法，可以采用多种不同的端到端模型来同时抽取句子中的实体和实体之间的关系。

SciIE：一种基于多任务学习框架的实体关系联合抽取方法，通过在科技文献摘要上进行span枚举，并基于LSTM神经网络学习span的文本表示，从而使span的向量表示在三个任务之间共享，从而将在线资源相关科技实体抽取转化为基于span表示的分类问题，实体间相互作用关系抽取任务和实体共指关系抽取任务均转化为span与span的关系计算问题。通过多任务学习，该方法能够在一个端到端模型中同时完成对三个任务的优化训练。

DyGIE：一个基于动态span图结构的信息抽取框架，使用图结构来对枚举得到的span进行组织，选出得分最高的候选span作为图的节点，则span节点之间的边可以表示实体之间的关系，边的权重既表示关系的得分。通过这样的动态图结构，关系的类别得分即可在图上进行动态传播，从而不断迭代地对span的文本表示进行优化。

本发明方法以及全部基线方法的实验结果如表3所示。本发明方法对于每个在线资源相关科技实体类别和每个资源-实体关系类别的抽取结果如表4所示。

表3本发明方法以及全部基线模型对于在线资源相关科技实体和资源-实体关系的抽取结果

表4对于在线资源相关科技实体抽取任务和资源-实体关系抽取任务，所述方法经过训练得到的最优模型分别对每个实体和关系类别的抽取结果

通过实验结果的对比，可以看到本发明方法与其他基线方法相比取得了更好的抽取效果。与SciIE模型相比，本发明方法在在线资源相关科技实体抽取任务上提高了2.5％，而在资源-实体关系抽取任务上提高了5.1％。这是因为本发明方法结构中采用了基于BERT的编码器来学习文本表示，该BERT模型在大规模的文本预料数据集上进行预训练，并在在线资源相关科技实体抽取和资源-实体关系抽取上进行了针对特定任务的微调(fine-tune)，从而非常有效地解决了标注数据不足的问题。且由于采用了基于span的方法，本发明方法在枚举span的过程中相当于采用了负采样的方法产生了大量的负训练样例，这进一步使得本发明方法在数据量有限的情况下得到了充分的训练。通过对实验结果进行进一步的观察，可以发现E2E Rel作为一种两阶段的管道式模型，在SciResTR数据集上的抽取效果远不及其他模型。这可能是由于管道式模型将科技实体的抽取和资源-实体关系的抽取分为两步进行，受到任务之间错误传播的影响，既在在线资源相关科技实体抽取错误的前提下，不可能得到对资源-实体关系的正确抽取，因此造成了最终的抽取效果不理想。而其他的几个实体-关系联合抽取模型，由于采用了端对端的结构，很好地避免了任务之间的错误传播问题，从而取得了较好的抽取效果。这也进一步证明了多任务学习的应用在本模型设计中的必要性。

(4)预训练模型相关实验结果

在本发明方法的架构中，采用了预训练的BERT模型来学习在线资源引用上下文句子中的语义信息并对文本进行编码。通过实验结果可以看出，BERT模型由于在大规模文本语料上进行了预训练，因此能够更好地理解文本并能够应对特定领域标注数据稀少的场景。在最近的一些研究中，已有一些研究工作基于BERT，进一步研究面向特定领域的BERT预训练模型，从而增强BERT在特定领域和任务下的文本表示能力。Beltagy等人基于BERT模型结构，在大规模的科技文献语料上对BERT进行了进一步的预训练，最终得到了融合了科技文献语义信息的SciBERT模型。为了验证是否能够通过采用面向科技文献的预训练BERT模型，来更好地学习到在线资源上下文句子中的特定科技领域语义信息，从而通过提高文本编码能力来提高实体、关系的抽取效果，本发明使用SciBERT模型替换方法中的BERT模型作为输入句子的编码结构，并与原模型进行了对比实验，实验结果如表5所示。

从实验结果中可以看出，对于在线资源相关科技实体抽取任务和资源-实体关系抽取任务，使用SciBERT模型后在SciResTR数据集上的抽取效果都有了一定的提升，其F1值分别在在线资源相关科技实体抽取任务上提升了2.7％，在资源-实体关系抽取任务提升了3.9％。这进一步证实了，面向科技文献文本的SciBERT模型学习到了更多领域相关的语义信息，而融合领域相关的语义信息有助于提升面向特定领域进行细粒度信息抽取的效果。

表5本发明方法使用不同的预训练BERT模型在两个任务上的实验结果

(5)模型组件消减实验结果

本发明所述方法通过将平衡两个任务的系数λ_T和λ_R分别单独设置为0，来测试本发明方法仅对单个任务进行学习时能够达到的抽取效果。进一步的，为验证本发明方法中各个组件对方法的整体抽取效果是否起到了贡献作用，下面进一步进行了针对于多任务学习、span枚举方法以及BPE表示方法的消减实验，该实验结果如表6所示。

表6验证本发明方法各组件作用的消减实验结果

表6中前两行的实验结果可以看出，当仅完成在线资源相关科技实体抽取任务时，单任务模型的效果与多任务的模型相比F1值下降接近5个百分点。此优势可以从前两行，第三列数据0.670与0.622差异看出。

而仅完成资源-实体关系抽取任务时，单任务模型的效果与多任务的模型相比F1值下降超过3个百分点,此优势可以对比第二行和第四行的第三列数据0.622与0.599的差异看出。这说明对在线资源相关科技实体的抽取和对资源-实体关系的抽取之间存在着相互促进的作用，也进一步证实了本发明所述方法中多任务学习结构的有效性。

(6)在线资源知识图谱生成的评估与分析

为了验证本发明一种在线资源相关信息抽取的知识图谱生成方法的可行性和有效性，本发明基于人工评价的方式对利用大规模科技文献生成的在线资源知识图谱的质量进行了验证。将ARC语料库作为目标的科技文献集合，对其中出现的全部在线资源，根据与其相关的其他科技实体的数量进行了排序，并将与目标资源实体直接相关的在线资源相关科技实体的数量定义为在线资源知识图谱的大小。图4展示了ARC文献语料库中在线资源知识图谱大小排名前10的资源。通过图中的统计结果可以看出，非常多的研究人员习惯于使用Word2Vec、Stanford Parser、Stanford Core NLP、WordNet以及OpenNLP等工具型资源来解决其目标任务。此外，大量研究工作用到了Wikipedia和Twitter等数据型资源以进行实验验证。为了验证基于本发明在线资源相关信息抽取方法，使用在线资源知识图谱自动生成方法生成知识图谱的质量，对生成的知识图谱进行了质量评估。

针对于图4中的十个目标在线资源，评价小组共对本发明方法抽取得到的全部523个资源-实体关系进行了确认。评估结果显示，82％的资源-实体关系能够作为在线资源相关的正确属性描述，该结果进一步证明了本发明提出的利用资源相关的细粒度实体、关系信息抽取来生成在线资源知识图谱的可行性和有效性。

为了展示自动生成的在线资源知识图谱，所述方法给出两个在线资源知识图谱实例：Word2Vec的知识图谱如图5所示以及OpenNLP的知识图谱如图6所示。

可以看出所述方法能够有效准确地抽取在线资源相关科技实体，并能对其进行正确的分类，例如图5中显示的word2vec相关的科技实体，在图中的compare关系分支中，BERT、ELMO、GLOVE这些与word2vec相似的框架及模型都被正确抽取，并正确分类为Method，即方法类的科技实体；其余类别的科技实体，如text8 corpus等(Tool，即工具类实体)，compute coherence(Task，即任务类实体)，corpora、NYT corpus等(Data，即数据类实体)，vector dimension(Generic，即一般实体)，也均被抽取并正确分类。

另外也可看出所述方法能够有效准确地抽取目标资源实体与在线资源相关科技实体之间的关系，例如在图5中目标资源实体word2vec的知识图谱中，对于BERT、ELMO、GLOVE这些同为可以生成词向量的模型需要使用的科技实体，所述方法将其与word2vec的关系正确地判定为了比较关系(Compare)，又例如图6中目标资源实体OpenNLP的知识图谱中，对于Sentence Detector(句子检测)、Tokenization(分词)、Lemmatizer(词干化)这些包含在OpenNLP中的技术方法，所述方法将其与OpenNLP得到关系正确地判定为了部分关系(Part-of)。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种在线资源相关信息抽取的知识图谱生成方法，其特征在于：包括以下步骤：

步骤1)对于输入的包含有在线资源引用的科技文献句子，即上下文句子s，由span生成器在科技文献句子上进行n-gram枚举得到候选span的集合；其中上下文句子s，其表达式为：{s＝w₁,w₂,...,w_N}，用于表示一个包含资源实体的科技文献句子，该句子中有N个单词w₁,w₂,...,w_N；下标N为句子单词序列长度，w代表单词；

步骤3)中，token的文本表示为用向量表示的token文本，span长度大小为一个span包含的单词个数，整个句子的文本表示为用向量表示的整个句子；

步骤4)构建在线资源相关科技实体抽取任务的目标函数

该目标函数用于训练，训练目标为对每个候选span的文本表示进行分类，即判断每个span所属的实体类别或判断其为非正确科技实体；

步骤5)构建资源-实体关系抽取任务的目标函数

该目标函数用于训练，训练目标为基于输入的所述在线资源引用的科技文献句子中包含的目标资源实体res判断span与目标资源实体之间的关系R或判断为span与目标资源实体之间不存在关系；其中，目标资源实体res，其表达式为：res＝(r_s,r_e)，其中，给定科技文献句子的包含目标引用的单词序列

其中r_s和r_e分别代表起始单词索引和结束单词索引；资源-实体关系R：表达式为R＝{(res,term,C_r)∪(term,res,C_r)|term∈T}，用于表示在线资源相关科技实体集合T中的每个在线资源相关科技实体term与目标资源实体res之间的关系，C_r为资源-实体关系R的类别，下标r代表资源；T表达式为：T＝{(i,j,C_t)|1≤i≤j≤n；j-i+1≤L},用于表示：给定的在线资源所属关系组的属性描述，每个在线资源对应多个在线资源相关科技实体term；i和j为序列中的单词索引，C_t为在线资源相关科技实体的类别，L表示在线资源相关科技实体的最大长度；

步骤6)基于span的文本表示，以及步骤4)和步骤5)中构建出的在线资源相关科技实体抽取以及资源-实体关系抽取两个任务的目标函数，通过多任务学习，即通过使用共享span的文本表示并行训练两个任务，基于加权构建在线资源相关科技实体抽取任务和资源-实体关系抽取任务的联合目标函数

进行联合训练，λ_T和λ_R为平衡两个任务的超参数，学习两个任务之间的潜在影响关系，得到训练好的在线资源相关信息抽取模型；

步骤7)生成在线资源知识图谱，具体为：输入大量科技文献，基于步骤6)训练好的在线资源相关信息抽取模型，抽取出科技文献中全部的在线资源相关科技实体和资源-实体关系，将每一种在线资源与科技实体之间的关系作为在线资源的一种属性，并对抽取出的信息进行整合形成自我中心网络，即生成在线资源知识图谱。

2.根据权利要求1所述的一种在线资源相关信息抽取的知识图谱生成方法，其特征在于：步骤7)中，自我中心网络，即ego network。