CN110377753A

CN110377753A - 基于关系触发词与gru模型的关系抽取方法及装置

Info

Publication number: CN110377753A
Application number: CN201910586364.5A
Authority: CN
Inventors: 包铁; 刘露; 王磊; 葛亮; 谢文慧
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2019-10-25
Anticipated expiration: 2039-07-01
Also published as: CN110377753B

Abstract

本发明公开了基于关系触发词与单层GRU模型的关系抽取方法及装置，该方法包括：对待处理的句子进行句法依存分析，获取句子中的关系触发词；所述关系触发词为用来说明实体对构成的实体关系所表达意义的词语；将关系触发词与给定的实体对通过Word2Vec模型转换成词向量；将所述词向量输入GRU分类模型进行关系抽取。该方法步骤简单、降低了分类模型的复杂度，可有效减少对计算资源的消耗，提高了训练效率，保证了该方法的关系抽取准确率。

Description

基于关系触发词与GRU模型的关系抽取方法及装置

技术领域

本发明涉及知识图谱技术领域，具体是一种基于关系触发词与单层GRU模型的关系抽取方法及装置。

背景技术

知识图谱是Google公司于2012年提出的新概念，本质上是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系。近几年随着人工智能的不断发展，知识图谱在搜索引擎(Google、Bing)、问答系统(微软小娜、Siri)以及临床决策支持(IBMWatson Health)等实际生活领域中有了广泛的应用。

关系抽取是构建知识图谱构建的关键步骤，其主要任务是从句子中识别给定实体对之间的关系类型，进而从非结构化文本信息中抽取三元组(e_i,r_ij,e_j)，其中e_i与e_j为给定的实体对，r_ij为实体之间的关系类型。例如，通过关系抽取算法能够从句子“The burst hasbeen caused by water hammer pressure.”中识别出给定实体对“burst”与“pressure”的关系类型“Cause-Effect”。

实体关系触发词是句子中用来详细说明实体对构成的实体关系所表达意义的词语，也被称为关系指示词、关系描述词。例如，在英文中，“Cause-Effect”关系的关系触发词有“cause”、“result”以及“produce”等，“Entity-Origin”关系触发词有“from”、“of”以及“made”等。关系触发词不但能够帮助人们理解并确定实体关系，其具有的关系特征在关系抽取中也能起指导作用。

基于规则的关系抽取方法通过制定大量规则模板进行关系抽取。基于特征向量的方法根据标注好的训练数据来训练分类器，再用训练好的分类器对新实例进行关系抽取。基于核函数的方法能够充分利用实体对的上下文信息进行关系抽取。基于深度学习的方法在大量标记好的数据的基础上通过构建复杂的分类模型，如：卷积神经网络(CNN)、循环神经网络(RNN)及其变体长短期记忆网络(LSTM)与门控循环单元(GRU)等，再利用注意力机制等方法进行关系抽取。

基于深度学习的关系抽取方法是当前主流的关系抽取方法，为了捕获更多的特征来提高关系抽取的准确率，该方法大多需要构建多层深度学习模型，并利用注意力机制来进行关系抽取。因此这类方法结构复杂，训练时间长，需要大量的计算资源。

发明内容

本发明的目的是提供一种基于关系触发词与GRU模型的关系抽取方法及装置，可解决目前基于深度学习的关系抽取方法结构复杂、消耗大量计算资源的问题。

第一方面，本发明实施例提供一种基于关系触发词与GRU模型的关系抽取方法，包括：

对待处理的句子进行句法依存分析，获取句子中的关系触发词；所述关系触发词为用来说明实体对构成的实体关系所表达意义的词语；

将所述关系触发词与给定的实体对通过Word2Vec模型转换成词向量；

将所述词向量输入GRU分类模型进行关系抽取。

在一个实施例中，对待处理的句子进行句法依存分析，获取句子中的关系触发词，包括：

输入待处理句子s及实体对(e₁,e₂)；

对待处理句子s进行分词、词性标注以及句法依存分析，得到标注后的单词序列W以及依存关系图G＝{V,E}；其中V＝{v₁,v₂,…,v_n}表示句子中单词节点集合，E表示单词节点之间的句法依存关系的集合，v_i表示单词节点，i∈{1,2，…，n}；

计算单词节点v_i到实体对(e₁,e₂)的依存距离dd和序列距离sd；根据所述依存距离dd和序列距离sd，计算各个单词对应的评估值；

选择除实体对之外评估值最小且符合预设条件的单词作为关系触发词；所述预设条件表示词性是名词、动词、形容词、副词或介词。

在一个实施例中，将所述关系触发词与给定的实体对通过Word2Vec模型转换成词向量，包括：

选择除实体对之外评估值最小且符合预设条件的t个单词作为关系触发词；

将实体对(e₁,e₂)加入到t个所述关系触发词中，按照句子中的原始序列进行排序；

输入训练后的Word2Vec模型转换成词向量；所述Word2Vec模型为采用维基百科数据作为训练数据进行训练。

在一个实施例中，所述GRU分类模型由单层GRU层、dropout层以及Softmax层构成。

第二方面，本发明还提供一种基于关系触发词与单层GRU模型的关系抽取装置，包括：

分析获取模块，用于对待处理的句子进行句法依存分析，获取句子中的关系触发词；所述关系触发词为用来说明实体对构成的实体关系所表达意义的词语；

转换模块，用于将所述关系触发词与给定的实体对通过Word2Vec模型转换成词向量；

抽取模块，用于将所述词向量输入GRU分类模型进行关系抽取。

在一个实施例中，所述分析获取模块，包括：

输入子模块，用于输入待处理句子s及实体对(e₁,e₂)；

分析子模块，用于对待处理句子s进行分词、词性标注以及句法依存分析，得到标注后的单词序列W以及依存关系图G＝{V,E}；其中V＝{v₁,v₂,…,v_n}表示句子中单词节点集合，E表示单词节点之间的句法依存关系的集合，v_i表示单词节点，i∈{1,2，…，n}；

计算子模块，用于计算单词节点v_i到实体对(e₁,e₂)的依存距离dd和序列距离sd；根据所述依存距离dd和序列距离sd，计算各个单词对应的评估值；

选择子模块，用于选择除实体对之外评估值最小且符合预设条件的单词作为关系触发词；所述预设条件表示词性是名词、动词、形容词、副词或介词。

在一个实施例中，所述转换模块，包括：

排序子模块，用于根据所述选择子模块，选择除实体对之外评估值最小且符合预设条件的t个单词作为关系触发词；将实体对(e₁,e₂)加入到t个所述关系触发词中，按照句子中的原始序列进行排序；

转换子模块，用于输入训练后的Word2Vec模型转换成词向量；所述Word2Vec模型为采用维基百科数据作为训练数据进行训练。

在一个实施例中，所述抽取模块中GRU分类模型由单层GRU层、dropout层以及Softmax层构成。

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明实施例提供的一种基于关系触发词与单层GRU模型的关系抽取方法，包括：对待处理的句子进行句法依存分析，获取句子中的关系触发词；所述关系触发词为用来说明实体对构成的实体关系所表达意义的词语；将关系触发词与给定的实体对通过Word2Vec模型转换成词向量；将所述词向量输入GRU分类模型进行关系抽取。该方法步骤简单、模型训练时间较短、减少对计算资源的消耗，提高了训练效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的基于关系触发词与GRU模型的关系抽取方法的流程图；

图2为本发明实施例提供的步骤S1的流程图；

图3a为本发明实施例提供的句法依存分析结构树的示意图；

图3b为本发明实施例提供的又一句法依存分析结构树的示意图；

图4a为本发明实施例提供的各单词节点到实体对“elephant”与“animal”的依存距离示意图；

图4b为本发明实施例提供的各单词节点到实体对“人们”与“市中心”的依存距离示意图；

图5a为本发明实施例提供的各单词到实体对“elephant”与“animal”的序列距离示意图；

图5b为本发明实施例提供的各单词到实体对“人们”与“市中心”的序列距离示意图；

图6a为本发明实施例提供的各个单词评估值示意图；

图6b为本发明实施例提供的又一各个单词评估值示意图；

图7为本发明实施例提供的分类模型结构图；

图8为本发明实施例提供的基于关系触发词与单层GRU模型的关系抽取装置框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1所示，本发明实施例提供的一种基于关系触发词与GRU模型的关系抽取方法，该方法包括：步骤S1～S3；

S1、对待处理的句子进行句法依存分析，获取句子中的关系触发词；所述关系触发词为用来说明实体对构成的实体关系所表达意义的词语；

S2、将所述关系触发词与给定的实体对通过Word2Vec模型转换成词向量；

S3、将所述词向量输入GRU分类模型进行关系抽取。

其中，实体关系触发词表示句子中用来详细说明实体对构成的实体关系所表达意义的词语，也被称为关系指示词、关系描述词。句法依存分析是自然语言处理的关键技术之一，其任务是对输入的单词序列进行分析，得到符合语法的句法结构。

本实施例中，通过对句子进行句法依存分析来获取句子中的关系触发词，再利用Word2Vec模型将获取的关系触发词与给定的实体对转换成词向量，将得到的词向量作为GRU模型的输入来进行关系抽取。该方法步骤简单、涉及到的模型训练时间较短，可减少对计算资源的消耗，从而提高了训练效率。

在一个实施例中，上述步骤S1，参照图2，具体包括：

S11、输入待处理句子s及实体对(e₁,e₂)；

S12、对待处理句子s进行分词、词性标注以及句法依存分析，得到标注后的单词序列W以及依存关系图G＝{V,E}；其中V＝{v₁,v₂,…,v_n}表示句子中单词节点集合，E表示单词节点之间的句法依存关系的集合，v_i表示单词节点，i∈{1,2，…，n}；

S13、计算单词节点v_i到实体对(e₁,e₂)的依存距离dd和序列距离sd；根据所述依存距离dd和序列距离sd，计算各个单词对应的评估值；

S14、选择除实体对之外评估值最小且符合预设条件的单词作为关系触发词；所述预设条件表示词性是名词、动词、形容词、副词或介词。

本实施例中，依存距离是指：给定句法依存分析树，忽略其中弧的方向并将其转换成无向图G＝{V,E}，其中V＝{v₁,v₂,…,v_n}是句子中单词节点集合，E是单词节点之间的句法依存关系的集合，单词节点v_i到实体e的依存距离为其在依存关系图上到实体e的最短路径。

序列距离：给定单词序列W＝{w₁,w₂,…,w_n}，若w_k为实体单词e，则单词w_i到实体e的序列距离为sd(w_i,e)＝|i-k|。

本实施例中，首先对句子进行句法分析，由句法依存结构计算每个单词到实体对的依存距离与平均序列距离来对其打分，根据每个单词的评估分数来提取关系触发词。之后将得到的关系触发词与给定的实体对一起利用Word2Vec模型转换成词向量，作为分类模型的输入数据进行关系抽取。即：该方法由关系触发词提取与关系抽取两部分组成。

下面通过两个部分对本发明提供的方法进行详细说明。

1.关系触发词提取

句法依存分析是自然语言处理的关键技术之一，其任务是对输入的单词序列进行分析，得到符合语法的句法结构。本发明使用Stanford CoreNLP(Stanford CoreNLP是斯坦福大学的自然语言处理工具包)工具对句子进行句法依存分析。例如，使用StanfordCoreNLP工具对句子“The elephant descended from an aquatic animal.”进行句法依存分析可以得到如图3a所示的结构树。还比如使用StanfordCoreNLP对句子“人们一直在搬回市中心。”进行句法分析得到如图3b所示的结构树。

之后对句子中的每个单词进行打分，考虑到关系触发词与实体对之间存在某种距离关系，本发明实施例采用依存距离与序列距离来分别衡量单词在依存关系图与原始序列中到实体对的距离。给定句法依存分析树，忽略其中弧的方向并将其转换成无向图G＝{V,E}，其中V＝{v₁,v₂,…,v_n}是句子中单词节点集合，E是单词节点之间的句法依存关系的集合，单词节点v_i到实体e的依存距离(Dependency Distance)为其在依存关系图上到实体e的最短路径。

由于各单词节点到实体节点的依存距离较小，为了准确并合理地评估单词节点在依存关系图上到实体对的远近程度，可采用其到实体对中每个实体的依存距离的几何平均数作为其到实体对的依存距离，即：

其中，dd(v_i,e₁)与dd(v_i,e₂)分别表示单词节点v_i到实体节点e₁与实体节点e₂的依存距离。图4a所示为各个单词到实体对“elephant”与“animal”的依存距离。图4b为各个单词到实体对“人们”与“市中心”的依存距离。

给定单词序列W＝{w₁,w₂,…,w_n}，若w_k为实体单词e，则单词w_i到实体e的序列距离(Sequence Distance)为

sd(w_i,e)＝|i-k|

用单词在原始序列中到实体对中每个实体的序列距离的平均值作为单词到实体对的序列距离，计算方式如下：

其中，sd(w_i,e₁)与sd(w_i,e₂)分别是单词w_i到实体对e₁与e₂的序列距离。当单词在原始序列中位于实体对的两侧时，其序列距离相对较大；当单词位于实体对之间时，其序列距离相对较小。因此，序列距离能够衡量单词在原始序列中与实体对的相对位置。图5a为各单词到实体对“elephant”与“animal”的序列距离。图5b为各个单词到实体对“人们”与“市中心”的序列距离。

然后，使用依存距离与序列距离的和作为评估值来选择关系触发词。考虑到触发词的词性一般为名词、动词、形容词、副词与介词，本发明实施例选择除实体对之外评估值最小且词性满足以上条件的单词作为关系触发词。

图6a所示为各个单词的词性与评估值，评估值最小且词性符合要求的单词为“descended”，因此它是最终的关系触发词。

图6b所示为各个单词的词性与评估值，评估值最小且词性符合要求的单词为“搬回”，因此它是最终的关系触发词。

关系触发词提取过程如下：

步骤1.输入：句子s，实体对(e_1,e_2)

步骤2.对s进行分词、词性标注以及句法依存分析，得到标注好的单词序列W以及依存关系图G＝{V,E}；

步骤3.遍历单词序列或者单词集合中的每个词，依次执行步骤4-6；

步骤4.计算依存距离dd(v_i,(e₁,e₂))；

步骤5.计算序列距离sd(w_i,(e₁,e₂))；

步骤6.计算评估值dd(v_i,(e₁,e₂))+sd(w_i,(e₁,e₂))；

步骤7.遍历完成，执行步骤8；

步骤8.选择除实体对之外评估值最小且词性是名词、动词、形容词、副词或介词之一的单词作为关系触发词；

输出：关系触发词。

2、关系抽取

英文句子中的关系触发词多数情况下不是单个单词而是一个短语，同一个动词后面的介词不同所表示的关系类型不同，如短语“made by”是“Product-Producer”关系触发词，而短语“made with”是“Component-Whole”的关系触发词。因此，直接利用上文得到的单一关系触发词进行关系抽取，其具有的关系特征可能并不完整。为此，需要选择从句子提取多个关系触发词来进行关系抽取。计算出所有单词序列的评估值后，选择t个除实体对之外评估值最小并且词性满足要求的单词作为关系触发词。将实体对加入到关系触发词中，按照句子中的原始序列进行排序，作为训练单词序列。即：该单词序列是只由实体对加触发词构成，并非是一个完整的句子，其单词数量要比原始句子少的多，但实体对加触发词顺序的与原始句子的顺序一致。

由于分类器并不能直接处理自然语言中的单词，需要使用词嵌入模型将单词转换成词向量以便分类器进行处理。Word2Vec是Google提出的词向量计算模型，能够很好地进行词嵌入以及捕获单词的语义。本发明实施例采用维基百科数据作为训练数据来训练Word2Vec模型，将训练单词序列转换成词向量，作为分类器的输入进行关系抽取。

GRU分类模型由单层GRU层、dropout层以及Softmax层构成。其中GRU层用于捕获语序特征，它是LSTM模型的一个变体，与LSTM模型相比结构更加简单，训练时间更短。dropout层防止过拟合，Softmax层进行多分类概率计算。由Word2Vec模型转换得到的单词向量作为模型的输入，关系类别概率作为该模型的输出。模型结构图如图7所示。

本发明通过提取出句子的关系触发词，将其与实体对一起转换成词向量后作为GRU模型的输入进行关系抽取。在关系触发词提取方面，通过计算依存距离与序列距离来对单词打分，能够较为准确地提取出句子的关系触发词。在关系抽取方面，分类模型只有单层GRU层，降低了模型的复杂度，减少了计算消耗，提高了训练效率。

并且由于Word2Vec模型的输入为实体对与关系触发词，转换成词向量，输入到GRU分类模型；与原始句子相比单词数量大大减少，这也降低了分类模型的复杂度，减少了对计算资源的消耗，提高了训练效率。此外实体对与关系触发词具有的关系特征较为完整，保证了该方法的关系抽取准确率。

基于同一发明构思，本发明实施例还提供了一种基于关系触发词与GRU模型的关系抽取装置，由于该装置所解决问题的原理与前述基于关系触发词与GRU模型的关系抽取方法相似，因此该装置的实施可以参见前述方法的实施，重复之处不再赘述。

本发明实施例提供一种基于关系触发词与单层GRU模型的关系抽取装置，参照图8所示，包括：

分析获取模块81，用于对待处理的句子进行句法依存分析，获取句子中的关系触发词；所述关系触发词为用来说明实体对构成的实体关系所表达意义的词语；

转换模块82，用于将所述关系触发词与给定的实体对通过Word2Vec模型转换成词向量；

抽取模块83，用于将所述词向量输入GRU分类模型进行关系抽取。

在一个实施例中，所述分析获取模块81，包括：

输入子模块811，用于输入待处理句子s及实体对(e₁,e₂)；

分析子模块812，用于对待处理句子s进行分词、词性标注以及句法依存分析，得到标注后的单词序列W以及依存关系图G＝{V,E}；其中V＝{v₁,v₂,…,v_n}表示句子中单词节点集合，E表示单词节点之间的句法依存关系的集合，v_i表示单词节点，i∈{1,2，…，n}；

计算子模块813，用于计算单词节点v_i到实体对(e₁,e₂)的依存距离dd和序列距离sd；根据所述依存距离dd和序列距离sd，计算各个单词对应的评估值；

选择子模块814，用于选择除实体对之外评估值最小且符合预设条件的单词作为关系触发词；所述预设条件表示词性是名词、动词、形容词、副词或介词。

在一个实施例中，所述转换模块82，包括：

排序子模块821，用于根据所述选择子模块，选择除实体对之外评估值最小且符合预设条件的t个单词作为关系触发词；将实体对(e₁,e₂)加入到t个所述关系触发词中，按照句子中的原始序列进行排序；

转换子模块822，用于输入训练后的Word2Vec模型转换成词向量；所述Word2Vec模型为采用维基百科数据作为训练数据进行训练。

在一个实施例中，所述抽取模块83中GRU分类模型由单层GRU层、dropout层以及Softmax层构成。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于关系触发词与GRU模型的关系抽取方法，其特征在于，包括：

将所述词向量输入GRU分类模型进行关系抽取。

2.如权利要求1所述的方法，其特征在于，对待处理的句子进行句法依存分析，获取句子中的关系触发词，包括：

输入待处理句子s及实体对(e₁，e₂)；

对待处理句子s进行分词、词性标注以及句法依存分析，得到标注后的单词序列W以及依存关系图G＝{V，E}；其中V＝{v₁，v₂，...，v_n}表示句子中单词节点集合，E表示单词节点之间的句法依存关系的集合，v_i表示单词节点，i∈{1，2，...，n}；

计算单词节点v_i到实体对(e₁，e₂)的依存距离dd和序列距离sd；根据所述依存距离dd和序列距离sd，计算各个单词对应的评估值；

3.如权利要求2所述的方法，其特征在于，将所述关系触发词与给定的实体对通过Word2Vec模型转换成词向量，包括：

将实体对(e₁，e₂)加入到t个所述关系触发词中，按照句子中的原始序列进行排序；

4.如权利要求1所述的方法，其特征在于，所述GRU分类模型由单层GRU层、dropout层以及Softmax层构成。

5.基于关系触发词与单层GRU模型的关系抽取装置，其特征在于，包括：

6.如权利要求5所述的装置，其特征在于，所述分析获取模块，包括：

输入子模块，用于输入待处理句子s及实体对(e₁，e₂)；

分析子模块，用于对待处理句子s进行分词、词性标注以及句法依存分析，得到标注后的单词序列W以及依存关系图G＝{V，E}；其中V＝{v₁，v₂，...，v_n}表示句子中单词节点集合，E表示单词节点之间的句法依存关系的集合，v_i表示单词节点，i∈{1，2，...，n}；

计算子模块，用于计算单词节点v_i到实体对(e₁，e₂)的依存距离dd和序列距离sd；根据所述依存距离dd和序列距离sd，计算各个单词对应的评估值；

7.如权利要求6所述的装置，其特征在于，所述转换模块，包括：

排序子模块，用于根据所述选择子模块，选择除实体对之外评估值最小且符合预设条件的t个单词作为关系触发词；将实体对(e₁，e₂)加入到t个所述关系触发词中，按照句子中的原始序列进行排序；

8.如权利要求5所述的装置，其特征在于，所述抽取模块中GRU分类模型由单层GRU层、dropout层以及Softmax层构成。