CN111832293B

CN111832293B - 基于头实体预测的实体和关系联合抽取方法

Info

Publication number: CN111832293B
Application number: CN202010589302.2A
Authority: CN
Inventors: 陈彦如; 王浩; 陈硕; 石静; 高明珠; 林幼玲; 宋岱松; 邹可欣; 陈良银
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2023-05-26
Anticipated expiration: 2040-06-24
Also published as: CN111832293A

Abstract

本发明公开了一种基于头实体预测的实体和关系联合抽取方法。本发明通过只将关系融入尾实体标签的标注策略，将实体和关系抽取任务分解为两个序列标注任务，即头实体识别标注和尾实体识别标注，并且将头实体的向量作为尾实体标注识别任务的输入，用先验概率的思想提高模型的效果。尾实体的标注标签在完成尾实体识别的同时，确定实体对间的关系，从而解决了存在实体重叠现象时抽取不完全的问题和存在实体嵌套时传统方法无法抽取的问题。

Description

基于头实体预测的实体和关系联合抽取方法

一、技术领域

本发明涉及自然语言处理领域，尤其涉及信息抽取，具体是一种基于头实体预测的实体和关系联合抽取方法。

二、背景技术

现今是知识经济时代，随着互联网技术的蓬勃发展，社会信息化程度的不断提高，数据资源呈爆炸式增长，随之而来的是海量文本数据的积累。如何从大量的非结构化文本数据资源中迅速并准确地获取需要的信息，引起越来越多人的关注，而实体和关系抽取便是应运而生的一种技术手段。实体和关系抽取是指从非结构化文本中抽取实体对以及实体对之间的关系，实体对是指在一句或者一段文本中出现的两个可能存在关系的实体，实体包括命名性指称、名词性指称和代词性指称；关系是指两个或者多个实体间存在的某种联系。

实体和关系抽取包含了命名实体识别(named entity recognition,NER)和关系抽取(relation extraction,RE)两个子任务。命名实体识别是指识别出文本中的实体以及该实体的类别，关系抽取是指识别出两个或多个实体之间存在的语义关系。通常情况下，实体和关系抽取的结果使用三元组进行表示，即采用“(e₁,r,e₂)”的形式进行表示，其中e₁和e₂表示两个实体，r表示两个实体之间的关系，为了方便区分e₁和e₂，本文中将e₁称之为头实体(head entity)，将e₂称之为尾实体(tail entity)。

为了实现从非结构文本中进行实体和关系的抽取，先前多数研究者是将目标分别集中于实体识别和关系分类，不断提高实体识别的准确率和实体对间关系判断的准确率进而提高实体和关系抽取的效果。首先是有学者提出了基于模板匹配的实体和关系抽取方法，基于模板的方法需要相关领域专家首先设定具有一定规则的模板，然后将非结构化文本与该模板进行匹配，将符合该模板的信息提取出来，进而完成关系的抽取。其中比较著名的有RESS系统(Aone C,Ramos-Santacruz M.REES:a large-scale relation and eventextraction system[C]//Proceedings of the sixth conference on Applied naturallanguage processing.Association for Computational Linguistics,2000:76-83)和GATE系统(Cunningham H,Maynard D,Bontcheva K,et al.GATE:an architecture fordevelopment of robust HLT applications[C]//Proceedings of the 40th annualmeeting on association for computational linguistics.Association forComputational Linguistics,2002:168-175)。基于模板的实体和关系抽取方法，作为早期的实体和关系抽取方法，在很大程度上减轻了人员的工作量，提高了效率，但是其效果严重依赖于人工构建的模板，并且迁移性差。为了解决基于模板的方法的实体和关系抽取存在的问题，Yu等人(Yu X,Lam W.Jointly identifying entities and extractingrelations in encyclopedia text via a graphical model approach[C]//Proceedingsof the 23rd International Conference on Computational Linguistics:Posters.Association for Computational Linguistics,2010:1399-1407.)在首次提出实体和关系的联合抽取模型，即通过参数共享的方法，将实体识别和关系判断联系起来，但是仍然依赖人工构建特征，特征构建时会依赖外部自然语言处理工具，而后，Katiyar等人(Katiyar A,Cardie C.Going out on a limb:Joint extraction of entity mentionsand relations without dependency trees[C]//Proceedings of the 55th AnnualMeeting of the Association for Computational Linguistics(Volume1:LongPapers).2017:917-928.)在提出了一种结合注意力机制和双向LSTM的实体和关系抽取模型，该模型减少对自然语言处理工具包的依赖和人工特征的提取，直接通过神经网络进行实体和关系的抽取，但是当语料存在实体重叠现象的时候，会存在抽取不完全的问题。最近，Zheng等人(Zheng S,Wang F,Bao H,etal.Joint extraction of entities andrelations based on a novel tagging scheme[C]//Proceedings of the 55th AnnualMeeting of the Association for Computational Linguistics(Volume 1:LongPapers).2017:1227-1236.)提出了一种利用特殊的标注策略将关系融入到标签中，完成将实体识别和关系判断这两个任务整合成一个任务。这不仅能够充分利用实体识别和关系判断之间的内在联系，还可以只需完成对原输入文本作序列标注建模任务，从而完成对实体和关系的抽取。但是，当语料存在实体重叠现象的时候，该标注策略将会发生标签冲突的问题。这可以通过就近配对原则解决标签冲突问题，然而当语料存在实体重叠现象时，就近匹配原则同样会导致存在抽取不完全的问题。上述这些方法都只考虑到每个实体只存在于一个三元组中的情况，没有考虑一个实体可能同时出现在多个三元组中，即实体重叠的现象。如“金一先生是出生于海宁市的一名作家”中包含了出生地、职业关系，这句话实际上包含了“(金一，出生地，海宁市)和(金一，职业，作家)”两个三元组，而采用上述方法却只能抽取出其中的一个三元组，即存在三元组抽取不完全的问题。并且实体重叠现象并不是特例，而是普遍存在。本文对中文的百度知识抽取数据集和英文NYT数据集做了分析，结果发现实体重叠情况在这两种数据集中分别占53.8％和24.8％，分别如图1和图2所示。在中文的百度知识抽取数据集中超过半数的语料中都存在着实体重叠的现象。因此，对中文的实体和关系抽取时，语料中出现的实体重叠现象更加不能被忽略。而在语料存在实体重叠现象的时候，上述关系抽取模型和算法将无法完全抽取出语料中可能存在的三元组，这必将造成信息的丢失。

在中文文本中，语料中存在的实体嵌套的现象同样不能忽略，实体嵌套现象是指一个实体嵌套在另一个实体中，如从“台北大安森林公园”中抽取的目标三元组是“(台北大安森林公园，位于，台北)”，尾实体“台北”嵌套在头实体“台北大安森林公园”中，这种实体嵌套的情况传统的实体和关系抽取算法无法进行抽取。

综上所述，实体和关系抽取过程中，当语料中存在实体重叠现象时导致三元组抽取不完全的问题、传统方法在语料存在实体嵌套现象时无法抽取的问题，这两个问题仍然值得进一步研究。为此，本发明首先详细分析了实体重叠的情况，然后根据实体重叠情况提出了一种基于头实体预测的实体和关系联合抽取模型(Joint Extraction of Entitiesand Relations Based on Head Entity Prediction，JEBHE)，简称JEBHE模型，解决了当语料存在实体重叠现象时抽取不完全的问题以及当语料存在实体嵌套时无法抽取的问题。

三、发明内容

本发明的目的在于解决当语料中存在实体重叠现象时导致三元组抽取不完全的问题、以及传统方法在语料存在实体嵌套现象时无法抽取的问题。

本发明的目的是这样达到的：

本文通过详细分析中文实体重叠现象，通过只将关系融入尾实体标签的标注策略，将实体和关系抽取任务分解为两个序列标注任务，即头实体识别标注和尾实体识别标注，并且将头实体的向量作为尾实体标注识别任务的输入，用先验概率的思想提高模型的效果。尾实体的标注标签在完成尾实体识别的同时，确定实体对间的关系，从而解决了存在实体重叠现象时抽取不完全的问题和存在实体嵌套时传统方法无法抽取的问题。

具体做法是：

本发明首先194734条语料分析了实体重叠情况，根据一条语料中是否存在实体重叠以及实体重叠的类型并将其详细划分为S1、S2、S3、S4、S5、S6、S7、S8共计8种类型，其中S1表示一条语料中只含有一个头实体、一种关系和一个尾实体的情况，S2表示一条语料中只含有一个头实体、一种关系和多个尾实体的情况，S3表示一条语料中只含有一个头实体、多种关系和一个尾实体的情况，S4表示一条语料中只含有一个头实体、多种关系和多个尾实体的情况，S5表示一条语料中只含有多个头实体、一种关系和一个尾实体的情况，S6表示一条语料中只含有多个头实体、一种关系和多个尾实体的情况，S7表示一条语料中只含有多个头实体、多种关系和一个尾实体的情况，S8表示一条语料中只含有多个头实体、多种关系和多个尾实体的情况。在统计的194734条语料，S1-S8各类型的语料条数分别为：89888条、5130条、3255条、86620条、5333条、1141条、1290条、2077条，总计194734条语料。根据统计分析可以发现：一个头实体存在多种关系的语料(S3类型和S4类型)占比总语料的46.15％，而一个尾实体存在多种关系的语料(S3类型和S7类型)占比总语料的2.33％，是一种极少的情况。因此，若是只将实体对间的关系融入到尾实体中，这将能够减少标签冲突的问题。基于这个思想，本发明提出了一种将关系类型只融入到尾实体中的标注策略，下面将详细介绍此策略。

本发明针对头实体和尾实体采用两种不同的标注策略：头实体采用基于“B”、“I”、“O”三元标注的策略；尾实体采用一种将关系融入到尾实体中的标注策略，即“B-x”、“I-x”、“O”的标注策略，其中“x”表示关系类型。下文以“金一先生是出生于海宁市的一名作家”作为示例语料进行详细说明。

“金一先生是出生于海宁市的一名作家”中包含了“(金一，职业，作家)”和“(金一，出生地，海宁市)”两个三元组，这条示例语料的头实体和尾实体的标注结果分别如图3和图4所示。由于两个三元组的头实体都是“金一”，因此在头实体标注中只标注了“金一”这个实体。而尾实体包含了“海宁市”和“作家”两个实体，所以尾实体标注了“海宁市”和“作家”两个实体。又因为尾实体“海宁市”与头实体“金一”是出生地(Birth Place，BP)关系，因此采用“B-BP”、“I-BP”、“I-BP”三个标签对“海宁市”这个实体进行标注。尾实体“作家”与头实体“金一”是职业(Profession，Pr)关系，故采用“B-Pr”和“I-Pr”这两个标签对尾实体“作家”进行标注。

本发明提出的基于头实体预测的实体和关系联合抽取模型JEBHE如图5所示，JEBHE模型首先采用BERT-BiLSTM-CRF的模型结构，根据三元标注的方法抽取出头实体，再使用一种融入了关系的标签对尾实体的标注识别，在对尾实体进行标注识别时，将头实体当作尾实体识别时的输入，利用先验概率的思想提高模型效果，由于尾实体中融入了实体对间的关系，所以在识别尾实体的同时就能够确定其所属三元组的关系，解决了中文语料当存在实体重叠现象时抽取不完全的问题和存在实体嵌套现象时无法抽取的问题。

JEBHE模型可以分为两个阶段，分别是第一阶段的头实体识别、第二阶段的尾实体和关系抽取。在第一阶段，即头实体识别阶段，采用基于“BIO”三元标注的策略，利用BiLSTM加CRF的模型结构进行头实体的识别，其中BiLSTM层如图6所示，由一个前向LSTM和一个后向LSTM组成由前向LSTM得到的输出是F＝{F₁,F₂,…,F_n}，由后向LSTM得到的输出是B＝{B₁,B₂,…,B_n}。在F＝{F₁,F₂,…,F_n}中，F₁的输入为E₁，F₂到F_n中，

其中i大于等于2并且小于等于n，F_i的输入为/>

在B＝{B₁,B₂,…,B_n}中，B₁的输入为E₁，B₂到B_n中，/>

其中i大于等于2并且小于等于n，B_i的输入为/>

输入E_i对应输出向量/>

最终BiLSTM的输出是矩阵P＝(P₁,P₂,…,P_n)。

采用BIO三元标注的方法可以避免分词带来的错误，因为误差传递会导致实体抽取的错误，采用双向LSTM可以预测到标签的概率，再在双向LSTM后接CRF是为了让模型能够学习到BIO的特殊标注规则，如标签O后不能接标签I、标签B后不能紧跟标签B等，这些规则一般通过LSTM网络无法学习得到，因此在BiLSTM后接CRF。在第二阶段，即尾实体和关系抽取阶段，该阶段将第一阶段识别到的头实体作为输入，然后采用“B-x”、“I-x”、“O”作为标签，其中“x”代表关系类别，然后再次采用BiLSTM+CRF进行标注，从而完成尾实体和关系的抽取。

本发明在模型训练时，采取了一种新的负采样的方法，即将尾实体向量代替头实体的向量作为第二阶段的输入时，第二阶段对应的标注标签全为“O”标签，减少一些既可以作为头实体也可以作为尾实体的实体对模型产生的影响，提高了模型的效果。

本发明的积极效果是：

1、针对当语料存在实体重叠现象时，本发明能够尽可能的完全抽取其中存在的三元组。

2、针对当语料存在实体嵌套现象时，本发明由于是头实体和尾实体分别进行识别的，可以很好的解决此类问题。

3、本发明采用基于序列标注的方法，是一种语言无关的算法，不仅能够应用于中文，英文等其它语言同样可以适用。

四、附图说明

图1是中文数据集的百度知识数据集实体重叠情况统计。

图2是英文数据集的NYT数据集实体重叠情况统计。

图3是一个示例的头实体标注结果。

图4是一个示例的尾实体标注结果。

图5是本发明的模型框架图。

图6是Bi-LSTM层的结构图。

五、具体实施方式

本发明不同于以往的实体和关系抽取先识别实体对再判断关系的思路，本发明首先识别出头实体，然后将头实体作为尾实体识别的输入，并且将实体对之间的关系只融入到尾实体中，根据尾实体的标签进而确定实体对间的关系，从而解决了存在实体重叠现象时抽取不完全的问题和存在实体嵌套时无法抽取的问题。下面结合附图5以“金一先生是出生于海宁市的一名作家”为具体示例对本发明的具体实施方式作进一步的详细说明。

第一步，针对输入的内容通过BERT进行对其进行编码，然后在通过Bi-LSTM得到每个标签的概率，通过CRF得到最佳的标签序列，从而识别出头实体。

第二步，遍历第一步中识别出的头实体，取其平均向量与原编码向量相加，然后进行作为尾实体标注的输入。

第三步，尾实体识别，采用与头实体识别同样的模型结构，但是采用不同的标注策略，即将关系融入到尾实体中，进而在识别出尾实体的同时识别出关系，从而得到三元组。

本发明的用户使用场景举例：

在人物画像构建的过程中，可以根据百度百科、维基百科等网络上对其相关的介绍对其进行信息的抽取，一般情况下，对其进行的介绍一般采用的语言比较简练，会大量存在实体重叠的现象，而采用本发明对其进行实体和关系的抽取，则可以解决当存在实体重叠时抽取不完全的情况。

在上述场景中，本发明的方法取得了好的效果。

Claims

1.基于头实体预测的实体和关系联合抽取方法，其特征在于：

第一步，针对输入的内容通过BERT层对其进行编码，然后再通过Bi-LSTM层得到每个标签的概率，通过CRF得到最佳的标签序列，从而识别出头实体；

第二步，遍历第一步中识别出的每个头实体，取其平均向量与原编码向量相加，然后作为尾实体标注的输入；

第三步，尾实体识别和关系识别，采用与头实体识别同样的模型结构，但是采用不同的标注策略，即将关系融入到尾实体中，进而在识别出尾实体的同时识别出关系，从而得到三元组。

2.如权利要求1所述的基于头实体预测的实体和关系联合抽取方法，其特征在于：将实体和关系抽取任务转化为头实体标注和尾实体标注的两个序列标注任务的方法。

3.如权利要求1所述的基于头实体预测的实体和关系联合抽取方法，其特征在于：将实体和关系抽取任务转化为头实体标注和尾实体标注的两个序列标注任务后，即通过将关系只融入到头实体中，或者只融入到尾实体中的方法。

4.如权利要求1所述的基于头实体预测的实体和关系联合抽取方法，其特征在于：在进行实体和关系抽取时，将实体和关系抽取任务转化为头实体标注和尾实体标注的两个序列标注任务后，将实体间的关系只融入到尾实体中的方法，在进行序列标注识别尾实体的时候同时得到关系。

5.如权利要求1所述的基于头实体预测的实体和关系联合抽取方法，其特征在于：在实体和关系抽取中，将实体和关系抽取任务转化为头实体标注和尾实体标注的两个序列标注任务后，将第一步识别的头实体的向量的平均值作为第二步识别尾实体时的输入。

6.如权利要求1所述的基于头实体预测的实体和关系联合抽取方法，其特征在于：在训练的过程中，采取的负采样的方法，将尾实体向量代替头实体的向量作为第二阶段的输入时，此时对应的标注标签全为“o”标签。