CN113221571A

CN113221571A - 基于实体相关注意力机制的实体关系联合抽取方法

Info

Publication number: CN113221571A
Application number: CN202110600808.3A
Authority: CN
Inventors: 李韧; 李东; 杨建喜; 向芳悦; 蒋仕新; 王笛; 刘新龙
Original assignee: Chongqing Jiaotong University
Current assignee: Chongqing Jiaotong University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-06
Anticipated expiration: 2041-05-31
Also published as: CN113221571B

Abstract

本发明涉及互联网络人工智能技术和自然语言处理技术领域，具体涉及基于实体相关注意力机制的实体关系联合抽取方法，其包括：获取待处理文本；将待处理文本输入经过预先训练的实体关系联合抽取神经网络模型中；实体关系联合抽取神经网络模型首先识别所述待处理文本中的所有实体；然后将各个实体分别作为目标头实体去识别对应的目标尾实体；最后识别各个目标头实体与对应目标尾实体之间的关系，并根据目标头实体、目标尾实体和相应关系构建对应的三元组；输出所有的三元组。本发明中的实体关系联合抽取方法能够保证实体关系联合抽取关联性并解决重叠关系问题，从而能够提升实体关系联合抽取的效果。

Description

基于实体相关注意力机制的实体关系联合抽取方法

技术领域

本发明涉及互联网络人工智能技术和自然语言处理技术领域，具体涉及基于实体相关注意力机制的实体关系联合抽取方法。

背景技术

随着互联网技术的快速发展，人们需要处理的数据量激增，特别是在人工智能等数据信息处理领域，如何快速高效地从文本中抽取出实体及实体之间的关系信息，成为迫切需要解决的重要问题。在互联网信息处理领域中，实体往往指可以指示某类具体事物的集合，可以是具体的人事物，也可以是抽象的概念、联系等。实体关系抽取是针对非结构化数据进行信息抽取的一项核心任务，其主要目标是从文本中同时检测实体并识别实体对间的语义关系，被广泛应用在知识图谱构建、信息检索、对话生成和问答系统等方面。目前实体关系抽取一般采用流水线方法和联合学习方法两个框架。

流水线方法在处理时容易忽略两个子任务的相关性，进而会产生一些错误的叠加。联合学习方法同样存在无法识别重叠关系、无法学习到句子中更丰富的上下文信息、未对抽取结果进行校正等问题，从而导致三元组抽取准确率不高。为此，公开号为CN110781683A的中国专利就公开了《一种基于多标签标注和复合注意力机制的实体关系联合抽取方法》，其收集用于研究的语料数据，去除关系标签为"None"的句子，对剩余的句子进行多标签标注，形成训练集；然后将经过多标签标注的句子输入到联合抽取模型中，通过所述联合抽取模型来识别句子中所包含的实体以及实体之间的关系，构建三元组；最后利用关系对齐模型对抽取出来的三元组进行校正，以适应(头实体E1，尾实体E2)实体对的多标签标注。

上述现有方案中的实体关系联合抽取方法能够在一定程度上提高实体关系(即三元组)的抽取准确率。但是，现有的实体关系联合抽取方法本质上仍然是分别提取实体和关系，而没有充分利用两个子任务之间的联系，导致实体关系的抽取关联性很低。为此，申请人从人类的认知角度出发，发现了通过区分实体在不同关系上、下文中与其他实体的关联性来共同提取实体和关系能够保证联合抽取效果。基于此发现，申请人想到采用实体优先策略以及特定的实体相关注意力机制来计算实体的相关性，并通过神经网络模型进一步提升实体与关系之间的联系，进而提出一种新的实体关系联合抽取方法。同时，还解决了现有神经网络模型无法处理复杂重叠关系的问题，从而提升实体关系联合抽取的准确性。因此，申请人设计了一种能够保证实体关系联合抽取关联性并解决重叠关系问题的实体关系联合抽取方法。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种能够保证实体关系联合抽取关联性并能够解决重叠关系问题的实体关系联合抽取方法，从而能够提升实体关系联合抽取的效果。

为了解决上述技术问题，本发明采用了如下的技术方案：

基于实体相关注意力机制的实体关系联合抽取方法，包括以下步骤：

S1：获取待处理文本；

S2：将待处理文本输入经过预先训练的实体关系联合抽取神经网络模型中；所述实体关系联合抽取神经网络模型首先识别所述待处理文本中的所有实体；然后将各个实体分别作为目标头实体去识别对应的目标尾实体；最后识别各个目标头实体与对应目标尾实体之间的关系，并根据目标头实体、目标尾实体和相应关系构建对应的三元组；

S3：输出所有的三元组。

优选的，所述实体关系联合抽取神经网络模型包括编码模块；

所述编码模块首先对所述待处理文本进行编码，为所述待处理中的各个单词嵌入词向量；然后通过编码Bi-LSTM捕捉编码后待处理文本的语义特征；最后根据所述编码Bi-LSTM的最后一层隐藏状态生成上下文表示。

优选的，所述编码Bi-LSTM通过如下公式捕捉语义特征：

式中：e_i表示第i个单词嵌入的词表示；

表示编码Bi-LSTM的最后一层隐藏状态，d_h表示编码Bi-LSTM的最后一层隐藏状态的维数；

表示全局表示的第i个特征表示，根据对所有最后一层隐藏状态的最大池化计算得到；

表示融合了h_i和g_i的上下文表示。

优选的，所述编码模块通过如下步骤进行编码：首先对所述待处理文本进行分词和汇总得到若干个单词；然后给每个单词分配一个对应的单词ID，并将单词替换成对应的单词ID；最后为每个单词ID嵌入对应的词向量。

优选的，所述实体关系联合抽取神经网络模型还包括候选头实体识别模块；

所述候选头实体识别模块将所述上下文表示作为输入；首先通过候选头实体Bi-LSTM融合和学习所述上下文表示的内部信息，并输出对应的头实体上下文向量表示序列；再将所述头实体上下文向量表示序列输入候选头实体CRF层中，通过所述候选头实体CRF层输出对应的实体类型标签序列；

所述实体关系联合抽取神经网络模型根据所述实体类型标签序列识别得到所有的实体。

优选的，所述候选头实体CRF层通过如下步骤输出实体类型标签序列：

预测基于实体类型的所有候选类型标签序列；

通过如下公式计算各个候选类型标签序列的类型转移分数；

o＝{o₁,o₂,....,o_n}；

p＝oW_p；

式中：p、v分别表示候选头实体CRF层的发射矩阵和转移矩阵，

表示输出的头实体上下文向量表示序列；

表示候选头实体识别模块的模型参数；S(X,Y)表示单词到相应类型标签的类型转移分数，X表示单词，Y表示类型标签；

根据类型转移分数并结合如下公式计算各个候选类型标签序列的类型标签概率；

式中：p(Y|X)表示候选类型标签序列的类型标签概率；Y_X表示所有的候选类型标签序列；

根据所述类型标签概率从所有候选类型标签序列中选取对应的实体类型标签序列。

优选的，所述实体关系联合抽取神经网络模型根据实体类型标签序列并结合如下标注策略对实体进行标注：

将实体标注为T₁-T₂；T₁表示实体边界，分别用B、I、E表示实体的开始、中间和结尾，当实体只有一个单词时用S表示；T₂表示头实体类型；非实体用O表示。

优选的，所述实体关系联合抽取神经网络模型还包括多尾实体识别模块；

所述多尾实体识别模块将所述上下文表示和识别得到的所有实体作为输入；首先选取对应的实体作为目标头实体，并将对应实体开始处的上下文向量表示作为目标头实体的实体表示；再识别目标头实体对应的目标尾实体；然后通过多尾实体Bi-LSTM融合、学习上下文表示和实体表示的内部信息，并输出对应的尾实体上下文向量表示序列；再将所述尾实体上下文向量表示序列输入多尾实体CRF中，通过所述多尾实体CRF输出对应的头实体和尾实体关系标签序列；

所述实体关系联合抽取神经网络模型根据所述头实体和尾实体关系标签序列识别得到目标头实体与对应目标尾实体的关系，并根据目标头实体、目标尾实体和相应关系构建对应的三元组。

优选的，所述多尾实体识别模块通过如下步骤识别对应的目标尾实体：

将所有实体作为候选尾实体；

通过如下公式计算各个候选尾实体与目标头实体的实体相关注意力；

e_ik＝v^Ttanh(W_aa_i+W_gg_i)；

式中：s_k表示实体相关注意力；

都是可训练模型参数；

根据所述实体相关注意力并结合以下公式，过滤与目标头实体呈负相关的候选尾实体，并将剩余的候选尾实体作为目标头实体对应的目标尾实体；

u_k＝g_k⊙tanh(W₃s_k+b₃)；

式中：W₁,W₂,

都是模型参数；

是凭借运算符；⊙是点乘运算符；σ表示sigmoid激活函数；

表示第i个单词在目标头实体为k的情况下的隐藏表示；整个文本表示成

优选的，所述多尾实体CRF通过如下步骤输出头实体和尾实体关系标签序列：

预测目标头实体和目标尾实体的所有候选关系标签序列；

通过如下公式计算各个候选关系标签序列的关系转移分数；

式中：p^k、v^k分别表示多尾实体CRF的发射矩阵和转移矩阵；

表示输出的尾实体上下文向量表示序列；

表示多尾实体识别模块的模型参数；

表示单词到相应关系标签的关系转移分数，X表示单词，Y表示关系标签；

根据所述关系转移分数并结合如下公式计算各个候选关系标签序列的关系标签概率；

式中：

表示候选关系标签序列的标签概率；

表示所有的候选关系标签序列；

根据所述关系标签概率从所有候选关系标签序列中选取对应的头实体和尾实体关系标签序列。

本发明中的实体关系联合抽取方法与现有技术相比，具有如下有益效果：

本发明中，实体关系联合抽取神经网络模型基于实体优先策略以及特定的实体相关注意力机制来计算实体的相关性，并通过神经网络模型进一步提升实体与关系之间的联系，从而能够提升实体关系联合抽取的效果。同时，本发明首先识别文本中的实体，并能够识别目标头实体与对应目标尾实体的关系来构建对应的三元组，使得能够通过头实体、尾实体和关系之间的联系来实现三元组的抽取，从而能够保证实体关系联合抽取的关联性。此外，重叠关系中不同的实体对会共享同一种关系或者说同一对实体之间存在多重关系，因此，本发明假设了头实体加关系等于尾实体的映射关系，通过得到一种头实体并根据关系类型标出尾实体的方式应对重叠关系，即能够解决编码过程中的重叠关系问题，从而能够进一步提升实体关系联合抽取的关联性。最后，本发明提供了相较于基于BERT等大型通用领域预训练模型更轻量级的实体关系联合抽取模型，并且在公用数据集和自建桥梁领域数据集上都取得了很好的效果。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为实施例中实体关系联合抽取方法的逻辑框图；

图2为实施例中实体关系联合抽取神经网络模型的逻辑框图；

图3为实施例中头实体标注策略和尾实体标注策略的标注示意图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例：

本实施例中公开了一种基于实体相关注意力机制的实体关系联合抽取方法。

如图1所示，基于实体相关注意力机制的实体关系联合抽取方法，包括以下步骤：

S1：获取待处理文本；

S2：将待处理文本输入经过预先训练的实体关系联合抽取神经网络模型中；实体关系联合抽取神经网络模型首先识别待处理文本中的所有实体；然后将各个实体分别作为目标头实体去识别对应的目标尾实体；最后识别各个目标头实体与对应目标尾实体之间的关系，并根据目标头实体、目标尾实体和相应关系构建对应的三元组；

S3：输出所有的三元组。

结合图2所示，实体关系联合抽取神经网络模型包括编码模块、候选头实体识别模块和多尾实体识别模块。“Bi-LSTM”是双向长短期记忆人工神经网络；“CRF”是条件随机场。

具体实施过程中，编码模块首先对待处理文本进行编码，为待处理中的各个单词嵌入词向量；然后通过编码Bi-LSTM捕捉编码后待处理文本的语义特征；最后根据编码Bi-LSTM的最后一层隐藏状态生成上下文表示。具体的，编码模块通过如下步骤进行编码：首先对待处理文本进行分词和汇总得到若干个单词；然后给每个单词分配一个对应的单词ID，并将单词替换成对应的单词ID；最后为每个单词ID嵌入对应的词向量。

编码Bi-LSTM通过如下公式捕捉语义特征：

式中：e_i表示第i个单词嵌入的词表示；

表示融合了h_i和g_i的上下文表示。

本发明中，实体关系联合抽取神经网络模型的编码模块能对文本进行编码并嵌入词向量来形成上下文表示，使得后续能够通过得到一种头实体并根据关系类型标出尾实体的方式应对重叠关系，即能够解决编码过程中的重叠关系问题，从而能够进一步提升实体关系联合抽取的关联性。

具体实施过程中，候选头实体识别模块将上下文表示作为输入；首先通过候选头实体Bi-LSTM融合和学习上下文表示的内部信息，并输出对应的头实体上下文向量表示序列；再将头实体上下文向量表示序列输入候选头实体CRF层中，通过候选头实体CRF层输出对应的实体类型标签序列；

实体关系联合抽取神经网络模型根据实体类型标签序列识别得到所有的实体。实体关系联合抽取神经网络模型通过如下标注策略对实体进行标注：将实体标注为T₁-T₂；T₁表示实体边界，分别用B、I、E表示实体的开始、中间和结尾，当实体只有一个单词时用S表示；T₂表示头实体类型；非实体用O表示。结合图3所示，“Steven Jobs”被标注为“B-Peop”和“E-Peop”。

具体实施过程中，候选头实体CRF层通过如下步骤输出实体类型标签序列：

预测基于实体类型的所有候选类型标签序列；

通过如下公式计算各个候选类型标签序列的类型转移分数；

o＝{o₁,o₂,....,o_n}；

p＝oW_p；

表示输出的头实体上下文向量表示序列；

表示候选头实体识别模块的模型参数；S(X，Y)表示单词到相应类型标签的类型转移分数，X表示单词，Y表示类型标签；

根据类型标签概率从所有候选类型标签序列中选取对应的实体类型标签序列。

本发明中，候选头实体识别模块通过上述步骤能够准确的输出实体类型标签序列，进而使得实体关系联合抽取神经网络模型能够准确的识别出文本中的实体，从而能够辅助提升实体关系联合抽取的准确性。同时，本发明中的头实体标准策略能够简单且有效的对头实体进行标注，有利于后续尾实体的识别和头实体、尾实体关系的识别，从而能够进一步提升实体关系联合抽取的效果。

具体实施过程中，多尾实体识别模块将上下文表示和识别得到的所有实体作为输入；首先选取对应的实体作为目标头实体，并将对应实体开始处的上下文向量表示作为目标头实体的实体表示(通过公式A＝MASK(G)表示，其中MASK表示实体开始处的索引矩阵，A＝{a₁,a₂,....,a_n}，

)；再识别目标头实体对应的目标尾实体；然后通过多尾实体Bi-LSTM融合、学习上下文表示和实体表示的内部信息，并输出对应的尾实体上下文向量表示序列；再将尾实体上下文向量表示序列输入多尾实体CRF中，通过多尾实体CRF输出对应的头实体和尾实体关系标签序列；

实体关系联合抽取神经网络模型根据头实体和尾实体关系标签序列识别得到目标头实体与对应目标尾实体的关系，并根据目标头实体、目标尾实体和相应关系构建对应的三元组。实体关系联合抽取神经网络模型通过如下标注策略对尾实体进行标注：将实体标注为T₁-T₃；T₁表示实体边界，分别用B、I、E表示实体的开始、中间和结尾，当实体只有一个单词时用S表示；T₃表示头实体与尾实体的关系；非实体用O表示。结合图3所示，尾实体“SanFrancisco”基于头实体“Steven Jobs”被标注为“B-Bo_In”和“E-Bo_In”。

具体实施过程中，多尾实体识别模块通过如下步骤识别对应的目标尾实体：

将所有实体作为候选尾实体；

e_ik＝v^Ttanh(W_aa_i+W_gg_i)；

式中：s_k表示实体相关注意力；

都是可训练模型参数；

根据实体相关注意力并结合以下公式，过滤与目标头实体呈负相关的候选尾实体，并将剩余的候选尾实体作为目标头实体对应的目标尾实体；

u_k＝g_k⊙tanh(W₃s_k+b₃)；

式中：W₁，W₂，

都是模型参数；

是凭借运算符；⊙是点乘运算符；σ表示sigmoid激活函数；

具体实施过程中，多尾实体CRF通过如下步骤输出头实体和尾实体关系标签序列：

预测目标头实体和目标尾实体的所有候选关系标签序列；

通过如下公式计算各个候选关系标签序列的关系转移分数；

式中：p^k、v^k分别表示多尾实体CRF的发射矩阵和转移矩阵；

表示输出的尾实体上下文向量表示序列；

表示多尾实体识别模块的模型参数；

根据关系转移分数并结合如下公式计算各个候选关系标签序列的关系标签概率；

式中：

表示候选关系标签序列的标签概率；

表示所有的候选关系标签序列；

根据关系标签概率从所有候选关系标签序列中选取对应的头实体和尾实体关系标签序列。

本发明中，多尾实体识别模块通过上述步骤能够准确的输出目标头实体对应的目标尾实体，并能够准确识别出头实体和尾实体关系标签序列，使得实体关系联合抽取神经网络模型能够准确的识别出文本中目标头实体和目标尾实体的关系，从而能够辅助提升实体关系的抽取准确性。同时，本发明中的尾实体标准策略能够简单且有效的对尾实体进行标注，有利于后续头实体、尾实体关系的识别，从而能够进一步提升实体关系联合抽取的效果。此外，本发明的多尾实体识别模块能够基于实体优先策略以及特定的实体相关注意力机制来计算实体的相关性，并通过神经网络模型进一步提升实体与关系之间的联系，从而能够提升实体关系联合抽取的效果。

具体实施过程中，本实施例通过如下步骤训练实体关系联合抽取神经网络模型：

获取训练数据和两个损失函数L_all、L_CHE；其中，L_all＝L_CHE+L_MTE；L_CHE表示候选头实体识别模块的损失函数，L_MTE表示多尾实体识别模块的损失函数；L_CHE和L_MTE都是负对数似然；

然后将训练数据输入所述实体关系联合抽取神经网络模型，并通过如下公式最小化联合损失函数L＝L_all+L_ent，L_all+L_ent＝L，以使得负对数似然损失最小，条件概率最大化:

需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离所附权利要求书所限定的本发明的精神和范围。同时，实施例中公知的具体结构及特性等常识在此未作过多描述。最后，本发明要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。