CN112446215A

CN112446215A - 一种实体关系联合抽取方法

Info

Publication number: CN112446215A
Application number: CN202011470863.7A
Authority: CN
Inventors: 赵娜; 曹敏; 尹春林; 张叶; 黄祖源; 何潇; 聂永杰; 刘斯扬; 廖斌; 胡昌斌; 韩彤; 魏龄; 肖华根
Original assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-03-05
Anticipated expiration: 2040-12-14
Also published as: CN112446215B

Abstract

本申请提供的一种实体关系联合抽取方法包括：利用BERT学习单字符向量，通过BiLSTM输出指定维度字符向量；字符向量拼接每个字符的位置信息向量，词表向量拼接词的位置信息向量，将所有字符向量和词表向量相连；Transformer编码器学习字符特征；进行实体分类；实体关系分类特征学习；实体关系分类。本申请通过底层共享网络参数的方式，进行联合抽取，解决抽取时间和误差累计的问题；通过引入分词与词表向量，解决实体边界的问题；通过引入实体边界信息和Sigmoid的方法解决实体重叠问题；通过Sigmoid的方法解决实体关系重叠的问题，克服了现有技术的不足。

Description

一种实体关系联合抽取方法

技术领域

本申请涉及自然语言处理领域技术领域，尤其涉及一种实体关系联合抽取方法。

背景技术

实体关系抽取ERE(Entity and Relation Extraction)是信息抽取的关键任务之一，主要用于从非结构化文档中自动抽取用户关注的实体和实体之间的关系，广泛应用于自然语言处理领域，如知识图谱构建、智能问答、推荐系统等。ERE是级联任务，分为两个子任务：实体抽取和实体关系抽取。

实体抽取：也称为命名实体识别，是信息抽取的一个子任务，主要是定位出非结构化文档中实体的位置及边界，再对实体进行预先定义的类别的分类，如时间、地点、人物、机构等。不同的业务场景具有不同的实体类别定义，如：《冰心散文集》的发行时间是多久？句子中包含作者“冰心”，作品“冰心散文集”等实体。

实体关系抽取：实体抽取完成后，信息抽取还需要预测任意两个实体之间的语义关系，如出生于、位于、属于等关系。一般用三元组来表示(Subject,relation,Object)，如：《冰心散文集》的发行时间是多久？实体“冰心”与实体“冰心散文集”存在“创作”的关系，即(冰心，创作，冰心散文集)。

常用的实体关系抽取方法为：基于Pipeline的深度学习方法，即先进行实体抽取，然后任意组合两个实体，再进行分类的方式进行实体关系抽取；实体关系的联合抽取：通过共享网络参数和联合损失函数对模型进行训练。

目前，实体关系抽取方面还存在如下不足：1、误差累计：实体抽取的错误会影响下一步关系抽取的性能；2、实体边界问题：实体一般为词或词的组合，基于字符的实体抽取没有考虑中文的分词信息，无法进一步提升实体抽取准确率；3、实体重叠问题：一个较长实体里面包含较短长度实体，常用算法只能识别单个实体；4、关系重叠问题：一段文本中两个实体存在多种关系、一个实体与其他多个实体存在关系、较长实体与较短实体存在关系。

发明内容

本申请的目的是，创建一种基于transformer和词表的实体关系联合抽取方法，克服现有技术的不足。通过底层共享网络参数的方式，进行联合抽取，解决抽取时间和误差累计的问题；通过引入分词与词表向量，解决实体边界的问题；通过引入实体边界信息和SoftMax替换为Sigmoid的方法解决实体重叠问题；通过SoftMax替换为Sigmoid的方法解决关系重叠的问题。

本申请提供了一种实体关系联合抽取方法，包括如下步骤：

利用BERT学习单字符向量，通过BiLSTM(Bi-directional Long Short-TermMemory)输出指定维度字符向量；

字符向量拼接每个字符的位置信息向量，词表向量拼接词的位置信息向量，将所有字符向量和词表向量相连；

Transformer编码器学习字符特征；

进行实体分类；

实体关系分类特征学习；

实体关系分类。

进一步的，所述Transformer编码器学习字符特征，包括：输入实体识别Transformer编码器中得到字符嵌入表示学习，将字符向量输入关系抽取Transformer编码器中得到字符嵌入表示学习。

进一步的，所述进行实体分类为：实体识别Transformer编码器的输出结果，通过线性变化及Sigmoid进行实体分类。

进一步的，所述实体关系分类特征学习为：实体识别Transformer编码器和实体关系抽取Transformer编码器输出结果进行拼接，添加任意两个实体的位置信息，输入Transformer解码器，输出实体关系分类特征向量。

进一步的，所述实体关系分类为：将实体关系分类特征向量，输入多层感知机和Sigmoid进行实体关系分类。

进一步的，所述一种实体关系联合抽取方法还包括设置损失函数参数进行模型训练。

进一步的，所述损失函数为：Loss＝α*Entity_Loss+β*Relation_Loss；

其中Entity_Loss为实体识别损失函数，Relation_Loss为关系抽取损失函数，α、β为损失函数权重，α、β＞＝1。

由以上技术方案可知，本申请提供的一种实体关系联合抽取方法包括：利用BERT学习单字符向量，通过BiLSTM输出指定维度字符向量；字符向量拼接每个字符的位置信息向量，词表向量拼接词的位置信息向量，将所有字符向量和词表向量相连；Transformer编码器学习字符特征；进行实体分类；实体关系分类特征学习；实体关系分类。本申请通过底层共享网络参数的方式，进行联合抽取，解决抽取时间和误差累计的问题；通过引入分词与词表向量，解决实体边界的问题；通过引入实体边界信息和SoftMax替换为Sigmoid的方法解决实体重叠问题；通过SoftMax替换为Sigmoid的方法解决关系重叠的问题，克服了现有技术的不足。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一种实体关系联合抽取方法示意图；

图2为字符向量、词表向量和位置向量拼接示意图；

图3为Transformer编码器示意图；

图4为实体分类示意图；

图5为实体关系分类特征编码示意图。

具体实施方式

下面将详细地对实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。

本申请提供了一种实体关系联合抽取方法，通过底层共享网络参数的方式，进行联合抽取，解决抽取时间和误差累计的问题；通过引入分词与词表向量，解决实体边界的问题；通过引入实体边界信息和SoftMax替换为Sigmoid的方法解决实体重叠问题；通过SoftMax替换为Sigmoid的方法解决关系重叠的问题。

参见图1，为本申请一种实体关系联合抽取方法示意图；

步骤1：利用BERT学习单字符向量，通过BiLSTM输出指定维度字符向量；

单字符向量的表示学习：

输入段落内容P＝{c₁,c₂,c₃,c₄,…,c_n}，其中c_i∈C，i＝1,2,…,n，n表示段落字符个数，C表示所有字符空间。通过预训练模型BERT，得到连接上下文信息的字符向量矩阵I＝{i₁,i₂,i₃,i₄,…,i_n}，其中，i_n∈R^d，i_n是实数空间的d维向量，R为实数空间。

通过BiLSTM输出指定维度字符向量：

将得到的字符向量矩阵I＝{i₁,i₂,i₃,i₄,…,i_n}，输入BiLSTM，设置BiLSTM输出维度为dd，输出I_c＝{i_c1,i_c2,i_c3,i_c4,…,i_cn}字符向量矩阵，其中i_cn为dd维向量。

步骤2：字符向量拼接每个字符的位置信息向量，词表向量拼接词的位置信息向量，将所有字符向量和词表向量相连；

段落分词，将分词长度大于2的组成集合D＝{w₁，w₂，...，w_x}，其中w_i∈W，i＝1，2，...，x，x表示分词长度大于2的个数，W为词表空间；

将集合D＝{w₁，w₂，...，w_x}通过词表库，表示为词向量矩阵I_w＝{i_w1，i_w2，…，i_wx}，其中i_wx∈R^dd，i_wx是实数空间的dd维向量，R为实数空间；

位置信息向量表示L＝{l₁，l₂，l₃，...，l_n}，其中l_n∈R^k，l_n是实数空间的k维向量；

参见图2，为字符向量、词表向量和位置向量拼接示意图；

字符向量拼接位置信息向量，词表向量拼接位置信息向量，如图2所示，公式如下；

其中I_c为单字符向量矩阵，I_w为词向量矩阵，L_b为{l₁，l₂，l₃，...，l_k}表示字符在段落中的开始位置向量矩阵，L_e为{l₁，l₂，l₃，...，l_k}表示字符在段落中的结束位置向量矩阵，L′_b为{l_m，l_n，...}表示词在段落中的开始位置向量矩阵，L′_e为{l_m，l_n，...}表示词在段落中的结束位置向量矩阵。

步骤3：Transformer编码器学习字符特征；

参见图3，为Transformer编码器示意图；

如图3所示，字符向量矩阵输入实体识别Transformer编码器中得到字符嵌入表示学习；

G_e＝Transformer_entity(I_m)

字符G_e＝(G_e1，G_e2，...，G_en)表示示实体识别Transformer编码器输出的字符嵌入矩阵，G_en表示字符嵌入表示。

字符向量矩阵输入关系抽取Transformer编码器中得到字符嵌入表示学习；

G_r＝Transformer_relation(I_m)

字符G_r＝(G_r1，G_r2，...，G_m)表示关系抽取Transformer编码器输出的字符嵌入矩阵，G_rn表示字符嵌入表示。

步骤4：实体分类；

参见图4，为实体分类示意图；

步骤3得到的G_e中的每个字符向量通过两层线性变换，输入Sigmoid进行分类，分类标签如图4所示；

O＝Liner(G_ei)

O＝(O₁，O₂，...，O_k)

P_k＝Sigmoid(O_k)

其中G_ei中为G_e中一个字符向量，k表示字符类别数，若实体类别为n，字符按照BIO标注，则k＝2*n-1，O_k表示G_ei字符为第k类的特征表示，P_k表示G_ei字符为第k类的概率。

步骤5：实体关系分类特征学习；

参见图5，为实体关系分类特征编码示意图；

步骤3得到的G_e、G_r、L_entity1、L_entity2进行拼接得到融合后的特征表示G_entity，如图5所示：

其中L_entity为某一实体在段落文档中的位置信息，模型训练时为标注位置信息，模型预测时为实体识别预测出的位置信息，G_entity为一组实体对信息融合后句子特征。

将G_entity输入Transformer解码器，得到关系分类特征向量R_entity。

步骤6：实体关系分类；

步骤5得到的R_entity通过两层线性变换，输入Sigmoid进行分类；

R＝Liner(R_entity)

R＝(R₁,R₂,…,R_k)

P_k＝Sigmoid(R_k)

其中R_entity为一组实体对信息融合后句子特征，k表示关系类别数，R_k表示某一实体对为第k类关系的特征表示，P_k表示某一实体对为第k类关系的概率。

步骤7：设置损失函数参数，进行模型训练

Loss＝α*Entity_Loss+β*Relation_Loss

为了更好的理解我们的发明方法，现以“《冰心散文集》的发行时间是多久？”为例，对本申请一种实体关系联合抽取方法进行举例说明；

步骤1：单字符向量表示

(1)将字符组合[“《”，“冰”，“心”，“散”，“文”，“集”…]输入BERT模型，得到每个字符的向量表示，其中每个字符768维；

(2)设置BiLSTM输出维度为300维，则768维向量输入BiLSTM，输出300维单字符向量。

步骤2：字符向量、位置信息向量、词表向量进行拼接，拼接方式如图2所示，其中字符向量(300维)、开始字符位置信息向量(100维)、结束字符位置信息向量(100维)纵向拼接，词表向量(300维)、开始字符位置信息向量(100维)、结束字符位置信息向量(100维)纵向拼接，然后再将拼接后的500维向量进行横向拼接。

步骤3：Transformer编码器进行实体识别和关系抽取编码，实体识别编码如图3所示，关系抽取编码器结构相同。

步骤4：对每个字符编码进行分类，如图4所示，“冰”、“心”同时属于“作者”和“作品”实体的一部分，“散”、“文”、“集”属于“作品”实体的一部分。

步骤5：关系分类特征学习

拼接实体抽取和关系抽取Transformer模块输出特征；

再拼接实体在句子中的位置信息特征，如图5所示，其中“0”号位置代表实体的位置，其他为字符在句子中的位置。

步骤6：步骤5的拼接结果通过Transformer解码器，再进行多类别的分类。

步骤7：设置损失函数参数α＝2，β＝1，进行模型训练。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种实体关系联合抽取方法，其特征在于，包括：

利用BERT学习单字符向量，通过BiLSTM输出指定维度字符向量；

Transformer编码器学习字符特征；

进行实体分类；

实体关系分类特征学习；

实体关系分类。

2.根据权利要求1所述的一种实体关系联合抽取方法，其特征在于，所述Transformer编码器学习字符特征，包括：输入实体识别Transformer编码器中得到字符嵌入表示学习，将字符向量输入关系抽取Transformer编码器中得到字符嵌入表示学习。

3.根据权利要求2所述的一种实体关系联合抽取方法，其特征在于，所述进行实体分类为：实体识别Transformer编码器的输出结果，通过线性变化及Sigmoid进行实体分类。

4.根据权利要求3所述的一种实体关系联合抽取方法，其特征在于，所述实体关系分类特征学习为：实体识别Transformer编码器和实体关系抽取Transformer编码器输出结果进行拼接，添加任意两个实体的位置信息，输入Transformer解码器，输出实体关系分类特征向量。

5.根据权利要求4所述的一种实体关系联合抽取方法，其特征在于，所述实体关系分类为：将实体关系分类特征向量，输入多层感知机和Sigmoid进行实体关系分类。

6.根据权利要求1-5任意一项所述的一种实体关系联合抽取方法，其特征在于，包括设置损失函数参数进行模型训练。

7.根据权利要求6所述的一种实体关系联合抽取方法，其特征在于，所述损失函数为：Loss＝α*Entity_Loss+β*Relation_Loss；

其中Entity_Loss为实体识别损失函数，Relation_Loss为实体关系抽取损失函数，α、β为损失函数权重，α、β＞＝1。