CN114881038B

CN114881038B - 基于跨度和注意力机制的中文实体与关系抽取方法及装置

Info

Publication number: CN114881038B
Application number: CN202210816017.9A
Authority: CN
Inventors: 王海涛; 刘昭然
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-11-11
Anticipated expiration: 2042-07-12
Also published as: CN114881038A

Abstract

本发明公开了基于跨度和注意力机制的中文实体与关系抽取方法及装置。本发明对中文语句分词后构造跨度集，将跨度集映射为向量空间的词向量集，使用基于跨度的预训练语言模型生成特征表示，使用注意力机制得到融合特征，构造特征向量使用分类器输出跨度的实体类型；在跨度的两侧加入边界信息和跨度类型信息作为先验信息，使用注意力机制得到跨度对的关系表示，通过分类器来输出将跨度对的关系类型。本发明实现了中文语句的实体与关系联合抽取，实体抽取和关系抽取分开建模独立训练，模型灵活度高，逻辑结构清晰，层次分明，节约了人力成本，提升了工作效率，准确率高，实用性强。

Description

基于跨度和注意力机制的中文实体与关系抽取方法及装置

技术领域

本发明属于自然语言处理的信息抽取领域，特别涉及一种基于跨度和注意力机制的中文实体与关系抽取方法。

背景技术

中文实体抽取和关系抽取是中文自然语言处理的关键任务，也是中文知识图谱构建、智能问答的核心关键技术。

近年来，人工智能技术快速发展，特别是深度学习技术取得了巨大突破，从 CNN(卷积神经网络)、RNN(循环神经网络)到LSTM（Long Short-Term Memory，长短期记忆人工神经网络），再到预训练语言模型BERT（Bidirectional Encoder Representation fromTransformers,基于转换器的双向编码表征），引领了自然语言处理、图像处理、计算机视觉等人工智能技术应用的发展浪潮。同时在大数据技术的推动下，移动互联网蓬勃发展，产生了丰富多样的数据要素资产，海量的数据资源进一步地推动了自然语言处理领域的发展，也为自然语言处理领域技术带来了新的问题与挑战。中文是世界上最复杂多样与多意的语言之一，有着复杂的语法规则，海量数据可以有效辅助计算机去识别中文的语法规则。计算机要读懂中文，需要先把语言处理转化成可以识别的表示，实体抽取和关系抽取是其中最基本也是最重要的任务之一。

实体抽取，也叫命名实体识别（Named Entities Recognition，NER），它的核心工作是识别标识出文本中的实体并进行分类，常见的实体包括人名、地名、机构名等等，传统的实体抽取主要基于字典或者统计学来进行实体匹配抽取，随着机器学习和深度学习技术的发展，通过模型预测进行实体标识与抽取分类成为主流，例如CNN-CRF模型、BiLSTM-CRF模型等等。

关系抽取是自然语言处理中另一个重要工作，它需要识别标记出文本中存在的多个实体之间的关系，也就是识别出文本中的关系三元组，即主体（subject）、关系（relation）、客体（relation），关系抽取是知识图谱构建、问答系统的基础。

在知识图谱构建等自然语言处理任务中，实体和实体之间的关系是及其重要和不可或缺的，实体抽取和关系抽取是知识图谱构建等任务的关键与核心。实体抽取和关系抽取从非结构化文档中自动抽取的实体以及实体之间的关系，被广泛应用于金融、医药、法律等领域的中文文本处理任务中。自动化的实体与关系抽取技术避免人工从海量数据中手工提取文本信息，节省了人力成本，显著提高了工作效率和生产力。

目前已知的中文实体抽取和关系抽取技术，存在下列不足：

1）有些实体抽取和关系抽取将实体抽取和关系抽取作为两个任务独立完成，但忽略了实体抽取和关系抽取之间的联系；近年来表现出色的基于变压器（Transformer）模型的实体和关系联合抽取方法部分改进了上述问题，但是实体和关系使用同一个变压器模型，关系抽取过分利用实体抽取的信息，造成了信息冗余和干扰，准确度和灵活性有待提升。

2）现有实体抽取和关系抽取方法对语句中不同词语之间的位置关系信息利用不足，关系抽取准确率有待提升。通常情况下，词语出现的位置以及词语之间的关系对于文本的理解有很大的帮助，实体出现在不同的位置或者不同的先后顺序会对实体的含义以及实体之间的关系识别带来影响。

发明内容

针对现有技术的不足，本发明提出一种基于跨度和注意力机制的中文实体与关系抽取方法及装置。本发明方法基于跨度，利用实体抽取的位置和类型信息作为先验信息，提升了实体对关系抽取的准确率。

本发明的技术构思为：对中文语句分词后构造跨度集，将跨度集映射为向量空间的词向量集，使用基于跨度的预训练语言模型生成特征表示，使用注意力机制得到融合特征，构造特征向量使用分类器输出跨度的实体类型；在跨度的两侧加入边界信息和跨度类型信息作为先验信息，使用注意力机制得到跨度对的关系表示，通过分类器来输出将跨度对的关系类型。

本发明解决其技术问题所采用的技术方案是：

一种基于跨度和注意力机制的中文实体与关系抽取方法，包含以下步骤：

将输入的中文语句分词并转换成跨度集合，所述跨度集合中的每个跨度是由相邻k个分词构成的新短语；

将跨度集合中的每个跨度映射为向量空间的词向量集合，再使用预训练语言模型将词向量集合转换生成第一特征表示集合；

通过多层感知器注意力机制将第一特征表示集合生成第二特征表示，所述第二特征表示是句子级注意力融合特征；

将对应的第一特征表示、第二特征表示及占位符拼接作为每个跨度的特征向量，将特征向量输入预训练的第一分类器输出跨度属于每个实体类型的概率，取最大概率所在类型为跨度类型；

将识别出来的同一句子中任意两个具有实体类型的跨度的前后加上跨度的实体类型形成带边界信息和类型信息的跨度；

将两个带边界信息和类型信息的跨度映射为向量空间的词向量，再使用预训练语言模型将词向量集转换生成第三特征表示；

通过多层感知器注意力机制将第三特征表示生成第四特征表示，所述第四特征表示是句子级注意力融合特征；

将两个跨度的第三特征表示、第四特征表示拼接作为关系分类特征c，将关系分类特征c输入预训练的第二分类器输出两个跨度的关系。

进一步地，所述预训练语言模型为SpanBERT、BERT中的一种。

进一步地，所述第二特征表示如下：

其中MLP代表全连接神经网络，u _j为经过全连接神经网络后的特征表示，𝛼_j代表由Softmax公式计算得到的注意力权重，v _s为第二特征表示，h _j是第j个跨度对应的第一特征表示。

进一步地，所述将对应的第一特征表示、第二特征表示及占位符拼接作为每个跨度的特征向量r _i，具体表示如下：

h _i是第i个跨度对应的第一特征表示, h ₀是[CLS]经过前述预训练语言模型转换后的特征表示，v _s为第二特征表示。

进一步地，所述将两个跨度的第三特征表示、第四特征表示拼接作为关系分类特征c具体为：

v’ _s为第四特征表示，h’_sbj和h’_obj是两个跨度的第三特征表示。

一种基于跨度和注意力机制的中文实体与关系抽取装置，包括：

中文实体类型识别模块：用于将输入的中文语句分词并转换成跨度集合，所述跨度集合中的每个跨度是由相邻k个分词构成的新短语；

将跨度集合中的每个跨度映射为向量空间的词向量集，再使用预训练语言模型将词向量集转换生成第一特征表示集合；

通过多层感知器注意力机制将第一特征表示集合生成第二特征表示集合，所述第二特征表示是句子级注意力融合特征；

中文实体关系识别模块：用于将识别出来的同一句子中任意两个具有实体类型的跨度的前后加上跨度的实体类型形成带边界信息和类型信息的跨度；

进一步地，所述预训练语言模型为SpanBERT、BERT中的一种。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的基于跨度和注意力机制的中文实体与关系抽取方法。

一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时实现如上述的基于跨度和注意力机制的中文实体与关系抽取方法。

本发明的有益效果主要表现在：1、实现了基于跨度的自动化中文实体与关系抽取，避免人工从海量数据中手工提取文本信息，实用性强，应用价值高； 2、充分利用了关系和位置等上下文信息，提高了抽取的准确性，满足应用场景中对于实体和关系抽取准确率高的需求；3、实体抽取和关系抽取独立训练，模型灵活性高。

附图说明

图1是本发明基于跨度和注意力机制的中文实体与关系抽取方法流程示意图。

图2是本发明基于跨度和注意力机制的中文实体与关系抽取装置结构示意图。

图3是本发明基于跨度和注意力机制的中文实体与关系抽取电子设备结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。

在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本发明提出一种基于跨度和注意力机制的中文实体与关系抽取方法，图1为本发明所提出的一示例性中文实体与关系实体抽取流程图，具体包括以下实施步骤：

（1）将输入的中文语句分词并转换成跨度集合，所述跨度集合中的每个跨度是由相邻k个分词构成的新短语，具体如下：

从中文语句库中取出一个语句，将其进行分词，得到以词为单位进行表示的中文语句：

其中，t _q代表第q个分好的词；

定义跨度(span)是由相邻k个分词构成的新短语s：

，其中k<=8，

其中，t _m表示T中的第m个词；

构造由跨度s构成的跨度集合S：

其中，n表示跨度s的数量。

在S前插入一个[CLS]占位符，作为

，插入后跨度集合变为S’：

（2）将跨度集合中的每个跨度映射为向量空间的词向量集合，再使用预训练语言模型将词向量集合转换生成第一特征表示集合，具体如下：

使用Embedding映射方法将跨度集合S’映射为高维词向量集合E：

所述高维词向量集合

，其中e代表中文语句中跨度s对应的词向量；

将词向量集合E送入预训练的语言模型，经过后的特征表示集合为：

h _i是第i个跨度对应的高维词向量。

所述预训练的语言模型可以采用SpanBERT、BERT等常规的语言类型识别模型，本实施例中，预训练的语言模型是基于跨度进行训练的语言模型SpanBERT。

从特征表示集合H中去除h ₀，得到用于实体分类的第一特征表示集合为：

即第一特征表示集合H’为特征表示集合H去除h ₀后的特征表示集合。

（3）通过多层感知器注意力机制将第一特征表示集合生成第二特征表示v _s，所述第二特征表示是句子级注意力融合特征，具体如下：

通过多层感知器注意力机制，使用如下计算过程获得句子级注意力融合特征：

其中MLP代表全连接神经网络，u _j为经过全连接神经网络后的特征表示，𝛼_j代表由Softmax公式计算得到的注意力权重，v _s为通过多层感知器注意力机制得到的特征向量。

（4）将对应的第一特征表示、第二特征表示及占位符拼接作为每个跨度的特征向量，将特征向量输入预训练的第一分类器输出跨度属于每个实体类型的概率，取最大概率所在类型为跨度类型，具体如下：

对于每个跨度s _i，将[CLS]经过前述预训练语言模型转换后的特征表示h ₀、通过多层感知器得到的特征向量v _s，以及s _i通过前述预训练语言模型转换的第一特征表示h _i拼接成特征向量r _i:

对每一个特征向量r _i，将其送入预训练的第一分类器中得到每个跨度s _i的实体分类结果：

其中W _r代表可训练的第一分类器权重，P(s _i)表示对跨度s _i的分类结果。

所述第一分类器采用Softmax，是通过将特征向量r _i作为输入，预测的跨度s _i的分类结果作为输出，跨度s _i的实际分类结果为标签，以最小化输出与标签的误差为目标训练获得。

进一步地，结合前述的跨度分类结果作为先验信息进行关系抽取：

（5）将识别出来的同一句子中任意两个具有实体类型的跨度的前后加上跨度对应的实体类型形成带边界信息和类型信息的跨度s _sbj和s _obj，具体增加的流程如下：

对于第一个跨度实体，其实体类型为R_type1，在该跨度的起始增加<S:R_type1>前缀，结尾增加</S:R_type1>后缀，形成新的跨度s _sbj；对于第二个跨度实体，其实体类型为R_type2，则在该跨度的起始增加<O:R_type2>前缀，结尾增加</O:R_type2>后缀，形成新的跨度s _obj。

（6）将两个带边界信息和类型信息的跨度s _sbj和s _obj映射为向量空间的词向量，再使用预训练语言模型将词向量集转换生成第三特征表示h’_sbj和h’_obj；

（7）通过多层感知器注意力机制将第三特征表示生成第四特征表示，所述第四特征表示是句子级注意力融合特征；

（8）则跨度s _sbj和s _obj的关系分类特征c是由这两个候选跨度实体的第三特征表示以及通过多层感知器注意力机制得到的特征向量拼接而成，即：

其中c为关系分类特征，v’ _s为通过多层感知器注意力机制得到的特征向量，即第四特征表示，具体如下：

其中MLP代表全连接神经网络，u’ _j为经过全连接神经网络后的特征表示，𝛼’_j代表由Softmax公式计算得到的注意力权重，v’ _s为通过多层感知器注意力机制得到的特征向量，即第四特征表示。

最后使用第二分类器作为关系分类器，得出关于实体对跨度s _sbj和s _obj的关系分类结果：

其中W _c代表可训练的第二分类器权重，P(s _sbj, s _obj)代表实体跨度对s _sbj和s _obj关系分类结果。

所述第二分类器采用Softmax，是通过将关系分类特征c作为输入，预测的关系分类结果作为输出，跨度s _sbj和s _obj的实际关系分类结果为标签，以最小化输出与标签的误差为目标训练获得。

进一步地，第一分类器、第二分类器可以分别训练或者联合训练，为提高分类的准确度，本实施例中第一分类器、第二分类器具体采用如下方法进行训练：

训练时增加关系负样本的采样比例，即选择被实体分类器即第一分类器判断为具体的实体类型，但相互之间又不存在关系的实体作为负样本。假设跨度s _c和s _d都被判断为是实体，但是它们在数据集中并未被标注为关系，则将(s _c, s _d)构建为关系负样本来训练关系分类器即第二分类器。

使用双向Kullback-Leibler (KL) 散度正则化随机丢弃来优化模型。在分类器神经网络中使用随机丢弃策略，随机舍弃一部分神经元的结果来防止模型过拟合，同时使用双向Kullback-Leibler (KL) 散度损失来优化模型。具体来说，将同一个句子经过模型两次，然后通过如下公式计算两次结果之间的双向KL散度：

其中D_KL代表计算KL散度，P¹代表第一次输出结果，P²代表第二次输出结果，

表示第一分类器的双向KL散度损失，

代表第二分类器的双向KL散度损失。

计算模型的交叉熵损失，计算公式如下：

其中

代表实体分类器的交叉熵损失，

代表关系分类器的交叉熵损失。最后，模型通过计算上述四种损失之和来得到模型对于一个输入句子的最终损失：

其中β是一个可变的超参数，可用来权衡交叉熵损失和双向KL散度损失的比例。

为模型的总损失，模型在训练过程中的目标就是最小化总损失。

与前述基于跨度和注意力机制的中文实体与关系抽取方法的实施例相对应，本发明还提供了基于跨度和注意力机制的中文实体与关系抽取装置的实施例。图2所示为本发明一示例性基于跨度和注意力机制的中文实体与关系抽取装置示意图，包括：

中文实体类型识别模块：用于从中文文本库中取出中文语句，对语句进行分词预处理，将分词后的语句转换成跨度集合，将跨度集合的中文映射为向量空间的词向量集合，在词向量集合前插入一个[CLS]占位符，使用预训练语言模型生成第一特征表示集合，通过多层感知器注意力机制生成句子级注意力融合特征，使用第一分类器来输出跨度属于每个实体类型的概率，取最大概率所在类型为对应的跨度类型。

中文实体关系识别模块：用于将识别出来同一句子前后两个具有实体类型的跨度形成跨度对，在每个跨度的前后加上跨度对应的实体类型，形成带边界信息和类型信息的跨度对，拼接跨度对的第三特征表示和通过多层感知器注意力机制得到的特征向量形成关系分类特征，使用第二分类器来输出将每个跨度对属于每个关系类型的概率，取最大概率所在关系类型为该跨度对的关系类型，得到跨度对的中文关系抽取结果。

参见图3，本发明实施例还提供的一种电子设备，包括一个或多个处理器，用于实现上述实施例中的基于跨度和注意力机制的中文实体与关系抽取方法。

本发明电子设备的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。

装置实施例可以通过软件实现，也以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的从硬件层面而言，如图3 所示，为本发明基于跨度和注意力机制的中文实体与关系抽取装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于跨度和注意力机制的中文实体与关系抽取方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡( Smart Media Card,SMC ) 、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明做出的任何修改和改变，都落入本发明的保护范围。