CN117235286B

CN117235286B - 强化注意力的实体关系抽取模型及其构建方法、存储介质

Info

Publication number: CN117235286B
Application number: CN202311496506.1A
Authority: CN
Inventors: 朱波; 邹艳华; 邱兰; 胡朋; 荆晓娜; 黎魁; 李润波; 仇思琪
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-01-23
Anticipated expiration: 2043-11-10
Also published as: CN117235286A

Abstract

本发明涉及自然语言处理领域，提供了一种强化注意力的实体关系抽取模型及其构建方法、存储介质，该方法包括：对样本语句进行实体标注，并根据样本语句中的实体位置获取样本语句的实体位置向量；将实体标注后的样本语句输入ERNIE3.0预训练模型进行预训练，获得与样本语句对应的第一动态词词向量；将样本语句的实体位置向量输入预设的特制注意力机制模型，获得第二动态词词向量；将第二动态词词向量输入双向BiGRU模型，获得突出样本语句上下文关联信息的第三动态词词向量；将第三动态词词向量输入TextCNN‑CBAM模型，最终获得样本语句中的实体关系分类结果。本发明在考虑到实体位置的强化的基础上，根据注意力机制对无关信息进行掩码减小了模型的计算量。

Description

强化注意力的实体关系抽取模型及其构建方法、存储介质

技术领域

本发明涉及自然语言处理领域，尤其涉及一种强化注意力的实体关系抽取模型及其构建方法、存储介质。

背景技术

关系抽取是自然语言处理中的一个核心任务，它的目标是从大量的文本数据中自动识别和提取实体之间的语义关系。这种技术在许多应用中都有广泛的用途，如知识图谱构建、问答系统、推荐系统等。

传统的关系抽取方法主要依赖于手工制定的规则和特征，这些方法虽然在特定的数据集上可以取得不错的效果，但它们通常需要大量的人工努力，并且不易泛化到新的数据或领域。此外，这些方法往往忽略了文本中的深层次语义信息，导致抽取的关系可能不够准确或完整。

近年来，随着深度学习技术的发展，尤其是预训练模型如BERT、ERNIE等的出现，关系抽取领域得到了快速的进展。这些模型可以自动学习文本的深层次特征，从而大大提高了关系抽取的准确性和鲁棒性。然而，尽管这些模型在许多任务上都取得了很好的效果，但在关系抽取任务上仍然存在一些挑战，如如何更好地利用实体的位置信息、如何处理数据不平衡问题等。

为了解决这些问题，本发明提出了一种新的关系抽取模型，该模型结合了多种先进的技术，旨在进一步提高关系抽取的效果。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的强化注意力的实体关系抽取模型及其构建方法、存储介质。

本发明的一个方面，提供了一种强化注意力的实体关系抽取模型的构建方法，所述方法包括：

从样本数据集中抽取样本语句，对样本语句进行实体标注，并根据样本语句中的实体位置获取样本语句的实体位置向量；

将实体标注后的样本语句输入ERNIE3.0预训练模型进行预训练，获得与样本语句对应的第一动态词词向量；

将样本语句的实体位置向量输入预设的特制注意力机制模型，以对第一动态词词向量进行掩码操作获得第二动态词词向量；

将第二动态词词向量输入双向BiGRU模型，以对第二动态词词向量进行全局特征探索，获得突出样本语句上下文关联信息的第三动态词词向量；

将第三动态词词向量输入TextCNN-CBAM模型，以对第三动态词词向量进行局部特征挖掘，最终获得样本语句中的实体关系分类结果。

进一步地，所述方法还包括：利用DLINEX损失函数计算获得目标样本语句集合的实体关系类别的总体损失，并根据总体损失对所述强化注意力的实体关系抽取模型的模型超参进行调节，直至所述总体损失达到最低或模型训练结束，其中，目标样本语句集合为具有预设数量的样本语句的数据集。

进一步地，所述利用DLINEX损失函数计算获得目标样本语句集合的实体关系类别的总体损失，并根据总体损失对所述强化注意力的实体关系抽取模型的模型超参进行调节包括：

计算目标样本语句集合中每种实体关系类别的样本数量：

（1）

式中，y_ij满足当第i个样本的样本类别为j时取值为1，否则取值为0，y_ij属于第i个样本的真实样本类别标签矩阵y_i，，j=1,2,3,......,C，C为实体关系类别的种类数量，N_j为第j种实体关系类别的样本数量，N为目标样本语句集合中的样本总数；

计算每种实体关系类别的样本权重：

（2）

式中，w_j为第j种实体关系类别的样本权重；

计算获得目标样本语句集中的所有实体关系类别的总体损失：

（3）

式中，L为总体损失，L(y_ij,p_ij)为第i个样本的DLINEX损失函数，P_ij为第i个样本输出的样本类别为j的概率；

将计算获得的总体损失反向传播至所述强化注意力的实体关系抽取模型，以使所述强化注意力的实体关系抽取模型根据所述总体损失对所述强化注意力的实体关系抽取模型的中的模型超参进行调节。

进一步地，所述将样本语句的实体位置向量输入预设的特制注意力机制模型，以对第一动态词词向量进行掩码操作获得第二动态词词向量包括：

将样本语句的实体位置向量输入预设的特制注意力机制模型，以使特制注意力机制模型基于实体位置向量对第一动态词词向量的实体关联信息输出注意力向量；

将注意力向量和第一动态词词向量进行加权操作，以将第一动态词词向量中对实体关联信息不重要数据进行掩码操作，获得第二动态词词向量。

进一步地，所述将第三动态词词向量输入TextCNN-CBAM模型，以对第三动态词词向量进行局部特征挖掘，最终获得样本语句中的实体关系分类结果包括：

对第三动态词词向量根据样本语句的头尾实体信息进行数据划分，以获得多个子动态词词向量；

对多个子动态词词向量按照句子长度方向展开获得多个子样本矩阵；

对多个子样本矩阵分别采用不同尺寸的卷积核执行卷积操作，以获得分别与各个子样本矩阵对应的特征矩阵；

根据CBAM注意力机制为各个样本矩阵对应的特征矩阵进行加权操作；

对加权操作后的特征矩阵进行最大池化操作，获得各个样本矩阵对应的特征向量；

将各个样本矩阵对应的特征向量进行拼接，并采用softmax分类器获得样本语句中的实体关系分类结果。

进一步地，所述根据CBAM注意力机制为各个样本矩阵对应的特征矩阵进行加权操作包括：

计算各个子样本矩阵对应的通道分配注意力权重：

（4）

根据各个子样本矩阵对应的通道分配注意力权重对各个子样本矩阵对应的特征矩阵进行加权操作：

（5）

式中，X为特征矩阵，表示sigmoid函数，/>表示全连接层，/>表示平均池化，/>表示最大池化；

计算各个子样本矩阵对应的空间分配注意力权重：

（6）

根据各个子样本矩阵对应的空间分配注意力权重对各个子样本矩阵对应的通道分配注意力权重加权操作后的特征矩阵进行加权操作：

（7）

式中，为通道分配注意力权重加权操作后的特征矩阵，/>为空间分配注意力权重加权操作后的特征矩阵，/>表示逐元素相乘操作。

进一步地，所述对样本语句进行实体标注包括：

采用不同的特殊符号分别对样本语句的头实体和尾实体进行标注，以强化样本语句的头实体和尾实体。

进一步地，在对样本语句进行实体标注之前，所述方法包括：

对样本数据集中进行预处理，以按照标点符号划分出样本语句；

对于各个样本语句进行洗牌操作，并按照预设比例将样本数据集中的样本语句划分为训练集和测试集。

本发明的另一方面还提供了强化注意力的实体关系抽取模型，所述模型包括:

实体标注模块，用于从样本数据集中抽取样本语句，对样本语句进行实体标注，并根据样本语句中的实体位置获取样本语句的实体位置向量；

预训练模块，用于将实体标注后的样本语句输入ERNIE3.0预训练模型进行预训练，获得与样本语句对应的第一动态词词向量；

注意力掩码模块，用于将样本语句的实体位置向量输入预设的特制注意力机制模型，以对第一动态词词向量进行掩码操作获得第二动态词词向量；

全局特征探索模块，用于将第二动态词词向量输入双向BiGRU模型，以对第二动态词词向量进行全局特征探索，获得突出样本语句上下文关联信息的第三动态词词向量；

局部特征挖掘模块，用于将第三动态词词向量输入TextCNN-CBAM模型，以对第三动态词词向量进行局部特征挖掘，最终获得样本语句中的实体关系分类结果。

本发明的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实体关系抽取方法的步骤。

本发明实施例提供的强化注意力的实体关系抽取模型及其构建方法、存储介质，通过对样本语句进行了实体标注，强化了头尾实体的位置，更加有助于实体关系的识别，通过实体位置向量输入特制注意力机制模型，使得注意力机制模型更加关注与实体位置相关的信息，避免了模型因过于复杂计算速度慢的问题；采用双向BiGRU模型对从样本语句的前后同时对样本语句进行全局探索，采用TextCNN-CBAM模型，以样本语句进行局部特征挖掘，最终获得样本语句中的实体关系，本发明实体关系抽取结果准确度和效率均有所提高。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提供的强化注意力的实体关系抽取模型构建方法的流程图；

图2为本发明实施例提供的强化注意力的实体关系抽取模型构建方法的整体流程图；

图3本发明实施例提供的实体关系抽TextCNN-CBAM结构图。

图4本发明实施例提供的实体关系抽模型的整体架构图；

图5为本发明实施例提出的强化注意力的实体关系抽取模型的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语），具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非被特定定义，否则不会用理想化或过于正式的含义来解释。

图1示意性示出了本发明一个实施例的强化注意力的实体关系抽取模型的构建的流程图。参照图1，本发明实施例的强化注意力的实体关系抽取模型的构建具体包括以下步骤：

S11、从样本数据集中抽取样本语句，对样本语句进行实体标注，并根据样本语句中的实体位置获取样本语句的实体位置向量；

在本发明实施例中，对样本语句进行实体标注以强化样本语句的头尾实体包括：采用不同的特殊符号分别对样本语句的头实体和尾实体进行标注，以强化样本语句的头实体和尾实体。具体地，可以为采用特殊标识符$对头实体进行标注，采用特殊标识符¥对尾实体进行标注，本发明将头尾实体与特殊标识符进行拼接，从而使它们成为一个整体，能够更加准确地反映它们之间的语义联系和关系并且不会改变上下文的语义特征，同时在学习阶段也更容易对其进行处理和建模，使得模型更好地捕捉头尾实体之间的语义信息和关系，并且同时得到头尾实体的位置信息。

S12、将实体标注后的样本语句输入ERNIE3.0预训练模型进行预训练，获得与样本语句对应的第一动态词词向量；

ERNIE预训练模型是百度发布的预训练模型，包括ERNIE1.0、2.0、3.0及3.5等不同版本，本发明使用ERNIE3.0预训练模型的最新版本对样本语句进行预训练，以将实体所在的文本向量化，其中将文本向量化，就是将这些文本用数据形式来表达。具体的是以向量的形式，所以又称为词向量，而预训练模型会根据每一次的句子顺序和任务给句子中的词分配不同的权重来形成不同的动态词向量。ERNIE3.0预训练模型，其与BERT预训练模型的区别在于，前者采用了多种联合训练任务，可以更好地理解文本的语义和结构信息，并且使用了多头注意力机制等技术手段来加强模型的建模能力。因此ERNIE3.0能够更好地处理自然语言文本数据，提高模型的性能和鲁棒性，能更适用于中文语言任务。

S13、将样本语句的实体位置向量输入预设的特制注意力机制模型，以对第一动态词词向量进行掩码操作获得第二动态词词向量；

需要说明的是，普通的注意力机制的核心思想是在处理序列数据时，模型可以学习到将更多的“注意力”集中在某些特定的输入部分，而不是平等地对待所有输入。而这些关注的特定的输入部分，是根据特征向量由计算机计算得到。但是在nlp（自然语言处理）中的关系抽取任务中，实体之间的关系往往跟中文语法有非常密切的关系，但是由于中文语法结构十分复杂，并且有些交叉性大的文本中头尾实体之间的跨幅很大，单纯的利用语法分析和简单的注意力机制都不能很好的挖掘头尾实体之间的关系，因此本文根据关系抽取的特殊性和数据特征提出了将位置信息输入到特制注意力机制当中的模型，具体为：根据句子中的头尾实体所在位置，创健好位置矩阵。并将其处理至与特征向量同样的维度，还保证不干扰句子的正常顺序。然后将位置矩阵作为超参，输入到注意力机制当中，使注意力机制有了特定的向导去掩码和关注重要的特定序列数据，最终着重根据目标需求去探索头尾之间的关系。

S14、将第二动态词词向量输入双向BiGRU模型，以对第二动态词词向量进行全局特征探索，获得突出样本语句上下文关联信息的第三动态词词向量；

在本发明实施例中，利用双向GRU来捕获句子的全局特征。GRU是一种循环神经网络，它可以捕获序列数据中的时间依赖关系。双向GRU从两个方向对句子进行建模，从而捕获句子的前后文信息。

S15、将第三动态词词向量输入TextCNN-CBAM模型，以对第三动态词词向量进行局部特征挖掘，最终获得样本语句中的实体关系分类结果。

在本发明实施例中，利用TextCNN_CBAM探索局部特征，为了增强TextCNN的性能，我们在其中加入CBAM注意力机制。将不同尺寸的卷积核对输入的文本进行卷积操作，并使用最大池化层对得到的特征图进行池化，从而得到各自的特征向量。然后，将这些特征向量连接起来，可以让模型更加全面地理解文本语义和关系，以此作为关系抽取模型的输出，用于预测实体之间的关系，从而提高关系抽取的准确率。

本发明以“心房扑动也可发生在姑息性及纠治性房内手术后。心房扑动如药物治疗无效，可予以射频消融或外科消融治疗。”作为本发明的一个具体实施例，对本发明提供的实体关系抽取方法进行说明，其中图2示意性的示出了本发明实施例的实体关系抽取方法的整体流程图，如图2可知，本发明实施例的实体关系抽取方法包括前期工作和关系抽取两部分内容。其中前期工作包括：

S01、从CCKS 2019、DuIE 1.0、SKE 2019、THU-IE-Open四个中文公开数据集中获取数据；

S02、对数据进行去除特殊符号等预处理操作；

S03、导出数据，并使用二八随机划分训练集和测试集，80%的数据为训练集，20%为测试集。

本发明在步骤S02中对样本数据集进行处理，除包括对数据进行去除特殊符号等预处理操作之外，还包括按照标点符号划分出样本语句，具体地，在原始数据在输入模型前，需要去除空格，并把每篇文本的内容按照“。”、“？”、“！”、“；”分成一句话、一行等预处理操作。步骤S03中，还包括对于各个样本语句进行洗牌操作，并按照预设比例将样本数据集中的样本语句划分为训练集和测试集，具体可以为使用二八随机划分训练集和测试集，80%的数据为训练集，20%为测试集。

S04、在头实体前后加上特殊标识符$，在尾实体前后加上特殊标识符¥，并得到位置信息；

步骤S04对应本发明实施例的步骤S11，具体为对“心房扑动也可发生在姑息性及纠治性房内手术后。心房扑动如药物治疗无效，可予以射频消融或外科消融治疗。”进行实体标注为：“$心房扑动$也可发生在姑息性及纠治性房内手术后。心房扑动如药物治疗无效，可予以射频消融或¥外科消融治疗¥。”

同时可以获得样本语句的实体位置信息：

（8）

（9）

其中与/>得到的数据是和原始数据长度一致，并且还对所有数据进行截断和填充为256字符的长度。

S05、ERNIE 3.0对已标注的实体进行识别，并构建实体图；

步骤S05对应本发明实施例的步骤S12，利用ERNIE 3.0来识别实体。ERNIE3.0是一个预训练的语言模型，在大规模文本数据上进行了预训练，并且具有很强的语言表示能力和泛化性能。这使得ERNIE3.0可以有效地理解自然语言文本的含义，并从中提取出关键信息，进而在关系抽取任务中发挥重要作用。在ERNIE 3.0的预训练过程中，使用了更加丰富的语料库和特征表示方法，可以更好地捕捉文本中的实体信息，从而提供更加准确和全面的实体提取结果，并构建实体图，为后续的关系预测提供基础。

S06、利用位置注意力机制对不重要的信息进行掩码，使模型更加关注对分类任务有用的信息；

步骤S06对应本发明实施例的步骤S13，具体包括将样本语句的实体位置向量输入预设的注意力机制模型，以使注意力机制模型基于实体位置向量对第一动态词词向量的实体关联信息输出注意力向量；将注意力向量和第一动态词词向量进行加权操作，以使第一动态词词向量中对实体关联信息不重要数据进行掩码操作，以获得第二动态词词向量。

本发明实施例将头尾实体位置向量改进注意力机制，让模型算法重点关注有用信息，可以有效地减轻模型对噪声和无关信息的干扰，其中注意力向量表示为P，第一动态词词向量表示为E，第二动态词词向量表示为：

（10）

式中表示哈达玛积。

本发明实施例，利用注意力机制和与头尾实体位置信息对无关信息进行掩码，有效减轻模型对噪声和无关信息的干扰。其中注意力机制是一种能够让模型根据输入信息自动地分配不同权重的方法。在关系抽取任务中，不同的文本长度、结构和噪声等因素都会对模型的性能造成一定影响。利用注意力机制进行掩码，可以减少这些因素对模型的影响，增强模型的鲁棒性。因此，我们使用注意力机制对实体上下文中不重要的信息进行掩码，从而使得模型更加专注于重要的信息。首先通过注意力机制建立输入序列中所有词汇之间的依赖关系，并且计算每个词汇对于关系分类的重要性得分，从而得到一个注意力向量。根据上一步中得到的注意力向量，可以给输入文本序列中的某个单词对应的向量（指无关文字信息的向量）赋予一个很小的权重值（比如0），来达到忽略该位置信息的效果。对不重要的信息进行掩码，通常采用0/1的二元标志来表示是否需要对该位置的信息进行掩码。利用本发明实施例的注意力机制可以有效减少实体关系抽取过程中的计算量，提高实体关系抽取的效率。

S07、利用BiGRU获取全局特征信息；

步骤S07对应本发明实施例的步骤S14，利用BiGRU对全局特征进行探索，它可以捕获序列数据中的时间依赖关系。BiGRU从两个方向对句子进行建模，从而捕获句子的前后文信息。特别是对步骤13后得到向量更加充分地学习到头尾实体之间的关系。

设双向BiGRU的输出为，可以表示为：

（11）

式中，G为第三动态词词向量。

S08、TextCNN-CBAM探索局部信息，并且同时关注空间与通道的影响；

S09、输出关系标签；

步骤S08和步骤S09对应本发明实施例的步骤S15，根据附图3所示的本发明实施例提供的实体关系抽TextCNN-CBAM结构图，对步骤15进行详细说明：

S151、对第三动态词词向量根据样本语句的头尾实体信息进行数据划分，以获得多个子动态词词向量；

对于本发明的具体实施例第三动态词词向量根据样本语句的头尾实体信息进行数据划分可以为序列1+实体1、序列2+实体2、实体2+序列3将样本语句划分为三部分，其中序列1为实体1前面的句子，序列2为实体1和实体2之间的句子，序列3为实体2之后的句子，实体1和实体2分别为头实体和尾实体。

本发明的一个具体实施例中，可以将“$心房扑动$也可发生在姑息性及纠治性房内手术后。心房扑动如药物治疗无效，可予以射频消融或¥外科消融治疗¥。”分为三部分“$心房扑动$”、“$心房扑动$也可发生在姑息性及纠治性房内手术后。心房扑动如药物治疗无效，可予以射频消融或¥外科消融治疗¥”和“¥外科消融治疗¥”。又例如，"食物中毒肺部症状$吸虫病$患者可有慢性咳嗽、¥胸痛¥、呼吸困难或咯血。"其中序列1为：食物中毒肺部症状；实体1为：$吸虫病$；序列2为：患者可有慢性咳嗽；实体2为：¥胸痛¥；序列3为：呼吸困难或咯血。划分出的三部分为：1：食物中毒肺部症状¥胸痛¥；2：$吸虫病$患者可有慢性咳嗽、¥胸痛¥；3：¥胸痛¥、呼吸困难或咯血。

S152、对多个样本矩阵按照长度方向展开获得多个子样本矩阵；

S153、对多个子样本矩阵分别采用不同尺寸的卷积核执行卷积操作，以获得分别与各个子样本矩阵对应的特征矩阵；

在本发明的具体实施例中，使用3*3、4*4、5*5等不同尺寸的卷积核来提取不同长度的特征。

S154、根据CBAM注意力机制为各个样本矩阵对应的特征矩阵进行加权操作；

本发明实施例中，所述根据CBAM注意力机制为各个样本矩阵对应的特征矩阵进行加权操作包括：

计算各个子样本矩阵对应的通道分配注意力权重：

（4）

（5）

计算各个子样本矩阵对应的空间分配注意力权重：

（6）

（7）

S155、对加权操作后的特征矩阵进行最大池化操作，获得各个样本矩阵对应的特征向量；

本发明使用源自于图像视觉的CBAM注意力机制，来关注关系抽取任务中的通道和空间对最终结果的影响，由此获取到以往忽视的局部特征信息，因此开可以利用CBAM注意力机制的空间特征对各特征向量进行加权操作。

S156、将各个样本矩阵对应的特征向量进行拼接，并采用softmax分类器获得样本语句的实体关系分类结果。

本发明实施例的实体关系抽取方法还提出了一种解决数据不平衡问题的处理方案，即利用DLINEX损失函数计算获得目标样本语句集合的实体关系类别的总体损失，并根据总体损失对所述强化注意力的实体关系抽取模型的分类权重进行赋值，其中，目标样本语句集合为具有预设数量的样本语句的数据集，以解决样本数据集中不平衡数据的问题。也即，步骤S10、DLINEX损失函数解决数据严重不平衡问题与反向传播。

在关系抽取任务中，不同的关系类别之间数量往往不是一致的，特别是一些专有领域中类别少的和类别多的往往能得到100倍以上的数量差距，因此造成了严重的数据不平衡的问题。为了解决这个问题，我们提出了DLINEX损失函数。该损失函数考虑了每个类别的样本数量，并为少数类和多数类分配不同的权重。数学上，DLINEX损失函数是基于LINEX损失函数的扩展，它可以使模型更加关注少数类和难以分类的样本。

具体地，本发明实施例利用DLINEX损失函数计算获得目标样本语句集合的实体关系类别的总体损失，并根据总体损失对所述强化注意力的实体关系抽取模型的模型超参进行调节，直至所述总体损失达到最低或模型训练结束，以解决数据严重不平衡问题，其中，目标样本语句集合为具有预设数量的样本语句的数据集。

其中，利用DLINEX损失函数计算获得目标样本语句集合的实体关系类别的总体损失，并根据总体损失对所述强化注意力的实体关系抽取模型的模型超参进行调节包具体包括如下步骤：

计算目标样本语句集合中每种实体关系类别的样本数量：

（1）

式中，y_ij满足当第i个样本的样本类别为j时取值为1，否则取值为0，y_ij属于第i个样本的真实样本类别标签矩阵y_i，，j=1,2,3,......,C，C为实体关系类别的种类数量，N _j为第j种实体关系类别的样本数量，N为目标样本语句集中的样本总数；

计算每种实体关系类别的样本权重：

（2）

式中，w _j为第j种实体关系类别的样本权重；

（3）

式中，L为总体损失，L(y_ij,p_ij)为第i个样本的DLINEX损失函数，P_ij为第i个样本输出的样本类别为j的概率，C为实体关系类别的种类数量；

其中，L(y _ij,p _ij)的具体计算过程为：

计算目标样本语句集合中的单个实体关系类别的LINEX损失：

（12）

式中，为LINEX损失函数，x _ij代表预测误差，它是模型预测值和真实值之间的差值，即为/>，/>是LINEX损失函数中的比例参数，它控制着损失函数曲线的形状和斜率，当 />时，模型对预测值大于真实值的情况给予更重的惩罚，而当时，模型对预测值小于真实值的情况给予更重的惩罚，/>的值是通过交叉验证技术来确定的，exp为e指数；

将LINEX损失转换为DLINEX损失：

(13)

其中，

(14)

(15)

(16)

式中，为第i个样本的输出的样本类别矩阵，即强化注意力的实体关系抽取模型预测的第i个样本输出的样本类别的概率的矩阵，/>为参数阈值，满足。/>

进一步地，将计算获得的总体损失反向传播至所述实体关系抽取模型，以使实体关系抽取模型根据所述总体损失对所述强化注意力的实体关系抽取模型的中的参数进行调节，以对所述实体关系抽取模型的分类权重进行赋值。

本发明利用DLINEX损失函数解决不平衡数据的问题，首先计算出类别之间的数量关系，然后通过自适应的方式分别给不同的类别不同的代价敏感，以此加强关注少数类别，使模型不因数据样本问题出现误差，得到泛化性和鲁棒性更佳的模型。

图4为本发明实施例提供的又一实体关系抽模型的整体架构图，下面结合图4由下至上对本发明实施例的强化注意力的实体关系抽取模型做进一步介绍：

首先在样本数据集中抽取样本语句：景东细莴苣为菊科细莴苣属的织物，是中国的特有植物。

对样本语句进行实体标注：景东细$莴苣$为菊科¥细莴苣属¥的织物，是中国的特有植物。

将标注后的样本语句输入ERNIE3.0预训练模型进行预训练；

将获得与样本语句的第一动态词词向量输入预设的特制注意力机制模型后，并进行Embedding操作，将样本语句向量化，获得第二动态词词向量；embedding是指将高维度的数据（例如文字、图片、音频）映射到低维度空间的过程。embedding向量通常是一个由实数构成的向量，它将输入的数据表示成一个连续的数值空间中的点。

将第三动态词词向量输入TextCNN-CBAM模型；

将TextCNN-CBAM的输出向量经过的dropout层和pass through linear layerand activate层进行加和操作获得最终的特征向量；

将最终的特征向量输入Softmax函数，获得最终的识别实体关系识别结果；

利用DLINEX损失函数计算获得目标样本语句集合的实体关系类别的总体损失，并根据总体损失对所述强化注意力的实体关系抽取模型的模型超参进行调节，直至所述总体损失达到最低或模型训练结束。

本发明在基于关系抽取任务的CCKS 2019、DuIE 1.0、SKE 2019、THU-IE-Open四个中文数据集，进行了一系列实验，验证了该模型的有效性。结果表明，该模型在小样本多关系类型情况下，关系抽取的F1性能指标优于其他基准模型。

图5示意性示出了本发明实施例的强化注意力的实体关系抽取模型的结构示意图。参照图5，本发明实施例的强化注意力的实体关系抽取模型具体包括实体标注模块501、预训练模块502、注意力掩码模块503、全局特征探索模块504和局部特征挖掘模块505，其中：

实体标注模块501，用于从样本数据集中抽取样本语句，对样本语句进行实体标注，并根据样本语句中的实体位置获取样本语句的实体位置向量；

预训练模块502，用于将实体标注后的样本语句输入ERNIE3.0预训练模型进行预训练，获得与样本语句对应的第一动态词词向量；

注意力掩码模块503，用于将样本语句的实体位置向量输入预设的特制注意力机制模型，以对第一动态词词向量进行掩码操作获得第二动态词词向量；

全局特征探索模块504，用于将第二动态词词向量输入双向BiGRU模型，以对第二动态词词向量进行全局特征探索，获得突出样本语句上下文关联信息的第三动态词词向量；

局部特征挖掘模块504，用于将第三动态词词向量输入TextCNN-CBAM模型，以对第三动态词词向量进行局部特征挖掘，最终获得样本语句中的实体关系分类结果。

进一步地，本发明实施例的强化注意力的实体关系抽取模型还包括附图中为示出的平衡调节模块，用于利用DLINEX损失函数计算获得目标样本语句集合的实体关系类别的总体损失，并根据总体损失对所述强化注意力的实体关系抽取模型的模型超参进行调节，直至所述总体损失达到最低或模型训练结束其中，目标样本语句集合为具有预设数量的样本语句的数据集。

平衡调节模块具体包括：

第一计算子模块，计算目标样本语句集合中每种实体关系类别的样本数量：

（1）

式中，y_ij满足当第i个样本的样本类别为j时取值为1，否则取值为0，y_ij属于第i个样本的真实样本类别标签矩阵y_i，，j=1,2,3,......,C，C为实体关系类别的种类数量，N_j为第j种实体关系类别的样本数量，N为目标样本语句集中的样本总数；

第二计算子模块，用于计算每种实体关系类别的样本权重：

（2）

式中，w _j为第j种实体关系类别的样本权重；

第三计算子模块，用于计算获得目标样本语句集中的所有实体关系类别的总体损失：

（3）

式中，L为总体损失，L(y _ij,p _ij)为第i个样本的DLINEX损失函数，P_ij为第i个样本的分类结果矩阵；

调参子模块，用于将计算获得的总体损失反向传播至所述实体关系抽取模型，以使实体关系抽取模型根据所述总体损失对所述强化注意力的实体关系抽取模型的中的模型超参进行调节。

进一步地，注意力掩码模块503具体包括：

注意力向量获取子模块，用于将将样本语句的实体位置向量输入预设的注意力机制模型，以使注意力机制模型基于实体位置向量对第一动态词词向量的实体关联信息输出注意力向量；

加权计算子模块，用于将注意力向量和第一动态词词向量进行加权操作，以使第一动态词词向量中对实体关联信息不重要数据进行掩码操作，以获得第二动态词词向量。

进一步地，局部特征挖掘模块505具体包括：

样本划分子模块，用于对第三动态词词向量根据样本语句的头尾实体信息进行数据划分，以获得多个子动态词词向量；

样本矩阵提取子模块，用于对多个子动态词词向量按照句子长度方向展开获得多个子样本矩阵；

卷积操作模块，用于对多个子样本矩阵分别采用不同尺寸的卷积核执行卷积操作，以获得分别与各个子样本矩阵对应的特征矩阵；

CBAM权重分别子模块，用于根据CBAM注意力机制为各个样本矩阵对应的特征矩阵进行加权操作；

池化子模块，用于对加权操作后的特征矩阵进行最大池化操作，获得各个样本矩阵对应的特征向量；

关系输出子模块，用于将各个样本矩阵对应的特征向量进行拼接，并采用softmax分类器获得样本语句的实体关系分类结果。

进一步地，CBAM权重分别子模块具体用于：

计算各个子样本矩阵对应的通道分配注意力权重：

（4）

（5）

计算各个子样本矩阵对应的空间分配注意力权重：

（6）

（7）

以上所描述的模型实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

此外，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述方法的步骤。

本实施例中，所述强化注意力的实体关系抽取模型的构建方法可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种强化注意力的实体关系抽取装置的构建方法，其特征在于，所述方法包括:

将样本语句的实体位置向量输入预设的特制注意力机制模型，以对第一动态词词向量进行掩码操作获得第二动态词词向量，具体的，根据句子中的头尾实体所在位置，创健好位置矩阵；并将其处理至与特征向量同样的维度，还保证不干扰句子的正常顺序；然后将位置矩阵作为超参，输入到注意力机制当中，使注意力机制有了特定的向导去掩码和关注重要的特定序列数据，最终着重根据目标需求去探索头尾之间的关系；

将第三动态词词向量输入TextCNN-CBAM模型，以对第三动态词词向量进行局部特征挖掘，最终获得样本语句中的实体关系分类结果，具体包括：对第三动态词词向量根据样本语句的头尾实体信息进行数据划分，以获得多个子动态词词向量；对多个子动态词词向量按照句子长度方向展开获得多个子样本矩阵；对多个子样本矩阵分别采用不同尺寸的卷积核执行卷积操作，以获得分别与各个子样本矩阵对应的特征矩阵；根据 CBAM 注意力机制为各个样本矩阵对应的特征矩阵进行加权操作；对加权操作后的特征矩阵进行最大池化操作，获得各个样本矩阵对应的特征向量；将各个样本矩阵对应的特征向量进行拼接，并采用 softmax 分类器获得样本语句中的实体关系分类结果”；

所述方法还包括：利用DLINEX损失函数计算获得目标样本语句集合的实体关系类别的总体损失，并根据总体损失对强化注意力的实体关系抽取装置的模型超参进行调节，直至所述总体损失达到最低或模型训练结束，其中，目标样本语句集合为具有预设数量的样本语句的数据集。

2.根据权利要求1所述的方法，其特征在于，所述利用DLINEX损失函数计算获得目标样本语句集合的实体关系类别的总体损失，并根据总体损失对所述强化注意力的实体关系抽取装置的模型超参进行调节包括：

计算目标样本语句集合中每种实体关系类别的样本数量：

（1）

计算每种实体关系类别的样本权重：

（2）

式中，w _j为第j种实体关系类别的样本权重；

（3）

式中，L为总体损失，L(y _ij,p _ij)为第i个样本的DLINEX损失函数，P_ij为第i个样本输出的样本类别为j的概率；

将计算获得的总体损失反向传播至所述强化注意力的实体关系抽取装置，以使所述强化注意力的实体关系抽取装置根据所述总体损失对所述强化注意力的实体关系抽取装置中的模型超参进行调节。

3.根据权利要求1所述的方法，其特征在于，所述将样本语句的实体位置向量输入预设的特制注意力机制模型，以对第一动态词词向量进行掩码操作获得第二动态词词向量包括：

4.根据权利要求3所述的方法，其特征在于，所述根据CBAM注意力机制为各个子样本矩阵对应的特征矩阵进行加权操作包括：

计算各个子样本矩阵对应的通道分配注意力权重：

（4）

（5）

计算各个子样本矩阵对应的空间分配注意力权重：

（6）

（7）

5.根据权利要求1所述的方法，其特征在于，所述对样本语句进行实体标注包括：

6.根据权利要求1所述的方法，其特征在于，在对样本语句进行实体标注之前，所述方法包括：

7.一种强化注意力的实体关系抽取装置，其特征在于，所述装置包括:

注意力掩码模块，用于将样本语句的实体位置向量输入预设的特制注意力机制模型，以对第一动态词词向量进行掩码操作获得第二动态词词向量，具体的，根据句子中的头尾实体所在位置，创健好位置矩阵；并将其处理至与特征向量同样的维度，还保证不干扰句子的正常顺序；然后将位置矩阵作为超参，输入到注意力机制当中，使注意力机制有了特定的向导去掩码和关注重要的特定序列数据，最终着重根据目标需求去探索头尾之间的关系；

局部特征挖掘模块，用于将第三动态词词向量输入TextCNN-CBAM模型，以对第三动态词词向量进行局部特征挖掘，最终获得样本语句中的实体关系分类结果，具体包括：对第三动态词词向量根据样本语句的头尾实体信息进行数据划分，以获得多个子动态词词向量；对多个子动态词词向量按照句子长度方向展开获得多个子样本矩阵；对多个子样本矩阵分别采用不同尺寸的卷积核执行卷积操作，以获得分别与各个子样本矩阵对应的特征矩阵；根据 CBAM 注意力机制为各个样本矩阵对应的特征矩阵进行加权操作；对加权操作后的特征矩阵进行最大池化操作，获得各个样本矩阵对应的特征向量；将各个样本矩阵对应的特征向量进行拼接，并采用 softmax 分类器获得样本语句中的实体关系分类结果”。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-6任一项所述方法的步骤。