CN116431757A

CN116431757A - 基于主动学习的文本关系抽取方法、电子设备及存储介质

Info

Publication number: CN116431757A
Application number: CN202310692938.3A
Authority: CN
Inventors: 袁得嵛; 叶乃夫; 李欣; 孙海春; 罗婷; 倪培峰; 张炜琛; 于伟
Original assignee: PEOPLE'S PUBLIC SECURITY UNIVERSITY OF CHINA
Current assignee: PEOPLE'S PUBLIC SECURITY UNIVERSITY OF CHINA
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2023-07-14
Anticipated expiration: 2043-06-13
Also published as: CN116431757B

Abstract

本发明提供了一种基于主动学习的文本关系抽取方法、电子设备和存储介质，方法包括：获取任一训练样本d中的初始实体集S0^d；获取S0^d _i的关系类别概率集P0^d _i；获取S0^d _i对应的分类价值V0^d _i=ln（P01^d _i/（P02^d _i+σ0^d _i）），如果V0^d _i＞0，则赋予S0^d _i第一标签，如果V0^d _i＜0，则赋予S0^d _i第二标签；对具有标签的训练样本d中的冗余实体进行过滤处理，得到过滤处理后的训练样本d；基于过滤处理后的H个训练样本，对初始文本关系抽取模型进行训练，得到目标文本关系抽取模型；利用所述目标文本关系抽取模型对需要抽取实体关系的文本中的实体关系进行抽取。本发明能够提高文本关系抽取的效果。

Description

基于主动学习的文本关系抽取方法、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种基于主动学习的文本关系抽取方法、电子设备及存储介质。

背景技术

文本关系抽取作为自然语言处理的一项重要任务，能够从文本数据中识别出结构化的要素数据，实现从文本数据中抽取人员相关命名实体，通过分布式处理技术实现将自然语言描述的文本数据快速进行结构化处理，形成可以被计算机读懂和理解的知识信息。在神经网络中关系抽取无需考虑特征工程方面的问题。现阶段在文本关系抽取任务中，使用的数据集的质量会影响到深度学习模型的效果。此外，神经网络的模型瓶颈是限制文本关系抽取准确性的重要因素。

当前，通常采用词性标注的方法对文本进行预处理，获得标签数据。使用词向量预处理模型，将标签数据转化为词向量并输入神经网络训练模型中。在关系抽取任务中主流的神经网络模型包括卷积神经网络（CNN）、循环神经网络（RNN）、长短记忆递归神经网络（LSTM），采用注意力机制（Attention Mechanism）对文本特征进行提取。特征提取后经Softmax函数进一步权重语义特征，最终输出实体关系对。

当前文本关系的抽取的难点包括：面对复杂的文本实体数据，如何对文本实体样本的价值进行衡量和科学化的表示，并能够实现高低价值样本的分类。以及如何提高领域文本关系抽取准确率和效率，降低噪声数据的影响。

发明内容

针对上述技术问题，本发明采用的技术方案为：

本发明实施例提供一种基于主动学习的文本关系抽取方法，所述方法包括如下步骤：

S100，获取任一训练样本d中的初始实体集S0^d={S0^d ₁，S0^d ₂，……，S0^d _i，……，S0^d _md}和关系类别集R^d={R^d ₁，R^d ₂，……，R^d _j，……，R^d _nd}，S0^d _i为S0^d中的第i个实体，i的取值为i到md，md为训练样本d中的实体数量，R^d _j为R^d中的第j个关系类别，j的取值为1到nd，nd为训练样本d中的关系类别的数量；d的取值为1到H，H为训练样本的数量；

S200，获取S0^d _i的关系类别概率集P0^d _i={P0^d _i1，P0^d _i2，……，P0^d _ij，……，P0^d _ind}，P0^d _ij为S0^d _i属于R^d _j的概率；

S300，获取S0^d _i对应的分类价值V0^d _i=ln（P01^d _i/（P02^d _i+σ0^d _i）），如果V0^d _i＞0，则赋予S0^d _i第一标签，如果V0^d _i＜0，则赋予S0^d _i第二标签；得到具有标签的训练样本d；P01^d _i为P0^d _i中的最大者，P02^d _i为P0^d _i中的次大者，σ0^d _i为基于P0^d _i得到的离散值，σ0^d _i=（（∑^nd _j=1（AvgP0^d _i-P0^d _ij）²）/nd）^1/2，AvgP0^d _i为P0^d _i的平均值；

S400，对具有标签的训练样本d中的冗余实体进行过滤处理，得到过滤处理后的训练样本d；

S500，基于过滤处理后的H个训练样本，对初始文本关系抽取模型进行训练，得到目标文本关系抽取模型；

S600，利用所述目标文本关系抽取模型对需要抽取实体关系的文本中的实体关系进行抽取。感觉这一段的行间距和其他的不同，需保持一致

本发明实施例还提供一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现前述方法。

本发明实施例还提供一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明至少具有以下有益效果：

本发明实施例提供的基于主动学习的文本关系抽取方法，针对原始样本数据量庞大、存在冗余实体以及部分实体特征不明显的问题，提出筛选特征突出的训练样本，减少噪音数据、缺失实体对实验训练的影响，采用利用主动学习的方法对原始训练数据进行预先筛选，从而构建特征突出的领域训练数据集。此外，为解决GRU神经网络模型中候选神经元因tanh（x）函数收敛导致的梯度消失问题，对GRU神经网络进行了优化，得到目标文本关系抽取模型。该模型在文本数据集进行实验，实验结果表明能够显著提升文本关系抽取的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于主动学习的文本关系抽取方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的技术思想在于，实现对复杂的文本实体样本的价值进行衡量和科学化的表示，并能够实现高低价值样本的分类，以及提高领域文本关系抽取准确率和效率，降低噪声数据的影响。

基于此，本发明实施例提供一种基于主动学习的文本关系抽取方法，如图1所示，所述方法可包括如下步骤：

S100，获取任一训练样本d中的初始实体集S0^d={S0^d ₁，S0^d ₂，……，S0^d _i，……，S0^d _md}和关系类别集R^d={R^d ₁，R^d ₂，……，R^d _j，……，R^d _nd}，S0^d _i为S0^d中的第i个实体，i的取值为i到md，md为训练样本d中的实体数量，R^d _j为R^d中的第j个关系类别，j的取值为1到nd，nd为训练样本d中的关系类别的数量；d的取值为1到H，H为训练样本的数量。

在本发明实施例中，训练样本可为现有的数据集提供平台获取的数据，在一个示意性实施例中，可为SemEval-2010 Task 8和NYT10中的数据。训练样本可为存在冗余实体以及部分实体特征不明显的文本。训练样本的数量可基于实际需要设置，在一个示意性实施例中，H＞10000。

在本发明实施例中，训练样本d中的实体可基于现有方法获取得到。训练样本d的关系类别是预定义的关系类别。

S200，获取S0^d _i的关系类别概率集P0^d _i={P0^d _i1，P0^d _i2，……，P0^d _ij，……，P0^d _ind}，P0^d _ij为S0^d _i属于R^d _j的概率。

在本发明实施例中，P0^d _i可基于预设卷积神经网络获取得到，所述预设卷积神经网络可由一维卷积层、最大池化层、全连接层、激活分类层构成。将文本样本通过预设卷积神经网络的编码层获得特征向量，并作为预设卷积神经网络的输入提取特征，得到样本分配到每个类别的概率。

S300，获取S0^d _i对应的分类价值V0^d _i=ln（P01^d _i/（P02^d _i+σ0^d _i）），如果V0^d _i＞0，则赋予S0^d _i第一标签，如果V0^d _i＜0，则赋予S0^d _i第二标签；得到具有标签的训练样本d；P01^d _i为P0^d _i中的最大者，P02^d _i为P0^d _i中的次大者，σ0^d _i为基于P0^d _i得到的离散值，σ0^d _i=（（∑^nd _j=1（AvgP0^d _i-P0^d _ij）²）/nd）^1/2，AvgP0^d _i为P0^d _i的平均值。

在本发明实施例中，第一标签和第二标签为不同的标签，可基于实际需要设置。

一般而言，在关系类别概率值中对一个实体样本关系分类产生显著影响的变量因子有两个：（1）最大关系类别概率值，它表示该实体样本最可能分到的关系属性的概率。（2）全体关系类别概率的离散值即标准差，它能够反映一个实体样本分类到各个关系属性概率的离散程度，当一个实体样本关系类别概率离散程度大，说明该实体更有机会被分类到唯一关系属性。

当V0^d _i＞0时，可知P01^d _i-P02^d _i＞σ0^d _i，说明S0^d _i属于P01^d _i对应的关系类别的可能性是远大于属于P02^d _i对应的关系类别的可能性，即最有可能属于P01^d _i对应的关系类别。这样的实体的特征突出，实体价值较高，对训练结果的影响也会大。

因此，通过对高质量实体的选择，能够构建特征突出的领域训练数据集，进而使得输入模型的数据的质量得到有效提升。

S400，对具有标签的训练样本d中的冗余实体进行过滤处理，得到过滤处理后的训练样本d。

在自然语言文本中，无论是篇章级长文本还是文本摘要短文本，文本实体样本中总是存在这一些重复实体，例如重复出现的人名、地名还有专属名词。本发明通过对实体特征向量相似度计算过滤掉冗余的实体样本，能够提高模型抽取效果。

进一步地，S400可具体包括：

S401，设置i=1；执行S402。

S402，如果S0^d _i在当前的训练样本d中，执行S403；如果S0^d _i不在当前的训练样本d中，执行S406。

S403，设置r=i+1；执行S404。

S404，获取S0^d _i和S0^d _r之间的相似度D^d _ir，如果D^d _ir≥D0，则将S0^d _r从当前训练样本d中删除，否则，执行S405；D0为预设相似度阈值。

在本发明实施例中，D0可为经验值。所述相似度可为余弦相似度。

S405，设置r=r+1，如果r≤md，执行S404，否则，执行S406。

S406，设置i=i+1，如果i≤md，执行S402，否则，执行S407。

S407，得到所述过滤处理后的训练样本d，并退出当前控制程序。

S500，基于过滤处理后的H个训练样本，对初始文本关系抽取模型进行训练，得到目标文本关系抽取模型。

在本发明实施例中，所述初始文本关系抽取模型可为改进的BERT-BiGRU⁺-CRF模型。BERT模型用于将实体词序列转换为词向量表示，BiGRU⁺模型用于学习上文语义特征，CRF模型用于获取实体的标记序列。

本发明实施例中使用的BERT-BiGRU⁺-CRF模型的架构与现有的BERT-BiGRU-CRF模型的架构基本相同，不同之处在于GRU神经网络使用的激活函数不同。本发明实施例中，针对GRU神经网络使用的双曲正切激活tanh(x)函数，会导致网络在训练过程中出现梯度消失的问题，本发明使用一种新的激活函数YeLU来替换GRU候选状态的双曲正切激活函数，YeLU在x轴正区间延用Relu函数解决由于双曲正切函数的软饱和性而导致的梯度消失问题，在x轴负区间采用-（-x）^1/2解决ReLU函数因在x轴负区间因不更新权重而导致的神经元死亡问题，即本发明实施例中，CRF模型的激活函数YeLU（x）满足如下条件：

如果x≥0，则YeLU（x）=x，如果x＜0，则YeLU（x）=-（-x）^1/2，x表示改进的BERT-BiGRU-CRF模型中的隐藏层状态。

此外，为了防止输入数据不落在激活函数的饱和区间范围内，本发明实施例通过LN（Layer Normalization）对原始的GRU神经网络的输入批量块将非线性变换前的激活值重新规范化，能够提高Yelu激活函数的适应性，并能够正则化、加快训练进程。

过滤处理后的H个训练样本中的实体经过标注之后输入到初始文本关系抽取模型中进行训练，不断优化模型的性能，最终得到目标文本关系抽取模型。在训练过程中，由于实体具有标签，这样，高质量的实体会得到重视，相应的权重的就会越大，低质量的实体的权重会相应较低，从而能够提升模型的准确性。

本领域技术人员知晓，任何使用训练样本对初始文本关系抽取模型进行训练的方式均属于本申请的保护范围。

S600，利用所述目标文本关系抽取模型对需要抽取实体关系的文本中的实体关系进行抽取，即得到对应的关系三元组。

在本发明实施例中，需要抽取实体关系的文本也可为SemEval-2010 Task 8和NYT10中的数据。

为了验证本发明的模型的性能，设置以下5种基准模型作为实验对比。本发明所选择的模型都是基于深度学习的命名实体识别模型，并且这些模型在一些研究领域已经验证了可行性，在此使用这些基准模型和本发明提出的BERT-BiGRU⁺-CRF模型进行对比实验，每个模型使用的数据和目标特征均相同，数据来源于SemEval-2010 Task 8和NYT10，通过模型评价指标比较训练和预测效果，以此验证本模型的有效性。在相同的实验场景下，本发明完成了对本文模型和对比实验模型的训练和预测效果对比，表1列出了模型的精确率、召回率和F1值，为了直观展示模型的速度差异，表中采用比值的形式展示。通过实现效果可以看出，无论在关系类别较少样本数据集中，还是在关系类别较多的NYT10数据集中，本发明提供的BERT-BiGRU⁺-CRF模型，在预测效果上均有显著提高。究其原因是本发明提供的模型对输入的数据集的质量进行了选择，并且改进了现有的BERT-BiGRU-CRF模型的激活函数。

表1

本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明公开的范围由所附权利要求来限定。

Claims

1.一种基于主动学习的文本关系抽取方法，其特征在于，所述方法包括如下步骤：

S600，利用所述目标文本关系抽取模型对需要抽取实体关系的文本中的实体关系进行抽取。

2.根据权利要求1所述的方法，其特征在于，所述初始文本关系抽取模型为改进的BERT-BiGRU⁺-CRF模型，其中，CRF模型的激活函数YeLU（x）满足如下条件：

如果x≥0，则YeLU（x）=x，如果x＜0，则YeLU（x）=-（-x）^1/2，x表示改进的BERT-BiGRU⁺-CRF模型中的隐藏层状态。

3.根据权利要求1所述的方法，其特征在于，P0^d _i基于预设卷积神经网络获取得到，所述预设卷积神经网络由一维卷积层、最大池化层、全连接层、激活分类层构成。

4.根据权利要求1所述的方法，其特征在于，S400具体包括：

S401，设置i=1；执行S402；

S402，如果S0^d _i在当前的训练样本d中，执行S403；如果S0^d _i不在当前的训练样本d中，执行S406；

S403，设置r=i+1；执行S404；

S404，获取S0^d _i和S0^d _r之间的相似度D^d _ir，如果D^d _ir≥D0，则将S0^d _r从当前训练样本d中删除，否则，执行S405；D0为预设相似度阈值；

S405，设置r=r+1，如果r≤md，执行S404，否则，执行S406；

S406，设置i=i+1，如果i≤md，执行S402，否则，执行S407；

5.根据权利要求1所述的方法，其特征在于，所述训练样本d为SemEval-2010 Task 8和NYT10中的数据。

6.根据权利要求4所述的方法，其特征在于，所述相似度为余弦相似度。

7.根据权利要求1所述的方法，其特征在于，H＞10000。

8.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，其特征在于，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-7中任意一项的所述方法。

9.一种电子设备，其特征在于，包括处理器和权利要求8中所述的非瞬时性计算机可读存储介质。