CN113627172A

CN113627172A - 基于多粒度特征融合和不确定去噪的实体识别方法及系统

Info

Publication number: CN113627172A
Application number: CN202110845130.5A
Authority: CN
Inventors: 胡峰; 杨新瑞; 张清华; 高满; 黄子恒
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Shenzhen Yuxin Technology Co ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-11-09
Anticipated expiration: 2041-07-26

Abstract

本发明涉及信息提取领域，尤其涉及一种基于多粒度特征融合和不确定去噪的实体识别方法及系统，包括使用Transformer对语料文本进行字粒度的多级局部特征提取，得到局部字粒度特征；使用jieba工具进行分词，并使用Glove预训练的词向量将得到的分词进行向量嵌入，得到全局词粒度特征；对分词后得到的词集进行编码，得到文本的词结构编码向量；将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合；将融合后得到的文本特征送入BiGRU+CRF的序列标注模型中，最终得到识别的实体结果；本发明可对病理领域中文文本进行精准、全面的实体抽取，抽取效果较好。

Description

基于多粒度特征融合和不确定去噪的实体识别方法及系统

技术领域

本发明涉及信息提取、自然语言处理领域，尤其涉及一种基于多粒度特征融合和不确定去噪的实体识别方法及系统。

背景技术

实体识别旨在识别文本中具有特定含义的实体。MUC7(第七届信息理解会议)明确将命名实体分为7类名词实体：人名、地名、机构名称、日期、时间、金额和百分比值。目前，识别命名实体的任务越来越受到研究人员的研究，并已成为自然语言处理技术中越来越重要的一部分，例如信息提取、句法分析、自动抽取、机器翻译、问答系统、知识图谱等。

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向；自然语言处理即实现人机间自然语言通信，这一领域的研究将涉及自然语言，即人们日常使用的语言。

发明内容

为了对中文病理文本进行精准、全面的实体抽取，本发明提出一种基于多粒度特征融合和不确定去噪的实体识别方法及系统，所述方法具体包括以下步骤：

S1、使用Transformer对语料文本进行字粒度的多级局部特征提取，得到文本的向量表示，即局部字粒度特征；

S2、使用jieba工具进行分词，并使用Glove预训练的词向量将得到的分词进行向量嵌入，得到文本的向量表示，即全局词粒度特征；

S3、针对实体结构的特点，对分词后得到的词集进行编码，得到文本的词结构编码向量；

S4、将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合；

S5、将融合后得到的文本特征送入BiGRU+CRF的序列标注模型中，最终得到识别的实体结果。

进一步的，对分词后得到的词集进行编码，得到文本的词结构编码向量包括根据字在用jieba工具进行分词后的词中的位置对字符进行编码，若该字位于词的左边界则编码为1，若位于词的中间位置则编码为2，若位于词的右边界则编码为3，若该词仅包含单个字则编码为0。

进一步的，将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合的过程中，先将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征使用向量的加法进行融合，再将融合后的特征与词结构编码进行拼接操作。

进一步的，将融合后得到的文本特征送入BiGRU+CRF的序列标注模型中进行序列标注包括以下步骤：

将BiGRU输出得到的概率矩阵送入自注意力机制层来获取每个字符的概率矩阵P；

自注意力机制层根据每个字符的概率矩阵P计算该字符的不确定性，并获取需要删除的具有高不确定性的数据索引；

根据数据索引删除不确定性大于设定阈值的数据，将其余未删除数据作为自注意力机制层的输出；

将自注意力机制层的输出送入CRF层，进行序列标注，预测得到实体的识别结果。

进一步的，根据每个字符的概率矩阵P计算该字符的不确定性包括：

其中，V_uc表示字符的不确定性；n为句子中的字符数；p_j为长度为n的文本中第j个字对应每个标签的概率。

进一步的，根据数据索引删除不确定性大于设定阈值的数据包括以下步骤：

del_num＝sort(V_uc)_≥k[：del_index]；

其中，V_uc表示字符的不确定性，k为设定的不确定性阈值；x表示当前epoch值，N为输入数据总数，e_s表示epoch开始计算不确定值的初始值，λ₁为不确定因子；s_i为控制高不确定性数据的删除程度。

进一步的，索引值为i样本的控制高不确定性数据的删除程度s_i表示为：

其中，w₁和w₂控制每次删除的高不确定数据量的趋势；λ₂为不确定因素。

本发明提出一种基于多粒度特征融合和不确定去噪的实体识别系统，包括预处理模块、局部字粒度特征提取模块、全局词粒度特征提取模块、编码模块、融合模块以及识别模块，其中：

预处理模块，用于对输入的语句使用jieba工具进行分词

局部字粒度特征提取模块，使用Transformer对语料文本进行字粒度的多级局部特征提取，得到文本的向量表示，即局部字粒度特征；

全局词粒度特征提取模块，使用Glove预训练的词向量将预处理模块得到的分词进行向量嵌入，得到文本的向量表示，即全局词粒度特征；

编码模块，将预处理模块得到的分词进行编码，得到文本的词结构编码向量；

融合模块，将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合；

识别模块，将融合的特征输入BiGRU+CRF的序列标注模型进行训练，完成训练后用于根据输入该模型的融合特征对应文本中的实体。

进一步的，编码模块中对分词后得到的词集进行编码，得到文本的词结构编码向量包括根据字在用jieba工具进行分词后的词中的位置对字符进行编码，若该字位于词的左边界则编码为1，若位于词的中间位置则编码为2，若位于词的右边界则编码为3，若该词仅包含单个字则编码为0。

进一步的，融合模块将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合的过程中，先将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征使用向量的加法进行融合，再将融合后的特征与词结构编码进行拼接操作。

进一步的，所述识别模块的BiGRU+CRF的序列标注模型包括BiGRU层、注意力机制层以及CRF层，将特征输入将融合后得到的文本特征送入BiGRU层，得到文本的概率矩阵；将文本的概率矩阵输入到自注意力机制层来获取每个字符的概率矩阵，并计算每个字符的不确定性，根据不确定性值和数据索引删除不确定性高于设定阈值的数据；将完成删除的数据输入CRF层进行序列标注，完成实体识别。

本发明可对中文病理领域文本进行精准、全面的实体抽取，与现有的实体提取方法相比抽取效果较好。

附图说明

图1是本发明实施例提供的一种基于多粒度特征融合和不确定去噪的实体识别框架图；

图2是本发明实施例中多粒度特征提取及融合方法的流程框架图；

图3是本发明实施例中不确定性监督模型优化方法的流程框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出基于多粒度特征融合和不确定去噪的实体识别方法，具体包括以下步骤：

S3、针对金实体结构的特点，对分词后得到的词集进行编码，得到文本的词结构编码向量；

实施例1

本实施例提供了一种针对中文医疗领域文本的实体抽取，其实体抽取的整体流程，如图1所示；多粒度特征提取和特征融合流程，如图2所示。本实施采用的语料库为中文语料库，所属领域为病理领域，对中文病理语料进行分词的工具为基于python的开源工具库jieba分词，其具体实施如下：

将原始的中文病理文本句子输入到Transformer中，对于在多个字符粒度上提取的局部特征，将特征维度设置为200维。假设一个句子可以通过Transformer神经网络得到输出向量W_local。每个词对应的特征向量为

对于在词粒度上提取的全局特征，将特征维度也设置为200维。将原始的中文病理文本句子进行jieba分词，然后经过Glove映射，可以得到输出向量W_global，其中每个词对应的特征向量是，

此时将多级局部特征和全局特征进行融合，使用如下公式：

在一个句子中，

代表第i个字的字向量，

代表第i个字所在词的词向量，V_i ^c代表第i个字融合后的特征向量，此时该向量表示为：V_i ^c＝(X₁+Y₁,X₂+Y₂,...,X₂₀₀+Y₂₀₀)。

对于词结构特征，采用一种词结构编码方式对其进行编码为20维的特征向量。首先使用jieba工具对文本进行分词。例如“肝细胞性肝癌伴部分胆管上皮分化”这句话会被分割为["肝细胞性""肝癌""伴""部分""胆管""上皮""分化"]。然后根据字在词中的位置对字符进行编码，当它位于词的左边界、中间位置或词的右边界时，将分别编码为1、2或3。此外，当它是单个字时，它会被编码为0。其中，“肝细胞性”编码为1223，“肝癌”编码为13，“伴”编码为0，“部分”编码为13，“胆管”编码为13，“上皮”编码为13,“分化”编码为13。我们可得到编码结果[1223 13 0 13 13 13 13]，这样我们将文本数据转化为了数字表示。使用tf.global_variables_initializer方法随机初始化一个具有每个词结构编码值({0,1,2,3})的矩阵，然后，可以得到每个句子V_structure的词结构特征矩阵，V_structure是一个矩阵维度n×20，其中n是句子中的字数，20是词结构特征的维度，即第i个字表示为

最后，将融合所有特征。现在使用concat方法将词结构特征与之前的特征融合操作的结果连接起来：

这样最终得到的文本特征表示为120维的特征向量：

将最终得到的新特征向量送入BiGRU+CRF的序列标注模型，预测得到实体的识别结果。

实施例2

为了减轻实体类别太少导致的识别错误，本实施例在实施例1的基础上，将BiGRU输出得到的概率矩阵送入自注意力机制层来获取每个字符P的概率矩阵，具体实施过程框图如图3所示。其中，P(n*t)＝[P_n1,P_n2,…,P_nt]是一个n*t维度的矩阵，n是句子中的字符数，t是潜在标签的数量。得到矩阵P后，将不确定值设置为V_uc(V_uc表示每个数据中包含的不确定值，由每个数据中每个字符的矩阵P决定)。V_uc越大，实体混淆模型的可能性就越大。然后，计算和排序每个数据的V_uc。V_uc的计算公式为：

之后，通过设计的超参数计算需要删除的具有高不确定性的数据索引：

其中，x表示当前epoch值，N为输入数据总数，e_s表示epoch开始计算不确定值的初始值，λ₁为不确定因子；s_i控制高不确定性数据的删除程度。值越大，删除的数据越多。s_i的计算公式为：

这里，λ₂也是不确定因素，w₁和w₂控制每次删除的高不确定数据量的趋势；一般来说，每次删除的高不确定性数据量会逐渐减少，根据del_index删除原始数据中的高不确定性数据。用不确定数据替换原始数据以继续迭代训练。del_num的计算公式为：

del_num＝sort(V_uc)_≥k[:del_index]

其中，k是关于不确定性的阈值。通过模型优化结合监督方法，可以在训练过程中动态删除原始数据中存在的高不确定性数据，这对于减少高不确定性数据的影响至关重要。

最后，将自注意力层输出送入CRF层，进行序列标注，预测得到实体的识别结果。

实施例3

本实施例提出一种基于多粒度特征融合的中文病理实体识别系统，包括预处理模块、局部字粒度特征提取模块、全局词粒度特征提取模块、编码模块、融合模块以及识别模块，其中：

预处理模块，用于对输入的语句使用jieba工具进行分词

实施例4

本实施例根据实施例1～3提供的方法或者系统，与现有识别方案进行对比试验。

一个肝胆病理中文文本命名实体识别数据集Data_1和一个中药说明书实体识别数据集Data_2上进行对比试验。

实验环境搭建如下：windows10 64位操作系统，Intel(R)Core(TM)i5-4590@3.3GHz处理器，16G内存，16G内存GTX2080，编程环境：python 3.6.5，tensorflow 1.14.0，jieba 0.39，zhon 1.1.5。

本实施例使用Precision(P)、Recall(R)和F-measure(F1)作为实验评估指标：

这里TP(True Positive)是正确识别的实体数量。FP(False Positive)是被错误识别为实体的个数。FN(False Negative)是未识别的实体数。

在模型的训练中，参数对模型最终的精度和鲁棒性影响很大。为防止模型过拟合，在模型每一层的输出中加入了Dropout，经过多次实验参与，选出效果较好的模型参数如表1所示。

表1

为了验证本文提出的基于多粒度特征融合的模型的有效性，我们对上述两个公共语料进行了实验评估。在采用Bi-GRU-CRF模型作为Baseline模型的同时，采用提出的Trans-Bi-GRU-CRF模型作为最终的实验模型，与Bi-LSTM、GRAM-CNN、Bi-LSTM+POS、CAN-NER和ID-CNNs-CRF。所有模型都使用预先训练好的Glove向量，最终结果使用5折交叉验证的结果。两个数据集上的结果分别如表2和表3所示。

表2

表3

从表2、表3中，可以发现所提出的方法在两个数据集上的结果比其他方法更好。在Data_1数据集上，与其他模型相比，本发明开发的模型将F1值提高了3.56％至7.16％，准确率提高了2.24％至6.32％，召回率提高了0.98％至8.88％。在Data_2数据集上，本发明的模型将F1值提高了1.81％到4.27％，准确率提高了1.78％到4.57％，召回率提高了1.32％到3.94％。造成上述效果的原因有2个：一是Transformer包含多个多头注意力机制，因此我们的模型可以获得丰富的多级局部特征信息；同时，本发明采用词结构编码特征，保证复合实体和缩略实体的信息完整性，然后模型可以在学习过程中充分利用全局特征和多级局部特征进行预测。

表4

表5

从表4、表5可以发现，本文提出的使用不确定监督方法的模型优化方法可以改进现有模型。在现有的五个模型中加入优化过程后，这些模型的F1值都得到了提高，同时这些模型的大部分准确率和召回率也比原来的有所提高。分析原因可以发现：在模型迭代过程中，每当数据经过模型优化层时，都会识别并删除一些高不确定性的数据。例如，一些病理名称在一条数据中被标记为实体，而在另一条数据中没有标记，这使得它们的不确定性更高。如果删除了高不确定性的数据，可能会在迭代训练过程中使模型朝着正确的方向学习。因此，与所提出的模型优化方法融合，现有模型在实体识别方面都将会有一些提升。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于多粒度特征融合和不确定去噪的实体识别方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的基于多粒度特征融合和不确定去噪的实体识别方法，其特征在于，对分词后得到的词集进行编码，得到文本的词结构编码向量包括根据字在用jieba工具进行分词后的词中的位置对字符进行编码，若该字位于词的左边界则编码为1，若位于词的中间位置则编码为2，若位于词的右边界则编码为3，若该词仅包含单个字则编码为0。

3.根据权利要求1所述的基于多粒度特征融合和不确定去噪的实体识别方法，其特征在于，将融合后得到的文本特征送入BiGRU+CRF的序列标注模型中进行序列标注包括以下步骤：

4.根据权利要求3所述的基于多粒度特征融合和不确定去噪的实体识别方法，其特征在于，根据每个字符的概率矩阵P计算该字符的不确定性包括：

5.根据权利要求3所述的基于多粒度特征融合和不确定去噪的实体识别方法，其特征在于，根据数据索引删除不确定性大于设定阈值的数据包括以下步骤：

del_num＝sort(V_uc)_≥k[:del_index]；

6.根据权利要求1所述的基于多粒度特征融合和不确定去噪的实体识别方法，其特征在于，索引值为i样本的控制高不确定性数据的删除程度s_i表示为：

7.基于多粒度特征融合和不确定去噪的实体识别系统，其特征在于，包括预处理模块、局部字粒度特征提取模块、全局词粒度特征提取模块、编码模块、融合模块以及识别模块，其中：

预处理模块，用于对输入的语句使用jieba工具进行分词

8.根据权利要求1所述的基于多粒度特征融合和不确定去噪的实体识别系统，其特征在于，编码模块中对分词后得到的词集进行编码，得到文本的词结构编码向量包括根据字在用jieba工具进行分词后的词中的位置对字符进行编码，若该字位于词的左边界则编码为1，若位于词的中间位置则编码为2，若位于词的右边界则编码为3，若该词仅包含单个字则编码为0。

9.根据权利要求7所述的基于多粒度特征融合和不确定去噪的实体识别系统，其特征在于，融合模块将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合的过程中，先将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征使用向量的加法进行融合，再将融合后的特征与词结构编码进行拼接操作。

10.根据权利要求7所述的基于多粒度特征融合和不确定去噪的实体识别系统，其特征在于，所述识别模块的BiGRU+CRF的序列标注模型包括BiGRU层、注意力机制层以及CRF层，将特征输入将融合后得到的文本特征送入BiGRU层，得到文本的概率矩阵；将文本的概率矩阵输入到自注意力机制层来获取每个字符的概率矩阵，并计算每个字符的不确定性，根据不确定性值和数据索引删除不确定性高于设定阈值的数据；将文本的概率矩阵输入CRF层进行序列标注，完成实体识别，并使用删除高不确定性样例后的数据集用于模型的监督训练，可以起到优化模型的作用。