CN116151260A

CN116151260A - 一种基于半监督学习的糖尿病命名实体识别模型构建方法

Info

Publication number: CN116151260A
Application number: CN202310189507.5A
Authority: CN
Inventors: 郭永安; 左静怡; 钱琪杰; 王宇翱
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-05-23

Abstract

本发明公开了一种基于半监督学习的糖尿病命名实体识别模型构建方法，其网络结构包括两个模块，一个模块是命名实体识别(NER)模块，包括BERT嵌入层、BERT模型、CRF模型和生成对抗训练。其中，BERT嵌入层加和三个向量作为BERT模型的输入；BERT模型对输入字符上下文信息进行捕获，学习语义特征；CRF模型提取标签间的约束关系，计算最优标签序列；生成对抗训练通过对已标注样本和未标注样本的潜在变量分布之间的训练，优化命名实体识别模型。另一个模块是半监督学习模块，通过迭代训练优化模型。本发明的命名实体识别模型能充分利用未标注样本，优化命名实体识别模型，并在少量标注样本的情况下，达到良好的命名实体识别效果。

Description

一种基于半监督学习的糖尿病命名实体识别模型构建方法

技术领域

本发明涉及命名实体识别领域，具体涉及一种针对糖尿病文本少样本命名实体识别的基于半监督学习的生成模型构建方法。

背景技术

随着互联网信息时代的快速发展，大量结构复杂、内容冗余的文本信息不断呈现在互联网上，数量呈爆炸性增长。而且，随着国民健康意识的不断提高和医疗领域信息化的稳步发展，现代医疗系统积累了大量的医疗数据。在此背景下，对海量医疗数据的提取和利用，是目前的一大挑战，也是当前的研究热点。命名实体识别(NER)是信息抽取的前提，抽取有价值的实体可以发挥很大的作用，是问答系统、构建知识图谱等自然语言处理任务的一项重要基础技术。因此，研究糖尿病文本的命名实体识别对未来智能医疗在糖尿病方面的发展具有重要意义。

在糖尿病命名实体识别任务中，早期使用的方法是基于规则的方法和基于词典的方法，需要相关领域的专家手动构建一些规则模板，这种方法耗费人工，花费昂贵。随后，出现了基于统计机器学习和深度学习的方法，它们都依赖大量高质量的标注数据来提高命名实体识别的性能。而在实际应用中，标注的数据非常有限且注释样本的成本高，标注数据的缺乏会使得上述方法在命名实体识别上的效果不佳。虽然标注的数据不易获得，但大量的未标注的数据却很容易获得，上述方法聚焦已标注的样本，却忽略了未标注样本资源，导致资源的浪费。

发明内容

发明目的：为了解决糖尿病文本中舍弃大量未标注样本而造成的资源浪费，及缺乏标注样本的问题，本发明提出一种基于半监督学习的糖尿病命名实体识别模型构建方法。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：

一种基于半监督学习的糖尿病命名实体识别模型构建方法，包括以下步骤：

获取实体样本数据，定义糖尿病实体类型，对一定量的实体样本数据进行标注，得到已标注样本和未标注样本，以及已标注样本的实体标签；

采用生成对抗网络GAN，包括生成器和判别器，已标注样本及其标签和未标注样本输入生成器，生成器输出未标注样本的预测标签，并形成已标注样本的潜在变量和未标注样本的潜在变量；

已标注样本的潜在变量和未标注样本的潜在变量输入判别器，判别器识别已标注样本的潜在变量和未标注样本潜在变量的分布的差异；

进行生成对抗训练，若已标注样本的潜在变量和未标注样本的潜在变量的分布不相同，则继续训练，若相同，训练结束，形成命名实体识别模型；

使用半监督学习中的自训练框架，利用已标注样本和未标注样本初始化命名实体识别模型，通过迭代训练优化命名实体识别模型；

利用优化后的命名实体识别模型的生成器对待识别的未标注样本进行嵌入，输出未标注样本的预测标签。

进一步的，所述生成器由BERT嵌入层、BERT模型和CRF模型组成，对未标注样本的实体标签进行预测，具体包括：

所述BERT嵌入层，由位置编码向量、段编码向量、词的向量组成；

所述位置编码向量，用于BERT学习到输入的顺序属性；所述段编码向量，用于辅助BERT区别句子对中的两个句子的向量；

所述位置编码向量、段编码向量、词的向量做加和形成最终的编码向量，输入至BERT模型中；

所述BERT模型，对输入字符的上下文信息进行捕获，学习输入中的字符特征和句法特征，提取句子中的语义特征，并将语义特征传至CRF模型；

所述CRF模型，根据BERT模型的输出，通过最大化条件似然估计，提取标签之间的约束关系，输出最优标签序列。

进一步的，所述生成对抗训练分为两个阶段，第一阶段是生成器利用已标注样本，最大化条件似然估计，第二阶段是生成器对未标注样本进行嵌入，输出未标注样本的预测标签；生成对抗过程具体步骤如下：

S1：通过BERT模型的输出和CRF模型的输出的乘积，形成已标注样本的潜在变量V^L和未标注样本的潜在变量V^U；

S2：将已标注样本的潜在变量V^L和未标注样本的潜在变量V^U作为判别器的输入；

S3：生成器以判别器无法辨别已标注样本潜在变量的分布和未标注样本潜在变量的分布的差异为目标，目标函数如公式(3)：

S4：判别器辨别已标注样本潜在变量的分布和未标注样本潜在变量的分布的差异，目标函数如公式(4)：

式中

表示V^U的分布，/>

表示V^L的分布，v^U和v^L分别表示新输入的未标注样本的潜在变量和已标注样本的潜在变量，φ和/>

分别代表生成器参数和判别器参数，/>

表示判别器，E表示期望值；

S5：通过生成对抗训练，使得已标注样本潜在变量的分布和未标注样本潜在变量的分布相同。

进一步的，使用半监督学习中的自训练框架优化命名实体识别模型，具体步骤如下：

S1：将已标注样本和未标注样本放入命名实体识别模型中进行初步训练，形成初步的已标注样本数据集L和伪标签样本数据集U；

S2：计算伪标签样本数据集U中各样本的置信度；

S3：对样本置信度高于阈值的样本进行标注，并放入已标注样本数据集L中，并在伪标签样本数据集U中将其删去；

S4：将更新后的已标注样本数据集L和伪标签样本数据集U放入命名实体识别模型中继续训练；

S5：重复S2-S4，直至伪标签样本全部标记完成后，训练结束。

有益效果：与现有技术相比，本发明的技术方案具有以下有益的技术效果：

本发明利用未标注样本优化命名实体识别(NER)模型。通过生成对抗训练，利用已标注样本和未标注样本的潜在变量的分布进行训练，充分利用未标注样本，对NER进行优化，减少资源浪费。

本发明解决缺乏大量标注数据集问题。通过半监督学习中的自训练模型，利用少量标记样本完成NER任务，减少人工成本，获得良好的NER效果。本发明构建了一个大规模、高质量的糖尿病标注数据集，为其他自然语言处理任务提供了良好的基础。

附图说明

图1是BERT模型图；

图2是生成器模型图；

图3是判别器模型图；

图4是半监督学习流程图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

本发明所述的一种基于半监督学习的糖尿病命名实体识别模型构建方法，将半监督学习与生成模型结合，应用于糖尿病命名实体识别任务，包括如下步骤：

步骤一、数据预处理。

获取实体样本数据，定义糖尿病实体类型，对一定量的实体样本数据进行标注，得到已标注样本和未标注样本，以及已标注样本的实体标签。

(1)定义糖尿病实体类型，分别是疾病名称(Disease)、病因(Reason)、临床表现(Symptom)，检查方法(Test)、检查指标值(Test_Value)、药品名称(Drug)、用药频率(Frequency)、用药剂量(Treatment)、用药方法(Method)、非药治疗(Treatment)、手术(Operation)、不良反应(SideEff)、部位(Anatomy)、程度(Level)、持续时间(Duration)。

(2)采用BIO标注方法，将每个字标注为“B-X”、“I-X”或者“O”。其中，“B-X”表示该字所在的片段属于X类型并且该字在此片段的开头，“I-X”表示该字所在的片段属于X类型并且该字在此片段的中间位置，“O”表示不属于任何类型。例如：“糖尿病患者”中，“糖”标注为“B-Disease”，“尿”标注为“I-Disease”，“病”标注为“I-Disease”，“患”标注为“O”，“者”标注为“O”。

步骤二、命名实体识别网络结构。

命名实体识别网络结构包括两个模块，一个是NER模块，一个是半监督学习模块。

NER模块：采用了生成对抗网络(GAN)，由一个生成器和一个判别器组成，在NER模块中，生成器模型如图2所示，判别器模型如图3所示。通过生成对抗训练，利用已标记样本和未标记样本对命名实体识别性能进行优化。

生成器由BERT嵌入层、BERT模型和CRF模型组成，用于对未标注样本的实体标签进行预测，具体如下：

BERT(Bidirectional Encoder Representation from Transformers)嵌入层，由位置编码向量(position embeddings)、段编码向量(segment embeddings)、词的向量(token embeddings)组成。位置编码向量，让BERT学习到输入的顺序属性；段编码向量，辅助BERT区别句子对中的两个句子的向量。将上述三个向量直接做加和形成最终的编码向量，作为BERT模型的输入向量。

BERT模型:2018年10月由Google AI研究院提出的一种基于深度学习的语言表示模型。它对输入字符的上下文信息进行捕获，学习输入中的字符特征和句法特征。BERT模型通过注意力机制在对当前字符进行编码时能够关注到序列中其余字符对当前字符的影响，并通过该方式更好地融合上下文信息，提高向量表示的合理性。由于采用了注意力机制，使得BERT模型能够根据字符所处的上下文环境对其进行动态表示，解决中文环境中常见的多义词问题，改善实体识别的效果。

BERT模型如图1所示，BERT预训练包括两项基本任务，掩藏语言模型(MaskedLanguage Model,MLM)和相邻句预测(Next Sentence Predication,NSP)。对于中文文本，掩藏语言模型通过将字进行掩盖，从而学习其上下文内容特征来预测被掩盖的字。相邻句预测通过学习句子间关系特征，预测两个句子的位置是否相邻。这两种训练目标分别针对词级别和句子级别两种文本特征完成对大规模无标注文本的自监督学习，自动学习自然语言的表达方式，并将这些语义特征传至CRF(Conditional Random Field)模型。

CRF模型：BERT模型的输出向量输入CRF模型，提取标签之间的约束关系，确保输出是最合理的标签序列，计算最优标签序列。所述标签是指每一个中文字的标签，也就是上述的B-X,I-X,O。CRF是一种条件概率分布模型，通过学习标签序列的相关性和顺序，最大化条件似然估计，具体计算如公式(1)，概率公式具体计算如公式(2)。

其中z＝{z₁,z₂,...,z_i,...,z_n}表示输入的序列，z_i表示第i个字的向量，n代表序列的长度，W,b表示权重向量和偏差，y＝{y₁,y₂,...,y_n}表示句子z的标签，y_i是句子z中第i个字的标签。y(z)是句子z可能的标签，y'_i是句子z某一种可能标签y'的第i个字的标签。ψ_i(y_i-1,y_i,z)和ψ_i(y'_i-1,y'_i,z)均为势函数，

和b_y',y分别为标签对(y',y)的权重向量和偏差。

BERT嵌入层将句子的位置编码向量、段编码向量、词的向量加和，表示成向量(E₁,E₂,E₃,...,E_n)，其中E_i(i＝1,2,...,n)代表字的编码向量，将其输入至BERT模型中。BERT模型通过训练提取句子中的语义特征，得到输出向量(T₁,T₂,T₃,…,T_n)，其中T_i(i＝1,2,...,n)代表字的特征向量，并将这些特征向量传到CRF模型。CRF模型根据BERT模型的输出，通过最大化条件似然估计，输出最优标签序列(y₁,y₂,y₃,...,y_n)，其中y_i(i＝1,2,...,n)代表每个字的标签。

判别器是一个基于卷积神经网络(CNN)的网络，判别器的主要作用是识别已标注样本潜在变量的分布和未标注样本潜在变量的分布的差异。

生成对抗训练：利用生成对抗网络，进行生成对抗训练，其中生成器为BERT-CRF，判别器为基于CNN的网络。通过生成器与判别器的之间的对抗，不仅可通过已标注样本优化命名实体识别性能，还可通过未标注样本最大化命名实体识别性能。

生成对抗训练分为两个阶段：第一个阶段，是生成器利用已标注样本，通过公式(2)，最大化条件似然估计。第二阶段是生成器对未标注样本进行嵌入，输出未标注样本的预测标签。生成对抗过程具体步骤如下：

S1：通过BERT模型的输出和CRF模型的输出的乘积，形成已标注样本的潜在变量V^L和未标注样本的潜在变量V^U。

S2：将已标注样本的潜在变量V^L和未标注样本的潜在变量V^U作为判别器的输入。

S3：生成器试图欺骗判别器，使其无法辨别已标注样本潜在变量的分布和未标注样本潜在变量的分布的差异，具体计算如公式(3)：

S4：判别器努力辨别标注样本潜在变量的分布和未标注样本潜在变量的分布的差异，具体计算如公式(4)：

式中

表示V^U的分布，/>

分别代表生成器参数和判别器参数，/>

表示判别器，E表示期望值；

S5：通过生成对抗训练，使已标注样本潜在变量的分布和未标注样本潜在变量的分布相同，如图3所示，若两者不相同(判别器输出False)，则继续训练，若两者相同(判别器输出True)，生成对抗训练结束，NER模型形成，则进入半监督学习模块。

半监督学习模块：利用少量已标注样本初始化模型，通过迭代训练优化模型。

本发明使用了半监督学习中的自训练框架，如图4所示，具体步骤如下：

S1：将已标注样本和未标注样本放入NER模型中进行初步训练，形成初步的已标注样本数据集L和伪标签(未标注样本的预测标签)样本数据集U；

S2：计算伪标签样本数据集U中各样本的置信度；

S4：将更新后的已标注样本数据集L和伪标签样本数据集U放入NER模型中继续训练；

S5：重复S2-S4，直至伪标签样本全部标记完成后，训练结束。

评价指标：本发明使用精确率P、召回率R和F₁值对模型进行衡量，证明本模型在糖尿病命名实体识别上的有效性，精确率指识别正确的实体数与识别出实体总数的比值，召回率值正确识别的实体数与实体总数的比值。在某些情况下会出现精确率和召回率冲突的问题，因此利用F1值对P和R值综合考虑。

各指标具体计算如公式(5)-(7)：

其中，TP,FP,FN分别为真正例，假正例和假反例的个数。真正例是指实际为正，预测也为正的样本；假正例是指实际为负，预测为正的样本；假反例是指实际为负。预测也为负的样本。

Claims

1.一种基于半监督学习的糖尿病命名实体识别模型构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于半监督学习的糖尿病命名实体识别模型构建方法，其特征在于，所述生成器由BERT嵌入层、BERT模型和CRF模型组成，对未标注样本的实体标签进行预测，具体包括：

3.根据权利要求2所述的基于半监督学习的糖尿病命名实体识别模型构建方法，其特征在于，所述生成对抗训练分为两个阶段，第一阶段是生成器利用已标注样本，最大化条件似然估计，第二阶段是生成器对未标注样本进行嵌入，输出未标注样本的预测标签；生成对抗过程具体步骤如下：

式中P_VU表示V^U的分布，P_VL表示V^L的分布，v^U和v^L分别表示新输入的未标注样本的潜在变量和已标注样本的潜在变量，φ和

分别代表生成器参数和判别器参数，/>

表示判别器，E表示期望值；

4.根据权利要求1-3任一所述的基于半监督学习的糖尿病命名实体识别模型构建方法，其特征在于，使用半监督学习中的自训练框架优化命名实体识别模型，具体步骤如下：

S2：计算伪标签样本数据集U中各样本的置信度；

S5：重复S2-S4，直至伪标签样本全部标记完成后，训练结束。