CN117313732B

CN117313732B - 一种医疗命名实体识别方法、装置及存储介质

Info

Publication number: CN117313732B
Application number: CN202311608482.4A
Authority: CN
Inventors: 郭永安; 左静怡; 钱琪杰; 刘云; 王宇翱
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-11-29
Filing date: 2023-11-29
Publication date: 2024-03-26
Anticipated expiration: 2043-11-29
Also published as: CN117313732A

Abstract

本发明公开了一种医疗命名实体识别方法、装置及存储介质，属于自然语言处理技术领域，其包括：利用现有医疗文本训练得到命名实体识别模型，将待识别医疗文本输入命名实体识别模型，完成实体的提取，该模型的获取包括：对教师模型进行医疗领域的初始化训练，通过训练后的教师模型得到未标记字的伪标签，通过标签选择策略对所述伪标签进行选择，通过正伪标签、负伪标签及其对应的标记数据分别对学生模型进行训练，得到命名实体识别模型，利用医疗领域少量标记数据完成了命名实体识别任务，减少了人工成本，不仅通过标签选择减少了噪声标签进入模型，还通过性能评价指标的衡量获取了性能最优的模型，提升了命名实体识别的效果。

Description

一种医疗命名实体识别方法、装置及存储介质

技术领域

本发明涉及一种医疗命名实体识别方法、装置及存储介质，属于自然语言处理技术领域。

背景技术

随着互联网信息时代的快速发展和国民健康意识的不断提高，医疗信息系统积累了大量的医疗文本信息，包括医学文献，电子病历等，为医疗诊断，疾病预测等提供了重要的医学资源，面对海量医疗文本，对其进行数据挖掘和利用是医疗信息领域的一大挑战。命名实体识别（NER）从非结构化文本中提取实体及其类型，是医疗实体间的关系提取，医疗问答系统，医疗知识图谱等自然语言处理的一项重要基础技术。针对命名实体识别任务，已经提出了很多方法，最初代NER采用基于字典和规则，后又出现传统机器学习，随着深度学习的发展，命名实体识别的研究重点已转向深层神经网络，成为主流的命名实体识别方法。

事实上，在医学领域，大量的医学文本并未被标注，对这些文本标注耗时费力，而传统的深度学习模型需要大量的标注样本进行训练，这阻碍了深度学习方法在医学领域的应用。为了解决医疗领域标记数据有限的问题，一些研究试图利用未标记数据充实训练数据，利用置信度对预测的未标记数据进行过滤，并联合标注数据对模型进行训练。然而，不良的神经网络模型，可能会导致错误的预测标签具有很高的置信度，传统的基于置信度的伪标签方法会引入大量噪声，导致模型预测能力下降，命名实体识别的效果不好。

发明内容

本发明提供一种医疗命名实体识别方法、装置及存储介质，利用获取到的医疗文本获取医疗领域命名实体识别模型，再将待识别医疗文本输入所述命名实体识别模型，完成医疗命名实体的提取，所述命名实体识别模型的构建解决了医疗领域缺乏大量标注数据集问题，利用少量标记数据完成了命名实体识别任务，减少了人工成本，通过标签选择减少了噪声标签进入模型，大大提升了命名实体识别的效果。

为达到上述目的，本发明是采用下述技术方案实现的。

一方面，本发明提供一种医疗命名实体识别方法，包括：对待识别的医疗文本进行数据预处理，得到待识别数据集；

将所述待识别数据集输入预先获取的命名实体识别模型，得到根据医疗实体类型区分的识别结果；

其中，所述命名实体识别模型的获取方法包括：

对获取到的医疗文本进行数据预处理，得到标记有医疗实体类型的数据集；

从所述数据集中选择出训练样本集；

将所述训练样本集中已标记医疗实体类型的数据输入预先设计的教师模型，得到初始化后的教师模型；

将所述训练样本集中未标记医疗实体类型的数据输入初始化后的教师模型，得到未标记字的伪标签；

对所述未标记字的伪标签进行选择，得到选择出的正伪标签和负伪标签；

利用所述正伪标签和负伪标签及其对应的标记数据训练预先设计的学生模型，得到所述命名实体识别模型；

将所述命名实体识别模型训练后的参数传递给所述初始化后的教师模型并利用已标记医疗实体类型的数据对接受该参数的教师模型进行微调。

可选地，所述对获取到的医疗文本进行数据预处理，得到标注有医疗实体类型的数据集，包括：

对所述医疗文本中的句子进行拆分，得到拆分后的单句；

将所述拆分后的单句与预设的句长阈值max_length-2进行比较，对句长超过max_length-2的单句进行截断并用符号[PAD]对句长不足max_length-2的单句进行补充，并在所述句长一致的单句句首置符号[CLS]，句尾置符号[SEP]，得到句长一致的单句，其中，[]为符号的一部分；

定义医疗实体类型；

将所述句长一致的单句中的字标注为B-X或I-X或O，得到标注有医疗实体类型的识别数据集，其中，B-X表示此元素所在的片段属于X类型并且此元素在此片段的开头，I-X表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，O表示不属于任何类型，X类型表示定义的医疗实体类型之一。

可选地，所述预先设计的教师模型和预先设计的学生模型结构相同，分别包括：领域BERT，变分BiLSTM及Softmax层；所述领域BERT的输出数据为变分BiLSTM的输入数据，所述变分BiLSTM的输出数据为Softmax层的输入数据，其中BERT为基于Transformer的双向编码器表示技术、BiLSTM为双向长短期记忆网络。

以上技术方案中，领域BERT用于获得字嵌入，相比初始BERT能够更好地适应医疗文本，变分BiLSTM用于提取特征向量，相比BiLSTM更适合用于后面标签选择策略中不确定性值的计算，Softmax层用于获得每个字的标签概率分布。

可选地，所述将所述训练样本集中已标记医疗实体类型的数据输入预先设计的教师模型，得到初始化后的教师模型，包括：

将所述数据集中已标记医疗实体类型的数据放入初始BERT中进行训练得到医疗领域BERT；

基于所述医疗领域BERT获得字嵌入；

引入部首特征，将部首嵌入与所述字嵌入结合得到融合嵌入x_t，其中，t表示当前时刻；

利用变分BiLSTM对所述融合嵌入x_t进行特征提取，得到所述已标记医疗实体类型的数据中标记字的特征向量，所述特征向量h_t的计算公式为：

；

其中，代表矩阵乘积，g_t、o_t分别代表单元门和输出门，且维度均为/>；/>代表h_t的维度，c_t代表存储当前时刻t及其前面所有时刻的混合信息；

所述混合信息c_t的计算公式为：

；

其中，其中，代表哈达玛积，i_t、f_t分别代表输入门和遗忘门，且维度均为/>；c_t-1代表存储上一时刻t-1及其前面所有时刻的混合信息；

所述输入门i_t，遗忘门f_t，输出门o_t以及单元门g_t的计算公式为：

；

其中，Wⁱ、W^f、W^o、W^g均为维度为的权重矩阵，/>代表融合嵌入x_t的维度，bⁱ、b^f、b^o、b^g均为维度为/>的偏差；

所述标记字的特征向量h_t通过Softmax层，得到标记字的标签概率分布；

基于所述标签概率分布得到输出标签，所述输出标签的计算公式为：

；

定义所述已标记医疗实体类型的数据，其中N为已标记医疗实体类型的数据中的句子个数，X_i代表已标记医疗实体类型的数据中的第i个句子，Y_i代表已标记医疗实体类型的数据中第i个句子的标签序列，/>，其中x_ij表示已标记医疗实体类型的数据中第i个句子中的第j个字，/>表示已标记医疗实体类型的数据中第i个句子的长度；

基于输出标签和标记数据D _L，通过交叉熵损失函数L对教师模型进行初始化训练，得到所述教师模型的初始化目标，公式为：

；

其中，为输出标签y_ij的概率，/>表示教师模型，θ^tea表示教师模型的参数。

优选地，所述对所述未标记字的伪标签进行选择，得到选择出的正伪标签和负伪标签，包括：

利用标签选择策略中的不确定性估计和置信度预测对所述未标记字的标签进行选择，得到正伪标签和负伪标签，其中，所述正伪标签的含义为很可能预测正确的标签，每个字最多只有一个正伪标签，所述负伪标签的含义为很可能预测错误的标签，每个字可有多个负伪标签；

所述正伪标签为不确定性和置信度满足条件u_ij<β_p，且max(p_ij)>α_p，所述负伪标签为不确定性和置信度满足条件u_ij<β_n，且p^c _ij>α_n，其中，u_ij为未标记医疗实体类型的数据中第i个句子的第j个字的不确定性值，p^c _ij代表未标记医疗实体类型的数据中第i个句子的第j个字预测为第c类标签的概率，β_p、α_p分别为正伪标签在不确定性和置信度方面的阈值且α_p>0.5，β_n、α_n分别为负伪标签在不确定性和置信度方面的阈值；

所述标签选择策略中的不确定性估计的计算公式为：

；

其中，H(·)代表熵计算，c代表预测标签中的第c类标签，C代表所有预测标签的总数。

优选地，将所述正伪标签和负伪标签及其对应的标记数据输入预先设计的学生模型，得到所述命名实体识别模型，包括：

通过交叉熵损失函数L对所述正伪标签对应标记的样本数据进行训练，得到正伪标签标记数据的训练目标，公式为：

；

其中，L^P _ij表示未标记医疗实体类型的数据中第i个句子的第j个字x^* _ij的正伪标签的损失值，表示未标记医疗实体类型的医疗实体类型的数据中第i个句子的第j个字的正伪标签y^* _ij的概率，/>表示学生模型，θ^stu表示学生模型的参数；

通过交叉熵损失函数L对所述负伪标签对应标记的样本数据进行训练，得到负伪标签标记数据的训练目标，公式为：

；

其中，L^N _ij表示未标记医疗实体类型的数据中第i个句子的第j个字x^* _ij的负伪标签的平均损失值，表示未标记医疗实体类型的数据中第i个句子的第j个字被预测为第c个标签y^c _ij的概率，S^c _ij∈{0, 1}，当y^c _ij为负伪标签时，S^c _ij=1，反之，当y^c _ij不是负伪标签时，S^c _ij=0，m_ij为未标记医疗实体类型的数据中第i个句子的第j个字x^* _ij的负伪标签数量；

定义已标记医疗实体类型的数据，其中M为已标记医疗实体类型的数据中的句子个数，X^* _i代表未标记医疗实体类型的数据中的第i个句子，Y^* _i代表未标记医疗实体类型的数据中第i个句子的标签序列，/>，其中x^* _ij表示已标记医疗实体类型的数据中第i个句子中的第j个字，/>表示已标记医疗实体类型的数据中第i个句子的长度；

基于所述已标记医疗实体类型的数据D _U和所述正伪标签标记数据的训练目标以及负伪标签标记数据的训练目标，得到所述学生模型总训练目标，公式为：

；

其中，M_P为正伪标签数量，M_N为负伪标签数量。

优选地，方法还包括：从所述数据集中选择出测试集，将所述测试集输入每n轮训练以及最后一轮训练生成的命名实体识别模型，并通过计算命名实体识别模型的识别结果精确率P，召回率R以及综合性能指标F₁值，得到最佳命名实体识别模型，其中：

计算命名实体识别模型的识别结果精确率P，召回率R以及综合性能指标F₁值，计算公式为：

；

其中，TP、FP、FN分别为真正例，假正例和假反例的个数，精确率P指识别正确的实体数与识别出实体总数的比值，召回率R指正确识别的实体数与实体总数的比值，当出现精确率和召回率冲突的问题时，利用F₁对P值和R值综合考虑；

将第n轮模型的性能与第2n轮模型的性能评价指标值进行对比，得到性能更优模型，若第n轮性能优于第2n轮性能，则保存第n轮模型，若第n轮性能劣于第2n轮性能，则保存第2n轮模型；

将最后一轮模型的性能与上一性能更优模型的性能评价指标进行对比，得到所述最佳命名实体识别模型。

第二方面，本发明提供一种医疗命名实体识别装置，包括：

数据预处理模块，用于对待识别的医疗文本进行数据预处理，得到待识别数据集；

数据识别模块，用于将所述待识别数据集输入预先获取的命名实体识别模型，得到根据医疗实体类型区分的识别结果；

命名实体识别模型获取模块，用于获取所述命名实体识别模型，所述命名实体识别模型的获取方法包括：

从所述数据集中选择出训练样本集；

第三方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如第一方面任一步所述的医疗命名实体识别方法。

与现有技术相比，本发明所达到的有益效果：

1、本发明解决缺乏大量标注数据集问题，利用少量标记数据完成命名实体识别任务，减少人工成本，可以获得比使用同样标记数据而没有使用未标记数据的命名实体识别模型效果好；为减少未标记数据训练时引入的噪声，本发明提出标签选择策略，减少噪声进入模型而导致的命名实体识别效果下降，并合理利用负伪标签，改善模型训练；

2、本发明利用待训练数据在初始BERT上继续进行训练，得到的领域BERT更适用于医疗文本的命名实体识别任务；引入了部首特征，有利于提高中文医疗文本命名实体识别任务效果，例如，“疒”通常代表一种疾病；

3、通过引入性能评价指标对训练过程中每n轮训练生成的命名实体识别模型进行性能衡量，得到最佳命名实体识别模型，进一步提升了命名实体识别的准确度。

附图说明

图1所示为本发明的一种实施例中医疗命名实体识别方法的流程示意图；

图2所示为本发明的一种实施例中教师模型以及学生模型的识别流程示意图；

图3所示为本发明的一种实施例中基于标签选择策略的少样本医疗命名实体识别模型训练方法的流程示意图；

图4所示为本发明的一种实施例中根据BIO标签提取句子中实体的案例1示意图；

图5所示为本发明的一种实施例中根据BIO标签提取句子中实体的案例2示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、 “底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

实施例1

本实施例提供一种医疗命名实体识别方法，其流程图如图1所示，具体包括以下步骤。

步骤1：获取医疗文本并对其进行数据预处理操作，获得标记有医疗实体类型的数据集。

进一步地，所述数据预处理操作，包括：

步骤1-1：拆分句子，对长句或短句进行截断或补充操作，定义最大句子长度max_length-2，对超过max_length-2的句子进行截断，对不超过max_length-2的句子用符号[PAD]补齐长度至max_length-2，并在截断或补齐操作后在句首置符号[CLS]，在句尾置符号[SEP]，其中[]为符号的一部分。

步骤1-2：定义医疗实体类型，包括解剖部位、症状、疾病、药品、药品用量、测试和治疗方法等。

步骤1-3：采用BIO标注方法，将每个元素标注为B-X或I-X或O。其中，B-X表示此元素所在的片段属于X类型并且此元素在此片段的开头，I-X表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，O表示不属于任何类型，X类型是定义的多个医疗实体类型之一。由于本发明面向的是少样本医疗命名实体识别，因此，并非所有的数据都要进行标注，所需标注的数据量在步骤S2做详细说明。

步骤2：对所述标记有医疗实体类型的数据集进行选择，根据句子数量将数据集分割为训练样本集和测试集，其中，训练样本集占数据集句子总数量的70%，测试集占数据集句子总数量的30%，采用BIO标注方法对训练样本集中10%的句子及测试集中所有的句子中的每个字进行标记。

步骤3：利用训练样本集对命名实体识别模型进行训练，具体步骤如下。

步骤3-1：用训练样本集中已标记医疗实体类型的数据初始化教师模型，所述已标记医疗实体类型的数据以下简称标记数据；

本实施例中，所述教师模型，由领域BERT，变分BiLSTM和Softmax层组成，所述领域BERT的输出数据是变分BiLSTM的输入数据，所述变分BiLSTM的输出数据是Softmax层的输入数据，如图2所示，其中BERT全称为基于Transformer的双向编码器表示技术（Bidirectional Encoder Representation from Transformers），BiLSTM全称为双向长短期记忆网络（Bidirectional Long Short-Term Memory）。

本实施例中，所述初始化教师模型，包括：

步骤3-1-1：将数据集中所有标记数据放入初始BERT中进行训练，得到领域BERT，通过领域BERT获得字嵌入。

步骤3-1-2：引入部首特征，结合字嵌入和部首嵌入形成x_t，其中t表示当前时刻，利用变分BiLSTM进行特征提取，具体公式如公式（1）-（3），相比于BiLSTM能够更好的计算后面标签选择策略中的不确定性值，

（1）

（2）

（3）

其中，和/>分别代表矩阵乘积和哈达玛积，i_t、f_t、g_t、o_t分别为输入门，遗忘门，单元门和输出门，且维度为/>；/>表示为h_t的维度，c_t代表存储当前时刻t及其前面所有时刻的混合信息，c_t-1代表存储上一时刻t-1及其前面所有时刻的混合信息，Wⁱ、W^f、W^o、W^g均为维度为/>的权重矩阵；/>代表x_t的维度，bⁱ、b^f、b^o、b^g均为维度为/>的偏差，变分BiLSTM从不同的两个方向计算上下文信息向量，输出每个字的特征向量/>。

步骤3-1-3：每个字的特征向量通过Softmax层，得到每个字的标签概率分布，标签概率最高的即为输出标签，输出标签的计算公式如公式（4）：

（4）

步骤3-1-4：定义标记数据，其中N为标记数据中的句子个数，X_i代表标记数据中的第i个句子，Y_i代表标记数据中第i个句子的标签序列，/>，其中x_ij表示标记数据中第i个句子中的第j个字，/>表示标记数据中第i个句子的长度，利用交叉熵损失函数L，对教师模型进行初始化训练，如公式（5）：

（5）

步骤3-2：用训练样本集中未标记医疗实体类型的数据放入初始化后的教师模型中，所述未标记医疗实体类型的数据以下简称未标记数据，利用MC-dropout对未标记数据中每个未标记的字的标签概率分布进行预测，如公式（6）：

（6）

其中，p_ij为未标记数据中第i个句子的第j个字的标签概率分布，K为采样次数，h_ij为未标记数据中第i个句子的第j个字经过变分BiLSTM后的特征向量，W_k为模型权重，且W_k~q(W)，q(W)是dropout分布。

步骤3-3：利用标签选择策略对步骤S2得到的每个未标记字的标签进行选择，以减少噪声标签进入模型，影响模型训练，并将其分为正伪标签和负伪标签。

本实施例中，所述标签选择策略包括不确定性估计和置信度预测：

所述标签选择策略中的不确定性估计，由每个未标记字的每个标签的概率的熵计算得到，如公式（7）：

（7）

其中u_ij为未标记数据中第i个句子的第j个字的不确定性值，H(·)代表熵计算，c代表预测标签中的第c类标签，C代表所有预测标签的总数，p^c _ij代表未标记数据中第i个句子的第j个字预测为第c类标签的概率。若不确定性值小于某一阈值，则该标签被初步选择。

所述标签选择策略中的置信度预测，由每个未标记字的每个预测标签的概率大小决定，若某预测标签的概率大于某一阈值，则为高置信度标签，若某预测标签的概率低于某一阈值，则为低置信度标签。

所述正伪标签为不确定性和置信度满足条件u_ij<β_p，且max(p_ij)>α_p(α_p>0.5)，所述负伪标签为不确定性和置信度满足条件u_ij<β_n，且p^c _ij>α_n。其中，β_p，α_p分别为正伪标签在不确定性和置信度方面的阈值，正伪标签的含义为很可能预测正确的标签，每个字最多只有一个正伪标签。β_n，α_n分别为负伪标签在不确定性和置信度方面的阈值，负伪标签的含义为很可能预测错误的标签，每个字可有多个负伪标签。

步骤3-4：利用选择出的正伪标签和负伪标签及其标记对应的样本数据训练学生模型，其中学生模型的结构组成与教师模型相同，如图1所示。

本实施例中，所述训练学生模型包括：

步骤3-4-1：训练正伪标签使用交叉熵损失函数如公式（8）：

（8）

其中，L^P _ij表示未标记数据中第i个句子的第j个字x^* _ij的正伪标签的损失值，表示未标记数据中第i个句子的第j个字被预测为第c个标签y^c _ij的概率，S^c _ij∈{0, 1}，当y^c _ij为负伪标签时，S^c _ij=1，反之，当y^c _ij不是负伪标签时，S^c _ij=0，m_ij为未标记数据中第i个句子的第j个字x^* _ij的负伪标签数量。

步骤3-4-2：训练负伪标签使用交叉熵损失函数如公式（9）：

（9）

其中，L^N _ij表示未标记医疗实体类型的数据中第i个句子的第j个字x^* _ij的负伪标签的平均损失值，表示未标记医疗实体类型的数据中第i个句子的第j个字被预测为第c个标签y^c _ij的概率，S^c _ij∈{0, 1}，当y^c _ij为负伪标签时，S^c _ij=1，反之，当y^c _ij不是负伪标签时，S^c _ij=0，m_ij为未标记医疗实体类型的数据中第i个句子的第j个字x^* _ij的负伪标签数量。

步骤3-4-3：定义已标记医疗实体类型的数据，其中M为已标记医疗实体类型的数据中的句子个数，X^* _i代表未标记医疗实体类型的数据中的第i个句子，Y^* _i代表未标记医疗实体类型的数据中第i个句子的标签序列，/>，其中x^* _ij表示已标记医疗实体类型的数据中第i个句子中的第j个字，/>表示已标记医疗实体类型的数据中第i个句子的长度；

；

其中，M_P为正伪标签数量，M_N为负伪标签数量。

步骤3-5：将所述学生模型训练后的参数传递给所述初始化后的教师模型并利用已标记医疗实体类型的数据对接受该参数的教师模型进行微调，步骤3整体训练流程如图3。

步骤4：选择在测试集上效果最佳的模型作为最终的实体识别模型。

本实施例中，所述效果最佳的模型，由性能评价指标决定：

实体识别正确的衡量标准是要求真实实体类型与预测实体类型具有相同的实体边界和相同的实体类型，本发明使用精确率P，召回率R和综合性能指标F₁值对训练过程中每n轮训练以及最后一轮训练生成的命名实体识别模型的识别结果进行计算，衡量模型的性能，保存性能最优的模型，证明本模型在医疗命名实体识别上的有效性，各指标具体计算如公式：

；

其中，TP、FP、FN分别为真正例，假正例和假反例的个数，即TP为正确预测的实体个数，FP为预测错误的实体个数，FN为未预测出的实体个数，精确率指识别正确的实体数与识别出实体总数的比值，召回率值正确识别的实体数与实体总数的比值。在某些情况下会出现精确率和召回率冲突的问题，因此利用综合性能指标F₁对P值和R值综合考虑。

步骤4-1：将第n轮模型的性能与第2n轮模型的性能评价指标值进行对比，得到性能更优模型，若第n轮性能优于第2n轮性能，则保存第n轮模型，若第n轮性能劣于第2n轮性能，则保存第2n轮模型；

步骤4-2：将最后一轮模型的性能与上一性能更优模型的性能评价指标进行对比，得到所述最佳命名实体识别模型。

步骤5：将经过数据预处理的待识别医疗文本放入步骤4选择的最佳实体识别模型中进行预测，输出BIO标签，并根据BIO标签提取句子中的实体，对待识别医疗文本的数据预处理过程与步骤1-1相同。

案例1如图4所示，在医疗问答系统中，将一段患者的自述作为待识别医疗文本进行预处理，得到句长一致的待识别数据集，将待识别数据集输入最佳命名实体识别模型，输出含有医疗实体类型的BIO标签，根据输出的BIO标签，将其中的B-X标签以及I-X标签筛选出来并提取其中的X实体类型，例如，该段自述中的“眼睛”输出为“B-解剖部位、I-解剖部位”，“糖尿病并发症”输出为“B-疾病、I-疾病、I-疾病、I-疾病、I-疾病、I-疾病”，可知这位患者的病症出现在眼睛这个部位，是由糖尿病并发症引起的眼部的不适症状，基于本发明的模型对这段患者自述进行关键实体信息的提取与整合，提高了在线问诊的效率，为医疗问答系统的构建提供了识别效果更好准确性更高的问题识别环节。

案例2如图5所示，将一例病例中的一段描述作为待识别医疗文本进行预处理，得到句长一致的待识别数据集，将待识别数据集输入最佳命名实体识别模型，输出含有医疗实体类型的BIO标签，根据输出的BIO标签，将其中的B-X标签以及I-X标签筛选出来并提取其中的X实体类型，例如，该段描述中的“腹腔”、“肠管”以及“子宫”都输出为“B-解剖部位、I-解剖部位”，可知该病例中患者的病症出现在腹腔、肠管与子宫，肠管与子宫为腹腔内的附件，即肠管与子宫的病症引发了腹腔不适，基于本发明中的模型对众多病例中的病情进行识别，可将不同类型的病例进行分类并将同类型的病例归类，用于构建医疗案例库。

实施例2

本实施例提供了一种医疗命名实体识别训练装置，包括：

从所述数据集中选择出训练样本集；

实施例3

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如实施例1任一步所述的医疗命名实体识别方法。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种医疗命名实体识别方法，其特征是，包括：

对待识别的医疗文本进行数据预处理，得到待识别数据集；

其中，所述命名实体识别模型的获取方法包括：

从所述数据集中选择出训练样本集；

将所述命名实体识别模型训练后的参数传递给所述初始化后的教师模型并利用已标记医疗实体类型的数据对接受该参数的教师模型进行微调；

所述预先设计的教师模型和预先设计的学生模型结构相同，分别包括：领域BERT，变分BiLSTM及Softmax层；所述领域BERT的输出数据为变分BiLSTM的输入数据，所述变分BiLSTM的输出数据为Softmax层的输入数据，其中BERT为基于Transformer的双向编码器表示技术、BiLSTM为双向长短期记忆网络；

所述将所述训练样本集中已标记医疗实体类型的数据输入预先设计的教师模型，得到初始化后的教师模型，包括：

基于所述医疗领域BERT获得字嵌入；

，

其中，代表矩阵乘积，g_t、o_t分别代表单元门和输出门，且维度均为/>，/>代表h_t的维度，c_t存储当前时刻t及其前面所有时刻的混合信息；

所述混合信息c_t的计算公式为：

，

其中，代表哈达玛积，i_t、f_t分别代表输入门和遗忘门，且维度均为/>，c_t-1存储上一时刻t-1及其前面所有时刻的混合信息；

，

其中，为输出标签y_ij的概率，/>表示教师模型，θ^tea表示教师模型的参数；

所述将所述训练样本集中未标记医疗实体类型的数据输入初始化后的教师模型，得到未标记字的伪标签，包括：

将所述未标记医疗实体类型的数据输入初始化后的教师模型中，通过MC-dropout对所述未标记医疗实体类型的数据中未标记字的标签概率分布进行预测，预测公式如下：

，

其中，p_ij为未标记医疗实体类型的数据中第i个句子的第j个字的标签概率分布，K为采样次数，h_ij为未标记医疗实体类型的数据中第i个句子的第j个字经过变分BiLSTM后的特征向量，W_k为模型权重，且W_k~q(W)，q(W)是dropout分布；

基于预测的未标记字的标签概率分布获取所述伪标签；

所述对所述未标记字的伪标签进行选择，得到选择出的正伪标签和负伪标签，包括：

所述标签选择策略中的不确定性估计的计算公式为：

，

2.根据权利要求1所述的医疗命名实体识别方法，其特征是，所述对获取到的医疗文本进行数据预处理，得到标注有医疗实体类型的数据集，包括：

对所述医疗文本中的句子进行拆分，得到拆分后的单句；

将所述拆分后的单句与预设的句长阈值max_length-2进行比较，对句长超过max_length-2的单句进行截断并用符号[PAD]对句长不足max_length-2的单句进行补充，并在所述句长一致的单句句首置符号[CLS]，句尾置符号[SEP]，得到句长一致的单句；

定义医疗实体类型；

3.根据权利要求2所述的医疗命名实体识别方法，其特征是，将所述正伪标签和负伪标签及其对应的标记数据输入预先设计的学生模型，得到所述命名实体识别模型，包括：

，

其中，M_P为正伪标签数量，M_N为负伪标签数量。

4.根据权利要求3所述的医疗命名实体识别方法，其特征是，方法还包括：从所述数据集中选择出测试集，将所述测试集输入每n轮训练以及最后一轮训练生成的命名实体识别模型，并通过计算命名实体识别模型的识别结果精确率P，召回率R以及综合性能指标F₁值，得到最佳命名实体识别模型，其中：

，

5.一种医疗命名实体识别装置，其特征是，包括：

从所述数据集中选择出训练样本集；

将所述命名实体识别模型训练后的参数传递给所述初始化后的教师模型并利用已标记医疗实体类型的数据对接受该参数的教师模型进行微调；所述预先设计的教师模型和预先设计的学生模型结构相同，分别包括：领域BERT，变分BiLSTM及Softmax层；所述领域BERT的输出数据为变分BiLSTM的输入数据，所述变分BiLSTM的输出数据为Softmax层的输入数据，其中BERT为基于Transformer的双向编码器表示技术、BiLSTM为双向长短期记忆网络；

基于所述医疗领域BERT获得字嵌入；

，

所述混合信息c_t的计算公式为：

，

基于预测的未标记字的标签概率分布获取所述伪标签；

所述标签选择策略中的不确定性估计的计算公式为：

，

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1-3中任一项所述的医疗命名实体识别方法。