CN113990420A

CN113990420A - 一种电子病历命名实体识别方法

Info

Publication number: CN113990420A
Application number: CN202111214838.7A
Authority: CN
Inventors: 李超凡; 马凯
Original assignee: Xuzhou Medical University
Current assignee: Xuzhou Medical University
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-01-28

Abstract

一种电子病历命名实体识别方法，首先以预训练语言模型的字向量和词向量对原始电子病历数据集的文本序列进行向量化表示，作为神经网络的输入，然后使用并行结构的多头自注意力机制模块与BiLSTM神经网络模块分别对输入的向量进行训练，神经网络层的输出由两个模块的输出向量进行拼接获得，表征多层面更为丰富的文本特征和特征关联权重，最后利用CRF对神经网络层的输出进行解码和序列标注，输出实体预测标签。本发明构建的电子病历命名实体识别模型能够全面的对文本序列进行建模和预测，模型性能更为优异，且能够确保实体识别更加快速、精确的进行。

Description

一种电子病历命名实体识别方法

技术领域

本发明是一种电子病历命名实体识别方法，属于自然语言处理技术领域。

背景技术

医院信息系统的应用加速了医疗信息化的发展，承载了海量的包含患者临床诊疗的电子病历。面对非结构化文本存储类型的医学临床信息，如何进行有效的数据挖掘和知识发现是自然语言处理在医疗领域的研究重点。

命名实体识别(Named Entity Recognition，NER)作为自然语言处理研究的关键基础任务之一，旨在从非结构化文本中识别出具备特定意义的实体，如人名、地名和组织机构等专有名词，为实现关系抽取、知识图谱等任务做基础。在医疗电子病历领域，主要是挖掘与临床知识密切相关的医学知识。

命名实体识别早期主要基于规则和字典的方法，但需要消耗大量的精力进行人工标注，并且规则可用性较差，导致规则无法普及使用。基于机器学习模型包括最大熵模型(Maximum Entropy Models，MEM)、隐马尔可夫模型(Hidden Markov Models，HMM)、支持向量机(SVM)、条件随机场(Conditional Random Fields，CRF)等，虽然具备良好的灵活性和鲁棒性，但是存在需要大量标注集和过度依赖特征选择的正确性等缺点。随着深度学习神经网络技术的不断涌现，逐渐摒弃人工对数据的预处理，实现自动化的提取特征，相比于传统的基于统计规则或基于机器学习算法，具有避免人工提取特征的高成本与复杂性、降低对分词的依赖性、增强模型泛化性的优点。BiLSTM-CRF作为中文命名实体识别模型主流的架构，虽然可以有效的建立上下文关联信息，但是并没有考虑到不同词语、字符在句子中的重要性，识别结果仍有进一步提升的空间。

发明内容

本发明的目的是提供一种电子病历命名实体识别方法，通过全面的对文本序列进行建模和预测，模型性能更为优异，能够确保实体识别更加快速、精确的进行。

为了实现上述目的，本发明提供一种电子病历命名实体识别方法，包括以下步骤：

步骤1：电子病历数据集引入医学术语词典后经预处理获得原始语料库，并对词进行随机向量初始化，得到电子病历词向量查找表word_emb；结合相同领域内大规模未标注病历文本训练低维稠密字向量和词向量，形成预训练语言模型，对于电子病历的文本输入序列S＝(w₁,w₂,…,w_n)，其中，w_i为句子内的词语，w_i内含有m个字，则对于电子病历词向量查找表word_emb的词向量表示可由预训练语言模型的字向量查找表vec_char和词向量查找表vec_word进行匹配赋值得到：

式中：e_i为预训练语言模型的词向量查找表vec_word中的词向量；

p_ij是预训练语言模型的字向量查找表vec_char中的字向量；

步骤2：依据步骤1所获得的电子病历词向量查找表word_emb，对于电子病历的文本输入序列S的向量化表示vec_input：

vec_input＝w_i∩word_emb,w_i∈S；

步骤3：依据步骤2所获得的电子病历的文本输入序列S的向量化表示vec_input，作为以并行结构组成的神经网络层的输入，并分别输入到BiLSTM神经网络模块和多头自注意力模块，以BiLSTM神经网络模块对输入向量进行训练获得文本序列的上下文特征，得到输出向量H_t，以多头自注意力模块对输入向量进行训练获得文本序列的全局特征和特征关联权重，得到输出向量Att_t；

步骤4：对步骤3所获得的输出向量H_t和Att_t进行拼接，以此作为神经网络层的整体输出文本特征向量O_t；

步骤5：利用CRF层对步骤4所获得的文本特征向量O_t进行解码和预测，设定电子病历的文本输入序列S的标签序列y＝{y₁,y₂,…,y_n}，通过文本特征向量O＝(O₁,O₂,…,O_n)，计算输出标签序列y的条件概率：

P(y|O)＝CRF(O,y)；

步骤6：对于步骤1的电子病历的文本输入序列S＝(w₁,w₂,…,w_n)，步骤4的文本特征向量O_t，步骤5的标签序列y的条件概率，将条件概率最大的预测标签y^*作为电子病历的文本输入序列S的最终输出标签序列：

y^*＝argmaxP(y|O)。

本发明步骤1中的预处理为分句和分词。

本发明步骤3中输出向量H_t由双向长短期记忆网络LSTM训练的输出向量拼接得到：

与现有技术相比，本发明提出的模型主要包含四层：输入层、神经网络层、CRF层以及输出层。首先通过引入医学术语词典，结合相同领域内大规模未标注病历文本训练字符向量和词向量，通过字和词融合的方式对电子病历的文本输入序列进行向量表示，再分别输入到BiLSTM神经网络模块和多头自注意力模块，其中BiLSTM神经网络模块用于学习文本序列的时序特征和上下文信息，自注意力机制用于获取文本序列的全局特征以及词语之间的关联强度，神经网络层的输出由两个模块的输出向量进行拼接获得，表征多层面更为丰富的文本特征和特征关联权重，最后利用CRF对神经网络层的输出进行解码和序列标注，输出实体预测标签。本发明构建的电子病历命名实体识别模型能够全面的对文本序列进行建模和预测，模型性能更为优异，能够确保实体识别更加快速、精确的进行。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，一种电子病历命名实体识别方法，包括以下步骤：

步骤1：电子病历数据集引入医学术语词典后经分句和分词后获得原始语料库，并对词进行随机向量初始化，得到电子病历词向量查找表word_emb；结合相同领域内大规模未标注病历文本训练低维稠密字向量和词向量，形成预训练语言模型，对于电子病历的文本输入序列S＝(w₁,w₂,…,w_n)，其中，w_i为句子内的词语，w_i内含有m个字，则对于电子病历词向量查找表word_emb的词向量表示可由预训练语言模型的字向量查找表vec_char和词向量查找表vec_word进行匹配赋值得到：

式中：word_emb_i为电子病历词向量查找表word_emb的第i个词；

e_i为预训练语言模型的词向量查找表vec_word中的词向量；

p_ij是预训练语言模型的字向量查找表vec_char中的字向量；

vec_input＝w_i∩word_emb,w_i∈S；

该步骤4为一个时序过程，对于t时刻，由输出向量H_t和Att_t进行拼接形成文本特征向量O_t，O_t可代表任意时刻的文本特征向量，所有时刻的文本特征向量O_t组成了O，O可以称为文本特征向量，也可以称为文本特征向量矩阵；

P(y|O)＝CRF(O,y)；

y^*＝argmaxP(y|O)。

所述步骤3中输出向量H_t由双向长短期记忆网络LSTM训练的输出向量拼接得到：

本发明提出一种电子病历命名实体识别方法，利用字符和词语结合的方法，按照多头自注意力机制模块和BiLSTM神经网络模块的并行结构，学习电子病历文本语义关联信息的多层面特征，捕获句子的内部结构特征与依赖关系，以此提升中文临床命名实体识别模型的效果。

为了验证本发明模型的有效性，在2019年全国知识图谱与语义计算大会的命名实体识别任务上进行测评，同时设置四组对比实验进行模型比较，对比模型设计如下：

(1)简称记为：BiLSTM-CRF，以字词向量融合的形式，利用BiLSTM神经网络进行文本特征向量训练，以CRF进行解码和预测。

(2)简称记为：BiLSTM-CRF-SA，在(1)的基础上，以Self-attention对BiLSTM的输出向量进行权重分配，再利用CRF进行解码和预测。

(3)简称记为：BiLSTM-CRF-MHSA，在(1)的基础上，利用Multi-head Self-attention对BiLSTM的输出向量计算特征关联权重，再利用CRF进行解码和预测。

(4)本发明的模型，简称记为：MHSA-BiLSTM-CRF，在(1)的基础上，依据步骤1—6的方式进行电子病历的命名实体识别。

实体识别模型采用了精确率(precision)、召回率(recall)和F值(F-score)作为评价指标；精确率能够表示预测结果中正例样本是真正正例的比例，召回率能够表示出标准答案中的正例样本被正确预测的比例；F值是精确率和召回率的调和平均值，能够平衡衡量精确率和召回率两个指标；correct表示标注正确的实体个数，recognized表示总共标注出的实体个数，entities为标准答案总共包含的实体个数，则精确率、召回率、F值的具体计算方法如下公式所示：

则实验结果如表1所示：

本发明的模型在多个对比实验的结果中取得了最优异的效果，在精确率、召回率和F值都取得了最好的识别结果，F-score达到了82.95％，证明了模型对于命名实体识别任务的有效性。

Claims

1.一种电子病历命名实体识别方法，其特征在于，包括以下步骤：

p_ij是预训练语言模型的字向量查找表vec_char中的字向量；

vec_input＝w_i∩word_emb,w_i∈S；

P(y|O)＝CRF(O,y)；

y^*＝arg max P(y|O)。