CN114049926A

CN114049926A - 一种电子病历文本分类方法

Info

Publication number: CN114049926A
Application number: CN202111254783.2A
Authority: CN
Inventors: 李超凡; 马凯
Original assignee: Xuzhou Medical University
Current assignee: Xuzhou Medical University
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-02-15

Abstract

一种电子病历文本分类方法，对原始电子病历文本数据集进行预处理操作，形成原始语料库，将原始语料库转换为词表T1，利用词向量工具训练词表T1，将词训练表示为低维稠密的词向量，形成词表T2；然后将文本数据集的每条数据以词编号的形式，对应转换为词向量序列作为输入，以CNN‑Attention神经网络和BiLSTM‑Attention神经网络的双通道结构训练文本特征向量，再将双通道结构的输出进行拼接，作为神经网络的总体输出，最后使用softmax分类器计算文本所属标签类别的概率；本发明能够统筹电子病历文本数据集的局部和全局文本特征，具备较好的稳定性和鲁棒性，有效的提升电子病历文本分类模型的效果。

Description

一种电子病历文本分类方法

技术领域

本发明涉及一种分类方法，具体是一种电子病历文本分类方法，属于自然语言处理应用到医疗电子病例技术领域。

背景技术

文本分类是指建立文本与类别之间的关系模型，作为自然语言处理的基础性任务之一，在情感分析、社交平台舆论监测、垃圾邮件识别等方面都具有重大意义。文本分类的主要算法模型，基本上可分为三类：第一类是基于规则、第二类是基于统计和机器学习、第三类是基于深度学习的方法。

第一类基于规则的方法借助于专业人员的帮助，为预定义类别制定大量判定规则，与特定规则的匹配程度作为文本的特征表达，但是受限于人为主观性、规则模板的全面性和可扩展性，最主要的是规则模板完全不具备可迁移性，所以基于规则制定进行文本分类模型并没有得到有效的进展。

第二类基于统计和机器学习的文本分类算法主要包括决策树法(Decision Tree，DT)、朴素贝叶斯算法(Naive Bayesian，NB)、支持向量机算法(SVM)、K-邻近法(K-NearestNeighbors，KNN)等算法。机器学习模型虽然一定程度上提高了文本分类的效果，但是仍需要人为的进行特征选择与特征提取，忽略了特征之间的关联性，通用性以及扩展性较差。

第三类基于深度学习的文本分类算法主要包括卷积神经网络(ConvolutionalNeural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)、长短期记忆神经网络(Long Short-Term Memory,LSTM)等，以及各类神经网络模型的变种融合；随着词向量模型的引入，可以将词序列转换为低维稠密的词向量，并包含丰富的语义信息，使得神经网络模型在文本分类任务得到广泛应用。注意力机制的引入，更加有效的对神经网络输出进行特征筛选与特征加权，降低噪声特征的干扰，获取文本的重要特征。目前应用神经网络组合模型的电子病历文本分类，受限于电子病历高维稀疏的文本特征、文本术语密集、语句成分缺失等问题，会造成模型收敛速度较慢、分类效果不佳的问题。

发明内容

本发明的目的是提供一种电子病历文本分类方法，能够统筹电子病历文本数据集的局部和全局文本特征，具备较好的稳定性和鲁棒性，有效的提升电子病历文本分类模型的效果。

为了实现上述目的，本发明提供一种电子病历文本分类方法，包括以下步骤：

步骤1：对原始电子病历文本数据集进行预处理操作，包括句子分词、去除停用词、低频词，从而形成含有文本条目的原始语料库；

步骤2：将原始语料库转换为包括词编号与词的词表T1，利用词向量工具训练词表T1，将词训练表示为低维稠密的词向量，形成包含词编号和词向量的词表T2；

步骤3：利用步骤2中的词表T1将步骤1的原始语料库的文本条目转换为词编号序列，再利用步骤2中的词表T2将步骤1的原始语料库的文本条目转换为词向量序列；

步骤4：利用步骤3所得的词向量序列作为并行结构的CNN-Attention神经网络和BiLSTM-Attention神经网络的输入，训练文本特征向量；

步骤5：拼接步骤4中CNN-Attention神经网络和BiLSTM-Attention神经网络的输出，作为神经网络的整体输出；

步骤6：连接两个全连接层对步骤5的整体输出进行降维，并使用softmax分类器计算文本所属标签类别的概率，直接输出文本类别的预测结果。

本发明针对原始语料库的任意句子S，结合所述的词表T1与词表T2，得到S在词表T1的转换下为词编号序列S₁＝(x₁,x₂,…,x_n)，在词表T2的转换下为词向量序列S₂＝(w₁,w₂,…,w_n)，其中，x_i是词，w_i是对应的词向量。

本发明的CNN-Attention神经网络采用三层并行式结构，对于词向量序列S₂＝(w₁,w₂,…,w_n)的输入，三层并行式结构中每层输出分别为C₁、C₂与C₃，则对于三层并行式结构的整体输出C表示为：

C＝concatenate([C₁,C₂,C₃],axis＝-1)

其中，concatenate表示concatenate()函数，axis表示维度拼接的方式。

本发明采用Attention机制对三层并行式结构的整体输出C进行特征加权，计算注意力权重得分，并使用softmax函数对注意力权重得分计算权重向量a，对于词向量序列S₂＝(w₁,w₂,…,w_n)的任意位置词向量w_i，将对应的权重向量a_i与输出向量C_i进行点乘与累加，形成CNN-Attention神经网络的输出Att_CNN：

本发明的BiLSTM-Attention神经网络采用双向LSTM神经网络，对于词向量序列S₂＝(w₁,w₂,…,w_n)的输入，对于S₂＝(w₁,w₂,…,w_n)的任意位置的词向量w_i，单向LSTM神经网络进行文本特征训练可获得输出

，则BiLSTM神经网络的输出H由双向LSTM神经网络的输出拼接得到：

本发明采用Attention机制对BiLSTM神经网络的输出H进行特征加权，计算注意力权重得分，并使用softmax函数对注意力权重得分计算权重向量b，对于词向量序列S₂＝(w₁,w₂,…,w_n)的任意位置的词向量w_i，将对应的权重向量b_i与输出向量H_i进行点乘与累加，形成BiLSTM-Attention神经网络的输出Att_BiLSTM：

结合CNN-Attention神经网络的输出Att_CNN和BiLSTM-Attention神经网络的输出Att_BiLSTM，则双通道神经网络的整体输出Output表示为：

Output＝concatenate([Att_CNN,Att_BiLSTM],axis＝1)。

本发明采用softmax分类器计算文本所属标签类别的概率，对于词编号序列S₁＝(x₁,x₂,…,x_n)，对于任意x_i所在的原始语料库中的句子S，模型整体上计算句子S所属标签概率的损失函数Loss可表示为：

其中，

为softmax函数计算得到标签概率的归一化，y为真实标签分布的概率。

本发明的词向量工具为word2vec，默认skip-gram模型。

与现有技术相比，本发明首先对原始电子病历文本数据集进行预处理操作，从而形成原始语料库，通过词向量工具word2vec训练原始语料库，默认skip-gram模型，得到低维稠密的词向量，然后将文本数据集的每条数据以词编号的形式，对应转换为词向量序列作为输入，以CNN-Attention神经网络和BiLSTM-Attention神经网络的双通道结构训练文本特征向量，再将双通道结构的输出进行拼接，作为神经网络的总体输出，最后使用softmax分类器计算文本所属标签类别的概率；本发明提取了文本的局部特征和上下文关联信息，然后以注意力机制对各通道的输出信息进行特征加权，凸显特征词在上下文信息的重要程度，最后将输出结果进行融合，获取更为全面的文本特征，互补了CNN和BiLSTM提取特征的缺点，有效的缓解了因CNN丢失词序信息和BiLSTM处理文本序列的梯度问题；本发明能够统筹电子病历文本数据集的局部和全局文本特征，具备较好的稳定性和鲁棒性，有效的提升电子病历文本分类模型的效果。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，一种电子病历文本分类方法，包括以下步骤：

步骤1：对原始电子病历文本数据集进行预处理操作，包括句子分词、去除停用词、低频词，从而形成包含文本条目的原始语料库；

步骤2：将原始语料库转换为包括词编号与词的词表T1，通过词向量工具word2vec训练原始语料库，默认skip-gram模型，得到低维稠密的词向量，训练词表T1，将词训练表示为低维稠密的词向量，形成包含词编号和词向量的词表T2；

实施例

首先，收集并构造原始电子病历文本数据集，实验数据集来自徐州医科大学附属医院真实电子病历文本，对数据集进行脱敏处理后，从入院记录、病程记录与诊疗计划等方面，合理筛选包含疾病与诊断、症状与体征与治疗方面的1000条病历描述句，包含500条糖尿病数据与500条帕金森病数据。

对于原始电子病历数据集，首先利用Jieba分词模块以精确模式对文本序列进行分词处理，在分词任务结束后，结合停用词表遍历分词结果，去除停用词，形成原始语料库。

将原始语料库转换为词表T1，包括词编号与词，利用word2vec词向量工具训练词表T1，默认skip-gram模型，将词训练表示为低维稠密的词向量，形成词表T2，包含词编号和词向量。

针对原始语料库的任意句子S，结合所述的词表T1与词表T2，得到S在词表T1的转换下为词编号序列S₁＝(x₁,x₂,…,x_n)，在词表T2的转换下为词向量序列S₂＝(w₁,w₂,…,w_n)，其中，x_i是词，w_i是对应的词向量。

C＝concatenate([C₁,C₂,C₃],axis＝-1)

Output＝concatenate([Att_CNN,Att_BiLSTM],axis＝1)。

其中，

本发明实验软件环境为Window10操作系统，Python3.6编程语言，深度学习框架Tensorflow1.14.0，Keras2.2.5，分词工具jieba0.42；电子病历文本数据集采用交叉验证的方式进行实验，按照3:1:1的比例划分训练集、验证集与测试集；常采用精确率(Preciscion，P)、召回率(Recall，R)及F1值(F-measure)作为评价文本分类模型性能的指标：

其中，TP为正确文本预测为正确类别数目；FP为错误文本预测为正确类数目，FN为正确文本预测为错误类数目，F1值即为精确率与召回率的调和平均值。

为了验证本发明所提方法的有效性，设置了四组对比实验：

(1)CNN-Attention：先利用CNN提取输入序列的局部特征，Attention机制对文本特征进行特征加权，降低噪声特征对分类效果的影响；

(2)BiLSTM-Attention：BiLSTM对输入序列构造前后文语义信息，提取病历文本的高层特征，Attention机制对文本特征进行特征加权，降低噪声特征对分类效果的影响；

(3)CNN-BiLSTM-Attention：先利用CNN提取输入序列的局部特征，再利用BiLSTM提取CNN输出的前后向语义信息，进一步构建病历文本的特征表达，然后使用Attention机制对文本特征进行特征加权，降低噪声特征对分类效果的影响。

(4)本发明的分类方法

经多轮实验，并对实验结果进行交叉验证，各类方法的模型评价结果如下表所示，

表1四种不同方法模型的文本分类结果(单位：％)

模型	精确率P	召回率R	F1值
				(1)	96.82	96.68	96.75
(2)	95.09	94.92	95.00
				(3)	98.02	97.78	97.90
(4)	98.84	98.87	98.85

通过上表的实验结果可以得出，本发明的分类方法在评价指标结果中取得了最优异的效果，由此可以得到本发明分类方法在文本分类任务中的优越性。

Claims

1.一种电子病历文本分类方法，其特征在于，包括以下步骤：

步骤1：对原始电子病历文本数据集进行预处理操作，包括句子分词、去除停用词、去除低频词，从而形成含有文本条目的原始语料库；

2.根据权利要求1所述的一种电子病历文本分类方法，其特征在于，针对原始语料库的任意句子S，结合所述的词表T1与词表T2，得到S在词表T1的转换下为词编号序列S₁＝(x₁,x₂,…,x_n)，在词表T2的转换下为词向量序列S₂＝(w₁,w₂,…,w_n)，其中，x_i是词，w_i是对应的词向量。

3.根据权利要求2所述的一种电子病历文本分类方法，其特征在于，CNN-Attention神经网络采用三层并行式结构，对于词向量序列S₂＝(w₁,w₂,…,w_n)的输入，三层并行式结构中每层输出分别为C₁、C₂与C₃，则对于三层并行式结构的整体输出C表示为：

C＝concatenate([C₁,C₂,C₃],axis＝-1)

4.根据权利要求3所述的一种电子病历文本分类方法，其特征在于，采用Attention机制对三层并行式结构的整体输出C进行特征加权，计算注意力权重得分，并使用softmax函数对注意力权重得分计算权重向量a，对于词向量序列S₂＝(w₁,w₂,…,w_n)的任意位置词向量w_i，将对应的权重向量a_i与输出向量C_i进行点乘与累加，形成CNN-Attention神经网络的输出Att_CNN：

5.根据权利要求4所述的一种电子病历文本分类方法，其特征在于，BiLSTM-Attention神经网络采用双向LSTM神经网络，对于词向量序列S₂＝(w₁,w₂,…,w_n)的输入，对于S₂＝(w₁,w₂,…,w_n)的任意位置的词向量w_i，单向LSTM神经网络进行文本特征训练可获得输出

则BiLSTM神经网络的输出H由双向LSTM神经网络的输出拼接得到：

6.根据权利要求4所述的一种电子病历文本分类方法，其特征在于，采用Attention机制对BiLSTM神经网络的输出H进行特征加权，计算注意力权重得分，并使用softmax函数对注意力权重得分计算权重向量b，对于词向量序列S₂＝(w₁,w₂,…,w_n)的任意位置的词向量w_i，将对应的权重向量b_i与输出向量H_i进行点乘与累加，形成BiLSTM-Attention神经网络的输出Att_BiLSTM：

7.根据权利要求6所述的一种电子病历文本分类方法，其特征在于，结合CNN-Attention神经网络的输出Att_CNN和BiLSTM-Attention神经网络的输出Att_BiLSTM，则双通道神经网络的整体输出Output表示为：

Output＝concatenate([Att_CNN,Att_BiLSTM],axis＝1)。

8.根据权利要求6所述的一种电子病历文本分类方法，其特征在于，采用softmax分类器计算文本所属标签类别的概率，对于词编号序列S₁＝(x₁,x₂,…,x_n)，对于任意x_i所在的原始语料库中的句子S，模型整体上计算句子S所属标签概率的损失函数Loss可表示为：

其中，

9.根据权利要求6所述的一种电子病历文本分类方法，其特征在于，词向量工具为word2vec，默认skip-gram模型。