CN112562809A

CN112562809A - 一种基于电子病历文本进行辅助诊断的方法及系统

Info

Publication number: CN112562809A
Application number: CN202011471126.9A
Authority: CN
Inventors: 李晖; 张大斌; 冯刚; 韦海涛
Original assignee: Guizhou Xiaobao Health Technology Co ltd; Guizhou University
Current assignee: Guizhou Xiaobao Health Technology Co ltd; Guizhou University
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-26

Abstract

本发明提供了一种基于电子病历文本进行辅助诊断的方法，属于医疗保健信息学领域，采用多种文本分类模型，分别对多种电子病历文本进行疾病分类；电子病历文本包含两种，分别为单次问诊活动得到的病历文本、多次观察得到的病历文本。本发明还提供一种基于电子病历文本进行辅助诊断的系统，包含预处理单元组和分类单元组。本发明通过多种模型对应多种文本的方式，能够考虑到文本作为输入数据的数据性质差异，从而使得模型进行疾病分类时数据性质差异影响更小，整体准确率更高，准确率上限更高，更容易以较低成本获得更好的诊断分类效果。

Description

一种基于电子病历文本进行辅助诊断的方法及系统

技术领域

本发明涉及一种基于电子病历文本进行辅助诊断的方法及系统，属于医疗保健信息学领域。

背景技术

现有技术中有基于电子病历文本对患者病情进行诊断的方法如申请号为CN201910594042.5的中国发明专利公开了一种自动生成诊断结果的方法、系统及计算机设备，能对文本内容提取有用信息，并构建模型训练生成诊断结果。本申请的发明人发现：这种对文本内容不加区分的处理，会导致文本作为模型的输入数据，其本身就具有较大的偏差，具体到实践当中的情况，如单次问诊得到的病历文本用语简短精炼，相比普通文本更偏向于短句，重要信息在句中均匀分布，句间依赖较弱，而对患者进行长期观察所得到的病历文本的描述大多更加详细，且包含了对疾病诊断至关重要的时间信息。将这两类不同性质的病历文本作为同一模型的文本源，输入数据的差异必然导致模型准确度上限偏低，从而难以实现足够高的准确率。

发明内容

为解决上述技术问题，本发明提供了一种基于电子病历文本进行辅助诊断的方法，该基于电子病历文本进行辅助诊断的方法通过多种模型对应多种文本的方式，能够考虑到文本作为输入数据的数据性质差异，从而使得模型进行疾病分类时数据性质差异影响更小。

本发明通过以下技术方案得以实现。

本发明提供的一种基于电子病历文本进行辅助诊断的方法，采用多种文本分类模型，分别对多种电子病历文本进行疾病分类；电子病历文本包含两种，分别为单次问诊活动得到的病历文本、多次观察得到的病历文本。

所述多种文本分类模型，包含TextCNN模型和TextRNN模型。

所述TextCNN模型对单次问诊活动得到的病历文本进行疾病分类；所述TextRNN模型对多次观察得到的病历文本进行疾病分类。

所述电子病历文本经预处理并生成词向量后进行疾病分类；在文本分类模型训练时，在对电子病历文本生成词向量后还进行增广处理。

所述生成词向量，为应用Word2Vec模型映射为向量后应用Skip-Gram算法生成。所述增广处理，为应用如下几种方式中的至少一种进行处理：

a.同义词替换：从原句中随机选择单词，并用同义词语料库中的同义词对所选单词进行替换；

b.随机交换：在原句中随机选择两个单词交换位置；

c.随机删除：在原句中随机选择至少一个单词删除。

所述TextCNN模型中和TextRNN模型，均包含1层嵌入层，2层隐藏层及2层全连接层；TextCNN模型和TextRNN模型的嵌入层规格为600×100。

所述TextRNN模型中，每层隐藏层均包含LSTM或GRU单元。

本发明还提供一种基于电子病历文本进行辅助诊断的系统，包含预处理单元组和分类单元组；

分类单元组包含TextCNN模型单元和TextRNN模型单元；

预处理单元组获取多种电子病历文本并进行预处理，并将单次问诊活动得到的病历文本所得到的处理结果发送至TextCNN模型单元，将多次观察得到的病历文本发送至TextRNN模型单元。

所述预处理单元组包含输入单元、语料预处理单元、词向量单元、增广处理单元、输出单元；

输入单元：获取电子病历文本，标记电子病历文本的类型；

语料预处理单元：基于停用词语料库，对电子病历文本中内容无关词汇进行删除；

词向量单元：基于Word2Vec模型和Skip-Gram算法对电子病历文本进行生成词向量处理；

增广处理单元：判断是否文本分类模型训练时，如否则跳过，如是则进行增广处理；

输出单元：根据电子病历文本的类型，将生成词向量的电子病历文本发送至TextCNN模型单元或TextRNN模型单元。

本发明的有益效果在于：通过多种模型对应多种文本的方式，能够考虑到文本作为输入数据的数据性质差异，从而使得模型进行疾病分类时数据性质差异影响更小，整体准确率更高，准确率上限更高，更容易以较低成本获得更好的诊断分类效果。

附图说明

图1是本发明一种实施方式的流程示意图；

图2是本发明一种实施方式的模块示意图。

具体实施方式

如下结合实施例进一步对本发明进行说明，但保护范围不局限于所述。

实施例1

如图1所示的一种基于电子病历文本进行辅助诊断的方法，采用TextCNN模型和TextRNN模型，分别对单次问诊活动得到的病历文本和多次观察得到的病历文本，经预处理并生成词向量后进行疾病分类。

当需要对TextCNN模型和TextRNN模型进行训练时，在对电子病历文本生成词向量后还进行增广处理。

预处理并生成词向量的一种典型过程，为如下步骤：

1)基于停用词语料库，将电子病历文本中高频出现但与内容表达无关的词汇去除；

2)应用Word2Vec模型技术，将电子病历文本词汇映射为向量为后续分类任务提供基础语义模型；

3)基于上述基础语义模型，应用Skip-Gram算法生成词向量针对电子病历文本数据通常因存在数据规模较小、类别不均衡等特性，从而容易影响到模型精度和鲁棒性的问题，采用了EDA(Easy Data Augmentation)这种文本数据增广技术增加可用于模型训练的数据。具体处理方法：通过同义词替换、随机插入、随机交换、随机删除四种手段生成新数据以达到增广效果。其中，同义词替换即从原句中随机选择单词，并用同义词语料库中的词语对这些单词进行替换。随机插入则是将替换的同义词插入原句子中的随机位置。随机交换指在句子中随机选择两个单词并交换它们的位置。随机删除则将以一定概率对原句中的单词进行随机删除。

TextCNN模型中和TextRNN模型，均包含1层嵌入层，2层隐藏层及2层全连接层；TextCNN模型和TextRNN模型的嵌入层规格为600×100。

TextRNN模型中，每层隐藏层均包含LSTM或GRU单元。

实施例2

如图2所示的一种基于电子病历文本进行辅助诊断的系统，包含预处理单元组和分类单元组；

分类单元组包含TextCNN模型单元和TextRNN模型单元；

预处理单元组包含输入单元、语料预处理单元、词向量单元、增广处理单元、输出单元；

输入单元：获取电子病历文本，标记电子病历文本的类型；

本发明的核心思想在于：电子病历中主要包括患者对病情症状的主诉、患者本人现病史、既往病史及家族病史等描述性词语或短句，通常以自然语言的形式产生在问诊阶段，由于记录人员和疾病的差异，电子病历的内容也有很大的不同。单次问诊得到的病历文本用语简短精炼，相比普通文本更偏向于短句，重要信息在句中均匀分布，句间依赖较弱，而对患者进行长期观察所得到的病历文本的描述大多更加详细，且包含了对疾病诊断至关重要的时间信息，因此在电子病历文本数据诊断模型的设计上分别采用了TextCNN和TextRNN两种模型，以分别处理不同类型的电子病历文本数据。

TextCNN是一种用于文本分类任务的卷积神经网络，其优势在于可以捕捉文本中的局部相关性，其简洁的网络框架使得模型对文本浅层特征的抽取能力很强，对短文本分类任务友好。且由于CNN的高速并行性，可大大减少训练时长。针对短句类型的电子病历，本发明的TextCNN电子病历诊断模型在原始TextCNN模型的基础上对嵌入层(EmbeddingLayer)及部分参数做了修改和调整，具体结构和参数如下表1所示。

表1 TextCNN模型和TextRNN模型架构超参表

模型的嵌入层采用了预训练生成的词向量，并在模型训练过程中对预训练的词向量采用了静态模式，即对于出现过的词语使用预训练的词向量进行初始化，而对于那些在预训练中没有出现的单词则随机初始化，在之后的网络权重更新过程中不再对词向量参数进行调整。由于经过词向量表达的文本为一维数据，因此模型的卷积层采用了一维卷积并通过设计不同尺寸的卷积核以提取不同视野尺寸的特征。

由于卷积核的特性，TextCNN虽能捕捉关键词是否在文本中出现及相似度强度分布，但会错失关键词出现的次数及顺序，这导致CNN无法建模更长的序列信息。因此，本文针对电子病历长文本数据设置了如表1所示的TextRNN电子病历诊断模型，包括1层嵌入层，2层隐藏层及2层全连接层。网络保持TextCNN的嵌入层设置不变，采用2层128个LSTM或GRU单元进行隐藏层的构造，并对LSTM或GRU单元的输出根据句子维度取平均值，平均后的向量视作包含整个句子信息的向量，输入全连接层以完成疾病类别诊断。

实施例3

融合上述方案的另一种实现，通过融合诊断过程中产生的多种临床数据进行分析，得出更精准的辅助诊断结论。具体采用如下三阶段：

第一阶段：数据预处理

第一步：电子病历文本数据预处理

基于停用词语料库，将电子病历文本中高频出现但与内容表达无关的词汇去除；

应用Word2Vec模型技术，将电子病历文本词汇映射为向量为后续分类任务提供基础语义模型；

基于上述基础语义模型，应用Skip-Gram算法生成词向量；

对电子病历文本数据进行数据增广处理：

针对电子病历文本数据通常因存在数据规模较小、类别不均衡等特性，从而容易影响到模型精度和鲁棒性的问题，采用了EDA(Easy Data Augmentation)这种文本数据增广技术增加可用于模型训练的数据。具体处理方法：通过同义词替换、随机插入、随机交换、随机删除四种手段生成新数据以达到增广效果。其中，同义词替换即从原句中随机选择单词，并用同义词语料库中的词语对这些单词进行替换。随机插入则是将替换的同义词插入原句子中的随机位置。随机交换指在句子中随机选择两个单词并交换它们的位置。随机删除则将以一定概率对原句中的单词进行随机删除。

第二步：医学图像数据预处理

空间配准：将原始医疗图像映射到标准空间，实现空间配准；

偏置场校正：使用FSL工具实现影像的偏置场校正；

人体组织自动提取：基于现有的人体组织自动提取技术，对图像中的部分组织进行自动化提取；

其它预处理：影像的裁剪、大小重整及体素归一化等通用预处理；

数据增广处理：医学图像的水平翻转、垂直翻转你、旋转变换等。

第三步：检查检验指标数据预处理

在预处理阶段并未对输入的数据进行降维等特征选择，仅设计缺失值补全等常见数据清理步骤；

在传入待分析数据之前，采取独特编码的方式对患者的个人基本信息、检查检验指标等数据中的离散变量和类别标签进行了编码，使得特征之间的距离计算更加合理。

第二阶段：针对各类数据分别构建诊断模型

第一步：基于电子病历文本数据的诊断模型

采取上述实施例2的方案。

第二步：基于医学图像数据的诊断模型

医学影像是常见的辅助检查手段之一，针对人体不同的位置，基于卷积算法实现AlexNet、ResNet18及Resnet50三个分类模型，以适用于不同数据集规模下的医学影像分类任务。

经典卷积神经网络AlexNet在保证模型精度的同时可使得训练时间最少。除此之外，由于其简洁的网络结构，能减轻在小数据集上发生的过拟合情况，使得模型获得更好的泛化效果。模型包括5层卷积层，3层最大池化层和3层全连接层。为了避免训练过程中可能出现的梯度消失情况，在部分卷积层和全连接层使用了ReLU激活函数，减少了参数之间的相互依赖关系并减少了计算量。同时，在每个全连接层之间均使用Dropout正则化函数，在训练中以一定概率隐藏部分神经单元，从而达到减轻过拟合的效果。

虽然AlexNet的11层网络架构能以一个尚可的准确率完成大多数图像分类任务，但对于有充足的训练时间和计算资源的分类任务来说，AlexNet模型的深度限制了其获得更高准确率的可能。因此对于这类任务采用ResNet18医学影像诊断模型和ResNet50医学影像诊断模型两种网络结构。ResNet18和ResNet50的实现都遵循了基本的ResNet架构，由1个卷积层、4个由多个卷积层和残差函数组成的残差块以及1个全连接层组成。同时每个卷积层间都使用了ReLU激活函数，在全连接层后也进行了Dropout。而两者的不同仅存在于每个残差块中包含的卷积层数量及参数设置上。

第三步：基于者基本信息和检查检验指标数据的诊断模型

针对临床数据中的患者基本信息(人口特征)及检查指标等结构化数据，本方法使用XGBoost算法进行针对模型的构建。

所用XGBoost算法包含了十五个参数，涵盖了算法的基分类器、学习目标、学习步长、子分类器节点深度和权重等。由于参数众多，因此本方法使用了网格搜索算法进行参数选择和优化，以获得更优的参数组合并达到更好的训练效果。为了防止模型在训练过程中出现的过拟合现象，同时使得模型能够在数据量级不大的情况下尽可能多的使用数据进行训练，在模型训练时使用了十折交叉验证，以保证模型准确率的可靠性。

第三阶段：对前述多种模态数据的辅助诊断模型进行融合以最终进行辅助诊断为了便于系统后续扩展，在对电子病历文本数据、医学图像数据、检查检验指标数据等异构多模态临床数据的融合分析方法进行选择时，采用了一种较灵活的，适用范围较广的多模态数据融合策略，即决策级融合策略。这一策略允许不同模态数据训练各自的模型，在决策级层面对所有子模型的结果进行融合分析，最终得到全局最优决策。这就意味着可以通过加入新的诊断模型扩展系统适用场景，同时不会影响原有的模型和融合方法。根据适用场景的不同，决策级融合策略所采用的具体融合方法也有所不同。本阶段实现了投票法和权重法两种常见的决策级融合方法，以适用于大多数场景下的异构临床数据的融合分析。

Claims

1.一种基于电子病历文本进行辅助诊断的方法，其特征在于：采用多种文本分类模型，分别对多种电子病历文本进行疾病分类；电子病历文本包含两种，分别为单次问诊活动得到的病历文本、多次观察得到的病历文本。

2.如权利要求1所述的基于电子病历文本进行辅助诊断的方法，其特征在于：所述多种文本分类模型，包含TextCNN模型和TextRNN模型。

3.如权利要求2所述的基于电子病历文本进行辅助诊断的方法，其特征在于：所述TextCNN模型对单次问诊活动得到的病历文本进行疾病分类；所述TextRNN模型对多次观察得到的病历文本进行疾病分类。

4.如权利要求1所述的基于电子病历文本进行辅助诊断的方法，其特征在于：所述电子病历文本经预处理并生成词向量后进行疾病分类；在文本分类模型训练时，在对电子病历文本生成词向量后还进行增广处理。

5.如权利要求4所述的基于电子病历文本进行辅助诊断的方法，其特征在于：所述生成词向量，为应用Word2Vec模型映射为向量后应用Skip-Gram算法生成。

6.如权利要求4所述的基于电子病历文本进行辅助诊断的方法，其特征在于：所述增广处理，为应用如下几种方式中的至少一种进行处理：

b.随机交换：在原句中随机选择两个单词交换位置；

c.随机删除：在原句中随机选择至少一个单词删除。

7.如权利要求2所述的基于电子病历文本进行辅助诊断的方法，其特征在于：所述TextCNN模型中和TextRNN模型，均包含1层嵌入层，2层隐藏层及2层全连接层；TextCNN模型和TextRNN模型的嵌入层规格为600×100。

8.如权利要求7所述的基于电子病历文本进行辅助诊断的方法，其特征在于：所述TextRNN模型中，每层隐藏层均包含LSTM或GRU单元。

9.一种基于电子病历文本进行辅助诊断的系统，其特征在于：包含预处理单元组和分类单元组；

分类单元组包含TextCNN模型单元和TextRNN模型单元；

10.如权利要求9所述的基于电子病历文本进行辅助诊断的系统，其特征在于：所述预处理单元组包含输入单元、语料预处理单元、词向量单元、增广处理单元、输出单元；

输入单元：获取电子病历文本，标记电子病历文本的类型；