CN115101198B

CN115101198B - 一种面向临床问诊记录的疾病预测方法与装置

Info

Publication number: CN115101198B
Application number: CN202210480067.4A
Authority: CN
Inventors: 杨鹏; 谢亮亮; 王超余; 马卫东
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2024-06-21
Anticipated expiration: 2042-05-05
Also published as: CN115101198A

Abstract

本发明公开了一种面向临床问诊记录的疾病预测方法与装置，方法包括以下步骤：临床缩略语的自动识别和资料采集；数据预处理；模型训练；模型测试与疾病预测。本发明借助注意力机制对重要内容的关注，构建了基于分层的双向GRU神经网络训练方法，将人借助外部资料理解缩略语本身含义的方式应用到疾病预测方法中，进而保证预测方法的准确性和可解释性。本发明打破了以往只关注源临床文本的方式，设计了自动识别缩略语和收集资料的装置，以扩展缩略语的知识信息，有效地提高缩略语的信息含量，使临床问诊记录整体的信息得到丰富，进一步提高疾病预测的准确性。

Description

一种面向临床问诊记录的疾病预测方法与装置

技术领域

本发明涉及一种面向临床问诊记录的疾病预测方法与装置，属于互联网和人工智能技术领域。

背景技术

随着人们健康意识的不断提高，临床问诊记录成为了人们评估早期患病风险的重要依据。临床问诊记录中包含着患者的身体状态、患病历史、治疗经过、发病症状描述等信息，这些信息的记录方式通常是非标准的自由文本，记录人经常会使用简短而方便标记的专业术语、缩略词、专业词汇等进行书写，我们将此类短语称为缩略语。缩略语的大量存在会使得临床问诊难以被人们直接理解，为了解决阅读困难和理解偏差，人们通常需要借助有关该缩略语的解释文字、说明文档等资料帮助理解。这种理解信息的方式对人工智能在医疗领域的发展与应用是有启发意义的，借助外部相关的资料，可以帮助人工智能疾病预测模型理解问诊记录中的缩略语，丰富缩略语的特征信息，从而帮助相关模型进行更有效的风险预测。

对于临床问诊记录进行疾病预测的方法一般有基于标准输入结构、人工提取特征的机器学习方法，如随机森林，XGBoost等，也有基于分层神经网络结构的、自动学习特征表示的深度学习方法。机器学习方法通常需要人工将相关数据整理成固定统一的格式，如表格型，数据中的特征也是按照研究的侧重点人工划分并统计标记的。这类方法十分依赖人对数据特征的关注和挖掘，在已经经过特征工程的数据集上可以得到一定的应用。但是在临床问诊记录中，为了记录的方便记录者经常会使用非正式的书写标记、写作风格、冗余信息，此类记录难以通过人工抽取特征来建模疾病预测，完全依赖人工的方式也会十分耗时耗力。

基于分层神经网络结构的、自动学习特征表示的深度学习方法如循环神经网络(Recurrent Neural Network,RNN)、长短期神经网络(Long short-term memory,LSTM)、预训练模型Bert，都是通过建模原始输入的词向量，通过隐藏层的向量融合表示和反向传播等机制自动地抽取原始输入的特征表示，进一步应用到各种非标准输入的各种任务中去，如推理、预测分类等，不需要依赖人工进行特征工程，只需要简单的预处理等工作，这对很多人工智能对临床问诊记录做疾病预测是十分契合的。然而，多数研究者都将研究的重点集中在如何利用注意力机制获取记录中的重要信息或学习更多更复杂向量表示融合进隐藏层信息上。这种做法只注重从原文信息上关注重点部分，缺乏信息的缩略语等标记容易因为得信息不充分而得不到应有的关注，导致一些重点的缩略语无法对疾病预测结果产生有效影响，进而直接影响预测的准确性。

发明内容

针对现有技术中存在的问题，本发明在深度学习的相关模型基础上，尝试将人们常用的查资料的理解缩略语的方式应用到模型的疾病预测任务中，借助外部的相关资料丰富缩略语的信息表达，为疾病预测任务提供信息指导以提高模型预测的准确性。基于这种思想，本发明提出了一种面向临床问诊记录的疾病预测方法与装置，利用分层双向的GRU神经网络得到词向量表示，设计了自动识别临床缩略语和自动收集缩略语拓展资料的程序，打破传统的方法中只关注和依赖源文本的方式，自动扩展和丰富临床缩略语所包含的信息，并借助注意力机制对向量进行加权计算，进而提升疾病预测任务的准确性。

为了达到上述目的，本发明提供如下技术方案：

一种面向临床问诊记录的疾病预测方法，包括如下步骤：

步骤1：临床缩略语的自动识别和资料采集

通过专业的缩略语词典和自建缩略语资料库自动识别临床问诊记录中的缩略语，建立对应的缩略语标记列表，之后通过自动采集装置从专业网站、专业缩略语词典、临床资料库中搜索收集相关解释资料；

步骤2：数据预处理

对数据集中每一个临床问诊记录进行预处理，将预处理后的数据进行分割形成训练集、验证集和测试集；

步骤3：模型训练

首先将步骤2预处理的模型输入数据送入BERT模型进行词向量编码，得到临床问诊记录和缩略语拓展资料的单词向量表示，将临床问诊记录的单词向量表示输入进双向GRU神经网络对词向量进行嵌入，获得临床问诊记录的上下文语义表示；同时，对缩略语的拓展资料进行相同的处理，得到缩略语拓展资料的上下文语义表示；然后使用步骤2的缩略语位置标记取出临床问诊记录上下文语义向量中的缩略语上下文语义向量，利用注意力机制对缩略语上下文语义向量和对应拓展资料的上下文语义表示进行加权计算，得到融入拓展资料信息的缩略语特征向量，再通过设置自学习的参数矩阵自动学习缩略语特征向量对预测结果的影响程度；之后将融合拓展资料后的特征嵌入表示替换缩略语上下文语义向量，接着将临床文本语义向量经过双向GRU神经网络获得临床问诊记录的特征向量序列，并再次利用Attention机制将文本特征向量与预测结果做注意力加权计算，通过全连接神经网络和激活函数得到疾病预测结果，模型的训练是通过损失函数损失计算反向传递更新各权重参数，得到训练好的模型；

步骤4：模型测试与疾病预测

根据训练所得到的最佳模型，对待测试数据集进行预测检验：先对测试文本进行预处理，然后根据步骤2构建模型的输入形式，最后根据步骤3中训练好的疾病预测模型，得到疾病预测结果。

进一步的，所述步骤2中预处理包含：数据清洗、停用词处理、标记缩略语的位置、将缩略语对应资料规格化处理并存放、对模型输入数据进行格式处理。

进一步的，所述步骤3具体包括如下子步骤：

子步骤3-1，构建临床问诊记录编码层

一个长度为n的临床记录文本，其输入序列表示为x＝<x₁,x₂,...,x_n>，将其输入进BERT模型得到临床记录文本词向量h＝<h₁,h₂,…,h_n>，通过双向GRU神经网络之后，得到临床记录的上下文语义表示向量H_gru，并使用步骤2的缩略语位置标记从H_gru中取出缩略语的上下文语义向量H_gru-abb；上述通过双向GRU融入临床问诊记录上下文信息的过程公式为：

子步骤3-2，获得缩略语拓展资料的上下文语义表示

采用另一个双层GRU神经网络对临床缩略语拓展资料进行嵌入表示，和步骤3-1公式相同，得到拓展资料的上下文语义表示H_data；

子步骤3-3，结合注意力机制对缩略语拓展资料进行提取

借助注意力机制计算缩略语上下文语义向量和缩略语，来建模上述缩略语拓展资料和缩略语上下文语义向量相互影响的关系；其中注意力机制在本步骤中的计算方式如下：

H_attr＝softmax[W_qH_gru-abb(W_kH_data)^T]W_vH_data(4)

临床问诊记录的缩略语上下文语义向量作为Query查询向量W_q，将拓展资料向量作为待匹配的[key,value]，即被查询信息与其他信息相关性的向量W_k和被查询信息的向量W_v；通过相似性计算得到有关临床问诊记录上下文的缩略语上下文语义向量和缩略语拓展资料向量的相关性，用softmax将相关性数值归一化为影响因子参数，最后通过该参数将两者信息加权计算进行融合，即融合拓展资料信息的缩略语向量化表示H_attr；

子步骤3-4，对融入了拓展资料的缩略语向量化表示H_attr和原缩略语词上下文语义向量H_gry-abb进行融合，得到融合拓展资料后的特征嵌入表示H_abb，对应的公式为：

H_abb＝W_aH_gru-abb+W_bH_attr(5)

其中，W_a表示原缩略语向量表示H_gru-abb的对预测结果的影响程度，W_b表示拓展资料的向量化表示H_attr对预测结果的影响程度，两者都是可学习的参数矩阵；

子步骤3-5，最后将融合拓展资料后的特征嵌入表示H_abb替换原有的临床问诊记录H_gru的缩略语上下文语义向量，然后将临床问诊记录的上下文语义表示通过双向GRU神经网络，得到融合拓展资料和问诊记录上下文的特征向量序列，再次通过注意力机制加权计算得到用于预测的结果序列，并通过全连接神经网络和激活函数得到疾病预测结果；

子步骤3-6，训练损失

采用随机初始化的方式对所有的参数进行初始化，使用Adam优化器加快模型的收敛速度，设置学习率会随训练步数的增加而逐渐衰减，使用交叉熵作为模型的损失函数，同时模型训练结束时保存在验证集上表现最好的模型。

进一步的，所述步骤4中还利用准确率、召回率和F1 Score评价标准进行评价，检验预测方法的性能。

进一步的，具体评价方法为：

其中，TP表示正类被正确预测为正类的数量，对应着患病预测和真实患病分类吻合的数量；FP表示正类被错误预测为负类的数量，对应着患病预测和真实患病分类不吻合的数量，FN表示负类被错误预测为正类的数量。

本发明还提供了一种面向临床问诊记录的疾病预测装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述面向临床问诊记录的疾病预测方法。

与现有技术相比，本发明具有如下优点和有益效果：

1.本发明借助注意力机制对重要内容的关注，构建了基于分层的双向GRU神经网络训练方法，将人借助外部资料理解缩略语本身含义的方式应用到疾病预测方法中，进而保证预测方法的准确性和可解释性。

2.本发明打破了以往只关注源临床文本的方式，设计了自动识别缩略语和收集资料的装置，以扩展缩略语的知识信息，有效地提高缩略语的信息含量，使临床问诊记录整体的信息得到丰富，进一步提高疾病预测的准确性。

3.本发明避免了传统临床问诊预测方法过度依赖海量的标准数据的问题，通过识别和拓展缩略语的专业资料来丰富其特征信息，在一定程度上可以改善传统方法在小数据量的训练任务上表现不佳等问题，进而提升下游任务如分类预测任务的准确性。

附图说明

图1为本发明提供的面向临床问诊记录的疾病预测方法流程图。

图2为本发明的整体模型图。

图3为临床缩略语自动识别和自动收集拓展资料装置图。

图4为结合注意力机制的分层GRU神经网络模型架构图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明提供的一种面向临床问诊记录的疾病预测方法，其流程如图1所示，首先对临床问诊记录中的缩略语进行自动识别，并自动收集拓展资料，之后对所有数据进行预处理；接着，模型主要为两层的GRU神经网络，上下层的隐层均使用双向的GRU模型做上下文的信息融合转换。上层是问诊记录原文的编码表示层，下层是各扩展资料的编码表示层，上下层的层级交点是原问诊记录的缩略语，下层借助注意力机制帮助模型筛选拓展资料中的重要信息，聚焦真正有用的资料内容可以促进训练时模型权重的合理分配，上层融合下层提供的关于缩略语的特征向量，之后借助注意力机制分配权重进行训练，从而得到最终的问诊记录整体特征向量表示，最后通过softmax归一化之后做疾病预测。本发明具体模型参见图2、图3、图4，方法的详细实施步骤如下：

步骤1，临床缩略语的自动识别和资料采集

通过专业的缩略语词典和自建缩略语资料库自动识别临床问诊记录中的缩略语，建立对应的缩略语标记列表。本发明设计了一种基于规则和专业词典的缩略语识别器(如图3所示)，借助已经收集的缩略语词典，通过编写相应的程序使用正则化方式自动地识别存在于问诊记录中的缩略语，这样的自动化识别方式可以省去人工的处理，而且比人工更为高效，且因为词典是耦合于程序的，可以不断地更新和丰富。随后通过自动采集装置从专业网站、专业缩略语词典、临床资料库等各资料来源途径中搜索收集相关解释资料。本发明同时筛选了若干资料来源途径，包括权威的医学百科网站、常用的医学缩略语词典以及临床资料库来帮助补充相关的资料。这里的资料搜索是利用爬虫程序完成的，既可以抓取网页数据，也可以配置和访问自建资料库。补充资料的内容十分影响缩略语向量表达的有效性，为了更好的实际效果，在多途径获取到相关资料之后，资料搜索程序会将他们拼接起来以丰富补充资料的内容。

步骤2，数据预处理。为了能保证数据更适用于所设计的模型训练，对数据集中每一个临床问诊记录进行预处理，首先对数据进行数据清洗，包括数据集中临床问诊记录、缩略语拓展资料，然后进行停用词处理、标记缩略语的位置、将缩略语对应资料规格化处理并存放、对模型输入数据进行格式处理。最后将所有得到的数据按照8：1：1进行分割形成训练集、验证集和测试集。

步骤3，模型构建和训练。利用步骤2处理后的数据集对分层双向GRU模型进行训练，该步骤的实施可以分为以下子步骤：

子步骤3-1，构建临床问诊记录编码层。一个长度为n的临床记录文本，其输入序列可以表示为x＝<x₁,x₂,...,x_n>，将其输入进BERT模型得到临床记录文本词向量h＝<h₁,h₂,…,h_n>，通过双向GRU神经网络之后，得到临床记录的上下文语义表示向量H_gru，并使用步骤2的缩略语位置标记从H_gru中取出缩略语的上下文语义向量H_gru-abb。上述通过双向GRU融入临床问诊记录上下文信息的过程公式为：

子步骤3-2，获得缩略语拓展资料的上下文语义表示。本发明实施采用另一个双层GRU神经网络编码器对临床缩略语拓展资料进行嵌入表示，和步骤3-1公式相同，得到拓展资料H_data。

子步骤3-3，结合注意力机制对缩略语拓展资料进行提取。借助注意力机制计算缩略语上下文语义向量和缩略语，来建模上述缩略语拓展资料和缩略语上下文语义向量相互影响的关系。其中注意力机制在本步骤中的计算方式如下：

H_attr＝softmax[W_qH_gru-abb(W_kH_data)^T]W_vH_data(4)

临床问诊记录的缩略语上下文语义向量作为Query查询向量W_q，将拓展资料向量作为待匹配的[key,value]，即被查询信息与其他信息相关性的向量W_k和被查询信息的向量W_v。通过相似性计算得到有关临床问诊记录上下文的缩略语上下文语义向量和缩略语拓展资料向量的相关性，用softmax将相关性数值归一化为影响因子参数，最后通过该参数将两者信息加权计算进行融合，即融合拓展资料信息的缩略语向量化表示H_attr。

子步骤3-4，对融入了拓展资料的缩略语向量化表示H_attr和原缩略语词上下文语义向量H_gry-abb进行融合。为了让模型自动学习资料对预测结果应有的影响，在本步骤设置了两个可学习的参数矩阵W_a和W_b，分别对应着原缩略语上下文语义向量H_gru-abb的对预测结果的影响程度，和融合拓展资料信息的缩略语向量化表示H_attr对预测结果的影响程度，两者都是可学习的参数矩阵，得到融合拓展资料后的特征嵌入表示H_abb，对应的公式为：

H_abb＝W_aH_gru-abb+W_bH_attr(5)

子步骤3-5，最后将融合拓展资料后的特征嵌入表示H_abb替换原有的临床问诊记录H_gru的缩略语上下文语义向量，然后将临床问诊记录的上下文语义表示通过双向GRU神经网络，得到融合拓展资料和问诊记录上下文的特征向量序列，再次通过注意力机制加权计算得到用于预测的结果序列，并通过全连接神经网络和激活函数得到疾病预测结果。

子步骤3-6，训练损失。本实例采用随机初始化的方式对所有的参数进行初始化，实验使用Adam优化器加快模型的收敛速度，初始学习率设置为0.001，同时设置了学习率会随训练步数的增加而逐渐衰减；将dropout设置为0.3，缓解训练中的过拟合问题，将batch_size设置为128，使用交叉熵作为模型的损失函数，同时模型训练结束时保存在验证集上表现最好的模型。

步骤4，疾病预测与模型测试。根据步骤3所得到的最佳验证模型，对测试数据集进行预测得到疾病预测结果。首先对数据进行步骤2的数据处理，并构建模型的输入形式，输入到步骤3的模型中，从而得到疾病预测结果，并与测试输入的标签做比较，检验模型的有效性。具体的评估计算方法为：

TP表示正类被正确预测为正类的数量，对应着患病预测和真实患病分类吻合的数量；FP表示正类被错误预测为负类的数量，对应着患病预测和真实患病分类不吻合的数量，FN表示负类被错误预测为正类的数量。

基于相同的发明构思，本发明一种面向临床问诊记录的疾病预测装置，该装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时可以实现上述的面向临床问诊记录的疾病预测方法。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种面向临床问诊记录的疾病预测方法，其特征在于，包括如下步骤：

步骤1：临床缩略语的自动识别和资料采集

步骤2：数据预处理

步骤3：模型训练

将步骤2预处理的模型输入数据送入BERT模型进行词向量编码，得到临床问诊记录和缩略语拓展资料的单词向量表示，然后将临床问诊记录的单词向量表示输入进双向GRU神经网络对词向量进行嵌入，获得临床问诊记录的上下文语义表示；同时，对缩略语的拓展资料进行相同的处理，得到缩略语拓展资料的上下文语义表示；然后使用步骤2的缩略语位置标记取出临床问诊记录上下文语义向量中的缩略语上下文语义向量，利用注意力机制对缩略语上下文语义向量和对应拓展资料的上下文语义表示进行加权计算，得到融入拓展资料信息的缩略语特征向量，再通过设置自学习的参数矩阵自动学习缩略语特征向量对预测结果的影响程度；之后将融合拓展资料后的特征嵌入表示替换缩略语上下文语义向量，接着将临床文本语义向量经过双向GRU神经网络获得临床问诊记录的特征向量序列，并再次利用Att_enti_on机制将文本特征向量与预测结果做注意力加权计算，通过全连接神经网络和激活函数得到疾病预测结果，模型的训练是通过损失函数损失计算反向传递更新各权重参数，得到训练好的模型；具体包括如下子步骤：

子步骤3-1，构建临床问诊记录编码层

一个长度为n的临床记录文本，其输入序列表示为x＝<x₁，x₂，...，x_n>，将其输入进BERT模型得到临床记录文本词向量h＝<h₁，h₂，...，h_n>，通过双向GRU神经网络之后，得到临床记录的上下文语义表示向量H_gru，并使用步骤2的缩略语位置标记从H_gru中取出缩略语的上下文语义向量H_gru-_abb；上述通过双向GRU融入临床问诊记录上下文信息的过程公式为：

子步骤3-2，获得缩略语拓展资料的上下文语义表示

采用另一个双层GRU神经网络编码器对临床缩略语拓展资料进行嵌入表示，和步骤3-1公式相同，得到拓展资料H_data；

子步骤3-3，结合注意力机制对缩略语拓展资料进行提取

H_attr＝softmax[W_qH_gru-abb(W_kH_data)^T]W_vH_data(4)

临床问诊记录的缩略语上下文语义向量作为Query查询向量W_q，将拓展资料向量作为待匹配的[key，value]，即被查询信息与其他信息相关性的向量W_k和被查询信息的向量W_v；通过相似性计算得到有关临床问诊记录上下文的缩略语上下文语义向量和缩略语拓展资料向量的相关性，用softmax将相关性数值归一化为影响因子参数，最后通过该参数将两者信息加权计算进行融合，即融合拓展资料信息的缩略语向量化表示H_attr；

子步骤3-4，对融入了拓展资料的缩略语向量化表示H_attr和原缩略语词上下文语义向量H_gru-abb进行融合，得到融合拓展资料后的特征嵌入表示H_abb，对应的公式为：

H_abb＝W_aH_gru-abb+W_bH_attr(5)

子步骤3-5，最后将融合拓展资料后的特征嵌入表示Habb替换原有的临床问诊记录H_gru的缩略语上下文语义向量，然后将临床问诊记录的上下文语义表示通过双向GRU神经网络，得到融合拓展资料和问诊记录上下文的特征向量序列，再次通过注意力机制加权计算得到用于预测的结果序列，并通过全连接神经网络和激活函数得到疾病预测结果；

子步骤3-6，训练损失

采用随机初始化的方式对所有的参数进行初始化，使用Adam优化器加快模型的收敛速度，设置学习率会随训练步数的增加而逐渐衰减，使用交叉熵作为模型的损失函数，同时模型训练结束时保存在验证集上表现最好的模型；

步骤4：疾病预测与模型测试

2.根据权利要求1所述的面向临床问诊记录的疾病预测方法，其特征在于，所述步骤2中预处理包含：数据清洗、停用词处理、标记缩略语的位置、将缩略语对应资料规格化处理并存放、对模型输入数据进行格式处理。

3.根据权利要求1所述的面向临床问诊记录的疾病预测方法，其特征在于，所述步骤4中还利用准确率、召回率和F1 Score评价标准进行评价，检验预测方法的性能。

4.根据权利要求3所述的面向临床问诊记录的疾病预测方法，其特征在于，具体评价方法为：

5.一种面向临床问诊记录的疾病预测装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：该计算机程序被加载至处理器时实现权利要求1-4中任意一项所述的面向临床问诊记录的疾病预测方法。