CN116720081A

CN116720081A - 基于多模态模型的心力衰竭再入院预测方法

Info

Publication number: CN116720081A
Application number: CN202310678826.2A
Authority: CN
Inventors: 李灯熬; 赵菊敏; 麻惠婷
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-09-08

Abstract

本发明涉及心力衰竭患者的再入院预测方法，具体为基于多模态模型的心力衰竭再入院预测方法，本方法使用深度学习网络模型的方法对结构化数据和非结构化数据进行融合处理，最终预测心衰患者的再入院情况。本发明首先对心衰患者的结构化和非结构化数据进行预处理，然后使用Transformer模型、BERT模型分别对不同的患者数据进行处理，本发明采用晚期融合方法，在以上模型训练基础上使用AdaBoost算法进行集成学习融合，从而为心力衰竭患者的再入院提供了一种新的有效方法。

Description

基于多模态模型的心力衰竭再入院预测方法

技术领域

本发明涉及心力衰竭患者的再入院预测方法，具体为基于多模态模型的心力衰竭再入院预测方法，本方法使用深度学习网络模型的方法对患者指标(结构化数据)和出院记录(非结构化数据)进行融合处理，最终预测心衰患者的再入院情况。

背景技术

心力衰竭(HF)是一种心脏结构或功能异常的情况，表现为心室收缩或舒张功能障碍，是各种心脏病发展的最后阶段。由于心力衰竭患者愈后不理想和再住院率高，直接和间接的心力衰竭费用估计每年290亿美元。因此，识别再入院率风险高的患者可以及时评估患者病情，及时提供治疗，降低患者突发性的风险。

电子健康记录(EHR)数据是纵向的、异构的、多模态的，以如X线图像、心电图、文本病历、超声心动图等不同形式模态存在。多模态数据融合是指将多源异构数据进行充分融合，从而进一步提高任务的预测准确率。多模态数据融合能给计算机视觉、生物医学等相关领域带来深刻变革。目前专家学者们已提出许多方法解决多模态数据问题，主要包含早期、晚期和混合融合方法等。利用多模态模型进行心力衰竭再入院预测对于医学研究具有重要的意义和价值。

发明内容

本发明使用了多模态模型进行心力衰竭患者的再入院预测，降低了已出院心力衰竭患者突发性风险。

本发明是采用如下的技术方案实现的：基于多模态模型的心力衰竭再入院预测方法，包括模型训练阶段和预测阶段；

模型训练阶段包括以下步骤：

预处理：训练阶段所用到的结构化数据和非结构化数据是再次入院患者的上次出院的文本病例中的数据；

对结构化数据采用如下预处理方法：(1)因为结构化数据中缺失值属于完全随机丢失，使用线性回归根据其他值估计缺失值，得到结构化数据的完整数据；(2)使用线性归一化进行对完整数据归一化处理；(3)使用one-hot编码对归一化处理后的完整数据进行特征向量化处理，得到结构化数据的特征向量；

对非结构化数据采用如下预处理方法：(1)对非结构化数据中文本数据去除标点符号；(2)对去除标点符号后的文本数据去除非法字符；(3)对去除非法字符后的文本数据去除数字；(4)将去除数字后的文本数据进行截断处理，使文本长度保持在固定值；

训练模型：将结构化数据的特征向量输入到Transformer模型中，Transformer模型输出编码向量；将预处理后的非结构化数据输入到BERT模型，BERT模型输出编码向量；编码向量都输入到AdaBoost模型进行融合，AdaBoost模型最终输出患者是否再入院的结论；

在训练过程根据损失函数自动调整Transformer模型，BERT模型和Adaboost模型的参数；当模型训练完成后，利用模型对新采集到的测试集数据进行预测，根据预测结果和期望结果计算预测误差，最终的准确率达到95％以上；

预测阶段的过程为：将当下即将出院条件患者的文本病例中数据进行预处理，结构化数据的特征向量输入到Transformer模型得到编码向量，将预处理后的非结构化数据输入到BERT模型，BERT模型输出编码向量，编码向量都输入到AdaBoost模型进行融合，AdaBoost模型输出该患者未来一段时间是否还需要再入院的结论，若得到还需要再入院的结论，出院时提醒患者定期到医院检查，避免错过最佳治疗时间。

本发明首先对心衰患者的结构化和非结构化数据进行预处理，然后使用Transformer模型、BERT模型分别对不同的患者数据进行处理，本发明采用晚期融合方法，在以上模型训练基础上使用AdaBoost算法进行集成学习融合，从而为心力衰竭患者的再入院提供了一种新的有效方法。

附图说明

图1为Transformer模型的架构图。

图2为BERT模型的结构图。

图3为本发明流程图。

具体实施方式

基于多模态模型的心力衰竭再入院预测方法，包括模型训练阶段和预测阶段；

模型训练阶段包括以下几个部分：

1.预处理

患者的文本病历中包括结构化数据和非结构化数据，训练阶段所用到的结构化数据和非结构化数据是再次入院患者的上次出院的文本病例中的数据，该数据定义为打标数据。

通常情况下，结构化数据为患者特征信息，如患者的性别、年龄，相关疾病信息和手术、用药信息等。对此类结构化数据采用如下预处理方法：

(1)因为结构化数据中缺失值属于完全随机丢失(MCAR)，使用线性回归根据其他值估计缺失值，得到结构化数据的完整数据。

(2)使用线性归一化进行对完整数据归一化处理。

(3)使用one-hot编码对归一化处理后的完整数据进行特征向量化处理，得到结构化数据的特征向量。

非结构化数据为患者的出院记录总结，会包含更多的患者信息。对此类数据采用如下预处理方法：

(1)对非结构化数据中文本数据去除标点符号；

(2)对去除标点符号后的文本数据去除非法字符；

(3)对去除非法字符后的文本数据去除数字；

(4)将去除数字后的文本数据进行截断处理，使文本长度保持在固定值。

2.Transformer模型

使用Transformer模型作为结构化数据的编码器，Transformer模型是一个Encoder-Decoder模型结构。Transformer模型最初使用于机器翻译中，后又在CV等领域取得很好的效果，因此，在本发明中，使用Transformer模型处理结构化数据。在Transformer模型的Encoder结构中，又包含了两层，即Self-Attention(SA)层和Feed Forward NeuralNetwork(FFN)层。而Self-Attention(SA)层大致分为5步实现：

(1)创建Query、Key、Value矩阵；

(2)计算Self-Attention中的score；

(3)通过Softmax函数；

(4)softmax后的scores乘以values向量，并将values向量累加；

(5)进行矩阵计算

将结构化数据的特征向量输入到Transformer模型中，Transformer模型输出编码向量。

3.BERT模型

Bidirectional Encoder Representations from Transformers(BERT)是一种深度神经网络，可以理解为双向Transformer的Encoder结构，从而学习文本的嵌入，如图所示。Transformer的encoder结构基于一种自注意力机制，模型的预训练目标函数由两个无监督任务定义：masked language modeling and next sentence prediction。采用随机优化方法对文本嵌入和模型参数进行拟合。

BERT模型有预训练和微调两个阶段。其中，在预训练阶段，是指在不同的预训练任务上，使用BERT模型去训练未标记的数据。在微调阶段，首先使用预训练参数初始化BERT模型，然后对所有参数进行微调，此过程使用的是来自下游任务的标记数据。且每个下游任务都有单独的微调模型，但是使用相同的预训练参数进行初始化。

将预处理后的非结构化数据输入到BERT模型，BERT模型输出编码向量。

4.Adaboost模型

AdaBoost模型是一种集成学习模型，而集成学习的思想是将多个学习出的分类器进行组合。首先初始化一个权重，且权重一致。然后选择一个特征进行分类，得到一个弱分类器。然后重新分配样本的权重，对于被识别错误的样本，给它更高的权重，对于那些识别正确的样本，给与更低的权重。在此基础上，再选择另外的一个特征，得到一个新的弱分类器，然后再对样本进行分类，如此循环往复。最后，对所有的弱分类器进行加权平均，得到最终的分类器，总的来说：

(1)Adaboost是以学习器相加的方式进行组合；

(2)学习算法为前向分步学习算法，即通过循环迭代，每一步只学习一个基函数h_t(x)及其系数α_t，然后逐步逼近优化目标式；

(3)损失函数为指数函数的算法。

AdaBoost模型可以表示为：H_t(x)＝H_t-1(x)+α_th_t(x)

其中，h_t为第t个基学习器。

编码向量都输入到AdaBoost模型中，AdaBoost模型输出患者是否再入院的结论。

在训练过程根据损失函数自动调整Transformer模型，BERT模型和Adaboost模型的参数；当模型训练完成后，利用模型对新采集到的测试集数据进行预测，根据预测结果和期望结果计算预测误差，最终的准确率达到95％以上。

最终，使用多模态数据完成心衰患者的再入院预测，为患者病情的早期发现提供方法，辅助医生诊断，降低患者突发性风险。

Claims

1.基于多模态模型的心力衰竭再入院预测方法，其特征在于：包括模型训练阶段和预测阶段；

模型训练阶段包括以下步骤：

对结构化数据采用如下预处理方法：（1）因为结构化数据中缺失值属于完全随机丢失，使用线性回归根据其他值估计缺失值，得到结构化数据的完整数据；（2）使用线性归一化进行对完整数据归一化处理；（3）使用one-hot编码对归一化处理后的完整数据进行特征向量化处理，得到结构化数据的特征向量；

对非结构化数据采用如下预处理方法：（1）对非结构化数据中文本数据去除标点符号；（2）对去除标点符号后的文本数据去除非法字符；（3）对去除非法字符后的文本数据去除数字；（4）将去除数字后的文本数据进行截断处理，使文本长度保持在固定值；

训练模型：将结构化数据的特征向量输入到Transformer模型中，Transformer模型输出编码向量；将预处理后的非结构化数据输入到BERT模型，BERT模型输出编码向量；编码向量都输入到AdaBoost模型中，AdaBoost模型输出患者是否再入院的结论；

在训练过程根据损失函数自动调整Transformer模型，BERT模型和Adaboost模型的参数；当模型训练完成后，利用模型对新采集到的测试集数据进行预测，根据预测结果和期望结果计算预测误差，最终的准确率达到95%以上；