CN116720081A - 基于多模态模型的心力衰竭再入院预测方法 - Google Patents

基于多模态模型的心力衰竭再入院预测方法 Download PDF

Info

Publication number
CN116720081A
CN116720081A CN202310678826.2A CN202310678826A CN116720081A CN 116720081 A CN116720081 A CN 116720081A CN 202310678826 A CN202310678826 A CN 202310678826A CN 116720081 A CN116720081 A CN 116720081A
Authority
CN
China
Prior art keywords
model
data
patient
text
heart failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310678826.2A
Other languages
English (en)
Inventor
李灯熬
赵菊敏
麻惠婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN202310678826.2A priority Critical patent/CN116720081A/zh
Publication of CN116720081A publication Critical patent/CN116720081A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及心力衰竭患者的再入院预测方法,具体为基于多模态模型的心力衰竭再入院预测方法,本方法使用深度学习网络模型的方法对结构化数据和非结构化数据进行融合处理,最终预测心衰患者的再入院情况。本发明首先对心衰患者的结构化和非结构化数据进行预处理,然后使用Transformer模型、BERT模型分别对不同的患者数据进行处理,本发明采用晚期融合方法,在以上模型训练基础上使用AdaBoost算法进行集成学习融合,从而为心力衰竭患者的再入院提供了一种新的有效方法。

Description

基于多模态模型的心力衰竭再入院预测方法
技术领域
本发明涉及心力衰竭患者的再入院预测方法,具体为基于多模态模型的心力衰竭再入院预测方法,本方法使用深度学习网络模型的方法对患者指标(结构化数据)和出院记录(非结构化数据)进行融合处理,最终预测心衰患者的再入院情况。
背景技术
心力衰竭(HF)是一种心脏结构或功能异常的情况,表现为心室收缩或舒张功能障碍,是各种心脏病发展的最后阶段。由于心力衰竭患者愈后不理想和再住院率高,直接和间接的心力衰竭费用估计每年290亿美元。因此,识别再入院率风险高的患者可以及时评估患者病情,及时提供治疗,降低患者突发性的风险。
电子健康记录(EHR)数据是纵向的、异构的、多模态的,以如X线图像、心电图、文本病历、超声心动图等不同形式模态存在。多模态数据融合是指将多源异构数据进行充分融合,从而进一步提高任务的预测准确率。多模态数据融合能给计算机视觉、生物医学等相关领域带来深刻变革。目前专家学者们已提出许多方法解决多模态数据问题,主要包含早期、晚期和混合融合方法等。利用多模态模型进行心力衰竭再入院预测对于医学研究具有重要的意义和价值。
发明内容
本发明使用了多模态模型进行心力衰竭患者的再入院预测,降低了已出院心力衰竭患者突发性风险。
本发明是采用如下的技术方案实现的:基于多模态模型的心力衰竭再入院预测方法,包括模型训练阶段和预测阶段;
模型训练阶段包括以下步骤:
预处理:训练阶段所用到的结构化数据和非结构化数据是再次入院患者的上次出院的文本病例中的数据;
对结构化数据采用如下预处理方法:(1)因为结构化数据中缺失值属于完全随机丢失,使用线性回归根据其他值估计缺失值,得到结构化数据的完整数据;(2)使用线性归一化进行对完整数据归一化处理;(3)使用one-hot编码对归一化处理后的完整数据进行特征向量化处理,得到结构化数据的特征向量;
对非结构化数据采用如下预处理方法:(1)对非结构化数据中文本数据去除标点符号;(2)对去除标点符号后的文本数据去除非法字符;(3)对去除非法字符后的文本数据去除数字;(4)将去除数字后的文本数据进行截断处理,使文本长度保持在固定值;
训练模型:将结构化数据的特征向量输入到Transformer模型中,Transformer模型输出编码向量;将预处理后的非结构化数据输入到BERT模型,BERT模型输出编码向量;编码向量都输入到AdaBoost模型进行融合,AdaBoost模型最终输出患者是否再入院的结论;
在训练过程根据损失函数自动调整Transformer模型,BERT模型和Adaboost模型的参数;当模型训练完成后,利用模型对新采集到的测试集数据进行预测,根据预测结果和期望结果计算预测误差,最终的准确率达到95%以上;
预测阶段的过程为:将当下即将出院条件患者的文本病例中数据进行预处理,结构化数据的特征向量输入到Transformer模型得到编码向量,将预处理后的非结构化数据输入到BERT模型,BERT模型输出编码向量,编码向量都输入到AdaBoost模型进行融合,AdaBoost模型输出该患者未来一段时间是否还需要再入院的结论,若得到还需要再入院的结论,出院时提醒患者定期到医院检查,避免错过最佳治疗时间。
本发明首先对心衰患者的结构化和非结构化数据进行预处理,然后使用Transformer模型、BERT模型分别对不同的患者数据进行处理,本发明采用晚期融合方法,在以上模型训练基础上使用AdaBoost算法进行集成学习融合,从而为心力衰竭患者的再入院提供了一种新的有效方法。
附图说明
图1为Transformer模型的架构图。
图2为BERT模型的结构图。
图3为本发明流程图。
具体实施方式
基于多模态模型的心力衰竭再入院预测方法,包括模型训练阶段和预测阶段;
模型训练阶段包括以下几个部分:
1.预处理
患者的文本病历中包括结构化数据和非结构化数据,训练阶段所用到的结构化数据和非结构化数据是再次入院患者的上次出院的文本病例中的数据,该数据定义为打标数据。
通常情况下,结构化数据为患者特征信息,如患者的性别、年龄,相关疾病信息和手术、用药信息等。对此类结构化数据采用如下预处理方法:
(1)因为结构化数据中缺失值属于完全随机丢失(MCAR),使用线性回归根据其他值估计缺失值,得到结构化数据的完整数据。
(2)使用线性归一化进行对完整数据归一化处理。
(3)使用one-hot编码对归一化处理后的完整数据进行特征向量化处理,得到结构化数据的特征向量。
非结构化数据为患者的出院记录总结,会包含更多的患者信息。对此类数据采用如下预处理方法:
(1)对非结构化数据中文本数据去除标点符号;
(2)对去除标点符号后的文本数据去除非法字符;
(3)对去除非法字符后的文本数据去除数字;
(4)将去除数字后的文本数据进行截断处理,使文本长度保持在固定值。
2.Transformer模型
使用Transformer模型作为结构化数据的编码器,Transformer模型是一个Encoder-Decoder模型结构。Transformer模型最初使用于机器翻译中,后又在CV等领域取得很好的效果,因此,在本发明中,使用Transformer模型处理结构化数据。在Transformer模型的Encoder结构中,又包含了两层,即Self-Attention(SA)层和Feed Forward NeuralNetwork(FFN)层。而Self-Attention(SA)层大致分为5步实现:
(1)创建Query、Key、Value矩阵;
(2)计算Self-Attention中的score;
(3)通过Softmax函数;
(4)softmax后的scores乘以values向量,并将values向量累加;
(5)进行矩阵计算
将结构化数据的特征向量输入到Transformer模型中,Transformer模型输出编码向量。
3.BERT模型
Bidirectional Encoder Representations from Transformers(BERT)是一种深度神经网络,可以理解为双向Transformer的Encoder结构,从而学习文本的嵌入,如图所示。Transformer的encoder结构基于一种自注意力机制,模型的预训练目标函数由两个无监督任务定义:masked language modeling and next sentence prediction。采用随机优化方法对文本嵌入和模型参数进行拟合。
BERT模型有预训练和微调两个阶段。其中,在预训练阶段,是指在不同的预训练任务上,使用BERT模型去训练未标记的数据。在微调阶段,首先使用预训练参数初始化BERT模型,然后对所有参数进行微调,此过程使用的是来自下游任务的标记数据。且每个下游任务都有单独的微调模型,但是使用相同的预训练参数进行初始化。
将预处理后的非结构化数据输入到BERT模型,BERT模型输出编码向量。
4.Adaboost模型
AdaBoost模型是一种集成学习模型,而集成学习的思想是将多个学习出的分类器进行组合。首先初始化一个权重,且权重一致。然后选择一个特征进行分类,得到一个弱分类器。然后重新分配样本的权重,对于被识别错误的样本,给它更高的权重,对于那些识别正确的样本,给与更低的权重。在此基础上,再选择另外的一个特征,得到一个新的弱分类器,然后再对样本进行分类,如此循环往复。最后,对所有的弱分类器进行加权平均,得到最终的分类器,总的来说:
(1)Adaboost是以学习器相加的方式进行组合;
(2)学习算法为前向分步学习算法,即通过循环迭代,每一步只学习一个基函数ht(x)及其系数αt,然后逐步逼近优化目标式;
(3)损失函数为指数函数的算法。
AdaBoost模型可以表示为:Ht(x)=Ht-1(x)+αtht(x)
其中,ht为第t个基学习器。
编码向量都输入到AdaBoost模型中,AdaBoost模型输出患者是否再入院的结论。
在训练过程根据损失函数自动调整Transformer模型,BERT模型和Adaboost模型的参数;当模型训练完成后,利用模型对新采集到的测试集数据进行预测,根据预测结果和期望结果计算预测误差,最终的准确率达到95%以上。
预测阶段的过程为:将当下即将出院条件患者的文本病例中数据进行预处理,结构化数据的特征向量输入到Transformer模型得到编码向量,将预处理后的非结构化数据输入到BERT模型,BERT模型输出编码向量,编码向量都输入到AdaBoost模型进行融合,AdaBoost模型输出该患者未来一段时间是否还需要再入院的结论,若得到还需要再入院的结论,出院时提醒患者定期到医院检查,避免错过最佳治疗时间。
最终,使用多模态数据完成心衰患者的再入院预测,为患者病情的早期发现提供方法,辅助医生诊断,降低患者突发性风险。

Claims (1)

1.基于多模态模型的心力衰竭再入院预测方法,其特征在于:包括模型训练阶段和预测阶段;
模型训练阶段包括以下步骤:
预处理:训练阶段所用到的结构化数据和非结构化数据是再次入院患者的上次出院的文本病例中的数据;
对结构化数据采用如下预处理方法:(1)因为结构化数据中缺失值属于完全随机丢失,使用线性回归根据其他值估计缺失值,得到结构化数据的完整数据;(2)使用线性归一化进行对完整数据归一化处理;(3)使用one-hot编码对归一化处理后的完整数据进行特征向量化处理,得到结构化数据的特征向量;
对非结构化数据采用如下预处理方法:(1)对非结构化数据中文本数据去除标点符号;(2)对去除标点符号后的文本数据去除非法字符;(3)对去除非法字符后的文本数据去除数字;(4)将去除数字后的文本数据进行截断处理,使文本长度保持在固定值;
训练模型:将结构化数据的特征向量输入到Transformer模型中,Transformer模型输出编码向量;将预处理后的非结构化数据输入到BERT模型,BERT模型输出编码向量;编码向量都输入到AdaBoost模型中,AdaBoost模型输出患者是否再入院的结论;
在训练过程根据损失函数自动调整Transformer模型,BERT模型和Adaboost模型的参数;当模型训练完成后,利用模型对新采集到的测试集数据进行预测,根据预测结果和期望结果计算预测误差,最终的准确率达到95%以上;
预测阶段的过程为:将当下即将出院条件患者的文本病例中数据进行预处理,结构化数据的特征向量输入到Transformer模型得到编码向量,将预处理后的非结构化数据输入到BERT模型,BERT模型输出编码向量,编码向量都输入到AdaBoost模型进行融合,AdaBoost模型输出该患者未来一段时间是否还需要再入院的结论,若得到还需要再入院的结论,出院时提醒患者定期到医院检查,避免错过最佳治疗时间。
CN202310678826.2A 2023-06-09 2023-06-09 基于多模态模型的心力衰竭再入院预测方法 Pending CN116720081A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310678826.2A CN116720081A (zh) 2023-06-09 2023-06-09 基于多模态模型的心力衰竭再入院预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310678826.2A CN116720081A (zh) 2023-06-09 2023-06-09 基于多模态模型的心力衰竭再入院预测方法

Publications (1)

Publication Number Publication Date
CN116720081A true CN116720081A (zh) 2023-09-08

Family

ID=87874576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310678826.2A Pending CN116720081A (zh) 2023-06-09 2023-06-09 基于多模态模型的心力衰竭再入院预测方法

Country Status (1)

Country Link
CN (1) CN116720081A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117217807A (zh) * 2023-11-08 2023-12-12 四川智筹科技有限公司 一种基于多模态高维特征的不良资产估值算法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117217807A (zh) * 2023-11-08 2023-12-12 四川智筹科技有限公司 一种基于多模态高维特征的不良资产估值算法
CN117217807B (zh) * 2023-11-08 2024-01-26 四川智筹科技有限公司 一种基于多模态高维特征的不良资产估值方法

Similar Documents

Publication Publication Date Title
Ghazal et al. Alzheimer disease detection empowered with transfer learning
CN111192680B (zh) 一种基于深度学习和集成分类的智能辅助诊断方法
CN109920501B (zh) 基于卷积神经网络和主动学习的电子病历分类方法及系统
Sheykhivand et al. Developing an efficient deep neural network for automatic detection of COVID-19 using chest X-ray images
Yadav et al. Lung-GANs: unsupervised representation learning for lung disease classification using chest CT and X-ray images
Yu et al. Automatic ICD code assignment of Chinese clinical notes based on multilayer attention BiRNN
CN108091397B (zh) 一种缺血性心脏病患者的出血事件预测方法
CN112800766B (zh) 基于主动学习的中文医疗实体识别标注方法及系统
Nasir et al. Multi-modal image classification of COVID-19 cases using computed tomography and X-rays scans
CN116720081A (zh) 基于多模态模型的心力衰竭再入院预测方法
Mohagheghi et al. Integration of CNN, CBMIR, and visualization techniques for diagnosis and quantification of covid-19 disease
Hsu et al. Multi-label classification of ICD coding using deep learning
CN112052889A (zh) 基于双门控递归单元解码的喉镜图像识别方法
Almazroi et al. A clinical decision support system for heart disease prediction using deep learning
Kaya Feature fusion-based ensemble CNN learning optimization for automated detection of pediatric pneumonia
Liang et al. Disease prediction based on multi-type data fusion from Chinese electronic health record
CN117457162A (zh) 基于多编码器和多模态信息融合的急诊分诊方法及系统
Safa et al. A Survey on Hybrid Case-Based Reasoning and Deep Learning Systems for Medical Data Classification
CN116403706A (zh) 一种融合知识扩展和卷积神经网络的糖尿病预测方法
Chaithra et al. A Review of Machine Learning Techniques Used in the Prediction of Heart Disease.
Nisa et al. Medical image analysis using deep learning: a review
CN113688632A (zh) 一种提取疾病预后协变量的结构化数据的方法及系统
Feng et al. Can Attention Be Used to Explain EHR-Based Mortality Prediction Tasks: A Case Study on Hemorrhagic Stroke
Fettah et al. Deep learning model for magnetic resonance imaging brain tumor recognition
Quadri et al. Deep Learning-Based Segmentation and Classification of COVID-19 Infection Severity Levels from CT Scans.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination