CN116720081A - 基于多模态模型的心力衰竭再入院预测方法 - Google Patents
基于多模态模型的心力衰竭再入院预测方法 Download PDFInfo
- Publication number
- CN116720081A CN116720081A CN202310678826.2A CN202310678826A CN116720081A CN 116720081 A CN116720081 A CN 116720081A CN 202310678826 A CN202310678826 A CN 202310678826A CN 116720081 A CN116720081 A CN 116720081A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- patient
- text
- heart failure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 206010019280 Heart failures Diseases 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 32
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000007599 discharging Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000011369 optimal treatment Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000007500 overflow downdraw method Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 206010052337 Diastolic dysfunction Diseases 0.000 description 1
- 206010071436 Systolic dysfunction Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002565 electrocardiography Methods 0.000 description 1
- 208000019622 heart disease Diseases 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 230000002861 ventricular Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及心力衰竭患者的再入院预测方法,具体为基于多模态模型的心力衰竭再入院预测方法,本方法使用深度学习网络模型的方法对结构化数据和非结构化数据进行融合处理,最终预测心衰患者的再入院情况。本发明首先对心衰患者的结构化和非结构化数据进行预处理,然后使用Transformer模型、BERT模型分别对不同的患者数据进行处理,本发明采用晚期融合方法,在以上模型训练基础上使用AdaBoost算法进行集成学习融合,从而为心力衰竭患者的再入院提供了一种新的有效方法。
Description
技术领域
本发明涉及心力衰竭患者的再入院预测方法,具体为基于多模态模型的心力衰竭再入院预测方法,本方法使用深度学习网络模型的方法对患者指标(结构化数据)和出院记录(非结构化数据)进行融合处理,最终预测心衰患者的再入院情况。
背景技术
心力衰竭(HF)是一种心脏结构或功能异常的情况,表现为心室收缩或舒张功能障碍,是各种心脏病发展的最后阶段。由于心力衰竭患者愈后不理想和再住院率高,直接和间接的心力衰竭费用估计每年290亿美元。因此,识别再入院率风险高的患者可以及时评估患者病情,及时提供治疗,降低患者突发性的风险。
电子健康记录(EHR)数据是纵向的、异构的、多模态的,以如X线图像、心电图、文本病历、超声心动图等不同形式模态存在。多模态数据融合是指将多源异构数据进行充分融合,从而进一步提高任务的预测准确率。多模态数据融合能给计算机视觉、生物医学等相关领域带来深刻变革。目前专家学者们已提出许多方法解决多模态数据问题,主要包含早期、晚期和混合融合方法等。利用多模态模型进行心力衰竭再入院预测对于医学研究具有重要的意义和价值。
发明内容
本发明使用了多模态模型进行心力衰竭患者的再入院预测,降低了已出院心力衰竭患者突发性风险。
本发明是采用如下的技术方案实现的:基于多模态模型的心力衰竭再入院预测方法,包括模型训练阶段和预测阶段;
模型训练阶段包括以下步骤:
预处理:训练阶段所用到的结构化数据和非结构化数据是再次入院患者的上次出院的文本病例中的数据;
对结构化数据采用如下预处理方法:(1)因为结构化数据中缺失值属于完全随机丢失,使用线性回归根据其他值估计缺失值,得到结构化数据的完整数据;(2)使用线性归一化进行对完整数据归一化处理;(3)使用one-hot编码对归一化处理后的完整数据进行特征向量化处理,得到结构化数据的特征向量;
对非结构化数据采用如下预处理方法:(1)对非结构化数据中文本数据去除标点符号;(2)对去除标点符号后的文本数据去除非法字符;(3)对去除非法字符后的文本数据去除数字;(4)将去除数字后的文本数据进行截断处理,使文本长度保持在固定值;
训练模型:将结构化数据的特征向量输入到Transformer模型中,Transformer模型输出编码向量;将预处理后的非结构化数据输入到BERT模型,BERT模型输出编码向量;编码向量都输入到AdaBoost模型进行融合,AdaBoost模型最终输出患者是否再入院的结论;
在训练过程根据损失函数自动调整Transformer模型,BERT模型和Adaboost模型的参数;当模型训练完成后,利用模型对新采集到的测试集数据进行预测,根据预测结果和期望结果计算预测误差,最终的准确率达到95%以上;
预测阶段的过程为:将当下即将出院条件患者的文本病例中数据进行预处理,结构化数据的特征向量输入到Transformer模型得到编码向量,将预处理后的非结构化数据输入到BERT模型,BERT模型输出编码向量,编码向量都输入到AdaBoost模型进行融合,AdaBoost模型输出该患者未来一段时间是否还需要再入院的结论,若得到还需要再入院的结论,出院时提醒患者定期到医院检查,避免错过最佳治疗时间。
本发明首先对心衰患者的结构化和非结构化数据进行预处理,然后使用Transformer模型、BERT模型分别对不同的患者数据进行处理,本发明采用晚期融合方法,在以上模型训练基础上使用AdaBoost算法进行集成学习融合,从而为心力衰竭患者的再入院提供了一种新的有效方法。
附图说明
图1为Transformer模型的架构图。
图2为BERT模型的结构图。
图3为本发明流程图。
具体实施方式
基于多模态模型的心力衰竭再入院预测方法,包括模型训练阶段和预测阶段;
模型训练阶段包括以下几个部分:
1.预处理
患者的文本病历中包括结构化数据和非结构化数据,训练阶段所用到的结构化数据和非结构化数据是再次入院患者的上次出院的文本病例中的数据,该数据定义为打标数据。
通常情况下,结构化数据为患者特征信息,如患者的性别、年龄,相关疾病信息和手术、用药信息等。对此类结构化数据采用如下预处理方法:
(1)因为结构化数据中缺失值属于完全随机丢失(MCAR),使用线性回归根据其他值估计缺失值,得到结构化数据的完整数据。
(2)使用线性归一化进行对完整数据归一化处理。
(3)使用one-hot编码对归一化处理后的完整数据进行特征向量化处理,得到结构化数据的特征向量。
非结构化数据为患者的出院记录总结,会包含更多的患者信息。对此类数据采用如下预处理方法:
(1)对非结构化数据中文本数据去除标点符号;
(2)对去除标点符号后的文本数据去除非法字符;
(3)对去除非法字符后的文本数据去除数字;
(4)将去除数字后的文本数据进行截断处理,使文本长度保持在固定值。
2.Transformer模型
使用Transformer模型作为结构化数据的编码器,Transformer模型是一个Encoder-Decoder模型结构。Transformer模型最初使用于机器翻译中,后又在CV等领域取得很好的效果,因此,在本发明中,使用Transformer模型处理结构化数据。在Transformer模型的Encoder结构中,又包含了两层,即Self-Attention(SA)层和Feed Forward NeuralNetwork(FFN)层。而Self-Attention(SA)层大致分为5步实现:
(1)创建Query、Key、Value矩阵;
(2)计算Self-Attention中的score;
(3)通过Softmax函数;
(4)softmax后的scores乘以values向量,并将values向量累加;
(5)进行矩阵计算
将结构化数据的特征向量输入到Transformer模型中,Transformer模型输出编码向量。
3.BERT模型
Bidirectional Encoder Representations from Transformers(BERT)是一种深度神经网络,可以理解为双向Transformer的Encoder结构,从而学习文本的嵌入,如图所示。Transformer的encoder结构基于一种自注意力机制,模型的预训练目标函数由两个无监督任务定义:masked language modeling and next sentence prediction。采用随机优化方法对文本嵌入和模型参数进行拟合。
BERT模型有预训练和微调两个阶段。其中,在预训练阶段,是指在不同的预训练任务上,使用BERT模型去训练未标记的数据。在微调阶段,首先使用预训练参数初始化BERT模型,然后对所有参数进行微调,此过程使用的是来自下游任务的标记数据。且每个下游任务都有单独的微调模型,但是使用相同的预训练参数进行初始化。
将预处理后的非结构化数据输入到BERT模型,BERT模型输出编码向量。
4.Adaboost模型
AdaBoost模型是一种集成学习模型,而集成学习的思想是将多个学习出的分类器进行组合。首先初始化一个权重,且权重一致。然后选择一个特征进行分类,得到一个弱分类器。然后重新分配样本的权重,对于被识别错误的样本,给它更高的权重,对于那些识别正确的样本,给与更低的权重。在此基础上,再选择另外的一个特征,得到一个新的弱分类器,然后再对样本进行分类,如此循环往复。最后,对所有的弱分类器进行加权平均,得到最终的分类器,总的来说:
(1)Adaboost是以学习器相加的方式进行组合;
(2)学习算法为前向分步学习算法,即通过循环迭代,每一步只学习一个基函数ht(x)及其系数αt,然后逐步逼近优化目标式;
(3)损失函数为指数函数的算法。
AdaBoost模型可以表示为:Ht(x)=Ht-1(x)+αtht(x)
其中,ht为第t个基学习器。
编码向量都输入到AdaBoost模型中,AdaBoost模型输出患者是否再入院的结论。
在训练过程根据损失函数自动调整Transformer模型,BERT模型和Adaboost模型的参数;当模型训练完成后,利用模型对新采集到的测试集数据进行预测,根据预测结果和期望结果计算预测误差,最终的准确率达到95%以上。
预测阶段的过程为:将当下即将出院条件患者的文本病例中数据进行预处理,结构化数据的特征向量输入到Transformer模型得到编码向量,将预处理后的非结构化数据输入到BERT模型,BERT模型输出编码向量,编码向量都输入到AdaBoost模型进行融合,AdaBoost模型输出该患者未来一段时间是否还需要再入院的结论,若得到还需要再入院的结论,出院时提醒患者定期到医院检查,避免错过最佳治疗时间。
最终,使用多模态数据完成心衰患者的再入院预测,为患者病情的早期发现提供方法,辅助医生诊断,降低患者突发性风险。
Claims (1)
1.基于多模态模型的心力衰竭再入院预测方法,其特征在于:包括模型训练阶段和预测阶段;
模型训练阶段包括以下步骤:
预处理:训练阶段所用到的结构化数据和非结构化数据是再次入院患者的上次出院的文本病例中的数据;
对结构化数据采用如下预处理方法:(1)因为结构化数据中缺失值属于完全随机丢失,使用线性回归根据其他值估计缺失值,得到结构化数据的完整数据;(2)使用线性归一化进行对完整数据归一化处理;(3)使用one-hot编码对归一化处理后的完整数据进行特征向量化处理,得到结构化数据的特征向量;
对非结构化数据采用如下预处理方法:(1)对非结构化数据中文本数据去除标点符号;(2)对去除标点符号后的文本数据去除非法字符;(3)对去除非法字符后的文本数据去除数字;(4)将去除数字后的文本数据进行截断处理,使文本长度保持在固定值;
训练模型:将结构化数据的特征向量输入到Transformer模型中,Transformer模型输出编码向量;将预处理后的非结构化数据输入到BERT模型,BERT模型输出编码向量;编码向量都输入到AdaBoost模型中,AdaBoost模型输出患者是否再入院的结论;
在训练过程根据损失函数自动调整Transformer模型,BERT模型和Adaboost模型的参数;当模型训练完成后,利用模型对新采集到的测试集数据进行预测,根据预测结果和期望结果计算预测误差,最终的准确率达到95%以上;
预测阶段的过程为:将当下即将出院条件患者的文本病例中数据进行预处理,结构化数据的特征向量输入到Transformer模型得到编码向量,将预处理后的非结构化数据输入到BERT模型,BERT模型输出编码向量,编码向量都输入到AdaBoost模型进行融合,AdaBoost模型输出该患者未来一段时间是否还需要再入院的结论,若得到还需要再入院的结论,出院时提醒患者定期到医院检查,避免错过最佳治疗时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310678826.2A CN116720081A (zh) | 2023-06-09 | 2023-06-09 | 基于多模态模型的心力衰竭再入院预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310678826.2A CN116720081A (zh) | 2023-06-09 | 2023-06-09 | 基于多模态模型的心力衰竭再入院预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116720081A true CN116720081A (zh) | 2023-09-08 |
Family
ID=87874576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310678826.2A Pending CN116720081A (zh) | 2023-06-09 | 2023-06-09 | 基于多模态模型的心力衰竭再入院预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116720081A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117217807A (zh) * | 2023-11-08 | 2023-12-12 | 四川智筹科技有限公司 | 一种基于多模态高维特征的不良资产估值算法 |
-
2023
- 2023-06-09 CN CN202310678826.2A patent/CN116720081A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117217807A (zh) * | 2023-11-08 | 2023-12-12 | 四川智筹科技有限公司 | 一种基于多模态高维特征的不良资产估值算法 |
CN117217807B (zh) * | 2023-11-08 | 2024-01-26 | 四川智筹科技有限公司 | 一种基于多模态高维特征的不良资产估值方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ghazal et al. | Alzheimer disease detection empowered with transfer learning | |
CN111192680B (zh) | 一种基于深度学习和集成分类的智能辅助诊断方法 | |
CN109920501B (zh) | 基于卷积神经网络和主动学习的电子病历分类方法及系统 | |
Sheykhivand et al. | Developing an efficient deep neural network for automatic detection of COVID-19 using chest X-ray images | |
Yadav et al. | Lung-GANs: unsupervised representation learning for lung disease classification using chest CT and X-ray images | |
Yu et al. | Automatic ICD code assignment of Chinese clinical notes based on multilayer attention BiRNN | |
CN108091397B (zh) | 一种缺血性心脏病患者的出血事件预测方法 | |
CN112800766B (zh) | 基于主动学习的中文医疗实体识别标注方法及系统 | |
Nasir et al. | Multi-modal image classification of COVID-19 cases using computed tomography and X-rays scans | |
CN116720081A (zh) | 基于多模态模型的心力衰竭再入院预测方法 | |
Mohagheghi et al. | Integration of CNN, CBMIR, and visualization techniques for diagnosis and quantification of covid-19 disease | |
Hsu et al. | Multi-label classification of ICD coding using deep learning | |
CN112052889A (zh) | 基于双门控递归单元解码的喉镜图像识别方法 | |
Almazroi et al. | A clinical decision support system for heart disease prediction using deep learning | |
Kaya | Feature fusion-based ensemble CNN learning optimization for automated detection of pediatric pneumonia | |
Liang et al. | Disease prediction based on multi-type data fusion from Chinese electronic health record | |
CN117457162A (zh) | 基于多编码器和多模态信息融合的急诊分诊方法及系统 | |
Safa et al. | A Survey on Hybrid Case-Based Reasoning and Deep Learning Systems for Medical Data Classification | |
CN116403706A (zh) | 一种融合知识扩展和卷积神经网络的糖尿病预测方法 | |
Chaithra et al. | A Review of Machine Learning Techniques Used in the Prediction of Heart Disease. | |
Nisa et al. | Medical image analysis using deep learning: a review | |
CN113688632A (zh) | 一种提取疾病预后协变量的结构化数据的方法及系统 | |
Feng et al. | Can Attention Be Used to Explain EHR-Based Mortality Prediction Tasks: A Case Study on Hemorrhagic Stroke | |
Fettah et al. | Deep learning model for magnetic resonance imaging brain tumor recognition | |
Quadri et al. | Deep Learning-Based Segmentation and Classification of COVID-19 Infection Severity Levels from CT Scans. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |