CN117954090A - 一种基于多模态缺失数据患者的死亡率预测方法及系统 - Google Patents
一种基于多模态缺失数据患者的死亡率预测方法及系统 Download PDFInfo
- Publication number
- CN117954090A CN117954090A CN202410066039.7A CN202410066039A CN117954090A CN 117954090 A CN117954090 A CN 117954090A CN 202410066039 A CN202410066039 A CN 202410066039A CN 117954090 A CN117954090 A CN 117954090A
- Authority
- CN
- China
- Prior art keywords
- patient
- data
- patients
- modality
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims abstract description 15
- 238000013507 mapping Methods 0.000 claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000014509 gene expression Effects 0.000 claims description 12
- 238000005259 measurement Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 8
- 206010020751 Hypersensitivity Diseases 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 230000007815 allergy Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 208000026935 allergic disease Diseases 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 239000012633 leachable Substances 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000009472 formulation Methods 0.000 claims description 2
- 238000011326 mechanical measurement Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 7
- 238000011524 similarity measure Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000002565 electrocardiography Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000009533 lab test Methods 0.000 description 2
- 238000011545 laboratory measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012806 monitoring device Methods 0.000 description 2
- 208000022873 Ocular disease Diseases 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Pathology (AREA)
- Algebra (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于多模态缺失数据患者的死亡率预测方法及系统,所述方法包括:获取多模态患者数据;对获取的数据进行预处理;使用不同的编码器分别对多模态患者数据进行特征映射;通过标签特征对患者进行分组,并使用核函数计算组内患者相似性;通过相似矩阵来筛选相似患者,补全缺失模态信息;使用交叉注意力机制融合患者的多模态数据,对融合特征进行决策,得到患者死亡预测结果。本发明可以更好的获得完整的患者表示,提高模型的效率和准确性;通过使用交叉注意力机制融合患者的多模态信息可以更好的减少模态间的差异性,加强模态间的联系,使之更加符合实际情况,同时提高模型的性能。
Description
技术领域
本发明属于医学大数据信息处理领域,特别涉及一种基于多模态缺失数据患者的死亡率预测方法及系统。
背景技术
在医学领域,医生需要多种医学数据来进行诊断和预测患者病情,而多模态医学数据与人工智能的结合已经成为一种趋势。目前已有一些使用多模态信息的方法来预测患者死亡率的研究。例如,《Clinical narrative-aware deep neural network foremergency department critical outcome prediction》通过使用自然语言处理技术从自由文本中提取功能,并结合结构化数据(如生命体征、年龄和性别)和非结构化数据(如主诉、当前疾病和病史)开发了一个预测模型。该模型旨在识别在护士主导的分诊过程中被确定为非危重或非紧急的潜在危重患者,并在对这些患者进行初步评估时为医生的决策提供支持。然而,该研究并未解决患者结构化数据和非结构化数据之间的映射信息。
此外,在现实生活中,由于各种原因,多模态医学数据常常是不完整的,例如设备故障、数据传输失败、用户隐私等。因此,处理数据缺失问题是利用多模态医学数据进行诊断和预测的重要考虑因素。例如,《Disease-image-specific Learning for Diagnosis-oriented Neuroimage Synthesis with Incomplete Multi-Modality Data》通过求解一个生成式模型来解决数据缺失问题,生成模型的目标是学习从潜在空间到原始输入空间的映射。然而,这样的映射问题本质上是一个给定输出,求解输入的过程,在这种情况下,要通过生成模型学习如何从潜在空间生成对应的原始输入数据。然而,由于潜在空间和原始输入空间的维度不同,同时信息的丢失和不完整性,使得这个映射问题变得不确定、不唯一。此外,使用复杂的辅助模型可能会引入额外的噪声,对结果产生负面影响。
发明内容
发明目的:针对上述现有技术存在的问题,本发明提供一种基于多模态缺失数据患者的死亡率预测方法及系统,可以更好的获得完整的患者表示,提高模型的效率和准确性。
技术方案:本发明所述的一种基于多模态缺失数据患者的死亡率预测方法,具体包括以下步骤:
(1)从公开数据集MIMIC-IV中提取出患者的多模态数据;
(2)对提取到的数据进行预处理:采用正则表达式提取需要的特定文本片段,并且对提取到的片段进行处理;
(3)使用不同的编码器分别对多模态患者数据进行特征映射;
(4)通过标签特征对患者进行分组,并使用核函数计算组内患者相似性;
(5)通过相似矩阵来筛选相似患者,补全缺失模态信息;
(6)使用交叉注意力机制融合患者的多模态数据,对融合特征进行决策,得到患者死亡预测结果。
进一步地,步骤(1)所述患者的多模态数据包括从EHR中提取的临床数据和ICU床旁监护设备采集的数据;所述临床数据包括患者的入院记录、实验室检查、临床文本;所述ICU床旁监护设备采集的数据包括机械测量标签、心电波形图。
进一步地,所述步骤(2)实现过程如下:
针对过敏史、过往病史、社会史、实验室检查从临床文本中提取出目标文本片段;然后将文本片段的大写字母转换为小写字母,并删除其中的停止词和标点符号;
统一文本文字,调整大写字母转换为小写字母;使用NLTK包删除停止词和标点符号,除了“/”、“+”、“-”和“’”;并删除终止词,在文本中保留否定含义的词。
进一步地,所述步骤(3)实现过程如下:
将预处理得到的临床文本、入院记录、实验室检查、机器测量标签、心电波形图使用transformer、resnet编码器进行编码;将他们映射到公共空间中,统一维度;对于特定的m模态第n患者的表示公式如下:
其中,gm(.)是m模态的表示提取模型,θm是不同编码器的参数,表示m模态第n患者输入数据;
根据机器测量标签特征对患者进行分组,先通过同一特征将患者进行筛选;对于一组m模态患者,表示公式如下:
其中,B是一组患者的数量。
进一步地,所述步骤(4)实现过程如下:
对于在m模态下的患者和/>相似度定义为:
其中,σ是调整数据中各个距离之间的相似性权重,对于m模态的成对的相似性计算为:
Πm=km(Em,Em)
其中,Πm是针对m模态患者的相似矩阵。
进一步地,所述步骤(5)实现过程如下:
引入一个阈值过滤掉低于该阈值的相似性分数,获得过滤的相似性矩阵为:
其中,Λ是用于过滤掉不相似对的可学习阈值,并且∈用于防止被0整除;maskm是布尔值的掩码矩阵,它确定关联值的每个元素是否有效;
为了从相似信息去补充缺失模态患者信息,将一批患者的特征表示为一个邻接矩阵;然后,使用图卷积层通过利用结构信息来表示学习,于是m模态中相似患者的聚合相似信息定义为:
其中,W0和W1是投影矩阵;获得患者的每种模态的两种不同表示:Em患者原本模态输入表示,患者聚合相似表示;对于确实模态信息的患者,直接用相似患者的信息进行补充,表示为:
进一步地,所述步骤(5)实现过程如下:
交叉注意的定义为:
其中,m表示模态,n=1,…n表示模态m1与模态m2的交叉注意力,模态m2与模态m3的交叉注意力接着再进行融合:
然后对融合后的特征进行预测:
并且使用二元交叉熵作为损失函数:
其中,B是一组患者数量的大小,yi取值0或1,yl是模型的预测值。
本发明所述的一种基于多模态缺失数据患者的死亡率预测系统,包括:
多模态患者数据提取模块,用以提取入院信息、实验室检查、机器测量值、临床文本、心电图信息;
数据预处理模块,采用正则表达式提取需要的特定文本片段,并且对提取到的片段将大写字母调整为小写字母、删除停止词和标点符号;
模态表示模块,使用不同的编码器分别对多模态患者数据进行特征映射;
患者相似度计算模块,通过核函数计算组内各模态间的患者相似度;
信息聚合模块,通过相似矩阵来聚合筛选出具有相似度的患者,同时利用聚合的信息将缺失模态患者的信息补全;
融合决策模块,使用注意力机制将补全后的多模态患者特征进行补全,对融合特征进行决策,得到死亡率预测结果。
有益效果:与现有技术相比,本发明的有益效果:本发明考虑缺失的多模态数据,综合考虑患者的入院信息、实验室检查、临床文本、心电图,可以在没有任何医疗专家协助的情况下,准确预测患者的死亡率任务;本发明提出使用标签特征进行分组,再使用核函数和信息传播聚合的方式,补全缺失模态信息,在保证数据量的前提下,极大的减少引入额外的噪声,提高预测模型的准确率;本发明使用一种交叉注意力融合机制,可以有效地学习不同模态数据之间的交互信息,这种机制能够保持单模态表示的能力,减少模态间的差异性,使得模型更贴近实际情况。
附图说明
图1是基于多模态缺失数据患者的死亡率预测方法的流程图;
图2是基于多模态缺失数据患者的死亡率预测系统结构示意图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示,本发明提供一种基于多模态缺失数据患者的死亡率预测方法,具体包括以下步骤:
步骤1,从公开数据集MIMIC-IV中提取出患者的多模态数据。
MIMIC-IV数据集是一个多元时间序列数据集由稀疏和不规则采样生理信号组成,主要有三类基础数据:一类是从EHR中提取的临床数据,包括患者的人口统计学、疾病诊断、实验室检测、药物治疗、生命体征等;第二类数据是ICU床旁监护设备采集的波形数据、生命体征、液体管理和事件记录,主要来自于IMDSoft MetaVision系统;第三类是是死亡随访数据,通过社会保险系统得到患者院外死亡的日期。本发明主要使用MIMIC-IV数据集中的结构化信息:入院信息、实验室检测信息、机器测量值信息和非结构化信息临床文本、心电图。使用Pandas从MIMIC-IV数据集中抽取出患者的入院信息、实验室测量、机器测量值、临床文本和心电波形图,作为本发明的数据集。
步骤2,对提取到的数据进行预处理:采用正则表达式提取需要的特定文本片段,并且对提取到的片段将大写字母调整为小写字母、删除停止词和标点符号。
上述抽取的多模态患者数据集包含了人口统计学、实验室测量、临床文本、机器测量值、心电波形图等信息,由于MIMIC-IV数据集中患者的临床文本长度不一,而且其中包含了过敏、过往病史、社会史、实验室检查、入院信息、出院信息等,文本信息与其他信息重复冗余,因此需要提取出医生描述患者最近身体情况最相关的临床文本信息。所以采用正则表达式来提取需要的的特定文本片段,并且对提取到的片段进行大写字母调整为小写字母、删除停止词和标点符号。
为了解决这一问题,采用了正则表达式匹配技术,针对过敏史、过往病史、社会史、实验室检查、入院信息和出院信息等关键信息,精准提取出目标文本片段。随后,对提取到的文本片段进行了预处理,包括将大写字母转换为小写字母,并删除其中的停止词和标点符号。首先拼写错误被纠正,并调整一些大写字母到小写字母。使用NLTK包删除停止词和标点符号,除了“/”、“+”、“-”和“’”。为了删除终止词,在文本中保留了否定的词,因为否定的发现对死亡率判断很重要。由于医学数据的获取会有一些问题,在机器测量值中,由于一些机器和患者原因,需要删除一些无效数据。
步骤3,使用不同的编码器分别对多模态患者数据进行特征映射。
对于上述提取到的患者多模态数据,无法进行直接使用。因为对于多模态患者,很难对输入数据之间的交互进行建模,有些数据是高维的,不同模态的数据具有异构性,因此将上述得到的数据集使用transformer、resnet编码器分别对临床文本、实验室检查、入院信息、机器测量值、心电图进行编码。于是对特定的m模态第n患者的表示公式如下:
其中,gm(.)是m模态的表示提取模型,θm是不同编码器的参数,表示m模态第n患者输入数据。
如果直接对数据量巨大的数据集的患者进行相似度计算,显然是不可能的。但是对于全科的医学数据集而不是专科医学数据集(如眼部疾病智能数据集)进行按一定数量分组,组内的特殊患者可能无法精确匹配。根据机器测量标签特征对患者进行分组,可以先通过同一特征将患者进行筛选。对于一组m模态患者,表示公式如下:
其中,B是一组患者的数量。
步骤4,通过标签特征对患者进行分组,并使用核函数计算组内患者相似性。
对于缺失模态的患者,无法获得缺失的模态表示,这导致模态信息的不完整。可以比较患者数据的相似性,通过未缺失模态患者的信息来补全缺失模态患者的信息。经常采用的策略是在每个模态空间中对学习到的表示尝试不同类型的相似性度量,例如余弦、欧几里得距离等,然后选择最佳相似性度量。然而,这种方法非常耗时,而且即使尝试不同的相似性度量,也会发现那些传统的相似性度量往往无法考虑局部特征。同时低维空间线性不可分的模式通过非线性映射到高维特征空间则可能实现线性可分,但是如果直接采用这种技术在高维空间进行分类或回归,则存在确定非线性映射函数的形式和参数、特征空间维数等问题,而最大的障碍则是在高维特征空间运算时存在的“维数灾难”。于是采用核函数技术可以有效地解决这样问题,对于在m模态下的患者和/>相似度定义为:
对于m模态的成对的相似性计算为:
Πm=km(Em,Em)
其中,Πm是针对m模态患者的相似矩阵。
步骤5,通过标签特征对患者进行分组,并使用核函数计算组内患者相似性。由于核方法的特点,使得Πm是一个完全正对称的矩阵,并且Πm矩阵中的每一个单元格的取值范围为0到1,表示第i个病人与第j个病人之间的相似性。当使用相似性度量计算患者之间的相似性时,可能会遇到正相似性导致所有患者都被认为是相似的情况。为了解决这个问题,可以引入一个阈值来过滤掉低于该阈值的相似性分数,从而将其视为不相似。因此通过综合考虑来自每个模态的相似性,可以获得过滤的相似性矩阵为:
其中,Λ是用于过滤掉不相似对的可学习阈值,并且∈用于防止被0整除。maskm是布尔值的掩码矩阵,它确定关联值的每个元素是否有效。
为了从相似信息去补充缺失模态患者信息,将一批患者的特征表示为一个邻接矩阵。然后,使用图卷积层通过利用结构信息来表示学习,于是m模态中相似患者的聚合相似信息定义为:
其中,W0和W1是投影矩阵;获得了这批患者的每种模态的两种不同表示:Em患者原本模态输入表示,患者聚合相似表示。因此对于确实模态信息的患者,可以直接用相似患者的信息进行补充;可以表示为:
步骤6,使用交叉注意力机制融合患者的多模态数据,对融合特征进行决策,得到患者死亡预测结果。
当得到了补全好的多模态特征,需要将他们融合到一起,来进行预测工作。采用交叉注意力机制来进行多模态数据融合,交叉注意力机制允许不同模态之间的信息进行交互和融合。通过计算相似度和注意力权重,可以将不同模态的特征进行加权融合,从而更好地利用各个模态的信息。这样可以提高特征表示的表达能力,更全面地捕捉数据的多样性和丰富性。因此交叉注意的定义为:
其中,m表示模态,n=1,…n表示模态m1与模态m2的交叉注意力,模态m2与模态m3的交叉注意力接着再进行融合:
然后对融合后的特征进行预测:
并且使用二元交叉熵作为损失函数:
其中,B是一组患者数量的大小,yi取值0或1,yl是模型的预测值。
如图2所示,本发明还提出一种基于多模态缺失数据患者的死亡率预测系统,包括:多模态患者数据提取模块,用以提取入院信息、实验室检查、机器测量值、临床文本、心电图信息;数据预处理模块,采用正则表达式提取需要的特定文本片段,并且对提取到的片段将大写字母调整为小写字母、删除停止词和标点符号;模态表示模块,使用不同的编码器分别对多模态患者数据进行特征映射;患者相似度计算模块,通过核函数计算组内各模态间的患者相似度;信息聚合模块,通过相似矩阵来聚合筛选出具有相似度的患者,同时利用聚合的信息将缺失模态患者的信息补全;融合决策模块,使用注意力机制将补全后的多模态患者特征进行补全,对融合特征进行决策,得到死亡率预测结果。
本发明具体实现该技术方案的方法和途径很多,以上仅是本发明的优选实施方式。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
本发明具体实现该技术方案的方法和途径很多,以上仅是本发明的优选实施方式。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (8)
1.一种基于多模态缺失数据患者的死亡率预测方法,其特征在于,包括以下步骤:
(1)从公开数据集MIMIC-IV中提取出患者的多模态数据;
(2)对提取到的数据进行预处理:采用正则表达式提取需要的特定文本片段,并且对提取到的片段进行处理;
(3)使用不同的编码器分别对多模态患者数据进行特征映射;
(4)通过标签特征对患者进行分组,并使用核函数计算组内患者相似性;
(5)通过相似矩阵来筛选相似患者,补全缺失模态信息;
(6)使用交叉注意力机制融合患者的多模态数据,对融合特征进行决策,得到患者死亡预测结果。
2.根据权利要求1所述的一种基于多模态缺失数据患者的死亡率预测方法,其特征在于,步骤(1)所述患者的多模态数据包括从EHR中提取的临床数据和ICU床旁监护设备采集的数据;所述临床数据包括患者的入院记录、实验室检查、临床文本;所述ICU床旁监护设备采集的数据包括机械测量标签、心电波形图。
3.根据权利要求1所述的一种基于多模态缺失数据患者的死亡率预测方法,其特征在于,所述步骤(2)实现过程如下:
针对过敏史、过往病史、社会史、实验室检查从临床文本中提取出目标文本片段;然后将文本片段的大写字母转换为小写字母,并删除其中的停止词和标点符号;
统一文本文字,调整大写字母转换为小写字母;使用NLTK包删除停止词和标点符号,除了“/”、“+”、“-”和“’”;并删除终止词,在文本中保留否定含义的词。
4.根据权利要求1所述的一种基于多模态缺失数据患者的死亡率预测方法,其特征在于,所述步骤(3)实现过程如下:
将预处理得到的临床文本、入院记录、实验室检查、机器测量标签、心电波形图使用transformer、resnet编码器进行编码;将他们映射到公共空间中,统一维度;对于特定的m模态第n患者的表示公式如下:
其中,gm(.)是m模态的表示提取模型,θm是不同编码器的参数,表示m模态第n患者输入数据;
根据机器测量标签特征对患者进行分组,先通过同一特征将患者进行筛选;对于一组m模态患者,表示公式如下:
其中,B是一组患者的数量。
5.根据权利要求1所述的一种基于多模态缺失数据患者的死亡率预测方法,其特征在于,所述步骤(4)实现过程如下:
对于在m模态下的患者和/>相似度定义为:
其中,σ是调整数据中各个距离之间的相似性权重,对于m模态的成对的相似性计算为:
Πm=km(Em,Em)
其中,Πm是针对m模态患者的相似矩阵。
6.根据权利要求1所述的一种基于多模态缺失数据患者的死亡率预测方法,其特征在于,所述步骤(5)实现过程如下:
引入一个阈值过滤掉低于该阈值的相似性分数,获得过滤的相似性矩阵为:
其中,Λ是用于过滤掉不相似对的可学习阈值,并且∈用于防止被0整除;maskm是布尔值的掩码矩阵,它确定关联值的每个元素是否有效;
为了从相似信息去补充缺失模态患者信息,将一批患者的特征表示为一个邻接矩阵;然后,使用图卷积层通过利用结构信息来表示学习,于是m模态中相似患者的聚合相似信息定义为:
其中,W0和W1是投影矩阵;获得患者的每种模态的两种不同表示:Em患者原本模态输入表示,患者聚合相似表示;对于确实模态信息的患者,直接用相似患者的信息进行补充,表示为:
7.根据权利要求1所述的一种基于多模态缺失数据患者的死亡率预测方法,其特征在于,所述步骤(5)实现过程如下:
交叉注意的定义为:
其中,m表示模态,n=1,…n表示模态m1与模态m2的交叉注意力,模态m2与模态m3的交叉注意力接着再进行融合:
然后对融合后的特征进行预测:
并且使用二元交叉熵作为损失函数:
其中,B是一组患者数量的大小,yi取值0或1,yl是模型的预测值。
8.一种采用如权利要求1至7任一所述方法的基于多模态缺失数据患者的死亡率预测系统,其特征在于,包括:
多模态患者数据提取模块,用以提取入院信息、实验室检查、机器测量值、临床文本、心电图信息;
数据预处理模块,采用正则表达式提取需要的特定文本片段,并且对提取到的片段将大写字母调整为小写字母、删除停止词和标点符号;
模态表示模块,使用不同的编码器分别对多模态患者数据进行特征映射;
患者相似度计算模块,通过核函数计算组内各模态间的患者相似度;
信息聚合模块,通过相似矩阵来聚合筛选出具有相似度的患者,同时利用聚合的信息将缺失模态患者的信息补全;
融合决策模块,使用注意力机制将补全后的多模态患者特征进行补全,对融合特征进行决策,得到死亡率预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410066039.7A CN117954090A (zh) | 2024-01-17 | 2024-01-17 | 一种基于多模态缺失数据患者的死亡率预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410066039.7A CN117954090A (zh) | 2024-01-17 | 2024-01-17 | 一种基于多模态缺失数据患者的死亡率预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117954090A true CN117954090A (zh) | 2024-04-30 |
Family
ID=90804973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410066039.7A Pending CN117954090A (zh) | 2024-01-17 | 2024-01-17 | 一种基于多模态缺失数据患者的死亡率预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117954090A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118248336A (zh) * | 2024-05-21 | 2024-06-25 | 吉林大学 | 患者感染风险评估系统及方法 |
CN118471517A (zh) * | 2024-07-11 | 2024-08-09 | 脉得智能科技(无锡)有限公司 | 一种疾病预测方法、装置、电子设备及存储介质 |
-
2024
- 2024-01-17 CN CN202410066039.7A patent/CN117954090A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118248336A (zh) * | 2024-05-21 | 2024-06-25 | 吉林大学 | 患者感染风险评估系统及方法 |
CN118471517A (zh) * | 2024-07-11 | 2024-08-09 | 脉得智能科技(无锡)有限公司 | 一种疾病预测方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Unbox the black-box for the medical explainable AI via multi-modal and multi-centre data fusion: A mini-review, two showcases and beyond | |
Liang et al. | Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence | |
Bharati et al. | A review on explainable artificial intelligence for healthcare: why, how, and when? | |
Lee et al. | Machine learning in relation to emergency medicine clinical and operational scenarios: an overview | |
WO2023078025A1 (zh) | 一种基于任务分解策略的发热待查辅助鉴别诊断系统 | |
US20200303072A1 (en) | Method and system for supporting medical decision making | |
CN113015977A (zh) | 使用自然语言处理的对疾病和病症的基于深度学习的诊断和转诊 | |
Taylan et al. | Early prediction in classification of cardiovascular diseases with machine learning, neuro-fuzzy and statistical methods | |
CN117954090A (zh) | 一种基于多模态缺失数据患者的死亡率预测方法及系统 | |
Gangavarapu et al. | FarSight: long-term disease prediction using unstructured clinical nursing notes | |
CN110277167A (zh) | 基于知识图谱的慢性非传染性疾病风险预测系统 | |
CN113555077B (zh) | 疑似传染病预测方法及装置 | |
CN112466462B (zh) | 一种基于图深度学习的emr信息关联及演化方法 | |
Gupta et al. | A novel deep similarity learning approach to electronic health records data | |
Alalayah et al. | Automatic and early detection of Parkinson’s disease by analyzing acoustic signals using classification algorithms based on recursive feature elimination method | |
CN115862875B (zh) | 基于多类型特征融合的术后肺部并发症预测方法及系统 | |
WO2021008601A1 (zh) | 一种医学数据的检验方法 | |
CN109360658A (zh) | 一种基于词向量模型的疾病模式挖掘方法及装置 | |
Pendyala et al. | Automated medical diagnosis from clinical data | |
CN113611401A (zh) | 一种围术期血液管理的系统和方法 | |
Teo et al. | Discovering the predictive value of clinical notes: machine learning analysis with text representation | |
CN110164519B (zh) | 一种基于众智网络的用于处理电子病历混合数据的分类方法 | |
Xiao et al. | Exploration of Attention Mechanism-Enhanced Deep Learning Models in the Mining of Medical Textual Data | |
Shastry et al. | Deep learning techniques for the effective prediction of Alzheimer’s disease: a comprehensive review | |
Chen et al. | Automatically structuring on Chinese ultrasound report of cerebrovascular diseases via natural language processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |