CN117954090A

CN117954090A - 一种基于多模态缺失数据患者的死亡率预测方法及系统

Info

Publication number: CN117954090A
Application number: CN202410066039.7A
Authority: CN
Inventors: 李斌; 张彬阳; 许天涵
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2024-01-17
Filing date: 2024-01-17
Publication date: 2024-04-30

Abstract

本发明公开了一种基于多模态缺失数据患者的死亡率预测方法及系统，所述方法包括：获取多模态患者数据；对获取的数据进行预处理；使用不同的编码器分别对多模态患者数据进行特征映射；通过标签特征对患者进行分组，并使用核函数计算组内患者相似性；通过相似矩阵来筛选相似患者，补全缺失模态信息；使用交叉注意力机制融合患者的多模态数据，对融合特征进行决策，得到患者死亡预测结果。本发明可以更好的获得完整的患者表示，提高模型的效率和准确性；通过使用交叉注意力机制融合患者的多模态信息可以更好的减少模态间的差异性，加强模态间的联系，使之更加符合实际情况，同时提高模型的性能。

Description

一种基于多模态缺失数据患者的死亡率预测方法及系统

技术领域

本发明属于医学大数据信息处理领域，特别涉及一种基于多模态缺失数据患者的死亡率预测方法及系统。

背景技术

在医学领域，医生需要多种医学数据来进行诊断和预测患者病情，而多模态医学数据与人工智能的结合已经成为一种趋势。目前已有一些使用多模态信息的方法来预测患者死亡率的研究。例如，《Clinical narrative-aware deep neural network foremergency department critical outcome prediction》通过使用自然语言处理技术从自由文本中提取功能，并结合结构化数据(如生命体征、年龄和性别)和非结构化数据(如主诉、当前疾病和病史)开发了一个预测模型。该模型旨在识别在护士主导的分诊过程中被确定为非危重或非紧急的潜在危重患者，并在对这些患者进行初步评估时为医生的决策提供支持。然而，该研究并未解决患者结构化数据和非结构化数据之间的映射信息。

此外，在现实生活中，由于各种原因，多模态医学数据常常是不完整的，例如设备故障、数据传输失败、用户隐私等。因此，处理数据缺失问题是利用多模态医学数据进行诊断和预测的重要考虑因素。例如，《Disease-image-specific Learning for Diagnosis-oriented Neuroimage Synthesis with Incomplete Multi-Modality Data》通过求解一个生成式模型来解决数据缺失问题，生成模型的目标是学习从潜在空间到原始输入空间的映射。然而，这样的映射问题本质上是一个给定输出，求解输入的过程，在这种情况下，要通过生成模型学习如何从潜在空间生成对应的原始输入数据。然而，由于潜在空间和原始输入空间的维度不同，同时信息的丢失和不完整性，使得这个映射问题变得不确定、不唯一。此外，使用复杂的辅助模型可能会引入额外的噪声，对结果产生负面影响。

发明内容

发明目的：针对上述现有技术存在的问题，本发明提供一种基于多模态缺失数据患者的死亡率预测方法及系统，可以更好的获得完整的患者表示，提高模型的效率和准确性。

技术方案：本发明所述的一种基于多模态缺失数据患者的死亡率预测方法，具体包括以下步骤：

(1)从公开数据集MIMIC-IV中提取出患者的多模态数据；

(2)对提取到的数据进行预处理：采用正则表达式提取需要的特定文本片段，并且对提取到的片段进行处理；

(3)使用不同的编码器分别对多模态患者数据进行特征映射；

(4)通过标签特征对患者进行分组，并使用核函数计算组内患者相似性；

(5)通过相似矩阵来筛选相似患者，补全缺失模态信息；

(6)使用交叉注意力机制融合患者的多模态数据，对融合特征进行决策，得到患者死亡预测结果。

进一步地，步骤(1)所述患者的多模态数据包括从EHR中提取的临床数据和ICU床旁监护设备采集的数据；所述临床数据包括患者的入院记录、实验室检查、临床文本；所述ICU床旁监护设备采集的数据包括机械测量标签、心电波形图。

进一步地，所述步骤(2)实现过程如下：

针对过敏史、过往病史、社会史、实验室检查从临床文本中提取出目标文本片段；然后将文本片段的大写字母转换为小写字母，并删除其中的停止词和标点符号；

统一文本文字，调整大写字母转换为小写字母；使用NLTK包删除停止词和标点符号，除了“/”、“+”、“-”和“’”；并删除终止词，在文本中保留否定含义的词。

进一步地，所述步骤(3)实现过程如下：

将预处理得到的临床文本、入院记录、实验室检查、机器测量标签、心电波形图使用transformer、resnet编码器进行编码；将他们映射到公共空间中，统一维度；对于特定的m模态第n患者的表示公式如下：

其中，g_m(.)是m模态的表示提取模型，θ_m是不同编码器的参数，表示m模态第n患者输入数据；

根据机器测量标签特征对患者进行分组，先通过同一特征将患者进行筛选；对于一组m模态患者，表示公式如下：

其中，B是一组患者的数量。

进一步地，所述步骤(4)实现过程如下：

对于在m模态下的患者和/>相似度定义为：

其中，σ是调整数据中各个距离之间的相似性权重，对于m模态的成对的相似性计算为：

Π^m＝k_m(E^m,E^m)

其中，Π^m是针对m模态患者的相似矩阵。

进一步地，所述步骤(5)实现过程如下：

引入一个阈值过滤掉低于该阈值的相似性分数，获得过滤的相似性矩阵为：

其中，Λ是用于过滤掉不相似对的可学习阈值，并且∈用于防止被0整除；mask^m是布尔值的掩码矩阵，它确定关联值的每个元素是否有效；

为了从相似信息去补充缺失模态患者信息，将一批患者的特征表示为一个邻接矩阵；然后，使用图卷积层通过利用结构信息来表示学习，于是m模态中相似患者的聚合相似信息定义为：

其中，W⁰和W¹是投影矩阵；获得患者的每种模态的两种不同表示：E^m患者原本模态输入表示，患者聚合相似表示；对于确实模态信息的患者，直接用相似患者的信息进行补充，表示为：

进一步地，所述步骤(5)实现过程如下：

交叉注意的定义为：

其中，m表示模态，n＝1,…n表示模态m1与模态m2的交叉注意力，模态m2与模态m3的交叉注意力接着再进行融合：

然后对融合后的特征进行预测：

并且使用二元交叉熵作为损失函数：

其中，B是一组患者数量的大小，yi取值0或1，yl是模型的预测值。

本发明所述的一种基于多模态缺失数据患者的死亡率预测系统，包括：

多模态患者数据提取模块，用以提取入院信息、实验室检查、机器测量值、临床文本、心电图信息；

数据预处理模块，采用正则表达式提取需要的特定文本片段，并且对提取到的片段将大写字母调整为小写字母、删除停止词和标点符号；

模态表示模块，使用不同的编码器分别对多模态患者数据进行特征映射；

患者相似度计算模块，通过核函数计算组内各模态间的患者相似度；

信息聚合模块，通过相似矩阵来聚合筛选出具有相似度的患者，同时利用聚合的信息将缺失模态患者的信息补全；

融合决策模块，使用注意力机制将补全后的多模态患者特征进行补全，对融合特征进行决策，得到死亡率预测结果。

有益效果：与现有技术相比，本发明的有益效果：本发明考虑缺失的多模态数据，综合考虑患者的入院信息、实验室检查、临床文本、心电图，可以在没有任何医疗专家协助的情况下，准确预测患者的死亡率任务；本发明提出使用标签特征进行分组，再使用核函数和信息传播聚合的方式，补全缺失模态信息，在保证数据量的前提下，极大的减少引入额外的噪声，提高预测模型的准确率；本发明使用一种交叉注意力融合机制，可以有效地学习不同模态数据之间的交互信息，这种机制能够保持单模态表示的能力，减少模态间的差异性，使得模型更贴近实际情况。

附图说明

图1是基于多模态缺失数据患者的死亡率预测方法的流程图；

图2是基于多模态缺失数据患者的死亡率预测系统结构示意图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

如图1所示，本发明提供一种基于多模态缺失数据患者的死亡率预测方法，具体包括以下步骤：

步骤1，从公开数据集MIMIC-IV中提取出患者的多模态数据。

MIMIC-IV数据集是一个多元时间序列数据集由稀疏和不规则采样生理信号组成，主要有三类基础数据：一类是从EHR中提取的临床数据，包括患者的人口统计学、疾病诊断、实验室检测、药物治疗、生命体征等；第二类数据是ICU床旁监护设备采集的波形数据、生命体征、液体管理和事件记录，主要来自于IMDSoft MetaVision系统；第三类是是死亡随访数据，通过社会保险系统得到患者院外死亡的日期。本发明主要使用MIMIC-IV数据集中的结构化信息：入院信息、实验室检测信息、机器测量值信息和非结构化信息临床文本、心电图。使用Pandas从MIMIC-IV数据集中抽取出患者的入院信息、实验室测量、机器测量值、临床文本和心电波形图，作为本发明的数据集。

步骤2，对提取到的数据进行预处理：采用正则表达式提取需要的特定文本片段，并且对提取到的片段将大写字母调整为小写字母、删除停止词和标点符号。

上述抽取的多模态患者数据集包含了人口统计学、实验室测量、临床文本、机器测量值、心电波形图等信息，由于MIMIC-IV数据集中患者的临床文本长度不一，而且其中包含了过敏、过往病史、社会史、实验室检查、入院信息、出院信息等，文本信息与其他信息重复冗余，因此需要提取出医生描述患者最近身体情况最相关的临床文本信息。所以采用正则表达式来提取需要的的特定文本片段，并且对提取到的片段进行大写字母调整为小写字母、删除停止词和标点符号。

为了解决这一问题，采用了正则表达式匹配技术，针对过敏史、过往病史、社会史、实验室检查、入院信息和出院信息等关键信息，精准提取出目标文本片段。随后，对提取到的文本片段进行了预处理，包括将大写字母转换为小写字母，并删除其中的停止词和标点符号。首先拼写错误被纠正，并调整一些大写字母到小写字母。使用NLTK包删除停止词和标点符号，除了“/”、“+”、“-”和“’”。为了删除终止词，在文本中保留了否定的词，因为否定的发现对死亡率判断很重要。由于医学数据的获取会有一些问题，在机器测量值中，由于一些机器和患者原因，需要删除一些无效数据。

步骤3，使用不同的编码器分别对多模态患者数据进行特征映射。

对于上述提取到的患者多模态数据，无法进行直接使用。因为对于多模态患者，很难对输入数据之间的交互进行建模，有些数据是高维的，不同模态的数据具有异构性，因此将上述得到的数据集使用transformer、resnet编码器分别对临床文本、实验室检查、入院信息、机器测量值、心电图进行编码。于是对特定的m模态第n患者的表示公式如下：

其中，g_m(.)是m模态的表示提取模型，θ_m是不同编码器的参数，表示m模态第n患者输入数据。

如果直接对数据量巨大的数据集的患者进行相似度计算，显然是不可能的。但是对于全科的医学数据集而不是专科医学数据集(如眼部疾病智能数据集)进行按一定数量分组，组内的特殊患者可能无法精确匹配。根据机器测量标签特征对患者进行分组，可以先通过同一特征将患者进行筛选。对于一组m模态患者，表示公式如下：

其中，B是一组患者的数量。

步骤4，通过标签特征对患者进行分组，并使用核函数计算组内患者相似性。

对于缺失模态的患者，无法获得缺失的模态表示，这导致模态信息的不完整。可以比较患者数据的相似性，通过未缺失模态患者的信息来补全缺失模态患者的信息。经常采用的策略是在每个模态空间中对学习到的表示尝试不同类型的相似性度量，例如余弦、欧几里得距离等，然后选择最佳相似性度量。然而，这种方法非常耗时，而且即使尝试不同的相似性度量，也会发现那些传统的相似性度量往往无法考虑局部特征。同时低维空间线性不可分的模式通过非线性映射到高维特征空间则可能实现线性可分，但是如果直接采用这种技术在高维空间进行分类或回归，则存在确定非线性映射函数的形式和参数、特征空间维数等问题，而最大的障碍则是在高维特征空间运算时存在的“维数灾难”。于是采用核函数技术可以有效地解决这样问题，对于在m模态下的患者和/>相似度定义为：

对于m模态的成对的相似性计算为：

Π^m＝k_m(E^m,E^m)

其中，Π^m是针对m模态患者的相似矩阵。

步骤5，通过标签特征对患者进行分组，并使用核函数计算组内患者相似性。由于核方法的特点，使得Π^m是一个完全正对称的矩阵，并且Π^m矩阵中的每一个单元格的取值范围为0到1，表示第i个病人与第j个病人之间的相似性。当使用相似性度量计算患者之间的相似性时，可能会遇到正相似性导致所有患者都被认为是相似的情况。为了解决这个问题，可以引入一个阈值来过滤掉低于该阈值的相似性分数，从而将其视为不相似。因此通过综合考虑来自每个模态的相似性，可以获得过滤的相似性矩阵为：

其中，Λ是用于过滤掉不相似对的可学习阈值，并且∈用于防止被0整除。mask^m是布尔值的掩码矩阵，它确定关联值的每个元素是否有效。

为了从相似信息去补充缺失模态患者信息，将一批患者的特征表示为一个邻接矩阵。然后，使用图卷积层通过利用结构信息来表示学习，于是m模态中相似患者的聚合相似信息定义为：

其中，W⁰和W¹是投影矩阵；获得了这批患者的每种模态的两种不同表示：E^m患者原本模态输入表示，患者聚合相似表示。因此对于确实模态信息的患者，可以直接用相似患者的信息进行补充；可以表示为：

步骤6，使用交叉注意力机制融合患者的多模态数据，对融合特征进行决策，得到患者死亡预测结果。

当得到了补全好的多模态特征，需要将他们融合到一起，来进行预测工作。采用交叉注意力机制来进行多模态数据融合，交叉注意力机制允许不同模态之间的信息进行交互和融合。通过计算相似度和注意力权重，可以将不同模态的特征进行加权融合，从而更好地利用各个模态的信息。这样可以提高特征表示的表达能力，更全面地捕捉数据的多样性和丰富性。因此交叉注意的定义为：

然后对融合后的特征进行预测：

并且使用二元交叉熵作为损失函数：

如图2所示，本发明还提出一种基于多模态缺失数据患者的死亡率预测系统，包括：多模态患者数据提取模块，用以提取入院信息、实验室检查、机器测量值、临床文本、心电图信息；数据预处理模块，采用正则表达式提取需要的特定文本片段，并且对提取到的片段将大写字母调整为小写字母、删除停止词和标点符号；模态表示模块，使用不同的编码器分别对多模态患者数据进行特征映射；患者相似度计算模块，通过核函数计算组内各模态间的患者相似度；信息聚合模块，通过相似矩阵来聚合筛选出具有相似度的患者，同时利用聚合的信息将缺失模态患者的信息补全；融合决策模块，使用注意力机制将补全后的多模态患者特征进行补全，对融合特征进行决策，得到死亡率预测结果。

本发明具体实现该技术方案的方法和途径很多，以上仅是本发明的优选实施方式。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于多模态缺失数据患者的死亡率预测方法，其特征在于，包括以下步骤：

(1)从公开数据集MIMIC-IV中提取出患者的多模态数据；

(3)使用不同的编码器分别对多模态患者数据进行特征映射；

(5)通过相似矩阵来筛选相似患者，补全缺失模态信息；

2.根据权利要求1所述的一种基于多模态缺失数据患者的死亡率预测方法，其特征在于，步骤(1)所述患者的多模态数据包括从EHR中提取的临床数据和ICU床旁监护设备采集的数据；所述临床数据包括患者的入院记录、实验室检查、临床文本；所述ICU床旁监护设备采集的数据包括机械测量标签、心电波形图。

3.根据权利要求1所述的一种基于多模态缺失数据患者的死亡率预测方法，其特征在于，所述步骤(2)实现过程如下：

4.根据权利要求1所述的一种基于多模态缺失数据患者的死亡率预测方法，其特征在于，所述步骤(3)实现过程如下：

其中，B是一组患者的数量。

5.根据权利要求1所述的一种基于多模态缺失数据患者的死亡率预测方法，其特征在于，所述步骤(4)实现过程如下：

对于在m模态下的患者和/>相似度定义为：

Π^m＝k_m(E^m,E^m)

其中，Π^m是针对m模态患者的相似矩阵。

6.根据权利要求1所述的一种基于多模态缺失数据患者的死亡率预测方法，其特征在于，所述步骤(5)实现过程如下：

7.根据权利要求1所述的一种基于多模态缺失数据患者的死亡率预测方法，其特征在于，所述步骤(5)实现过程如下：

交叉注意的定义为：

然后对融合后的特征进行预测：

并且使用二元交叉熵作为损失函数：

8.一种采用如权利要求1至7任一所述方法的基于多模态缺失数据患者的死亡率预测系统，其特征在于，包括：