CN117952966A

CN117952966A - 基于Sinkhorn算法的多模态融合生存预测方法

Info

Publication number: CN117952966A
Application number: CN202410345919.8A
Authority: CN
Inventors: 余晋刚; 曾泽宁; 王培伟; 吴启航
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2024-03-26
Filing date: 2024-03-26
Publication date: 2024-04-30
Anticipated expiration: 2044-03-26

Abstract

本发明公开了一种基于Sinkhorn算法的多模态融合生存预测方法，首先获取癌症患者的病理组织图像及原始基因数据；然后切分patch块提取patch特征及基因特征；再将patch特征和基因特征转换为值特征、键特征及查询特征；基于Sinkhorn算法计算键特征和查询特征的Sinkhorn互注意力矩阵；对Sinkhorn互注意力矩阵进行交替列行归一化，并对值特征加权得到加权特征；最后将加权特征输入patch特征聚合模块，查询特征输入基因特征聚合模块进行特征聚合，拼接为一个特征向量输入全连接层中进行风险预测得到预测结果。本发明减少了计算量，在保证端到端学习的同时提高多模态融合生存预后预测的准确性。

Description

基于Sinkhorn算法的多模态融合生存预测方法

技术领域

本发明属于病理图像处理及生存预测的技术领域，具体涉及一种基于Sinkhorn算法的多模态融合生存预测方法。

背景技术

生存预后预测是一项复杂的有序回归任务，旨在估计癌症预后中的相对死亡风险；准确的生存预后预测对于医生评估疾病进展和治疗效率的临床结果至关重要。在目前技术水平下，病理学家对组织学和基因组学的人工评估是患者分诊、风险评估和治疗组分层的金标准。尽管最近在组织学和基因组学的多模态学习方面取得了进展，但仍存在几个悬而未决的问题。其中一个艰巨的挑战是从异构模式中捕获关键信息以进行有效融合，特别是在不丢失关键信息的情况下如何有效地表示十亿像素的全切片图像。此外，病理图像中肿瘤微环境（TME）的视觉概念被证实与各种癌症类型的生存分析有显著关联，例如，包括纤维细胞和各种免疫细胞在内的细胞成分可以改变癌细胞的行为。然而，与TME相关的斑块只占整个全切片图像的很小比例，这导致了传统的多模态学习无法分辨的细粒度视觉识别问题。

基于注意力的多实例学习（MIL）提供了一种识别信息实例的典型解决方案，其中全切片图像被表述为一组实例，并为每个实例分配一个注意力分数作为选择的权重。在多模态学习中，基因组数据已被应用于通过跨模态的互注意力机制来指导TME相关实例的选择，因为基因表达可能对应病理性TME中显示的一些形态学特征。然而，这种具有局部视图的方法无法彻底了解TME的信息，因为其忽略了模态内的全局潜在结构，例如TME内部的组织学相互作用和基因组学的共表达。总的来说，使用全切片图像进行癌症预测既是一个困难的弱监督学习问题，也是一个多模态学习问题，并且在许多癌症亚型的疾病进展表征中是一个巨大的挑战。

现有的组织学和基因组学特征多模态融合的方法主要分为两种：一是组织学特征和基因组学特征直接计算softmax互注意力，代表性工作是MCAT。具体来说，首先使用一个固定权重的预训练卷积网络和多层感知器分别提取初始全切片图像的patch特征和基因组学特征，然后分别通过三个可学习全连接层得到“查询”特征、“键”特征和“值”特征；“查询”特征与“键”特征做矩阵乘法得到初始矩阵，该矩阵乘以缩放因子，并在行方向（即patch数维度）上做softmax归一化后得到注意力矩阵；注意力矩阵由基因组学特征转化的“查询”特征和全切片图像patch特征转化的“键”特征得到，因此也称为互注意力矩阵；互注意力矩阵对“值”特征加权后，得到新的特征在网络模型中继续前向传播；而得到互注意力矩阵这一过程就是多模态融合过程。二是运用组织学特征和基因组学特征求解最优传输的变体问题，代表工作是MOTCat。该工作提出了一个具有全局结构一致性的基于多模态最优传输的互注意力框架，从全局角度应用组织学和基因组学之间的实例匹配；最优传输（OT）作为一种结构匹配方法，能够基于组织学和基因组学实例之间的局部匹配成本，生成总体匹配成本最小的最优匹配解；因此，可以识别出与基因共表达具有高度全局结构一致性的patch实例来代表全切片图像；这些实例可能与有助于生存预后预测的TME有更强的关联。与传统的互注意力机制相比，最优传输提供具有全局感知的实例匹配，在优化过程中，总质量相等的边际约束强制在模态内的实例之间进行权衡；最优匹配流在保持势结构的前提下实现了多模态之间的转化，减小了跨模态异质性差距。

然而，上述MCAT方法中，由基因组学特征转化的“查询”特征与由全切片图像patch特征转化的“键”特征两两独立计算注意力值，而在对“值”特征加权之前只对注意力矩阵在patch数维度上做softmax归一化操作，这样会导致几个问题，由于没有额外的约束条件，每个基因可能只和几个patch有较高的注意力值，这些patch可能是由图像噪声导致的，与生存预后预测无太大关联；而softmax归一化又会进一步放大这些错误的高注意力值，平滑潜在的正确注意力；在理想情况下，一个基因应尽可能激活所有与其有现实意义关联的patch，而抑制与其没有关联或者是有反向意义的patch；这就是所需要的全局结构约束，而MCAT方法缺少这一至关重要的约束关系。另一方面，只在一个维度上做归一化约束，会导致一个patch和多个基因同时有较高注意力值，这是与现实意义相违背的，例如：不希望一个patch既和促癌基因有高注意力又和抑癌基因有高注意力。MOTCat方法提出了一个具有全局结构一致性的基于多模态最优传输的互注意力框架，然而，由于全切片图像的超高像素及其较大的patch数，很难应用最优传输来匹配组织学数据和基因组学数据；尽管MOTCat方法采用了微批次策略来近似原始最优传输问题，虽然能在一定程度上减小计算的复杂度，在理论上保证模型的收敛性，但同时也带来了一些其他问题：首先，在训练过程中随机将所有patch分成若干子集单独计算互注意力，破坏了全切片图像的全局结构；其次，随机划分引入了很强的随机性，容易造成模型训练过程中的波动，因为每次的计算结果都与子集的划分情况高度相关，求解互注意力的过程需要从梯度流中截取变量独立计算，再将计算结果以常数形式反馈到模型当中，这意味着这种基于最优传输的多模态交互是不可学习的；但现实希望组织学特征与基因组学特征能够通过自主学习，自适应地形成多模态互注意力，而MOTCat方法显然违背了这一初衷。

发明内容

本发明针对现有组织学特征和基因组学特征多模态融合方法要么没有考虑基因与patch的全局结构约束，要么引入复杂的不可学习概念的问题，提供一种基于Sinkhorn互注意力机制的多模态融合生存预测方法，综合考虑了基因特征和patch特征的重要程度，通过基因特征引导patch特征，能极大降低patch特征的维度，减少计算量和内存占用，提高多模态融合生存预后预测的准确性。

本发明第一目的在于提供一种基于Sinkhorn算法的多模态融合生存预测方法，包括下述步骤：

对癌症患者的数字病理全切片图像进行阈值分割去除背景区域，得到病理组织图像；对癌症患者进行基因测序得到原始基因数据；

在设定放大倍率下将病理组织图像切分为大小一致的patch块，输入patch特征提取器中提取patch特征；从原始基因数据中选取多个基因使用基因特征提取器提取基因特征；

使用三个特征映射模块分别将patch特征和基因特征转换为值特征、键特征及查询特征；

基于Sinkhorn算法计算键特征和查询特征的Sinkhorn互注意力矩阵；

对Sinkhorn互注意力矩阵进行交替列行归一化，并对值特征加权得到加权特征；

将加权特征输入patch特征聚合模块，查询特征输入基因特征聚合模块进行特征聚合，拼接为一个特征向量输入全连接层中进行风险预测得到预测结果。

作为优选的技术方案，所述patch特征提取器在ImageNet数据集上预训练获得；

所述patch特征提取器包括骨干网络和一个可学习的全连接层；

所述骨干网络采用Resnet50网络模型。

作为优选的技术方案，所述基因特征提取器由多个可学习的全连接层并联构成；多个可学习的全连接层数量与选取的基因数量相同。

作为优选的技术方案，所述三个特征映射模块均由可学习的全连接层构成；

转换公式分别为：

Q = F_QW_Q，

K = F_KW_K，

V = F_VW_V，

其中，F_Q为基因特征，F_K和F_V为patch特征；W_Q、W_K和W_V分别为三个特征映射模块的参数；Q、K和V分别表示查询特征、键特征和值特征。

作为优选的技术方案，所述Sinkhorn互注意力矩阵计算公式为：

，

其中，Q为查询特征，K为键特征，K^T为键特征的转置矩阵，d为特征维度，ReLU为线性整流函数，Sinkhorn为Sinkhorn算法，A_coattn为Sinkhorn互注意力矩阵；

所述Sinkhorn互注意力矩阵A_coattn的大小为M×N且M<<N，其中M为基因数量，N为patch块数量。

作为优选的技术方案，所述对Sinkhorn互注意力矩阵进行交替列行归一化时，先对Sinkhorn互注意力矩阵的列进行归一化，再对Sinkhorn互注意力矩阵的行进行归一化，直至达到设定的次数；

将Sinkhorn互注意力矩阵作为权重，对值特征进行加权得到加权特征R，公式为：

R = A_coattnV，

，

其中，R为M维列向量；A_coattn是Sinkhorn互注意力矩阵，为M×N维的矩阵；V是值特征，为N维列向量；r_i为加权特征R的第i个元素值；a_ij为Sinkhorn互注意力矩阵A_coattn的第i行第j列的元素值；v_j为值特征V的第j个元素值。

作为优选的技术方案，所述交替列行归一化表示为：

S⁰(A_coattn)=exp(A_coattn)，

S^k(A_coattn)=F_r(F_c(S^k-1(A_coattn)))，

S(A_coattn)=lim(S^K(A_coattn)),K→∞，

其中，A_coattn为Sinkhorn互注意力矩阵，S⁰(·)表示自定义的Sinkhorn预处理步骤，exp(·)为对所有元素取e的指数，S^k(·)为表示第k次进行交替列行归一化，S^k-1(·)表示第k-1次进行交替列行归一化，F_r(·)表示行归一化，F_c(·)表示列归一化，S^K(·)为总共进行K次交替行列归一化，S(·)为交替列行归一化的等同收敛操作；

所述行归一化F_r(·)表示为：

，

其中，表示第k次进行行归一化，/>表示为第k-1次进行行归一化，/>为元素除法运算，1_l表示长度为l的全1列向量，/>表示长度为N的全1行向量；

所述列归一化F_c(·)表示为：

，

其中，表示第k次进行列归一化，/>表示为第k-1次进行列归一化。

作为优选的技术方案，所述patch特征聚合模块与基因特征聚合模块的结构相同，均由Transformer结构和一个MIL结构组成；

把加权特征R输入patch特征聚合模块进行特征聚合得到加权聚合特征R_agg，同时把查询特征Q输入基因特征聚合模块进行特征聚合得到基因聚合特征Q_agg，分别表示为：

R_agg= T_H-MIL(T_H-Tr- R)，

Q_agg= T_G-MIL(T_G-Tr- Q)，

其中，T_H-MIL和T_H-Tr分别为patch特征聚合模块的MIL结构和Transformer结构；T_G-MIL和T_G-Tr分别为基因特征聚合模块的MIL结构和Transformer结构；

将加权聚合特征R_agg和基因聚合特征Q_agg进行拼接，得到一个特征向量F_concat，拼接公式为：

F_concat=Concat(R_agg,Q_agg)，

其中，Concat(·)为维度上的拼接操作；

将特征向量F_concat输入全连接层中进行风险预测得到预测结果，风险预测公式为：

T=W_pF_concat+b_p，

其中，T为预测结果，W_p和b_p为全连接层的参数。

本发明第二目的在于提供一种基于Sinkhorn算法的多模态融合生存预测系统，包括数据获取模块、特征提取模块、特征转换模块、矩阵计算模块、特征加权模块及聚合预测模块；

所述数据获取模块用于对癌症患者的数字病理全切片图像进行阈值分割去除背景区域，得到病理组织图像；对癌症患者进行基因测序得到原始基因数据；

所述特征提取模块用于在设定放大倍率下将病理组织图像切分为大小一致的patch块，输入patch特征提取器中提取patch特征；从原始基因数据中选取多个基因使用基因特征提取器提取基因特征；

所述特征转换模块用于使用三个特征映射模块分别将patch特征和基因特征转换为值特征、键特征及查询特征；

所述矩阵计算模块用于基于Sinkhorn算法计算键特征和查询特征的Sinkhorn互注意力矩阵；

所述特征加权模块用于对Sinkhorn互注意力矩阵进行交替列行归一化，并对值特征加权得到加权特征；

所述聚合预测模块用于将加权特征输入patch特征聚合模块，查询特征输入基因特征聚合模块进行特征聚合，拼接为一个特征向量，输入全连接层中进行风险预测得到预测结果。

本发明第三目的在于提供一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现基于Sinkhorn算法的多模态融合生存预测方法。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明通过引入基于Sinkhorn的交替列行归一化操作，在多模态融合过程中充分考虑两个维度的相对大小信息，防止某个patch与所有基因同时拥有高注意力，增强可解释性和鲁棒性；由于交替行列归一化对互注意力增加全局结构约束，所以能从本质上提高多模态融合生存预后预测的准确性。

2、基于Sinkhorn的交替列行归一化由最优传输问题推导而来，有着较为清晰的理论基础，与现有的互注意力计算方式兼容，可以很容易地运用到其它多模态融合方法当中。

3、现有的组织学和基因组学多模态融合方法，遵循最基本的互注意力计算方式，即每个全切片图像patch特征和基因特征两两独立计算注意力，然后只在patch数维度上做softmax归一化，忽略了不同基因之间的相互影响；还有一些现有方法引入最优传输（OT）求解，但却带来了复杂的计算过程，并且破坏了端到端的学习。而本申请的基于Sinkhorn的交替列行归一化仅进行矩阵运算即可实现，不需要调用其它的库函数，极大地降低了计算复杂度，在几乎不带来额外计算的情况下引入全局结构约束，并保证端到端的学习，能够提高多模态融合生存预后预测的准确性。

4、通过计算得到的全局结构约束的Sinkhorn互注意力矩阵可以转化为不同基因在全切片图像上的热力图，有着较好的可视化效果，能够帮助医生定位出全切片图像中与基因表达相关的感兴趣区域。

5、本发明patch特征聚合模块使用了Transformer结构，能够同时考虑全切片图像中所有patch的信息，而不受局部感受野的限制，使得特征聚合时能够更好地捕获图像中的全局信息，有助于更准确地理解全切片图像中的内容。

6、本发明延续了病理图像领域的多示例学习（MIL）思想；由于单张全切片图像包含上万个patch小图，传统的图像处理方式无法高效地综合所有图像信息，而多示例学习通过“加权”思想，能够自动评估每个patch的重要程度，最大程度减少计算冗余，使模型更专注于病灶区域，提高生存分析准确性。

7、本发明利用Sinkhorn互注意力矩阵对值特征进行加权操作来实现多模态融合，具有较高的可解释性；其原理可理解为是计算基因特征与patch特征的相似性，利用相似性值作为权重对值特征加权得到加权特征，因此综合考虑了基因特征和patch特征的重要程度，通过基因特征引导patch特征，能极大降低patch特征的维度，减少计算量和内存占用。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于Sinkhorn算法的多模态融合生存预测方法的流程框架图。

图2为本发明方法在BRCA数据集TCGA-A2-A0CW样本的肿瘤抑制TumorSuppression基因热力图。

图3为本发明方法在BRCA数据集TCGA-A2-A0EY样本的肿瘤发生Oncogenesis基因热力图。

图4为本发明实施例中基于Sinkhorn算法的多模态融合生存预测系统的结构示意图。

图5为本发明实施例中计算机可读存储介质的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

现有组织学特征和基因组学特征多模态融合方法要么没有考虑基因与patch的全局结构约束，要么引入了复杂的不可学习的概念。本发明旨在能以一种简洁、有效的方法为原始互注意力引入全局结构约束，由此提出一种基于Sinkhorn算法的多模态融合生存预测方法，本方法只需要一些简单的矩阵运算就能实现，因此可以几乎没有代价地插入到其它方法当中，而且不破坏原模型的梯度流，是一种可学习的方法。

Sinkhorn算法是一种用于解决正定矩阵上的匹配问题的迭代算法，该算法主要用于将非负矩阵（通常是概率分布）变换成双随机矩阵（即每一行每一列的元素之和都是1）。Sinkhorn算法与最优传输问题密切相关，其提供一种数值方法，通过迭代地缩放概率分布的元素，来逼近最优传输问题的解。因此，Sinkhorn算法可被视为一种最优传输问题的数值近似方法，被广泛用于优化问题的求解。基于此，本发明使用基于Sinkhorn算法的交替列行归一化操作来代替现有方法中的最优传输（OT）求解过程，并插入到现有方法的互注意力机制中，避免OT求解带来的复杂计算过程；这样既能保持多模态融合的全局结构约束，又不引入额外的复杂计算，同时保持了可学习的梯度流，还具有极强的可解释性。

如图1所示，本实施例基于Sinkhorn算法的多模态融合生存预测方法，包括下述步骤：

S1、对癌症患者的数字病理全切片图像进行阈值分割去除背景区域，得到病理组织图像；对癌症患者进行基因测序得到原始基因数据；

S2、在设定放大倍率下将病理组织图像切分为大小一致的patch块，输入patch特征提取器中提取patch特征；从原始基因数据中选取多个基因并使用基因特征提取器提取基因特征；

S3、使用三个特征映射模块分别将patch特征和基因特征转换为值特征、键特征及查询特征；

S4、基于Sinkhorn算法计算键特征和查询特征的Sinkhorn互注意力矩阵；

S5、对Sinkhorn互注意力矩阵进行交替列行归一化，并对值特征加权得到加权特征；

S6、将加权特征输入patch特征聚合模块，查询特征输入基因特征聚合模块进行特征聚合，拼接为一个特征向量，输入全连接层中进行风险预测得到预测结果。

本实施例中，首先对数字病理全切片图像进行阈值分割，将大部分白色背景区域去除，从中提取出有效的病理组织图像，这样能够节省大量的存储开销，同时减少数据集的噪声；然后将病理组织图像切分成大小一致的patch块，以便于后续能使用深度神经网络进行处理；同时还通过基因测序获取癌症患者的基因数据，基因数据一般是某些特定基因的表达情况，其数据类型有数值型和非数值型，此处需要将非数值型数据转化为数值型，这样就得到了全是数值型的数据，也就是原始基因数据，可以直接运用到后续后模块中。本实施例中，在20×放大倍率下将病理组织图像切分成256×256大小的patch块。

接着便是使用patch特征提取器Φ_H提取patch块的特征；patch特征提取器Φ_H在ImageNet数据集上预训练获得，包括骨干网络和一个可学习的全连接层；本实施例中，骨干网络采用Resnet50网络模型作为骨干网络，可学习的全连接层将patch块的维度从1024将至256，得到patch特征。

而提取基因特征的基因特征提取器Φ_G由多个可学习的全连接层并联构成，其中可学习的全连接层数量与选取的基因数量相同。本实施例中，从原始基因数据中选取了6个基因，因此基因特征提取器Φ_G由6个可学习的全连接层共同构成。

进一步的，通过三个特征映射模块分别将patch特征和基因特征转换为值特征V、键特征K和查询特征Q；其中三个特征映射模块均由可学习的全连接层构成，转换公式分别为：

Q = F_QW_Q，

K = F_KW_K，

V = F_VW_V，

进一步的，基于Sinkhorn算法计算键特征K与查询特征Q的Sinkhorn互注意力矩阵，计算公式为：

，

其中，K^T为键特征的转置矩阵，d为特征维度，ReLU为线性整流函数，Sinkhorn为Sinkhorn算法，A_coattn为Sinkhorn互注意力矩阵；由于Sinkhorn归一化要求矩阵非负，因此使用ReLU函数来去除初始注意力矩阵中的负元素并令其为0。Sinkhorn互注意力矩阵A_coattn的大小为M×N且M<<N，其中M为基因数量，N为patch块数量。

进一步的，在双随机矩阵理论中，对一个非负方阵做交替列行归一化，能够使该矩阵收敛于一个双随机矩阵，即行和与列和均为1的矩阵。由于Sinkhorn互注意力矩阵A_coattn的大小为M×N且M<<N，因此无法根据该理论将其化为严格的双随机矩阵，其中一个维度之和为M/N。然而，本发明的初衷是希望给互注意力矩阵引入全局结构约束，即把不同基因对patch块的注意力分散开来，避免过分关注某个基因或某个patch块；因此本发明采用交替列行归一化对矩阵进行操作，虽然互注意力矩阵的一个维度之和不为1，但经过交替归一化后该维度仍会产生较大的相对数值差距，这已经达到了本发明的目的，因此交替列行归一化依然适用；并且交替列行归一化也是为了保证对值特征加权的权重之和为1。本发明中，对Sinkhorn互注意力矩阵进行交替列行归一化时，先对Sinkhorn互注意力矩阵的列进行归一化，再对Sinkhorn互注意力矩阵的行进行归一化，直至达到设定的次数。该操作使patch这一维度求和为1，与现有技术中softmax归一化方法是相互兼容的。交替行列归一化具体表示为：

S⁰(A_coattn)=exp(A_coattn)，

S^k(A_coattn)=F_r(F_c(S^k-1(A_coattn)))，

S(A_coattn)=lim(S^K(A_coattn)),K→∞，

行归一化F_r(·)进一步表示为：

，

其中，表示第k次进行行归一化，/>表示为第k-1次进行行归一化，/>为元素除法运算，由于实际操作中，元素相除不利于训练的稳定性，因此改为在对数空间（log）进行；1_l表示长度为l的全1列向量，/>表示长度为N的全1行向量；

列归一化F_c(·)表示为：

，

还需说明的是，交替列行归一化的次数是一个可更改的超参数，可以根据不同的数据集具体设置；本实施例中交替列行归一化的次数为10。

Sinkhorn互注意力矩阵交替行列归一化后将其作为权重，对值特征V进行加权操作得到加权特征R∈ ^M×d，融合公式为：

R = A_coattnV，

，

进一步的，将加权特征R∈ ^M×d和查询特征Q∈/> ^M×d分别送入patch特征聚合模块T_H与基因特征聚合模块T_G进行特征聚合；patch特征聚合模块T_H与基因特征聚合模块T_G的结构相同，均由Transformer结构和一个基于注意力的多实例学习（MIL）结构组成；其中Transformer结构进行特征内部交互，MIL结构将特征聚合。

把加权特征R∈ ^M×d输入patch特征聚合模块进行特征聚合得到加权聚合特征R_agg∈/> ^1×d，同时把查询特征Q∈/> ^M×d输入基因特征聚合模块进行特征聚合得到基因聚合特征Q_agg∈/> ^1×d，分别表示为：

R_agg= T_H-MIL(T_H-Tr- R)，

Q_agg= T_G-MIL(T_G-Tr- Q)，

将加权聚合特征R_agg∈ ^1×d和基因聚合特征Q_agg∈/> ^1×d进行拼接，得到一个特征向量F_concat，表示为：

F_concat=Concat(R_agg,Q_agg)，

其中，Concat(·)为维度上的拼接操作；

最后输入全连接层中进行风险预测得到预测结果，风险预测公式为：

T=W_pF_concat+b_p，

其中，T为预测结果，W_p和b_p为全连接层的参数。

由于patch特征聚合模块T_H与基因特征聚合模块T_G在结构上完全相同，输入特征形式也相同（均为M×d），因此得到的聚合特征形式也相同（均为1×d）。

为了验证本发明提出的方法，本实施例使用来自癌症基因组图谱（TCGA）的三个癌症数据集来进行生存预测试验；TCGA是一个公共癌症数据库，包含匹配的诊断全切片图像和标记生存时间和审查状态的基因组数据。在试验中使用以下癌症类型：膀胱尿路上皮癌BLCA（共299个样本）、胶质母细胞瘤和低级别胶质瘤GBMLGG（共456个样本）、子宫内膜癌UCEC（共384个样本）。对于基因组数据，独特功能类别的数量被设定为以下6个，包括肿瘤抑制Tumor Suppression、肿瘤发生Oncogenesis、蛋白激酶Protein Kinases、细胞分化Cellular Differentiation、转录Transcription和细胞因子生长Cytokines。对于每个癌症数据集，以4：1的训练验证集比例进行5折交叉验证，并使用交叉验证的一致性指数（c-Index）及其标准偏差来衡量癌症患者的风险预测与已知总生存期的正确排序，结果如下表1所示：

表1三种方法在BLCA, GBMLGG和UCEC上的c-Index结果

本试验所比较的方法包括MCAT和MOTCat，采用相同的特征提取器和后端风险预测结构；本试验中本方法称为Sinkhorn-10，表示对Sinkhorn互注意力矩阵进行10次交替列行归一化操作。由于Sinkhorn-10与MCAT和MOTCat的不同之处只表现在全切片图像patch特征和基因组学特征多模态融合互注意力矩阵计算方式上，因此能直观体现本发明所提出方法在多模态融合方面的优势。从表1可知，Sinkhorn-10最终的性能在三个数据集上都超过了现有方法，这印证了基于Sinkhorn的交替行列归一化用于提升多模态融合效果是有效的，能够为多模态融合生存预后预测带来帮助。

除此之外，本实施例还可视化出由Sinkhorn互注意力矩阵转化得到的不同基因在全切片图像上的热力图，其反映出图像中每个patch块对不同基因的响应程度。图2和图3给出了Sinkhorn-10在乳腺浸润性癌BRCA数据集上两个样本在不同基因上（肿瘤抑制TumorSuppression基因和肿瘤发生Oncogenesis基因）的热力图，图2、图3还分别给出了原始全切片图像、完整热力图以及四个高度激活的patch块，可以看到热力图能够较好地覆盖到全切片图像中与对应基因相关的patch块，能够帮助医生快速定位到图像中的感兴趣区域，辅助医生进行诊断。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

基于与上述实施例中的基于Sinkhorn算法的多模态融合生存预测方法相同的思想，本发明还提供基于Sinkhorn算法的多模态融合生存预测系统，该系统可用于执行上述基于Sinkhorn算法的多模态融合生存预测方法。为了便于说明，基于Sinkhorn算法的多模态融合生存预测系统实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图4所示，本发明另一个实施例提供了一种基于Sinkhorn算法的多模态融合生存预测系统，包括数据获取模块、特征提取模块、特征转换模块、矩阵计算模块、特征加权模块及聚合预测模块；

其中，数据获取模块用于对癌症患者的数字病理全切片图像进行阈值分割去除背景区域，得到病理组织图像；对癌症患者进行基因测序得到原始基因数据；

特征提取模块用于在设定放大倍率下将病理组织图像切分为大小一致的patch块，输入patch特征提取器中提取patch特征；从原始基因数据中选取多个基因并使用基因特征提取器提取基因特征；

特征转换模块用于使用三个特征映射模块分别将patch特征和基因特征转换为值特征、键特征及查询特征；

矩阵计算模块用于基于Sinkhorn算法计算键特征和查询特征的Sinkhorn互注意力矩阵；

特征加权模块用于对Sinkhorn互注意力矩阵进行交替列行归一化，并对值特征加权得到加权特征；

聚合预测模块用于将加权特征输入patch特征聚合模块，查询特征输入基因特征聚合模块进行特征聚合，拼接为一个特征向量，输入全连接层中进行风险预测得到预测结果。

需要说明的是，在上述基于Sinkhorn算法的多模态融合生存预测方法的实施例阐述的技术特征及其有益效果均适用于基于Sinkhorn算法的多模态融合生存预测系统的实施例中，具体内容可参见本发明方法实施例中的叙述，此处不再赘述，特此声明。此外，上述实施例的基于Sinkhorn算法的多模态融合生存预测系统的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述基于Sinkhorn算法的多模态融合生存预测系统的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

如图5所示，在一个实施例中，提供了一种计算机可读存储介质，存储有程序于存储器中，当程序被处理器执行时，实现基于Sinkhorn算法的多模态融合生存预测方法，具体为：

在设定放大倍率下将病理组织图像切分为大小一致的patch块，输入patch特征提取器中提取patch特征；从原始基因数据中选取多个基因并使用基因特征提取器提取基因特征；

对Sinkhorn互注意力矩阵进行交替列行归一化，然后与值特征加权融合得到加权特征；

将加权特征输入patch特征聚合模块，查询特征输入基因特征聚合模块进行特征聚合，拼接为一个特征向量，输入全连接层中进行风险预测得到预测结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM (DRAM)、同步DRAM (SDRAM)、双数据率SDRAM (DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于Sinkhorn算法的多模态融合生存预测方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于Sinkhorn算法的多模态融合生存预测方法，其特征在于，所述patch特征提取器在ImageNet数据集上预训练获得；

所述骨干网络采用Resnet50网络模型。

3.根据权利要求1所述的基于Sinkhorn算法的多模态融合生存预测方法，其特征在于，所述基因特征提取器由多个可学习的全连接层并联构成；多个可学习的全连接层数量与选取的基因数量相同。

4.根据权利要求1所述的基于Sinkhorn算法的多模态融合生存预测方法，其特征在于，所述三个特征映射模块均由可学习的全连接层构成；

转换公式分别为：

Q = F_QW_Q，

K = F_KW_K，

V = F_VW_V，

5.根据权利要求1所述的基于Sinkhorn算法的多模态融合生存预测方法，其特征在于，所述Sinkhorn互注意力矩阵计算公式为：

，

6.根据权利要求1所述的基于Sinkhorn算法的多模态融合生存预测方法，其特征在于，所述对Sinkhorn互注意力矩阵进行交替列行归一化时，先对Sinkhorn互注意力矩阵的列进行归一化，再对Sinkhorn互注意力矩阵的行进行归一化，直至达到设定的次数；

R = A_coattnV，

，

7.根据权利要求6所述的基于Sinkhorn算法的多模态融合生存预测方法，其特征在于，所述交替列行归一化表示为：

S⁰(A_coattn)=exp(A_coattn)，

S^k(A_coattn)=F_r(F_c(S^k-1(A_coattn)))，

S(A_coattn)=lim(S^K(A_coattn)),K→∞，

所述行归一化F_r(·)表示为：

，

所述列归一化F_c(·)表示为：

，

8.根据权利要求1所述的基于Sinkhorn算法的多模态融合生存预测方法，其特征在于，所述patch特征聚合模块与基因特征聚合模块的结构相同，均由Transformer结构和一个MIL结构组成；

R_agg = T_H-MIL(T_H-Tr - R)，

Q_agg = T_G-MIL(T_G-Tr - Q)，

F_concat=Concat(R_agg,Q_agg)，

其中，Concat(·)为维度上的拼接操作；

T=W_pF_concat+b_p，

其中，T为预测结果，W_p和b_p为全连接层的参数。

9.基于Sinkhorn算法的多模态融合生存预测系统，其特征在于，应用于权利要求1-8中任一项所述的基于Sinkhorn算法的多模态融合生存预测方法，包括数据获取模块、特征提取模块、特征转换模块、矩阵计算模块、特征加权模块及聚合预测模块；

10.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-8任一项所述的基于Sinkhorn算法的多模态融合生存预测方法。