CN117422704A

CN117422704A - 一种基于多模态数据的癌症预测方法、系统及设备

Info

Publication number: CN117422704A
Application number: CN202311574812.2A
Authority: CN
Inventors: 李春权; 马吉权; 王秋毓; 刘明新; 刘佳琦
Original assignee: First Affiliated Hospital of University of South China
Current assignee: First Affiliated Hospital of University of South China
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2024-01-19

Abstract

本申请涉及智能医疗领域，具体涉及一种基于多模态数据的癌症预测方法、系统及设备。包括获取组织病理图像、分子数据；对所述组织病理图像进行特征提取得到组织病理特征向量；对所述分子数据进行数据预处理得到分子特征；对所述分子特征进行特征提取得到基因组特征向量；将所述组织病理特征向量和所述基因组特征向量输至神经网络模型中进行特征融合得到融合特征；基于所述融合特征得到癌症预测结果。本发明创造性地提出一种互相引导的交叉模态注意力模型，得到经过引导的组织病理特征与基因组特征，捕捉到病理图像与基因组分子数据之间的空间对应关系，提高癌症预测的准确率。

Description

一种基于多模态数据的癌症预测方法、系统及设备

技术领域

本申请涉及智能医疗领域，具体涉及一种基于多模态数据的癌症预测方法、系统、设备及计算机可读存储介质。

背景技术

癌症是一种复杂的疾病，其发生和发展涉及到许多因素，包括遗传、环境、生活习惯等。在过去的几十年中，科学家们对癌症的研究已经深入到分子水平，其中组织病理学和基因组学是两个非常重要的领域。组织病理学主要关注于细胞和组织的结构和功能，而基因组学则研究基因序列和基因表达的模式。这两个领域的结合可以为癌症的预测提供更准确和可靠的信息。然而，大多数预后方法仅限于组织病理学图像或基因组学分子数据，这不可避免地降低了其准确预测患者预后的潜力。而基于深度学习的病理学领域在利用全视野(Whole slide images,WSIs)数字病理切片预测癌症患者方面展示出了巨大的潜力。但集成WSIs和基因组学特性存在三个主要挑战：(1)10亿像素WSIs的巨大异质性，可达到150000×150000像素；(2)组织病理学图像和基因组分子数据之间没有空间对应的关系；(3)现有的早期、晚期的多模态特征融合策略难以捕捉显式的WSIs和基因组学之间的相互作用关系。

发明内容

针对上述问题，本发明利用全视野数字病理切片、分子数据进行研究分析，提出一种基于多模态数据的癌症预测方法，该方法中创新性地提出一种弱监督的、基于注意力机制的多模态学习框架，它可以结合组织学特征和基因组特征以建模肿瘤微环境中的基因型-表型相互作用来预测计算病理学中的生存期结果，具体的方法包括：

获取组织病理图像、分子数据；

对所述组织病理图像进行特征提取得到组织病理特征向量；

对所述分子数据进行数据预处理得到分子特征；

对所述分子特征进行特征提取得到基因组特征向量；

将所述组织病理特征向量和所述基因组特征向量输至神经网络模型中进行特征融合得到融合特征；

基于所述融合特征得到癌症预测结果。

进一步，所述神经网络通过注意力模型分配模型权重；

优选地，所述注意力模型包括查询Q、关键字K、值V，所述查询Q表示需要关注的目标向量，所述关键字K表示输入数据的各个部分向量，通过计算目标向量与所述各个部分向量的相似度得到各部分的权重值，基于所述权重值计算得到所述值V的重要性。

进一步，所述注意力模型通过引入相互引导的交叉模态得到互引导交叉模态注意力模型，通过所述互引导交叉模态注意力模型得到引导增强向量；

优选地，所述互引导交叉模态注意力模型中的查询Q来自一个模态特征，关键字K、值V来自另一个模态特征；

优选地，所述模态特征包括：基因组模态特征、组织病理学模态特征、基因组模态与组织病理学模态的融合模态特征。

进一步，所述一个模态特征的关键字K与所述另一个模态特征的值V依次经过点积、转置、注意力加权得到加权矩阵，所述一个模态特征的查询Q与所述加权矩阵进行点积、转置操作后得到引导向量；

优选地，所述引导向量通过门控注意池进行特征聚合得到引导增强向量。

进一步，所述引导向量包括下列的一种或几种：基因组引导的组织病理学特征向量、组织病理学特征引导的基因组学特征向量；所述基因组引导的组织病理学特征向量与所述组织病理学特征引导的基因组学特征向量融合得到融合向量，融合向量引导的基因组学特征向量；基因组引导的融合向量；

优选地，所述组织病理特征向量和所述基因组特征向量通过所述互引导交叉模态注意力模型得到所述融合向量；所述融合向量和所述基因组特征向量输至所述互引导交叉模态注意力模型中进行二次融合得到融合特征。

所述分子特征通过自标准化神经网络得到基因组特征向量；

优选地，所述自标准化神经网络由输入层、隐藏层、输出层构成，所述隐藏层由连续线性单位激活函数和Dropout层组成，所述分子特征依次经过输入层、隐藏层和输出层得到所述基因组特征向量；

优选地，基因组特征包括下列的一种或几种：肿瘤抑制基因、致癌基因、蛋白激酶、细胞分化、转录、细胞因子年代和增长。

所述方法还包括获取全视野数字病理切片，对所述全视野数字病理切片依次进行图像分割、提取补丁得到组织病理补丁图像，每一张所述组织病理补丁图像为一张组织病理图像；

优选地，所述提取补丁是通过等效金字塔在组织区域无空间重叠进行提取得到的所述组织病理补丁图像；

优选地，所述组织病理补丁图像通过ResNet-50进行编码得到特征向量，所述ResNet-50包括输入层、一个卷积模块、三个残差模块、输出层；

优选地，将n个特征向量进行拼接得到所述组织病理特征向量，n为大于1的自然数。

本发明的目的在于提供一种基于多模态数据的癌症预测系统，包括：

数据获取单元：获取组织病理图像、分子数据；

组织特征提取单元：对所述组织病理图像进行特征提取得到组织病理特征向量；

数据处理单元：对所述分子数据进行数据预处理得到分子特征；

基因特征提取单元：对所述分子特征进行特征提取得到基因组特征向量；

数据融合单元：将所述组织病理特征向量和所述基因组特征向量输至神经网络模型中进行特征融合得到融合特征；

癌症预测单元：基于所述融合特征得到癌症预测结果。

本发明的目的在于提供一种基于多模态数据的癌症预测设备，包括：

存储器和处理器，所述存储器用于存储程序指令；所述处理器用于调用程序指令，当程序指令被执行时实现任意一项上述的一种基于多模态数据的癌症预测方法。

本发明的目的在于提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现任意一项上述的一种基于多模态数据的癌症预测方法。

本发明的优势：

1.采用全视野数字病理切片，全视野数字病理切片技术可以提供高清晰度的组织学特征图像，包括细胞核的大小、形状染色质模式以及细胞质成分等。通过对这些特征的分析，可以识别肿瘤的组织学类型，有助于确定肿瘤的恶性程度和预后。

2.全视野数字病理切片技术可以结合临床数据和其他生物标志物，构建预后预测模型。通过该模型，可以根据患者的个体差异预测其预后有助于制定个体化的治疗方案。

3.采用多模态数据，全视野数字病理切片中提取的组织病理学图像结合分子病理学方法中基因组学数据实现对临床数据的多角度分析，有助于揭示肿瘤的分子机制，为个体化治疗提供依据。

4.提出互引导的交叉模态注意力模型，用于预测计算病理学中的生存结果，有效地整合了组织学和基因组特征，以捕获肿瘤微环境中关键的基因型-表型相互作用，提高生存结果预测的潜力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他的附图。

图1为本发明实施例提供的一种基于多模态数据的癌症预测方法流程示意图；

图2为本发明实施例提供的一种基于多模态数据的癌症预测系统示意图；

图3为本发明实施例提供的一种基于多模态数据的癌症预测设备示意图；

图4为本发明实施例提供的多模态数据的癌症预测整体结构示意图；

图5为本发明实施例提供的组织病理特征与基因组特征拼接示意图；

图6为本发明实施例提供的组织病理特征与基因组特征进行相互引导的示意图；

图7为本发明实施例提供的MGCT结构示意图；

图8为本发明实施例提供的不同模型在各数据集上一致性指标的箱型图；

图9为本发明实施例提供的MGCT融合过程中总体性能示意图；

图10为本发明实施例提供的MCAT在五个数据集中的生存函数结果示意图；

图11为本发明实施例提供的MGCT在五个数据集中的生存函数结果示意图；

图12为本发明实施例提供的SNN对比实验结果示意图；

图13为本发明实施例提供的单模态与多模态数据对比实验结果示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如S101、S102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图1本发明实施例提供的一种基于多模态数据的癌症预测方法示意图，具体包括：

S101：获取组织病理图像、分子数据；

在一个实施例中，组织病理图像是一种在医学领域中非常重要的图像，它反映了人体组织和器官的微观结构和病理变化。通过对组织病理图像的分析，医生可以诊断疾质、评估病情、确定治疗方案和观察疾质的发展和治疗效果。组织病理图像包括细胞结构、组织结构、细胞病变、组织病变和分子病理。

细胞结构是组织病理图像分析的基础。细胞是生物体的基本单位，其形态和结构与功能密切相关。在组织病理图像中，可以观察到细胞的形状、大小、染色质和细胞器的分布等特征通过对这些特征的分析，可以了解细胞的生理状态和病理变化。

组织结构是组织病理图像分析的重要方面。组织是由多种不同类型的细胞组成的，每种细胞都有其特殊的形态和结构，在组织病理图像中，可以观察到组织的排排列、分布和比例等特征。通过对这些特征的分析，可以了解组织的生理状态和病理变化。

细胞病变是组织病理图像分析的关键之一。细胞病变是指细胞结构和功能的变化，这些变化可能是由于环境因素(如感染、炎症、辐射等)导致的。在组织病理图像中，可以观察到细胞病变的特点，如细胞肿胀、细胞装宿、细胞坏死等。通过对这些病变的分析，可以了解病变的性质和程度。

组织病变是组织病理图像分析的核心之一。组织病变是指组织结构和功能的变化，这些变化可能是由于细胞病变积累或环境因素导致的在组织病理图像中，可以观察到组织病变的特点，如炎症、纤维化、硬化等。通过对这些病变的分析，可以了解病变的性质和程度。

分子病理是组织病理图像分析的新兴领域。分子病理是指应用分子生物学技术对组织和细胞的分子水平变化进行分析的方法。这种方法可以揭示基因突变、蛋白质表达异常和信号转导异常等问题，从而深入了解病的本质和机制。

在一个实施例中，分子数据主要指的是基因序列数据。这些数据可以来自各种来源，如基因组测序、转录组测序、蛋白质组测序等。基因序列数据通常以ASCII文本格式存储，每个基因序列由一串字符组成，表示DNA或蛋白质序列。除了基因序列本身，分子数据还包括与基因序列相关的注释信息，如基因名称、染色体位置、转录本信息等。

在一个实施例中，全视野数字病理切片(Whole slide images,WSIs)技术是一种先进的图像分析技术，能够通过对病理切片的数字化扫描和处理，实现对肿瘤的检测与定位、组织学特征分析、肿瘤异质性评估、浸润边界识别、淋巴结转移预测、分子病理学分析、预后预测模型构建、药物治疗响应预测以及手术方案制定等功能。全视野数字病理切片技术的图像采集是通过高分辨率的扫描仪器，将病理切片转化为数字图像。在采集过程中，需要保证图像的清晰度和准确性，以便后续的分析和处理。图像处理是对采集的数字图像进行一系列的处理和分析，包括图像的分割、滤波、增强、变换等操作，以便提取出有用的病理信息。图像处理的过程可以帮助医生更好地理解病理切片的结构和特征。病理诊断是基于图像处理的结果，通过对病理特征的分析和识别，对肿瘤进行诊断和分类。同时，还可以评估肿瘤的恶性程度、生长速度、转移风险等指标，为治疗方案的选择提供依据。

在一个实施例中，本发明的整体结构如图4所示，对临床数据的处理分为两个部分，第一部分从千百万像素的全视野数字病理切片提取组织学特征，其中包括对全视野数字病理切片进行分割与提取补丁得到提取的组织病理补丁图，对补丁图进行特征提取得到组织病理特征向量；第二部分分子数据的基因组特征嵌入，其中包括对分子数据进行预处理得到分子特征(基因组特征)，特征被分为6种类型，以及对基因特征进行特征提取得到基因组特征向量；将组织病理特征向量与基因组特征向量进行多模态特征融合，融合过程分为两次融合，第一次融合为并行的MGCA分别处理组织病理特征向量和基因组特征向量，得到基因组引导的组织病理特征、组织病理学引导的基因组特征，将这两个特征向量进行融合得到融合向量；第二次融合为并行的MGCA，分别处理融合向量与基因组特征向量得到基因组特征引导的融合向量、融合向量引导的基因组特征向量，将这两个向量进行融合得到融合特征，根据融合特征进行癌症风险预测得到预测结果。

在一个具体实施例中，本发明选择来自癌症基因组图谱(TCGA)的5种不同癌症类型，使用了近3600张十亿像素的WSIs进行了实验。

S102：对所述组织病理图像进行特征提取得到组织病理特征向量；

在一个实施例中，等效金字塔是指将不同尺度的特征通过“池化”操作转换为同一尺度，使得不同尺度的特征可以在同一尺度下进行比较。这个概念来自于计算机视觉领域中的卷积神经网络(0NN)中的池化操作。

在金字塔中，每一层的特征图都表示了图像的不同层次，从粗糙到精细，从大到小。为了在不同尺度之间建立等效性，我们可以在每一层中执行池化操作。这种池化可以是最大池化、平均池化或其他类型的池化，其目的是将特征图缩小，以使它们可以在同一尺度下进行比较。

通过这种方式可以构建一个等效金字塔，其中每个级别的特征图都对应于原始图像的一个特定的缩放级别，使得在同一尺度下能处理不同尺度的特征，从而提高了模型的性和泛化能力。

在实际应用中，等效金字塔可以用于各种计算机视觉任务，如目标检测、分类、分割等。通过将不同尺度的特征整合到一个统一的尺度，更好地利用它们之间的互补性，从而提高模型的性能和准确性。

在一个实施例中，CLAM(Cerebro Learning and Annotation Manager)是一个开源的存储库，它主要用于自动组织和管理各种类型的数据，包括医学图像数据。CLAM可以用于自动对医学图像进行分割、标注和分析。

CLAM的主要特点包括：

自动组织和管理数据：CLAM可以自动将数据按照不同的类别进行组织和存储，方便用户快速查找和访问所需的数据。

自动标注数据：CLAM可以对医学图像进行自动标注，包括病灶检测、器官分割等。标注结果可以用于后续的医学图像分析任务。

支持多种数据格式：CLAM支持多种常见的医学图像格式，如DICOM、NIfTI、FreeSurfer等。

灵活的数据导入和导出：CLAM支持通过多种方式导入和导出数据，包括直接从文件系统导入、从云存储或远程服务器下载、通过API与医学影像信息系统(PACS)集成等。

可扩展性和灵活性：CLAM采用模块化设计，可以根据需要进行定制和扩展。它还提供了丰富的API和工具，方便用户进行二次开发和数据处理。

总之，CLAM是一个功能强大的开源存储库，可以用于自动组织和管理医学图像数据，并进行自动标注和分析。它为用户提供了一个灵活、可扩展的数据管理解决方案，有助于提高医学图像分析的效率和准确性。

在一个实施例中，图像分割的算法包括下列的一种或几种：卷积神经网络(CNN)：这是图像处理领域应用最为广泛的网络，由于其权值共享、局部连接等特性，使得CNN易于训练，参数量小。

循环神经网络(RNN)：主要用来处理时序数据，例如语音、文本、视频等。但原始版本的RNN存在不能捕获长程依赖的缺陷，直到后来LSTM、Transformer的出现才得以解决。不过，RNN在图像分割中并不常用。

编码器-解码器和自编码器模型：编码器类似PCA主成分分析，能提取数据的精髓，将输入数据映射到潜在的特征空间，解码器再将潜在空间特征映射到输出，实现序列到序列的转换。

BP(Back Propagation)神经网络：这是一种应用较广泛的前馈式网络，属于有监督分类算法，它将先验知识融于网络学习之中，加以最大限度地利用，适应性好，在类别数少的情况下能够得到相当高的精度。

Hopfield神经网络：属于反馈式网络。主要采用Hebb规则进行学习，一般情况下计算的收敛速度较快。系统的稳定性可用所谓的“能量函数”进行分析，在满足一定条件下，某种“能量函数”的能量在网络运行过程中不断地减少，最后趋于稳定的平衡状态。Hopfield网络的演变过程是一种计算联想记忆或求解优化问题的过程。

Kohonen网络：这是一种无监督学习的自组织映射网络，能将输入数据通过非线性映射到低维空间并学习数据的聚类结构。

此外，还有U-Net：U-Net是一个专为医学图像分割设计的CNN模型。它采用了类似于FCN的编码器-解码器结构，但通过在解码路径中引入跳跃连接来保留更多的空间信息。U-Net模型在医学图像分割任务中表现出色，被广泛应用于各种不同的医学图像分割任务中。

Deeplab V3+：Deeplab V3+是另一款广泛应用于医学图像分割的CNN模型。它采用了空洞卷积(atrous convolution)来增加网络的深度，同时引入了ASPP(Atrous SpatialPyramid Pooling)模块来增强网络的空间信息感知能力。Deeplab V3+模型在多个医学图像分割任务中都取得了优异的性能。

UNet++：UNet++是在U-Net模型的基础上进行改进的模型，通过增加多个级别的跳跃连接来增强特征融合和空间信息保留。它还可以通过多尺度特征融合来提高分割精度。UNet++模型在多个医学图像分割任务中都表现出色。

P-Net：P-Net是一种基于CNN的轻量级分割网络，专门针对内存和计算资源受限的医学图像分割任务。它采用了轻量级的网络结构和注意力机制来提高分割性能，同时降低了模型的内存和计算需求。P-Net模型在内存和计算资源受限的医学图像分割任务中表现出色。

在一个实施例中，在ResNet-50中，主要有两种基本block，一种是IdentityBlock，可以串联多个，因为输入和输出的维度是一样的；另一种是Conv Block，它的作用是改变特征向量的维度因为随着网络深度的增加，输出的通道也增大。为了解决深度学习模型中梯度消失的问题，ResNet-50使用了残差块来实现残差学习。每个残差块包含两个卷积层和一个跳跃连接。跳跃连接将输入直接传递到输出，从而避免了梯度消失的问题。另外，ResNet-50还使用了全局平均池化层这个层将每个特征图的所有像素的平均值作为该特征图的输出。这个层的作用是减少模型的参数数量，从而减少过拟合的风险，总的来说，ResNet-50是一种非常强大的深度学习模型。

在一个实施例中，所述方法还包括获取全视野数字病理切片，对所述全视野数字病理切片依次进行图像分割、提取补丁得到组织病理补丁图像，每一张所述组织病理补丁图像为一张组织病理图像；

在一个实施例中，所述卷积模块由卷积层、BN层、激活函数层、池化层组成；所述残差模块有两个卷积层、两个BN层、两个激活函数层依次交叠连接组成，同时跳跃连接传输残差模块的输入数据，所述输入数据与经过卷积、标准化和激活函数后得到的数据进行融合得到残差模块的输出。

在一个实施例中，MIL是弱监督学习的形式，能够利用弱标记来处理各类问题，最重要的两个基本概念是包(bag)和实例(instance)，MIL处理按分组排列的数据(bag)，只对整个bag提供label，可以降低标注工作的强度。

在一个具体实施例中，本发明采用了常用的传统MIL方法。为了处理每个WSI，我们使用了CLAM开源存储库来进行自动组织分割，在分割后，我们从所有识别的组织区域中20倍等效金字塔水平上无空间重叠的提取了256×256大小的图像补丁。为创建组织病理学特征，对于提取的补丁，我们使用ImageNet预训练的ResNet-50作为CNN编码器(在第三个残差块和自适应平均池化层后截断)，将每个256×256补丁转换为1024维的特征向量，最终我们将所有图像补丁得到的对应特征向量拼接在一起得到了组织病理学特征的输入。

S103：对所述分子数据进行数据预处理得到分子特征；

在一个实施例中，自标准化神经网络(SNNs)是一种深度学习模型，其特点是能够自动收效到均值0方差1。该网络在处理复杂环境和背景模糊的数据时具有较高的准确性和鲁棒性，允许输入数据存在较大的缺损和畸变。

SELUS就是具有自标准化属性的激活函数。SNN的收敛性允许(1)培养具有多层次的深层网络，(2)强化正规化方案，(3)使学习非常强劲。

在一个实施例中，肿瘤抑制基因是一类能中制细胞生长的基因它们存在于正常细胞中并导致细胞增殖发挥负调节作用。如果它们失活或缺失，那么就可能会引起肿瘤，从而维持突变细胞的存活并促进肿瘤的进展。在各种外界因素的刺激下，一些人类原癌基因很容易被激活，而肿瘤抑制基因被失活，平衡被打破。这使癌细胞容易形成并无限增生，形成癌症。

在一个实施例中，致癌基因(oncogene)是指存在于生物正常细胞基因组中的癌基因。正常情况下，存在于基因组中的原癌基因处于低表达或不表达状态并发挥重要的生理功能。但在某些条件下，如病毒感染、化学致癌物或辐射作用等，原癌基因可被异常激活，转变为癌基因，诱导细胞发生癌变。

在一个实施例中，蛋白激酶是一类催化蛋白质磷酸化过程的酶能把腺苷三磷酸(ATP)上的Y-磷酸转移到蛋白质分子的胺基酸残基上。在大多数情况下，这磷酸化反应是发生在蛋白质的丝氨酸残基上。

在一个实施例中，所述分子特征通过自标准化神经网络得到基因组特征向量；

S104：对所述分子特征进行特征提取得到基因组特征向量；

在一个实施例中，Bulk RNA-Seq是一种转录组测序技术，用于研究细胞中基因的表达水平。它通过对组织或细胞群体进行测序，得到一群细胞中每个基因的平均表达水平，用于比较不同组织或细胞类型的表达差异。

在一个实施例中，细胞异质性(Cell Heterogeneity)是指在生物组织中，不同种类的细胞在形态、功能、基因表达等方面存在着差异。这种差异可能是由于基因突变、环境因素、细胞分化等多种原因导致的。细胞异质性对于生物体的正常生理功能和疾病发生都有重要影响。例如，在肿瘤组织中，不同种类的癌细胞在生长速度、侵袭能力、对药物的敏感性等方面都存在差异，这使得肿瘤的治疗变得更加复杂和困难。此外，细胞异质性也是组织工程和再生医学中需要解决的重要问题之一，因为不同种类的细胞需要不同的生长条件和分化诱导因子来促进其生长和分化。

总之，细胞异质性是生物组织中普遍存在的现象，对于生物体的正常生理功能和疾病发生都有重要影响。

在一个具体实施例中，基因组特征，如bulk RNA-Seq、基因突变状态和拷贝数变异，通常表示为1×1的测量值。这类数据显示出高维低样本量的性质，包含数百到数千个特征，而相对较少的训练样本。因此，传统的前馈网络很容易出现在处理这些数据时进行过拟合。为了解决这一挑战，本发明利用了自标准化神经网络(SNN)构建基因组特征。用于分子特征输入的SNN体系结构由两个隐藏层组成，每个隐藏层由连续线性单位激活(ELU)和Alpha Dropout构成，输入及输出通道为256个神经元。利用自标准化神经网络，获得了基因组特征向量。随后，本发明采用了6个功能类别来定义基因组特征：1)肿瘤抑制基因，2)致癌基因，3)蛋白激酶，4)细胞分化，5)转录，6)细胞因子年代和增长。

S105：将所述组织病理特征向量和所述基因组特征向量输至神经网络模型中进行特征融合得到融合特征；

在一个实施例中，注意力机制(Attention Mechanism)是一种在机器学习和自然语言处理中广泛应用的计算模型，其主要目的是在处理复杂数据时允许模型集中关注于一部分信息，忽略其他不太相关的部分。注意力机制的原理是将输入数据分为不同的部分，并为每个部分分配不同的权重，以便模型可以集中关注于最重要的部分并忽略其他不太相关的部分。这种机制允许模型在处理大量输入数据时更加高效和准确。注意力机制的种类包括：

点积注意力：通过计算输入向量之间的点积来衡量相关性。

加性注意力：通过将输入向量与一个可学习的向量相加来计算权重。

多层注意力：通过多层神经网络来计算权重。

在一个实施例中，注意力模型(Attention Model)是一种模型，用于将输入序列映射到输出序列，并且在输出序列的每个位置上只关注输入序列中与当前输出位置相关的部分。注意力模型通常采用神经网络结构，通过训练学习输入与输出之间的关系。它可以被视为一种特殊的编码器-解码器结构，其中编码器将输入序列编码为向量表示，而解码器则根据编码器的输出和注意力模型来生成输出序列。

在一个实施例中，Transformer是一种深度学习模型，最初作为机器翻译的序列到序列模型提出。它由输入编码器和输出解码器组成，这些编码器和解码器之间由若干个自注意力层连接。这些层使用注意力机制来计算输入和输出之间的关系，从而允许Transformer模型并行地处理序列。Transformer已被广泛应用于自然语言处理、计算机视觉和语音处理等领域。

在一个实施例中，多头注意力(Multi-head Attention)是一种注意力机制，它允许多个独立的注意力聚焦于输入数据的不同方面。每个注意力被称为一个“头”，每个头都可以独立地关注输入数据的不同部分。

在实践中，给定相同的查询、键和值的集合时，我们希望模型可以基于相应的注意力机制学习到不同的行为，然后将不同的行为作为知识组合起来，捕获序列内各种范围的依赖关系(例如，段距离依赖和长距离依赖关系)。因此，运行注意力机制组合使用查询、键和值的不同子空间表示(representation subspaces)可能时有益的为此，与其只使用单独一个注意力汇聚。可以用独立学习得到的h组不同的线性投影(linear projections)来变换查询、键和值。然后，这h组变换后的查询、键和值将并行地送到注意力汇聚中。最后，将这h个注意力汇聚的输出拼接在一起，并且通过另一个可以学习线性投影进行变换，以产生最终输出。

在一个实施例中，所述神经网络通过注意力模型分配模型权重；

在一个实施例中，所述注意力模型通过引入相互引导的交叉模态得到互引导交叉模态注意力模型，通过所述互引导交叉模态注意力模型得到引导增强向量；

在一个实施例中，所述一个模态特征的关键字K与所述另一个模态特征的值V依次经过点积、转置、注意力加权得到加权矩阵，所述一个模态特征的查询Q与所述加权矩阵进行点积、转置操作后得到引导向量，如5图所示；

在一个实施例中，如图6所示，从全视野数字病理切片中提取的组织病理图像，每一张补丁即为一张组织病理图，将组织病理图与分子数据中基因组特征进行连接。如图7所示组织病理图像与基因组特征在相互引导的交互模态注意力机制中进行相互引导得到引导增强向量。

在一个实施例中，所述引导向量包括下列的一种或几种：基因组引导的组织病理学特征向量、组织病理学特征引导的基因组学特征向量；所述基因组引导的组织病理学特征向量与所述组织病理学特征引导的基因组学特征向量融合得到融合向量，融合向量引导的基因组学特征向量；基因组引导的融合向量；

在一个具体实施例中，目前的组织学-基因组融合方法通常依赖于早期融合或基于晚期融合的策略来解决十亿像素WSIs和基因组数据之间的显著数据异质性差距，例如Concatenation，双线性池化，和克罗内克积。然而，这些融合机制在捕获基因组分子数据和WSIs之间的相互作用方面存在局限性。为了弥合整个幻灯片图像和基因组特征之间的数据异质性差距，同时捕获基于基因组的表型和肿瘤微环境之间的有意义的相互作用，我们引入了互引导的交叉模态Transformer(MGCT)，对于组织病理学与基因组多模态特征输入，本发明提出了一个相互引导的交叉模态注意力机制(Mutual-Guided Cross-Modality,MGCA)来生成一个基因组引导的特征向量。

在一个具体实施例中，MGCA是传统Transformer中的多头自注意力(Multi-HeadSelf-Attention,MHSA)的一种变体，对于MGCA，Q来自一个模态特征，而K，V来自另一个模态特征，其余的结构和计算与MHSA类似。另外，我们利用一个门控注意池操作来聚合特征，并将其输送到一个前馈网络中，从而增强了基因组引导的组织病理学特征向量。类似地，我们通过一个额外的平行MGCT层得到了一个组织病理学特征引导的基因组学特征向量。随后，我们进行一个融合阶段，其中上述两个特征向量聚合生成一个相互引导的特征向量，为了促进多模态特征的更深入的融合，我们连续叠加了两个融合阶段，其中第一个融合阶段的输出作为后续阶段的输入之一。

在一个实施例中，多模态特征融合是一种方法，该方法将不同模态的数据进行融合，以提取更丰富的特征表达。具体来说，多模态特征融合可以将多个独立的数据集融合成一个单一的特征向量，然后输入到机器学习分类器中。

多模态特征融合的方法大体分为三种：前端融合、中间融合和后端融合。前端融合是将多个独立的数据集融合成一个单一的特征向量，然后输入到机器学习分类器中，这种方法常常与特征提取方法相结合以剔除冗余信息。中间融合是将不同的模态数据先转化为高维特征表达，再于模型的中间层进行融合。后端融合则是将多个不同模态的特征进行融合，将融合后的特征输入到分类器中。

在一个具体实施例中，本发明统计了BLCA、BRCA、LUAD、GBMLGG、UCEC5个数据集进行基于基因组学(SNN)/病理学(注意MIL)/多模态(MCAT)/多模态(本发明MGCT)算法的癌症预测模型数据，实验结果如图8所示，从图中可以发现在一致性指标中使用多模态数据的效果优于单一模型数据结果，此前，本发明的MGCT的实验效果大部分都优于MCAT，说明本发明的互引导交叉模态注意力机模型在进行癌症预测具有较好的性能与鲁棒性。S106：基于所述融合特征得到癌症预测结果。

在一个实施例中，对癌症预后预测包括下列的一种或几种：生存期、疾病的发展与转归、治疗反应、日常生活能力、心理健康状况。

在一个具体实施例中，本发明在TCGA-BLCA数据集中进行实验验证本发明中的MGCA模型算法细胞生存的总体性能，如图9所示，在进行融合的S1、S2过程中一致性(C-index)与AUC指标的表现呈现波形下降趋势，说明MGCA模型在进行多次融合的过程中模型趋于稳定，提高了整体预测模型的稳定性。

在一个具体实施例中，本发明的MGCA与其他的模型MCAT进行在相同的数据集中生存量的对比实验，如图10、图11所示，图10为MCAT模型在5个数据集上在时间的增长中累计存活比例，图11为本发明的MGCT在5个数据集上在时间的增长中累计存活比例，红色代表高风险，蓝色代表低风险，可以发现本发明MGCA在高风险/低风险的生存效果中获得优异的表现。

在一个具体实施例中，利用BLCA、GBMLGG、UCEC数据集进行Feedforward、RegMLP、CoxMLP、SNN算法对比实验，在一致性指标、AUC指标上的结果如图12所示，可以发现本发明使用的SNN算法在两个指标中均取得最佳性能。

在一个具体实施例中，本发明所提出的MGCT优于所有的传统单模态、多模态以及当前最优的方法，总体性能都有所提高，如图13所示，在5个数据集中的基因组学数据、组织病理学数据、多模态数据进行多种算法的实验结果，从中可以发现多模态的数据优于单模态数据，强调了所提出的多模态特征融合方法的有效性。此外，与最相似的工作MCAT相比，在多模态整合方面，MGCT在大多数癌症数据集上都表现出了更优越的结果，显示了其有效捕获肿瘤微环境中的基因型-表型相互作用的能力，这通常对癌症的预后至关重要。

图2本发明实施例提供的一种基于多模态数据的癌症预测系统示意图，具体包括：

数据获取单元：获取组织病理图像、分子数据；

癌症预测单元：基于所述融合特征得到癌症预测结果。

图3本发明实施例提供的一种基于多模态数据的癌症预测设备示意图，具体包括：

存储器和处理器；所述存储器用于存储程序指令；所述处理器用于调用程序指令，当程序指令被执行任意一项上述的一种基于多模态数据的癌症预测方法。

一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，所述计算机程序被处理器执行时任意一项上述的一种基于多模态数据的癌症预测方法。

本验证实施例的验证结果表明，为适应症分配固有权重相对于默认设置来说可以改善本方法的性能。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的介质存储可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种计算机设备进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多模态数据的癌症预测方法，其特征在于，所述方法具体包括：

获取组织病理图像、分子数据；

对所述组织病理图像进行特征提取得到组织病理特征向量；

对所述分子数据进行数据预处理得到分子特征；

对所述分子特征进行特征提取得到基因组特征向量；

基于所述融合特征得到癌症预测结果。

2.根据权利要求1所述基于多模态数据的癌症预测方法，其特征在于，所述神经网络通过注意力模型分配模型权重；

3.根据权利要求2所述基于多模态数据的癌症预测方法，其特征在于，所述注意力模型通过引入相互引导的交叉模态得到互引导交叉模态注意力模型，通过所述互引导交叉模态注意力模型得到引导增强向量；

4.根据权利要求3所述基于多模态数据的癌症预测方法，其特征在于，所述一个模态特征的关键字K与所述另一个模态特征的值V依次经过点积、转置、注意力加权得到加权矩阵，所述一个模态特征的查询Q与所述加权矩阵进行点积、转置操作后得到引导向量；

5.根据权利要求4所述基于多模态数据的癌症预测方法，其特征在于，所述引导向量包括下列的一种或几种：基因组引导的组织病理学特征向量、组织病理学特征引导的基因组学特征向量；所述基因组引导的组织病理学特征向量与所述组织病理学特征引导的基因组学特征向量融合得到融合向量，融合向量引导的基因组学特征向量；基因组引导的融合向量；

6.根据权利要求1所述基于多模态数据的癌症预测方法，其特征在于，所述分子特征通过自标准化神经网络得到基因组特征向量；

7.根据权利要求1所述基于多模态数据的癌症预测方法，其特征在于，所述方法还包括获取全视野数字病理切片，对所述全视野数字病理切片依次进行图像分割、提取补丁得到组织病理补丁图像，每一张所述组织病理补丁图像为一张组织病理图像；

8.一种基于多模态数据的癌症预测系统，其特征在于，包括：

数据获取单元：获取组织病理图像、分子数据；

癌症预测单元：基于所述融合特征得到癌症预测结果。

9.一种基于多模态数据的癌症预测设备，其特征在于，包括：

存储器和处理器，所述存储器用于存储程序指令；所述处理器用于调用程序指令，当程序指令被执行时实现权利要求1-7任意一项上述的一种基于多模态数据的癌症预测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任意一项上述的一种基于多模态数据的癌症预测方法。