CN116933135A

CN116933135A - 基于跨模态融合级联的癌症分期预测模型建模系统及方法

Info

Publication number: CN116933135A
Application number: CN202310884917.1A
Authority: CN
Inventors: 岳俊宏; 姜连成; 贾利叶; 刘雪宇; 郝芳; 李心宇
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-10-24

Abstract

本发明属于基于人工智能的医疗信息处理领域，公开了一种基于跨模态融合级联的癌症分期预测模型建模系统及方法，系统包括：依次连接的数据获取模块、浅层次特征提取模块、多个级联模块和预测输出模块；浅层次特征提取模块用于根据各个模态的标注数据，分别提取各个模态的浅层次特征并形成各个模态间浅层次特征；各个级联模块依次连接，包括：模态内特征提取器、模态间特征提取器、多模态癌症分期预测器、精度判别模块和特征重组模块，预测输出模块：用于输出癌症分期预测模型。本发明可以提高模型的预测精度和泛用性。

Description

基于跨模态融合级联的癌症分期预测模型建模系统及方法

技术领域

本发明属于基于人工智能的医疗信息处理领域，具体涉及一种基于跨模态融合级联的癌症分期预测模型建模系统及方法。

背景技术

癌症分期任务是指通过对癌症的各种病理指标、影像学检查、临床表现等进行综合评估，将癌症划分为不同的阶段或分期，以便指导医生选择合适的治疗方案和预测患者的预后。根据世界卫生组织(WHO)制定的TNM分期系统，癌症一般划分为I、II、III和IV期。如果癌症被诊断为早期，则可以通过较为简单的手术或药物进行治疗，并可避免癌症扩散到其它部位；但是如果癌症被诊断为晚期，则目前还没有有效的手段进行治疗，并且即使进行了系统治疗，其预后效果仍然很差。因此，癌症分期预测在临床实践中具有重要的意义，能够对患者的治疗方案、预后和生存期进行重要的指导。随着医疗技术的不断进步和大数据分析的应用，癌症分期预测的准确性和可靠性也得到了不断提高。

不同模态的数据往往具有不同的信息，能够更好地实现癌症分期预测任务。与癌症相关的数据包括：临床文本数据、基因组学数据、影像组学数据和病理组学数据。临床文本数据是在诊疗过程中产生的文字记录，如病历、检查报告和处方等。在临床文本数据中记录了病人的病情、治疗方案和效果等信息。基因组学数据是指研究生物体基因组的数据，如DNA序列、基因表达和基因突变等。基于这些数据可以探究疾病的遗传基础和个体差异；影像组学数据是指医学影像学中的数据，包括X光、CT和MRI等图像数据。这些数据经常被用来诊断疾病、指导治疗和评估疗效。病理组学数据是指病理学研究中的数据，包括组织切片和细胞学检查等。这些数据可以用来研究疾病的组织学特征、病理机制和预后预测。

有人提出了一种基于基因组分析的癌症分期预测系统，其基于基因组数据对癌症分期进行预测，但是，通过单模态的训练和预测限制了系统的精度和泛用性，因此，如何通过多模态数据进行预测，成为本领域亟待解决的技术问题。

发明内容

本发明克服现有技术存在的不足，所要解决的技术问题为：提供一种基于跨模态融合级联的癌症分期预测模型建模系统及方法，以提高系统预测的精度和泛用性。

为了解决上述技术问题，本发明采用的技术方案为：一种基于跨模态融合级联的癌症分期预测模型建模系统，包括：依次连接的数据获取模块、浅层次特征提取模块、多个级联模块和预测输出模块；

所述数据获取模块用于获取多种模态的标注数据发送给浅层次特征提取模块；

所述浅层次特征提取模块用于根据各个模态的标注数据，分别提取各个模态的浅层次特征；

各个级联模块依次连接，所述级联模块包括：

模态内特征提取器：用于根据各个模态的浅层次特征或上一个级联模块输出的重组特征对各个模态分别进行特征提取，得到模态内深层次特征；

模态间特征提取器：用于对任意两个模态的浅层次特征或上一个级联模块输出的任意两个模态的重组特征进行模态间特征提取，得到各个模态两两之间的深层次特征；

多模态癌症分期预测器：用于分别根据模态内特征提取器输出的各个模态内深层次特征和模态间特征提取器输出的各个模态间深层次特征，输出预测精度和各种癌症分期的预测概率；还用于根据当前层的所有癌症分期预测器的输出预测概率，进行加权融合，获得当前层的预测概率；

精度判别模块：用于根据当前层的预测概率确定预测标签，再计算当前层的精度，并判断精度是否满足输出条件，若否，则发送信号至特征重组模块，若是，则发送输出信号至预测输出模块；

特征重组模块：用于根据精度判别模块发送的重组命令，对各个模态进行特征重组，将得到的各个模态的重组特征发送给下一个级联模块作为其输入；特征重组的方法为：将各个模态的浅层次特征或上一级联模块输出的重组特征、对应模态的模态内深层次特征、、相关的模态间深层次特征拼接在一起作为对应模态的重组特征；

预测输出模块：用于保留最后一个级联模块内的多模态癌症分期预测器，去掉其它所有级联模块中的多模态癌症分期预测器，将所述浅层次特征提取模块和多个级联模块作为癌症分期预测模型。

所述数据获取模块用于获取多种模态的标注数据包括临床文本数据、基因组学数据、影像组学数据；浅层次特征提取模块对各中模态的数据获取浅层次特征的具体方法为：

(1)对于临床文本数据，采用BERT模型对其进行向量化，得到临床文本向量矩阵作为其浅层次特征；

(2)对于基因组学数据，采用两阶段的方式获取对应基因，两阶段方法是指在第一阶段中使用多种基因筛选算法获取多组候选基因；在第二阶段中基于多组候选基因使用交集、并集或投票法获得与癌症相关的基因作为其浅层次特征；

(3)对于影像组学数据，提取其统计量特征、形状特征、纹理特征、灰度共生矩阵特征、灰度级大小区域矩阵特征、灰度游程矩阵特征、邻域灰度差矩阵特征和灰度依赖矩阵特征，并通过训练过的编码-解码器模型提取其深度特征，将得到所有特征拼接起来形成向量矩阵，作为其浅层次特征。

所述模态内特征提取器包括多个第一特征提取器，所述第一特征提取器为基于门控注意力机制的双线性模型训练得到，模型结构为：输入特征x_i首先经过一个Relu激活函数的全连接层，得到一个特征向量然后，将输入特征x_i分别经过一个Relu激活函数全连接层和Sigmoid激活函数的全连接层，再将输出的两个特征向量逐元素相乘，得到一个特征向量/>然后，将特征向量/>和/>逐元素相乘，得到模态内的深层次特征：最后，基于模态内的深层次特征使用Softmax激活函数的全连接层进行预测；

所述模态间特征提取器包括多个第二特征提取器，所述第二特征提取器为基于门控注意力机制的双线性模型训练得到，模型结构为：两个模态的输入特征x_i和x_j分别经过Relu激活函数的全连接层和Sigmoid激活函数的全连接层，再将输出特征向量逐元素相乘，得到两个特征向量和/>然后，将两个特征向量/>和/>逐元素相乘，得到模态间的深层次特征/>最后，基于模态间的深层次特征/>使用Softmax激活函数的全连接层进行预测。

所述第一特征提取器通过对应模态的输入特征对应的癌症分期标签进行训练，训练完成后，移出最后Softmax激活函数的全连接层，将得到模型作为对应模态的第一特征提取器；

所述第二特征提取器通过对应两个模态的输入特征对应的癌症分期标签进行训练，训练完成后，移出最后Softmax激活函数的全连接层，将得到模型作为对应模态的第二特征提取器。

所述多模态癌症分期预测器包括多个癌症分期预测器和概率特征融合器，每个癌症分期预测器用于根据其中一个深层次特征输出对应的预测概率，每个癌症分期预测器包括多个基分类器，所述基分类器包括逻辑回归、K近邻算法、支持向量机、高斯朴素贝叶斯、多项式朴素贝叶斯、随机森林和极端树中的多种；

所述概率特征融合器用于根据当前层的所有癌症分期预测器的输出预测概率，进行加权融合，获得当前预测概率。

所述概率特征融合器进行加权融合，得到当前预测概率特征的具体方法为：

计算每个概率特征的权重

基于每个概率特征进行加权融合，使用P(x)＝∑w_iP_i(x)计算当前层输出的预测概率特征P(x)；

其中，acc_i表示第i个癌症分期预测器的预测精度，P_i(x)表示第i个癌症分期预测器输出的预测概率。

所述精度判别模块计算当前层精度的具体方法为：

将当前预测概率P(x)中最大值对应的索引设置为预测标签，统计真实标签和预测标签相同的比例，记为当前层的最终预测精度；

判断精度是否满足条件的具体方法为：判断当前级联模块及其前两个级联模块的最终预测精度是否均没有提升，若是，则判定满足输出条件；

所述得到癌症分期预测模型的具体方法为：根据精度判别模块发送的输出命令，通过去掉最后两层级联模块和剩下的除最后一个级联模块外所有级联模块中的多模态癌症分期预测器，将所述浅层次特征提取模块和剩下的多个级联模块形成的结构作为癌症分期预测模型。

此外，本发明还提供了一种基于跨模态融合级联的癌症分期预测模型建模方法，包括以下步骤：

S1、获取多种模态的标注数据发送给浅层次特征提取模块；

S2、根据各个模态的标注数据，通过浅层次特征提取模块分别提取各个模态的浅层次特征，并发送至第一个级联模块；级联模块包括模态内特征提取器、模态间特征提取器、多模态癌症分期预测器、精度判别模块、特征重组模块；

S3、在第一个级联模块内执行以下步骤：

S301、通过模态内特征提取器对各个模态浅层次特征进行特征提取，得到各个模态的模态内深层次特征；同时，通过模态间特征提取器对各个模态浅层次特征进行模态间特征提取，得到各个模态两两之间的深层次特征；

S302、利用多模态癌症分期预测器分别根据模态内特征提取器输出的各个模态内深层次特征和模态间特征提取器输出的模态间深层次特征，输出预测精度和各种癌症分期的预测概率；然后根据当前层的所有癌症分期预测器的输出预测概率，进行加权融合，获得当前预测概率；

S303、根据当前预测概率确定预测标签，再计算当前层的精度，并判断精度是否满足输出条件，若否，则通过特征重组模块对各个模态进行特征重组，得到的各个模态的重组特征并且进入步骤S4；若是，则进入步骤S5；特征重组的方法为：将各个模态的浅层次特征、对应模态的模态内深层次特征、相关的模态间深层次特征拼接在一起；

S4、将得到的各模态的重组特征输入下一个级联模块，在第2～n个级联模块内重复执行步骤S301～S303，直至精度满足输出条件；n表示级联模块的数量，进入步骤S5；

S5、保留最后一个级联模块内的多模态癌症分期预测器，去掉其它所有级联模块中的多模态癌症分期预测器，将所述浅层次特征提取模块和多个级联模块作为癌症分期预测模型。

进一步地，所述步骤S303中，判断当前级联模块及其前两个级联模块的最终预测精度是否均没有提升，若是，则判定满足输出条件；

所述步骤S5的具体步骤为：

S5、去掉最后两个级联模块，保留剩下的最后一个级联模块内的多模态癌症分期预测器，去掉其它所有级联模块中的多模态癌症分期预测器，将所述浅层次特征提取模块和剩余的多个级联模块作为癌症分期预测模型。

本发明与现有技术相比具有以下有益效果：

本发明提供了一种基于跨模态融合级联的癌症分期预测模型建模系统和方法，其可以融合包括临床文本数据、基因组学数据、影像组学数据和病理组学数据中任意两个模态或两个以上的模态的信息，实现了癌症分期预测。本发明在使用过程中可以挖掘出数据的更加丰富的特征，在浅层次特征提取中，针对不同模态的数据，采用不同的方法提取相应的特征；在深层次特征提取中，基于门控注意力机制的双线性模型在浅层次特征上进一步挖掘出新的模态内和模态间的深层次特征，使得得到的模型可以更加准确地进行特征提取，提高了预测的精度和泛用性。本发明基于不同类型深层次特征提取模块的动态级联框架，建立的预测模型可以准确预测各类癌症的分期，能够极大地辅助医生实现对病人的精准诊断和个性化治疗。

附图说明

图1为本发明实施例一提供的一种基于跨模态融合级联的癌症分期预测模型建模系统的结构框图；

图2为本发明实施例一中跨模态融合级联模块的结构示意图；

图3为本发明实施例一中模态内特征提取器的结构示意图，其中(a)为模态内特征提取器的整体结构；(b)为在模态内特征提取器中的第一特征提取器的具体网络结构，其中虚线框是特征提取器的最终预测结构；

图4为本发明实施例一中模态间特征提取器的结构示意图：其中(a)为模态间特征提取器的整体结构；(b)为在模态间特征提取器中一个第二特征提取器的具体网络结构，其中虚线框是特征提取器的最终预测结构；

图5为本发明实施例一中多模态癌症分期预测器的结构示意图，其中(a)为癌症分期预测器的具体结构；(b)为多模态癌症分期预测器的整体结构，由六个癌症预测器和一个概率特征融合器组成；

图6本发明实施例二提供的一种基于跨模态融合级联的癌症分期预测模型建模方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图1所示，本发明实施例一提供了一种基于跨模态融合级联的癌症分期预测模型建模系统，包括：依次连接的数据获取模块、浅层次特征提取模块、多个级联模块和预测输出模块。

具体地，本实施例中，所述数据获取模块用于获取多种模态的标注数据作为训练集数据发送给浅层次特征提取模块。数据获取模块获取的多种模态的标注数据包括：临床文本数据、基因组学数、影像组学数据三种不同模态的数据集，具体来说基因组学数据和影像组学数据分别是RNA测序数据和CT影像图片。以采用临床文本数据、基因组学数据、影像组学数据三种不同模态的数据集为例，并获取若干个病人的这三类数据和进行相应的分期标注，形成临床文本数据集、基因组学数据集和影像组学数据集。

所述浅层次特征提取模块用于根据各个模态的标注数据，分别提取各个模态的浅层次特征。

具体的，浅层次特征提取模块的特征提取方法如下：

(1)对于临床文本数据，采用BERT模型对其进行向量化，得到临床文本向量矩阵作为其浅层次特征。

(2)对于基因组学数据，可以采用两阶段的方式获取对应基因。两阶段方法是指在第一阶段中使用多种基因筛选算法获取多组候选基因，涉及的基因筛选算法包括MRMR算法、Lasso算法、方差分析和卡方检验等。在第二阶段中基于多组候选基因使用交集、并集或投票法获得与癌症相关的基因，作为其浅层次特征；其中投票法是指保留多组候选基因中重复出现次数超过半数以上的基因。

(3)对于影像组学数据，首先使用Pyradiomics包提取CT图像的统计量特征、形状特征、纹理特征、灰度共生矩阵特征、灰度级大小区域矩阵特征、灰度游程矩阵特征、邻域灰度差矩阵特征和灰度依赖矩阵特征等；再使用SimpleITK包将CT图像转化为png格式的图像。然后基于png格式的CT图像和专业人士标注的标签训练一个编码-解码器模型。最后，使用编码器作为CT图像的特征提取器，获取CT图像的深度特征，其中，当编码器是CNN时，提取到的是深度内容特征；当编码器是GCN时，提取到的是深度结构特征。最后，将这些提取到的特征拼接起来，形成一个向量矩阵作为其浅层次特征。

如图2所示，各个级联模块依次连接，所述级联模块包括：模态内特征提取器、模态间特征提取器、多模态癌症分期预测器、精度判别模块、特征重组模块。

具体地，本实施例中，模态内特征提取器用于根据浅层次特征提取模块输出的浅层次特征或上一个级联模块的特征重组模块输出的各个模态的重组特征分别进行特征提取，得到模态内深层次特征。

具体地，本实施例中，如图3所示，所述模态内特征提取器包括多个第一特征提取器，所述第一特征提取器为基于门控注意力机制的双线性模型训练得到，模型结构为：输入特征x_i首先经过一个Relu激活函数的全连接层，得到一个特征向量然后，将输入特征x_i分别经过一个Relu激活函数全连接层和Sigmoid激活函数的全连接层，再将输出的两个特征向量逐元素相乘，得到一个特征向量/>然后，将特征向量/>和/>逐元素相乘，得到模态内的深层次特征：最后，基于模态内的深层次特征使用Softmax激活函数的全连接层进行预测。

本实施例中，深层次特征是基于门控注意力机制的双线性模型在浅层次特征(或上一级联层的重组特征)上进一步挖掘出的新特征。对于每一个模态，分别设计一个基于门控注意力机制的双线性模型，并通过该模态的数据集进行训练，得到对应模态的第一特征提取器。模态内特征提取器共有三个基于门控注意力机制的双线性模型，分别输入三个模态各自的浅层次特征(或重组特征)，输出三个模态的模态内深层次特征，具体的整体结构如图3中(a)所示。该步骤中的基于门控注意力机制的双线性模型的搭建过程如下：

(1)基于对应模态的输入特征和及其给定的癌症分期标签训练一个基于门控注意力机制的双线性模型作为第一特征提取器，第一特征提取器的具体的网络结构见图3中(b)。在基于门控注意力机制的双线性模型中，输入特征x_i首先经过一个Relu激活函数的全连接层，得到一个特征向量

然后，将输入特征x_i分别经过一个Relu激活函数全连接层和Sigmoid激活函数的全连接层，再将输出的两个特征向量逐元素相乘，得到一个特征向量

其中U_i，和/>均表示投影矩阵，/>表示对应元素相乘，Sigmoid表示Sigmoid激活函数；ReLU表示ReLU激活函数。进一步，将特征向量/>和/>逐元素相乘，得到模态内的深层次特征f_i ^intra：

最后，基于模态内的深层次特征f_i ^intra使用Softmax激活函数的全连接层进行预测。

(2)在基于门控注意力机制的双线性模型的模态内特征提取模型训练完成后，移除Softmax激活函数的全连接层，即将图3中(b)中虚线框中的模块作为第一特征提取器。

本实施例中，模态间特征提取器用于对任意两个模态的浅层次特征或重组特征进行模态间特征提取，得到各个模态两两之间的深层次特征。

图4中(a)给出了模态间特征提取器的整体结构。本实施例中，将临床文本数据、基因数据和CT图像三种模态的浅层次特征(或重组特征)，分别两两组合后输入到三个带门控注意力机制的双线性模型中，分别得到跨模态融合级联模型的三组模态间的深层次特征。该步骤中的基于门控注意力机制的双线性模型的搭建过程如下：

(1)基于两个对应模态的输入特征和癌症分期标签训练一个基于门控注意力机制的双线性模型作为第二特征提取器，具体网络结构如图4中(b)所示。在基于门控注意力机制的双线性模型中，两个模态的输入特征x_i和x_j分别经过Relu激活函数的全连接层和Sigmoid激活函数的全连接层，再将输出特征向量逐元素相乘，得到两个特征向量和/>计算公式如下：

其中和/>表示投影矩阵。然后，将两个特征向量/>和/>逐元素相乘，得到模态间的深层次特征/>

最后，基于模态间的深层次特征使用Softmax激活函数的全连接层进行预测。

(2)在基于门控注意力机制的双线性模态内特征提取模型训练完成后，移除Softmax激活函数的全连接层，即将图4中(b)中虚线框中的模块作为第二特征提取器。

本实施例中，多模态癌症分期预测器用于分别根据模态内特征提取器输出的各个模态内深层次特征和模态间特征提取器输出的各个模态间深层次特征，输出预测精度和各种癌症分期的预测概率，还用于根据当前层的所有癌症分期预测器的输出预测概率，进行加权融合，获得当前层的预测概率；

具体地，本实施例中，如图5所示，所述多模态癌症分期预测器包括多个癌症分期预测器和概率特征融合器，如图5中(b)所示，每个癌症分期预测器用于根据其中一个深层次特征输出对应的预测概率，每个癌症分期预测器包括多个基分类器，所述基分类器包括逻辑回归、K近邻算法、支持向量机、高斯朴素贝叶斯、多项式朴素贝叶斯、随机森林和极端树中的多种，所述概率特征融合器用于根据当前层的所有癌症分期预测器的输出预测概率，进行加权融合，获得当前预测概率。

本实施例将模态内和模态间的所有深层次特征分别输入到癌症分期预测器，进而输出对应的预测精度acc_i和不同癌症分期的预测概率其中表示第i个癌症分期预测器对第j个类别的概率值。癌症分期预测器具体结构如图5中(a)所示。在本实施例中，共有六个癌症分期预测器，其中三个应用在三组模态内的深层次特征上，另外三个应用在三组模态间的深层次特征上，最后输出六组预测精度和预测概率。

本实施例中，概率特征融合器基于当前层中所有癌症分期预测器的预测概率P_i(x)，利用概率特征融合器进行加权融合，获得当前层的预测概率特征P(x)。该步骤的具体操作如下：

(1)对每个癌症分期预测器的预测精度acc_i进行归一化，计算每个概率特征的权重

(2)基于每个概率特征进行加权融合，使用P(x)＝∑w_iP_i(x)计算当前层输出的预测概率特征P(x)。

本实施例中，精度判别模块用于根据当前预测概率确定预测标签，再计算当前层的精度，并判断精度是否满足输出条件，若否，则发送信号至特征重组模块，若是，则发送输出信号至预测输出模块。

所述精度判别模块计算当前层精度的具体方法为：

(1)将当前预测概率P(x)中最大值对应的索引设置为预测标签，统计真实标签和预测标签相同的比例，记为当前层的最终预测精度；

(2)判断精度是否满足条件的具体方法为：判断当前级联模块及其前两个级联模块的最终预测精度是否均没有提升，若是，则判定满足输出条件；所述预测输出模块得到癌症分期预测模型的具体方法为：根据精度判别模块发送的输出命令，去掉最后两层级联模块，以及剩下的除最后一个级联模块外所有级联模块中的多模态癌症分期预测器，基于所述浅层次特征提取模块和多个级联模块得到癌症分期预测模型。通过判断是否连续三个级联模块的最终预测精度是否提升来作为级联结束的条件，可以有效地提高模型预测癌症分析的准确性，并防止过拟合现象的出现。

在本实施例中，特征重组模块用于根据精度判别模块发送的重组命令，将浅层次特征(对于第一个级联模块)或上一层的重组特征(对于其它级联模块)、模态内和模态间的深层次特征进行重组，获得的模态内或模态间的重组特征作为下一个级联模块的浅层次特征输入，其具体操作如下：

(1)将模态内的深层次特征分别拼接到对应模态的浅层次特征或上一层的重组特征形成各模态新的拼接特征向量。例如，将临床文本数据上挖掘出的模态内的深层次特征与临床文本数据的浅层次特征或上一层临床文本数据的重组特征进行拼接，不与基因数据和CT图像的相应特征进行拼接。

(2)将模态间的深层次特征分别拼接到(1)中各模态新的拼接特征向量上，形成最终各模态的重组特征。例如，将从临床文本数据和基因组学数据上挖掘的模态间的深层次特征分别与临床文本数据和基因组学数据的浅层次特征或上一层的重组特征拼接，不与CT图像的相应特征拼接。

上述操作(1)和(2)可以表示为以下公式：

其中表示向量拼接操作，/>表示模态i的浅层次特征(或上一层模态i的重组特征)；/>表示当前层输出的重组特征；f_i ^intra表示模态i的模态内深层次特征；/>表示模态i和模态j的模态间深层次特征；/>表示模态i和模态k的模态间深层次特征。

具体地，本实施例中，预测输出模块用于保留最后一个级联模块内的多模态癌症分期预测器(去掉特征重组模块)，去掉其它所有级联模块中的多模态癌症分期预测器(如图2的虚线框所示)，将所述浅层次特征提取模块和剩下的多个级联模块形成的结构作为癌症分期预测模型。

具体地，所述预测输出模块得到癌症分期预测模型的具体方法为：根据精度判别模块发送的输出命令，去掉最后两层级联模块，以及剩下的除最后一个级联模块外所有级联模块中的多模态癌症分期预测器，将所述浅层次特征提取模块和剩下的多个级联模块形成的结构作为癌症分期预测模型。

实施例二

如图6所示，本发明实施例二提供了一种基于跨模态融合级联的癌症分期预测模型建模方法，所述预测模型包括浅层次特征提取模块和多个级联模块，级联模块包括模态内特征提取器、模态间特征提取器、多模态癌症分期预测器、精度判别模块、特征重组模块；包括以下步骤：

S1、获取多种模态的标注数据发送给浅层次特征提取模块；

S2、根据各个模态的标注数据，通过浅层次特征提取模块分别提取各个模态的浅层次特征，并发送至第一个级联模块；

S3、在第一个级联模块内执行以下步骤：

S301、通过模态内特征提取器对各个模态浅层次特征或重组特征(其它级联模块)进行特征提取，得到模态内深层次特征；同时，通过模态间特征提取器对任意两个模态的浅层次特征或重组特征(其它级联模块)进行模态间特征提取，得到不同模态两两之间的深层次特征；

S302、利用多模态癌症分期预测器分别根据模态内特征提取器输出的各个模态内深层次特征和模态间特征提取器输出的各个模态间深层次特征，输出预测精度和各种癌症分期的预测概率；然后根据当前层的所有癌症分期预测器的输出预测概率，进行加权融合，获得当前预测概率；

S303、根据当前预测概率确定预测标签，再计算当前层的精度，并判断精度是否满足输出条件，若否，则通过特征重组模块对各个模态进行特征重组，得到各个模态的重组特征并进入步骤S4；若是，则直接进入步骤S5；特征重组的方法为：将模态的浅层次特征、对应模态的模态内深层次特征、相关的模态间深层次特征拼接在一起；

所述步骤S5的具体步骤为：去掉最后两个级联模块，保留剩下的最后一个级联模块内的多模态癌症分期预测器，去掉其它所有级联模块中的多模态癌症分期预测器，将所述浅层次特征提取模块和剩余的多个级联模块作为癌症分期预测模型。

本实施例中，在模型训练完成后得到癌症分期预测模型，可以将病人的临床文本数据、基因组学数据和影像组学数据输入已训练的模型进行癌症分期的预测，获得最终的预测标签。然后，基于预测标签和真实标签使用相应的评价指标进行评估，得到评估结果；其中评价指标包括：准确率、精确率、召回率、F1_score、混淆矩阵和ROC曲线。

最后应说明的是：上述过程中只是本发明在临床数据、基因数据和CT图像上的一种具体实现，本发明的保护范围并不仅局限于上述实现。在本发明的思路和新的级联框架下，使用不同模态数据组合的所有技术方案均是本发明的保护范围，包括两模态数据的融合和四模态数据的融合。对于四模态数据融合时，模态间特征提取器也可以是提取两个模态间的模间特征，也可以是三个模态间的模间特征，特别指出，在不脱离本发明原理的前提下，进行现有技术的简单替换，也属于本发明的保护范围。

Claims

1.一种基于跨模态融合级联的癌症分期预测模型建模系统，其特征在于，包括：依次连接的数据获取模块、浅层次特征提取模块、多个级联模块和预测输出模块；

各个级联模块依次连接，所述级联模块包括：

2.根据权利要求1所述的一种基于跨模态融合级联的癌症分期预测模型建模系统，其特征在于，所述数据获取模块用于获取多种模态的标注数据包括临床文本数据、基因组学数据、影像组学数据；浅层次特征提取模块对各中模态的数据获取浅层次特征的具体方法为：

3.根据权利要求1所述的一种基于跨模态融合级联的癌症分期预测模型建模系统，其特征在于，所述模态内特征提取器包括多个第一特征提取器，所述第一特征提取器为基于门控注意力机制的双线性模型训练得到，模型结构为：输入特征x_i首先经过一个Relu激活函数的全连接层，得到一个特征向量然后，将输入特征x_i分别经过一个Relu激活函数全连接层和Sigmoid激活函数的全连接层，再将输出的两个特征向量逐元素相乘，得到一个特征向量/>然后，将特征向量/>和/>逐元素相乘，得到模态内的深层次特征：最后，基于模态内的深层次特征使用Softmax激活函数的全连接层进行预测；

所述模态间特征提取器包括多个第二特征提取器，所述第二特征提取器为基于门控注意力机制的双线性模型训练得到，模型结构为：两个模态的输入特征x_i和x_j分别经过Relu激活函数的全连接层和Sigmoid激活函数的全连接层，再将输出特征向量逐元素相乘，得到两个特征向量和/>然后，将两个特征向量/>和/>逐元素相乘，得到模态间的深层次特征最后，基于模态间的深层次特征/>使用Softmax激活函数的全连接层进行预测。

4.根据权利要求3所述的一种基于跨模态融合级联的癌症分期预测模型建模系统，其特征在于，所述第一特征提取器通过对应模态的输入特征对应的癌症分期标签进行训练，训练完成后，移出最后Softmax激活函数的全连接层，将得到模型作为对应模态的第一特征提取器；

5.根据权利要求1所述的一种基于跨模态融合级联的癌症分期预测模型建模系统，其特征在于，所述多模态癌症分期预测器包括多个癌症分期预测器和概率特征融合器，每个癌症分期预测器用于根据其中一个深层次特征输出对应的预测概率，每个癌症分期预测器包括多个基分类器，所述基分类器包括逻辑回归、K近邻算法、支持向量机、高斯朴素贝叶斯、多项式朴素贝叶斯、随机森林和极端树中的多种；

6.根据权利要求1所述的一种基于跨模态融合级联的癌症分期预测模型建模系统，其特征在于，所述概率特征融合器进行加权融合，得到当前预测概率特征的具体方法为：

计算每个概率特征的权重

7.根据权利要求1所述的一种基于跨模态融合级联的癌症分期预测模型建模系统，其特征在于，所述精度判别模块计算当前层精度的具体方法为：

8.一种基于跨模态融合级联的癌症分期预测模型建模方法，其特征在于，包括以下步骤：

S1、获取多种模态的标注数据发送给浅层次特征提取模块；

S3、在第一个级联模块内执行以下步骤：

9.根据权利要求8所述的一种基于跨模态融合级联的癌症分期预测模型建模方法，其特征在于，所述步骤S303中，判断当前级联模块及其前两个级联模块的最终预测精度是否均没有提升，若是，则判定满足输出条件；

所述步骤S5的具体步骤为：