CN117594243A

CN117594243A - 基于跨模态视图关联发现网络的卵巢癌预后预测方法

Info

Publication number: CN117594243A
Application number: CN202311332203.6A
Authority: CN
Inventors: 王会青; 韩笑; 程昊; 任建雪
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2024-02-23
Anticipated expiration: 2043-10-13
Also published as: CN117594243B

Abstract

本发明公开了基于跨模态视图关联发现网络的卵巢癌预后预测方法，引入随机森林与LASSO回归结合的特征选择方法RLASSO，去除冗余和带有噪声的特征，充分选择与卵巢癌预后相关的基因；引入临床特征，将其分别与mRNA表达、DNA甲基化、miRNA表达和拷贝数变异进行整合；采用多模态深度神经网络并行学习特定组学数据的高级特征表示，进行卵巢癌初始预后预测；提出使用跨模态视图关联网络对初始预测结果构建发现张量，探索空间中交叉组学的互相关性，实现最终的卵巢癌预后预测。本发明能够有效解决现有方法忽略不同组学数据之间的差异性和互相关性的问题，更准确地预测了卵巢癌患者的预后。

Description

基于跨模态视图关联发现网络的卵巢癌预后预测方法

技术领域

本发明涉及卵巢癌预后研究与分析领域，尤其涉及基于跨模态视图关联发现网络的卵巢癌预后预测方法。

背景技术

卵巢癌是具有不同临床病理和分子特征的肿瘤，绝大多数患者在确诊时已存在局部或大范围扩散，对患者进行早期诊断和预后预测有助于卵巢癌潜在发病机制的理解和治疗效果的改善。卵巢癌的发生受基因组、转录组以及蛋白组等多个复杂机制的影响，不同类型的组学分析有助于卵巢癌患者存活率的预测。卵巢癌多组学数据具有高维异质性，现有方法在整合多组学数据时未考虑到不同组学数据之间的差异性和互相关性。

发明内容

本发明的目的在于避免现有技术的不足之处而提供一种基于跨模态视图关联发现网络的卵巢癌预后预测方法。

本发明是这样实现的，基于跨模态视图关联发现网络的卵巢癌预后预测方法，包括以下步骤：

步骤S1、获取卵巢癌患者的临床数据和多个组学数据，构建多模态特征空间，并对临床数据和多个组学数据进行预处理；

步骤S2、预处理后的组学数据利用RLASSO进行组学特征选择，使用LASSO回归将组学特征稀疏化，结合随机森林对组学特征进行重要性排序，并将随机森林选取的重要组学特征作为LASSO回归中丢失组学特征的补充，获得与卵巢癌相关的预后特征；

步骤S3、预处理后的临床数据与预后特征进行整合，得到整合组学数据；

步骤S4、采用多模态深度神经网络，提取整合组学数据的高级特征表示；

步骤S5、采用跨模态视图关联发现网络，对整合组学数据的高级特征表示构建发现张量，探索空间中交叉组学的互相关性，构建卵巢癌预后预测模型；

步骤S6、训练卵巢癌预后预测模型；

步骤S7、验证并评估卵巢癌预后预测模型的预测能力和有效性。

进一步的，多个所述组学数据包括mRNA表达、DNA甲基化、miRNA表达和拷贝数变异，所述临床数据中的临床特征包括年龄、种族、Figo分期、卵巢癌亚型、生存时间和生存状态。

进一步的，步骤S1中，预处理步骤具体包括：

过滤临床数据和多个组学数据中缺失值超过20％的样本和特征；

将临床数据和多个组学数据中的样本相交，得到临床数据和多个组学数据的共同样本；

将共同样本的组学数据通过方差阈值进行初步筛选，得到预处理后的组学数据；

将共同样本的临床数据进行嵌入处理，得到预处理后的临床数据。

进一步的，步骤S2中，具体包括：

LASSO回归进行特征选择的公式如下：

其中，i表示第i个组学数据，N表示样本数量，dⁱ表示第i个组学数据的组学特征总量，y_j表示第j个样本的标签，λ表示正则化参数；

使用随机森林构建决策树，对所有组学特征进行重要性排名，根据组学特征重要性标准选择前K个重要组学特征；

在组学数据的特征集中，根据特征重要性，输出特征重要性集合/>其中dⁱ表示第i个组学数据的组学特征总数，I_x计算公式如下所示：

其中，和/>表示扰动前后的袋外数据，即决策树重采样时未采样到的样本，并统计分类正确的样本数；

按重要性降序排列，选择重要性较高的K个特征作为筛选后的特征；

将随机森林选择的重要特征与LASSO回归中保留的特征共同作为特定组学数据的总特征，即与卵巢癌相关的预后特征。

进一步的，步骤S3中，具体包括：

将临床数据中的年龄、种族、卵巢癌亚型、Figo分期这4个临床特征分别与经过特征选择的组学特征，即预后特征，进行拼接，得到整合组学数据，作为多模态深度神经网络的输入，其中，一个深度神经网络输入的特征如下所示:

其中，Xⁱ表示第i个组学特征与临床特征融合后的总特征，表示第i个组学数据的第p个组学特征，i＝1,2,3,4，c₁-c₄表示临床特征。

进一步的，步骤S4中，具体包括：

采用多模态深度神经网络，从多个通道并行学习整合组学数据，每个通道对应一个深度神经网络，每个通道独立学习并提取不同类型整合组学数据的高级特征表示；

第i个整合组学数据具有l个隐藏层的深度神经网络表示如下：

其中，y表示样本标签，θ表示所有神经网络的参数，Z_k(k＝1,2,…,l)均是通过隐藏神经元处理后的结果，b是偏置向量；Z和W取决于输入维度的大小，隐藏神经元的个数以及类别的数量；σ(·)是激活函数LeakyRelu，g(·)是softmax函数，将输出层的值转换为预测概率；

对于第i个类型的整合组学数据的预测过程可以写为：

其中，使用/>表示/>中的第j行，这是第i个整合组学数据的第j个训练样本的预测标签分布，即整合组学数据的高级特征表示。

进一步的，步骤S5，具体包括：

采用跨模态视图关联发现网络对每个多组学数据的预测标签分布构建跨组学发现张量，通过跨组学发现张量充分学习不同组学数据之间的互相关性；

其中，对mRNA表达、DNA甲基化、miRNA表达和拷贝数变异的相关性进行建模，令P_j∈R^2×2×2×2表示第j个样本的跨组学发现张量，计算公式如下：

表示/>的第i项，使用P_j挖掘不同组学数据预测标签分布之间的关系，充分学习它们之间的互相关性；

将跨组学发现张量P_j∈R^2×2×2×2重塑为长度是2⁴的一维向量p_j∈R¹⁶，p_j表示融合后的标签特征，使用全连接神经网络学习重塑后的跨组学发现张量，即融合后的标签特征，获得卵巢癌预后预测的最终结果；

其中，将p_j输入全连接神经网络中获得卵巢癌最终的预后预测结果y′_j；

当全连接网络由2个隐藏层组成，每个层数均为100时，获得最好的预测结果，公式如下：

MACODN(p_j)＝σ₂(W²(σ₁(W¹p_j+b¹))+b²)

y′_j＝MACODN(p_j)

其中，σ₁和σ₂表示激活函数分别为LeakyRelu和Softmax，W表示权重矩阵，b表示偏置向量，y′j∈R²。

进一步的，步骤S6中，训练卵巢癌预后预测模型，具体包括：

采用交叉熵作为代价函数，以最小化训练多模态神经网络误差：

其中，v表示组学类型的数量，N表示样本数量，表示交叉熵损失函数，y_j∈R²是第j个样本的one-hot编码的标签；

跨模态视图关联发现网络使用交叉熵损失函数进行训练，即：

其中，MACODN(p_j)∈R²，v表示组学数据的类型总数，全连接网络中的激活函数分别为LeakyRelu和Softmax，最终输出维度为2的预测结果；

多模态深度神经网络和跨模态视图关联发现网络总的损失函数如下所示：

其中，β是特定组学的预测损失与最终预测损失之间的权衡参数，设置β＝1；

采用Adam优化器对目标函数进行优化，学习率和批处理分别设置为0.01和32，采用dropout技术和权重衰减进一步防止模型过度拟合。

进一步的，步骤S7中，具体包括：

在训练集和测试集比例为7:3的相同基准训练数据集下比较卵巢癌预后预测模型和其他预测方法的性能；

采用GEO数据集独立验证的方式，进一步比较卵巢癌预后预测模型与其他模型的预测能力；

在TCGA数据集上，对识别出的重要基因采用生存分析进一步验证卵巢癌预后预测模型的有效性；

在TCGA数据集上，对识别出的重要基因进行GO/KEGG富集分析评估卵巢癌预后预测模型的能力。

区别于现有技术，本发明所述的基于跨模态视图关联发现网络的卵巢癌预后预测方法，共同构建多模态特征空间，引入随机森林与LASSO回归结合的特征选择方法RLASSO，去除冗余和带有噪声的特征，充分选择与卵巢癌预后相关的基因；引入临床特征，将其分别与mRNA表达、DNA甲基化、miRNA表达和拷贝数变异进行整合；采用多模态深度神经网络并行学习特定组学数据的高级特征表示，进行卵巢癌初始预后预测；提出使用跨模态视图关联网络对初始预测结果构建发现张量，探索空间中交叉组学的互相关性，实现最终的卵巢癌预后预测。本发明能够有效解决现有方法忽略不同组学数据之间的差异性和互相关性的问题，更准确地预测了卵巢癌患者的预后，对患者进行生存分析并确定后续治疗方案，揭示了卵巢癌潜在的发病机制。

附图说明

图1是本发明从TCGA数据库中下载的卵巢癌多组学数据，包括mRNA表达、DNA甲基化、miRNA表达和拷贝数变异；

图2是本发明中多模态深度神经网络的示意图；

图3是本发明中跨模态视图关联发现网络的示意图；

图4是本发明在TCGA数据集上验证性能示意图；

图5是本发明中不同预测方法在卵巢癌的4个GEO数据集上预测性能示意图；

图6是本发明中识别出的重要基因的生存分析Kaplan-Meier生存曲线；

图7是本发明中识别出的重要基因的GO/KEGG富集分析。

具体实施方式

下面结合具体实施方式对本发明的技术方案作进一步更详细的描述。

基于跨模态视图关联发现网络的卵巢癌预后预测方法，具体包括：

卵巢癌的多组学数据和临床数据的下载和预处理；

将临床数据中的分类特征嵌入处理为分类变量，根据全部患者生存时间的平均数划分为高风险亚组和低风险亚组；

卵巢癌的多组学数据和临床数据的下载和预处理，包括步骤：

请参阅图1，从TCGA数据库(https://portal.gdc.cancer.gov/)下载卵巢癌的组学数据和临床数据，其中组学数据包括mRNA表达，DNA甲基化，miRNA表达和拷贝数变异，临床数据描述了587名卵巢癌患者的临床信息，本说明使用的临床数据包括年龄、种族、Figo分期、卵巢癌亚型、生存时间和生存状态6种重要的特征。

过滤缺失值超过20％的样本和特征，将表达值为’0’的基因转化为’NA’，使用R包“ImputeMissings”基于中位数填补缺失值。

将mRNA表达、DNA甲基化、miRNA表达、拷贝数变异和临床信息中的样本相交，获得325个共同样本。

通过方差阈值初步筛选多组学数据特征，mRNA表达、DNA甲基化和拷贝数变异的方差阈值分别为7、0.02和0.1，miRNA表达的特征数据较少，故而不使用方差阈值筛选特征。

采用特征选择方法RLASSO进行特征选择，使用LASSO回归对卵巢癌高维多组学数据进行稀疏化处理，结合随机森林进行特征重要性排序，将随机森林选取的重要特征作为LASSO回归中丢失特征的补充。

LASSO回归通过L1正则化(L1-regularization)，将优化目标函数中的惩罚项添加到最小二乘误差项上，在优化过程中使部分特征的系数趋近于零，并最终将某些特征的系数完全缩减为零，从而实现特征选择。LASSO回归进行特征选择的公式如下：

其中，i表示第i个组学数据，N表示样本数量，dⁱ表示第i个组学数据的特征总量，y_j表示第j个样本的标签，λ表示正则化参数。

使用随机森林构建决策树对所有特征进行重要性排名，根据特征重要性标准选择前K个重要特征，在组学数据的特征集中，根据特征重要性，输出特征重要性集合/>其中dⁱ表示第i个组学数据的特征总数，I_x计算公式如下所示：

和/>表示扰动前后的袋外数据(即决策树重采样时未采样到的样本)，并统计分类正确的样本数。按重要性降序排列，选择重要性较高的K个特征作为筛选后的特征。

将随机森林选择的重要特征与LASSO回归中保留的特征共同作为特定组学数据的总特征，为进一步的基因分析和生物学研究提供更丰富的信息和更深入的理解。

请参阅图2，将嵌入处理后的临床特征与mRNA表达、DNA甲基化、miRNA表达和拷贝数变异进行整合；引入多模态网络结构的设计思想，从多个通道并行学习多组学数据，每个通道对应一个深度神经网络；

将嵌入处理后的临床特征与mRNA表达、DNA甲基化、miRNA表达和拷贝数变异进行整合，包括步骤：

将临床数据中的年龄、种族、卵巢癌亚型、Figo分期这4个特征分别与经过特征选择的4种组学数据进行连接，作为多模态深度神经网络的输入，其中一个深度神经网络输入的特征如下所示:

其中，Xⁱ表示第i个组学特征与临床特征融合后的总特征，表示第i个组学数据的第p个特征，i＝1,2,3,4，c₁-c₄表示临床特征。

其中y表示样本标签，θ表示所有神经网络的参数，Z_k(k＝1,2,…,l)均是通过隐藏神经元处理后的结果，b是偏置向量。Z和W取决于输入维度的大小，隐藏神经元的个数以及类别的数量。此外，σ(·)是激活函数LeakyRelu，g(·)是softmax函数，将输出层的值转换为预测概率。因此，对于第i个类型的组学数据的预测过程可以写为：

其中我们使用/>表示/>中的第j行,这是第i个组学数据的第j个训练样本的预测标签分布。

请参阅图3，采用跨模态视图关联发现网络对每个多组学数据的高级特征表示构建发现张量，探索空间中交叉组学的互相关性，实现最终的卵巢癌预后预测。

通过跨组学发现张量充分学习不同组学数据之间的互相关性；使用全连接神经网络学习融合后的标签特征，进一步提取有用的特征。

通过跨组学发现张量充分学习不同组学数据之间的互相关性，包括步骤：

对mRNA表达、DNA甲基化、miRNA表达和拷贝数变异的相关性进行建模，令P_j∈R² ^×2×2×2表示第j个样本的交叉组学发现张量，计算公式如下：

MACODN(p_j)＝σ₂(W²(σ₁(W¹p_j+b¹))+b²)

y′_j＝MACODN(p_j)

其中，σ₁和σ₂表示激活函数分别为LeakyRelu和Softmax，W表示权重矩阵，b表示偏置向量，y′_j∈R²。

训练卵巢癌预后预测模型，具体包括：

其中，v表示组学类型的数量，N表示样本数量。表示交叉熵损失函数，y_j∈R²是第j个样本的one-hot编码的标签。

其中MACODN(p_j)∈R²，v表示组学数据的类型总数，全连接网络中的激活函数分别为LeakyRelu和Softmax，最终输出维度为2的预测结果。

其中β是特定组学的预测损失与最终预测损失之间的权衡参数，设置β＝1。

采用Adam优化器对目标函数进行优化，学习率和批处理分别设置为0.01和32。采用dropout技术和权重衰减(L2正则化)进一步防止模型过度拟合。

本发明中，深度学习模型是基于Torch1.10.0和python3.6.11实现的。

在训练集和测试集比例为7:3的相同基准训练数据集下比较基于跨模态视图关联发现网络的卵巢癌预后预测模型和其他预测方法的性能；

采用GEO数据集独立验证的方式，进一步比较跨模态视图关联发现网络的卵巢癌预后预测模型与其他模型的预测能力；

在TCGA数据集上，对识别出的重要基因采用生存分析进一步验证基于跨模态视图关联发现网络的卵巢癌预后预测模型的有效性；

在TCGA数据集上，对识别出的重要基因进行GO/KEGG富集分析评估基于跨模态视图关联发现网络的卵巢癌预后预测模型的能力。

请参阅图4，在训练集和测试集比例为7:3的相同基准训练数据集下比较基于跨模态视图关联发现网络的卵巢癌预后预测模型和其他预测方法的性能，包括步骤：

通过5次随机划分为7：3的训练集和测试集验证，将本发明的模型与其他现有的预测模型：KNN、SVM、RF、XGBoost、FNN、MOGONET和MOCSC进行比较。

采用3种统计度量指标评估模型的性能，包括准确率(ACC)、F1-score分数(F1)、ROC曲线下面积(AUC)，它们的定义如下：

其中，TP、TN、FP和FN分别为真阳性、真阴性、假阳性和假阴性。

采用接收器工作特性(ROC)曲线下面积(AUC)来衡量模型整体性能，AUC值越高，表明模型整体表现越好。模型的比较结果见图4。

请参阅图5，采用GEO数据集独立验证的方式，进一步比较基于跨模态视图关联发现网络的卵巢癌预后预测模型与其他模型的预测能力，包括步骤：

在GEO数据库下载了4个与卵巢癌相关的GEO数据集，其中包括GSE26712、GSE32062、GSE17260和GSE140082，将它们随机划分为70％的训练集和30％的测试集，重复5次实验，对卵巢癌进行预后预测。结果表明基于跨模态视图关联发现网络的卵巢癌预后预测模型具有最高的ACC、F1-score和AUC，相较于其他预测方法具有更好的卵巢癌预后预测能力。GEO数据集外部验证的结果见图5。

请参阅图6，对基因的生存分析实验进一步验证基于跨模态视图关联发现网络的卵巢癌预后预测模型的有效性，包括步骤：

在TCGA数据集上，通过将基因设置为0来判断该基因对卵巢癌患者生存预测的重要性，对基于跨模态视图关联发现网络的卵巢癌预后预测模型识别出的20个重要基因进行生存分析。由结果得出其中18个基因的高风险亚组患者的生存时间普遍低于低风险亚组，且生存时间差异均在0.05以下，对深入研究卵巢癌的发病机制、预后影响因素以及个体化治疗具有一定的参考价值。基因生存分析的结果见图6。

请参阅图7在TCGA数据集上，对识别出的重要基因进行富集分析，评估基于跨模态视图关联发现网络的卵巢癌预后预测模型识别重要基因的能力，包括步骤：

对基于跨模态视图关联发现网络的卵巢癌预后预测模型识别出的20个重要基因进行GO/KEGG富集分析，揭示了一些与卵巢癌相关的重要通路。通过文献证明，这些通路与卵巢癌密切相关，并且部分通路与其他癌症或疾病相关，这有助于揭示卵巢癌与其他疾病之间的关联，为深入研究卵巢癌的病理生理学提供了重要线索。识别出的基因富集分析结果见图7。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.基于跨模态视图关联发现网络的卵巢癌预后预测方法，其特征在于，包括以下步骤：

步骤S6、训练卵巢癌预后预测模型；

2.根据权利要求1所述的卵巢癌预后预测方法，其特征在于，多个所述组学数据包括mRNA表达、DNA甲基化、miRNA表达和拷贝数变异，所述临床数据中的临床特征包括年龄、种族、Figo分期、卵巢癌亚型、生存时间和生存状态。

3.根据权利要求1所述的卵巢癌预后预测方法，其特征在于，步骤S1中，预处理步骤具体包括：

4.根据权利要求2所述的卵巢癌预后预测方法，其特征在于，步骤S2中，具体包括：

LASSO回归进行特征选择的公式如下：

subject to:

5.根据权利要求4所述的卵巢癌预后预测方法，其特征在于，步骤S3中，具体包括：

6.根据权利要求5所述的卵巢癌预后预测方法，其特征在于，步骤S4中，具体包括：

对于第i个类型的整合组学数据的预测过程可以写为：

7.根据权利要求6所述的卵巢癌预后预测方法，其特征在于，步骤S5，具体包括：

其中，对mRNA表达、DNA甲基化、miRNA表达和拷贝数变异的相关性进行建模，令P_j∈R² ^×2×2×2表示第j个样本的跨组学发现张量，计算公式如下：

MACODN(p_j)＝σ₂(W²(σ₁(W¹p_j+b¹))+b²)

y′_j＝MACODN(p_j)

8.根据权利要求1所述的卵巢癌预后预测方法，其特征在于，步骤S6中，训练卵巢癌预后预测模型，具体包括：

9.根据权利要求1所述的卵巢癌预后预测方法，其特征在于，步骤S7中，具体包括：