CN117594243A - 基于跨模态视图关联发现网络的卵巢癌预后预测方法 - Google Patents

基于跨模态视图关联发现网络的卵巢癌预后预测方法 Download PDF

Info

Publication number
CN117594243A
CN117594243A CN202311332203.6A CN202311332203A CN117594243A CN 117594243 A CN117594243 A CN 117594243A CN 202311332203 A CN202311332203 A CN 202311332203A CN 117594243 A CN117594243 A CN 117594243A
Authority
CN
China
Prior art keywords
data
histology
ovarian cancer
cross
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311332203.6A
Other languages
English (en)
Other versions
CN117594243B (zh
Inventor
王会青
韩笑
程昊
任建雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN202311332203.6A priority Critical patent/CN117594243B/zh
Publication of CN117594243A publication Critical patent/CN117594243A/zh
Application granted granted Critical
Publication of CN117594243B publication Critical patent/CN117594243B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了基于跨模态视图关联发现网络的卵巢癌预后预测方法,引入随机森林与LASSO回归结合的特征选择方法RLASSO,去除冗余和带有噪声的特征,充分选择与卵巢癌预后相关的基因;引入临床特征,将其分别与mRNA表达、DNA甲基化、miRNA表达和拷贝数变异进行整合;采用多模态深度神经网络并行学习特定组学数据的高级特征表示,进行卵巢癌初始预后预测;提出使用跨模态视图关联网络对初始预测结果构建发现张量,探索空间中交叉组学的互相关性,实现最终的卵巢癌预后预测。本发明能够有效解决现有方法忽略不同组学数据之间的差异性和互相关性的问题,更准确地预测了卵巢癌患者的预后。

Description

基于跨模态视图关联发现网络的卵巢癌预后预测方法
技术领域
本发明涉及卵巢癌预后研究与分析领域,尤其涉及基于跨模态视图关联发现网络的卵巢癌预后预测方法。
背景技术
卵巢癌是具有不同临床病理和分子特征的肿瘤,绝大多数患者在确诊时已存在局部或大范围扩散,对患者进行早期诊断和预后预测有助于卵巢癌潜在发病机制的理解和治疗效果的改善。卵巢癌的发生受基因组、转录组以及蛋白组等多个复杂机制的影响,不同类型的组学分析有助于卵巢癌患者存活率的预测。卵巢癌多组学数据具有高维异质性,现有方法在整合多组学数据时未考虑到不同组学数据之间的差异性和互相关性。
发明内容
本发明的目的在于避免现有技术的不足之处而提供一种基于跨模态视图关联发现网络的卵巢癌预后预测方法。
本发明是这样实现的,基于跨模态视图关联发现网络的卵巢癌预后预测方法,包括以下步骤:
步骤S1、获取卵巢癌患者的临床数据和多个组学数据,构建多模态特征空间,并对临床数据和多个组学数据进行预处理;
步骤S2、预处理后的组学数据利用RLASSO进行组学特征选择,使用LASSO回归将组学特征稀疏化,结合随机森林对组学特征进行重要性排序,并将随机森林选取的重要组学特征作为LASSO回归中丢失组学特征的补充,获得与卵巢癌相关的预后特征;
步骤S3、预处理后的临床数据与预后特征进行整合,得到整合组学数据;
步骤S4、采用多模态深度神经网络,提取整合组学数据的高级特征表示;
步骤S5、采用跨模态视图关联发现网络,对整合组学数据的高级特征表示构建发现张量,探索空间中交叉组学的互相关性,构建卵巢癌预后预测模型;
步骤S6、训练卵巢癌预后预测模型;
步骤S7、验证并评估卵巢癌预后预测模型的预测能力和有效性。
进一步的,多个所述组学数据包括mRNA表达、DNA甲基化、miRNA表达和拷贝数变异,所述临床数据中的临床特征包括年龄、种族、Figo分期、卵巢癌亚型、生存时间和生存状态。
进一步的,步骤S1中,预处理步骤具体包括:
过滤临床数据和多个组学数据中缺失值超过20%的样本和特征;
将临床数据和多个组学数据中的样本相交,得到临床数据和多个组学数据的共同样本;
将共同样本的组学数据通过方差阈值进行初步筛选,得到预处理后的组学数据;
将共同样本的临床数据进行嵌入处理,得到预处理后的临床数据。
进一步的,步骤S2中,具体包括:
LASSO回归进行特征选择的公式如下:
其中,i表示第i个组学数据,N表示样本数量,di表示第i个组学数据的组学特征总量,yj表示第j个样本的标签,λ表示正则化参数;
使用随机森林构建决策树,对所有组学特征进行重要性排名,根据组学特征重要性标准选择前K个重要组学特征;
在组学数据的特征集中,根据特征重要性,输出特征重要性集合/>其中di表示第i个组学数据的组学特征总数,Ix计算公式如下所示:
其中,和/>表示扰动前后的袋外数据,即决策树重采样时未采样到的样本,并统计分类正确的样本数;
按重要性降序排列,选择重要性较高的K个特征作为筛选后的特征;
将随机森林选择的重要特征与LASSO回归中保留的特征共同作为特定组学数据的总特征,即与卵巢癌相关的预后特征。
进一步的,步骤S3中,具体包括:
将临床数据中的年龄、种族、卵巢癌亚型、Figo分期这4个临床特征分别与经过特征选择的组学特征,即预后特征,进行拼接,得到整合组学数据,作为多模态深度神经网络的输入,其中,一个深度神经网络输入的特征如下所示:
其中,Xi表示第i个组学特征与临床特征融合后的总特征,表示第i个组学数据的第p个组学特征,i=1,2,3,4,c1-c4表示临床特征。
进一步的,步骤S4中,具体包括:
采用多模态深度神经网络,从多个通道并行学习整合组学数据,每个通道对应一个深度神经网络,每个通道独立学习并提取不同类型整合组学数据的高级特征表示;
第i个整合组学数据具有l个隐藏层的深度神经网络表示如下:
其中,y表示样本标签,θ表示所有神经网络的参数,Zk(k=1,2,…,l)均是通过隐藏神经元处理后的结果,b是偏置向量;Z和W取决于输入维度的大小,隐藏神经元的个数以及类别的数量;σ(·)是激活函数LeakyRelu,g(·)是softmax函数,将输出层的值转换为预测概率;
对于第i个类型的整合组学数据的预测过程可以写为:
其中,使用/>表示/>中的第j行,这是第i个整合组学数据的第j个训练样本的预测标签分布,即整合组学数据的高级特征表示。
进一步的,步骤S5,具体包括:
采用跨模态视图关联发现网络对每个多组学数据的预测标签分布构建跨组学发现张量,通过跨组学发现张量充分学习不同组学数据之间的互相关性;
其中,对mRNA表达、DNA甲基化、miRNA表达和拷贝数变异的相关性进行建模,令Pj∈R2×2×2×2表示第j个样本的跨组学发现张量,计算公式如下:
表示/>的第i项,使用Pj挖掘不同组学数据预测标签分布之间的关系,充分学习它们之间的互相关性;
将跨组学发现张量Pj∈R2×2×2×2重塑为长度是24的一维向量pj∈R16,pj表示融合后的标签特征,使用全连接神经网络学习重塑后的跨组学发现张量,即融合后的标签特征,获得卵巢癌预后预测的最终结果;
其中,将pj输入全连接神经网络中获得卵巢癌最终的预后预测结果y′j
当全连接网络由2个隐藏层组成,每个层数均为100时,获得最好的预测结果,公式如下:
MACODN(pj)=σ2(W21(W1pj+b1))+b2)
y′j=MACODN(pj)
其中,σ1和σ2表示激活函数分别为LeakyRelu和Softmax,W表示权重矩阵,b表示偏置向量,y′j∈R2
进一步的,步骤S6中,训练卵巢癌预后预测模型,具体包括:
采用交叉熵作为代价函数,以最小化训练多模态神经网络误差:
其中,v表示组学类型的数量,N表示样本数量,表示交叉熵损失函数,yj∈R2是第j个样本的one-hot编码的标签;
跨模态视图关联发现网络使用交叉熵损失函数进行训练,即:
其中,MACODN(pj)∈R2,v表示组学数据的类型总数,全连接网络中的激活函数分别为LeakyRelu和Softmax,最终输出维度为2的预测结果;
多模态深度神经网络和跨模态视图关联发现网络总的损失函数如下所示:
其中,β是特定组学的预测损失与最终预测损失之间的权衡参数,设置β=1;
采用Adam优化器对目标函数进行优化,学习率和批处理分别设置为0.01和32,采用dropout技术和权重衰减进一步防止模型过度拟合。
进一步的,步骤S7中,具体包括:
在训练集和测试集比例为7:3的相同基准训练数据集下比较卵巢癌预后预测模型和其他预测方法的性能;
采用GEO数据集独立验证的方式,进一步比较卵巢癌预后预测模型与其他模型的预测能力;
在TCGA数据集上,对识别出的重要基因采用生存分析进一步验证卵巢癌预后预测模型的有效性;
在TCGA数据集上,对识别出的重要基因进行GO/KEGG富集分析评估卵巢癌预后预测模型的能力。
区别于现有技术,本发明所述的基于跨模态视图关联发现网络的卵巢癌预后预测方法,共同构建多模态特征空间,引入随机森林与LASSO回归结合的特征选择方法RLASSO,去除冗余和带有噪声的特征,充分选择与卵巢癌预后相关的基因;引入临床特征,将其分别与mRNA表达、DNA甲基化、miRNA表达和拷贝数变异进行整合;采用多模态深度神经网络并行学习特定组学数据的高级特征表示,进行卵巢癌初始预后预测;提出使用跨模态视图关联网络对初始预测结果构建发现张量,探索空间中交叉组学的互相关性,实现最终的卵巢癌预后预测。本发明能够有效解决现有方法忽略不同组学数据之间的差异性和互相关性的问题,更准确地预测了卵巢癌患者的预后,对患者进行生存分析并确定后续治疗方案,揭示了卵巢癌潜在的发病机制。
附图说明
图1是本发明从TCGA数据库中下载的卵巢癌多组学数据,包括mRNA表达、DNA甲基化、miRNA表达和拷贝数变异;
图2是本发明中多模态深度神经网络的示意图;
图3是本发明中跨模态视图关联发现网络的示意图;
图4是本发明在TCGA数据集上验证性能示意图;
图5是本发明中不同预测方法在卵巢癌的4个GEO数据集上预测性能示意图;
图6是本发明中识别出的重要基因的生存分析Kaplan-Meier生存曲线;
图7是本发明中识别出的重要基因的GO/KEGG富集分析。
具体实施方式
下面结合具体实施方式对本发明的技术方案作进一步更详细的描述。
基于跨模态视图关联发现网络的卵巢癌预后预测方法,具体包括:
卵巢癌的多组学数据和临床数据的下载和预处理;
将临床数据中的分类特征嵌入处理为分类变量,根据全部患者生存时间的平均数划分为高风险亚组和低风险亚组;
卵巢癌的多组学数据和临床数据的下载和预处理,包括步骤:
请参阅图1,从TCGA数据库(https://portal.gdc.cancer.gov/)下载卵巢癌的组学数据和临床数据,其中组学数据包括mRNA表达,DNA甲基化,miRNA表达和拷贝数变异,临床数据描述了587名卵巢癌患者的临床信息,本说明使用的临床数据包括年龄、种族、Figo分期、卵巢癌亚型、生存时间和生存状态6种重要的特征。
过滤缺失值超过20%的样本和特征,将表达值为’0’的基因转化为’NA’,使用R包“ImputeMissings”基于中位数填补缺失值。
将mRNA表达、DNA甲基化、miRNA表达、拷贝数变异和临床信息中的样本相交,获得325个共同样本。
通过方差阈值初步筛选多组学数据特征,mRNA表达、DNA甲基化和拷贝数变异的方差阈值分别为7、0.02和0.1,miRNA表达的特征数据较少,故而不使用方差阈值筛选特征。
采用特征选择方法RLASSO进行特征选择,使用LASSO回归对卵巢癌高维多组学数据进行稀疏化处理,结合随机森林进行特征重要性排序,将随机森林选取的重要特征作为LASSO回归中丢失特征的补充。
LASSO回归通过L1正则化(L1-regularization),将优化目标函数中的惩罚项添加到最小二乘误差项上,在优化过程中使部分特征的系数趋近于零,并最终将某些特征的系数完全缩减为零,从而实现特征选择。LASSO回归进行特征选择的公式如下:
其中,i表示第i个组学数据,N表示样本数量,di表示第i个组学数据的特征总量,yj表示第j个样本的标签,λ表示正则化参数。
使用随机森林构建决策树对所有特征进行重要性排名,根据特征重要性标准选择前K个重要特征,在组学数据的特征集中,根据特征重要性,输出特征重要性集合/>其中di表示第i个组学数据的特征总数,Ix计算公式如下所示:
和/>表示扰动前后的袋外数据(即决策树重采样时未采样到的样本),并统计分类正确的样本数。按重要性降序排列,选择重要性较高的K个特征作为筛选后的特征。
将随机森林选择的重要特征与LASSO回归中保留的特征共同作为特定组学数据的总特征,为进一步的基因分析和生物学研究提供更丰富的信息和更深入的理解。
请参阅图2,将嵌入处理后的临床特征与mRNA表达、DNA甲基化、miRNA表达和拷贝数变异进行整合;引入多模态网络结构的设计思想,从多个通道并行学习多组学数据,每个通道对应一个深度神经网络;
将嵌入处理后的临床特征与mRNA表达、DNA甲基化、miRNA表达和拷贝数变异进行整合,包括步骤:
将临床数据中的年龄、种族、卵巢癌亚型、Figo分期这4个特征分别与经过特征选择的4种组学数据进行连接,作为多模态深度神经网络的输入,其中一个深度神经网络输入的特征如下所示:
其中,Xi表示第i个组学特征与临床特征融合后的总特征,表示第i个组学数据的第p个特征,i=1,2,3,4,c1-c4表示临床特征。
其中y表示样本标签,θ表示所有神经网络的参数,Zk(k=1,2,…,l)均是通过隐藏神经元处理后的结果,b是偏置向量。Z和W取决于输入维度的大小,隐藏神经元的个数以及类别的数量。此外,σ(·)是激活函数LeakyRelu,g(·)是softmax函数,将输出层的值转换为预测概率。因此,对于第i个类型的组学数据的预测过程可以写为:
其中我们使用/>表示/>中的第j行,这是第i个组学数据的第j个训练样本的预测标签分布。
请参阅图3,采用跨模态视图关联发现网络对每个多组学数据的高级特征表示构建发现张量,探索空间中交叉组学的互相关性,实现最终的卵巢癌预后预测。
通过跨组学发现张量充分学习不同组学数据之间的互相关性;使用全连接神经网络学习融合后的标签特征,进一步提取有用的特征。
通过跨组学发现张量充分学习不同组学数据之间的互相关性,包括步骤:
对mRNA表达、DNA甲基化、miRNA表达和拷贝数变异的相关性进行建模,令Pj∈R2 ×2×2×2表示第j个样本的交叉组学发现张量,计算公式如下:
表示/>的第i项,使用Pj挖掘不同组学数据预测标签分布之间的关系,充分学习它们之间的互相关性;
将跨组学发现张量Pj∈R2×2×2×2重塑为长度是24的一维向量pj∈R16,pj表示融合后的标签特征,使用全连接神经网络学习重塑后的跨组学发现张量,即融合后的标签特征,获得卵巢癌预后预测的最终结果;
其中,将pj输入全连接神经网络中获得卵巢癌最终的预后预测结果y′j
当全连接网络由2个隐藏层组成,每个层数均为100时,获得最好的预测结果,公式如下:
MACODN(pj)=σ2(W21(W1pj+b1))+b2)
y′j=MACODN(pj)
其中,σ1和σ2表示激活函数分别为LeakyRelu和Softmax,W表示权重矩阵,b表示偏置向量,y′j∈R2
训练卵巢癌预后预测模型,具体包括:
采用交叉熵作为代价函数,以最小化训练多模态神经网络误差:
其中,v表示组学类型的数量,N表示样本数量。表示交叉熵损失函数,yj∈R2是第j个样本的one-hot编码的标签。
跨模态视图关联发现网络使用交叉熵损失函数进行训练,即:
其中MACODN(pj)∈R2,v表示组学数据的类型总数,全连接网络中的激活函数分别为LeakyRelu和Softmax,最终输出维度为2的预测结果。
多模态深度神经网络和跨模态视图关联发现网络总的损失函数如下所示:
其中β是特定组学的预测损失与最终预测损失之间的权衡参数,设置β=1。
采用Adam优化器对目标函数进行优化,学习率和批处理分别设置为0.01和32。采用dropout技术和权重衰减(L2正则化)进一步防止模型过度拟合。
本发明中,深度学习模型是基于Torch1.10.0和python3.6.11实现的。
在训练集和测试集比例为7:3的相同基准训练数据集下比较基于跨模态视图关联发现网络的卵巢癌预后预测模型和其他预测方法的性能;
采用GEO数据集独立验证的方式,进一步比较跨模态视图关联发现网络的卵巢癌预后预测模型与其他模型的预测能力;
在TCGA数据集上,对识别出的重要基因采用生存分析进一步验证基于跨模态视图关联发现网络的卵巢癌预后预测模型的有效性;
在TCGA数据集上,对识别出的重要基因进行GO/KEGG富集分析评估基于跨模态视图关联发现网络的卵巢癌预后预测模型的能力。
请参阅图4,在训练集和测试集比例为7:3的相同基准训练数据集下比较基于跨模态视图关联发现网络的卵巢癌预后预测模型和其他预测方法的性能,包括步骤:
通过5次随机划分为7:3的训练集和测试集验证,将本发明的模型与其他现有的预测模型:KNN、SVM、RF、XGBoost、FNN、MOGONET和MOCSC进行比较。
采用3种统计度量指标评估模型的性能,包括准确率(ACC)、F1-score分数(F1)、ROC曲线下面积(AUC),它们的定义如下:
其中,TP、TN、FP和FN分别为真阳性、真阴性、假阳性和假阴性。
采用接收器工作特性(ROC)曲线下面积(AUC)来衡量模型整体性能,AUC值越高,表明模型整体表现越好。模型的比较结果见图4。
请参阅图5,采用GEO数据集独立验证的方式,进一步比较基于跨模态视图关联发现网络的卵巢癌预后预测模型与其他模型的预测能力,包括步骤:
在GEO数据库下载了4个与卵巢癌相关的GEO数据集,其中包括GSE26712、GSE32062、GSE17260和GSE140082,将它们随机划分为70%的训练集和30%的测试集,重复5次实验,对卵巢癌进行预后预测。结果表明基于跨模态视图关联发现网络的卵巢癌预后预测模型具有最高的ACC、F1-score和AUC,相较于其他预测方法具有更好的卵巢癌预后预测能力。GEO数据集外部验证的结果见图5。
请参阅图6,对基因的生存分析实验进一步验证基于跨模态视图关联发现网络的卵巢癌预后预测模型的有效性,包括步骤:
在TCGA数据集上,通过将基因设置为0来判断该基因对卵巢癌患者生存预测的重要性,对基于跨模态视图关联发现网络的卵巢癌预后预测模型识别出的20个重要基因进行生存分析。由结果得出其中18个基因的高风险亚组患者的生存时间普遍低于低风险亚组,且生存时间差异均在0.05以下,对深入研究卵巢癌的发病机制、预后影响因素以及个体化治疗具有一定的参考价值。基因生存分析的结果见图6。
请参阅图7在TCGA数据集上,对识别出的重要基因进行富集分析,评估基于跨模态视图关联发现网络的卵巢癌预后预测模型识别重要基因的能力,包括步骤:
对基于跨模态视图关联发现网络的卵巢癌预后预测模型识别出的20个重要基因进行GO/KEGG富集分析,揭示了一些与卵巢癌相关的重要通路。通过文献证明,这些通路与卵巢癌密切相关,并且部分通路与其他癌症或疾病相关,这有助于揭示卵巢癌与其他疾病之间的关联,为深入研究卵巢癌的病理生理学提供了重要线索。识别出的基因富集分析结果见图7。
以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.基于跨模态视图关联发现网络的卵巢癌预后预测方法,其特征在于,包括以下步骤:
步骤S1、获取卵巢癌患者的临床数据和多个组学数据,构建多模态特征空间,并对临床数据和多个组学数据进行预处理;
步骤S2、预处理后的组学数据利用RLASSO进行组学特征选择,使用LASSO回归将组学特征稀疏化,结合随机森林对组学特征进行重要性排序,并将随机森林选取的重要组学特征作为LASSO回归中丢失组学特征的补充,获得与卵巢癌相关的预后特征;
步骤S3、预处理后的临床数据与预后特征进行整合,得到整合组学数据;
步骤S4、采用多模态深度神经网络,提取整合组学数据的高级特征表示;
步骤S5、采用跨模态视图关联发现网络,对整合组学数据的高级特征表示构建发现张量,探索空间中交叉组学的互相关性,构建卵巢癌预后预测模型;
步骤S6、训练卵巢癌预后预测模型;
步骤S7、验证并评估卵巢癌预后预测模型的预测能力和有效性。
2.根据权利要求1所述的卵巢癌预后预测方法,其特征在于,多个所述组学数据包括mRNA表达、DNA甲基化、miRNA表达和拷贝数变异,所述临床数据中的临床特征包括年龄、种族、Figo分期、卵巢癌亚型、生存时间和生存状态。
3.根据权利要求1所述的卵巢癌预后预测方法,其特征在于,步骤S1中,预处理步骤具体包括:
过滤临床数据和多个组学数据中缺失值超过20%的样本和特征;
将临床数据和多个组学数据中的样本相交,得到临床数据和多个组学数据的共同样本;
将共同样本的组学数据通过方差阈值进行初步筛选,得到预处理后的组学数据;
将共同样本的临床数据进行嵌入处理,得到预处理后的临床数据。
4.根据权利要求2所述的卵巢癌预后预测方法,其特征在于,步骤S2中,具体包括:
LASSO回归进行特征选择的公式如下:
subject to:
其中,i表示第i个组学数据,N表示样本数量,di表示第i个组学数据的组学特征总量,yj表示第j个样本的标签,λ表示正则化参数;
使用随机森林构建决策树,对所有组学特征进行重要性排名,根据组学特征重要性标准选择前K个重要组学特征;
在组学数据的特征集中,根据特征重要性,输出特征重要性集合/>其中di表示第i个组学数据的组学特征总数,Ix计算公式如下所示:
其中,和/>表示扰动前后的袋外数据,即决策树重采样时未采样到的样本,并统计分类正确的样本数;
按重要性降序排列,选择重要性较高的K个特征作为筛选后的特征;
将随机森林选择的重要特征与LASSO回归中保留的特征共同作为特定组学数据的总特征,即与卵巢癌相关的预后特征。
5.根据权利要求4所述的卵巢癌预后预测方法,其特征在于,步骤S3中,具体包括:
将临床数据中的年龄、种族、卵巢癌亚型、Figo分期这4个临床特征分别与经过特征选择的组学特征,即预后特征,进行拼接,得到整合组学数据,作为多模态深度神经网络的输入,其中,一个深度神经网络输入的特征如下所示:
其中,Xi表示第i个组学特征与临床特征融合后的总特征,表示第i个组学数据的第p个组学特征,i=1,2,3,4,c1-c4表示临床特征。
6.根据权利要求5所述的卵巢癌预后预测方法,其特征在于,步骤S4中,具体包括:
采用多模态深度神经网络,从多个通道并行学习整合组学数据,每个通道对应一个深度神经网络,每个通道独立学习并提取不同类型整合组学数据的高级特征表示;
第i个整合组学数据具有l个隐藏层的深度神经网络表示如下:
其中,y表示样本标签,θ表示所有神经网络的参数,Zk(k=1,2,…,l)均是通过隐藏神经元处理后的结果,b是偏置向量;Z和W取决于输入维度的大小,隐藏神经元的个数以及类别的数量;σ(·)是激活函数LeakyRelu,g(·)是softmax函数,将输出层的值转换为预测概率;
对于第i个类型的整合组学数据的预测过程可以写为:
其中,使用/>表示/>中的第j行,这是第i个整合组学数据的第j个训练样本的预测标签分布,即整合组学数据的高级特征表示。
7.根据权利要求6所述的卵巢癌预后预测方法,其特征在于,步骤S5,具体包括:
采用跨模态视图关联发现网络对每个多组学数据的预测标签分布构建跨组学发现张量,通过跨组学发现张量充分学习不同组学数据之间的互相关性;
其中,对mRNA表达、DNA甲基化、miRNA表达和拷贝数变异的相关性进行建模,令Pj∈R2 ×2×2×2表示第j个样本的跨组学发现张量,计算公式如下:
表示/>的第i项,使用Pj挖掘不同组学数据预测标签分布之间的关系,充分学习它们之间的互相关性;
将跨组学发现张量Pj∈R2×2×2×2重塑为长度是24的一维向量pj∈R16,pj表示融合后的标签特征,使用全连接神经网络学习重塑后的跨组学发现张量,即融合后的标签特征,获得卵巢癌预后预测的最终结果;
其中,将pj输入全连接神经网络中获得卵巢癌最终的预后预测结果y′j
当全连接网络由2个隐藏层组成,每个层数均为100时,获得最好的预测结果,公式如下:
MACODN(pj)=σ2(W21(W1pj+b1))+b2)
y′j=MACODN(pj)
其中,σ1和σ2表示激活函数分别为LeakyRelu和Softmax,W表示权重矩阵,b表示偏置向量,y′j∈R2
8.根据权利要求1所述的卵巢癌预后预测方法,其特征在于,步骤S6中,训练卵巢癌预后预测模型,具体包括:
采用交叉熵作为代价函数,以最小化训练多模态神经网络误差:
其中,v表示组学类型的数量,N表示样本数量,表示交叉熵损失函数,yj∈R2是第j个样本的one-hot编码的标签;
跨模态视图关联发现网络使用交叉熵损失函数进行训练,即:
其中,MACODN(pj)∈R2,v表示组学数据的类型总数,全连接网络中的激活函数分别为LeakyRelu和Softmax,最终输出维度为2的预测结果;
多模态深度神经网络和跨模态视图关联发现网络总的损失函数如下所示:
其中,β是特定组学的预测损失与最终预测损失之间的权衡参数,设置β=1;
采用Adam优化器对目标函数进行优化,学习率和批处理分别设置为0.01和32,采用dropout技术和权重衰减进一步防止模型过度拟合。
9.根据权利要求1所述的卵巢癌预后预测方法,其特征在于,步骤S7中,具体包括:
在训练集和测试集比例为7:3的相同基准训练数据集下比较卵巢癌预后预测模型和其他预测方法的性能;
采用GEO数据集独立验证的方式,进一步比较卵巢癌预后预测模型与其他模型的预测能力;
在TCGA数据集上,对识别出的重要基因采用生存分析进一步验证卵巢癌预后预测模型的有效性;
在TCGA数据集上,对识别出的重要基因进行GO/KEGG富集分析评估卵巢癌预后预测模型的能力。
CN202311332203.6A 2023-10-13 2023-10-13 基于跨模态视图关联发现网络的卵巢癌预后预测方法 Active CN117594243B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311332203.6A CN117594243B (zh) 2023-10-13 2023-10-13 基于跨模态视图关联发现网络的卵巢癌预后预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311332203.6A CN117594243B (zh) 2023-10-13 2023-10-13 基于跨模态视图关联发现网络的卵巢癌预后预测方法

Publications (2)

Publication Number Publication Date
CN117594243A true CN117594243A (zh) 2024-02-23
CN117594243B CN117594243B (zh) 2024-05-14

Family

ID=89917228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311332203.6A Active CN117594243B (zh) 2023-10-13 2023-10-13 基于跨模态视图关联发现网络的卵巢癌预后预测方法

Country Status (1)

Country Link
CN (1) CN117594243B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118116600A (zh) * 2024-04-30 2024-05-31 数据空间研究院 一种基于多组学和临床检验数据的结直肠癌预后方法
CN118411034A (zh) * 2024-07-01 2024-07-30 浙江省水利河口研究院(浙江省海洋规划设计研究院) 一种基于Monte Carlo模拟法的山洪灾害预警失准风险分析方法
CN118429265A (zh) * 2024-02-29 2024-08-02 徐州医科大学 基于术前多模态mri的肝细胞癌微血管侵犯预测系统及其应用
CN118411034B (zh) * 2024-07-01 2024-10-22 浙江省水利河口研究院(浙江省海洋规划设计研究院) 一种基于Monte Carlo模拟法的山洪灾害预警失准风险分析方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793908A (zh) * 2014-01-17 2014-05-14 首都医科大学 一种基于脑核磁共振图像多维度纹理建立预测模型的方法
US20150267259A1 (en) * 2012-10-12 2015-09-24 Agency For Science, Technology And Research Method of prognosis and stratification of ovarian cancer
KR20160086496A (ko) * 2015-01-09 2016-07-20 순천대학교 산학협력단 난소암의 예후 예측용 유전자 선별방법
KR20170032892A (ko) * 2017-03-13 2017-03-23 순천대학교 산학협력단 난소암의 예후 예측용 유전자 선별방법
CN109117864A (zh) * 2018-07-13 2019-01-01 华南理工大学 基于异构特征融合的冠心病风险预测方法、模型及系统
CN109825583A (zh) * 2019-03-01 2019-05-31 清华大学 人重复元件dna甲基化作为肝癌早期诊断的标记物及其应用
CN110097928A (zh) * 2019-04-17 2019-08-06 广东省微生物研究所(广东省微生物分析检测中心) 一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型
US20200105413A1 (en) * 2018-09-29 2020-04-02 Roche Molecular Systems, Inc. Multimodal machine learning based clinical predictor
US20200386762A1 (en) * 2017-01-18 2020-12-10 Biocrates Life Sciences Ag Metabolic biomarker set for assessing ovarian cancer
CN112149254A (zh) * 2020-09-24 2020-12-29 上海电力大学 一种基于Lasso-RF模型的燃气轮机启动过程预测方法
CN112820403A (zh) * 2021-02-25 2021-05-18 中山大学 一种基于多组学数据预测癌症患者预后风险的深度学习方法
CN113096739A (zh) * 2021-04-09 2021-07-09 东南大学 一种卵巢癌的免疫预后诊断标志物组合的分析方法
CN113362888A (zh) * 2021-06-02 2021-09-07 齐鲁工业大学 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质
CN114581868A (zh) * 2022-03-04 2022-06-03 京东鲲鹏(江苏)科技有限公司 基于模型通道剪枝的图像分析方法和装置
CN115537467A (zh) * 2022-10-17 2022-12-30 重庆大学附属肿瘤医院 基于深度神经网络的卵巢癌生存预后预测分子模型的建立方法及其应用

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150267259A1 (en) * 2012-10-12 2015-09-24 Agency For Science, Technology And Research Method of prognosis and stratification of ovarian cancer
CN103793908A (zh) * 2014-01-17 2014-05-14 首都医科大学 一种基于脑核磁共振图像多维度纹理建立预测模型的方法
KR20160086496A (ko) * 2015-01-09 2016-07-20 순천대학교 산학협력단 난소암의 예후 예측용 유전자 선별방법
US20200386762A1 (en) * 2017-01-18 2020-12-10 Biocrates Life Sciences Ag Metabolic biomarker set for assessing ovarian cancer
KR20170032892A (ko) * 2017-03-13 2017-03-23 순천대학교 산학협력단 난소암의 예후 예측용 유전자 선별방법
CN109117864A (zh) * 2018-07-13 2019-01-01 华南理工大学 基于异构特征融合的冠心病风险预测方法、模型及系统
US20200105413A1 (en) * 2018-09-29 2020-04-02 Roche Molecular Systems, Inc. Multimodal machine learning based clinical predictor
CN109825583A (zh) * 2019-03-01 2019-05-31 清华大学 人重复元件dna甲基化作为肝癌早期诊断的标记物及其应用
CN110097928A (zh) * 2019-04-17 2019-08-06 广东省微生物研究所(广东省微生物分析检测中心) 一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型
CN112149254A (zh) * 2020-09-24 2020-12-29 上海电力大学 一种基于Lasso-RF模型的燃气轮机启动过程预测方法
CN112820403A (zh) * 2021-02-25 2021-05-18 中山大学 一种基于多组学数据预测癌症患者预后风险的深度学习方法
CN113096739A (zh) * 2021-04-09 2021-07-09 东南大学 一种卵巢癌的免疫预后诊断标志物组合的分析方法
CN113362888A (zh) * 2021-06-02 2021-09-07 齐鲁工业大学 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质
CN114581868A (zh) * 2022-03-04 2022-06-03 京东鲲鹏(江苏)科技有限公司 基于模型通道剪枝的图像分析方法和装置
CN115537467A (zh) * 2022-10-17 2022-12-30 重庆大学附属肿瘤医院 基于深度神经网络的卵巢癌生存预后预测分子模型的建立方法及其应用

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JING, BL, ET AL: "Development of prediction model to estimate future risk of ovarian lesions: A multi-center retrospective study", PREVENTIVE MEDICINE REPORTS, vol. 35, 30 June 2023 (2023-06-30), pages 10229 *
ZHANG, L, ET AL: "Identification and exploration of the pyroptosis-related molecular subtypes of breast cancer by bioinformatics and machine learning", AMWEICAN JOURNAL OF TRANSLATIONAL RESEARCH, vol. 14, no. 9, 13 November 2022 (2022-11-13), pages 6521 - 6535 *
孟令豪;章琳;厉力华;: "基于多维基因组学的卵巢癌亚型分析", 杭州电子科技大学学报(自然科学版), vol. 36, no. 04, 15 July 2016 (2016-07-15), pages 29 - 35 *
李浩琳,等: "多模态深度神经网络的高级别浆液性卵巢癌分类方法", 华东理工大学学报(自然科学版), 13 December 2023 (2023-12-13), pages 1 - 11 *
聂代静,等: "CA125、HE4联合检测及ROMA模型在卵巢癌诊断及预后方面的研究进展", 临床肿瘤学杂志, vol. 18, no. 6, 30 June 2013 (2013-06-30), pages 571 - 575 *
苏宇腾.等: "基于 LASSO 回归与随机森林算法的 2 型糖尿病发病风险因素", 环境卫生学杂志, vol. 13, no. 7, 31 July 2023 (2023-07-31), pages 485 - 494 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118429265A (zh) * 2024-02-29 2024-08-02 徐州医科大学 基于术前多模态mri的肝细胞癌微血管侵犯预测系统及其应用
CN118116600A (zh) * 2024-04-30 2024-05-31 数据空间研究院 一种基于多组学和临床检验数据的结直肠癌预后方法
CN118411034A (zh) * 2024-07-01 2024-07-30 浙江省水利河口研究院(浙江省海洋规划设计研究院) 一种基于Monte Carlo模拟法的山洪灾害预警失准风险分析方法
CN118411034B (zh) * 2024-07-01 2024-10-22 浙江省水利河口研究院(浙江省海洋规划设计研究院) 一种基于Monte Carlo模拟法的山洪灾害预警失准风险分析方法

Also Published As

Publication number Publication date
CN117594243B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
CN117594243B (zh) 基于跨模态视图关联发现网络的卵巢癌预后预测方法
Gerds et al. The performance of risk prediction models
CN113555070B (zh) 机器学习算法构建急性髓系白血病药敏相关基因分类器
CN110021341B (zh) 一种基于异构网络的gpcr药物和靶向通路的预测方法
US8572018B2 (en) Method, system and software arrangement for reconstructing formal descriptive models of processes from functional/modal data using suitable ontology
CN114783524B (zh) 基于自适应重采样深度编码器网络的通路异常检测系统
CN111370073B (zh) 一种基于深度学习的药物互作规则预测方法
CN110993113B (zh) 基于MF-SDAE的lncRNA-疾病关系预测方法及系统
Arowolo et al. A hybrid heuristic dimensionality reduction methods for classifying malaria vector gene expression data
CN113362900A (zh) 一种预测n4-乙酰胞苷的混合模型
CN115881232A (zh) 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法
Chamlal et al. A graph based preordonnances theoretic supervised feature selection in high dimensional data
CN116417070A (zh) 一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法
CN117912570B (zh) 一种基于基因共表达网络的分类特征确定方法及系统
CN115206423A (zh) 基于标签指导的蛋白质作用关系预测方法
CN109801681B (zh) 一种基于改进的模糊聚类算法的snp选择方法
CN118280436A (zh) 一种基于奇异值分解和图对比学习的lncRNA-疾病关联预测方法
CN113539479B (zh) 一种基于相似性约束的miRNA-疾病关联预测方法及系统
CN117476252A (zh) 一种基于知识图谱的病因病理预测方法
Nayak et al. Deep learning approaches for high dimension cancer microarray data feature prediction: A review
CN117079804A (zh) 一种消化系统肿瘤临床结果预测模型的构建方法及系统
Chellamuthu et al. Data mining and machine learning approaches in breast cancer biomedical research
CN116153396A (zh) 一种基于迁移学习的非编码变异预测方法
US20240303544A1 (en) Graph database techniques for machine learning
CN115565610A (zh) 基于多组学数据的复发转移分析模型建立方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant