CN117591953A - 基于多组学数据的癌症分类方法、系统及电子设备 - Google Patents
基于多组学数据的癌症分类方法、系统及电子设备 Download PDFInfo
- Publication number
- CN117591953A CN117591953A CN202410078042.0A CN202410078042A CN117591953A CN 117591953 A CN117591953 A CN 117591953A CN 202410078042 A CN202410078042 A CN 202410078042A CN 117591953 A CN117591953 A CN 117591953A
- Authority
- CN
- China
- Prior art keywords
- data
- graph
- representing
- attention
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 110
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 68
- 201000011510 cancer Diseases 0.000 title claims abstract description 60
- 239000013598 vector Substances 0.000 claims abstract description 39
- 239000000126 substance Substances 0.000 claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims abstract description 21
- 230000004927 fusion Effects 0.000 claims abstract description 15
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims description 28
- 230000009467 reduction Effects 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 239000000090 biomarker Substances 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000007619 statistical method Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 201000010099 disease Diseases 0.000 claims description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000008827 biological function Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000003908 quality control method Methods 0.000 claims description 3
- 238000003068 pathway analysis Methods 0.000 claims description 2
- 238000007405 data analysis Methods 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 26
- 230000014509 gene expression Effects 0.000 description 7
- 230000006872 improvement Effects 0.000 description 7
- 108091070501 miRNA Proteins 0.000 description 6
- 239000002679 microRNA Substances 0.000 description 6
- 230000007067 DNA methylation Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 206010006187 Breast cancer Diseases 0.000 description 3
- 208000026310 Breast neoplasm Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000000692 Student's t-test Methods 0.000 description 1
- 238000000540 analysis of variance Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010201 enrichment analysis Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000002962 histologic effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000007310 pathophysiology Effects 0.000 description 1
- 239000013610 patient sample Substances 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及医疗数据分析技术领域,公开了基于多组学数据的癌症分类方法、系统及电子设备。该方法首先获取不同样本的多种组学数据;构建每种组学数据的样本加权相似度矩阵;根据各样本的特征向量和每种组学数据的样本加权相似度矩阵构建图数据;再将图数据输入至图注意力网络中,融合邻居节点信息,更新节点的向量表示;随后将图注意力网络最后一层的隐藏层输出送入深度神经网络,将特征维度投影到分类数目上,从而构建分类器以得到每种组学数据的基础预测结果;最后将多种组学数据的基础预测结果视为不同视图下的预测,利用注意力机制计算得到每个分类器预测结果的权重,加权融合得到最终预测结果。本发明提升了癌症类型识别的准确性。
Description
技术领域
本发明涉及医疗数据分析技术领域,具体是基于多组学数据的癌症分类方法,以及应用这种方法的癌症分类系统以及电子设备。
背景技术
随着组学技术的快速发展,可以获取临床患者更为详细的生物医学数据。虽然每种组学技术只能捕捉到生物复杂性的一部分,但整合多种类型的组学数据可以更全面的揭示潜在生物过程,综合利用多组学数据建模能够更全面的探索人类疾病规律,提高患者临床结果预测的准确性。
如何有效地利用多组学数据中的相互作用和互补信息是一个挑战。对于多组学数据建模,若直接将特征向量拼接,不仅会忽略不同类别组学数据之间的内在关联,还会导致特征维度升高,导致维度灾难。现有方法对多组学数据进行融合,一般是在输入空间或低维特征空间进行融合。利用无监督方式获取多组学数据融合后的低维表示,用于下游任务的聚类或分类任务。这种方式没有充分利用标签的信息。同时,若只用样本每种组学数据的表达谱数据进行建模,会忽略了样本内部关联,从而限制了癌症类型识别的准确性。
发明内容
为了避免和克服现有技术中存在的技术问题,本发明提供了基于多组学数据的癌症分类方法、系统及电子设备。不仅利用了样本的特征还利用了样本之间的内在联系,通过图神经网络对样本内在信息进行融合,提升了癌症类型识别的准确性。通过利用注意力机制,自适应的计算每个分类器在最终结果预测中的权重,进一步提升了癌症分类效果。
为实现上述目的,本发明提供如下技术方案:
本发明公开基于多组学数据的癌症分类方法,包括以下步骤S1~S6。
S1.获取不同患者癌细胞即样本的多种组学数据。
S2.构建每种组学数据的样本加权相似度矩阵S’,包括以下过程:
将每个样本作为节点,将各样本的同一种组学数据作为各样本的特征向量,根据特征向量计算样本间的相似度,从而得到S’。
S3.根据各样本的每种组学数据与对应的样本加权相似度矩阵,构建用于训练的图数据;/>表示节点集合即样本集合;/>表示由样本加权相似度矩阵S’得到的邻接矩阵;/>表示特征向量。
S4.将每种组学的图数据输入至对应的图注意力网络中,融合邻居节点信息,更新节点的向量表示。
S5.将图注意力网络最后一层的隐藏层输出送入深度神经网络,将特征维度投影到分类数目上,从而构建分类器以得到每种组学数据的基础预测结果。
S6.将多种组学数据的基础预测结果视为不同视图下的预测,利用注意力机制计算得到每个分类器预测结果的权重,加权融合得到最终预测结果。
作为上述方案的进一步改进,步骤S4具体包括以下过程:
S41.设目标节点v i ,其邻居节点v j 到v i 的注意力权重e ij 为:
式中,α用于计算目标节点与邻居节点的相似度;h i 表示目标节点v i 的特征向量;h j 表示目标节点v i 的邻居节点v j 的特征向量;W表示图注意力网络的参数。
S42.利用以下公式计算简化注意力权重:
式中,α (l)是第l层可训练的权重向量;l表示图神经网络的第l层;leakRelu表示激活函数;表示图神经网络的第l-1层邻居节点v j 的特征向量;/>表示第l层目标节点v i 到邻居节点v j 的注意力权重。
S43.对所述简化注意力权重进行归一化处理,得到注意力系数:
式中,表示目标节点v i 的邻居节点集合;v r 表示邻居节点集合/>中的任意一个邻居节点;/>表示第l层目标节点v i 到邻居节点v r 的注意力权重;/>表示图注意力网络第l层目标节点v i 到邻居节点v j 之间的注意力系数。
S44.根据注意力系数对所有邻居节点进行聚合,得到目标节点的特征向量:
式中,表示图注意力网络第l层目标节点v i 的特征向量;/>表示图注意力网络第l层目标节点v i 与邻居节点v r 之间的注意力系数;W (l)为第l层的可训练权重参数;/>表示图神经网络的第l-1层邻居节点v r 的特征向量RELU表示激活函数。
作为上述方案的进一步改进,步骤S6中,组学数据共q种,q种组学数据的基础预测结果为;利用注意力机制计算得到每个分类器预测结果的权重/>:
接着,得到最终预测结果z i :
式中,T=1,…,q。
作为上述方案的进一步改进,基础预测结果和最终预测结果的总损失L为:
式中,L BasicClassifier 表示第T种组学数据的基础预测结果的损失;L FinalClassifier 表示最终预测结果的损失;γ为用于调整基础预测结果损失的权重;基础预测结果与最终预测结果的损失均使用交叉熵损失,即:
式中,N’表示样本数量;K’表示癌症分类标签数目;y ic 表示第i个节点的真实标签,是示性变量,即若第i个节点的类别是c,则y ic =1,否则为0;表示第T个分类器的第i个节点类别是c的预测概率。
作为上述方案的进一步改进,步骤S1中,对原始获取的组学数据进行预处理,具体过程包括:
将获取的多组学数据进行质量控制,去除噪声与实验批次效应;
利用统计方法观察数据分布,去除异常值并处理缺失值;
按照组学数据类型进行特征转化和标准化,最终整理、规范成多个组学矩阵。
作为上述方案的进一步改进,对原始获取的组学数据进行预处理的具体过程还包括:
先利用统计方法过滤组学数据的冗余特征;然后进行差异分析以验证剩余特征在不同样本间的差异性,根据假设检验p值与差异倍数选取特征;接着通过通路分析和富集分析以了解组学数据的生物学功能。
作为上述方案的进一步改进,在对获取的组学数据进行预处理之后,还进行以下特征筛选工作:
对预处理后的组学数据,先参考相关文献、生物信息库以进行目标疾病检索,整理并记录已经过实验验证的生物标志物,该类已验证的生物标记物在组学数据的特征中保留;
利用机器学习算法对每种组学数据进行特征选择和降维,以减少维度并提取最相关的特征。
作为上述方案的进一步改进,步骤S2中,先根据特征向量计算样本间的相似度,得到初步的样本加权相似度矩阵S,随后利用KNN算法为每个节点保留K个边,其余边权重设置为0,从而得到所述样本加权相似度矩阵S’。
本发明还公开基于多组学数据的癌症分类系统,应用上述基于多组学数据的癌症分类方法;所述癌症分类系统包括:数据获取模块、数据特征筛选模块、图数据构建模块、基础结果预测模块以及基础结果融合模块。
数据获取模块用于获取不同患者癌细胞即样本的多种组学数据,并对组学数据进行预处理。
数据特征筛选模块用于对每种组学数据进行特征选择和降维,以减少组学数据的维度并提取最相关的特征。
图数据构建模块用于通过计算样本间的相似度以构建样本加权相似度网络,从而构建用于训练的图数据。
基础结果预测模块,其用于利用图神经网络对图数据特征进行抽取、融合,得到每种组学数据的基础预测结果。
基础结果融合模块用于利用注意力机制,对多种组学数据的基础预测结果进行融合,计算得到最终预测结果。
本发明还公开一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述基于多组学数据的癌症分类方法的步骤。
与现有技术相比,本发明的有益效果是:
1、本发明公开的基于多组学数据的癌症分类方法,不仅利用了样本的特征还利用了样本之间的内在联系,通过图神经网络对样本内在信息进行融合,提升了癌症类型识别的准确性。通过综合样本自身的特征信息与样本间的关联,为不同组学数据构建了分类器,并在标签空间进行多组学数据的融合,从而提供了更全面和准确的癌症分类。另外,相较于在标签空间直接拼接或对基础预测结果取平均的方法,本发明利用注意力机制,自适应的计算每个分类器在最终结果预测中的权重,进一步提升了癌症分类效果。
2、本发明公开的基于多组学数据的癌症分类方法,利用了来自不同组学数据源,从而提供了更全面和深入的癌症特征描述。这种综合利用有助于更好地理解癌症的生物学特征,为个体化医学提供了有力支持。通过本发明的癌症分类方法,能够根据每位患者多组学数据进行癌症临床分类。对于精确医学和治疗决策具有巨大潜力。
3、本发明公开的基于多组学数据的癌症分类系统以及电子设备,可应用上述基于多组学数据的癌症分类方法,能够产生与该方法相同的有益效果,在此不再赘述。
附图说明
图1为本发明实施例1中基于多组学数据的癌症分类方法的流程图。
图2为本发明实施例1中基于多组学数据的癌症分类方法涉及的算法前向传播过程示意图。
图3为本发明实施例2中基于多组学数据的癌症分类系统的框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1和图2,本实施例提供一种基于多组学数据的癌症分类方法,通过构建加权样本相似度矩阵,利用图深度神经网络抽取特征并进行分类任务,既利用了样本的特征数据,也利用了表示样本关联的网络拓扑信息。并采用集成的思想,在标签空间进行多组学信息的融合,学习标签空间中更高层次的组学内和组学间相关性。
具体地,癌症分类方法包括以下步骤S1~S6。
S1.获取不同患者癌细胞即样本的多种组学数据。
本实施例中,可通过组学数据获取患者多组学数据,如DNA甲基化数据、mRNA表达量、miRNA表达量、CNV(Copy Number Variant,拷贝数变异)等。在实际应用中,可以从TCGA(癌症基因组图谱)等专业生信数据库直接下载数据,也可以自行收集患者样本数据,利用组学技术检测得到。
获取患者多组学数据之后,还对获取的组学数据进行预处理,具体过程为:将获取的多组学数据进行质量控制,去除噪声与实验批次效应;利用统计方法观察数据分布,去除异常值并处理缺失值;按照组学数据类型进行特征转化和标准化,最终整理、规范成多个组学矩阵。
另外,组学数据特征维度很高,存在噪声与冗余特征,因此需要利用统计方法,过滤冗余特征;具体地,可将零均值或低方差的低信息量特征剔除,针对不同类型的组学数据,设定不同的方差阈值进行过滤。进一步的,为了验证剩余特征在不同样本间的差异性,进行差异分析,根据假设检验p值与差异倍数选取特征。最后通过通路分析与富集分析,了解数据的生物学功能,避免数据错误引起的假阳问题。特别的,由于miRNA的特征量较少,可用的信息有限,因此对于miRNA特征只过滤零方差的特征。
需要说明的是,上述p值是差异分析中常用的统计指标,它可以评估观察到的差异是否具有统计学意义。p值是指在零假设成立的情况下,观察到的数据或更极端情况出现的概率。它反映了差异的显著性程度,越小表示差异越显著。p值的计算通常基于统计检验方法,如t检验、方差分析或非参数检验等。这些方法根据样本数据的分布和假设条件,计算出相应的p值。
本实施例中,对预处理后的组学数据,还可进行特征筛查工作:首先参考相关文献、生物信息库进行目标疾病检索,整理、记录已经过实验验证的生物标志物,这类已验证的生物标记物在特征中直接保留。进一步的,利用机器学习算法对每种组学数据进行特征选择和降维,以减少维度并提取最相关的特征,其中,可以使用PCA、t-SNE、随机森林等特征选择方法。
S2.构建每种组学数据的样本加权相似度矩阵S’,包括以下过程:
将每个样本作为节点,将各样本的同一种组学数据作为各样本的特征向量,R为实数集,N是样本个数,D是特征维度。
根据特征向量计算样本间的相似度,得到初步的样本加权相似度矩阵S。随后利用KNN算法为每个节点保留K个边,其余边权重设置为0,从而得到最终的样本加权相似度矩阵S’。
S3.根据各样本的每种组学数据与对应的样本加权相似度矩阵,构建用于训练的图数据;/>表示节点集合即样本集合,每个节点表示一个样本;/>表示邻接矩阵,由样本加权相似度矩阵S’得到。
S4.将每种组学的图数据输入至对应的图注意力网络中,融合邻居节点信息,更新节点的向量表示。具体的计算过程如下,即S41~S44。
S41.设目标节点v i ,其邻居节点v j 到v i 的注意力权重e ij 为:
式中,α用于计算目标节点与邻居节点的相似度;h i 表示目标节点v i 的特征向量;h j 表示目标节点v i 的邻居节点v j 的特征向量;W表示图注意力网络的参数。
S42.利用以下公式计算简化注意力权重:
式中,α (l)是第l层可训练的权重向量;l表示图神经网络的第l层;leakRelu表示激活函数,属于RELU激活函数的一种,用于实现神经网络的非线性变换;表示图神经网络的第l-1层邻居节点v j 的特征向量;/>表示第l层目标节点v i 到邻居节点v j 的注意力权重。
S43.对所述简化注意力权重进行归一化处理,得到注意力系数:
式中,表示目标节点v i 的邻居节点集合;v r 表示邻居节点集合/>中的任意一个邻居节点;/>表示第l层目标节点v i 到邻居节点v r 的注意力权重;/>表示图注意力网络第l层目标节点v i 到邻居节点v j 之间的注意力系数。
需要说明的是,这里的下标r和与j都是指目标节点v i 的邻居节点,区分点在于,某个邻居节点(v j )的注意力权重是需要除以所有邻居节点(v r 泛指邻居节点集合中的任一节点,这个下标表示的是求和的范围,即对目标节点所有邻居节点的注意力权重求和)。
S44.根据注意力系数对所有邻居节点进行聚合,得到目标节点的特征向量:
式中,表示图注意力网络第l层目标节点v i 的特征向量;/>表示图注意力网络第l层目标节点v i 与邻居节点v r 之间的注意力系数;W (l)为第l层的可训练权重参数;/>表示图神经网络的第l-1层邻居节点v r 的特征向量RELU表示激活函数。
S5.将图注意力网络最后一层的隐藏层输出送入深度神经网络,将特征维度投影到分类数目上,从而构建分类器以得到每种组学数据的基础预测结果。
传统的图学习方法中运用的图卷积神经网络(Graph Convolution Network,GCN)算法,不能够处理动态图问题,无法很好的处理训练阶段与测试阶段图数据不同的问题,同时在聚合过程中不易实现将不同的权重分配给不同的邻居节点。本发明采取图注意力网络(Graph Attention Network,GAT)抽取图特征,结合深度神经网络(多层全连接网络或者可以进行任务分类的网络)得到每种组学数据各自的基础预测结果。GAT在聚合过程中可以自适应的学习到给定目标节点邻居节点的权重。各种组学数据构建加权相似度网络、训练得到基础预测结果的步骤一致。
S6.将多种组学数据的基础预测结果视为不同视图下的预测,利用注意力机制计算得到每个分类器预测结果的权重,加权融合得到最终预测结果。
其中,组学数据共q种,q种组学数据的基础预测结果为;利用注意力机制计算得到每个分类器预测结果的权重/>:
接着,得到最终预测结果z i :
。
式中,T=1,…,q,是组学数据也即分类器的序号。
本实施例中,以miRNA、DNA甲基化、CNV这三种组学数据为例,p M ,p D ,…p CNV (分别是由miRNA、DNA甲基化、CNV拷贝数据组学数据训练得到的预测结果),利用注意力机制计算得到每个分类器预测结果的权重为:
另外关于损失计算,基础预测结果和最终预测结果的总损失L为:
式中,L BasicClassifier 表示第T种组学数据的基础预测结果的损失;L FinalClassifier 表示最终预测结果的损失;γ为用于调整基础预测结果损失的权重;基础预测结果与最终预测结果的损失均使用交叉熵损失,即:
式中,N’表示样本数量;K’表示癌症分类标签数目;y ic 表示第i个节点的真实标签,是示性变量,即若第i个节点的类别是c,则y ic =1,否则为0;表示第T个分类器的第i个节点类别是c的预测概率。
本实施例还对本发明提出的多组学癌症分类方法进行对比验证。以TCGA生物数据库中乳腺癌(breast cancer susceptibility gene, BRCA)患者数据为例,共5种癌症子型,875例样本,三种组学特征,分别是miRNA表达量(503维),CNV拷贝数(24777维)、DNA甲基化数据(20105维)。
对比模型包括:
①不参考相关生物信息,不做特征筛选,利用t分布随机邻近插入(t-SNE)算法对数据进行降维,接着利用支持向量机进行分类。
②利用t-SNE算法降维,将降维后的特征向量作为本发明涉及图数据中节点的特征向量。
③结合生物信息,保留部分已得到验证的生物标志物,并利用机器学习算法进行特征筛选。利用本发明所提出的方法建模(KNN设置K=30)。
注:t-SNE算法是一种非线性的降维技术,降维后获取低维度的特征表示,其各分量不具备生物学可解释性。
评估指标使用准确率(Accuracy)与加权F1(weight-F1),分类基础效果如表1所示:
表1:乳腺癌分类实验结果表
由表1可以看出,传统无监督降维既会模糊原始的输入特征,也会在降维中丢失部分特征的信息。将t-SNE降维后的特征输入本方法,通过捕捉样本内部的关联,模型效果相较于支持向量机模型有一定的提升。本发明采取方法获得了最优效果,除此之外,本方法在特征筛选阶段参考了生物医学相关文献,筛选了特征子集,具备可解释性,为进一步的生物标志物发现奠定了基础。
综上所述,本实施例提供的基于多组学数据的癌症分类方法,具有如下优点:
1.多组学数据综合利用
本方法综合利用了来自不同组学数据源(如基因表达、DNA甲基化、蛋白质表达等)的信息,从而提供了更全面和深入的癌症特征描述。这种多模态性质使得方法在理解癌症生物学和病理生理学方面具有独特的优势。该方法综合了样本自身的特征信息与样本间的关联,为不同组学数据构建了分类器,并在标签空间进行多组学数据的融合,从而提供了更全面和准确的癌症分类。
此外,这种综合利用有助于更好地理解癌症的生物学特征,为个体化医学提供了有力支持。
2.高准确性
本发明相较于传统癌症分类方法,不仅利用了样本的特征还利用了样本之间的内在联系,通过图神经网络对样本内在信息进行融合,提升了癌症类型识别的准确性。
一方面,相较于在特征层面融合,考虑到不同组学数据数据类型不同,如表达量数据为大于等于0的浮点数,CNV数据为频次计数。在特征层面融合需要额外的预处理与统一表示学习,在此过程中会丢失原始组学数据的部分信息。本发明通过在标签空间,对多组学信息进行融合,相较于无监督多组学表示学习,既利用了标签信息,也在更高层次完成了信息的融合与最终结果的预测。
另一方面,相较于在标签空间直接拼接或对基础预测结果取平均的方法,本发明利用注意力机制,自适应的计算每个分类器在最终结果预测中的权重,进一步提升了癌症分类效果。
实施例2
请参阅图2,本发明还公开基于多组学数据的癌症分类系统100,应用上述基于多组学数据的癌症分类方法;所述癌症分类系统100包括:数据获取模块101、数据特征筛选模块102、图数据构建模块103、基础结果预测模块104以及基础结果融合模块105。
数据获取模块101用于获取不同患者癌细胞即样本的多种组学数据,并对组学数据进行预处理。
数据特征筛选模块102用于对每种组学数据进行特征选择和降维,以减少组学数据的维度并提取最相关的特征。
图数据构建模块103用于通过计算样本间的相似度以构建样本加权相似度网络,从而构建用于训练的图数据。
基础结果预测模块104,其用于利用图神经网络对图数据特征进行抽取、融合,得到每种组学数据的基础预测结果。
基础结果融合模块105用于利用注意力机制,对多种组学数据的基础预测结果进行融合,计算得到最终预测结果。
实施例3
本实施例提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序。处理器执行所述计算机程序时实现实施例1的基于多组学数据的癌症分类方法的步骤。
实施例1的癌症分类方法在应用时,可以软件的形式进行应用,如设计成独立运行的程序,安装在电子设备上,电子设备可以是电脑、智能手机、控制系统以及其他物联网设备等。当然,实施例1的癌症分类方法也可以设计成嵌入式运行的程序,安装在电子设备上,如安装在单片机上。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.基于多组学数据的癌症分类方法,其特征在于,包括以下步骤:
S1.获取不同患者癌细胞即样本的多种组学数据;
S2.构建每种组学数据的样本加权相似度矩阵S’,包括以下过程:
将每个样本作为节点,将各样本的同一种组学数据作为各样本的特征向量,根据特征向量计算样本间的相似度,从而得到S’;
S3.根据各样本的每种组学数据与对应的样本加权相似度矩阵,构建用于训练的图数据 ;/>表示节点集合即样本集合;/>表示由样本加权相似度矩阵S’得到的邻接矩阵;/>表示特征向量;
S4.将每种组学的图数据输入至对应的图注意力网络中,融合邻居节点信息,更新节点的向量表示;
S5.将图注意力网络最后一层的隐藏层输出送入深度神经网络,将特征维度投影到分类数目上,从而构建分类器以得到每种组学数据的基础预测结果;
S6.将多种组学数据的基础预测结果视为不同视图下的预测,利用注意力机制计算得到每个分类器预测结果的权重,加权融合得到最终预测结果。
2.根据权利要求1所述的基于多组学数据的癌症分类方法,其特征在于,步骤S4具体包括以下过程:
S41.设目标节点v i ,其邻居节点v j 到v i 的注意力权重e ij 为:
式中,α用于计算目标节点与邻居节点的相似度;h i 表示目标节点v i 的特征向量;h j 表示目标节点v i 的邻居节点v j 的特征向量;W表示图注意力网络的参数;
S42.利用以下公式计算简化注意力权重:
式中,α (l)是第l层可训练的权重向量;l表示图神经网络的第l层;leakRelu表示激活函数;/>表示图神经网络的第l-1层邻居节点v j 的特征向量;/>表示第l层目标节点v i 到邻居节点v j 的注意力权重;
S43.对所述简化注意力权重进行归一化处理,得到注意力系数:
式中,/>表示目标节点v i 的邻居节点集合;v r 表示邻居节点集合/>中的任意一个邻居节点;/>表示第l层目标节点v i 到邻居节点v r 的注意力权重;/>表示图注意力网络第l层目标节点v i 到邻居节点v j 之间的注意力系数;
S44.根据注意力系数对所有邻居节点进行聚合,得到目标节点的特征向量:
式中,/>表示图注意力网络第l层目标节点v i 的特征向量;/>表示图注意力网络第l层目标节点v i 与邻居节点v r 之间的注意力系数;W (l)为第l层的可训练权重参数;/>表示图神经网络的第l-1层邻居节点v r 的特征向量RELU表示激活函数。
3.根据权利要求2所述的基于多组学数据的癌症分类方法,其特征在于,步骤S6中,组学数据共q种,q种组学数据的基础预测结果为;利用注意力机制计算得到每个分类器预测结果的权重/>:
接着,得到最终预测结果z i :
式中,T=1,…,q。
4.根据权利要求3所述的基于多组学数据的癌症分类方法,其特征在于,基础预测结果和最终预测结果的总损失L为:
式中,L BasicClassifier 表示第T种组学数据的基础预测结果的损失;L FinalClassifier 表示最终预测结果的损失;γ为用于调整基础预测结果损失的权重;基础预测结果与最终预测结果的损失均使用交叉熵损失,即:
式中,N’表示样本数量;K’表示癌症分类标签数目;y ic 表示第i个节点的真实标签,是示性变量,即若第i个节点的类别是c,则y ic =1,否则为0;/>表示第T个分类器的第i个节点类别是c的预测概率。
5.根据权利要求1所述的基于多组学数据的癌症分类方法,其特征在于,步骤S1中,对原始获取的组学数据进行预处理,具体过程包括:
将获取的多组学数据进行质量控制,去除噪声与实验批次效应;
利用统计方法观察数据分布,去除异常值并处理缺失值;
按照组学数据类型进行特征转化和标准化,最终整理、规范成多个组学矩阵。
6.根据权利要求5所述的基于多组学数据的癌症分类方法,其特征在于,对原始获取的组学数据进行预处理的具体过程还包括:
先利用统计方法过滤组学数据的冗余特征;然后进行差异分析以验证剩余特征在不同样本间的差异性,根据假设检验p值与差异倍数选取特征;接着通过通路分析和富集分析以了解组学数据的生物学功能。
7.根据权利要求6所述的基于多组学数据的癌症分类方法,其特征在于,在对获取的组学数据进行预处理之后,还进行以下特征筛选工作:
对预处理后的组学数据,先参考相关文献、生物信息库以进行目标疾病检索,整理并记录已经过实验验证的生物标志物,该类已验证的生物标记物在组学数据的特征中保留;
利用机器学习算法对每种组学数据进行特征选择和降维,以减少维度并提取最相关的特征。
8.根据权利要求1所述的基于多组学数据的癌症分类方法,其特征在于,步骤S2中,先根据特征向量计算样本间的相似度,得到初步的样本加权相似度矩阵S,随后利用KNN算法为每个节点保留K个边,其余边权重设置为0,从而得到所述样本加权相似度矩阵S’ 。
9.基于多组学数据的癌症分类系统,其特征在于,应用如权利要求1至8中任一项所述的基于多组学数据的癌症分类方法;所述癌症分类系统包括:
数据获取模块,其用于获取不同患者癌细胞即样本的多种组学数据,并对组学数据进行预处理;
数据特征筛选模块,其用于对每种组学数据进行特征选择和降维,以减少组学数据的维度并提取最相关的特征;
图数据构建模块,其用于通过计算样本间的相似度以构建样本加权相似度网络,从而构建用于训练的图数据;
基础结果预测模块,其用于利用图神经网络对图数据特征进行抽取、融合,得到每种组学数据的基础预测结果;以及
基础结果融合模块,其用于利用注意力机制,对多种组学数据的基础预测结果进行融合,计算得到最终预测结果。
10.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至8中任意一项所述的基于多组学数据的癌症分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410078042.0A CN117591953A (zh) | 2024-01-19 | 2024-01-19 | 基于多组学数据的癌症分类方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410078042.0A CN117591953A (zh) | 2024-01-19 | 2024-01-19 | 基于多组学数据的癌症分类方法、系统及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117591953A true CN117591953A (zh) | 2024-02-23 |
Family
ID=89920516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410078042.0A Pending CN117591953A (zh) | 2024-01-19 | 2024-01-19 | 基于多组学数据的癌症分类方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117591953A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118072828A (zh) * | 2024-04-22 | 2024-05-24 | 北京百奥利盟软件技术有限公司 | 一种多组学实验过程数据的管理方法、系统和存储介质 |
CN118116600A (zh) * | 2024-04-30 | 2024-05-31 | 数据空间研究院 | 一种基于多组学和临床检验数据的结直肠癌预后方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541524A (zh) * | 2020-11-18 | 2021-03-23 | 湖南大学 | 基于注意力机制改进的BP-Adaboost多源信息电机故障诊断方法 |
CN113869565A (zh) * | 2021-09-15 | 2021-12-31 | 深圳供电局有限公司 | 一种电力负荷预测方法、装置、终端设备及存储介质 |
CN114334014A (zh) * | 2021-12-31 | 2022-04-12 | 徐州医科大学 | 一种基于自注意力深度学习的癌症亚型识别方法和系统 |
CN116385956A (zh) * | 2023-02-13 | 2023-07-04 | 深圳有电物联科技有限公司 | 不间断电源的电池健康状态监测的方法和系统 |
CN116741397A (zh) * | 2023-08-15 | 2023-09-12 | 数据空间研究院 | 基于多组学数据融合的癌症分型方法、系统及存储介质 |
-
2024
- 2024-01-19 CN CN202410078042.0A patent/CN117591953A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541524A (zh) * | 2020-11-18 | 2021-03-23 | 湖南大学 | 基于注意力机制改进的BP-Adaboost多源信息电机故障诊断方法 |
CN113869565A (zh) * | 2021-09-15 | 2021-12-31 | 深圳供电局有限公司 | 一种电力负荷预测方法、装置、终端设备及存储介质 |
CN114334014A (zh) * | 2021-12-31 | 2022-04-12 | 徐州医科大学 | 一种基于自注意力深度学习的癌症亚型识别方法和系统 |
CN116385956A (zh) * | 2023-02-13 | 2023-07-04 | 深圳有电物联科技有限公司 | 不间断电源的电池健康状态监测的方法和系统 |
CN116741397A (zh) * | 2023-08-15 | 2023-09-12 | 数据空间研究院 | 基于多组学数据融合的癌症分型方法、系统及存储介质 |
Non-Patent Citations (3)
Title |
---|
CUNMEI JI 等: "Predicting miRNA-Disease Associations Based on Heterogeneous Graph Attention Networks", ORIGINAL RESEARCH, 15 August 2021 (2021-08-15), pages 1 - 12 * |
SUDIPTO BAUL 等: "omicsGAT: Graph Attention Network for Cancer Subtype Analyses", 《INTERNATIONAL JOURNAL OF MOLECULAR SCIENCES》, 30 September 2022 (2022-09-30), pages 1 - 16 * |
TONGXIN WANG 等: "MOGONET integrates multi-omics data using graph convolutional networks allowing patient classification and biomarker identification", 《NATURE COMMUNICATIONS》, 31 December 2021 (2021-12-31), pages 1 - 14 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118072828A (zh) * | 2024-04-22 | 2024-05-24 | 北京百奥利盟软件技术有限公司 | 一种多组学实验过程数据的管理方法、系统和存储介质 |
CN118116600A (zh) * | 2024-04-30 | 2024-05-31 | 数据空间研究院 | 一种基于多组学和临床检验数据的结直肠癌预后方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111009321A (zh) | 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法 | |
Corchado et al. | Model of experts for decision support in the diagnosis of leukemia patients | |
CN117591953A (zh) | 基于多组学数据的癌症分类方法、系统及电子设备 | |
US20230112591A1 (en) | Machine learning based medical data checker | |
Ferrante et al. | Artificial intelligence in the diagnosis of pediatric allergic diseases | |
CN112348090A (zh) | 一种基于近邻自编码器的近邻异常检测系统 | |
CN115064266B (zh) | 基于不完整多组学数据的癌症诊断系统、设备及介质 | |
Razavi et al. | Predicting metastasis in breast cancer: comparing a decision tree with domain experts | |
Dhar | An adaptive intelligent diagnostic system to predict early stage of parkinson's disease using two-stage dimension reduction with genetically optimized lightgbm algorithm | |
CN116469561A (zh) | 一种基于深度学习的乳腺癌生存预测方法 | |
Gangurde et al. | [Retracted] Developing an Efficient Cancer Detection and Prediction Tool Using Convolution Neural Network Integrated with Neural Pattern Recognition | |
CN117195027A (zh) | 基于成员选择的簇加权聚类集成方法 | |
Duman et al. | Ensemble the recent architectures of deep convolutional networks for skin diseases diagnosis | |
CN116797817A (zh) | 基于自监督图卷积模型的自闭症疾病预测技术 | |
CN116543215A (zh) | 一种基于深度哈希互学习的脑网络分类方法 | |
CN113838519B (zh) | 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统 | |
Sandhya et al. | An optimized elman neural network for contactless palm-vein recognition framework | |
WO2022139735A1 (en) | Disease classification based on rna-sequencing data and an algorithm for the detection of disease-related genes | |
CN108376567B (zh) | 一种基于标签传播算法的临床药品-药品不良反应检测方法 | |
CN113971984A (zh) | 分类模型构建方法及装置、电子设备、存储介质 | |
Racedo et al. | A new pipeline for structural characterization and classification of RNA-Seq microbiome data | |
Cudney et al. | A comparison of finite state classifier and Mahalanobis-Taguchi system for multivariate pattern recognition in skin cancer detection | |
CN115565610B (zh) | 基于多组学数据的复发转移分析模型建立方法及系统 | |
US20240169188A1 (en) | Systems and Methods for Training Conditional Generative Models | |
CN115546217B (zh) | 基于多模态图像数据的多层次融合皮肤病诊断系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |