CN117591953A - 基于多组学数据的癌症分类方法、系统及电子设备 - Google Patents

基于多组学数据的癌症分类方法、系统及电子设备 Download PDF

Info

Publication number
CN117591953A
CN117591953A CN202410078042.0A CN202410078042A CN117591953A CN 117591953 A CN117591953 A CN 117591953A CN 202410078042 A CN202410078042 A CN 202410078042A CN 117591953 A CN117591953 A CN 117591953A
Authority
CN
China
Prior art keywords
data
graph
representing
attention
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410078042.0A
Other languages
English (en)
Inventor
马韵洁
常静怡
王佐成
宋国磊
吴艳平
王飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Data Space Research Institute
Original Assignee
Data Space Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Data Space Research Institute filed Critical Data Space Research Institute
Priority to CN202410078042.0A priority Critical patent/CN117591953A/zh
Publication of CN117591953A publication Critical patent/CN117591953A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及医疗数据分析技术领域,公开了基于多组学数据的癌症分类方法、系统及电子设备。该方法首先获取不同样本的多种组学数据;构建每种组学数据的样本加权相似度矩阵;根据各样本的特征向量和每种组学数据的样本加权相似度矩阵构建图数据;再将图数据输入至图注意力网络中,融合邻居节点信息,更新节点的向量表示;随后将图注意力网络最后一层的隐藏层输出送入深度神经网络,将特征维度投影到分类数目上,从而构建分类器以得到每种组学数据的基础预测结果;最后将多种组学数据的基础预测结果视为不同视图下的预测,利用注意力机制计算得到每个分类器预测结果的权重,加权融合得到最终预测结果。本发明提升了癌症类型识别的准确性。

Description

基于多组学数据的癌症分类方法、系统及电子设备
技术领域
本发明涉及医疗数据分析技术领域,具体是基于多组学数据的癌症分类方法,以及应用这种方法的癌症分类系统以及电子设备。
背景技术
随着组学技术的快速发展,可以获取临床患者更为详细的生物医学数据。虽然每种组学技术只能捕捉到生物复杂性的一部分,但整合多种类型的组学数据可以更全面的揭示潜在生物过程,综合利用多组学数据建模能够更全面的探索人类疾病规律,提高患者临床结果预测的准确性。
如何有效地利用多组学数据中的相互作用和互补信息是一个挑战。对于多组学数据建模,若直接将特征向量拼接,不仅会忽略不同类别组学数据之间的内在关联,还会导致特征维度升高,导致维度灾难。现有方法对多组学数据进行融合,一般是在输入空间或低维特征空间进行融合。利用无监督方式获取多组学数据融合后的低维表示,用于下游任务的聚类或分类任务。这种方式没有充分利用标签的信息。同时,若只用样本每种组学数据的表达谱数据进行建模,会忽略了样本内部关联,从而限制了癌症类型识别的准确性。
发明内容
为了避免和克服现有技术中存在的技术问题,本发明提供了基于多组学数据的癌症分类方法、系统及电子设备。不仅利用了样本的特征还利用了样本之间的内在联系,通过图神经网络对样本内在信息进行融合,提升了癌症类型识别的准确性。通过利用注意力机制,自适应的计算每个分类器在最终结果预测中的权重,进一步提升了癌症分类效果。
为实现上述目的,本发明提供如下技术方案:
本发明公开基于多组学数据的癌症分类方法,包括以下步骤S1~S6。
S1.获取不同患者癌细胞即样本的多种组学数据。
S2.构建每种组学数据的样本加权相似度矩阵S’,包括以下过程:
将每个样本作为节点,将各样本的同一种组学数据作为各样本的特征向量,根据特征向量计算样本间的相似度,从而得到S’
S3.根据各样本的每种组学数据与对应的样本加权相似度矩阵,构建用于训练的图数据;/>表示节点集合即样本集合;/>表示由样本加权相似度矩阵S’得到的邻接矩阵;/>表示特征向量。
S4.将每种组学的图数据输入至对应的图注意力网络中,融合邻居节点信息,更新节点的向量表示。
S5.将图注意力网络最后一层的隐藏层输出送入深度神经网络,将特征维度投影到分类数目上,从而构建分类器以得到每种组学数据的基础预测结果。
S6.将多种组学数据的基础预测结果视为不同视图下的预测,利用注意力机制计算得到每个分类器预测结果的权重,加权融合得到最终预测结果。
作为上述方案的进一步改进,步骤S4具体包括以下过程:
S41.设目标节点v i ,其邻居节点v j v i 的注意力权重e ij 为:
式中,α用于计算目标节点与邻居节点的相似度;h i 表示目标节点v i 的特征向量;h j 表示目标节点v i 的邻居节点v j 的特征向量;W表示图注意力网络的参数。
S42.利用以下公式计算简化注意力权重:
式中,α l是第l层可训练的权重向量;l表示图神经网络的第l层;leakRelu表示激活函数;表示图神经网络的第l-1层邻居节点v j 的特征向量;/>表示第l层目标节点v i 到邻居节点v j 的注意力权重。
S43.对所述简化注意力权重进行归一化处理,得到注意力系数:
式中,表示目标节点v i 的邻居节点集合;v r 表示邻居节点集合/>中的任意一个邻居节点;/>表示第l层目标节点v i 到邻居节点v r 的注意力权重;/>表示图注意力网络第l层目标节点v i 到邻居节点v j 之间的注意力系数。
S44.根据注意力系数对所有邻居节点进行聚合,得到目标节点的特征向量:
式中,表示图注意力网络第l层目标节点v i 的特征向量;/>表示图注意力网络第l层目标节点v i 与邻居节点v r 之间的注意力系数;W (l)为第l层的可训练权重参数;/>表示图神经网络的第l-1层邻居节点v r 的特征向量RELU表示激活函数。
作为上述方案的进一步改进,步骤S6中,组学数据共q种,q种组学数据的基础预测结果为;利用注意力机制计算得到每个分类器预测结果的权重/>
接着,得到最终预测结果z i
式中,T=1,…,q
作为上述方案的进一步改进,基础预测结果和最终预测结果的总损失L为:
式中,L BasicClassifier 表示第T种组学数据的基础预测结果的损失;L FinalClassifier 表示最终预测结果的损失;γ为用于调整基础预测结果损失的权重;基础预测结果与最终预测结果的损失均使用交叉熵损失,即:
式中,N’表示样本数量;K’表示癌症分类标签数目;y ic 表示第i个节点的真实标签,是示性变量,即若第i个节点的类别是c,则y ic =1,否则为0;表示第T个分类器的第i个节点类别是c的预测概率。
作为上述方案的进一步改进,步骤S1中,对原始获取的组学数据进行预处理,具体过程包括:
将获取的多组学数据进行质量控制,去除噪声与实验批次效应;
利用统计方法观察数据分布,去除异常值并处理缺失值;
按照组学数据类型进行特征转化和标准化,最终整理、规范成多个组学矩阵。
作为上述方案的进一步改进,对原始获取的组学数据进行预处理的具体过程还包括:
先利用统计方法过滤组学数据的冗余特征;然后进行差异分析以验证剩余特征在不同样本间的差异性,根据假设检验p值与差异倍数选取特征;接着通过通路分析和富集分析以了解组学数据的生物学功能。
作为上述方案的进一步改进,在对获取的组学数据进行预处理之后,还进行以下特征筛选工作:
对预处理后的组学数据,先参考相关文献、生物信息库以进行目标疾病检索,整理并记录已经过实验验证的生物标志物,该类已验证的生物标记物在组学数据的特征中保留;
利用机器学习算法对每种组学数据进行特征选择和降维,以减少维度并提取最相关的特征。
作为上述方案的进一步改进,步骤S2中,先根据特征向量计算样本间的相似度,得到初步的样本加权相似度矩阵S,随后利用KNN算法为每个节点保留K个边,其余边权重设置为0,从而得到所述样本加权相似度矩阵S’
本发明还公开基于多组学数据的癌症分类系统,应用上述基于多组学数据的癌症分类方法;所述癌症分类系统包括:数据获取模块、数据特征筛选模块、图数据构建模块、基础结果预测模块以及基础结果融合模块。
数据获取模块用于获取不同患者癌细胞即样本的多种组学数据,并对组学数据进行预处理。
数据特征筛选模块用于对每种组学数据进行特征选择和降维,以减少组学数据的维度并提取最相关的特征。
图数据构建模块用于通过计算样本间的相似度以构建样本加权相似度网络,从而构建用于训练的图数据。
基础结果预测模块,其用于利用图神经网络对图数据特征进行抽取、融合,得到每种组学数据的基础预测结果。
基础结果融合模块用于利用注意力机制,对多种组学数据的基础预测结果进行融合,计算得到最终预测结果。
本发明还公开一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述基于多组学数据的癌症分类方法的步骤。
与现有技术相比,本发明的有益效果是:
1、本发明公开的基于多组学数据的癌症分类方法,不仅利用了样本的特征还利用了样本之间的内在联系,通过图神经网络对样本内在信息进行融合,提升了癌症类型识别的准确性。通过综合样本自身的特征信息与样本间的关联,为不同组学数据构建了分类器,并在标签空间进行多组学数据的融合,从而提供了更全面和准确的癌症分类。另外,相较于在标签空间直接拼接或对基础预测结果取平均的方法,本发明利用注意力机制,自适应的计算每个分类器在最终结果预测中的权重,进一步提升了癌症分类效果。
2、本发明公开的基于多组学数据的癌症分类方法,利用了来自不同组学数据源,从而提供了更全面和深入的癌症特征描述。这种综合利用有助于更好地理解癌症的生物学特征,为个体化医学提供了有力支持。通过本发明的癌症分类方法,能够根据每位患者多组学数据进行癌症临床分类。对于精确医学和治疗决策具有巨大潜力。
3、本发明公开的基于多组学数据的癌症分类系统以及电子设备,可应用上述基于多组学数据的癌症分类方法,能够产生与该方法相同的有益效果,在此不再赘述。
附图说明
图1为本发明实施例1中基于多组学数据的癌症分类方法的流程图。
图2为本发明实施例1中基于多组学数据的癌症分类方法涉及的算法前向传播过程示意图。
图3为本发明实施例2中基于多组学数据的癌症分类系统的框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1和图2,本实施例提供一种基于多组学数据的癌症分类方法,通过构建加权样本相似度矩阵,利用图深度神经网络抽取特征并进行分类任务,既利用了样本的特征数据,也利用了表示样本关联的网络拓扑信息。并采用集成的思想,在标签空间进行多组学信息的融合,学习标签空间中更高层次的组学内和组学间相关性。
具体地,癌症分类方法包括以下步骤S1~S6。
S1.获取不同患者癌细胞即样本的多种组学数据。
本实施例中,可通过组学数据获取患者多组学数据,如DNA甲基化数据、mRNA表达量、miRNA表达量、CNV(Copy Number Variant,拷贝数变异)等。在实际应用中,可以从TCGA(癌症基因组图谱)等专业生信数据库直接下载数据,也可以自行收集患者样本数据,利用组学技术检测得到。
获取患者多组学数据之后,还对获取的组学数据进行预处理,具体过程为:将获取的多组学数据进行质量控制,去除噪声与实验批次效应;利用统计方法观察数据分布,去除异常值并处理缺失值;按照组学数据类型进行特征转化和标准化,最终整理、规范成多个组学矩阵。
另外,组学数据特征维度很高,存在噪声与冗余特征,因此需要利用统计方法,过滤冗余特征;具体地,可将零均值或低方差的低信息量特征剔除,针对不同类型的组学数据,设定不同的方差阈值进行过滤。进一步的,为了验证剩余特征在不同样本间的差异性,进行差异分析,根据假设检验p值与差异倍数选取特征。最后通过通路分析与富集分析,了解数据的生物学功能,避免数据错误引起的假阳问题。特别的,由于miRNA的特征量较少,可用的信息有限,因此对于miRNA特征只过滤零方差的特征。
需要说明的是,上述p值是差异分析中常用的统计指标,它可以评估观察到的差异是否具有统计学意义。p值是指在零假设成立的情况下,观察到的数据或更极端情况出现的概率。它反映了差异的显著性程度,越小表示差异越显著。p值的计算通常基于统计检验方法,如t检验、方差分析或非参数检验等。这些方法根据样本数据的分布和假设条件,计算出相应的p值。
本实施例中,对预处理后的组学数据,还可进行特征筛查工作:首先参考相关文献、生物信息库进行目标疾病检索,整理、记录已经过实验验证的生物标志物,这类已验证的生物标记物在特征中直接保留。进一步的,利用机器学习算法对每种组学数据进行特征选择和降维,以减少维度并提取最相关的特征,其中,可以使用PCA、t-SNE、随机森林等特征选择方法。
S2.构建每种组学数据的样本加权相似度矩阵S’,包括以下过程:
将每个样本作为节点,将各样本的同一种组学数据作为各样本的特征向量R为实数集,N是样本个数,D是特征维度。
根据特征向量计算样本间的相似度,得到初步的样本加权相似度矩阵S。随后利用KNN算法为每个节点保留K个边,其余边权重设置为0,从而得到最终的样本加权相似度矩阵S’
S3.根据各样本的每种组学数据与对应的样本加权相似度矩阵,构建用于训练的图数据;/>表示节点集合即样本集合,每个节点表示一个样本;/>表示邻接矩阵,由样本加权相似度矩阵S’得到。
S4.将每种组学的图数据输入至对应的图注意力网络中,融合邻居节点信息,更新节点的向量表示。具体的计算过程如下,即S41~S44。
S41.设目标节点v i ,其邻居节点v j v i 的注意力权重e ij 为:
式中,α用于计算目标节点与邻居节点的相似度;h i 表示目标节点v i 的特征向量;h j 表示目标节点v i 的邻居节点v j 的特征向量;W表示图注意力网络的参数。
S42.利用以下公式计算简化注意力权重:
式中,α l是第l层可训练的权重向量;l表示图神经网络的第l层;leakRelu表示激活函数,属于RELU激活函数的一种,用于实现神经网络的非线性变换;表示图神经网络的第l-1层邻居节点v j 的特征向量;/>表示第l层目标节点v i 到邻居节点v j 的注意力权重。
S43.对所述简化注意力权重进行归一化处理,得到注意力系数:
式中,表示目标节点v i 的邻居节点集合;v r 表示邻居节点集合/>中的任意一个邻居节点;/>表示第l层目标节点v i 到邻居节点v r 的注意力权重;/>表示图注意力网络第l层目标节点v i 到邻居节点v j 之间的注意力系数。
需要说明的是,这里的下标r和与j都是指目标节点v i 的邻居节点,区分点在于,某个邻居节点(v j )的注意力权重是需要除以所有邻居节点(v r 泛指邻居节点集合中的任一节点,这个下标表示的是求和的范围,即对目标节点所有邻居节点的注意力权重求和)。
S44.根据注意力系数对所有邻居节点进行聚合,得到目标节点的特征向量
式中,表示图注意力网络第l层目标节点v i 的特征向量;/>表示图注意力网络第l层目标节点v i 与邻居节点v r 之间的注意力系数;W (l)为第l层的可训练权重参数;/>表示图神经网络的第l-1层邻居节点v r 的特征向量RELU表示激活函数。
S5.将图注意力网络最后一层的隐藏层输出送入深度神经网络,将特征维度投影到分类数目上,从而构建分类器以得到每种组学数据的基础预测结果。
传统的图学习方法中运用的图卷积神经网络(Graph Convolution Network,GCN)算法,不能够处理动态图问题,无法很好的处理训练阶段与测试阶段图数据不同的问题,同时在聚合过程中不易实现将不同的权重分配给不同的邻居节点。本发明采取图注意力网络(Graph Attention Network,GAT)抽取图特征,结合深度神经网络(多层全连接网络或者可以进行任务分类的网络)得到每种组学数据各自的基础预测结果。GAT在聚合过程中可以自适应的学习到给定目标节点邻居节点的权重。各种组学数据构建加权相似度网络、训练得到基础预测结果的步骤一致。
S6.将多种组学数据的基础预测结果视为不同视图下的预测,利用注意力机制计算得到每个分类器预测结果的权重,加权融合得到最终预测结果。
其中,组学数据共q种,q种组学数据的基础预测结果为;利用注意力机制计算得到每个分类器预测结果的权重/>
接着,得到最终预测结果z i
式中,T=1,…,q,是组学数据也即分类器的序号。
本实施例中,以miRNA、DNA甲基化、CNV这三种组学数据为例,p M ,p D ,…p CNV (分别是由miRNA、DNA甲基化、CNV拷贝数据组学数据训练得到的预测结果),利用注意力机制计算得到每个分类器预测结果的权重为:
另外关于损失计算,基础预测结果和最终预测结果的总损失L为:
式中,L BasicClassifier 表示第T种组学数据的基础预测结果的损失;L FinalClassifier 表示最终预测结果的损失;γ为用于调整基础预测结果损失的权重;基础预测结果与最终预测结果的损失均使用交叉熵损失,即:
式中,N’表示样本数量;K’表示癌症分类标签数目;y ic 表示第i个节点的真实标签,是示性变量,即若第i个节点的类别是c,则y ic =1,否则为0;表示第T个分类器的第i个节点类别是c的预测概率。
本实施例还对本发明提出的多组学癌症分类方法进行对比验证。以TCGA生物数据库中乳腺癌(breast cancer susceptibility gene, BRCA)患者数据为例,共5种癌症子型,875例样本,三种组学特征,分别是miRNA表达量(503维),CNV拷贝数(24777维)、DNA甲基化数据(20105维)。
对比模型包括:
①不参考相关生物信息,不做特征筛选,利用t分布随机邻近插入(t-SNE)算法对数据进行降维,接着利用支持向量机进行分类。
②利用t-SNE算法降维,将降维后的特征向量作为本发明涉及图数据中节点的特征向量。
③结合生物信息,保留部分已得到验证的生物标志物,并利用机器学习算法进行特征筛选。利用本发明所提出的方法建模(KNN设置K=30)。
注:t-SNE算法是一种非线性的降维技术,降维后获取低维度的特征表示,其各分量不具备生物学可解释性。
评估指标使用准确率(Accuracy)与加权F1(weight-F1),分类基础效果如表1所示:
表1:乳腺癌分类实验结果表
由表1可以看出,传统无监督降维既会模糊原始的输入特征,也会在降维中丢失部分特征的信息。将t-SNE降维后的特征输入本方法,通过捕捉样本内部的关联,模型效果相较于支持向量机模型有一定的提升。本发明采取方法获得了最优效果,除此之外,本方法在特征筛选阶段参考了生物医学相关文献,筛选了特征子集,具备可解释性,为进一步的生物标志物发现奠定了基础。
综上所述,本实施例提供的基于多组学数据的癌症分类方法,具有如下优点:
1.多组学数据综合利用
本方法综合利用了来自不同组学数据源(如基因表达、DNA甲基化、蛋白质表达等)的信息,从而提供了更全面和深入的癌症特征描述。这种多模态性质使得方法在理解癌症生物学和病理生理学方面具有独特的优势。该方法综合了样本自身的特征信息与样本间的关联,为不同组学数据构建了分类器,并在标签空间进行多组学数据的融合,从而提供了更全面和准确的癌症分类。
此外,这种综合利用有助于更好地理解癌症的生物学特征,为个体化医学提供了有力支持。
2.高准确性
本发明相较于传统癌症分类方法,不仅利用了样本的特征还利用了样本之间的内在联系,通过图神经网络对样本内在信息进行融合,提升了癌症类型识别的准确性。
一方面,相较于在特征层面融合,考虑到不同组学数据数据类型不同,如表达量数据为大于等于0的浮点数,CNV数据为频次计数。在特征层面融合需要额外的预处理与统一表示学习,在此过程中会丢失原始组学数据的部分信息。本发明通过在标签空间,对多组学信息进行融合,相较于无监督多组学表示学习,既利用了标签信息,也在更高层次完成了信息的融合与最终结果的预测。
另一方面,相较于在标签空间直接拼接或对基础预测结果取平均的方法,本发明利用注意力机制,自适应的计算每个分类器在最终结果预测中的权重,进一步提升了癌症分类效果。
实施例2
请参阅图2,本发明还公开基于多组学数据的癌症分类系统100,应用上述基于多组学数据的癌症分类方法;所述癌症分类系统100包括:数据获取模块101、数据特征筛选模块102、图数据构建模块103、基础结果预测模块104以及基础结果融合模块105。
数据获取模块101用于获取不同患者癌细胞即样本的多种组学数据,并对组学数据进行预处理。
数据特征筛选模块102用于对每种组学数据进行特征选择和降维,以减少组学数据的维度并提取最相关的特征。
图数据构建模块103用于通过计算样本间的相似度以构建样本加权相似度网络,从而构建用于训练的图数据。
基础结果预测模块104,其用于利用图神经网络对图数据特征进行抽取、融合,得到每种组学数据的基础预测结果。
基础结果融合模块105用于利用注意力机制,对多种组学数据的基础预测结果进行融合,计算得到最终预测结果。
实施例3
本实施例提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序。处理器执行所述计算机程序时实现实施例1的基于多组学数据的癌症分类方法的步骤。
实施例1的癌症分类方法在应用时,可以软件的形式进行应用,如设计成独立运行的程序,安装在电子设备上,电子设备可以是电脑、智能手机、控制系统以及其他物联网设备等。当然,实施例1的癌症分类方法也可以设计成嵌入式运行的程序,安装在电子设备上,如安装在单片机上。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.基于多组学数据的癌症分类方法,其特征在于,包括以下步骤:
S1.获取不同患者癌细胞即样本的多种组学数据;
S2.构建每种组学数据的样本加权相似度矩阵S’,包括以下过程:
将每个样本作为节点,将各样本的同一种组学数据作为各样本的特征向量,根据特征向量计算样本间的相似度,从而得到S’
S3.根据各样本的每种组学数据与对应的样本加权相似度矩阵,构建用于训练的图数据 ;/>表示节点集合即样本集合;/>表示由样本加权相似度矩阵S’得到的邻接矩阵;/>表示特征向量;
S4.将每种组学的图数据输入至对应的图注意力网络中,融合邻居节点信息,更新节点的向量表示;
S5.将图注意力网络最后一层的隐藏层输出送入深度神经网络,将特征维度投影到分类数目上,从而构建分类器以得到每种组学数据的基础预测结果;
S6.将多种组学数据的基础预测结果视为不同视图下的预测,利用注意力机制计算得到每个分类器预测结果的权重,加权融合得到最终预测结果。
2.根据权利要求1所述的基于多组学数据的癌症分类方法,其特征在于,步骤S4具体包括以下过程:
S41.设目标节点v i ,其邻居节点v j v i 的注意力权重e ij 为:
式中,α用于计算目标节点与邻居节点的相似度;h i 表示目标节点v i 的特征向量;h j 表示目标节点v i 的邻居节点v j 的特征向量;W表示图注意力网络的参数;
S42.利用以下公式计算简化注意力权重:
式中,α l是第l层可训练的权重向量;l表示图神经网络的第l层;leakRelu表示激活函数;/>表示图神经网络的第l-1层邻居节点v j 的特征向量;/>表示第l层目标节点v i 到邻居节点v j 的注意力权重;
S43.对所述简化注意力权重进行归一化处理,得到注意力系数:
式中,/>表示目标节点v i 的邻居节点集合;v r 表示邻居节点集合/>中的任意一个邻居节点;/>表示第l层目标节点v i 到邻居节点v r 的注意力权重;/>表示图注意力网络第l层目标节点v i 到邻居节点v j 之间的注意力系数;
S44.根据注意力系数对所有邻居节点进行聚合,得到目标节点的特征向量:
式中,/>表示图注意力网络第l层目标节点v i 的特征向量;/>表示图注意力网络第l层目标节点v i 与邻居节点v r 之间的注意力系数;W (l)为第l层的可训练权重参数;/>表示图神经网络的第l-1层邻居节点v r 的特征向量RELU表示激活函数。
3.根据权利要求2所述的基于多组学数据的癌症分类方法,其特征在于,步骤S6中,组学数据共q种,q种组学数据的基础预测结果为;利用注意力机制计算得到每个分类器预测结果的权重/>
接着,得到最终预测结果z i
式中,T=1,…,q
4.根据权利要求3所述的基于多组学数据的癌症分类方法,其特征在于,基础预测结果和最终预测结果的总损失L为:
式中,L BasicClassifier 表示第T种组学数据的基础预测结果的损失;L FinalClassifier 表示最终预测结果的损失;γ为用于调整基础预测结果损失的权重;基础预测结果与最终预测结果的损失均使用交叉熵损失,即:
式中,N’表示样本数量;K’表示癌症分类标签数目;y ic 表示第i个节点的真实标签,是示性变量,即若第i个节点的类别是c,则y ic =1,否则为0;/>表示第T个分类器的第i个节点类别是c的预测概率。
5.根据权利要求1所述的基于多组学数据的癌症分类方法,其特征在于,步骤S1中,对原始获取的组学数据进行预处理,具体过程包括:
将获取的多组学数据进行质量控制,去除噪声与实验批次效应;
利用统计方法观察数据分布,去除异常值并处理缺失值;
按照组学数据类型进行特征转化和标准化,最终整理、规范成多个组学矩阵。
6.根据权利要求5所述的基于多组学数据的癌症分类方法,其特征在于,对原始获取的组学数据进行预处理的具体过程还包括:
先利用统计方法过滤组学数据的冗余特征;然后进行差异分析以验证剩余特征在不同样本间的差异性,根据假设检验p值与差异倍数选取特征;接着通过通路分析和富集分析以了解组学数据的生物学功能。
7.根据权利要求6所述的基于多组学数据的癌症分类方法,其特征在于,在对获取的组学数据进行预处理之后,还进行以下特征筛选工作:
对预处理后的组学数据,先参考相关文献、生物信息库以进行目标疾病检索,整理并记录已经过实验验证的生物标志物,该类已验证的生物标记物在组学数据的特征中保留;
利用机器学习算法对每种组学数据进行特征选择和降维,以减少维度并提取最相关的特征。
8.根据权利要求1所述的基于多组学数据的癌症分类方法,其特征在于,步骤S2中,先根据特征向量计算样本间的相似度,得到初步的样本加权相似度矩阵S,随后利用KNN算法为每个节点保留K个边,其余边权重设置为0,从而得到所述样本加权相似度矩阵S’
9.基于多组学数据的癌症分类系统,其特征在于,应用如权利要求1至8中任一项所述的基于多组学数据的癌症分类方法;所述癌症分类系统包括:
数据获取模块,其用于获取不同患者癌细胞即样本的多种组学数据,并对组学数据进行预处理;
数据特征筛选模块,其用于对每种组学数据进行特征选择和降维,以减少组学数据的维度并提取最相关的特征;
图数据构建模块,其用于通过计算样本间的相似度以构建样本加权相似度网络,从而构建用于训练的图数据;
基础结果预测模块,其用于利用图神经网络对图数据特征进行抽取、融合,得到每种组学数据的基础预测结果;以及
基础结果融合模块,其用于利用注意力机制,对多种组学数据的基础预测结果进行融合,计算得到最终预测结果。
10.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至8中任意一项所述的基于多组学数据的癌症分类方法的步骤。
CN202410078042.0A 2024-01-19 2024-01-19 基于多组学数据的癌症分类方法、系统及电子设备 Pending CN117591953A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410078042.0A CN117591953A (zh) 2024-01-19 2024-01-19 基于多组学数据的癌症分类方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410078042.0A CN117591953A (zh) 2024-01-19 2024-01-19 基于多组学数据的癌症分类方法、系统及电子设备

Publications (1)

Publication Number Publication Date
CN117591953A true CN117591953A (zh) 2024-02-23

Family

ID=89920516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410078042.0A Pending CN117591953A (zh) 2024-01-19 2024-01-19 基于多组学数据的癌症分类方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN117591953A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118072828A (zh) * 2024-04-22 2024-05-24 北京百奥利盟软件技术有限公司 一种多组学实验过程数据的管理方法、系统和存储介质
CN118116600A (zh) * 2024-04-30 2024-05-31 数据空间研究院 一种基于多组学和临床检验数据的结直肠癌预后方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541524A (zh) * 2020-11-18 2021-03-23 湖南大学 基于注意力机制改进的BP-Adaboost多源信息电机故障诊断方法
CN113869565A (zh) * 2021-09-15 2021-12-31 深圳供电局有限公司 一种电力负荷预测方法、装置、终端设备及存储介质
CN114334014A (zh) * 2021-12-31 2022-04-12 徐州医科大学 一种基于自注意力深度学习的癌症亚型识别方法和系统
CN116385956A (zh) * 2023-02-13 2023-07-04 深圳有电物联科技有限公司 不间断电源的电池健康状态监测的方法和系统
CN116741397A (zh) * 2023-08-15 2023-09-12 数据空间研究院 基于多组学数据融合的癌症分型方法、系统及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541524A (zh) * 2020-11-18 2021-03-23 湖南大学 基于注意力机制改进的BP-Adaboost多源信息电机故障诊断方法
CN113869565A (zh) * 2021-09-15 2021-12-31 深圳供电局有限公司 一种电力负荷预测方法、装置、终端设备及存储介质
CN114334014A (zh) * 2021-12-31 2022-04-12 徐州医科大学 一种基于自注意力深度学习的癌症亚型识别方法和系统
CN116385956A (zh) * 2023-02-13 2023-07-04 深圳有电物联科技有限公司 不间断电源的电池健康状态监测的方法和系统
CN116741397A (zh) * 2023-08-15 2023-09-12 数据空间研究院 基于多组学数据融合的癌症分型方法、系统及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CUNMEI JI 等: "Predicting miRNA-Disease Associations Based on Heterogeneous Graph Attention Networks", ORIGINAL RESEARCH, 15 August 2021 (2021-08-15), pages 1 - 12 *
SUDIPTO BAUL 等: "omicsGAT: Graph Attention Network for Cancer Subtype Analyses", 《INTERNATIONAL JOURNAL OF MOLECULAR SCIENCES》, 30 September 2022 (2022-09-30), pages 1 - 16 *
TONGXIN WANG 等: "MOGONET integrates multi-omics data using graph convolutional networks allowing patient classification and biomarker identification", 《NATURE COMMUNICATIONS》, 31 December 2021 (2021-12-31), pages 1 - 14 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118072828A (zh) * 2024-04-22 2024-05-24 北京百奥利盟软件技术有限公司 一种多组学实验过程数据的管理方法、系统和存储介质
CN118116600A (zh) * 2024-04-30 2024-05-31 数据空间研究院 一种基于多组学和临床检验数据的结直肠癌预后方法

Similar Documents

Publication Publication Date Title
CN111009321A (zh) 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法
Corchado et al. Model of experts for decision support in the diagnosis of leukemia patients
CN117591953A (zh) 基于多组学数据的癌症分类方法、系统及电子设备
US20230112591A1 (en) Machine learning based medical data checker
Ferrante et al. Artificial intelligence in the diagnosis of pediatric allergic diseases
CN112348090A (zh) 一种基于近邻自编码器的近邻异常检测系统
CN115064266B (zh) 基于不完整多组学数据的癌症诊断系统、设备及介质
Razavi et al. Predicting metastasis in breast cancer: comparing a decision tree with domain experts
Dhar An adaptive intelligent diagnostic system to predict early stage of parkinson's disease using two-stage dimension reduction with genetically optimized lightgbm algorithm
CN116469561A (zh) 一种基于深度学习的乳腺癌生存预测方法
Gangurde et al. [Retracted] Developing an Efficient Cancer Detection and Prediction Tool Using Convolution Neural Network Integrated with Neural Pattern Recognition
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
Duman et al. Ensemble the recent architectures of deep convolutional networks for skin diseases diagnosis
CN116797817A (zh) 基于自监督图卷积模型的自闭症疾病预测技术
CN116543215A (zh) 一种基于深度哈希互学习的脑网络分类方法
CN113838519B (zh) 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统
Sandhya et al. An optimized elman neural network for contactless palm-vein recognition framework
WO2022139735A1 (en) Disease classification based on rna-sequencing data and an algorithm for the detection of disease-related genes
CN108376567B (zh) 一种基于标签传播算法的临床药品-药品不良反应检测方法
CN113971984A (zh) 分类模型构建方法及装置、电子设备、存储介质
Racedo et al. A new pipeline for structural characterization and classification of RNA-Seq microbiome data
Cudney et al. A comparison of finite state classifier and Mahalanobis-Taguchi system for multivariate pattern recognition in skin cancer detection
CN115565610B (zh) 基于多组学数据的复发转移分析模型建立方法及系统
US20240169188A1 (en) Systems and Methods for Training Conditional Generative Models
CN115546217B (zh) 基于多模态图像数据的多层次融合皮肤病诊断系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination