CN116805513A

CN116805513A - 一种基于异构图Transformer框架的癌症驱动基因预测与分析方法

Info

Publication number: CN116805513A
Application number: CN202311066361.1A
Authority: CN
Inventors: 张永清; 熊术文; 牛颢; 龙树全; 丁春利; 杨显华; 邹权; 龚美琴; 朱桂全; 王紫轩; 张峻铭; 袁豪
Original assignee: SICHUAN INSTITUTE OF COMPUTER SCIENCES; Chengdu University of Information Technology
Current assignee: SICHUAN INSTITUTE OF COMPUTER SCIENCES; Chengdu University of Information Technology
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-09-26
Anticipated expiration: 2043-08-23
Also published as: CN116805513B

Abstract

本发明公开了一种基于异构图Transformer框架的癌症驱动基因预测与分析方法，涉及生物信息学领域，该方法包括：利用基因与基因的相互作用关系、蛋白质与蛋白质的相互作用关系和基因与蛋白质的对应关系，构建基因与蛋白质的异构网络；构建异构图Transformer模块，并根据异构图Transformer模块和基因与蛋白质的异构网络生成目标节点的嵌入；构建全连接层分类模块，根据全连接层分类模块和目标节点的嵌入生成癌症驱动基因预测结果，并对癌症驱动基因预测结果进行分析。本发明能充分利用不同的生物网络中的实体之间的关联关系，解决了生物网络先验信息未充分利用的问题，进而提升了癌症驱动基因预测的准确性。

Description

一种基于异构图Transformer框架的癌症驱动基因预测与分析方法

技术领域

本发明涉及生物信息学领域，具体涉及一种基于异构图Transformer框架的癌症驱动基因预测与分析方法。

背景技术

此前，基于传统深度学习的方法已经被广泛应用于生物信息学领域，并取得了一定的成果。Luo等人利用深度卷积神经网络基于体细胞突变数据预测癌症驱动基因。Agajanian等人整合不同的机器学习方法以及深度卷积神经网络，基于原始核苷酸序列预测癌症驱动基因。上述基于传统深度学习的方法的缺陷主要在于它们局限于处理欧式空间的数据。事实上，在生物信息学领域，许多数据属于非欧氏空间，如蛋白质相互作用网络等生物网络。这类数据包含了许多先验的生物信息，但却并未得到有效利用。因此，为了充分利用组学数据和生物网络中包含的互补信息，就需要提出有效的计算方法将不同类型的数据集成到单一框架中，从而提高癌症驱动基因识别的准确率。

现目前，基于图神经网络的方法同时利用节点属性和图拓扑结构，在节点和图表示学习方面取得了很好的成就。本领域为了充分利用生物网络和组学数据中包含的互补信息，本领域已经提出了一些基于图神经网络预测癌症驱动基因的方法。其中，生物网络可以被视为图，每一个节点代表一个生物实体（如基因或者蛋白质等等），每对节点之间的边代表每对生物实体之间的相互作用，组学特征作为生物实体的特征向量。基于图神经网络预测癌症驱动基因的方法可以划分为三类：（1）基于单一组学数据和单一生物网络的方法。这类方法使用单一类型的组学数据作为生物网络中节点的特征，忽略了不同组学数据之间的互补信息。（2）基于多组学数据和单一生物网络的方法。这类方法使用多组学数据作为生物网络中节点的特征，弥补了第一类方法的缺点。但类似于组学数据之间存在互补信息，不同的生物网络之间也存在互补信息，因此这类方法忽略了不同生物网络之间的互补信息。（3）基于多组学数据和多生物网络的方法。这类方法使用多组学数据作为生物网络中节点的特征，并且引入了多种生物网络。然而这类方法以相同的方式分别考虑每个生物网络，未考虑到不同的生物网络中的生物实体也存在联系，如基因编码蛋白质。

综上，现有方法存在两方面的不足：(1)现有方法以相同的方式分别考虑每个生物网络，未考虑不同的生物网络中的实体之间也存在关联，从而未充分利用不同生物网络之间的先验信息。(2)现有方法对获得的生物结果的解释仍然不足。

发明内容

针对现有技术中的上述不足，本发明提供了一种基于异构图Transformer框架的癌症驱动基因预测与分析方法，能充分利用不同的生物网络中的实体之间的关联关系，进而解决了生物网络先验信息未充分利用的问题。

为了达到上述发明目的，本发明采用的技术方案为：

一种基于异构图Transformer框架的癌症驱动基因预测与分析方法，包括以下步骤：

S1、利用KEGG通路信息、蛋白质与蛋白质的相互作用关系和基因与蛋白质的对应关系，构建基因与蛋白质的异构网络；

S2、构建异构图Transformer模块，并根据异构图Transformer模块和步骤S1中基因与蛋白质的异构网络生成目标节点的嵌入；

S3、构建全连接层分类模块，根据全连接层分类模块和步骤S2中目标节点的嵌入生成癌症驱动基因预测结果，并对癌症驱动基因预测结果进行分析。

进一步地，步骤S1包括以下分步骤：

S11、利用KEGG通路信息构建基因相似性矩阵，并利用基因相似性矩阵构建基因与基因的相互作用网络；

S12、利用蛋白质与蛋白质的相互作用关系，构建蛋白质与蛋白质的相互作用网络；

S13、利用基因与蛋白质的对应关系，构建基因与蛋白质的相互作用网络；

S14、本发明根据分步骤S11中的基因与基因相互作用网络、分步骤S12中的蛋白质与蛋白质相互作用网络和分步骤S13中的基因与蛋白质相互作用网络，构建基因与蛋白质的异构网络，表示为：

其中：为基因与蛋白质的异构网络，/>为节点的集合，每个基因和每个蛋白质分别作为一个节点，/>为节点对之间的边的集合，/>为节点类型的集合，/>为边类型的集合，/>为节点类型的映射函数，/>为边类型的映射函数。

进一步地，步骤S11包括以下分步骤：

S111、获取基因的多组学数据，并对基因的多组学数据进行预处理以得到基因的多组学初始数据；

S112、确定癌症类型，并根据癌症类型和分步骤S111中基因的多组学初始数据构建基因的特征向量；

S113、将分步骤S112中所有基因的特征向量进行拼接，得到基因的特征矩阵；

S114、利用KEGG通路信息构建基因相似性矩阵；

S115、根据分步骤S113中基因的特征矩阵，利用分步骤S114中基因的相似性矩阵，构建基因与基因的相互作用网络。

进一步地，在分步骤S111中，多组学数据包括体细胞突变、拷贝数变异、DNA甲基化和基因表达。

进一步地，在步骤S13中，将基因与蛋白质的异构网络中不同类型节点的特征向量映射到相同的特征空间，表示为：

其中：为节点类型/>中的节点/>映射后的特征，/>为节点的序号，/>为设定于节点类型/>的变换矩阵，/>为节点类型/>中的节点/>的原始特征，/>为节点类型/>的向量偏置项。

进一步地，步骤S2包括以下分步骤：

S21、构建包括多头注意力子模块、多头消息子模块和信息聚合子模块的异构图Transformer模块；

S22、根据步骤S1中基因与蛋白质的异构网络，利用分步骤S21中的多头注意力子模块获取节点对的多头注意力向量；

S23、根据步骤S1中基因与蛋白质的异构网络，利用分步骤S21中的多头消息子模块获取节点对的多头消息向量；

S24、根据分步骤S22中节点对的多头注意力向量和分步骤S23中节点对的多头消息向量，利用分步骤S21中的信息聚合子模块生成目标节点的嵌入。

进一步地，步骤S22包括以下分步骤：

S221、根据步骤S1中基因与蛋白质的异构网络，利用分步骤S21中的多头注意力子模块将目标节点映射为查询向量，表示为：

其中：为目标节点/>经过第/>个注意力头对应的线性映射函数/>映射后的查询向量，/>为注意力头的序号，/>为第/>个注意力头对应的关于目标节点/>的线性映射函数，/>为第/>层的目标节点/>的嵌入，/>为神经网络层的序号，/>为基因与蛋白质的异构网络中的目标节点；

S222、根据步骤S1中基因与蛋白质的异构网络，利用分步骤S21中的多头注意力子模块将源节点映射为键值向量，表示为：

其中：为目标节点/>经过第/>个注意力头对应的线性映射函数/>映射后的键值向量，/>为第/>个注意力头对应的关于源节点/>的线性映射函数，/>为第/>层的源节点/>的嵌入，/>为基因与蛋白质的异构网络中的源节点；

S223、根据分步骤S221中映射后的目标节点的查询向量和分步骤S222中映射后的源节点的键值向量，利用分步骤S21中的多头注意力子模块获取节点对的注意力头，表示为：

其中：为源节点/>与目标节点/>之间的第/>个注意力头，/>为源节点/>与目标节点/>之间的边，/>为基于边/>的第一转换矩阵，为转置符号，/>为先验张量，/>为源节点/>与目标节点/>之间的元关系，/>为源节点/>经节点类型映射函数映射后的向量，/>为边/>经边类型映射函数映射后的向量，/>为目标节点/>经节点类型映射函数映射后的向量，/>为节点的特征矩阵的维度；

S224、根据分步骤S223中节点对的注意力头，利用分步骤S21中的多头注意力子模块获取节点对的多头注意力向量，表示为：

其中：为源节点/>与目标节点/>之间的多头注意力向量，为第一激活函数，/>为目标节点/>的邻居节点的集合，/>为拼接函数，/>为注意力头的数量。

进一步地，步骤S23包括以下分步骤：

S231、根据步骤S1中基因与蛋白质的异构网络，利用分步骤S21中的多头消息子模块获取节点对的消息头，表示为：

其中：为源节点/>与目标节点/>之间的第/>个消息头，/>为消息头的序号，/>为第/>个消息头对应的关于源节点/>的线性映射函数，/>为第/>层的源节点/>的嵌入，/>为神经网络层的序号，/>为基因与蛋白质的异构网络中的源节点，/>为基于边/>的第二转换矩阵，/>为源节点/>与目标节点/>之间的边；

S232、根据分步骤S231中节点对的消息头，利用分步骤S21中的多头消息子模块获取节点对的多头消息向量，表示为：

其中：为源节点/>与目标节点/>之间的多头消息向量，为消息向量符号，/>为拼接函数，/>为注意力头的数量。

进一步地，步骤S24包括以下分步骤：

S241、根据分步骤S22中节点对的多头注意力向量和分步骤S23中节点对的多头消息向量，利用分步骤S21中的信息聚合子模块更新目标节点的嵌入，表示为：

其中：为第/>层目标节点/>更新后的嵌入，/>为基因与蛋白质的异构网络中的目标节点，/>为神经网络层的序号，/>为基因与蛋白质的异构网络中的源节点，/>为目标节点/>的邻居节点的集合，/>为信息聚合运算符，/>为源节点/>与目标节点/>之间的多头注意力向量，/>为源节点/>与目标节点/>之间的边，为源节点/>与目标节点/>之间的多头消息向量；

S242、根据分步骤S241中目标节点更新后的嵌入，利用分步骤S21中的信息聚合子模块生成目标节点的嵌入，表示为：

其中：为第/>层的目标节点/>的嵌入，/>为第二激活函数，/>为关于目标节点/>的线性映射函数，/>为第/>层的目标节点/>的嵌入。

进一步地，在步骤S3中，根据全连接层分类模块和步骤S2中目标节点的嵌入生成癌症驱动基因预测结果，表示为：

其中：为预测的癌症驱动基因的得分，/>为第三激活函数，/>为展平层函数，/>为节点嵌入，/>为全连接层的权重矩阵，/>为全连接层的偏置向量。

本发明具有以下有益效果：

（1）本发明通过构建基因与蛋白质的异构网络，并利用构建的异构图Transformer模块和全连接层分类模块，能起到充分利用不同生物网络中实体之间的关联关系的效果，进而解决了生物网络先验信息未充分利用的问题；

（2）本发明通过构建基因与基因的相互作用网络和蛋白质与蛋白质的相互作用网络，并利用基因与蛋白质的对应关系，进而构建了基因与蛋白质的异构网络，能将基因与基因、蛋白质与蛋白质以及基因与蛋白质之间的相互作用关系作为先验信息；

（3）本发明通过构建异构图Transformer模块，实现了对不同类型节点和边的表征，有效解决了不同数据间的高维异构性，实现了数据融合，进而更加充分地利用基因与蛋白质的异构网络中的先验信息，更好地学习基因与蛋白质的异构网络中不同生物实体之间的相互作用来提高图卷积网络的预测能力。

附图说明

图1为一种基于异构图Transformer框架的癌症驱动基因预测与分析方法流程示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种基于异构图Transformer框架的癌症驱动基因预测与分析方法，包括步骤S1-S3，具体如下：

S1、利用KEGG通路信息、蛋白质与蛋白质的相互作用关系和基因与蛋白质的对应关系，构建基因与蛋白质的异构网络。

在本发明的一个可选实施例中，本发明利用蛋白质与蛋白质的相互作用关系，构建蛋白质与蛋白质的相互作用网络，利用KEGG（Kyoto Encyclopedia of Genes andGenomes，京都基因与基因组百科全书）通路信息构建基因相似性矩阵以构建基因与基因的相互作用网络，并利用基因与蛋白质的对应关系，构建基因与蛋白质的异构网络。

步骤S1包括以下分步骤：

S11、利用KEGG通路信息构建基因相似性矩阵，并利用基因相似性矩阵构建基因与基因的相互作用网络。

步骤S11包括以下分步骤：

S111、获取基因的多组学数据，并对基因的多组学数据进行预处理以得到基因的多组学初始数据。

本发明获取的基因多组学数据分为正样本和负样本。本发明将获得的已知癌症驱动基因作为正样本。为了获得负样本，本发明从所有基因集开始，递归地删除NCG（Networkof Cancer Genes&Healthy Drivers，肿瘤驱动基因数据库）、COSMIC（Catalogue OfSomatic Mutations In Cancer，癌症体细胞突变目录）、KEGG癌症通路和OMIM（0nlineMendelian Inheritance in Man，人类在线孟德尔遗传数据库）等疾病数据库中的基因，以获取负样本。

多组学数据包括体细胞突变、拷贝数变异、DNA甲基化和基因表达。本发明从TCGA（TheCancerGenomeAtlas，癌症基因组图谱）下载体细胞突变数据、拷贝数变异数据、DNA甲基化数据和基因表达数据。

本发明对基因的多组学数据进行预处理以得到基因的多组学初始数据。

本发明对体细胞突变数据进行预处理的具体过程为：将每个基因的非沉默突变数除以外显子基因长度以获取体细胞突变的初始数据。

本发明对拷贝数变异数据进行预处理的具体过程为：本发明将每个基因在特定队列中被扩增或缺失的次数确定为拷贝数变异的初始数据。

本发明对DNA甲基化数据进行预处理的具体过程为：对每个基因定义一个启动子为其5'-标注转录本起始位点附近的±1000个碱基对区域，将启动子窗口内的所有CpG位点的β值取平均值以计算每个基因的平均启动子甲基化程度，对每种癌症类型进行联合关联测试，将样本的platenumber（样本在实验中使用的板号）作为其潜在变量模型的批变量以消除批效应，得到DNA甲基化的初始数据。

本发明对基因表达数据进行预处理的具体过程为：本发明使用来自Wang等人的数据集，其中包含来自TCGA的肿瘤和对照样本的RNA-seq数据以及来自GTEx（Genotype-Tissue Expression,基因型-组织表达）的正常样本的表达值。这些数据已经使用联合关联测试进行了分位数归一化和批量校正。在每一种癌症类型中，本发明计算肿瘤样本与匹配的正常样本的表达之间的log2倍数差异，并取平均值，以获取基因表达数据的初始值。如果在肿瘤样本或匹配的正常样本中没有测量到一个基因的表达，则不计算该基因的表达值，并将其缺失值设置为零。

S112、确定癌症类型，并根据癌症类型和分步骤S111中基因的多组学初始数据构建基因的特征向量。

本发明确定了16种不同的癌症类型，并根据获取的4种多组学初始数据，对每个基因构建一个16×4维的特征向量，其中16为癌症类型的数量，4为4种多组学初始数据的值。

S113、将分步骤S112中所有基因的特征向量进行拼接，得到基因的特征矩阵。

S114、利用KEGG通路信息构建基因相似性矩阵。

本发明从KEGG数据库获取通路信息，并使用R包“KEGGREST”（一个为京都基因和基因组百科全书REST服务器提供客户端界面的R语言包）获取每个通路中的基因。对于获取的每个基因，为其构建一个340维的通路向量，每一维代表一条通路。若该基因在对应通路中出现，则将对应位置设置为1，否则设置为0，并计算每个基因之间的余弦相似性分数，表示为：

其中：为基因/>与基因/>之间的余弦相似性分数，/>为基因/>的通路向量，/>为基因/>的通路向量，/>为向量/>的模，/>为向量/>的模。

本发明通过上述获取的每个基因之间的余弦相似性分数，构建每个基因的相似性矩阵。

本发明根据基因的特征矩阵，利用基因的相似性矩阵，计算基因与基因的相互作用网络的邻接矩阵以构建基因与基因的相互作用网络，表示为：

其中：为基因与基因的相互作用网络的邻接矩阵中基因/>与基因/>之间的元素值，/>为相似性分数的阈值，设置为0.6。

S12、利用蛋白质与蛋白质的相互作用关系，构建蛋白质与蛋白质的相互作用网络。

本发明利用蛋白质与蛋白质的相互作用关系，计算蛋白质与蛋白质的相互作用网络的邻接矩阵以构建蛋白质与蛋白质的相互作用网络，表示为：

其中：为蛋白质与蛋白质的相互作用网络的邻接矩阵中蛋白质/>与蛋白质/>之间的元素值。

S13、利用基因与蛋白质的对应关系，构建基因与蛋白质的相互作用网络。

本发明利用基因与蛋白质的对应关系，计算基因与蛋白质的相互作用网络的邻接矩阵以构建基因与蛋白质的相互作用网络，表示为：

其中：为基因与蛋白质相互作用网络的邻接矩阵中基因/>与蛋白质/>之间的元素值。

S14、本发明根据分步骤S11中基因与基因的相互作用网络、分步骤S12中蛋白质与蛋白质的相互作用网络和分步骤S13中基因与蛋白质的相互作用网络，构建基因与蛋白质的异构网络，表示为：

本发明构建的基因与蛋白质的异构网络中节点存在异构性，基因节点和蛋白质节点的特征向量位于不同的特征空间中，并且有着不同的特征维度。

本发明将基因与蛋白质的异构网络中不同类型节点的特征向量映射到相同的特征空间，表示为：

S2、构建异构图Transformer模块，并根据异构图Transformer模块和步骤S1中基因与蛋白质的异构网络生成目标节点的嵌入。

在本发明的一个可选实施例中，本发明构建异构图Transformer模块，并将基因与蛋白质的异构网络输入至构建的异构图Transformer模块，能生成目标节点的嵌入。

步骤S2包括以下分步骤：

S21、构建包括多头注意力子模块、多头消息子模块和信息聚合子模块的异构图Transformer模块。

S22、根据步骤S1中基因与蛋白质的异构网络，利用分步骤S21中的多头注意力子模块获取节点对的多头注意力向量。

步骤S22包括以下分步骤：

其中：为目标节点/>经过第/>个注意力头对应的线性映射函数/>映射后的查询向量，/>为注意力头的序号，/>为第/>个注意力头对应的关于目标节点/>的线性映射函数，/>为第/>层的目标节点/>的嵌入，/>为神经网络层的序号，/>为基因与蛋白质的异构网络中的目标节点。

其中：为目标节点/>经过第/>个注意力头对应的线性映射函数/>映射后的键值向量，/>为第/>个注意力头对应的关于源节点/>的线性映射函数，/>为第/>层的源节点/>的嵌入，/>为基因与蛋白质的异构网络中的源节点。

其中：为源节点/>与目标节点/>之间的第/>个注意力头，/>为源节点/>与目标节点/>之间的边，/>为基于边/>的第一转换矩阵，为转置符号，/>为先验张量，/>为源节点/>与目标节点/>之间的元关系，/>为源节点/>经节点类型映射函数映射后的向量，/>为边/>经边类型映射函数映射后的向量，/>为目标节点/>经节点类型映射函数映射后的向量，/>为节点的特征矩阵的维度。

其中：为源节点/>与目标节点/>之间的多头注意力向量，为第一激活函数，/>，/>为指数函数，/>为目标节点/>的邻居节点的集合，/>为拼接函数，/>为注意力头的数量。

S23、根据步骤S1中基因与蛋白质的异构网络，利用分步骤S21中的多头消息子模块获取节点对的多头消息向量。

步骤S23包括以下分步骤：

其中：为源节点/>与目标节点/>之间的第/>个消息头，/>为消息头的序号，/>为第/>个消息头对应的关于源节点/>的线性映射函数，/>为第/>层的源节点/>的嵌入，/>为神经网络层的序号，/>为基因与蛋白质的异构网络中的源节点，/>为基于边/>的第二转换矩阵，/>为源节点/>与目标节点/>之间的边。

本发明根据节点对的多头注意力向量和节点对的多头消息向量，利用设定于节点类型的信息聚合子模块计算生成节点嵌入。

步骤S24包括以下分步骤：

其中：为第/>层目标节点/>更新后的嵌入，/>为基因与蛋白质的异构网络中的目标节点，/>为神经网络层的序号，/>为基因与蛋白质的异构网络中的源节点，/>为目标节点/>的邻居节点的集合，/>为信息聚合运算符，用于将目标节点/>的邻居节点的信息都汇集到目标节点/>上，/>为源节点/>与目标节点/>之间的多头注意力向量，/>为源节点/>与目标节点/>之间的边，/>为源节点/>与目标节点/>之间的多头消息向量。

其中：为第/>层的目标节点/>的嵌入，/>为第二激活函数，/>，/>为关于目标节点/>的线性映射函数，/>为第/>层的目标节点的嵌入。

在本发明的一个可选实施例中，本发明构建全连接层分类模块，并将异构图Transformer模块生成的目标节点的嵌入输入至构建的全连接层分类模块，能生成预测的癌症驱动基因的得分即癌症驱动基因预测结果，并对癌症驱动基因预测结果进行分析。

本发明根据全连接层分类模块和步骤S2中目标节点的嵌入生成癌症驱动基因预测结果，表示为：

其中：为预测的癌症驱动基因的得分，/>为第三激活函数，/>，为展平层函数，/>为节点嵌入，/>为全连接层的权重矩阵，/>为全连接层的偏置向量。

本发明生成癌症驱动基因预测结果，并利用二元交叉熵损失函数来计算损失，表示为：

其中：为癌症驱动基因预测结果的损失，/>为正样本权重，/>为初始节点标签，等于0或1。

本发明在13种癌症数据集上进行了广泛的实验，以验证所提出的方法在癌症驱动基因预测方面的有效性。本发明对癌症驱动基因预测结果进行分析，确定这些癌症驱动基因可以为癌症诊断和治疗提供新的方向和思路，具体包括预后评估、靶向治疗以及药物耐药性评估。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于异构图Transformer框架的癌症驱动基因预测与分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于异构图Transformer框架的癌症驱动基因预测与分析方法，其特征在于，步骤S1包括以下分步骤：

3.根据权利要求2所述的一种基于异构图Transformer框架的癌症驱动基因预测与分析方法，其特征在于，步骤S11包括以下分步骤：

S114、利用KEGG通路信息构建基因相似性矩阵；

4.根据权利要求3所述的一种基于异构图Transformer框架的癌症驱动基因预测与分析方法，其特征在于，在分步骤S111中，多组学数据包括体细胞突变、拷贝数变异、DNA甲基化和基因表达。

5.根据权利要求2所述的一种基于异构图Transformer框架的癌症驱动基因预测与分析方法，其特征在于，在步骤S13中，将基因与蛋白质的异构网络中不同类型节点的特征向量映射到相同的特征空间，表示为：

6.根据权利要求1所述的一种基于异构图Transformer框架的癌症驱动基因预测与分析方法，其特征在于，步骤S2包括以下分步骤：

7.根据权利要求6所述的一种基于异构图Transformer框架的癌症驱动基因预测与分析方法，其特征在于，步骤S22包括以下分步骤：

其中：为源节点/>与目标节点/>之间的第/>个注意力头，为源节点/>与目标节点/>之间的边，/>为基于边/>的第一转换矩阵，/>为转置符号，/>为先验张量，/>为源节点/>与目标节点/>之间的元关系，/>为源节点/>经节点类型映射函数映射后的向量，/>为边/>经边类型映射函数映射后的向量，/>为目标节点/>经节点类型映射函数映射后的向量，/>为节点的特征矩阵的维度；

其中：为源节点/>与目标节点/>之间的多头注意力向量，/>为第一激活函数，/>为目标节点/>的邻居节点的集合，/>为拼接函数，/>为注意力头的数量。

8.根据权利要求6所述的一种基于异构图Transformer框架的癌症驱动基因预测与分析方法，其特征在于，步骤S23包括以下分步骤：

其中：为源节点/>与目标节点/>之间的多头消息向量，/>为消息向量符号，/>为拼接函数，/>为注意力头的数量。

9.根据权利要求6所述的一种基于异构图Transformer框架的癌症驱动基因预测与分析方法，其特征在于，步骤S24包括以下分步骤：

其中：为第/>层目标节点/>更新后的嵌入，/>为基因与蛋白质的异构网络中的目标节点，/>为神经网络层的序号，/>为基因与蛋白质的异构网络中的源节点，/>为目标节点/>的邻居节点的集合，/>为信息聚合运算符，/>为源节点/>与目标节点/>之间的多头注意力向量，/>为源节点/>与目标节点/>之间的边，/>为源节点/>与目标节点/>之间的多头消息向量；

10.根据权利要求1所述的一种基于异构图Transformer框架的癌症驱动基因预测与分析方法，其特征在于，在步骤S3中，根据全连接层分类模块和步骤S2中目标节点的嵌入生成癌症驱动基因预测结果，表示为：