CN115171779A

CN115171779A - 基于图注意力网络和多组学融合的癌症驱动基因预测装置

Info

Publication number: CN115171779A
Application number: CN202210825707.0A
Authority: CN
Inventors: 周展; 赵文艺; 吴健
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2022-10-11
Anticipated expiration: 2042-07-13
Also published as: CN115171779B

Abstract

本发明公开了一种基于图注意力网络和多组学融合的癌症驱动基因预测装置，实现的预测包括：基于基因相关数据构建的基因关联图谱和根据癌症多组学数据生成的多组学特征矩阵构建多维度基因网络；利用癌症驱动基因预测模型对多维度基因网络进行预测计算，包括：采用图注意力网络对输入的多维度基因网络提取不同维度的基因表征后，对不同维度的基因表征通过多头注意力机制实现跨维度的信息共享，获得同时融合了维度相关的全局信息和跨维度信息的共享基因表征，使用注意力机制计算不同维度基因表征的重要性，并根据重要性将所有维度的共享基因表征自适应融合为融合基因表征，对融合基因表征进行计算以预测癌症驱动基因，提升了预测准确率和可靠性。

Description

基于图注意力网络和多组学融合的癌症驱动基因预测装置

技术领域

本发明属于生物信息学、癌症组学数据挖掘技术领域，具体涉及一种基于图注意力网络和多组学融合的癌症驱动基因预测装置。

背景技术

癌症长期以来都是人类主要的死亡因素之一，其死亡例数和发病例数均呈现逐年上升的趋势。尽管癌症的研究及治疗投入远高于其他疾病，癌症仍然是当今人类医学的一个重大挑战。癌症是一种高度异质的系统性疾病，其发病机制极其复杂。作为癌症研究的主要目标之一，识别在癌症发生发展过程中起关键作用的驱动基因，能够加深人们对癌症发生发展的分子机制的理解，促进预后和临床治疗的生物标志物的发现，为抗癌药物的研发提供潜在的靶点并指导癌症治疗方案的制定，对于实现癌症的精准医疗具有极其重大的意义。高通量测序技术的快速发展带来了癌症组学数据的爆炸式增长，包括基因组、转录组和表观基因组等等。早期研究仅关注于基因组学数据，缺乏对多组学数据进行有效整合的生物信息学方法。

然而考虑到癌症的复杂性，癌症多组学数据集能够在多个分子层面为理解癌症发生发展机制提供互补的信息，融合多组学数据的方法会比仅仅只利用单一类型数据的方法，能提供更准确和可靠的预测结果。近年来的许多研究表明，生命活动是基因组在微观的复杂相互作用网络的宏观表现，多组学数据并不是孤立存在的，而是存在复杂的相互作用关系。目前存在一些方法将蛋白质-蛋白质相互作用(Protein-Protein interaction,PPI)网络与基因特征矩阵有效结合进行癌症驱动基因预测。其中，EMOGI是一种基于图卷积网络(Graph Convolutional Network,GCN)的可解释性机器学习方法，将基因组、表观基因组和转录组数据作为基因特征与PPI网络相结合(参见文献Schulte-Sasse et al.(2021)Integration of multiomics data with graph convolutional networks to identifynew cancer genes and their associated molecular mechanisms.Nat.Mach.Intell.,3,513–526)。MTGCN是基于GCN的多任务学习框架，在学习节点嵌入特征的过程中同时优化节点预测和链接预测两个任务(参见文献Peng et al.(2022)Improving cancer drivergene identification using multi-task learning on graph convolutionalnetwork.Brief.Bioinform.,23,bbab432)。

图深度学习模型的性能在很大程度上依赖于图结构的可靠性，然而以上方法均是基于PPI网络设计的，PPI网络存在图谱不完整性以及数据来源存在偏差等问题，导致这类方法存在局限性。因此，目前尚未有比较好的模型可以充分利用生物网络和多组学信息，从而有效地提高癌症驱动基因预测的准确率和可靠性。

发明内容

鉴于上述，本发明的目的是提供一种基于图注意力网络和多组学融合的癌症驱动基因预测装置，以解决由PPI网络存在图谱不完整性以及数据来源存在偏差等问题引起的癌症驱动基因预测的准确性和可靠性不佳的问题。

为了实现上述发明目的，本发明提供了以下技术方案：

第一方面，实施例提供了一种基于图注意力网络和多组学融合的癌症驱动基因预测装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述存储器中还存储有包括多维度基因图表征模块、联合学习模块以及驱动基因预测模块的癌症驱动基因预测模型，所述处理器执行所述计算机程序时实现基于图注意力网络和多组学融合的癌症驱动基因预测步骤，包括：

步骤1，获取基因相关数据并构建基因关联图谱；

步骤2，获取癌症基因组图谱的癌症多组学数据并进行预处理后，生成基因对应的多组学特征矩阵；

步骤3，根据基因关联图谱和基因对应的多组学特征矩阵构建多维度基因网络；

步骤4，利用癌症驱动基因预测模型对多维度基因网络进行预测计算，包括：利用多维度基因图表征模块采用图注意力网络对输入的多维度基因网络进行多维度特征提取以得到不同维度的基因表征，利用联合学习模块对不同维度的基因表征通过多头注意力机制实现跨维度的信息共享，获得同时融合了维度相关的全局信息和跨维度信息的共享基因表征，使用注意力机制计算不同维度基因表征的重要性，并根据重要性将所有维度的共享基因表征自适应融合为融合基因表征，利用驱动基因预测模块对融合基因表征进行计算以预测癌症驱动基因。

优选地，获取的基因相关数据包括：蛋白质-蛋白质相互作用网络、基因序列数据、正常人体组织基因表达数据、基因通路信息以及基因本体论注释信息；

根据蛋白质-蛋白质相互作用网络、正常人体组织基因表达数据、基因序列数据、基因通路信息以及基因本体论注释信息分别计算蛋白质-蛋白质相互作用、组织共表达模式、基因序列相似性、基因通路共现关系和基因语义相似性，以此来确定基因之间的相关性，依据基因之间的相关性建立基因关联图谱。

优选地，所述组织共表达模式的计算方式包括：首先根据正常人体组织基因表达数据为每一个基因构建基因表达向量，将基因表达向量中每个维度对应于每个组织中基因的表达水平，然后基于基因表达向量的皮尔森相关系数的绝对值计算基因间的共表达模式，用公式表示为：

其中，R_coexp(G_i,G_j)表示基因G_i和G_j之间共表达模式，

分别是基因G_i和G_j的基因表达向量，cov(·)表示协方差，σ(·)表示标准差；

所述基因通路共现关系的计算方式包括：首先根据基因通路信息为每个基因构建向量，如果基因存在于相应的通路中，则该通路对应维度赋值1，否则赋值0；然后计算两个基因的向量间的余弦相似性作为基因间的基因通路共现关系；

所述基因语义相似性的计算方式包括：首先根据生物过程、分子功能和细胞成分这三类基因本体注释信息，利用GO图的拓扑性来计算与基因相关的多个GO术语间的不同语义相似性得分，然后通过使用最佳匹配平均法来聚合不同语义相似性得分来计算基因间的语义相似性。

优选地，获取的癌症多组学数据包括体细胞突变数据、拷贝数变异数据、基因表达数据和DNA甲基化数据；

对体细胞突变数据、拷贝数变异数据、基因表达数据和DNA甲基化数据分别进行处理以得到每个基因对应的基因突变率、拷贝数变异率、差异表达值和基因甲基化水平，将每个基因对应的基因突变率、拷贝数变异率、差异表达值和基因甲基化水平进行拼接作为基因对应的多组学特征，形成基因对应的多组学特征矩阵。

优选地，对体细胞突变数据进行处理的方式包括：从体细胞突变数据中筛去超突变样本的数据后，对每种癌症类型中每个基因计算体细胞突变率，其中，体细胞突变频率为基因中非沉默突变的数量除以外显子基因长度；

对拷贝数变异数据进行处理的方式包括：从拷贝数变异数据中筛去超突变样本的拷贝数后，对每种癌症类型中每个基因计算拷贝数变异率，其中，拷贝数突变率为基因在对应癌症类型样本中被扩增或缺失的次数；

对基因表达数据进行处理的方式包括：使用癌症样本、正常样本的基因表达数据，进行批次校正和分位数标准化后，对于每个基因，差异表达值计算为基因在癌症样本与匹配的正常样本中的表达均值之间的log2倍变化，如果在正常样本或癌症样本中未测量到基因的基因表达数据，则不计算该基因的基因表达值，将其设置为0；

对DNA甲基化数据进行处理的方式包括：根据DNA甲基化数据，首先对于每个基因根据GENCODE注释将启动子区域定义为注释转录本5'起始位点前后N个碱基对；然后对定义的启动子区域内所有CpG位点的beta(β)值进行平均，以计算每个基因的平均启动子甲基化水平，并进行批次校正，N的取值范围为1000-5000。

优选地，所述根据基因关联图谱和基因对应的多组学特征矩阵构建多维度基因网络，包括：

首先通过设定相关性阈值对基因关联图谱中小于相关性阈值的基因之间的相关性进行滤除；

然后以基因作为节点，以多组学特征矩阵中基因对应的多组学特征作为节点属性，根据滤除后的基因关联图谱中基因之间的相关性作为节点之间的复用边，以构建多维度基因网络，表示为由一组N个节点集V＝{v₁,…,v_N}和D个边集{E₁,…,E_D}组成，每个边集E_d描述了相应的第d个维度上的节点之间的第d种关联，D种类型的关系用D个邻接矩阵{A¹,…,A^D}表示。

优选地，在多维度基因图表征模块中，由至少两层图注意力网络层的图注意力网络对从多维度基因网络中分离的每个维度的基因网络进行特征提取，以得到每个维度的基因表征。

优选地，在联合学习模块中，首先采用多头注意力机制对不同维度的基因表征实现跨维度的信息共享，以得到融合了维度相关的全局信息和跨维度信息的共享基因表征，用公式表示为：

K_i＝Z_iW_k,Q_i＝Z_iW_q

其中，i表示维度的索引，D表示维度数量，Z_i、W_k、W_q、K_i、Q_i分别表示第i表示维度的基因表征、关键矩阵、查询矩阵、关键值、查询值，上标T表示转置，k表示关键矩阵的维度，

表示第i表示维度的全局信息，α表示融合权重，Z′_i表示第i表示维度的共享基因表征；

然后采用使用注意力机制计算不同维度基因表征的重要性权重后，融合层对将所有维度的共享基因表征自适应融合为融合基因表征，用公式表示为：

w_i＝softmax(q^T·tanh(W·(Z′_i)^T+b))

其中，q表示共享的注意力向量，W和b表示权重和偏置，tanh(·)表示双曲正切函数，softmax(·)表示softmax函数，w_i表示第i表示维度的重要性权重，Z_f表示融合基因表征。

优选地，在驱动基因预测模块中，采用多层感知机对融合基因表征进行计算以预测癌症驱动基因；

所述癌症驱动基因预测模型在被应用之前，需要经过参数优化，参数优化时采用以预测癌症驱动基因和真值癌症驱动基因的交叉熵作为损失函数。

第二方面，实施例还提供了一种基于图注意力网络和多组学融合的癌症驱动基因预测装置，包括：

基因关联图谱构建单元，用于获取基因相关数据并构建基因关联图谱；

多组学特征矩阵生成单元，用于获取癌症基因组图谱的癌症多组学数据并进行预处理后，生成基因对应的多组学特征矩阵；

多维度基因网络构建单元，用于根据基因关联图谱和基因对应的多组学特征矩阵构建多维度基因网络；

癌症驱动基因预测单元，用于利用癌症驱动基因预测模型对多维度基因网络进行预测计算，包括：利用多维度基因图表征模块采用图注意力网络对输入的多维度基因网络进行多维度特征提取以得到不同维度的基因表征，利用联合学习模块对不同维度的基因表征通过多头注意力机制实现跨维度的信息共享，获得同时融合了维度相关的全局信息和跨维度信息的共享基因表征，使用注意力机制计算不同维度基因表征的重要性，并根据重要性将所有维度的共享基因表征自适应融合为融合基因表征，利用驱动基因预测模块对融合基因表征进行计算以预测癌症驱动基因。

与现有技术相比，本发明具有的有益效果至少包括：

本发明通过使用图注意力网络作为模型的基本架构，整合包括多种类型的基因关联网络和癌症多组学数据(包括基因组学、转录组学以及表观基因组学)在内的多源异质信息进行癌症驱动基因的预测，本发明大大地提升了对癌症驱动基因预测的准确率和可靠性，为癌症精准医疗的发展做出了贡献。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的基于图注意力网络和多组学融合的癌症驱动基因预测步骤的流程图；

图2是实施例提供的构建多维度基因网络的流程图；

图3是实施例提供的癌症驱动基因预测模型的结构及原理示意图；

图4是实施例提供的与其他方法(EMOGI、MTGCN、Chebnet、GCN和GAT)的实验结果对比图；

图5是本发明提供的基于图注意力网络和多组学融合的癌症驱动基因预测装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

基于背景技术，为了解决由PPI网络存在图谱不完整性以及数据来源存在偏差等问题引起的癌症驱动基因预测的准确性和可靠性不佳的问题。实施例提供了一种基于图注意力网络和多组学融合的癌症驱动基因预测装置，通过综合考虑基因组、转录组、表观基因组等多组学信息及利用蛋白质-蛋白质相互作用网络、基因序列数据、人正常组织基因表达数据、基因通路信息以及基因本体论注释信息等基因相关数据构建多维度基因网络，同时结合图注意力网络(Graph Attention Network,GAT)和注意力机制来获得多维度基因网络的基因表征，以提升癌症驱动基因预测模型的预测准确率和可靠性。

实施例提供的基于图注意力网络和多组学融合的癌症驱动基因预测装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，存储器中还存储有包括多维度基因图表征模块、联合学习模块以及驱动基因预测模块的癌症驱动基因预测模型，处理器执行计算机程序时实现基于图注意力网络和多组学融合的癌症驱动基因预测步骤，如图1所示，包括：

步骤1，获取基因相关数据并构建基因关联图谱。

实施例中，基因相关数据包括蛋白质-蛋白质相互作用网络(Protein-Proteininteraction,PPI)、基因序列数据、人正常组织基因表达数据、基因通路信息以及基因本体论(GO)注释信息。具体地，根据蛋白质-蛋白质相互作用网络、人正常组织基因表达数据、基因序列数据、基因通路信息以及基因本体论注释信息分别计算蛋白质-蛋白质相互作用、组织共表达模式、基因序列相似性、基因通路共现关系和基因语义相似性，以此来确定基因之间的相关性，依据基因之间的相关性建立基因关联图谱。

实施例中，PPI网络从多个来源收集的，如表1所示，其中，STRING网络的第11.0版是下载自https://stringdb-static.org/download/protein.links.v11.0/9606.protein.links.v11.0.txt.gz，CPDB网络的两个版本(v35和v34)是下载自http://cpdb.molgen.mpg.de/。在获得CPDB网络后，删除存在两个以上基因的相互作用的复杂的相互作用。

表1.蛋白质-蛋白质相互作用数据库

针对获得的多个PPI网络，从PPI网络中直接提取蛋白质-蛋白质相互作用。

实施例中，正常人体组织基因表达数据下载自GEO数据库(GSE1133，http://biogps.gnf.org/downloads)。组织共表达模式的计算方式包括：首先根据正常人体组织基因表达数据为每一个基因构建基因表达向量，将基因表达向量中每个维度对应于每个组织中基因的表达水平，然后基于基因表达向量的皮尔森相关系数(Pearson CorrelationCoefficient,PCC)的绝对值计算基因间的共表达模式，用公式表示为：

其中，R_coexp(G_i,G_j)表示基因G_i和G_j之间共表达模式，

实施例中，基因序列数据是下载自NCBI Refseq数据库(Release2019.02)。基因序列相似性的计算方式包括：利用NCBI BLASTP程序，在默认参数下，将所有基因的蛋白质序列相互比对，然后计算一对基因G_i和G_j之间的序列相似性，用公式表示为：

其中，BLAST_bitscore(G_i,G_j)是NCBI BLASTP程序使用默认参数下的基因G_i和G_j之间的bitscore值。一般来说，bitscore值越大，基因间的序列相似性越高。

实施例中，基因通路信息是从KEGG数据库(Release 2021.06)中下载的多条癌症相关的人类通路数据。基因通路共现关系的计算方式包括：首先根据基因通路信息为每个基因构建向量，如果基因存在于相应的通路中，则该通路对应维度赋值1，否则赋值0；然后计算两个基因的向量间的余弦相似性作为基因间的基因通路共现关系，用公式表示为：

其中，

和

分别表示基因G_i和G_j的向量，R_path(G_i,G_j)表示余弦相似性。

实施例中，基因语义相似性是使用Wang方法计算GO术语的语义相似性，通过BMA策略聚合GO术语相似性得分来计算基因语义相似度。一个GO术语A可以表示为DAG_A，即DAG_A＝(A,T_A,E_A)，其中T_A表示在DAG_A中的GO术语的集合，包括术语A和其在GO图中所有的祖先术语，而E_A表示在DAG_A中连接GO术语的边集合。为了定量计算，将术语A的语义值定义为所有在DAG_A中的术语对A的语义的总贡献，其中在DAG_A中与术语A越接近的术语，其贡献的值越大。因此，定义一个术语t对于A的贡献值为S_A(t)，对于DAG_A中的任意的术语t，它对应A的s值为：

其中，w_e表示E_A中的连接术语t和其子术语t′的边e的术语贡献因子。

由此，计算术语A的语义值SV(A)为，

因此，给定两个GO术语A和B，两者之间的语义相似性得分sim_Wang(A,B)定义为：

由于一个基因存在多个GO术语注释，因此基因的语义相似性需要通过聚合与基因相关的多个GO术语之间的不同语义相似性得分。存在不同的聚合方式，其中最佳匹配平均法(Best–Match A，BMA)使用最佳匹配平均策略，计算每行和每列上所有最大相似性的平均值sim_BMA(G_i,G_j)，定义为：

其中，go_i,go_j分别表示两个与基因相关的多个GO术语，n和m表示GO术语的个数。

基于以上分析，基因语义相似性的计算方式包括：首先根据生物过程、分子功能和细胞成分这三类基因本体注释信息，利用GO图的拓扑性来计算与基因相关的多个GO术语间的不同语义相似性得分，然后通过使用最佳匹配平均法来聚合不同语义相似性得分来计算基因间的语义相似性。

具体地，使用R软件包GOSemSim，设置mgeneSim函数的参数来实现计算，将“measure”参数设置为“Wang”，“combined”参数设置为“BMA”。并通过将相应的参数分配给“BP”(生物过程)、“MF”(分子功能)和“CC”(细胞成分)，来限制计算中使用的GO术语，即计算采用的与基因相关的多个GO术语限定在生物过程、分子功能和细胞成分这三类基因本体注释信息中，因此，给定一对基因G_i和G_j，计算它们的语义相似性得分为，

其中，

分别为根据三类基因本体计算的基因语义相似性，通过加权平均获得最终的基因语义相似性得分。并对基因语义相似性进行归一化处理，归一化到[0,1]之间。

实施例中，将蛋白质-蛋白质相互作用、组织共表达模式、基因序列相似性、基因通路共现关系和基因语义相似性作为确定基因之间的相关性值，依据基因之间的相关性值建立基因关联图谱，其中，基因关联图谱中基因的相关性值在[0,1]的范围内，其中1表示最强的相关性值，0表示最弱的相关性值。

步骤2，获取癌症基因组图谱的癌症多组学数据并进行预处理后，生成基因对应的多组学特征矩阵。

实施例中，首先获取癌症基因组图谱(The Cancer Genome Atlas,TCGA)的癌症多组学数据包括体细胞突变数据、拷贝数变异数据、基因表达数据和DNA甲基化数据，这些数据一共有8000多个样本，涵盖了16种不同的癌症类型。在分析中，仅保留可获取到癌症和正常组织DNA甲基化数据的癌症类型，并且存在经过预处理且批次效应校正的基因表达数据。

然后对体细胞突变数据、拷贝数变异数据、基因表达数据和DNA甲基化数据分别进行处理以得到每个基因对应的基因突变率、拷贝数变异率、差异表达值和基因甲基化水平，将每个基因对应的基因突变率、拷贝数变异率、差异表达值和基因甲基化水平进行拼接作为基因对应的多组学特征，形成基因对应的多组学特征矩阵。

实施例中，对体细胞突变数据进行处理的方式包括：从体细胞突变数据中筛去超突变样本的数据后，对每种癌症类型中每个基因计算体细胞突变率，其中，体细胞突变频率为基因中非沉默突变的数量除以外显子基因长度。

实施例中，拷贝数变异数据使用下载自Firehose(https://gdac.broadinstitute.org)的GISTIC2的拷贝数变异(CNV)分析结果，同时收集了扩增和缺失的基因。对拷贝数变异数据进行处理的方式包括：从拷贝数变异数据中筛去超突变样本的拷贝数后，对每种癌症类型中每个基因计算拷贝数变异率，其中，拷贝数突变率为基因在对应癌症类型样本中被扩增或缺失的次数。

实施例中，对基因表达数据进行处理的方式包括：使用了Wang等人的数据集，其中来自TCGA的癌症样本和癌旁样本的RNA-seq数据以及来自GTEx的正常样本的基因表达数据，使用ComBat进行批次校正，并进行分位数标准化(Quantile Normalization)后。合并癌旁样本和正常样本作为与癌症样本匹配的正常样本。对于每个基因，差异表达值计算为该基因在癌症样本与匹配的正常样本中的表达均值之间的log2倍变化，如果在正常样本或癌症样本中未测量到基因的基因表达数据，则不计算该基因的基因表达值，将其设置为0。

实施例中，从TCGA 450K甲基化芯片数据中收集了癌症和邻近正常组织的DNA甲基化数据。对DNA甲基化数据进行处理的方式包括：根据DNA甲基化数据，首先对于每个基因根据GENCODE注释将启动子区域定义为注释转录本5'起始位点前后N个碱基对；然后对定义的启动子区域内所有CpG位点的beta(β)值进行平均，以计算每个基因的平均启动子甲基化水平，并进行批次校正，N的取值为1000-5000，优选为1000。

考虑到批次效应，对每种癌症类型使用ComBat，并使用样品的板号作为批次变量。对于癌症类型中的每个基因，计算基因的差异甲基化水平

其中，c表示特定癌症类型，

分别为癌症样本和正常样本中第i个基因的甲基化水平，S_C为特定癌症类型的所有样本数，s表示样本索引。

步骤3，根据基因关联图谱和基因对应的多组学特征矩阵构建多维度基因网络。

实施例中，在构建多维度基因网络时，首先通过设定相关性阈值对基因关联图谱中小于相关性阈值的基因之间的相关性进行滤除。具体地，通过将基于通路共现和序列相似性的基因相似度矩阵的阈值设为0.5，将基于语义相似性、PPI和组织共表达的基因相似度矩阵的阈值设置为0.8，来过滤其中弱基因关联。

如图2所示，然后以基因作为节点，以多组学特征矩阵中基因对应的多组学特征作为节点属性，根据滤除后的基因关联图谱中基因之间的相关性作为节点之间的复用边，以构建多维度基因网络，表示为由一组N个节点集V＝{v₁,…,v_N}和D个边集{E₁,…,E_D}组成，每个边集E_d描述了相应的第d个维度上的节点之间的第d种关联，D种类型的关系用D个邻接矩阵{A¹,…,A^D}表示。

实施例中，在多维基因网络中，每个节点的特征为一个64维向量。由16种癌症类型的4种组学类型的值组成，即每种癌症类型计算体细胞突变率、拷贝数变异率、基因甲基化水平和基因表达值。所有四个组学数据集都单独进行预处理，然后拼接成64维的特征向量。在网络中，若存在基因缺失对应组学类型数据时，设置缺失值为0。在连接这些数据之前，需要进行逐行的最小-最大(Min-max)归一化。由此，得到一个基因特征矩阵

其中N表示网络中的所有基因数，F表示每个基因的特征数。

步骤4，利用癌症驱动基因预测模型对多维度基因网络进行预测计算，以得到癌症驱动基因预测结果。

如图3所示，实施例中，癌症驱动基因预测模型包括多维度基因图表征模块、联合学习模块以及驱动基因预测模块，利用利用癌症驱动基因预测模型对多维度基因网络进行预测计算包括：利用多维度基因图表征模块采用图注意力网络对输入的多维度基因网络进行多维度特征提取以得到不同维度的基因表征，利用联合学习模块对不同维度的基因表征通过多头注意力机制实现跨维度的信息共享，获得同时融合了维度相关的全局信息和跨维度信息的共享基因表征，使用注意力机制计算不同维度基因表征的重要性，并根据重要性将所有维度的共享基因表征自适应融合为融合基因表征，利用驱动基因预测模块对融合基因表征进行计算以预测癌症驱动基因。

在多维度基因图表征模块中，由至少两层图注意力网络层的图注意力网络对从多维度基因网络中分离的每个维度的基因网络进行特征提取，以得到每个维度的基因表征。具体地，用两层分别为300、100个神经元的GAT的卷积层(GATConv)组成一个GAT编码器，应用于维度内的相互作用，分别生成维度特定的基因表征Z。为了提高性能，在每个GAT层应用多头注意力机制。GAT是一种GNN方法，使用注意力机制来聚合邻居节点的特征。形式上，给定输入节点特征

其中N是节点数，F是每个节点的特征数。一个GAT层通过以下步骤更新节点的基因表征：

其中，e_ij表示邻居节点v_j到v_i的注意力权重，W表示节点特征变换的矩阵，a(·)表示计算两个节点相关度的函数，||表示向量拼接操作，

表示权重参数，LeakReLU(·)表示LeakReLU函数，softmax(·)表示softmax函数，α_ij表示权重系数，K表示多头注意力的参数，

表示节点v_i新的特征向量。

在联合学习模块中，首先采用多头注意力机制对不同维度的基因表征实现跨维度的信息共享，以得到融合了维度相关的全局信息和跨维度信息的共享基因表征，用公式表示为：

K_i＝Z_iW_k,Q_i＝Z_iW_q

其中，i表示维度的索引，D表示维度数量，Z_i、W_k、W_q、

分别表示第i表示维度的基因表征、关键矩阵、查询矩阵、关键值、查询值，上标T表示转置，k表示关键矩阵的维度，

w_i＝softmax(q^T·tanh(W·(Z′_i)^T+b))

在驱动基因预测模块中，采用多层感知机对融合基因表征进行计算以预测癌症驱动基因。

需要说明的是，所述癌症驱动基因预测模型在被应用之前，需要经过参数优化，参数优化时采用的训练数据集中，阳性样本是从多个来源收集的已知的癌症基因列表(包括NCG v6.0、COSMIC CGC v91和DigSEE)，NCG是一个癌症驱动基因数据库，包括有已知的癌症基因和候选的癌症基因。COSMIC CGC是一个收录与癌症相关的驱动突变和驱动基因的数据库，目前收录了723个基因，详细记录了每个基因的功能和驱动癌症的作用，并将其汇总成10个癌症功能特征。DigSEE是一组收集自文献挖掘的85个高置信度的癌症基因。阴性样本是从所有基因列表开始递归删除潜在的癌症相关基因(NCG收录的基因、与KEGG数据库中的癌症通路相关的基因、存在于OMIM中的基因、MutSigdb预测与癌症有关的基因以及其表达与癌症基因表达相关的基因)，得到的最有可能与癌症无关的基因。

参数优化时采用的测试数据集构建方式包括：从其他两个来源(OncoKB数据库和ONGene数据库)收集了两个额外的癌症基因集，删除与训练数据集重叠的基因后，将癌症基因集中的命中基因作为真阳性，而其他所有未包括在内的基因则作为假阳性，构建两个独立的测试数据集。

利用上述训练数据集进行癌症驱动基因预测模型参数优化时，由于标签的不平衡，对阳性样本增加2.7的权重。采用以预测癌症驱动基因和真值癌症驱动基因的交叉熵作为损失函数。

为证明癌症驱动基因预测模型的测试效果，实施例给出了本发明提供的癌症驱动基因预测模型MODIG与其他方法(EMOGI、MTGCN、Chebnet、GCN和GAT)的实验结果对比图。EMOGI是一种基于GCN的方法，它利用多组学数据预测癌症驱动基因。MTGCN是一个基于GCN的多任务学习框架，它同时优化节点预测和链路预测任务。GCN是一个典型的图神经网络，聚集了其直接邻居和自身的特征。Chebnet是一个利用Chebyshev滤波器改进的GCN模型。GAT是一种基于GCN的方法，应用注意力机制来聚合节点特征。如图4所示，为了进行公平的比较，所有的方法都使用经过同样处理的特征矩阵和PPI网络。十次五折交叉验证以及在独立测试集进行的实验结果均表明本发明构建的癌症驱动基因预测模块的预测性能始终优于其他模型。在使用STRING集成的多维基因网络上，本发明的模型AUROC达到了0.9042，AUPR达到了0.8070，远优于其他方法。

需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)。即可以通过这些处理器实现基于图注意力网络和多组学融合的癌症驱动基因预测步骤。

基于同样的发明构思，如图5所示，实施例还提供了一种基于图注意力网络和多组学融合的癌症驱动基因预测装置，包括：

癌症驱动基因预测单元，用于利用癌症驱动基因预测模型对多维度基因网络进行预测计算，以得到癌症驱动基因预测结果。

需要说明的是，上述基于图注意力网络和多组学融合的癌症驱动基因预测装置在进行癌症驱动基因预测时，应以上述各功能单元的划分进行举例说明，可以根据需要将上述功能分配由不同的功能单元完成，即在终端或服务器的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。具体实现过程详见步骤1-步骤4所示的基于图注意力网络和多组学融合的癌症驱动基因预测步骤实施例，这里不再赘述。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图注意力网络和多组学融合的癌症驱动基因预测装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，其特征在于，所述存储器中还存储有包括多维度基因图表征模块、联合学习模块以及驱动基因预测模块的癌症驱动基因预测模型，所述处理器执行所述计算机程序时实现基于图注意力网络和多组学融合的癌症驱动基因预测步骤，包括：

步骤1，获取基因相关数据并构建基因关联图谱；

2.根据权利要求1所述的基于图注意力网络和多组学融合的癌症驱动基因预测装置，其特征在于，获取的基因相关数据包括：蛋白质-蛋白质相互作用网络、基因序列数据、正常人体组织基因表达数据、基因通路信息以及基因本体论注释信息；

3.根据权利要求2所述的基于图注意力网络和多组学融合的癌症驱动基因预测装置，其特征在于，所述组织共表达模式的计算方式包括：首先根据正常人体组织基因表达数据为每一个基因构建基因表达向量，将基因表达向量中每个维度对应于每个组织中基因的表达水平，然后基于基因表达向量的皮尔森相关系数的绝对值计算基因间的共表达模式，用公式表示为：

其中，R_coexp(G_i,G_j)表示基因G_i和G_j之间共表达模式，

4.根据权利要求1所述的基于图注意力网络和多组学融合的癌症驱动基因预测装置，其特征在于，获取的癌症多组学数据包括体细胞突变数据、拷贝数变异数据、基因表达数据和DNA甲基化数据；

5.根据权利要求3所述的基于图注意力网络和多组学融合的癌症驱动基因预测装置，其特征在于，对体细胞突变数据进行处理的方式包括：从体细胞突变数据中筛去超突变样本的数据后，对每种癌症类型中每个基因计算体细胞突变率，其中，体细胞突变频率为基因中非沉默突变的数量除以外显子基因长度；

6.根据权利要求1所述的基于图注意力网络和多组学融合的癌症驱动基因预测装置，其特征在于，所述根据基因关联图谱和基因对应的多组学特征矩阵构建多维度基因网络，包括：

7.根据权利要求1所述的基于图注意力网络和多组学融合的癌症驱动基因预测装置，其特征在于，在多维度基因图表征模块中，由至少两层图注意力网络层的图注意力网络对从多维度基因网络中分离的每个维度的基因网络进行特征提取，以得到每个维度的基因表征。

8.根据权利要求1所述的基于图注意力网络和多组学融合的癌症驱动基因预测装置，其特征在于，在联合学习模块中，首先采用多头注意力机制对不同维度的基因表征实现跨维度的信息共享，以得到融合了维度相关的全局信息和跨维度信息的共享基因表征，用公式表示为：

K_i＝Z_iW_k,Q_i＝Z_iW_q

w_i＝softmax(q^T·tanh(W·(Z′_i)^T+b))

9.根据权利要求1所述的基于图注意力网络和多组学融合的癌症驱动基因预测装置，其特征在于，在驱动基因预测模块中，采用多层感知机对融合基因表征进行计算以预测癌症驱动基因；

10.一种基于图注意力网络和多组学融合的癌症驱动基因预测装置，其特征在于，包括：