CN115240777A

CN115240777A - 基于图神经网络的合成致死基因预测方法、装置、终端及介质

Info

Publication number: CN115240777A
Application number: CN202210953941.1A
Authority: CN
Inventors: 郑杰; 刘鑫; 白芳; 虞佳乐; 陶思宇; 杨贝媛; 王诗珂; 王林
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2022-10-25
Anticipated expiration: 2042-08-10
Also published as: CN115240777B

Abstract

本申请提供基于图神经网络的合成致死基因预测方法、装置、终端及介质，获取多个合成致死基因数据；对多个合成致死基因数据进行预处理；基于预处理后的合成致死基因数据，构建用于预测基因与基因之间是否存在合成致死关系的图神经网络模型。本发明提供了基于成对关系学习的图神经网络，其以两个基因之间成对相互作用的表示，从而进行合成致死关系的预测；图神经网络利用注意力机制，通过封闭子图中的加权路径对合成致死机制进行解释。此外，大量的实验结果表明图神经网络比最好的基线有很大的优势，并且在多种实际情况下都有很好的泛化能力。

Description

基于图神经网络的合成致死基因预测方法、装置、终端及介质

技术领域

本申请涉及人工智能技术领域，特别是涉及基于图神经网络的合成致死基因预测方法、装置、终端及介质。

背景技术

合成致死(Synthetic Lethality,SL)是一种基因相互作用，即两个基因同时失活导致细胞死亡，而单独一个基因的失活并不影响细胞的活力。在一对SL中，如果一个基因有癌症特异性突变，那么另一个基因可以成为潜在的药物靶点，因为对后者基因的扰动可以选择性地杀死癌细胞。SL是一种具有潜力的癌症治疗策略，可以促进间接靶向不可药用的致癌基因，从而扩大抗癌治疗靶点的范围。关于SL的研究已经引起了癌症生物学家和制药业的广泛关注。近年来，一些采用SL概念的药物已经成功上市，例如，针对BRCA1/2基因突变的卵巢癌患者使用奥拉帕利靶向PARP1酶的药物，实现了癌症药物研发领域的一个里程碑。

目前，识别SL基因对主要有两种策略，即实验性筛选和计算性预测。实验筛选采用湿式实验室技术，如RNA干扰或CRISPR来扰乱或敲除模型生物或人类细胞系中的相关基因。这些方法存在一些缺点，如成本高、脱靶效应和不同细胞系之间缺乏一致性。为了解决这些问题，最近出现了利用数据驱动的建模来预测潜在的SL基因对的计算方法。

现有的数据驱动的SL预测算法可以分为基于假设的统计方法和有监督的机器学习方法。基于假设的统计方法首先会作出SL机制相关的假设，然后使用统计推理来推断SLs，例如 DAISY，MiSL等方法。然而，这些基于假设的方法高度依赖于人为的假设，需要先验知识，而且可能不全面或不客观。随着机器学习技术的发展和已知SL基因对作为标签的积累，有越来越多的基于监督学习的SL预测方法被提出。有研究者使用多组学数据(即来自TCGA 的突变、基因表达和拷贝数改变数据)来选择基因特征，然后通过随机森林(RandomForest， RF)预测SL的相互作用。然而，这些传统的机器学习方法需要手动进行特征工程和特征选择，这需要先验知识，并可能导致结果的偏差。

最近，图神经网络由于具有直接处理图结构数据的能力，已被广泛用于生物医学网络的建模，如药物-药物相互作用预测和药物-目标相互作用预测。SL相互作用也可以用图来表示，每个节点代表一个基因，每条边代表两个基因之间的SL关系，它被称为SL图。有研究者在 SL图上使用图卷积网络和图注意力网络预测SLs。此外，还有研究者利用生物医学知识图谱 (Knowledge Graph，KG)来提高SL预测的性能。然而，这种方法使用的以基因为中心的子图是通过邻域抽样产生的，可能会遗漏一些重要的实体，从而影响预测性能。此外，它用图神经网络分别学习两个基因的表示，这样的双塔结构善于学习以基因为中心的周围环境，但可能无法捕捉到两个基因之间的内在相互作用。

尽管有许多SL基因对已经被发现，但除了包括BRCA1/2和PARP在内的少数SL基因对外，很少有成功应用于癌症治疗的。开发基于SL的癌症治疗方法的一个关键是了解其背后的机制。不幸的是，到目前为止，很少有机器学习模型在SL机制方面有足够的可解释性。

发明内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供基于图神经网络的合成致死基因预测方法、装置、终端及介质，用于解决机器学习模型预测SL性能不足以及在SL机制方面没有足够的可解释性的技术问题。

为实现上述目的及其他相关目的，本申请的第一方面提供一种基于图神经网络的合成致死基因预测方法，包括：获取多个合成致死基因数据；对所述多个合成致死基因数据进行预处理，包括从中提取具有多组学数据的部分基因对作为监督学习的合成致死标签；将合成致死知识图谱中已知的合成致死基因对移除；并随机采样基因间关系未知的基因对作为负样本；基于预处理后的合成致死基因数据，构建用于预测基因与基因之间是否存在合成致死关系的图神经网络模型。

于本申请的第一方面的一些实施例中，所述图神经网络模型的构建过程包括：构建成对基因的封闭子图；基于注意力嵌入传播模型区分所述封闭子图中各条边的权重以得到加权封闭子图，并从所述加权封闭子图中学习潜在特征；将隐式的和显式的成对相互作用特征进行特征融合以得到融合有基因对的隐式特征和显式特征的表示；根据所述融合有基因对的隐式特征和显式特征的表示，预测基因之间是否存在合成致死关系，并通过最小化目标函数来优化图神经网络模型。

于本申请的第一方面的一些实施例中，所述构建成对基因的封闭子图的过程包括：从合成致死知识图谱中收集所述成对基因中每个基因的与之直接连接的全部邻近基因；取各所述邻近基因之间的交集以生成这对成对基因的封闭子图。

于本申请的第一方面的一些实施例中，所述基于注意力嵌入传播模型区分所述封闭子图中各条边的权重以得到加权封闭子图的过程包括：计算与当前节点位于图神经网络同一层中与之直接连接的邻居节点通过特定关系向所述当前节点进行的信息传递；通过注意力机制来计算注意力权重；所述注意力权重用于表示位于图神经网络同一层中的邻居节点通过特定关系向当前节点传递信息的多少；通过节点的自我更新及来自其邻居节点的信息传递来更新该节点的表示；将隐式的和显式的成对相互作用特征进行特征融合以得到融合有基因对的隐式特征和显式特征的表示。

于本申请的第一方面的一些实施例中，所述与当前节点位于图神经网络同一层中与之直接连接的邻居节点通过特定关系向所述当前节点进行的信息传递的表示如下：

其中，R是合成致死知识图谱中关系类型的数量； N_r(u)表示节点u在关系r下的直接连接邻居的集合；

是第l层中在关系r上转换隐藏表示的权重矩阵；

是注意力权重，控制第l层中节点v通过关系r向节点u传递多少信息；

表示第(l-1)层中节点v。

于本申请的第一方面的一些实施例中，所述注意力权重的表示如下：

其中，

和

是节点u和v在图神经网络第(l-1)层中的表示，e_r是关系r的嵌入，

是拼接操作。

和

是注意力权重矩阵，σ()是sigmoid函数。注意力得分考虑了节点u和v的信息以及它们之间的关系。

于本申请的第一方面的一些实施例中，所述根据所述融合有基因对的隐式特征和显式特征的表示，预测基因之间是否存在合成致死关系，并通过最小化目标函数来优化图神经网络模型，包括：p^_uv＝W_predh_uv；其中，p^_uv预测概率，若概率小于预设阈值则表示基因之间不存在合成致死关系；反之则表示基因之间存在合成致死关系；W_pred是解码器的重量矩阵； h_uv是融合有基因对的隐式特征和显式特征的表示；h_uv被表示为

将每一层的节点层的表示连接起来得到：

将每一层的图层的表示连接起来得到：

隐式特征：

基因u编码后的特征向量：

其中

和

表示基因u的基因表达、基因突变和基因拷贝数改变的三个向量；基因v编码后的特征向量：

其中

和

表示基因v的基因表达、基因突变和基因拷贝数改变的三个向量；所述通过最小化目标函数来优化图神经网络模型的公式如下：

其中，L_total是目标函数，通过最小化目标函数来优化图神经网络模型；L_CE是用于二分类任务的交叉熵损失函数；L_W是模型所有参数的L2正则项；λ是L2正则项系数；交叉熵损失函数：

其中τ是训练集，p_uv是基因u与基因v之间是否有SL关系的真实标签。

为实现上述目的及其他相关目的，本申请的第二方面提供一种基于图神经网络的合成致死基因预测装置，包括：成对封闭子图模块，用于构建成对基因的封闭子图；注意力嵌入传播模块，用于基于注意力嵌入传播模型区分所述封闭子图中各条边的权重以得到加权封闭子图，并从所述加权封闭子图中学习潜在特征；合成致死基因预测模块，用于将隐式的和显式的成对相互作用特征进行特征融合以得到融合有基因对的隐式特征和显式特征的表示；并根据所述融合有基因对的隐式特征和显式特征的表示，预测基因之间是否存在合成致死关系。

为实现上述目的及其他相关目的，本申请的第三方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于图神经网络的合成致死基因预测方法。

为实现上述目的及其他相关目的，本申请的第四方面提供一种电子终端，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行所述基于图神经网络的合成致死基因预测方法。

如上所述，本申请的基于图神经网络的合成致死基因预测方法、装置、终端及介质，具有以下有益效果：本发明提供了基于成对关系学习的图神经网络，其以两个基因之间成对相互作用的表示，从而进行合成致死关系的预测；图神经网络利用注意力机制，通过封闭子图中的加权路径对合成致死机制进行解释。此外，大量的实验结果表明图神经网络比最好的基线有很大的优势，并且在多种实际情况下都有很好的泛化能力。

附图说明

图1显示为本申请一实施例中的一种基于图神经网络的合成致死基因预测方法的流程示意图。

图2显示为本申请一实施例中的图神经网络模型的构建过程示意图。

图3显示为本申请一实施例中合成致死基因预测终端的结构示意图。

图4显示为本申请一实施例中的一种基于图神经网络的合成致死基因预测装置的结构示意图。

图5显示为本申请一实施例中图神经网络的模型框架示意图。

图6显示为本申请一实施例中的实验场景示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

SL合成致死主要通过实验筛选和计算预测来确定。目前的机器学习算法大多是单独学习每个基因的特征，忽略了两个基因之间成对相互作用的表征。此外，作为将SL转化为癌症治疗药物的关键，SL合成致死的机制往往并不清楚。为了填补这些空白，本发明提供一种基于图神经网络的合成致死基因预测方法、装置、终端及介质，用以学习两个基因之间成对相互作用的表示，从而进行SL的预测。此外，PiLSL(基于成对关系学习的图神经网络，是指以学习两个基因之间成对相互作用的表示从而进行合成致死预测)利用注意力机制，通过封闭子图中的加权路径对SL机制进行解释。大量的实验结果表明PiLSL比最好的基线有很大的优势，并且在三种实际情况下有很好的泛化能力。

本发明旨在基于成对关系学习的图神经网络模型对SL基因进行预测和解释。首先，从生物医学知识图谱(Knowledge Graph，KG)中为给定的一对基因构建一个封闭子图(即局部子图)；其次，在图神经网络中设计一层注意力嵌入传播层，以区分封闭子图中各条边的重要性，并从加权封闭子图中学习成对关系的隐式特征；接着，进一步融合从封闭子图中学习到的隐式特征和从多组学数据中学习到的显式特征，以获得用于SL预测的强大的基因对表征；最后，经过解码器预测该对基因之间存在SL关系的概率。广泛的实验结果表明，该技术在很大程度上超过了现有的方法，并且在三种实际情况下具有良好的泛化性能。此外，该技术利用注意机制的构建的加权的封闭子图提供了加权路径来解释SL机制。

为了使本发明的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本发明实施例中的技术方案的进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定发明。

在对本发明进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释：

<1>SL(Synthetic Lethality)：合成致死，是指两个非致死基因同时被抑制，导致细胞死亡的现象。

<2>图神经网络(Graph NeuralNetwork,GNN)：使用神经网络来学习图结构数据，提取和发掘图结构数据中的特征和模式，满足聚类、分类、预测、分割、生成等图学习任务需求的算法总称。GNN的应用很广，在节点层面，常见的有节点分类、节点聚合、节点表示学习。在边层面，则有边分类、边聚类以及链接预测。在图层面，图分类、图生成、子图划分、图相似度分析等应用较为广泛。按照图的种类划分，可以分为引文网络、社交网络、交通网络、图像、化合物分子结构、蛋白质网络等。按照应用领域划分，可以分为自然语言处理、图像处理、轨迹预测、物理化学和药物医学等。

本发明实施例提供基于图神经网络的合成致死基因预测方法、基于图神经网络的合成致死基因预测方法的系统、以及存储用于实现基于图神经网络的合成致死基因预测方法的可执行程序的存储介质。就基于图神经网络的合成致死基因预测方法的实施而言，本发明实施例将对基于图神经网络的合成致死基因预测的示例性实施场景进行说明。

如图1所示，展示了本发明实施例中的一种基于图神经网络的合成致死基因预测方法的流程示意图。本实施例中的基于图神经网络的合成致死基因预测方法主要包括如下各步骤：

步骤S11：获取多个合成致死基因数据。

具体而言，可从合成致死基因对的综合数据库(SynLethDB)中获取合成致死知识图谱及多个合成致死基因对，并从癌症依赖性图谱(DepMap)中获取多种组学数据。应理解的是，合成致死基因对的综合数据库(SynLethDB)是第一个关于合成性致死(SyntheticLethality,SL) 的综合数据库(下文简称为SynLethDB数据库)，一直被广泛地用作真实的SL数据。最近发布的SynLethDB数据库的第二个版本(SynLethDB 2.0)包括一组5个物种(人类、苍蝇、蠕虫、小鼠和酵母)的50868个SL基因对和一个合成致死知识图谱(SynLethKG)，其中包括11种实体和27种关系。除此之外，还使用多组学数据来丰富基因特征，多组学数据下载于癌症依赖性图谱(DepMap)，共有三种组学数据，分别是：包含来自癌症依赖性图谱(DepMap) 的细胞系的蛋白质编码基因的基因表达转录本长度(如TPM值、RPKM值或FPKM值等)、 DepMap细胞系中的体细胞点突变信息、基因拷贝数变化数据。

步骤S12：对所述多个合成致死基因数据进行预处理，包括从中提取具有多组学数据的部分基因对作为监督学习的合成致死标签；将合成致死知识图谱中已知的合成致死基因对移除；并随机采样基因间关系未知的基因对作为负样本。

本步骤的目的在于对步骤S11中获取的数据进行预处理，具体而言：合成致死基因对的综合数据库(SynLethDB)中有32,561个SL基因对中涉及的9,516个基因有多组学数据，这些基因对被用作监督学习的SL标签。为了确保信息不会泄露，从合成致死知识图谱(SynLethKG)得出的输入KG中移除所有已知的SL，最后得到一个由11种类型的54,012 个节点和24种关系的2,231,921条边组成的知识图谱。此外为了平衡正负样本，随机采样基因之间关系的未知的基因对作为负样本。

步骤S13：基于预处理后的合成致死基因数据，构建用于预测基因与基因之间是否存在合成致死关系的图神经网络模型。

具体而言，给定知识图谱G_KG＝(V,E)，其中V是实体的集合，E是边(定义为三元组T＝ (h,r,t))的集合以及构建好的带有标签的基因S∈(0,1)^n×n。本发明的目标是学习一个映射函数F(ω):D×D→[0,1]基因与基因之间存在SL关系的概率，其中ω是权重参数。

于本实施例中，所述图神经网络模型的构建过程如图2所示如下：

步骤S131：构建成对基因的封闭子图。

在本实施例中，所述构建成对基因的封闭子图的过程包括：从合成致死知识图谱中收集所述成对基因中每个基因的与之直接连接的全部邻近基因；取各所述邻近基因之间的交集以生成这对成对基因的封闭子图。应理解的是，在合成致死知识图谱(SynLethKG)中，有丰富的生物医学实体通过各种关系与基因相连，两个基因之间存在相互作用的信息；因此，为了捕捉基因与基因之间的相互作用信息，专注于每个基因对的局部封闭子图。

举例来说，对于给定的一对基因u和v，构建成对基因u和v的封闭子图的过程为：

首先从合成致死知识图谱(SynLethKG)中收集每个基因的k-跳邻居N_k(u)＝{s|d(s,u)≤ k}和N_k(v)＝{s|d(s,v)≤k}；其中d(·,·)表示G_KG中两个基因之间的最短距离，由两个基因之间最短路径上的边的数量来衡量。

然后，取其k-跳邻居节点的交集以生成一个成对的封闭子图：G_en＝{(u,r,v)|u,v∈ N_k(u)∩N_k(v),r∈R}；那些孤立的或与两个基因中的任何一个距离大于k的实体将被删除。

步骤S132：基于注意力嵌入传播模型区分所述封闭子图中各条边的权重以得到加权封闭子图，并从所述加权封闭子图中学习潜在特征。

具体而言，合成致死知识图谱(SynLethKG)包含很多信息，但不是所有的部分都有利于学习基因对的表征。对于合成致死知识图谱(SynLethKG)中的两个实体，一些路径可能提供推断它们之间关系所需的逻辑证据。为了减少噪声信息并从预测中提取生物学意义，可利用注意力嵌入传播来区分封闭子图中各条边的权重(用于表示各条边的重要性)，并从加权封闭子图中学习潜在的特征。

于本实施例中，所述注意力嵌入传播模型是建立在图卷积网络架构上的，由三部分组成，分别是：信息传递、注意力权重计算和信息聚合。因此，所述基于注意力嵌入传播模型区分所述封闭子图中各条边的权重以得到加权封闭子图的过程包括：

步骤S1321：计算与当前节点位于图神经网络同一层中与之直接连接的邻居节点通过特定关系向所述当前节点进行的信息传递。可使用一个节点u，结合节点u在第l层的邻居进行表示：

其中，R是合成致死知识图谱(SynLethKG)中关系类型的数量；N_r(u)表示节点u在关系 r下的直接连接邻居的集合；

是第l层中在关系r上转换隐藏表示的权重矩阵；

表示第(l-1)层中节点v。

步骤S1322：通过注意力机制来计算注意力权重；所述注意力权重用于表示位于图神经网络同一层中的邻居节点通过特定关系向当前节点传递信息的多少，具体表示为：

其中，

和

是拼接操作。

和

是注意力权重矩阵，σ()是sigmoid函数。注意力得分考虑了节点u 和v的信息以及它们之间的关系。

步骤S1323：通过节点的自我更新及来自其邻居节点的信息传递来更新该节点的表示，具体如下：

其中，

表示自我更新的权重矩阵；

表示节点u在图神经网络第(l-1)层中的表示；

表示在图神经网络第l层中的节点u的邻居节点向其传递信息的情况。

步骤S133：将隐式的和显式的成对相互作用特征进行特征融合以得到融合有基因对的隐式特征和显式特征的表示。

具体而言，从成对的封闭子图中，可以学习到基因对的隐式的相互作用特征，还整合来自多组学数据的显式的相互作用特征，以捕捉特定背景下的成对相互作用信息，最后将隐式和显式的成对相互作用特征融合。

隐式的相互作用特征由节点层面和子图层面的信息组成：在节点层面，第l层的每个节点将通过第l层的注意力嵌入传播获得对应的表示h^(l)；在图层面，通过在第l层取封闭子图中所有节点表示的平均值，得到

的表示如下：

其中，V是封闭子图G_en中的节点集合。

进一步地，基于分层聚合机制，将图神经网络每一层的节点层面的表示和图层面的表示连接起来，以实现更好的结构感知的表示。将图神经网络每一层的节点层面的表示和图层面的表示连接起来后的表示为：

和

公式6)其中L表示层数。

显式的成对相互作用特征由2层感知器(MLP)编码得到，较为典型的感知器(MLP)的结构包括三层：输入层、隐藏层和输出层，MLP神经网络不同层之间是全连接结构，即上一层的任何一个神经元与下一层的所有神经元都有连接。以基因u为例，基因u编码后的特征向量为：

其中，

和

表示基因u的不同类型的组学特征(即基因表达、基因突变和基因拷贝数改变的三个向量)，

是连接操作。

为了解决多组学数据的高维度问题，将主成分分析(PCA)应用于三种组学数据的原始特征。对于每种类型的组学数据，根据经验将其维度降低到200。最后，将隐式的和显式的成对相互作用特征的表示拼接到基因对的表示中

步骤S134：根据所述融合有基因对的隐式特征和显式特征的表示，预测基因之间是否存在合成致死关系，并通过最小化目标函数来优化图神经网络模型。

具体而言，融合有基因对的隐式特征和显式特征的表示，用来预测相互作用的概率：

p^_uv＝W_predh_uv；公式8)

其中，W_pred是解码器的重量矩阵(3层MLP)；h_uv是融合有基因对的隐式特征和显式特征的表示。概率值较高的基因对更有可能存在SL关系，例如可将阈值设为0.5，即当p^_uv小于0.5时，对应标签为0，表示基因之间不存在合成致死关系，而当p^_uv大于等于0.5时，对应标签为1，表示基因之间存在合成致死关系。

进一步地，所述通过最小化目标函数来优化图神经网络模型的公式如下：

通过本实施例提供的基于图神经网络的合成致死基因预测方法，以两个基因之间成对相互作用的表示，从而进行合成致死关系的预测；图神经网络利用注意力机制，通过封闭子图中的加权路径对合成致死机制进行解释。此外，大量的实验结果表明图神经网络比最好的基线有很大的优势，并且在多种实际情况下都有很好的泛化能力。

本发明实施例提供的基于图神经网络的合成致死基因预测方法可以采用终端侧或服务器侧实施，就基于图神经网络的合成致死基因预测终端的硬件结构而言，请参阅图3，为本发明实施例提供的基于图神经网络的合成致死基因预测终端300的一个可选的硬件结构示意图，该终端300可以是移动电话、计算机设备、平板设备、个人数字处理设备、工厂后台处理设备等。基于图神经网络的合成致死基因预测终端300包括：至少一个处理器301、存储器302、至少一个网络接口304和用户接口306。装置中的各个组件通过总线系统305耦合在一起。可以理解的是，总线系统305用于实现这些组件之间的连接通信。总线系统305除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统。

其中，用户接口306可以包括显示器、键盘、鼠标、轨迹球、点击枪、按键、按钮、触感板或者触摸屏等。

可以理解，存储器302可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，StaticRandom Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous StaticRandomAccess Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类别的存储器。

本发明实施例中的存储器302用于存储各种类别的数据以支持基于图神经网络的合成致死基因预测终端300的操作。这些数据的示例包括：用于在基于图神经网络的合成致死基因预测终端300上操作的任何可执行程序，如操作系统3021和应用程序3022；操作系统3021 包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序3022可以包含各种应用程序，例如媒体播放器(MediaPlayer)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例提供的基于图神经网络的合成致死基因预测方法可以包含在应用程序3022中。

上述本发明实施例揭示的方法可以应用于处理器301中，或者由处理器301实现。处理器301可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器301中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器301 可以是通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器301可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器301可以是微处理器或者任何常规的处理器等。结合本发明实施例所提供的配件优化方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，基于图神经网络的合成致死基因预测终端300可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD， Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable LogicDevice)，用于执行前述方法。

如图4所示，展示了本发明实施例中的一种基于图神经网络的合成致死基因预测装置的结构示意图。本实施例中的合成致死基因预测装置400包括成对封闭子图模块401、注意力嵌入传播模块402、合成致死基因预测模块403。

所述成对封闭子图模块401用于构建成对基因的封闭子图；注意力嵌入传播模块402用于基于注意力嵌入传播模型区分所述封闭子图中各条边的权重以得到加权封闭子图，并从所述加权封闭子图中学习潜在特征；合成致死基因预测模块403用于将隐式的和显式的成对相互作用特征进行特征融合以得到融合有基因对的隐式特征和显式特征的表示；并根据所述融合有基因对的隐式特征和显式特征的表示，预测基因之间是否存在合成致死关系。

需要说明的是：上述实施例提供的基于图神经网络的合成致死基因预测装置在进行基于图神经网络的合成致死基因预测时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的基于图神经网络的合成致死基因预测装置与基于图神经网络的合成致死基因预测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

为便于本领域技术人员理解，现结合图5的图神经网络的模型框架进一步说明：

第一部分是成对封闭子图：根据基因A及其周围的多个邻居节点、基因B及其周围的多个邻居节点，构建得到成对基因(基因A和基因B)的封闭子图；其中，节点e1是基因A、基因B直接连接的邻居节点，e2、e3是基因B直接连接的邻居节点，e4、e5是基因A直接连接的邻居节点。

第二部分是注意力嵌入传播：先通过注意力机制来计算注意力权重；再计算与当前节点位于图神经网络同一层中与之直接连接的邻居节点通过特定关系向所述当前节点进行的信息传递；以图神经网络结构第一层的基因A为例：基因A与邻居节点e1之间基于关系r的注意力权重为

基因A与邻居节点e4之间基于关系r的注意力权重为

基因A与邻居节点e5之间基于关系r的注意力权重为

最后，通过节点的自我更新及来自其邻居节点的信息传递来更新该节点的表示，例如图神经网络结构第一层的基因A得到的更新结果为

第三部分是合成致死基因预测：将隐式的和显式的成对相互作用特征进行特征融合以得到融合有基因对(基因A和基因B)的隐式特征和显式特征的表示，最后经解码器进行解码后得到合成致死基因预测概率p^_AB。

为证明本发明提供的基于图神经网络的合成致死基因预测的优越性，本发明还提供相应的实验数据进行验证。实验场景如图6所示：为了评估本发明中的图神经网络模型的性能，共设置了三种实验场景。C1：数据集按基因对分割，其中测试集中的基因对的每个基因都可以出现在训练集中；C2：数据集按基因分割，其中测试集中的基因对的一个基因出现在训练集中；C3：数据集按基因分割，其中测试集中的基因对的每个基因都不出现在训练集中。

对比实验结果如下表所示：图神经网络模型(PiLSL)的表现在三个场景上的三个指标 (AUC，AUP和F1)均优于现有的基本模型，尤其是在C3实验场景中。

Note：Average and standard deviation of 5 fold cross validation，Forthese metrics，higher values indicate better performance.

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

于本申请提供的实施例中，所述计算机可读写存储介质可以包括只读存储器、随机存取存储器、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁存储设备、闪存、 U盘、移动硬盘、或者能够用于存储具有指令或数据结构形式的期望的程序代码并能够由计算机进行存取的任何其它介质。另外，任何连接都可以适当地称为计算机可读介质。例如，如果指令是使用同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或者诸如红外线、无线电和微波之类的无线技术，从网站、服务器或其它远程源发送的，则所述同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线电和微波之类的无线技术包括在所述介质的定义中。然而，应当理解的是，计算机可读写存储介质和数据存储介质不包括连接、载波、信号或者其它暂时性介质，而是旨在针对于非暂时性、有形的存储介质。如申请中所使用的磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中，磁盘通常磁性地复制数据，而光盘则用激光来光学地复制数据。

综上所述，本申请提供基于图神经网络的合成致死基因预测方法、装置、终端及介质，本发明提供了一种提高基于图神经网络的合成致死基因预测效率的方法，。所以，本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种基于图神经网络的合成致死基因预测方法，其特征在于，包括：

获取多个合成致死基因数据；

对所述多个合成致死基因数据进行预处理，包括从中提取具有多组学数据的部分基因对作为监督学习的合成致死标签；将合成致死知识图谱中已知的合成致死基因对移除；并随机采样基因间关系未知的基因对作为负样本；

基于预处理后的合成致死基因数据，构建用于预测基因与基因之间是否存在合成致死关系的图神经网络模型。

2.根据权利要求1所述的基于图神经网络的合成致死基因预测方法，其特征在于，所述图神经网络模型的构建过程包括：

构建成对基因的封闭子图；

基于注意力嵌入传播模型区分所述封闭子图中各条边的权重以得到加权封闭子图，并从所述加权封闭子图中学习潜在特征；

将隐式的和显式的成对相互作用特征进行特征融合以得到融合有基因对的隐式特征和显式特征的表示；

根据所述融合有基因对的隐式特征和显式特征的表示，预测基因之间是否存在合成致死关系，并通过最小化目标函数来优化图神经网络模型。

3.根据权利要求2所述的基于图神经网络的合成致死基因预测方法，其特征在于，所述构建成对基因的封闭子图的过程包括：从合成致死知识图谱中收集所述成对基因中每个基因的与之直接连接的全部邻近基因；取各所述邻近基因之间的交集以生成这对成对基因的封闭子图。

4.根据权利要求2所述的基于图神经网络的合成致死基因预测方法，其特征在于，所述基于注意力嵌入传播模型区分所述封闭子图中各条边的权重以得到加权封闭子图的过程包括：

计算与当前节点位于图神经网络同一层中与之直接连接的邻居节点通过特定关系向所述当前节点进行的信息传递；

通过注意力机制来计算注意力权重；所述注意力权重用于表示位于图神经网络同一层中的邻居节点通过特定关系向当前节点传递信息的多少；

通过节点的自我更新及来自其邻居节点的信息传递来更新该节点的表示；

将隐式的和显式的成对相互作用特征进行特征融合以得到融合有基因对的隐式特征和显式特征的表示。

5.根据权利要求4所述的基于图神经网络的合成致死基因预测方法，其特征在于，所述与当前节点位于图神经网络同一层中与之直接连接的邻居节点通过特定关系向所述当前节点进行的信息传递的表示如下：

其中，R是合成致死知识图谱中关系类型的数量；N_r(u)表示节点u在关系r下的直接连接邻居的集合；

是第l层中在关系r上转换隐藏表示的权重矩阵；

表示第(l-1)层中节点v。

6.根据权利要求4所述的基于图神经网络的合成致死基因预测方法，其特征在于，所述注意力权重的表示如下：

其中，

和

是拼接操作。

和

7.根据权利要求4所述的基于图神经网络的合成致死基因预测方法，其特征在于，所述根据所述融合有基因对的隐式特征和显式特征的表示，预测基因之间是否存在合成致死关系，并通过最小化目标函数来优化图神经网络模型，包括：

p^_uv＝W_predh_uv；

其中，p^_uv为预测概率，若概率小于预设阈值则表示基因之间不存在合成致死关系；反之则表示基因之间存在合成致死关系；W_pred是解码器的重量矩阵；h_uv是融合有基因对的显式特征h_u和隐式特征h_v的表示；h_uv被表示为

将每一层的节点层的表示连接起来得到：

将每一层的图层的表示连接起来得到：

隐式特征：

基因u编码后的特征向量：

其中

和

表示基因u的基因表达、基因突变和基因拷贝数改变的三个向量；

基因v编码后的特征向量：

其中

和

表示基因v的基因表达、基因突变和基因拷贝数改变的三个向量；

所述通过最小化目标函数来优化图神经网络模型的公式如下：

其中，L_total是目标函数，通过最小化目标函数来优化图神经网络模型；L_CE是用于二分类任务的交叉熵损失函数；L_W是模型所有参数的L2正则项；λ是L2正则项系数；

交叉熵损失函数：

8.一种基于图神经网络的合成致死基因预测装置，其特征在于，包括：

成对封闭子图模块，用于构建成对基因的封闭子图；

注意力嵌入传播模块，用于基于注意力嵌入传播模型区分所述封闭子图中各条边的权重以得到加权封闭子图，并从所述加权封闭子图中学习潜在特征；

合成致死基因预测模块，用于将隐式的和显式的成对相互作用特征进行特征融合以得到融合有基因对的隐式特征和显式特征的表示；并根据所述融合有基因对的隐式特征和显式特征的表示，预测基因之间是否存在合成致死关系。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述基于图神经网络的合成致死基因预测方法。

10.一种合成致死基因预测终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行如权利要求1至7中任一项所述基于图神经网络的合成致死基因预测方法。