CN111540405B

CN111540405B - 一种基于快速网络嵌入的疾病基因预测方法

Info

Publication number: CN111540405B
Application number: CN202010356861.9A
Authority: CN
Inventors: 张宁芮; 项炬; 李敏; 吕小毅; 陈晨; 严紫薇; 陈程
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2023-07-07
Anticipated expiration: 2040-04-29
Also published as: CN111540405A

Abstract

本发明公开了疾病基因预测技术领域，具体领域为一种基于快速网络嵌入的疾病基因预测方法，可以更有效地利用多种关联数据中的信息来预测疾病相关基因。其方法由四部分组成：(1)利用疾病‑基因、疾病‑表型、蛋白质‑蛋白质、基因‑GO关联等多种类型的关联数据构建异构网络；(2)采用快速网络嵌入方法提取疾病和基因的低维矢量表示；(3)使用低维矢量表示构建由疾病和基因组成的双层异构网络；(4)将异构网络传播应用于网络预测疾病相关基因。本方法有提高疾病基因预测能力方面的重要作用，并通过与最新算法的比较验证了本方法的优越性能。

Description

一种基于快速网络嵌入的疾病基因预测方法

技术领域

本发明涉及疾病基因预测技术领域，具体领域为一种基于快速网络嵌入的疾病基因预测方法。

背景技术

识别疾病相关基因对于复杂疾病的预防、诊断和治疗至关重要。传统的方法如连锁分析和全基因组关联研究对于系统地发现疾病相关基因是有用的。然而，这些方法通常提供包含数百个基因的候选列表，需要昂贵且耗时的实验识别候选列表中的真实疾病相关基因。因此，在过去的几十年里，人们提出了各种计算方法来预测疾病相关基因。基于网络的方法是预测疾病相关基因最常用的方法之一。随着蛋白质-蛋白质相互作用数据的积累，蛋白质-蛋白质相互作用网络作为蛋白质/基因的同质网络，被广泛应用于各种疾病-基因预测方法中，如随机游走重启(RWR)和扩散核(DK)；与表型相同或相似的疾病相关的基因通常被认为是功能相关的，而蛋白质/基因之间的功能相关性已经在已知的蛋白质-蛋白质相互作用网络中(部分)编码，并且与疾病相关的基因往往聚集在网络的附近，因此，基于蛋白质-蛋白质相互作用网络的疾病-基因预测方法理论上在很多情况下都应表现良好，特别是对于具有相当数量已知疾病基因的疾病。然而，实际情况并非如此，特别是在目前的蛋白质网络仍然不完整的情况下。基于此种情况，现提出一种充分利用多源生物信息来提高疾病-基因预测的方法。

发明内容

本发明的目的在于提供一种基于快速网络嵌入的疾病基因预测方法，以解决上述背景技术中提到的问题。

为实现上述目的，本发明提供如下技术方案：一种基于快速网络嵌入的疾病基因预测方法，其方法包括以下步骤：

步骤1：异构网络构建

利用与疾病和基因相关的多源关联数据构建异构网络，通过集成四种类型的关联数据来构建异构网络，其中四种类型的关联数据包括疾病-基因、疾病-表型、蛋白质-蛋白质和基因-GO关联；

步骤2：快速网络嵌入

为从异构网络中提取对疾病基因预测有帮助的信息，采用快速网络嵌入迭代随机投影网络嵌入来学习网络中节点的低维向量表示，在快速网络嵌入算法中，网络嵌入时需要保持高阶邻接关系，将N个节点的网络邻接矩阵A的目标相似度函数Φ(A)∈R^n×n定义为网络邻接矩阵的多项式函数，假设Φ(A)是一个正的半定函数，它可以表示为：

Φ(A)＝S·S^T，

其中S＝α₀I+α₁A¹+α₂A²+…+α_pA^p；α₀,α₁,α₂,…,α_p是预定义的权重，并且p是阶数；然后将目标相似度函数Φ(A)∈R^n×n分解为两个低维矩阵U,V∈R^n×d的乘积，优化的目标函数为

其中n为节点数，d为嵌入维数，对于无向网络，A是对称矩阵，U＝V，目标函数可以重写为：

为使目标函数最小，采用高斯随机投影法，通过此方法可以得到嵌入U，

U＝S·Q＝(α₀I+α₁A+α₂A²+...+α_pA^p)Q,

其中Q∈R^n×d服从高斯分布，即

邻近矩阵S被随机投影到低维子空间；

将U分解成不同阶的矩阵U＝α₀U₀+α₁U₁+α₂U₂+...+α_pU_p，其中，

U₀＝Q,

步骤3：双层异构网络改造

节点的低维矢量表示包含在异构网络中编码的有用的高阶关联信息,采用步骤2中信息重建一个双层异构网络，通过以下方式计算疾病之间的余弦相似度，

其中

表示节点i的嵌入向量，然后使用k-nearest(KNN)方法得到改进的疾病网络，进而得到一个改进的基因网络，然后，将改进后的疾病网络、改进后的基因网络和疾病-基因关联网络进行整合，生成疾病与基因的双层异构网络，用以下符号表示：

其中M_D表示改进的疾病网络；M_G表示改进的基因网络；M_A表示疾病-基因关联；

表示M_A的转置，在双层异构网络中，采用带重启的随机游走来计算疾病基因的得分，并根据得分对所有候选基因进行排序，得到每个疾病的预测基因列表；

步骤4：双层异构网络传播

为得到与疾病相关的基因得分，在步骤3改造的双层异构网络中模拟一个网络传播--带重启的随机游走，给定疾病网络M_D、基因网络M_G和疾病-基因网络M_A，定义以下对角线矩阵D_D，D_G和D_A，其中对角线元素由(D_D)_i,i＝∑_j(M_D)_j,i，(D_G)_i,i＝∑_j(M_G)_j,i和(D_A)_i,i＝∑_j(M_A)_j,i定义，M_D，M_G和M_A的归一化矩阵写为：

通过这些归一化矩阵，构造了一个新的矩阵，

其中β是层间跳跃概率，当随机游走者在疾病-疾病网络中时，它可以概率β跳跃到基因-基因网络，也可以概率1-β停留在原有的网络中；

然而，只有当随机游走者到达的节点连接到另一层中的节点时，才能实现层间跳跃，否则只能转移到层内邻居节点或返回到种子节点，因此，定义了一个对角矩阵

并且

并通过以下方法得到了双层异构网络中网络传播过程的最终转移矩阵，

具有重启的随机游动可以用下面的等式来描述，

p_t+1＝(1-α)T·p_t+αp₀,

其中

是随机游走的初始概率向量；/>

是疾病子网中的初始概率向量；/>

是基因子网中的初始概率向量；参数α∈(0,1)是重新启动概率，表示随机游走者可以有概率α返回到种子节点，在几个步骤之后，概率达到稳定状态，可以根据稳定概率对基因进行排序，从而预测与疾病相关的基因。

本发明的有益效果是：一种基于快速网络嵌入的疾病基因预测方法，人们已经提出了许多预测疾病相关基因的计算方法，但如何利用多源信息(如疾病-表型关联和蛋白质-蛋白质相互作用)来提高疾病-基因预测的性能仍然是一个悬而未决的问题，本发明提出了一种基于快速网络嵌入和双层异构网络传播(PrGeFNE)的疾病基因预测方法，可以更有效地利用多种关联数据中的信息来预测疾病相关基因。其方法由四部分组成：(1)利用疾病-基因、疾病-表型、蛋白质-蛋白质、基因-GO关联等多种类型的关联数据构建异构网络；(2)采用快速网络嵌入方法提取疾病和基因的低维矢量表示；(3)使用低维矢量表示构建由疾病和基因组成的双层异构网络；(4)将异构网络传播应用于网络预测疾病相关基因。为了构建异构网络，通过收集与疾病和基因相关的几种类型的关联数据：疾病-基因关联、疾病-表型关联、蛋白质-蛋白质关联和基因-GO关联。通过对新增的疾病-基因关联进行5次交叉验证和评估，展示了这些类型的关联数据在PrGeFNE及其几个变种中提高疾病基因预测能力方面的重要作用，并通过与最新算法的比较验证了PrGeFNE的优越性能。此外，利用所有已知疾病基因作为训练集，寻找每种疾病的前10个候选基因，为疾病相关候选基因的研究提供指导。网络嵌入可以从网络中获得简明而信息丰富的节点的低维矢量表示。本发明利用节点的向量表示来重新评估疾病-疾病和基因-基因的相关性，从而优化疾病网络和基因网络；优化后的网络构建的异构网络可以为网络传播挖掘疾病相关基因提供更好的网络结构，从而使PrGeFNE产生更好的结果。

附图说明

图1为PrGeFNE的工作流程。通过整合疾病-表型、疾病-基因、蛋白质-蛋白质和基因-GO关联，构建了一个异构网络，使用网络嵌入算法从网络中提取节点的低维矢量表示，在低维向量表示的基础上，构建了疾病和基因的双层异构网络，并将网络传播算法应用到该双层异构网络中，对疾病相关基因进行预测；

图2为实施例中PrGeFNE及其变体在(a)AUROC和(b)AUPRC方面的性能评估，并与最先进的算法进行比较；

图3为实施例中PrGeFNE及其变体在最高k个召回率(k＝1、5、10、50、100和200)方面的性能评估，并与最先进的算法进行比较；

图4为实施例中PrGeFNE及其变体在top-k精度(k＝1、5、10、50、100和200)方面的性能评估，并与最先进的算法进行比较；

图5为实施例中PrGeFNE及其变体在(a)AUROC和(b)AUPRC方面对新增加的疾病-基因关联的性能评估，与最先进的算法进行比较；

图6为实施例中PrGeFNE及其变体在新增加的疾病-基因关联上的Top-kRecall性能评估，与最先进的算法进行比较；

图7为实施例中PrGeFNE及其变体在新增加的疾病-基因关联上的Top-kprecision能评估，与最先进的算法进行比较。

具体实施方式

下面将结合本发明实施例，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

如图1所示，为了评估PrGeFNE及其变体的性能，将使用从DisGeNet数据库中筛选出的疾病-基因关联作为基准数据集，并使用几种经典的疾病-基因预测算法：RWR、DK、RWRH、Prince、BiRW和CIPHER作为基线方法。在实验设置中，采用原始研究中算法的默认参数，通过5次交叉验证，分析不同数据源对本方法的影响，并通过与最先进的方法进行比较，证明本方法具有优异的性能。然后，使用2012年前的疾病-基因关联作为训练集，使用2012年后新增的疾病-基因关联作为测试集来评估本方法的性能。

在性能评估中，使用AUROC、AUPRC、top-k recall和top-k Precision作为评估指标。AUROC定义为Receiver Operating Characteristic曲线(ROC)下的区域；AUPRC定义为Precision-Recall Curve曲线(PRC)下的区域；它们作为标量值是评价分类器质量的常用指标，可以有效地捕捉潜在疾病相关基因的排序效果，值越大，分类器越好。对于疾病集合D中的疾病，T_d表示疾病d的测试基因集合，给定疾病d候选基因的排名，用R_d(k)表示排名列表中的前k个候选基因集合。然后，将top-k排序列表中的Precision(精确率)定义为Precision＝|T_d∩R_d(k)|/|R_d(k)|，并且将top-k排序列表中的Recall(召回率)定义为Recall＝|T_d∩R_d(k)|/|T_d|。

选择的数据源与疾病或基因密切相关，这些数据的有效融合能够促进疾病基因的预测。然而，不恰当的数据融合也有可能导致不良影响，因此研究了不同数据源的信息融合如何影响本方法进行疾病基因预测的能力。

PrGeFNE(DG)、PrGeFNE(DGG)、PrGeFNE(DGP)、PrGeFNE(DGGP)、PrGeFNE(DGGPG)依次对应PrGeFNE-1、PrGeFNE-2、PrGeFNE-3、PrGeFNE-4、PrGeFNE-5。其中，PrGeFNE-1代表疾病-基因关联，PrGeFNE-2代表疾病-基因关联、蛋白质-蛋白质关联，PrGeFNE-3代表疾病-基因关联、疾病-表型关联，PrGeFNE-4代表疾病-基因关联、疾病-表型关联、蛋白质-蛋白质关联，PrGeFNE-5代表疾病-基因关联、疾病-表型关联、蛋白质-蛋白质关联、基因-GO关联。

由此可见，在多种评价指标下，PrGeFNE(DGG)优于PrGeFNE(DG)。具体而言，PrGeFNE(DGG)的AUROC和AUPRC分别为0.7908和0.1141，均大于PrGeFNE(DG)的AUROC和AUPRC(图2(a)-(b))。PrGeFNE(DGG)(k＝1，5，10，50，100和200)的top-k recall值分别为0.0737，0.1620，0.1963，0.2748，0.3066，0.3486，也大于PrGeFNE(DG)(图3)。PrGeFNE(DGG)的top-k Precision也是如此(图4)。这意味着蛋白质-蛋白质关联对于提高预测性能是非常有用的。同样，PrGeFNE(DGP)也优于PrGeFNE(DG)。例如，PrGeFNE(DGP)的AUROC和AUPRC分别为0.757和0.113，均大于PrGeFNE(DG)的AUROC和AUPRC。PrGeFNE(DGP)的top-kRecall和Precision也高于PrGeFNE(DG)。这意味着疾病-表型关联也有助于疾病-基因预测。

然后，将PrGeFNE(DGGP)与PrGeFNE(DGG)和PrGeFNE(DGP)进行了比较。图2(a)显示PrGeFNE(DGGP)(0.8644)的AUROC值分别比PrGeFNE(DG)、PrGeFNE(DGG)和PrGeFNE(DGP)高0.1914、0.0736、0.1072。图2(b)显示PrGeFNE(DGGP)(0.1259)的AUPRC值分别比PrGeFNE(DG)、PrGeFNE(DGG)和PrGeFNE(DGP)高0.0236、0.0118和0.0125。对于top-k性能，前1、5、10、50、100和200时的Recall分别为0.08026、0.177561、0.225389、0.353481、0.412237和0.48495。PrGeFNE(DGGP)的所有top-k Recall都大于相应的prGeFNE(DG)、PrGeFNE(DGG)和PrGeFNE(DGP)的top-k Recall(见图3)。PrGeFNE(DGGP)的top-k Precision也是如此(参见图4)。这些结果表明，PrGeFNE(DGGP)优于PrGeFNE(DGG)和PrGeFNE(DGP)。

此外，将PrGeFNE(DGGPG)，即PrGeFNE与PrGeFNE的其他变体进行了比较。结果表明，PrGeFNE(DGGPG)比PrGeFNE(DGGP)具有更好的结果，说明基因-GO关联可以提高我们的方法的性能。具体地说，PrGeFNE(DGGPG)的AUROC值为0.8809；它大于PrGeFNE(DGGP)和其他方法的AUROC值(图2(a))。PrGeFNE(DGGPG)的AUPRC值为0.1295，也大于PrGeFNE(DGGP)和其他方法的AUPRC值(图2(b))。PrGeFNE(DGGPG)的top-k recall和Precision值也是如此(参见图3和图4)。研究结果还表明，疾病-基因、蛋白质-蛋白质、疾病-表型和基因-GO关联的综合确实可以进一步提高我们的方法在疾病-基因预测中的预测能力，因此PrGeFNE的性能是最好的。

为了展示PrGeFNE的优势，我们选择了几种经典的疾病基因预测算法：RWR、DK、RWRH、Prince、BiRW和CIPHER作为基线算法，这些算法都是性能较好的流行算法。

图2(a)显示，PrGeFNE(DG)与RWR、DK、BiRW和CINPHER相比具有相似或更大的AUROC值；PrGeFNE(DGG)或PrGeFNE(DGP)分别由于添加了蛋白质-蛋白质或疾病-表型关联，可以明显优于四种经典算法。在基线算法中，Prince算法的AUROC值最大，为0.811，PrGeFNE(DGGPG)和PrGeFNE(DGGP)优于AUROC中最好的基线算法。图2(b)显示PrGeFNE及其变体的AUPRC值明显大于所有基线算法的AUPRC值。PrGeFNE不仅在AUROC和AUPRC上优于其他算法，而且在top-kRecall和precision方面也有明显的优势(见图3和图4)。在图3中，可以清楚地看到我们的PrGeFNE方法与基线算法非常不同。从图3(a)-(f)，PrGeFNE(DGGPG)的前k个召回率分别为0.082635、0.183341、0.231898、0.360644、0.419903和0.496573。在top-k召回中，prGeFNE及其变体明显优于所有基线算法。top-k Precision的比较得出了类似的结论(见图4)。因此，PrGeFNE及其变体在top-k性能(召回率和精确度)方面始终显著优于所有基线算法。

在此，以2012年前的疾病-基因关联为训练集，进一步对2012年后新增的疾病基因关联进行性能评估。图5显示了此测试中不同算法的AUROC和AUPRC分数。图6和图7显示了此测试中所有算法的top-k recall和Precision值。

与上面的交叉验证类似，结果再次证实了数据源，如疾病-基因、蛋白质-蛋白质、疾病-表型和基因-GO关联，可以增强我们方法的预测能力，并且PrGeFNE在此测试中显然具有最好的性能，特别是AUPRC和top-k的性能(参见图5、图6和图7)。具体地说，PrGeFNE具有最大的AUROC值(参见图5(a))；PrGeFNE及其变体的AUPRC值明显大于其他算法的AUPRC值(参见图5(b))，它们的top-krecall和Precision值也是如此(参见图6和图7)。因此，得出结论，PrGeFNE可以更有效地学习异构网络中的节点嵌入，从而在疾病基因预测中获得更好的性能。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于快速网络嵌入的疾病基因预测方法，其特征在于：其方法包括以下步骤：

步骤1：异构网络构建

通过集成四种类型的关联数据来构建异构网络，其中四种类型的关联数据包括疾病-基因、疾病-表型、蛋白质-蛋白质和基因-GO关联；

步骤2：快速网络嵌入

采用快速网络嵌入来学习网络中节点的低维向量表示，在快速网络嵌入算法中，网络嵌入时需要保持高阶邻接关系，将n个节点的网络邻接矩阵A的目标相似度函数Φ(A)∈R^n×n定义为网络邻接矩阵的多项式函数，假设Φ(A)是一个正的半定函数，它表示为：

Φ(A)＝S·S^T，

其中S＝α₀I+α₁A¹+α₂A²+…+α_pA^p；α₀,α₁,α₂,…,α_p是预定义的权重，并且p是阶数；然后将目标相似度函数Φ(A)∈R^n×n分解为两个低维矩阵U,V∈R^n×d的乘积，其优化目标函数为

其中n为节点数，d为嵌入维数，对于无向网络，A是对称矩阵，U＝V，优化目标函数重写为：

为使该目标函数最小，采用高斯随机投影法，通过此方法得到嵌入U，

U＝S·Q＝(α₀I+α₁A+α₂A²+...+α_pA^p)Q,

其中Q∈R^n×d服从高斯分布，即

邻近矩阵S被随机投影到低维子空间；

将U分解成不同阶的矩阵U＝α₀U₀+α₁U₁+α₂U₂+...+α_pU_p，其中

U₀＝Q，

步骤3：双层异构网络改造

采用步骤2中信息重建一个双层异构网络，通过以下方式计算疾病之间的余弦相似度，

其中

表示节点i的嵌入向量，然后使用k-nearest(KNN)方法得到改进的疾病网络,采用相同的方法得到一个改进的基因网络,然后，将改进后的疾病网络、改进后的基因网络和疾病-基因关联网络进行整合，生成疾病与基因的双层异构网络，用以下符号表示：

表示M_A的转置；在双层异构网络中，采用带重启的随机游走来计算疾病基因的得分，并根据得分对所有候选基因进行排序，得到每个疾病的预测基因列表；

步骤4：双层异构网络传播

在步骤3改造的双层异构网络中模拟一个网络传播--带重启的随机游走，给定疾病网络M_D、基因网络M_G和疾病-基因网络M_A，定义以下对角线矩阵D_D，D_G和D_A，其中对角线元素由(D_D)_i,i＝∑_j(M_D)_j,i，(D_G)_i,i＝∑_j(M_G)_j,i和(D_A)_i,i＝∑_j(M_A)_j,i定义，M_D，M_G和M_A的归一化矩阵写为：