CN111540405B - 一种基于快速网络嵌入的疾病基因预测方法 - Google Patents

一种基于快速网络嵌入的疾病基因预测方法 Download PDF

Info

Publication number
CN111540405B
CN111540405B CN202010356861.9A CN202010356861A CN111540405B CN 111540405 B CN111540405 B CN 111540405B CN 202010356861 A CN202010356861 A CN 202010356861A CN 111540405 B CN111540405 B CN 111540405B
Authority
CN
China
Prior art keywords
network
disease
gene
prgefne
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010356861.9A
Other languages
English (en)
Other versions
CN111540405A (zh
Inventor
张宁芮
项炬
李敏
吕小毅
陈晨
严紫薇
陈程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang University
Original Assignee
Xinjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang University filed Critical Xinjiang University
Priority to CN202010356861.9A priority Critical patent/CN111540405B/zh
Publication of CN111540405A publication Critical patent/CN111540405A/zh
Application granted granted Critical
Publication of CN111540405B publication Critical patent/CN111540405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • General Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了疾病基因预测技术领域,具体领域为一种基于快速网络嵌入的疾病基因预测方法,可以更有效地利用多种关联数据中的信息来预测疾病相关基因。其方法由四部分组成:(1)利用疾病‑基因、疾病‑表型、蛋白质‑蛋白质、基因‑GO关联等多种类型的关联数据构建异构网络;(2)采用快速网络嵌入方法提取疾病和基因的低维矢量表示;(3)使用低维矢量表示构建由疾病和基因组成的双层异构网络;(4)将异构网络传播应用于网络预测疾病相关基因。本方法有提高疾病基因预测能力方面的重要作用,并通过与最新算法的比较验证了本方法的优越性能。

Description

一种基于快速网络嵌入的疾病基因预测方法
技术领域
本发明涉及疾病基因预测技术领域,具体领域为一种基于快速网络嵌入的疾病基因预测方法。
背景技术
识别疾病相关基因对于复杂疾病的预防、诊断和治疗至关重要。传统的方法如连锁分析和全基因组关联研究对于系统地发现疾病相关基因是有用的。然而,这些方法通常提供包含数百个基因的候选列表,需要昂贵且耗时的实验识别候选列表中的真实疾病相关基因。因此,在过去的几十年里,人们提出了各种计算方法来预测疾病相关基因。基于网络的方法是预测疾病相关基因最常用的方法之一。随着蛋白质-蛋白质相互作用数据的积累,蛋白质-蛋白质相互作用网络作为蛋白质/基因的同质网络,被广泛应用于各种疾病-基因预测方法中,如随机游走重启(RWR)和扩散核(DK);与表型相同或相似的疾病相关的基因通常被认为是功能相关的,而蛋白质/基因之间的功能相关性已经在已知的蛋白质-蛋白质相互作用网络中(部分)编码,并且与疾病相关的基因往往聚集在网络的附近,因此,基于蛋白质-蛋白质相互作用网络的疾病-基因预测方法理论上在很多情况下都应表现良好,特别是对于具有相当数量已知疾病基因的疾病。然而,实际情况并非如此,特别是在目前的蛋白质网络仍然不完整的情况下。基于此种情况,现提出一种充分利用多源生物信息来提高疾病-基因预测的方法。
发明内容
本发明的目的在于提供一种基于快速网络嵌入的疾病基因预测方法,以解决上述背景技术中提到的问题。
为实现上述目的,本发明提供如下技术方案:一种基于快速网络嵌入的疾病基因预测方法,其方法包括以下步骤:
步骤1:异构网络构建
利用与疾病和基因相关的多源关联数据构建异构网络,通过集成四种类型的关联数据来构建异构网络,其中四种类型的关联数据包括疾病-基因、疾病-表型、蛋白质-蛋白质和基因-GO关联;
步骤2:快速网络嵌入
为从异构网络中提取对疾病基因预测有帮助的信息,采用快速网络嵌入迭代随机投影网络嵌入来学习网络中节点的低维向量表示,在快速网络嵌入算法中,网络嵌入时需要保持高阶邻接关系,将N个节点的网络邻接矩阵A的目标相似度函数Φ(A)∈Rn×n定义为网络邻接矩阵的多项式函数,假设Φ(A)是一个正的半定函数,它可以表示为:
Φ(A)=S·ST
其中S=α0I+α1A12A2+…+αpAp;α012,…,αp是预定义的权重,并且p是阶数;然后将目标相似度函数Φ(A)∈Rn×n分解为两个低维矩阵U,V∈Rn×d的乘积,优化的目标函数为
Figure GDA0004253175750000021
其中n为节点数,d为嵌入维数,对于无向网络,A是对称矩阵,U=V,目标函数可以重写为:
Figure GDA0004253175750000022
为使目标函数最小,采用高斯随机投影法,通过此方法可以得到嵌入U,
U=S·Q=(α0I+α1A+α2A2+...+αpAp)Q,
其中Q∈Rn×d服从高斯分布,即
Figure GDA0004253175750000031
邻近矩阵S被随机投影到低维子空间;
将U分解成不同阶的矩阵U=α0U01U12U2+...+αpUp,其中,
U0=Q,
Figure GDA0004253175750000032
步骤3:双层异构网络改造
节点的低维矢量表示包含在异构网络中编码的有用的高阶关联信息,采用步骤2中信息重建一个双层异构网络,通过以下方式计算疾病之间的余弦相似度,
Figure GDA0004253175750000033
其中
Figure GDA0004253175750000034
表示节点i的嵌入向量,然后使用k-nearest(KNN)方法得到改进的疾病网络,进而得到一个改进的基因网络,然后,将改进后的疾病网络、改进后的基因网络和疾病-基因关联网络进行整合,生成疾病与基因的双层异构网络,用以下符号表示:
Figure GDA0004253175750000035
其中MD表示改进的疾病网络;MG表示改进的基因网络;MA表示疾病-基因关联;
Figure GDA0004253175750000036
表示MA的转置,在双层异构网络中,采用带重启的随机游走来计算疾病基因的得分,并根据得分对所有候选基因进行排序,得到每个疾病的预测基因列表;
步骤4:双层异构网络传播
为得到与疾病相关的基因得分,在步骤3改造的双层异构网络中模拟一个网络传播--带重启的随机游走,给定疾病网络MD、基因网络MG和疾病-基因网络MA,定义以下对角线矩阵DD,DG和DA,其中对角线元素由(DD)i,i=∑j(MD)j,i,(DG)i,i=∑j(MG)j,i和(DA)i,i=∑j(MA)j,i定义,MD,MG和MA的归一化矩阵写为:
Figure GDA0004253175750000041
通过这些归一化矩阵,构造了一个新的矩阵,
Figure GDA0004253175750000042
其中β是层间跳跃概率,当随机游走者在疾病-疾病网络中时,它可以概率β跳跃到基因-基因网络,也可以概率1-β停留在原有的网络中;
然而,只有当随机游走者到达的节点连接到另一层中的节点时,才能实现层间跳跃,否则只能转移到层内邻居节点或返回到种子节点,因此,定义了一个对角矩阵
Figure GDA0004253175750000043
并且
Figure GDA0004253175750000044
并通过以下方法得到了双层异构网络中网络传播过程的最终转移矩阵,
Figure GDA0004253175750000045
具有重启的随机游动可以用下面的等式来描述,
pt+1=(1-α)T·pt+αp0,
其中
Figure GDA0004253175750000046
是随机游走的初始概率向量;/>
Figure GDA0004253175750000047
是疾病子网中的初始概率向量;/>
Figure GDA0004253175750000048
是基因子网中的初始概率向量;参数α∈(0,1)是重新启动概率,表示随机游走者可以有概率α返回到种子节点,在几个步骤之后,概率达到稳定状态,可以根据稳定概率对基因进行排序,从而预测与疾病相关的基因。
本发明的有益效果是:一种基于快速网络嵌入的疾病基因预测方法,人们已经提出了许多预测疾病相关基因的计算方法,但如何利用多源信息(如疾病-表型关联和蛋白质-蛋白质相互作用)来提高疾病-基因预测的性能仍然是一个悬而未决的问题,本发明提出了一种基于快速网络嵌入和双层异构网络传播(PrGeFNE)的疾病基因预测方法,可以更有效地利用多种关联数据中的信息来预测疾病相关基因。其方法由四部分组成:(1)利用疾病-基因、疾病-表型、蛋白质-蛋白质、基因-GO关联等多种类型的关联数据构建异构网络;(2)采用快速网络嵌入方法提取疾病和基因的低维矢量表示;(3)使用低维矢量表示构建由疾病和基因组成的双层异构网络;(4)将异构网络传播应用于网络预测疾病相关基因。为了构建异构网络,通过收集与疾病和基因相关的几种类型的关联数据:疾病-基因关联、疾病-表型关联、蛋白质-蛋白质关联和基因-GO关联。通过对新增的疾病-基因关联进行5次交叉验证和评估,展示了这些类型的关联数据在PrGeFNE及其几个变种中提高疾病基因预测能力方面的重要作用,并通过与最新算法的比较验证了PrGeFNE的优越性能。此外,利用所有已知疾病基因作为训练集,寻找每种疾病的前10个候选基因,为疾病相关候选基因的研究提供指导。网络嵌入可以从网络中获得简明而信息丰富的节点的低维矢量表示。本发明利用节点的向量表示来重新评估疾病-疾病和基因-基因的相关性,从而优化疾病网络和基因网络;优化后的网络构建的异构网络可以为网络传播挖掘疾病相关基因提供更好的网络结构,从而使PrGeFNE产生更好的结果。
附图说明
图1为PrGeFNE的工作流程。通过整合疾病-表型、疾病-基因、蛋白质-蛋白质和基因-GO关联,构建了一个异构网络,使用网络嵌入算法从网络中提取节点的低维矢量表示,在低维向量表示的基础上,构建了疾病和基因的双层异构网络,并将网络传播算法应用到该双层异构网络中,对疾病相关基因进行预测;
图2为实施例中PrGeFNE及其变体在(a)AUROC和(b)AUPRC方面的性能评估,并与最先进的算法进行比较;
图3为实施例中PrGeFNE及其变体在最高k个召回率(k=1、5、10、50、100和200)方面的性能评估,并与最先进的算法进行比较;
图4为实施例中PrGeFNE及其变体在top-k精度(k=1、5、10、50、100和200)方面的性能评估,并与最先进的算法进行比较;
图5为实施例中PrGeFNE及其变体在(a)AUROC和(b)AUPRC方面对新增加的疾病-基因关联的性能评估,与最先进的算法进行比较;
图6为实施例中PrGeFNE及其变体在新增加的疾病-基因关联上的Top-kRecall性能评估,与最先进的算法进行比较;
图7为实施例中PrGeFNE及其变体在新增加的疾病-基因关联上的Top-kprecision能评估,与最先进的算法进行比较。
具体实施方式
下面将结合本发明实施例,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
如图1所示,为了评估PrGeFNE及其变体的性能,将使用从DisGeNet数据库中筛选出的疾病-基因关联作为基准数据集,并使用几种经典的疾病-基因预测算法:RWR、DK、RWRH、Prince、BiRW和CIPHER作为基线方法。在实验设置中,采用原始研究中算法的默认参数,通过5次交叉验证,分析不同数据源对本方法的影响,并通过与最先进的方法进行比较,证明本方法具有优异的性能。然后,使用2012年前的疾病-基因关联作为训练集,使用2012年后新增的疾病-基因关联作为测试集来评估本方法的性能。
在性能评估中,使用AUROC、AUPRC、top-k recall和top-k Precision作为评估指标。AUROC定义为Receiver Operating Characteristic曲线(ROC)下的区域;AUPRC定义为Precision-Recall Curve曲线(PRC)下的区域;它们作为标量值是评价分类器质量的常用指标,可以有效地捕捉潜在疾病相关基因的排序效果,值越大,分类器越好。对于疾病集合D中的疾病,Td表示疾病d的测试基因集合,给定疾病d候选基因的排名,用Rd(k)表示排名列表中的前k个候选基因集合。然后,将top-k排序列表中的Precision(精确率)定义为Precision=|Td∩Rd(k)|/|Rd(k)|,并且将top-k排序列表中的Recall(召回率)定义为Recall=|Td∩Rd(k)|/|Td|。
选择的数据源与疾病或基因密切相关,这些数据的有效融合能够促进疾病基因的预测。然而,不恰当的数据融合也有可能导致不良影响,因此研究了不同数据源的信息融合如何影响本方法进行疾病基因预测的能力。
PrGeFNE(DG)、PrGeFNE(DGG)、PrGeFNE(DGP)、PrGeFNE(DGGP)、PrGeFNE(DGGPG)依次对应PrGeFNE-1、PrGeFNE-2、PrGeFNE-3、PrGeFNE-4、PrGeFNE-5。其中,PrGeFNE-1代表疾病-基因关联,PrGeFNE-2代表疾病-基因关联、蛋白质-蛋白质关联,PrGeFNE-3代表疾病-基因关联、疾病-表型关联,PrGeFNE-4代表疾病-基因关联、疾病-表型关联、蛋白质-蛋白质关联,PrGeFNE-5代表疾病-基因关联、疾病-表型关联、蛋白质-蛋白质关联、基因-GO关联。
由此可见,在多种评价指标下,PrGeFNE(DGG)优于PrGeFNE(DG)。具体而言,PrGeFNE(DGG)的AUROC和AUPRC分别为0.7908和0.1141,均大于PrGeFNE(DG)的AUROC和AUPRC(图2(a)-(b))。PrGeFNE(DGG)(k=1,5,10,50,100和200)的top-k recall值分别为0.0737,0.1620,0.1963,0.2748,0.3066,0.3486,也大于PrGeFNE(DG)(图3)。PrGeFNE(DGG)的top-k Precision也是如此(图4)。这意味着蛋白质-蛋白质关联对于提高预测性能是非常有用的。同样,PrGeFNE(DGP)也优于PrGeFNE(DG)。例如,PrGeFNE(DGP)的AUROC和AUPRC分别为0.757和0.113,均大于PrGeFNE(DG)的AUROC和AUPRC。PrGeFNE(DGP)的top-kRecall和Precision也高于PrGeFNE(DG)。这意味着疾病-表型关联也有助于疾病-基因预测。
然后,将PrGeFNE(DGGP)与PrGeFNE(DGG)和PrGeFNE(DGP)进行了比较。图2(a)显示PrGeFNE(DGGP)(0.8644)的AUROC值分别比PrGeFNE(DG)、PrGeFNE(DGG)和PrGeFNE(DGP)高0.1914、0.0736、0.1072。图2(b)显示PrGeFNE(DGGP)(0.1259)的AUPRC值分别比PrGeFNE(DG)、PrGeFNE(DGG)和PrGeFNE(DGP)高0.0236、0.0118和0.0125。对于top-k性能,前1、5、10、50、100和200时的Recall分别为0.08026、0.177561、0.225389、0.353481、0.412237和0.48495。PrGeFNE(DGGP)的所有top-k Recall都大于相应的prGeFNE(DG)、PrGeFNE(DGG)和PrGeFNE(DGP)的top-k Recall(见图3)。PrGeFNE(DGGP)的top-k Precision也是如此(参见图4)。这些结果表明,PrGeFNE(DGGP)优于PrGeFNE(DGG)和PrGeFNE(DGP)。
此外,将PrGeFNE(DGGPG),即PrGeFNE与PrGeFNE的其他变体进行了比较。结果表明,PrGeFNE(DGGPG)比PrGeFNE(DGGP)具有更好的结果,说明基因-GO关联可以提高我们的方法的性能。具体地说,PrGeFNE(DGGPG)的AUROC值为0.8809;它大于PrGeFNE(DGGP)和其他方法的AUROC值(图2(a))。PrGeFNE(DGGPG)的AUPRC值为0.1295,也大于PrGeFNE(DGGP)和其他方法的AUPRC值(图2(b))。PrGeFNE(DGGPG)的top-k recall和Precision值也是如此(参见图3和图4)。研究结果还表明,疾病-基因、蛋白质-蛋白质、疾病-表型和基因-GO关联的综合确实可以进一步提高我们的方法在疾病-基因预测中的预测能力,因此PrGeFNE的性能是最好的。
为了展示PrGeFNE的优势,我们选择了几种经典的疾病基因预测算法:RWR、DK、RWRH、Prince、BiRW和CIPHER作为基线算法,这些算法都是性能较好的流行算法。
图2(a)显示,PrGeFNE(DG)与RWR、DK、BiRW和CINPHER相比具有相似或更大的AUROC值;PrGeFNE(DGG)或PrGeFNE(DGP)分别由于添加了蛋白质-蛋白质或疾病-表型关联,可以明显优于四种经典算法。在基线算法中,Prince算法的AUROC值最大,为0.811,PrGeFNE(DGGPG)和PrGeFNE(DGGP)优于AUROC中最好的基线算法。图2(b)显示PrGeFNE及其变体的AUPRC值明显大于所有基线算法的AUPRC值。PrGeFNE不仅在AUROC和AUPRC上优于其他算法,而且在top-kRecall和precision方面也有明显的优势(见图3和图4)。在图3中,可以清楚地看到我们的PrGeFNE方法与基线算法非常不同。从图3(a)-(f),PrGeFNE(DGGPG)的前k个召回率分别为0.082635、0.183341、0.231898、0.360644、0.419903和0.496573。在top-k召回中,prGeFNE及其变体明显优于所有基线算法。top-k Precision的比较得出了类似的结论(见图4)。因此,PrGeFNE及其变体在top-k性能(召回率和精确度)方面始终显著优于所有基线算法。
在此,以2012年前的疾病-基因关联为训练集,进一步对2012年后新增的疾病基因关联进行性能评估。图5显示了此测试中不同算法的AUROC和AUPRC分数。图6和图7显示了此测试中所有算法的top-k recall和Precision值。
与上面的交叉验证类似,结果再次证实了数据源,如疾病-基因、蛋白质-蛋白质、疾病-表型和基因-GO关联,可以增强我们方法的预测能力,并且PrGeFNE在此测试中显然具有最好的性能,特别是AUPRC和top-k的性能(参见图5、图6和图7)。具体地说,PrGeFNE具有最大的AUROC值(参见图5(a));PrGeFNE及其变体的AUPRC值明显大于其他算法的AUPRC值(参见图5(b)),它们的top-krecall和Precision值也是如此(参见图6和图7)。因此,得出结论,PrGeFNE可以更有效地学习异构网络中的节点嵌入,从而在疾病基因预测中获得更好的性能。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (2)

1.一种基于快速网络嵌入的疾病基因预测方法,其特征在于:其方法包括以下步骤:
步骤1:异构网络构建
通过集成四种类型的关联数据来构建异构网络,其中四种类型的关联数据包括疾病-基因、疾病-表型、蛋白质-蛋白质和基因-GO关联;
步骤2:快速网络嵌入
采用快速网络嵌入来学习网络中节点的低维向量表示,在快速网络嵌入算法中,网络嵌入时需要保持高阶邻接关系,将n个节点的网络邻接矩阵A的目标相似度函数Φ(A)∈Rn×n定义为网络邻接矩阵的多项式函数,假设Φ(A)是一个正的半定函数,它表示为:
Φ(A)=S·ST
其中S=α0I+α1A12A2+…+αpAp;α012,…,αp是预定义的权重,并且p是阶数;然后将目标相似度函数Φ(A)∈Rn×n分解为两个低维矩阵U,V∈Rn×d的乘积,其优化目标函数为
Figure FDA0004263380550000011
其中n为节点数,d为嵌入维数,对于无向网络,A是对称矩阵,U=V,优化目标函数重写为:
Figure FDA0004263380550000012
为使该目标函数最小,采用高斯随机投影法,通过此方法得到嵌入U,
U=S·Q=(α0I+α1A+α2A2+...+αpAp)Q,
其中Q∈Rn×d服从高斯分布,即
Figure FDA0004263380550000013
邻近矩阵S被随机投影到低维子空间;
将U分解成不同阶的矩阵U=α0U01U12U2+...+αpUp,其中
U0=Q,
Figure FDA0004263380550000021
步骤3:双层异构网络改造
采用步骤2中信息重建一个双层异构网络,通过以下方式计算疾病之间的余弦相似度,
Figure FDA0004263380550000022
其中
Figure FDA0004263380550000023
表示节点i的嵌入向量,然后使用k-nearest(KNN)方法得到改进的疾病网络,采用相同的方法得到一个改进的基因网络,然后,将改进后的疾病网络、改进后的基因网络和疾病-基因关联网络进行整合,生成疾病与基因的双层异构网络,用以下符号表示:
Figure FDA0004263380550000024
其中MD表示改进的疾病网络;MG表示改进的基因网络;MA表示疾病-基因关联;
Figure FDA0004263380550000025
表示MA的转置;在双层异构网络中,采用带重启的随机游走来计算疾病基因的得分,并根据得分对所有候选基因进行排序,得到每个疾病的预测基因列表;
步骤4:双层异构网络传播
在步骤3改造的双层异构网络中模拟一个网络传播--带重启的随机游走,给定疾病网络MD、基因网络MG和疾病-基因网络MA,定义以下对角线矩阵DD,DG和DA,其中对角线元素由(DD)i,i=∑j(MD)j,i,(DG)i,i=∑j(MG)j,i和(DA)i,i=∑j(MA)j,i定义,MD,MG和MA的归一化矩阵写为:
Figure FDA0004263380550000026
通过这些归一化矩阵,构造了一个新的矩阵,
Figure FDA0004263380550000031
其中β是层间跳跃概率,当随机游走者在疾病-疾病网络中时,它以概率β跳跃到基因-基因网络,也以概率1-β停留在原有的网络中;
定义一个对角矩阵
Figure FDA0004263380550000032
并且/>
Figure FDA0004263380550000033
并通过以下方法得到了双层异构网络中网络传播过程的最终转移矩阵,
Figure FDA0004263380550000034
具有重启的随机游动用下面的方程来描述,
pt+1=(1-α)T·pt+αp0,
其中
Figure FDA0004263380550000035
是随机游走的初始概率向量;/>
Figure FDA0004263380550000036
是疾病子网中的初始概率向量;
Figure FDA0004263380550000037
是基因子网中的初始概率向量;参数α∈(0,1)是重新启动概率,表示随机游走者有概率α返回到种子节点,在几个步骤之后,概率达到稳定状态,根据稳定概率对基因进行排序,从而预测与疾病相关的基因。
2.根据权利要求1所述的一种基于快速网络嵌入的疾病基因预测方法,其特征在于:步骤2中,所采用的快速网络嵌入方法为迭代随机投影网络嵌入,迭代随机投影网络嵌入使用高斯随机投影方法将网络映射到低维嵌入空间,同时保持节点间的高阶邻近性。
CN202010356861.9A 2020-04-29 2020-04-29 一种基于快速网络嵌入的疾病基因预测方法 Active CN111540405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010356861.9A CN111540405B (zh) 2020-04-29 2020-04-29 一种基于快速网络嵌入的疾病基因预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010356861.9A CN111540405B (zh) 2020-04-29 2020-04-29 一种基于快速网络嵌入的疾病基因预测方法

Publications (2)

Publication Number Publication Date
CN111540405A CN111540405A (zh) 2020-08-14
CN111540405B true CN111540405B (zh) 2023-07-07

Family

ID=71975287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010356861.9A Active CN111540405B (zh) 2020-04-29 2020-04-29 一种基于快速网络嵌入的疾病基因预测方法

Country Status (1)

Country Link
CN (1) CN111540405B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151184B (zh) * 2020-09-27 2021-05-07 东北林业大学 基于网络表示学习的计算疾病相似度系统
CN113192562B (zh) * 2021-05-07 2022-05-13 中南大学 融合多尺度模块结构信息的致病基因识别方法及系统
CN114420203A (zh) * 2021-12-08 2022-04-29 深圳大学 一种用于预测转录因子-靶基因相互作用的方法及模型
CN118351945A (zh) * 2024-04-24 2024-07-16 湖北中医药大学 基于图神经网络的疾病基因的预测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506591A (zh) * 2017-08-28 2017-12-22 中南大学 一种基于多元信息融合和随机游走模型的药物重定位方法
CN110010196A (zh) * 2019-03-19 2019-07-12 北京工业大学 一种基于异质网的基因相似性搜索算法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7505433B2 (en) * 2005-04-01 2009-03-17 Toshiba America Research, Inc. Autonomous and heterogeneous network discovery and reuse
US9797883B2 (en) * 2013-03-15 2017-10-24 Singapore Health Services Pte Ltd Re-trafficking of herg reverses long QT syndrome 2 phenotype in human iPS-derived cardiomyocytes
CN103945477B (zh) * 2014-05-16 2017-04-12 哈尔滨工业大学 一种基于业务类型权值区分的异构网络选择系统及方法
KR101568399B1 (ko) * 2014-12-05 2015-11-12 연세대학교 산학협력단 애기장대 유전자네트워크를 이용한 식물의 복합 형질 관련 유전자 예측 시스템
US20170351807A1 (en) * 2016-06-01 2017-12-07 Life Technologies Corporation Methods and systems for designing gene panels
US10810213B2 (en) * 2016-10-03 2020-10-20 Illumina, Inc. Phenotype/disease specific gene ranking using curated, gene library and network based data structures
EP3803884A2 (en) * 2018-05-30 2021-04-14 Quantum-Si Incorporated Methods and apparatus for multi-modal prediction using a trained statistical model
US20200026822A1 (en) * 2018-07-22 2020-01-23 LifeNome Inc. System and method for polygenic phenotypic trait predisposition assessment using a combination of dynamic network analysis and machine learning
CN109698029A (zh) * 2018-12-24 2019-04-30 桂林电子科技大学 一种基于网络模型的circRNA-疾病关联预测方法
CN109887540A (zh) * 2019-01-15 2019-06-14 中南大学 一种基于异构网络嵌入的药物靶标相互作用预测方法
CN109920478B (zh) * 2019-03-07 2020-12-08 中南大学 一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法
CN110060730B (zh) * 2019-04-03 2022-11-01 安徽大学 一种基因模块分析方法
CN110211640B (zh) * 2019-06-05 2023-04-07 南通大学 一种基于gpu并行计算的复杂疾病基因互作关联分析方法
CN110209825B (zh) * 2019-06-17 2021-02-12 大连海事大学 一种基于宽度学习系统的快速网络表征学习方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506591A (zh) * 2017-08-28 2017-12-22 中南大学 一种基于多元信息融合和随机游走模型的药物重定位方法
CN110010196A (zh) * 2019-03-19 2019-07-12 北京工业大学 一种基于异质网的基因相似性搜索算法

Also Published As

Publication number Publication date
CN111540405A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN111540405B (zh) 一种基于快速网络嵌入的疾病基因预测方法
Lanchantin et al. Deep motif: Visualizing genomic sequence classifications
CN113707235B (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
Lanchantin et al. Deep motif dashboard: visualizing and understanding genomic sequences using deep neural networks
CN107622182B (zh) 蛋白质局部结构特征的预测方法及系统
Wekesa et al. A deep learning model for plant lncRNA-protein interaction prediction with graph attention
CN107885971B (zh) 采用改进花授粉算法识别关键蛋白质的方法
CN112270950B (zh) 一种基于网络增强和图正则的融合网络药物靶标关系预测方法
CN113312505A (zh) 一种基于离散在线哈希学习的跨模态检索方法及系统
CN109727637B (zh) 基于混合蛙跳算法识别关键蛋白质的方法
CN116403730A (zh) 一种基于图神经网络的药物相互作用预测方法及系统
CN114999635A (zh) 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法
CN113436729A (zh) 一种基于异构图卷积神经网络的合成致死相互作用预测方法
Kang et al. Sensitivity of sequence methods in the study of neighborhood change in the United States
CN117349494A (zh) 空间图卷积神经网络的图分类方法、系统、介质及设备
CN118038995B (zh) 非编码rna中小开放阅读窗编码多肽能力预测方法及系统
CN115995293A (zh) 一种环状rna和疾病关联预测方法
Wu et al. AAE-SC: A scRNA-seq clustering framework based on adversarial autoencoder
Hornung et al. Prediction approaches for partly missing multi‐omics covariate data: A literature review and an empirical comparison study
Ding et al. Dance: A deep learning library and benchmark for single-cell analysis
CN114582508A (zh) 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法
Hong et al. S-Pred: protein structural property prediction using MSA transformer
Arjaria et al. Performances of Machine Learning Models for Diagnosis of Alzheimer’s Disease
Qu et al. Prediction of diabetic protein markers based on an ensemble method
CN116403713A (zh) 一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant