CN107451423B

CN107451423B - 一种基于热扩散网络的药物发现方法及其应用

Info

Publication number: CN107451423B
Application number: CN201710917312.2A
Authority: CN
Inventors: 张红雨; 全源; 王晖; 朱丽达; 许璇; 杨庆勇; 黄清
Original assignee: Wuhan Baiyao Association Science And Technology Co Ltd; Huazhong Agricultural University
Current assignee: Wuhan Baiyao Association Science And Technology Co Ltd; Huazhong Agricultural University
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2019-09-06
Anticipated expiration: 2037-09-29
Also published as: CN107451423A

Abstract

本发明公开了一种基于热扩散网络的药物发现方法，所述基于热扩散网络的药物发现方法包括以下步骤：1)基于遗传学分析方法，获取致病基因与疾病之间的关联强度信息；2)基于步骤1)的结果以及蛋白互作网络，借助HotNet2算法获得与疾病显著相关的基因子网络；3)获取药物靶标信息，对疾病显著相关子网络进行药物富集；4)根据同一子网络富集结果，对相关潜在药物进行重定位或者组合，发现多靶标单药或者具有协同效应的组合药物。本发明提供的基于热扩散网络的药物发现方法成本低、效率高，可用于药物重定位和药物发现领域，为药物发现和设计提供全新的方法和思路。

Description

一种基于热扩散网络的药物发现方法及其应用

技术领域

本发明属于生物医药技术领域，尤其涉及一种基于热扩散网络的药物发现方法及其应用。

背景技术

药物研究与开发是一项社会效益和经济效益明显的系统工程，新药的开发能够帮助人们减缓甚至消除疾病的困扰，带来健康和希望，同时也为企业带来可观的经济利润。但是因为人们对细胞分子水平上的生命现象的认识有限，新药的研究开发办法大多是基于经验、机遇和运气。这也决定了药物研究与开发是一项周期长、耗资大、风险高、竞争激烈的系统工程。一个新药从概念产生到最终上市，需要花费10-15年时间，研发费用高达25.58亿美元(http://csdd.tufts.edu/news/complete_story/pr_tufts_csdd_2014_cost_study)。2015年FDA批准上市的新分子药物有45个，是19年中最多的，2017年FDA批准上市的新分子药物29个，2016年FDA批准上市的新分子药物仅为22个(https://www.fda.gov/Drugs/DevelopmentApprovalProcess/DrugInnovation/default.htm)。药物研究与开发亟待系统化的理论指导，以降低风险，缩短周期，节约成本。

随着生命科学的发展，尤其是揭示基因-疾病联系的遗传学的发展，让人们逐渐认识到疾病与基因的关系，以及药物发挥治疗作用是通过抑制或激活疾病相关的一个或多个靶基因/蛋白来实现的。因此，基因-疾病相关信息对于药物发现是至关重要的。2015年，Matthew等人在遗传学研究领域顶级杂志《Nature Genetics》中指出遗传致病基因研究有利于提高药物研发效率，作者将临床前(Preclinical)、1～3期临床(Phase I～III)和批准的(Approved)药物信息，与基因的风险性疾病相关信息(复杂疾病相关变异数据库GWASdb和孟德尔遗传病相关的数据库OMIM)相互比较，结果发现药物靶标与待治疗疾病之间有遗传证据支持的比例从2.0％上升到8.2％(Matthew,N.(2015).The support of humangenetic evidence for approved drug indications.Nat Genet.47(8):856-860.)。因此，我们可以充分利用遗传学方法，挖掘药物靶标基因与遗传疾病的关联信息，从而提高药物研发的成功率。

随着高通量测序技术和高性能计算资源的发展，研究人员已经获得了越来越多基因型数据。结合临床和流行病学资料的积累，许多专家学者开始探讨基因组与表型组之间的联系。全基因组关联分析(Genome Wide Association Study，GWAS)正是应运而生的研究遗传流行病学中遗传变异与疾病之间关系的重要方法(Pendergrass,S.A.,Brown‐Gentry,K.,Dudek,S.M.,et al.(2011).The use of phenome-wide association studies(PheWAS)for exploration of novel genotype-phenotype relationships andpleiotropy discovery.Genetic Epidemiology,35(5),410.)。它能够克服传统基因映射方法的一些局限性，通过提供更高的分辨率，在基因水平上利用样本的数量关联到表型变化的差异，可以广泛应用于人类以及动植物的分析中。

但是GWAS无法识别临床意义上的重要关联，并受到多个因素的限制(Hebbring,S.J.(2014).The challenges,advantages and future of phenome-wide associationstudies.Immunology,141(2),157‐165.)。基于此，研究人员开发了一个替代/补充策略称为表型组关联分析(Phenome-wide association scans,PheWAS)来替代GWAS。与GWAS研究思路相反，PheWAS是一种从表型出发分析表型与基因相关性的研究方法，能很好弥补GWAS的不足，不仅能检测一个表型所对应的多个基因，而且能同时检测多个表型所对应的多个基因，该方法能有效发现新的遗传关联，增加对疾病形成机理、疾病形成是否由变异决定等的认识。

除了GWAS和PheWAS外，一种基于数据库信息的成药性打分方法也可用于表征致病基因与疾病之间的关联强度。该方法利用多个疾病数据库信息，收集致病基因，根据数据库来源给致病基因赋分。得分越高，则该致病基因与对应疾病的相关性越强。

此外，我们还开发了一种基于文本挖掘获取致病基因与疾病关联强度的方法。该方法通过检索NCBI(National Center for Biotechnology Information)的Pubmed数据库中某个致病基因与相应疾病共同出现在同一文献中的文献篇数，并予以赋分，搜索到的共同文献越多，分值越高。得分越高，则致病基因与对应疾病的相关性越大。

上述几种方法可以从不同角度获取疾病与其对应致病基因的相关性，然而对于复杂疾病如癌症、精神类疾病等而言，致病基因通常不止一个，往往是多个具有功能关联的基因联合作用导致的，而这个关联一般表现在处于相同的表达调控、信号传导或代谢等网络通路中，基于单一基因型来确定相应药物的方法往往不具备好的疗效。因此需要将上述获取疾病与其致病基因对应的相关性的方法与能够识别疾病相关致病基因子网络的方法相结合，而HotNet2是鉴别疾病相关的多种致病基因子网络的代表性方法之一(Leiserson,M.D.,Vandin,F.,Wu,H.T.,et al.(2015).Pan-cancer network analysis identifiescombinations of rare somatic mutations across pathways and proteincomplexes.Nat.Genet.47,106-114.)。HotNet2代谢网络是根据选取显著突变特性的差异表达基因与蛋白质相互作用网络相结合，利用热扩散过程模型，通过分析基因相互作用图谱上分布和聚集的方式，识别具有显著突变性质的基因互作网络。

发明内容

本发明的目的在于克服现有药物筛选技术的缺陷而提供一种基于热扩散网络的药物发现方法，具有成本低、效率高、结果精准等优点。

本发明的另一个目的还在于提供一种基于热扩散网络的药物发现方法的应用。

为实现上述目的，本发明采取的技术方案如下：

一种基于热扩散网络的药物发现方法，包括以下步骤：

(1)基于遗传学分析方法，获取致病基因与疾病之间的关联强度；

(2)基于步骤(1)获取的致病基因与疾病之间的关联强度信息，以及已知的蛋白互作网络，借助HotNet2算法获得与疾病显著相关的基因子网络；

(3)获取药物靶标信息，对步骤(2)中得到的每个与疾病显著相关的基因子网络进行药物富集；

(4)根据步骤(3)中同一子网络的富集结果，对相关潜在药物进行重定位或者组合，发现多靶标单药或者具有协同效应的组合药物。

上述技术方案基于遗传学分析方法，获取疾病与其对应致病基因的相关性，将其与HotNet2代谢网络结合，构建与疾病显著相关的基因子网络，有利于高效识别与特定疾病有强相关性的致病基因，并针对特定疾病的多个致病基因进行药物发现，提高药物开发成功率；得到的同一子网络中的致病基因存在相互作用，且关联紧密，对子网络进行药物富集，选取同一子网络上不同致病基因的对应药物进行组合，药物组合之间具有协同增效作用，有利于发现多靶标单药或能够产生协同效应的组合药物，或者对相关药物进行重定位，从而为新药的发现研发提供有效指导。

作为本发明所述的基于热扩散网络的药物发现方法的优选实施方式，所述遗传学分析方法是指全基因组关联分析、表型组关联分析、成药性打分方法和文本挖掘打分方法四种方法中的至少一种。

作为本发明所述的基于热扩散网络的药物发现方法的优选实施方式，所述成药性打分方法是指统计不同来源数据库致病基因的对应药物的有活性率，对相关数据库进行排序，根据排序结果分别给予不同数据库来源的致病基因不同的赋分，并将来源于多个数据库的同一致病基因的赋分进行累加。

作为本发明所述的基于热扩散网络的药物发现方法的优选实施方式，所述

步骤(2)中的HotNet2算法是以步骤(1)中遗传学分析方法结果即致病基因与疾病之间的关联强度作为算法输入的初始热度。

作为本发明所述的基于热扩散网络的药物发现方法的优选实施方式，所述遗传学分析方法结果为全基因组关联分析得到的致病基因的P值、表型组关联分析得到的致病基因的P值、成药性打分方法得分和文本挖掘打分方法得分中的至少一种。

全基因组关联分析(Genome-wide association study，GWAS)是应用基因组中数以百万计的单核苷酸多态性(single nucleotide ploymorphism，SNP)为分子遗传标记，进行全基因组水平上的对照分析或相关性分析，通过比较发现影响复杂性状的基因变异的一种新策略。为了计算致病基因与疾病之间的关联强度，在去除冗余后对GWAS中SNP的P值排序，并通过Nelson et al.的SNP-to-gene映射方法(Nelson,M.R.et al.(2015).Thesupport of human genetic evidence for approved drug indications.Nat.Genet.47,856-860.)，得到GWAS的SNP相关基因信息，将该基因对应GWAS中SNP的最低P值设定为该基因的最终热值。为了避免突变基因量的信息丢失，进行Spearman检测以表明基因突变量与最小P值的负对数(即可信度)之间的正相关性。

表型组关联分析(Phenome-wide association scans,PheWAS)作为GWAS的替代/补充策略是从表型出发分析表型与基因相关性。为了计算致病基因与疾病之间的关联强度，首先获取PheWAS表型相关的SNP信息，类似于GWAS的处理过程，对PheWAS中SNP的P值进行取对数处理。

成药性打分方法是根据统计不同来源数据库致病基因的对应药物的有活性率，对相关数据库进行排序，根据排序结果分别给予不同来源的致病基因高低不同的赋分。首先查找药物靶标数据库DGIdb、TTD和DrugBank，收集药物-靶标相关信息，并从DrugBank、TTD和ClinicalTrials三个数据库中获得上市或者在研药物的活性相关信息。从疾病数据库GAD、OMIM、Clinvar、Orphanet、DisGeNET、INTREPID、GWASdb和HGMD中收集致病基因。然后根据统计不同来源数据库致病基因的对应药物的有活性率，分别给予不同数据库来源的致病基因基因高低不同的赋分，对于来自对应药物的有活性率最高的Clinvar数据库的致病基因赋八分，依此类推，对于来自对应药物的有活性率最低的DisGeNET数据库的致病基因赋一分。将来自不同数据库的同一疾病致病基因的得分相加即为该致病基因的疾病相关性得分。如果一个致病基因来源于多个数据库，那么该赋分将进行累加，即：

其中scoreij是指致病基因i在第j个数据库中的得分；i＝1,2,...,m；j＝1,2,...,k，m是指致病基因的数量，k是指数据库的数量。得分越高，那么本方法认为该致病基因与对应疾病的相关性越强。

文本挖掘打分方法是通过检索NCBI(National Center for BiotechnologyInformation)的Pubmed数据库中某个致病基因与相应疾病共同出现在同一文献中的文献篇数，并予以赋分，搜索到的共同文献越多，分值越高。得分越高，则致病基因与对应疾病的相关性越大。

HotNet2是基于热扩散核算法，在寻找由具有更高突变几率基因组成的重要子网络方面具有更大优势(Leiserson MD,Vandin F,Wu HT,et al.(2015).Pan-cancernetwork analysis identifies combinations of rare somatic mutations acrosspathways and protein complexes.Nat Genet.47:106-14.)。HotNet2是以包含基因与疾病之间的关联强度以及相应基因对之间相互作用的热矢量作为输入的，构建与疾病显著相关的基因子网络，有利于高效识别与特定疾病有强相关性的致病基因。步骤(1)中得到的GWAS的P值、PheWAS的P值、成药性打分方法的疾病相关性得分和文本挖掘打分方法的得分均可作为HotNet2的初始热度。

作为本发明所述的基于热扩散网络的药物发现方法的优选实施方式，所述蛋白互作网络为来源于HINT、iRefIndex和Multinet的蛋白互作网络，或STRING数据库中打分大于400的蛋白互作网络。

作为本发明所述的基于热扩散网络的药物发现方法的优选实施方式，所述药物靶标信息是从DGIdb、DrugBank和TTD数据库中获得。

步骤(3)中，采用超几何检验对步骤(2)中得到的基因子网络进行富集药物能力检验。

步骤(4)中，将步骤(3)中在同一子网络富集到的药物进行两两组合，得到具有协同作用的组合药物，或对药物进行重定位。

同一子网络中的致病基因存在相互作用，且关联紧密，对子网络进行药物富集，若某些药物在同一个子网络中被富集，并且对应不同的靶基因，这些药物组合起来可能治疗效果更好。基于此，结合步骤(3)中富集的结果，将在同一个子网络中被富集且对应不同的靶基因的药物进行两两组合，发现多靶标单药或能够产生协同效应的组合药物，或者对相关药物进行重定位。

本发明还提供上述任一项基于热扩散网络的药物发现方法在医药和兽药开发领域的应用。

相对于现有技术，本发明的有益效果为：

本发明提出一种基于热扩散网络的药物发现方法，该方法成本低、效率高，能够高效识别疾病关联基因，为新药的发现研发提供有效指导。该方法可用于发现多靶标单药或能够产生协同效应的组合药物，或者对相关药物进行重定位，为药物发现和设计提供全新的方法和思路。

附图说明

图1为本发明基于热扩散网络的药物发现方法的流程图。

图2为实施例4基于热扩散网络的药物发现方法中利用表型组关联分析(PheWAS)和Hotnet2热扩散网络预测具有抗HIV侵染活性药物的流程示意图。

图3为实施例5基于热扩散网络的药物发现方法中利用成药性打分方法和Hotnet2热扩散网络预测具有治疗I型糖尿病活性药物的流程示意图。

图4为实施例9基于热扩散网络的药物发现方法中利用全基因组关联分析(GWAS)和Hotnet2热扩散网络预测具有治疗狗癫痫活性药物的流程示意图。

具体实施方式

为更好地说明本发明的目的、技术方案和优点，下面将结合附图和具体实施例对本发明进一步说明。本领域技术人员应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

为了更好地理解本发明，下面提供相关的解释和说明：

疾病关联基因：遗传性疾病关联基因，也称为遗传性疾病相关基因；

GWAS：全基因组关联分析；

PheWAS：表型组关联分析；

PPI：protein-protein interaction，蛋白质交互网络；

STRING：蛋白互作网络数据库；

DGIdb：药物靶标数据库；

DrugBank：药物靶标数据库，药物活性数据库；

TTD：药物靶标数据库，药物活性数据库；

ClinicalTrials：药物活性数据库；

DCDB：药物组合数据库。

实施例中，所使用的实验方法如无特殊说明，均为常规方法，所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例1

使用本发明方法发现具有治疗精神分裂活性的药物

图1为本发明基于热扩散网络的药物发现方法的流程图。

一、通过GWAS获取致病基因与疾病之间的关联强度

从PGC(Psychiatric Genomics Consortium)获取GWAS统计数据，得到SNPs(single nucleotide polymorphisms)与表型关联的P值。通过HapMap中提供的LD(LinkageDisequilibrium)信息，赋予连锁的SNPs相同的P值。再根据eqtl.chicago.edu提供的eQTL信息，RegulomeDB提供的转录调控信息，以及Tianet al.(Explaining the diseasephenotype of intergenicSNPthrough predicted long range regulation)文章中提供的与疾病相关的位于基因间区SNP信息，总共三种方式将SNPs对到对应的基因上。另外若SNPs在基因的上下5kb，也将此SNPs归到对应基因上。得到基因对应的SNPs后，取基因对应P值排名在前四分之一的SNPs的均值作为基因的P值。获得24283个基因与精神分裂关联的P值，考虑到去除无关基因并降低运算量，选取前3500个基因作为HotNet2的输入。

二、采用HotNet2算法获得与疾病显著相关的基因子网络

HotNet2(https://github.com/raphael-group/hotnet2)是基于热扩散核算法，主要输入是包含每个基因与疾病之间的关联强度以及相应基因对之间相互作用的热矢量。将步骤一中的P值取其自然对数作为初始热度值输入HotNet2中构造子网络。同时从数据库STRING中得到HotNet2所需的打分大于400的蛋白互作网络。HotNet2中的参数设置为默认值，β＝0.4。最终得到81个与疾病显著(P＝0.02)相关的重要子网络，总共涉及到622个基因。

三、获取药物靶标信息，对步骤二中得到的每个与疾病显著相关的子网络进行药物富集

将步骤二中得到的结果在三个药物靶标数据库DrugBank(https://www.drugbank.ca)，Therapeutic Target Database(TTD,http://bidd.nus.edu.sg/group/cjttd/)，和ClinicalTrials(https://www.clinicaltrials.gov)进行富集，我们得到5452种有活性的药物，对应了2440个靶标。其中有274种药物是用于治疗精神分裂的，涉及到431个靶标。根据步骤二中HotNet2得到的622个基因，可以获得205种活性药物，其中34种可用于治疗精神分裂。通过超几何测试(P＝3.33e-10)，表明本发明方法可以明显地丰富抗精神分裂药物。

与此同时，我们还选取前622个基因中最显著的P值对GWAS结果中单个基因位点进行了药物富集，得到302个活性药物，包括30个抗精神分裂药物。在超几何测试中，p值为2.193939e-04。相比之下，本发明方法富集抗精神分裂药物与GWAS方法相比有明显的提高。

四、发现具有协同效应的组合药物

经过HotNet得到的同一网络中的基因存在相互作用，且关联紧密。因此选取打在同一子网络上不同基因的药物进行组合，就有可能有增效作用。在其中一个子网络中5种药物对应于靶基因GABRA2，另外1种药物对应靶基因NUBPL。将前面5种药物和后面1种药物两两组合，共得到5种潜在治疗精神分裂疾病的药物组合。

实施例2

使用本发明方法发现具有治疗抑郁狂躁型忧郁症活性的药物

一、通过GWAS获取致病基因与疾病之间的关联强度

从PGC(Psychiatric Genomics Consortium)获取GWAS统计数据，得到SNPs(single nucleotide polymorphisms)与表型关联的P值。通过HapMap中提供的LD(LinkageDisequilibrium)信息，赋予连锁的SNPs相同的P值。再根据eqtl.chicago.edu提供的eQTL信息，RegulomeDB提供的转录调控信息，以及Tian et al.(Explaining the diseasephenotype of intergenicSNPthrough predicted long range regulation)文章中提供的与疾病相关的位于基因间区SNP信息，总共三种方式将SNPs对到对应的基因上。另外若SNPs在基因的上下5kb，也将此SNPs归到对应基因上。得到基因对应的SNPs后，取基因对应P值排名在前四分之一的SNPs的均值作为基因的P值。

本实施例步骤二至步骤四同实施例1，简要描述如下：

将步骤一中的得分取其自然对数作为初始热度值输入HotNet2中构造子网络。把5452个药物的靶标对应输出的子网络，进行活性预测。对于每个药物，在一个子网络中有一个靶标，则为单靶药物，若在一个子网络中有两个及两个以上靶标，则为多靶药物。结果显示5452个药物中有261个单靶和多靶药物预测出治疗抑郁狂躁型忧郁症的活性。通过查询DrugBank、TTD和ClinicalTrials药物活性数据库，261个潜在药物中有39(14.9％)个药物在临床上有治疗抑郁狂躁型忧郁症活性，而在背景数据库中治疗抑郁狂躁型忧郁症活性的单靶和多靶药物的比例是251/5452(4.6％)。并且有7个多靶药物预测出治疗抑郁狂躁型忧郁症活性，其中有3(42.9％)个药物经查询后在临床上有治疗抑郁狂躁型忧郁症活性，而在背景数据库中有治疗抑郁狂躁型忧郁症活性的多靶药物的比例是164/2236(7.3％)，所以本发明方法预测药物的有效率显著高于背景数据库(超几何检验显著，单靶和多靶药物P值＝2.45E-11，多靶药物P值＝1.1E-2)。

实施例3

使用本发明方法发现具有抗癌活性的药物

一、通过PheWAS获取致病基因与疾病之间的关联强度

采用Python编程来完成PheWAS分析。总共得到3144个SNPs覆盖了1354种PheWAS表型。采用Nelson et al.的SNP-to-gene映射方法(Nelson M.R.,et al.(2015).Thesupport of human genetic evidence for approved drug indications.Nat.Genet.47,856-860.)来确定PheWAS中SNPs相关基因。首先基于千人基因组计划通过LD分析获得3144个SNPs中的强关联变异；然后综合基因的物理上近距离、基因表达数量性状位点(eQTL)以及变体的位置与DNase I-过敏位点(DHS)峰重叠位置等信息确定极可能由PheWAS衍生位点调控的基因；最终得到7219个PheWAS表型相关基因。将基于PheWAS的SNPs的P值关联到相应的基于SNP-to-gene映射方法的基因上。

本实施例步骤二至步骤四同实施例1，简要描述如下：

将步骤一中得到的癌症相关基因的P值作为初始热度值输入HotNet2中构造子网络。通过P值从296种疾病分类中筛选出167种重要子网络(P<0.05)。选取同一子网络中同时靶向两个或多个基因的药物作为候选药物。通过查询DrugBank、TTD和ClinicalTrials药物活性数据库，167个显著子网络中的癌症相关子网络对应59个潜在药物中有11(18.6％)个药物在临床上有抗癌活性。在组合药物数据库DCDB记录的26种基于同一癌症相关子网络的多靶标组合药物中，有12(46.2％)种具有抗癌活性，这个比例明显高于以PheWAS的单独致病基因为靶标得到的组合药物比例(21.4％(143/669)，超几何检验显著，P<2.90E-3)和DCDB的背景数据库比例(16.0％(218/1362)，超几何检验显著，P<2.53E-4)。由此可见，本专利方法不仅可以预测单组份药物，对于组合药物的重定位同样有效。

实施例4

使用本发明方法发现具有抗HIV侵染活性的药物

图2为本实施例基于热扩散网络的药物发现方法中利用表型组关联分析(PheWAS)和Hotnet2热扩散网络预测具有抗HIV侵染活性药物的流程示意图。

一、通过PheWAS获取致病基因与疾病之间的关联强度

采用Python编程来完成PheWAS分析。总共得到3144个SNPs覆盖了1354种PheWAS表型。采用Nelson et al.的SNP-to-gene映射方法(Nelson M.R.,et al.(2015).Thesupport of human genetic evidence for approved drug indications.Nat.Genet.47,856-860.)来确定PheWAS中SNPs相关基因。首先基于千人基因组计划通过LD分析获得3144个SNPs中的强关联变异；然后综合基因的物理上近距离、基因表达数量性状位点(eQTL)以及变体的位置与DNase I-过敏位点(DHS)峰重叠位置等信息，确定极可能由PheWAS衍生位点调控的基因；最终得到7219个PheWAS表型相关基因。将基于PheWAS的SNPs的P值关联到相应的基于SNP-to-gene映射方法的基因上。

本实施例步骤二至步骤四同实施例1，简要描述如下：

将步骤一中得到的癌症相关基因的P值作为初始热度值输入HotNet2中构造子网络。通过P值从296种疾病分类中筛选出167种重要子网络(P<0.05)。从167种重要子网络(P<0.05)中提取与HIV侵染相关的子网络。选取同一子网络中同时靶向两个或多个基因的药物作为候选药物。通过查询DrugBank、TTD和ClinicalTrials药物活性数据库，HIV侵染相关的子网络对应21个潜在药物中有6(28.6％)个药物在临床上有抗HIV侵染活性，而在背景数据库中已知活性的药物是5451个，其中有229(4.2％)个药物经查询后在临床上有抗HIV侵染活性，所以本发明方法预测药物的有效率显著高于背景数据库(超几何检验显著，P<1.64E-4)。

实施例5

使用本发明方法发现具有治疗I型糖尿病活性的药物

图3为本实施例基于热扩散网络的药物发现方法中利用成药性打分方法和Hotnet2热扩散网络预测具有治疗I型糖尿病活性药物的流程示意图。

一、通过成药性打分方法获取致病基因与疾病之间的关联强度

从DGIdb，TTD，DrugBank和ClinicalTrials数据库中一共收集到5452个药物数以及和这些药物相应的70369对药物-疾病对(包含了662种疾病)和15213药物-靶标对信息(涉及2353药物靶标基因)。从疾病数据库GAD，OMIM，Clinvar，Orphanet，DisGeNET，INTREPID，GWASdb和HGMD中收集致病基因，并且剔除无法map到Entrez ID的基因。通过该过程，总共收集到19283个与疾病相关的致病基因作为我们现在研究的对象。随后根据统计不同来源数据库致病基因的对应药物的有活性率，分别给予不同来源的致病基因高低不同的赋分。筛选出I型糖尿病相关致病基因的得分。

本实施例步骤二至步骤四同实施例1，简要描述如下：

将步骤一中I型糖尿病相关基因的得分作为初始热度值输入HotNet2中构造子网络。把5452个药物的靶标对应输出的子网络，进行活性预测。对于每个药物，在一个子网络中有一个靶标，则为单靶药物，若在一个子网络中有两个及两个以上靶标，则为多靶药物。结果显示5452个药物中有512个单靶和多靶药物预测出治疗I型糖尿病活性。通过查询DrugBank、TTD和ClinicalTrials药物活性数据库，512个潜在药物中有104(20.3％)个药物在临床上有治疗I型糖尿病活性，而在背景数据库中治疗I型糖尿病活性的单靶和多靶药物的比例是496/5452(9.1％)。并且有115个多靶药物预测出治疗I型糖尿病活性，其中有20(17.4％)个药物经查询后在临床上有治疗I型糖尿病活性，而在背景数据库中有治疗I型糖尿病活性的多靶药物的比例是46/2236(2.1％)，所以本发明方法预测药物的有效率显著高于背景数据库(超几何检验显著，单靶和多靶药物P值＝1.24E-16，多靶药物P值＝3.83E-4)。

实施例6

使用本发明方法发现具有治疗银屑病活性的药物

从DGIdb，TTD，DrugBank和ClinicalTrials数据库中一共收集到5452个药物数以及和这些药物相应的70369对药物-疾病对(包含了662种疾病)和15213药物-靶标对信息(涉及2353药物靶标基因)。从疾病数据库GAD，OMIM，Clinvar，Orphanet，DisGeNET，INTREPID，GWASdb和HGMD中收集致病基因，并且剔除无法map到Entrez ID的基因。通过该过程，总共收集到19283个与疾病相关的致病基因作为我们现在研究的对象。随后根据统计不同来源数据库致病基因的对应药物的有活性率，分别给予不同来源的致病基因高低不同的赋分，筛选出银屑病相关基因的得分。

本实施例步骤二至步骤四同实施例1，简要描述如下：

将步骤一中银屑病相关基因的得分作为初始热度值输入HotNet2中构造子网络。把5452个药物的靶标对应输出的子网络，进行活性预测。对于每个药物，在一个子网络中有一个靶标，则为单靶药物，若在一个子网络中有两个及两个以上靶标，则为多靶药物。结果显示5452个药物中有168个单靶和多靶药物预测出治疗银屑病活性。通过查询DrugBank、TTD和ClinicalTrials药物活性数据库，168个潜在药物中有20(11.9％)个药物在临床上有治疗银屑病活性，而在背景数据库中治疗银屑病活性的单靶和多靶药物的比例是142/5452(2.6％)。并且有35个多靶药物预测出治疗银屑病活性，其中有10(28.6％)个药物经查询后在临床上有治疗银屑病活性，而在背景数据库中有治疗银屑病活性的多靶药物的比例是73/2236(3.3％)，所以本发明方法预测药物的有效率显著高于背景数据库(超几何检验显著，单靶和多靶药物P值＝8.44E-9，多靶药物P值＝7.09E-8)。

实施例7

使用本发明方法发现具有治疗帕金森综合征活性的药物

一、通过文本挖掘打分方法获取致病基因与疾病之间的关联强度

用从八种数据库搜集的1564个疾病有关基因与疾病名称(帕金森综合征(PD))一起在NCBI中通过高级搜索查询有关文献的数目，根据搜索到的文献数量对该基因进行打分。得分越高则说明该致病基因与疾病之间关联越强。

本实施例步骤二至步骤四同实施例1，简要描述如下：

将步骤一中的得分取LOG(2)作为初始热度值输入HotNet2中构造子网络。把5452个药物的靶标对应输出的子网络，进行活性预测。对于每个药物，在一个子网络中有一个靶标，则为单靶药物，若在一个子网络中有两个及两个以上靶标，则为多靶药物。结果显示5452个药物中有440个单靶和多靶药物预测出治疗帕金森综合征活性。通过查询DrugBank、TTD和ClinicalTrials药物活性数据库，440个潜在药物中有61(13.9％)个药物在临床上有治疗帕金森综合征活性，而在背景数据库中治疗帕金森综合征活性的单靶和多靶药物的比例是163/5452(3.0％)。并且有107个多靶药物预测出治疗帕金森综合征活性，其中有33(30.8％)个药物经查询后在临床上有治疗帕金森综合征活性，而在背景数据库中有治疗帕金森综合征活性的多靶药物的比例是100/2236(4.5％)，所以本发明方法预测药物的有效率显著高于背景数据库(超几何检验显著，单靶和多靶药物P值＝9.62E-27，多靶药物P值＝4.28E-21)。

实施例8

一、使用本发明方法发现具有治疗阿尔兹海默症活性的药物

通过文本挖掘打分方法获取致病基因与疾病之间的关联强度

用从八种数据库搜集的3304个疾病有关基因与疾病名称(阿尔兹海默症(AD))一起在NCBI中通过高级搜索查询有关文献的数目，根据搜索到的文献数量对该基因进行打分。得分越高则说明该致病基因与疾病之间关联越强。

本实施例步骤二至步骤四同实施例1，简要描述如下：

将步骤一中的得分取LOG(2)作为初始热度值输入HotNet2中构造子网络。把5452个药物的靶标对应输出的子网络，进行活性预测。对于每个药物，在一个子网络中有一个靶标，则为单靶药物，若在一个子网络中有两个及两个以上靶标，则为多靶药物。结果显示5452个药物中有486个单靶和多靶药物预测出治疗阿尔兹海默症活性。通过查询DrugBank、TTD和ClinicalTrials药物活性数据库，486个潜在药物中有124(25.5％)个药物在临床上有治疗阿尔兹海默症活性，而在背景数据库中治疗阿尔兹海默症活性的单靶和多靶药物的比例是257/5452(4.7％)。并且有101个多靶药物预测出治疗阿尔兹海默症活性，其中有24(23.8％)个药物经查询后在临床上有治疗阿尔兹海默症活性，而在背景数据库中有治疗阿尔兹海默症活性的多靶药物的比例是140/2236(6.3％)，所以本发明方法预测药物的有效率显著高于背景数据库(超几何检验显著，单靶和多靶药物P值＝7.16E-66，多靶药物P值＝3.42E-9)。

实施例9

使用本发明方法发现具有治疗犬类癫痫活性的药物

图4为本实施例基于热扩散网络的药物发现方法中利用全基因组关联分析(GWAS)和Hotnet2热扩散网络预测具有治疗狗癫痫活性药物的流程示意图。

一、通过GWAS方法获取致病基因与疾病之间的关联强度

采用MLogit包(Croissant Y.(2012).Estimation of multinomial logitmodels in R:The mlogit Packages.R package version 02-2.URL:http://cran r-project org/web/packages/mlogit/vignettes/mlogitpdf.)来完成GWAS分析。基于NCBI的SNP数据库(ftp://ftp.ncbi.nih.gov/snp/organisms/dog_9615/chr_rpts/)，有44542个SNPs与狗基因匹配，其中，设置P值阈值为1.12e-6采用Bonferroni检验得到82个SNPs，而根据经验设置P值阈值为5e-8可以得到45个SNPs。

为了计算每个基因的热矢量，在去除冗余后使用GWAS中SNP的P值排序，将GWAS中该基因SNP的最低P值设定为该基因的最终热值。因此获得了12355个具有相应P值的基因。为了避免突变基因量的信息丢失，进行Spearman检测以表明基因突变量与最小P值的负对数(即可信度)之间的正相关性(Spearman测试的相关值为0.294，可信度为9.0459e-245)。

二、采用HotNet2算法获得与疾病显著相关的基因子网络

HotNet2是基于热扩散核算法，主要输入是包含每个基因与疾病之间的关联强度以及相应基因对之间相互作用的热矢量。选择步骤一中得到的具有相应P值的12355个基因的前20％的基因，即2471个基因作为输入，使用P值的对数基10的负值作为计算公式。同时基于STRING数据库(STRING，http://www.string-db.org)获得HotNet2所用的蛋白质互作网络。HotNet2中的参数设置为默认值，β＝0.4。最终得到26个与疾病显著(P＝0.02)相关的重要子网络，总共涉及到370个基因。

针对得到的每一个子网络进行GO富集分析(http://www.geneontology.org)。26个子网络中有4个子网络与犬类癫痫有关(如表1所示)。

表1子网络的GO分析结果

将步骤二中得到的结果在三个药物靶标数据库DrugBank(https://www.drugbank.ca)，Therapeutic Target Database(TTD,http://bidd.nus.edu.sg/group/cjttd/)，和ClinicalTrials(https://www.clinicaltrials.gov)进行富集，我们得到5452种活性药物，对应了2440个靶标。其中有79种药物是用于治疗犬类癫痫病，涉及到226个靶标。根据步骤二中HotNet2得到的370个基因，可以获得221种活性药物，其中22种可用于治疗癫痫。通过超几何测试(P＝2.130943e-13)，表明本发明方法可以明显地丰富癫痫药物。

与此同时，我们还选取前370个基因中最显著的P值对GWAS结果中单个基因位点进行了药物富集，得到248个活性药物，包括15个犬类癫痫药物。在超几何测试中，P值为1.912487e-06。相比之下，本发明方法富集癫痫药物与GWAS方法相比有明显的提高。

四、发现具有协同效应的组合药物

通过步骤三的药物富集，第二个子网络获得13种药物，其中11种药物对应靶基因GABRP，另外两种药物对应靶基因SCN10A。将前面11种药物和后面2种药物两两组合，共得到22种潜在治疗犬类癫痫疾病的药物组合。将药物组合与“epilepsy”在PubMed数据库中搜索文章摘要并统计能搜索到的文章数量，可以发现有六组药物组合与“epilepsy”在摘要中共同出现的文章超过100篇(见表2)。在药物组合数据库(DCDB，http://www.cls.zju.edu.cn/dcdb/)中搜索发现，托吡酯和丙戊酸的药物组合ID是DC000445，确实有抗癫痫作用，这说明本发明一种基于热扩散网络的药物发现方法在兽药发现领域也是行之有效的。

表2犬类癫痫潜在组合药物

最后所应当说明的是，以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种基于热扩散网络的药物发现方法，其特征在于，包括以下步骤：

(4)根据步骤(3)中同一子网络的富集结果，对相关潜在药物进行重定位或者组合，发现多靶标单药或者具有协同效应的组合药物；

所述遗传学分析方法是指成药性打分方法，所述成药性打分方法是指统计不同来源疾病数据库致病基因的对应药物的有活性率，对相关疾病数据库进行排序，根据排序结果分别给予不同疾病数据库来源的致病基因不同的赋分，并将来源于多个疾病数据库的同一致病基因的赋分进行累加。

2.根据权利要求1所述的基于热扩散网络的药物发现方法，其特征在于，所述步骤(2)中的HotNet2算法是以步骤(1)中遗传学分析方法结果即致病基因与疾病之间的关联强度作为算法输入的初始热度。

3.根据权利要求2所述的基于热扩散网络的药物发现方法，其特征在于，所述遗传学分析方法结果为成药性打分方法得分。

4.根据权利要求1所述的基于热扩散网络的药物发现方法，其特征在于，所述蛋白互作网络为来源于HINT、iRefIndex和Multinet的蛋白互作网络，或STRING数据库中打分大于400的蛋白互作网络。

5.根据权利要求1所述的基于热扩散网络的药物发现方法，其特征在于，所述药物靶标信息是从DGIdb、DrugBank和TTD数据库中获得。

6.根据权利要求1所述的基于热扩散网络的药物发现方法，其特征在于，所述步骤(3)中，采用超几何检验对步骤(2)中得到的基因子网络进行富集药物能力检验。

7.根据权利要求1所述的基于热扩散网络的药物发现方法，其特征在于，所述步骤(4)中，将步骤(3)中在同一子网络富集到的药物进行两两组合，得到具有协同作用的组合药物，或对药物进行重定位。

8.根据权利要求1～7中任一项所述的基于热扩散网络的药物发现方法在医药和兽药开发领域的应用。