CN113223609A - 基于异质信息网络的药物靶标相互作用预测方法 - Google Patents
基于异质信息网络的药物靶标相互作用预测方法 Download PDFInfo
- Publication number
- CN113223609A CN113223609A CN202110536260.0A CN202110536260A CN113223609A CN 113223609 A CN113223609 A CN 113223609A CN 202110536260 A CN202110536260 A CN 202110536260A CN 113223609 A CN113223609 A CN 113223609A
- Authority
- CN
- China
- Prior art keywords
- drug
- protein
- network
- similarity
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于异质信息网络的药物靶标相互作用预测方法,用于解决现有技术中存在的预测准确率较低的技术问题,实现步骤为:构建异质信息网络Hn;构建药物相似性网络Simd的随机游走序列Wd;构建蛋白质相似性网络Simp的随机游走序列Wp;构建药物‑蛋白质相互作用网络DTI;获取药物特征向量矩阵X和蛋白质特征向量矩阵Y;获取药物靶标相互作用的预测结果。本发明应用了多种类、大规模的异质信息网络数据,构建更为准确且全面的药物特征和靶标特征,提高了药物靶标相互作用的预测准确率,可用于为新药物的研发提供引导。
Description
技术领域
本发明属于生物信息学技术领域,涉及一种药物靶标相互作用预测方法,具体涉及一种基于异质信息网络的药物靶标相互作用预测方法,可用于为新药物的研发提供引导。
背景技术
在药物研发领域普遍存在着投资数额大、投资风险高、研发周期长、研发成功率低的现象。根据统计,药物研发工程从确立项目思路到最终投入市场要经历10-15年的时间,同时要消耗约8-15亿美元的研发成本。在对于药物的研制过程中,药物靶标识别与预测对研究过程起到了相当大的推动作用。传统的药物靶标相互作用研究,只能通过生物实验进行验证。然而,由于精度,成本以及工作效率等因素的限制,传统的以生物实验为基础的药物靶标识别通常难以大规模展开,这也导致了新药物的研究与开发趋于缓慢。
在这样的背景下,将已知药物作为基础,为其寻找新的作用靶标,这样的研发方式逐渐被人们所重视,也就是药物重定位。由药物重定位这样的方式进行“老药新用”,能够免去药物在研制过程中很多繁琐的工作,如药理分析、毒理分析、副作用检测等。也正因为如此,通过药物重定位进行药物研发可以节约大量时间和经费。药物重定位的核心,就是药物靶标相互作用的预测,为已知药物预测新的靶标即为药物重定位。随着生物信息学的迅速发展,智能计算技术为药物-靶标的预测带来了便捷,并为其提供了坚实的理论支撑及高效的实现方式。
例如申请公布号为CN111785320A,名称为“基于多层网络表示学习的药物靶标相互作用预测方法”的专利申请,公开了一种基于异质信息网络的基于多层网络表示学习的药物靶标相互作用预测方法,该发明通过使用药物和蛋白质的多组学数据构建多个相似性网络,计算每个相似性网络的扩散状态捕获网络的拓扑结构特征;通过使用多层网络表示学习方法整合多个网络扩散状态,学习到药物和靶标的特征向量,并将药物和靶标的特征向量投入药物-靶标空间中,通过利用矩阵补全的方法,预测药物靶标相互作用得分。该发明提高了预测准确率,但其存在的缺陷是:1.该发明采用的药物相似性网络和蛋白质相似性网络所包含的子网络的数量和规模较小,不能从中获取足够全面的药物特征和靶标特征,影响了预测准确率的提高。2.使用多层网络表示学习方法整合多个网络扩散状态,学习到药物和靶标的特征向量,同样影响了预测准确率的提高。
发明内容
本发明的目的在于克服上述现有技术的不足,提出了一种基于异质信息网络的药物靶标相互作用预测方法,用于解决现有技术中存在的预测准确率较低的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)构建异质信息网络Hn:
(1a)初始化包括异质信息子网络和同质信息子网络的异质信息网络Hn包含Nd种药物节点,Np种蛋白质节点,D种疾病节点和S种药物副作用节点,Nd≥700,Np≥1500,D≥100,S≥1000;
(1b)构建包括药物-疾病网络、药物-药物副作用网络和蛋白质-疾病网络的异质信息子网络,其中:
药物-疾病网络,其节点为从repoDB、DrugBank和Drug Central数据库下载的Nd种药物和D种疾病,连边为Nd种药物与D种疾病之间存在的Ma条药物-疾病关系数据,Ma≥1000;
药物-药物副作用网络,其节点为从MetaADEDB、CTD、SIDER和OFFSIDES数据库下载的Nd种药物和S种药物副作用,连边为Nd种药物和S种药物副作用之间存在的Mb条药物-药物副作用关系数据,Mb≥260000;
蛋白质-疾病网络,其节点为从OMIM、CTD和HuGE Navigator数据库下载的Np种蛋白质和D种疾病,连边为Np种蛋白质和D种疾病之间存在的Mc条蛋白质-疾病关系数据,Mc≥20000;
(1c)构建同质信息子网络,包括药物-药物相互作用网络药物-药物化学结构相似性网络药物-药物生化相关相似性网络药物-药物临床相似性网络蛋白质-蛋白质相互作用网络蛋白质-蛋白质序列相似性网络和蛋白质-蛋白质生化相关相似性网络其中:
药物-药物化学结构相似性网络其节点为从DrugBank数据库下载的Nd种药物,连边为基于Tanimoto相似性算法通过从DrugBank数据库下载的Nd种药物化学结构数据,计算得到的Me条药物-药物化学结构相似性数据,其中,Me=Nd×Nd;
药物-药物生化相关相似性网络其节点为从GO数据库下载的Nd种药物,连边为基于图的语义相似度算法通过从GO数据库下载的Nd种药物的细胞成分数据、生物过程数据和分子功能数据,计算得到的Mf条药物-药物生化相关相似性数据,其中,Mf=Nd×Nd;
药物-药物临床相似性网络其节点为从DrugBank数据库下载的Nd种药物,连边为基于Tanimoto相似性算法通过从DrugBank数据库下载的Nd种药物的ATC数据,计算得到的Mg条药物-药物临床相似性数据,其中,Mg=Nd×Nd;
蛋白质-蛋白质相互作用网络其节点为从HPRD、dbPTM、KinomeNetworkX和Phospho.ELM数据库下载的Np种蛋白质,连边为Np种蛋白质存在的Mh条蛋白质-蛋白质相互作用数据,其中,Mh≥10000;
蛋白质-蛋白质生化相关相似性网络其节点为从GO数据库下载的Np种蛋白质,连边为基于图的语义相似度算法通过从GO数据库下载的Np种蛋白质的细胞成分数据、生物过程数据和分子功能数据,计算得到的Mj条蛋白质-蛋白质生化相关相似性数据,其中,Mj=Np×Np;
(2)构建药物相似性网络Simd的随机游走序列Wd:
(2a)构建异质信息子网络所包含的药物-疾病网络和药物-药物副作用网络的药物相似性网络:
(3)构建蛋白质相似性网络Simp的随机游走序列Wp:
(3a)计算异质信息子网络所包含的蛋白质-疾病网络中每两种蛋白质间的杰卡德相似性Jc,得到Np×Np个蛋白质间的杰卡德相似性数据,并以Np种蛋白质为节点,以Np×Np个蛋白质间的杰卡德相似性数据为连边的蛋白质-蛋白质相似性网络
(4)构建药物-蛋白质相互作用网络DTI:
构建以从DrugBank、TTD、PharmGKB数据库下载的Nd种药物和Np种蛋白质为节点,以Nd种药物和Np种蛋白质之间存在的I条药物蛋白质相互作用为连边的药物-蛋白质相互作用网络DTI,其中,I≥4000;
(5)获取药物特征向量矩阵X和蛋白质特征向量矩阵Y:
利用Word2Vec软件包,并通过步骤(2c)获取的药物随机游走序列构建大小为Nd×Dd的药物特征向量矩阵X,同时通过步骤(3c)获取的蛋白质随机游走序列构建大小为Np×Dp的蛋白质特征向量矩阵Y,其中Dd≥50,Dp≥200;
(6)获取药物靶标相互作用的预测结果:
(6a)对药物特征向量矩阵X中的每一行与蛋白质特征向量矩阵Y中的每一行进行拼接,得到大小为(Nd×Np)×(Nd+Np)的药物-蛋白质特征向量矩阵XY,同时对步骤(4)所构建的药物-蛋白质相互作用网络DTI中药物节点与蛋白质节点之间存在相互作用的药物-蛋白质,标记其标签为1,否则标记其标签为0,得到Nd×Np个药物-蛋白质标签;
(6b)将药物-蛋白质特征向量矩阵XY和Nd×Np个药物-蛋白质标签作为树分类器模型的输入,并采用五折交叉验证对药物靶标相互作用进行预测,得到Nd种药物和Np种靶标的相互作用关系。
本发明与现有技术相比,具有以下优点:
1.本发明所构建的异质信息网络包含有三种异质信息子网络和七种同质信息子网络,相比于现有技术增加了药物生化相关相似性网络、药物临床相似性网络和蛋白质生化相关相似性网络,扩大了子网络的数量和规模,能够实现从更多角度的数据描述药物和蛋白质,获取到更加全面的药物特征和蛋白质特征,从而使药物靶标相互作用预测的准确率更高。
2.本发明所构建的药物特征向量矩阵和蛋白质特征向量矩阵分别包含有采用二阶有偏随机游走算法从多个子网络所获取的药物随机游走序列和蛋白质随机游走序列,能够实现将不同子网络的药物特征或靶标特征进行更为合理地整合,得到信息全面的药物特征和靶标特征,提高了药物靶标相互作用预测的准确率。
附图说明
图1是本发明的实现流程图;
图2是本发明与现有技术预测精度的仿真对比图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述。
参照图1、本发明包括如下步骤:
步骤1)构建异质信息网络Hn:
(1a)初始化包括异质信息子网络和同质信息子网络的异质信息网络Hn包含Nd种药物节点,Np种蛋白质节点,D种疾病节点和S种药物副作用节点,Nd≥700,Np≥1500,D≥100,S≥1000,其中异质信息网络定义为包含两种及以上类型的节点或连边的信息网络,同质信息网络定义为只包含一种类型的节点和一种类型的连边的信息网络,靶标定义为被药物定向作用的蛋白质或核酸,本实施例中,所有的靶标均为蛋白质,Nd=732,Np=1915,D=440,S=12904;
(1b)构建包括药物-疾病网络、药物-药物副作用网络和蛋白质-疾病网络的异质信息子网络,为保证所下载数据的全面性和完整性,构建异质信息子网络的数据从多个数据库下载得到,其中:
药物-疾病网络,其节点为从repoDB、DrugBank和Drug Central数据库下载的Nd种药物和D种疾病,连边为Nd种药物与D种疾病之间存在的Ma条药物-疾病关系数据,Ma≥1000,本实施例中Ma=1208;
药物-药物副作用网络,其节点为从MetaADEDB、CTD、SIDER和OFFSIDES数据库下载的Nd种药物和S种药物副作用,连边为Nd种药物和S种药物副作用之间存在的Mb条药物-药物副作用关系数据,Mb≥260000,本实施例中Mb=263805;
蛋白质-疾病网络,其节点为从OMIM、CTD和HuGE Navigator数据库下载的Np种蛋白质和D种疾病,连边为Np种蛋白质和D种疾病之间存在的Mc条蛋白质-疾病关系数据,Mc≥20000,本实施例中Mc=23080;
(1c)构建同质信息子网络,包括药物-药物相互作用网络药物-药物化学结构相似性网络药物-药物生化相关相似性网络药物-药物临床相似性网络蛋白质-蛋白质相互作用网络蛋白质-蛋白质序列相似性网络和蛋白质-蛋白质生化相关相似性网络其中:
药物-药物化学结构相似性网络其节点为从DrugBank数据库下载的Nd种药物,连边为基于Tanimoto相似性算法通过从DrugBank数据库下载的Nd种药物化学结构数据,计算得到的Me条药物-药物化学结构相似性数据,其中,Me=Nd×Nd;
药物-药物生化相关相似性网络其节点为从GO数据库下载的Nd种药物,连边为通过从GO数据库下载的Nd种药物的细胞成分数据、生物过程数据和分子功能数据,计算得到的Mf条药物-药物生化相关相似性数据,其中,Mf=Nd×Nd,药物-药物生化相关相似性数据使用2007年发表的论文《A new method to measure the semantic similarity ofGO terms》中提出的图的语义相似度算法获取;
药物-药物临床相似性网络其节点为从DrugBank数据库下载的Nd种药物,连边为基于Tanimoto相似性算法通过从DrugBank数据库下载的Nd种药物的ATC数据,计算得到的Mg条药物-药物临床相似性数据,其中,Mg=Nd×Nd;
蛋白质-蛋白质相互作用网络Simp1,为保证所下载数据的全面性和完整性,其节点为从HPRD、dbPTM、KinomeNetworkX和Phospho.ELM数据库下载的Np种蛋白质,连边为Np种蛋白质存在的Mh条蛋白质-蛋白质相互作用数据,其中,Mh≥10000,本实施例中Mh=16133;
蛋白质-蛋白质生化相关相似性网络其节点为从GO数据库下载的Np种蛋白质,连边为通过从GO数据库下载的Np种蛋白质的细胞成分数据、生物过程数据和分子功能数据,计算得到的Mj条蛋白质-蛋白质生化相关相似性数据,其中,Mj=Np×Np,蛋白质-蛋白质生化相关相似性数据使用2007年发表的论文《A new method to measure the semanticsimilarity of GO terms》中提出的图的语义相似度算法获取;
其中,药物-药物生化相关相似性网络药物-药物临床相似性网络和蛋白质-蛋白质生化相关相似性网络是本发明相比现有技术增加的相似性网络,使本发明构建的异质信息网络Hn包含更多药物节点信息和蛋白质节点信息,能够在构建药物特征向量矩阵和蛋白质特征向量矩阵时提供更全面和准确的信息;
(2)构建药物相似性网络Simd的随机游走序列Wd:
(2a)构建异质信息子网络所包含的药物-疾病网络和药物-药物副作用网络的药物相似性网络:
其中,两种药物间的杰卡德相似性Ja,计算公式为:
其中A∩B表示药物A与药物B的邻居节点的交集,A∪B表示表示药物A与药物B的邻居节点的并集;
其中两种药物间的杰卡德相似性Jb的计算公式与Ja相同;
(2c1)初始化药物相似性网络Simd中每个节点向其他节点跳转的概率为αtk:
其中dtk表示当前节点的上一节点t和下一节点k的最短距离,p和q为人工定义参数,p>0,q>0,本实施例中p=1,q=3;
(2c2)药物相似性网络中每个相似性网络的每个节点采用二阶有偏随机游走算法,并以αtk为跳转概率向其他节点的进行l次跳转,重复n次,每个相似性网络获取Nd×n条随机游走序列,最终获取药物相似性网络Simd的药物随机游走序列其中,每一条随机游走序列由l个药物节点组成,n≥5,l≥10,中的 分别对应中的 本实施例中n=10,l=80;
(3)构建蛋白质相似性网络Simp的随机游走序列Wp:
(3a)计算异质信息子网络所包含的蛋白质-疾病网络中每两种蛋白质间的杰卡德相似性Jc,得到Np×Np个蛋白质间的杰卡德相似性数据,并以Np种蛋白质为节点,以Np×Np个蛋白质间的杰卡德相似性数据为连边的蛋白质-蛋白质相似性网络
其中,两种蛋白质间的杰卡德相似性Jc的计算公式与Ja相同;
(3c1)初始化蛋白质相似性网络Simp中每个节点向其他节点跳转的概率为αtk,其中αtk的定义与步骤2c1)中相同;
(3c2)蛋白质相似性网络中每个相似性网络的每个节点采用二阶有偏随机游走算法,并以αtk为跳转概率向其他节点的进行l次跳转,重复n次,每个相似性网络获取Nd×n条随机游走序列,最终获取蛋白质相似性网络Simp的蛋白质随机游走序列其中每一条随机游走序列由l个蛋白质节点组成,n≥5,l≥10,中的分别对应中的本实施例中,n=10,l=80。
(4)构建药物-蛋白质相互作用网络DTI:
构建以从DrugBank、TTD、PharmGKB数据库下载的Nd种药物和Np种蛋白质为节点,以Nd种药物和Np种蛋白质之间存在的I条药物蛋白质相互作用为连边的药物-蛋白质相互作用网络DTI,其中,I≥4000,本实施例中,I=4978;
(5)获取药物特征向量矩阵X和蛋白质特征向量矩阵Y:
利用Word2Vec软件包,并通过步骤(2c)获取的药物随机游走序列构建大小为Nd×Dd的药物特征向量矩阵X,同时通过步骤(3c)获取的蛋白质随机游走序列构建大小为Np×Dp的蛋白质特征向量矩阵Y,其中Dd≥50,Dp≥200,本实施例中,Dd=100,Dp=400;
Word2Vec软件包是一种向量表示工具,能够将序列中每个节点表示为向量,由gensim开放软件库提供,Word2Vec软件包以节点序列为输入数据,获取节点之间的相邻关系,遵循相邻的节点其向量的相似性更高这一原则,将每一个节点表示为向量,得到节点向量矩阵,其中,向量的相似性定义为余弦相似性,向量的维度由人工设定;
(6)获取药物靶标相互作用的预测结果:
(6a)对药物特征向量矩阵X中的每一行与蛋白质特征向量矩阵Y中的每一行进行拼接,得到大小为(Nd×Np)×(Nd+Np)的药物-蛋白质特征向量矩阵XY,同时对步骤(4)所构建的药物-蛋白质相互作用网络DTI中药物节点与蛋白质节点之间存在相互作用的药物-蛋白质,标记其标签为1,否则标记其标签为0,得到Nd×Np个药物-蛋白质标签;
(6b)将药物-蛋白质特征向量矩阵XY和Nd×Np个药物-蛋白质标签作为树分类器模型的输入,并采用五折交叉验证对药物靶标相互作用进行预测,得到Nd种药物和Np种靶标的相互作用关系,本实施例中,基于对预测效率和预测准确率的综合考虑,选用LightGBM作为树分类器模型,LightGBM的预测效率和预测准确率高,符合本实施例的树分类器要求;
其中,五折交叉验证的定义为:
将数据集平均分为5等份,每次选取其中4份为训练集训练模型,选取剩下的1份为测试集利用训练好的模型进行预测,重复5次。
本发明的效果可通过以下仿真进一步说明:
1.仿真条件
仿真实验在Intel(R)Core(TM)i7-8700k CPU、主频3.70GHz、内存48G的Ubuntu平台上的Python 3.6.5进行。
2.仿真内容:
仿真1,使用本发明方法,和现有技术进行对比,采用五折交叉验证,分别绘制受试者操作特性曲线(ROC曲线)和精确率-召回率曲线(PR曲线),对比其ROC曲线下面积(AUROC)和PR曲线下面积(AUPR),数值越高表示模型表现越好,预测准确率越高;
其中,ROC曲线的横坐标为假阳性率,纵坐标为真阳性率,假阳性率定义为被错误分类的负样本数量占负样本总数的比率,真阳性率定义为被正确分类的正样本数量占正样本总数的比率;PR曲线的横坐标为召回率,纵坐标为精确率,召回率的定义与真阳性率相同,精确率定义为被正确分类的正样本占被分类为正样本的总数的比率;
从图2可以发现,本发明有效地提高了药物靶标相互作用预测的准确率。
仿真2,将仿真1得到的预测结果进行排序,获取预测值排名前1000的具有相互作用的药物靶标,对这些药物靶标进行分析,发现其中包含多个潜在的药物靶标相互作用,其中潜在的药物靶标相互作用定义为:
一组药物靶标在数据集中被标记为没有相互作用,但是被模型预测为存在相互作用;
将潜在的药物靶标相互作用进行文献验证,疾病关联验证和信号通路关联验证,结果如表1所示;
表1潜在的药物靶标相互作用验证
其中,对于一组药物靶标,文献验证指的是在现有文献资料中是否被报告为存在相互作用的药物靶标,疾病关联验证指的是在现有数据库中是否被报告与相同的疾病有关,信号通路关联验证指的是在现有数据库中是否被报告与生物体内相同的信号传导通路有关。
从表1可见,基于异质信息网络的药物靶标相互作用预测方法预测的潜在药物靶标可以在一个或多个层面被验证,证明了本发明预测的准确性和可靠性。
Claims (5)
1.一种基于异质信息网络的药物靶标相互作用预测方法,其特征在于包括如下步骤:
(1)构建异质信息网络Hn:
(1a)初始化包括异质信息子网络和同质信息子网络的异质信息网络Hn包含Nd种药物节点,Np种蛋白质节点,D种疾病节点和S种药物副作用节点,Nd≥700,Np≥1500,D≥100,S≥1000;
(1b)构建包括药物-疾病网络、药物-药物副作用网络和蛋白质-疾病网络的异质信息子网络,其中:
药物-疾病网络,其节点为从repoDB、DrugBank和Drug Central数据库下载的Nd种药物和D种疾病,连边为Nd种药物与D种疾病之间存在的Ma条药物-疾病关系数据,Ma≥1000;
药物-药物副作用网络,其节点为从MetaADEDB、CTD、SIDER和OFFSIDES数据库下载的Nd种药物和S种药物副作用,连边为Nd种药物和S种药物副作用之间存在的Mb条药物-药物副作用关系数据,Mb≥260000;
蛋白质-疾病网络,其节点为从OMIM、CTD和HuGE Navigator数据库下载的Np种蛋白质和D种疾病,连边为Np种蛋白质和D种疾病之间存在的Mc条蛋白质-疾病关系数据,Mc≥20000;
(1c)构建同质信息子网络,包括药物-药物相互作用网络药物-药物化学结构相似性网络药物-药物生化相关相似性网络药物-药物临床相似性网络蛋白质-蛋白质相互作用网络蛋白质-蛋白质序列相似性网络和蛋白质-蛋白质生化相关相似性网络其中:
药物-药物化学结构相似性网络其节点为从DrugBank数据库下载的Nd种药物,连边为基于Tanimoto相似性算法通过从DrugBank数据库下载的Nd种药物化学结构数据,计算得到的Me条药物-药物化学结构相似性数据,其中,Me=Nd×Nd;
药物-药物生化相关相似性网络其节点为从GO数据库下载的Nd种药物,连边为基于图的语义相似度算法通过从GO数据库下载的Nd种药物的细胞成分数据、生物过程数据和分子功能数据,计算得到的Mf条药物-药物生化相关相似性数据,其中,Mf=Nd×Nd;
药物-药物临床相似性网络其节点为从DrugBank数据库下载的Nd种药物,连边为基于Tanimoto相似性算法通过从DrugBank数据库下载的Nd种药物的ATC数据,计算得到的Mg条药物-药物临床相似性数据,其中,Mg=Nd×Nd;
蛋白质-蛋白质相互作用网络其节点为从HPRD、dbPTM、KinomeNetworkX和Phospho.ELM数据库下载的Np种蛋白质,连边为Np种蛋白质存在的Mh条蛋白质-蛋白质相互作用数据,其中,Mh≥10000;
蛋白质-蛋白质生化相关相似性网络其节点为从GO数据库下载的Np种蛋白质,连边为基于图的语义相似度算法通过从GO数据库下载的Np种蛋白质的细胞成分数据、生物过程数据和分子功能数据,计算得到的Mj条蛋白质-蛋白质生化相关相似性数据,其中,Mj=Np×Np;
(2)构建药物相似性网络Simd的随机游走序列Wd:
(2a)构建异质信息子网络所包含的药物-疾病网络和药物-药物副作用网络的药物相似性网络:
(3)构建蛋白质相似性网络Simp的随机游走序列Wp:
(3a)计算异质信息子网络所包含的蛋白质-疾病网络中每两种蛋白质间的杰卡德相似性Jc,得到Np×Np个蛋白质间的杰卡德相似性数据,并以Np种蛋白质为节点,以Np×Np个蛋白质间的杰卡德相似性数据为连边的蛋白质-蛋白质相似性网络
(4)构建药物-蛋白质相互作用网络DTI:
构建以从DrugBank、TTD、PharmGKB数据库下载的Nd种药物和Np种蛋白质为节点,以Nd种药物和Np种蛋白质之间存在的I条药物蛋白质相互作用为连边的药物-蛋白质相互作用网络DTI,其中,I≥4000;
(5)获取药物特征向量矩阵X和蛋白质特征向量矩阵Y:
利用Word2Vec软件包,并通过步骤(2c)获取的药物随机游走序列构建大小为Nd×Dd的药物特征向量矩阵X,同时通过步骤(3c)获取的蛋白质随机游走序列构建大小为Np×Dp的蛋白质特征向量矩阵Y,其中Dd≥50,Dp≥200;
(6)获取药物靶标相互作用的预测结果:
(6a)对药物特征向量矩阵X中的每一行与蛋白质特征向量矩阵Y中的每一行进行拼接,得到大小为(Nd×Np)×(Nd+Np)的药物-蛋白质特征向量矩阵XY,同时对步骤(4)所构建的药物-蛋白质相互作用网络DTI中药物节点与蛋白质节点之间存在相互作用的药物-蛋白质,标记其标签为1,否则标记其标签为0,得到Nd×Np个药物-蛋白质标签;
(6b)将药物-蛋白质特征向量矩阵XY和Nd×Np个药物-蛋白质标签作为树分类器模型的输入,并采用五折交叉验证对药物靶标相互作用进行预测,得到Nd种药物和Np种靶标的相互作用关系。
3.根据权利要求1所述的基于异质信息网络的药物靶标相互作用预测方法,其特征在于,步骤(2c)中所述的获取药物相似性网络Simd的随机游走序列Wd,实现步骤为:
(2c1)初始化药物相似性网络Simd中每个节点向其他节点跳转的概率为αtk:
其中dtk表示当前节点的上一节点t和下一节点k的最短距离,p和q为人工定义参数,p>0,q>0;
4.根据权利要求1所述的基于异质信息网络的药物靶标相互作用预测方法,其特征在于,步骤(3c)中所述的获取药物相似性网络Simp的随机游走序列Wp,实现步骤为:
(3c1)初始化蛋白质相似性网络Simp中每个节点向其他节点跳转的概率为αtk:
其中dtk表示当前节点的上一节点t和下一节点k的最短距离,p和q为人工定义参数,p>0,q>0;
5.根据权利要求1所述的基于异质信息网络的药物靶标相互作用预测方法,其特征在于,步骤(6b)中所述的树分类器模型,采用基于梯度提升树的分类器模型LightGBM。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110536260.0A CN113223609B (zh) | 2021-05-17 | 2021-05-17 | 基于异质信息网络的药物靶标相互作用预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110536260.0A CN113223609B (zh) | 2021-05-17 | 2021-05-17 | 基于异质信息网络的药物靶标相互作用预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113223609A true CN113223609A (zh) | 2021-08-06 |
CN113223609B CN113223609B (zh) | 2023-05-02 |
Family
ID=77092422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110536260.0A Active CN113223609B (zh) | 2021-05-17 | 2021-05-17 | 基于异质信息网络的药物靶标相互作用预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113223609B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114038499A (zh) * | 2021-11-12 | 2022-02-11 | 东南大学 | 一种基于异质网络嵌入的中药药方活性成分群预测方法 |
CN115116561A (zh) * | 2022-06-29 | 2022-09-27 | 南方医科大学南方医院 | 一种药物-靶蛋白-精神分裂症互作网络的构建方法及其应用 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140317033A1 (en) * | 2013-04-23 | 2014-10-23 | International Business Machines Corporation | Predictive and descriptive analysis on relations graphs with heterogeneous entities |
CN108520166A (zh) * | 2018-03-26 | 2018-09-11 | 中山大学 | 一种基于多重相似性网络游走的药物靶标预测方法 |
CN109493925A (zh) * | 2018-11-20 | 2019-03-19 | 北京晶派科技有限公司 | 一种确定药物和药物靶点关联关系的方法 |
CN110852437A (zh) * | 2019-10-29 | 2020-02-28 | 天津大学 | 一种针对异质信息网络的表示学习方法 |
CN111325326A (zh) * | 2020-02-21 | 2020-06-23 | 北京工业大学 | 一种基于异质网络表示学习的链路预测方法 |
CN111524546A (zh) * | 2020-04-14 | 2020-08-11 | 湖南大学 | 一种基于异构信息的药物-靶标相互作用预测方法 |
CN111785320A (zh) * | 2020-06-28 | 2020-10-16 | 西安电子科技大学 | 基于多层网络表示学习的药物靶标相互作用预测方法 |
CN112216353A (zh) * | 2020-11-02 | 2021-01-12 | 长沙理工大学 | 一种用于预测药物-靶标相互作用关系的方法和设备 |
CN112309505A (zh) * | 2020-11-05 | 2021-02-02 | 湖南大学 | 一种基于网络表征的抗新冠炎症药物发现方法 |
US20210071255A1 (en) * | 2019-09-06 | 2021-03-11 | The Broad Institute, Inc. | Methods for identification of genes and genetic variants for complex phenotypes using single cell atlases and uses of the genes and variants thereof |
-
2021
- 2021-05-17 CN CN202110536260.0A patent/CN113223609B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140317033A1 (en) * | 2013-04-23 | 2014-10-23 | International Business Machines Corporation | Predictive and descriptive analysis on relations graphs with heterogeneous entities |
CN108520166A (zh) * | 2018-03-26 | 2018-09-11 | 中山大学 | 一种基于多重相似性网络游走的药物靶标预测方法 |
CN109493925A (zh) * | 2018-11-20 | 2019-03-19 | 北京晶派科技有限公司 | 一种确定药物和药物靶点关联关系的方法 |
US20210071255A1 (en) * | 2019-09-06 | 2021-03-11 | The Broad Institute, Inc. | Methods for identification of genes and genetic variants for complex phenotypes using single cell atlases and uses of the genes and variants thereof |
CN110852437A (zh) * | 2019-10-29 | 2020-02-28 | 天津大学 | 一种针对异质信息网络的表示学习方法 |
CN111325326A (zh) * | 2020-02-21 | 2020-06-23 | 北京工业大学 | 一种基于异质网络表示学习的链路预测方法 |
CN111524546A (zh) * | 2020-04-14 | 2020-08-11 | 湖南大学 | 一种基于异构信息的药物-靶标相互作用预测方法 |
CN111785320A (zh) * | 2020-06-28 | 2020-10-16 | 西安电子科技大学 | 基于多层网络表示学习的药物靶标相互作用预测方法 |
CN112216353A (zh) * | 2020-11-02 | 2021-01-12 | 长沙理工大学 | 一种用于预测药物-靶标相互作用关系的方法和设备 |
CN112309505A (zh) * | 2020-11-05 | 2021-02-02 | 湖南大学 | 一种基于网络表征的抗新冠炎症药物发现方法 |
Non-Patent Citations (4)
Title |
---|
YAN XIAOYING 等: ":百度学术,Yu Liang, heterogeneous information network, drug-target, prediction;", 《MOLECULAR BIOSYSTEMS》 * |
马毅 等: "基于HeteSim的疾病关联长非编码RNA预测", 《计算机研究与发展》 * |
高创 等: "基于图卷积神经网络的药物靶标作用关系预测方法", 《计算机科学》 * |
鱼亮 等: "基于组织特异性和直接邻居相似度方法预测疾病-药物关系", 《中国科学:信息科学》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114038499A (zh) * | 2021-11-12 | 2022-02-11 | 东南大学 | 一种基于异质网络嵌入的中药药方活性成分群预测方法 |
CN115116561A (zh) * | 2022-06-29 | 2022-09-27 | 南方医科大学南方医院 | 一种药物-靶蛋白-精神分裂症互作网络的构建方法及其应用 |
CN115116561B (zh) * | 2022-06-29 | 2023-04-28 | 南方医科大学南方医院 | 一种药物-靶蛋白-精神分裂症互作网络的应用 |
Also Published As
Publication number | Publication date |
---|---|
CN113223609B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106529205A (zh) | 一种基于药物子结构、分子字符描述信息的药物靶标关系预测方法 | |
CN107545151A (zh) | 一种基于低秩矩阵填充的药物重定位方法 | |
CN113223609A (zh) | 基于异质信息网络的药物靶标相互作用预测方法 | |
CN112599187B (zh) | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 | |
Lin et al. | Clustering methods in protein-protein interaction network | |
He et al. | Evolutionary graph clustering for protein complex identification | |
CN111435608A (zh) | 一种基于深度学习的蛋白质药物结合位点预测方法 | |
CN113488104B (zh) | 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统 | |
CN107491664B (zh) | 一种基于信息熵的蛋白质结构从头预测方法 | |
CN107885971B (zh) | 采用改进花授粉算法识别关键蛋白质的方法 | |
US20020072887A1 (en) | Interaction fingerprint annotations from protein structure models | |
CN113539372A (zh) | 一种LncRNA和疾病关联关系的高效预测方法 | |
CN116206775A (zh) | 一种融合多维度特征的药物-靶点相互作用预测方法 | |
Gonzalez-Alvarez et al. | Comparing multiobjective swarm intelligence metaheuristics for DNA motif discovery | |
CN110400605A (zh) | 一种gpcr药物靶标的配体生物活性预测方法及其应用 | |
Liu et al. | A Network Hierarchy-Based method for functional module detection in protein–protein interaction networks | |
CN110534153A (zh) | 基于深度学习的靶标预测系统及其方法 | |
US20030149554A1 (en) | Fast computer data segmenting techniques | |
CN114300036A (zh) | 遗传变异致病性预测方法、装置、存储介质及计算机设备 | |
Wang et al. | Network modelling of topological domains using Hi-C data | |
CN115295079A (zh) | 基于元图学习的长链非编码rna亚细胞定位预测方法 | |
CN114999566A (zh) | 基于词向量表征和注意力机制的药物重定位方法及系统 | |
CN111383710A (zh) | 基于粒子群优化双子支持向量机的基因剪接位点识别模型构建方法 | |
CN117976047B (zh) | 基于深度学习的关键蛋白质预测方法 | |
Cai et al. | Application and research progress of machine learning in Bioinformatics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |