CN113223609A

CN113223609A - 基于异质信息网络的药物靶标相互作用预测方法

Info

Publication number: CN113223609A
Application number: CN202110536260.0A
Authority: CN
Inventors: 鱼亮; 安琦
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-08-06
Anticipated expiration: 2041-05-17
Also published as: CN113223609B

Abstract

本发明提出了一种基于异质信息网络的药物靶标相互作用预测方法，用于解决现有技术中存在的预测准确率较低的技术问题，实现步骤为：构建异质信息网络H_n；构建药物相似性网络Sim_d的随机游走序列W_d；构建蛋白质相似性网络Sim_p的随机游走序列W_p；构建药物‑蛋白质相互作用网络DTI；获取药物特征向量矩阵X和蛋白质特征向量矩阵Y；获取药物靶标相互作用的预测结果。本发明应用了多种类、大规模的异质信息网络数据，构建更为准确且全面的药物特征和靶标特征，提高了药物靶标相互作用的预测准确率，可用于为新药物的研发提供引导。

Description

基于异质信息网络的药物靶标相互作用预测方法

技术领域

本发明属于生物信息学技术领域，涉及一种药物靶标相互作用预测方法，具体涉及一种基于异质信息网络的药物靶标相互作用预测方法，可用于为新药物的研发提供引导。

背景技术

在药物研发领域普遍存在着投资数额大、投资风险高、研发周期长、研发成功率低的现象。根据统计，药物研发工程从确立项目思路到最终投入市场要经历10-15年的时间，同时要消耗约8-15亿美元的研发成本。在对于药物的研制过程中，药物靶标识别与预测对研究过程起到了相当大的推动作用。传统的药物靶标相互作用研究，只能通过生物实验进行验证。然而，由于精度，成本以及工作效率等因素的限制，传统的以生物实验为基础的药物靶标识别通常难以大规模展开，这也导致了新药物的研究与开发趋于缓慢。

在这样的背景下，将已知药物作为基础，为其寻找新的作用靶标，这样的研发方式逐渐被人们所重视，也就是药物重定位。由药物重定位这样的方式进行“老药新用”，能够免去药物在研制过程中很多繁琐的工作，如药理分析、毒理分析、副作用检测等。也正因为如此，通过药物重定位进行药物研发可以节约大量时间和经费。药物重定位的核心，就是药物靶标相互作用的预测，为已知药物预测新的靶标即为药物重定位。随着生物信息学的迅速发展，智能计算技术为药物-靶标的预测带来了便捷，并为其提供了坚实的理论支撑及高效的实现方式。

例如申请公布号为CN111785320A，名称为“基于多层网络表示学习的药物靶标相互作用预测方法”的专利申请，公开了一种基于异质信息网络的基于多层网络表示学习的药物靶标相互作用预测方法，该发明通过使用药物和蛋白质的多组学数据构建多个相似性网络，计算每个相似性网络的扩散状态捕获网络的拓扑结构特征；通过使用多层网络表示学习方法整合多个网络扩散状态，学习到药物和靶标的特征向量，并将药物和靶标的特征向量投入药物-靶标空间中，通过利用矩阵补全的方法，预测药物靶标相互作用得分。该发明提高了预测准确率，但其存在的缺陷是：1.该发明采用的药物相似性网络和蛋白质相似性网络所包含的子网络的数量和规模较小，不能从中获取足够全面的药物特征和靶标特征，影响了预测准确率的提高。2.使用多层网络表示学习方法整合多个网络扩散状态，学习到药物和靶标的特征向量，同样影响了预测准确率的提高。

发明内容

本发明的目的在于克服上述现有技术的不足，提出了一种基于异质信息网络的药物靶标相互作用预测方法，用于解决现有技术中存在的预测准确率较低的技术问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)构建异质信息网络H_n：

(1a)初始化包括异质信息子网络和同质信息子网络的异质信息网络H_n包含N_d种药物节点，N_p种蛋白质节点，D种疾病节点和S种药物副作用节点，N_d≥700，N_p≥1500，D≥100，S≥1000；

(1b)构建包括药物-疾病网络、药物-药物副作用网络和蛋白质-疾病网络的异质信息子网络，其中：

药物-疾病网络，其节点为从repoDB、DrugBank和Drug Central数据库下载的N_d种药物和D种疾病，连边为N_d种药物与D种疾病之间存在的M_a条药物-疾病关系数据，M_a≥1000；

药物-药物副作用网络，其节点为从MetaADEDB、CTD、SIDER和OFFSIDES数据库下载的N_d种药物和S种药物副作用，连边为N_d种药物和S种药物副作用之间存在的M_b条药物-药物副作用关系数据，M_b≥260000；

蛋白质-疾病网络，其节点为从OMIM、CTD和HuGE Navigator数据库下载的N_p种蛋白质和D种疾病，连边为N_p种蛋白质和D种疾病之间存在的M_c条蛋白质-疾病关系数据，M_c≥20000；

(1c)构建同质信息子网络，包括药物-药物相互作用网络

药物-药物化学结构相似性网络

药物-药物生化相关相似性网络

药物-药物临床相似性网络

蛋白质-蛋白质相互作用网络

蛋白质-蛋白质序列相似性网络

和蛋白质-蛋白质生化相关相似性网络

其中：

药物-药物相互作用网络

其节点为从DrugBank数据库中下载的N_d种药物，连边为N_d种药物存在的M_d条药物-药物相互作用数据，其中，M_d≥100000；

药物-药物化学结构相似性网络

其节点为从DrugBank数据库下载的N_d种药物，连边为基于Tanimoto相似性算法通过从DrugBank数据库下载的N_d种药物化学结构数据，计算得到的M_e条药物-药物化学结构相似性数据，其中，M_e＝N_d×N_d；

药物-药物生化相关相似性网络

其节点为从GO数据库下载的N_d种药物，连边为基于图的语义相似度算法通过从GO数据库下载的N_d种药物的细胞成分数据、生物过程数据和分子功能数据，计算得到的M_f条药物-药物生化相关相似性数据，其中，M_f＝N_d×N_d；

药物-药物临床相似性网络

其节点为从DrugBank数据库下载的N_d种药物，连边为基于Tanimoto相似性算法通过从DrugBank数据库下载的N_d种药物的ATC数据，计算得到的M_g条药物-药物临床相似性数据，其中，M_g＝N_d×N_d；

蛋白质-蛋白质相互作用网络

其节点为从HPRD、dbPTM、KinomeNetworkX和Phospho.ELM数据库下载的N_p种蛋白质，连边为N_p种蛋白质存在的M_h条蛋白质-蛋白质相互作用数据，其中，M_h≥10000；

蛋白质-蛋白质序列相似性网络

其节点为从Uniprot数据库下载的N_p种蛋白质，连边为从Uniprot数据库下载的M_i条蛋白质-蛋白质序列相似性数据，其中M_i＝N_p×N_p；

蛋白质-蛋白质生化相关相似性网络

其节点为从GO数据库下载的N_p种蛋白质，连边为基于图的语义相似度算法通过从GO数据库下载的N_p种蛋白质的细胞成分数据、生物过程数据和分子功能数据，计算得到的M_j条蛋白质-蛋白质生化相关相似性数据，其中，M_j＝N_p×N_p；

(2)构建药物相似性网络Sim_d的随机游走序列W_d：

(2a)构建异质信息子网络所包含的药物-疾病网络和药物-药物副作用网络的药物相似性网络：

计算药物-疾病网络中每两种药物间的杰卡德相似性J_a，得到N_d×N_d个药物间的杰卡德相似性数据，并构建以N_d种药物为节点，以N_d×N_d个药物间的杰卡德相似性数据为连边的药物-药物相似性网络

计算药物-药物副作用网络中每两种药物间的杰卡德相似性J_b，得到N_d×N_d个药物间的杰卡德相似性数据，并构建以N_d种药物为节点，以N_d×N_d个药物间的杰卡德相似性数据为连边的药物-药物相似性网络

(2b)将同质信息子网络中的药物-药物相互作用网络

药物-药物化学结构相似性网络

药物-药物基因组相关相似性网络

和药物-药物临床相似性网络

以及步骤(2a)所构建的

和

组合成药物相似性网络

(2c)采用二阶有偏随机游走算法提取药物相似性网络Sim_d的药物随机游走序列

其中，

中的

分别对应

中的

(3)构建蛋白质相似性网络Sim_p的随机游走序列W_p：

(3a)计算异质信息子网络所包含的蛋白质-疾病网络中每两种蛋白质间的杰卡德相似性J_c，得到N_p×N_p个蛋白质间的杰卡德相似性数据，并以N_p种蛋白质为节点，以N_p×N_p个蛋白质间的杰卡德相似性数据为连边的蛋白质-蛋白质相似性网络

(3b)将同质信息子网络中的蛋白质-蛋白质相互作用网络

蛋白质-蛋白质序列相似性网络

和蛋白质-蛋白质生化相关相似性网络

以及步骤(3a)所构建的

组合成蛋白质相似性网络

(3c)采用二阶有偏随机游走算法提取药物相似性网络Sim_p的药物随机游走序列

其中，

中的

分别对应

中的

(4)构建药物-蛋白质相互作用网络DTI：

构建以从DrugBank、TTD、PharmGKB数据库下载的N_d种药物和N_p种蛋白质为节点，以N_d种药物和N_p种蛋白质之间存在的I条药物蛋白质相互作用为连边的药物-蛋白质相互作用网络DTI，其中，I≥4000；

(5)获取药物特征向量矩阵X和蛋白质特征向量矩阵Y：

利用Word2Vec软件包，并通过步骤(2c)获取的药物随机游走序列

构建大小为N_d×D_d的药物特征向量矩阵X，同时通过步骤(3c)获取的蛋白质随机游走序列

构建大小为N_p×D_p的蛋白质特征向量矩阵Y，其中D_d≥50，D_p≥200；

(6)获取药物靶标相互作用的预测结果：

(6a)对药物特征向量矩阵X中的每一行与蛋白质特征向量矩阵Y中的每一行进行拼接，得到大小为(N_d×N_p)×(N_d+N_p)的药物-蛋白质特征向量矩阵XY，同时对步骤(4)所构建的药物-蛋白质相互作用网络DTI中药物节点与蛋白质节点之间存在相互作用的药物-蛋白质，标记其标签为1，否则标记其标签为0，得到N_d×N_p个药物-蛋白质标签；

(6b)将药物-蛋白质特征向量矩阵XY和N_d×N_p个药物-蛋白质标签作为树分类器模型的输入，并采用五折交叉验证对药物靶标相互作用进行预测，得到N_d种药物和N_p种靶标的相互作用关系。

本发明与现有技术相比，具有以下优点：

1.本发明所构建的异质信息网络包含有三种异质信息子网络和七种同质信息子网络，相比于现有技术增加了药物生化相关相似性网络、药物临床相似性网络和蛋白质生化相关相似性网络，扩大了子网络的数量和规模，能够实现从更多角度的数据描述药物和蛋白质，获取到更加全面的药物特征和蛋白质特征，从而使药物靶标相互作用预测的准确率更高。

2.本发明所构建的药物特征向量矩阵和蛋白质特征向量矩阵分别包含有采用二阶有偏随机游走算法从多个子网络所获取的药物随机游走序列和蛋白质随机游走序列，能够实现将不同子网络的药物特征或靶标特征进行更为合理地整合，得到信息全面的药物特征和靶标特征，提高了药物靶标相互作用预测的准确率。

附图说明

图1是本发明的实现流程图；

图2是本发明与现有技术预测精度的仿真对比图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述。

参照图1、本发明包括如下步骤：

步骤1)构建异质信息网络H_n：

(1a)初始化包括异质信息子网络和同质信息子网络的异质信息网络H_n包含N_d种药物节点，N_p种蛋白质节点，D种疾病节点和S种药物副作用节点，N_d≥700，N_p≥1500，D≥100，S≥1000，其中异质信息网络定义为包含两种及以上类型的节点或连边的信息网络，同质信息网络定义为只包含一种类型的节点和一种类型的连边的信息网络，靶标定义为被药物定向作用的蛋白质或核酸，本实施例中，所有的靶标均为蛋白质，N_d＝732，N_p＝1915，D＝440，S＝12904；

(1b)构建包括药物-疾病网络、药物-药物副作用网络和蛋白质-疾病网络的异质信息子网络，为保证所下载数据的全面性和完整性，构建异质信息子网络的数据从多个数据库下载得到，其中：

药物-疾病网络，其节点为从repoDB、DrugBank和Drug Central数据库下载的N_d种药物和D种疾病，连边为N_d种药物与D种疾病之间存在的M_a条药物-疾病关系数据，M_a≥1000，本实施例中M_a＝1208；

药物-药物副作用网络，其节点为从MetaADEDB、CTD、SIDER和OFFSIDES数据库下载的N_d种药物和S种药物副作用，连边为N_d种药物和S种药物副作用之间存在的M_b条药物-药物副作用关系数据，M_b≥260000，本实施例中M_b＝263805；

蛋白质-疾病网络，其节点为从OMIM、CTD和HuGE Navigator数据库下载的N_p种蛋白质和D种疾病，连边为N_p种蛋白质和D种疾病之间存在的M_c条蛋白质-疾病关系数据，M_c≥20000，本实施例中M_c＝23080；

(1c)构建同质信息子网络，包括药物-药物相互作用网络

药物-药物化学结构相似性网络

药物-药物生化相关相似性网络

药物-药物临床相似性网络

蛋白质-蛋白质相互作用网络

蛋白质-蛋白质序列相似性网络

和蛋白质-蛋白质生化相关相似性网络

其中：

药物-药物相互作用网络

其节点为从DrugBank数据库中下载的N_d种药物，连边为N_d种药物存在的M_d条药物-药物相互作用数据，其中，M_d≥100000，本实施例中M_d≥132768；

药物-药物化学结构相似性网络

药物-药物生化相关相似性网络

其节点为从GO数据库下载的N_d种药物，连边为通过从GO数据库下载的N_d种药物的细胞成分数据、生物过程数据和分子功能数据，计算得到的M_f条药物-药物生化相关相似性数据，其中，M_f＝N_d×N_d，药物-药物生化相关相似性数据使用2007年发表的论文《A new method to measure the semantic similarity ofGO terms》中提出的图的语义相似度算法获取；

药物-药物临床相似性网络

蛋白质-蛋白质相互作用网络Sim_p1，为保证所下载数据的全面性和完整性，其节点为从HPRD、dbPTM、KinomeNetworkX和Phospho.ELM数据库下载的N_p种蛋白质，连边为N_p种蛋白质存在的M_h条蛋白质-蛋白质相互作用数据，其中，M_h≥10000，本实施例中M_h＝16133；

蛋白质-蛋白质序列相似性网络

蛋白质-蛋白质生化相关相似性网络

其节点为从GO数据库下载的N_p种蛋白质，连边为通过从GO数据库下载的N_p种蛋白质的细胞成分数据、生物过程数据和分子功能数据，计算得到的M_j条蛋白质-蛋白质生化相关相似性数据，其中，M_j＝N_p×N_p，蛋白质-蛋白质生化相关相似性数据使用2007年发表的论文《A new method to measure the semanticsimilarity of GO terms》中提出的图的语义相似度算法获取；

其中，药物-药物生化相关相似性网络

药物-药物临床相似性网络

和蛋白质-蛋白质生化相关相似性网络

是本发明相比现有技术增加的相似性网络，使本发明构建的异质信息网络H_n包含更多药物节点信息和蛋白质节点信息，能够在构建药物特征向量矩阵和蛋白质特征向量矩阵时提供更全面和准确的信息；

(2)构建药物相似性网络Sim_d的随机游走序列W_d：

其中，两种药物间的杰卡德相似性J_a，计算公式为：

其中A∩B表示药物A与药物B的邻居节点的交集，A∪B表示表示药物A与药物B的邻居节点的并集；

其中两种药物间的杰卡德相似性J_b的计算公式与J_a相同；

(2b)将同质信息子网络中的药物-药物相互作用网络

药物-药物化学结构相似性网络

药物-药物基因组相关相似性网络

和药物-药物临床相似性网络

以及步骤(2a)所构建的

和

组合成药物相似性网络

其中，

中的

分别对应

中的

(2c1)初始化药物相似性网络Sim_d中每个节点向其他节点跳转的概率为α_tk：

其中d_tk表示当前节点的上一节点t和下一节点k的最短距离，p和q为人工定义参数，p＞0，q＞0，本实施例中p＝1，q＝3；

(2c2)药物相似性网络

中每个相似性网络的每个节点采用二阶有偏随机游走算法，并以α_tk为跳转概率向其他节点的进行l次跳转，重复n次，每个相似性网络获取N_d×n条随机游走序列，最终获取药物相似性网络Sim_d的药物随机游走序列

其中，每一条随机游走序列由l个药物节点组成，n≥5，l≥10，

中的

分别对应

中的

本实施例中n＝10，l＝80；

(3)构建蛋白质相似性网络Sim_p的随机游走序列W_p：

其中，两种蛋白质间的杰卡德相似性J_c的计算公式与J_a相同；

(3b)将同质信息子网络中的蛋白质-蛋白质相互作用网络

蛋白质-蛋白质序列相似性网络

和蛋白质-蛋白质生化相关相似性网络

以及步骤(3a)所构建的

组合成蛋白质相似性网络

其中，

中的

分别对应

中的

(3c1)初始化蛋白质相似性网络Sim_p中每个节点向其他节点跳转的概率为α_tk，其中α_tk的定义与步骤2c1)中相同；

(3c2)蛋白质相似性网络

中每个相似性网络的每个节点采用二阶有偏随机游走算法，并以α_tk为跳转概率向其他节点的进行l次跳转，重复n次，每个相似性网络获取N_d×n条随机游走序列，最终获取蛋白质相似性网络Sim_p的蛋白质随机游走序列

其中每一条随机游走序列由l个蛋白质节点组成，n≥5，l≥10，

中的

分别对应

中的

本实施例中，n＝10，l＝80。

(4)构建药物-蛋白质相互作用网络DTI：

构建以从DrugBank、TTD、PharmGKB数据库下载的N_d种药物和N_p种蛋白质为节点，以N_d种药物和N_p种蛋白质之间存在的I条药物蛋白质相互作用为连边的药物-蛋白质相互作用网络DTI，其中，I≥4000，本实施例中，I＝4978；

(5)获取药物特征向量矩阵X和蛋白质特征向量矩阵Y：

利用Word2Vec软件包，并通过步骤(2c)获取的药物随机游走序列

构建大小为N_p×D_p的蛋白质特征向量矩阵Y，其中D_d≥50，D_p≥200，本实施例中，D_d＝100，D_p＝400；

Word2Vec软件包是一种向量表示工具，能够将序列中每个节点表示为向量，由gensim开放软件库提供，Word2Vec软件包以节点序列为输入数据，获取节点之间的相邻关系，遵循相邻的节点其向量的相似性更高这一原则，将每一个节点表示为向量，得到节点向量矩阵，其中，向量的相似性定义为余弦相似性，向量的维度由人工设定；

(6)获取药物靶标相互作用的预测结果：

(6b)将药物-蛋白质特征向量矩阵XY和N_d×N_p个药物-蛋白质标签作为树分类器模型的输入，并采用五折交叉验证对药物靶标相互作用进行预测，得到N_d种药物和N_p种靶标的相互作用关系，本实施例中，基于对预测效率和预测准确率的综合考虑，选用LightGBM作为树分类器模型，LightGBM的预测效率和预测准确率高，符合本实施例的树分类器要求；

其中，五折交叉验证的定义为：

将数据集平均分为5等份，每次选取其中4份为训练集训练模型，选取剩下的1份为测试集利用训练好的模型进行预测，重复5次。

本发明的效果可通过以下仿真进一步说明：

1.仿真条件

仿真实验在Intel(R)Core(TM)i7-8700k CPU、主频3.70GHz、内存48G的Ubuntu平台上的Python 3.6.5进行。

2.仿真内容：

仿真1，使用本发明方法，和现有技术进行对比，采用五折交叉验证，分别绘制受试者操作特性曲线(ROC曲线)和精确率-召回率曲线(PR曲线)，对比其ROC曲线下面积(AUROC)和PR曲线下面积(AUPR)，数值越高表示模型表现越好，预测准确率越高；

其中，ROC曲线的横坐标为假阳性率，纵坐标为真阳性率，假阳性率定义为被错误分类的负样本数量占负样本总数的比率，真阳性率定义为被正确分类的正样本数量占正样本总数的比率；PR曲线的横坐标为召回率，纵坐标为精确率，召回率的定义与真阳性率相同，精确率定义为被正确分类的正样本占被分类为正样本的总数的比率；

从图2可以发现，本发明有效地提高了药物靶标相互作用预测的准确率。

仿真2，将仿真1得到的预测结果进行排序，获取预测值排名前1000的具有相互作用的药物靶标，对这些药物靶标进行分析，发现其中包含多个潜在的药物靶标相互作用，其中潜在的药物靶标相互作用定义为：

一组药物靶标在数据集中被标记为没有相互作用，但是被模型预测为存在相互作用；

将潜在的药物靶标相互作用进行文献验证，疾病关联验证和信号通路关联验证，结果如表1所示；

表1潜在的药物靶标相互作用验证

其中，对于一组药物靶标，文献验证指的是在现有文献资料中是否被报告为存在相互作用的药物靶标，疾病关联验证指的是在现有数据库中是否被报告与相同的疾病有关，信号通路关联验证指的是在现有数据库中是否被报告与生物体内相同的信号传导通路有关。

从表1可见，基于异质信息网络的药物靶标相互作用预测方法预测的潜在药物靶标可以在一个或多个层面被验证，证明了本发明预测的准确性和可靠性。