CN112382411B - 一种基于异质图的药物-蛋白质靶向作用预测方法 - Google Patents
一种基于异质图的药物-蛋白质靶向作用预测方法 Download PDFInfo
- Publication number
- CN112382411B CN112382411B CN202011275141.6A CN202011275141A CN112382411B CN 112382411 B CN112382411 B CN 112382411B CN 202011275141 A CN202011275141 A CN 202011275141A CN 112382411 B CN112382411 B CN 112382411B
- Authority
- CN
- China
- Prior art keywords
- drug
- representation
- protein
- graph
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开一种基于异质图的药物‑蛋白质靶向作用预测方法,包括:S1.通过获取来自Drugbank、SIDER等数据库的药物,靶点以及疾病等信息,与已有的公开数据集进行匹配整合,构建药物和靶点相关的异质图,并通过RDKit计算和基于成对的Smith‑waterman得分获得药物化学结构信息和蛋白质序列信息。S2.结合节点表示与图级表示之间的互信息以及子结构表示与图级表示之间的互信息,从异构信息中学习精确的和可解释的特征嵌入,提出了一个端到端的多视图自动编码器模型完成链路预测的任务。本发明对于药物重定向具有有益的科学指导作用,有利于发现潜在的药物‑蛋白质靶点有效链接,加快旧药新用的节奏。
Description
技术领域
本发明属于人工智能、数据挖掘和异质图网络技术领域,涉及一种基于异质图的药物-蛋白质靶向作用预测方法。
背景技术
药物与蛋白质靶向作用的预测作为药物重定向领域的一项关键任务,一直都是科研人员的热点研究方向。但在正常的实验过程中,既费时又昂贵,所以有效的计算方法尤为重要。药物与蛋白质靶向作用的预测主要存在两种计算方法:一种是分子对接,另一种是机器学习。分子对接技术凭借着其合理的精度和良好的可解释性而被广泛应用。然而它也存在着明显缺陷,其中蛋白质的三维结构在对接过程中具有极大的挑战性,而且受限于实验成本,该技术并不适合大规模的模拟实验。相对于较为传统的分子对接技术,机器学习方法有着更为广阔的研究前景,因为它可以在相对较短时间内对药物和蛋白质的相关数据进行大规模测试,不涉及分子拼接的成本问题。其中靶向作用预测可以抽象看成是一个二分类问题,其中输入是药物和蛋白质组成的二元组,输出是给出两个实体之间的相互作用矩阵。
通常在药物-蛋白质靶向作用的研究中大多具有多视图信息,而目前的多视图网络嵌入仍存在着一些问题。首先,以往方法侧重于多视图的集成表示,忽略了节点属性。然而,图中的大多数节点都与属性相关,忽略它们的节点表示会对最终结果造成一定影响。其次,以往方法忽略了图的子结构,而已知方法中例如随机游走方法或者图卷积网络模型都能有效地捕获图的局部结构。更准确地说,图中临近的节点(如一阶邻居节点)通常被训练成具有类似的嵌入表示,而相隔很远的节点则没有类似的表示,即使它们在结构上类似。因此有效捕捉图中子结构与图级表示的互信息以及节点表示与图级表示的互信息有利于获取图的节点信息和子结构信息,从而学习到对下游任务有用的高质量嵌入信息,进一步提升模型的指标。
发明内容
为解决上述问题,本发明给出一种基于异质图的药物-蛋白质靶向作用预测方法。
本发明的主要思路是捕捉图中的互信息以及子结构,即最大化子结构与图级表示的互信息以及节点表示与图级表示的互信息。该方法采用了已知药物-蛋白的相互作用网络,并融合了药物-药物,蛋白质-蛋白质同质网络相互作用的信息,同时创建了药物化学结构信息和蛋白质序列信息的特征网络,通过集成不同视图的互信息,从而学习到对下游任务有用的高质量嵌入信息。此外结合从异构信息中学习精确的并具有可解释性的特征嵌入,利用一个端到端的多视图自动编码器模型完成链路预测的任务。
为实现上述目的,本申请的技术方案为:
一种基于异质图的药物-蛋白质靶向作用预测方法,具体包括如下步骤:
S1.数据采集与预处理
1.1通过网络爬虫,初步抓取来自数据库中的药物、蛋白质以及疾病信息,爬取药物的DrugBank ID和药物名称,与已有的公开数据集进行匹配整合,最终获得药物-疾病的关系矩阵,蛋白质-疾病的关系矩阵,药物-药物的关系矩阵,蛋白质-蛋白质的关系矩阵以及药物-蛋白质的已知关系矩阵。
1.2构建药物和蛋白质相关的异质图,并通过Python中的第三方库RDKit库来解析药物的Smiles式获得药物化学结构信息,基于成对的Smith-waterman得分计算获得蛋白质序列信息。
S2.基于异质图进行靶向作用预测
步骤S2的具体实现方法为基于捕捉异质图中互信息与子结构的药物-蛋白质靶向作用预测,通过以下具体步骤进行靶向作用预测:
2.1进行异质图的多视图信息融合。在同一维度处进行连接:G=<G1,G2,G3…Gn>。n代表视图个数,G1,G2,G3…Gn分别代表第1个、第2个、第3个到第n个视图,对于药物表示向量,将药物-疾病的关系矩阵,药物化学结构信息以及药物-蛋白质的关系矩阵这三种视图表示在同一维度连接,同样地,对于蛋白质表示向量,将蛋白质-疾病的关系矩阵,蛋白质序列信息以及药物-蛋白质的关系矩阵这三种视图表示在同一维度连接;在同一维度连接等同于增加特征维度。
2.2捕捉节点表示与图级表示的互信息
2.2.1以药物表示向量为例,将多视图信息融合得到的视图表示作为药物的特征信息,并与药物-药物的关系矩阵的结构信息结合起来,借助图卷积模型得到药物向量的节点表示。先将药物-药物的关系矩阵,也就是药物的邻接矩阵加上单位矩阵,再借助拉普拉斯分解得到药物网络矩阵,同样地,蛋白质表示向量经过相同步骤进行处理,之后的步骤蛋白质表示向量的计算过程与药物表示向量相同:
2.2.2只加一个图卷积层后,计算得到药物视图的节点表示为:
h=σ(AW1X)
其中X代表药物的特征信息矩阵,W1代表可训练的权重矩阵,A代表经过拉普拉斯分解得到的药品网络矩阵,σ代表归一化指数函数,h代表药物视图的节点表示。
2.2.3通过聚合函数对药物视图的节点表示汇总计算,得到药物视图的图级全局表示:
其中hi代表向量h的第i个行向量,n代表行向量的个数,σ代表最大池化函数,s代表图级全局表示。
2.2.4使用扰乱函数对药物的特征信息矩阵X进行打乱,从而生成负例对;用bilinear函数作为判别器,即有:
D(h,s)=σ(hTW2s)
其中D代表判别器函数,W2代表可训练的权重矩阵,σ代表bilinear函数,hT代表节点表示的转置,s代表图级全局表示。
2.2.5基于节点表示h及其图级全局表示s计算单视图矩阵的交叉熵损失函数,在优化损失函数过程中捕捉了药物视图的节点表示与图级表示的互信息,对于蛋白质视图,捕捉互信息的步骤相同:
其中Lr代表节点表示与图级表示的交叉熵损失,r代表嵌入表示的类型,指代药物或者蛋白质,D代表判别器函数,N代表正例对的个数,M代表负例对的个数,log代表对数函数,hi代表正例对的节点表示,hj代表负例对的节点表示。
2.3捕捉图级表示与子结构表示的互信息;在获得药物视图可靠的图级表示之后,还保存了药物视图子结构的相关信息;同样地,对于蛋白质视图,捕捉子结构表示互信息的步骤相同。
2.3.1利用metis算法对药物-药物的关系矩阵进行子图提取,生成k个子图。对于第k个图,获得药物视图的图级表示s,并利用子结构相关的节点,以生成药物视图的子结构表示。
2.3.2利用神经网络最大化图级表示s和子结构表示g之间的互信息,以保证高度相关关系。利用交叉熵来计算损失函数,在优化损失函数过程中捕捉了药物视图的图级表示与子结构表示的互信息:
其中Lk代表药物视图中第k个子图的图级表示和子结构表示的交叉熵损失,D代表判别器函数,N代表正例对的个数,M代表负例对的个数,log代表对数函数,s代表药物视图的图级表示,g代表正例对里第k个子图的子结构表示,gj代表负例对里第k个子图的子结构表示。
对于k图,以(s,g)作为正样本,以(s,gj)作为负样本,其中gj是从其他的图里随机选取节点组成的子图表示。
2.4构建自动解码器进行预测。根据得到最终学习到的药物嵌入表示和蛋白质嵌入表示,通过构造逆向的矩阵分解,对药物-蛋白质的关系矩阵进行重构,得到预测的药物-蛋白质矩阵,比对已知的药物-蛋白质关系矩阵,从而分析出药物-蛋白质靶向作用新的链接。整合重构药物-蛋白质矩阵的损失函数以及捕捉互信息中的交叉熵损失函数,进行梯度更新,优化损失函数有:
对最终的药物-蛋白质矩阵进行重构得:
其中G表示原始矩阵,U代表最终学习到的药物嵌入表示,V代表最终学习到的蛋白质嵌入表示,W3,W4代表可学习的权重矩阵,M代表最终预测的药物-蛋白质矩阵,Lk代表第k个子图的图级表示和子结构表示的交叉熵损失,Lr代表节点表示与图级表示的交叉熵损失,r代表嵌入表示的类型,指代药物或者蛋白质。
与已有的药物-蛋白质靶向作用预测方法相比,本发明的有益效果在于:
首先,以往方法侧重于多视图的集成表示,而忽略了节点属性。有效捕捉图中节点表示与图级表示的互信息有利于增强嵌入过程中的节点表示。其次,以往方法忽略了图的子结构,通常图中临近的节点(如一阶邻居节点)被训练成具有类似的嵌入表示,而相隔很远的节点则没有类似的表示,即使它们在结构上类似。因此有效捕捉图级表示与子结构表示有利于获取图的子结构信息,从而学习到对下游任务有用的高质量嵌入信息,进一步提升模型的指标。而且通过实例可以看出子结构与图级表示的互信息在相对稀疏的网络中对指标的贡献更高,而相对稠密的网络中节点表示与图级表示的互信息贡献更高。
附图说明
图1是基于异质图的药物-蛋白质靶向作用预测建议流程图。
图2是基于捕捉异质图中互信息与子结构的药物-蛋白质靶向预测模型图。
图3是正例样本与负例样本之比为1:10条件下的消融实验对比示意图(Graph-M表示只有节点级表示与图级表示的互信息,Graph-S表示只有子结构与图级表示的互信息)。
图4是考虑所有未知药物-靶标相互作用对条件下的消融实验对比示意图(Graph-M表示只有节点级表示与图级表示的互信息,Graph-S表示只有子结构与图级表示的互信息)。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
如图1所示本发明方法的流程,包括如下步骤:
一、数据采集与预处理
1.1分布式网络爬虫系统是由传统的集中式网络爬虫改进而来的,其工作原理与集中式网络爬虫相似,将分布式网络爬虫系统看成是几个集中式网络爬虫以一定的通信和组织方式连接在一起协调进行网络爬虫的系统。通过网络爬虫,初步抓取来自Drugbank、SIDER等数据库的药物,靶点以及疾病等信息,主要爬取的是药物的DrugBank ID,药物名称,与已有的公开数据集进行匹配整合,最终获得药物-疾病的关系矩阵,蛋白质-疾病的关系矩阵,药物-药物的关系矩阵,蛋白质-蛋白质的关系矩阵以及药物-蛋白质的已知关系矩阵。
1.2构建药物和靶点相关的异质图,并通过Python中的第三方库RDKit库来解析药物的Smiles式获得药物化学结构信息,基于成对的Smith-waterman得分计算获得蛋白质序列信息。
二、基于异质图进行靶向作用预测
本发明采用了已知药物-蛋白的相互作用网络,并融合了药物-药物,蛋白质-蛋白质同质网络相互作用的信息,同时创建了药物化学结构信息和蛋白质序列信息的特征网络,通过集成不同视图的互信息,从而学习到对下游任务有用的高质量嵌入信息。如图2所示,主要思想是捕捉图中的互信息以及子结构,即最大化子结构与图级表示的互信息以及节点表示与图级表示的互信息,结合从异构信息中学习精确的并具有可解释性的特征嵌入,利用一个端到端的多视图自动编码器模型完成链路预测的任务。
2.1AUROC和AUPR指标说明
ROC(Receiver Operating Characteristic,接受者工作特征曲线)常被用来评价一个二值分类器的优劣。而AUROC代表ROC曲线下的面积,介于0.1和1之间,是现在分类模型使用的主要离线评测指标之一。ROC曲线上每个点反映着对同一信号刺激的感受性。横轴代表负正类率特异度,划分实例中所有负例占所有负例的比例;纵轴代表真正类率灵敏度,即Sensitivity(正类覆盖率)。
PR曲线是由精确率和召回率的点连成的线,AUPR也是PR曲线下围成的面积,介于0和1之间。当正负样本差距不大的情况下,ROC曲线和PR曲线的趋势是差不多的,但是当负样本很多的时候,两者就截然不同,ROC曲线效果依然看似很好,但是PR曲线上反映效果一般。
2.2首先进行异质图的多视图信息融合。在同一维度处进行连接:G=<G1,G2,G3…Gn>。n代表视图个数,G1,G2,G3…Gn分别代表第1个、第2个、第3个到第n个视图,对于药物表示向量,将药物-疾病的关系矩阵,药物化学结构信息以及药物-蛋白质的关系矩阵这三种视图表示在同一维度连接,同样地,对于蛋白质表示向量,将蛋白质-疾病的关系矩阵,蛋白质序列信息以及药物-蛋白质的关系矩阵这三种视图表示在同一维度连接;在同一维度连接等同于增加特征维度。
2.3其次捕捉节点表示与图级表示的互信息。互信息基于香农熵,衡量了两个随机变量间的依赖程度。而不同于普通的相似性度量方法,互信息可以捕捉到变量间非线性的统计相关表示H,再利用一个聚合函数将节点嵌入融合成一个全局级别的表示S,和H一起组成了“局部-全局”对,是正例对,相当于从联合分布中采样。同时设计一个打乱机制将原图打乱,得到打乱的图,经过同样的编码器学到打乱图的节点表示此时与S组成了负例对,相当于从边缘分布的乘积中采样。
接下来设计一个判别器D,对正例对的打分越来越高,对负例对的打分越来越低。按照最大化互信息准则,这里是将节点的局部表示融合成全局表示的过程看成一个系统,最大化该系统输入H和输出S间的互信息,可使得全局表示能捕捉到局部较为共性的特征,从全局和局部两个角度共同刻画了网络结构。
2.3.1以药物表示向量为例,将多视图信息融合得到的视图表示作为药物的特征信息,并与药物-药物的关系矩阵的结构信息结合起来,借助图卷积模型得到药物向量的节点表示。先将药物-药物的关系矩阵,也就是药物的邻接矩阵加上单位矩阵,再借助拉普拉斯分解得到药物网络矩阵,同样地,蛋白质表示向量经过相同步骤进行处理,之后的步骤蛋白质表示向量的计算过程与药物表示向量相同:
2.3.2只加一个图卷积层后,计算得到药物视图的节点表示为:
h=σ(AW1X)
其中X代表药物的特征信息矩阵,W1代表可训练的权重矩阵,A代表经过拉普拉斯分解得到的药品网络矩阵,σ代表归一化指数函数,h代表药物视图的节点表示。
2.3.3通过聚合函数对药物视图的节点表示汇总计算,得到药物视图的图级全局表示:
其中hi代表向量h的第i个行向量,n代表行向量的个数,σ代表最大池化函数,s代表图级全局表示。
2.3.4使用扰乱函数对药物的特征信息矩阵X进行打乱,从而生成负例对;用bilinear函数作为判别器,即有:
D(h,s)=σ(hTW2s)
其中D代表判别器函数,W2代表可训练的权重矩阵,σ代表bilinear函数,hT代表节点表示的转置,s代表图级全局表示。
2.3.5基于节点表示h及其图级全局表示s计算单视图矩阵的交叉熵损失函数,在优化损失函数过程中捕捉了药物视图的节点表示与图级表示的互信息,对于蛋白质视图,捕捉互信息的步骤相同:
其中Lr代表节点表示与图级表示的交叉熵损失,r代表嵌入表示的类型,指代药物或者蛋白质,D代表判别器函数,N代表正例对的个数,M代表负例对的个数,log代表对数函数,hi代表正例对的节点表示,hj代表负例对的节点表示。
2.4捕捉图级表示与子结构表示的互信息;在获得药物视图可靠的图级表示之后,还保存了药物视图子结构的相关信息;同样地,对于蛋白质视图,捕捉子结构表示互信息的步骤相同。
2.4.1利用metis算法对药物-药物的关系矩阵进行子图提取,生成k个子图。对于第k个图,获得药物视图的图级表示s,并利用子结构相关的节点,以生成药物视图的子结构表示。
2.4.2利用神经网络最大化图级表示s和子结构表示g之间的互信息,以保证高度相关关系。利用交叉熵来计算损失函数,在优化损失函数过程中捕捉了药物视图的图级表示与子结构表示的互信息:
其中Lk代表药物视图中第k个子图的图级表示和子结构表示的交叉熵损失,D代表判别器函数,N代表正例对的个数,M代表负例对的个数,log代表对数函数,s代表药物视图的图级表示,g代表正例对里第k个子图的子结构表示,gj代表负例对里第k个子图的子结构表示。
对于k图,以(s,g)作为正样本,以(s,gj)作为负样本,其中gj是从其他的图里随机选取节点组成的子图表示。
2.5构建自动解码器进行预测。根据得到最终学习到的药物嵌入表示和蛋白质嵌入表示,通过构造逆向的矩阵分解,对药物-蛋白质的关系矩阵进行重构,得到预测的药物-蛋白质矩阵,比对已知的药物-蛋白质关系矩阵,从而分析出药物-蛋白质靶向作用新的链接。整合重构药物-蛋白质矩阵的损失函数以及捕捉互信息中的交叉熵损失函数,进行梯度更新,优化损失函数有:
对最终的药物-蛋白质矩阵进行重构得:
其中G表示原始矩阵,U代表最终学习到的药物嵌入表示,V代表最终学习到的蛋白质嵌入表示,W3,W4代表可学习的权重矩阵,M代表最终预测的药物-蛋白质矩阵,Lk代表第k个子图的图级表示和子结构表示的交叉熵损失,Lr代表节点表示与图级表示的交叉熵损失,r代表嵌入表示的类型,指代药物或者蛋白质。
三、具体实施例
数据中一共有1512种蛋白质靶点和708种药物以及药物副作用和疾病的异构数据源。其中除了药物结构相似度和蛋白质结构相似度网络之外,所有网络都有二元边权值(1表示已知的相互作用,0表示无已知相互作用)。将这8个网络结合起来构建异构网络。靶向作用预测可以抽象成一个二分类问题,其中已知的相互作用的药物-蛋白质二元组被视为正例,而未知的相互作用对被视为负例。利用独立的验证集来确定网络的超参数,首先对所有的正例和一组随机抽样的负例进行了十倍交叉验证试验,其中负例样本数目是正例样本的十倍。该方案基本模拟药物-蛋白质靶向作用网络较为稀疏的实际场景。对于每一折交叉验证实验,随机选取90%的正负例数据用于构建异构网络,并训练网络参数。
主要的对比方法有:NeoDTI模型通过大量的信息传递和聚合操作,将不同数据源构建的的邻域信息进行整合,这些信息传递和聚合操作是通过神经网络提取非线性特征来实现的。然后,NeoDTI应用一种网络拓扑保持学习过程来强制提取药物和目标的特征表示,以匹配观察到的网络。DTINet模型不仅从异构数据源集成了不同的信息(如药物、蛋白质、疾病和副作用),还通过学习药物和蛋白质的低维向量表示来应对包含大量噪声、不完整和并具有高维特征的大规模生物数据。HNM模型基于guilt-by-association原则,将药物靶标的信息自动合并到药物-疾病关联预测中。MSCMF模型通过使用不同类型的合成数据,考察了模型在添加相似矩阵和相似矩阵选择性方面的性能改进。BLMNII模型利用导出的交互剖面作为标签信息来训练局部模型或分类器,而在加权剖面法中,直接使用导出的加权交互作为最终的预测交互概率。
将本发明所表述的方法与两种基线方法NeoDTI,DTINet和其余三种经典方法的性能进行比较。使用PR曲线下面积和ROC曲线下面积来评价各种预测方法的性能,其中比性能较好的NeoDTI在AUROC上提高近3%,在AUPR值上提高近5%。在高度倾斜的数据集中,AUPR通常为提供比AUROC更具信息性的标准。由于药物发现通常是一个大海捞针的问题,AUPR的实质性进展也真实地证明了该模型相对于其他方法的优越性能。
图表中1:10代表正例样本与负例样本之比为1:10。1:all表示考虑所有未知药物-靶标相互作用对。Single-view表示只利用部分信息,Multi-view表示使用全部信息。具体指标如表3.1,3.2所示:
表3.1不同实验设置下的对比方法的AUROC指标
表3.2不同实验设置下的对比方法的AUPR指标
如图3和图4所示,分别做正例样本与负例样本之比为1:10条件和考虑所有未知药物-靶标相互作用对条件下的消融实验结果(Graph-M表示只有节点级表示与图级表示的互信息,Graph-S表示只有子结构与图级表示的互信息),可以看出子结构与图级表示的互信息在相对稀疏的网络中对指标的贡献更高,而相对稠密的网络中节点级表示与图级表示的互信息贡献更高。
同时分别对药物-药物和蛋白质-蛋白质的关系矩阵进行统计,其中前者一阶邻居个数不大于3的药品种类达254种,而后者一阶邻居个数不大于3的靶点种类达960种,说明接近50%的药物或者靶点都存在着小样本预测的问题。有效的引入子结构表示和图级表示的互信息可以有效解决稀疏网络的链接预测问题。如实验中Ethoxzolamide(EZA)存在药物相互作用关系的药物类型只有2种,EZA和DNMT1有链接概率。经查阅相关医疗文献证明Ethoxzolamide(EZA),fda批准的利尿剂,作为人碳酸酐酶抑制剂,EZA治疗十二指肠溃疡的潜力已经得到证实,会发展成为一种新的抗h-螺杆菌药物。而慢性炎症与各种人类疾病密切相关,如癌症、神经退行性疾病和代谢性疾病。其中一定程度上都会出现DNA异常甲基化,DNA甲基转移酶(DNMTs)的酶活性提高,这也说明了EZA和DNMT1之前存在一定的链接概率,有潜在可能的相互作用。
Claims (1)
1.一种基于异质图的药物-蛋白质靶向作用预测方法,其特征在于,具体包括如下步骤:
S1.数据采集与预处理
1.1通过网络爬虫,初步抓取来自数据库中的药物、蛋白质以及疾病信息,爬取药物的DrugBank ID和药物名称,与已有的公开数据集进行匹配整合,最终获得药物-疾病的关系矩阵,蛋白质-疾病的关系矩阵,药物-药物的关系矩阵,蛋白质-蛋白质的关系矩阵以及药物-蛋白质的已知关系矩阵;
1.2构建药物和蛋白质相关的异质图,并通过Python中的第三方库RDKit库来解析药物的Smiles式获得药物化学结构信息,基于成对的Smith-waterman得分计算获得蛋白质序列信息;
S2.基于异质图进行靶向作用预测
基于捕捉异质图中互信息与子结构的药物-蛋白质靶向作用预测方法,进行靶向作用预测,步骤如下:
2.1进行异质图的多视图信息融合;在同一维度处进行连接:G=<G1,G2,G3…Gn>;n代表视图个数,G1,G2,G3…Gn分别代表第1个、第2个、第3个到第n个视图,对于药物表示向量,将药物-疾病的关系矩阵,药物化学结构信息以及药物-蛋白质的关系矩阵三种视图表示在同一维度连接;对于蛋白质表示向量,将蛋白质-疾病的关系矩阵,蛋白质序列信息以及药物-蛋白质的关系矩阵三种视图表示在同一维度连接;在同一维度连接等同于增加特征维度;
2.2捕捉节点表示与图级表示的互信息;
2.2.1以药物表示向量为例,将多视图信息融合得到的视图表示作为药物的特征信息,并与药物-药物的关系矩阵的结构信息结合起来,借助图卷积模型得到药物向量的节点表示;先将药物-药物的关系矩阵,也就是药物的邻接矩阵加上单位矩阵,再借助拉普拉斯分解得到药物网络矩阵,同样地,蛋白质表示向量经过相同步骤进行处理,之后的步骤蛋白质表示向量的计算过程与药物表示向量相同:
2.2.2只加一个图卷积层后,计算得到药物视图的节点表示为:
h=σ(AW1X)
其中X代表药物的特征信息矩阵,W1代表可训练的权重矩阵,A代表经过拉普拉斯分解得到的药品网络矩阵,σ代表归一化指数函数,h代表药物视图的节点表示;
2.2.3通过聚合函数对药物视图的节点表示汇总计算,得到药物视图的图级全局表示:
其中hi代表向量h的第i个行向量,n代表行向量的个数,σ代表最大池化函数,s代表图级全局表示;
2.2.4使用扰乱函数对药物的特征信息矩阵X进行打乱,从而生成负例对;用bilinear函数作为判别器,即有:
D(h,s)=σ(hTW2s)
其中D代表判别器函数,W2代表可训练的权重矩阵,σ代表bilinear函数,hT代表节点表示的转置,s代表图级全局表示;
2.2.5基于节点表示h及其图级全局表示s计算单视图矩阵的交叉熵损失函数,在优化损失函数过程中捕捉了药物视图的节点表示与图级表示的互信息,对于蛋白质视图,捕捉互信息的步骤相同:
其中Lr代表节点表示与图级表示的交叉熵损失,r代表嵌入表示的类型,指代药物或者蛋白质,D代表判别器函数,N代表正例对的个数,M代表负例对的个数,log代表对数函数,hi代表正例对的节点表示,hj代表负例对的节点表示;
2.3捕捉图级表示与子结构表示的互信息;在获得药物视图可靠的图级表示之后,还保存了药物视图子结构的相关信息;同样地,对于蛋白质视图,捕捉子结构表示互信息的步骤相同;
2.3.1利用metis算法对药物-药物的关系矩阵进行子图提取,生成k个子图;对于第k个图,获得药物视图的图级表示s,并利用子结构相关的节点,以生成药物视图的子结构表示;
2.3.2利用神经网络最大化图级表示s和子结构表示g之间的互信息,以保证高度相关关系;利用交叉熵来计算损失函数,在优化损失函数过程中捕捉药物视图的图级表示与子结构表示的互信息:
其中Lk代表药物视图中第k个子图的图级表示和子结构表示的交叉熵损失,D代表判别器函数,N代表正例对的个数,M代表负例对的个数,log代表对数函数,s代表药物视图的图级表示,g代表正例对里第k个子图的子结构表示,gj代表负例对里第k个子图的子结构表示;
对于k图,以(s,g)作为正样本,以(s,gj)作为负样本,其中gj是从其他的图里随机选取节点组成的子图表示;
2.4构建自动解码器进行预测;根据得到最终学习到的药物嵌入表示和蛋白质嵌入表示,通过构造逆向的矩阵分解,对药物-蛋白质的关系矩阵进行重构,得到预测的药物-蛋白质矩阵,比对已知的药物-蛋白质关系矩阵,从而分析出药物-蛋白质靶向作用新的链接;整合重构药物-蛋白质矩阵的损失函数以及捕捉互信息中的交叉熵损失函数,进行梯度更新,优化损失函数有:
对最终的药物-蛋白质矩阵进行重构得:
其中G表示原始矩阵,U代表最终学习到的药物嵌入表示,V代表最终学习到的蛋白质嵌入表示,W3,W4代表可学习的权重矩阵,M代表最终预测的药物-蛋白质矩阵,Lk代表第k个子图的图级表示和子结构表示的交叉熵损失,Lr代表节点表示与图级表示的交叉熵损失,r代表嵌入表示的类型,指代药物或者蛋白质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011275141.6A CN112382411B (zh) | 2020-11-13 | 2020-11-13 | 一种基于异质图的药物-蛋白质靶向作用预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011275141.6A CN112382411B (zh) | 2020-11-13 | 2020-11-13 | 一种基于异质图的药物-蛋白质靶向作用预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112382411A CN112382411A (zh) | 2021-02-19 |
CN112382411B true CN112382411B (zh) | 2022-10-18 |
Family
ID=74584040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011275141.6A Active CN112382411B (zh) | 2020-11-13 | 2020-11-13 | 一种基于异质图的药物-蛋白质靶向作用预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112382411B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113053457B (zh) * | 2021-03-25 | 2022-04-05 | 湖南大学 | 一种基于多通路图卷积神经网络的药物靶标预测方法 |
CN113066526B (zh) * | 2021-04-08 | 2022-08-05 | 北京大学 | 一种基于超图的药物-靶标-疾病相互作用预测方法 |
CN113192559B (zh) * | 2021-05-08 | 2023-09-26 | 中山大学 | 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法 |
CN113362963B (zh) * | 2021-05-27 | 2024-04-02 | 山东师范大学 | 基于多源异构网络的预测药物之间副作用的方法及系统 |
CN114220480B (zh) * | 2022-02-17 | 2022-05-10 | 武汉宏韧生物医药股份有限公司 | 一种药物成分分析方法及系统 |
CN114613452B (zh) * | 2022-03-08 | 2023-04-28 | 电子科技大学 | 一种基于药物分类图神经网络的药物重定位方法及系统 |
CN114974408B (zh) * | 2022-05-26 | 2024-09-06 | 浙江大学 | 药物互作用预测模型的构建方法、预测方法及装置 |
CN116129992A (zh) * | 2023-04-17 | 2023-05-16 | 之江实验室 | 基于图神经网络的基因调控网络构建方法及系统 |
CN118098435B (zh) * | 2024-02-04 | 2024-09-20 | 中央民族大学 | 一种用于药物功效预测的方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696685A (zh) * | 2020-06-04 | 2020-09-22 | 大连理工大学 | 面向新冠病毒治疗药物的药物重定位方法及其应用 |
CN111785320A (zh) * | 2020-06-28 | 2020-10-16 | 西安电子科技大学 | 基于多层网络表示学习的药物靶标相互作用预测方法 |
-
2020
- 2020-11-13 CN CN202011275141.6A patent/CN112382411B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696685A (zh) * | 2020-06-04 | 2020-09-22 | 大连理工大学 | 面向新冠病毒治疗药物的药物重定位方法及其应用 |
CN111785320A (zh) * | 2020-06-28 | 2020-10-16 | 西安电子科技大学 | 基于多层网络表示学习的药物靶标相互作用预测方法 |
Non-Patent Citations (1)
Title |
---|
基于网络链路预测的药物分子重定位研究;马代川等;《化学研究与应用》;20200515(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112382411A (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112382411B (zh) | 一种基于异质图的药物-蛋白质靶向作用预测方法 | |
Minnich et al. | BotWalk: Efficient adaptive exploration of Twitter bot networks | |
Chiroma et al. | Progress on artificial neural networks for big data analytics: a survey | |
CN112925989B (zh) | 一种属性网络的群体发现方法及系统 | |
CN110990718B (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
Tian et al. | A neural architecture search based framework for liquid state machine design | |
Liu et al. | Learning graph topological features via GAN | |
CN112580902B (zh) | 对象数据处理方法、装置、计算机设备和存储介质 | |
CN114969369A (zh) | 基于混合网络的知识图谱人类癌症致死预测方法及知识图谱构建方法 | |
CN116798652A (zh) | 一种基于多任务学习的抗癌药物反应预测方法 | |
Rampášek et al. | Hierarchical graph neural nets can capture long-range interactions | |
Yin et al. | Intrusion detection for capsule networks based on dual routing mechanism | |
Zhang et al. | Support vector machine weather prediction technology based on the improved quantum optimization algorithm | |
CN114420201A (zh) | 一种多源数据高效融合的药物靶标相互作用的预测方法 | |
CN116720743A (zh) | 基于数据聚类和机器学习的碳排放测算方法 | |
CN118280436A (zh) | 一种基于奇异值分解和图对比学习的lncRNA-疾病关联预测方法 | |
CN115114484A (zh) | 异常事件检测方法、装置、计算机设备和存储介质 | |
CN113989544A (zh) | 一种基于深度图卷积网络的群体发现方法 | |
Rijal et al. | Integrating Information Gain methods for Feature Selection in Distance Education Sentiment Analysis during Covid-19. | |
CN118155746A (zh) | 一种预测分子性质的双通道对比模型 | |
Yang et al. | Graph Contrastive Learning for Clustering of Multi-layer Networks | |
Cacciari et al. | Machine learning: A novel tool for archaeology | |
CN116612831A (zh) | 深度学习结合模式生物斑马鱼的化学物质安全性评估方法 | |
Wang et al. | Prediction of the disease causal genes based on heterogeneous network and multi-feature combination method | |
Tian et al. | [Retracted] Intrusion Detection Method Based on Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Jin Bo Inventor after: Hou Yaqing Inventor after: Cheng Shicheng Inventor after: Zhang Qiang Inventor before: Cheng Shicheng Inventor before: Jin Bo Inventor before: Zhang Qiang Inventor before: Hou Yaqing |
|
GR01 | Patent grant | ||
GR01 | Patent grant |