CN112652355B - 一种基于深度森林和pu学习的药物-靶标关系预测方法 - Google Patents
一种基于深度森林和pu学习的药物-靶标关系预测方法 Download PDFInfo
- Publication number
- CN112652355B CN112652355B CN202011423290.2A CN202011423290A CN112652355B CN 112652355 B CN112652355 B CN 112652355B CN 202011423290 A CN202011423290 A CN 202011423290A CN 112652355 B CN112652355 B CN 112652355B
- Authority
- CN
- China
- Prior art keywords
- drug
- target
- vector
- forest
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明提出了一种基于深度森林和PU学习的药物‑靶标关系预测方法,包括以下步骤:S1、获取药物的结构信息、靶标的序列信息和已知的药物‑靶标关系;S2、基于药物结构信息和靶标序列信息分别构建药物之间的相似性矩阵和靶标之间的相似性矩阵;S3、采用PU学习来筛选潜在的药物‑靶标负相关关系;S4、基于相似的药物共享相似的靶标的假设,使用深度森林模型对药物‑靶标关系进行预测。本发明能够更准确的预测药物‑靶标关系,能够减少生物实验所需的时间和资源,为药物发现和药物重定位提供了研究基础。
Description
技术领域
本发明涉及系统生物学领域,更具体地,涉及一种基于深度森林和PU学习的药物-靶标关系预测方法。
背景技术
药物发现是一个复杂、昂贵、成功率低的过程。在过去的几十年里,尽管制药公司在药物研发上增加了巨大的财政投资,但FDA批准的新药仍然停滞不前。药物重定位旨在发现现有药物的原始医学用途以外的新治疗线索的过程,能够加快药物研发进程,从而降低药物研发的成本。药物重定位的关键步骤之一是寻找可能的药物靶点相互作用。药物-靶标通常与特定疾病有关,并可以通过调节靶标的生理活性以有效地改善疾病症状,确定特定疾病有关的靶标分子是现代药物发现的基础。尽管实验技术有了很大的进步,人们在分子、细胞等生物系统有了很多的理解,但是生物湿实验方法用来确定这种关系仍然是昂贵和费时的。因此,随着计算硬件和技术的发展,计算方法已经大量的被用来预测潜在的药物-靶标关联关系。
目前,用于预测药物-靶标关联关系的计算方法主要分为3类:
(1)传统的药物设计方法,基于结构的药物设计是利用药物-靶标的结构信息开发其抑制剂的方法,因此受体结构是该方法的先决条件,需要使用实验技术确定。分子对接能够预测小分子配体与适当的靶标结合位点的结合构象,以及产生的信号的强度和类型,在设计药物和阐明基本的生物系统过程中起着重要作用。但是当靶标蛋白的3D结构信息未知时,分子对接受到限制。基于配体的药物设计是在缺少受体3D结构信息的情况下使用的一种方法,它依赖于与目标生物学靶标结合的分子的知识。当识别具有不同于参考化合物时的新化学支架时,基于配体的方法将不起作用。
(2)基于网络的预测方法,基于网络的方法是基于相似的药物共享相似的靶标,反之亦然的假设。它能够集成药物和靶标的相似性网络信息、药物-靶标的网络拓扑结构信息、药物和副作用关联网络信息、药物和药物关联网络信息以及靶标的功能相似性网络信息等各种相似性网络信息。由于网络可以使用矩阵表示,可以通过简单的矩阵运算来描述,因此基于网络的方法可以在计算机上快速的运行,可以成为预测药物-靶标的关联关系的强大的工具。比如NRWRH方法假设相似药物经常与相似的靶蛋白相互作用,并且将药物-药物相似性网络,靶标-靶标相似性网络和已知的药物-靶标相互作用网络整合为异质网络。开发了一种有效的基于网络的随机游走模型,通过在异构网络上实现随机游走来预测潜在的药物-靶标相互作用。NRWRH充分利用了网络工具进行数据集成和药物-靶标相互作用的预测,随机游走是在异构网络上实现的,该网络由三个不同的网络组成,即药物-靶标相互作用网络,药物化学结构相似性网络和靶蛋白序列相似性网络。即使所研究的药物没有已知的靶标,仍可以基于与该给定药物相似的已知药物-靶标预测该给定药物的潜在靶标。
还有DASPfind方法使用异构网络上特定长度的简单路径进行药物-靶标相互作用预测;SDTNBI方法使用化学子结构来弥合已知药物-靶标相互作用网络和新化学实体之间的鸿沟。为已知药物-靶标相互作用网络和新化学实体中的药物生成化学子结构后,可以通过将药物和新化学实体的子结构连接起来,将已知药物-靶标相互作用网络和新化学实体集成到结构-药物-目标网络中。Bleakley andYamanishi等人将已知的DTI描述为二分图,并使用二分局部模型(BLM)预测新的DTI。以上两种方法有效地预测了新的DTIS,但是,它们无法发现新药或靶标的潜在关联信息。虽然现有的基于网络的方法实现了很好的性能,但是需要把更多的药物和靶标的其他信息集成到基于网络的方法中提升方法的性能。
(3)基于机器学习的预测方法,基于机器学习的方法将各种生物数据和机器学习模型有效地集成到一个统一的框架中,并获得了更好的预测性能。但是,由于没有经过实验验证的负样本,因此大多数人随机选择一部分未知关系的药物-靶标对作为负样本,但是这些选定的负样本可能包含正样本,从而严重影响预测准确性。更重要的是,这是一个关键问题,如何为基于机器学习的方法从各种生物学数据中提取有用的特征。因此,3DGNN-DTI使用低级表示作为输入,并探索了基于端到端神经网络的模型;LASSO-DNN提出了一种基于图的神经网络算法来提取具有3D结构信息的图特征;Zhao等人使用了图神经网络和深度神经网络技术来预测DTI。
以上方法从各个特征角度、集成各种网络信息来预测潜在的药物-靶标关联关系。虽然以上方法实现了很好的性能,但是有一些缺陷。首先,计算药物和靶标的相似性上,有的方法忽略药物和靶标的生物属性,而采用药物-靶标关联网络的拓扑特征来计算药物和靶标的相似性。其次,有的采用算术均值方法融合不同药物和靶标的数据,因此,可能会引入噪声。有的方法无法对一个新的药物和一个新的靶标之间的关系进行预测。
发明内容
本发明针对上述背景技术中现有技术的不足。提供一种基于深度森林和PU学习的药物-靶标关系预测方法,该方法预测准确率高,能够减少生物实验所需要的时间和资源。
为实现上述目的,本发明采用以下技术方案:
一种基于深度森林和PU学习的药物-靶标关系预测方法,包括以下步骤:
S1、获取药物的结构信息、靶标的序列信息和已知的药物-靶标关系;
S2、采用PU学习来筛选潜在的药物-靶标负相关关系;
根据S1中所述构建药物-靶标正相关关系矩阵Y1,计算药物相似性矩阵Simd,计算靶标相似性矩阵Simt;在药物相似性矩阵Simd和靶标相似性矩阵Simt构成的特征向量上进行计算,得到药物-靶标得分矩阵,对分数进行排名;
S3、采用深度森林方法来预测潜在的药物-靶标关系;
1)对于药物和靶标都是已知的情况,基于药物相似性矩阵Simd和靶标相似性矩阵Simt,采用深度森林方法,得到药物-靶标得分矩阵;
2)对于新的药物的情况,根据新的药物的结构信息,计算新的药物与已知药物的结构相似性,基于靶标相似性矩阵Simt,采用深度森林方法,得到新的药物-靶标之间存在关系的概率值。
3)对于新的靶标的情况,根据新的靶标的氨基酸序列信息,计算新的靶标与已知靶标的序列相似性,采用深度森林方法,得到新的靶标-药物之间存在关系的概率值。
进一步的,在步骤S1中构建药物-靶标正相关关系矩阵Y1,药物-靶标矩阵每一行对应一个药物,每一列对应一个靶标;若已知药物di和靶标tj存在关系,则Y1(i,j)等于1;否则,Y1(i,j)等于0;其中i=1,2,...,m;j=1,2,...,n;m和n分别为已知的药物和靶标的个数。
进一步的,在步骤S1中的构建药物相似性矩阵的方法为:
1)基于药物的结构信息,使用一种基于图的方法SIMCOMP,其中药物的结构信息被视为由原子作为顶点以及共价键作为边的2D结构图;
2)根据药物的结构信息,计算药物drugi和药物drugj的结构相似性Simd,计算公式如下:
其中,di和dj分别表示药物drugi和药物drugj的结构信息,
进一步的,在步骤S1中构建靶标相似性矩阵的方法为:
首先,基于靶标的氨基酸序列信息,使用一种基于局部序列比对的算法史密斯-沃特曼算法;根据靶标的氨基酸序列信息,计算靶标proteini与靶标proteinj的序列相似性Simt,计算公式如下所示:
其中,pi和pj分别表示靶标proteini与靶标proteinj的序列信息;
进一步的,在步骤S2中采用PU学习来筛选潜在的药物-靶标负相关关系的方法具体步骤为为:
a)构建药物-靶标正相关关系矩阵Y1,药物-靶标矩阵每一行对应一个药物,每一列对应一个靶标;若已知药物di和靶标tj存在关系,则Y1(i,j)等于1;否则,Y1(i,j)等于0;其中i=1,2,...,m;j=1,2,...,n;m和n分别为已知的药物和靶标的个数;
b)定义{pk,k=1,2,...,|P|}为所有的已知药物-靶标正相关关系的特征向量集合,{uz,z=1,2,...,|U|}为所有的未知药物-靶标关系的特征向量集合,|P|和|U|分别为已知和未知药物-靶标关系的数量;其中若已知药物di和靶标tj存在关系,则药物相似性矩阵与靶标相似性矩阵/>连结之后的特征向量为特征向量pk,维度为W,即n+m;若已知药物di和靶标tj未知关系,则药物相似性矩阵/>与靶标相似性矩阵/>连结之后的特征向量为特征向量uz,维度为W,即n+m;其中药物相似性矩阵/>表示药物结构相似性矩阵Simd的第i行,靶标相似性矩阵/>表示靶标相似性矩阵Simt的第j列;
c)根据所有的已知药物-靶标关系的特征向量集合{pk,k=1,2,...,|P|},计算正样本标准化向量p,计算公式如下:
p=p+pk(k=1,2,...,|P|)
对正样本向量p进行标准化,公式为:
p=p/|P|
其中|P|为已知的药物-靶标正相关关系的数量;
d)根据正样本标准化向量p,计算所有的未知药物-靶标关系的特征向量与正样本标准化向量p的平均距离并标准化,计算公式如下:
对平均距离进行标准化,公式为:
distave=dist/|U|
e)根据标准化平均距离distave,计算所有的未知药物-靶标关系的特征向量{uz,z=1,2,...,|U|}与正样本标准化向量p的欧式距离,计算公式如下:
若某个未知药物-靶标关系的特征向量uz与标准化平均距离p的欧式距离distz大于标准化平均距离distave,则将这个未知药物-靶标关系的特征向量uz合并到可靠的负样本集RN中;对可靠的负样本集RN从大到小进行排序,从可靠的负样本集RN中选择负样本与正样本的比例为n:1的数量作为潜在的药物-靶标负相关关系,构成筛选的潜在药物-靶标负相关关系的特征向量集合{rnk,k=1,2,...,n*|P|};
f)基于构建的药物-靶标正相关关系矩阵Y1,根据筛选的潜在的药物-靶标负相关关系,构建药物-靶标关系矩阵Y,每一行对应一个药物,每一列对应一个靶标;若药物di和靶标tj为筛选的潜在的负相关关系,则Y1(i,j)等于-1;否则,Y1(i,j)等于0;其中i=1,2,...,m;j=1,2,...,n;m和n分别为已知的药物和靶标的个数。
进一步的,在步骤S3中采用深度森林方法来预测潜在的药物-靶标关系,具体步骤为:
a)结合所有的已知药物-靶标正相关关系的特征向量集合{pk,k=1,2,...,|P|}和筛选的潜在的药物-靶标负相关关系的特征向量集合{rnk,k=1,2,...,n*|P|},构建药物-靶标关系的正负相关关系的特征向量集合{Ik,k=1,2,...,(n+1)*|P|};
b)使用三个不同大小的滑动窗口机制对药物-靶标关系的正负相关关系的特征向量集合{Ik,k=1,2,...,(n+1)*|P|}进行处理,得到三个不同大小类型的子特征向量,并将三个不同大小类型的子特征向量分别用于训练随机森林和完全随机森林,得到三个不同大小类型的类概率向量;其中,滑动窗口的三个不同大小分别是步长为l;
c)基于步骤b)产生的三个不同大小类型的类概率向量,使用级联森林结构对类概率向量进行分类;其中,每一层级联层中都包括三层结构,且每个结构都是由n3个随机森林和n4个完全随机森林构成;在级联森林结构中,为了降低过拟合的风险,每个森林生成的类向量是通过k折交叉验证产生的;即每个样本都会被当作训练数据训练k-1次,生成k-1个类c维向量,然后对其取平均值即为这个森林最终特征向量,将这n3+n4个森林的c维特征向量连在一起,作为下一层的增强特征向量;在扩展一个新的层后,整个级联森林的性能将在验证集上进行评估,如果没有显着的性能提升,训练过程将终止;因此,级联森林中层的数量是自动确定的;最后,产生n3+n4个c维的类向量di(i=1,2,...,(n3+n4));
d)基于步骤c)产生的n3+n4个c维的类向量di(i=1,2,...,(n3+n4)),计算最终的分类类别,计算公式如下:
进一步的,在步骤c)中,具体过程为:
c1)在级联森林结构中,由前一层的输入数据和输出结果进行连结操作并作为下一层的输入;首先,将类概率向量d1用于训练两个随机森林和两个完全随机森林,产生c*(n3+n4)维的类向量;
c2)在第一层a中,基于步骤c1)产生的c*(n3+n4)维的类向量,与类概率向量d1连结,用于训练两个随机森林和两个完全随机森林,产生c*(n3+n4)维的类向量;
c3)在第一层b中,基于步骤c2)产生的c*(n3+n4)维的类向量,与类概率向量d2连结,用于训练两个随机森林和两个完全随机森林,产生c*(n3+n4)维的类向量;
c4)在第一层c中,基于步骤c3)产生的c*(n3+n4)维的类向量,与类概率向量d3连结,用于训练两个随机森林和两个完全随机森林,产生c*(n3+n4)维的类向量;
c5)在以后的级联层结构中,以此类推。
进一步的,步骤a)、b)、c)中,具体为:
a1)基于构建的药物-靶标关系矩阵Y,采用已知的药物-靶标正相关关系和筛选的潜在的药物-靶标负相关关系训练深度森林模型,预测未知的药物-靶标关系的概率值,产生药物-靶标关系概率矩阵Y;
a2)对于任意两个已知的药物和靶标,根据Y的值判断药物与靶标存在关联关系的可能性。
b2)基于构建的药物-靶标关系矩阵Y,采用已知的药物-靶标正相关关系和筛选的潜在的药物-靶标负相关关系训练深度森林模型,预测新的药物-已知的靶标关系的概率值,产生新的药物-已知的靶标关系概率值向量;
b3)对于新的药物和已知的靶标,根据新的药物-已知的靶标关系概率值向量的值判断新的药物与已知的靶标存在关联关系的可能性。
c2)基于构建的药物-靶标关系矩阵Y,采用已知的药物-靶标正相关关系和筛选的潜在的药物-靶标负相关关系训练深度森林模型,预测新的靶标-已知的药物关系的概率值,产生新的靶标-已知的药物关系概率值向量;
c3)对于新的靶标和已知的药物,根据新的靶标-已知的药物关系概率值向量的值判断新的靶标与已知的药物存在关联关系的可能性。
本发明的有益效果为:通过结合深度森林和PU学习算法,来预测潜在的药物-靶标关联关系,能够更准确的预测药物-靶标关系,能够减少生物实验所需的时间和资源,为药物发现和药物重定位提供了研究基础。
附图说明
图1为本发明DFPU-DTIs流程图;
图2为滑动窗口机制流程图。
具体实施方式
下面结合具体实施方式对本发明作进一步的说明。
一种基于深度森林和PU学习的药物-靶标关系预测方法:具体流程如图一所示。
一.药物相似性和靶标相似性计算
1)药物-靶标矩阵的构建;基于已知的药物-靶标正相关关系,本发明首先构建了药物-靶标矩阵每一行对应一个药物,每一列对应一个靶标;若已知药物di和靶标tj存在关系,则Y1(i,j)等于1;否则,Y1(i,j)等于0;其中i=1,2,...,m;j=1,2,...,n;m和n分别为已知的药物和靶标的个数。
2)药物相似性计算
基于药物的结构信息,使用一种基于图的方法SIMCOMP,其中药物的结构信息被视为由原子作为顶点以及共价键作为边的2D结构图;该方法通过比较两个药物的化学结构的共同子结构大小来比较两个药物的结构相似性,即两个药物的化学结构的共同子结构越小,两个药物的相似性越小;
然后,根据根据药物的结构信息,计算药物drugi和药物drugj的结构相似性Simd,计算公式如下:
其中,di和dj分别表示药物drugi和药物drugj的结构信息,
3)靶标相似性计算
基于靶标的氨基酸序列信息,使用一种基于局部序列比对的算法史密斯-沃特曼算法;根据靶标的氨基酸序列信息,计算靶标proteini与靶标proteinj的序列相似性Simt,计算公式如下所示:
其中,pi和pj分别表示靶标proteini与靶标proteinj的序列信息;
二PU学习(Positive-unlabeled Learning,PU)筛选潜在的药物-靶标负相关关系
本发明采用PU学习来筛选潜在的药物-靶标负相关关系。本发明使用PU学习的理由如下:由于没有经过实验验证的负样本,因此大多数人随机选择一部分未知关系的药物-靶标对作为负样本,但是这些选定的负样本可能包含正样本,从而严重影响预测准确性。因此,本发明采用PU学习筛选潜在的药物-靶标负相关关系以提高预测的准确度。
a)构建药物-靶标正相关关系矩阵Y1,药物-靶标矩阵每一行对应一个药物,每一列对应一个靶标;若已知药物di和靶标tj存在关系,则Y1(i,j)等于1;否则,Y1(i,j)等于0;其中i=1,2,...,m;j=1,2,...,n;m和n分别为已知的药物和靶标的个数;
b)定义{pk,k=1,2,...,|P|}为所有的已知药物-靶标正相关关系的特征向量集合,{uz,z=1,2,...,|U|}为所有的未知药物-靶标关系的特征向量集合,|P|和|U|分别为已知和未知药物-靶标关系的数量;其中若已知药物di和靶标tj存在关系,则药物相似性矩阵与靶标相似性矩阵/>连结之后的特征向量为特征向量pk,维度为W,即n+m;若已知药物di和靶标tj未知关系,则药物相似性矩阵/>与靶标相似性矩阵/>连结之后的特征向量为特征向量uz,维度为W,即n+m;其中药物相似性矩阵/>表示药物结构相似性矩阵Simd的第i行,靶标相似性矩阵/>表示靶标相似性矩阵Simt的第j列;
c)根据所有的已知药物-靶标关系的特征向量集合{pk,k=1,2,...,|P|},计算正样本标准化向量p,计算公式如下:
p=p+pk(k=1,2,...,|P|)
对正样本向量p进行标准化,公式为:
p=p/|P|
其中|P|为已知的药物-靶标正相关关系的数量;
d)根据正样本标准化向量p,计算所有的未知药物-靶标关系的特征向量与正样本标准化向量p的平均距离并标准化,计算公式如下:
对平均距离进行标准化,公式为:
distave=dist/|U|
e)根据标准化平均距离distave,计算所有的未知药物-靶标关系的特征向量{uz,z=1,2,...,|U|}与正样本标准化向量p的欧式距离,计算公式如下:
若某个未知药物-靶标关系的特征向量uz与标准化平均距离p的欧式距离distz大于标准化平均距离distave,则将这个未知药物-靶标关系的特征向量uz合并到可靠的负样本集RN中;对可靠的负样本集RN从大到小进行排序,从可靠的负样本集RN中选择负样本与正样本的比例为n:1的数量作为潜在的药物-靶标负相关关系,构成筛选的潜在药物-靶标负相关关系的特征向量集合{rnk,k=1,2,...,n*|P|};
f)基于构建的药物-靶标正相关关系矩阵Y1,根据筛选的潜在的药物-靶标负相关关系,构建药物-靶标关系矩阵Y,每一行对应一个药物,每一列对应一个靶标;若药物di和靶标tj为筛选的潜在的负相关关系,则Y1(i,j)等于-1;否则,Y1(i,j)等于0;其中i=1,2,...,m;j=1,2,...,n;m和n分别为已知的药物和靶标的个数。
至此,本发明得到了所有的已知药物-靶标正相关关系的特征向量集合{pk,k=1,2,...,|P|},筛选的潜在药物-靶标负相关关系的特征向量集合{rnk,k=1,2,...,n*|P|};为了避免正负样本数量的差异带来额外的噪声,本发明实施中,n的取值被确定为1。即筛选的负样本数量和正样本的数量是相等的。
三.采用深度森林方法来预测潜在的药物-靶标关系
a)结合所有的已知药物-靶标正相关关系的特征向量集合{pk,k=1,2,...,|P|}和筛选的潜在的药物-靶标负相关关系的特征向量集合{rnk,k=1,2,...,n*|P|};构建药物-靶标关系的正负相关关系的特征向量集合{Ik,k=1,2,...,(n+1)*|P|}
b)如图2所示,使用三个不同大小的滑动窗口机制对药物-靶标关系的正负相关关系的特征向量集合{Ik,k=1,2,...,(n+1)*|P|};进行处理,得到三个不同大小类型的子特征向量,并将三个不同大小类型的子特征向量分别用于训练随机森林和完全随机森林,得到三个不同大小类型的类概率向量;其中,滑动窗口的三个不同大小分别是步长为l;
c)基于步骤b)产生的三个不同大小类型的类概率向量,使用级联森林结构对类概率向量进行分类;其中,每一层级联层中都包括三层结构,且每个结构都是由n3个随机森林和n4个完全随机森林构成;在级联森林结构中,为了降低过拟合的风险,每个森林生成的类向量是通过k折交叉验证产生的;即每个样本都会被当作训练数据训练k-1次,生成k-1个c维的类向量,然后对其取平均值即为这个森林最终特征向量,将这n3+n4个森林的c维特征向量连在一起,作为下一层的增强特征向量;在扩展一个新的层后,整个级联森林的性能将在验证集上进行评估,如果没有显着的性能提升,训练过程将终止;因此,级联森林中层的数量是自动确定的;最后,产生n3+n4c维的类向量di(i=1,2,...,(n3+n4));
d)基于步骤c)产生的n3+n4个c维的类向量di(i=1,2,...,(n3+n4)),计算最终的分类类别,计算公式如下:
四.滑动窗口机制结构具体为:
b1)使用步长为l、大小为大小为si(i=1,2,3)的滑动窗口去扫描药物-靶标关系的正负相关关系的特征向量集合{Ik,k=1,2,...,(n+1)*|P|},特征向量的维度为W,每个特征向量将会得到个子特征向量,每个子特征向量的维度是si(i=1,2,3);
其中,c是类别标签的数量;n1和n2分别是随机森林和完全随机森林的数量。在本发明中,滑动窗口的步长被设置为1,随机森林n1的值被设置为1,完全随机森林n2的值被设置为1;
以一个300维的特征向量被一个滑动窗口大小为150和步长为1扫描为例进行详细说明,在扫描之后,将会得到151个150维的子特征向量;将151个150维的子特征向量用于训练随机森林和完全随机森林,在本发明中是二分类问题,因此每个森林会得到151个2维的向量,对其进行连结操作得到604维的类概率向量;
五.级联森林结构具体为:
c1)在级联森林结构中,由前一层的输入数据和输出结果进行连结操作并作为下一层的输入;首先,将类概率向量d1用于训练两个随机森林和两个完全随机森林,产生c*(n3+n4)维的类向量;
c2)在第一层a中,基于步骤c1)产生的c*(n3+n4)维的类向量,与类概率向量d1连结,用于训练两个随机森林和两个完全随机森林,产生c*(n3+n4)维的类向量;
c3)在第一层b中,基于步骤c2)产生的c*(n3+n4)维的类向量,与类概率向量d2连结,用于训练两个随机森林和两个完全随机森林,产生c*(n3+n4)维的类向量;
c4)在第一层c中,基于步骤c3)产生的c*(n3+n4)维的类向量,与类概率向量d3连结,用于训练两个随机森林和两个完全随机森林,产生c*(n3+n4)维的类向量;
c5)在以后的级联层结构中,以此类推。
六.基于深度森林和PU学习预测药物-靶标关系,具体为:
1)预测已知的药物与已知的靶标的关联关系
基于构建的药物-靶标关系矩阵Y,采用已知的药物-靶标正相关关系和筛选的潜在的药物-靶标负相关关系训练深度森林模型,预测未知的药物-靶标关系的概率值,产生药物-靶标关系概率矩阵Y;
对于任意两个已知的药物和靶标,根据Y的值判断药物与靶标存在关联关系的可能性。
2)预测新的药物与已知的靶标的关联关系
基于构建的药物-靶标关系矩阵Y,采用已知的药物-靶标正相关关系和筛选的潜在的药物-靶标负相关关系训练深度森林模型,预测新的药物-已知的靶标关系的概率值,产生新的药物-已知的靶标关系概率值向量;
对于新的药物和已知的靶标,根据新的药物-已知的靶标关系概率值向量的值判断新的药物与已知的靶标存在关联关系的可能性。
预测已知的药物与新的靶标的关联关系
基于构建的药物-靶标关系矩阵Y,采用已知的药物-靶标正相关关系和筛选的潜在的药物-靶标负相关关系训练深度森林模型,预测新的靶标-已知的药物关系的概率值,产生新的靶标-已知的药物关系概率值向量;
对于新的靶标和已知的药物,根据新的靶标-已知的药物关系概率值向量的值判断新的靶标与已知的药物存在关联关系的可能性。
七.实验验证
本发明使用了四个药物-靶标数据集,分别是酶、离子通道、GPCRs和核受体,并且在这四个数据集上采用十折交叉验证进行验证;详细情况如下表所示。
表1药物-靶标相互作用数据集
为了评估基于深度森林和PU学习模型预测的性能,使用两个评价指标来评判模型方法的鲁棒性,分别是AUC(the areas under ROC curves)和AUPR(the areas underprecision-recall curves),并且使用三种不同类型的交叉验证验证模型,分别为CV1、CV2和CV3。CV1是为了测试对于新的药物的预测能力,随机的将药物-靶标关系矩阵Y的90%行作为训练集,其余作为测试集;CV2是为了测试对于新的靶标的预测能力,随机的将药物-靶标关系矩阵Y的90%列作为训练集,其余作为测试集;CV3是为了测试对于药物-靶标关联对的预测能力,随机的将药物-靶标关系矩阵Y的90%药物-靶标关系作为训练集,其余作为测试集。
本发明将DFPU-DTIs和其他药物-靶标预测方法进行比较(BLM-NII,CMF,NRLMF,DualLapRLS),各项指标均高于现有的方法,各个方法的详细的性能指标如下表所示。通过与其他方法在三种不同类型的交叉验证情况下的比较,表明了本发明比现有的方法更准确,性能更好,为药物发现和药物重定位提供了研究基础。
表2三种不同类型的五折交叉验证的算法性能指标
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。
Claims (6)
1.一种基于深度森林和PU学习的药物-靶标关系预测方法,其特征在于,包括以下步骤:
S1、获取药物的结构信息、靶标的序列信息和已知的药物-靶标关系;
S2、采用PU学习来筛选潜在的药物-靶标负相关关系;
S21、构建药物-靶标正相关关系矩阵Y1,药物-靶标矩阵每一行对应一个药物,每一列对应一个靶标;若已知药物di和靶标tj存在关系,则Y1(i,j)等于1;否则,Y1(i,j)等于0;其中i=1,2,…,m;j=1,2,…,n;m和n分别为已知的药物和靶标的个数;
S22、定义{pk,k=1,2,...,|P|}为所有的已知药物-靶标正相关关系的特征向量集合,{uz,z=1,2,...,|U|}为所有的未知药物-靶标关系的特征向量集合,|P|为已知的药物-靶标正相关关系的数量,|U|为未知药物-靶标关系的数量;其中若已知药物di和靶标tj存在关系,则药物相似性矩阵与靶标相似性矩阵/>连结之后的特征向量为特征向量pk,维度为W,即n+m;若已知药物di和靶标tj未知关系,则药物相似性矩阵/>与靶标相似性矩阵连结之后的特征向量为特征向量uz,维度为W,即n+m;其中药物相似性矩阵/>表示药物结构相似性矩阵Simd的第i行,靶标相似性矩阵/>表示靶标相似性矩阵Simt的第j列;
S23、根据所有的已知药物-靶标关系的特征向量集合{pk,k=1,2,...,|P|},计算正样本标准化向量p,计算公式如下:
p=p+pk,k=1,2,...,|P|
对正样本向量p进行标准化,公式为:
p=p/|P|
其中|P|为已知的药物-靶标正相关关系的数量;
S24、根据正样本标准化向量p,计算所有的未知药物-靶标关系的特征向量与正样本标准化向量p的平均距离并标准化,计算公式如下:
对平均距离进行标准化,公式为:
distave=dist/|U|
S25、根据标准化平均距离distave,计算所有的未知药物-靶标关系的特征向量{uz,z=1,2,...,|U|}与正样本标准化向量p的欧式距离,计算公式如下:
若某个未知药物-靶标关系的特征向量uz与标准化平均距离p的欧式距离distz大于标准化平均距离distave,则将这个未知药物-靶标关系的特征向量uz合并到可靠的负样本集RN中;对可靠的负样本集RN从大到小进行排序,从可靠的负样本集RN中选择负样本与正样本的比例为n:1的数量作为潜在的药物-靶标负相关关系,构成筛选的潜在药物-靶标负相关关系的特征向量集合{rnk,k=1,2,…,n*|P|};
S26、基于构建的药物-靶标正相关关系矩阵Y1,根据筛选的潜在的药物-靶标负相关关系构建药物-靶标关系矩阵Y2,每一行对应一个药物,每一列对应一个靶标;若药物di和靶标tj为筛选的潜在的负相关关系,则Y2(i,j)等于-1;否则,Y2(i,j)等于0;其中i=1,2,...,m;j=1,2,...,n;m和n分别为已知的药物和靶标的个数;
S3、采用深度森林方法来预测潜在的药物-靶标关系;
S31、结合所有的已知药物-靶标正相关关系的特征向量集合{pk,k=1,2,...,|P|}和筛选的潜在的药物-靶标负相关关系的特征向量集合{rnk,k=1,2,...,n*|P|},构建药物-靶标关系的正负相关关系的特征向量集合{Ik,k=1,2,...,(n+1)*|P|};
S32、使用三个不同大小的滑动窗口机制对药物-靶标关系的正负相关关系的特征向量集合{Ik,k=1,2,...,(n+1)*|P|}进行处理,得到三个不同大小类型的子特征向量,并将三个不同大小类型的子特征向量分别用于训练随机森林和完全随机森林,得到三个不同大小类型的类概率向量;其中,滑动窗口的三个不同大小分别是步长为l;
S33、基于步骤S32产生的三个不同大小类型的类概率向量,使用级联森林结构对类概率向量进行分类;其中,每一层级联层中都包括三层结构,且每个结构都是由n3个随机森林和n4个完全随机森林构成;在级联森林结构中,为了降低过拟合的风险,每个森林生成的类向量是通过g折交叉验证产生的;即每个样本都会被当作训练数据训练g-1次,生成g-1个类c维向量,然后对其取平均值即为这个森林最终特征向量,将这n3+n4个森林的c维特征向量连在一起,作为下一层的增强特征向量;在扩展一个新的层后,整个级联森林的性能将在验证集上进行评估,如果没有显着的性能提升,训练过程将终止;因此,级联森林中层的数量是自动确定的;最后,产生n3+n4个c维的类向量di,i=1,2,...(n3+n4);
S34、基于步骤S33产生的n3+n4个c维的类向量di,i=1,2,...(n3+n4),计算最终的分类类别,计算公式如下:
2.根据权利要求1所述的一种基于深度森林和PU学习的药物-靶标关系预测方法,其特征在于,在步骤S1中构建药物-靶标正相关关系矩阵Y1,药物-靶标矩阵每一行对应一个药物,每一列对应一个靶标;若已知药物di和靶标tj存在关系,则Y1(i,j)等于1;否则,Y1(i,j)等于0;其中i=1,2,...,m;j=1,2,...,n;m和n分别为已知的药物和靶标的个数。
6.根据权利要求1所述的一种基于深度森林和PU学习的药物-靶标关系预测方法,其特征在于,在步骤S33中,具体过程为:
c1)在级联森林结构中,由前一层的输入数据和输出结果进行连结操作并作为下一层的输入;首先,将类概率向量d1用于训练两个随机森林和两个完全随机森林,产生c*(n3+n4)维的类向量;
c2)在第一层a中,基于步骤c1)产生的c*(n3+n4)维的类向量,与类概率向量d1连结,用于训练两个随机森林和两个完全随机森林,产生c*(n3+n4)维的类向量;
c3)在第一层b中,基于步骤c2)产生的c*(n3+n4)维的类向量,与类概率向量d2连结,用于训练两个随机森林和两个完全随机森林,产生c*(n3+n4)维的类向量;
c4)在第一层c中,基于步骤c3)产生的c*(n3+n4)维的类向量,与类概率向量d3连结,用于训练两个随机森林和两个完全随机森林,产生c*(n3+n4)维的类向量;
c5)在以后的级联层结构中,以此类推。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011423290.2A CN112652355B (zh) | 2020-12-08 | 2020-12-08 | 一种基于深度森林和pu学习的药物-靶标关系预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011423290.2A CN112652355B (zh) | 2020-12-08 | 2020-12-08 | 一种基于深度森林和pu学习的药物-靶标关系预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112652355A CN112652355A (zh) | 2021-04-13 |
CN112652355B true CN112652355B (zh) | 2023-07-04 |
Family
ID=75351076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011423290.2A Active CN112652355B (zh) | 2020-12-08 | 2020-12-08 | 一种基于深度森林和pu学习的药物-靶标关系预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112652355B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113140254B (zh) * | 2021-04-28 | 2023-08-25 | 厦门大学 | 元学习药物-靶点相互作用预测系统及预测方法 |
CN113270153A (zh) * | 2021-05-27 | 2021-08-17 | 南华大学 | 一种靶向g蛋白偶联受体的化合物的筛选方法 |
CN116994645B (zh) * | 2023-08-01 | 2024-04-09 | 西安理工大学 | 基于交互式推理网络的piRNA与mRNA靶标对的预测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105398699A (zh) * | 2015-11-23 | 2016-03-16 | 湖南工业大学 | 一种安全功能性给药的药品包装方法 |
WO2016067094A2 (en) * | 2014-10-27 | 2016-05-06 | King Abdullah University Of Science And Technology | Methods and systems for identifying ligand-protein binding sites |
CN109887540A (zh) * | 2019-01-15 | 2019-06-14 | 中南大学 | 一种基于异构网络嵌入的药物靶标相互作用预测方法 |
CN111210871A (zh) * | 2020-01-09 | 2020-05-29 | 青岛科技大学 | 基于深度森林的蛋白质-蛋白质相互作用预测方法 |
CN111310822A (zh) * | 2020-02-12 | 2020-06-19 | 山西大学 | 一种基于pu学习和随机游走的链接预测方法及装置 |
CN111640468A (zh) * | 2020-05-18 | 2020-09-08 | 天士力国际基因网络药物创新中心有限公司 | 一种基于复杂网络筛选疾病相关蛋白的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110234374B (zh) * | 2017-12-29 | 2022-09-16 | 深圳迈瑞生物医疗电子股份有限公司 | 麻醉药物识别方法、麻醉脑电信号的处理方法和装置 |
-
2020
- 2020-12-08 CN CN202011423290.2A patent/CN112652355B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016067094A2 (en) * | 2014-10-27 | 2016-05-06 | King Abdullah University Of Science And Technology | Methods and systems for identifying ligand-protein binding sites |
CN105398699A (zh) * | 2015-11-23 | 2016-03-16 | 湖南工业大学 | 一种安全功能性给药的药品包装方法 |
CN109887540A (zh) * | 2019-01-15 | 2019-06-14 | 中南大学 | 一种基于异构网络嵌入的药物靶标相互作用预测方法 |
CN111210871A (zh) * | 2020-01-09 | 2020-05-29 | 青岛科技大学 | 基于深度森林的蛋白质-蛋白质相互作用预测方法 |
CN111310822A (zh) * | 2020-02-12 | 2020-06-19 | 山西大学 | 一种基于pu学习和随机游走的链接预测方法及装置 |
CN111640468A (zh) * | 2020-05-18 | 2020-09-08 | 天士力国际基因网络药物创新中心有限公司 | 一种基于复杂网络筛选疾病相关蛋白的方法 |
Non-Patent Citations (2)
Title |
---|
基于深度森林多模态数据决策级融合抑郁症评价方法;张迎辉;聂燕敏;孙波;何;杨斌;;北京师范大学学报(自然科学版)(第05期);第50-55页 * |
基于蛋白质相互作用网络拓扑参数预测乳腺癌相关基因;周漩;李占潮;;广东药科大学学报(第03期);第104-108页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112652355A (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112652355B (zh) | 一种基于深度森林和pu学习的药物-靶标关系预测方法 | |
Pomyen et al. | Deep metabolome: Applications of deep learning in metabolomics | |
Dou et al. | Machine learning methods for small data challenges in molecular science | |
Mahmud et al. | PreDTIs: prediction of drug–target interactions based on multiple feature information using gradient boosting framework with data balancing and feature selection techniques | |
Chu et al. | Hierarchical graph representation learning for the prediction of drug-target binding affinity | |
Shah et al. | SVM-HUSTLE—an iterative semi-supervised machine learning approach for pairwise protein remote homology detection | |
An et al. | Identification of self-interacting proteins by exploring evolutionary information embedded in PSI-BLAST-constructed position specific scoring matrix | |
Sudha et al. | Enhanced artificial neural network for protein fold recognition and structural class prediction | |
Zhang et al. | A survey of drug-target interaction and affinity prediction methods via graph neural networks | |
Liao et al. | GSAML-DTA: an interpretable drug-target binding affinity prediction model based on graph neural networks with self-attention mechanism and mutual information | |
ur Rehman et al. | Multi-dimensional scaling based grouping of known complexes and intelligent protein complex detection | |
Shen et al. | 'Unite and conquer': enhanced prediction of protein subcellular localization by integrating multiple specialized tools | |
Hu et al. | Accurate prediction of protein-ATP binding residues using position-specific frequency matrix | |
Zhan et al. | Prediction of drug-target interactions by ensemble learning method from protein sequence and drug fingerprint | |
Li et al. | Predicting human immunodeficiency virus protease cleavage sites in nonlinear projection space | |
Zhao et al. | An ensemble learning-based method for inferring drug-target interactions combining protein sequences and drug fingerprints | |
Ghanbari Sorkhi et al. | Predicting drug-target interaction based on bilateral local models using a decision tree-based hybrid support vector machine | |
Zhao et al. | A sparse feature extraction method with elastic net for drug-target interaction identification | |
Guo et al. | 3D genome assisted protein–protein interaction prediction | |
Iraji et al. | Druggable protein prediction using a multi-canal deep convolutional neural network based on autocovariance method | |
Yao et al. | Mpgnn-dsa: A meta-path-based graph neural network for drug-side effect association prediction | |
Xu et al. | Bioinformatics and fuzzy logic | |
Halsana et al. | DensePPI: A Novel Image-based Deep Learning method for Prediction of Protein-Protein Interactions | |
Ramasamy et al. | A Work Review on Clinical Laboratory Data Utilizing Machine Learning Use-Case Methodology | |
Sharma et al. | (Retracted) DeepFNN-DTBA: prediction of drug-target binding affinity via feed-forward neural network on drug-protein sequences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |