CN112652355B

CN112652355B - 一种基于深度森林和pu学习的药物-靶标关系预测方法

Info

Publication number: CN112652355B
Application number: CN202011423290.2A
Authority: CN
Inventors: 彭利红; 田雄飞; 周立前; 王娟娟
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2023-07-04
Anticipated expiration: 2040-12-08
Also published as: CN112652355A

Abstract

本发明提出了一种基于深度森林和PU学习的药物‑靶标关系预测方法,包括以下步骤：S1、获取药物的结构信息、靶标的序列信息和已知的药物‑靶标关系；S2、基于药物结构信息和靶标序列信息分别构建药物之间的相似性矩阵和靶标之间的相似性矩阵；S3、采用PU学习来筛选潜在的药物‑靶标负相关关系；S4、基于相似的药物共享相似的靶标的假设，使用深度森林模型对药物‑靶标关系进行预测。本发明能够更准确的预测药物‑靶标关系，能够减少生物实验所需的时间和资源，为药物发现和药物重定位提供了研究基础。

Description

一种基于深度森林和PU学习的药物-靶标关系预测方法

技术领域

本发明涉及系统生物学领域，更具体地，涉及一种基于深度森林和PU学习的药物-靶标关系预测方法。

背景技术

药物发现是一个复杂、昂贵、成功率低的过程。在过去的几十年里，尽管制药公司在药物研发上增加了巨大的财政投资，但FDA批准的新药仍然停滞不前。药物重定位旨在发现现有药物的原始医学用途以外的新治疗线索的过程，能够加快药物研发进程，从而降低药物研发的成本。药物重定位的关键步骤之一是寻找可能的药物靶点相互作用。药物-靶标通常与特定疾病有关，并可以通过调节靶标的生理活性以有效地改善疾病症状，确定特定疾病有关的靶标分子是现代药物发现的基础。尽管实验技术有了很大的进步，人们在分子、细胞等生物系统有了很多的理解，但是生物湿实验方法用来确定这种关系仍然是昂贵和费时的。因此，随着计算硬件和技术的发展，计算方法已经大量的被用来预测潜在的药物-靶标关联关系。

目前，用于预测药物-靶标关联关系的计算方法主要分为3类：

(1)传统的药物设计方法，基于结构的药物设计是利用药物-靶标的结构信息开发其抑制剂的方法，因此受体结构是该方法的先决条件，需要使用实验技术确定。分子对接能够预测小分子配体与适当的靶标结合位点的结合构象，以及产生的信号的强度和类型，在设计药物和阐明基本的生物系统过程中起着重要作用。但是当靶标蛋白的3D结构信息未知时，分子对接受到限制。基于配体的药物设计是在缺少受体3D结构信息的情况下使用的一种方法，它依赖于与目标生物学靶标结合的分子的知识。当识别具有不同于参考化合物时的新化学支架时，基于配体的方法将不起作用。

(2)基于网络的预测方法，基于网络的方法是基于相似的药物共享相似的靶标，反之亦然的假设。它能够集成药物和靶标的相似性网络信息、药物-靶标的网络拓扑结构信息、药物和副作用关联网络信息、药物和药物关联网络信息以及靶标的功能相似性网络信息等各种相似性网络信息。由于网络可以使用矩阵表示，可以通过简单的矩阵运算来描述，因此基于网络的方法可以在计算机上快速的运行，可以成为预测药物-靶标的关联关系的强大的工具。比如NRWRH方法假设相似药物经常与相似的靶蛋白相互作用，并且将药物-药物相似性网络，靶标-靶标相似性网络和已知的药物-靶标相互作用网络整合为异质网络。开发了一种有效的基于网络的随机游走模型，通过在异构网络上实现随机游走来预测潜在的药物-靶标相互作用。NRWRH充分利用了网络工具进行数据集成和药物-靶标相互作用的预测，随机游走是在异构网络上实现的，该网络由三个不同的网络组成，即药物-靶标相互作用网络，药物化学结构相似性网络和靶蛋白序列相似性网络。即使所研究的药物没有已知的靶标，仍可以基于与该给定药物相似的已知药物-靶标预测该给定药物的潜在靶标。

还有DASPfind方法使用异构网络上特定长度的简单路径进行药物-靶标相互作用预测；SDTNBI方法使用化学子结构来弥合已知药物-靶标相互作用网络和新化学实体之间的鸿沟。为已知药物-靶标相互作用网络和新化学实体中的药物生成化学子结构后，可以通过将药物和新化学实体的子结构连接起来，将已知药物-靶标相互作用网络和新化学实体集成到结构-药物-目标网络中。Bleakley andYamanishi等人将已知的DTI描述为二分图，并使用二分局部模型(BLM)预测新的DTI。以上两种方法有效地预测了新的DTIS，但是，它们无法发现新药或靶标的潜在关联信息。虽然现有的基于网络的方法实现了很好的性能，但是需要把更多的药物和靶标的其他信息集成到基于网络的方法中提升方法的性能。

(3)基于机器学习的预测方法，基于机器学习的方法将各种生物数据和机器学习模型有效地集成到一个统一的框架中，并获得了更好的预测性能。但是，由于没有经过实验验证的负样本，因此大多数人随机选择一部分未知关系的药物-靶标对作为负样本，但是这些选定的负样本可能包含正样本，从而严重影响预测准确性。更重要的是，这是一个关键问题，如何为基于机器学习的方法从各种生物学数据中提取有用的特征。因此，3DGNN-DTI使用低级表示作为输入，并探索了基于端到端神经网络的模型；LASSO-DNN提出了一种基于图的神经网络算法来提取具有3D结构信息的图特征；Zhao等人使用了图神经网络和深度神经网络技术来预测DTI。

以上方法从各个特征角度、集成各种网络信息来预测潜在的药物-靶标关联关系。虽然以上方法实现了很好的性能，但是有一些缺陷。首先，计算药物和靶标的相似性上，有的方法忽略药物和靶标的生物属性，而采用药物-靶标关联网络的拓扑特征来计算药物和靶标的相似性。其次，有的采用算术均值方法融合不同药物和靶标的数据，因此，可能会引入噪声。有的方法无法对一个新的药物和一个新的靶标之间的关系进行预测。

发明内容

本发明针对上述背景技术中现有技术的不足。提供一种基于深度森林和PU学习的药物-靶标关系预测方法，该方法预测准确率高，能够减少生物实验所需要的时间和资源。

为实现上述目的，本发明采用以下技术方案：

一种基于深度森林和PU学习的药物-靶标关系预测方法，包括以下步骤：

S1、获取药物的结构信息、靶标的序列信息和已知的药物-靶标关系；

S2、采用PU学习来筛选潜在的药物-靶标负相关关系；

根据S1中所述构建药物-靶标正相关关系矩阵Y₁，计算药物相似性矩阵Sim_d，计算靶标相似性矩阵Sim_t；在药物相似性矩阵Sim_d和靶标相似性矩阵Sim_t构成的特征向量上进行计算，得到药物-靶标得分矩阵，对分数进行排名；

S3、采用深度森林方法来预测潜在的药物-靶标关系；

1)对于药物和靶标都是已知的情况，基于药物相似性矩阵Sim_d和靶标相似性矩阵Sim_t，采用深度森林方法，得到药物-靶标得分矩阵；

2)对于新的药物的情况，根据新的药物的结构信息，计算新的药物与已知药物的结构相似性，基于靶标相似性矩阵Sim_t，采用深度森林方法，得到新的药物-靶标之间存在关系的概率值。

3)对于新的靶标的情况，根据新的靶标的氨基酸序列信息，计算新的靶标与已知靶标的序列相似性，采用深度森林方法，得到新的靶标-药物之间存在关系的概率值。

进一步的，在步骤S1中构建药物-靶标正相关关系矩阵Y₁，药物-靶标矩阵每一行对应一个药物，每一列对应一个靶标；若已知药物d_i和靶标t_j存在关系，则Y₁(i,j)等于1；否则，Y₁(i,j)等于0；其中i＝1,2,...,m；j＝1,2,...,n；m和n分别为已知的药物和靶标的个数。

进一步的，在步骤S1中的构建药物相似性矩阵的方法为：

1)基于药物的结构信息，使用一种基于图的方法SIMCOMP，其中药物的结构信息被视为由原子作为顶点以及共价键作为边的2D结构图；

2)根据药物的结构信息，计算药物drug_i和药物drug_j的结构相似性Sim_d，计算公式如下：

其中，d_i和d_j分别表示药物drug_i和药物drug_j的结构信息，

最后，

为第i行第j列的元素值；由所有的/>

构成的药物相似性矩阵Sim_d。

进一步的，在步骤S1中构建靶标相似性矩阵的方法为：

首先，基于靶标的氨基酸序列信息，使用一种基于局部序列比对的算法史密斯-沃特曼算法；根据靶标的氨基酸序列信息，计算靶标protein_i与靶标protein_j的序列相似性Sim_t，计算公式如下所示：

其中，p_i和p_j分别表示靶标protein_i与靶标protein_j的序列信息；

最后，

为第i行第j列的元素值；由所有的/>

构成的靶标相似性矩阵Sim_t。

进一步的，在步骤S2中采用PU学习来筛选潜在的药物-靶标负相关关系的方法具体步骤为为：

a)构建药物-靶标正相关关系矩阵Y₁，药物-靶标矩阵每一行对应一个药物，每一列对应一个靶标；若已知药物d_i和靶标t_j存在关系，则Y₁(i,j)等于1；否则，Y₁(i,j)等于0；其中i＝1,2,...,m；j＝1,2,...,n；m和n分别为已知的药物和靶标的个数；

b)定义{p_k,k＝1,2,...,|P|}为所有的已知药物-靶标正相关关系的特征向量集合，{u_z,z＝1,2,...,|U|}为所有的未知药物-靶标关系的特征向量集合，|P|和|U|分别为已知和未知药物-靶标关系的数量；其中若已知药物d_i和靶标t_j存在关系，则药物相似性矩阵

与靶标相似性矩阵/>

连结之后的特征向量为特征向量p_k，维度为W，即n+m；若已知药物d_i和靶标t_j未知关系，则药物相似性矩阵/>

与靶标相似性矩阵/>

连结之后的特征向量为特征向量u_z，维度为W，即n+m；其中药物相似性矩阵/>

表示药物结构相似性矩阵Sim_d的第i行，靶标相似性矩阵/>

表示靶标相似性矩阵Sim_t的第j列；

c)根据所有的已知药物-靶标关系的特征向量集合{p_k,k＝1,2,...,|P|}，计算正样本标准化向量p，计算公式如下：

p＝p+p_k(k＝1,2,...,|P|)

对正样本向量p进行标准化，公式为：

p＝p/|P|

其中|P|为已知的药物-靶标正相关关系的数量；

d)根据正样本标准化向量p，计算所有的未知药物-靶标关系的特征向量与正样本标准化向量p的平均距离并标准化，计算公式如下：

对平均距离进行标准化，公式为：

dist_ave＝dist/|U|

其中|U|为未知的药物-靶标关系的数量；W为药物相似性矩阵

与靶标相似性矩阵/>

连结之后的特征向量的维度；

e)根据标准化平均距离dist_ave，计算所有的未知药物-靶标关系的特征向量{u_z,z＝1,2,...,|U|}与正样本标准化向量p的欧式距离，计算公式如下：

其中|U|为未知的药物-靶标关系的数量；W为药物相似性矩阵

与靶标相似性矩阵/>

连结之后的特征向量的维度；

若某个未知药物-靶标关系的特征向量u_z与标准化平均距离p的欧式距离dist_z大于标准化平均距离dist_ave，则将这个未知药物-靶标关系的特征向量u_z合并到可靠的负样本集RN中；对可靠的负样本集RN从大到小进行排序，从可靠的负样本集RN中选择负样本与正样本的比例为n:1的数量作为潜在的药物-靶标负相关关系，构成筛选的潜在药物-靶标负相关关系的特征向量集合{rn_k,k＝1,2,...,n*|P|}；

f)基于构建的药物-靶标正相关关系矩阵Y₁，根据筛选的潜在的药物-靶标负相关关系，构建药物-靶标关系矩阵Y，每一行对应一个药物，每一列对应一个靶标；若药物d_i和靶标t_j为筛选的潜在的负相关关系，则Y₁(i,j)等于-1；否则，Y₁(i,j)等于0；其中i＝1,2,...,m；j＝1,2,...,n；m和n分别为已知的药物和靶标的个数。

进一步的，在步骤S3中采用深度森林方法来预测潜在的药物-靶标关系，具体步骤为：

a)结合所有的已知药物-靶标正相关关系的特征向量集合{p_k,k＝1,2,...,|P|}和筛选的潜在的药物-靶标负相关关系的特征向量集合{rn_k,k＝1,2,...,n*|P|}，构建药物-靶标关系的正负相关关系的特征向量集合{I_k,k＝1,2,...,(n+1)*|P|}；

b)使用三个不同大小的滑动窗口机制对药物-靶标关系的正负相关关系的特征向量集合{I_k,k＝1,2,...,(n+1)*|P|}进行处理，得到三个不同大小类型的子特征向量，并将三个不同大小类型的子特征向量分别用于训练随机森林和完全随机森林，得到三个不同大小类型的类概率向量；其中，滑动窗口的三个不同大小分别是

步长为l；

c)基于步骤b)产生的三个不同大小类型的类概率向量，使用级联森林结构对类概率向量进行分类；其中，每一层级联层中都包括三层结构，且每个结构都是由n₃个随机森林和n₄个完全随机森林构成；在级联森林结构中，为了降低过拟合的风险，每个森林生成的类向量是通过k折交叉验证产生的；即每个样本都会被当作训练数据训练k-1次，生成k-1个类c维向量，然后对其取平均值即为这个森林最终特征向量，将这n₃+n₄个森林的c维特征向量连在一起，作为下一层的增强特征向量；在扩展一个新的层后，整个级联森林的性能将在验证集上进行评估，如果没有显着的性能提升，训练过程将终止；因此，级联森林中层的数量是自动确定的；最后，产生n₃+n₄个c维的类向量d_i(i＝1,2,...,(n₃+n₄))；

d)基于步骤c)产生的n₃+n₄个c维的类向量d_i(i＝1,2,...,(n₃+n₄))，计算最终的分类类别，计算公式如下：

进一步的，在步骤c)中，具体过程为：

c1)在级联森林结构中，由前一层的输入数据和输出结果进行连结操作并作为下一层的输入；首先，将类概率向量d₁用于训练两个随机森林和两个完全随机森林，产生c*(n₃+n₄)维的类向量；

c2)在第一层a中，基于步骤c1)产生的c*(n₃+n₄)维的类向量，与类概率向量d₁连结，用于训练两个随机森林和两个完全随机森林，产生c*(n₃+n₄)维的类向量；

c3)在第一层b中，基于步骤c2)产生的c*(n₃+n₄)维的类向量，与类概率向量d₂连结，用于训练两个随机森林和两个完全随机森林，产生c*(n₃+n₄)维的类向量；

c4)在第一层c中，基于步骤c3)产生的c*(n₃+n₄)维的类向量，与类概率向量d₃连结，用于训练两个随机森林和两个完全随机森林，产生c*(n₃+n₄)维的类向量；

c5)在以后的级联层结构中，以此类推。

进一步的，步骤a)、b)、c)中，具体为：

a1)基于构建的药物-靶标关系矩阵Y，采用已知的药物-靶标正相关关系和筛选的潜在的药物-靶标负相关关系训练深度森林模型，预测未知的药物-靶标关系的概率值，产生药物-靶标关系概率矩阵Y；

a2)对于任意两个已知的药物和靶标，根据Y的值判断药物与靶标存在关联关系的可能性。

b1)计算新的药物与已知的药物的结构相似性，并分别与靶标相似性矩阵

连结，定义为新的药物-已知的靶标特征向量集；

b2)基于构建的药物-靶标关系矩阵Y，采用已知的药物-靶标正相关关系和筛选的潜在的药物-靶标负相关关系训练深度森林模型，预测新的药物-已知的靶标关系的概率值，产生新的药物-已知的靶标关系概率值向量；

b3)对于新的药物和已知的靶标，根据新的药物-已知的靶标关系概率值向量的值判断新的药物与已知的靶标存在关联关系的可能性。

c1)计算新的靶标与已知的靶标的序列相似性，并分别与药物相似性矩阵

连结，定义为新的靶标-已知的药物特征向量集；

c2)基于构建的药物-靶标关系矩阵Y，采用已知的药物-靶标正相关关系和筛选的潜在的药物-靶标负相关关系训练深度森林模型，预测新的靶标-已知的药物关系的概率值，产生新的靶标-已知的药物关系概率值向量；

c3)对于新的靶标和已知的药物，根据新的靶标-已知的药物关系概率值向量的值判断新的靶标与已知的药物存在关联关系的可能性。

本发明的有益效果为：通过结合深度森林和PU学习算法，来预测潜在的药物-靶标关联关系，能够更准确的预测药物-靶标关系，能够减少生物实验所需的时间和资源，为药物发现和药物重定位提供了研究基础。

附图说明

图1为本发明DFPU-DTIs流程图；

图2为滑动窗口机制流程图。

具体实施方式

下面结合具体实施方式对本发明作进一步的说明。

一种基于深度森林和PU学习的药物-靶标关系预测方法:具体流程如图一所示。

一.药物相似性和靶标相似性计算

1)药物-靶标矩阵的构建；基于已知的药物-靶标正相关关系，本发明首先构建了药物-靶标矩阵每一行对应一个药物，每一列对应一个靶标；若已知药物d_i和靶标t_j存在关系，则Y₁(i,j)等于1；否则，Y₁(i,j)等于0；其中i＝1,2,...,m；j＝1,2,...,n；m和n分别为已知的药物和靶标的个数。

2)药物相似性计算

基于药物的结构信息，使用一种基于图的方法SIMCOMP，其中药物的结构信息被视为由原子作为顶点以及共价键作为边的2D结构图；该方法通过比较两个药物的化学结构的共同子结构大小来比较两个药物的结构相似性，即两个药物的化学结构的共同子结构越小，两个药物的相似性越小；

然后，根据根据药物的结构信息，计算药物drug_i和药物drug_j的结构相似性Sim_d，计算公式如下：

其中，d_i和d_j分别表示药物drug_i和药物drug_j的结构信息，

最后，

为第i行第j列的元素值；由所有的/>

构成的药物相似性矩阵Sim_d。

3)靶标相似性计算

基于靶标的氨基酸序列信息，使用一种基于局部序列比对的算法史密斯-沃特曼算法；根据靶标的氨基酸序列信息，计算靶标protein_i与靶标protein_j的序列相似性Sim_t，计算公式如下所示：

最后，

为第i行第j列的元素值；由所有的/>

构成的靶标相似性矩阵Sim_t。

二PU学习(Positive-unlabeled Learning,PU)筛选潜在的药物-靶标负相关关系

本发明采用PU学习来筛选潜在的药物-靶标负相关关系。本发明使用PU学习的理由如下：由于没有经过实验验证的负样本，因此大多数人随机选择一部分未知关系的药物-靶标对作为负样本，但是这些选定的负样本可能包含正样本，从而严重影响预测准确性。因此，本发明采用PU学习筛选潜在的药物-靶标负相关关系以提高预测的准确度。

与靶标相似性矩阵/>

与靶标相似性矩阵/>

表示药物结构相似性矩阵Sim_d的第i行，靶标相似性矩阵/>

表示靶标相似性矩阵Sim_t的第j列；

p＝p+p_k(k＝1,2,...,|P|)

对正样本向量p进行标准化，公式为：

p＝p/|P|

其中|P|为已知的药物-靶标正相关关系的数量；

对平均距离进行标准化，公式为：

dist_ave＝dist/|U|

其中|U|为未知的药物-靶标关系的数量；W为药物相似性矩阵

与靶标相似性矩阵/>

连结之后的特征向量的维度；

其中|U|为未知的药物-靶标关系的数量；W为药物相似性矩阵

与靶标相似性矩阵/>

连结之后的特征向量的维度；

至此，本发明得到了所有的已知药物-靶标正相关关系的特征向量集合{p_k,k＝1,2,...,|P|},筛选的潜在药物-靶标负相关关系的特征向量集合{rn_k,k＝1,2,...,n*|P|}；为了避免正负样本数量的差异带来额外的噪声，本发明实施中，n的取值被确定为1。即筛选的负样本数量和正样本的数量是相等的。

三.采用深度森林方法来预测潜在的药物-靶标关系

a)结合所有的已知药物-靶标正相关关系的特征向量集合{p_k,k＝1,2,...,|P|}和筛选的潜在的药物-靶标负相关关系的特征向量集合{rn_k,k＝1,2,...,n*|P|}；构建药物-靶标关系的正负相关关系的特征向量集合{I_k,k＝1,2,...,(n+1)*|P|}

b)如图2所示，使用三个不同大小的滑动窗口机制对药物-靶标关系的正负相关关系的特征向量集合{I_k,k＝1,2,...,(n+1)*|P|}；进行处理，得到三个不同大小类型的子特征向量，并将三个不同大小类型的子特征向量分别用于训练随机森林和完全随机森林，得到三个不同大小类型的类概率向量；其中，滑动窗口的三个不同大小分别是

步长为l；

c)基于步骤b)产生的三个不同大小类型的类概率向量，使用级联森林结构对类概率向量进行分类；其中，每一层级联层中都包括三层结构，且每个结构都是由n₃个随机森林和n₄个完全随机森林构成；在级联森林结构中，为了降低过拟合的风险，每个森林生成的类向量是通过k折交叉验证产生的；即每个样本都会被当作训练数据训练k-1次，生成k-1个c维的类向量，然后对其取平均值即为这个森林最终特征向量，将这n₃+n₄个森林的c维特征向量连在一起，作为下一层的增强特征向量；在扩展一个新的层后，整个级联森林的性能将在验证集上进行评估，如果没有显着的性能提升，训练过程将终止；因此，级联森林中层的数量是自动确定的；最后，产生n₃+n₄c维的类向量d_i(i＝1,2,...,(n₃+n₄))；

四.滑动窗口机制结构具体为：

b1)使用步长为l、大小为大小为s_i(i＝1,2,3)的滑动窗口去扫描药物-靶标关系的正负相关关系的特征向量集合{I_k,k＝1,2,...,(n+1)*|P|}，特征向量的维度为W，每个特征向量将会得到

个子特征向量，每个子特征向量的维度是s_i(i＝1,2,3)；

其中，窗口大小s₁、s₂、s₃分别为

b2)基于步骤b1)产生的

个子特征向量，它们被用来训练随机森林和完全随机森林，得到类概率向量，计算公式如下：

其中，c是类别标签的数量；n₁和n₂分别是随机森林和完全随机森林的数量。在本发明中，滑动窗口的步长被设置为1，随机森林n₁的值被设置为1，完全随机森林n₂的值被设置为1；

以一个300维的特征向量被一个滑动窗口大小为150和步长为1扫描为例进行详细说明，在扫描之后，将会得到151个150维的子特征向量；将151个150维的子特征向量用于训练随机森林和完全随机森林，在本发明中是二分类问题，因此每个森林会得到151个2维的向量，对其进行连结操作得到604维的类概率向量；

五.级联森林结构具体为：

c5)在以后的级联层结构中，以此类推。

六.基于深度森林和PU学习预测药物-靶标关系，具体为：

1)预测已知的药物与已知的靶标的关联关系

基于构建的药物-靶标关系矩阵Y，采用已知的药物-靶标正相关关系和筛选的潜在的药物-靶标负相关关系训练深度森林模型，预测未知的药物-靶标关系的概率值，产生药物-靶标关系概率矩阵Y；

对于任意两个已知的药物和靶标，根据Y的值判断药物与靶标存在关联关系的可能性。

2)预测新的药物与已知的靶标的关联关系

计算新的药物与已知的药物的结构相似性，并分别与靶标相似性矩阵

连结，定义为新的药物-已知的靶标特征向量集；

基于构建的药物-靶标关系矩阵Y，采用已知的药物-靶标正相关关系和筛选的潜在的药物-靶标负相关关系训练深度森林模型，预测新的药物-已知的靶标关系的概率值，产生新的药物-已知的靶标关系概率值向量；

对于新的药物和已知的靶标，根据新的药物-已知的靶标关系概率值向量的值判断新的药物与已知的靶标存在关联关系的可能性。

预测已知的药物与新的靶标的关联关系

计算新的靶标与已知的靶标的序列相似性，并分别与药物相似性矩阵

连结，定义为新的靶标-已知的药物特征向量集；

基于构建的药物-靶标关系矩阵Y，采用已知的药物-靶标正相关关系和筛选的潜在的药物-靶标负相关关系训练深度森林模型，预测新的靶标-已知的药物关系的概率值，产生新的靶标-已知的药物关系概率值向量；

对于新的靶标和已知的药物，根据新的靶标-已知的药物关系概率值向量的值判断新的靶标与已知的药物存在关联关系的可能性。

七.实验验证

本发明使用了四个药物-靶标数据集，分别是酶、离子通道、GPCRs和核受体，并且在这四个数据集上采用十折交叉验证进行验证；详细情况如下表所示。

表1药物-靶标相互作用数据集

为了评估基于深度森林和PU学习模型预测的性能，使用两个评价指标来评判模型方法的鲁棒性，分别是AUC(the areas under ROC curves)和AUPR(the areas underprecision-recall curves)，并且使用三种不同类型的交叉验证验证模型，分别为CV1、CV2和CV3。CV1是为了测试对于新的药物的预测能力，随机的将药物-靶标关系矩阵Y的90％行作为训练集，其余作为测试集；CV2是为了测试对于新的靶标的预测能力，随机的将药物-靶标关系矩阵Y的90％列作为训练集，其余作为测试集；CV3是为了测试对于药物-靶标关联对的预测能力，随机的将药物-靶标关系矩阵Y的90％药物-靶标关系作为训练集，其余作为测试集。

本发明将DFPU-DTIs和其他药物-靶标预测方法进行比较(BLM-NII,CMF,NRLMF,DualLapRLS)，各项指标均高于现有的方法，各个方法的详细的性能指标如下表所示。通过与其他方法在三种不同类型的交叉验证情况下的比较，表明了本发明比现有的方法更准确，性能更好，为药物发现和药物重定位提供了研究基础。

表2三种不同类型的五折交叉验证的算法性能指标

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。

Claims

1.一种基于深度森林和PU学习的药物-靶标关系预测方法，其特征在于，包括以下步骤：

S2、采用PU学习来筛选潜在的药物-靶标负相关关系；

S21、构建药物-靶标正相关关系矩阵Y₁，药物-靶标矩阵每一行对应一个药物，每一列对应一个靶标；若已知药物d_i和靶标t_j存在关系，则Y₁(i,j)等于1；否则，Y₁(i,j)等于0；其中i＝1,2,…,m；j＝1,2,…,n；m和n分别为已知的药物和靶标的个数；

S22、定义{p_k,k＝1,2,...,|P|}为所有的已知药物-靶标正相关关系的特征向量集合，{u_z,z＝1,2,...,|U|}为所有的未知药物-靶标关系的特征向量集合，|P|为已知的药物-靶标正相关关系的数量，|U|为未知药物-靶标关系的数量；其中若已知药物d_i和靶标t_j存在关系，则药物相似性矩阵

与靶标相似性矩阵/>

与靶标相似性矩阵

表示药物结构相似性矩阵Sim_d的第i行，靶标相似性矩阵/>

表示靶标相似性矩阵Sim_t的第j列；

S23、根据所有的已知药物-靶标关系的特征向量集合{p_k,k＝1,2,...,|P|}，计算正样本标准化向量p，计算公式如下：

p＝p+p_k,k＝1,2,...,|P|

对正样本向量p进行标准化，公式为：

p＝p/|P|

其中|P|为已知的药物-靶标正相关关系的数量；

S24、根据正样本标准化向量p，计算所有的未知药物-靶标关系的特征向量与正样本标准化向量p的平均距离并标准化，计算公式如下：

对平均距离进行标准化，公式为：

dist_ave＝dist/|U|

其中|U|为未知的药物-靶标关系的数量；W为药物相似性矩阵

与靶标相似性矩阵

连结之后的特征向量的维度；

S25、根据标准化平均距离dist_ave，计算所有的未知药物-靶标关系的特征向量{u_z,z＝1,2,...,|U|}与正样本标准化向量p的欧式距离，计算公式如下：

其中|U|为未知的药物-靶标关系的数量；W为药物相似性矩阵

与靶标相似性矩阵

连结之后的特征向量的维度；

若某个未知药物-靶标关系的特征向量u_z与标准化平均距离p的欧式距离dist_z大于标准化平均距离dist_ave，则将这个未知药物-靶标关系的特征向量u_z合并到可靠的负样本集RN中；对可靠的负样本集RN从大到小进行排序，从可靠的负样本集RN中选择负样本与正样本的比例为n:1的数量作为潜在的药物-靶标负相关关系，构成筛选的潜在药物-靶标负相关关系的特征向量集合{rn_k,k＝1,2,…,n*|P|}；

S26、基于构建的药物-靶标正相关关系矩阵Y₁，根据筛选的潜在的药物-靶标负相关关系构建药物-靶标关系矩阵Y₂，每一行对应一个药物，每一列对应一个靶标；若药物d_i和靶标t_j为筛选的潜在的负相关关系，则Y2(i,j)等于-1；否则，Y₂(i,j)等于0；其中i＝1,2,...,m；j＝1,2,...,n；m和n分别为已知的药物和靶标的个数；

S3、采用深度森林方法来预测潜在的药物-靶标关系；

S31、结合所有的已知药物-靶标正相关关系的特征向量集合{p_k,k＝1,2,...,|P|}和筛选的潜在的药物-靶标负相关关系的特征向量集合{rn_k,k＝1,2,...,n*|P|}，构建药物-靶标关系的正负相关关系的特征向量集合{I_k,k＝1,2,...,(n+1)*|P|}；

S32、使用三个不同大小的滑动窗口机制对药物-靶标关系的正负相关关系的特征向量集合{I_k,k＝1,2,...,(n+1)*|P|}进行处理，得到三个不同大小类型的子特征向量，并将三个不同大小类型的子特征向量分别用于训练随机森林和完全随机森林，得到三个不同大小类型的类概率向量；其中，滑动窗口的三个不同大小分别是

步长为l；

S33、基于步骤S32产生的三个不同大小类型的类概率向量，使用级联森林结构对类概率向量进行分类；其中，每一层级联层中都包括三层结构，且每个结构都是由n₃个随机森林和n₄个完全随机森林构成；在级联森林结构中，为了降低过拟合的风险，每个森林生成的类向量是通过g折交叉验证产生的；即每个样本都会被当作训练数据训练g-1次，生成g-1个类c维向量，然后对其取平均值即为这个森林最终特征向量，将这n₃+n₄个森林的c维特征向量连在一起，作为下一层的增强特征向量；在扩展一个新的层后，整个级联森林的性能将在验证集上进行评估，如果没有显着的性能提升，训练过程将终止；因此，级联森林中层的数量是自动确定的；最后，产生n₃+n₄个c维的类向量d_i，i＝1,2，...(n₃+n₄)；

S34、基于步骤S33产生的n₃+n₄个c维的类向量d_i，i＝1,2，...(n₃+n₄)，计算最终的分类类别，计算公式如下：

2.根据权利要求1所述的一种基于深度森林和PU学习的药物-靶标关系预测方法，其特征在于，在步骤S1中构建药物-靶标正相关关系矩阵Y₁，药物-靶标矩阵每一行对应一个药物，每一列对应一个靶标；若已知药物d_i和靶标t_j存在关系，则Y₁(i,j)等于1；否则，Y₁(i,j)等于0；其中i＝1,2,...,m；j＝1,2,...,n；m和n分别为已知的药物和靶标的个数。

3.根据权利要求1所述的一种基于深度森林和PU学习的药物-靶标关系预测方法，其特征在于，在步骤S1中的构建药物相似性矩阵的方法为：