CN112420126A

CN112420126A - 一种基于多源数据融合和网络结构扰动的药物靶标预测方法

Info

Publication number: CN112420126A
Application number: CN202011419796.6A
Authority: CN
Inventors: 卢新国; 刘芳; 李金鑫; 彭绍亮
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-02-26

Abstract

本发明涉及生物信息学中的数据挖掘领域，具体涉及一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法。其发明内容主要包括：(1)收集药物、靶标相关数据；(2)进行药物相似性分析，得到多种药物相似性；(3)进行靶标相似性分析，得到多种靶标相似性；(4)建立非线性多源数据融合模型，扩散药物相似性、靶标相似性；(5)构建药物靶标双层网络模型；(6)建立药物靶标网络结构扰动模型，预测潜在的药物靶标相互作用。本发明提供了一种多源数据融合链路扰动的方法，以捕获药物靶标网络的链路生成机制规律来识别潜在的药物靶标相互作用。本发明的方法可行且有效，对于研究药物重定位和实现精准医疗具有重要意义。

Description

一种基于多源数据融合和网络结构扰动的药物靶标预测方法

技术领域

本发明涉及生物信息学中的数据挖掘领域，具体涉及一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法。

背景技术

药物靶点相互作用(DTI)在药物发现和开发中起着至关重要的作用，它有助于识别现有药物的新靶点或预测已知靶点的新药。由于DTI的实验测定既昂贵又耗时，目前只有少数药物靶向相互作用通过湿实验室实验得到验证。因此，近年来，许多研究者试图通过使用电子或计算方法来指导体内验证来预测DTI，从而显著降低了识别药物靶向相互作用的成本和时间。

早期的DTIs计算方法可分为两大类：基于对接模拟和基于配体的方法。对接方法考虑目标蛋白的三维结构，但是这种方法非常耗时，而且并不是所有靶蛋白都能获得靶蛋白的结构信息。基于配体的方法将查询配体与一组已知的目标蛋白配体进行比较。但在已知的靶蛋白配基数量较少的情况下，它不能很好地发挥作用。为了克服这一难题，已经开发出许多种基于机器学习的方法来预测DTI。一些研究使用矩阵分解来推断DTI，这种技术将代表药物靶网络的矩阵分解为多个由潜在特征组成的低秩矩阵，这些特征被假定控制DTIs。例如，NRLMF(Liu,Y.et al.:Neighborhood regularized logistic matrixfactorization for drug-target interaction prediction[J].PLoS Comput.Biol,2016,12,e1004760.)应用相互作用数据的局部结构，提出了一种基于logistic矩阵分解的药物靶向相互作用推断方法。DNILMF(Hao,M.et al.:Predicting drug-targetinteractions by dual-network integrated logistic matrix factorization[J].Sci.Rep,2019,7,40376.)结合了靶点和药物的轮廓信息来增强NRLMF方法，该模型表明与仅利用单一目标相似性和单一药物相似性的方法相比，采用不同的目标和药物相似性度量方法可以提高预测性能，并且基于非线性相似性测度积分的预测模型比基于线性组合相似性测度的预测模型具有更好的性能。

此外，基于深度学习的方法在解决许多生物问题方面也受到广泛关注，这些方法虽然取得了很好的效果，但可解释能力差，训练时间成本高。与此相比，基于网络的方法显示出了很大的优势。首先，即使训练数据量不大，基于网络的方法也能具有良好的预测性能。其次，它们是快速和简单的，因为只需要执行简单的物理过程。然而，现有的大量的基于网络的模型主要是基于特定的启发式来识别药物靶标相互作用。尽管这些启发式方法在DTI中有意义，但它们忽略了DTI网络中的链路生成机制而不能充分展示药物与靶点之间的潜在关联。药物靶点相互作用预测问题可以建模为二部网络中的链接预测问题，观察到的药物靶网络结构可以根据一些一致性规则进行推广，以纠正缺失信息。如果添加的新链接对原始网络结构的一致性影响越小，则越有可能是缺失的链接。

有鉴于此，本发明面向药物靶标网络中的链路生成机制，提出了一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法，以识别潜在的药物靶标相互作用。

发明内容

本发明提出了一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法，用以识别潜在的药物靶标相互作用，主要包括以下步骤：

(1)收集已知药物靶标相互作用数据、药物化学结构结构信息、靶标氨基酸序列信息、靶蛋白GO信息；

(2)进行药物相似性分析，得到多种药物相似性；

(3)进行靶标相似性分析，得到多种靶标相似性；

(4)建立非线性多源数据融合模型，扩散融合药物相似性、靶标相似性；

(5)构建药物靶标双层网络模型；

(6)建立药物靶标网络结构扰动模型，预测潜在的药物靶标相互作用,得到最终结果。

1.数据收集阶段

首先，在进行计算相似性之前需要先获取药物的化学结构数据，靶标的氨基酸序列数据以及GO数据，该方法中药物的化学结构是从KEGG配体数据库中的化合物和药物部分获得的，靶标蛋白的氨基酸序列从KEGG基因数据库中提取，靶标的GO函数数据来自GOA数据库。

其次，现有已知的药物靶标相互作用数据在这一步也要被收集，我们从Yamanishi数据库中下载了已经被观察到的药物靶向相互作用，该数据集最初由Yamanishi等人提供，这些药物靶标相互作用信息是从SuperTarget、KEGG BRITE、DrugBank和BRENDA数据库中检索得到的，并且他们根据不同的靶蛋白类别将DTIs信息分为了四组：(1)核受体(NR)；(2)酶(E)；(3)离子通道(IC)和(4)G蛋白偶联受体(GPCR)。其中，NR数据集包括了90个相互作用，涉及54种药物和26个靶标，E数据集包括2926个相互作用，涉及445种药物和664个靶标，IC数据集包括1476个相互作用，涉及210种药物和204个靶标，GPCR数据集包括635个相互作用，涉及223种药物和95个靶标。

2.药物相似性分析阶段

SIMCOMP最初是作为一种基于图的方法来比较化学结构的，它是一种化学结构搜索服务于化学相似性搜索。本研究采用SIMCOMP算法计算两种药物之间的化学结构相似性，采用图对齐方法，根据药物间最大公共子结构的大小来反映整体相似度得分。在这种方法中，药物d_i和药物d_j之间的化学结构相似性计算如下：

其中，

和

分别表示药物d_i和药物d_j的化学结构。我们对所有药物对进行这一操作，得到一个药物的化学结构相似矩阵

此外，基于药物在DTI网络中表现出类似的非相互作用和相互作用的模式，可能会对新的靶蛋白表现出类似的相互作用行为。我们通过构建二进制向量

来编码药物d_i与所考虑的DTI网络中各靶标的相互作用谱，因此，药物d_i和药物d_j之间的高斯相互作用谱剖面相似性计算如下：

其中，参数γ_d是用于调节内核带宽的，可以通过γ′_d利用每种药物的相关靶标平均数标准化得到，因此，γ_d被定义如下：

其中，参数γ′_d能通过交叉验证进行设置。我们根据之前的研究简单的设置γ′_d为1。

3.靶标相似性分析阶段

在这项工作中，我们专注于人类蛋白质，根据化学上相似的药物倾向于与相似的目标蛋白质相互作用的想法，使用归一化的Smith-Waterman得分计算了靶标序列相似度

对于一对蛋白质t_i和t_j，它们的序列之间的相似性计算如下：

其中，

分别表示靶蛋白t_i和t_j的序列，SW表示原始的Smith-Waterman得分。

另外，功能相似的基因更有可能调节相似的疾病，并且倾向于用相似的药物治疗，因此，我们使用基因功能信息来构建靶标GO功能相似性网络

针对每个名称空间分子功能(MF)、细胞间隔(CC)和生物过程(BP)的目标蛋白GO术语关联；每个目标蛋白质的轮廓由一个二进制向量描述，指定每个GO名称空间中是否存在每个GO术语。在我们的方法中，我们只考虑实验证据码GO项。利用Rcpi工具计算语义相似度。我们采用了“calcParProtGOSim”，参数为organic＝“human”、measure＝“Wang”和combine＝“BMA”。

4.多源数据扩散阶段

由于每个相似性网络可能包含不同的信息和噪声，并且生物数据之间存在非线性关系。我们建立一种非线性相似性融合方法(DTSNF)分别对药物相似性和目标相似性进行融合，得到信息更丰富、更可靠的药物相似性网络以及靶标相似性网络。

一个相似性网络可以表示为一个图G＝(V,E)，其中V＝{V{1},V{2},…,V{N}}对应于网络中的节点集(药物或靶标)，E对应边集。我们将相应的相似性矩阵表示为S，其中S_ij是节点V_i和V_j之间的相似性。我们在每个相似性矩阵上定义了一个完整核和一个稀疏核，完整的内核是一个标准化的权重矩阵F＝D^-1S，D是一个对角矩阵，并且D(i,i)＝∑_jS(i,j)。考虑到这种归一化涉及到S的对角项的自相似性，从而可能会受到数值不稳定性的影响。因此，为了保证相似度区间在0到1之间，节点的自相似度为1，我们采用更好的归一化方法来约束相似度边界，使其更具生物可解释性。一个更好的正则化术语定义如下：

其中n为相似度网络中的节点数，S_i,k表示相似性矩阵种的第i行。

采用K最近邻算法度量局部亲和度，得到稀疏核：

其中Ni是节点V_i的K个最近邻集。F为相似度网络的全部信息编码，L仅捕捉网络中每个节点的K个最近邻的相似度信息。

基于流形学习算法的思想，我们认为节点与其邻居之间的相似性比远程节点更可靠。我们可以通过图扩散得到非邻域的相似度，因为即使V_i和V_j在一个数据视图中不是很相似，但在扩散和传播过程中，它们的相似性可以通过其他相似视图的信息来表达。让初始状态矩阵

F⁽ⁱ⁾是通过公式5求得表示第i种相似性的全信息矩阵。状态矩阵可以计算如下：

F_t ⁽ⁱ⁾＝L⁽ⁱ⁾×(L⁽ⁱ⁾)^T,i＝1,2,…,n (7)

式中，F_t ⁽ⁱ⁾为t(t>0)次迭代后第i个相似网络的状态矩阵，m是相似性网络的数量。在每次迭代中，F_t ⁽ⁱ⁾都会根据公式(5)进行归一化，以确保每个节点都是与自身最相似的，其值为1。在t步后，最终融合矩阵计算为:

我们应用DTSNF模型分别整合靶标-靶标相似性和药物-药物相似性，得到FD和FT。FD表示最终的药物扩散矩阵，FT为靶标扩散矩阵。

5.构建药物靶标双层网络模型

由于结构摄动法仅适用于实对称矩阵，因此我们用FD，FT和DT构造了一个双层网络。矩阵FD为药物多源数据信息扩散后的的相似性网络，权重为S_d。FT为靶标多源数据信息扩散后的的相似性网络，权值为S_t。我们将矩阵DT定义为已知的DTIs网络，如果药物i和靶标j相连，则元素DT(i,j)＝1；否则，DT(i,j)＝0。因此，药物靶向双层网络可用A×A(A＝N+M表示网络中药物和靶点总数)无向邻接矩阵BN_AXA表示。

6.用结构微扰法预测药物靶标相互作用

当网络因某种演化或扰动过程而动态变化时，信息在网络结构中表现为一定的规律性或一致性。结构摄动法通过随机删除少量杆件来一阶近似法搅动其余的链路，它目的是用另一组观测到的链路扰动网络，恢复被视为未知信息的丢失链路。针对这一特点，我们将结构扰动的思想应用于药物靶标双层网络上来预测潜在的药物靶标相互作用。

把矩阵BN看作一个边缘加权二分图网络G(U，V，E)，其中U指药物顶点集，V是靶标节点集，E表示药物和靶标之间的加权边。我们随机地从E中分离出一个分数链接来构建一个扰动集ΔE，然后其余的链接可以定义为E^R＝E-ΔE。因此，可以获得一个新的网络G^R(U,V,E^R)，其邻接矩阵为BN^R＝BN-ΔBN，其中ΔBN表示被删除的链路的邻接矩阵。类似于量子力学中的一阶微扰哈密顿算法，结构微扰理论被应用到BN^R。由于BN^R是一个对称矩阵，因此可以写成：

其中λ_k是BN^R对应的特征值，x_k是正交的和标准化的特征向量。

我们用ΔE作为BN^R的摄动集，然后用一阶近似法构造扰动矩阵，使特征值发生变化，但保持特征向量不变。我们考虑两种情况，第一种，如果邻接矩阵BN^R没有任何重复特征值，则考虑非退化情况。在扰动后，特征值λ_k变为λ_k+Δλ_k，相应的特征向量变为x_k+Δx_k。因此，我们可以得到：

(BN^R+ΔBN)(x_k+Δx_k)＝(λ_k+Δλ_k)(x_k+Δx_k),k＝1,2,…,n. (11)

将上式左乘

并且忽略二阶项

和

能够得到：

通过固定特征向量，根据扰动特征值可以得到如下扰动矩阵BN′

如果基于BN^R展开，则BN′可以将其看作给定双层网络BN的线性近似。第二种情况，考虑具有重复特征值的退化情形。我们将特征值表示为λ_ki，其中下标k表示不同的特征值，下标i表示相同特征值的Q个相关特征向量。在网络中加入扰动后，由于对称节点会发生部分或全部位移，因此选取退化特征值，并将其连续转化为扰动非退化特征值。如果所选特征向量定义为

则特征函数可以表示为：

(BN^R+ΔBN)(x′_ki)＝(λ_ki+Δλ′_ki)x′_ki (14)

给我们

对于任一r＝1,2,…,Q，将公式(15)左乘特征函数

得到

写成矩阵形式，能被重写为

WBN_k＝Δλ′_kBN_k (17)

其中W是一个Q×Q的矩阵和

BN_k是β_ki的一个列向量。基于公式(17)求出Δλ′_k和BN_k后，我们能根据下式得出被扰动后的矩阵BN′

矩阵特征向量可以反映网络的结构特征。如果矩阵BN′和矩阵BN的特征向量几乎相同，则说明扰动集对结构特征没有显著影响。恢复的新链路对原有网络结构的影响越小，就越有可能是丢失的链路。我们选择BN′通过右上角的DT′得到最终的扰动矩阵，运行10次独立的扰动集平均这十次结果得到BN″。所有未观测到的链路根据其在扰动矩阵中的相应分数按降序排序。这些链路的得分越高，存在的可能性就越大。

具体实施方式

本发明是一种基于非线性多源数据融合和网络结构扰动的药物靶标预测方法。下面描述本发明的具体实施方式。本领域技术人员应该理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的取证范围。

步骤1：从Yamanishi数据库中下载被实验验证的四种药物靶标数据集，包括(1)核受体(NR)数据集；(2)酶(E)数据集；(3)离子通道(IC)数据集和(4)G蛋白偶联受体(GPCR)数据集。从KEGG配体数据库中提取出药物的化学结构，从KEGG基因数据库中提取出靶蛋白的氨基酸序列，从GOA数据库中提取出靶蛋白的GO数据。然后筛选出四种药物靶标数据集中对应的药物的化学结构，靶标的氨基酸序列以及GO数据信息。

步骤2：根据上述提取出的药物化学结构信息利用公式(1)计算出药物的化学结构相似性。在根据获取得到的被实验验证的药物靶标相互作用网络按照公式(2)和公式(3)计算出药物的高斯相互作用谱剖面相似性，根据前人的研究，我们取γ′_d为1。

步骤3：对于每一个靶标蛋白，根据步骤1中提取到的氨基酸序列利用公式(4)求得每一对靶蛋白之间的相似性，得到靶标序列相似性矩阵。然后，利用靶标的GO数据使用Rcpi工具计算出靶蛋白的GO功能相似性，得到靶蛋白的GO功能相似性矩阵，应用Rcpi工具时，我们采用了“calcParProtGOSim”，参数为organic＝“human”、measure＝“Wang”和combine＝“BMA”。

步骤4：考虑到生物数据之间通常没有明显的线性关系，我们提出了一种非线性相似性融合算法来捕获多源生物数据中的非线性关系。我们利用步骤2中得到的药物化学结构相似性和药物高斯相互作用谱剖面相似性，根据公式(5)得出每种药物相似性的完整核信息，根据公式(6)得到每种药物相似性的稀疏核信息。然后，基于公式(7)我们得到状态转移矩阵，为了保证自相似性，在状态转移矩阵的迭代中每一步都根据公式(5)进行归一化，在t次迭代后，我们平均每一次迭代的结果得到最后的药物多源信息扩散矩阵。另外，利用步骤3中得到的靶标序列相似性和靶标GO语义相似性进行以上同样的操作，得到最后的靶标多源信息扩散矩阵。

步骤5：利用步骤4中得到的药物多源信息扩散矩阵，靶标多源信息扩散矩阵和步骤1中提取的已知药物靶标相互作用信息按照公式(9)构造一个双层网络BN′以便于下一步操作。

步骤6：利用步骤5中得到的双层网络BN′是实对称的特点，我们应用结构扰动的思想在药物靶标网络上。首先从双层网络中随机选择10％的链接作为扰动链接并删除他们，然后根据量子力学中的一阶微扰哈密顿算法，将结构微扰理论应用于我们的网络，双层网络可以表示为公式(10)，然后用一阶近似法构造扰动矩阵，使特征值发生变化，但保持特征向量不变的特点，计算出被扰动后的网络。最后，我们选择BN′右上角的DT′得到最终的扰动矩阵，运行10次独立的扰动集平均这十次结果得到BN″。将网络BN″中所有未观测到的链路根据其在扰动矩阵中的相应分数按降序排序。这些链路的得分越高，那么越可能是潜在的药物靶标相互作用。

本领域技术人员可以理解，本发明的保护范围不局限于所述的具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征进行等同的更改或替换，需要注意的是，更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法，其特征在于实施步骤为：

(1)收集已知药物靶标相互作用数据、药物化学结构信息、靶标氨基酸序列信息、靶蛋白GO信息；

(2)进行药物相似性分析，得到药物化学结构相似性和药物高斯相互作用谱剖面相似性；

(3)进行靶标相似性分析，得到靶标序列相似性和靶标GO功能相似性；

(4)建立非线性多源数据融合模型，分别扩散融所有的合药物相似性和所有的靶标相似性；

(5)构建药物靶标双层网络模型；

(6)建立药物靶标网络结构扰动模型，预测潜在的药物靶标相互作用，得到最终结果。

2.根据权利要求1所述的一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法，其特征在于数据收集阶段：

(1)从Yamanishi数据库中下载被实验验证的药物靶标相互作用数据，将其作为分析数据的主体以及度量药物的高斯相互作用谱剖面相似性，它包含核受体(NR)数据集、酶(E)数据集、离子通道(IC)数据集和G蛋白偶联受体(GPCR)数据集；

(2)从KEGG配体数据库中提取药物的化学结构信息，以度量药物的化学结构相似性；

(3)从KEGG基因数据库中收集靶标的氨基酸序列信息，以度量靶标的序列相似性；

(4)从GOA数据库中提取出靶蛋白的GO数据，以度量靶标的GO功能相似性。

3.根据权利要求1所述的一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法，其特征在于药物相似性分析阶段：

(1)利用药物的化学结构信息，使用SIMCOMP算法计算两种药物之间的化学结构相似性，采用图对齐方法，根据药物间最大公共子结构的大小来反映整体相似度得分；

(2)利用已知的药物靶标相互作用信息，通过构建二进制向量

来编码药物d_i与所考虑的DTI网络中各靶标的相互作用谱，计算出药物对之间的高斯相互作用谱剖面相似性。

4.根据权利要求1所述的一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法，其特征在于靶标相似性分析阶段：

(1)根据化学上相似的药物倾向于与相似的目标蛋白质相互作用的想法，使用归一化的Smith-Waterman得分计算靶标序列相似度；

(2)功能相似的基因更有可能调节相似的疾病，并且倾向于用相似的药物治疗，因此，我们使用基因的GO功能信息来构建靶标的GO功能相似性。

5.根据权利要求1所述的一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法，其特征在于多源数据扩散阶段：

(1)对所获得的药物化学结构相似性矩阵，药物高斯相互作用谱剖面相似性矩阵分别定义一个完整核和一个稀疏核，利用k最近邻居算法度量局部亲和度，使用图扩散得到非邻域的相似度，通过对完整核和稀疏核的迭代运算，在多次扩散和传播过程中得到最终的药物多源信息扩散矩阵；

(2)对所获得的靶标序列结构相似性矩阵，靶标GO功能相似性矩阵分别定义一个完整核和一个稀疏核，利用k最近邻居算法度量局部亲和度，使用图扩散得到非邻域的相似度，通过对完整核和稀疏核的迭代运算，在多次扩散和传播过程中得到最终的靶标多源信息扩散矩阵。

6.根据权利要求1所述的一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法，其特征在于构建药物靶标双层网络模型，构建表示实验验证的药物靶标相互作用网络的邻居矩阵，利用获得的药物多源信息扩散矩阵，靶标多源信息扩散矩阵和被实验验证的药物靶标相互作用零阶矩阵构造一个药物靶标双层网络。

7.根据权利要求1所述的一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法，其特征在于用结构微扰法预测潜在的药物靶标相互作用，根据药物靶标双层网络的实对称特点和量子力学中的一阶微扰哈密顿算法，将结构微扰理论应用于我们的网络，构建关于药物靶标网络的结构扰动模型；通过一阶近似法构造扰动矩阵求解结构扰动模型得到最终扰动后恢复的网络；对所有未观测到的链路根据其在扰动后恢复的网络中的相应分数按降序排序，得分越高的越可能是潜在的药物靶标相互作用。