CN110021341A

CN110021341A - 一种基于异构网络的gpcr药物和靶向通路的预测方法

Info

Publication number: CN110021341A
Application number: CN201910132743.7A
Authority: CN
Inventors: 江振然; 蒋惠炎
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2019-07-16
Anticipated expiration: 2039-02-21
Also published as: CN110021341B

Abstract

本发明公开了一种基于异构网络的G蛋白偶联受体(G‑Protein Coupled Receptor,GPCR)药物和靶向通路的预测方法及其生物学用途。该方法基于药物的化学子结构特征、基于药物的SMILES字符串信息特征、通路相关的蛋白质序列特征及通路相关疾病的表型特征的基础上，进而建立药物‑通路异构网络模型，并使用深度置信网络的方法预测药物‑通路相互作用关系。本发明提出的基于异构网络的GPCR药物和靶向通路的预测方法不仅预测精度高，鲁棒性好，而且可以成功预测出部分GPCR药物所作用的通路。该方法可用于药物‑通路相关性评估及临床患者用药参考等用途。

Description

一种基于异构网络的GPCR药物和靶向通路的预测方法

技术领域

本发明涉及生物信息学中药物和通路的联系，即一种基于异构网络模型的GPCR药物和靶向通路预测方法，该方法主要利用药物的化学子结构特征和药物的SMILES字符串信息特征，以及通路相关的疾病表型相似性和通路相关蛋白序列相似性，从而构建药物-通路异构网络模型，并使用深度置信网络的方法预测潜在的药物-通路关系。

背景技术

识别药物和通路的相互作用关系(drug-pathway interactions——DPI)是药物发现和药物重定位的关键。由于GPCR药物具有明确的可用性，如果能将药物用到新的通路不仅可以降低药物开发成本，还可以减少药物的不良反应。尽管目前有各种生物检测技术可用来预测DPI，但这些技术仍存在局限性。此外，由于实验的时间和成本比较高，使得有必要开发适当的计算方法来精确地分析和预测DPI。

近年来，有关DPI的研究受到了越来越多的关注。最典型的是H.Ma和H.Zhao提出了iFad和FacPad两个方法，主要通过R语言中的iFad和FacPad包的综合因子推断出DPI，这两个方法能明确的考虑药物-通路的稀疏性质。方法的不足之处在于同时改变影响因子的符号并不会造成对估算的基因表达值应有的影响，并且提供的数据是药物的敏感性数据和经过药物培养的细胞系中的基因表达数据(参考文献Ma H,Zhao H.iFad:an integrativefactor analysis model for drug-pathway association inference[J].Bioinformatics,2012,28(14):1911-8.MaH,Zhao H.FacPad:Bayesian sparse factormodeling for the inference of pathways responsive to drug treatment[J].Bioinformatics,2014,28(20):2662-70.)。Hoehndorf等人利用多种药物基因组学数据库(包括DrugBank，CTD，PharmGKB)，并整合了各种生物实体信息，结合富集分析来进行研究。尽管此方法可以通过人类疾病实体论的新型富集分析来识别疾病与通路，但是并没有直接预测DPI(参考文献Hoehndorf R,Schofield P N,Gkoutos G V.PhenomeNET:a whole-phenome approach to disease gene discovery[J].NucleicAcids Research,2011,39(18):e119.)。最近的一项工作研发了一种线性回归模型，其整合了基因组和基因表达数据，从而预测DPI。然而这种新颖的统计数据方法是需要知识引导的组合分析(参考文献Giovannetti G.The linear regression model under test,by W. andH.Sonnberger.Physica Verlag,Heidelberg[J].Journal of AppliedEconometrics,2010,4(2):209-211.)。随着许多实验设备和技术的发展，例如高通量实验和基因测序技术，存在越来越多的药物、通路相关数据可用于DPI的预测，进而提出了各种基于网络的方法来推断DPI。在DPI网络中，药物和通路由节点表示，与节点连接的线是已知的DPI，新的DPI可以由已知网络推断得到(参考文献Emig D,IvlievA,Pustovalova O,et al.DrugTarget Prediction and Repositioning Using an Integrated Network-BasedApproach[J].PLoS One,2013,8(4):e60618.)。

综上所述，采取基于异构网络的深度学习方法来预测药物-通路是目前研究的一个新方向。但算法的改进以及特征的选择一直是药物-通路相互关系预测研究的难点和关键问题。

发明内容

本发明的目的是针对GPCR药物和靶向通路而提供的一种基于异构网络的药物-通路预测方法，该方法不仅预测精度高，鲁棒性好，预测GPCR数据库中未上市的药物，有更多的可能性在未来成为GPCR新药物，并且这些预测出来的药物-通路新关系对可用于进一步的实验研究。该方法可用于药物-通路相关性评估及临床患者用药参考等。

实现本发明目的的具体技术方案是：

一种基于异构网络模型的GPCR药物和靶向通路预测方法，该预测方法包括以下具体步骤：

步骤1：构建药物和通路特征矩阵

构建药物特征矩阵

A1：计算药物的化学子结构相似性

药物的化学特性相似性是基于药物的化学子结构的相似性；首先，化学子结构从KEGG数据库中获得，然后运用公式(1)来计算两个药物之间的化学特性相似性，最终得到化学特性相似性矩阵S_mol；

公式(1)为两个药物d_i和d_j之间的化学子结构相似性的计算方法，其化学子结构可以从KEGG数据库中得到，且用0或1表示化学指纹信息(“化学指纹信息”用来表示药物的化学“子结构”，本质上两者相同)的每一维载体，最终每个药物可以得到881维载体，Structure_mol(d)代表药物的化学子结构的指纹信息的有效位，这相当于两个药物指纹信息的Jaccard score值。

其中，药物的化学子结构的指纹信息的有效位，可以通过Chemical DevelopmentKit(化学开发包)来获得两个药物的化学指纹的881维载体，这881维载体分别用0或1表示，1表示有化学子结构的某种化学元素，否则为0，最后通过计算两个药物的881维载体1的个数的并集除以1的个数的交集，即Jaccard score值为并集除以交集的商。“相当于”是指药物的化学子结构的指纹信息可以通过Jaccard计算得到。“化学子结构的指纹信息的有效位”等于“指纹的Jaccard score值”。

其中，881维载体是指，药物的化学子结构通过Chemical Development Kit(化学开发包)来获得两个药物的化学指纹的881维载体，这881维载体即为一个药物*881维的矩阵，矩阵中的数字用0或者1表示，1表示有化学子结构的某种化学元素，否则为0。得到“881”维载体，需要通过Chemical Development Kit(化学开发包)来获得，它只是药物的化学子结构用矩阵的形式表达，通过化学包只能得到881维载体。

A2：计算药物的SMILES字符串信息相似性

药物的SMILES特征(简化分子线性输入规范字符串信息特征)，它主要用来描述药物的字符串结构规范。首先，通过KEGG数据库中的药物找到PubChem数据库中药物的CID，这些药物的CID提供了其化学结构的SMILES字符串信息，然后，得到这些药物的SMILES字符串信息，并用TF-IDF方法度量其相似性。SMILES字符串相似度是SMILES字符串信息本身之间的相似性，其主要通过文本挖掘的TF-IDF算法计算得到。基于文本的TF-IDF方法可以通过公式(2)表示：

公式(2)为基于文本挖掘的TF-IDF算法计算得到的SMILES字符串信息相似性方法。公式(2)中，w表示某个SMILES字符串信息，其中分母加1是为了防止分母为0。从上式中可以看出，TF-IDF算法倾向于过滤掉无用的SMILES字符串信息，保留重要的SMILES字符串信息。本发明采用S_tf表示药物的SMILES字符串信息特征，并以此作为新加入的药物特征矩阵。

本发明将S_tf作为新加入的药物特征矩阵，其目的是运用文本挖掘的处理方法，TF-IDF是常用的文本挖掘预处理基本步骤，它是一种用于信息检索与数据挖掘的常用加权技术。在生物信息数据处理过程中，文本挖掘的处理方法比较少用，本发明运用文本挖掘中的TF-IDF算法对药物的SMILES字符串信息特征进行处理，并把经过处理的特征矩阵作为新加入的药物的特征矩阵。

构建通路特征矩阵

B1：计算通路相关疾病的表型相似性

通路相关疾病的表型特性相似性为基于通路空间中药物可治疗的疾病或适应症的相似性。本发明使用Van等人提出的方法(Gerrits M M,Van O P,Van M H W,et al.TheImpact of Chronic Somatic Diseases on the Course of Depressive and AnxietyDisorders[J].Psychotherapy&Psychosomatics,2013,82(1):64-66.)来计算疾病的表型相似性，即首先通过疾病ID可以得到对应MeSH数据库中的MeSH ID，然后提取每种疾病涉及的MeSH实体属性，接着根据MeSH语义分析的方法来计算通路中相关疾病的表型特征相似性，最后结合通路-疾病关系矩阵，计算得到S_mt作为通路的疾病表型的相似性矩阵。

MeSH语义分析的方法为：首先，通过各疾病类型的ID得到其对应于MeSH数据库中的MeSH ID，然后提取每种疾病涉及的MeSH实体属性(例如疾病在KEGG数据库的ID为H01495，对应在MeSH数据库中的ID为68008575，其MeSH实体属性为C09.218.568.217.500)接着根据MeSH实体属性进行分析，计算实体属性之间字符串匹配的字符之间的相似性，以此作为通路中相关疾病的表型特征相似性，最后，结合通路-疾病关系0-1矩阵，计算得到基于疾病表型的通路相似性矩阵。

其中，所述通路-疾病关系矩阵指通路-疾病关系的0-1矩阵，如果一条通路与已知的疾病存在对应联系，则用1表示，否则用0表示，这样可以得到通路-疾病的关系矩阵。

B2：计算通路相关靶标蛋白序列相似性

通路相关蛋白序列相似性为基于通路空间中通路相关的靶标蛋白序列的相似性。本发明可以从Uniprot数据库中找到通路联系的蛋白质序列，并把这些序列进行序列比对，然后找出最相似的那一条序列用于表示这条通路，其因为一条通路基本情况下对应一条蛋白质序列。最后通过公式(3)计算出两条通路相关的蛋白序列的相似性，这样得到的结果即为所有通路相互关联的蛋白质序列相似性的集合。蛋白质序列可以通过序列比对算法得到，序列比对的含义就是度量元素间相似性的尺度。并运用公式(3)来计算两条通路之间的蛋白序列相似性；

公式(3)为两个蛋白序列R和T基于一个概率模型来计算靶标蛋白的序列相似性的计算方法；R^[i]，T^[j](0≤i≤|R|，0≤j≤|T|)表示两个蛋白质序列，且都属于本发明所述所整理的所有通路相关的蛋白质序列的字符集，那么，对于字符集中的元素或空的字符，并用σ表示两个蛋白序列的相似性得分，F(i,j)表示蛋白序列R的前缀和序列T的前缀之间的最优相似性的比较得分，从而可以得到蛋白质序列的得分矩阵，最后结合通路-蛋白质关系矩阵，计算得到S_p作为通路中有关蛋白序列相似性的矩阵。

其中，所述蛋白质序列的得分矩阵指本发明可以从Uniprot数据库中找到通路联系的蛋白质序列，并把这些序列进行序列比对，然后找出最相似的那一条序列用于表示这条通路，其因为一条通路基本情况下对应一条蛋白质序列。最后通过公式(3)计算出两条通路之间的蛋白序列的相似性，所述的公式是指各疾病类型相关的所有通路的蛋白质序列相似性，并结合通路-蛋白质序列矩阵，，计算得到基于蛋白质序列的通路相似性矩阵，即计算所得到的得分结果即为所有通路相互关联的蛋白质序列相似性矩阵。

其中，所述通路-蛋白质关系矩阵是指通路-蛋白质关系的0-1矩阵，如果一条通路与靶标蛋白存在对应联系，则本发明用1表示，否则用0表示，这样本发明可以得到通路-蛋白质的关系矩阵。即，假设一条通路对应一个蛋白质序列，这样本发明称为它们之间有对应关系，则用1表示，否则，用0表示，这样可以得到各疾病类型的相关通路-蛋白质序列的标签0-1矩阵。

其中，所述序列比对算法指在生物信息处理中，本发明找出两条序列R和T之间具有的某种相似性关系，这种寻找生物序列相似性关系的算法即序列比对算法。本发明利用两个序列之间的字符差异来测定序列之间的相似性，两条序列中相应位置的字符如果差异大，那么序列的相似性低，反之，序列的相似性就高。

步骤2：构建药物-通路预测模型

C1：建模并预测

通过计算得到药物的特征矩阵S_d，其是药物的化学子结构特征S_mol与药物的SMILES字符串信息特征S_tf的线性组合，可以用公式(4)计算得到：

S_d＝0.5*S_mol+0.5*S_tf 公式(4)

通路的特征矩阵S_y，其是基于疾病表型的通路特征S_mt与基于蛋白质序列的通路特征S_p的线性组合，可以用公式(5)计算得到：

S_y＝0.5*S_mt+0.5*S_p 公式(5)

以及药物-通路关系标签矩阵，将三者(三种矩阵)结合构建异构网络模型，并运用深度信念网络方法对心血管类药物-通路和神经系统类药物-通路的异构网络模型进行药物-通路关系预测，从而分别得到各疾病类型模型(如心血管类和神经类系统模型)所对应的AUC值，概率分布预测值和参数分布情况。

其中，所述药物-通路关系标签矩阵是指，首先把药物看成一个样本，如果一个药物已知与一条通路相互作用，本发明则用1表示，否则用0表示，这样本发明可以得到心血管疾病的230*64维的药物-通路关系的0-1标签矩阵，神经系统类疾病的262*56维的药物-通路关系的0-1标签矩阵。

其中，所述异构网络模型指心血管疾病的药物的230*230维相似性矩阵，通路的64*64维相似性矩阵以及药物-通路的230*64维关系矩阵，这三者结合可以构成以药物，通路作为顶点，药物-通路关系作为边，构成了14720个关系的无向图，然而本发明得到的正样本仅为572个，即为有已知相互作用的药物-通路关系对，剩下的为未知的药物-通路关系(负样本)，这样会造成正负样本不平衡，因此，本发明从负样本中随机挑选572个关系对，这样构成的1144个关系对模型即为本发明的异构网络模型。

其中，所述深度置信网络方法是一种生成模型，通过训练其神经元间的权重，可以让整个神经网络按照最大概率来生成训练数据。它是由多个限制玻尔兹曼机(restrictedBotlzmannmachine,RBM)组成的多隐含层神经网络，通过RBM的逐层堆叠，DBN模型可从原始数据中逐层提取特征，获得一些高层次表达。本发明通过同类疾病的药物-通路关系，可以对具有同类疾病的药物-通路相互作用关系进行预测，同时也对未分类的疾病的药物-通路相互作用关系进行预测，通过结果可以突出本发明分类的必要性，以及运用DBN-DPI算法的有效性。

本发明还提出了所述基于异构网络的GPCR药物和靶向通路的预测方法的生物学用途，可以用于预测出药物所作用的通路，用于药物-通路相关性评估及临床患者用药参考等用途。

本发明具有以下优点：1)多样化的特征可能会带来更全面的信息，同时也带来了噪音，问题的关键是如何对特征进行选择。本发明融合了药物的化学结构特征、SMILES字符串信息特征和通路相关疾病的表型特性特征、通路相关蛋白序列特征。特征融合的预测模型可以取得比较好的性能和预测结果，因此，本发明方法对应的AUC、概率分布预测值较对比的伯努利贝叶斯(BNB)、决策树(DT)和基于图的半监督学习算法(GBSSL)方法更高。2)新加入的SMILES字符串信息作为药物的特征，使模型比以往的特征融合方法的性能和预测结果均较好。

附图说明

图1为本发明基于异构网络模型的GPCR药物和靶向通路预测流程图；

图2为本发明与其它三种方法相比较的ROC曲线图；

图3为本发明与其它两种方法相比较的概率分布预测图；

图4为本发明中基于异构网络的深度置信网络方法的参数图；

图5为本发明在三种数据集的spearman相关性比较结果图；

图6为本发明对2017年上市的GPCR药物中的某种药物的预测结果图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明包括：

(1)构建药物特征矩阵

GPCR数据库是当前最重要的药物靶标数据库之一，目前GPCR数据库中包含有800多个GPCR药物。研究GPCR数据库不仅对探究药物的药理和疾病的病理过程具有理论意义，而且对GPCR创新药物的开发具有指导意义。

本发明整合了GPCR数据库中的所有药物，首先把治疗同类疾病的药物进行分类，从而得到神经系统类疾病的药物262个和通路56条，心血管疾病的药物230个和通路64条。接着分别整合药物的化学子结构特征，药物的SMILES字符串信息特征和通路相关的疾病表型特性特征和通路相关的靶标蛋白序列特征。通过计算前述四种特性特征的相似性，能够进一步为药物-通路预测挖掘特征之间的潜在信息。

药物的化学特性相似性主要是基于药物的化学子结构来计算。两个药物之间的相似性分数是由基于它们的指纹信息结构的Tanimoto score得分计算得到的，每个药物都有881位化学子结构的化学指纹信息，649位有效位，从而利用Chemical DevelopmentKit(化学开发包)即可获得两个药物的化学指纹相似性，这相当于两个药物的指纹的Jaccardscore。因此，两个药物d_i和d_j之间的化学相似性的计算方法如公式(1)，其中Structure_mol(d)代表药物化学子结构指纹谱的有效位。

药物的SMILES字符串信息相似性使用基于文本挖掘中的TF-IDF算法来计算。首先本发明通过KEGG数据库中的药物找到PubChem数据库中药物的CID，这些药物的CID提供了其化学结构的SMILES字符串信息，然后本发明提取这些药物的分子和化学特性(由SMILES字符串指定)的TF-IDF相似性度量。SMILES字符串相似度是SMILES字符串信息本身之间的相似性，其主要通过文本挖掘的TF-IDF算法计算得到。基于文本挖掘的TF-IDF算法可以由式(2)表示：

公式(2)为基于文本挖掘的TF-IDF算法的SMILES字符串信息相似性的计算方法。这里的w表示某个SMILES字符串信息，其中分母加1是为了防止分母为0。从上式中可以看出，TF-IDF算法倾向于过滤掉无用的SMILES字符串信息，保留重要的SMILES字符串信息。在这里本发明用S_tf表示药物的SMILES字符串信息特征，并以此作为新加入的药物特征矩阵。

(2)构建通路特征矩阵

通路相关疾病的表型特性相似性为基于通路空间中药物可治疗的疾病或适应症的相似性。本发明使用Van等人提出的方法计算疾病的表型相似性，通过疾病ID可以得到相应的MeSH ID，最后得到每种疾病涉及的MeSH实体属性，进而通过基于MeSH语义分析的方法计算通路中相关疾病的表型相似性，并结合通路-疾病关系，计算得到S_mt作为通路的疾病表型的相似性矩阵。

通路相关蛋白序列相似性为基于靶标蛋白序列的相似性，本发明从Uniprot数据库中找到蛋白质序列。把这些序列与通路中相关的蛋白质序列进行比对，找出最相似的序列用于表示这条通路。最后通过一定公式计算出两条通路之间的相似性，这样得到的结果即为所有通路相互关联的蛋白质序列相似性的集合。蛋白质序列可以通过序列比对算法得到，序列比对的含义就是度量元素间相似性的尺度。并使用公式(3)来计算任意两个通路之间的蛋白序列相似性；

公式(3)为两个蛋白序列R和T基于一个概率模型来计算靶标蛋白的序列相似性的计算方法；R^[i]，T^[j](0≤i≤|R|，0≤j≤|T|)表示两个蛋白质序列，且都属于某个字符集，对于字符集中的元素和空字符，σ表示两个序列的相似性得分的记分值，F(i,j)表示序列R的前缀和序列T的前缀之间的最优相似性比较得分，从而本发明可以得到蛋白质序列的得分矩阵，然后结合通路-蛋白质关系，计算得到S_p作为通路的蛋白序列相似性矩阵。

(3)药物-通路预测模型

一般来说，药物的结构功能特征越相似，药物越倾向于有着共同的作用机制，进而有着相同的作用通路。因为一个药物不止与一条通路相互联系，实际上它们是通过一系列的相互联系可以构成异构网络模型，本发明方法定义为“基于药物-通路关系异构网络模型的深度置信网络方法”(Deep Belief Network Based on Drug-Pathway InteractionsHeterogeneous Network，DBN-DPI)。

深度置信网络(DBN)是深度神经网络当中较为重要的学习网络模型。当作为非监督学习时，可以看作一个自编码机；当作为监督学习时，可以看作成一个分类器。如果在没有监督的情况下训练样本，DBN可以通过概率学习重建其输入，其中每个子网络的隐藏层作为下一个网络的可见层，并将这些可见层与隐藏层之间的变换作为特征检测器。在这个学习完成之后，可以进一步训练DBN并进行分类。在深度信念网络学习中，DBN可看作为生成图形模型，其由众多层潜在变量组成。然而考虑到神经网络的组成部分，神经元是非常重要的。众多层的神经元组成了DBN，而DBN的组成元件主要由受限玻尔兹曼机(RBM)组成，RBM是一种无向的且基于能量函数的生成模型。对于只有单层的RBM训练来说，其可见层主要用来接收输入的信号，隐含层用来提取特征，这样单层的RBM可以通过无监督学习来找到所研究问题的最佳特征。DBN方法导致了快速的、逐层的无监督训练过程，从“最低”层(最低可见层是训练集)开始，并将对比分歧算法，这里的对比分歧算法是指Hinton提出了高效的训练RBM的算法——对比分歧(Contrastive Divergence,CD)算法，其包括正相位与负相位进行对比，其中正相位需要一个输入样本v赋给输入层；v以前馈神经网络中相类似的规则被传输到了隐藏层，隐藏层最终激活的结果是h。负相位需要将h反向传播到可见层得到结果v’(在隐藏层与可见层之间的连接是无向的，所以两个方向之间的移动都是可以进行的。)并将新的v’反向传播给隐藏层得到激励结果h’，然后依次运用到每个子网络中。DBN贪婪地对药物-通路异构网络模型进行训练，一次一层，形成了一个有效的深度神经网络算法，即DBN-DPI算法。

在一具体实施方式中，得到所述深度置信网络的方法的步骤包括：

假设给定一个训练好的RBM，且有n个可见单元和m个隐层单元，那么其能量函数由公式(7)可以定义：

公式(7)中的v和h分别为显示层和隐含层的状态，a_i表示为可见单元i的偏置，b_j表示为隐含单元j的偏置，W_ij表示从第i个显元到第j个隐元之间的权重，n表示显元的个数，m表示隐元的个数。

当把输入数据传输给显示层后，RBM将根据W权值来决定是否应该开启或关闭隐元。其具体的操作主要如下：首先，将每个隐元的激励值计算出来，然后将每个隐元的激励值用Sigmoid函数进行标准化，变成它们所处于的开启状态(用1表示)的概率值，基于此最后开启或关闭相应的隐元。各个神经元在开启状态下的条件概率可以通过下列公式(8)得到：

相应地，可以得到各个神经元在关闭状态下的条件概率：

其中：

σ(x)＝1/(1+exp(-x)) 公式(10)

由于RBM的状态符合正态分布的形式，所以在显元状态时，各隐元的激活条件独立，反之在隐元状态时，各显元的激活条件独立。RBM的训练目的就是找到模型中的最佳权值W，因此这里本发明运用Hinton提出的CD(对比分歧算法来获得最佳的权值)算法。CD算法在开始使用训练数据时需对显层初始化，然后用条件分布计算隐层，再根据隐层，用条件分布计算显层，依次进行，这样产生的结果是对输入数据的一个重构。CD算法可以用公式(11)简单表示：

ΔW_ij＝ε(<v_ih_j>_data-<v_ih_j>_recon) 公式(11)

公式(11)中的ε是学习率，data部分是样本数据的期望，recon部分是重构后可视层数据的期望。

深度学习的实质是结合构建的低层特征构包含众多隐含层的模型，从而形成属性或特征较为抽象的高层。DBN算法可以从学习的图论模型中提取训练样本的特征。其模型训练样本向量x与y之间的联合分布隐含层如公式(12)所示：

公式(12)中的x＝h⁰，P(h^k-1|h^k)代表的是第k层的条件概率分布，它是以RBM的隐含层作为前提的可见单元，P(h^y-1，h^y)代表的是最高层中RBM的联合概率分布。

随着隐藏层的数目不断地增加，这样得到了DBM—深度玻尔兹曼机，目的是为了与RBM不同，DBM有几层潜变量(RBM只有一层)。但是像RBM一样，每一层内的每个变量是相互独立的，并条件于相邻层中的变量。在接近可见层范围使用深度学习网络模型，在距离可见层最远的范围，使用RBM，这样本发明可以得到DBN，其在训练学习时分为两个主要部分：第一部分：对每一层RBM网络进行单独的无监督学习训练，使特征矩阵得以映射到不同特征空间中，并保留更多的特征信息；第二部分：通过BP网络的设置，保证最后一层的DBN的输入特征向量为此时RBM的输出向量。并且为使此层特征向量的映射空间为最优空间向量，需要对每一层的RBM网络设定权值，然而此时的最优空间向量并不是整个DBN网络的映射空间向量，因此BP反向传播网络还需要将得到的信息从上到下传播给每一层的RBM网络，并且把整个DBN网络进行微调。训练学习中第一部分在深度学习中叫做预训练，第二部分叫做微调。

无监督的训练过程如下：

1.使用随机生成器初始化参数W，a，b；

2.将第一层和第二层训练为RBM。使用原始输入向量x作为其可见层；

3.将第二层和第三层作为RBM训练，将第二层作为可见层并获得第三层的表示。重复上两步不断迭代所需的层数。

一般来说，增加隐含层的层数不仅可以降低网络训练时的误差，而且可以提高实验结果的精确度，但也会使网络变为更加复杂，从而会使训练时间的增加和“过拟合”现象的产生。在本发明中，本发明构建的神经网络为隐含层为2层的神经网络。通常，依靠隐含层节点数可以得到较低的误差，其训练效果要比增加隐含层数更容易实现。确定隐含层节点数的最基本原则是：在满足精确度的前提下取尽可能少的隐含层节点数。隐含层节点数必须小于N-1(N为训练样本数)，即在本发明中，心血管系统疾病的训练样本数为1030，输入层设为1000维，输出层设为20维，中间的两个隐含层节点数分别为100，40；神经系统类疾病的训练样本数为974，把输入层设为950维，输出层设为20维，中间的两个隐含层节点数分别为100，40。

受监督的微调过程如下：

1.使用DBN的最后一层的隐藏层的输出作为逻辑回归分类器(LR)的输入；

2.通过DBN对数似然成本的监督SGD微调所有RBM和LR参数。

以下通过加入SMILES字符串信息特征作为新特征的比较实验，以及与BNB，DT，GBSSL三种经典方法的比较实验，检测本发明方法预测药物-通路相互作用关系的有效性。

比较例1

与不同特征模型下的AUC值比较如表I所示，DBN-DPI方法整合了四种特性的异构特征数据时的AUC值较使用其它三种特征相结合的AUC值要略高，而且加入新的SMILES字符串信息特征的预测性能比未加入新特征的要好。每个算法使用四种特征结合的ROC曲线如图2所示。

表I不同特征模型下的AUC值

其中，S_mol为药物的原有相似性特征，加入的SMILES字符串信息特征作为药物的新特征，并用S_tf表示SMILES字符串信息特征；通路的相似性特征用S_mt与S_p表示。从表中可以看出，在通路相似性矩阵的条件下，加入S_tf比加入S_mol的AUC值提高6％左右，两者都加入的效果只提高了0.4％左右，这说明加入新特征的方法在两类数据集上都有更好的表现，因此，SMILES字符串信息特征对于DPI的预测效果有促进作用。

比较例2

与BNB，DT，GBSSL预测的AUC分值比较

用ROC曲线将DBN-DPI方法与其它三种预测方法进行比较，包括伯努利贝叶斯(BNB)、决策树(DT)和基于图的半监督学习算法(GBSSL)。本发明选择了基于伯努利贝叶斯的集成方法，它在生物信息学研究中常用于通过基因对药物-通路相互作用预测的分析。同时本发明还使用决策树算法，它是一种经典的分类模型算法，常用来实现药物-靶标相互作用关系的预测。基于图的半监督学习算法常被用来预测DPI。这四种方法对应的ROC曲线如图2所示。ROC曲线中的曲线较深的算法代表DBN-DPI方法，从图中可以看出，该方法的曲线处于其它方法的上方，且曲线下的面积大于其他方法，因此本发明所使用的算法的预测结果要比其它三种方法好。

比较例3

与BNB，GBSSL的概率分布预测值比较

在心血管类疾病的药物-通路数据集中，可以得到230个GPCR药物，64条通路，且这些药物和通路之间存在14720个作用对，其中已知的作用对有572个；在神经系统类疾病的药物-通路数据集中，可以得到262个GPCR药物，56条通路，这些药物和通路之间存在14672个作用对，其中已知的作用对有541个。由于未知的作用对的数量要远高于已知的作用对的数量，会导致正负样本不平衡，所以本发明随机挑选未知的药物-通路相互作用对，这样得到心血管疾病的样本为1144个，神经系统类疾病的样本为1082个。接着，本发明把这些已知的药物-通路关系作为标签，并运用BNB，GBSSL和DBN-DPI方法来预测其概率分布情况，结果如图3所示。概率预测值越大，代表药物-通路对预测的性能越高。由于DT是单个树模型，因此无法计算概率分布预测值，其结果未在图中显示。从图3可以看出，BNB和DBN-DPI方法预测的概率值趋向于0.1或1，而GBSSL方法趋向于0.4。如果本发明将实验中的药物-通路对的预测概率的阈值设为0.9，则DBN-DPI在此两个数据集中获得最佳的概率预测值(远高于BNB和GBSSL)。

比较例4

不同参数下的AUC比较

DBN-DPI算法中有三个重要参数：a(可见单元偏置)，b(隐含单元偏置)以及w(可见单元到隐含单元的权重)。本发明的数据集包含四个特征，它们是有关药物和通路的不同特征信息，因此本发明在最优整合特征下调整DBN-DPI的参数。在建立了药物-通路异构网络模型的基础上，本发明运用深度信念网络方法并用10重交叉验证来评估本发明的模型。由于可见单元到隐藏单元的权重w不是人为设定的，并且本发明已用CD算法获取，因此这里本发明仅考虑参数a，b并对其进行微调。如图4所示，本发明完成了DBN-DPI模型参数的优化。

比较例5

不同数据集的Spearman相关性比较

GPCR数据库中除了心血管疾病药物和神经系统疾病药物，其它的药物数目较少，因此本发明把它们归为一类，可以得到167个GPCR药物，53条通路，这些药物和通路之间存在8851个相互作用关系，其中已知的相互作用对为850个。

在模型学习中评价两组数据之间的相关性方法，主要有皮尔森(Pearson)相关系数、斯皮尔曼(Spearman)相关系数和肯德尔(Kendall)相关系数。这里本发明采用Spearman相关系数来评价药物-通路之间的相关性。本发明把此数据集与心血管类疾病的药物-通路数据集，神经系统类疾病的药物-通路数据集作比较。在这三种数据集中，分别随机挑选60组数据，并将DBN-DPI模型用于挑选出的数据集，预测结果的概率得分通过Spearman相关系数进行分析。如图5显示了三种数据集的DPI预测的性能。从图5中可以看出，基于某类特定疾病的药物-通路预测性能(Spearman相关性)要明显高于综合疾病的药物-通路预测性能。

(3)预测结果的验证

本发明根据GPCR的药物数据构建心血管类药物-通路和神经系统类药物-通路的异构网络。药物-通路异构网络上的药物和通路潜在相互作用关系可以通过DBN-DPI推断。实验结果表明，DBN-DPI方法在挖掘潜在的药物-通路对中是有效的。表II和表III显示了GPCR数据库中关于药物-通路相互作用关系预测的前5种药物，本发明从KEGG数据库中发现这些药物，并表明这些药物可以作用于一定的通路，根据药物的相似性，GPCR数据库中未上市的药物，有更大的可能性在未来成为GPCR新药物，这些新的药物-通路关系对可用于后续的功能研究。

表II新预测的心血管类疾病的药物-通路相互作用对Top 5

表III新预测的神经系统类疾病的药物-通路相互作用对Top 5

据统计，2017年有8种GPCR药物上市。在这8种GPCR药物中，有3种药物可用于治疗神经系统类疾病。这一结果表明，GPCR数据中神经系统类疾病药物的分析和DPI的预测对于GPCR药物预测具有重要意义。本发明发现这3种新的GPCR上市的药物，其化学结构类似于本发明已知的262种药物。如图6所示，从图6中看到已知药物(D00059)的二维结构类似于新的GPCR药物(D01277)二维化学结构。圆框代表相似的部分，本发明发现药物D00059与疾病H00057具有已知的对应关系，然后药物D01277和药物D00059基于相同的疾病。这也在一定程度上验证了本发明结果的可靠性。

大量的GPCR数据实验结果表明，该方法不仅预测精度高，鲁棒性好，而且可以成功预测出药物所作用的通路，加入文本挖掘方法的TF-IDF算法作为计算药物SMILES字符串信息的处理方法，并通过同类型疾病的关系尝试运用深度信念网络来预测药物-通路的相互作用关系，实验结果表明使用DBN-DPI方法可以得到有意义的预测结果。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于异构网络模型的GPCR药物和靶向通路预测方法，其特征在于，所述预测方法包括以下步骤：

步骤1：构建药物和通路特征矩阵

构建药物特征矩阵

A1：计算药物的化学子结构相似性

药物的化学特性相似性是基于药物的化学子结构的相似性；首先，化学子结构从KEGG数据库中获得，然后运用公式(1)来计算两个药物之间的化学特性相似性，得到化学特性相似性矩阵S_mol；

公式(1)为两个药物d_i和d_j之间的化学子结构相似性的计算方法，其化学子结构从KEGG数据库得到，且用0或1表示化学指纹信息的每一维载体，最终每个药物可以得到881维载体，Structure_mol(d)代表药物化学子结构指纹信息的有效位，相当于两个药物指纹的Jaccard score值；

A2：计算药物的SMILES字符串信息相似性

药物的SMILES特征，它主要用来描述药物的字符串结构规范；首先，通过KEGG数据库中的药物找到PubChem数据库中药物的CID，这些药物的CID提供了其化学结构的SMILES字符串信息，然后，得到这些药物的SMILES字符串信息，并用TF-IDF方法度量其相似性；SMILES字符串相似度是SMILES字符串信息本身之间的相似性，其主要通过文本挖掘的TF-IDF算法计算得到；基于文本的TF-IDF方法可以通过公式(2)表示：

公式(2)为基于文本挖掘的TF-IDF算法计算得到的SMILES字符串信息相似性方法；w表示某个SMILES字符串信息，其中分母加1是为了防止分母为0；TF-IDF算法倾向于过滤掉无用的SMILES字符串信息，保留重要的SMILES字符串信息；采用S_tf表示药物的SMILES字符串信息特征，并以此作为新加入的药物特征矩阵；

构建通路特征矩阵

B1：计算通路相关疾病的表型相似性

通路相关疾病的表型特性相似性为基于通路空间中药物可治疗的疾病或适应症的相似性；计算疾病的表型相似性，首先通过疾病ID可以得到对应MeSH数据库中的MeSH ID，然后提取每种疾病涉及的MeSH实体属性，接着根据MeSH语义分析的方法来计算通路中相关疾病的表型特征相似性，最后结合通路-疾病关系矩阵，计算得到S_mt作为通路的疾病表型的相似性矩阵；

B2：计算通路相关蛋白序列相似性

通路相关蛋白序列相似性为基于通路空间中通路相关的靶标蛋白序列的相似性；从Uniprot数据库中找到通路联系的蛋白质序列，并把这些序列进行序列比对，然后找出最相似的那一条序列用于表示这条通路；最后通过公式(3)计算出两条通路相关的蛋白序列的相似性，得到的结果为所有通路相互关联的蛋白质序列相似性的集合；蛋白质序列可以通过序列比对算法得到，序列比对的含义就是度量元素间相似性的尺度；并可以运用公式(3)来计算两条通路之间的蛋白序列相似性；

公式(3)为两个蛋白序列R和T基于一个概率模型来计算靶标蛋白的序列相似性的计算方法；R^[i]，T^[j](0≤i≤|R|，0≤j≤|T|)表示两个蛋白质序列，且都属于所有所述通路相关的蛋白质序列的字符集；对于字符集中的元素或空的字符，并用σ表示两个蛋白序列的相似性得分，F(i,j)表示蛋白序列R的前缀和序列T的前缀之间的最优相似性的比较得分，从而可以得到蛋白质序列的得分矩阵，最后结合通路-蛋白质序列关系矩阵，计算得到S_p作为通路中有关蛋白序列相似性的矩阵；

步骤2：构建药物-通路预测模型

C1：建模并预测

通过计算得到药物的特征矩阵S_d，其是药物的化学子结构特征S_mol与药物的SMILES字符串信息特征S_tf的线性组合，用公式(4)计算得到：

S_d＝0.5*S_mol+0.5*S_tf 公式(4)

S_y＝0.5*S_mt+0.5*S_p 公式(5)

以及药物-通路关系标签矩阵，将三种矩阵结合构建异构网络模型，并运用深度置信网络方法对药物-通路的异构网络模型进行药物-通路关系预测，从而分别得到各疾病类型模型所对应的AUC值，概率分布预测值和参数分布情况。

2.如权利要求1所述的预测方法，其特征在于，步骤1中的B1中，MeSH语义分析的方法为：首先，通过各疾病类型的ID得到其对应于MeSH数据库中的MeSHID，然后提取每种疾病涉及的MeSH实体属性，接着根据MeSH实体属性进行分析，计算实体属性之间字符串匹配的字符之间的相似性，以此作为通路中相关疾病的表型特征相似性，最后，结合通路-疾病关系0-1矩阵，计算得到基于疾病表型的通路相似性矩阵。

3.如权利要求1所述的预测方法，其特征在于，步骤1中的B2中，通过公式(3)计算出两条通路之间的蛋白序列的相似性，所述公式(3)是指各疾病类型相关的所有通路的蛋白质序列相似性，并结合通路-蛋白质序列矩阵，计算得到基于蛋白质序列的通路相似性矩阵。

4.如权利要求1所述的预测方法，其特征在于，步骤1中的B2中，所述通路-蛋白质关系矩阵是指通路-蛋白质关系的0-1矩阵，如果一条通路与靶标蛋白存在对应联系，则本发明用1表示，否则用0表示，这样本发明可以得到通路-蛋白质的关系矩阵。

5.如权利要求1所述的预测方法，其特征在于，步骤1中的B2中，药物相关的各疾病类型的基于通路的蛋白质序列相似性矩阵，计算过程如下：首先计算出心血管疾病和神经系统类疾病相关通路的蛋白质序列相似性矩阵S_q，然后计算相关通路-蛋白质序列的标签0-1矩阵S_{pathway-protein}，然后通过公式(6)可以计算得到基于蛋白质序列的通路相似性矩阵

S_p＝S_q*S_{pathway-protein} 公式(6)

6.如权利要求1所述的预测方法，其特征在于，步骤2中，所述得到所述深度置信网络的方法包括以下步骤：

假设给定一个训练好的RBM，且有n个可见单元和m个隐层单元，那么其能量函数

公式(7)中的v和h分别为显示层和隐含层的状态，a_i表示为可见单元i的偏置，b_j表示为隐含单元j的偏置，W_ij表示从第i个显元到第j个隐元之间的权重，n表示显元的个数，m表示隐元的个数；

当把输入数据传输给显示层后，RBM将根据W权值来决定是否应该开启或关闭隐元；其具体的操作主要如下：首先，将每个隐元的激励值计算出来，然后将每个隐元的激励值用Sigmoid函数进行标准化，变成它们所处于的开启状态的概率值，基于此最后开启或关闭相应的隐元；各个神经元在开启状态下的条件概率可以通过下列公式得到：

相应地，可以得到个神经元在关闭状态下的条件概率：

其中：

σ(x)＝1/(1+exp(-x)) 公式(10)

由于RBM的状态符合正态分布的形式，所以在显元状态时，各隐元的激活条件独立，反之在隐元状态时，各显元的激活条件独立；RBM的训练目的就是找到模型中的最佳权值W，因此运用Hinton提出的CD算法；CD算法在开始使用训练数据时需对显层初始化，然后用条件分布计算隐层，再根据隐层，用条件分布计算显层，依次进行，这样产生的结果是对输入数据的一个重构；CD算法可以用公式(11)表示：

ΔW_ij＝ε(<v_ih_j>_data-<v_ih_j>_recon) 公式(11)

公式(11)中的ε是学习率，data部分是样本数据的期望，recon部分是重构后可视层数据的期望；

深度学习的实质是结合构建的低层特征构包含众多隐含层的模型，从而形成属性或特征较为抽象的高层；DBN算法可以从学习的图论模型中提取训练样本的特征；其模型训练样本向量x与y之间的联合分布隐含层如公式(12)所示：

公式(12)中的x＝h⁰，P(h^k-1|h^k)代表的是第k层的条件概率分布，它是以RBM的隐含层作为前提的可见单元，P(h^y-1，h^y)代表的是最高层中RBM的联合概率分布；

随着隐藏层的数目不断地增加，这样得到了DBM——深度玻尔兹曼机；在接近可见层范围使用深度学习网络模型，在距离可见层最远的范围，使用RBM，这样得到DBN。

7.如权利要求6所述的预测方法，其特征在于，所述深度学习网络模型在训练学习时分为两个主要部分：第一部分：对每一层RBM网络进行单独的无监督学习训练，使特征矩阵得以映射到不同特征空间中，并保留更多的特征信息；第二部分：通过BP网络的设置，保证最后一层的DBN的输入特征向量为此时RBM的输出向量；并且为使此层特征向量的映射空间为最优空间向量，需要对每一层的RBM网络设定权值，然而此时的最优空间向量并不是整个DBN网络的映射空间向量，因此BP反向传播网络还需要将得到的信息从上到下传播给每一层的RBM网络，并且把整个DBN网络进行微调；训练学习中第一部分在深度学习中叫做预训练，第二部分叫做微调。

8.如权利要求7所述的预测方法，其特征在于，所述无监督的训练过程如下：

(1)使用随机生成器初始化参数W，a，b；

(2)将第一层和第二层训练为RBM；使用原始输入向量x作为其可见层；

(3)将第二层和第三层作为RBM训练，将第二层作为可见层并获得第三层的表示；重复上两步不断迭代所需的层数。

9.如权利要求7所述的预测方法，其特征在于，所述受监督的微调过程如下：(1)使用DBN的最后一层的隐藏层的输出作为逻辑回归分类器(LR)的输入；(2)通过DBN对数似然成本的监督SGD微调所有RBM和LR参数。

10.如权利要求1所述的预测方法在预测药物所作用的通路，用于药物-通路相关性评估中的应用。