CN108647487A - G蛋白偶联受体-配体相互作用关系的预测方法及预测系统 - Google Patents
G蛋白偶联受体-配体相互作用关系的预测方法及预测系统 Download PDFInfo
- Publication number
- CN108647487A CN108647487A CN201810329690.3A CN201810329690A CN108647487A CN 108647487 A CN108647487 A CN 108647487A CN 201810329690 A CN201810329690 A CN 201810329690A CN 108647487 A CN108647487 A CN 108647487A
- Authority
- CN
- China
- Prior art keywords
- receptor
- ligand
- network
- relationship
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 121
- 230000003993 interaction Effects 0.000 title claims abstract description 74
- 101800004866 G protein-coupled receptor ligand Proteins 0.000 title claims abstract description 24
- 239000003446 ligand Substances 0.000 claims abstract description 209
- 102000005962 receptors Human genes 0.000 claims abstract description 73
- 108020003175 receptors Proteins 0.000 claims abstract description 73
- 102000016978 Orphan receptors Human genes 0.000 claims abstract description 50
- 108070000031 Orphan receptors Proteins 0.000 claims abstract description 50
- 239000011159 matrix material Substances 0.000 claims description 26
- 238000010276 construction Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000007637 random forest analysis Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 5
- 150000001875 compounds Chemical class 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 3
- 102000003688 G-Protein-Coupled Receptors Human genes 0.000 abstract description 35
- 108090000045 G-Protein-Coupled Receptors Proteins 0.000 abstract description 35
- 230000000694 effects Effects 0.000 abstract description 6
- 238000002474 experimental method Methods 0.000 abstract description 4
- 108091008880 orphan GPCRs Proteins 0.000 abstract description 4
- 238000013459 approach Methods 0.000 abstract description 2
- 230000004071 biological effect Effects 0.000 abstract description 2
- 230000002452 interceptive effect Effects 0.000 abstract 1
- 102000004169 proteins and genes Human genes 0.000 description 11
- 108090000623 proteins and genes Proteins 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 239000013078 crystal Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000002790 cross-validation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- 101001086405 Bos taurus Rhodopsin Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003596 drug target Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000003834 intracellular effect Effects 0.000 description 2
- 238000003032 molecular docking Methods 0.000 description 2
- 238000011410 subtraction method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 102000008186 Collagen Human genes 0.000 description 1
- 108010035532 Collagen Proteins 0.000 description 1
- 108091006027 G proteins Proteins 0.000 description 1
- 102000030782 GTP binding Human genes 0.000 description 1
- 108091000058 GTP-Binding Proteins 0.000 description 1
- 108010052285 Membrane Proteins Proteins 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000002441 X-ray diffraction Methods 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 210000004899 c-terminal region Anatomy 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 229920001436 collagen Polymers 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 230000004064 dysfunction Effects 0.000 description 1
- 239000006274 endogenous ligand Substances 0.000 description 1
- 238000007636 ensemble learning method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 208000030159 metabolic disease Diseases 0.000 description 1
- 230000004770 neurodegeneration Effects 0.000 description 1
- 208000015122 neurodegenerative disease Diseases 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 101150040063 orf gene Proteins 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004850 protein–protein interaction Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明公开了一种基于多信息整合的G蛋白偶联受体(GPCR)‑配体相互作用的预测方法,其包括:构建非孤儿受体的G蛋白偶联受体‑配体相互作用网络结构图;将孤儿受体与非孤儿受体之间的受体‑受体关系嵌入到所述受体‑配体关系网络中,基于网络中节点之间的距离关系;构建受体‑配体作用对的特征关系,结合集成学习方法,实现了对受体‑配体潜在关系的有效预测。本发明方法针对GPCR及其配体的生物学特征,建立并实现适合G蛋白偶联受体‑配体相互作用关系的预测以及孤儿GPCR潜在配体的预测,实验表明该方法预测效果好,有较为广泛的应用前景。本发明还公开了一种基于多信息整合的G蛋白偶联受体(GPCR)‑配体相互作用的预测系统。
Description
技术领域
本发明涉及生物技术领域,具体涉及一种预测G蛋白偶联受体-配体相互作用关系的方法及其生物学用途。
背景技术
G蛋白偶联受体(G-protein coupledreceptor,GPCR)是目前最大的跨膜蛋白质超家族。G蛋白偶联受体的蛋白质结构包括七个跨细胞膜的α螺旋区域(TM),一个细胞内的碳端区域(C terminal),一个细胞外的氮端区域(N terminal),三个细胞内环区域(ICL),三个细胞外环区域(ECL)。G蛋白偶联受体普遍存在于人体中,广泛地参与了人的生理系统的各个调节过程,其功能异常是导致包括心血管疾病、肿瘤、代谢性疾病和神经变性疾病等重大疾病的主要机制。与此同时,GPCRs也是目前制药行业重要的药物靶点,由826个成员组成,目前40%以上的上市药物以GPCR为靶点。然而目前在市场上的药物只针对了其中的一百多个GPCRs,这只是整个GPCR家族的很小部分,所以有很大一部分的GPCRs都有可能成为新的药物靶标。因此,找到上述GPCRs的潜在配体对于药物研发具有重要的实际应用价值。
现阶段,由于GPCRs和其它膜蛋白一样,不太容易得到晶体,很难利用X射线衍射或NMR等技术得到它们的三维空间结构,因此对GPCR晶体结构解析方面的挑战一直限制了针对这些靶点结构的药物设计。所以传统的分子对接技术在解析受体-配体关系上受到了限制。虽然有些研究人员利用同源建模的方法,用已知的牛视紫红质的晶体结构作为模板,然后对这些模型化的结构进行大规模分子对接,进而识别新的受体-配体关系。但是这种方法仍然存在准确率低的问题,而且这些方法只是适合于家族A的GPCRs,对于家族B,C,D的GPCRs由于和牛视紫红质的序列相似性比较低而不能够得到广泛的应用。此外,考虑到传统生物学实验手段的过程比较耗时和费力,因此迫切需要开发有效的计算方法实现对G蛋白偶联受体-配体相互作用关系的预测。目前结合机器学习和统计学知识的方法在预测受体-配体关系上得到了广泛的应用,也取得了不错的效果,这也是本专利拟解决受体-配体关系预测的重要依据和手段。
近年来,由于受到受体晶体结构数量的限制,关于GPCR的配体预测主要是一些针对配体信息的方法,比如基于属性特征的方法、基于药效团模型的方法、基于子结构的方法。这些方法都不需要知道任何有关受体的信息。但是有关研究表明,如果可以有效的结合受体的信息又能够增加预测受体-配体相互作用关系的准确率。化学基因组学是一个新的领域,旨在找出所有可能的受体-配体关系对,这个方法既涉及到了受体的特征信息又涉及了配体方面的信息。而且化学基因组方法关注的重心不是单个的配体或者受体,而是以受体-配体组成的一个关系对为研究对象,它的核心思想是相似的受体结合相似的配体。目前,随着研究人员的不断努力,出现了越来越多的一些新的基于化学基因组学的预测受体-配体关系的方法,如基于先验知识的方法和基于序列相关性的方法等。另外还有些人通过设计受体-配体对的核函数,然后利用受体相似性核函数和配体相似性核函数,计算受体-配体对之间的相似性,再结合不同的分类器,推断出受体-配体之间的关联程度。但是这种方法过多的依赖了受体相似性和配体相似性,而且计算这些相似性的准确率将会直接影响到预测结果的真实性和正确率。
由于大部分受体和配体属于不同类型的物质分子,所以很难用相同的特征来描述受体和配体。部分研究人员尝试采取组合受体特征和配体特征的方式表示一个受体-配体关系对。例如,Bock等人(参见文献Bock J.R.,Gough D.A.,Virtual screen for ligandsof orphan G protein-coupled receptors.J Chem InfModel.,2005,45(5):1402-1414)用二维的分子特征描述配体,用氨基酸的物理化学特征描述受体,然后把这两种特征偶联起来描述一个受体-配体对。Erhan等人(参见文献Erhan D.,L'Heureux P.J.,Yue S.Y.,Bengio Y.,Collaborative filtering on a family of biological targets.J ChemInf Model.,2006,46(2):626-635)采用了一个类似的处理策略,把受体特征和配体特征运用笛卡尔积的方式连接起来,但此方法产生了特征长度过大而引起的计算问题。以上两个方法都是通过组合受体特征和配体特征表示一个受体-配体关系对,忽略了受体和配体直接关系,导致了预测结果的精度不是很高。虽然Ernesto等人(参考文献Ernesto I.,FabianO.,De Moor Bart M.Y.,Predicting receptor-ligand pairs through kernellearning.BMC Bioinformatics,2011,12:336.)通过利用表达数据、结构域信息、系统进化谱三个资源建立了一个组合的核学习分类器模型,他们采用的特征描述出了受体与配体之间的关联性,但是此方法的局限在于只有当受体和配体满足都是蛋白质时才能够有效利用上面的特征信息资源。
近年来,把受体-配体关系映射到网络空间,然后分析网络的拓扑结构特征受到很多学者的关注。Yamanishi等人(参考文献Yamanishi Y.,Araki M.,Gutteridge A.,HondaW.,Kanehisa M.,Prediction of drug-target interaction networks from theintegration of chemical and genomic spaces.Bioinformatics,2008,24(13):i232-i240.)根据受体-配体网络中节点之间的最短路径,提出了一种基于核的回归模型的方法(KRM),但是该方法预测结果的灵敏度比较低,而且预测的关系对没有得到实验验证。Cheng等人(参考文献Cheng F.,Liu C.,Jiang J.,Lu W.,Li W.,Liu G.,et al.,Prediction ofdrug-target interactions and drug repositioning via network-basedinference.PLOS Computational Biology,2012,8(5):e1002503.)只利用了已知的受体-配体二分网络结构,通过计算拓扑结构相似性来推断受体-配体之间的关系。该方法取得了较好的结果而且得到了实验验证。Van Laarhoven等人(参考文献van Laarhoven T.,Nabuurs S.B.,Marchiori E.,Gaussian interaction profile kernels for predictingdrug-target interaction.Bioinformatics,2011,27(21):3036-3043.)提出了一种利用已知的受体-配体关系计算相似性的方法(Gaussian interaction profile,GIP),并使用正规化的最小二乘分类器进行预测。上述方法都充分利用了受体-配体关系网络中的拓扑结构信息,然后结合不同的分类方法可以取得不错的效果。这充分说明了网络拓扑结构信息可以用来预测受体-配体相互关系。
目前随着现代人工智能技术的不断发展,采用有效的机器学习方法提高受体-配体关系预测的性能变成了可能。然而如何利用好所选特征之间的相关性,并将相关信息有效的融合起来一直是GPCR-配体相互作用关系预测的关键和难点。
发明内容
针对上述问题,本发明提出一种基于多信息整合的G蛋白偶联受体-配体相互作用的预测方法,基于多种特征融合的受体与配体之间的关系预测方法。目前GPCR中还有很大一部分成员属于孤儿受体(特指一些与其它已确认的受体结构上明显相似,但其内源配体还未发现的受体),所以有效地识别孤儿受体的相应配体成为了科学界和企业界的一个重要目标。
本发明提出一种预测G蛋白偶联受体(GPCR)-配体相互作用的方法,其包括:
步骤(1):构建非孤儿受体的G蛋白偶联受体-配体相互作用网络结构图,以受体和配体作为网络中的节点,以受体-配体关系作为网络中的边,将受体与配体之间的关系映射到受体-配体关系相互作用网络中;
步骤(2):将孤儿受体与非孤儿受体之间的受体-受体关系嵌入到步骤(1)构建的已知的受体-配体关系相互作用网络中,使得孤儿受体不再是网络中的孤立点;然后基于网络中节点之间的路径关系,提出了基于多特征的特征构建方法,构建受体-配体作用对特征关系;最后结合随机森林等多种分类器进行学习,以实现对受体-配体相互作用关系的预测以及对孤儿受体潜在配体的有效预测。
其中,所述步骤(2)包括四个阶段:
(21)第一阶段,网络初始化,嵌入非孤儿受体信息,整合网络:将孤儿受体与非孤儿受体之间的受体-受体关系嵌入到已知的受体-配体关系网络中,使得孤儿受体不再是网络中的孤立点;
(22)第二阶段,网络路径构建,计算任意节点之间的最短路径:通过Dijkstra或者Floyd算法计算上一阶段所得网络中任意节点之间的最短路径;
(23)第三阶段,受体-配体对的特征构建:通过使用路径相加法和路径相减法来描述受体-配体对与节点之间的关系;
(24)第四阶段,结合多种分类器进行预测:结合分类器,实现了对G蛋白偶联受体-配体相互作用潜在关系的有效预测,包括对孤儿受体的配体预测。
本发明预测方法中融合了包括受体序列相似性和配体化合物结构相似性等的多特征信息。
所述第二阶段中,将受体-受体网络和受体-配体网络整合成一个新的网络,然后计算网络中任意节点的距离。主要步骤如下:(1)首先定义一个初始矩阵 其中Mr_r=P,Mr_l=Y,Ml_r=YT以及Ml_l是个零矩阵。(2)利用Dijkstra算法计算了任意节点之间的最短路径,结果用矩阵Mf表示,矩阵的第i行第j列的值表示第i个节点到第j个节点的最短路径距离,该矩阵受体和配体的顺序与矩阵M0相一致,即受体的序号是从1到p,配体的序号是从(p+1)到(p+q),其中p是网络中受体的个数,q是网络中配体的个数。
所述第三阶段中,所述路径相加法为:对于一个受体-配体对pair<r,l>,受体r到任意节点ni的最短距离记为dri,配体l到任意节点ni的最短距离记为dli,dri和dli取自于矩阵Mf。用dri与dli的和描述一个受体-配体对和节点ni的亲密关系,则受体-配体对的第i维的特征用公式表示为:
其中i取值从1到v,MAX表示不存在路径。
所述第三阶段中,所述路径相减法为:用dri与dli的差值描述受体r和配体l与节点ni关系的一致性。显然差值越小,一致性就越高。则受体-配体对的第i维的特征用公式表示为:
其中i取值从1到v,MAX表示不存在路径。
所述第四阶段中,采用多种分类器学习方法进行G蛋白偶联受体-配体相互作用关系的预测,所述多种分类器学习方法包括随机森林法、装袋法和二分图法。
本发明还提出了一种G蛋白偶联受体-配体相互作用关系的预测系统,其包括网络初始化模块,网络路径构建模块,特征构建模块,受体-配体相互作用关系预测模块;其中,
(1)网络初始化模块,构建非孤儿受体的G蛋白偶联受体-配体相互作用网络结构图,以受体和配体作为网络中的节点,以受体-配体关系作为网络中的边,将受体与配体之间的关系映射到受体-配体相互作用网络中;
(2)网络路径构建模块,将孤儿受体与非孤儿受体之间的受体-受体关系嵌入到上一步骤构建的受体-配体关系相互作用网络中,形成整合网络,获得网络中的任意节点的距离;
(3)特征构建模块,基于网络节点之间的路径关系,构建受体-配体作用对特征;
(4)受体-配体相互作用关系预测模块,结合分类器实现对受体-配体相互作用关系的预测以及对孤儿受体的配体的预测。
其中,所述网络构建模块通过最短路径计算模块获得网络中的任意节点的距离,所述最短路径计算模块通过Dijkstra或者Floyd算法计算所得网络中任意节点之间的最短路径。
其中,所述特征构件模块通过网络路径关系计算模块获得网络节点之间的路径关系,所述路径关系计算模块使用路径相加法和路径相减法来描述受体-配体对与节点之间的关系。
本发明有益效果包括:将受体-受体关系和受体-配体关系嵌入到同一个网络中,然后根据网络节点之间中的路径关系,提出了基于路径的构建受体-配体对特征的方法,可以取得良好的预测效果。通过第三阶段可见受体-配体相互作用对与某些节点之间存在一定程度的关联。
本发明提出的方法不仅融合了几种重要的蛋白质的化学特性特征和生物学特征,而且比较了多种机器学习的方法进行测试。实验表明基于随机森林的预测模型可以取得较好的性能和预测结果。经过本发明提出的预测方法,可以得知受体与配体之间的路径越短,则它们之间越有可能存在相互作用关系。上述方法对于这些被预测为有关系的受体-配体对具有一定的参考价值。
本发明包括:构建了包括受体相似性和化合物结构相似性等在内的多特征预测模型;提出了一种基于随机森林的GPCR-配体相互作用预测方法;提出了针对孤儿受体的一种基于网络路径特征的受体-配体关系预测方法。本发明方法针对GPCR及其配体的特点,建立适合G蛋白偶联受体-配体相互作用关系发现的预测模型,并利用该模型预测孤儿GPCR潜在的配体,获得了较好的预测效果。
本发明预测G蛋白偶联受体与配体相互作用关系的方法,使用基于网络特征的方法和机器学习相结合来预测孤儿G蛋白偶联受体的潜在配体。采用的网络特征方法显著提高了预测精度和可靠性。通过特征整合和参数优化极大减少特征的可能造成的信息冗余。
本发明预测方法基于受体的多种生物学特征,使用一种基于网络路径特征的方法预测G蛋白偶联受体(G-Protein Coupled Receptor,简称GPCR)的潜在候选配体。本发明方法基于G蛋白偶联受体和配体的多不同生物学属性,使用多种机器学习的方法预测与目前GPCR存在相互作用的候选配体。相关的数据实验结果表明,本发明方法预测精度较高,鲁棒性好,可以成功预测出一些重要GPCR包括孤儿GPCR(oGPCR)的潜在配体。本发明方法可用于G蛋白偶联受体的新药研发前评估及其它基础生物学研究用途。
附图说明
图1为本发明预测GPCR-配体相互作用预测方法的流程示意图。
图2为本发明方法与其它方法相比较的AUC与AUPR值比较;图2中(a)表示随机森林法、装袋法和二分图法三种不同方法的ROC曲线;(b)表示随机森林法、装袋法和二分图法三种不同方法的PR曲线。
图3为G蛋白偶联受体-配体相互作用关系的预测系统的示意图。
具体实施方式
结合附图和实例来进一步阐述本发明。以下实施例并不限制本发明。
本发明提出的预测G蛋白偶联受体-配体相互作用的方法,包括如图1所示的流程。
本发明还提出一种G蛋白偶联受体-配体相互作用关系及孤儿受体的配体的预测系统,如图3所示,其包括网络初始化模块、网络路径构建模块、特征构建模块、受体-配体相互作用关系预测模块;
其中,网络初始化模块,构建非孤儿受体的G蛋白偶联受体-配体相互作用网络结构图,以受体和配体作为网络中的节点,以受体-配体关系作为网络中的边,将受体与配体之间的关系映射到受体-配体相互作用网络中;
网络路径构建模块,将孤儿受体与非孤儿受体之间的受体-受体关系嵌入到上一步骤构建的受体-配体关系相互作用网络中,形成整合网络,获得网络中的任意节点的距离;
特征构建模块,基于网络节点之间的路径关系,构建受体-配体作用对特征;
受体-配体相互作用关系预测模块,结合分类器实现对受体-配体相互作用关系的预测以及对孤儿受体的配体的预测。
其中,所述网络构建模块通过最短路径计算模块获得网络中的任意节点的距离,所述最短路径计算模块通过Dijkstra或者Floyd算法计算所得网络中任意节点之间的最短路径。
其中,所述特征构件模块通过路径关系计算模块获得网络节点之间的路径关系,所述路径关系计算模块使用路径相加法和路径相减法来描述受体-配体对与节点之间的关系。
本发明为基于多特征融合的G蛋白偶联受体-配体相互作用的预测方法,包括以下步骤:
1.基于多特征融合的G蛋白偶联受体-配体相互作用预测的流程
多特征融合集成学习预测GPCR-配体相互作用基本流程图,如图1所示。
一方面,本发明将受体-受体关系和受体-配体关系嵌入到同一个受体-配体网络中,然后把受体和配体都看成网络中的节点,并通过Dijkstra或者Floyd算法计算任意节点之间的最短路径。对于一个受体-配体相互作用对,本发明提出了基于路径信息的受体-配体对特征构建的方法。
另一方面,本发明将充分利用多种预测模型,采用多种学习方法进行GPCR-配体相互作用关系的预测。
同时,本发明使用AUC分值(ROC曲线下的面积)和AUPR分值(AUPR是精度-召回曲线下的面积)来评估所选择的方法和特征的性能,如图2所示,并且使用其它三种方法(二分图方法、随机森林、装袋方法)作为比较。在统一的数据集中应用5重交叉验证(5-fold crossvalidation)计算不同特征下该方法的性能。
本发明还采用了Sensitivity、Specificity、ACC、MCC等指标进行评价。其中Sensitivity(Sn)是敏感性,计算公式为TP/(TP+FN);Specificity(Sp)是特异性,计算公式为TN/(TN+FP);ACC为准确率,计算公式为(TP+TN)/(TP+FP+TN+FN);
MCC为马修斯相关系数,计算公式为
TP,FP,TN,FN,分别是真阳性,假阳性,真阴性,假阴性的样本个数。
2.GPCR-配体相互作用预测的数据集合的构建
已知的受体-配体关系数据来自GLIDA数据库,其中包括80个G蛋白偶联受体,2446个配体,以及对应的4051种关系,在STRING等蛋白质关系数据库中找到了80个受体之间的157种蛋白质-蛋白质关系。并在GLIDA和以上蛋白质关系数据库中找到了15个孤儿受体和已知的80个受体存在41种蛋白质-蛋白质相互作用关系。
构建非孤儿受体的G蛋白偶联受体-配体相互作用网络结构图,以受体和配体作为网络中的节点,以受体-配体关系作为网络中的边,将受体与配体之间的关系映射到受体-配体相互作用网络中。
3.基于网络路径特征的GPCR-配体相互作用预测方法
3.1网络的初始化
本发明中,将不存在孤儿受体的受体-配体网络定义为已知网络(Know Network,KN),即本发明预测方法步骤(1)所构建的非孤儿受体的G蛋白偶联受体-配体相互作用网络。
本发明中,将有孤儿受体的配体-受体网络定义为未知网络(Unknown Network,UN),即是已经将孤儿受体与非孤儿受体之间的受体-受体关系嵌入到已经网络中所形成的整合网络。
其中,非孤儿受体表示为R={r1,r2,…,rn},配体表示为L={l1,l2,…,lm},孤儿受体表示为O={o1,o2,…,ot}。
在已知的受体-配体网络中,受体-配体之间的边关系用n×m的矩阵Y表示,如果受体ri和配体lj有相互作用关系,则yij=1,否则为0。非孤儿受体与非孤儿受体之间的受体-受体关系网络用n×n的矩阵P表示,如果受体ri和配体lj有相互作用关系,则pij=1,否则为0。
类似的,在未知受体-配体关系网络中,受体-配体关系网络用(n+t)×m的矩阵Y表示,非孤儿受体与孤儿受体之间的受体-受体关系网络用(n+t)×(n+t)的矩阵P表示,其中n,t,m分别为非孤儿受体的个数,孤儿受体的个数以及配体的个数。
3.2构建网络路径
将孤儿受体与非孤儿受体之间的受体-受体网络和已知受体-配体网络整合到一个新的网络中,然后计算网络中任意节点的距离。主要的步骤如下:(1)首先定义一个初始矩阵其中Mr_r=P,Mr_l=Y,Ml_r=YT以及Ml_l是个零矩阵。(2)利用Dijkstra算法计算了任意节点之间的最短路径,结果用矩阵Mf表示,矩阵的第i行第j列的值表示第i个节点到第j个节点的最短路径距离,该矩阵受体和配体的顺序与矩阵M0相一致,即受体的序号是从1到p,配体的序号是从(p+1)到(p+q),其中p是网络中受体的个数,q是网络中配体的个数。
3.3构建受体-配体对的特征
基于上述网络节点之间的路径关系,构建受体-配体对的特征,是预测受体-配体相互作用关系中重要环节。
本发明提出了以下两种构建特征的方法:
(1)路径相加法(Path Addition Method,PAM)
网络M中的节点定义为N={n1,n,…,nv,v=p+q}(p是网络中受体的个数,q是网络中配体的个数)。对于一个受体-配体对pair<r,l>,受体r到任意节点ni的最短距离记为dri,配体l到任意节点ni的最短距离记为dli,dri和dli取自于矩阵Mf。我们用dri与dli的和描述一个受体-配体对和节点ni的亲密关系,则受体-配体对的第i维的特征用公式表示为:
其中i取值从1到v,MAX表示不存在路径。
(2)路径相减法(Path Subtraction Method,PSM)
对于一个受体-配体对pair<r,l>,受体r和配体l可能对节点ni有一个相近的距离,我们用dri与dli的差值描述受体r和配体l与节点ni关系的一致性。显然差值越小,一致性就越高。则受体-配体对的第i维的特征用公式表示为:
其中i取值从1到v,MAX表示不存在路径。
本发明通过以上的两种特征构建方法描述了受体-配体对与节点之间的关系,发现有关系受体-配体对和无关系受体-配体对与网络中的节点之间关系存在差异性,即绝大多数的有关系对的特征要比无关系对的特征值要小,这表明有关系对与网络中的节点的关系更加亲密,也说明构建的特征能很好地区分这两种类别。
本发明利用样本的特征值分布,把不同的样本分为正样本或者负样本。其中,有关系的受体-配体对作为正样本,无关系的受体-配体对作为负样本。
最后,本发明根据PAM和PSM两种特征构建方法为每个受体-配体对进行特征构建,采用K-重交叉验证对所有的受体-配体对进行分类预测,可以根据预测的决策值来判别受体-配体之间的关系程度。
4.基于集成学习方法的GPCR-配体相互作用关系预测
(1)受体序列相似性:NCBI数据库中BLASTP是一个比较蛋白质序列的标准化搜索工具,它能够计算两条蛋白质之间的相似性分数。本发明方法中,使用了归一化的BLASTP分数来确定受体蛋白的氨基酸序列相似性。计算两个蛋白质之间g和g’相似性表达式如下所示:
由于归一化的BLASTP打分法在计算两个蛋白质之间相似性时比归一化的Smith-Waterman方法效果更加明显。因此,我们用它来构建一个相似性矩阵Sg以表示基因空间的信息。
(2)配体结构相似性:为了构建化学空间,本发明通过SIMCOMP在线工具来计算配体之间的结构相似性。它通过计算公共子结构大小和合并结构的大小比率来给出两个化合物之间的全局相似性分值。而任意两个化合物c和c’的结构相似性分值可表示如下:
sc(c,c')=|c∩c'|/|c∪c'|
(3)预测算法:本发明采取了包含随机森林法、装袋法和二分图法在内的多种集成学习方法预测。
AUC和AUPR的度量分值以及运行比较分别见表1和图2。
表1三种不同预测方法的性能比较
从表1可以看出,本发明方法整合了不同来源的异构特征数据时的AUC值较其它方法使用其它单一或者三种特征相结合的AUC值要略高。由于受体-配体预测使用的数据集中,正样本的数目要远远小于负样本的数目,因此部分指标分值较其它预测模型略低。
表2不同数据集合的性能比较
从表2中可以看出使用本发明方法在不同数据集合的测试结果表明,结合不同异构特征的F-measure值和其它指标都表现较好,这说明我们的方法更稳定且鲁棒性较好。
如图2所示,由于不同特征的选取往往基于不同角度,本发明选择并结合了蛋白质的多种生物学属性的有效特征。与此同时,使用集成学习的方法将多个独立的基于单一特征的模型结合起来,因此这一方法优于其它只能进行简单的特征叠加的方法。这也是随机森林方法结合特征的模型在配体预测上有更有效的原因。
进一步,为了进一步分析预测结果的可靠性,本发明对所有的无关系受体-配体对按照它们的预测值进行降序排列。
以下表3和表4分别列出了在已知网络和未知网络中预测结果的前10名。另外,对已知网络中的前10名预测结果,本发明在DrugBank,KEGG和GLIDA数据库中进行了验证,分别用‘D’,‘K’,‘G’标注,结果有4对(标注)得到了验证,进一步说明了预测结果的可靠性。
表3.本发明方法在已知网络中预测的排名前10的受体-配体对
Rank | Receptor | Ligand | P-Score | Mark |
1 | P21918 | L001085 | 1.565 | G |
2 | P41595 | L001155 | 1.481 | |
3 | P28222 | L001288 | 1.436 | |
4 | P28222 | L000736 | 1.433 | K |
5 | P47898 | L000455 | 1.405 | |
6 | P21918 | L000794 | 1.375 | G |
7 | P21918 | L000736 | 1.364 | |
8 | P47898 | L000946 | 1.334 | |
9 | P41595 | L001085 | 1.311 | |
10 | P18825 | L000520 | 1.302 | D |
表4本发明方法在未知网络中预测的排名前10的受体-配体对
Rank | Receptor | Ligand | P-Score |
1 | Q14330 | L000770 | 1.521 |
2 | Q14439 | L001262 | 1.336 |
3 | Q14330 | L000002 | 1.318 |
4 | Q9Y2T6 | L001017 | 1.265 |
5 | Q9Y2T6 | L016169 | 1.260 |
6 | Q14330 | L016169 | 1.231 |
7 | Q9Y2T6 | L001209 | 1.207 |
8 | Q9Y2T6 | L019835 | 1.192 |
9 | Q8TDS5 | L016171 | 1.172 |
10 | Q8TAM0 | L001262 | 1.154 |
上述结果表明,本发明方法是一种预测GPCR潜在配体的有效方法。因此可以用来识别生物功能还未知的GPCR的配体以及筛选GPCR小分子配体,从而帮助基于GPCR的药物发现研究。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
Claims (10)
1.一种预测G蛋白偶联受体-配体相互作用关系的方法,其特征在于,所述预测方法包括:
步骤(1):构建非孤儿受体的G蛋白偶联受体-配体相互作用网络结构图,以受体和配体作为网络中的节点,以受体-配体关系作为网络中的边,将受体与配体之间的关系映射到受体-配体关系相互作用网络中;
步骤(2):将孤儿受体与非孤儿受体之间的受体-受体关系嵌入到所述步骤(1)构建的上述受体-配体关系相互作用网络中,基于网络节点之间的路径关系,构建受体-配体作用对特征关系,然后结合不同分类器,实现对受体-配体相互作用关系的预测以及对孤儿受体潜在配体的有效预测。
2.如权利要求1所述的方法,其特征在于,所述步骤(2)包括四个阶段:
(21)第一阶段,网络初始化,嵌入非孤儿受体信息,整合网络:将孤儿受体与非孤儿受体之间的受体-受体关系嵌入到已知的受体-配体关系网络中,使得孤儿受体不再是网络中的孤立点;
(22)第二阶段,网络路径构建,计算任意节点之间的最短路径:通过Dijkstra或者Floyd算法计算上一阶段所得网络中任意节点之间的最短路径;
(23)第三阶段,受体-配体对的特征构建:通过使用路径相加法和路径相减法来描述受体-配体对与节点之间的关系;
(24)第四阶段,结合多种分类器进行预测:结合分类器,实现对G蛋白偶联受体-配体相互作用潜在关系的有效预测以及对孤儿受体的配体预测。
3.如权利要求2所述的方法,其特征在于,所述第二阶段中,利用Dijkstra算法计算任意节点之间的最短路径的步骤:
(1)定义一个初始矩阵其中Mr_r=P,Mr_l=Y,Ml_r=YT以及Ml_l是个零矩阵;
(2)任意节点之间的最短路径的计算结果用矩阵Mf表示,矩阵的第i行第j列的值表示第i个节点到第j个节点的最短路径距离,该矩阵受体和配体的顺序与矩阵M0相一致,受体的序号是从1到p,配体的序号是从(p+1)到(p+q),其中,p是网络中受体的个数,q是网络中配体的个数。
4.如权利要求2所述的方法,其特征在于,所述第三阶段中,所述路径相加法为:
对于一个受体-配体对pair<r,l>,受体r到任意节点ni的最短距离记为dri,配体l到任意节点ni的最短距离记为dli,dri和dli取自于矩阵Mf;用dri与dli的和描述一个受体-配体对和节点ni的亲密关系,则受体-配体对的第i维的特征可用公式表示为:
其中,i取值从1到v,MAX表示不存在路径。
5.如权利要求2所述的方法,其特征在于,所述第三阶段中,所述路径相减法为:
用dri与dli的差值描述受体r和配体l与节点ni关系的一致性;差值越小,一致性程度就越高;则受体-配体对的第i维的特征可用公式表示为:
其中,i取值从1到v,MAX表示不存在路径。
6.如权利要求2所述的方法,其特征在于,所述第四阶段中,采用多种分类器学习方法进行G蛋白偶联受体-配体相互作用关系的预测;所述多种分类器学习方法包括随机森林法、装袋法和二分图法。
7.如权利要求1所述的方法,其特征在于,所述方法中融合了包括受体序列相似性和配体化合物结构相似性的多特征信息。
8.一种G蛋白偶联受体-配体相互作用关系的预测系统,其特征在于,所述系统包括:
(1)网络初始化模块,构建非孤儿受体的G蛋白偶联受体-配体相互作用网络结构图,以受体和配体作为网络中的节点,以受体-配体关系作为网络中的边,将受体与配体之间的关系映射到受体-配体相互作用网络中;
(2)网络路径构建模块,将孤儿受体与非孤儿受体之间的受体-受体关系嵌入到所述步骤(1)构建的受体-配体关系相互作用网络中,形成整合网络,以获得网络中的任意节点的距离;
(3)特征构建模块,基于网络节点之间的路径关系,构建受体-配体作用对特征;
(4)受体-配体相互作用关系预测模块,结合分类器实现对受体-配体相互作用关系的预测以及对孤儿受体的配体的预测。
9.如权利要求8所述的G蛋白偶联受体-配体相互作用关系的预测系统,其特征在于,所述网络构建模块通过最短路径计算模块获得网络中的任意节点的距离,所述最短路径计算模块通过Dijkstra或者Floyd算法计算所得网络中任意节点之间的最短路径。
10.如权利要求8所述的G蛋白偶联受体-配体相互作用关系的预测系统,其特征在于,所述特征构件模块通过路径关系计算模块获得网络节点之间的路径关系,所述路径关系计算模块使用路径相加法和路径相减法来描述受体-配体对与节点之间的关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810329690.3A CN108647487A (zh) | 2018-04-13 | 2018-04-13 | G蛋白偶联受体-配体相互作用关系的预测方法及预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810329690.3A CN108647487A (zh) | 2018-04-13 | 2018-04-13 | G蛋白偶联受体-配体相互作用关系的预测方法及预测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108647487A true CN108647487A (zh) | 2018-10-12 |
Family
ID=63745932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810329690.3A Pending CN108647487A (zh) | 2018-04-13 | 2018-04-13 | G蛋白偶联受体-配体相互作用关系的预测方法及预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108647487A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110504004A (zh) * | 2019-06-28 | 2019-11-26 | 西安理工大学 | 一种基于复杂网络结构可控性基因的识别方法 |
CN114627960A (zh) * | 2022-01-26 | 2022-06-14 | 深圳阿尔法分子科技有限责任公司 | 用于分析g蛋白偶联受体与配体相互作用的方法和系统 |
WO2023141808A1 (zh) * | 2022-01-26 | 2023-08-03 | 深圳阿尔法分子科技有限责任公司 | 用于分析g蛋白偶联受体与配体相互作用的方法和系统 |
CN117690499A (zh) * | 2023-12-08 | 2024-03-12 | 苏州腾迈医药科技有限公司 | 分子试验预测处理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101609486A (zh) * | 2009-07-21 | 2009-12-23 | 东华大学 | G蛋白偶联受体超类的识别方法及其Web服务系统 |
CN102656458A (zh) * | 2009-10-26 | 2012-09-05 | 雅培制药有限公司 | 用于测定非小细胞肺癌预后的诊断方法 |
CN106103487A (zh) * | 2013-12-13 | 2016-11-09 | 奥地利科技学院 | 光学激活的受体 |
CN106709277A (zh) * | 2016-11-21 | 2017-05-24 | 南京邮电大学 | 基于文本挖掘的g蛋白偶联受体药物靶标分子的向量生成方法 |
-
2018
- 2018-04-13 CN CN201810329690.3A patent/CN108647487A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101609486A (zh) * | 2009-07-21 | 2009-12-23 | 东华大学 | G蛋白偶联受体超类的识别方法及其Web服务系统 |
CN102656458A (zh) * | 2009-10-26 | 2012-09-05 | 雅培制药有限公司 | 用于测定非小细胞肺癌预后的诊断方法 |
CN106103487A (zh) * | 2013-12-13 | 2016-11-09 | 奥地利科技学院 | 光学激活的受体 |
CN106709277A (zh) * | 2016-11-21 | 2017-05-24 | 南京邮电大学 | 基于文本挖掘的g蛋白偶联受体药物靶标分子的向量生成方法 |
Non-Patent Citations (2)
Title |
---|
CUI-PING GUAN等: "Predicting the Coupling Specificity of G-protein Coupled Receptors to G-proteins by Support Vector Machines", 《GENO. PROT. BIOINFO》 * |
陶然: "G蛋白偶联受体—配体相互作用网络的预测方法及应用研究", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110504004A (zh) * | 2019-06-28 | 2019-11-26 | 西安理工大学 | 一种基于复杂网络结构可控性基因的识别方法 |
CN110504004B (zh) * | 2019-06-28 | 2022-02-22 | 西安理工大学 | 一种基于复杂网络结构可控性基因的识别方法 |
CN114627960A (zh) * | 2022-01-26 | 2022-06-14 | 深圳阿尔法分子科技有限责任公司 | 用于分析g蛋白偶联受体与配体相互作用的方法和系统 |
WO2023141808A1 (zh) * | 2022-01-26 | 2023-08-03 | 深圳阿尔法分子科技有限责任公司 | 用于分析g蛋白偶联受体与配体相互作用的方法和系统 |
CN117690499A (zh) * | 2023-12-08 | 2024-03-12 | 苏州腾迈医药科技有限公司 | 分子试验预测处理方法及装置 |
CN117690499B (zh) * | 2023-12-08 | 2024-07-23 | 苏州腾迈医药科技有限公司 | 分子试验预测处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | DNN-DTIs: Improved drug-target interactions prediction using XGBoost feature selection and deep neural network | |
Soleymani et al. | Protein–protein interaction prediction with deep learning: A comprehensive review | |
Hu et al. | Predicting drug-target interactions from drug structure and protein sequence using novel convolutional neural networks | |
Wei et al. | Improved prediction of protein–protein interactions using novel negative samples, features, and an ensemble classifier | |
Yu et al. | Designing template-free predictor for targeting protein-ligand binding sites with classifier ensemble and spatial clustering | |
Zhang | Protein interaction networks: computational analysis | |
Li et al. | Classification of G-protein coupled receptors based on support vector machine with maximum relevance minimum redundancy and genetic algorithm | |
CN108647487A (zh) | G蛋白偶联受体-配体相互作用关系的预测方法及预测系统 | |
Srihari et al. | MCL-CAw: a refinement of MCL for detecting yeast complexes from weighted PPI networks by incorporating core-attachment structure | |
Wang et al. | Imbalance data processing strategy for protein interaction sites prediction | |
Wang et al. | ProDis-ContSHC: learning protein dissimilarity measures and hierarchical context coherently for protein-protein comparison in protein database retrieval | |
Lin et al. | Clustering methods in protein-protein interaction network | |
Wu et al. | AttentionMGT-DTA: A multi-modal drug-target affinity prediction using graph transformer and attention mechanism | |
Kabir et al. | Prediction of membrane protein types by exploring local discriminative information from evolutionary profiles | |
Wang et al. | prPred‐DRLF: plant R protein predictor using deep representation learning features | |
Su et al. | Multi-view heterogeneous molecular network representation learning for protein–protein interaction prediction | |
Zhang et al. | Equipocket: an e (3)-equivariant geometric graph neural network for ligand binding site prediction | |
Xuan et al. | Clpred: a sequence-based protein crystallization predictor using blstm neural network | |
Charan et al. | FGFR1Pred: an artificial intelligence-based model for predicting fibroblast growth factor receptor 1 inhibitor | |
Yousef et al. | SFM: a novel sequence-based fusion method for disease genes identification and prioritization | |
Wang et al. | Feature selection methods in the framework of mRMR | |
Zok et al. | Building the library of RNA 3D nucleotide conformations using the clustering approach | |
Yue et al. | A systematic review on the state-of-the-art strategies for protein representation | |
Hu et al. | Structure enhanced protein-drug interaction prediction using transformer and graph embedding | |
Semwal et al. | DeepLBS: A deep Convolutional Neural Network-Based Ligand-Binding Site Prediction Tool |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181012 |