CN113270153A - 一种靶向g蛋白偶联受体的化合物的筛选方法 - Google Patents
一种靶向g蛋白偶联受体的化合物的筛选方法 Download PDFInfo
- Publication number
- CN113270153A CN113270153A CN202110584616.8A CN202110584616A CN113270153A CN 113270153 A CN113270153 A CN 113270153A CN 202110584616 A CN202110584616 A CN 202110584616A CN 113270153 A CN113270153 A CN 113270153A
- Authority
- CN
- China
- Prior art keywords
- gpcr
- compound
- similarity
- amino acid
- gpcrs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 102000003688 G-Protein-Coupled Receptors Human genes 0.000 title claims abstract description 125
- 108090000045 G-Protein-Coupled Receptors Proteins 0.000 title claims abstract description 125
- 150000001875 compounds Chemical class 0.000 title claims abstract description 109
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012216 screening Methods 0.000 title claims abstract description 32
- 230000008685 targeting Effects 0.000 title abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 48
- 230000003993 interaction Effects 0.000 claims abstract description 17
- 150000001413 amino acids Chemical class 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 23
- 239000000126 substance Substances 0.000 claims description 17
- 239000013604 expression vector Substances 0.000 claims description 9
- 238000002902 MACCS key Methods 0.000 claims description 7
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 4
- 239000003814 drug Substances 0.000 abstract description 15
- 229940079593 drug Drugs 0.000 abstract description 14
- 238000013528 artificial neural network Methods 0.000 abstract description 8
- 238000012795 verification Methods 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 18
- 239000003446 ligand Substances 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 102000005962 receptors Human genes 0.000 description 3
- 108020003175 receptors Proteins 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 108091006027 G proteins Proteins 0.000 description 2
- 102000030782 GTP binding Human genes 0.000 description 2
- 108091000058 GTP-Binding Proteins 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000007876 drug discovery Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 102000038037 druggable proteins Human genes 0.000 description 1
- 108091007999 druggable proteins Proteins 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000386 microscopy Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
- G16C20/64—Screening of libraries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Pharmacology & Pharmacy (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机辅助药物分析技术领域,尤其涉及一种靶向G蛋白偶联受体的化合物的筛选方法。该方法包括:采集化合物结构、GPCR序列以及化合物‑GPCR相互作用关系的数据;基于所采集得到的结构序列数据提取化合物指纹和GPCR的特征向量,并对其进行计算,得到化合物结构相似性和GPCR序列相似性;根据化合物相似性、GPCR相似性和已知的化合物‑GPCR相互作用构建异构图,再利用异构图神经网络对靶向G蛋白偶联受体的药物进行筛选。根据实验验证可知,本发明对于筛选靶向G蛋白偶联受体的药物具有较好的性能和适用性。
Description
技术领域
本发明涉及计算机辅助药物发现领域,特别是涉及一种靶向G蛋白偶联受体的化合物的筛选方法。
背景技术
G蛋白偶联受体(G protein-coupled receptors,GPCRs)是药物靶蛋白中数量最多的,介导了三分之一的药物作用。GPCRs对人体生理上的丰富调节在医学方面得到充分反映,34%的上市药物作用于GPCR。所以,大量的受体研究机构和药物发现机构对GPCRs进行了大量的研究。随着低温电子显微镜、深度突变扫描、基因组测序和信号蛋白分析等技术的进步,GPCR序列、结构和功能数据也迅速增加。最近的研究明确指出,药物和GPCR靶点之间的相互作用对候选药物的毒性或副作用有很大影响。此外,药物的重定位可以通过药物靶点的预测来实现,从而发现化合物和GPCR之间的相互作用,可以促使研究人员识别药物的潜在新用途。因此,筛选靶向GPCR的化合物是非常重要的。
虽然湿实验技术可以用来预测GPCR和化合物的相互作用,但是它们涉及到繁琐和耗时的工作。计算方法可以有效地筛选靶向GPCR的化合物,从而缩小靶向GPCR化合物的搜索空间,以供湿实验研究。在计算机上预测化合物和GPCR之间的相互作用是可取的,有效地补充了昂贵且费时的湿实验。新发现的靶向GPCR的化合物对于研发治疗某些疾病的新药是至关重要的。
目前,利用计算机筛选靶向GPCR的化合物的方法主要可以分为三类:基于结构的方法、基于配体的方法和基于化学基因组数据的方法。基于结构的方法主要采用化合物和GPCR的三维结构进行模拟,确定它们之间是否会有相互作用。然而,有些GPCR的三维结构尚不清楚,因此不能对其进行对接。基于配体的方法主要利用了相似化合物分子倾向于共享相似性质的概念,并且通常与相似的GPCR结合。也就是说,利用配体之间的相似性预测化合物和GPCR的相互作用。然而,当每个GPCR的已知配体数量不足时,基于配体的方法的预测结果可能变得不可靠。基于化学基因组数据的方法是同时使用化合物和GPCR的信息进行预测。基于化学基因组数据的方法的优点在于能够处理大量的生物数据进行预测。尽管目前基于化学基因组数据开展了靶向GPCR的化合物筛选研究,但是如何基于化学基因组数据利用深度学习进一步提升靶向GPCR的化合物筛选性能,是所属领域技术人员需要解决的技术问题。
发明内容
有鉴于此,本发明提供了一种靶向G蛋白偶联受体的化合物的筛选方法。本发明筛选方法能充分考虑化学基因组数据,包括化合物结构、GPCR氨基酸序列和已知的GPCR-化合物相互作用,对于筛选靶向G蛋白偶联受体的药物具有较好的性能和适用性。
为了实现上述发明目的,本发明提供以下技术方案:
本发明提供一种靶向G蛋白偶联受体的化合物的筛选方法,包括:
步骤1:提取化合物的分子指纹,计算所述化合物结构相似性,获得化合物相似性矩阵;
步骤2:提取GPCR的序列特征向量;利用两个GPCR的序列特征向量的夹角来度量两个GPCR之间的相似性,构建GPCR相似性矩阵;
步骤3:利用化合物相似性矩阵、GPCR相似性矩阵和已知的化合物-GPCR关联关系,构建化合物-GPCR异构信息网络G=(V,E,R);利用编码器获得靶向GPCR的化合物的表示向量和GPCR表示向量;
步骤4:利用已知的化合物-GPCR关系训练解码器;根据靶向GPCR的化合物的表示向量和GPCR表示向量,利用训练好的解码器对靶向GPCR的化合物打分,预测GPCR和化合物之间的相互作用。
本发明步骤1中,所述分子指纹为MACCS密钥分子化学指纹fp。
本发明步骤1中,采用Jaccard相似系数计算所述化合物的两两相似性。其中,所述化合物是指所有候选的化合物,两两相似性是指这些化合物中每两个化合物之间的相似性。
本发明步骤1具体为:提取化合物的MACCS密钥分子化学指纹fp;采用Jaccard相似系数计算所述化合物的两两相似性sim(ci,cj),构建化合物相似性矩阵,所述sim(ci,cj)的计算公式如下:
其中,化合物ci和cj的二值分子指纹特征向量分别为fp(ci)和fp(cj)。
本发明步骤2中,所述提取GPCR的序列特征向量采用的方法为基于平行相关性伪氨基酸组成方法。
本发明步骤2中,所述提取GPCR的序列特征向量采用的方法具体为:
给定R表示GPCR的氨基酸序列,Ri表示第i个位置的氨基酸,μ表示氨基酸理化性质的数目,Hμ(Ri)代表位于第i个的氨基酸Ri在第μ=(μ=1,2,...μ)个理化性质的值,则第i个位置的氨基酸Ri和第j个位置的氨基酸Rj的相关分数Θ(Ri,Rj)如下:
那么,氨基酸信息相关性θλ(j=1,2,…,λ)(参数λ为一个超参数,为自然数,λ设置为2)如下:
假设fi(i=1,2,…,20)表示归一化后的氨基酸频率;W∈(0,1)表示权重因子,那么GPCR特征向量的第u个值可表示为:
最终,GPCR特征向量可表示为:
ft=[ft1,ft2,...,ft20,ft20+1,...,ft20+λ,]T。
本发明的具体方案中,将参数λ设置为2。
本发明步骤3中,以g1和g2表示两个GPCR序列,所述两个GPCR序列基于余弦相似性的计算公式为:
其中,ft(g1)和ft(g2)分别为g1和g2提取的特征向量。
本发明步骤3还包括利用下述公式更新异构信息网络中节点的表示向量的步骤:
其中,表示节点(化合物或GPCR)在关系r∈{Rcg,Rcc,Rgg}下的邻居集合,|·|表示集合中元素的个数。σ(·)为激活函数,具体为选择线性整流函数,即:ReLU(·)=max(0,·)2,Wr和W0均为权重参数;为了确保l层的表示向量可以影响l+1层的表示向量,为所有的数据添加一个自连接。
其中,节点代表化合物或GPCR。
本发明步骤4中,根据化合物和GPCR的表示向量,利用解码器对靶向GPCR的化合物打分。
所述打分采用矩阵分解方法进行打分。具体地,所述采用矩阵分解方法进行打分具体为:假定D为可训练得到的对角矩阵,vgi和vcj分别为GPCR gi和化合物cj的表示向量,那么GPCR gi和化合物cj之间的分值为:
其中,编码器和解码器首先需要利用已知化合物-GPCR关系基于损失函数训练得到。
本发明靶向G蛋白偶联受体的化合物的筛选方法包括:采集化合物结构、GPCR序列以及化合物-GPCR相互作用关系的数据;基于所采集得到的结构序列数据提取化合物指纹和GPCR的特征向量,并对其进行计算,得到化合物结构相似性和GPCR序列相似性;根据化合物相似性、GPCR相似性和已知的化合物-GPCR相互作用构建异构图,再利用异构图神经网络对靶向G蛋白偶联受体的药物进行筛选。与现有技术相比,本发明具有以下有益效果:
1、本发明充分了考虑化学基因组数据,包括化合物结构、GPCR氨基酸序列和已知的GPCR-化合物相互作用,为进一步提升靶向GPCR的化合物的筛选性能提供了重要基础;
2、本发明利用编码器获得化合物和GPCR的表示向量,接着利用解码器预测GPCR和化合物之间的相互作用,通过AUC指标反应了本发明的预测性能,根据实验验证可知,本发明对于筛选靶向G蛋白偶联受体的药物具有较好的性能和适用性。
附图说明
图1示本发明筛选方法的流程示意图;
图2示各方法的AUC的测试结果。
具体实施方式
本发明提供了一种靶向G蛋白偶联受体的化合物的筛选方法。本领域技术人员可以借鉴本文内容,适当改进工艺参数实现。特别需要指出的是,所有类似的替换和改动对本领域技术人员来说是显而易见的,它们都被视为包括在本发明。本发明的方法及应用已经通过较佳实施例进行了描述,相关人员明显能在不脱离本发明内容、精神和范围内对本文的方法和应用进行改动或适当变更与组合,来实现和应用本发明技术。
本发明采用的试材皆为普通市售品,皆可于市场购得。
本发明提供一种靶向G蛋白偶联受体的化合物的筛选方法,包括:
步骤1:提取MACCS密钥分子化学指纹fp,MACCS密钥是166位结构密钥描述符,其中结构密钥描述符与SMARTS模式相关联;基于化合物的166位分子指纹采用Jaccard相似系数计算所有化合物两两相似性,从而构建化合物相似性矩阵。假定化合物ci和cj的二值分子指纹特征向量分别为fp(ci)和fp(cj),那么基于杰卡德系数计算得到的化合物结构相似性如下:
步骤2:采用基于平行相关性伪氨基酸组成方法提取GPCR的序列特征。给定R表示GPCR的氨基酸序列,Ri表示第i个位置的氨基酸,μ表示氨基酸理化性质的数目,Hu(Ri)代表位于第i个的氨基酸Ri在第u(u=1,2,…,μ)个理化性质的值,则第i个位置的氨基酸Ri和第j个位置的氨基酸Rj的相关分数Θ(Ri,Rj)如下:
那么,氨基酸信息相关性θj(j=1,2,…,λ)(参数λ为一个超参数,需要设置为自然数(本发明中λ设置为2))如下:
假设fi(i=1,2,…,20)表示归一化后的氨基酸频率;w∈(0,1)表示权重因子(本发明中w设置为0.5),那么GPCR特征向量的第u个值可表示为:
最终,GPCR特征向量可表示为:
ft=[ft1,ft2,…,ft20,ft20+1,…,ft20+λ,]T;
利用两个序列特征向量的夹角来度量两个GPCR之间的相似性,从而构建GPCR相似性矩阵。假定GPCR g1和g2提取的特征向量分别为ft(g1)和ft(g2),那么基于余弦相似性的GPCR g1和g2相似性计算公式如下:
步骤3:利用化合物相似性、GPCR相似性和已知的化合物-GPCR关联关系构建化合物-GPCR异构信息网络G=(V,E,R),为了更好地将网络拓扑结构与潜在向量融合起来,在图神经网络架构的驱动下,利用下述公式更新异构信息网络中节点(化合物和GPCR的表示向量h)的表示向量:
其中,表示节点(化合物获GPCR)在关系r∈{Rcg,Rcc,Rgg}下的邻居集合,|·|表示集合中元素的个数。σ(·)为激活函数,在本研究中选择线性整流函数,即:ReLU(·)=max(0,·)2,Wr和W0均为权重参数。为了确保l层的表示向量可以影响l+1层的表示向量,在发明中为所有的数据添加一个自连接。注:表示向量更新过程即为编码过程。
步骤4:利用解码器对靶向GPCR的化合物打分。解码器依赖于化合物和GPCR的表示向量对GPCR-化合物关系进行打分。
在本发明中,我们利用矩阵分解的方法作为打分函数(解码器),假定D为可训练得到的对角矩阵,vgi和vcj分别为GPCR gi和化合物cj的表示向量,那么GPCR gi和化合物cj之间的分值为:
本发明利用采用负采样方法构建负样本数据集,随机抽取与正样本个数相同多的中立样本作为负样本,然后利用交叉熵损失函数优化模型,如下:
其中,Τ表示所有的训练样本,sig()表示sigmoid函数,y为标签集合,对于正样本y=1,负样本y=0。
根据Adam优化算法求解编码器和解码器,设置epochs为1000,学习率lr=0.01,图卷积神经网络的层数layers=2,各隐含层的维度为[500,500,500],各层的激活函数均选择为ReLU函数。
下面结合实施例,进一步阐述本发明:
实施例1
以Yamanishi’s study数据库(共含有224个化合物和95个GPCRs)为例采用本发明基于异构图神经网络方法筛选靶向GPCR化合物,步骤如下:
以采自Yamanishi’s study的GPCR-化合物相互作用,Drugbank数据集(https://go.drugbank.com)中的化合物SMILES描述符,KEGG GENES数据集中(https://www.genome.jp/kegg/genes.html)GPCR的氨基酸序列。数据集中包含224个化合物、95个GPCRs和635个化合物-GPCR相互作用。实验环境为:CPU:Intel Core i7-10875H,GPU:NVIDIAGeForce RTX 2070,内存:32G,系统:Windows 10,集成开发环境:PyCharm社区版,解释器:python3.7.6,pytorch:1.5.0+cu101,dgl:0.5.3。
1)提取化合物的分子指纹。
化学指纹是表征分子的二进制值(0和1)的列表,本发明采用广泛使用的MACCS密钥分子化学指纹fp。MACCS密钥是166位结构密钥描述符,其中结构密钥描述符与SMARTS模式相关联。
2)计算化合物结构相似性。
基于化合物的166位分子指纹采用Jaccard相似系数计算所有化合物两两相似性,从而构建化合物相似性矩阵。假定化合物ci和cj的二值分子指纹特征向量分别为fp(ci)和fp(cj),那么基于杰卡德系数计算得到的化合物结构相似性如下:
3)提取GPCR序列特征。
GPCR是由氨基酸组成的生物分子,考虑到GPCR在理化性质下的平行相关性,本发明采用基于平行相关性伪氨基酸组成方法提取GPCR的序列特征。给定R表示GPCR的氨基酸序列,Ri表示第i个位置的氨基酸,μ表示氨基酸理化性质的数目,Hu(Ri)代表位于第i个的氨基酸Ri在第u(u=1,2,…,μ)个理化性质的值,则第i个位置的氨基酸Ri和第j个位置的氨基酸Rj的相关分数Θ(Ri,Rj)如下:
那么,氨基酸信息相关性θj(j=1,2,…,λ)(参数λ为一个超参数,需要设置为自然数(本发明中λ设置为2))如下:
假设fi(i=1,2,…,20)表示归一化后的氨基酸频率;w∈(0,1)表示权重因子(本发明中w设置为0.5),那么GPCR特征向量的第u个值可表示为:
最终,GPCR特征向量可表示为:
ft=[ft1,ft2,…,ft20,ft20+1,…,ft20+λ,]T
4)计算GPCR序列相似性。
本文利用两个序列特征向量的夹角来度量两个GPCR之间的相似性,从而构建GPCR相似性矩阵。假定GPCR g1和g2提取的特征向量分别为ft(g1)和ft(g2),那么基于余弦相似性的GPCR g1和g2相似性计算公式如下:
5)编码器获取药物表示向量
利用化合物相似性、GPCR相似性和已知的化合物-GPCR关联关系构建化合物-GPCR异构信息网络G=(V,E,R),为了更好地将网络拓扑结构与潜在向量融合起来,在图神经网络架构的驱动下,利用下述公式更新异构信息网络中节点(化合物和GPCR的特征向量h)的表示向量:
其中,表示节点(化合物获GPCR)在关系r∈{Rcg,Rcc,Rgg}下的邻居集合,|·|表示集合中元素的个数。σ(·)为激活函数,在本研究中选择线性整流函数,即:ReLU(·)=max(0,·)2,Wr和W0均为权重参数。为了确保l层的表示向量可以影响l+1层的表示向量,在发明中为所有的数据添加一个自连接。
6)解码器筛选靶向GPCR的化合物
本发明利用解码器为靶向GPCR的化合物打分。相对于编码器将化合物和GPCR映射到向量不同的是,解码器依赖于化合物和GPCR的表示向量对GPCR-化合物关系进行打分。在本发明中,我们利用矩阵分解的方法作为打分函数,假定D为可训练得到的对角矩阵,vgi和vcj分别为GPCR gi和化合物cj的表示向量,那么GPCR gi和化合物cj之间的分值为:
7)模型训练
本发明中采用负采样方法构建负样本数据集,随机抽取与正样本个数相同多的中立样本作为负样本,然后利用交叉熵损失函数优化模型,如下:
其中,Τ表示所有的训练样本,sig()表示sigmoid函数,y为标签集合,对于正样本y=1,负样本y=0。
根据Adam优化算法求解模型,设置epochs为1000,学习率lr=0.01,图卷积神经网络的层数layers=2,各隐含层的维度为[500,500,500],各层的激活函数均选择为ReLU函数。
为了验证发明的有效性,我们采用了数据集中的百分之八十样本作为训练集,百分之十的样本作为校验集,百分之十的样本作为测试集。
对于上述验证方式采用AUC(接收者操作特征曲线(receiver operatingcharacteristic curve,ROC)下方的面积大小)作为评价指标。采用本发明实施例基于异构图神经网络对靶向GPCR的化合物进行筛选并且与RLSMDA和GRMF方法进行了对比。图2描述了对于AUC各方法的性能比较图,本发明的AUC值为0.9187,比其他两种方法的AUC值更大。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种靶向G蛋白偶联受体的化合物的筛选方法,其特征在于,包括:
步骤1:提取化合物的分子指纹,计算所述化合物的两两相似性,获得化合物相似性矩阵;
步骤2:提取GPCR的序列特征向量;利用两个GPCR的序列特征向量的夹角来度量两个GPCR之间的相似性,构建GPCR相似性矩阵;
步骤3:利用化合物相似性矩阵、GPCR相似性矩阵和已知的化合物-GPCR关联关系,构建化合物-GPCR异构信息网络G=(V,E,R);利用编码器获得靶向GPCR的化合物的表示向量和GPCR表示向量;
步骤4:利用已知的化合物-GPCR关系训练解码器,根据靶向GPCR的化合物的表示向量和GPCR表示向量,利用训练好的解码器对靶向GPCR的化合物打分,预测GPCR和化合物之间的相互作用。
2.根据权利要求1所述的筛选方法,其特征在于,步骤1中,所述分子指纹为MACCS密钥分子化学指纹fp。
4.根据权利要求1所述的筛选方法,其特征在于,步骤2中,所述提取GPCR的序列特征向量采用的方法为基于平行相关性伪氨基酸组成方法。
5.根据权利要求4所述的筛选方法,其特征在于,步骤2中,所述提取GPCR的序列特征向量采用的方法具体为:
给定R表示GPCR的氨基酸序列,Ri表示第i个位置的氨基酸,μ表示氨基酸理化性质的数目,Hμ(Ri)代表位于第i个的氨基酸Ri在第μ=(μ=1,2,...μ)个理化性质的值,则第i个位置的氨基酸Ri和第j个位置的氨基酸Rj的相关分数Θ(Ri,Rj)如下:
那么,氨基酸信息相关性θj(j=1,2,…,λ)(参数λ为一个超参数,为自然数)如下:
假设fi(i=1,2,…,20)表示归一化后的氨基酸频率;W∈(0,1)表示权重因子,那么GPCR特征向量的第u个值可表示为:
最终,GPCR特征向量可表示为:
ft=[ft1,ft2,...,ft20,ft20+1,...,ft20+λ,]T。
8.根据权利要求1所述的筛选方法,其特征在于,步骤4中,根据化合物和GPCR的表示向量,利用解码器对靶向GPCR的化合物打分。
9.根据权利要求1所述的筛选方法,其特征在于,步骤4中,采用矩阵分解方法进行打分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110584616.8A CN113270153A (zh) | 2021-05-27 | 2021-05-27 | 一种靶向g蛋白偶联受体的化合物的筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110584616.8A CN113270153A (zh) | 2021-05-27 | 2021-05-27 | 一种靶向g蛋白偶联受体的化合物的筛选方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113270153A true CN113270153A (zh) | 2021-08-17 |
Family
ID=77233178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110584616.8A Pending CN113270153A (zh) | 2021-05-27 | 2021-05-27 | 一种靶向g蛋白偶联受体的化合物的筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113270153A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116913395A (zh) * | 2023-09-13 | 2023-10-20 | 青岛虹竹生物科技有限公司 | 一种构建小分子肽数据库的数字化方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052795A (zh) * | 2017-11-28 | 2018-05-18 | 华东师范大学 | 一种基于特征优化的g蛋白偶联特异性预测的方法 |
CN109887540A (zh) * | 2019-01-15 | 2019-06-14 | 中南大学 | 一种基于异构网络嵌入的药物靶标相互作用预测方法 |
CN110021341A (zh) * | 2019-02-21 | 2019-07-16 | 华东师范大学 | 一种基于异构网络的gpcr药物和靶向通路的预测方法 |
CN112420126A (zh) * | 2020-12-07 | 2021-02-26 | 湖南大学 | 一种基于多源数据融合和网络结构扰动的药物靶标预测方法 |
CN112652355A (zh) * | 2020-12-08 | 2021-04-13 | 湖南工业大学 | 一种基于深度森林和pu学习的药物-靶标关系预测方法 |
US20210142173A1 (en) * | 2019-11-12 | 2021-05-13 | The Cleveland Clinic Foundation | Network-based deep learning technology for target identification and drug repurposing |
-
2021
- 2021-05-27 CN CN202110584616.8A patent/CN113270153A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052795A (zh) * | 2017-11-28 | 2018-05-18 | 华东师范大学 | 一种基于特征优化的g蛋白偶联特异性预测的方法 |
CN109887540A (zh) * | 2019-01-15 | 2019-06-14 | 中南大学 | 一种基于异构网络嵌入的药物靶标相互作用预测方法 |
CN110021341A (zh) * | 2019-02-21 | 2019-07-16 | 华东师范大学 | 一种基于异构网络的gpcr药物和靶向通路的预测方法 |
US20210142173A1 (en) * | 2019-11-12 | 2021-05-13 | The Cleveland Clinic Foundation | Network-based deep learning technology for target identification and drug repurposing |
CN112420126A (zh) * | 2020-12-07 | 2021-02-26 | 湖南大学 | 一种基于多源数据融合和网络结构扰动的药物靶标预测方法 |
CN112652355A (zh) * | 2020-12-08 | 2021-04-13 | 湖南工业大学 | 一种基于深度森林和pu学习的药物-靶标关系预测方法 |
Non-Patent Citations (1)
Title |
---|
刘福乐: "DNA、RNA和蛋白质序列特征提取方法研究及应用", 《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116913395A (zh) * | 2023-09-13 | 2023-10-20 | 青岛虹竹生物科技有限公司 | 一种构建小分子肽数据库的数字化方法 |
CN116913395B (zh) * | 2023-09-13 | 2023-11-28 | 青岛虹竹生物科技有限公司 | 一种构建小分子肽数据库的数字化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wei et al. | Improved prediction of protein–protein interactions using novel negative samples, features, and an ensemble classifier | |
Woerner et al. | Forensic human identification with targeted microbiome markers using nearest neighbor classification | |
Venkatraman et al. | Protein-protein docking using region-based 3D Zernike descriptors | |
Xu et al. | Clustering of high-dimensional gene expression data with feature filtering methods and diffusion maps | |
Ibrahim et al. | Extracting features from protein sequences to improve deep extreme learning machine for protein fold recognition | |
CN112652355A (zh) | 一种基于深度森林和pu学习的药物-靶标关系预测方法 | |
Abudalfa et al. | K-means algorithm with a novel distance measure | |
Ma et al. | JSNMF enables effective and accurate integrative analysis of single-cell multiomics data | |
Zhao et al. | A multi-graph deep learning model for predicting drug-disease associations | |
CN113421658B (zh) | 基于近邻注意力网络的“药物-靶标”相互作用预测方法 | |
CN113270153A (zh) | 一种靶向g蛋白偶联受体的化合物的筛选方法 | |
Suruliandi et al. | Drug target interaction prediction using machine learning techniques–a review | |
CN110400605A (zh) | 一种gpcr药物靶标的配体生物活性预测方法及其应用 | |
Du et al. | Deep multi-label joint learning for RNA and DNA-binding proteins prediction | |
Aziz et al. | A Novel Hybrid Approach for Classifying Osteosarcoma Using Deep Feature Extraction and Multilayer Perceptron | |
Yousef et al. | SFM: a novel sequence-based fusion method for disease genes identification and prioritization | |
Zhang et al. | A resource limited artificial immune system algorithm for supervised classification of multi/hyper‐spectral remote sensing imagery | |
Guan et al. | MV-H-RKM: A Multiple View-Based Hypergraph Regularized Restricted Kernel Machine for Predicting DNA-Binding Proteins | |
Yang et al. | ECAmyloid: An amyloid predictor based on ensemble learning and comprehensive sequence-derived features | |
Zhao et al. | Rnpredatc: a deep residual learning-based model with applications to the prediction of drug-atc code association | |
Chen et al. | SGNet: Sequence-based Convolution and Ligand Graph Network for Protein Binding Affinity Prediction | |
CN115458061B (zh) | 一种药物-蛋白质相互作用预测方法及系统 | |
Moutselos et al. | Feature selection study on separate multi-modal datasets: Application on cutaneous melanoma | |
Bolshakova et al. | Comparison of the data-based and gene ontology-based approaches to cluster validation methods for gene microarrays | |
Sun et al. | An enhanced LRMC method for drug repositioning via gcn-based HIN embedding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210817 |