CN113270153A - 一种靶向g蛋白偶联受体的化合物的筛选方法 - Google Patents

一种靶向g蛋白偶联受体的化合物的筛选方法 Download PDF

Info

Publication number
CN113270153A
CN113270153A CN202110584616.8A CN202110584616A CN113270153A CN 113270153 A CN113270153 A CN 113270153A CN 202110584616 A CN202110584616 A CN 202110584616A CN 113270153 A CN113270153 A CN 113270153A
Authority
CN
China
Prior art keywords
gpcr
compound
similarity
amino acid
gpcrs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110584616.8A
Other languages
English (en)
Inventor
丁平尖
武紫玉
倪云军
陈银香
罗凌云
李跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanhua University
University of South China
Original Assignee
Nanhua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanhua University filed Critical Nanhua University
Priority to CN202110584616.8A priority Critical patent/CN113270153A/zh
Publication of CN113270153A publication Critical patent/CN113270153A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机辅助药物分析技术领域,尤其涉及一种靶向G蛋白偶联受体的化合物的筛选方法。该方法包括:采集化合物结构、GPCR序列以及化合物‑GPCR相互作用关系的数据;基于所采集得到的结构序列数据提取化合物指纹和GPCR的特征向量,并对其进行计算,得到化合物结构相似性和GPCR序列相似性;根据化合物相似性、GPCR相似性和已知的化合物‑GPCR相互作用构建异构图,再利用异构图神经网络对靶向G蛋白偶联受体的药物进行筛选。根据实验验证可知,本发明对于筛选靶向G蛋白偶联受体的药物具有较好的性能和适用性。

Description

一种靶向G蛋白偶联受体的化合物的筛选方法
技术领域
本发明涉及计算机辅助药物发现领域,特别是涉及一种靶向G蛋白偶联受体的化合物的筛选方法。
背景技术
G蛋白偶联受体(G protein-coupled receptors,GPCRs)是药物靶蛋白中数量最多的,介导了三分之一的药物作用。GPCRs对人体生理上的丰富调节在医学方面得到充分反映,34%的上市药物作用于GPCR。所以,大量的受体研究机构和药物发现机构对GPCRs进行了大量的研究。随着低温电子显微镜、深度突变扫描、基因组测序和信号蛋白分析等技术的进步,GPCR序列、结构和功能数据也迅速增加。最近的研究明确指出,药物和GPCR靶点之间的相互作用对候选药物的毒性或副作用有很大影响。此外,药物的重定位可以通过药物靶点的预测来实现,从而发现化合物和GPCR之间的相互作用,可以促使研究人员识别药物的潜在新用途。因此,筛选靶向GPCR的化合物是非常重要的。
虽然湿实验技术可以用来预测GPCR和化合物的相互作用,但是它们涉及到繁琐和耗时的工作。计算方法可以有效地筛选靶向GPCR的化合物,从而缩小靶向GPCR化合物的搜索空间,以供湿实验研究。在计算机上预测化合物和GPCR之间的相互作用是可取的,有效地补充了昂贵且费时的湿实验。新发现的靶向GPCR的化合物对于研发治疗某些疾病的新药是至关重要的。
目前,利用计算机筛选靶向GPCR的化合物的方法主要可以分为三类:基于结构的方法、基于配体的方法和基于化学基因组数据的方法。基于结构的方法主要采用化合物和GPCR的三维结构进行模拟,确定它们之间是否会有相互作用。然而,有些GPCR的三维结构尚不清楚,因此不能对其进行对接。基于配体的方法主要利用了相似化合物分子倾向于共享相似性质的概念,并且通常与相似的GPCR结合。也就是说,利用配体之间的相似性预测化合物和GPCR的相互作用。然而,当每个GPCR的已知配体数量不足时,基于配体的方法的预测结果可能变得不可靠。基于化学基因组数据的方法是同时使用化合物和GPCR的信息进行预测。基于化学基因组数据的方法的优点在于能够处理大量的生物数据进行预测。尽管目前基于化学基因组数据开展了靶向GPCR的化合物筛选研究,但是如何基于化学基因组数据利用深度学习进一步提升靶向GPCR的化合物筛选性能,是所属领域技术人员需要解决的技术问题。
发明内容
有鉴于此,本发明提供了一种靶向G蛋白偶联受体的化合物的筛选方法。本发明筛选方法能充分考虑化学基因组数据,包括化合物结构、GPCR氨基酸序列和已知的GPCR-化合物相互作用,对于筛选靶向G蛋白偶联受体的药物具有较好的性能和适用性。
为了实现上述发明目的,本发明提供以下技术方案:
本发明提供一种靶向G蛋白偶联受体的化合物的筛选方法,包括:
步骤1:提取化合物的分子指纹,计算所述化合物结构相似性,获得化合物相似性矩阵;
步骤2:提取GPCR的序列特征向量;利用两个GPCR的序列特征向量的夹角来度量两个GPCR之间的相似性,构建GPCR相似性矩阵;
步骤3:利用化合物相似性矩阵、GPCR相似性矩阵和已知的化合物-GPCR关联关系,构建化合物-GPCR异构信息网络G=(V,E,R);利用编码器获得靶向GPCR的化合物的表示向量和GPCR表示向量;
步骤4:利用已知的化合物-GPCR关系训练解码器;根据靶向GPCR的化合物的表示向量和GPCR表示向量,利用训练好的解码器对靶向GPCR的化合物打分,预测GPCR和化合物之间的相互作用。
本发明步骤1中,所述分子指纹为MACCS密钥分子化学指纹fp。
本发明步骤1中,采用Jaccard相似系数计算所述化合物的两两相似性。其中,所述化合物是指所有候选的化合物,两两相似性是指这些化合物中每两个化合物之间的相似性。
本发明步骤1具体为:提取化合物的MACCS密钥分子化学指纹fp;采用Jaccard相似系数计算所述化合物的两两相似性sim(ci,cj),构建化合物相似性矩阵,所述sim(ci,cj)的计算公式如下:
Figure BDA0003087684910000031
其中,化合物ci和cj的二值分子指纹特征向量分别为fp(ci)和fp(cj)。
本发明步骤2中,所述提取GPCR的序列特征向量采用的方法为基于平行相关性伪氨基酸组成方法。
本发明步骤2中,所述提取GPCR的序列特征向量采用的方法具体为:
给定R表示GPCR的氨基酸序列,Ri表示第i个位置的氨基酸,μ表示氨基酸理化性质的数目,Hμ(Ri)代表位于第i个的氨基酸Ri在第μ=(μ=1,2,...μ)个理化性质的值,则第i个位置的氨基酸Ri和第j个位置的氨基酸Rj的相关分数Θ(Ri,Rj)如下:
Figure BDA0003087684910000032
那么,氨基酸信息相关性θλ(j=1,2,…,λ)(参数λ为一个超参数,为自然数,λ设置为2)如下:
Figure BDA0003087684910000033
假设fi(i=1,2,…,20)表示归一化后的氨基酸频率;W∈(0,1)表示权重因子,那么GPCR特征向量的第u个值可表示为:
Figure BDA0003087684910000041
最终,GPCR特征向量可表示为:
ft=[ft1,ft2,...,ft20,ft20+1,...,ft20+λ,]T
本发明的具体方案中,将参数λ设置为2。
本发明步骤3中,以g1和g2表示两个GPCR序列,所述两个GPCR序列基于余弦相似性的计算公式为:
Figure BDA0003087684910000042
其中,ft(g1)和ft(g2)分别为g1和g2提取的特征向量。
本发明步骤3还包括利用下述公式更新异构信息网络中节点的表示向量的步骤:
Figure BDA0003087684910000043
其中,
Figure BDA0003087684910000044
表示节点(化合物或GPCR)在关系r∈{Rcg,Rcc,Rgg}下的邻居集合,|·|表示集合中元素的个数。σ(·)为激活函数,具体为选择线性整流函数,即:ReLU(·)=max(0,·)2,Wr和W0均为权重参数;为了确保l层的表示向量可以影响l+1层的表示向量,为所有的数据添加一个自连接。
其中,节点代表化合物或GPCR。
本发明步骤4中,根据化合物和GPCR的表示向量,利用解码器对靶向GPCR的化合物打分。
所述打分采用矩阵分解方法进行打分。具体地,所述采用矩阵分解方法进行打分具体为:假定D为可训练得到的对角矩阵,vgi和vcj分别为GPCR gi和化合物cj的表示向量,那么GPCR gi和化合物cj之间的分值为:
Figure BDA0003087684910000045
其中,编码器和解码器首先需要利用已知化合物-GPCR关系基于损失函数训练得到。
本发明靶向G蛋白偶联受体的化合物的筛选方法包括:采集化合物结构、GPCR序列以及化合物-GPCR相互作用关系的数据;基于所采集得到的结构序列数据提取化合物指纹和GPCR的特征向量,并对其进行计算,得到化合物结构相似性和GPCR序列相似性;根据化合物相似性、GPCR相似性和已知的化合物-GPCR相互作用构建异构图,再利用异构图神经网络对靶向G蛋白偶联受体的药物进行筛选。与现有技术相比,本发明具有以下有益效果:
1、本发明充分了考虑化学基因组数据,包括化合物结构、GPCR氨基酸序列和已知的GPCR-化合物相互作用,为进一步提升靶向GPCR的化合物的筛选性能提供了重要基础;
2、本发明利用编码器获得化合物和GPCR的表示向量,接着利用解码器预测GPCR和化合物之间的相互作用,通过AUC指标反应了本发明的预测性能,根据实验验证可知,本发明对于筛选靶向G蛋白偶联受体的药物具有较好的性能和适用性。
附图说明
图1示本发明筛选方法的流程示意图;
图2示各方法的AUC的测试结果。
具体实施方式
本发明提供了一种靶向G蛋白偶联受体的化合物的筛选方法。本领域技术人员可以借鉴本文内容,适当改进工艺参数实现。特别需要指出的是,所有类似的替换和改动对本领域技术人员来说是显而易见的,它们都被视为包括在本发明。本发明的方法及应用已经通过较佳实施例进行了描述,相关人员明显能在不脱离本发明内容、精神和范围内对本文的方法和应用进行改动或适当变更与组合,来实现和应用本发明技术。
本发明采用的试材皆为普通市售品,皆可于市场购得。
本发明提供一种靶向G蛋白偶联受体的化合物的筛选方法,包括:
步骤1:提取MACCS密钥分子化学指纹fp,MACCS密钥是166位结构密钥描述符,其中结构密钥描述符与SMARTS模式相关联;基于化合物的166位分子指纹采用Jaccard相似系数计算所有化合物两两相似性,从而构建化合物相似性矩阵。假定化合物ci和cj的二值分子指纹特征向量分别为fp(ci)和fp(cj),那么基于杰卡德系数计算得到的化合物结构相似性如下:
Figure BDA0003087684910000061
步骤2:采用基于平行相关性伪氨基酸组成方法提取GPCR的序列特征。给定R表示GPCR的氨基酸序列,Ri表示第i个位置的氨基酸,μ表示氨基酸理化性质的数目,Hu(Ri)代表位于第i个的氨基酸Ri在第u(u=1,2,…,μ)个理化性质的值,则第i个位置的氨基酸Ri和第j个位置的氨基酸Rj的相关分数Θ(Ri,Rj)如下:
Figure BDA0003087684910000062
那么,氨基酸信息相关性θj(j=1,2,…,λ)(参数λ为一个超参数,需要设置为自然数(本发明中λ设置为2))如下:
Figure BDA0003087684910000063
假设fi(i=1,2,…,20)表示归一化后的氨基酸频率;w∈(0,1)表示权重因子(本发明中w设置为0.5),那么GPCR特征向量的第u个值可表示为:
Figure BDA0003087684910000064
最终,GPCR特征向量可表示为:
ft=[ft1,ft2,…,ft20,ft20+1,…,ft20+λ,]T
利用两个序列特征向量的夹角来度量两个GPCR之间的相似性,从而构建GPCR相似性矩阵。假定GPCR g1和g2提取的特征向量分别为ft(g1)和ft(g2),那么基于余弦相似性的GPCR g1和g2相似性计算公式如下:
Figure BDA0003087684910000071
步骤3:利用化合物相似性、GPCR相似性和已知的化合物-GPCR关联关系构建化合物-GPCR异构信息网络G=(V,E,R),为了更好地将网络拓扑结构与潜在向量融合起来,在图神经网络架构的驱动下,利用下述公式更新异构信息网络中节点(化合物和GPCR的表示向量h)的表示向量:
Figure BDA0003087684910000072
其中,
Figure BDA0003087684910000073
表示节点(化合物获GPCR)在关系r∈{Rcg,Rcc,Rgg}下的邻居集合,|·|表示集合中元素的个数。σ(·)为激活函数,在本研究中选择线性整流函数,即:ReLU(·)=max(0,·)2,Wr和W0均为权重参数。为了确保l层的表示向量可以影响l+1层的表示向量,在发明中为所有的数据添加一个自连接。注:表示向量更新过程即为编码过程。
步骤4:利用解码器对靶向GPCR的化合物打分。解码器依赖于化合物和GPCR的表示向量对GPCR-化合物关系进行打分。
在本发明中,我们利用矩阵分解的方法作为打分函数(解码器),假定D为可训练得到的对角矩阵,vgi和vcj分别为GPCR gi和化合物cj的表示向量,那么GPCR gi和化合物cj之间的分值为:
Figure BDA0003087684910000074
本发明利用采用负采样方法构建负样本数据集,随机抽取与正样本个数相同多的中立样本作为负样本,然后利用交叉熵损失函数优化模型,如下:
Figure BDA0003087684910000075
其中,Τ表示所有的训练样本,sig()表示sigmoid函数,y为标签集合,对于正样本y=1,负样本y=0。
根据Adam优化算法求解编码器和解码器,设置epochs为1000,学习率lr=0.01,图卷积神经网络的层数layers=2,各隐含层的维度为[500,500,500],各层的激活函数均选择为ReLU函数。
下面结合实施例,进一步阐述本发明:
实施例1
以Yamanishi’s study数据库(共含有224个化合物和95个GPCRs)为例采用本发明基于异构图神经网络方法筛选靶向GPCR化合物,步骤如下:
以采自Yamanishi’s study的GPCR-化合物相互作用,Drugbank数据集(https://go.drugbank.com)中的化合物SMILES描述符,KEGG GENES数据集中(https://www.genome.jp/kegg/genes.html)GPCR的氨基酸序列。数据集中包含224个化合物、95个GPCRs和635个化合物-GPCR相互作用。实验环境为:CPU:Intel Core i7-10875H,GPU:NVIDIAGeForce RTX 2070,内存:32G,系统:Windows 10,集成开发环境:PyCharm社区版,解释器:python3.7.6,pytorch:1.5.0+cu101,dgl:0.5.3。
1)提取化合物的分子指纹。
化学指纹是表征分子的二进制值(0和1)的列表,本发明采用广泛使用的MACCS密钥分子化学指纹fp。MACCS密钥是166位结构密钥描述符,其中结构密钥描述符与SMARTS模式相关联。
2)计算化合物结构相似性。
基于化合物的166位分子指纹采用Jaccard相似系数计算所有化合物两两相似性,从而构建化合物相似性矩阵。假定化合物ci和cj的二值分子指纹特征向量分别为fp(ci)和fp(cj),那么基于杰卡德系数计算得到的化合物结构相似性如下:
Figure BDA0003087684910000081
3)提取GPCR序列特征。
GPCR是由氨基酸组成的生物分子,考虑到GPCR在理化性质下的平行相关性,本发明采用基于平行相关性伪氨基酸组成方法提取GPCR的序列特征。给定R表示GPCR的氨基酸序列,Ri表示第i个位置的氨基酸,μ表示氨基酸理化性质的数目,Hu(Ri)代表位于第i个的氨基酸Ri在第u(u=1,2,…,μ)个理化性质的值,则第i个位置的氨基酸Ri和第j个位置的氨基酸Rj的相关分数Θ(Ri,Rj)如下:
Figure BDA0003087684910000082
那么,氨基酸信息相关性θj(j=1,2,…,λ)(参数λ为一个超参数,需要设置为自然数(本发明中λ设置为2))如下:
Figure BDA0003087684910000091
假设fi(i=1,2,…,20)表示归一化后的氨基酸频率;w∈(0,1)表示权重因子(本发明中w设置为0.5),那么GPCR特征向量的第u个值可表示为:
Figure BDA0003087684910000092
最终,GPCR特征向量可表示为:
ft=[ft1,ft2,…,ft20,ft20+1,…,ft20+λ,]T
4)计算GPCR序列相似性。
本文利用两个序列特征向量的夹角来度量两个GPCR之间的相似性,从而构建GPCR相似性矩阵。假定GPCR g1和g2提取的特征向量分别为ft(g1)和ft(g2),那么基于余弦相似性的GPCR g1和g2相似性计算公式如下:
Figure BDA0003087684910000093
5)编码器获取药物表示向量
利用化合物相似性、GPCR相似性和已知的化合物-GPCR关联关系构建化合物-GPCR异构信息网络G=(V,E,R),为了更好地将网络拓扑结构与潜在向量融合起来,在图神经网络架构的驱动下,利用下述公式更新异构信息网络中节点(化合物和GPCR的特征向量h)的表示向量:
Figure BDA0003087684910000094
其中,
Figure BDA0003087684910000095
表示节点(化合物获GPCR)在关系r∈{Rcg,Rcc,Rgg}下的邻居集合,|·|表示集合中元素的个数。σ(·)为激活函数,在本研究中选择线性整流函数,即:ReLU(·)=max(0,·)2,Wr和W0均为权重参数。为了确保l层的表示向量可以影响l+1层的表示向量,在发明中为所有的数据添加一个自连接。
6)解码器筛选靶向GPCR的化合物
本发明利用解码器为靶向GPCR的化合物打分。相对于编码器将化合物和GPCR映射到向量不同的是,解码器依赖于化合物和GPCR的表示向量对GPCR-化合物关系进行打分。在本发明中,我们利用矩阵分解的方法作为打分函数,假定D为可训练得到的对角矩阵,vgi和vcj分别为GPCR gi和化合物cj的表示向量,那么GPCR gi和化合物cj之间的分值为:
Figure BDA0003087684910000101
7)模型训练
本发明中采用负采样方法构建负样本数据集,随机抽取与正样本个数相同多的中立样本作为负样本,然后利用交叉熵损失函数优化模型,如下:
Figure BDA0003087684910000102
其中,Τ表示所有的训练样本,sig()表示sigmoid函数,y为标签集合,对于正样本y=1,负样本y=0。
根据Adam优化算法求解模型,设置epochs为1000,学习率lr=0.01,图卷积神经网络的层数layers=2,各隐含层的维度为[500,500,500],各层的激活函数均选择为ReLU函数。
为了验证发明的有效性,我们采用了数据集中的百分之八十样本作为训练集,百分之十的样本作为校验集,百分之十的样本作为测试集。
对于上述验证方式采用AUC(接收者操作特征曲线(receiver operatingcharacteristic curve,ROC)下方的面积大小)作为评价指标。采用本发明实施例基于异构图神经网络对靶向GPCR的化合物进行筛选并且与RLSMDA和GRMF方法进行了对比。图2描述了对于AUC各方法的性能比较图,本发明的AUC值为0.9187,比其他两种方法的AUC值更大。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种靶向G蛋白偶联受体的化合物的筛选方法,其特征在于,包括:
步骤1:提取化合物的分子指纹,计算所述化合物的两两相似性,获得化合物相似性矩阵;
步骤2:提取GPCR的序列特征向量;利用两个GPCR的序列特征向量的夹角来度量两个GPCR之间的相似性,构建GPCR相似性矩阵;
步骤3:利用化合物相似性矩阵、GPCR相似性矩阵和已知的化合物-GPCR关联关系,构建化合物-GPCR异构信息网络G=(V,E,R);利用编码器获得靶向GPCR的化合物的表示向量和GPCR表示向量;
步骤4:利用已知的化合物-GPCR关系训练解码器,根据靶向GPCR的化合物的表示向量和GPCR表示向量,利用训练好的解码器对靶向GPCR的化合物打分,预测GPCR和化合物之间的相互作用。
2.根据权利要求1所述的筛选方法,其特征在于,步骤1中,所述分子指纹为MACCS密钥分子化学指纹fp。
3.根据权利要求2所述的筛选方法,其特征在于,步骤1中,采用Jaccard相似系数计算所述化合物的两两相似性sim(ci,cj),所述sim(ci,cj)的计算公式如下:
Figure FDA0003087684900000011
其中,化合物ci和cj的二值分子指纹特征向量分别为fp(ci)和fp(cj)。
4.根据权利要求1所述的筛选方法,其特征在于,步骤2中,所述提取GPCR的序列特征向量采用的方法为基于平行相关性伪氨基酸组成方法。
5.根据权利要求4所述的筛选方法,其特征在于,步骤2中,所述提取GPCR的序列特征向量采用的方法具体为:
给定R表示GPCR的氨基酸序列,Ri表示第i个位置的氨基酸,μ表示氨基酸理化性质的数目,Hμ(Ri)代表位于第i个的氨基酸Ri在第μ=(μ=1,2,...μ)个理化性质的值,则第i个位置的氨基酸Ri和第j个位置的氨基酸Rj的相关分数Θ(Ri,Rj)如下:
Figure FDA0003087684900000021
那么,氨基酸信息相关性θj(j=1,2,…,λ)(参数λ为一个超参数,为自然数)如下:
Figure FDA0003087684900000022
假设fi(i=1,2,…,20)表示归一化后的氨基酸频率;W∈(0,1)表示权重因子,那么GPCR特征向量的第u个值可表示为:
Figure FDA0003087684900000023
最终,GPCR特征向量可表示为:
ft=[ft1,ft2,...,ft20,ft20+1,...,ft20+λ,]T
6.根据权利要求1所述的筛选方法,其特征在于,步骤3中,以g1和g2表示两个GPCR序列,所述两个GPCR序列基于余弦相似性的计算公式为:
Figure FDA0003087684900000024
其中,ft(g1)和ft(g2)分别为g1和g2提取的特征向量。
7.根据权利要求1所述的筛选方法,步骤3还包括利用下述公式更新异构信息网络中节点的表示向量的步骤:
Figure FDA0003087684900000031
其中,
Figure FDA0003087684900000032
表示节点(化合物或GPCR)在关系r∈{Rcg,Rco,Rgg}下的邻居集合,|·|表示集合中元素的个数;σ(·)为激活函数,具体为选择线性整流函数,即:ReLU(·)=max(0,·)2,Wr和W0均为权重参数;为了确保l层的表示向量可以影响l+1层的表示向量,为所有的数据添加一个自连接。
8.根据权利要求1所述的筛选方法,其特征在于,步骤4中,根据化合物和GPCR的表示向量,利用解码器对靶向GPCR的化合物打分。
9.根据权利要求1所述的筛选方法,其特征在于,步骤4中,采用矩阵分解方法进行打分。
10.根据权利要求8所述的筛选方法,其特征在于,所述采用矩阵分解方法进行打分具体为:假定D为可训练得到的对角矩阵,vgi和vcj分别为GPCR gi和化合物cj的表示向量,那么GPCR gi和化合物cj之间的分值为:
Figure FDA0003087684900000033
CN202110584616.8A 2021-05-27 2021-05-27 一种靶向g蛋白偶联受体的化合物的筛选方法 Pending CN113270153A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110584616.8A CN113270153A (zh) 2021-05-27 2021-05-27 一种靶向g蛋白偶联受体的化合物的筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110584616.8A CN113270153A (zh) 2021-05-27 2021-05-27 一种靶向g蛋白偶联受体的化合物的筛选方法

Publications (1)

Publication Number Publication Date
CN113270153A true CN113270153A (zh) 2021-08-17

Family

ID=77233178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110584616.8A Pending CN113270153A (zh) 2021-05-27 2021-05-27 一种靶向g蛋白偶联受体的化合物的筛选方法

Country Status (1)

Country Link
CN (1) CN113270153A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116913395A (zh) * 2023-09-13 2023-10-20 青岛虹竹生物科技有限公司 一种构建小分子肽数据库的数字化方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052795A (zh) * 2017-11-28 2018-05-18 华东师范大学 一种基于特征优化的g蛋白偶联特异性预测的方法
CN109887540A (zh) * 2019-01-15 2019-06-14 中南大学 一种基于异构网络嵌入的药物靶标相互作用预测方法
CN110021341A (zh) * 2019-02-21 2019-07-16 华东师范大学 一种基于异构网络的gpcr药物和靶向通路的预测方法
CN112420126A (zh) * 2020-12-07 2021-02-26 湖南大学 一种基于多源数据融合和网络结构扰动的药物靶标预测方法
CN112652355A (zh) * 2020-12-08 2021-04-13 湖南工业大学 一种基于深度森林和pu学习的药物-靶标关系预测方法
US20210142173A1 (en) * 2019-11-12 2021-05-13 The Cleveland Clinic Foundation Network-based deep learning technology for target identification and drug repurposing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052795A (zh) * 2017-11-28 2018-05-18 华东师范大学 一种基于特征优化的g蛋白偶联特异性预测的方法
CN109887540A (zh) * 2019-01-15 2019-06-14 中南大学 一种基于异构网络嵌入的药物靶标相互作用预测方法
CN110021341A (zh) * 2019-02-21 2019-07-16 华东师范大学 一种基于异构网络的gpcr药物和靶向通路的预测方法
US20210142173A1 (en) * 2019-11-12 2021-05-13 The Cleveland Clinic Foundation Network-based deep learning technology for target identification and drug repurposing
CN112420126A (zh) * 2020-12-07 2021-02-26 湖南大学 一种基于多源数据融合和网络结构扰动的药物靶标预测方法
CN112652355A (zh) * 2020-12-08 2021-04-13 湖南工业大学 一种基于深度森林和pu学习的药物-靶标关系预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘福乐: "DNA、RNA和蛋白质序列特征提取方法研究及应用", 《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116913395A (zh) * 2023-09-13 2023-10-20 青岛虹竹生物科技有限公司 一种构建小分子肽数据库的数字化方法
CN116913395B (zh) * 2023-09-13 2023-11-28 青岛虹竹生物科技有限公司 一种构建小分子肽数据库的数字化方法

Similar Documents

Publication Publication Date Title
Wei et al. Improved prediction of protein–protein interactions using novel negative samples, features, and an ensemble classifier
Woerner et al. Forensic human identification with targeted microbiome markers using nearest neighbor classification
Venkatraman et al. Protein-protein docking using region-based 3D Zernike descriptors
Xu et al. Clustering of high-dimensional gene expression data with feature filtering methods and diffusion maps
Ibrahim et al. Extracting features from protein sequences to improve deep extreme learning machine for protein fold recognition
CN112652355A (zh) 一种基于深度森林和pu学习的药物-靶标关系预测方法
Abudalfa et al. K-means algorithm with a novel distance measure
Ma et al. JSNMF enables effective and accurate integrative analysis of single-cell multiomics data
Zhao et al. A multi-graph deep learning model for predicting drug-disease associations
CN113421658B (zh) 基于近邻注意力网络的“药物-靶标”相互作用预测方法
CN113270153A (zh) 一种靶向g蛋白偶联受体的化合物的筛选方法
Suruliandi et al. Drug target interaction prediction using machine learning techniques–a review
CN110400605A (zh) 一种gpcr药物靶标的配体生物活性预测方法及其应用
Du et al. Deep multi-label joint learning for RNA and DNA-binding proteins prediction
Aziz et al. A Novel Hybrid Approach for Classifying Osteosarcoma Using Deep Feature Extraction and Multilayer Perceptron
Yousef et al. SFM: a novel sequence-based fusion method for disease genes identification and prioritization
Zhang et al. A resource limited artificial immune system algorithm for supervised classification of multi/hyper‐spectral remote sensing imagery
Guan et al. MV-H-RKM: A Multiple View-Based Hypergraph Regularized Restricted Kernel Machine for Predicting DNA-Binding Proteins
Yang et al. ECAmyloid: An amyloid predictor based on ensemble learning and comprehensive sequence-derived features
Zhao et al. Rnpredatc: a deep residual learning-based model with applications to the prediction of drug-atc code association
Chen et al. SGNet: Sequence-based Convolution and Ligand Graph Network for Protein Binding Affinity Prediction
CN115458061B (zh) 一种药物-蛋白质相互作用预测方法及系统
Moutselos et al. Feature selection study on separate multi-modal datasets: Application on cutaneous melanoma
Bolshakova et al. Comparison of the data-based and gene ontology-based approaches to cluster validation methods for gene microarrays
Sun et al. An enhanced LRMC method for drug repositioning via gcn-based HIN embedding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210817