CN110400605A - 一种gpcr药物靶标的配体生物活性预测方法及其应用 - Google Patents

一种gpcr药物靶标的配体生物活性预测方法及其应用 Download PDF

Info

Publication number
CN110400605A
CN110400605A CN201910677192.2A CN201910677192A CN110400605A CN 110400605 A CN110400605 A CN 110400605A CN 201910677192 A CN201910677192 A CN 201910677192A CN 110400605 A CN110400605 A CN 110400605A
Authority
CN
China
Prior art keywords
ligand
drug targets
gpcr
matrix
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910677192.2A
Other languages
English (en)
Inventor
吴建盛
秦洁
胡海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910677192.2A priority Critical patent/CN110400605A/zh
Publication of CN110400605A publication Critical patent/CN110400605A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开一种GPCR药物靶标的配体生物活性预测方法,包括如下步骤:获取药物靶标特征信息,并将各特征信息形成对应特征矩阵;获取配体的ECFP分子指纹信息,并将各特征信息形成对应特征矩阵;利用归纳矩阵补全的方法针对药物靶标和配体的特征矩阵进行性能评价,找出对于模型构建有效的特征信息;补全除已知部分药物靶标和配体关系矩阵外的潜在的药物靶标和配体关系,寻找Pij=‑11中存在真实关系的部分,用于对药物靶标的配体生物活性进行预测,其中当Pij表示第i个药物靶标和第j个配体的关系。

Description

一种GPCR药物靶标的配体生物活性预测方法及其应用
技术领域
本发明涉及一种生物活性预测方法及其应用,尤其涉及一种GPCR药物靶标的配体生物活性预测方法及其应用。
背景技术
药物靶标是指药物在体内的作用结合位点,包括基因位点、受体、酶、离子通道、核酸等生物大分子,如G蛋白偶联受体,即GPCR,是靶酶中的一种,是多种药物的靶标。它是细胞信号传导中的重要蛋白质,在人类视觉、嗅觉、味觉以及神经传递等各项正常生理活动和疾病过程中都发挥着重要的作用。当与细胞膜外的适当配体结合时,可用于传导细胞外部的信号。现代新药研究与开发的关键首先是寻找、确定和制备药物筛选靶-分子药靶。确定新的有效药靶是新药开发的首要任务。而通过实验验证配体与目标药物靶标的生物活性耗时耗力且需要大量实验,具有很大的局限性。
此外,迄今已发现作为治疗药物靶标的总数约500个,而药物靶标占其中受体的45%。仍存在很大一部分不知道内源配体的孤儿GPCR,所以在药物靶标-配体的生物活性关系中还具有很多的缺失值。对于使用传统的湿实验来预测配体生物活性仍然是一个不可忽略的问题。
在如今的配体生物活性预测方法方面,在传统的矩阵补全方法中,只考虑药物靶标与配体的关系,没有考虑药物靶标的边缘信息。
发明内容
发明目的:本发明提供了一种为配体生物活性预测提供了更加丰富的数据的GPCR药物靶标的配体生物活性预测方法及其在装置上的应用。
技术方案:本发明提供一种GPCR药物靶标的配体生物活性预测方法,包括如下步骤:
S1、获取药物靶标特征信息,并将各特征信息形成对应特征矩阵;
S2、获取配体特征信息,并将各特征信息形成对应特征矩阵;
S3、利用归纳矩阵补全的方法针对药物靶标和配体的特征矩阵进行性能评价,找出对于模型构建有效的特征信息;补全除已知部分药物靶标和配体关系矩阵外的潜在的药物靶标和配体关系,从而寻找Pij=-11中存在真实关系的部分,用于对药物靶标的配体生物活性进行预测。
其中,所述S3中已知部分药物靶标和配体关系矩阵为:
其中Ngr表示药物靶标的总数,为关系矩阵的行数,Nlg为配体的总数,为关系矩阵的列数,当Pij≠-11表示第i个药物靶标和第j个配体有关系,Pij=-11时表示暂时未发现关系。
优选地,所述S1中特征信息包括药物靶标的文本信息、结构域文本信息、进化信息、二级结构信息、序列信息、序列近程和远程相关性信息、物理化学信息。
进一步地,所述S3中矩阵补全法包括如下步骤:
S31、首先建立模型关系:
其中,是Ngr个药物靶标的特征矩阵,表示第i个药物靶标的特征向量,是Nlg个配体的特征矩阵,表示第j个配体的特征向量;表示正则化项,l为损失函数,用于估计预测的偏离程度;Ω表示真实关系的集合,λ表示正则化参数,表示第i个GPCR和第j个ligands的预测的关系;其中,T代表矩阵的转置;R代表实数集;F代表F范数。
S32、根据已知的药物靶标和配体关系矩阵P,补全潜在的具有真实关系的低秩矩阵Z=WHT,且
S33、随机初始化W,H,随后固定H值,利用步骤S31中的模型关系迭代更新W,直到达到最优解;固定W的值迭代更新H达到最优解,最后的输出为W和H的矩阵,利用预测出第i个药物靶标与第j个配体的关系值;
S34、使用三折交叉方法对已知的药物靶标、配体关系进行分组做性能的测量;
S35、对性能的预测进行比较,直至找到最优解,完成矩阵的补全。
本发明还提供一种GPCR药物靶标的配体生物活性预测方法的应用,所述方法应用于GPCR药物靶标的配体生物活性预测装置。
优选地,所述GPCR药物靶标的配体生物活性预测装置包括如下模块:配体分子指纹生成装置、药物靶标分子特征向量生成装置、配体分子指纹生成装置,配体生物活性预测装置。
进一步地,所述配体分子指纹生成装置为通过使用ECFP分子指纹实现对配体分子进行表征,该配体分子的特定子结构的有无通过使用二进制编码实现对应;输入为所述配体分子的smiles格式,选取部分smiles及生物活性值values,对应输出为该配体分子的分子特征。
优选地,所述药物靶标分子特征向量生成装置为利用Word2vec多视图等方法训练出药物靶标的特征向量并进行拼接,最终构成药物靶标的总特征向量;输入为从网上的数据库下载了GPCR的各种信息数据,其中主要包括了GPCR的文本信息、三联氨基酸信息、进化信息、二级结构关联信息、物化信息、无序残基信息、信号肽信息、结构域文本信息,其中GPCR的文本部分信息,输出为以上多种数据处理后拼接而成的特征向量。
优选地,所述基于归纳矩阵补全的配体生物活性预测装置为利用药物靶标和配体的特征矩阵,通过归纳矩阵补全的方法,补全除已知部分药物靶标和配体关系矩阵外的潜在的药物靶标和配体关系;输入经过PCA降维后的药物靶标特征向量,选取前7维特征为例、配体的特征矩阵,选取前8维特征为例以及GPCR-ligands关系矩阵如表6,选取前7维结果为例,输出预测的关系矩阵。
进一步地,所述GPCR药物靶标的配体生物活性预测装置还包括化合物生物活性预测装置模块,对化合物生物活性进行预测;输入为由表1生物活性值构成的关系矩阵和通过矩阵补全预测的关系矩阵通过交叉验证,实现对化合物生物活性进行预测。对应的部分输出结果。
有益效果:本发明通过一种利用药物靶标的边缘信息,如文本信息、结构域文本信息,进化信息、二级结构信息、序列信息等多角度多视图对药物靶标特征进行描述,为配体生物活性预测提供了更加丰富的数据。
附图说明
图1为本发明方法的步骤图;
图2为具体实施方式中的归纳矩阵补全方法图。
具体实施方式
首先以表7中药物靶标为例选取GPCR数据,利用GPCR的文本信息,结构域文本信息及其进化信息、二级结构信息、序列信息、序列近程和远程相关性信息、物理化学信息等,从不同的角度描述GPCR,构成GPCR的特征向量如表4,选取前7维特征为例。
表7
接着利用通过配体的药物虚拟筛选方法,通过使用ECFP分子指纹表征配体分子,通过使用二进制编码表征该配体分子的特定子结构如下表8,选取前8维结果为例。
表8
0 1 0 1 0 0 0 0
0 1 0 1 0 0 0 0
0 1 0 1 0 0 0 0
把收集的特征数据表示成多个特征集,然后在每个特征集上使用归纳矩阵补全的方法进行学习,预测GPCR的配体生物活性功能如下表9,选取前7维的结果为例。依据回归模型的评价指标:均方根误差,其中,yi代表真实值,代表预测值,n代表样本数。RMSE是评估回归模型的常用指标,当RMSE越小,说明预测的结果越好。相关系数的平方其中,X表示补全的关系矩阵,Xpr表示补全的关系矩阵中非-11的值均值;M表示真实的关系矩阵,Mpr表示真实的关系矩阵中非-11的均值。r2越大说明预测结果越好。
通过将已知的GPCR-ligands关系矩阵表6和预测矩阵下图表9进行比对;依据以上评价指标计算出RMSE和r2,其中RMSE=[0.6709,0.7273,0.7195...];r2=[0.6452,0.6951,0.7817...]。依据以上评价指标计算出RMSE和如下表10,其中,RF、SVR、GBDT为传统回归算法,由表10可知相同条件下,对比传统回归算法,IMC算法的预测结果较好。
表9
A1 -11 -11 -11 -11 -11 -11 -11
A2 -11 -11 -11 -3.51184 -11 -11 -11
A3 -11 -11 -11 -3.13234 -11 -11 -11
表10
即利用Word2vec多视图等方法训练出GPCR的特征向量,并且利用mifv算法将每个GPCR用一个向量并通过PCA算法实现降维表示。同时,配体通过ECFP分子指纹表示,此时,利用已经得到的每个GPCR和配体的特征向量加入到矩阵补全算法中,应用归纳矩阵补全(IMC)预测GPCR的配体生物活性功能。
本发明中已知的GPCR-ligands关系矩阵其中Ngr表示GPCR的总数,也就是关系矩阵的行数,Nlg配体总数,关系矩阵的列数。Pij≠-11表示GPCRi和ligands j有关系,等于-11时表示暂时未发现关系或没有关系。综上,本发明基于矩阵补全算法预测GPCR与ligands的潜在关系就是发现Pij=-11中存在真实关系的部分。
现有的最常见模型是基于低秩的模型,即预测关系矩阵M=WHT,其中 且k<<m,n。应用于传统的低秩矩阵补全预测GPCR的ligands功能,可以表示为:
其中,Ω表示真实关系的集合,λ表示正则化参数,表示第i个GPCR和第j个ligands的预测的关系。
W和H是基于低秩的模型得到的,但通常由于已知的关系矩阵特别稀疏,甚至有些ligands列只与几个别的GPCR有关系,导致预测的性能特别的低。因此,为了做出有意义的预测,需要更多关于GPCR和ligands的信息。
IMC是在传统矩阵补全的基础上加入关系矩阵中行和列的特征向量,即本申请应用的GPCR和ligands的特征向量。原理矩阵如下:
其中,是Ngr个GPCR的特征矩阵,表示第i个GPCR的特征向量,是Nlg个ligands的特征矩阵,表示第j个ligands的特征向量;表示正则化项,l为损失函数,用来估计预测的偏离程度,通常我们采用损失函数为l(a,b)=(a-b)2的形式。
IMC是根据已知的关系矩阵P,补全出潜在的具有真实关系的低秩矩阵Z=WHT,且通常k比较小,
首先,随机初始化W,H,随后固定H值,利用原理矩阵迭代更新W,直到达到最优解;然后,同样固定W的值迭代更新H达到最优解,最后的输出为W和H的矩阵,利用预测出第i个GPCR与第j个ligands的关系值。
当给定一个不是训练集中的新的ligands时,用j′表示,只要有j′的特征向量yj′,就可以预测与新的ligands对应的所有GPCR关系,同样,在知道特征向量的情况下可以预测新的GPCR的ligands关系。
通常,当特征的数目非常大时,传统的矩阵补全需要知道(Ngr+Nlg)×k个参数,而在发明的IMC中参数的个数与GPCR和ligands的个数无关,仅取决于GPCR和ligands特征的数量fgr和flg,通常fgr和flg远小于Ngr和Nlg
接着,使用三折交叉验证的思想验证GPCR补全的ligands关系。
首先,将已知的GPCR、ligands关系对分成三个大小相等的组,隐藏其中一组的关系并对剩余的关系组进行训练,重复三次,确保每个组都被隐藏一次;
对于数据集中的每一个ligands,对所有预测的GPCR,进行整合为一个GPCR预测矩阵,通过将已知的关系矩阵P和预测矩阵进行比对;采用了矩阵补全的评价指标,即相关系数,即correlation coefficient,以r表示,以r的平方即r2来评价补全的关系矩阵的性能,如下式所示:
其中,X表示补全的关系矩阵,Xpr表示补全的关系矩阵中非-11的值均值;M表示真实的关系矩阵,Mpr表示真实的关系矩阵中非-11的均值。
本发明为了预测GPCR的配体生物活性功能,采用归纳矩阵补全算法,即IMC,并且IMC算法与目前最优的矩阵补全算法即:IMC、FPCA、LmaFit、SVT、Maxide等算法进行对比。
由于传统的矩阵补全只是利用关系矩阵来进行补全,而有些样本的标记很少,矩阵很稀疏,所以会导致预测性能很低。当加入了样本空间以及标记空间的特征信息后,对于不同的GPCR,当其特征相近时,可以以相似的GPCR来预测相似的ligands的生物活性,因此使得性能有很大程度的提高。
本发明的最终目标是预测GPCR的配体生物活性功能,通过已知部分GPCR-ligands关系的矩阵,利用矩阵补全算法补全潜在的GPCR-ligands关系。
传统的湿实验受到现实的经济、时间等因素影响往往不会去得到所有感兴趣化合物分子与药物靶标作用生物活性值,分子与靶标作用生物活性中存在大量缺失值。针对大量缺失值下的配体生物活性预测的问题,利用传统的矩阵补全方法,预测关系矩阵M=WHT,其中且k<<m,n。由于只是进行一个矩阵的低秩分解优化得到,因此无法解决这个问题,使得预测的结果很差。
但采用本发明的归纳矩阵补全算法,根据已知的关系矩阵P,补全出潜在的具有真实关系的低秩矩阵Z=WHT,且
通常fgr和flg远小于Ngr和Nlg。将分解的矩阵W,H的维度进行了很大程度上的降低,因此很好地解决了大量缺失值下的配体生物活性预测的问题。
由于本发明是一种回归模型,所以本发明还与多种传统回归学习方法进行了比较,包括SVR、GBDT、RF。而结果说明,上述三种传统回归方法相较于矩阵补全算法而言不适合本发明的GPCR-ligands关系矩阵预测问题。
本发明还提供一种GPCR药物靶标的配体生物活性预测方法的应用,所述方法应用于GPCR药物靶标的配体生物活性预测装置。
优选地,所述GPCR药物靶标的配体生物活性预测装置包括如下模块:配体分子指纹生成装置、药物靶标分子特征向量生成装置、配体分子指纹生成装置,配体生物活性预测装置。
进一步地,所述配体分子指纹生成装置为通过使用ECFP分子指纹实现对配体分子进行表征,该配体分子的特定子结构的有无通过使用二进制编码实现对应;输入为所述配体分子的smiles格式,如下表1,选取部分smiles及生物活性值values,对应输出为该配体分子的分子特征并以二进制格式表示如下表8。
表1
表8
0 1 0 1 0 0 0 0
0 1 0 1 0 0 0 0
0 1 0 1 0 0 0 0
优选地,所述药物靶标分子特征向量生成装置为利用Word2vec多视图等方法训练出药物靶标的特征向量并进行拼接,最终构成药物靶标的总特征向量;输入为从网上的数据库下载了GPCR的各种信息数据,其中主要包括了GPCR的文本信息、三联氨基酸信息、进化信息、二级结构关联信息、物化信息、无序残基信息、信号肽信息、结构域文本信息,其中GPCR的文本部分信息如表2,输出为以上多种数据处理后拼接而成的特征向量如下表3。
表2
表3
A1 0.46352 0.61512 0.44296 0.35147 0.77357 0.59037 0.56342
A2 0.50763 0.60117 0.34448 0.40831 0.76540 0.68840 0.55051
A3 0.22593 0.43921 0.58654 0.49466 0.64873 0.48729 0.61455
优选地,所述基于归纳矩阵补全的配体生物活性预测装置为利用药物靶标和配体的特征矩阵,通过归纳矩阵补全的方法,补全除已知部分药物靶标和配体关系矩阵外的潜在的药物靶标和配体关系;输入经过PCA降维后的药物靶标特征向量如表4,选取前7维特征为例、配体的特征矩阵如表8,选取前8维特征为例以及GPCR-ligands关系矩阵如表6,选取前7维结果为例,输出预测的关系矩阵如表5。
表4
A1 -1.63982 0.81262 -0.18036 0.27077 -0.74227 1.07717 0.36152
A2 -1.00456 0.66687 0.66848 1.25511 0.08140 -0.69820 0.58871
A3 1.97253 1.96251 -0.57694 -0.46196 0.12003 0.05349 -0.30765
表5
A1 -0.12389 -0.19903 0.43813 0.22421 -0.03293 -0.64641 -0.68695
A2 -0.97941 -0.33869 -0.28843 -11 0.302627 -0.32014 0.313017
A3 -0.65521 -0.42077 -0.45627 -3.13234 -0.24465 -1.87931 -0.74393
进一步地,所述GPCR药物靶标的配体生物活性预测装置还包括化合物生物活性预测装置模块,对化合物生物活性进行预测;输入为由表1生物活性值构成的关系矩阵如表6和通过矩阵补全预测的关系矩阵如表5通过交叉验证,实现对化合物生物活性进行预测。对应的部分输出结果如表9。
表6
A1 -11 -11 -11 -11 -11 -11 -11
A2 -11 -11 -11 -3.6 -11 -11 -11
A3 -11 -11 -11 -3.13205 -11 -11 -11
表9
A1 -11 -11 -11 -11 -11 -11 -11
A2 -11 -11 -11 -3.51184 -11 -11 -11
A3 -11 -11 -11 -3.13234 -11 -11 -11
如附图2所示,首先根据GPCR的生物活性值values构建GPCR-ligands的关系矩阵P,如选取药物靶标P30939作为GPCR1,根据GPCR的文本,结构域文本等信息利用Word2vec多视图等方法训练拼接出GPCR1的特征向量[0.46352 0.61512 0.44296 0.35147 0.773570.59037 0.56342……],通过降维获得X=[-1.63982 0.81262 -0.18036 0.27077 -0.74227 1.07717 0.36152……];同时,对应ligand1配体分子通过ECFP分子指纹表示为特征向量Y=[0 1 0 1 0 0 0 0……];然后,构建模型关系如上图,其中,Pij表示第i个药物靶标与第j个配体分子的生物活性值;xi表示第i个药物靶标的特征向量,为xi的转置矩阵,yj表示第j个配体的特征向量;根据已知的药物靶标和配体关系矩阵P=[-11 -11 -11 -11 -11 -11 -11 -1.3 -11……],其中,当Pij≠-11表示第i个药物靶标和第j个配体有关系,其值为有效的生物活性值,Pij=-11时表示暂时未发现关系。补全潜在的具有真实关系的低秩矩阵Z=WHT,通过随机初始化W,H,随后固定H值,利用模型关系使模型等式两边尽可能相等,迭代更新W,直到达到最优解;固定W的值迭代更新H达到最优解,最后的输出为W和H的矩阵,利用公式预测出第i个药物靶标与第j个配体的关系值=[-11 -11 -11 -11-11 -11 -11 -1.29 -11……],从而实现基于矩阵补全完成进行预测GPCR的配体生物活性功能的目的。

Claims (10)

1.一种GPCR药物靶标的配体生物活性预测方法,其特征在于,包括如下步骤:
S1、获取药物靶标特征信息,并将各特征信息形成对应特征矩阵;
S2、获取配体的ECFP分子指纹信息,并将各特征信息形成对应特征矩阵;
S3、利用归纳矩阵补全的方法针对药物靶标和配体的特征矩阵进行性能评价,找出对于模型构建有效的特征信息;补全除已知部分药物靶标和配体关系矩阵外的潜在的药物靶标和配体关系,寻找Pij=-11中存在真实关系的部分,用于对药物靶标的配体生物活性进行预测,其中当Pij表示第i个药物靶标和第j个配体的关系。
2.如权利要求1所述的GPCR药物靶标的配体生物活性预测方法,其特征在于:所述S3中已知部分药物靶标和配体关系矩阵为:
其中Ngr表示药物靶标的总数,为关系矩阵的行数,Nlg为配体的总数,为关系矩阵的列数,当Pij≠-11表示第i个药物靶标和第j个配体有关系,Pij=-11时表示未发现关系。
3.如权利要求1所述的GPCR药物靶标的配体生物活性预测方法,其特征在于:所述S1中特征信息包括药物靶标的文本信息、结构域文本信息、进化信息、二级结构信息、序列信息、序列近程和远程相关性信息、物理化学信息。
4.如权利要求1所述的GPCR药物靶标的配体生物活性预测方法,其特征在于:所述S3中矩阵补全法包括如下步骤:
S41、首先如下式的建立模型关系:
其中,是Ngr个药物靶标的特征矩阵,表示第i个药物靶标的特征向量;是Nlg个配体的特征矩阵,表示第j个配体的特征向量;表示正则化项,为损失函数,用于估计预测的偏离程度;Ω表示真实关系的集合,λ表示正则化参数,Wi THj表示第i个GPCR和第j个ligands的预测的关系;其中,T代表矩阵的转置;R代表实数集;F代表F范数。
S42、根据已知的药物靶标和配体关系矩阵P,补全潜在的具有真实关系的低秩矩阵Z=WHT,且
S43、随机初始化W,H,随后固定H值,利用步骤S31中的模型关系迭代更新W,直到达到最优解;固定W的值迭代更新H达到最优解,最后的输出为W和H的矩阵,利用预测出第i个药物靶标与第j个配体的关系值;
S44、使用三折交叉方法对已知的药物靶标、配体关系进行分组做性能的测量;
S45、对性能的预测进行比较,直至找到最优解,完成矩阵的补全。
5.如权利要求1-4中任一GPCR药物靶标的配体生物活性预测方法的应用,其特征在于:所述方法应用于GPCR药物靶标的配体生物活性预测装置。
6.如权利要求5所述的GPCR药物靶标的配体生物活性预测方法的应用,其特征在于,所述GPCR药物靶标的配体生物活性预测装置包括如下模块:配体分子指纹生成装置、药物靶标分子特征向量生成装置、配体分子指纹生成装置,配体生物活性预测装置。
7.如权利要求6所述的GPCR药物靶标的配体生物活性预测方法的应用,其特征在于,所述配体分子指纹生成装置为通过使用ECFP分子指纹实现对配体分子进行表征,该配体分子的特定子结构的有无通过使用二进制编码实现对应;输入为所述配体分子的smiles格式,输出为该配体分子的分子特征。
8.如权利要求6所述的GPCR药物靶标的配体生物活性预测方法的应用,其特征在于,所述药物靶标分子特征向量生成装置为利用Word2vec多视图等方法训练出药物靶标的特征向量并进行拼接,最终构成药物靶标的总特征向量;输入为从网上的数据库下载了GPCR的各种信息数据,其中主要包括了GPCR的文本信息、三联氨基酸信息、进化信息、二级结构关联信息、物化信息、无序残基信息、信号肽信息、结构域文本信息,输出为以上多种数据处理后拼接而成的特征向量。
9.如权利要求6所述的GPCR药物靶标的配体生物活性预测方法的应用,其特征在于,所述基于归纳矩阵补全的配体生物活性预测装置为利用药物靶标和配体的特征矩阵,通过归纳矩阵补全的方法,补全除已知部分药物靶标和配体关系矩阵外的潜在的药物靶标和配体关系;输入经过PCA降维后的药物靶标特征向量、配体的特征矩阵以及GPCR-ligands关系矩阵如,输出预测的关系矩阵。
10.如权利要求6所述的GPCR药物靶标的配体生物活性预测方法的应用,其特征在于,所述GPCR药物靶标的配体生物活性预测装置还包括化合物生物活性预测装置模块,对化合物生物活性进行预测;输入为生物活性值构成的关系矩阵和通过矩阵补全预测的关系矩阵通过交叉验证,输出对化合物生物活性进行预测。
CN201910677192.2A 2019-07-25 2019-07-25 一种gpcr药物靶标的配体生物活性预测方法及其应用 Withdrawn CN110400605A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910677192.2A CN110400605A (zh) 2019-07-25 2019-07-25 一种gpcr药物靶标的配体生物活性预测方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910677192.2A CN110400605A (zh) 2019-07-25 2019-07-25 一种gpcr药物靶标的配体生物活性预测方法及其应用

Publications (1)

Publication Number Publication Date
CN110400605A true CN110400605A (zh) 2019-11-01

Family

ID=68326078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910677192.2A Withdrawn CN110400605A (zh) 2019-07-25 2019-07-25 一种gpcr药物靶标的配体生物活性预测方法及其应用

Country Status (1)

Country Link
CN (1) CN110400605A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120006A (zh) * 2020-08-28 2022-03-01 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备和计算机可读存储介质
CN116631495A (zh) * 2023-07-26 2023-08-22 香港中文大学(深圳) 激动剂分子对gpcr激活能力的预测方法及其系统
CN116646001A (zh) * 2023-06-05 2023-08-25 兰州大学 基于联合式跨域注意力模型预测药物靶标结合性的方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120006A (zh) * 2020-08-28 2022-03-01 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备和计算机可读存储介质
CN114120006B (zh) * 2020-08-28 2024-02-06 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备和计算机可读存储介质
CN116646001A (zh) * 2023-06-05 2023-08-25 兰州大学 基于联合式跨域注意力模型预测药物靶标结合性的方法
CN116646001B (zh) * 2023-06-05 2024-05-24 兰州大学 基于联合式跨域注意力模型预测药物靶标结合性的方法
CN116631495A (zh) * 2023-07-26 2023-08-22 香港中文大学(深圳) 激动剂分子对gpcr激活能力的预测方法及其系统
CN116631495B (zh) * 2023-07-26 2023-11-21 香港中文大学(深圳) 激动剂分子对gpcr激活能力的预测方法及其系统

Similar Documents

Publication Publication Date Title
CN113327644B (zh) 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法
CN112735535B (zh) 预测模型训练、数据预测方法、装置和存储介质
CN110957002B (zh) 一种基于协同矩阵分解的药物靶点相互作用关系预测方法
CN112119464A (zh) 用于mhc肽结合预测的gan-cnn
US20210166779A1 (en) Protein Structure Prediction from Amino Acid Sequences Using Self-Attention Neural Networks
CN110400605A (zh) 一种gpcr药物靶标的配体生物活性预测方法及其应用
CN113299346B (zh) 分类模型训练和分类方法、装置、计算机设备和存储介质
CN110021341A (zh) 一种基于异构网络的gpcr药物和靶向通路的预测方法
US20230298687A1 (en) Predicting protein structures by sharing information between multiple sequence alignments and pair embeddings
US20020072887A1 (en) Interaction fingerprint annotations from protein structure models
Wu et al. Anticancer peptide prediction via multi-kernel CNN and attention model
CN113223609A (zh) 基于异质信息网络的药物靶标相互作用预测方法
CN111048145B (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
CN117423391A (zh) 一种基因调控网络数据库的建立方法、系统及设备
US20230402133A1 (en) Predicting protein structures over multiple iterations using recycling
US20230395186A1 (en) Predicting protein structures using auxiliary folding networks
CN113192562B (zh) 融合多尺度模块结构信息的致病基因识别方法及系统
CN113270153A (zh) 一种靶向g蛋白偶联受体的化合物的筛选方法
US20240153577A1 (en) Predicting symmetrical protein structures using symmetrical expansion transformations
Wang et al. Splicescanner: An accurate and interpretable deep learning-based method for splice site prediction
US20230410938A1 (en) Predicting protein structures using protein graphs
Shi et al. ScSSC: Semi-supervised single cell clustering based on 2D embedding
Mitra et al. Spatial Analysis of Tumor Heterogeneity Using Machine Learning Techniques
Seo Interpretable Statistical Learning: From Hidden Markov Models to Neural Networks
Park et al. Dual Representation Learning for Predicting Drug-side Effect Frequency using Protein Target Information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20191101

WW01 Invention patent application withdrawn after publication