CN103116713A - 基于随机森林的化合物和蛋白质相互作用预测方法 - Google Patents

基于随机森林的化合物和蛋白质相互作用预测方法 Download PDF

Info

Publication number
CN103116713A
CN103116713A CN201310059088XA CN201310059088A CN103116713A CN 103116713 A CN103116713 A CN 103116713A CN 201310059088X A CN201310059088X A CN 201310059088XA CN 201310059088 A CN201310059088 A CN 201310059088A CN 103116713 A CN103116713 A CN 103116713A
Authority
CN
China
Prior art keywords
compound
target point
prediction
protein
protein matter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310059088XA
Other languages
English (en)
Other versions
CN103116713B (zh
Inventor
黄剑平
范骁辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201310059088.XA priority Critical patent/CN103116713B/zh
Publication of CN103116713A publication Critical patent/CN103116713A/zh
Application granted granted Critical
Publication of CN103116713B publication Critical patent/CN103116713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于随机森林的化合物和蛋白质相互作用预测方法,包括:收集与药物化合物存在相互作用的靶点蛋白质信息,构建靶点库;收集用于构建训练集的药物化合物、以及药物化合物与靶点蛋白质之间的相互作用关系信息,构建化合物库;根据化合物库和靶点库的信息构建训练集;基于所述的训练集,使用改进随机森林算法进行训练,建立预测模型;收集用于预测的化合物,连同步骤(A)中得到的靶点蛋白质信息构建测试集;基于所述预测模型对所述测试集进行预测;(H)根据所述预测结果判断待预测的化合物和靶点蛋白质之间是否存在相互作用。本发明可以提高化合物和蛋白质相互作用的预测准确率。

Description

基于随机森林的化合物和蛋白质相互作用预测方法
技术领域
本发明涉及计算机辅助药物设计领域,特别涉及一种基于随机森林算法、用于预测化合物和蛋白质之间相互作用的方法。
背景技术
近十多年以来,在全世界范围内,虽然药物研发的投入越来越大,但是其产出—FDA批准上市的药物数量却呈现逐年下降的趋势(C.R.Chong&D.J.Sullivan,Nature,2007.448:p.645-646.)。越来越多的学者认为,传统的“单药物,单靶点”药物研发模式是导致这种结果的主要原因。
传统的药物研发的目标主要在于发现针对单一靶点、具有高选择性和高安全性的药物。但是,人们逐渐发现,药物和靶点之间的关系是多对多的关系,即一个药物往往会作用于多个不同的靶点,而一个靶点也往往会与多种不同的药物产生相互作用(A.L.Hopkins,Nature chemical biology,2008.4(11):p.682-690.)。例如,在通过FDA审批的新化合物实体(NCE)中,有超过80%与已知的靶点产生了相互作用(M.A.Yildirim,et al.,Nature biotechnology200725(10):p1119-1126)。因此,著名的诺贝尔奖获得者James Black说,最有效的发现新药的方法是从老的药物出发去寻找(C.R.Chong&D.J.Sullivan,Nature,2007.448:p.645-646.)。
化合物和蛋白质相互作用预测是发现已知药物的新用途—即老药新用的主要研究方法之一。事实上,从已知的化合物和蛋白质相互作用中发现新的化合物和蛋白质相互作用关系,不仅有可能发现老药的新用途,还可用于发现全新的药物和全新的靶点。所以,化合物和蛋白质相互作用预测是近年来较为热门的一个研究命题。但是,目前化合物和蛋白质相互作用预测所面临的主要问题是预测准确率低、特别是假阳性高(H.Yu et al.,PloS one,2012.7(5):p.e37608.)。为此,研究发现预测准确率更高的化合物和蛋白质相互作用预测新方法具有重大意义。
发明内容
本发明的目的是针对目前现有化合物和蛋白质相互作用方法的预测准确率低的特点,提出一种基于随机森林算法、可用于发现化合物和蛋白质相互作用的方法,以更加有效地提高化合物和蛋白质之间相互作用预测的准确率。
一种基于随机森林的化合物和蛋白质相互作用预测方法,包括:
(A)收集与药物化合物存在相互作用的靶点蛋白质信息,构建靶点库;
(B)收集用于构建训练集的药物化合物、以及药物化合物与靶点蛋白质之间的相互作用关系信息,构建化合物库;
(C)根据所述化合物库和所述靶点库的信息构建训练集;
(D)改进随机森林算法,使得随机森林算法的最终预测结果是通过随机森林中多个子树的预测结果相加然后取平均值获得到,其值在0和1之间分布;
(E)基于所述的训练集,使用所述的改进随机森林算法进行训练,建立预测模型;
(F)收集用于预测的化合物,连同步骤(A)中得到的靶点蛋白质信息构建测试集;
(G)基于所述预测模型对所述测试集进行预测;
(H)根据所述预测结果判断待预测的化合物和靶点蛋白质之间是否存在相互作用。
所述步骤(A)中收集与药物化合物存在相互作用的靶点蛋白质信息时,首先收集与药物化合物存在相互作用的靶点蛋白质的序列信息,然后通过PseAAC(伪氨基酸组成,Pseudo Amino Acid Composition,见文献HB Shen&KC ChouAnalytical Biochemistry2008373(2)p386–388)工具计算得到每个靶点蛋白质的特征描述符。
所述步骤(B)中收集用于构建训练集的药物化合物时:需要收集药物化合物的分子结构信息,然后通过Dragon软件计算药物化合物的分子描述符,同时剔除掉那些含有无效值、零值比例大于设定比例及标准差小于设定值的分子描述符。
所述步骤(C)中,所述训练集的每一个样本都由一个药物化合物和一个靶点蛋白质配对组成,其中独立变量为药物化合物的分子描述符和靶点蛋白质的特征描述符,而因变量为药物化合物和靶点蛋白质之间的相互作用关系,具体步骤如下:
(1)因变量的取值判断如下:如果一个药物化合物和一个靶点蛋白质之间存在着已知的相互作用关系,那么对应的因变量值为阳性;如果一个药物化合物和一个靶点蛋白质之间未发现存在相互作用关系,对应的因变量值为阴性;
(2)使用所有存在相互作用关系的药物化合物和靶点蛋白质构成阳性样本,而阴性样本则从未发现存在相互作用关系的药物化合物和靶点蛋白质比对中随机产生,并使阳性样本和阴性样本的数据比例保持为1:1。最后,训练集的总样本数等于所选定化合物与蛋白质的相互作用关系的数量乘以2。
所述步骤(D)中,对所述随机森林算法,优先选用Java版本的Weka软件包(M.Hall et al.,A CM SIGKDD Explorations Newsletter2009.11(1):p.10-18.)中所带的随机森林算法,并对该算法进行改进。缺省的随机森林算法是根据多个不同的子树(tree)的预测结果进行投票(voting)来产生最终的结果,因此结果只有两种形式(阳性和阴性、或1和0)。改进后的随机森林算法中:随机森林算法的最终预测结果是通过随机森林中多个子树的预测结果相加然后取平均值获得到,其值在0和1之间分布。
所述步骤(E)中,为提高预测精度,对所述随机森林算法的参数进行设置,其中子树数量设置为大于1000个。
所述步骤(F)中,对于所收集的用于预测的化合物,需要获得相应的分子结构,并根据该分子结构信息,选择使用Dragon软件计算用于预测的化合物的分子描述符,且只留下那些与步骤(B)中相一致的分子描述符,其余全部剔除,然后把每一个用于预测的化合物与靶点库中的所有靶点蛋白质进行整合构建测试集。
所述步骤(H)中,用于预测的化合物和靶点蛋白质相互作用的预测结果值分布在0和1之间,通过把结果值与设置的阈值相比较,如果结果值大于阈值,那么表示这一对用于预测的化合物和靶点蛋白质产生相互作用。
本发明的有益效果体现在:
(1)随机森林算法是一种分类算法,其预测结果通常只分为两类(如0和1,或是和否),而本发明利用随机森林是由一系列子树构成的特点改进了该算法,使其预测结果可以以概率的形式给出,这样更利于我们准确判断其结果的可靠性。
(2)本发明预测的结果还可以根据概率大小进行排序,通过设置阈值,让我们优先选择排列靠前的潜在化合物和蛋白质相互作用关系进行验证。
附图说明
图1为本发明的基于随机森林的化合物和蛋白质相互作用预测方法的结构示意图。
具体实施方式
为使本发明的目的、实施方案和优点更加清楚明白,这里结合具体实施例子作进一步的详细说明,如图1所示:
(A)、收集已知的与药物化合物存在相互作用的靶点蛋白质信息以构建靶点库。
从DrugBank3.0数据库(C.Knoxet al.,Nucleic Acids Research,201139(suppl 1),p.D1035-D1041)中下载获得4177个已知的可以与药物产生相互作用的靶点蛋白质及其序列等信息,并根据靶点蛋白质序列信息,选择通过PseAAC(伪氨基酸组成,Pseudo Amino Acid Composition,见文献HB Shen&KC Chou,Analytical Biochemistry,2008,373(2),p.386-388)工具计算得到所有靶点蛋白质的特征描述符,其中特征描述符的个数为30个。
(B)、收集用于构建训练集的药物化合物(即同步骤(A)中的药物化合物)、以及药物化合物与靶点蛋白质之间的相互作用关系信息以构建化合物库。
从DrugBank数据库下载5170个实验类(Experimental)药物对应的化合物信息,包括SDF格式的分子结构,并根据分子结构信息,选择使用Dragon软件计算2D分子描述符,然后对得到的每一个分子描述符进行如下判断,若满足如下条件之一则剔除该分子描述符:(i)该分子描述符中含有无效值;(ii)该分子描述符中零值比例大于设定比例(例如>90%);(iii)该分子描述符的标准差小于设定标准差(例如<0.5)。最后剩下368个分子描述符。
从DrugBank数据库下载所有实验类药物与蛋白质的相互作用关系信息。
(C)、根据化合物库和靶点库信息构建训练集。
训练集的每一个样本都由一个化合物和一个蛋白质配对信息组成,其中独立变量由通过Dragon软件计算获得的368个分子描述符和通过PseAAC计算获得的30个蛋白质特征描述符组成,而因变量为化合物和蛋白质之间的相互作用关系,具体步骤如下:
(1)因变量的取值判断如下:如果一个药物化合物和一靶点蛋白质之间存在着已知的相互作用关系,那么对应的因变量值为阳性(positive或1);如果一个药物化合物和一个靶点蛋白质之间未发现存在相互作用关系,对应的因变量值为阴性(negative或0);
(2)使用所有存在相互作用关系的化合物和蛋白质构成阳性样本,而阴性样本则从未发现存在相互作用关系的药物化合物和靶点蛋白质比对中随机产生,并使阳性样本和阴性样本的数据比例保持为1:1。最后,训练集的总样本数等于所选定药物化合物与靶点蛋白质的相互作用关系的数量乘以2。
(D)改进随机森林算法,使之能够以概率的形式给出药物化合物和靶点蛋白质相互作用关系的预测结果。
随机森林(Random Forests)算法(L.Breiman,Machine learning,2001.45(1):p.5-32.)是一种非常著名的机器学习方法,由于能够建立预测准确率非常高的分类器而被广泛应用于机器学习领域。但是,其缺点是只能够进行两分类预测,即预测结果只有两种(阳性和阴性、或1和0)。
这里以Java版本的Weka软件包(M.Hall et al.,ACM SIGKDD Explorations Newsletter,2009.11(1):p.10-18.)中提供的随机森林算法作为基础,并做了进一步改进。现有的随机森林算法在预测部分,缺省的随机森林算法是根据多个不同的子树(tree)的预测结果进行投票(voting)来产生最终的结果,结果也只有两种形式(阳性和阴性、或1和0);即:如果有超过半数的子树的预测结果认为药物化合物和靶点蛋白质之间不存在相互作用,那么最后随机森林的预测结果即认为彼此不存在相互作用(阴性或0);相反,如果有超过半数的子树的预测结果认为药物化合物和靶点蛋白质之间存在相互作用,那么最后随机森林的预测结果即认为彼此存在相互作用(阳性或1)。
而改进的随机森林算法的最终预测结果是通过随机森林中多个子树的预测结果相加然后取平均值获得到,其值在0和1之间分布。
(E)基于所述的训练集,使用改进随机森林算法进行训练,建立预测模型。
设置随机森林算法的参数,把其中子树的数量设置为2000个,然后使用改进的随机森林算法对训练集进行训练,获得预测模型。
(F)收集用于预测的化合物(为实验类药物),并据此构建测试集。
为进一步证实本发明方法的准确性,我们从DrugBank数据库下载1401个通过美国FDA审批的已认证类(Approved)药物所对应的化合物信息作为预测的化合物,包括SDF格式的分子结构,并根据分子结构信息,选择使用Dragon软件计算2D分子描述符,只留下那些与步骤(B)中相一致的分子描述符,其余全部剔除。
与步骤(C)中构建训练集相类似,把每一个用于预测的化合物与所有靶点库中的蛋白质进行组合,其中每一个测试样本分别由通过Dragon软件计算获得的368个分子描述符和通过PseAAC计算获得的30个靶点蛋白质特征描述符组成,最后得到的测试集的样本数为:
用于预测的化合物数×靶点蛋白质数=1401×4177=5851977(个)。
(G)基于预测模型对测试集进行预测。
使用步骤(E)中所建立的预测模型对步骤(F)中所获得的测试集进行预测,并记录所有5851977个用于预测的化合物和靶点蛋白质相互作用的预测结果。
(H)根据所述预测结果判断用于预测的化合物和靶点蛋白质之间是否存在相互作用。
用于预测的化合物和靶点蛋白质相互作用的预测结果值分布在0和1之间,通过把结果值与设置的阈值(如0.5)相比较来判断是否产生相互作用,如果结果值大于阈值,那么即表示这一对用于预测的化合物和靶点蛋白质是产生相互作用。
基于本发明的例子,在步骤(G)所获得的5851977个用于预测的化合物和靶点蛋白质相互作用的预测结果中,如果以0.5作为阈值,即若预测结果值<0.5即判为不存在相互作用,而若预测结果值>0.5即判为存在相互作用,那么最后的预测准确率为95.7%;与此类似,如果把阈值分别设置为0.6和0.7,那么其最后的预测准确率分别提高到98.6%和98.5%。显然,随着阈值的增加,准确率会进一步提高。这意味着,预测结果值越接近1或0,那么其被正确预测的概率越大。
(I)预测准确率比较分析。
基于本发明的结果准确率高于同类文献所报道的准确率。例如:①同样使用drugbank数据库建立模型对化合物和蛋白质相互作用进行预测的文献(H.Yu etal.,PloS one,2012.7(5):p.e37608.)所获得的准确率(约66%~83%);②基于KEGG数据库建立模型对化合物和蛋白质相互作用进行预测的文献(Z.He et al.,PloS one,2010.5(3):p.e9603.)所获得的准确率(约78%~86%)。

Claims (7)

1.一种基于随机森林的化合物和蛋白质相互作用预测方法,其特征在于,包括:
(A)收集与药物化合物存在相互作用的靶点蛋白质信息,构建靶点库;
(B)收集用于构建训练集的药物化合物、以及药物化合物与靶点蛋白质之间的相互作用关系信息,构建化合物库;
(C)根据所述化合物库和所述靶点库的信息构建训练集;
(D)改进随机森林算法,使得随机森林算法的最终预测结果是通过随机森林中多个子树的预测结果相加然后取平均值获得到,其值在0和1之间分布;
(E)基于所述的训练集,使用所述的改进随机森林算法进行训练,建立预测模型;
(F)收集用于预测的化合物,连同步骤(A)中得到的靶点蛋白质信息构建测试集;
(G)基于所述预测模型对所述测试集进行预测;
(H)根据所述预测结果判断待预测的化合物和靶点蛋白质之间是否存在相互作用。
2.根据权利要求1所述的基于随机森林的化合物和蛋白质相互作用预测方法,其特征在于,所述步骤(A)中收集已知的与药物化合物存在相互作用的靶点蛋白质信息时,首先收集与药物化合物存在相互作用的靶点蛋白质的序列信息,然后通过PseAAC工具计算得到每个靶点蛋白质的特征描述符。
3.根据权利要求2所述的基于随机森林的化合物和蛋白质相互作用预测方法,其特征在于,所述步骤(B)中收集用于构建训练集的药物化合物时:需要收集药物化合物的分子结构信息,然后通过Dragon软件计算药物化合物的分子描述符,同时剔除掉那些含有无效值、零值比例大于设定比例、及标准差小于设定值的分子描述符。
4.根据权利要求3所述的基于随机森林的化合物和蛋白质相互作用预测方法,其特征在于,所述步骤(C)中,所述训练集的每一个样本都由一个药物化合物和一个靶点蛋白质配对组成,其中独立变量为药物化合物的分子描述符和靶点蛋白质的特征描述符,而因变量为药物化合物和靶点蛋白质之间的相互作用关系,具体步骤如下:
(1)如果一个药物化合物和一个靶点蛋白质之间存在着已知的相互作用关系,那么对应的因变量值为阳性;如果一个药物化合物和一个靶点蛋白质之间未发现存在相互作用关系,对应的因变量值为阴性;
(2)使用所有存在相互作用关系的药物化合物和靶点蛋白质构成阳性样本,而阴性样本则从未发现存在相互作用关系的药物化合物和靶点蛋白质比对中随机产生,并使阳性样本和阴性样本的数据比例保持为1:1。
5.根据权利要求3所述的基于随机森林的化合物和蛋白质相互作用预测方法,其特征在于,所述步骤(E)中,对所述随机森林算法的参数进行设置,其中子树数量设置为大于1000个。
6.根据权利要求3所述的基于随机森林的化合物和蛋白质相互作用预测方法,其特征在于,所述步骤(F)中,对于所收集的用于预测的化合物,需要获得相应的分子结构,并根据该分子结构信息,选择使用Dragon软件计算用于预测的化合物的分子描述符,且只留下那些与步骤(B)中相一致的分子描述符,其余全部剔除,然后把每一个用于预测的化合物与靶点库中的所有靶点蛋白质进行整合构建测试集。
7.根据权利要求3所述的基于随机森林的化合物和蛋白质相互作用预测方法,其特征在于,所述步骤(H)中,用于预测的化合物和靶点蛋白质相互作用的预测结果值分布在0和1之间,通过把结果值与设置的阈值相比较,如果结果值大于阈值,那么表示这一对用于预测的化合物和靶点蛋白质产生相互作用。
CN201310059088.XA 2013-02-25 2013-02-25 基于随机森林的化合物和蛋白质相互作用预测方法 Active CN103116713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310059088.XA CN103116713B (zh) 2013-02-25 2013-02-25 基于随机森林的化合物和蛋白质相互作用预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310059088.XA CN103116713B (zh) 2013-02-25 2013-02-25 基于随机森林的化合物和蛋白质相互作用预测方法

Publications (2)

Publication Number Publication Date
CN103116713A true CN103116713A (zh) 2013-05-22
CN103116713B CN103116713B (zh) 2015-09-16

Family

ID=48415086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310059088.XA Active CN103116713B (zh) 2013-02-25 2013-02-25 基于随机森林的化合物和蛋白质相互作用预测方法

Country Status (1)

Country Link
CN (1) CN103116713B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473416A (zh) * 2013-09-13 2013-12-25 中国人民解放军国防科学技术大学 蛋白质相互作用的模型建立方法和装置
CN104615910A (zh) * 2014-12-30 2015-05-13 中国科学院深圳先进技术研究院 基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法
CN104710510A (zh) * 2013-12-12 2015-06-17 深圳先进技术研究院 Smac蛋白二聚拟合物及其鉴定方法
CN106529203A (zh) * 2016-12-21 2017-03-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法
CN104063632B (zh) * 2014-06-27 2017-09-01 南京理工大学 基于回归森林模型的蛋白质序列二硫键连接模式的预测方法
CN107679362A (zh) * 2017-09-19 2018-02-09 广东药科大学 化合物‑蛋白质相互作用亲和力识别方法、系统和装置
CN108959841A (zh) * 2018-04-16 2018-12-07 华南农业大学 一种基于dbn算法的药物靶向蛋白作用预测方法
CN109243527A (zh) * 2018-08-09 2019-01-18 中国人民解放军军事科学院军事医学研究院 一种酶切概率辅助的肽段可检测性预测方法
CN110534153A (zh) * 2019-08-30 2019-12-03 广州费米子科技有限责任公司 基于深度学习的靶标预测系统及其方法
CN110689965A (zh) * 2019-10-10 2020-01-14 电子科技大学 一种基于深度学习的药物靶点亲和力预测方法
CN112102889A (zh) * 2020-10-14 2020-12-18 深圳晶泰科技有限公司 基于机器学习的自由能微扰网络设计方法
CN112259157A (zh) * 2020-10-28 2021-01-22 杭州师范大学 一种蛋白质相互作用预测方法
CN112331262A (zh) * 2021-01-06 2021-02-05 北京百度网讯科技有限公司 亲和度预测方法及模型的训练方法、装置、设备及介质
CN114678063A (zh) * 2022-02-24 2022-06-28 华南理工大学 一种预测与新型冠状病毒蛋白质相互作用的药物的方法
WO2023236909A1 (zh) * 2022-06-07 2023-12-14 南方科技大学 一种提高化合物与蛋白质相互作用实验通量的方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735535B (zh) * 2021-04-01 2021-06-25 腾讯科技(深圳)有限公司 预测模型训练、数据预测方法、装置和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1777806A (zh) * 2003-04-23 2006-05-24 卫材株式会社 疾病预后模型的制作方法、使用该模型的疾病预后预测方法、利用该模型的预后预测装置以及其程序·存储介质
US20100161239A1 (en) * 2003-06-10 2010-06-24 Vicro Bvba Quantitative prediction method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1777806A (zh) * 2003-04-23 2006-05-24 卫材株式会社 疾病预后模型的制作方法、使用该模型的疾病预后预测方法、利用该模型的预后预测装置以及其程序·存储介质
US20100161239A1 (en) * 2003-06-10 2010-06-24 Vicro Bvba Quantitative prediction method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANPING HUANG等: "Decision forest for classification of gene expression data", 《COMPUTERS IN BIOLOGY AND MEDICINE》, vol. 40, no. 8, 31 August 2010 (2010-08-31), pages 698 - 704, XP027209026 *
席莉莉: "计算机辅助药物和蛋白性质预测研究", 《中国博士学位论文全文数据库基础科学辑》, no. 10, 15 October 2010 (2010-10-15) *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473416B (zh) * 2013-09-13 2016-06-29 中国人民解放军国防科学技术大学 蛋白质相互作用的模型建立方法和装置
CN103473416A (zh) * 2013-09-13 2013-12-25 中国人民解放军国防科学技术大学 蛋白质相互作用的模型建立方法和装置
CN104710510A (zh) * 2013-12-12 2015-06-17 深圳先进技术研究院 Smac蛋白二聚拟合物及其鉴定方法
CN104063632B (zh) * 2014-06-27 2017-09-01 南京理工大学 基于回归森林模型的蛋白质序列二硫键连接模式的预测方法
CN104615910A (zh) * 2014-12-30 2015-05-13 中国科学院深圳先进技术研究院 基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法
CN104615910B (zh) * 2014-12-30 2018-08-14 中国科学院深圳先进技术研究院 基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法
CN106529203A (zh) * 2016-12-21 2017-03-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法
CN107679362B (zh) * 2017-09-19 2020-12-08 广东药科大学 化合物-蛋白质相互作用亲和力识别方法、系统和装置
CN107679362A (zh) * 2017-09-19 2018-02-09 广东药科大学 化合物‑蛋白质相互作用亲和力识别方法、系统和装置
CN108959841A (zh) * 2018-04-16 2018-12-07 华南农业大学 一种基于dbn算法的药物靶向蛋白作用预测方法
CN109243527A (zh) * 2018-08-09 2019-01-18 中国人民解放军军事科学院军事医学研究院 一种酶切概率辅助的肽段可检测性预测方法
CN110534153A (zh) * 2019-08-30 2019-12-03 广州费米子科技有限责任公司 基于深度学习的靶标预测系统及其方法
CN110534153B (zh) * 2019-08-30 2024-04-19 广州费米子科技有限责任公司 基于深度学习的靶标预测系统及其方法
CN110689965A (zh) * 2019-10-10 2020-01-14 电子科技大学 一种基于深度学习的药物靶点亲和力预测方法
CN110689965B (zh) * 2019-10-10 2023-03-24 电子科技大学 一种基于深度学习的药物靶点亲和力预测方法
CN112102889A (zh) * 2020-10-14 2020-12-18 深圳晶泰科技有限公司 基于机器学习的自由能微扰网络设计方法
CN112259157A (zh) * 2020-10-28 2021-01-22 杭州师范大学 一种蛋白质相互作用预测方法
CN112259157B (zh) * 2020-10-28 2023-10-03 杭州师范大学 一种蛋白质相互作用预测方法
CN112331262A (zh) * 2021-01-06 2021-02-05 北京百度网讯科技有限公司 亲和度预测方法及模型的训练方法、装置、设备及介质
CN114678063A (zh) * 2022-02-24 2022-06-28 华南理工大学 一种预测与新型冠状病毒蛋白质相互作用的药物的方法
WO2023236909A1 (zh) * 2022-06-07 2023-12-14 南方科技大学 一种提高化合物与蛋白质相互作用实验通量的方法

Also Published As

Publication number Publication date
CN103116713B (zh) 2015-09-16

Similar Documents

Publication Publication Date Title
CN103116713B (zh) 基于随机森林的化合物和蛋白质相互作用预测方法
Stranneheim et al. Classification of DNA sequences using Bloom filters
Anzar et al. NeoMutate: an ensemble machine learning framework for the prediction of somatic mutations in cancer
CN113160882B (zh) 一种基于三代测序的病原微生物宏基因组检测方法
Ulrich et al. ReadBouncer: precise and scalable adaptive sampling for nanopore sequencing
Delgado-Serrano et al. Mycofier: a new machine learning-based classifier for fungal ITS sequences
Tailliar et al. Urinary peptides as potential non-invasive biomarkers for lupus nephritis: results of the peptidu-LUP study
Leão et al. NPOmix: a machine learning classifier to connect mass spectrometry fragmentation data to biosynthetic gene clusters
Wei et al. DMclust, a Density‐based Modularity Method for Accurate OTU Picking of 16S rRNA Sequences
Li et al. Identifying key MicroRNA signatures for neurodegenerative diseases with machine learning methods
CN113096737B (zh) 一种用于对病原体类型进行自动分析的方法及系统
KR102228552B1 (ko) 랜덤 포레스트 모델을 활용한 약물의 다중 표적 예측 방법
Zeng et al. MSTracer: A Machine Learning Software Tool for Peptide Feature Detection from Liquid Chromatography–Mass Spectrometry Data
CN112259157B (zh) 一种蛋白质相互作用预测方法
Razdaibiedina et al. PIFiA: self-supervised approach for protein functional annotation from single-cell imaging data
Li et al. ACP-GBDT: An improved anticancer peptide identification method with gradient boosting decision tree
US20140058682A1 (en) Nucleic Acid Information Processing Device and Processing Method Thereof
Kifer et al. GOSSIP: a method for fast and accurate global alignment of protein structures
Shivakumar et al. Sigmoni: classification of nanopore signal with a compressed pangenome index
EP2665009A1 (en) Nucleic acid information processing device and processing method thereof
Gkanogiannis et al. A scalable assembly-free variable selection algorithm for biomarker discovery from metagenomes
Clancy et al. Predicting physical interactions between protein complexes
US20100280759A1 (en) Mass spectrometer output analysis tool for identification of proteins
JP3936851B2 (ja) クラスタリング結果評価方法及びクラスタリング結果表示方法
Leao et al. A supervised fingerprint-based strategy to connect natural product mass spectrometry fragmentation data to their biosynthetic gene clusters

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant