CN105160206A - 一种预测药物的蛋白质相互作用靶点的方法和系统 - Google Patents
一种预测药物的蛋白质相互作用靶点的方法和系统 Download PDFInfo
- Publication number
- CN105160206A CN105160206A CN201510645421.4A CN201510645421A CN105160206A CN 105160206 A CN105160206 A CN 105160206A CN 201510645421 A CN201510645421 A CN 201510645421A CN 105160206 A CN105160206 A CN 105160206A
- Authority
- CN
- China
- Prior art keywords
- protein
- medicine
- drug
- target spot
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及一种预测药物的蛋白质相互作用靶点的方法和系统。该方法包括:1)收集人类蛋白质相互作用网络和药物的单个蛋白质靶点数据,构建药物的相互作用蛋白质靶点数据集;2)获取药物和蛋白质的描述数据;3)构建二部图表征药物和蛋白质对的相互作用关系,构建表征药物相似性和蛋白质对相似性的相似矩阵,建立核函数联系药物和蛋白质对的相似矩阵,通过机器学习算法建立预测模型;4)利用未知的药物和相互作用蛋白质对进行独立集测试,预测可能存在的未知的药物蛋白质相互作用靶点;进而通过数据库和文献检索对预测结果进行验证。本发明可以拓广药物靶点的搜索空间,能够得到分类性能最好、更为特异的药物蛋白质相互作用靶点。
Description
技术领域
本发明属于生物技术和信息技术技术领域,具体涉及一种预测药物的蛋白质相互作用靶点的方法和系统。
背景技术
系统生物学强调生物分子的协同作用在决定系统层面表型中的重要作用,在此观念的驱动下产生了海量的相互作用数据。一个典型例子是通过酵母双杂交实验和质谱实验生成的蛋白质相互作用数据。相互作用的蛋白质复合物被认为是活体细胞生物过程的主要实施者,功能大于单个蛋白质的简单加和,它们是药物进入活体细胞后作用的主要单元。相对于作用单个蛋白质,药物作用到相互作用的蛋白质复合物会产生更少的副作用而且可以极大地拓宽药物靶点的搜索空间(参考文献Klussmann,E.andScott,J.(2008)Protein-ProteinInteractionsasNewDrugTargets.Springer-VerlagBerlinHeidelberg.)。这些事实使得药物的蛋白质相互作用靶点预测无论在学术领域还是在药物制造工业领域都受到广泛关注。
利用生物实验方法寻找药物的蛋白质相互作用靶点是很困难的,因为蛋白质相互作用具有动态性,随着细胞类型和时间而变化。此外相互作用蛋白质复合物与药物作用的结合位点也是很难检测的(参考文献ValkovE,SharpeT,MarshM,GreiveS,M.(2012)Targetingprotein-proteininteractionsandfragment-baseddrugdiscovery.TopicsinCurrentChemistry,317,145–179)。所以研究人员开发了若干计算方法预测药物的蛋白质相互作用靶点,这为接下来的生物实验提供更为可靠的实验候选集(参看文献NeugebauerA,HartmannRW,KleinCD.(2007)Predictionofprotein-proteininteractioninhibitorsbychemoinformaticsandmachinelearningmethods.Journalofmedicinalchemistry,50(19):4665-4668.VoetA,BanwellEF,SahuKK,etal.(2013)Proteininterfacepharmacophoremappingtoolsforsmallmoleculeprotein:proteininteractioninhibitordiscovery.Currenttopicsinmedicinalchemistry,13(9):989-1001.)。
预测药物蛋白质相互作用靶点最初的想法是试图找到那些结构特异的蛋白质相互作用复合物,以及那些可以和该复合物结合的具有特殊结构的小分子。为此,研究人员通过研究实验证实的药物蛋白质相互作用靶点,归纳总结可作用到蛋白质相互作用复合物的药物的结构特征。基于这些共性的特征,可以从大量的化学分子中筛选出具有特殊结构的化合物,这些化合物可以特异性地作用到蛋白质相互作用复合物上,成为潜在的药物靶点(参考文献ChristelleReynès,HélèneHost,Anne-ClaudeCamproux,GuillaumeLaconde,FlorenceLeroux,AnneMazars,BenoitDeprez,RobinFahraeus,BrunoO.Villoutreix,andOlivierSperandio1.(2010)Designingfocusedchemicallibrariesenrichedinprotein-proteininteractioninhibitorsusingmachine-learningmethods.PLoScomputationalbiology,6(3):e1000695.)。与此同时,研究人员还依据他们的发现构建了使用方便的数据库,用以存储那些具有特殊分子结构的化合物以及和它们作用的蛋白质相互作用复合物(参考文献LabbéCM,LacondeG,KuenemannMA,VilloutreixBO,SperandioO.(2013)iPPI-DB:amanuallycuratedandinteractivedatabaseofsmallnon-peptideinhibitorsofprotein-proteininteractions.DrugDiscoveryToday,18,958–968.BasseMJ,BetziS,BourgeasR,etal.(2013)2P2Idb:astructuraldatabasededicatedtoorthostericmodulationofprotein–proteininteractions.Nucleicacidsresearch,2013,41(D1):D824-D827.)。但这些研究集中于个例研究,实验费用昂贵且费时费力。
为了寻找可以和蛋白质复合物结合的小分子,研究人员开发了基于蛋白质序列片段的计算方法。这种方法认为药物和蛋白质复合物的结合主要发生在蛋白质复合物的结合表面上的一些高度保守的氨基酸位点上。因此可以通过分析蛋白质复合物结合表面的结构,寻找那些可以和该结构匹配的小分子,由此确定与其结合的化合物分子(参考文献ValkovE,SharpeT,MarshM,GreiveS,M.(2012)Targetingprotein-proteininteractionsandfragment-baseddrugdiscovery.TopicsinCurrentChemistry,317,145–179)。该方法需要已知蛋白质复合物的结构,然而事实上,只有少部分蛋白质的结构是已知的,因此基于蛋白质序列片段的方法只适用于小规模研究。
随着高通量生物实验的发展,许多模式生物的蛋白质相互作用网络已知,包括大肠杆菌、酵母、线虫、果蝇和人(参考文献ButlandG,Peregrín-AlvarezJM,LiJ,etal.(2005)InteractionnetworkcontainingconservedandessentialproteincomplexesinEscherichiacoli.Nature,433(7025):531-537.GavinAC,M,KrauseR,etal.(2002)Functionalorganizationoftheyeastproteomebysystematicanalysisofproteincomplexes.Nature,415(6868):141-147.LiS,ArmstrongCM,BertinN,etal.(2004)AmapoftheinteractomenetworkofthemetazoanC.elegans.(2003)Science,303(5657):540-543.GiotL,BaderJS,BrouwerC,etal.(2003)AproteininteractionmapofDrosophilamelanogaster.Science,302(5651):1727-1736.RualJF,VenkatesanK,HaoT,etal.(2005)Towardsaproteome-scalemapofthehumanprotein–proteininteractionnetwork.Nature,437(7062):1173-1178.)。与此同时,KEGG,SuperTarget和DrugBank等数据库存储了大量实验获取的药物单个蛋白质靶点数据。通过整合这些数据,可以建立药物的蛋白质相互作用靶点数据集,并通过机器学习揭示药物和相互作用蛋白质的结合规律,进而建立有效的模型预测新的药物蛋白质相互作用靶点。
与此同时,生物实验技术的迅速发展使得越来越多的数据可用于描述药物的特征。比如药物的化合物分子结构提供了预测药物功能的最直接依据;药物功能注释系统AnatomicalTherapeuticChemicalClassificationSystem(ATCannotations)描述了药物的治疗效果;药物的副作用(side-effect)描述了药物带来的负面效应,也为预测药物靶点提供了重要依据(参考文献CampillosM,KuhnM,GavinAC,etal.(2008)Drugtargetidentificationusingside-effectsimilarity.Science,321(5886):263-266.)。不同数据都从不同侧面反应药物的功能和性质,因此不难想象,基于数据整合的计算模型将成为药物靶点预测的有效工具。
目前的药物蛋白质相互作用靶点预测还停留在个例研究的阶段。主要针对药物的结构信息这一单一数据源,通过对实验验证的与蛋白质相互作用复合物结合的药物分子特征进行人工的归纳总结,再扩展到其他化合物分子,寻找那些具有特殊结构、能够结合蛋白质复合物的化合物小分子。然而,药物与蛋白质的作用是相互的,只有结构特殊的蛋白质复合物才会有可能被药物作用,因此预测药物蛋白质相互作用靶点理应结合蛋白质的信息。除此之外,现有方法强烈依赖于蛋白质复合物的结构信息,而受限于小规模研究。从实用角度讲,现有的技术也未能将药物蛋白质相互作用靶点的检测、建模和验证形成一个计算系统。
发明内容
蛋白质相互作用是实现生物功能的基本单元,它们是药物进入活体细胞后作用的主要对象,因此可以作为新颖的药物靶点来调节生物体机能。预测药物的蛋白质相互作用靶点是药物研发的核心和关键技术。本发明针对现有技术的不足,提出了一种基于核方法的预测药物的蛋白质相互作用靶点的完整流程和计算系统。该系统通过搜索现有的蛋白质相互作用网络和药物的单个蛋白质数据,建立了药物的蛋白质相互作用靶点数据集;利用核方法整合描述药物与蛋白质的多种数据,得到分类性能最好、更为特异的药物蛋白质相互作用靶点。
本发明采用的技术方案如下:
一种预测药物的蛋白质相互作用靶点的方法,包括如下步骤:
1)收集人类蛋白质相互作用网络和药物的单个蛋白质靶点数据,构建药物的相互作用蛋白质靶点数据集;
2)获取药物和蛋白质的描述数据;
3)构建二部图表征药物和蛋白质对的相互作用关系,利用药物和蛋白质的描述数据分别构建表征药物相似性和蛋白质对相似性的相似矩阵,然后建立核函数联系药物和蛋白质对的相似矩阵,并通过支持向量机算法建立预测药物的蛋白质相互作用靶点的预测模型;
4)利用未知的药物和相互作用蛋白质对进行独立集测试,预测可能存在的未知的药物蛋白质相互作用靶点。
进一步地,步骤1)所述相互作用蛋白质靶点数据集包括两种不同类型的网络:a)人类蛋白质相互作用网络:描述人类蛋白质之间相互作用关系;b)药物和单个蛋白质相互作用网络:描述药物和单个蛋白质之间的作用关系。
进一步地,步骤2)所述药物和蛋白质的描述数据包括:I.描述药物的化合物分子结构、药物的ATC注释以及药物的副作用;II.描述蛋白质的氨基酸序列。
进一步地,步骤3)构建所述相似矩阵时,药物的相似性通过其结构、ATC注释和副作用描述,蛋白质对的相似通过将对称S-核作用于蛋白质氨基酸序列上获取。
进一步地,步骤3)所述核函数为克罗内克积核函数。
进一步地,步骤4)通过数据库和文献检索对预测结果进行验证,即通过数据库和文献检索验证新预测,为进一步的生物实验提供有力的依据。
一种采用上述方法的预测药物的蛋白质相互作用靶点的系统,包括:
数据集构建模块,用于通过收集人类蛋白质相互作用网络和药物的单个蛋白质靶点数据,构建药物的相互作用蛋白质靶点数据集;
数据获取模块,用于获取药物和蛋白质的描述数据;
数学建模模块,用于构建二部图表征药物和蛋白质对的相互作用关系,利用药物和蛋白质的描述数据分别构建表征药物相似性和蛋白质对相似性的相似矩阵,建立核函数联系药物和蛋白质对的相似矩阵,以及通过支持向量机算法建立预测药物的蛋白质相互作用靶点的预测模型;
模型测试模块,用于利用未知的药物和相互作用蛋白质对进行独立集测试,预测可能存在的未知的药物蛋白质相互作用靶点。进而,所述模型测试模块通过数据库和文献检索对预测结果进行验证。
本发明提出了一种全新的、基于核方法和数据整合的药物蛋白质相互作用靶点的识别框架和计算系统。不同于以往的单个蛋白质靶点,本发明将蛋白质相互作用作为药物靶点看待(即将相互作用的蛋白质对作为药物靶点看待),对于药物蛋白质相互作用识别,提出了从数据集构建、数据获取、建模到测试的计算系统,包括构建全新的药物的蛋白质相互作用靶点数据集,提出基于数据整合的药物蛋白质相互作用靶点识别预测模型,并进行预测模型的性能及预测新靶点能力的测试。相对预测单个蛋白质靶点,本发明的蛋白质相互作用靶点预测可以发现那些基于单个蛋白质靶点预测没有发现的药物靶点,可以拓广药物靶点的搜索空间,能够得到分类性能最好、更为特异的药物蛋白质相互作用靶点,在实际应用中具有可行性和优越性。
附图说明
图1是药物蛋白质相互作用识别的计算系统总结构图。
图2是药物蛋白质相互作用识别的预测模型建模过程示意图。
图3是药物的蛋白质相互作用靶点识别的完整计算流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
图1所示为本发明的基于药物和蛋白质数据整合的药物蛋白质相互作用靶点识别系统示意图。该系统包括四个模块:数据集构建模块、数据获取模块、数学建模模块和模型测试模块。
1)药物蛋白质相互作用靶点数据集构建模块
通过收集人类蛋白质相互作用网络和药物的单个蛋白质靶点数据,构建药物的相互作用蛋白质靶点数据集。该数据集包括两种不同类型的网络:
a)人类蛋白质相互作用网络:描述人类蛋白质之间相互作用关系。
b)药物和单个蛋白质相互作用网络:描述药物和单个蛋白质之间的作用关系。
2)药物和蛋白质描述数据收集模块(或称数据获取模块)
药物和蛋白质的描述数据用于实现将它们的数字化,使之适用于数学模型,具体包括:
I.描述药物的化合物分子结构,药物的AnatomicalTherapeuticChemical(ATC)注释以及药物的副作用。
II.描述蛋白质的氨基酸序列。
3)数学建模模块
从机器学习方法论的角度入手探求药物的蛋白质相互作用靶点识别模型和算法,发展了基于核方法的多维数据整合框架。具体地,首先利用药物的蛋白质相互作用靶点数据集建立二部图,用以表征药物和相互作用蛋白质对之间的相互作用关系;其次利用药物和蛋白质的描述数据分别构建表征药物相似性和蛋白质对相似性的相似矩阵。药物的相似性通过其结构、ATC注释和副作用描述;蛋白质对的相似通过将对称S-核作用于蛋白质氨基酸序列上获取。最后通过定义核函数连接药物和蛋白质对相似矩阵(例如使用克罗内克积(Kroneckerproduct)核函数),利用机器学习算法预测新的药物蛋白质相互作用靶点(例如使用支持向量机算法)。
具体而言,分为三个步骤:
I.构建药物和蛋白质对相互作用的二部图网络;
II.构建药物和蛋白质对相似矩阵;
III.利用核函数如克罗内克积核函数连接药物和蛋白质对的相似矩阵,基于机器学习算法例如支持向量机算法建立预测药物的蛋白质相互作用靶点的预测模型。
4)模型测试模块
利用未知的药物和相互作用蛋白质对进行独立集测试,预测可能存在的未知的药物蛋白质相互作用靶点,通过数据库和文献检索验证新预测,即验证预测结果。
下面结合图1,针对数据集构建,数据获取,建模和模型测试四部分进行详细阐述。
(a)数据集构建
通过搜索已有的人类蛋白质相互作用网络和药物单个蛋白质靶点数据构建药物的蛋白质相互作用靶点数据集。具体而言,首先分别从HPRD数据库和DrugBank数据库收集人类蛋白质相互作用网络数据和药物的单个蛋白质靶点数据;保留那些结合同一个药物的蛋白质对构建药物的蛋白质相互作用靶点数据集;最终产生了一个包含63个人类相互作用蛋白质对和113个FDA批准的药物和蛋白质对的相互作用网络,该网络包含了227个药物和蛋白质对相互作用。通过对该网络拓扑结构的分析发现:
A.只有少数药物拥有多个蛋白质相互作用靶点,绝大部分药物只作用一个蛋白质相互作用靶点;
B.只有少数蛋白质对结合多种药物,绝大多数蛋白质对只绑定一种药物;
C.作为药物靶点的蛋白质对就一般的相互作用蛋白质对而言拥有更高的序列相似性,且倾向于参与同一生物通路。
(b)药物和蛋白质描述数据获取
描述药物的数据包括:
A.药物化合物分子数据:DrugBank
B.药物ATC注释:WHOCC:http://www.whocc.no/atc_ddd_index/
C.药物副作用:SIDER:http://sideeffects.embl.de
描述蛋白质的数据包括:蛋白质的氨基酸序列(DrugBank)
(c)药物蛋白质相互作用靶点预测模型构建
如图2所示,建模的过程包括构建二部图表征药物和蛋白质对的相互作用关系、构建描述药物和蛋白质对的相似矩阵、建立核函数联系药物和蛋白质对的相似矩阵并通过支持向量机算法构建预测模型三个步骤。
利用描述药物的三组数据共建立三种药物相似矩阵:假设共有nc种药物。图2中示意了三种药物,即卡麦角林(Cabergoline)、罗平尼咯(Ropinirole)、奥马珠单抗(Omalizumab)。
A.矩阵的每个元素代表药物分子结构相似程度,是通过KyotoEncyclopediaofGenesandGenomes(KEGG)数据库的SIMilarCOMPound(SIMCOMP)工具计算获得。
B.矩阵的每个元素代表药物ATC注释相似程度,用来计算药物d和d’的ATC注释相似性的公式为:
其中T(d)和T(d’)表示药物d和d’的ATC注释集合,sim(ti,tj)=w(ti)w(tj)exp(-γd(ti,tj)),d(ti,tj)是ATC注释ti,tj在注释系统里的最短距离,而w(ti),w(tj)表示ATC注释ti,tj的权重,设为频率的倒数,意味着重视那些不常出现的注释而忽略那些经常被使用的注释。γ是事先定义的参数。
C.矩阵的每个元素表示药物在副作用意义下的相似程度,设共用M个副作用,
其中zi,z′是表示药物d和d’的二值化向量,取值为1表示该药物有对应的副作用,反之为零。ωi表示第i个副作用的权重,定义为其中fi是i个副作用出现的频率,σ是所有频率的偏差,h是事先定义的参数。
利用蛋白质的氨基酸序列建立描述蛋白质对的相似矩阵:由蛋白质p1,p1’和蛋白质p2,p2’构成的蛋白质对PPI1(p1,p1′)和PPI2(p2,p2′)的相似程度为:
SPPI(PPI1,PPI2)=max(s1,s2),
其中 Sq表示氨基酸序列相似性,通过标准化的Smith-Walterman分值得到,并由MATLAB“swalign”函数获取。
利用克罗内克积函数联系药物和蛋白质的相似矩阵,用于支持向量机的核函数。对于药物和蛋白质相互作用对,其核函数定义为:
其中Sdrug可以为SC、SA、SE或max{SC,SA,SE}(意味着只要药物在一种数据集的定义下相似即认为它们是相似的)。Sdrug也可写为simdrug,SPPI也可写为simPPI,如图1所示。
有了该核函数便可获得基于支持向量机的预测函数
其中可通过求解下面的优化问题得到:
如果存在 j=1,…,l,则 这里xi,xj,i,j=1,…,l表示对药物和蛋白质对,yi,yj,i,j=1,…,l表示该药物和相互作用蛋白质对是否具有相互作用关系。C是模型参数,l是样本个数,这里指药物和相互作用蛋白质对的数目,αi,i=1,…,l是优化模型的变量。
由于已知的药物蛋白质相互作用靶点很有限,如果将所有未知关系的药物和蛋白质对均作为负类点,而将已知具有相互作用关系的药物和蛋白质对作为正类点,那么训练集不均衡问题随之产生。这种不均衡情况会使得支持向量机的分类器无法将两类点有效地分开。因此,为了解决不均衡问题,我们从未知关系的药物和蛋白质对中随机选择和正类点(已知具有相互作用关系的药物和蛋白质对)数目相当的点作为负类点,然后将支持向量机算法作用在均衡的数据集上,得到更为有效的预测器。
(d)最优药物蛋白质相互作用靶点识别模型的评价标准
Libsvm(参考文献Chang,C.-C.andLin,C.-J.(2011)LIBSVM:alibraryforsupportvectormachines.ACMTransactionsonIntelligentSystemsandTechnology,2:27,1–27.)作为训练支持向量预测器的软件被引入。由于使用基于给定核函数的支持向量机模型,只有模型参数C需要事先估计。3折交叉确认算法确定最优的C值为1。10折交叉验证用来评价预测器的性能。此外,ROC(ReceriverOperatingCharacteristic)曲线(参考文献Gribskov,M.andRobinson,N.L.(1996).Useofreceiveroperatingcharacteristic(roc)analysistoevaluatesequencematching.ComputersandChemistry,20,25–33.)以及ROC曲线下面积、正确率、敏感度、特异性、精准度和F值均被用于评价预测模型的性能,如表1所示。
表1.预测模型评价指标
其中TP:准确地预测为正类点的个数,TN:准确地预测为负类点的个数,FP:将负类点错误地预测为正类点的个数,FN:将正类点错误地预测为负类点的个数。
(e)药物蛋白质相互作用靶点识别模型预测能力的测试
为了预测模型在实际中的预测能力,需要构造独立测试集检验预测模型发现新的药物蛋白质相互作用靶点的能力。独立测试集包含从人类蛋白质相互作用网络随机抽取的50个蛋白质对(不包含训练集里出现的蛋白质对)和81个训练集里包含的FDA批准的药物,共4,050个未知的药物和蛋白质相互作用对。通过从KEGG数据库搜索药物和相关蛋白质参与的生物通路、从OMIM数据库搜索药物相关疾病的致病基因、从Uniprot数据库搜索蛋白质的GO功能等寻找支持新预测成立的证据。
本发明已经经过初步的试验验证。在基于已有知识构建的药物的蛋白质相互作用数据集上的试验结果很好。交叉验证的各评价指标表现良好。更为重要的是,初步试验结果分析显示,相对预测单个蛋白质靶点,蛋白质相互作用靶点预测可以发现那些基于单个蛋白质靶点预测没有发现的药物靶点。这些靶点主要包括那些和已知药物靶点缺乏相似性的蛋白质,证明了蛋白质相互作用预测模型可以拓广药物靶点的搜索空间。此外,在独立测试集上的实验结果表明,新的预测值得作为生物实验候选集对待,证明了该计算系统在实际应用中的可行性和优越性。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,包括使用不同的核函数联系药物和蛋白质对相似矩阵;使用不同的机器学习方法学习预测药物相互作用蛋白质靶点的预测器;使用不同的方法解决类不均衡问题;选取其他描述药物和蛋白质的数据等。所有这些改进和变换,及参数相关的调节和选取都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种预测药物的蛋白质相互作用靶点的方法,其特征在于,包括如下步骤:
1)收集人类蛋白质相互作用网络和药物的单个蛋白质靶点数据,构建药物的相互作用蛋白质靶点数据集;
2)获取药物和蛋白质的描述数据;
3)构建二部图表征药物和蛋白质对的相互作用关系,利用药物和蛋白质的描述数据分别构建表征药物相似性和蛋白质对相似性的相似矩阵,然后建立核函数联系药物和蛋白质对的相似矩阵,并通过机器学习算法建立预测药物的蛋白质相互作用靶点的预测模型;
4)利用未知的药物和相互作用蛋白质对进行独立集测试,预测可能存在的未知的药物蛋白质相互作用靶点。
2.如权利要求1所述的方法,其特征在于:步骤1)所述相互作用蛋白质靶点数据集包括两种不同类型的网络:a)人类蛋白质相互作用网络:描述人类蛋白质之间相互作用关系;b)药物和单个蛋白质相互作用网络:描述药物和单个蛋白质之间的作用关系。
3.如权利要求1所述的方法,其特征在于,步骤2)所述药物和蛋白质的描述数据包括:I.描述药物的化合物分子结构、药物的ATC注释以及药物的副作用;II.描述蛋白质的氨基酸序列。
4.如权利要求1所述的方法,其特征在于,步骤3)构建所述相似矩阵时,药物的相似性通过其结构、ATC注释和副作用描述,蛋白质对的相似通过将对称S-核作用于蛋白质氨基酸序列上获取;所述核函数为克罗内克积核函数,所述机器学习算法为支持向量机算法。
5.如权利要求1所述的方法,其特征在于,步骤4)通过数据库和文献检索对预测结果进行验证,为进一步的生物实验提供依据。
6.一种预测药物的蛋白质相互作用靶点的系统,其特征在于,包括:
数据集构建模块,用于通过收集人类蛋白质相互作用网络和药物的单个蛋白质靶点数据,构建药物的相互作用蛋白质靶点数据集;
数据获取模块,用于获取药物和蛋白质的描述数据;
数学建模模块,用于构建二部图表征药物和蛋白质对的相互作用关系,利用药物和蛋白质的描述数据分别构建表征药物相似性和蛋白质对相似性的相似矩阵,建立核函数联系药物和蛋白质对的相似矩阵,以及通过机器学习算法建立预测药物的蛋白质相互作用靶点的预测模型;
模型测试模块,用于利用未知的药物和相互作用蛋白质对进行独立集测试,预测可能存在的未知的药物蛋白质相互作用靶点。
7.如权利要求6所述的系统,其特征在于:所述相互作用蛋白质靶点数据集包括两种不同类型的网络:a)人类蛋白质相互作用网络:描述人类蛋白质之间相互作用关系;b)药物和单个蛋白质相互作用网络:描述药物和单个蛋白质之间的作用关系。
8.如权利要求6所述的系统,其特征在于,所述药物和蛋白质的描述数据包括:I.描述药物的化合物分子结构、药物的ATC注释以及药物的副作用;II.描述蛋白质的氨基酸序列。
9.如权利要求6所述的系统,其特征在于,所述数学建模模块构建相似矩阵时,药物的相似性通过其结构、ATC注释和副作用描述,蛋白质对的相似通过将对称S-核作用于蛋白质氨基酸序列上获取;所述核函数为克罗内克积核函数,所述机器学习算法为支持向量机算法。
10.如权利要求6所述的系统,其特征在于,所述模型测试模块通过数据库和文献检索对预测结果进行验证,为进一步的生物实验提供依据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510645421.4A CN105160206A (zh) | 2015-10-08 | 2015-10-08 | 一种预测药物的蛋白质相互作用靶点的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510645421.4A CN105160206A (zh) | 2015-10-08 | 2015-10-08 | 一种预测药物的蛋白质相互作用靶点的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105160206A true CN105160206A (zh) | 2015-12-16 |
Family
ID=54801062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510645421.4A Pending CN105160206A (zh) | 2015-10-08 | 2015-10-08 | 一种预测药物的蛋白质相互作用靶点的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105160206A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678108A (zh) * | 2016-01-11 | 2016-06-15 | 天津师范大学 | 一种全局比对的蛋白互作网络融合方法 |
CN105956413A (zh) * | 2016-04-27 | 2016-09-21 | 王�忠 | 识别生物分子网络中关键模块或关键节点的方法 |
CN106503483A (zh) * | 2016-09-23 | 2017-03-15 | 西南大学 | 基于模块化因子图的骨髓瘤信号通路机制确认方法 |
CN106778065A (zh) * | 2016-12-30 | 2017-05-31 | 同济大学 | 一种基于多元数据预测dna突变影响蛋白互作的预测方法 |
CN106909807A (zh) * | 2017-02-14 | 2017-06-30 | 同济大学 | 一种基于多元数据预测药物靶向蛋白互作的预测方法 |
CN107229563A (zh) * | 2016-03-25 | 2017-10-03 | 中国科学院信息工程研究所 | 一种跨架构的二进制程序漏洞函数关联方法 |
CN107609326A (zh) * | 2017-07-26 | 2018-01-19 | 同济大学 | 癌症精准医疗中的药物敏感性预测方法 |
CN107731309A (zh) * | 2017-08-31 | 2018-02-23 | 武汉百药联科科技有限公司 | 一种药物活性的预测方法及其应用 |
CN108509765A (zh) * | 2018-03-26 | 2018-09-07 | 中山大学 | 一种基于fm-n-dnn的药物靶标相互作用预测方法 |
WO2019030627A1 (en) * | 2017-08-08 | 2019-02-14 | International Business Machines Corporation | PREDICTING ADVERSE REACTIONS TO A MEDICATION |
CN110544506A (zh) * | 2019-08-27 | 2019-12-06 | 上海源兹生物科技有限公司 | 基于蛋白互作网络的靶点PPIs可药性预测方法及装置 |
CN110689965A (zh) * | 2019-10-10 | 2020-01-14 | 电子科技大学 | 一种基于深度学习的药物靶点亲和力预测方法 |
CN112326767A (zh) * | 2020-11-03 | 2021-02-05 | 浙江大学滨海产业技术研究院 | 一种基于靶向蛋白质组学的癌症药物靶标作用预测方法 |
CN112768029A (zh) * | 2020-12-27 | 2021-05-07 | 上海市东方医院(同济大学附属东方医院) | 一种基于单细胞测序的组合用药推荐设备、方法及介质 |
CN112820355A (zh) * | 2020-12-16 | 2021-05-18 | 浙江工业大学 | 一种基于蛋白质序列比对的分子虚拟筛选方法 |
CN113140254A (zh) * | 2021-04-28 | 2021-07-20 | 厦门大学 | 元学习药物-靶点相互作用预测系统及预测方法 |
CN116246697A (zh) * | 2023-05-11 | 2023-06-09 | 上海微观纪元数字科技有限公司 | 用于药物的靶点蛋白质预测方法及装置、设备、存储介质 |
CN116864036A (zh) * | 2023-08-02 | 2023-10-10 | 山东政法学院 | 一种基于人工智能的化合物库构建方法 |
CN116994644A (zh) * | 2023-07-28 | 2023-11-03 | 天津大学 | 基于预训练模型的药靶亲和力预测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239751A (zh) * | 2014-09-05 | 2014-12-24 | 南京理工大学 | 基于后处理学习的g蛋白偶联受体-药物交互作用预测方法 |
EP2905363A1 (en) * | 2012-10-01 | 2015-08-12 | Japan Science And Technology Agency | Approval prediction device, approval prediction method, and program |
-
2015
- 2015-10-08 CN CN201510645421.4A patent/CN105160206A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2905363A1 (en) * | 2012-10-01 | 2015-08-12 | Japan Science And Technology Agency | Approval prediction device, approval prediction method, and program |
CN104239751A (zh) * | 2014-09-05 | 2014-12-24 | 南京理工大学 | 基于后处理学习的g蛋白偶联受体-药物交互作用预测方法 |
Non-Patent Citations (2)
Title |
---|
YONG-CUI WANG等: "Computational probing protein–protein interactions targeting small molecules", 《HTTPS://DOI.ORG/10.1093/BIOINFORMATICS/BTV528》 * |
YONGCUI WANG等: "Drug Repositioning by Kernel-Based Integration of Molecular Structure, Molecular Activity, and Phenotype Data", 《PLOS ONE》 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678108A (zh) * | 2016-01-11 | 2016-06-15 | 天津师范大学 | 一种全局比对的蛋白互作网络融合方法 |
CN107229563A (zh) * | 2016-03-25 | 2017-10-03 | 中国科学院信息工程研究所 | 一种跨架构的二进制程序漏洞函数关联方法 |
CN107229563B (zh) * | 2016-03-25 | 2020-07-10 | 中国科学院信息工程研究所 | 一种跨架构的二进制程序漏洞函数关联方法 |
CN105956413B (zh) * | 2016-04-27 | 2019-08-06 | 王�忠 | 识别生物分子网络中关键模块或关键节点的方法 |
CN105956413A (zh) * | 2016-04-27 | 2016-09-21 | 王�忠 | 识别生物分子网络中关键模块或关键节点的方法 |
CN106503483A (zh) * | 2016-09-23 | 2017-03-15 | 西南大学 | 基于模块化因子图的骨髓瘤信号通路机制确认方法 |
CN106778065A (zh) * | 2016-12-30 | 2017-05-31 | 同济大学 | 一种基于多元数据预测dna突变影响蛋白互作的预测方法 |
CN106778065B (zh) * | 2016-12-30 | 2019-02-01 | 同济大学 | 一种基于多元数据预测dna突变影响蛋白互作的预测方法 |
CN106909807A (zh) * | 2017-02-14 | 2017-06-30 | 同济大学 | 一种基于多元数据预测药物靶向蛋白互作的预测方法 |
CN106909807B (zh) * | 2017-02-14 | 2019-02-01 | 同济大学 | 一种基于多元数据预测药物靶向蛋白互作的预测方法 |
CN107609326A (zh) * | 2017-07-26 | 2018-01-19 | 同济大学 | 癌症精准医疗中的药物敏感性预测方法 |
CN110998739B (zh) * | 2017-08-08 | 2024-02-20 | 国际商业机器公司 | 不良药物反应的预测 |
GB2578265A (en) * | 2017-08-08 | 2020-04-22 | Ibm | Prediction of adverse drug reactions |
WO2019030627A1 (en) * | 2017-08-08 | 2019-02-14 | International Business Machines Corporation | PREDICTING ADVERSE REACTIONS TO A MEDICATION |
CN110998739A (zh) * | 2017-08-08 | 2020-04-10 | 国际商业机器公司 | 不良药物反应的预测 |
CN107731309A (zh) * | 2017-08-31 | 2018-02-23 | 武汉百药联科科技有限公司 | 一种药物活性的预测方法及其应用 |
CN107731309B (zh) * | 2017-08-31 | 2020-01-21 | 武汉百药联科科技有限公司 | 一种药物活性的预测方法及其应用 |
CN108509765A (zh) * | 2018-03-26 | 2018-09-07 | 中山大学 | 一种基于fm-n-dnn的药物靶标相互作用预测方法 |
CN110544506A (zh) * | 2019-08-27 | 2019-12-06 | 上海源兹生物科技有限公司 | 基于蛋白互作网络的靶点PPIs可药性预测方法及装置 |
CN110544506B (zh) * | 2019-08-27 | 2022-02-11 | 上海源兹生物科技有限公司 | 基于蛋白互作网络的靶点PPIs可药性预测方法及装置 |
CN110689965A (zh) * | 2019-10-10 | 2020-01-14 | 电子科技大学 | 一种基于深度学习的药物靶点亲和力预测方法 |
CN112326767A (zh) * | 2020-11-03 | 2021-02-05 | 浙江大学滨海产业技术研究院 | 一种基于靶向蛋白质组学的癌症药物靶标作用预测方法 |
CN112820355B (zh) * | 2020-12-16 | 2024-03-22 | 浙江工业大学 | 一种基于蛋白质序列比对的分子虚拟筛选方法 |
CN112820355A (zh) * | 2020-12-16 | 2021-05-18 | 浙江工业大学 | 一种基于蛋白质序列比对的分子虚拟筛选方法 |
CN112768029B (zh) * | 2020-12-27 | 2023-10-13 | 上海市东方医院(同济大学附属东方医院) | 一种基于单细胞测序的组合用药推荐设备、方法及介质 |
CN112768029A (zh) * | 2020-12-27 | 2021-05-07 | 上海市东方医院(同济大学附属东方医院) | 一种基于单细胞测序的组合用药推荐设备、方法及介质 |
CN113140254B (zh) * | 2021-04-28 | 2023-08-25 | 厦门大学 | 元学习药物-靶点相互作用预测系统及预测方法 |
CN113140254A (zh) * | 2021-04-28 | 2021-07-20 | 厦门大学 | 元学习药物-靶点相互作用预测系统及预测方法 |
CN116246697A (zh) * | 2023-05-11 | 2023-06-09 | 上海微观纪元数字科技有限公司 | 用于药物的靶点蛋白质预测方法及装置、设备、存储介质 |
CN116994644A (zh) * | 2023-07-28 | 2023-11-03 | 天津大学 | 基于预训练模型的药靶亲和力预测方法 |
CN116994644B (zh) * | 2023-07-28 | 2024-02-02 | 天津大学 | 基于预训练模型的药靶亲和力预测方法 |
CN116864036A (zh) * | 2023-08-02 | 2023-10-10 | 山东政法学院 | 一种基于人工智能的化合物库构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105160206A (zh) | 一种预测药物的蛋白质相互作用靶点的方法和系统 | |
Bi et al. | MobileNet based apple leaf diseases identification | |
Ji et al. | Machine learning for perturbational single-cell omics | |
Zhang et al. | Determining modular organization of protein interaction networks by maximizing modularity density | |
CN108763865A (zh) | 一种预测dna蛋白质结合位点的集成学习方法 | |
Shi et al. | Protein complex detection with semi-supervised learning in protein interaction networks | |
Verma et al. | Ssnet: A deep learning approach for protein-ligand interaction prediction | |
Vreven et al. | Evaluating template-based and template-free protein–protein complex structure prediction | |
CN112652355B (zh) | 一种基于深度森林和pu学习的药物-靶标关系预测方法 | |
Mizuguchi et al. | Seeking significance in three-dimensional protein structure comparisons | |
Wen et al. | Prediction of protein-protein interactions by label propagation with protein evolutionary and chemical information derived from heterogeneous network | |
Ahmed et al. | Core and peripheral connectivity based cluster analysis over PPI network | |
Ren et al. | Phase Space Graph Convolutional Network for Chaotic Time Series Learning | |
Weighill et al. | Network metamodeling: effect of correlation metric choice on phylogenomic and transcriptomic network topology | |
Che et al. | Prediction of ligand binding sites using improved blind docking method with a Machine Learning-Based scoring function | |
CN113409897A (zh) | 药物-靶标相互作用的预测方法、装置、设备和存储介质 | |
Zhao et al. | Detecting overlapping protein complexes in weighted PPI network based on overlay network chain in quotient space | |
Shi et al. | A review of machine learning-based methods for predicting drug–target interactions | |
Zheng et al. | An optimized drug similarity framework for side-effect prediction | |
Fouaz et al. | Similarity searching in ligand-based virtual screening using different fingerprints and different similarity coefficients | |
Bongini et al. | A deep learning approach to the prediction of drug side-effects on molecular graphs | |
Shen et al. | Detecting temporal protein complexes based on neighbor closeness and time course protein interaction networks | |
Ai et al. | Virtual screening for COX-2 inhibitors with random forest algorithm and feature selection | |
Ghorbanali et al. | DRP-VEM: Drug repositioning prediction using voting ensemble | |
Tiwari et al. | Network-based Machine Learning Approach for Structural Domain Identification in Proteins |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151216 |