CN105160206A - 一种预测药物的蛋白质相互作用靶点的方法和系统 - Google Patents

一种预测药物的蛋白质相互作用靶点的方法和系统 Download PDF

Info

Publication number
CN105160206A
CN105160206A CN201510645421.4A CN201510645421A CN105160206A CN 105160206 A CN105160206 A CN 105160206A CN 201510645421 A CN201510645421 A CN 201510645421A CN 105160206 A CN105160206 A CN 105160206A
Authority
CN
China
Prior art keywords
protein
medicine
drug
target spot
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510645421.4A
Other languages
English (en)
Inventor
王永翠
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Academy of Mathematics and Systems Science of CAS
Northwest Institute of Plateau Biology of CAS
Original Assignee
Academy of Mathematics and Systems Science of CAS
Northwest Institute of Plateau Biology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Academy of Mathematics and Systems Science of CAS, Northwest Institute of Plateau Biology of CAS filed Critical Academy of Mathematics and Systems Science of CAS
Priority to CN201510645421.4A priority Critical patent/CN105160206A/zh
Publication of CN105160206A publication Critical patent/CN105160206A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及一种预测药物的蛋白质相互作用靶点的方法和系统。该方法包括:1)收集人类蛋白质相互作用网络和药物的单个蛋白质靶点数据,构建药物的相互作用蛋白质靶点数据集;2)获取药物和蛋白质的描述数据;3)构建二部图表征药物和蛋白质对的相互作用关系,构建表征药物相似性和蛋白质对相似性的相似矩阵,建立核函数联系药物和蛋白质对的相似矩阵,通过机器学习算法建立预测模型;4)利用未知的药物和相互作用蛋白质对进行独立集测试,预测可能存在的未知的药物蛋白质相互作用靶点;进而通过数据库和文献检索对预测结果进行验证。本发明可以拓广药物靶点的搜索空间,能够得到分类性能最好、更为特异的药物蛋白质相互作用靶点。

Description

一种预测药物的蛋白质相互作用靶点的方法和系统
技术领域
本发明属于生物技术和信息技术技术领域,具体涉及一种预测药物的蛋白质相互作用靶点的方法和系统。
背景技术
系统生物学强调生物分子的协同作用在决定系统层面表型中的重要作用,在此观念的驱动下产生了海量的相互作用数据。一个典型例子是通过酵母双杂交实验和质谱实验生成的蛋白质相互作用数据。相互作用的蛋白质复合物被认为是活体细胞生物过程的主要实施者,功能大于单个蛋白质的简单加和,它们是药物进入活体细胞后作用的主要单元。相对于作用单个蛋白质,药物作用到相互作用的蛋白质复合物会产生更少的副作用而且可以极大地拓宽药物靶点的搜索空间(参考文献Klussmann,E.andScott,J.(2008)Protein-ProteinInteractionsasNewDrugTargets.Springer-VerlagBerlinHeidelberg.)。这些事实使得药物的蛋白质相互作用靶点预测无论在学术领域还是在药物制造工业领域都受到广泛关注。
利用生物实验方法寻找药物的蛋白质相互作用靶点是很困难的,因为蛋白质相互作用具有动态性,随着细胞类型和时间而变化。此外相互作用蛋白质复合物与药物作用的结合位点也是很难检测的(参考文献ValkovE,SharpeT,MarshM,GreiveS,M.(2012)Targetingprotein-proteininteractionsandfragment-baseddrugdiscovery.TopicsinCurrentChemistry,317,145–179)。所以研究人员开发了若干计算方法预测药物的蛋白质相互作用靶点,这为接下来的生物实验提供更为可靠的实验候选集(参看文献NeugebauerA,HartmannRW,KleinCD.(2007)Predictionofprotein-proteininteractioninhibitorsbychemoinformaticsandmachinelearningmethods.Journalofmedicinalchemistry,50(19):4665-4668.VoetA,BanwellEF,SahuKK,etal.(2013)Proteininterfacepharmacophoremappingtoolsforsmallmoleculeprotein:proteininteractioninhibitordiscovery.Currenttopicsinmedicinalchemistry,13(9):989-1001.)。
预测药物蛋白质相互作用靶点最初的想法是试图找到那些结构特异的蛋白质相互作用复合物,以及那些可以和该复合物结合的具有特殊结构的小分子。为此,研究人员通过研究实验证实的药物蛋白质相互作用靶点,归纳总结可作用到蛋白质相互作用复合物的药物的结构特征。基于这些共性的特征,可以从大量的化学分子中筛选出具有特殊结构的化合物,这些化合物可以特异性地作用到蛋白质相互作用复合物上,成为潜在的药物靶点(参考文献ChristelleReynès,HélèneHost,Anne-ClaudeCamproux,GuillaumeLaconde,FlorenceLeroux,AnneMazars,BenoitDeprez,RobinFahraeus,BrunoO.Villoutreix,andOlivierSperandio1.(2010)Designingfocusedchemicallibrariesenrichedinprotein-proteininteractioninhibitorsusingmachine-learningmethods.PLoScomputationalbiology,6(3):e1000695.)。与此同时,研究人员还依据他们的发现构建了使用方便的数据库,用以存储那些具有特殊分子结构的化合物以及和它们作用的蛋白质相互作用复合物(参考文献LabbéCM,LacondeG,KuenemannMA,VilloutreixBO,SperandioO.(2013)iPPI-DB:amanuallycuratedandinteractivedatabaseofsmallnon-peptideinhibitorsofprotein-proteininteractions.DrugDiscoveryToday,18,958–968.BasseMJ,BetziS,BourgeasR,etal.(2013)2P2Idb:astructuraldatabasededicatedtoorthostericmodulationofprotein–proteininteractions.Nucleicacidsresearch,2013,41(D1):D824-D827.)。但这些研究集中于个例研究,实验费用昂贵且费时费力。
为了寻找可以和蛋白质复合物结合的小分子,研究人员开发了基于蛋白质序列片段的计算方法。这种方法认为药物和蛋白质复合物的结合主要发生在蛋白质复合物的结合表面上的一些高度保守的氨基酸位点上。因此可以通过分析蛋白质复合物结合表面的结构,寻找那些可以和该结构匹配的小分子,由此确定与其结合的化合物分子(参考文献ValkovE,SharpeT,MarshM,GreiveS,M.(2012)Targetingprotein-proteininteractionsandfragment-baseddrugdiscovery.TopicsinCurrentChemistry,317,145–179)。该方法需要已知蛋白质复合物的结构,然而事实上,只有少部分蛋白质的结构是已知的,因此基于蛋白质序列片段的方法只适用于小规模研究。
随着高通量生物实验的发展,许多模式生物的蛋白质相互作用网络已知,包括大肠杆菌、酵母、线虫、果蝇和人(参考文献ButlandG,Peregrín-AlvarezJM,LiJ,etal.(2005)InteractionnetworkcontainingconservedandessentialproteincomplexesinEscherichiacoli.Nature,433(7025):531-537.GavinAC,M,KrauseR,etal.(2002)Functionalorganizationoftheyeastproteomebysystematicanalysisofproteincomplexes.Nature,415(6868):141-147.LiS,ArmstrongCM,BertinN,etal.(2004)AmapoftheinteractomenetworkofthemetazoanC.elegans.(2003)Science,303(5657):540-543.GiotL,BaderJS,BrouwerC,etal.(2003)AproteininteractionmapofDrosophilamelanogaster.Science,302(5651):1727-1736.RualJF,VenkatesanK,HaoT,etal.(2005)Towardsaproteome-scalemapofthehumanprotein–proteininteractionnetwork.Nature,437(7062):1173-1178.)。与此同时,KEGG,SuperTarget和DrugBank等数据库存储了大量实验获取的药物单个蛋白质靶点数据。通过整合这些数据,可以建立药物的蛋白质相互作用靶点数据集,并通过机器学习揭示药物和相互作用蛋白质的结合规律,进而建立有效的模型预测新的药物蛋白质相互作用靶点。
与此同时,生物实验技术的迅速发展使得越来越多的数据可用于描述药物的特征。比如药物的化合物分子结构提供了预测药物功能的最直接依据;药物功能注释系统AnatomicalTherapeuticChemicalClassificationSystem(ATCannotations)描述了药物的治疗效果;药物的副作用(side-effect)描述了药物带来的负面效应,也为预测药物靶点提供了重要依据(参考文献CampillosM,KuhnM,GavinAC,etal.(2008)Drugtargetidentificationusingside-effectsimilarity.Science,321(5886):263-266.)。不同数据都从不同侧面反应药物的功能和性质,因此不难想象,基于数据整合的计算模型将成为药物靶点预测的有效工具。
目前的药物蛋白质相互作用靶点预测还停留在个例研究的阶段。主要针对药物的结构信息这一单一数据源,通过对实验验证的与蛋白质相互作用复合物结合的药物分子特征进行人工的归纳总结,再扩展到其他化合物分子,寻找那些具有特殊结构、能够结合蛋白质复合物的化合物小分子。然而,药物与蛋白质的作用是相互的,只有结构特殊的蛋白质复合物才会有可能被药物作用,因此预测药物蛋白质相互作用靶点理应结合蛋白质的信息。除此之外,现有方法强烈依赖于蛋白质复合物的结构信息,而受限于小规模研究。从实用角度讲,现有的技术也未能将药物蛋白质相互作用靶点的检测、建模和验证形成一个计算系统。
发明内容
蛋白质相互作用是实现生物功能的基本单元,它们是药物进入活体细胞后作用的主要对象,因此可以作为新颖的药物靶点来调节生物体机能。预测药物的蛋白质相互作用靶点是药物研发的核心和关键技术。本发明针对现有技术的不足,提出了一种基于核方法的预测药物的蛋白质相互作用靶点的完整流程和计算系统。该系统通过搜索现有的蛋白质相互作用网络和药物的单个蛋白质数据,建立了药物的蛋白质相互作用靶点数据集;利用核方法整合描述药物与蛋白质的多种数据,得到分类性能最好、更为特异的药物蛋白质相互作用靶点。
本发明采用的技术方案如下:
一种预测药物的蛋白质相互作用靶点的方法,包括如下步骤:
1)收集人类蛋白质相互作用网络和药物的单个蛋白质靶点数据,构建药物的相互作用蛋白质靶点数据集;
2)获取药物和蛋白质的描述数据;
3)构建二部图表征药物和蛋白质对的相互作用关系,利用药物和蛋白质的描述数据分别构建表征药物相似性和蛋白质对相似性的相似矩阵,然后建立核函数联系药物和蛋白质对的相似矩阵,并通过支持向量机算法建立预测药物的蛋白质相互作用靶点的预测模型;
4)利用未知的药物和相互作用蛋白质对进行独立集测试,预测可能存在的未知的药物蛋白质相互作用靶点。
进一步地,步骤1)所述相互作用蛋白质靶点数据集包括两种不同类型的网络:a)人类蛋白质相互作用网络:描述人类蛋白质之间相互作用关系;b)药物和单个蛋白质相互作用网络:描述药物和单个蛋白质之间的作用关系。
进一步地,步骤2)所述药物和蛋白质的描述数据包括:I.描述药物的化合物分子结构、药物的ATC注释以及药物的副作用;II.描述蛋白质的氨基酸序列。
进一步地,步骤3)构建所述相似矩阵时,药物的相似性通过其结构、ATC注释和副作用描述,蛋白质对的相似通过将对称S-核作用于蛋白质氨基酸序列上获取。
进一步地,步骤3)所述核函数为克罗内克积核函数。
进一步地,步骤4)通过数据库和文献检索对预测结果进行验证,即通过数据库和文献检索验证新预测,为进一步的生物实验提供有力的依据。
一种采用上述方法的预测药物的蛋白质相互作用靶点的系统,包括:
数据集构建模块,用于通过收集人类蛋白质相互作用网络和药物的单个蛋白质靶点数据,构建药物的相互作用蛋白质靶点数据集;
数据获取模块,用于获取药物和蛋白质的描述数据;
数学建模模块,用于构建二部图表征药物和蛋白质对的相互作用关系,利用药物和蛋白质的描述数据分别构建表征药物相似性和蛋白质对相似性的相似矩阵,建立核函数联系药物和蛋白质对的相似矩阵,以及通过支持向量机算法建立预测药物的蛋白质相互作用靶点的预测模型;
模型测试模块,用于利用未知的药物和相互作用蛋白质对进行独立集测试,预测可能存在的未知的药物蛋白质相互作用靶点。进而,所述模型测试模块通过数据库和文献检索对预测结果进行验证。
本发明提出了一种全新的、基于核方法和数据整合的药物蛋白质相互作用靶点的识别框架和计算系统。不同于以往的单个蛋白质靶点,本发明将蛋白质相互作用作为药物靶点看待(即将相互作用的蛋白质对作为药物靶点看待),对于药物蛋白质相互作用识别,提出了从数据集构建、数据获取、建模到测试的计算系统,包括构建全新的药物的蛋白质相互作用靶点数据集,提出基于数据整合的药物蛋白质相互作用靶点识别预测模型,并进行预测模型的性能及预测新靶点能力的测试。相对预测单个蛋白质靶点,本发明的蛋白质相互作用靶点预测可以发现那些基于单个蛋白质靶点预测没有发现的药物靶点,可以拓广药物靶点的搜索空间,能够得到分类性能最好、更为特异的药物蛋白质相互作用靶点,在实际应用中具有可行性和优越性。
附图说明
图1是药物蛋白质相互作用识别的计算系统总结构图。
图2是药物蛋白质相互作用识别的预测模型建模过程示意图。
图3是药物的蛋白质相互作用靶点识别的完整计算流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
图1所示为本发明的基于药物和蛋白质数据整合的药物蛋白质相互作用靶点识别系统示意图。该系统包括四个模块:数据集构建模块、数据获取模块、数学建模模块和模型测试模块。
1)药物蛋白质相互作用靶点数据集构建模块
通过收集人类蛋白质相互作用网络和药物的单个蛋白质靶点数据,构建药物的相互作用蛋白质靶点数据集。该数据集包括两种不同类型的网络:
a)人类蛋白质相互作用网络:描述人类蛋白质之间相互作用关系。
b)药物和单个蛋白质相互作用网络:描述药物和单个蛋白质之间的作用关系。
2)药物和蛋白质描述数据收集模块(或称数据获取模块)
药物和蛋白质的描述数据用于实现将它们的数字化,使之适用于数学模型,具体包括:
I.描述药物的化合物分子结构,药物的AnatomicalTherapeuticChemical(ATC)注释以及药物的副作用。
II.描述蛋白质的氨基酸序列。
3)数学建模模块
从机器学习方法论的角度入手探求药物的蛋白质相互作用靶点识别模型和算法,发展了基于核方法的多维数据整合框架。具体地,首先利用药物的蛋白质相互作用靶点数据集建立二部图,用以表征药物和相互作用蛋白质对之间的相互作用关系;其次利用药物和蛋白质的描述数据分别构建表征药物相似性和蛋白质对相似性的相似矩阵。药物的相似性通过其结构、ATC注释和副作用描述;蛋白质对的相似通过将对称S-核作用于蛋白质氨基酸序列上获取。最后通过定义核函数连接药物和蛋白质对相似矩阵(例如使用克罗内克积(Kroneckerproduct)核函数),利用机器学习算法预测新的药物蛋白质相互作用靶点(例如使用支持向量机算法)。
具体而言,分为三个步骤:
I.构建药物和蛋白质对相互作用的二部图网络;
II.构建药物和蛋白质对相似矩阵;
III.利用核函数如克罗内克积核函数连接药物和蛋白质对的相似矩阵,基于机器学习算法例如支持向量机算法建立预测药物的蛋白质相互作用靶点的预测模型。
4)模型测试模块
利用未知的药物和相互作用蛋白质对进行独立集测试,预测可能存在的未知的药物蛋白质相互作用靶点,通过数据库和文献检索验证新预测,即验证预测结果。
下面结合图1,针对数据集构建,数据获取,建模和模型测试四部分进行详细阐述。
(a)数据集构建
通过搜索已有的人类蛋白质相互作用网络和药物单个蛋白质靶点数据构建药物的蛋白质相互作用靶点数据集。具体而言,首先分别从HPRD数据库和DrugBank数据库收集人类蛋白质相互作用网络数据和药物的单个蛋白质靶点数据;保留那些结合同一个药物的蛋白质对构建药物的蛋白质相互作用靶点数据集;最终产生了一个包含63个人类相互作用蛋白质对和113个FDA批准的药物和蛋白质对的相互作用网络,该网络包含了227个药物和蛋白质对相互作用。通过对该网络拓扑结构的分析发现:
A.只有少数药物拥有多个蛋白质相互作用靶点,绝大部分药物只作用一个蛋白质相互作用靶点;
B.只有少数蛋白质对结合多种药物,绝大多数蛋白质对只绑定一种药物;
C.作为药物靶点的蛋白质对就一般的相互作用蛋白质对而言拥有更高的序列相似性,且倾向于参与同一生物通路。
(b)药物和蛋白质描述数据获取
描述药物的数据包括:
A.药物化合物分子数据:DrugBank
B.药物ATC注释:WHOCC:http://www.whocc.no/atc_ddd_index/
C.药物副作用:SIDER:http://sideeffects.embl.de
描述蛋白质的数据包括:蛋白质的氨基酸序列(DrugBank)
(c)药物蛋白质相互作用靶点预测模型构建
如图2所示,建模的过程包括构建二部图表征药物和蛋白质对的相互作用关系、构建描述药物和蛋白质对的相似矩阵、建立核函数联系药物和蛋白质对的相似矩阵并通过支持向量机算法构建预测模型三个步骤。
利用描述药物的三组数据共建立三种药物相似矩阵:假设共有nc种药物。图2中示意了三种药物,即卡麦角林(Cabergoline)、罗平尼咯(Ropinirole)、奥马珠单抗(Omalizumab)。
A.矩阵的每个元素代表药物分子结构相似程度,是通过KyotoEncyclopediaofGenesandGenomes(KEGG)数据库的SIMilarCOMPound(SIMCOMP)工具计算获得。
B.矩阵的每个元素代表药物ATC注释相似程度,用来计算药物d和d’的ATC注释相似性的公式为:
S A ( d , d ′ ) = max t i ∈ T ( d ) , t j ∈ T ( d ′ ) s i m ( t i , t j ) ,
其中T(d)和T(d’)表示药物d和d’的ATC注释集合,sim(ti,tj)=w(ti)w(tj)exp(-γd(ti,tj)),d(ti,tj)是ATC注释ti,tj在注释系统里的最短距离,而w(ti),w(tj)表示ATC注释ti,tj的权重,设为频率的倒数,意味着重视那些不常出现的注释而忽略那些经常被使用的注释。γ是事先定义的参数。
C.矩阵的每个元素表示药物在副作用意义下的相似程度,设共用M个副作用,
S E ( d , d ′ ) = Σ i = 1 M ω i z i z i ′ Σ i = 1 M ω i z i 2 Σ i = 1 M ω i z i ′ 2 ,
其中zi,z′是表示药物d和d’的二值化向量,取值为1表示该药物有对应的副作用,反之为零。ωi表示第i个副作用的权重,定义为其中fi是i个副作用出现的频率,σ是所有频率的偏差,h是事先定义的参数。
利用蛋白质的氨基酸序列建立描述蛋白质对的相似矩阵:由蛋白质p1,p1’和蛋白质p2,p2’构成的蛋白质对PPI1(p1,p1′)和PPI2(p2,p2′)的相似程度为:
SPPI(PPI1,PPI2)=max(s1,s2),
其中 s 1 = S q ( p 1 , p 2 ) + S q ( p 1 ′ , p 2 ′ ) 2 , s 2 = S q ( p 1 , p 2 ′ ) + S q ( p 1 ′ , p 2 ) 2 . Sq表示氨基酸序列相似性,通过标准化的Smith-Walterman分值得到,并由MATLAB“swalign”函数获取。
利用克罗内克积函数联系药物和蛋白质的相似矩阵,用于支持向量机的核函数。对于药物和蛋白质相互作用对,其核函数定义为:
K d r u g - P P I = S d r u g ⊗ S P P I ,
其中Sdrug可以为SC、SA、SE或max{SC,SA,SE}(意味着只要药物在一种数据集的定义下相似即认为它们是相似的)。Sdrug也可写为simdrug,SPPI也可写为simPPI,如图1所示。
有了该核函数便可获得基于支持向量机的预测函数
f ( x ) = sgn ( Σ i = 1 l α i * y i K d r u g - P P I ( x i , x ) + b * ) ,
其中可通过求解下面的优化问题得到:
m i n α 1 2 Σ i = 1 l Σ j = 1 l α i α j y i y j K d r u g - P P I ( x i , x j ) - Σ i = 1 l α i
s . t . Σ i = 1 l y i α i = 0 , 0 ≤ α i ≤ C , i = 1 , ... , l .
如果存在 α j * ∈ ( 0 , C ) , j=1,…,l,则 b * = y i - Σ i = 1 l α i * y i K d r u g - P P I ( x i , x j ) . 这里xi,xj,i,j=1,…,l表示对药物和蛋白质对,yi,yj,i,j=1,…,l表示该药物和相互作用蛋白质对是否具有相互作用关系。C是模型参数,l是样本个数,这里指药物和相互作用蛋白质对的数目,αi,i=1,…,l是优化模型的变量。
由于已知的药物蛋白质相互作用靶点很有限,如果将所有未知关系的药物和蛋白质对均作为负类点,而将已知具有相互作用关系的药物和蛋白质对作为正类点,那么训练集不均衡问题随之产生。这种不均衡情况会使得支持向量机的分类器无法将两类点有效地分开。因此,为了解决不均衡问题,我们从未知关系的药物和蛋白质对中随机选择和正类点(已知具有相互作用关系的药物和蛋白质对)数目相当的点作为负类点,然后将支持向量机算法作用在均衡的数据集上,得到更为有效的预测器。
(d)最优药物蛋白质相互作用靶点识别模型的评价标准
Libsvm(参考文献Chang,C.-C.andLin,C.-J.(2011)LIBSVM:alibraryforsupportvectormachines.ACMTransactionsonIntelligentSystemsandTechnology,2:27,1–27.)作为训练支持向量预测器的软件被引入。由于使用基于给定核函数的支持向量机模型,只有模型参数C需要事先估计。3折交叉确认算法确定最优的C值为1。10折交叉验证用来评价预测器的性能。此外,ROC(ReceriverOperatingCharacteristic)曲线(参考文献Gribskov,M.andRobinson,N.L.(1996).Useofreceiveroperatingcharacteristic(roc)analysistoevaluatesequencematching.ComputersandChemistry,20,25–33.)以及ROC曲线下面积、正确率、敏感度、特异性、精准度和F值均被用于评价预测模型的性能,如表1所示。
表1.预测模型评价指标
其中TP:准确地预测为正类点的个数,TN:准确地预测为负类点的个数,FP:将负类点错误地预测为正类点的个数,FN:将正类点错误地预测为负类点的个数。
(e)药物蛋白质相互作用靶点识别模型预测能力的测试
为了预测模型在实际中的预测能力,需要构造独立测试集检验预测模型发现新的药物蛋白质相互作用靶点的能力。独立测试集包含从人类蛋白质相互作用网络随机抽取的50个蛋白质对(不包含训练集里出现的蛋白质对)和81个训练集里包含的FDA批准的药物,共4,050个未知的药物和蛋白质相互作用对。通过从KEGG数据库搜索药物和相关蛋白质参与的生物通路、从OMIM数据库搜索药物相关疾病的致病基因、从Uniprot数据库搜索蛋白质的GO功能等寻找支持新预测成立的证据。
本发明已经经过初步的试验验证。在基于已有知识构建的药物的蛋白质相互作用数据集上的试验结果很好。交叉验证的各评价指标表现良好。更为重要的是,初步试验结果分析显示,相对预测单个蛋白质靶点,蛋白质相互作用靶点预测可以发现那些基于单个蛋白质靶点预测没有发现的药物靶点。这些靶点主要包括那些和已知药物靶点缺乏相似性的蛋白质,证明了蛋白质相互作用预测模型可以拓广药物靶点的搜索空间。此外,在独立测试集上的实验结果表明,新的预测值得作为生物实验候选集对待,证明了该计算系统在实际应用中的可行性和优越性。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,包括使用不同的核函数联系药物和蛋白质对相似矩阵;使用不同的机器学习方法学习预测药物相互作用蛋白质靶点的预测器;使用不同的方法解决类不均衡问题;选取其他描述药物和蛋白质的数据等。所有这些改进和变换,及参数相关的调节和选取都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种预测药物的蛋白质相互作用靶点的方法,其特征在于,包括如下步骤:
1)收集人类蛋白质相互作用网络和药物的单个蛋白质靶点数据,构建药物的相互作用蛋白质靶点数据集;
2)获取药物和蛋白质的描述数据;
3)构建二部图表征药物和蛋白质对的相互作用关系,利用药物和蛋白质的描述数据分别构建表征药物相似性和蛋白质对相似性的相似矩阵,然后建立核函数联系药物和蛋白质对的相似矩阵,并通过机器学习算法建立预测药物的蛋白质相互作用靶点的预测模型;
4)利用未知的药物和相互作用蛋白质对进行独立集测试,预测可能存在的未知的药物蛋白质相互作用靶点。
2.如权利要求1所述的方法,其特征在于:步骤1)所述相互作用蛋白质靶点数据集包括两种不同类型的网络:a)人类蛋白质相互作用网络:描述人类蛋白质之间相互作用关系;b)药物和单个蛋白质相互作用网络:描述药物和单个蛋白质之间的作用关系。
3.如权利要求1所述的方法,其特征在于,步骤2)所述药物和蛋白质的描述数据包括:I.描述药物的化合物分子结构、药物的ATC注释以及药物的副作用;II.描述蛋白质的氨基酸序列。
4.如权利要求1所述的方法,其特征在于,步骤3)构建所述相似矩阵时,药物的相似性通过其结构、ATC注释和副作用描述,蛋白质对的相似通过将对称S-核作用于蛋白质氨基酸序列上获取;所述核函数为克罗内克积核函数,所述机器学习算法为支持向量机算法。
5.如权利要求1所述的方法,其特征在于,步骤4)通过数据库和文献检索对预测结果进行验证,为进一步的生物实验提供依据。
6.一种预测药物的蛋白质相互作用靶点的系统,其特征在于,包括:
数据集构建模块,用于通过收集人类蛋白质相互作用网络和药物的单个蛋白质靶点数据,构建药物的相互作用蛋白质靶点数据集;
数据获取模块,用于获取药物和蛋白质的描述数据;
数学建模模块,用于构建二部图表征药物和蛋白质对的相互作用关系,利用药物和蛋白质的描述数据分别构建表征药物相似性和蛋白质对相似性的相似矩阵,建立核函数联系药物和蛋白质对的相似矩阵,以及通过机器学习算法建立预测药物的蛋白质相互作用靶点的预测模型;
模型测试模块,用于利用未知的药物和相互作用蛋白质对进行独立集测试,预测可能存在的未知的药物蛋白质相互作用靶点。
7.如权利要求6所述的系统,其特征在于:所述相互作用蛋白质靶点数据集包括两种不同类型的网络:a)人类蛋白质相互作用网络:描述人类蛋白质之间相互作用关系;b)药物和单个蛋白质相互作用网络:描述药物和单个蛋白质之间的作用关系。
8.如权利要求6所述的系统,其特征在于,所述药物和蛋白质的描述数据包括:I.描述药物的化合物分子结构、药物的ATC注释以及药物的副作用;II.描述蛋白质的氨基酸序列。
9.如权利要求6所述的系统,其特征在于,所述数学建模模块构建相似矩阵时,药物的相似性通过其结构、ATC注释和副作用描述,蛋白质对的相似通过将对称S-核作用于蛋白质氨基酸序列上获取;所述核函数为克罗内克积核函数,所述机器学习算法为支持向量机算法。
10.如权利要求6所述的系统,其特征在于,所述模型测试模块通过数据库和文献检索对预测结果进行验证,为进一步的生物实验提供依据。
CN201510645421.4A 2015-10-08 2015-10-08 一种预测药物的蛋白质相互作用靶点的方法和系统 Pending CN105160206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510645421.4A CN105160206A (zh) 2015-10-08 2015-10-08 一种预测药物的蛋白质相互作用靶点的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510645421.4A CN105160206A (zh) 2015-10-08 2015-10-08 一种预测药物的蛋白质相互作用靶点的方法和系统

Publications (1)

Publication Number Publication Date
CN105160206A true CN105160206A (zh) 2015-12-16

Family

ID=54801062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510645421.4A Pending CN105160206A (zh) 2015-10-08 2015-10-08 一种预测药物的蛋白质相互作用靶点的方法和系统

Country Status (1)

Country Link
CN (1) CN105160206A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678108A (zh) * 2016-01-11 2016-06-15 天津师范大学 一种全局比对的蛋白互作网络融合方法
CN105956413A (zh) * 2016-04-27 2016-09-21 王�忠 识别生物分子网络中关键模块或关键节点的方法
CN106503483A (zh) * 2016-09-23 2017-03-15 西南大学 基于模块化因子图的骨髓瘤信号通路机制确认方法
CN106778065A (zh) * 2016-12-30 2017-05-31 同济大学 一种基于多元数据预测dna突变影响蛋白互作的预测方法
CN106909807A (zh) * 2017-02-14 2017-06-30 同济大学 一种基于多元数据预测药物靶向蛋白互作的预测方法
CN107229563A (zh) * 2016-03-25 2017-10-03 中国科学院信息工程研究所 一种跨架构的二进制程序漏洞函数关联方法
CN107609326A (zh) * 2017-07-26 2018-01-19 同济大学 癌症精准医疗中的药物敏感性预测方法
CN107731309A (zh) * 2017-08-31 2018-02-23 武汉百药联科科技有限公司 一种药物活性的预测方法及其应用
CN108509765A (zh) * 2018-03-26 2018-09-07 中山大学 一种基于fm-n-dnn的药物靶标相互作用预测方法
WO2019030627A1 (en) * 2017-08-08 2019-02-14 International Business Machines Corporation PREDICTING ADVERSE REACTIONS TO A MEDICATION
CN110544506A (zh) * 2019-08-27 2019-12-06 上海源兹生物科技有限公司 基于蛋白互作网络的靶点PPIs可药性预测方法及装置
CN110689965A (zh) * 2019-10-10 2020-01-14 电子科技大学 一种基于深度学习的药物靶点亲和力预测方法
CN112326767A (zh) * 2020-11-03 2021-02-05 浙江大学滨海产业技术研究院 一种基于靶向蛋白质组学的癌症药物靶标作用预测方法
CN112768029A (zh) * 2020-12-27 2021-05-07 上海市东方医院(同济大学附属东方医院) 一种基于单细胞测序的组合用药推荐设备、方法及介质
CN112820355A (zh) * 2020-12-16 2021-05-18 浙江工业大学 一种基于蛋白质序列比对的分子虚拟筛选方法
CN113140254A (zh) * 2021-04-28 2021-07-20 厦门大学 元学习药物-靶点相互作用预测系统及预测方法
CN116246697A (zh) * 2023-05-11 2023-06-09 上海微观纪元数字科技有限公司 用于药物的靶点蛋白质预测方法及装置、设备、存储介质
CN116864036A (zh) * 2023-08-02 2023-10-10 山东政法学院 一种基于人工智能的化合物库构建方法
CN116994644A (zh) * 2023-07-28 2023-11-03 天津大学 基于预训练模型的药靶亲和力预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239751A (zh) * 2014-09-05 2014-12-24 南京理工大学 基于后处理学习的g蛋白偶联受体-药物交互作用预测方法
EP2905363A1 (en) * 2012-10-01 2015-08-12 Japan Science And Technology Agency Approval prediction device, approval prediction method, and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2905363A1 (en) * 2012-10-01 2015-08-12 Japan Science And Technology Agency Approval prediction device, approval prediction method, and program
CN104239751A (zh) * 2014-09-05 2014-12-24 南京理工大学 基于后处理学习的g蛋白偶联受体-药物交互作用预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YONG-CUI WANG等: "Computational probing protein–protein interactions targeting small molecules", 《HTTPS://DOI.ORG/10.1093/BIOINFORMATICS/BTV528》 *
YONGCUI WANG等: "Drug Repositioning by Kernel-Based Integration of Molecular Structure, Molecular Activity, and Phenotype Data", 《PLOS ONE》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678108A (zh) * 2016-01-11 2016-06-15 天津师范大学 一种全局比对的蛋白互作网络融合方法
CN107229563A (zh) * 2016-03-25 2017-10-03 中国科学院信息工程研究所 一种跨架构的二进制程序漏洞函数关联方法
CN107229563B (zh) * 2016-03-25 2020-07-10 中国科学院信息工程研究所 一种跨架构的二进制程序漏洞函数关联方法
CN105956413B (zh) * 2016-04-27 2019-08-06 王�忠 识别生物分子网络中关键模块或关键节点的方法
CN105956413A (zh) * 2016-04-27 2016-09-21 王�忠 识别生物分子网络中关键模块或关键节点的方法
CN106503483A (zh) * 2016-09-23 2017-03-15 西南大学 基于模块化因子图的骨髓瘤信号通路机制确认方法
CN106778065A (zh) * 2016-12-30 2017-05-31 同济大学 一种基于多元数据预测dna突变影响蛋白互作的预测方法
CN106778065B (zh) * 2016-12-30 2019-02-01 同济大学 一种基于多元数据预测dna突变影响蛋白互作的预测方法
CN106909807A (zh) * 2017-02-14 2017-06-30 同济大学 一种基于多元数据预测药物靶向蛋白互作的预测方法
CN106909807B (zh) * 2017-02-14 2019-02-01 同济大学 一种基于多元数据预测药物靶向蛋白互作的预测方法
CN107609326A (zh) * 2017-07-26 2018-01-19 同济大学 癌症精准医疗中的药物敏感性预测方法
CN110998739B (zh) * 2017-08-08 2024-02-20 国际商业机器公司 不良药物反应的预测
GB2578265A (en) * 2017-08-08 2020-04-22 Ibm Prediction of adverse drug reactions
WO2019030627A1 (en) * 2017-08-08 2019-02-14 International Business Machines Corporation PREDICTING ADVERSE REACTIONS TO A MEDICATION
CN110998739A (zh) * 2017-08-08 2020-04-10 国际商业机器公司 不良药物反应的预测
CN107731309A (zh) * 2017-08-31 2018-02-23 武汉百药联科科技有限公司 一种药物活性的预测方法及其应用
CN107731309B (zh) * 2017-08-31 2020-01-21 武汉百药联科科技有限公司 一种药物活性的预测方法及其应用
CN108509765A (zh) * 2018-03-26 2018-09-07 中山大学 一种基于fm-n-dnn的药物靶标相互作用预测方法
CN110544506A (zh) * 2019-08-27 2019-12-06 上海源兹生物科技有限公司 基于蛋白互作网络的靶点PPIs可药性预测方法及装置
CN110544506B (zh) * 2019-08-27 2022-02-11 上海源兹生物科技有限公司 基于蛋白互作网络的靶点PPIs可药性预测方法及装置
CN110689965A (zh) * 2019-10-10 2020-01-14 电子科技大学 一种基于深度学习的药物靶点亲和力预测方法
CN112326767A (zh) * 2020-11-03 2021-02-05 浙江大学滨海产业技术研究院 一种基于靶向蛋白质组学的癌症药物靶标作用预测方法
CN112820355B (zh) * 2020-12-16 2024-03-22 浙江工业大学 一种基于蛋白质序列比对的分子虚拟筛选方法
CN112820355A (zh) * 2020-12-16 2021-05-18 浙江工业大学 一种基于蛋白质序列比对的分子虚拟筛选方法
CN112768029B (zh) * 2020-12-27 2023-10-13 上海市东方医院(同济大学附属东方医院) 一种基于单细胞测序的组合用药推荐设备、方法及介质
CN112768029A (zh) * 2020-12-27 2021-05-07 上海市东方医院(同济大学附属东方医院) 一种基于单细胞测序的组合用药推荐设备、方法及介质
CN113140254B (zh) * 2021-04-28 2023-08-25 厦门大学 元学习药物-靶点相互作用预测系统及预测方法
CN113140254A (zh) * 2021-04-28 2021-07-20 厦门大学 元学习药物-靶点相互作用预测系统及预测方法
CN116246697A (zh) * 2023-05-11 2023-06-09 上海微观纪元数字科技有限公司 用于药物的靶点蛋白质预测方法及装置、设备、存储介质
CN116994644A (zh) * 2023-07-28 2023-11-03 天津大学 基于预训练模型的药靶亲和力预测方法
CN116994644B (zh) * 2023-07-28 2024-02-02 天津大学 基于预训练模型的药靶亲和力预测方法
CN116864036A (zh) * 2023-08-02 2023-10-10 山东政法学院 一种基于人工智能的化合物库构建方法

Similar Documents

Publication Publication Date Title
CN105160206A (zh) 一种预测药物的蛋白质相互作用靶点的方法和系统
Bi et al. MobileNet based apple leaf diseases identification
Ji et al. Machine learning for perturbational single-cell omics
Zhang et al. Determining modular organization of protein interaction networks by maximizing modularity density
CN108763865A (zh) 一种预测dna蛋白质结合位点的集成学习方法
Shi et al. Protein complex detection with semi-supervised learning in protein interaction networks
Verma et al. Ssnet: A deep learning approach for protein-ligand interaction prediction
Vreven et al. Evaluating template-based and template-free protein–protein complex structure prediction
CN112652355B (zh) 一种基于深度森林和pu学习的药物-靶标关系预测方法
Mizuguchi et al. Seeking significance in three-dimensional protein structure comparisons
Wen et al. Prediction of protein-protein interactions by label propagation with protein evolutionary and chemical information derived from heterogeneous network
Ahmed et al. Core and peripheral connectivity based cluster analysis over PPI network
Ren et al. Phase Space Graph Convolutional Network for Chaotic Time Series Learning
Weighill et al. Network metamodeling: effect of correlation metric choice on phylogenomic and transcriptomic network topology
Che et al. Prediction of ligand binding sites using improved blind docking method with a Machine Learning-Based scoring function
CN113409897A (zh) 药物-靶标相互作用的预测方法、装置、设备和存储介质
Zhao et al. Detecting overlapping protein complexes in weighted PPI network based on overlay network chain in quotient space
Shi et al. A review of machine learning-based methods for predicting drug–target interactions
Zheng et al. An optimized drug similarity framework for side-effect prediction
Fouaz et al. Similarity searching in ligand-based virtual screening using different fingerprints and different similarity coefficients
Bongini et al. A deep learning approach to the prediction of drug side-effects on molecular graphs
Shen et al. Detecting temporal protein complexes based on neighbor closeness and time course protein interaction networks
Ai et al. Virtual screening for COX-2 inhibitors with random forest algorithm and feature selection
Ghorbanali et al. DRP-VEM: Drug repositioning prediction using voting ensemble
Tiwari et al. Network-based Machine Learning Approach for Structural Domain Identification in Proteins

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151216