CN109300501A - 蛋白质三维结构预测方法及用其构建的预测云平台 - Google Patents

蛋白质三维结构预测方法及用其构建的预测云平台 Download PDF

Info

Publication number
CN109300501A
CN109300501A CN201811100003.7A CN201811100003A CN109300501A CN 109300501 A CN109300501 A CN 109300501A CN 201811100003 A CN201811100003 A CN 201811100003A CN 109300501 A CN109300501 A CN 109300501A
Authority
CN
China
Prior art keywords
protein
sequence
template
target sequence
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811100003.7A
Other languages
English (en)
Other versions
CN109300501B (zh
Inventor
马旭
路建波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Science Technology Research Institute Of National Health And Family Planning Commission Of People's Republick Of China
Original Assignee
Science Technology Research Institute Of National Health And Family Planning Commission Of People's Republick Of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Science Technology Research Institute Of National Health And Family Planning Commission Of People's Republick Of China filed Critical Science Technology Research Institute Of National Health And Family Planning Commission Of People's Republick Of China
Priority to CN201811100003.7A priority Critical patent/CN109300501B/zh
Publication of CN109300501A publication Critical patent/CN109300501A/zh
Application granted granted Critical
Publication of CN109300501B publication Critical patent/CN109300501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种蛋白质三维结构预测的方法,包括如下步骤:(1)检索与目标序列相关的结构;(2)选择模板;(3)将目标序列与模板结构对齐;(4)建立模型;(5)评估模型;(6)空间对齐处理。还提供了一种蛋白质三维结构预测云平台,包括:任务收集及检索模块、选择模板模块、目标序列与结构对齐模块、建模模块、评估模块和空间对齐模块,所述蛋白质三维结构预测云平台架设在云服务器上。还提供了该云平台的应用。

Description

蛋白质三维结构预测方法及用其构建的预测云平台
技术领域
本发明涉及一种蛋白质三维结构预测的方法、运用该方法构建的预测云平台,以及该方法和云平台的应用。
背景技术
蛋白质是生物体重要的组成成分,具有重要的生物学功能,如作为生物催化剂、调节代谢、免疫保护、物质的转运和存储、细胞间信号传递等。各种不同的蛋白质能够发挥特定的生物学功能,与其特有的结构相关。所谓蛋白质的结构,是指每种蛋白质所特有的空间结构或三维结构。蛋白质分子是由氨基酸缩合而成的共价多肽链,但是天然蛋白质分子并非走向随机的松散多肽链。每一种天然蛋白质都有自己特有的空间结构或称三维结构,这种三维结构通常被称为蛋白质的构象,即蛋白质的结构。蛋白质的结构决定着其功能,即由线性氨基酸组成的蛋白质需要折叠成特定的空间结构才具有相应的生理活性和生物学功能。因此,解析蛋白质的空间结构对于认识蛋白质的功能、功能的执行、生物大分子间的相互作用,以及医学和药学的发展(如药物靶点的设计等)具有重要意义。为了更快速地了解蛋白质功能,尤其是对未知蛋白质开展研究之前,通过对蛋白质结构进行预测具有明显的需求。
研究蛋白质的精确三维(3D)结构通常有助于完成此任务。在没有实验确定的结构的情况下,通过一定的方法可以预测蛋白质的三维结构,例如,比较或同源性建模有时可以为与至少一种已知蛋白质结构(模板)有关的蛋白质(靶标)提供有用的3D模型,对于研究蛋白质的结构和功能具有重要的意义。
尽管蛋白质结构的从头预测方法方面取得了进展,但同源建模仍然是唯一可靠地预测蛋白质三维结构的方法,其准确性可与低分辨率实验确定的结构相媲美。即使有错误的模型可能也是有用的,因为有些函数的各个方面可以仅从模型的粗略结构特征进行预测。
来自同一个家族的蛋白质的三维结构比它们的一级序列更保守,因此,如果两个蛋白质之间的相似性在序列水平上可检测到,通常可以假设其结构的相似性。此外,蛋白质从基因组中随机抽取约20%到65%,所有已知序列中约有一半具有至少一个可检测地与至少一种已知结构蛋白相关的结构域。这个数量比蛋白质数据库(PDB)中存储的实验确定的蛋白质结构的数量大一个数量级(20,000)。此外,同源建模的用处在稳步增加,因为蛋白质采用的不同结构折叠的数量是有限的,因为实验确定的新结构的数量呈指数增长。这一趋势由结构基因组学项目加以强调,该项目旨在确定每个蛋白质家族至少有一种结构。
但目前通过同源建模的方法预测蛋白结构仍然存在以下不足:
(1)预测蛋白质的三维结构时,需要安装相关预测软件,现有技术的该类软件为科学计算库,其使用和安装都极其复杂;
(2)现有技术的该类软件往往需要强大的硬件支持,对每个用户所要求的成本很高;
(3)现有数据库不能直观地展示变异蛋白相关位置的三维结构变化。
因此,如何克服现有技术的不足,建立一个无需安装蛋白质三维结构预测软件且可降低使用成本、并可以直观展示变异蛋白相关位置的结构变化的平台,成为本领域亟待解决的技术问题。
发明内容
本发明的目的之一在于提供一种蛋白质三维结构预测的方法,其包括如下步骤:
(1)检索与目标序列相关的结构:在已知结构的蛋白数据库中检索与目标序列相关的序列作为备选的模板;
(2)选择模板:从步骤(1)的备选模板中,根据建模的要求选择模板;
(3)将目标序列与模板结构对齐:通过比对的方法,建立目标序列的残基和步骤(2)所选择的模板的残基之间的结构等价列表,从而将目标序列与模板结构进行对齐;
(4)建立模型:根据步骤(3)的对齐结果,建立蛋白质3D模型;
(5)评估模型:评估步骤(4)中所建立模型的准确性;
(6)空间对齐处理:将步骤(5)中合格的模型的坐标系和用户的坐标系对齐。
其中,在步骤(1)检索与目标序列相关的结构中,具体是在已知结构的蛋白质数据库PDB(Protein Data Bank)中检索目标序列,即通过将目标序列与数据库中已知结构的每个序列进行比较以评估其相似性。
可采用的序列比对方法包括:(1)与目标或潜在模板相关的序列使用序列配置文件方法和隐马尔可夫模型进行检索;或者,(2)基于评估目标序列与数据库中每个结构序列之间的兼容性,由“线程化”方法组实现,线程使用序列结构适应函数(如残差级统计势函数)来评估序列结构匹配。线程方法通常不依赖于序列相似性。线程有时会检测到蛋白质之间的结构相似性,而没有可检测的序列相似性。
当使用上述检索方法获得潜在模板列表后,则进入下一步骤,即根据特定的建模需要,选择适合的一个或多个模板。
在步骤(2)选择模板的步骤中,根据建模的要求,选择合适的高质量的模板。考虑的因素包括:与目标总体序列的相似性、比对中缺口的数量和长度。选择与目标总体序列相似性高,且比对中缺口的数量少和长度小的序列作为模版序列。
其中,根据本发明的一个方面,步骤(2)的一个方案为选择与建模序列具有高序列相似性的结构。
根据本发明的一个方面,步骤(2)的一个方案为构建多重比对和系统发生树,从而在最接近目标序列的亚家族中选择模板。该亚家族由包含目标序列和模板的蛋白质家族组织形成。
根据本发明的一个方面,步骤(2)的一个方案为选择与目标序列具有高环境相似性的模板。前述的高环境相似性,其含义为模板的环境与需要建模的目标序列的环境之间的高相似性,其中相似性的高或低可由本领域的技术人员根据实际的需要进行判断,例如70%以上的匹配时,环境相似性可定义为高。
根据本发明的一个方面,步骤(2)的一个方案为选择与目标序列结合相同或相似配体的模板。
根据本发明的一个方面,步骤(2)的一个方案为选择具有高质量的实验确定结构的模板。该实验确定结构包括晶体结构的分辨率和R因子以及NMR结构的每个残基的限制数,这些参数指示了结构的准确性。这些信息可从模板PDB文件或其他描述结构的文章中获得。例如,如果两个模板具有与目标相似的序列相似性,则通常应使用以最高分辨率确定的模板。
根据本发明的一个方面,步骤(2)的一个方案为根据比较模型的目的来确定选择模板的标准。作为本发明的一个示例,如果要构建蛋白质-配体模型,则相对于模板分辨率,优选含有类似配体的模板。作为本发明的另一个示例,如果要使用该模型来分析酶的活性位点的几何形状,则优选使用高分辨率模板结构。
在步骤(3)将目标序列与模板结构对齐的步骤中,通过比对的方法建立目标序列的残基和模板残基之间的结构等价列表,从而将模板序列与目标序列对齐。该列表通过目标序列和模板序列的比对来定义。
根据本发明的一个方面,步骤(3)的一个实施方案为在序列同一性较高的情况下,例如在序列同一性大于30%的情况下,具体例如序列同一性为30%、40%、50%、60%、70%、80%、90%、100%及这些数值之间的情况下,使用常规的模板检索及对齐方法例如标准序列比对法。
根据本发明的一个方面,步骤(3)的一个实施方案为在序列同一性较低的情况下,例如在序列同一性低于30%的情况下,具体例如序列同一性为30%、20%、10%、5%、1%及这些数值之间的情况下,通过从模板中包含结构信息来改进排列。具体为通过调整检测远程关系来将目标序列与模板结构对齐,通过人工干预以最小化未对齐残基的数量,通过从模板中包含结构信息来改进排列,同时避免在二级结构元素、埋藏区域或空间上远距离相隔的两个残基之间留下空隙。上述“远距离”相隔的标准,可由本领域一般技术人员根据实际需要进行判断,例如两个残基之间的距离相对于目标序列总长度的比例为大于60%时,定义为远距离。
在低序列同一性的情况下,对比准确性是影响最终模型质量的最重要因素。考虑到模板结构,检查和编辑比对非常重要,特别是在目标模板序列标识较低的情况下。只有一个残留位置的错位会导致模型中的误差约为4A°,因为当前的建模方法通常无法从对齐中的错误中恢复。
在步骤(4)建立模型步骤中,可以使用多种方法来构建目标蛋白质的3D模型。
根据本发明的一个方面,步骤(4)的一个实施方案为通过刚体装配进行建模,该方法从若干个核心区域以及从解剖相关结构获得的循环和侧链构建模型。
根据本发明的一个方面,步骤(4)的一个实施方案为通过片段匹配进行建模的方法系列依赖于模板中保守原子的近似位置来计算其他原子的坐标。
根据本发明的一个方面,步骤(4)的一个实施方案为通过满足空间约束建模,使用距离几何或优化技术来满足从目标序列与模板结构的比对中获得的空间约束。具体来说,属于这组方法从两个来源中提取空间约束。首先,从与模板结构的比对中提取靶序列中距离和二面角的同源性限制。其次,从Charmm-22,63的分子力学力场获得立体化学约束如键长和键角偏好,并且二面角和非键合原子距离的统计学偏好从代表性的所有已知蛋白质结构集合中获得。然后通过依赖于共轭梯度和分子动力学的优化方法来计算模型,其最小化违反空间限制。该程序在概念上类似于NMR测定蛋白质结构所使用的限制。
根据本发明的一个方面,步骤(4)的一个实施方案为,从比对开始,然后检索由统计势函数引导的构象空间,并略微放宽来自输入比对的同源性约束,试图克服至少部分比对错误。
模板选择和对准精度通常对模型准确度有较大影响,特别是对于基于与模板的序列同一性小于40%的模型。然而,建模方法允许一定程度的灵活性和自动化以更容易和更快地获得更好的模型是非常重要的。
根据本发明上述步骤(4)的实施方案,这些方案都允许在对齐中进行更改时重新计算模型,该方法提供用于结合关于目标序列的先前知识(例如,交联约束,预测的二级结构)的工具并且允许插入的从头建模(例如循环建模)。
根据本发明上述步骤(4)的实施方案,其中循环建模为针对30%到50%范围内的序列同一性。在该范围内,同源物之间的环变化,核心区仍然相对保守并准确对齐。具体来说,循环建模有两种方法。第一种为从头计算循环预测基于给定环境中的构象搜索或构象计数,由计分或能量函数指导。有许多这样的方法,利用不同的蛋白质表示,能量函数项和优化或枚举算法。第二种为循环预测的数据库方法,包括找到适合循环的两个干区的主链段。通过许多已知蛋白质结构的数据库来执行对这种片段的检索,而不仅是模拟蛋白质的同源物。通常,获得适合茎残基的许多不同的替代片段,并且可能根据模板和靶环序列之间的几何标准或序列相似性进行分类。这些初始粗糙模型通常通过优化一些能量函数来完善。
循环建模模块实现了基于优化的方法。主要原因是能量最小化的一般性和概念性简单性,以及相对较少数量的已知蛋白质结构对数据库方法的限制。优化适用于同时建模与配体相互作用的几个环路和环路,这对于数据库检索方法来说并不是直接的。环路优化依赖于共轭梯度和分子动力学以及模拟退火。伪能量函数是许多项的总和,包括来自Charmm-22分子力学力场的一些项,以及基于已知蛋白质结构中的距离67和二面角分布68的空间约束。无论是在本地还是在本地环境中,该方法在已知结构的大量循环中进行了测试。在本地环境中预测的八个残基的循环对于4-,8-和12-残基环分别增加180,25和3%。如果环路的环境至少近似正确,那么期望有12个残基的循环的有用模型是不太乐观的。基于独立导出的最低能量环构象的结构变异性,可以估计给定环路预测是否正确。
在步骤(5)评估模型步骤中,可通过目标序列和模板之间的序列相似度近似预测。
根据本发明的一个方面,步骤(5)的一个实施方案为选择序列相似度为30%以上的模型。
根据本发明的一个方面,步骤(5)的一个实施方案为根据包括环境在内的因素来评估模型的准确性。例如,一些钙结合蛋白与钙结合时会发生大的构象变化。如果使用无钙模板来模拟目标的钙结合状态,则无论目标模板的相似性如何,模型都可能不正确。
根据本发明的一个方面,步骤(5)的一个实施方案为序列相似度小于30%的模型,以环境因素来评估模型的准确性,包括在内部采用对自我一致性的评估检查模型的满足情况,以及在外部采用没有用于计算模型的信息。作为内部评估的一个例子,包括立体化学信息,如键,键角,二面角和非键合原子-原子距离。
虽然立体化学错误比外部评估方法检测到的错误少且信息量较少,但是一组立体化学错误可能表明相应区域也包含其他较大错误(例如对齐错误)。当模型基于与模板的序列同一性小于30%时,外部评估的第一个目的是测试是否使用了正确的模板。当对齐只有极小的显著性或要评估具有不同褶皱的几种可选模板时,此测试尤为重要。一个复杂的问题是,在相似度低的情况下,对齐通常包含许多错误,使得难以区分不正确的模板和不正确的对齐与另一方面正确的模板。通常只有在对齐至少近似正确时才能识别正确的模板。有时可以通过为每个模板测试来自多个替代路线的模型来克服这种复杂情况。
根据本发明的一个方面,步骤(5)的一个实施方案为,序列相似度小于30%的模型,以环境因素来评估模型的准确性,包括在内部采用对自我一致性的评估检查模型的满足情况,以及在外部采用没有用于计算模型的信息。外部评估是对模型中不可靠区域的预测,即计算一个模型的伪能量分布,比如由ProsaII产生的分布。该配置文件报告模型中每个位置的能量。配置文件中的峰值通常对应于模型中的错误。使用能量配置文件进行局部错误检测有几个缺陷。例如,一个区域可能被认为是不可靠的,只是因为它与一个不正确的建模区域相互作用;还有更多的根本问题,最后,模型应与实验观察一致,如定点诱变,交联数据和配体结合。
一般来说,模型与模板的目标结构非常接近,或者如果比对正确的话,模型更接近目标。因为当一种蛋白质的序列发生了许多残基替代,缺失和插入被转换成另一个的序列。即使在模板与靶标有50%相同的有利模型的情况下,一半的侧链也会变化,并且必须包装在蛋白质核心中,以避免原子碰撞和违反立体化学限制。当使用多个模板进行建模时,有时可能获得比任何模板都更接近目标结构的模型。由于模型倾向于从每个模板中继承最佳区域。对齐错误是导致模型比模板更糟的主要因素。但是,为了表示目标,最好使用比较模型而不是模板。原因是对齐中的错误同样影响了模板作为目标表示的使用以及基于该模板的比较模型。
在步骤(6)空间对齐处理步骤中,由于预测出的结构和初始结构并不在一个空间中,因为初始结构只输入了蛋白序列,而没有输入相应的空间坐标系,而我们建模中使用的是一套自有坐标系,与用户最终希望的坐标系存在偏差,所以需要使用旋转配准的方式来将两个坐标系对齐。
根据本发明的一个方面,步骤(6)的一个实施方案为,使用旋转配准的方式来将建模坐标系和用户的坐标系对齐,所采用的对其准则依赖RMSD,即对于相同分子的两个结构a和b,所定义RMSD如下:
RMSDab=max(RMSD′ab,RMSD′ba),
其中,总和在结构a中的所有N个重原子上,结构b中的所有原子的最小值与结构a中的原子i的元素类型相同。
该方法可能够快速有效的降低RMSD值,大大的提高了最终输出空间匹配程度。
本发明的另一个目的在于提供一种蛋白质三维结构预测的云平台,该平台包括以下模块:任务收集及检索模块、选择模板模块、目标序列与结构对齐模块、建模模块、评估模块和空间对齐模块,这些模块依次对应于上述蛋白质三维结构预测方法的步骤(1)至步骤(6);
根据本发明的一个方面,上述任务收集及检索模块中可收集的目标序列类型包括氨基酸序列或核苷酸序列;如果目标序列的类型为氨基酸序列,则直接将其输入已知结构的蛋白质数据库PDB中检索,如果目标序列的类型为核苷酸序列,则通过自动程序将其转换为氨基酸序列后在已知结构的蛋白质数据库PDB中检索。
根据本发明的一个方面,上述的蛋白质三维结构预测的云平台在云服务器上构建,且安装有蛋白质三维结构在线可视化程序。
根据本发明的一个方面,上述蛋白质三维结构预测的云平台的输出结果包括依赖天然结构、目标函数残差、结构匹配程度、DOPE自由能、DOPE能对比,并提供PDB格式的结果3D数据、依赖结构数据、以及预测中间数据的结果。
本发明具有良好的技术效果:首先,本系统平台支持用户输入核酸序列以及氨基酸序列预测蛋白质三维结构,预测过程简单,结果采用高清在线可视化过程展示。第二,采用云方式代替传统机器,这样无需每个用户单独购买昂贵的读取机器,节约了大量成本。而通过配置高性能服务器,可以极大提高计算速度。第三,本系统使用方便,无需学习蛋白预测相关软件,可以提升效率。最后,本系统直观可见。
附图说明
图1为本发明的蛋白三维结构预测方法的流程示意图;
图2为本发明的蛋白三维结构预测云平台的结构示意图;
图3为使用本发明的蛋白三维结构预测云平台时的用户输入界面示意图;
图4为本发明的蛋白三维结构预测云平台在选择模板时的界面示意图;
图5为本发明的蛋白三维结构预测云平台在对预测结果模型评价的界面示意图;
图6为使用本发明的蛋白三维结构预测云平台在线输出蛋白石三维结构预测结果的界面示意图;
图7为使用本发明的蛋白三维结构预测云平台进行目标序列和模板序列的比对结果示意图;
图8为使用本发明的蛋白三维结构预测云平台时,通过点击对比结果中具体的氨基酸在可视化区域中精准定位看到局部放大的界面示意图。
具体实施方式
以下结合附图对本发明作进一步说明。
实施例 蛋白三维结构预测的方法及根据该方法构建的蛋白三维结构预测云平台 及其用法
本实施例示例性的描述了一种采用本发明的蛋白三维结构预测方法预测一种疾病相关蛋白的三维结构的过程,如附图1所示,该方法包括如下6个步骤:
(1)检索与目标序列相关的结构:在已知结构的蛋白数据库中检索与目标序列相关的序列作为备选的模板;
(2)选择模板:从步骤(1)的备选模板中,根据建模的要求选择模板;
(3)将目标序列与模板结构对齐:通过比对的方法,建立目标序列的残基和步骤(2)所选择的模板的残基之间的结构等价列表,从而将目标序列与模板结构进行对齐;
(4)建立模型:根据步骤(3)的对齐结果,建立蛋白质3D模型;
(5)评估模型:评估步骤(4)中所建立模型的准确性;
(6)空间对齐处理:将步骤(5)中合格的模型的坐标系和用户的坐标系对齐。
根据该蛋白三维结构预测方法,构建蛋白质三维结构预测云平台。如附图2所示,该平台包括六个模块:任务收集及检索模块、选择模板模块、目标序列与结构对齐模块、建模模块、评估模块和空间对齐模块,依次与上述方法的6个步骤相对应,该平台建立在云服务器上,无需客户再安装其他蛋白质三维结构预测软件。
下文以图3中所示的用户输入的目标序列为例,介绍本文的蛋白质三维结构预测方法及相应平台的应用。
在步骤(1)中,选择PDB(Protein Data Bank)作为已知结构的蛋白数据库。本步骤中输入界面如附图3所示。该方法可用的目标序列包括氨基酸序列或者核苷酸序列。如果目标序列为氨基酸序列,则直接进行检索并返回模板检索结果。如果目标序列为核苷酸序列,如RNA或DNA,则按照本领域已知的方法,在系统中自动将该核苷酸序列转换为氨基酸序列之后进行检索并返回模板检索结果。在步骤(1)结束时,可返回一系列的待选择的模板。
在步骤(2)中,如附图4所示,该平台返回了可选择的模板名称以及相应的吻合度和匹配信息,并提供了模板的详情信息供参考。在选择模板时,需要考虑与目标总体序列的相似性、比对中缺口的数量和长度。选择与目标总体序列相似性高,且比对中缺口的数量少和长度小的序列作为模版序列。比如选择高序列相似性的模板,或者在最接近目标序列的亚家族中选择模板,或者选择高环境相似性的模板,或者选择与目标序列结合相同或相似配体的模板,或者选择选择具有高质量的实验确定结构的模板,或者根据比较模型的目的来选择模板。当选定模板后,进入下一个步骤。例如在综合比较之后,选用了2xswA作为模板。
在步骤(3)中,先判断目标序列和模板序列的序列同一性,如果序列同一性较高,如高于30%,则采用标准序列比对法;如果序列同一性不高,例如低于30%,则需要通过从模板中包含结构信息来改进排列。具体为通过调整检测远程关系来将目标序列与模板结构对齐,通过人工干预以最小化未对齐残基的数量,通过从模板中包含结构信息来改进排列,同时避免在二级结构元素、埋藏区域或空间上远距离相隔的两个残基之间留下空隙。
在步骤(4)中,可选择采用多种方法来构建目标蛋白质的3D模型。例如:(a)通过刚体装配进行建模,该方法从若干个核心区域以及从解剖相关结构获得的循环和侧链构建模型;(b)通过片段匹配进行建模的方法系列依赖于模板中保守原子的近似位置来计算其他原子的坐标;(c)通过满足空间约束建模,使用距离几何或优化技术来满足从目标序列与模板结构的比对中获得的空间约束;(d)从比对开始,检索由统计势函数引导的构象空间,并略微放宽来自输入比对的同源性约束,试图克服至少部分比对错误;(e)允许在对齐中进行更改时重新计算模型,该方法提供用于结合关于目标序列的先前知识(例如,交联约束,预测的二级结构)的工具并且允许插入的从头建模(例如循环建模)。
如果在步骤(4)中选择了循环建模,则其为针对30%到50%范围内的序列同一性。在该范围内,同源物之间的环变化,核心区仍然相对保守并准确对齐。具体来说,循环建模有两种方法。第一种为从头计算循环预测基于给定环境中的构象搜索或构象计数,由计分或能量函数指导。有许多这样的方法,利用不同的蛋白质表示,能量函数项和优化或枚举算法。第二种为循环预测的数据库方法,包括找到适合循环的两个干区的主链段。通过许多已知蛋白质结构的数据库来执行对这种片段的检索,而不仅是模拟蛋白质的同源物。通常,获得适合茎残基的许多不同的替代片段,并且可能根据模板和靶环序列之间的几何标准或序列相似性进行分类。这些初始粗糙模型通常通过优化一些能量函数来完善。在完成步骤(4)建立模型的步骤后,则进入步骤(5)。
步骤(5)为评估模型的步骤。在该步骤中,可通过目标序列和模板之间的序列相似度近似预测。如(a)根据包括环境在内的因素来评估模型的准确性;(b)选择相似度为30%以上的模型;(c)如果相似度小于30%,则以环境因素来评估模型的准确性,包括在内部采用对自我一致性的评估检查模型的满足情况,以及在外部采用没有用于计算模型的信息。作为内部评估的一个例子,包括立体化学信息,如键,键角,二面角和非键合原子-原子距离。如附图5中所示的,预测结果模型评价的部分包括依赖天然结构、目标函数残差、结构匹配程度、DOPE自由能、DOPE相对比、结果3D数据、依赖结构数据、预测中间数据。在步骤(5)的模型评估合格之后,进入步骤(6)。
在步骤(6)中,首先需要使用旋转配准的方式来将建模坐标系和用户的坐标系对齐。在该步骤中,使用旋转配准的方式来将建模坐标系和用户的坐标系对齐,所采用的对其准则依赖RMSD,即对于相同分子的两个结构a和b,所定义RMSD如下:
RMSDab=max(RMSD′ab,RMSD′ba),
其中,总和在结构a中的所有N个重原子上,结构b中的所有原子的最小值与结构a中的原子i的元素类型相同。
在完成上述(6)个步骤后,输出目标蛋白的三维结构预测结果,如附图6、7、8中所示。其中,附图6显示了预测的蛋白质空间三维结构,平台还提供了模板序列和结果序列的对比结果(附图7),通过点击对比结果中具体的氨基酸,还将在可视化区域中精准定位,看到局部放大的情况(附图8)。
需要说明的是,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种蛋白质三维结构预测的方法,其包括如下步骤:
(1)检索与目标序列相关的结构:在已知结构的蛋白数据库中检索与目标序列相关的序列作为备选的模板;
(2)选择模板:从步骤(1)的备选模板中,根据建模的要求选择模板;
(3)将目标序列与模板结构对齐:通过比对的方法,建立目标序列的残基和步骤(2)所选择的模板的残基之间的结构等价列表,从而将目标序列与模板结构进行对齐;
(4)建立模型:根据步骤(3)的对齐结果,建立蛋白质3D模型;
(5)评估模型:评估步骤(4)中所建立模型的准确性;
(6)空间对齐处理:将步骤(5)中合格的模型的坐标系和用户的坐标系对齐。
2.根据权利要求1所述的蛋白质三维结构预测的方法,其中在步骤(1)的检索与目标序列相关的结构中,选择PDB(Protein Data Bank)作为已知结构的蛋白数据库来检索目标序列,即通过将目标序列与数据库中已知结构的每个序列进行比较以评估其相似性,所述比较方法包括:(a)与目标或潜在模板相关的序列使用序列配置文件方法和隐马尔可夫模型进行检索;或者(b)基于评估目标序列与数据库中每个结构序列之间的兼容性,由线程化方法组实现,线程使用序列结构适应函数来评估序列结构匹配;在该步骤中可输入的目标序列包括氨基酸序列或者核苷酸序列,再输入核苷酸序列之前,将其转换为相应氨基酸序列。
3.根据权利要求2所述的蛋白质三维结构预测的方法,其中在步骤(2)的选择模板步骤中,根据建模的要求选择合适的高质量的模板,选择因素包括:与目标总体序列的相似性、比对中缺口的数量和长度;选择与目标总体序列相似性高,且比对中缺口的数量少和长度小的序列作为模版序列;选择以下方法中的一种:
(a)选择与建模序列具有高序列相似性的结构;
(b)构建多重比对和系统发生树,在最接近目标序列的亚家族中选择模板,所述亚家族由包含目标序列和模板的蛋白质家族组织形成;
(c)选择与目标序列具有高环境相似性的模板,所述的高环境相似性为模板的环境与需要建模的目标序列的环境之间的相似性在70%以上;
(d)选择与目标序列结合相同或相似配体的模板;
(e)选择具有高质量的实验确定结构的模板,所述实验确定结构包括晶体结构的分辨率和R因子以及NMR结构的每个残基的限制数;
(f)根据比较模型的目的来确定选择模板的标准。
4.根据权利要求3所述的蛋白质三维结构预测的方法,其中在步骤(3)的将目标序列与模板结构对齐的步骤中,通过比对的方法建立目标序列的残基和模板残基之间的结构等价列表,从而将模板序列与目标序列对齐,所述列表通过目标序列和模板序列的比对来定义;在序列同一性大于30%的情况下,检索模板检索及对齐;当序列同一性小于30%的情况下,从模板中包含的结构信息来改进排列,通过调整检测远程关系来将目标序列与模板结构对齐并通过人工干预以最小化未对齐残基的数量,通过从模板中包含结构信息来改进排列,同时避免在二级结构元素、埋藏区域或空间上远距离相隔的两个残基之间留下空隙。
5.根据权利要求4的蛋白质三维结构预测的方法,其中在步骤(4)的建立模型步骤中,使用如下方法之一来构建目标蛋白质的3D模型:
(a)通过刚体装配进行建模,该方法从若干个核心区域以及从解剖相关结构获得的循环和侧链构建模型;
(b)通过片段匹配进行建模的方法系列依赖于模板中保守原子的近似位置来计算其他原子的坐标;
(c)通过满足空间约束建模,使用距离几何或优化技术来满足从目标序列与模板结构的比对中获得的空间约束,即从两个来源中提取空间约束:首先,从与模板结构的比对中提取靶序列中距离和二面角的同源性限制,其次,从Charmm-22,63的分子力学力场获得立体化学约束,并且二面角和非键合原子距离的统计学偏好从代表性的所有已知蛋白质结构集合中获得;然后通过依赖于共轭梯度和分子动力学的优化方法来计算模型;
(d)从比对开始,然后检索由统计势函数引导的构象空间,并略微放宽来自输入比对的同源性约束;
方法(a)至(d)中,允许在对齐中进行更改时重新计算模型,该方法提供用于结合关于目标序列的先前知识的工具并且允许插入的从头建模,所述先前知识包括交联约束和预测的二级结构,所述从头建模包括循环建模;其中,循环建模可采用如下两种方法中的一种:(a’)从头计算循环预测基于给定环境中的构象搜索或构象计数,由计分或能量函数指导;(b’)循环预测的数据库方法,包括找到适合循环的两个干区的主链段。
6.根据权利要求5中所述的蛋白质三维结构预测的方法,其中在步骤(5)的评估模型步骤中,可通过下列如下三种方法中的一种来评估模型:
(a)根据包括环境在内的因素来评估模型的准确性;
(b)选择相似度为30%以上的模型;
(c)如果相似度小于30%,则以环境因素来评估模型的准确性,包括在内部采用对自我一致性的评估检查模型的满足情况,以及在外部采用没有用于计算模型的信息,其中内部评估的因素包括键、键角、二面角和非键合原子-原子距离的立体化学信息。
7.根据权利要求6中所述的蛋白质三维结构预测的方法,其中在步骤(6)的空间对齐处理步骤中,首先需要使用旋转配准的方式来将建模坐标系和用户的坐标系对齐,在该步骤中,使用旋转配准的方式来将建模坐标系和用户的坐标系对齐,所采用的对其准则依赖RMSD,即对于相同分子的两个结构a和b,所定义RMSD如下:
RMSDab=max(RMSD′ab,RMSD′ba),
其中,总和在结构a中的所有N个重原子上,结构b中的所有原子的最小值与结构a中的原子i的元素类型相同。
8.一种蛋白质三维结构预测云平台,其根据权利要求1-7中任一项所述的方法构建,且包括如下模块:任务收集及检索模块、选择模板模块、目标序列与结构对齐模块、建模模块、评估模块和空间对齐模块;所述蛋白质三维结构预测的云平台在云服务器上构建,且安装有蛋白质三维结构在线可视化程序。
9.根据权利要求8所述的蛋白质三维结构预测云平台,其中所述的蛋白质三维结构预测云平台能够输出的结果包括依赖天然结构、目标函数残差、结构匹配程度、DOPE自由能、DOPE能对比,并提供PDB格式的结果3D数据、依赖结构数据、预测中间数据的结果,以及能够在线可视化地显示预测结果的结构。
10.权利要求1-7中任一项所述的蛋白质三维结构预测的方法,以及权利要求8-9中任一项所述的蛋白质三维结构预测云平台的用途,所述用途包括在疾病蛋白研究、药物开发中中预测蛋白质的三维结构。
CN201811100003.7A 2018-09-20 2018-09-20 蛋白质三维结构预测方法及用其构建的预测云平台 Active CN109300501B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811100003.7A CN109300501B (zh) 2018-09-20 2018-09-20 蛋白质三维结构预测方法及用其构建的预测云平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811100003.7A CN109300501B (zh) 2018-09-20 2018-09-20 蛋白质三维结构预测方法及用其构建的预测云平台

Publications (2)

Publication Number Publication Date
CN109300501A true CN109300501A (zh) 2019-02-01
CN109300501B CN109300501B (zh) 2021-02-02

Family

ID=65163786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811100003.7A Active CN109300501B (zh) 2018-09-20 2018-09-20 蛋白质三维结构预测方法及用其构建的预测云平台

Country Status (1)

Country Link
CN (1) CN109300501B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111849A (zh) * 2019-05-08 2019-08-09 北京市计算中心 一种基于高性能计算平台的核酸适配体计算机辅助筛选方法及核酸适配体
CN110706738A (zh) * 2019-10-30 2020-01-17 腾讯科技(深圳)有限公司 蛋白质的结构信息预测方法、装置、设备及存储介质
CN111063389A (zh) * 2019-12-04 2020-04-24 浙江工业大学 一种基于深度卷积神经网络的配体绑定残基预测方法
CN114283878A (zh) * 2021-08-27 2022-04-05 腾讯科技(深圳)有限公司 训练匹配模型、预测氨基酸序列和设计药物的方法与装置
CN115312119A (zh) * 2022-10-09 2022-11-08 之江实验室 基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1602487A (zh) * 2001-12-10 2005-03-30 富士通株式会社 蛋白质立体结构的预测装置及其预测方法
WO2009015283A2 (en) * 2007-07-24 2009-01-29 President And Fellows Of Harvard College Bhc80 - histone complexes and uses thereof
US20150261911A1 (en) * 2014-03-13 2015-09-17 Heptares Therapeutics Limited Crystal structure
CN105205343A (zh) * 2015-07-21 2015-12-30 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于加权组成位置向量和支持向量机的蛋白质结构类预测方法
US20160209317A1 (en) * 2013-09-23 2016-07-21 Isis Innovation Limited Method
CN106295243A (zh) * 2016-08-10 2017-01-04 华中科技大学 一种蛋白质‑rna复合物结构预测方法
CN106372456A (zh) * 2016-08-26 2017-02-01 浙江工业大学 一种基于深度学习Residue2vec的蛋白质结构预测方法
CN106951736A (zh) * 2017-03-14 2017-07-14 齐鲁工业大学 一种基于多重进化矩阵的蛋白质二级结构预测方法
CN107391963A (zh) * 2017-07-21 2017-11-24 上海桑格信息技术有限公司 基于计算云平台的真核无参转录组交互分析系统及其方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1602487A (zh) * 2001-12-10 2005-03-30 富士通株式会社 蛋白质立体结构的预测装置及其预测方法
WO2009015283A2 (en) * 2007-07-24 2009-01-29 President And Fellows Of Harvard College Bhc80 - histone complexes and uses thereof
US20160209317A1 (en) * 2013-09-23 2016-07-21 Isis Innovation Limited Method
US20150261911A1 (en) * 2014-03-13 2015-09-17 Heptares Therapeutics Limited Crystal structure
CN105205343A (zh) * 2015-07-21 2015-12-30 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于加权组成位置向量和支持向量机的蛋白质结构类预测方法
CN106295243A (zh) * 2016-08-10 2017-01-04 华中科技大学 一种蛋白质‑rna复合物结构预测方法
CN106372456A (zh) * 2016-08-26 2017-02-01 浙江工业大学 一种基于深度学习Residue2vec的蛋白质结构预测方法
CN106951736A (zh) * 2017-03-14 2017-07-14 齐鲁工业大学 一种基于多重进化矩阵的蛋白质二级结构预测方法
CN107391963A (zh) * 2017-07-21 2017-11-24 上海桑格信息技术有限公司 基于计算云平台的真核无参转录组交互分析系统及其方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
YI FANG 等: "The Intrinsic Geometric Structure of Protein-Protein Interaction Networks for Protein Interaction Prediction", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS 》 *
吴国庆: "几种蛋白质同源建模缺失值填充方法的研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 *
邓磊: "《基于机器学习的蛋白质相互作用与功能预测》", 31 May 2012 *
阎隆飞 等: "《蛋白质分子结构》", 31 May 1999 *
颜思奇 等: "同源模建及其分析工具的研究进展", 《医学信息》 *
黄俊峰 等: "基于模板的蛋白质结构预测", 《生物物理学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111849A (zh) * 2019-05-08 2019-08-09 北京市计算中心 一种基于高性能计算平台的核酸适配体计算机辅助筛选方法及核酸适配体
CN110111849B (zh) * 2019-05-08 2021-03-26 北京市计算中心 一种基于高性能计算平台的核酸适配体计算机辅助筛选方法及核酸适配体
CN110706738A (zh) * 2019-10-30 2020-01-17 腾讯科技(深圳)有限公司 蛋白质的结构信息预测方法、装置、设备及存储介质
CN111063389A (zh) * 2019-12-04 2020-04-24 浙江工业大学 一种基于深度卷积神经网络的配体绑定残基预测方法
CN111063389B (zh) * 2019-12-04 2021-10-29 浙江工业大学 一种基于深度卷积神经网络的配体绑定残基预测方法
CN114283878A (zh) * 2021-08-27 2022-04-05 腾讯科技(深圳)有限公司 训练匹配模型、预测氨基酸序列和设计药物的方法与装置
CN115312119A (zh) * 2022-10-09 2022-11-08 之江实验室 基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统
US11908140B1 (en) 2022-10-09 2024-02-20 Zhejiang Lab Method and system for identifying protein domain based on protein three-dimensional structure image

Also Published As

Publication number Publication date
CN109300501B (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN109300501A (zh) 蛋白质三维结构预测方法及用其构建的预测云平台
Sánchez et al. Comparative protein structure modeling: introduction and practical examples with modeller
Zhang et al. TM-align: a protein structure alignment algorithm based on the TM-score
Watson et al. Predicting protein function from sequence and structural data
Warren et al. Essential considerations for using protein–ligand structures in drug discovery
Alexander et al. bcl:: Cluster: A method for clustering biological molecules coupled with visualization in the Pymol Molecular Graphics System
Andrec et al. A large data set comparison of protein structures determined by crystallography and NMR: statistical test for structural differences and the effect of crystal packing
Bajorath Computer-aided drug discovery
Işık et al. Overview of the SAMPL6 p K a challenge: evaluating small molecule microscopic and macroscopic p K a predictions
Barthel et al. ProCKSI: a decision support system for protein (structure) comparison, knowledge, similarity and information
Ioerger et al. TEXTAL system: artificial intelligence techniques for automated protein model building
Gerstein Measurement of the effectiveness of transitive sequence comparison, through a third'intermediate'sequence.
Zok et al. MCQ4Structures to compute similarity of molecule structures
Bullock et al. DockoMatic 2.0: high throughput inverse virtual screening and homology modeling
Amamuddy et al. MDM-TASK-web: MD-TASK and MODE-TASK web server for analyzing protein dynamics
Furtmann et al. Comprehensive analysis of three-dimensional activity cliffs formed by kinase inhibitors with different binding modes and cliff mapping of structural analogues
Hsieh et al. Differentiation of AmpC beta-lactamase binders vs. decoys using classification k NN QSAR modeling and application of the QSAR classifier to virtual screening
da Silva et al. Predicting Relative Populations of Protein Conformations without a Physics Engine Using AlphaFold 2
Latek et al. Protein structure prediction: combining de novo modeling with sparse experimental data
Johnson et al. Comparison of protein three-dimensional structures
Kherraz et al. Homology modeling of ferredoxin-nitrite reductase from Arabidopsis thaliana
Zhang et al. The relationship between B-cell epitope and mimotope sequences
Ding et al. Identification of residue-residue contacts using a novel coevolution-based method
Zhang et al. CS-annotate: a tool for using NMR chemical shifts to annotate RNA structure
Yao et al. Rank information: A structure‐independent measure of evolutionary trace quality that improves identification of protein functional sites

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100081 Beijing city Haidian District Dahui Temple Road, No. 12

Applicant after: Institute of Science and Technology, National Health Commission

Address before: 100081 Beijing city Haidian District Dahui Temple Road, No. 12

Applicant before: SCIENCE TECHNOLOGY RESEARCH INSTITUTE OF NATIONAL HEALTH AND FAMILY PLANNING COMMISSION OF THE PEOPLE'S REPUBLICK OF CHINA

GR01 Patent grant
GR01 Patent grant