CN116486903A - 基于同源蛋白序列进化方向结合自由能变提高蛋白稳定性的方法及装置 - Google Patents

基于同源蛋白序列进化方向结合自由能变提高蛋白稳定性的方法及装置 Download PDF

Info

Publication number
CN116486903A
CN116486903A CN202310451609.XA CN202310451609A CN116486903A CN 116486903 A CN116486903 A CN 116486903A CN 202310451609 A CN202310451609 A CN 202310451609A CN 116486903 A CN116486903 A CN 116486903A
Authority
CN
China
Prior art keywords
mutation
amino acid
target protein
protein molecule
acid residues
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310451609.XA
Other languages
English (en)
Other versions
CN116486903B (zh
Inventor
易吉辉
李铎
许春莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xinrui Gene Technology Co ltd
Original Assignee
Shenzhen Xinrui Gene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xinrui Gene Technology Co ltd filed Critical Shenzhen Xinrui Gene Technology Co ltd
Priority to CN202310451609.XA priority Critical patent/CN116486903B/zh
Publication of CN116486903A publication Critical patent/CN116486903A/zh
Application granted granted Critical
Publication of CN116486903B publication Critical patent/CN116486903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本申请涉及一种基于同源蛋白序列进化方向结合自由能变提高蛋白稳定性的方法及装置。该方法包括:获取目标蛋白分子的晶体结构、目标蛋白分子的序列及其同源序列;将目标蛋白分子的序列与同源序列作比对,从目标蛋白分子的序列中筛选出满足比对条件的多个突变氨基酸残基;构建突变文库,突变文库中包含多个突变氨基酸残基的位点信息和突变信息;按照突变文库中多个突变氨基酸残基的位点信息和突变信息,计算目标蛋白分子的晶体结构中对应位点的氨基酸残基产生对应突变的自由能变;将自由能变小于预设阈值的对应的氨基酸残基作为目标突变位点。本申请提供的方案,能够筛选出更合适的突变位点,从而能利用筛选出的突变位点提高蛋白质分子稳定性。

Description

基于同源蛋白序列进化方向结合自由能变提高蛋白稳定性的 方法及装置
技术领域
本申请涉及计算机及计算结构生物学技术领域,尤其涉及一种基于同源蛋白序列进化方向结合自由能变提高蛋白稳定性的方法、装置、设备及存储介质。
背景技术
基因工程技术的出现使重组蛋白药物成为当代生物医药行业一颗璀璨的明珠。与传统的小分子化合物药物相比,重组蛋白药物具有高活性、特异性强、功能明确等特性,但蛋白质结构也具有物理与化学性质的不稳定性,这也使得很多天然蛋白无法直接制备成药物。
1984年,Manfred Eigen提出了蛋白定向进化的理论。蛋白定向进化技术通过人为制造一个筛选压力环境,定向筛选适应压力环境的突变,加快蛋白分子进化的速率。随着分子生物学的融入,蛋白定向最常用的方法是在基因水平上尽可能多的人为制造随机突变,形成一个庞大的基因突变库,再通过高通量筛选获得有利的进化突变位点。但是这种方式得到的突变非常耗时,代价昂贵,且具有不可预知性。
随着量子化学与计算机科学的发展,产生了新的学科:计算结构生物学,让结构生物学的发展也更近了一步。基于所有生物大分子的最基础单元核苷酸或者氨基酸,在形成具有功能的生物大分子时都遵从量子力学第一性原理与量子化学基本性质,使其所形成的生物大分子的空间结构具有一定的可计算性。计算结构生物学所得到的蛋白分子结构是一种能量最小化的晶体结构,是一种较为稳定的构象。
为了提高蛋白质分子稳定性,得到较为稳定的突变蛋白分子,需要筛选出合适的进化突变位点,再根据进化突变位点的突变自由能变对蛋白质分子进行突变,从而提高蛋白质分子稳定性。
发明内容
为解决或部分解决相关技术中存在的问题,本申请提供一种基于同源蛋白序列进化方向结合自由能变提高蛋白稳定性的方法、装置、设备及存储介质,能够筛选出更合适的突变位点,并根据进化突变位点的突变自由能变对蛋白质分子进行突变,从而能提高蛋白质分子稳定性。
本申请第一方面提供一种基于同源蛋白序列进化方向结合自由能变提高蛋白稳定性的方法,包括:
获取目标蛋白分子的晶体结构、目标蛋白分子的序列及其同源序列;
将所述目标蛋白分子的序列与同源序列作比对,从所述目标蛋白分子的序列中筛选出满足比对条件的多个突变氨基酸残基;
构建突变文库,所述突变文库中包含所述多个突变氨基酸残基的位点信息和突变信息;
按照所述突变文库中所述多个突变氨基酸残基的位点信息和突变信息,计算所述目标蛋白分子的晶体结构中对应位点的氨基酸残基产生对应突变的自由能变;
将所述自由能变小于预设阈值的所述对应的氨基酸残基作为目标突变位点,以根据所述目标突变位点的突变提高目标蛋白分子的稳定性。
作为一个可选的实施例,所述比对条件为:所述目标蛋白分子的序列中的氨基酸残基在所述同源序列中出现的频率大于预设频率。
作为一个可选的实施例,所述预设频率为40%。
作为一个可选的实施例,所述目标蛋白分子的同源序列至少包括直系同源序列和旁系同源序列。
作为一个可选的实施例,所述计算所述目标蛋白分子的晶体结构中对应位点的氨基酸残基产生对应突变的自由能变之前,还包括:
对所述目标蛋白分子的晶体结构进行优化处理,得到最优构象;所述优化处理包括骨架能量最小化和侧链结构重排。
作为一个可选的实施例,还包括:
从所述目标蛋白分子的晶体结构的氨基酸残基中筛选出对所述目标蛋白分子结构具有支持作用的关键位点;所述突变文库中不包含所述关键位点。
作为一个可选的实施例,所述从所述目标蛋白分子的晶体结构的氨基酸残基中筛选出对所述目标蛋白分子结构具有支持作用的关键位点,包括:
对所述目标蛋白分子的晶体结构进行丙氨酸扫描,从所述晶体结构中的氨基酸残基中筛选出满足预设条件的位点,并作为所述对所述目标蛋白分子结构具有支持作用的关键位点。
作为一个可选的实施例,所述预设条件为:所述氨基酸残基被丙氨酸替代后的自由能变超过2kcal·mol-1
作为一个可选的实施例,所述预设阈值为-1kcal·mol-1
本申请第二方面提供一种基于同源蛋白序列进化方向结合自由能变提高蛋白稳定性的装置,包括:
获取模块,用于获取目标蛋白分子的晶体结构、目标蛋白分子的序列及其同源序列;
比对模块,用于将所述目标蛋白分子的序列与同源序列作比对,从所述目标蛋白分子的序列中筛选出满足比对条件的多个突变氨基酸残基;
构建模块,用于构建突变文库,所述突变文库中包含所述多个突变氨基酸残基的位点信息和突变信息;
自由能变计算模块,用于按照所述突变文库中所述多个突变氨基酸残基的位点信息和突变信息,计算所述目标蛋白分子的晶体结构中对应位点的氨基酸残基产生对应突变的自由能变;
确定模块,用于将所述自由能变小于预设阈值的所述对应的氨基酸残基作为目标突变位点,以根据所述目标突变位点的突变提高目标蛋白分子的稳定性。
本申请第三方面提供一种电子设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
本申请第四方面提供一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
本申请提供的技术方案可以包括以下有益效果:
本申请实施例通过将目标蛋白分子的序列与同源序列作比对,从目标蛋白分子的序列中筛选出满足比对条件的多个突变氨基酸残基,再按照突变氨基酸残基的位点信息和突变信息,计算目标蛋白分子中对应的氨基酸残基产生突变的自由能变,最后将自由能变小于预设阈值的对应的氨基酸残基作为目标突变位点,从而可以使得筛选出的目标突变位点后续产生突变后得到的突变体蛋白与目标蛋白分子的结构相似,且仍然能保持原有活性、特异性及与受体或配体之间的亲和力,从而利用筛选出的目标突变位点并根据目标突变位点的突变自由能变对蛋白质分子进行突变,可以提高蛋白分子稳定性。而且,由于突变体蛋白是基于同源序列得到的,因此在自然界中存在且具有一定的出现频率,另外是基于进化压力所筛选得到,使得突变蛋白能行使原有蛋白所应有的功能,以及是结合了能量最低原理计算突变自由能变,因此可以判断稳定性变化,从而也大幅提高蛋白定向进化的效率与筛选效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
通过结合附图对本申请示例性实施方式进行更详细地描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
图1是本申请实施例示出的基于同源蛋白序列进化方向结合自由能变的氨基酸残基突变提高蛋白稳定性的方法的流程示意图;
图2是本申请实施例示出的基于同源蛋白序列进化方向结合自由能变的氨基酸残基突变提高蛋白稳定性的方法的流程框架示意图;
图3是本申请实施例示出的L152F突变体分子模型;
图4是本申请实施例示出的基于同源蛋白序列进化方向结合自由能变的氨基酸残基突变提高蛋白稳定性的装置的结构示意图;
图5是本申请实施例示出的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式,然而应该理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
本申请实施例提供一种基于同源蛋白序列进化方向结合自由能变的氨基酸残基突变提高蛋白稳定性的方法,能够筛选出更合适的突变位点,并根据进化突变位点的突变自由能变对蛋白质分子进行突变,从而能提高蛋白质分子稳定性。
以下结合附图详细描述本申请实施例的技术方案。
图1是本申请实施例示出的基于同源蛋白序列进化方向结合自由能变的氨基酸残基突变提高蛋白稳定性的方法的流程示意图,图2是本申请实施例示出的基于同源蛋白序列进化方向结合自由能变的氨基酸残基突变提高蛋白稳定性的方法的流程框架示意图。
参见图1和图2,本申请实施例方法,包括步骤S1~步骤S5:
步骤S1:获取目标蛋白分子的晶体结构、目标蛋白分子的序列及其同源序列。
本申请实施例可以通过从带有目标蛋白分子的受体复合物的晶体结构中分离出目标蛋白分子的晶体结构,也可以从蛋白质结构数据库(Protein Data Bank,简称PDB)或者建模获得目标蛋白分子的晶体结构。并且,可以从Uniprot(Universal Protein)蛋白质数据库中获取目标蛋白分子的序列,以及目标蛋白分子的直系同源序列和旁系同源序列。
其中,蛋白质结构数据库可以预先构建。还需说明的是,可以采用相关技术的建模方法进行建模,本申请对此不加以限定。
步骤S2:将目标蛋白分子的序列与同源序列作比对,从目标蛋白分子的序列中筛选出满足比对条件的多个突变氨基酸残基。
本申请实施例设置的比对条件为:目标蛋白分子的序列中的氨基酸残基在同源序列中出现的频率大于预设频率。其中,预设频率可以为40%但不局限于此,预设频率也可以根据实际情况进行调整。
相关比对步骤如下:
采用预设比对方式例如Muscle多重序列比对方式,将目标蛋白分子的序列与直系同源序列作比对,从目标蛋白分子的序列中筛选出在直系同源序列中出现的频率大于40%的多个氨基酸残基,并作为突变氨基酸残基。
采用预设比对方式例如Muscle多重序列比对方式,将目标蛋白分子的序列与旁系同源序列作比对,从目标蛋白分子的序列中筛选出在旁系同源序列中出现的频率大于40%的多个氨基酸残基,并作为突变氨基酸残基。
本申请实施例最终筛选出的多个突变氨基酸残基具有较高的保守性,也就是说这些突变氨基酸残基产生突变后,极大可能对蛋白分子的结构不产生大幅改变,且仍保留生物活性,以及保持原有的功能。
步骤S3:构建突变文库,突变文库中包含多个突变氨基酸残基的位点信息和突变信息。
突变氨基酸的位点信息表示突变氨基酸在目标蛋白分子中的残基位置;突变氨基酸的突变信息表示后续对目标蛋白分子中的氨基酸残基进行突变进化的类型,可以根据实际情况进行选择,例如可以是表征热稳定性的突变和表征亲和力的突变。
由于上述步骤中筛选出的突变氨基酸残基数量较多,且包含位点信息和突变信息。因此通过建立突变文库将所有的突变氨基酸残基的信息进行合并汇总,方便后续使用。
步骤S4:按照突变文库中多个突变氨基酸残基的位点信息和突变信息,计算目标蛋白分子的晶体结构中对应位点的氨基酸残基产生对应突变的自由能变。
相关步骤为:遍历突变文库中每个突变氨基酸残基的位点信息和突变信息,对目标蛋白分子的晶体结构中与位点信息对应的氨基酸残基,按照突变信息进行突变处理;使用预设算法例如Rosetta_DDG函数,计算对应的氨基酸残基突变后产生的自由能变。
在进行计算之前,还可以包括对目标蛋白分子的晶体结构进行优化处理,得到最优构象;优化处理包括骨架能量最小化和侧链结构重排。
相关步骤为:使用预设软件例如Rosetta Relax应用对目标蛋白分子的晶体结构进行骨架能量最小化和侧链结构重排,获取最优构象,以消除晶体堆积力对初始模型的影响。
步骤S5:将自由能变小于预设阈值的对应的氨基酸残基作为目标突变位点,以根据目标突变位点的突变提高目标蛋白分子的稳定性。
本申请实施例设置的预设阈值为-1kcal·mol-1但不局限于此,预设阈值也可以根据实际情况进行调整。对应的氨基酸残基产生小于-1kcal·mol-1的自由能变,说明对应的氨基酸残基突变后对目标蛋白分子的天然构象不会产生大幅的改变,且使突变后的蛋白分子仍具有目标蛋白分子的功能,相较于其他氨基氨残基的突变更能提高蛋白分子的稳定性,从而实现对蛋白分子的定向进化。
作为一个可选的实施例,本申请实施例还包括:从目标蛋白分子的晶体结构中的氨基酸残基中筛选出为对目标蛋白分子结构具有支持作用的关键位点;若多个突变氨基酸残基中包含关键位点,则将关键位点剔除。由于关键位点对目标蛋白分子结构具有支持作用,说明关键位点发生突变会对蛋白分子的结构产生大幅度的改变,甚至使蛋白分子失去活性,因此在突变进化时需要尽量避开关键位点。所以,即使关键位点满足比对条件,也可以不将关键位点放入突变文库。
作为一个优选的实施例,从目标蛋白分子的晶体结构的氨基酸残基中筛选出对目标蛋白分子结构具有支持作用的关键位点,包括:
对目标蛋白分子的晶体结构进行丙氨酸扫描,从晶体结构的氨基酸残基中筛选出满足预设条件的位点,并作为对目标蛋白分子结构具有支持作用的关键位点。
优选的,本申请实施例的预设条件为:氨基酸残基被丙氨酸替代后的自由能变超过2kcal·mol-1。当然,本申请实施例并不限制自由能变的限制为2kcal·mol-1,也可以根据实际情况进行调整。
相关步骤如下:
使用预设软件例如FoldX软件,对目标蛋白分子的晶体结构中的氨基酸残基进行丙氨酸扫描,得到丙氨酸扫描突变体。计算目标蛋白分子与丙氨酸扫描突变体的自由能,利用以下公式来计算丙氨酸突变体自由能的变化:
ΔΔG=ΔG(Mut-Ala)-ΔG(WT)
ΔG(Mut-Ala)代表丙氨酸突变体的自由能,ΔG(WT)代表目标蛋白分子的自由能。当ΔΔG大于2kcal·mol-1时,丙氨酸突变体结构的稳定性显著降低,说明该氨基酸残基对目标蛋白分子的整体结构具有支持作用。
本申请实施例中基于同源蛋白序列进化方向结合自由能变的氨基酸残基突变提高蛋白稳定性的方法,通过将目标蛋白分子的序列与同源序列作比对,从目标蛋白分子的序列中筛选出满足比对条件的多个突变氨基酸残基,再按照突变氨基酸残基的位点信息和突变信息,计算目标蛋白分子中对应的氨基酸残基产生突变的自由能变,最后将自由能变小于预设阈值的对应的氨基酸残基作为目标突变位点,从而可以使得筛选出的目标突变位点后续产生突变后得到的突变体蛋白与目标蛋白分子的结构相似,且仍然能保持原有活性、特异性及与受体或配体之间的亲和力,从而利用筛选出的目标突变位点并根据目标突变位点的突变自由能变对蛋白质分子进行突变,可以提高蛋白分子稳定性。而且,由于突变体蛋白是基于同源序列得到的,因此在自然界中存在且具有一定的出现频率,另外是基于进化压力所筛选得到,使得突变蛋白能行使原有蛋白所应有的功能,以及是结合了能量最低原理计算突变自由能变,因此可以判断稳定性变化,从而也大幅提高蛋白定向进化的效率与筛选效率。
下面本申请实施例以人FGF10蛋白分子为例,对基于同源蛋白序列进化方向结合自由能变的氨基酸残基突变提高蛋白稳定性的方法进行说明,但并不局限于此蛋白,包括以下步骤:
1、从PDB数据库中获得带有FGF10蛋白分子的受体FGFR2b复合物的晶体结构1NUN,并从1NUN中分离出FGF10蛋白分子的晶体结构,作为初始的计算文件。
2、将FGF10蛋白分子的晶体结构导入Yasara软件,加载FoldX5.0功能插件,选择丙氨酸扫描,对FGF10蛋白分子的所有氨基酸残基进行扫描,得到FGF10蛋白分子丙氨酸扫描突变体。计算FGF10蛋白分子与FGF10蛋白分子丙氨酸扫描突变体的自由能,利用以下公式来计算FGF10蛋白分子丙氨酸扫描突变体的自由能的变化:
ΔΔG=ΔG(Mut-Ala)-ΔG(WT)
ΔG(Mut-Ala)代表丙氨酸突变体的自由能,ΔG(WT)代表野生型的自由能。经丙氨酸扫描,FGF10蛋白分子中第75、82、83、89、90、92、96、98、111、113、119、120、121、123、131、132、134、138、140、141、146、152、160、164、169、173、176、178、180、184、189、201位氨基酸残基被丙氨酸替代后的自由能变ΔΔG超过2kcal·mol-1。上述氨基酸残基可能是对FGF10蛋白分子结构具有支持作用的关键位点,在后续突变引入时尽量避开这些关键位点。
3、从UniProt蛋白数据库中获取所有的FGF10蛋白分子的序列,经过初步筛选,删除重复序列、不完整序列和同源性较低的序列,最终得到FGF10蛋白分子的直系同源序列有299条。采用Muscle多重序列比对方式,将FGF10蛋白分子的序列与299条直系同源序列做多重序列比对,从FGF10蛋白分子的序列中筛选出在直系同源序列中出现的频率大于40%的多个氨基酸残基,并作为突变氨基酸残基。
4、从UniProt蛋白数据库中获取所有的FGF10蛋白分子的旁系同源序列:FGF1、FGF2、FGF3、FGF4、FGF5、FGF6、FGF7、FGF8、FGF9、FGF11、FGF12、FGF13、FGF14、FGF16、FGF17、FGF18、FGF19、FGF20、FGF21、FGF22、FGF23。采用Muscle多重序列比对方式,将FGF10蛋白分子的序列与21条旁系同源序列做多重序列比对,从FGF10蛋白分子的序列中筛选出在旁系同源序列中出现的频率大于40%的多个氨基酸残基,并作为突变氨基酸残基。
5、构建突变文库,将直系同源比对和/或旁系同源序列的比对结果(参见表1和表2)加入突变文库,进行后续的自由能变计算。
表1直系同源比对结果
直系同源突变氨基酸残基 出现频率
T86N 59.20%
A125S 59.20%
N127K 54.52%
N148S 56.86%
F167L 59.20%
Q170K 62.88%
Y177F 66.89%
K183R 56.52%
P186T 59.20%
R187K 58.86%
H207M 53.51%
表2旁系同源比对结果
旁系同源突变氨基酸残基 出现频率
F85R 50.00%
Y88F 40.91%
K87G 68.18%
K91Q 59.09%
K94P 59.09%
N95D 54.55%
E104D 40.91%
V123I 86.36%
I126V 68.18%
N129G 40.91%
N147T 50.00%
D149E 59.09%
L152F 95.45%
G182K 54.55%
K191R 54.55%
R193K 40.91%
6、对突变文库中的所有突变体进行能量计算:以FGF10蛋白分子的晶体结构作为输入文件,使用Rosetta Relax应用对FGF10蛋白分子的晶体结构进行骨架能量最小化和侧链结构重排,获取最优构象,消除晶体堆积力对初始模型的影响。再使用Rosetta_DDG函数,按照突变文库中突变氨基酸残基的位点信息与突变信息,对FGF10蛋白分子的最优构象中对应的氨基酸残基产生突变的自由能变进行计算,每个对应的氨基酸残基重复迭代计算50次,取最优的结果作为自由能变结果。
7、根据FGF10蛋白分子的突变文库计算的自由能变结果,筛选出突变后自由能变低于-1kcal·mol-1的对应的氨基酸残基作为目标突变位点(见表3)。
表3目标突变位点
突变位点 突变来源
K94P 旁系同源
V123I 旁系同源
L152F 旁系同源
G182K 旁系同源
H207M 直系同源
本申请实施例可以在FGF10蛋白分子的晶体结构基础上,对上述步骤筛选出的L152F位点建立突变体分子模型(参见图3),分析L152F突变体分子模型的氨基酸的堆积紧密程度、电荷是否存在排斥作用、有无生成新的氢键或盐桥等。通过分析得到突变后蛋白分子内部的疏水作用增加,因此提高了蛋白的稳定性。使用Gromacs模拟L152F突变体分子在氯化钠水溶液中10ns的分子运动,验证得到L152F突变体未破坏蛋白分子结构的天然构象,且稳定性增加,从而模拟验证了利用筛选出的目标突变位点进行突变,可以提高蛋白分子稳定性。
与前述应用功能实现方法实施例相对应,本申请还提供了一种基于同源蛋白序列进化方向结合自由能变的氨基酸残基突变提高蛋白稳定性的装置、电子设备及相应的实施例。
图4是本申请实施例示出的基于同源蛋白序列进化方向结合自由能变的氨基酸残基突变提高蛋白稳定性的装置的结构示意图。
参见图4,一种基于同源蛋白序列进化方向结合自由能变的氨基酸残基突变提高蛋白稳定性的装置,包括:
获取模块40,用于获取目标蛋白分子的晶体结构、标蛋白分子的序列及其同源序列。
比对模块41,用于将目标蛋白分子的序列与同源序列作比对,从目标蛋白分子的序列中筛选出满足比对条件的多个突变氨基酸残基。其中比对条件为:目标蛋白分子的序列中的氨基酸残基在同源序列中出现的频率大于预设频率,该预设频率可以为40%。目标蛋白分子的同源序列可以至少包括直系同源序列和旁系同源序列。
构建模块42,用于构建突变文库,突变文库中包含多个突变氨基酸残基的位点信息和突变信息。
自由能变计算模块43,用于按照突变文库中多个突变氨基酸残基的位点信息和突变信息,计算目标蛋白分子的晶体结构中对应位点的氨基酸残基产生对应突变的自由能变。
确定模块44,用于将自由能变小于预设阈值的对应的氨基酸残基作为目标突变位点,以根据目标突变位点的突变提高目标蛋白分子的稳定性。其中预设阈值可以为-1kcal·mol-1
本申请可以在装置中设置突变模块(图中未示出),突变模块可以根据目标突变位点的突变提高目标蛋白分子的稳定性。例如,根据目标突变位点的突变自由能变对蛋白质分子进行突变,从而利用筛选出的突变位点提高蛋白质分子稳定性。
该装置还可以包括优化处理模块(图中未示出)。
优化处理模块,用于在自由能变计算模块43计算目标蛋白分子的晶体结构中对应位点的氨基酸残基产生对应突变的自由能变之前,对目标蛋白分子的晶体结构进行优化处理,得到最优构象;优化处理包括骨架能量最小化和侧链结构重排。
该装置还可以包括关键位点处理模块(图中未示出)。
关键位点处理模块,用于从目标蛋白分子的晶体结构的氨基酸残基中筛选出对目标蛋白分子结构具有支持作用的关键位点;
若所述多个突变氨基酸残基中包含关键位点,则将关键位点剔除。
关键位点处理模块对目标蛋白分子的晶体结构进行丙氨酸扫描,从晶体结构的所有氨基酸残基中筛选出满足预设条件的位点,并作为对目标蛋白分子结构具有支持作用的关键位点。预设条件为:氨基酸残基被丙氨酸替代后的自由能变超过2kcal·mol-1
本申请实施例中提供的装置,通过将目标蛋白分子的序列和同源序列作比对,从目标蛋白分子的序列中筛选出满足比对条件的多个突变氨基酸残基,再按照突变氨基酸残基的位点信息和突变信息,计算目标蛋白分子中对应的氨基酸残基产生突变的自由能变,最后将自由能变小于预设阈值的对应的氨基酸残基作为目标突变位点,从而可以使得筛选出的目标突变位点后续产生突变后得到的突变体蛋白与目标蛋白分子的结构相似,且仍然能保持原有活性、特异性及与受体或配体之间的亲和力,从而利用筛选出的目标突变位点并根据目标突变位点的突变自由能变对蛋白质分子进行突变,可以提高蛋白分子稳定性。而且,由于突变体蛋白是基于同源序列得到的,因此在自然界中存在且具有一定的出现频率,另外是基于进化压力所筛选得到,使得突变蛋白能行使原有蛋白所应有的功能,以及是结合了能量最低原理计算突变自由能变,因此可以判断稳定性变化,从而也大幅提高蛋白定向进化的效率与筛选效率。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
图5是本申请实施例示出的电子设备的结构示意图。
参见图5,电子设备500包括存储器510和处理器520。
处理器520可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器510可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM)和永久存储装置。其中,ROM可以存储处理器520或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器510可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(例如DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器510可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等)、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
其中,处理器520可以包括获取模块40、比对模块41、构建模块42、自由能变计算模块43、确定模块44,具体功能和连接关系可参见图5中的描述,此处不再赘述。
电子设备500还包括显示器,显示器用于展示处理器520的执行结果,例如包括展示运算结果和计算结构等。
存储器510上存储有可执行代码,当可执行代码被处理器520处理时,可以使处理器520执行上文述及的方法中的部分或全部。
此外,根据本申请的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。
或者,本申请还可以实施为一种计算机可读存储介质(或非暂时性机器可读存储介质或机器可读存储介质),其上存储有可执行代码(或计算机程序或计算机指令代码),当可执行代码(或计算机程序或计算机指令代码)被电子设备(或服务器等)的处理器执行时,使处理器执行根据本申请的上述方法的各个步骤的部分或全部。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种基于同源蛋白序列进化方向结合自由能变提高蛋白稳定性的方法,其特征在于,包括:
获取目标蛋白分子的晶体结构、目标蛋白分子的序列及其同源序列;
将所述目标蛋白分子的序列与同源序列作比对,从所述目标蛋白分子的序列中筛选出满足比对条件的多个突变氨基酸残基;
构建突变文库,所述突变文库中包含所述多个突变氨基酸残基的位点信息和突变信息;
按照所述突变文库中所述多个突变氨基酸残基的位点信息和突变信息,计算所述目标蛋白分子的晶体结构中对应位点的氨基酸残基产生对应突变的自由能变;
将所述自由能变小于预设阈值的所述对应的氨基酸残基作为目标突变位点,以根据所述目标突变位点的突变提高目标蛋白分子的稳定性。
2.根据权利要求1所述的方法,其特征在于,所述比对条件为:所述目标蛋白分子的序列中的氨基酸残基在所述同源序列中出现的频率大于预设频率。
3.根据权利要求1所述的方法,其特征在于,所述目标蛋白分子的同源序列至少包括直系同源序列和旁系同源序列。
4.根据权利要求1所述的方法,其特征在于,所述计算所述目标蛋白分子的晶体结构中对应位点的氨基酸残基产生对应突变的自由能变之前,还包括:
对所述目标蛋白分子的晶体结构进行优化处理,得到最优构象;所述优化处理包括骨架能量最小化和侧链结构重排。
5.根据权利要求1所述的方法,其特征在于,还包括:
从所述目标蛋白分子的晶体结构的氨基酸残基中筛选出对所述目标蛋白分子结构具有支持作用的关键位点;
若所述多个突变氨基酸残基中包含所述关键位点,则将所述关键位点剔除。
6.根据权利要求5所述的方法,其特征在于,所述从所述目标蛋白分子的晶体结构的氨基酸残基中筛选出对所述目标蛋白分子结构具有支持作用的关键位点,包括:
对所述目标蛋白分子的晶体结构进行丙氨酸扫描,从所述晶体结构的所有氨基酸残基中筛选出满足预设条件的位点,并作为所述对所述目标蛋白分子结构具有支持作用的关键位点。
7.根据权利要求6所述的方法,其特征在于,所述预设条件为:所述氨基酸残基被丙氨酸替代后的自由能变超过2kcal·mol-1
8.一种基于同源蛋白序列进化方向结合自由能变提高蛋白稳定性的装置,其特征在于,包括:
获取模块,用于获取目标蛋白分子的晶体结构、目标蛋白分子的序列及其同源序列;
比对模块,用于将所述目标蛋白分子的序列与同源序列作比对,从所述目标蛋白分子的序列中筛选出满足比对条件的多个突变氨基酸残基;
构建模块,用于构建突变文库,所述突变文库中包含所述多个突变氨基酸残基的位点信息和突变信息;
自由能变计算模块,用于按照所述突变文库中所述多个突变氨基酸残基的位点信息和突变信息,计算所述目标蛋白分子的晶体结构中对应位点的氨基酸残基产生对应突变的自由能变;
确定模块,用于将所述自由能变小于预设阈值的所述对应的氨基酸残基作为目标突变位点,以根据所述目标突变位点的突变提高目标蛋白分子的稳定性。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-7中任一项所述的方法。
CN202310451609.XA 2023-04-17 2023-04-17 基于同源蛋白序列进化方向结合自由能变提高蛋白稳定性的方法及装置 Active CN116486903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310451609.XA CN116486903B (zh) 2023-04-17 2023-04-17 基于同源蛋白序列进化方向结合自由能变提高蛋白稳定性的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310451609.XA CN116486903B (zh) 2023-04-17 2023-04-17 基于同源蛋白序列进化方向结合自由能变提高蛋白稳定性的方法及装置

Publications (2)

Publication Number Publication Date
CN116486903A true CN116486903A (zh) 2023-07-25
CN116486903B CN116486903B (zh) 2023-12-29

Family

ID=87224684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310451609.XA Active CN116486903B (zh) 2023-04-17 2023-04-17 基于同源蛋白序列进化方向结合自由能变提高蛋白稳定性的方法及装置

Country Status (1)

Country Link
CN (1) CN116486903B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117116336A (zh) * 2023-10-18 2023-11-24 深圳新锐基因科技有限公司 基于蛋白分子内部原子波动改善蛋白结构柔性弱点的方法和装置

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000073463A1 (en) * 1999-05-27 2000-12-07 Medical Research Council Groel muteins with improved stability
CN101553499A (zh) * 2006-10-10 2009-10-07 澳大利亚国立大学 蛋白产生方法及其用途
CN101918437A (zh) * 2007-11-21 2010-12-15 罗斯基勒大学 具有冰结合活性的多肽
CN104560909A (zh) * 2015-01-26 2015-04-29 江南大学 一种催化dna合成效率提高的dna聚合酶
CN105441404A (zh) * 2015-12-08 2016-03-30 浙江科技学院 ω-转氨酶突变体及其编码基因和制备方法
CN107058256A (zh) * 2017-05-04 2017-08-18 浙江科技学院 ω‑转氨酶突变体及其制备方法和应用
CN108913671A (zh) * 2018-06-15 2018-11-30 浙江科技学院 一种ω-转氨酶突变体及其应用
CN109486778A (zh) * 2018-10-22 2019-03-19 浙江科技学院 一种基于共进化网络的ω-转氨酶突变体以及制备方法和应用
CN110862979A (zh) * 2020-01-20 2020-03-06 中国科学院天津工业生物技术研究所 碱性蛋白酶的突变体及其应用
CN111893104A (zh) * 2020-07-12 2020-11-06 复旦大学 一种基于结构的crispr蛋白的优化设计方法
CN112582031A (zh) * 2020-12-24 2021-03-30 江南大学 结合高压分子动力学模拟、自由能计算改善水解酶鲁棒性
CN113727994A (zh) * 2019-05-02 2021-11-30 德克萨斯大学董事会 提高合成蛋白质稳定性的系统和方法
CN114038498A (zh) * 2022-01-06 2022-02-11 北京晶泰科技有限公司 Gpcr的热稳定性突变预测方法、结构筛选方法及其装置
CN114752584A (zh) * 2022-04-19 2022-07-15 常州大学 一种高温度稳定性的突变壳聚糖酶
CN115181734A (zh) * 2022-08-29 2022-10-14 上海茵肽信息科技有限公司 一种基于饱和突变和复合评估设计的高热稳定性的新型葡萄糖氧化酶

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000073463A1 (en) * 1999-05-27 2000-12-07 Medical Research Council Groel muteins with improved stability
CN101553499A (zh) * 2006-10-10 2009-10-07 澳大利亚国立大学 蛋白产生方法及其用途
CN101918437A (zh) * 2007-11-21 2010-12-15 罗斯基勒大学 具有冰结合活性的多肽
CN104560909A (zh) * 2015-01-26 2015-04-29 江南大学 一种催化dna合成效率提高的dna聚合酶
CN105441404A (zh) * 2015-12-08 2016-03-30 浙江科技学院 ω-转氨酶突变体及其编码基因和制备方法
CN107058256A (zh) * 2017-05-04 2017-08-18 浙江科技学院 ω‑转氨酶突变体及其制备方法和应用
CN108913671A (zh) * 2018-06-15 2018-11-30 浙江科技学院 一种ω-转氨酶突变体及其应用
CN109486778A (zh) * 2018-10-22 2019-03-19 浙江科技学院 一种基于共进化网络的ω-转氨酶突变体以及制备方法和应用
CN113727994A (zh) * 2019-05-02 2021-11-30 德克萨斯大学董事会 提高合成蛋白质稳定性的系统和方法
CN110862979A (zh) * 2020-01-20 2020-03-06 中国科学院天津工业生物技术研究所 碱性蛋白酶的突变体及其应用
CN111893104A (zh) * 2020-07-12 2020-11-06 复旦大学 一种基于结构的crispr蛋白的优化设计方法
CN112582031A (zh) * 2020-12-24 2021-03-30 江南大学 结合高压分子动力学模拟、自由能计算改善水解酶鲁棒性
CN114038498A (zh) * 2022-01-06 2022-02-11 北京晶泰科技有限公司 Gpcr的热稳定性突变预测方法、结构筛选方法及其装置
CN114752584A (zh) * 2022-04-19 2022-07-15 常州大学 一种高温度稳定性的突变壳聚糖酶
CN115181734A (zh) * 2022-08-29 2022-10-14 上海茵肽信息科技有限公司 一种基于饱和突变和复合评估设计的高热稳定性的新型葡萄糖氧化酶

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
MARTIN LEHMANN等: "Engineering proteins for thermostability: the use of sequence alignments versus rational design and directed evolution", 《CURRENT OPINION IN BIOTECHNOLOGY》, vol. 12, no. 4, pages 371 - 375, XP002982993, DOI: 10.1016/S0958-1669(00)00229-9 *
任天雷等: "基于分子结构与生物信息学等多维度特征的定向进化改造甲基对硫磷水解酶", 《生物技术通报》, vol. 34, no. 10, pages 194 - 200 *
张庆菲: "计算机辅助分子设计提高谷氨酸脱羧酶热稳定性", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, no. 02, pages 079 - 158 *
张霄等: "小菜蛾碱性磷酸酯酶受体表达与分子模拟", 《中国农业科学》, vol. 49, no. 23, pages 4558 *
明玥等: "基于序列和结构分析的酶热稳定性改造策略", 《中国生物工程杂志》, vol. 41, no. 10, pages 100 - 108 *
李易江成: "桑螟及其寄生蜂气味结合蛋白与桑叶挥发物的结合特性研究", 《中国优秀硕士学位论文全文数据库 农业科技辑》, no. 02, pages 051 - 113 *
李瑶: "环氧化物水解酶的分子改造及其催化苯基缩水甘油醚动力学拆分的研究", 《中国优秀硕士学位论文全文数据库 工程科技I辑》, no. 02, pages 014 - 244 *
汪钟: "乳杆菌谷氨酸脱羧酶热稳定性的理性改造", 《中国优秀硕士学位论文全文数据库 工程科技I辑》, no. 05, pages 15 - 27 *
牟慧等: "Pen a1 抗原表位187—202 关键氨基酸的筛选和鉴定", 《中国农业科学》, vol. 47, no. 9, pages 1793 - 1801 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117116336A (zh) * 2023-10-18 2023-11-24 深圳新锐基因科技有限公司 基于蛋白分子内部原子波动改善蛋白结构柔性弱点的方法和装置
CN117116336B (zh) * 2023-10-18 2024-01-23 深圳新锐基因科技有限公司 基于内部原子波动改善蛋白结构柔性弱点的方法和装置

Also Published As

Publication number Publication date
CN116486903B (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
Torrisi et al. Deep learning methods in protein structure prediction
Lopéz-Blanco et al. iMODFIT: efficient and robust flexible fitting based on vibrational analysis in internal coordinates
Mashiach et al. FiberDock: flexible induced‐fit backbone refinement in molecular docking
CN116486903B (zh) 基于同源蛋白序列进化方向结合自由能变提高蛋白稳定性的方法及装置
Schneidman‐Duhovny et al. Geometry‐based flexible and symmetric protein docking
Venkatraman et al. Protein-protein docking using region-based 3D Zernike descriptors
Doytchinova et al. VaxiJen: a server for prediction of protective antigens, tumour antigens and subunit vaccines
Takagi et al. How protein thermodynamics and folding mechanisms are altered by the chaperonin cage: molecular simulations
Andrusier et al. Principles of flexible protein–protein docking
Trosset et al. Reaching the global minimum in docking simulations: a Monte Carlo energy minimization approach using Bezier splines
Mathieu et al. Life on human surfaces: skin metagenomics
Chakrabarti et al. Computational prediction of native protein ligand-binding and enzyme active site sequences
Jagodzinski et al. Using rigidity analysis to probe mutation-induced structural changes in proteins
Esquivel-Rodríguez et al. Fitting multimeric protein complexes into electron microscopy maps using 3D Zernike descriptors
Chauhan et al. Enabling full‐length evolutionary profiles based deep convolutional neural network for predicting DNA‐binding proteins from sequence
Jain et al. ICOR: improving codon optimization with recurrent neural networks
Ngo et al. Improving the thermostability of xylanase a from Bacillus subtilis by combining bioinformatics and electrostatic interactions optimization
Li et al. Neural network‐derived Potts models for structure‐based protein design using backbone atomic coordinates and tertiary motifs
Zarrineh et al. Genome-scale co-expression network comparison across Escherichia coli and Salmonella enterica serovar Typhimurium reveals significant conservation at the regulon level of local regulators despite their dissimilar lifestyles
Cordero et al. Coevolution of gene families in prokaryotes
Saenz-Mendez et al. Ligand Selectivity between the ADP-Ribosylating Toxins: An Inverse-Docking Study for Multitarget Drug Discovery
Thormann et al. Massive docking of flexible ligands using environmental niches in parallelized genetic algorithms
Vochteloo et al. PICALO: principal interaction component analysis for the identification of discrete technical, cell-type, and environmental factors that mediate eQTLs
Kotthoff et al. Dockground scoring benchmarks for protein docking
Zhou et al. A novel model to predict O-glycosylation sites using a highly unbalanced dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant