CN114038498A - Gpcr的热稳定性突变预测方法、结构筛选方法及其装置 - Google Patents
Gpcr的热稳定性突变预测方法、结构筛选方法及其装置 Download PDFInfo
- Publication number
- CN114038498A CN114038498A CN202210010296.XA CN202210010296A CN114038498A CN 114038498 A CN114038498 A CN 114038498A CN 202210010296 A CN202210010296 A CN 202210010296A CN 114038498 A CN114038498 A CN 114038498A
- Authority
- CN
- China
- Prior art keywords
- mutation
- site
- gpcr
- target gpcr
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000035772 mutation Effects 0.000 title claims abstract description 398
- 102000003688 G-Protein-Coupled Receptors Human genes 0.000 title claims abstract description 311
- 108090000045 G-Protein-Coupled Receptors Proteins 0.000 title claims abstract description 311
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012216 screening Methods 0.000 title claims abstract description 65
- 230000000694 effects Effects 0.000 claims abstract description 96
- 238000010438 heat treatment Methods 0.000 claims abstract description 91
- 230000008859 change Effects 0.000 claims abstract description 58
- 230000009467 reduction Effects 0.000 claims abstract description 34
- 238000012867 alanine scanning Methods 0.000 claims abstract description 33
- 150000001413 amino acids Chemical group 0.000 claims description 42
- 235000001014 amino acid Nutrition 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 11
- 238000013136 deep learning model Methods 0.000 claims description 10
- 229910052739 hydrogen Inorganic materials 0.000 claims description 9
- 239000001257 hydrogen Substances 0.000 claims description 9
- 238000010801 machine learning Methods 0.000 claims description 9
- 239000002904 solvent Substances 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 6
- 230000002349 favourable effect Effects 0.000 claims description 5
- 238000012827 research and development Methods 0.000 abstract description 10
- 125000003275 alpha amino acid group Chemical group 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 50
- 238000010586 diagram Methods 0.000 description 11
- 235000004279 alanine Nutrition 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 10
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 9
- 102000004169 proteins and genes Human genes 0.000 description 9
- 108090000623 proteins and genes Proteins 0.000 description 9
- 238000013461 design Methods 0.000 description 8
- 235000018102 proteins Nutrition 0.000 description 8
- 239000000556 agonist Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 6
- 102000005962 receptors Human genes 0.000 description 6
- 108020003175 receptors Proteins 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000012916 structural analysis Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 239000012528 membrane Substances 0.000 description 4
- 230000002085 persistent effect Effects 0.000 description 4
- 101100215487 Sus scrofa ADRA2A gene Proteins 0.000 description 3
- 239000005557 antagonist Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013112 stability test Methods 0.000 description 3
- 101150059573 AGTR1 gene Proteins 0.000 description 2
- 101150108752 Ntsr1 gene Proteins 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002547 new drug Substances 0.000 description 2
- 230000000144 pharmacologic effect Effects 0.000 description 2
- 238000005381 potential energy Methods 0.000 description 2
- 108090000765 processed proteins & peptides Proteins 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000002818 protein evolution Methods 0.000 description 2
- 230000000087 stabilizing effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 102000009346 Adenosine receptors Human genes 0.000 description 1
- 108050000203 Adenosine receptors Proteins 0.000 description 1
- 108091006027 G proteins Proteins 0.000 description 1
- 102000030782 GTP binding Human genes 0.000 description 1
- 108091000058 GTP-Binding Proteins 0.000 description 1
- 101100167640 Glycine max CLV1B gene Proteins 0.000 description 1
- 102000018697 Membrane Proteins Human genes 0.000 description 1
- 108010052285 Membrane Proteins Proteins 0.000 description 1
- 238000002994 Monte Carlo simulated annealing Methods 0.000 description 1
- 239000012190 activator Substances 0.000 description 1
- 125000003295 alanine group Chemical group N[C@@H](C)C(=O)* 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004899 c-terminal region Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 239000002355 dual-layer Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 230000001617 migratory effect Effects 0.000 description 1
- 230000000869 mutational effect Effects 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000001766 physiological effect Effects 0.000 description 1
- 239000002287 radioligand Substances 0.000 description 1
- 238000003653 radioligand binding assay Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000001525 receptor binding assay Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000007614 solvation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请涉及一种GPCR的热稳定性突变预测方法、结构筛选方法及其装置。该预测方法包括:根据目标GPCR的三维结构,获取目标GPCR的位点在突变前后的自由能值下降值的变化值ΔΔG,并根据自由能值下降值的变化值ΔΔG,在突变后的位点中确定符合第一预设条件的第一突变位点;根据目标GPCR的特征和/或目标GPCR的氨基酸序列,分别获取目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化量,并根据加热前后活性变化量,在突变后的位点中确定符合第二预设条件的第二突变位点;筛选第一预设数量占比的第一突变位点和第二预设数量占比的第二突变位点作为候选突变位点。本申请的方案,能够预测GPCR的哪些位点突变具有贡献稳定性的可能性,可以省时省力及降低研发费用。
Description
技术领域
本申请涉及G蛋白偶联受体突变技术领域,尤其涉及GPCR的热稳定性突变预测方法、结构筛选方法及其装置。
背景技术
G蛋白偶联受体(GPCRs)家族是人类基因组编码的最为重要的受体家族之一,在人体的主要器官组织系统中普遍表达,其立体结构中都有七个跨膜α螺旋,且其肽链的C端和连接第5和第6个跨膜螺旋的胞内环上都有结合位点,它们的主要功能是通过与G蛋白相互作用将细胞外的信息传递到细胞内。GPCRs参与了大量人类疾病、生理和药理活动,是研究最多的药物靶点。研究GPCRs的结构稳定性和其结构解析技术对研制新药至关重要,但由于其结构柔性比较大、构象多变、异源表达折叠错误等,解析有些GPCRs的结构还存在一定的困难,GPCR的热稳定性突变位点预测愈发重要。
GPCRs的热稳定性是由其氨基酸序列和三维结构所决定的,甚至DNA的位点突变也可以改变其热稳定性,而GPCRs热稳定性的变化将改变其药理学性质。相关技术中,主流有两种对GPCR突变体热稳定性改造的方法:系统性的ALA扫描GPCR突变方法和定向蛋白进化方法。然而,目前这些方法存在耗时耗力且需要投入大量的研发费用的问题。
因此,如何缩减GPCR在热稳定性突变中所需要覆盖大量突变空间的实验尝试过程,以达到省时省力及降低研发费用的目的,是目前需要解决的问题。
发明内容
为解决或部分解决相关技术中存在的问题,本申请提供一种GPCR的热稳定性突变预测方法、结构筛选方法及其装置,能够预测GPCR的哪些位点突变具有贡献稳定性的可能性,达到省时省力及降低研发费用的效果。
本申请第一方面提供一种GPCR的热稳定性突变预测方法,包括:
根据目标GPCR的三维结构,获取所述目标GPCR的位点在突变前后的自由能值下降值的变化值ΔΔG,并根据所述自由能值下降值的变化值ΔΔG,在突变后的所述位点中确定符合第一预设条件的第一突变位点;
根据所述目标GPCR的特征和/或所述目标GPCR的氨基酸序列,分别获取所述目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化量,并根据所述加热前后活性变化量,在突变后的所述位点中确定符合第二预设条件的第二突变位点;
筛选第一预设数量占比的第一突变位点和第二预设数量占比的第二突变位点作为候选突变位点。
在一实施方式中,所述方法还包括:
当所述目标GPCR的三维结构未知时,根据所述目标GPCR的氨基酸序列,通过同源建模获取所述目标GPCR的候选三维结构;
在所述候选三维结构中,选取置信度最高的候选三维结构作为所述目标GPCR的三维结构。
在一实施方式中,所述根据目标GPCR的三维结构,获取所述目标GPCR的位点在突变前后的自由能值下降值的变化值ΔΔG,包括:
根据所述目标GPCR的三维结构,预测对应的跨膜区域;
根据所述跨膜区域构建的隐式溶剂模型,分别计算所述目标GPCR的各位点在突变前后的能量最小构象对应的自由能值下降值的变化值ΔΔG。
在一实施方式中,所述根据所述自由能值下降值的变化值ΔΔG,在突变后的所述位点中确定符合第一预设条件的第一突变位点,包括:
将所述自由能值下降值的变化值ΔΔG与预设能量阈值进行比较;
当所述自由能值下降值的变化值ΔΔG与预设能量阈值小于或等于所述预设能量阈值时,确定所述目标GPCR对应的突变后位点为所述第一突变位点。
在一实施方式中,所述筛选第一预设数量占比的第一突变位点和第二预设数量占比的第二突变位点作为候选突变位点之后,还包括:
根据预设评价指标筛选所述第一突变位点,以在所述候选突变位点中选择推荐突变位点;或
所述筛选第一预设数量占比的第一突变位点和第二预设数量占比的第二突变位点作为候选突变位点之前,还包括:
根据预设评价指标筛选所述第一突变位点,以在所述第一突变位点中选择第一预设数量占比的候选突变位点;
其中,所述预设评价指标包括突变后的所述目标GPCR的三维结构中是否存在冲突,是否生成新的氢键,及生成的所述新的氢键的朝向和位置是否与周围的氨基酸产生有利稳定性的相互作用。
在一实施方式中,所述根据所述目标GPCR的特征和/或所述目标GPCR的氨基酸序列,分别获取所述目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化量,包括:
根据训练好的基于机器学习的分类器模型,提取所述目标GPCR的特征,所述特征包括结构特征和氨基酸性质特征、能量特征及信息特征;
根据所述特征,获取所述目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化量;和/或
通过训练好的深度学习模型,根据所述目标GPCR的氨基酸序列,获取所述目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化量。
在一实施方式中,所述根据所述加热前后活性变化量,在突变后的所述位点中确定符合第二预设条件的第二突变位点,包括:
将所述加热前后活性变化量与野生型目标GPCR的加热前后活性变化量的预设倍率进行比较;
当所述加热前后活性变化量大于所述野生型目标GPCR的加热前后活性变化量的预设倍率时,确定所述目标GPCR对应的突变后位点为所述第二突变位点。
在一实施方式中,所述筛选第一预设数量占比的第一突变位点和第二预设数量占比的第二突变位点作为所述目标GPCR的候选突变位点,包括:
根据所需候选突变位点的总数,筛选获取在所述总数中占比M%的第一突变位点和在所述总数中占比N%的第二突变位点作为候选突变位点;其中,M小于N,且M+N=100。
在一实施方式中,所述方法还包括:
获取历史数据,并将所述历史数据中的已知GPCR中具有迁移性的突变位点作为候选突变位点。
本申请第二方面提供一种GPCR结构的筛选方法,其包括:
根据如上GPCR的热稳定性突变预测方法筛选获得目标GPCR的候选突变位点;
根据所述候选突变位点确定所述目标GPCR的突变后结构。
本申请第三方面提供一种热稳定性突变预测装置,包括:
第一位点确定模块,用于根据目标GPCR的三维结构,获取所述目标GPCR的位点在突变前后的自由能值下降值的变化值ΔΔG,并根据所述自由能值下降值的变化值ΔΔG,在突变后的所述位点中确定符合第一预设条件的第一突变位点;
第二位点确定模块,用于根据所述目标GPCR的特征和/或所述目标GPCR的氨基酸序列,分别获取所述目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化量,并根据所述加热前后活性变化量,在突变后的所述位点中确定符合第二预设条件的第二突变位点;
筛选模块,用于筛选第一预设数量占比的第一突变位点和第二预设数量占比的第二突变位点作为候选突变位点。
本申请第四方面提供一种GPCR结构的筛选装置,其包括:
筛选模块,用于根据如上GPCR的热稳定性突变预测装置筛选获得目标GPCR的候选突变位点;
结构确定模块,用于根据所述候选突变位点确定所述目标GPCR的突变后结构。
本申请第五方面提供一种电子设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
本申请第六方面提供一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
本申请提供的技术方案可以包括以下有益效果:
本申请的技术方案,通过不同的方式分别获取在突变后有利于提高目标GPCR热稳定性的第一突变位点和第二突变位点,再从第一突变位点和第二突变位点中各自选取一定数量的突变位点组成最终的候选突变位点;这样的设计,一方面可以通过不同的方式更快速且更全面地获得目标GPCR的突变位点,提供更完整的突变位点筛选基础,减少遗漏;另一方面,根据不同的来源提高获取的候选突变位点的可靠性,进一步设置在推荐位点中的相应的数量占比,从而避免候选突变位点过多,控制候选突变位点的数量,减少GPCR在热稳定性突变中的实验尝试过程,达到省时省力及降低研发费用的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
通过结合附图对本申请示例性实施方式进行更详细地描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
图1是本申请实施例示出的GPCR的热稳定性突变预测方法的流程示意图;
图2是本申请实施例示出的GPCR的热稳定性突变预测方法的另一流程示意图;
图3是本申请实施例示出的GPCR的热稳定性突变预测装置的结构示意图;
图4是本申请实施例示出的GPCR的热稳定性突变预测装置的另一结构示意图;
图5是本申请实施例示出的GPCR结构的筛选装置的结构示意图;
图6是本申请实施例示出的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式,然而应该理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
相关技术中,研究GPCR的结构稳定性和其结构解析技术对研制新药至关重要。但是由于结构生物学和蛋白质工程技术在GPCR结构解析的局限性(耗时耗力),GPCR热稳定性突变位点预测愈发重要。然而,如何缩减GPCR在热稳定性突变中所需要覆盖大量突变空间的实验尝试过程,以达到省时省力及降低研发费用的目的,是目前需要解决的问题。
针对上述问题,本申请实施例提供一种GPCR的热稳定性突变预测方法,能够预测GPCR的哪些位点突变具有贡献稳定性的可能性,达到省时省力及降低研发费用的效果。以下结合附图详细描述本申请实施例的技术方案。
图1是本申请实施例示出的GPCR的热稳定性突变预测方法的流程示意图。
参见图1,本申请实施例示出的GPCR的热稳定性突变预测方法,包括:
S110,根据目标GPCR的三维结构,获取目标GPCR的位点在突变前后的自由能值下降值的变化值ΔΔG,并根据自由能值下降值的变化值ΔΔG,在突变后的位点中确定符合第一预设条件的第一突变位点。
其中,当目标GPCR的三维结构已知时,可以直接根据目标GPCR的三维结构,通过相关算法获取目标GPCR的位点在突变前后的自由能值下降值的变化值ΔΔG。进一步地,为了提高获取的第一突变位点的全面性,可以将目标GPCR的全部位点进行丙氨酸扫描突变,并分别逐一计算各位点突变前的自由能下降值与突变后的自由能下降值之间的变化值ΔΔG。
在一实施方式中,当目标GPCR的三维结构未知时,根据目标GPCR的氨基酸序列,通过同源建模获取目标GPCR的候选三维结构;在候选三维结构中,选取置信度最高的候选三维结构作为目标GPCR的三维结构。在获取置信度最高的候选三维结构充当目标GPCR的三维结构后,同理,分别通过相关算法获取目标GPCR的每一位点在突变前的自由能值下降值和突变后的自由能值下降值之间的变化值ΔΔG。
进一步地,将自由能值下降值的变化值ΔΔG与预设能量阈值进行比较,当自由能值下降值的变化值ΔΔG小于或等于预设能量阈值时,确定目标GPCR对应的突变后位点为第一突变位点。通过这样的设计,即可筛选获得符合第一预设条件的一批第一突变位点。
S120,根据目标GPCR的特征和/或氨基酸序列,分别获取目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化量,并根据加热前后活性变化量,在突变后的位点中确定符合第二预设条件的第二突变位点。
本步骤中,可以采用一种算法模型或两种算法模型获取符合第二预设条件的第二突变位点。也就是说,可以仅采用一种算法模型根据目标GPCR的特征获取第二突变位点,或者仅采用另一种算法模型根据目标GPCR的氨基酸序列获取第二突变位点,或者同时根据两种不同的算法模型分别获取第二突变位点。
进一步地,每种算法模型的共同点在于,将目标GPCR的每一位点经丙氨酸扫描突变后,通过加热突变位点后的目标GPCR,获取目标GPCR在加热后的活性与加热前的活性的变化量,从而获得对应的加热前后活性变化量。
在一实施方式中,将目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化量与野生型目标GPCR的加热前后活性变化量的预设倍率进行比较;当目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化量大于野生型目标GPCR的加热前后活性变化量的预设倍率,确定目标GPCR对应的突变后位点为第二突变位点。也就是说,确定符合第二预设条件的突变后的位点为第二突变位点。其中加热前后活性变化量可以根据加热后的活性与加热前的活性的比值进行表示,或者根据加热后的活性与加热前的活性的差值进行表示。
需要明确的是,上述步骤S110和步骤S120不分先后顺序进行,即可以同时进行,也可以分步进行。
S130,筛选第一预设数量占比的第一突变位点和第二预设数量占比的第二突变位点作为候选突变位点。
在一实施方式中,可以根据所需候选突变位点的总数,筛选第一预设数量占比的第一突变位点和第二预设数量占比的第二突变位点。其中,第一预设数量占比可以小于第二预设数量占比。也就是说,根据上述不同方法所得的各突变位点之间存在可信度的区别,其中,第二突变位点的可信度更高,第二突变位点的推荐数量占比则可以多于第一突变位点的推荐数量。这样的设计,可以更合理地确保候选突变位点的全面性和可靠性。可以理解,在汇集所需数量的候选突变位点后,即可便于研究人员在候选突变位点中挑选并进行相关实验,从而缩减实验尝试过程。
从该示例可知,本申请的技术方案,通过不同的方式分别获取在突变后有利于提高目标GPCR热稳定性的第一突变位点和第二突变位点,再从第一突变位点和第二突变位点中各自选取一定数量的突变位点组成最终的候选突变位点;这样的设计,一方面可以通过不同的方式更快速且更全面地获得目标GPCR的突变位点,提供更完整的突变位点筛选基础,减少遗漏;另一方面,根据不同的来源提高获取的候选突变位点的可靠性,进一步设置在推荐位点中的相应的数量占比,从而避免候选突变位点过多,控制候选突变位点的数量,减少GPCR在热稳定性突变中的实验尝试过程,达到省时省力及降低研发费用的效果。
图2是本申请实施例示出的GPCR的热稳定性突变预测方法的另一流程示意图。参见图2,本申请实施例示出的GPCR的热稳定性突变预测方法,包括:
S210,根据目标GPCR的三维结构,通过第一预设模型确定目标GPCR的位点在突变前后的自由能值下降值的变化值ΔΔG,根据自由能值下降值的变化值ΔΔG,在突变后的位点中确定符合第一预设条件的第一突变位点。
本步骤中,采用第一预设模型获取第一突变位点,第一预设模型的数据基础为目标GPCR的三维结构,在此基础上通过计算获得突变前后的自由能值下降值的变化值ΔΔG,继而根据变化值ΔΔG筛选获得第一突变位点。其中第一预设模型是基于三维结构,以RosettaMP_ddG算法为核心的模型。在一具体的实施方式中,该第一预设模型的具体处理环节包括如下步骤:
S211,当目标GPCR的三维结构未知时,根据目标GPCR的氨基酸序列,通过同源建模获取目标GPCR的候选三维结构;在候选三维结构中,选取置信度最高的候选三维结构作为目标GPCR的三维结构。
可以理解,在目前公开的上百种GPCR中,只有少部分GPCR解析获得了明确的三维结构,大部分GPCR的三维结构仍然未被解析。因此,针对已知氨基酸序列但未知三维结构的目标GPCR,可以根据同源建模的方式,确定与目标GPCR的氨基酸序列同源的各个同源GPCR,并选取与目标GPCR的氨基酸序列相似度更高的一个或多个同源GPCR,分别以选取的这些同源GPCR的三维结构作为结构模板,根据相关技术中的生物信息学和计算模拟的方法进行建模。例如,在进行同源建模时,可以通过结构模板检索、氨基酸序列比对、根据结构模板建立骨架、排布侧链构象和loop区域(蛋白质肽链中除去螺旋和β折叠的第三种二级结构),以实现精细化建模,获得对应的目标GPCR的候选三维结构。为了确保后续预测结果的准确性,可以设计置信度对各候选三维结构进行评分,以便筛选置信度符合预设阈值的三维结构,例如将置信度最高的候选三维结构作为目标GPCR的三维结构。在其他实施例中,可以根据已经完成建模的结构库获取目标GPCR的三维结构,例如GPCR-I-TASSER(一种蛋白三级预测软件)。当然,如果目标GPCR的三维结构已知,则可以直接进入下一步骤,无需进行同源建模。
S212,根据目标GPCR的三维结构,预测对应的跨膜区域。
在获得GPCR的三维结构后,三维结构在结构库中一般以PDB格式的文件(一种蛋白质三维结构数据文件)进行存储,其中,PDB格式文件包括GPCR上的各原子对应的三维坐标。本步骤中,通过将PDB格式文件中的三维坐标逐一转换为膜坐标框架下的坐标。具体地,可以将PDB格式文件中的原始三维坐标通过旋转、平移的操作移动到以Z轴为膜法向量的位置上,从而获得坐标转换后的PDB格式文件,可以理解,坐标转换后的各原子之间的相对位置不变。例如,可以根据相关技术中PPM服务器直接进行坐标转换。
进一步地,为了减少干扰,在一实施方式中,去除坐标转换后的三维结构中的冗余原子信息,例如去除晶体结构中的水分子、配体等原子信息。例如,可以采用Rosetta软件库(Rosetta是基于蒙特卡罗模拟退火为算法核心的高分子建模软件库)中的$ROSETTA/tools模块下的cleanATOM工具清理冗余原子信息。
可以理解,由于GPCR是一种膜蛋白,具有跨膜α螺旋,根据转换后的坐标,因此,利用相关软件例如Rosetta软件库,可以预测目标GPCR的跨膜区域。进一步地,在通过PPM服务器进行坐标转换时,可以预测出氨基酸嵌入残基(embeddedresidues),即嵌入膜中的残基。在一实施方式中,根据嵌入残基修改调整跨膜区域,使跨膜区域更加准确,以便提高后续计算结果的准确性。其中,跨膜区域可以采用span格式文件进行存储。
S213,根据跨膜区域构建的隐式溶剂模型,分别计算目标GPCR的各位点在突变前后的能量最小构象对应的自由能值下降值的变化值ΔΔG。
可以理解,在ROSETTA软件中的MP_ddG模块本身是一种隐式溶剂模型。在通过上述步骤S212确定目标GPCR的跨膜区域后,根据隐式溶剂模型,即可明确对于蛋白应该要与膜接触的部分,使用对应的膜势能进行描述;而与bulk(溶剂大体系)中水接触的部分,应该用正常的隐式势能描述。
进一步地,在目标GPCR的位点突变之前,根据隐式溶剂模型,计算目标GPCR对应的自由能值下降值。另外,将目标GPCR的每一位点逐一进行扫描突变(即将该位点突变为除本身为位点外的其余19种天然氨基酸的一种,即非丙氨酸突变),根据隐式溶剂模型分别计算每一位点突变后的目标GPCR对应的自由能值下降值。根据目标GPCR的单个位点突变后的自由能下降值与突变前的目标GPCR对应的自由能值下降值作差,计算获得该位点突变后的目标GPCR对应的变化值ΔΔG。以此类推,根据目标GPCR的突变位点的个数,计算获得对应个数的变化值ΔΔG。其中,为了确保计算结果的准确,在进行自由能值下降值的计算之前,先将突变前和突变后的三维结构进行优化,例如可以采用Rosetta软件库中的FastRelax模块进行优化,通过多次迭代进行氨基酸侧链重排以及能量最小化的计算来搜索给定的三维结构在局部能垒的最优构象,即能量最小构象。
S214,将对应的自由能值下降值的变化值ΔΔG小于或等于预设能量阈值的突变后的位点确定为第一突变位点。
在获取每一位点突变前后对应的自由能值下降值的变化值ΔΔG后,在一具体的实施方式中,将自由能值下降值的变化值ΔΔG与预设能量阈值进行比较,筛选自由能值下降值的变化值ΔΔG小于或等于预设能量阈值的突变位点。其中,预设能量阈值是负值。例如,预设能量阈值可以是-1.5REU(单位:Rosetta Energy Unit,REU),当然还可以是其他数值。当自由能值下降值的变化值ΔΔG小于或等于-1.5REU,数值越小,即绝对值越大时,表示该位点突变后对应的蛋白结构更稳定,该位点具有作为候选突变位点的倾向。因此,当该位点突变后对应的自由能值下降值的变化值ΔΔG大于预设能量阈值时,例如大于-1.5REU,则不符合第一预设条件中的规则,对应的目标GPCR突变后的位点不属于第一突变位点,即不会作为候选突变位点。
进一步地,在一实施方式中,ROSETTA能量函数可以根据变化值ΔΔG的分解分析,确定对应的位点突变前后的自由能下降值的变化值ΔΔG的来源。例如,能量函数的经验公式包括键伸缩能、键角变形能、键的转动(二面角)能和非键相互作用等多项能量项,通过对能量函数中的能量项进行分解,从而确定函数中的具体某项或多项能量项导致产生变化值ΔΔG。这样的设计,通过分析,有助于挑选更优的突变后位点。
S220,分别根据目标GPCR的特征和氨基酸序列,通过不同类型的第二预设模型,获取目标GPCR的位点经丙氨酸扫描突变后的加热前后活性比值,并根据加热前后活性比值在突变后的位点中确定符合第二预设条件的第二突变位点。
本步骤中,丙氨酸扫描突变是指在不改变蛋白质三维结构的前提下,将蛋白质氨基酸序列中的各个氨基酸(即位点)用丙氨酸进行替代。本步骤中,第二预设模型包括两种不同类型的模型,例如第二预设模型包括一种基于机器学习的分类器模型和一种深度学习模型。这样的设计,通过两种不同的模型分别获取第二突变位点,从而更全面地获得符合第二预设条件的突变后位点,避免遗漏。
S221,预先根据样本数据训练构建第二预设模型。
为了提高第二预设模型的预测结果的准确性,采用的样本数据为多种已知三维结构的样本GPCR的丙氨酸扫描突变全部位点的热稳定性测试数据,例如,样本数据可以是合激活剂A2AR受体活化态的构象(agonist50-N-ethylcarboxamidoadenosine-bound humanadenosine receptor)、结合拮抗剂的A2AR受体非激活态构象(antagonist ZM-241385-bound A2AR)、结合拮抗剂的β1AR(antagonist cyanopindolol-bound turkey b1-adrenergic receptor)受体非激活态构象、结合激动剂的NTSR受体活化中间态(agonistNTS1-bound rat neurotensin receptor)及结合拮抗剂的AT1R(antagonist ZD7155-bound human angiotensinreceptor type 1)等至少5种样本GPCR的丙氨酸扫描突变全部位点的热稳定性测试数据。
其中,样本数据中的热稳定测试数据均为放射性配体受体结合分析法(radioligand binding assay)的测试结果。本实施例中,将加热前后活性变化量以加热前后活性比值的形式进行表示。具体的,获取每一样本GPCR的单个位点突变后、在加热前的活性,再获取每一样本GPCR的对应位点突变后、在加热后的活性,进而获得样本GPCR在该位点突变后的加热后的活性与加热前的活性的比值,即为该样本GPCR的位点突变后的加热前后活性比值。另外,再获取野生型(即自然界中的原始GPCR的序列进行表达纯化后的蛋白)的样本GPCR的加热后活性与加热前活性的比值,即为该野生型样本GPCR对应的加热前后活性比值;将样本GPCR的加热前后活性比值与野生型的样本GPCR的加热前后活性比值进行对比,如果前者的加热前后活性比值大于后者的加热前后活性比值的预设倍率,则表示该突变后位点使样本GPCR的热稳定性提高;否则,如果前者的加热前后活性比值小于或等于后者的加热前后活性比值的预设倍率,即该突变后位点使样本GPCR的热稳定性降低或没有提高热稳定性。也就是说,根据对热稳定性的“提高”或“降低”作用,对样本GPCR的每一位点突变后的结构进行分类,获得对应的分类标签,即“提高”或“降低”标签。进一步地,预设倍率可以是在以野生型的样本GPCR的加热前后活性比值为基准,设置倍率为100%,或者预设倍率大于100%,例如110%、120%等,从而减少实验数据的误差。为了便于理解,例如当野生型样本GPCR的加热前后活性比值为80%,当预设倍率为110%,则样本GPCR的加热前后活性比值需要大于(80%*110%=88%)时,输出的标签为“提高”;如果样本GPCR的加热前后活性比值小于或等于88%时,输出的标签为“降低”。
进一步地,提取样本GPCR的特征;其中,特征包括结构特征和氨基酸性质特征、能量特征及信息特征。具体地,针对结构特征,可以使用图网络模型(Graph Network)对样本GPCR的结构进行描述,并对每一个位点突变后的样本GPCR的输入结构计算基于该位点突变后的closeness(接近中心性)、centrality(中心性)、betweenness(中介中心性)等信息;可采用的实用工具例如市面上已知的InfoAbstractor大分子矢量化工具。针对氨基酸性质特征,包括疏水性、进化偶联得分以及溶剂化面积。针对能量特征,通过对每一个位点突变后的样本GPCR的构象进行Rosetta中能量函数的能量项的评估,包括氢键、范式作用等多个物理相关能量以及统计相关能量项;可采用的实用工具例如Rosetta软件库。针对信息特征,包括二级结构、二面角信息、残基深度、等电点等;可采用的实用工具例如市面上已知的InfoAbstractor大分子矢量化工具。
可以理解,根据样本GPCR的特征和对应的分类标签作为训练数据,继而训练构建两种不同的第二预设模型,即两种不同的模型所采用的训练数据可以相同。在一具体的实施方式中,根据样本GPCR的特征和对应的分类标签,训练构建GBDT(Gradient BoostingDecision Tree,梯度下降树)模型。其中,GBDT模型是一种基于机器学习的分类器模型,为了应对样本数据的不平衡,可以选择RandomOverSampling、SMOTE或SMOTE Tomek等数据平衡方法,从而提高构建的模型的可靠性,确保在实际应用中的输出结果的准确性。在一具体的实施方式中,根据样本GPCR的特征和对应的分类标签,训练构建深度学习模型。
经测试,上述训练数据在GBDT模型中的回复率(recall)可以达到25%以上,其中针对样本GPCR中的AT1R和A2AR的非激活态可以达到36%回复率,基本与公开的文献报道中的数据持平。上述训练数据在深度学习模型中可达到20%回复率。因此,本步骤构建的两种第二预设模型均可投入实际使用。
S222,根据训练好的基于机器学习的分类器模型,提取目标GPCR的特征;并根据特征,获取目标GPCR的位点经丙氨酸扫描突变后的加热前后活性比值,并根据加热前后活性比值在突变后的位点中确定符合第二预设条件的第二突变位点。
本步骤中,根据上述步骤S212训练好的基于机器学习的分类器模型,例如GBDT模型后,对目标GPCR的第二突变位点进行预测。具体地,在将目标GPCR输的三维结构输入模型后,提取目标GPCR的特征,特征包括结构特征和氨基酸性质特征、能量特征及信息特征;根据特征,获取目标GPCR的位点经丙氨酸扫描突变后的加热后的活性与加热前的活性的比例,即为该位点突变后对应的加热前后活性比值。需要明确的是,本步骤中的目标GPCR的三维结构如果未知,同理可按照上述步骤211进行确定三维结构。
进一步地,将目标GPCR对应的位点突变后的加热前后活性比值与野生型目标GPCR的加热前后活性比值的预设倍率进行比较;当加热前后活性比值大于预设倍率,确定目标GPCR对应的突变后位点为第二突变位点。也就是说,根据本步骤中所采用的模型,分别将目标GPCR在每一位点分别经丙氨酸扫描突变后进行加热前和加热后的活性计算,在获得该位点突变后对应的加热前后活性比值后,还可以计算获得该目标GPCR对应的野生型在加热前后活性比值,即可与野生型目标GPCR的加热前后活性比值的预设倍率进行比较,获得比较结果。如果该位点突变后对应的加热前后活性比值大于野生型目标GPCR的加热前后活性比值的预设倍率,则符合第二预设条件,即可以确定目标GPCR对应的突变后位点为第二突变位点。
S223,通过训练好的深度学习模型,根据目标GPCR的氨基酸序列,获取目标GPCR的位点经丙氨酸扫描突变后的加热前后活性比值,并根据加热前后活性比值在突变后的位点中确定符合第二预设条件的第二突变位点。
基于深度学习模型本身的特性,该模型在上述步骤训练完毕后,即可以基于目标GPCR的氨基酸序列自动获取目标GPCR的位点经丙氨酸扫描突变后的加热前后活性比值,并根据加热前后活性比值在突变后的位点中确定符合第二预设条件的第二突变位点。本步骤中的符合第二预设条件的第二突变位点的获取方法与上述步骤S222相同,于此不再赘述。
其中,上述步骤S222和步骤S223可以不分先后顺序执行;步骤S210和步骤S220可以不分先后顺序执行,于此不作限制。
S230,根据所需候选突变位点的总数,筛选获取在总数中占比M%的第一突变位点和在总数中占比N%的第二突变位点作为候选突变位点;其中,M小于N,且M+N=100。
本步骤中,在上述步骤S214确定的各个第一突变位点中,筛选获得在总数中占比M%的第一突变位点。在一具体的实施方式中,可以将所有第一突变点按照对应的变化值ΔΔG的从小到大进行排序,由于ΔΔG为负值,则获取更小的变化值ΔΔG所对应的第一突变点。或者,按照第一突变位点对应的能量项分解决定筛选的优先级。这样的方式,从而获取更有利于热稳定性的第一突变位点作为候选突变位点,滤除冗余的第一突变位点。
进一步地,在步骤S230之后,在一实施方式中,根据预设评价指标筛选第一突变位点,以在候选突变位点中选择推荐突变位点;其中,预设评价指标包括对应的位点突变后的目标GPCR的三维结构中是否存在冲突,是否生成新的氢键,及生成的新的氢键的朝向和位置是否与周围的氨基酸产生有利稳定性的相互作用。例如,如果某位点突变后的目标GPCR的三维结构中不存在冲突、和/或有生成新的氢键,及生成的新的氢键的朝向和位置与周围的氨基酸产生有利稳定性的相互作用,则这样的突变后位点为更优的第一突变位点,从而可以将该第一突变位点作为推荐突变位点。
在其他实施例中,在步骤S230之前,当自由能值下降值的变化值ΔΔG小于或等于预设能量阈值时,根据预设评价指标筛选所述第一突变位点,以在所述第一突变位点中选择第一预设数量占比的候选突变位点。也就是说,可以先根据上述预设评价指标对符合第一预设条件的第一突变位点进行筛选,然后在筛选后的第一突变位点中再筛选第一预设数量占比的第一突变位点作为候选突变位点。也就是说,在步骤S214获得符合第一预设条件的第一突变位点后,可以先人工挑选或计算机自动挑选符合预设评价指标的第一突变位点,再在挑选获得的第一突变位点中,筛选在总数中占比M%的第一突变位点作为候选突变位点。
进一步地,在步骤S222和S223中总共筛选获得在总数中占比N%的第二突变位点作为候选突变位点。其中,可以在步骤S222中根据训练好的基于机器学习的分类器模型预测的第二突变位点中筛选获得总数占比P%的第二突变位点,在步骤S223中根据训练好的深度学习模型所预测的第二突变位点中筛选获得在总数中占比Q%的第二突变位点,其中P+Q=N,P>Q。也就是说,作为候选突变位点的第二突变位点综合了不同类型的第二预设模型的预测结果,从而使预测位点更丰富全面。其中,筛选的优先级可以是第二预设模型中的优先级,于此不作限制。但需要明确的是,在采用不同类型的第二预设模型进行预测第二突变位点时,由于两种模型都是基于丙氨酸扫描突变位点,两种模型的预测结果可能有部分相同,即两种模型可能预测输出相同的第二突变位点。在一实施方式中,优先选取两种模型中预测相同的第二突变位点作为候选突变位点。
进一步地,在其他实施例中,获取历史数据,并将历史数据中的已知GPCR中具有迁移性的突变位点作为候选突变位点。也就是说,除了上述步骤中从第一突变位点和第二突变位点中筛选获取候选突变位点,还可以根据公开的文献报道中的历史数据,收集候选突变位点。可以理解,由于GPCR家族的氨基酸序列与三维结构的保守性,在以往公开的实验数据中证实能够稳定某些或某类GPCR的突变位点可能拥有迁移性,即该突变位点如果迁移到目标GPCR中也可能会具备同样稳定结构的效应。通过对实验数据广泛的收集和GPCR序列保守性的分析,总结出基于经验的具有潜在稳定性的突变位点作为候选突变位点。
从该示例可以看出,本申请的GPCR的热稳定性突变预测方法,通过第一预设模型预测出非丙氨酸突变的第一突变位点,通过两种不同的第二预设模型分别预测出丙氨酸突变的第二突变位点,并分别根据优先级从各突变位点中筛选获得不同数量占比的候选突变位点;这样的设计,可以通过不同的预设模型从丙氨酸突变和非丙氨酸突变等不同的突变角度全面且精准地获得有利于目标GPCR热稳定性的突变位点,去除冗余的突变位点,减少不必要的实验过程,从而节省时间,提高研究效率和节约研发费用,为GPCR的高热稳定性的构象的发现和筛选进行助力,为GPCR的结构解析提供新的思路和省时省力的捷径。
进一步地,本申请一实施例还提供一种GPCR结构的筛选方法,其包括:
S310,根据GPCR的热稳定性突变预测方法筛选获得目标GPCR的候选突变位点。
可以理解,在根据上述任一实施例中的GPCR的热稳定性突变预测方法,可以根据目标GPCR的三维结构,通过第一预设模型确定目标GPCR的位点在突变前后的自由能值下降值的变化值ΔΔG,根据自由能值下降值的变化值ΔΔG,在突变后的位点中确定符合第一预设条件的第一突变位点;及分别根据目标GPCR的特征和氨基酸序列,通过不同类型的第二预设模型,获取目标GPCR的位点经丙氨酸扫描突变后的加热前后活性比值,并根据加热前后活性比值在突变后的位点中确定符合第二预设条件的第二突变位点。最后,根据所需候选突变位点的总数,筛选获取在总数中占比M%的第一突变位点和在总数中占比N%的第二突变位点作为候选突变位点;其中,M小于N,且M+N=100。另外,还可以获取历史数据,并将历史数据中的已知GPCR中具有迁移性的突变位点作为候选突变位点。
S320,根据候选突变位点确定目标GPCR的突变后结构。
可以理解,在上述步骤获得的候选突变位点中,包括基于丙氨酸突变和非丙氨酸突变后的突变位点。可以在候选突变位点中,任意选择一个目标GPCR中的位点进行相应突变,从而获得目标GPCR的突变后结构,即目标GPCR的突变体。
从该示例可知,根据上述候选突变位点对目标GPCR进行突变,可以获得具有热稳定性的GPCR突变体,相对于根据目前耗时耗力地进行系统性的ALA扫描GPCR突变和定向蛋白进化,本申请的筛选方法可以更快速地获得具有稳定性的目标GPCR的突变体,提高研发效率,节省研发费用。
与前述应用功能实现方法实施例相对应,本申请还提供了一种GPCR的热稳定性突变预测装置、GPCR结构的筛选装置、电子设备及相应的实施例。
图3是本申请实施例示出的GPCR的热稳定性突变预测装置的结构示意图。
参见图3,本申请实施例提供一种GPCR的热稳定性突变预测装置,其包括第一位点确定模块310、第二位点确定模块320及筛选模块330,其中:
第一位点确定模块310用于根据目标GPCR的三维结构,获取目标GPCR的位点在突变前后的自由能值下降值的变化值ΔΔG,并根据自由能值下降值的变化值ΔΔG,在突变后的位点中确定符合第一预设条件的第一突变位点。
第二位点确定模块320用于根据目标GPCR的特征和/或目标GPCR的氨基酸序列,分别获取目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化量,并根据加热前后活性变化量,在突变后的位点中确定符合第二预设条件的第二突变位点。
筛选模块330用于筛选第一预设数量占比的第一突变位点和第二预设数量占比的第二突变位点作为候选突变位点。
进一步地,参见图4,本申请实施例提供一种GPCR的热稳定性突变预测装置,其包括三维结构获取模块340、第一位点确定模块310、第二位点确定模块320、筛选模块330及第三位点确定模块350,其中:
三维结构获取模块340用于当目标GPCR的三维结构未知时,根据目标GPCR的氨基酸序列,通过同源建模获取目标GPCR的候选三维结构;在候选三维结构中,选取置信度最高的候选三维结构作为目标GPCR的三维结构。
第一位点确定模块310用于根据目标GPCR的三维结构,预测对应的跨膜区域;根据跨膜区域构建的隐式溶剂模型,分别计算目标GPCR的各位点在突变前后的能量最小构象对应的自由能值下降值的变化值ΔΔG。及第一位点确定模块310用于将自由能值下降值的变化值ΔΔG与预设能量阈值进行比较;当自由能值下降值的变化值ΔΔG与预设能量阈值小于或等于预设能量阈值时,确定目标GPCR对应的突变后位点为第一突变位点。
第二位点确定模块320用于根据训练好的基于机器学习的分类器模型,提取目标GPCR的特征,特征包括结构特征和氨基酸性质特征、能量特征及信息特征;根据特征,获取目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化量。和/或,第二位点确定模块320用于根据目标GPCR的氨基酸序列,通过训练好的深度学习模型,获取目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化量。第二位点确定模块320还用于将加热前后活性变化量与野生型目标GPCR的加热前后活性变化量的预设倍率进行比较;当目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化值大于野生型目标GPCR的加热前后活性变化量的预设倍率时,确定目标GPCR对应的突变后位点为第二突变位点。
筛选模块330用于根据所需候选突变位点的总数,筛选获取在总数中占比M%的第一突变位点和在总数中占比N%的第二突变位点作为候选突变位点;其中,M小于N,且M+N=100。筛选模块330用于在根据训练好的基于机器学习的分类器模型预测的第二突变位点中筛选获得总数占比P%的第二突变位点,在根据训练好的深度学习模型所预测的第二突变位点中筛选获得在总数中占比Q%的第二突变位点,其中P+Q=N,P>Q。
第三位点确定模块350用于获取历史数据,并将历史数据中的已知GPCR中具有迁移性的突变位点作为候选突变位点。
综上,本申请的GPCR的热稳定性突变预测装置,通过第一预设模型预测出非丙氨酸突变的第一突变位点,通过两种不同的第二预设模型分别预测出丙氨酸突变的第二突变位点,并分别根据优先级从各突变位点中筛选获得不同数量占比的候选突变位点;这样的设计,可以全面且精准地获得有利于目标GPCR热稳定性的突变位点,去除冗余的突变位点,减少不必要的实验过程,从而节省时间,提高研究效率和节约研发费用,为GPCR的高热稳定性的构象的发现和筛选进行助力,为GPCR的结构解析提供新的思路和省时省力的捷径。
图5是本申请实施例示出的GPCR结构的筛选装置的结构示意图。
参见图5,本申请一实施例还提供一种GPCR结构的筛选装置,其包括:
筛选模块510,用于根据上述GPCR的热稳定性突变预测装置筛选获得目标GPCR的候选突变位点。
结构确定模块520,用于根据所述候选突变位点确定所述目标GPCR的突变后结构。
具体地,本实施例中,筛选模块510用于在利用GPCR的热稳定性突变预测装置中的第一位点确定模块310确定的目标GPCR对应的突变后的第一突变位点和第二位点确定模块320确定的目标GPCR对应的突变后的第二突变位点中,筛选第一预设数量占比的第一突变位点和第二预设数量占比的第二突变位点作为候选突变位点。
结构确定模块520用于根据筛选模块510确定的候选突变位点中,筛选其中具有对应的候选突变位点的目标GPCR的突变后结构。
本申请的GPCR结构的筛选装置,可以更快速便捷地获取具有热稳定性的目标GPCR的突变后结构,提高研发效率,节省时间和研发成本。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
图6是本申请实施例示出的电子设备的结构示意图。
参见图6,电子设备1000包括存储器1010和处理器1020。
处理器1020可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器1010可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM)和永久存储装置。其中,ROM可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1010可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(例如DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1010可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等)、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器1010上存储有可执行代码,当可执行代码被处理器1020处理时,可以使处理器1020执行上文述及的方法中的部分或全部。
此外,根据本申请的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。
或者,本申请还可以实施为一种计算机可读存储介质(或非暂时性机器可读存储介质或机器可读存储介质),其上存储有可执行代码(或计算机程序或计算机指令代码),当可执行代码(或计算机程序或计算机指令代码)被电子设备(或服务器等)的处理器执行时,使处理器执行根据本申请的上述方法的各个步骤的部分或全部。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。
Claims (14)
1.一种GPCR的热稳定性突变预测方法,其特征在于,包括:
根据目标GPCR的三维结构,获取所述目标GPCR的位点在突变前后的自由能值下降值的变化值ΔΔG,并根据所述自由能值下降值的变化值ΔΔG,在突变后的所述位点中确定符合第一预设条件的第一突变位点;
根据所述目标GPCR的特征和/或所述目标GPCR的氨基酸序列,分别获取所述目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化量,并根据所述加热前后活性变化量,在突变后的所述位点中确定符合第二预设条件的第二突变位点;
筛选第一预设数量占比的第一突变位点和第二预设数量占比的第二突变位点作为候选突变位点。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述目标GPCR的三维结构未知时,根据所述目标GPCR的氨基酸序列,通过同源建模获取所述目标GPCR的候选三维结构;
在所述候选三维结构中,选取置信度最高的候选三维结构作为所述目标GPCR的三维结构。
3.根据权利要求1所述的方法,其特征在于,所述根据目标GPCR的三维结构,获取所述目标GPCR的位点在突变前后的自由能值下降值的变化值ΔΔG,包括:
根据所述目标GPCR的三维结构,预测对应的跨膜区域;
根据所述跨膜区域构建的隐式溶剂模型,分别计算所述目标GPCR的各位点在突变前后的能量最小构象对应的自由能值下降值的变化值ΔΔG。
4.根据权利要求1所述的方法,其特征在于,所述根据所述自由能值下降值的变化值ΔΔG,在突变后的所述位点中确定符合第一预设条件的第一突变位点,包括:
将所述自由能值下降值的变化值ΔΔG与预设能量阈值进行比较;
当所述自由能值下降值的变化值ΔΔG小于或等于所述预设能量阈值时,确定所述目标GPCR对应的突变后位点为所述第一突变位点。
5.根据权利要求1所述的方法,其特征在于:
所述筛选第一预设数量占比的第一突变位点和第二预设数量占比的第二突变位点作为候选突变位点之后,还包括:
根据预设评价指标筛选所述第一突变位点,以在所述候选突变位点中选择推荐突变位点;或
所述筛选第一预设数量占比的第一突变位点和第二预设数量占比的第二突变位点作为候选突变位点之前,还包括:
根据预设评价指标筛选所述第一突变位点,以在所述第一突变位点中选择第一预设数量占比的候选突变位点;
其中,所述预设评价指标包括突变后的所述目标GPCR的三维结构中是否存在冲突,是否生成新的氢键,及生成的所述新的氢键的朝向和位置是否与周围的氨基酸产生有利稳定性的相互作用。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标GPCR的特征和/或所述目标GPCR的氨基酸序列,分别获取所述目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化量,包括:
根据训练好的基于机器学习的分类器模型,提取所述目标GPCR的特征,所述特征包括结构特征和氨基酸性质特征、能量特征及信息特征;
根据所述特征,获取所述目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化量;和/或
通过训练好的深度学习模型,根据所述目标GPCR的氨基酸序列,获取所述目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化量。
7.根据权利要求1所述的方法,其特征在于,所述根据所述加热前后活性变化量,在突变后的所述位点中确定符合第二预设条件的第二突变位点,包括:
将所述目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化量与野生型目标GPCR的加热前后活性变化量的预设倍率进行比较;
当所述目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化量大于所述野生型目标GPCR的加热前后活性变化量的预设倍率时,确定所述目标GPCR对应的突变后位点为所述第二突变位点。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述筛选第一预设数量占比的第一突变位点和第二预设数量占比的第二突变位点作为候选突变位点,包括:
根据所需候选突变位点的总数,筛选获取在所述总数中占比M%的第一突变位点和在所述总数中占比N%的第二突变位点作为候选突变位点;其中,M小于N,且M+N=100。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取历史数据,并将所述历史数据中的已知GPCR中具有迁移性的突变位点作为所述目标GPCR的候选突变位点。
10.一种GPCR结构的筛选方法,其特征在于,包括:
根据权利要求1至9中任一GPCR的热稳定性突变预测方法筛选获得目标GPCR的候选突变位点;
根据所述候选突变位点确定所述目标GPCR的突变后结构。
11.一种GPCR的热稳定性突变预测装置,其特征在于:
第一位点确定模块,用于根据目标GPCR的三维结构,获取所述目标GPCR的位点在突变前后的自由能值下降值的变化值ΔΔG,并根据所述自由能值下降值的变化值ΔΔG,在突变后的所述位点中确定符合第一预设条件的第一突变位点;
第二位点确定模块,用于根据所述目标GPCR的特征和/或所述目标GPCR的氨基酸序列,分别获取所述目标GPCR的位点经丙氨酸扫描突变后的加热前后活性变化量,并根据所述加热前后活性变化量,在突变后的所述位点中确定符合第二预设条件的第二突变位点;
筛选模块,用于筛选第一预设数量占比的第一突变位点和第二预设数量占比的第二突变位点作为候选突变位点。
12.一种GPCR结构的筛选装置,其特征在于,包括:
筛选模块,用于根据权利要求11所述的GPCR的热稳定性突变预测装置筛选获得目标GPCR的候选突变位点;
结构确定模块,用于根据所述候选突变位点确定所述目标GPCR的突变后结构。
13.一种电子设备,其特征在于,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-10中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210010296.XA CN114038498B (zh) | 2022-01-06 | 2022-01-06 | Gpcr的热稳定性突变预测方法、结构筛选方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210010296.XA CN114038498B (zh) | 2022-01-06 | 2022-01-06 | Gpcr的热稳定性突变预测方法、结构筛选方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114038498A true CN114038498A (zh) | 2022-02-11 |
CN114038498B CN114038498B (zh) | 2022-03-18 |
Family
ID=80147288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210010296.XA Active CN114038498B (zh) | 2022-01-06 | 2022-01-06 | Gpcr的热稳定性突变预测方法、结构筛选方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114038498B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114913914A (zh) * | 2022-05-19 | 2022-08-16 | 北京晶泰科技有限公司 | Gpcr的热稳定性突变预测模型的构建方法、预测方法及装置 |
CN116486903A (zh) * | 2023-04-17 | 2023-07-25 | 深圳新锐基因科技有限公司 | 基于同源蛋白序列进化方向结合自由能变提高蛋白稳定性的方法及装置 |
CN116486906A (zh) * | 2023-04-17 | 2023-07-25 | 深圳新锐基因科技有限公司 | 基于氨基酸残基突变提高蛋白质分子稳定性的方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0611451D0 (en) * | 2006-06-09 | 2006-07-19 | Pasteur Institut Korea | Cellular antagonist |
CN103641908A (zh) * | 2007-03-22 | 2014-03-19 | 赫普泰雅治疗有限公司 | 突变的g蛋白偶联受体及其选择方法 |
-
2022
- 2022-01-06 CN CN202210010296.XA patent/CN114038498B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0611451D0 (en) * | 2006-06-09 | 2006-07-19 | Pasteur Institut Korea | Cellular antagonist |
CN103641908A (zh) * | 2007-03-22 | 2014-03-19 | 赫普泰雅治疗有限公司 | 突变的g蛋白偶联受体及其选择方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114913914A (zh) * | 2022-05-19 | 2022-08-16 | 北京晶泰科技有限公司 | Gpcr的热稳定性突变预测模型的构建方法、预测方法及装置 |
CN116486903A (zh) * | 2023-04-17 | 2023-07-25 | 深圳新锐基因科技有限公司 | 基于同源蛋白序列进化方向结合自由能变提高蛋白稳定性的方法及装置 |
CN116486906A (zh) * | 2023-04-17 | 2023-07-25 | 深圳新锐基因科技有限公司 | 基于氨基酸残基突变提高蛋白质分子稳定性的方法及装置 |
CN116486903B (zh) * | 2023-04-17 | 2023-12-29 | 深圳新锐基因科技有限公司 | 基于同源蛋白序列进化方向结合自由能变提高蛋白稳定性的方法及装置 |
CN116486906B (zh) * | 2023-04-17 | 2024-03-19 | 深圳新锐基因科技有限公司 | 基于氨基酸残基突变提高蛋白质分子稳定性的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114038498B (zh) | 2022-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114038498B (zh) | Gpcr的热稳定性突变预测方法、结构筛选方法及其装置 | |
Aggarwal et al. | DeepPocket: ligand binding site detection and segmentation using 3D convolutional neural networks | |
Vanhaelen et al. | Design of efficient computational workflows for in silico drug repurposing | |
US7702467B2 (en) | Molecular property modeling using ranking | |
Chacon et al. | Low-resolution structures of proteins in solution retrieved from X-ray scattering with a genetic algorithm | |
Feng et al. | A max-flow-based approach to the identification of protein complexes using protein interaction and microarray data | |
KR102496208B1 (ko) | 신약 후보 물질 발굴 시스템 및 신약 후보 물질 발굴 플랫폼을 구현한 컴퓨터 프로그램 | |
He et al. | Evolutionary graph clustering for protein complex identification | |
Emami et al. | Computational predictive approaches for interaction and structure of aptamers | |
US20060161407A1 (en) | Modeling biological effects of molecules using molecular property models | |
Linial et al. | Methodologies for target selection in structural genomics | |
Husic et al. | A minimum variance clustering approach produces robust and interpretable coarse-grained models | |
Moler et al. | Integrating naive Bayes models and external knowledge to examine copper and iron homeostasis in S. cerevisiae | |
Zhao et al. | Discriminative learning for protein conformation sampling | |
Singh et al. | Application of artificial intelligence in drug design: A review | |
Taraszka et al. | Leveraging pleiotropy for joint analysis of genome-wide association studies with per trait interpretations | |
CN114446393B (zh) | 用于预测肝癌特征类型的方法、电子设备和计算机存储介质 | |
Thiel et al. | Sampling globally and locally correct rna 3d structures using ernwin, spqr and experimental saxs data | |
Jing et al. | Protein inter-residue contacts prediction: methods, performances and applications | |
Mao et al. | Identification of residue pairing in interacting β-strands from a predicted residue contact map | |
KR20160064291A (ko) | 약물 가상 탐색 방법과 집중 탐색 라이브러리 구축 방법 및 이를 위한 시스템 | |
Rahmani et al. | An extension of Wang’s protein design model using Blosum62 substitution matrix | |
Jary | Improving the Protein-Protein Interaction Prediction Engine (PIPE) with Protein Physicochemical Properties | |
Harihar et al. | Importance of Inter-residue Contacts for Understanding Protein Folding and Unfolding Rates, Remote Homology, and Drug Design | |
Dariusz et al. | Ab Initio server prototype for prediction of phosphorylation sites in proteins |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Thermal stability mutation prediction method, structural screening method and device for GPCR Effective date of registration: 20231019 Granted publication date: 20220318 Pledgee: Beijing Zhongguancun bank Limited by Share Ltd. Pledgor: Beijing Jingtai Technology Co.,Ltd. Registration number: Y2023990000512 |