CN114333985B - 环肽设计方法、复合物结构的生成方法、装置及电子设备 - Google Patents
环肽设计方法、复合物结构的生成方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114333985B CN114333985B CN202210203337.7A CN202210203337A CN114333985B CN 114333985 B CN114333985 B CN 114333985B CN 202210203337 A CN202210203337 A CN 202210203337A CN 114333985 B CN114333985 B CN 114333985B
- Authority
- CN
- China
- Prior art keywords
- cyclic peptide
- conformation
- target protein
- optimized
- amino acid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Chemical & Material Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Biochemistry (AREA)
- Molecular Biology (AREA)
- Library & Information Science (AREA)
- Crystallography & Structural Chemistry (AREA)
- Peptides Or Proteins (AREA)
Abstract
本申请涉及一种环肽设计方法、复合物结构的生成方法、装置及电子设备。该设计方法包括:获取包含热点残基和靶点蛋白的初始复合物结构;沿初始复合物结构的热点残基的N端和/或C端新增氨基酸,获得长度不超过预设长度阈值的线性肽,并根据对应的线性肽中的热点残基的初始骨架二面角进行环肽构象搜索,筛选获得符合预设环肽条件的候选环肽构象;分别对各候选环肽构象及序列进行优化,获得对应的优化环肽构象及优化环肽构象对应的环肽序列;在优化环肽构象中进行筛选,确定Pnear值大于预设阈值的目标环肽序列。本申请提供的方案,从头设计出能够靶向结合的环肽分子,增加了环肽构象及环肽序列的多样性,为环肽的成药性提供更多可靠的选择。
Description
技术领域
本申请涉及环肽设计技术领域,尤其涉及一种环肽设计方法、复合物结构的生成方法、装置及电子设备。
背景技术
多肽是介于小分子与蛋白质之间的化合物,多肽也有多种结构,包括链状多肽、环肽(即环状结构的多肽)等。由于链状多肽过于灵活,可以随意扭曲和翻转,使得它们过于松弛而不能很好地成药。研发人员通过引入环状结构,约束多肽的活动,增加多肽稳定性,使其表现出更优良药理活性与稳定性,让更多的多肽做成药物成为可能。
相关技术中的环肽设计方案中,过分依赖来源于已知作用于靶点的蛋白质二级结构中的热点残基片段,以此作为环肽设计的出发结构会约束构象的搜索空间;另外仅考虑20种天然氨基酸有关的构象,限制了可形成环肽的氨基酸序列的范围。
因此,如何从头设计一种环肽设计方案,不局限于单一类型的出发结构,更广泛地获得包含天然氨基酸或非标准氨基酸的环肽序列,是目前需要解决的问题。
发明内容
为解决或部分解决相关技术中存在的问题,本申请提供一种环肽设计方法、复合物结构的生成方法、装置及电子设备,从头设计出能够靶向结合的环肽分子,增加了环肽构象及环肽序列的多样性,为环肽的成药性提供更多的选择。
本申请第一方面提供一种环肽设计方法,其包括:
获取包含热点残基和靶点蛋白的初始复合物结构;其中,所述热点残基分别选自作用于所述靶点蛋白的天然氨基酸或非标准氨基酸、对接所述靶点蛋白特定表位区域的三肽、或根据作用于所述靶点蛋白的小分子结构形成的非标准氨基酸;
沿所述初始复合物结构的热点残基的N端和/或C端新增氨基酸,获得长度不超过预设长度阈值的线性肽,并根据对应的所述线性肽中的热点残基的初始骨架二面角进行环肽构象搜索,筛选获得符合预设环肽条件的候选环肽构象;
分别对各所述候选环肽构象及序列进行优化,获得对应的优化环肽构象及所述优化环肽构象对应的环肽序列;
在优化环肽构象中进行筛选,确定Pnear值大于预设阈值的目标环肽序列。
本申请第二方面提供一种热点残基和靶点蛋白复合物结构的生成方法,其包括:
将丙氨酸的原子坐标调整至所述靶点蛋白的特定表位区域的第二预设范围内后,在所述丙氨酸的两端分别延伸一个甘氨酸,形成初始三肽结构;
将所述初始三肽结构中的丙氨酸分别突变为天然氨基酸或D型构象的天然氨基酸,获得对应的突变三肽结构;
根据第一预设打分函数对所述突变三肽结构的骨架二面角随机赋值,获得对应的打分值并筛选获得候选三肽构象;
所述候选三肽构象在所述靶点蛋白的特定表位区域中的局部区域进行分子对接,获得候选三肽与靶点蛋白的结合构象,并筛选获得结合自由能最低的优选三肽与靶点蛋白的结合构象。
本申请第三方面提供一种环肽设计装置,其包括:
初始复合物结构获取模块,用于获取包含热点残基和靶点蛋白的初始复合物结构;其中,所述热点残基分别选自作用于所述靶点蛋白的天然氨基酸或非标准氨基酸、对接所述靶点蛋白特定表位区域的三肽、或根据作用于所述靶点蛋白的小分子结构形成的非标准氨基酸;
成环模块,用于沿所述初始复合物结构的热点残基的N端和/或C端新增氨基酸,获得长度不超过预设长度阈值的线性肽,并根据对应的所述线性肽中的热点残基的初始骨架二面角进行环肽构象搜索,筛选获得符合预设环肽条件的候选环肽构象;
优化模块,用于分别对各所述候选环肽构象及序列进行优化,获得对应的优化环肽构象及所述优化环肽构象对应的环肽序列;
目标序列筛选模块,用于在优化环肽构象中进行筛选,确定Pnear值大于预设阈值的目标环肽序列。
本申请第四方面提供一种热点残基和靶点蛋白复合物结构的生成装置,其包括:
初始结构生成模块,用于将丙氨酸的原子坐标调整至所述靶点蛋白的特定表位区域的第二预设范围内后,在所述丙氨酸的两端分别延伸一个甘氨酸,形成初始三肽结构;
突变模块,用于将所述初始三肽结构中的丙氨酸分别突变为天然氨基酸及对应的D型构象,获得对应的突变三肽结构;
三肽构象筛选模块,用于根据第一预设打分函数对所述突变三肽结构的骨架二面角随机赋值,获得对应的打分值并筛选获得候选三肽构象;
结合构象筛选模块,用于所述候选三肽构象在所述靶点蛋白的特定表位区域中的局部区域进行分子对接,获得候选三肽与靶点蛋白的结合构象,并筛选获得结合自由能最低的优选三肽与靶点蛋白的结合构象。
本申请第五方面提供一种电子设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
本申请第六方面提供一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
本申请提供的技术方案可以包括以下有益效果:
本申请的技术方案,基于不同类型的热点残基获得可作用于靶点蛋白的初始复合物结构,为最终的环肽序列扩展不同的类型;再将初始复合物结构生成一定长度的线性肽后,通过限制热点残基所在的骨架二面角的采样范围,获得符合预设环肽条件的候选环肽构象,从而可以偏向于对能量低的构象进行重要性采样;接着通过对候选环肽构象及序列进行优化,在优化环肽构象对应的环肽序列中筛选出Pnear值大于预设阈值的目标环肽序列,从而可以获得最具有实际成药性的环肽序列进行人工实验,从而节省实验成本,提高研发效率。这样的设计,从头设计出能够靶向结合的环肽分子,增加了环肽构象及环肽序列的多样性,为环肽的成药性提供更多可靠的选择。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
通过结合附图对本申请示例性实施方式进行更详细地描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
图1是本申请实施例示出的环肽设计方法的流程示意图;
图2是本申请实施例示出的其中一种类型的热点残基和靶点蛋白复合物结构的生成方法的流程示意图;
图3是本申请实施例示出的其中一种类型的热点残基和靶点蛋白复合物结构的生成方法的流程示意图;
图4是本申请实施例示出的其中一种类型的热点残基和靶点蛋白复合物结构的生成方法的流程示意图;
图5是本申请实施例示出的环肽设计装置的结构示意图;
图6是本申请实施例示出的环肽设计装置的另一结构示意图;
图7是本申请实施例示出的热点残基和靶点蛋白复合物结构的生成装置的结构示意图;
图8是本申请实施例示出的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式,然而应该理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
相关技术中,环肽设计方案比较单一,设计出的环肽序列受到限制。
针对上述问题,本申请实施例提供一种环肽设计方法,从头设计出能够靶向结合的环肽分子,增加了环肽构象及环肽序列的多样性,为环肽的成药性提供更多的选择。
以下结合附图详细描述本申请实施例的技术方案。
图1是本申请实施例示出的环肽设计方法的流程示意图。
参见图1,本申请一实施例提供的环肽设计方法,包括:
S110,获取包含热点残基和靶点蛋白的初始复合物结构;其中,热点残基分别选自作用于靶点蛋白的天然氨基酸或非标准氨基酸、对接靶点蛋白特定表位区域的三肽、或根据作用于靶点蛋白的小分子结构形成的非标准氨基酸。
本步骤中,以热点残基和靶点蛋白的结合结构作为后续步骤的初始输入结构,从而在此基础上,确保后续步骤获得可以作用于靶点蛋白的环肽分子。也就是说,根据已知的各类靶点蛋白,可以针对性地设计对应的环肽分子。
进一步地,本申请的热点残基的个数可以是一个氨基酸残基,也可以是多个氨基酸残基组成的热点基序(motif)。本申请中,热点残基可以具有不同的类型,通过丰富热点残基的类型,从而可以增加环肽序列的多样性,提供更多的成药可能。其中,热点残基的类型可以包含天然氨基酸,也可以包含非标准氨基酸或二者的混合。天然氨基酸是指人体常见的20种氨基酸,非标准氨基酸则为这20种天然氨基酸以外的氨基酸。其中,对于选自作用于靶点蛋白的天然氨基酸或非标准氨基酸的热点残基,可以从已知作用于靶点蛋白的多肽或蛋白质复合物结构中获得。对于没有已知复合物结构作参考,选自对接靶点蛋白特定表位区域的三肽的热点残基,可以采用预设的初始三肽结构模拟与靶点蛋白对接后,通过突变三肽中的氨基酸,并根据对应突变后的结合自由能筛选获得。对于选自根据作用于靶点蛋白的小分子结构形成的非标准氨基酸的热点残基,可以从已知作用于靶点蛋白的小分子复合物结构中,基于α-氨基酸改造的非标准氨基酸。
本实施例中,在获得上述任一类型的热点残基与靶点蛋白结合后的三维结构后,即可以此三维结构作为初始复合物结构。初始复合结构中的热点残基的构象可以根据后续实施例中的相关方法确定,于此不作赘述。
S120,沿初始复合物结构中的热点残基的N端和/或C端新增氨基酸,获得长度不超过预设长度阈值的线性肽,并以对应的线性肽中的热点残基骨架的初始二面角开始,按照预设二面角变化规则进行环肽构象采样,筛选获得符合预设环肽条件的候选环肽构象。
为了便于理解,本步骤的具体实现方式如下:
S121,沿初始复合物结构中的热点残基的N端和/或C端新增氨基酸,获得长度不超过预设长度阈值的线性肽。
其中,热点残基可以是1~3个,连续多个热点残基可以形成热点基序。预设长度阈值可以是7~9。本步骤中,沿热点残基的N端或C端,或者N端和C端新增氨基酸,直至获得总长度为3~9个氨基酸的线性肽。通过控制线性肽的总长度,从而有利于数据遍历处理,且有利于设计出更稳定的环肽。为了避免改变初始复合物结构中的热点残基的构象,在一实施方式中,在沿热点残基的N端新增氨基酸残基时,采用倒序的FoldTree结构。可以理解,在Rosetta中,FoldTree格式的肽链的上下游关系的顺序为N端到C端,当某个氨基酸的一个二面角发生变化时,约定俗成地只有会将这个氨基酸的下游序列进行笛卡尔坐标系的换算,而这种换算所带来的变化称为FoldTree的杠杆效应。因此,本实施例在沿热点残基的N端新增氨基酸残基时采用倒序的FoldTree结构,从而避免热点残基的构象发生改变。在一实施方式中,当预先指定生成的环肽类型为二硫环肽时,分别在N端和C端的最后一位新增的氨基酸类型为D型半胱氨酸或L型半胱氨酸。这样的设计,通过在第一个和最后一个氨基酸设置为半胱氨酸,从而形成二硫键来构成二硫环肽。
S122,在获得一个或多个线性肽后,分别对各线性肽的骨架二面角进行初始化,获得初始骨架二面角。
其中,针对同一靶点蛋白,不同的线性肽的序列长度可能不同,其包含的热点残基种类不同,及其包含的非热点残基(即新增的氨基酸)种类可能不同。每一线性肽的骨架包括非热点残基所在骨架和热点残基所在骨架。对于非热点残基的骨架部分采用随机角度的二面角进行初始化,于此不作限制。
对于热点残基所在的骨架二面角则基于能量和热点残基的类型选取初始骨架二面角。其中,基于能量的考虑选取初始骨架二面角,是为了确保热点残基的骨架与周围环境基范围内的原子物理叠合,例如在直径8~10埃的覆盖范围内没有存在靶点蛋白上的氨基酸,避免热点残基的骨架与靶点蛋白的氨基酸叠合。在一实施方式中,当热点残基为天然氨基酸时,热点残基的初始骨架二面角随机选自天然氨基酸的L型构象或D型构象中对应能量升序排名前50%的区域中的任意角度。具体地,在Rosetta软件中(一套用于模拟大分子结构的综合软件。)的骨架二面角统计项 (rama_prepro)可以直接从数据库中得到的统计量,其含义为给定一种氨基酸类型时,其骨架二面角的概率分布,如果模型中二面角落于频率分布高的格点区域,则能量越低,骨架构象合理的可能性越高。当偏离这些高频率分布的区域时,骨架二面角的能量越高。因此,本实施例中,针对热点残基所在的骨架,可以在各骨架二面角对应的RamaPro能量升序排名前50%的区域进行随机选取,以将选取的角度作为初始骨架二面角。
在一实施方式中,当热点残基为非标准氨基酸时,根据非标准氨基酸的手性和预设二面角取值范围,以正态高斯概率分布的方式对骨架二面角数值进行±30度的随机采样,获得初始骨架二面角。其中,当非标准氨基酸为L型氨基酸时,预设二面角取值范围为(-60,-45)或(-135,135)。当非标准氨基酸为D型氨基酸时,预设二面角取值范围为(+60,+45)或(+135,-135)。通过设置初始骨架二面角的取值范围,使得骨架二面角处于低能量区间,确保在此区间内获得合理的角度采样。
S123,根据对应的线性肽中的热点残基的初始骨架二面角进行环肽构象搜索,筛选获得符合预设环肽条件的候选环肽构象。
通过上述步骤S122获取对应的线性肽中的热点残基的初始骨架二面角,并对非热点残基的骨架二面角随机取值后,以此线性肽末端的酰胺键或二硫键链接线性肽的两端,开始进行成环构象搜索。可以理解,根据末端氨基酸是否为半胱氨酸确定环肽类型,即确定是否为形成二硫环肽。具体的,例如可以采用Rosetta软件中的Generalized KinematicClosure算法,采集成环后的多个样本环肽构象。在一实施方式中,对各样本环肽构象的侧链构象进行序列设计,并对样本环肽构象的骨架和侧链结构进行能量最小化优化,获得优化的样本环肽构象。具体的,例如可以采用RotamerPackMover的方法对当前样本环肽的侧链构象进行序列设计,并使用PyRosetta中的MinMover对环肽骨架和侧链结构进行能量最小化优化。
进一步地,根据预设环肽条件,在各优化的样本环肽构象中筛选获得候选环肽构象。其中预设环肽条件包括以下至少一个条件:
(1)环肽骨架残基之间的N原子和O原子形成2对以上的氢键。即过滤去除氢键不足2对的环肽构象。
(2)环肽骨架的氢键不存在过度饱和。具体地,计算环肽骨架的氢键饱和度,如果存在2个以上的氢键供体,则表示过度饱和,需要过滤去除该环肽构象;如果小于或等于2个氢键供体,则表示环肽骨架的氢键不存在过度饱和,即可以保留该环肽构象。
(3)环肽构象与靶点蛋白之间的相互作用面积在预设面积阈值以内。即如果相互作用面积超过预设面积阈值,则需要过滤去除该环肽构象。一实施例中,相互作用面积的预设面积阈值为700~1200埃平方范围内。
(4)环肽构象与靶点蛋白之间的形状互补系数小于或等于0.60,即过滤去除形状互补系数大于0.60的环肽构象。
本实施例中,可以按照上述全部预设环肽条件进行筛选,获得同时满足上述全部条件的候选环肽构象。
可以理解,针对每一条线性肽,可以根据上述步骤获得对应的一个或多个候选环肽构象进入后续步骤,例如将每一条线性肽对应的最优候选环肽构象进入后续步骤。
S130,分别对各候选环肽构象及序列进行优化,获得对应的优化环肽构象及优化环肽构象对应的环肽序列。
本步骤中,通过对各候选环肽构象的序列和结构进行优化,从而获得优化环肽构象和对应的环肽序列。可选地,在一实施方式中,当热点残基为非标准氨基酸时,对非标准氨基酸的侧链原子进行标记,并对侧链原子的重原子(即氢原子以外的原子)采用空间坐标约束。这样的设计,避免非标准氨基酸构象被过度优化而变形失真。例如,可以采用软件Rosetta中的约束机制生成特定空间坐标。
进一步地,可选地,在一实施方式中,预先定义靶点蛋白的柔性区域,以在对候选环肽构象进行优化时,同步优化柔性区域内的骨架二面角和侧链构象。例如,可以在靶点蛋白的柔性区域利用软件Rosetta预先设置特定的Loop的FoldTree,即设定柔性区域成环时的上下游序列。
进一步地,本步骤中,在对各候选环肽构象进行迭代优化时,可以采用特定打分函数,以维持富含氢键的环肽骨架构象。具体的,特定打分函数可以是beta_nov16_cart打分函数,且打分函数中的骨架氢键相关的权重hbond_sr_bb、hbond_lr_bb、hbond_bb_sc设置为默认值的2~3倍,例如统一设置为2倍。
进一步地,在一实施方式中,根据预设算法和特定打分函数,对各候选环肽构象的序列和结构分别进行迭代优化,获得对应的优化环肽构象及优化环肽构象对应的环肽序列。其中,预设算法可以是软件PyRosetta的FastDesign算法。这样的设计,通过特定打分函数,允许环肽中残基的原子键角和键长进行优化,从而产生更加真实的环肽构象。
S140,在优化环肽构象中进行筛选,确定Pnear值大于预设阈值的目标环肽序列。
可以理解,从上述步骤选定的一个初始复合结构开始,依次获得多种长度和序列的线性肽,每一线性肽通过环肽构象搜索获得一个或多个候选环肽构象,每一候选环肽构象通过结构和序列优化后,获得对应的优化环肽构象及对应的环肽序列,本步骤中,在众多的优化环肽构象中进行筛选,最终筛选获得一个或多个优化环肽构象对应的序列,作为最终的目标环肽序列。
为了便于理解,本步骤的具体实现方式如下:
S141,按照预设筛选规则对优化环肽构象进行筛选,获得优选环肽构象。其中,预设筛选规则包括以下至少一个。
(1)根据每一优化环肽构象的平均能量进行升序排列,筛选获得排名前800~1000个的优化环肽构象;根据800~1000个的优化环肽构象与靶点蛋白对应的结合自由能进行升序排列,筛选获得排名前150~200个的优化环肽构象。具体地,例如根据相关软件计算每一优化环肽构象的平均能量(PepScore_normalized),并通过排序筛选获得排名前1000个的优化环肽构象。进一步在这1000个构象中,根据相关软件计算对应的结合自由能(dG_cross)并进行升序排序后,筛选获得其中排名前150个优化环肽构象。可以理解,结合自由能越小则表示构象越稳定,则优先筛选这些排名更靠前的优化环肽构象。
(2)根据各优化环肽构象与靶点蛋白的结合自由能进行升序排列,筛选获得排名前800~1000个优化环肽构象;分别获取800~1000个优化环肽构象与靶点蛋白对应的相互作用面积,保留大于预设面积阈值的优化环肽构象;在保留的优化环肽构象中,根据每一优化环肽构象的平均能量进行升序排列,筛选获得排名前150~200个的优化环肽构象。具体地,例如,根据相关软件计算每一优化环肽构象对应的结合自由能并进行升序排序后,筛选排名前1000个的优化环肽构象。再保留相互作用面积大于900埃平方的优化环肽构象,反之则过滤去除。最后根据各保留的优化环肽构象的平均能量进行降序排列后,筛选获得其中的排名前150个优化环肽构象。
(3)根据各优化环肽构象内的骨架氢键数量,保留大于或等于预设个数的优化环肽构象;在保留的优化环肽构象中,分别获取各优化环肽构象分别与靶点蛋白对应的相互作用面积,保留大于预设面积阈值的优化环肽构象;在保留的优化环肽构象中,根据各优化环肽构象与靶点蛋白的结合自由能进行升序排列,筛选获得排名前150~200个的优化环肽构象。具体地,例如,保留骨架氢键数量(BacboneHbondNums)大于或等于4个的优化环肽构象,反之则过滤去除。再保留相互作用面积大于900埃平方的优化环肽构象,反之则过滤去除。最后在保留的优化环肽构象中,根据相关软件计算对应的结合自由能并进行升序排序后,筛选获得其中的排名前150个优化环肽构象。
进一步地,在一实施方式中,根据选定的一个或多个预设筛选规则,将根据每一条预设筛选规则所获得的优化环肽构象进行交集处理,选择交集内的优化环肽构象作为优选环肽构象。需要明确的是,当同时包含上述多条预设筛选规则时,每条规则分别独立执行,互不干扰;在每条规则滤除冗余的优化环肽构象后,最终交集筛选出优选环肽构象。
S142,分别根据每一优选环肽构象的环肽序列的折叠自由能进行构象模拟,计算每一环肽序列模拟折叠为目标环肽构象对应的Pnera值。
可以理解,上述步骤S141筛选获得的优选环肽构象分别具有对应的环肽序列。本步骤中,可以采用软件Rosetta中的simple_cycpep_predict应用对每一条环肽序列分别模拟折叠为不同的构象并预测各构象对应的折叠自由能,例如一条环肽序列可以模拟折叠出十万个构象。通过将各构象按照对应的折叠自由能进行升序排列,筛选出折叠自由能最小的构象作为该环肽序列的目标环肽构象,并计算对应的Pnera值。
通过计算Pnera值,则可以直观分析该环肽序列是否能折叠成目标结构,即可以判断折叠出的目标环肽构象是否接近目标结构。可以理解,目标结构是指在结合靶标蛋白的结构(结合态)和不结合靶标蛋白的结构(游离态)保持一致。如果该条环肽序列的结合态和游离态的结构一致,则表示该环肽序列可以应用于与靶标蛋白直接结合,不需要克服额外的构象变化能。其中,Pnera可以根据下述公式计算获得。
其中,r.m.s.d.为环肽的游离态和结合肽的构象均方根偏差;λ为rmsd的平衡常数,一般设置为1.5;E i 为环肽序列的模拟折叠构象的Rosetta能量值;k B 为玻尔兹曼常数;T为温度,一般设置为0.8或0.5;exp为指数函数。
其中,Pnear的值范围为0.0~1.0,代表输入的环肽序列折叠为目标结构(或能找到与目标结构长得比较相似的结构)的概率,是一种玻尔兹曼加权的概率。当Pnear为0时,代表模拟折叠轨迹过程中的低能量构象与目标结构的差异较大;当Pnear为1时,代表模拟折叠轨迹过程中的低能量构象与目标结构的差异较小。
S143,筛选Pnera值大于预设阈值的环肽序列作为目标环肽序列。
可以理解,Pnear越大,即数值越趋近1,则表示该环肽序列模拟的目标环肽构象与目标结构的差异较小。其中,预设阈值可以是0.9。当某一环肽序列对应的Pnear大于0.9时,则可以确定该环肽序列可以作为目标环肽序列;否则,该环肽序列不可以作为目标环肽序列,可以舍弃。
也就是说,在步骤S130获得的各优化环肽构象对应的环肽序列中,通过本步骤筛选,最终筛选出一条或多条可以作为目标环肽序列的序列。
从该示例可知,本申请的环肽设计方法,基于不同类型的热点残基获得可作用于靶点蛋白的初始复合物结构,为最终的环肽序列扩展不同的类型;再将初始复合物结构生成一定长度的线性肽后,通过限制热点残基所在的骨架二面角的采样范围,获得符合预设环肽条件的候选环肽构象,从而可以偏向于对能量低的构象进行重要性采样;接着通过对候选环肽构象及序列进行优化,在优化环肽构象对应的环肽序列中筛选出Pnear值大于预设阈值的目标环肽序列,从而可以获得最具有实际成药性的环肽序列进行人工实验,从而节省实验成本,提高研发效率。这样的设计,从头设计出能够靶向结合的环肽分子,增加了环肽构象及环肽序列的多样性,为环肽的成药性提供更多的选择。
综上,本申请的环肽设计方法,供了一整套完善的环肽设计的流程方案,可针对具有靶点复合物结构信息以及不具有复合物结构信息的案例进行环肽分子设计。本方法对含有非标准氨基酸环肽的设计提供了多种优化措施,扩宽了计算机辅助设计环肽的适用范围。本发明对含有文献公布的设计流程进行了优化,对热点残基的边缘构象进行了优化,增加了环肽构象的多样性。
图2是本申请实施例示出的其中一种类型的热点残基和靶点蛋白复合物结构的生成方法的流程示意图。本实施例主要介绍热点残基选自作用于靶点蛋白的天然氨基酸或非标准氨基酸的生成方法。
参见图2,本实施例中的热点残基和靶点蛋白复合物结构的生成方法,包括:
S210,在已知作用于靶点蛋白的蛋白质中,获取与靶点蛋白相互作用界面的第一预设范围内的单个残基对结合自由能的贡献值。
针对已知的靶点蛋白,可以在已有的蛋白质-靶点蛋白结合的复合物晶体结构中的相互作用界面中的第一预设范围内,确定该范围内的氨基酸残基。这些氨基酸残基可以是天然氨基酸或非标准氨基酸,具体种类根据已知结构中的实际情况确定。
本实施例中,采用相互作用界面的结合自由能分解的方法,通过相关软件进行计算,例如采用Rosetta软件计算获得每个残基与靶点蛋白的结合自由能,即可以确定每个残基在相互作用界面中在总的结合自由能中的贡献值。
进一步地,在一实施方式中,第一预设范围可以是以相互作用界面的中心向四周辐射,直径为8埃~10埃的范围。其中,为了便于准确识别相互作用界面中的氨基酸残基,在一实施方式中,将-1.0REU的能量阈值作为截断阈值,选取贡献值小于能量阈值的氨基酸残基。
本实施例中,热点残基或热点基序的氨基酸不局限于天然氨基酸,还可以是非标准氨基酸,从而丰富了可成药的环肽序列的氨基酸种类。
S220,根据各贡献值的数值大小,筛选获取贡献值最大的1~3个连续残基。
可以理解,结合自由能的数值为负值,当数值越小,则表示蛋白质与靶点蛋白的结合越稳定。其中,单个氨基酸残基的贡献值的数值越小,则表示该氨基酸残基对结合自由能的贡献程度越大。因此,通过对第一预设范围内中的每个氨基酸残基按照对应的贡献值进行升序排列,可以筛选出贡献值最大的氨基酸残基作为热点残基。其中,根据贡献值排序,可以筛选获得其中的贡献值最大的一个或多个氨基酸残基作为热点残基。例如将贡献值最大的1个氨基酸残基作为热点残基,或者将贡献值最大的连续2个或3个氨基酸残基组成热点基序。
S230,获取热点残基或热点基序与靶点蛋白的结合构象。
在确定热点残基或热点基序后,即可在蛋白质-靶点蛋白结合的复合物晶体结构中,剥离获得热点残基或热点基序与靶点蛋白的结合构象。
优选地,可以采用相关软件例如Rosetta Relax应用软件,采用默认参数(例如软件中使用的能量函数类型,relax的约束类型等)对仅包含热点残基和靶点蛋白的结合构象进行原子坐标优化,使结构更加合理,从而获得优化后的结合构象中的各原子的三维坐标,优化后的结合构象即可作为初始复合物结构。
图3是本申请实施例示出的其中一种类型的热点残基和靶点蛋白复合物结构的生成流程示意图。本实施例主要介绍热点残基选自对接靶点蛋白特定表位区域的三肽的生成方法。本实施例中,针对没有已知物与靶点蛋白结合复合物作为参考的情形下,利用初始三肽结构构建出可以与靶点蛋白相互作用的三肽结构作为热点残基或热点基序。
参见图3,本实施例中的热点残基和靶点蛋白复合物结构的生成方法,包括:
S310,将丙氨酸的原子坐标调整至靶点蛋白的特定表位区域的第二预设范围内后,在丙氨酸的两端分别延伸一个甘氨酸,形成初始三肽结构。
本实施例中,由于丙氨酸只有一个甲基为侧链,能够发生的相互作用比较局限,因此将一个丙氨酸的各原子坐标通过平移或旋转的方式,调整至靶点蛋白的特定表位区域。其中,特定表位区域是指与靶点功能有关的区域,可以通过实验鉴定或人为指定。优选地,将丙氨酸的各原子坐标调整至特定表位区域中的第二预设范围内,从而更精准地确定与靶点蛋白的相互作用界面。在一实施方式中,第二预设范围可以是以特定表位区域的中心向四周辐射,直径为8埃~10埃的范围。
在确定丙氨酸的原子坐标后,分别沿丙氨酸的两端新增一个甘氨酸,从而组成“甘氨酸-丙氨酸-甘氨酸”的初始三肽结构。可以理解,由于甘氨酸是结构最简单且没有手性的氨基酸,与侧链只有一个甲基的丙氨酸一起组成初始三肽结构,可以形成最简单的初始三肽结构,减少干扰因素。本实施例中,例如,可以采用相关软件PyRosetta中的ResidueFactory模块,创建一个标准的甘氨酸-丙氨酸-甘氨酸初始三肽结构。
S320,将初始三肽结构中的丙氨酸分别突变为天然氨基酸或D型构象的天然氨基酸,获得对应的突变三肽结构。
本步骤中,将初始三肽结构中的丙氨酸进行突变,分别突变为20种天然氨基酸或D型天然氨基酸类型,最多可以获得39种突变三肽结构。其中,天然氨基酸一般默认为L型构象,即可以将丙氨酸分别突变,获得20种含L型构象的天然氨基酸的突变三肽结构;由于甘氨酸没有手性,丙氨酸突变为甘氨酸后,不作构象限制,因此还可以将丙氨酸突变为19种含D型构象的天然氨基酸的突变三肽结构。可以理解,由于天然氨基酸一般为L型构象,本实施例中,不局限于将丙氨酸突变为L型构象的天然氨基酸,还可以将丙氨酸突变为D型构象的19种天然氨基酸,从而区别于已知热点残基的结构,探索获取更多天然氨基酸在不同构象的成环性。
在其他实施例中,也可以将初始三肽结构中的丙氨酸突变为非标准氨基酸。
S330,根据第一预设打分函数对突变三肽结构的骨架二面角随机赋值,获得对应的打分值并筛选获得候选三肽构象。
本步骤中,针对每一突变三肽结构,通过对其骨架二面角随机赋值,从中筛选出构象更优的三肽结构作为获选三肽构象。
优选地,本实施例针对突变后的单个氨基酸构象的骨架二面角进行打分,第一预设打分函数可以是骨架二面角能量打分函数,例如Rosetta软件中的rama_pro打分项。通过对骨架二面角能量打分函数中的骨架phi二面角和psi二面角进行随机赋值,根据各赋值计算出对应的打分值,进而根据各打分值筛选获得随机的低能量的候选三肽构象作为后续步骤中的刚性对接组分之一。
为了尽可能获得全局较优的候选三肽构象,在一具体的实施方式中,将每一突变三肽结构骨架中的phi二面角和psi二面角的组合以预设角度变化值进行分箱处理,获得多个分箱的二面角组合;对每个分箱的二面角组合按照骨架二面角能量打分函数计算打分值;将同一突变三肽结构的所有二面角组合按照对应的打分值进行升序排列,选取对应的排名占据预设比例的优选二面角组合;等概率随机选择一个优选二面角组合作为初始三肽结构的骨架二面角。
为了便于理解,例如,针对上述39种获得的包含L型构象和/或D型构象天然氨基酸的突变三肽结构,分别将每个突变三肽结构中的phi二面角和psi二面角的组合以每10°进行分箱处理,得到1296个分箱,即360°/10°=36个区间,phi和psi角各自均具有36个区间,36x36=1296个分箱,即每个突变三肽结构可以获得1296个二面角组合。通过第一预设打分函数即骨架二面角能量打分函数,分别计算1296个二面角组合对应的打分值,并按照升序排列后,筛选排名靠前中的80%的二面角组合作为该突变三肽结构的优选二面角组合。最后随机选择其中一个优选二面角组合进入后续步骤中与靶点蛋白进行对接。也就是说,打分值越小,越有利于进入进行后续步骤的分子对接。针对前述39种突变三肽结构,可对应共计筛选出39种优选二面角组合,即相应获得39种候选三肽构象的phi二面角和psi二面角初始值。需要说明的是,本示例中的角度数值举例仅做解释说明,不作限制。
本步骤中,通过确定候选三肽构象的二面角初始值,从而便于后续步骤有序地展开分子对接的结合构象搜索,提高数据处理效率。
S340,将候选三肽构象在靶点蛋白的特定表位区域中的局部区域进行分子对接,获得候选三肽与靶点蛋白的结合构象,并筛选获得结合自由能最低的优选三肽与靶点蛋白的结合构象。
本步骤中,将上述获得的具有明确二面角的每一三肽候选构象分别与靶点蛋白进行分子对接,获得各候选三肽与靶点蛋白对应的结合构象。例如可以利用相关软件如RosettaDock模块,采用统一的默认参数,将每一候选三肽构象分别与靶点蛋白的特定表位区域中的局部区域进行分子对接,获得多个候选三肽与靶点蛋白的结合构象。
进一步地,在一实施方式中,计算所有候选三肽构象对应的候选三肽与靶点蛋白的结合构象的相互作用自由能,并根据相互作用自由能的数值对所有候选三肽与靶点蛋白的结合构象进行升序排列,筛选获得结合自由能最低的一个或多个优选三肽与靶点蛋白的结合构象。其中,本步骤筛选获得的优选三肽中的第2位氨基酸即可以作为热点残基,本实施例中的热点残基的种类可以是L型构象的天然氨基酸、D型构象的天然氨基酸或已知晶体结构中的非标准氨基酸。
优选地,可以采用相关软件例如Rosetta Relax应用软件,采用默认参数(例如软件中使用的能量函数类型,relax的约束类型等)对优选三肽与靶点蛋白的结合构象进行原子坐标优化,使结构更加合理,从而获得优化后的结合构象中的各原子的三维坐标,优化后的结合构象即可作为初始复合物结构。
本实施例中,通过使用含有热点残基的三肽片段构象(随机二面角参数)与靶点蛋白进行局部分子对接搜索,可以产生更多具有高可成环性的新热点残基或以优选三肽作为热点基序。
图4是本申请实施例示出的其中一种类型的热点残基和靶点蛋白复合物结构的生成流程示意图。本实施例主要介绍热点残基选自根据作用于靶点蛋白的小分子结构形成的非标准氨基酸的生成方法。本实施例中,针对已知小分子与靶点蛋白结合复合物作为参考的情形下,利用小分子作为底物构建出非标准氨基酸作为热点残基或热点基序。
参见图4,本实施例中的热点残基和靶点蛋白复合物结构的生成方法,包括:
S410,将已知作用于靶点蛋白的小分子结构作为α-氨基酸的底物,获取α-氨基酸的原子坐标,其中,α-氨基酸为非标准氨基酸。
可以理解,α-氨基酸具有两种立体异构体存在,两种异构体分别称L型和D型。因此,本申请选取作为非标准氨基酸的α-氨基酸,从而可以搜集构型更丰富的非标准氨基酸的成环性。
进一步地,为了获取基于底物小分子的非标准氨基酸的原子坐标,在一具体的实施方式中,选取任一包含底物小分子结构的α-氨基酸进行绘制,并转化为SMILES结构;根据SMILES结构生成具有预设格式的非标准氨基酸。例如,使用分子绘图软件Ketcher将包含底物小分子结构的α-氨基酸进行绘制并转化为SMILES结构,标准的α-氨基酸“残基”的写法格式为:L型氨基酸: N[C@@H](CR)C(=O),D型氨基酸: N[C@H](CR)C(=O),CR为α-氨基酸的侧链R基团的SMILES通配符。接着,可以使用软件Rdkit将SMILES结构转换为mol2格式文件,使用Rosetta软件包中的molfile_to_params_polymer脚本生成非标准氨基酸的Params文件,并使用Rosetta中的MakeRotLib程序生成非标准氨基酸的Rotamer数据库文件。可以理解,针对同一已知小分子底物,可以随机选取一种或多种非标准氨基酸分别进行改造,其中可以选择最优的一种非标准氨基酸进行改造。
S420,根据小分子的母核原子坐标,分别将各非标准氨基酸的对应的原子坐标进行比对调整,获得对应的坐标调整后的非标准氨基酸构象。
可以理解,小分子结构具有已知的三维原子坐标,小分子的母核原子坐标是指小分子底物与靶点蛋白结合发挥功能的片段,通过以小分子的母核的三维原子坐标作为参照,对非标准氨基酸的三维原子坐标进行叠合调整,即将相同原子进行叠合,不相同的原子不叠合,从而调整非标准氨基酸中的相关的原子坐标。例如,使用Rdkit基于母核Align的方法,将PyRosetta的ResidueFactory模块生成的非标准氨基酸的原子坐标与小分子的原子坐标进行比对叠合;优选地,还可以在分子可视化软件PyMOL中对非标准氨基酸进行构象的微调,手动调整二面角等不太合理的数值。
本步骤中,通过调整非标准氨基酸的母核原子坐标,从而获得对应的非标准氨基酸构象。可以理解,根据步骤S410所采用的非标准氨基酸的种类,分别获取对应的非标准氨基酸构象。
S430,获取各非标准氨基酸构象对应的异构体,并根据非标准氨基酸构象中的母核原子坐标,分别将各能量较低的异构体对应的原子坐标进行比对调整,生成调整朝向后的骨架构象。
本步骤中,通过不同角度的旋转上述步骤获得的非标准氨基酸构象,获得多个对应的异构体。为了过滤冗余的异构体,通过相关软件计算对应的异构体的能量,从而筛选出低构象能量的异构体,例如将各异构体按照构象能量升序排列,选择构象能量排名靠前的多个较低构象能量的异构体。进一步地,将筛选出的异构体重新进行调整,使各异构体的母核与对应的非标准氨基酸构象中的母核原子坐标叠合,即将各异构体调整至小分子与靶标蛋白结合的位置,从而使各低能量的异构体被调整为朝向不同的骨架构象。
具体地,例如可以使用相关软件PyRosetta中的RotamerSet机制,将所有能量较低的非标准氨基酸异构体(Rotamer构象)筛选获得后,并根据非标准氨基酸的母核结构进行叠合,产生大量朝向不同的低能量骨架构象。
S440,对各能量较低的异构体按照第二预设打分函数进行打分,根据对应的打分值进行排序,筛选获得结合自由能较低的非标准氨基酸异构体与靶点蛋白的结合构象。
其中,本实施例所采用的第二预设打分函数与上述实施例中的第一预设打分函数相同,本实施例中,筛选出打分值最大的一个或多个非标准氨基酸异构体与靶点蛋白的结合构象,其中,对应的非标准氨基酸即为筛选获得的热点残基;或从已知小分子与靶点蛋白的晶体结构中提取连续的1个~3个氨基酸作为热点基序,且热点基序中的含有非标准氨基酸;其中,非标准氨基酸在热点基序中的序列位置不限。
优选地,可以采用相关软件例如Rosetta Relax应用软件,采用默认参数(例如软件中使用的能量函数类型,relax的约束类型等)对非标准氨基酸异构体与靶点蛋白进行原子坐标优化,使结构更加合理,从而获得优化后的结合构象中的各原子的三维坐标,优化后的结合构象即可作为初始复合物结构。
本实施例中,提供了一套基于小分子底物改造为非标准氨基酸的热点残基的方法策略,以Rotamer骨架翻转搜索的策略,产生大量含有非标准氨基酸的低能量骨架构象,扩宽了环肽设计的应用范围。
与前述应用功能实现方法实施例相对应,本申请还提供了一种环肽设计装置、热点残基和靶点蛋白复合物结构的生成装置、电子设备及相应的实施例。
图5是本申请实施例示出的环肽设计装置的结构示意图。
参见图5,本申请一实施例提供了一种环肽设计装置500,其包括初始复合物结构获取模块510、成环模块520、优化模块530及目标序列筛选模块540。其中:
初始复合物结构获取模块510用于获取包含热点残基和靶点蛋白的初始复合物结构;其中,热点残基分别选自作用于靶点蛋白的天然氨基酸或非标准氨基酸、对接靶点蛋白特定表位区域的三肽、或根据作用于靶点蛋白的小分子结构形成的非标准氨基酸。
成环模块520用于沿初始复合物结构的热点残基的N端和/或C端新增氨基酸,获得长度不超过预设长度阈值的线性肽,并根据对应的线性肽中的热点残基的初始骨架二面角进行环肽构象搜索,筛选获得符合预设环肽条件的候选环肽构象。
优化模块530用于分别对各候选环肽构象及序列进行优化,获得对应的优化环肽构象及优化环肽构象对应的环肽序列。
目标序列筛选模块540用于在优化环肽构象中进行筛选,确定Pnear值大于预设阈值的目标环肽序列。
进一步地,参见图6,初始复合物结构获取模块510包括第一获取模块511、第二获取模块512及第三获取模块513。具体地,第一获取模块511用于在已知作用于靶点蛋白的蛋白质中,获取与靶点蛋白相互作用界面的第一预设范围内的单个残基对结合自由能的贡献值;根据各贡献值的数值大小,筛选贡献值最大的1~3个连续残基作为热点残基或热点基序;获取热点残基或热点基序与靶点蛋白的结合构象。
第二获取模块512用于将丙氨酸的原子坐标调整至靶点蛋白的特定表位区域的第二预设范围内后,在丙氨酸的两端分别延伸一个甘氨酸,形成初始三肽结构;将初始三肽结构中的丙氨酸分别突变为天然氨基酸或D型构象的天然氨基酸,获得对应的突变三肽结构;根据第一预设打分函数对突变三肽结构的骨架二面角随机赋值,获得对应的打分值并筛选获得候选三肽构象;将候选三肽构象在靶点蛋白的特定表位区域中的局部区域进行分子对接,获得候选三肽与靶点蛋白的结合构象,并筛选获得结合自由能最低的优选三肽与靶点蛋白的结合构象。其中,根据预设打分函数对突变三肽结构的骨架二面角随机赋值,获得对应的打分值并筛选获得候选三肽构象,包括:将每一突变三肽结构骨架中的phi二面角和psi二面角的组合以预设角度变化值进行分箱处理,获得多个分箱的二面角组合;对每个分箱的二面角组合按照骨架二面角能量打分函数计算打分值;将同一突变三肽结构的所有二面角组合按照对应的打分值进行升序排列,选取对应的排名占据预设比例的优选二面角组合;等概率随机选择一个优选二面角组合作为初始三肽结构的骨架二面角。
第三获取模块513用于将已知作用于靶点蛋白的小分子结构作为非标准氨基酸的底物,获取非标准氨基酸的原子坐标,其中,非标准氨基酸为α-氨基酸;根据小分子的母核原子坐标,分别将各非标准氨基酸的对应的原子坐标进行比对调整,获得对应的坐标调整后的非标准氨基酸构象;获取各非标准氨基酸构象对应的异构体,并根据非标准氨基酸构象中的母核原子坐标,分别将各能量较低的异构体对应的原子坐标进行比对调整,生成调整朝向后的骨架构象;对各能量较低的异构体按照第二预设打分函数进行打分,根据对应的打分值进行排序,筛选获得结合自由能较低的非标准氨基酸异构体与靶点蛋白的结合构象。
在一具体的实施方式中,成环模块520用于沿初始复合物结构中的热点残基的N端和/或C端新增氨基酸,获得长度不超过预设长度阈值的线性肽;在获得一个或多个线性肽后,分别对各线性肽的骨架二面角进行初始化,获得初始骨架二面角;根据对应的线性肽中的热点残基的初始骨架二面角进行环肽构象搜索,筛选获得符合预设环肽条件的候选环肽构象。其中,当热点残基选自天然氨基酸时,热点残基的初始骨架二面角随机选自天然氨基酸的L型构象或D型构象中对应能量升序排名前50%的区域中的任意角度;当热点残基为非标准氨基酸时,根据非标准氨基酸的手性和预设二面角取值范围,以正态高斯概率分布的方式对骨架二面角数值进行±30度的随机采样,获得初始骨架二面角。当非标准氨基酸为L型氨基酸时,预设二面角取值范围为(-60,-45)或(-135,135);和/或,当非标准氨基酸为D型氨基酸时,预设二面角取值范围为(+60,+45)或(+135,-135)。
在一具体的实施方式中,优化模块530用于根据预设算法和特定打分函数,对各候选环肽构象的序列和结构分别进行迭代优化,获得对应的优化环肽构象及优化环肽构象对应的环肽序列。可选地,优化模块还用于当热点残基为非标准氨基酸时,对非标准氨基酸的侧链原子进行标记,并对侧链原子采用空间坐标约束;和/或,预先定义靶点蛋白的柔性区域,以在对候选环肽构象进行优化时,同步优化柔性区域内的骨架二面角和侧链构象。
在一具体的实施方式中,目标序列筛选模块540用于按照预设筛选规则对优化环肽构象进行筛选,获得优选环肽构象;分别根据每一优选环肽构象的环肽序列的折叠自由能进行构象模拟,计算每一环肽序列模拟折叠为目标环肽构象对应的Pnera值;筛选Pnera值大于预设阈值的环肽序列作为目标环肽序列。
综上,本申请的环肽设计装置,可以从头设计出能够靶向结合的环肽分子,增加了环肽构象及环肽序列的多样性,为环肽的成药性提供更多的选择。
图7是本申请实施例示出的热点残基和靶点蛋白复合物结构的生成装置的结构示意图。
参见图7,本申请一实施例提供了一种热点残基和靶点蛋白复合物结构的生成装置700,其包括初始结构生成模块710、突变模块720、三肽构象筛选模块730及结合构象筛选模块740。其中:
初始结构生成模块710用于将丙氨酸的原子坐标调整至靶点蛋白的特定表位区域的第二预设范围内后,在所述丙氨酸的两端分别延伸一个甘氨酸,形成初始三肽结构。
突变模块720用于将丙氨酸分别突变为天然氨基酸或D型构象的天然氨基酸,获得对应的突变三肽结构。
三肽构象筛选模块730用于根据第一预设打分函数对突变三肽结构的骨架二面角随机赋值,获得对应的打分值并筛选获得候选三肽构象。
结合构象筛选模块740用于将候选三肽构象在靶点蛋白的特定表位区域中的局部区域进行分子对接,获得候选三肽与靶点蛋白的结合构象,并筛选获得结合自由能最低的优选三肽与靶点蛋白的结合构象。
具体的,初始结构生成模块710用于将初始三肽结构中的各原子坐标通过平移或旋转的方式,调整至靶点蛋白的特定表位区域的第二预设范围内。
突变模块720用于将始三肽结构中的丙氨酸进行突变,分别突变为20种天然氨基酸,并以D型构象进行展示,获得20种突变三肽结构。
三肽构象筛选模块730用于将每一突变三肽结构骨架中的phi二面角和psi二面角的组合以预设角度变化值进行分箱处理,获得多个分箱的二面角组合;对每个分箱的二面角组合按照骨架二面角能量打分函数计算打分值;将同一突变三肽结构的所有二面角组合按照对应的打分值进行升序排列,选取对应的排名占据预设比例的优选二面角组合;等概率随机选择一个优选二面角组合作为初始三肽结构的骨架二面角。
结合构象筛选模块740用于计算所有候选三肽构象对应的候选三肽与靶点蛋白的结合构象的相互作用自由能,并根据相互作用自由能的数值对所有候选三肽与靶点蛋白的结合构象进行升序排列,筛选获得结合自由能最低的一个或多个优选三肽与靶点蛋白的结合构象。
综上所述,本申请的热点残基和靶点蛋白复合物结构的生成装置,可以在没有已知热点残基与靶点蛋白的复合物结构参考的情形下,用含有热点残基的三肽片段构象(随机二面角参数)进行局部对接搜索,产生更多具有高可成环性的新热点残基或热点基序。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
图8是本申请实施例示出的电子设备的结构示意图。
参见图8,电子设备1000包括存储器1010和处理器1020。
处理器1020可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器1010可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM)和永久存储装置。其中,ROM可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1010可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(例如DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1010可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等)、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器1010上存储有可执行代码,当可执行代码被处理器1020处理时,可以使处理器1020执行上文述及的方法中的部分或全部。
此外,根据本申请的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。
或者,本申请还可以实施为一种计算机可读存储介质(或非暂时性机器可读存储介质或机器可读存储介质),其上存储有可执行代码(或计算机程序或计算机指令代码),当可执行代码(或计算机程序或计算机指令代码)被电子设备(或服务器等)的处理器执行时,使处理器执行根据本申请的上述方法的各个步骤的部分或全部。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。
Claims (14)
1.一种环肽设计方法,其特征在于,包括:
获取包含热点残基和靶点蛋白的初始复合物结构;其中,所述热点残基分别选自作用于所述靶点蛋白的天然氨基酸或非标准氨基酸、对接所述靶点蛋白特定表位区域的三肽、或根据作用于所述靶点蛋白的小分子结构形成的非标准氨基酸;
沿所述初始复合物结构的热点残基的N端和/或C端新增氨基酸,获得长度不超过预设长度阈值的线性肽,并根据对应的所述线性肽中的热点残基的初始骨架二面角进行环肽构象搜索,筛选获得符合预设环肽条件的候选环肽构象;其中,所述预设长度阈值包括7~9;
分别对各所述候选环肽构象及序列进行优化,获得对应的优化环肽构象及所述优化环肽构象对应的环肽序列;
在优化环肽构象中进行筛选,确定Pnear值大于预设阈值的目标环肽序列;其中,按照预设筛选规则对所述优化环肽构象进行筛选,获得优选环肽构象;分别根据每一所述优选环肽构象的环肽序列的折叠自由能进行构象模拟,计算每一所述环肽序列模拟折叠为目标环肽构象对应的Pnera值;筛选所述Pnera值大于预设阈值的环肽序列作为目标环肽序列。
2.根据权利要求1所述的方法,其特征在于,当所述热点残基选自作用于所述靶点蛋白的天然氨基酸或非标准氨基酸,所述获取包含热点残基和靶点蛋白的初始复合物结构,包括:
在已知作用于所述靶点蛋白的蛋白质中,获取与所述靶点蛋白相互作用界面的第一预设范围内的单个残基对结合自由能的贡献值;
根据各贡献值的数值大小,筛选所述贡献值最大的1~3个连续残基作为热点残基或热点基序;
获取所述热点残基或热点基序与所述靶点蛋白的结合构象。
3.根据权利要求1所述的方法,其特征在于,当所述热点残基选自对接所述靶点蛋白特定表位区域的三肽,所述获取包含热点残基和靶点蛋白的初始复合物结构,包括:
将丙氨酸原子坐标调整至所述靶点蛋白的特定表位区域的第二预设范围内后,在所述丙氨酸的两端分别延伸一个甘氨酸,形成初始三肽结构;将所述初始三肽结构中的所述丙氨酸分别突变为天然氨基酸或D型构象的天然氨基酸,获得对应的突变三肽结构;
根据第一预设打分函数对所述突变三肽结构的骨架二面角随机赋值,获得对应的打分值并筛选获得候选三肽构象;
将所述候选三肽构象在所述靶点蛋白的所述特定表位区域中的局部区域进行分子对接,获得候选三肽与靶点蛋白的结合构象,并筛选获得结合自由能最低的优选三肽与靶点蛋白的结合构象。
4.根据权利要求3所述的方法,其特征在于,所述根据预设打分函数对所述突变三肽结构的骨架二面角随机赋值,获得对应的打分值并筛选获得候选三肽构象,包括:
将每一突变三肽结构骨架中的phi二面角和psi二面角的组合以预设角度变化值进行分箱处理,获得多个分箱的二面角组合;
对每个分箱的二面角组合按照骨架二面角能量打分函数计算打分值;
将同一突变三肽结构的所有二面角组合按照对应的打分值进行升序排列,选取对应的排名占据预设比例的优选二面角组合;
等概率随机选择一个优选二面角组合作为初始三肽结构的骨架二面角。
5.根据权利要求1所述的方法,其特征在于,当所述热点残基选自根据作用于所述靶点蛋白的小分子结构形成的非标准氨基酸,所述获取包含热点残基和靶点蛋白的初始复合物结构,包括:
将已知作用于所述靶点蛋白的小分子结构作为非标准氨基酸的底物,获取所述非标准氨基酸的原子坐标,其中,所述非标准氨基酸为α-氨基酸;
根据小分子的母核原子坐标,分别将各所述非标准氨基酸的对应的原子坐标进行比对调整,获得对应的坐标调整后的所述非标准氨基酸构象;
获取各所述非标准氨基酸构象对应的异构体,并根据非标准氨基酸构象中的母核原子坐标,分别将各能量更低的所述异构体对应的原子坐标进行比对调整,生成调整朝向后的骨架构象;
对各所述能量更低的异构体按照第二预设打分函数进行打分,根据对应的打分值进行排序,筛选获得结合自由能更低的所述非标准氨基酸异构体与所述靶点蛋白的结合构象。
6.根据权利要求1所述的方法,其特征在于:
当所述热点残基选自天然氨基酸时,所述热点残基的初始骨架二面角随机选自天然氨基酸的L型构象或D型构象中对应能量升序排名前50%的区域中的任意角度;
当所述热点残基为非标准氨基酸时,根据非标准氨基酸的手性和预设二面角取值范围,以正态高斯概率分布的方式对骨架二面角数值进行±30度的随机采样,获得所述初始骨架二面角。
7.根据权利要求6所述的方法,其特征在于:
当所述非标准氨基酸为L型氨基酸时,所述预设二面角取值范围为(-60,-45)或(-135,135);和/或
当所述非标准氨基酸为D型氨基酸时,所述预设二面角取值范围为(+60,+45)或(+135,-135)。
8.根据权利要求1所述的方法,其特征在于,所述预设环肽条件包括以下至少一项:
环肽骨架残基之间的N原子和O原子形成2对以上的氢键;
环肽骨架的氢键不存在过度饱和;
环肽构象与所述靶点蛋白之间的相互作用面积在预设面积阈值以内;
环肽构象与所述靶点蛋白之间的形状互补系数小于或等于0.60。
9.根据权利要求1所述的方法,其特征在于,所述分别对各所述候选环肽构象及序列进行优化,获得对应的优化环肽构象及所述优化环肽构象对应的环肽序列,包括:
根据预设算法和特定打分函数,对各所述候选环肽构象的序列和结构分别进行迭代优化,获得对应的优化环肽构象及所述优化环肽构象对应的环肽序列;其中,预设算法包括软件PyRosetta的FastDesign算法,特定打分函数包括beta_nov16_cart打分函数。
10.根据权利要求9所述的方法,其特征在于,所述根据预设算法和特定打分函数,对各所述候选环肽构象的序列和结构分别进行迭代优化之前,还包括:
当热点残基为非标准氨基酸时,对非标准氨基酸的侧链原子进行标记,并对侧链原子采用空间坐标约束;和/或
预先定义所述靶点蛋白的柔性区域,以在对所述候选环肽构象进行优化时,同步优化所述柔性区域内的骨架二面角和侧链构象。
11.根据权利要求1所述的方法,其特征在于,根据以下至少一个或多个预设筛选规则筛选出的优化环肽构象的交集作为优选环肽构象:
根据每一所述优化环肽构象的平均能量进行升序排列,筛选获得排名前800~1000个所述优化环肽构象;根据800~1000个的所述优化环肽构象与所述靶点蛋白对应的结合自由能进行升序排列,筛选获得排名前150~200个的所述优化环肽构象;
根据各所述优化环肽构象与所述靶点蛋白的结合自由能进行升序排列,筛选获得排名前800~1000个的所述优化环肽构象;分别获取800~1000个所述优化环肽构象与所述靶点蛋白对应的相互作用面积,保留大于预设面积阈值的优化环肽构象;在保留的所述优化环肽构象中,根据每一所述优化环肽构象的平均能量进行升序排列,筛选获得排名前150~200个的所述优化环肽构象;
根据各所述优化环肽构象内的骨架氢键数量,保留大于或等于预设个数的优化环肽构象;在保留的所述优化环肽构象中,分别获取各所述优化环肽构象分别与所述靶点蛋白对应的相互作用面积,保留大于预设面积阈值的优化环肽构象;在保留的所述优化环肽构象中,根据各所述优化环肽构象与所述靶点蛋白对应的结合自由能进行升序排列,筛选获得排名前150~200个的优化环肽构象。
12.一种环肽设计装置,其特征在于,包括:
初始复合物结构获取模块,用于获取包含热点残基和靶点蛋白的初始复合物结构;其中,所述热点残基分别选自作用于所述靶点蛋白的天然氨基酸或非标准氨基酸、对接所述靶点蛋白特定表位区域的三肽、或根据作用于所述靶点蛋白的小分子结构形成的非标准氨基酸;
成环模块,用于沿所述初始复合物结构的热点残基的N端和/或C端新增氨基酸,获得长度不超过预设长度阈值的线性肽,并根据对应的所述线性肽中的热点残基的初始骨架二面角进行环肽构象搜索,筛选获得符合预设环肽条件的候选环肽构象;其中,所述预设长度阈值可以是7~9;
优化模块,用于分别对各所述候选环肽构象及序列进行优化,获得对应的优化环肽构象及所述优化环肽构象对应的环肽序列;
目标序列筛选模块,用于在优化环肽构象中进行筛选,确定Pnear值大于预设阈值的目标环肽序列;其中,按照预设筛选规则对所述优化环肽构象进行筛选,获得优选环肽构象;分别根据每一所述优选环肽构象的环肽序列的折叠自由能进行构象模拟,计算每一所述环肽序列模拟折叠为目标环肽构象对应的Pnera值;筛选所述Pnera值大于预设阈值的环肽序列作为目标环肽序列。
13.一种电子设备,其特征在于,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-11中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-11中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210616239.6A CN114927160B (zh) | 2022-03-03 | 2022-03-03 | 热点残基和靶点蛋白复合物结构的生成方法及装置 |
CN202210203337.7A CN114333985B (zh) | 2022-03-03 | 2022-03-03 | 环肽设计方法、复合物结构的生成方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210203337.7A CN114333985B (zh) | 2022-03-03 | 2022-03-03 | 环肽设计方法、复合物结构的生成方法、装置及电子设备 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210616239.6A Division CN114927160B (zh) | 2022-03-03 | 2022-03-03 | 热点残基和靶点蛋白复合物结构的生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114333985A CN114333985A (zh) | 2022-04-12 |
CN114333985B true CN114333985B (zh) | 2022-07-12 |
Family
ID=81029788
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210203337.7A Active CN114333985B (zh) | 2022-03-03 | 2022-03-03 | 环肽设计方法、复合物结构的生成方法、装置及电子设备 |
CN202210616239.6A Active CN114927160B (zh) | 2022-03-03 | 2022-03-03 | 热点残基和靶点蛋白复合物结构的生成方法及装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210616239.6A Active CN114927160B (zh) | 2022-03-03 | 2022-03-03 | 热点残基和靶点蛋白复合物结构的生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN114333985B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115116539A (zh) * | 2022-05-09 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 对象确定方法、装置、计算机设备和存储介质 |
CN117219189A (zh) * | 2023-04-07 | 2023-12-12 | 深圳太力生物技术有限责任公司 | 一种环肽药物从头设计方法、电子设备、及存储介质 |
CN116486906B (zh) * | 2023-04-17 | 2024-03-19 | 深圳新锐基因科技有限公司 | 基于氨基酸残基突变提高蛋白质分子稳定性的方法及装置 |
CN117720621B (zh) * | 2024-02-05 | 2024-05-31 | 北京晶泰科技有限公司 | α-淀粉酶抑制肽及其应用 |
CN118571306A (zh) * | 2024-08-01 | 2024-08-30 | 温州大学 | 一种取代基工程下基态结构预测方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1255209A3 (en) * | 1997-04-11 | 2009-02-11 | California Institute Of Technology | Apparatus and method for automated protein design |
JP2002355032A (ja) * | 2001-04-26 | 2002-12-10 | Biomolecular Engineering Research Institute | 蛋白質複合体の結晶、構造座標および構造座標の使用 |
AU2002315001A1 (en) * | 2001-06-08 | 2002-12-23 | Metaphore Pharmaceuticals, Inc. | Libraries of conformationally constrained peptides, chiral azacrowns, and peptidomimetics and methods of making the same |
EP1503321A3 (en) * | 2001-08-10 | 2006-08-30 | Xencor, Inc. | Protein design automation for protein libraries |
WO2003087310A2 (en) * | 2002-04-04 | 2003-10-23 | California Institute Of Technology | Directed protein docking algorithm |
KR100573786B1 (ko) * | 2004-04-14 | 2006-04-24 | 부산대학교 산학협력단 | 유전질병 단백질 및 돌연변이 단백질의 구조 안정성분석방법 |
US20130303383A1 (en) * | 2012-05-09 | 2013-11-14 | Sloan-Kettering Institute For Cancer Reseach | Methods and apparatus for predicting protein structure |
EP3204402B1 (en) * | 2014-10-09 | 2022-02-16 | ENDO Biologics, Inc. | Self-assembling tripeptides |
AU2016344716B2 (en) * | 2015-10-30 | 2021-10-21 | Janssen Vaccines & Prevention B.V. | Structure based design of D-protein ligands |
CN108475298A (zh) * | 2015-11-09 | 2018-08-31 | 英属哥伦比亚大学 | 通过集体坐标偏置预测错误折叠的蛋白质表位的系统和方法 |
US20180068054A1 (en) * | 2016-09-06 | 2018-03-08 | University Of Washington | Hyperstable Constrained Peptides and Their Design |
US10376555B2 (en) * | 2017-04-07 | 2019-08-13 | Hong Kong Baptist University | Identification of cyclic peptide agonists of galanin receptor 2 and 3 guided by spexin solution structure |
US11524979B2 (en) * | 2017-06-15 | 2022-12-13 | University Of Washington | Macrocyclic polypeptides |
JP7214972B2 (ja) * | 2018-03-30 | 2023-01-31 | 富士通株式会社 | 安定立体構造の算出方法、及び算出装置、並びにプログラム |
MX2020014027A (es) * | 2018-06-25 | 2021-03-09 | Univ Washington | Dise?o de novo de mimeticos de interleucina potentes y selectivos. |
-
2022
- 2022-03-03 CN CN202210203337.7A patent/CN114333985B/zh active Active
- 2022-03-03 CN CN202210616239.6A patent/CN114927160B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114333985A (zh) | 2022-04-12 |
CN114927160B (zh) | 2024-09-27 |
CN114927160A (zh) | 2022-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114333985B (zh) | 环肽设计方法、复合物结构的生成方法、装置及电子设备 | |
Hollingsworth et al. | A fresh look at the Ramachandran plot and the occurrence of standard structures in proteins | |
Terwilliger | Automated main-chain model building by template matching and iterative fragment extension | |
Lamzin et al. | The ARP/WARP suite for automated construction and refinement of protein models | |
Ruppert et al. | Automatic identification and representation of protein binding sites for molecular docking | |
Longhi et al. | Atomic resolution (1.0 Å) crystal structure of Fusarium solani cutinase: stereochemical analysis | |
Terwilliger et al. | Automated ligand fitting by core-fragment fitting and extension into density | |
Jones | Interactive electron-density map interpretation: from INTER to O | |
Freer et al. | Crystallographic structure refinement of Chromatium high potential iron protein at two Angstroms resolution. | |
Terwilliger et al. | Iterative model building, structure refinement and density modification with the PHENIX AutoBuild wizard | |
Wojcik et al. | New efficient statistical sequence-dependent structure prediction of short to medium-sized protein loops based on an exhaustive loop classification | |
Bond et al. | ModelCraft: an advanced automated model-building pipeline using Buccaneer | |
Spencer et al. | A newcomer′ s guide to peptide crystallography | |
He et al. | Full-length de novo protein structure determination from cryo-EM maps using deep learning | |
Porebski et al. | Fitmunk: improving protein structures by accurate, automatic modeling of side-chain conformations | |
Rivera-Santiago et al. | Full-length anion exchanger 1 structure and interactions with ankyrin-1 determined by zero length crosslinking of erythrocyte membranes | |
JP7214972B2 (ja) | 安定立体構造の算出方法、及び算出装置、並びにプログラム | |
Narita et al. | Molecular determination by electron microscopy of the actin filament end structure | |
Birktoft et al. | Structure of porcine heart cytoplasmic malate dehydrogenase: combining X-ray diffraction and chemical sequence data in structural studies | |
Kodandapani et al. | Protein hydration and water structure: X-ray analysis of a closely packed protein crystal with very low solvent content | |
Su et al. | Applications of knowledge discovery to molecular biology: Identifying structural regularities in proteins | |
Zhong et al. | Modeling chemical bonding effects for protein electron crystallography: the transferable fragmental electrostatic potential (TFESP) method | |
CN116417061A (zh) | 环肽设计方法、装置及电子设备 | |
CN107688727A (zh) | 生物序列聚类和全长转录组中转录本亚型识别方法和装置 | |
Lois et al. | Characterization of structural variability sheds light on the specificity determinants of the interaction between effector domains and histone tails |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |