CN114155912B - 蛋白质的序列设计方法、蛋白质的结构设计方法、装置及电子设备 - Google Patents

蛋白质的序列设计方法、蛋白质的结构设计方法、装置及电子设备 Download PDF

Info

Publication number
CN114155912B
CN114155912B CN202210120554.XA CN202210120554A CN114155912B CN 114155912 B CN114155912 B CN 114155912B CN 202210120554 A CN202210120554 A CN 202210120554A CN 114155912 B CN114155912 B CN 114155912B
Authority
CN
China
Prior art keywords
sequence
amino acid
acid sequence
preset
mutation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210120554.XA
Other languages
English (en)
Other versions
CN114155912A (zh
Inventor
王天元
翟珂
吴炜坤
张琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingtai Technology Co ltd
Original Assignee
Beijing Jingtai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingtai Technology Co ltd filed Critical Beijing Jingtai Technology Co ltd
Priority to CN202210120554.XA priority Critical patent/CN114155912B/zh
Publication of CN114155912A publication Critical patent/CN114155912A/zh
Application granted granted Critical
Publication of CN114155912B publication Critical patent/CN114155912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本申请涉及一种蛋白质的序列设计方法、蛋白质的结构设计方法、装置及电子设备。该序列设计方法包括:获取具有预设长度的起始序列和对应的角度距离分布;其中,起始序列为包括目标基序的序列或随机序列;以起始序列开始对单个氨基酸进行随机突变,及依序根据前一次突变后的氨基酸序列及对应的角度距离分布对单个氨基酸进行当前随机突变,并分别按照预设损失函数根据对应的角度距离分布确定各突变后的氨基酸序列对应的变化值;选取变化值符合预设条件的氨基酸序列作为优选序列。本申请提供的方案,能够有效地获得优选序列,提高研发效率和降低研发成本。

Description

蛋白质的序列设计方法、蛋白质的结构设计方法、装置及电子 设备
技术领域
本申请涉及蛋白质设计技术领域,尤其涉及一种蛋白质的序列设计方法、蛋白质的结构设计方法、装置及电子设备。
背景技术
作为生物药的重要一支,蛋白质类药物通过对人体内的某些生理产生促进或者抑制的效果,在生理生化过程中达到疗效。相比较外部莫名物质的强行介入,蛋白质药物对人体本身的生理机制的刺激性小、毒性低、靶向性强、疗效高以及不易产生耐药性等优势。蛋白质设计,即设计可折叠、具有一定的功能和结构的氨基酸序列,是研发蛋白质药物的核心问题。优秀的蛋白质设计方法可以帮助探索整个氨基酸序列的折叠空间,并在性能方面更好地满足特定的需求。
蛋白质设计面临的一个突出挑战是如何设计出针对与治疗有关的目标蛋白的结合物。其中,蛋白质的进化中往往产生一些和特定功能相关的motif(基序,能行使特定功能的一段氨基酸序列),这些motif多为不连续的功能位点,针对motif进行设计可以在约束蛋白质可折叠的同时保持其功能。然而,目前还没有一种方法可以高效地搜索构建出具有特定的不连续功能位点的结构,当前的解决方法多数需要大量的实验和试错,耗费较大的研发成本。
发明内容
为解决或部分解决相关技术中存在的问题,本申请提供一种蛋白质的序列设计方法、蛋白质的结构设计方法、装置及电子设备,能够有效地获得优选序列,提高研发效率和降低研发成本。
本申请第一方面提供一种蛋白质的序列设计方法,其包括:
获取具有预设长度的起始序列和对应的角度距离分布;其中,所述起始序列为包括目标基序的序列或随机序列;
以所述起始序列开始对单个氨基酸进行随机突变,及依序根据前一次突变后的氨基酸序列及对应的角度距离分布对单个氨基酸进行当前随机突变,并分别按照预设损失函数根据对应的所述角度距离分布确定各突变后的氨基酸序列对应的变化值;
选取所述变化值符合预设条件的氨基酸序列作为优选序列。
在一实施方式中,所述获取具有预设长度的起始序列和对应的角度距离分布;其中,所述起始序列为包括目标基序的序列或随机序列,包括:
当所述起始序列包括目标基序时,将所述目标基序放置于指定位置,生成具有预设长度的起始序列;或将所述目标基序放置于随机位置,生成具有预设长度的起始序列。
在一实施方式中,所述以所述起始序列开始对单个氨基酸进行随机突变,及依序根据前一次突变后的氨基酸序列及对应的角度距离分布对单个氨基酸进行当前随机突变,包括:
在预设模拟退火条件下,根据马尔科夫链蒙特卡洛算法,以起始序列开始对单个氨基酸进行随机突变;
当根据预设准则确定接受前一次突变后的氨基酸序列时,根据接受突变后的氨基酸序列及对应的角度距离分布进行当前随机突变;
当根据所述预设准则拒绝接受前一次突变后的氨基酸序列时,以前一次突变之前的氨基酸序列重新进行单个氨基酸随机突变。
在一实施方式中,所述预设准则包括:
如果当前随机突变后的氨基酸序列对应的变化值小于前一次突变后的氨基酸序列对应的变化值,则确定接受当前随机突变后的氨基酸序列;
如果当前随机突变后的氨基酸序列对应的变化值大于或等于前一次突变后的氨基酸序列对应的变化值,则根据接受概率确定接受或拒绝当前随机突变后的氨基酸序列。
在一实施方式中,所述将所述目标基序放置于随机位置,生成具有预设长度的起始序列之后,
所述以所述起始序列开始对单个氨基酸进行随机突变,及依序根据前一次突变后的氨基酸序列及对应的角度距离分布对单个氨基酸进行当前随机突变,并分别按照预设损失函数根据对应的所述角度距离分布确定各突变后的氨基酸序列对应的变化值,包括:
根据马尔科夫链蒙特卡洛算法,在预设模拟退火条件下的前期步数中,以起始序列开始将至少部分目标基序在序列中随机移动至新的位置,获得移位序列,并对移位序列中的单个氨基酸进行随机突变,及依序根据前一次接受突变后的移位序列在序列中进行至少部分目标基序的随机移动以获得当前移位序列后,根据前一次接受突变后的移位序列对应的角度距离分布对当前移位序列中的单个氨基酸进行当前随机突变,并分别通过预设准则根据各突变后的移位序列对应的预设损失函数的变化值确定是否接受突变后的移位序列,直至不再生成新的移位序列;
在所述预设模拟退火条件下的后期步数中,根据最后接受突变的所述移位序列开始对单个氨基酸进行随机突变,及依序根据前一次突变后的氨基酸序列及对应的角度距离分布对单个氨基酸进行当前随机突变;并分别通过预设准则根据各突变后的氨基酸序列对应的预设损失函数的变化值确定是否接受突变后的氨基酸序列。
在一实施方式中,所述将所述目标基序放置于随机位置,生成具有预设长度的起始序列之后,包括:
在一实施方式中,根据所述起始序列的预设长度和所述目标基序的长度设置所有目标基序的总移动次数阈值。
在一实施方式中,所述将所述目标基序放置于随机位置,生成具有预设长度的起始序列之后,包括:
预先设置所述目标基序每次移动的最大移动步长,各目标基序分别根据最大移动步长内的数值在序列中进行独立移动。
在一实施方式中,所述选取所述变化值符合预设条件的氨基酸序列作为优选序列,包括:
当各突变后的氨基酸序列对应的变化值收敛后,选取变化值最小的突变后的氨基酸序列作为优选序列。
在一实施方式中,当所述起始序列包括所述目标基序时,所述预设损失函数包括基序损失函数与第一背景损失函数之和;其中,所述基序损失函数包括当前随机突变后的氨基酸序列的残基间角度距离分布与目标基序之间的残基角度距离分布之间的交叉熵;所述第一背景损失函数包括所述当前随机突变后的氨基酸序列的残基间角度距离分布和通过背景网络输出的除去目标基序以外的所述当前随机突变后的氨基酸序列的残基角度距离分布之间的KL散度;或
当所述起始序列不包括所述目标基序时,所述预设损失函数包括第二背景损失函数,所述第二背景损失函数包括当前随机突变后的氨基酸序列的残基间角度距离分布和通过背景网络输出的所述当前随机突变后的氨基酸序列中的残基角度距离分布之间的KL散度。
本申请第二方面提供一种蛋白质结构的设计方法,其包括:
根据上述的蛋白质的序列设计方法,获取优选序列;
根据所述优选序列生成对应的候选蛋白质结构;
根据预设指标在所述候选蛋白质结构中选取优选结构。
在一实施方式中,所述预设指标包括以下至少一个或多个指标:
所述候选蛋白质结构的骨架上的碳原子与目标基序之间的均方根偏差小于第一预设值;
所述候选蛋白质结构的连接图的系数程度小于第二预设值;
所述候选蛋白质结构内的氨基酸不存在碰撞或重叠;
所述候选蛋白质结构中的连续环区的个数不超过第三预设值;
所述候选蛋白质结构中的二级结构种类数量大于第四预设值;
所述候选蛋白质结构中的内核氨基酸比例大于第五预设值。
本申请第三方面提供一种蛋白质的序列设计装置,其包括:
数据获取模块,用于获取具有预设长度的起始序列和对应的角度距离分布;其中,所述起始序列为包括目标基序的序列或随机序列;
处理模块,用于以所述起始序列开始对单个氨基酸进行随机突变,及依序根据前一次突变后的氨基酸序列及对应的角度距离分布对单个氨基酸进行当前随机突变,并分别按照预设损失函数根据对应的所述角度距离分布确定各突变后的氨基酸序列对应的变化值;
序列筛选模块,用于选取所述变化值符合预设条件的氨基酸序列作为优选序列。
本申请第三方面提供一种蛋白质的结构设计装置,其包括:
序列获取模块,用于根据上述的蛋白质的序列设计方法,获取优选序列;
结构生成模块,用于根据所述优选序列生成对应的候选蛋白质结构;
结构筛选模块,用于根据预设指标在所述候选蛋白质结构中选取优选结构。
本申请第五方面提供一种电子设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
本申请第六方面提供一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
本申请提供的技术方案可以包括以下有益效果:
本申请的技术方案,根据具有预设长度及包括目标基序或随机序列的起始序列,通过依序逐次将前一次突变后的氨基酸序列中的单个氨基酸进行当前随机突变,并根据对应的角度距离分布通过预设损失函数计算对应的变化值,通过多次迭代获得变化值符合预设条件的突变后的氨基酸序列作为优选序列;这样的设计,针对任意一个起始序列,无需完整的蛋白质晶体结构,即可对应获得迭代突变后的优选序列,尤其是针对具有目标基序的起始序列,还可以更快地获得保留有目标基序特定功能的优选的氨基酸序列,从而帮助研发人员可以加速寻找或者生产与靶向受体具有一定结合作用力的蛋白质,提高研发效率,节省研发成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
通过结合附图对本申请示例性实施方式进行更详细地描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
图1是本申请实施例示出的蛋白质的序列设计方法的流程示意图;
图2是本申请实施例示出的蛋白质的序列设计方法的另一流程示意图;
图3是图2示出的蛋白质的序列设计方法的流程简图;
图4是本申请实施例示出的一个起始序列优化过程对应的预设损失函数的曲线变化图;
图5是图4中变化值收敛后的优选序列的连接图;
图6是本申请实施例示出的5条具有不同预设长度的起始序列展开进行突变后的蛋白质的连接图;
图7是本申请实施例示出的蛋白质的序列设计方法的另一流程示意图。
图8是本申请实施例示出的蛋白质的序列设计方法的另一流程示意图。
图9是本申请实施例示出的蛋白质的结构设计方法的流程示意图。
图10是本申请实施例示出的蛋白质的序列设计装置的结构示意图;
图11是本申请实施例示出的蛋白质的序列设计装置的另一结构示意图;
图12是本申请实施例示出的蛋白质的结构设计装置的结构示意图。
图13是本申请实施例示出的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式,然而应该理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
相关技术中,蛋白质中具有一些特定功能的motif,当前只能通过大量的实验和试错来试图构建出具有这些特定的不连续功能位点的蛋白质结构,耗费较高的研发成本,且影响研发效率。
针对上述问题,本申请实施例提供一种蛋白质的序列设计方法,能够有效地获得优选序列,提高研发效率和降低研发成本。
以下结合附图详细描述本申请实施例的技术方案。
图1是本申请实施例示出的蛋白质的序列设计方法的流程示意图。
参见图1,本申请一实施例提供的蛋白质的序列设计方法,包括:
S110,获取具有预设长度的起始序列和对应的角度距离分布;其中,起始序列为包括目标基序的序列或随机序列。
本步骤中,预设长度是根据经验或者自定义设置的氨基酸序列的长度,预设长度也是后续步骤中的各突变后的氨基酸序列及优选序列的长度。起始序列的角度距离分布包括主链二面角分布和残基间距离分布,其可以根据相关模型例如trRosetta模型进行预测获得,从而可以对起始序列形成的蛋白折叠结构进行约束。通过获取起始序列的角度距离分布,从而设定起始状态,以便后续步骤在此基础上进行优化。
进一步地,起始序列可以是包括目标基序的具有预设长度的氨基酸序列。其中,目标基序可以是来源于内源性蛋白中位于结合界面附近的一段或者多段关键氨基酸序列(即motif),例如目标基序可以是PD-1(免疫细胞T细胞表面的一种受体蛋白)和PD-L1(表面抗原分化簇274,人类体内的一种蛋白质,由CD274基因编码)结合界面中的关键的motif等,于此仅作示例说明。也就是说,一条起始序列中可以包括一个或多个目标基序。另外,起始序列也可以是具有预设长度的随机序列,通过随机序列也有可能预测获得具有特定功能的氨基酸序列。
S120,以起始序列开始对单个氨基酸进行随机突变,及依序根据前一次突变后的氨基酸序列及对应的角度距离分布对单个氨基酸进行当前随机突变,并分别按照预设损失函数根据对应的角度距离分布确定各突变后的氨基酸序列对应的变化值。
可以理解,起始序列中的氨基酸个数与预设长度有关,本步骤中,可以任意对起始序列中的其中一个氨基酸进行随机突变,获得突变后的氨基酸序列。在完成突变时,该突变后的氨基酸的角度距离分布相对于突变之前发生变化,根据相关模型可以计算确定突变后的氨基酸序列对应的角度距离分布。预设损失函数用于计算突变后的氨基酸序列对应的蛋白质折叠结构的变化值。具体地,预设损失函数可以根据突变后的氨基酸序列对应的角度距离分布计算对应的变化值;根据变化值可以评价突变后的氨基酸序列对应的折叠结构在结合界面的局部契合程度和/或在全局的良好折叠程度。其中,变化值越小,表示突变后的蛋白质折叠结构越好。
进一步地,在进行下一次突变时,则采用前一次突变后的氨基酸序列进行单个氨基酸的随机突变,以此类推,依序逐次进行突变,且每次针对氨基酸序列中的任意一个氨基酸进行随机突变,获得突变后的氨基酸序列及对应的角度距离分布,且每次突变均通过预设损失函数根据角度距离分布计算对应的变化值。可以理解,进行突变的单个氨基酸可以是目标基序中的氨基酸,也可以是目标基序以外的氨基酸。
S130,选取变化值符合预设条件的氨基酸序列作为优选序列。
在一实施方式中,当各突变后的氨基酸序列对应的变化值收敛后,选取变化值最小的突变后的氨基酸序列作为优选序列。可以理解,随着每一次突变均根据预设损失函数计算对应的变化值,变化值的数值可能发生变化。当多次变化值的平均值波动较小或者基本不变时,则可以确定变化值收敛。其中,可以在众多突变后的氨基酸序列中,符合预设条件的氨基酸序列可以是变化值最小的氨基酸序列。也就是说,通过获取一条起始序列,经过数次突变后,可以获得对应的一条变化值最小的优选序列或多条数值相同、变化值最小的优选序列。当然,在其他实施例中,符合预设条件的氨基酸序列也可以是在按照变化值的数值大小升序排列后的序列中,排名靠前的预设数量的序列,即可以选择变化值的数值较小的多条氨基酸序列作为优选序列。
从该示例可知,本申请的蛋白质的序列设计方法,根据具有预设长度及包括目标基序或随机序列的起始序列,通过依序逐次将前一次突变后的氨基酸序列中的单个氨基酸进行当前随机突变,并根据对应的角度距离分布通过预设损失函数计算对应的变化值,通过多次迭代获得变化值符合预设条件的突变后的氨基酸序列作为优选序列;这样的设计,针对任意一个起始序列,无需完整的蛋白质晶体结构,即可对应获得迭代突变后的优选序列,尤其是针对具有目标基序的起始序列,还可以更快地获得保留有目标基序特定功能的优选的氨基酸序列,从而帮助研发人员可以加速寻找或者生产与靶向受体具有一定结合作用力的蛋白质,提高研发效率,节省研发成本。
图2是本申请实施例示出的蛋白质的序列设计方法的另一流程示意图。图3是图2示出的蛋白质的序列设计方法的流程简图。
参见图2和图3,本申请一实施例提供的蛋白质的序列设计方法,包括:
S210,当起始序列包括目标基序时,将目标基序放置于指定位置,生成具有预设长度的起始序列。
本步骤中,针对目标基序在序列中指定位置的模式,即将目标基序放置于指定位置,是将所有目标基序放置于同一条具有预设长度的序列中的指定的不同的位置,从而生成对应的起始序列。当需要更换指定位置时,则可以重新将各目标基序分别放置于同一条序列中的新的指定位置,从而获得新的起始序列。为了便于理解,例如当预设长度为100,目标基序分别为两条长度为6的基序1和基序2时,可以指定将基序1放置于序列中的第1至第6的位置,将基序2放置于序列中的第31至第36的位置。
其中,起始序列中除了所有目标基序以外的氨基酸可以是任意的氨基酸。例如可以采用人体常见的20种氨基酸填补目标基序所在位置以外的位置,从而获得具有预设长度的起始序列。
S220,获取起始序列对应的角度距离分布。
本步骤中,可以根据trRosetta模型分别获得各起始序列对应的角度距离分布。可以理解,后续步骤中的每次突变后的氨基酸序列对应的角度距离分布也可以通过trRosetta模型获得。其中,trRosetta模型是一种用于预测蛋白质结构的残差网络深度学习与能量最小化模型,该模型根据多重序列比对的结果预测残基-残基的距离和方向,利用了更丰富的结构数据并转化为平滑的限制参数,用于Rosetta能量最小化建模。
S230,在预设模拟退火条件下,根据马尔科夫链蒙特卡洛算法,以起始序列开始对单个氨基酸进行随机突变,及依序根据前一次突变后的氨基酸序列及对应的角度距离分布对单个氨基酸进行当前随机突变,并分别通过预设准则根据各突变后的氨基酸序列对应的预设损失函数的变化值确定是否接受突变后的氨基酸序列。
本步骤中,预设模拟退火条件包括初始退火温度、持续模拟退火步数、每次降温幅度及降温间隔步数。其中,持续模拟退火步数可以根据预设长度设置;预设长度越长,则持续模拟退火步数越大。例如,当起始序列的预设长度为100个时,持续模拟退火步数可以为30000步,即从起始序列直至获得优选序列的过程中,需要经历30000次随机突变。持续模拟步数可以视为从起始序列直至筛选获得优选序列所经历的总的随机突变次数。再例如,初始退火温度T0=0.1,每次降温幅度decrease_factor=2.0,降温间隔步数decrease_range=5000。也就是说,在30000步随机突变中,初始退火温度0.1℃,每间隔5000步进行一次降温,每次降温幅度为2.0℃。通过设置预设模拟退火条件,从起始序列开始逐步进行每次单个氨基酸随机突变,可以得到更加优化的氨基酸序列。可以理解,当起始序列的预设长度较短时,在约1000步至10000步时就可以达到收敛。而随着蛋白质的复杂度提升,预设长度越大,所需要的收敛步数相应提升。本实施例中,在一实施方式中,预设长度可以是60至120。相应地,持续模拟退火步数可以是10000步至30000步。
进一步地,马尔科夫链蒙特卡洛算法是将蒙特卡罗法和马尔科夫链融合在一起,在概率空间通过随机采样估算参数的无法直接计算的后验分布。蒙特卡罗法为假设概率分布已知,通过重复的随机采样来获得近似值。对于复杂采样可以通过接受-拒绝法逐步将采样分布逼近真实分布。而马尔可夫链由存在概率相关性的状态组成,某时刻状态转移概率只与它的前一个状态有关。马尔科夫链具有处于平稳分布后任何转移的结果依然是平稳分布,若马尔科夫链是遍历的,则其极限分布为平稳分布的性质。本实施例中,通过融合两种算法,首先根据起始序列及其角度距离分布,在持续模拟退火的随机突变中,获得更好的氨基酸序列和对应的角度距离分布;接着将更好的氨基酸序列和对应的接受概率添加至马尔科夫链中进行下一次随机突变,直至采样过程的收敛,从而获得对真实后验分布的统计特征的最佳近似。
在一具体的实施方式中,以起始序列开始对单个氨基酸进行随机突变;当根据预设准则确定接受前一次突变后的氨基酸序列时,根据接受突变后的氨基酸序列及对应的角度距离分布进行当前随机突变;当根据预设准则拒绝接受前一次突变后的氨基酸序列时,以前一次突变之前的氨基酸序列重新进行单个氨基酸随机突变。也就是说,每一次完成随机突变后,需要根据预设准则判断是否接受当前突变后的氨基酸序列。当根据预设准则判断为接受当前突变后的氨基酸序列时,则以接受的突变后氨基酸序列进行下一次随机突变;如果根据预设准则判断为拒绝当前突变后的氨基酸序列时,则该氨基酸序列需要恢复至突变前的氨基酸序列,再重新进行突变,直至预设准则判断为接受后,以接受后的氨基酸序列继续进行下一次随机突变。可以理解,如果预设准则接受突变后的氨基酸序列,则代表该突变后的氨基酸序列很有可能是相较前一次突变获得的氨基酸序列更好,及具有更好的角度距离分布。其中,每次突变后的氨基酸序列分布根据trRosetta模型计算对应的角度距离分布。
进一步地,在一实施方式中,预设准则包括:如果当前随机突变后的氨基酸序列对应的变化值小于前一次突变后的氨基酸序列对应的变化值,则确定接受当前随机突变后的氨基酸序列;如果当前随机突变后的氨基酸序列对应的变化值大于或等于前一次突变后的氨基酸序列对应的变化值,则根据接受概率确定接受或拒绝当前随机突变后的氨基酸序列。本实施例中的预设准则可以是Metropolis准则,接受概率可以根据下述公式(1)确定。
P=min[1,exp(-(loss_i-loss_i-1)/T)] (1)
其中,loss_i为根据预设损失函数在第i次迭代时计算的变化值,loss_i为根据预设损失函数在第(i-1)次迭代时计算的变化值,T为当前退火温度。也就是说,当loss_i的数值小于loss_i-1的数值时,则P=1,必须接受当前突变后的氨基酸序列。如果loss_i的数值大于或等于loss_i-1的数值时,则P= exp(-(loss_i-loss_i-1)/T,此时可能接受,也可能拒绝该突变后的氨基酸序列,也即为概率接受该突变后的氨基酸序列。本实施例中,通过Metropolis-Hastings法进行概率采样,从而可以形成一种提高接受率但不影响平稳分布的方法,以解决高维采样率过低的问题,另外,通过跳出局部最优解,从而可以找到更好的全局最优解,即找到更优的优选序列。
进一步地,当起始序列包括目标基序时,预设损失函数包括基序损失函数与第一背景损失函数之和;其中,基序损失函数包括当前随机突变后的氨基酸序列的残基间角度距离分布与目标基序之间的残基角度距离分布之间的交叉熵;第一背景损失函数包括当前随机突变后的氨基酸序列的残基间角度距离分布和通过背景网络输出的除去目标基序以外的当前随机突变后的氨基酸序列的残基角度距离分布之间的KL散度(Kullback–Leiblerdivergence,相对熵)。其中,背景网络是指架构近似trRosetta的神经网络,背景网络可以将输入的氨基酸序列变成形状为L*64的随机高斯噪音,其中L为序列的预设长度。通过将随机高斯噪音输入背景网络,获得对应的残基角度距离分布,从而可以获得近似随机结构分布。
在一具体的实施方式中,基序损失函数Loss MS 可以根据下述公式(2)确定:
Figure 689933DEST_PATH_IMAGE001
(2)
第一背景损失函数Loss FH 可以根据下述公式(3)确定:
Figure 859884DEST_PATH_IMAGE002
(3)
其中d为残基间距离,ω为连接2个残基的β-C原子的轴的旋转角度,θ为残基2的β-C原子在以残基1为中心的旋转角度,φ为2个残基的β-C原子的轴与残基1的α-C、β-C、N原子之间的旋转角度,θ T 为残基1的β-C原子在以残基2为中心的旋转角度,φ T 为2个残基的β-C原子的轴与残基2的α-C、β-C、N原子之间的旋转角度,L为蛋白序列的预设长度,m为目标基序的遮蔽区域,i和j为残基对的2个残基。
也就是说,在每次进行随机突变后,可以根据上述公式(2)计算对应的基序损失函数对应的变化值,及根据公式(3)计算对应的第一背景损失函数对应的变化值,再将两个损失函数计算的变化值相加,即可获得该突变后的氨基酸序列对应的变化值。
S240,当各突变后的氨基酸序列对应的变化值收敛后,在接受突变后的氨基酸序列中选取变化值最小的突变后的氨基酸序列作为优选序列。
可以理解,在上一步骤中,每一次随机突变后的氨基酸序列,均根据预设损失函数计算出对应的变化值。在历经持续模拟退火步数后,变化值达到最低点,即新的突变后的氨基酸序列的变化值不会更低,从而达到收敛状态。进一步地,上述步骤在获得每一突变后的氨基酸序列后,还会根据预设准则确定是否接受,在众多接受的氨基酸序列中,选取变化值最小的突变后的氨基酸序列作为优选序列。
参见图4和图5,图4是本申请实施例示出的一个起始序列优化过程对应的预设损失函数的曲线变化图,图5是图4中变化值收敛后的优选序列的连接图(contact map)。图4中由上至下分别是基序损失函数、预设损失函数及第一背景损失函数对应的曲线图。当持续模拟退火步数为30000步时,预设损失函数的变化值逐渐变小直至收敛。从图5的连接图可知,所筛选获得的优选序列在图中呈现丰盈状态(不丰盈的情况是在图中仅出现一条对角线)。因此,本申请的蛋白质的序列设计方法可以获得折叠稳定的氨基酸序列。
如图6所示,图6是本申请实施例示出的5条具有不同预设长度的起始序列展开进行突变后的蛋白质的连接图。其中,第一列从上至下5条起始序列的预设长度分别为63、80、100、120及150。由图可知,每一行代表一条起始序列在执行对应退火步数后的连接图,在第0步、第1000步、第5000步、第10000步及第30000步时,抽取对应的连接图进行展示。随着退火步数的增长,连接图逐渐充盈,不同预设长度的五条起始序列沿着蒙特卡罗轨迹变得越来越清晰。
从该示例可以看出,本申请的方案,可以通过一条起始序列,经过有限次数的随机突变后,根据预设损失函数和预设准则判定筛选出最优的突变后的氨基酸序列,且可以保留目标基序的特定功能,定向生成对应的蛋白质,使其在能够折叠形成稳定结构的同时具有一定的亲和力。本申请的蛋白质的序列设计方法,完善了深度学习在蛋白质上的应用,其中的预设损失函数可以帮助并加速大分子药物研发人员寻找或者生成与靶向受体具有一定结合作用力的氨基酸序列,为后续进一步优化亲和力提供苗头分子。
图7是本申请实施例示出的蛋白质的序列设计方法的另一流程示意图。
参见图7,本申请一实施例提供的蛋白质的序列设计方法,包括:
S310,将目标基序放置于随机位置,生成具有预设长度的起始序列。
本步骤中,将目标基序移动至随机位置,是将各目标基序分别随机放置于预设长度的序列中的任意的不同的位置,即避免任意两个目标基序重叠在序列中的相同位置。优选地,为了提高优化效率,各目标基序可以根据其在原内源性蛋白质的序列中的原始位置,优先移动至序列中的对应位置,获得对应的起始序列。为了获得不同的起始序列,在一实施方式中,各目标基序每次分别在预设长度的序列中随机独立移动至不同的起始位置,对应获得包含目标基序位置的多个不同的起始序列。
步骤S320,获取起始序列对应的角度距离分布。
本步骤与S220的介绍相同,于此不再赘述。
S330,根据马尔科夫链蒙特卡洛算法,在预设模拟退火条件下的前期步数中,以起始序列开始将至少部分目标基序在序列中随机移动至新的位置,获得移位序列,并对移位序列中的单个氨基酸进行随机突变;及依序根据前一次接受突变后的移位序列在序列中进行至少部分目标基序的随机移动以获得当前移位序列后,根据前一次接受突变后的移位序列对应的角度距离分布对当前移位序列中的单个氨基酸进行当前随机突变,并分别通过预设准则根据各突变后的移位序列对应的预设损失函数的变化值确定是否接受突变后的移位序列,直至不再生成新的移位序列。
本步骤S330与步骤S230的区别在于,在持续模拟退火步数的前期步数中,每次发生突变的氨基酸序列中的目标基序在序列中的位置与前一次发生突变的氨基酸序列中的目标基序的位置不同。即从第一条起始序列开始,至少部分目标基序会在序列中随机移动至新的位置,或者全部目标基序在序列中随机移动至新的位置,从而获得对应的一条新的氨基酸序列,即为移位序列。
为了确保后续步骤中的各突变后的氨基酸序列对应的变化值收敛,所有目标基序的移动次数是有限的,即获得的移位序列的数量是有限的,持续模拟退火步数的前期步数中,每一步即对应一次序列中的至少部分目标基序的位置变动,获得对应的一条移位序列。在一实施方式中,根据起始序列的预设长度和目标基序的长度设置所有目标基序的总移动次数阈值。可以理解,当起始序列的预设长度越短,目标基序的长度越长,则所有目标基序的移动次数越少。进一步地,为了确保目标基序完成所有位置变动,在一实施方式中,预先设置目标基序每次移动的最大移动步长,各目标基序分别根据最大移动步长内的数值在序列中进行独立移动。即每一次随机移动中,每一目标基序的移动步长可以相同或不同,不同次之间的目标基序的移动步长可以相同或不同,互不干扰的同时,各自的移动步长均小于或等于最大移动步长的数值。其中,最大移动步长即每次移动步长的最大值,其可以根据预设长度计算获得,确保该数值不会因太大而导致无法完成所有位置变动,也不会因太小而陷入局部最优。例如,当最大移动步长为3时,则每一目标基序的移动步长可以是-3、-2、-1、0、1、2或3步。即单个目标基序可根据当前所在位置为基准,负值即为朝序列的左边移动3步、2步或1步,正值即为朝序列的右边移动1步、2步或3步。每一目标基序在每次发生移动时,可以按照在最大移动步长下的任一移动步长,随机在序列中左右移动至序列中的某个位置。
进一步地,为了便于理解,例如,以起始序列开始将至少部分目标基序按照最大移动步长下的任一移动步长,在序列中随机移动至新的位置,获得第一条移位序列,并对第一条移位序列中的单个氨基酸进行随机突变,再通过预设准则根据突变后的第一条移位序列对应的预设损失函数的变化值确定是否接受该条突变后的移位序列,从而在预设模拟退火条件下完成第一步。如果判断结果为接受突变后的第一条移位序列,则开始执行第二步,即第一条突变后的移位序列中的至少部分目标基序在序列中随机移动至新的位置,获得第二条移位序列,并对第二条移位序列中的单个氨基酸进行随机突变,并采用前述同样的方法判断是否接受突变后的第二条移位序列。如果拒绝接受第二条移位序列,则开始执行第三步,以突变之前的第二条序列中的至少部分目标基序随机移动至新的位置,获得第三条移位序列,并对第三条移位序列中的单个氨基酸进行随机突变,并采用前述同样的方法判断是否接受突变后的第三条移位序列,以此类推,每一步都会进行目标基序的位置随机移动、单个氨基酸随机突变及判断是否接受突变后的移位序列,直至所有目标基序无法再移动至新的位置,即完成所有位置变动,无法再生成新的移位序列,则执行后续步骤S340。
为了便于理解,以30000步的持续模拟退火步数为例,可能前期5000步用于执行本上述方案,于此仅做举例说明,实际前期需要执行的步数根据实际情况而定,不作限制。
S340,根据马尔科夫链蒙特卡洛算法,在预设模拟退火条件下的后期步数中,根据最后接受突变的移位序列开始对单个氨基酸进行随机突变,及依序根据前一次突变后的氨基酸序列及对应的角度距离分布对单个氨基酸进行当前随机突变;并分别通过预设准则根据各突变后的氨基酸序列对应的预设损失函数的变化值确定是否接受突变后的氨基酸序列。
本步骤S340与步骤S230的区别在于,本步骤是采用步骤S330生成的最后一条起始序列开始运行,而步骤S230直接采用起始序列开始运行。
当步骤S330生成最后的一条移位序列后,如果接受该突变后的移位序列,则以突变后的移位序列开始,参照步骤S230执行相同的方案。如果拒绝最后一条突变后的移位序列,则以最后一条移位序列突变之前的移位序列开始,参照步骤S230执行相同的方案,即本步骤后期不会在序列中发生目标基序的位置移动。
为了便于理解,以30000步的持续模拟退火步数为例,可能后期25000步用于执行本步骤S340中的方案。可以理解,本数据仅做举例说明,实际步数根据真实情况确定。
S350,当各突变后的氨基酸序列对应的变化值收敛后,在接受突变后的氨基酸序列中选取变化值最小的突变后的氨基酸序列作为优选序列。
本步骤的相关介绍与步骤S240相同,于此不再赘述。
也就是说,综合步骤S330和S340,从起始序列开始,前期的模拟退火步数中,每一步的氨基酸突变均基于移位序列;后期的模拟退火步数中,每一步的氨基酸突变基于目标基序位置固定后的氨基酸序列。尽管前期和后期存在区别,但每一步均在通过计算突变后的氨基酸序列对应的变化值,即根据预设损失函数计算出对应的变化值逐步达到收敛,从而可以在执行完全部模拟退火步数后,可以筛选出变化值最小的突变后的氨基酸序列作为优选序列。
从该示例可知,本实施例在模拟退火步数的前期的目标基序在序列中处于随机移动至新位置的模式,后期的目标基序在序列中处于固定位置的模式(即等同于上述实施例的指定位置模式),这样的设计,可以使目标基序在序列中自动寻找到更佳的位置并达成变化值的收敛,从而更宽泛地获得全局更优的优选序列。
图8是本申请实施例示出的蛋白质的序列设计方法的另一流程示意图。
参见图8,本申请一实施例提供的蛋白质的序列设计方法,包括:
S410,根据随机序列,生成具有预设长度的起始序列。
本步骤中,随机序列中的每个氨基酸可以选自20种常见氨基酸。预设长度可以自定义设置。
S420,获取起始序列对应的角度距离分布。
本步骤可以参考上述步骤S220中的相关描述,于此不再赘述。
S430,在预设模拟退火条件下,根据马尔科夫链蒙特卡洛算法,以起始序列开始对单个氨基酸进行随机突变,及依序根据前一次突变后的氨基酸序列及对应的角度距离分布对单个氨基酸进行当前随机突变,并分别通过预设准则根据对应的预设损失函数的变化值确定是否接受突变后的氨基酸序列。
本步骤与步骤S230的区别在于,本实施例中的预设损失函数包括第二背景损失函数,第二背景损失函数包括当前随机突变后的氨基酸序列的残基间角度距离分布和通过背景网络输出的当前随机突变后的氨基酸序列中的残基角度距离分布之间的KL散度。也就是说,由于本实施例中的起始序列不包括目标基序,则不需要基序损失函数,只需要根据第二背景损失函数计算当前随机突变后的氨基酸序列的变化值即可。
其中,第二背景损失函数的计算公式与上述公式(3)相同,于此不作赘述。
S440,当各突变后的氨基酸序列对应的变化值收敛后,在接受突变后的氨基酸序列中选取变化值最小的突变后的氨基酸序列作为优选序列。
本步骤可以参考上述步骤S240中的相关描述,于此不再赘述。
从该示例可知,本申请的技术方案,通过输入一条具有预设长度的随机序列,也可以在预设模拟退火条件下,根据马尔科夫链蒙特卡洛算法获得对应的一条优选序列,从而为研发人员针对各类型的起始序列预测一条具有良好折叠结构的蛋白序列提供了便捷有效地数据支持,极大地提高了研发效率,减少实验和试错机会,降低研发成本。
图9是本申请实施例示出的蛋白质的结构设计方法的流程示意图。
参见图9,本申请一实施例提供的蛋白质的结构设计方法,包括:
S510,获取优选序列或指定序列。
本步骤中,获取的序列可以是指定的氨基酸序列,即指定序列;也可以是根据上述蛋白质的序列设计方法获得的优选序列。也就是说,优选序列可以是包含了目标基序的氨基酸序列,或者包含了目标基序突变后的氨基酸序列。
S520,根据优选序列或指定序列生成对应的候选蛋白质结构。
本步骤中,可以根据trRosetta模型预测出优选序列对应的角度距离分布,并在此基础上根据Rosetta模型进行精修优化,从而获得候选蛋白质结构,输出的候选蛋白结构可以按照pdb格式进行保存。
S530,根据预设指标在候选蛋白质结构中选取优选结构。
可以理解,根据步骤S510中的每条优选序列,可以进一步根据步骤S520获得对应的候选蛋白质结构。在各候选蛋白质结构中,可以根据预设指标进行筛选,从而获得符合预设指标的优选结构。即优选结构的数量可能不止一个。
在一具体的实施方式中,预设指标包括以下至少一个或多个指标。优选地,预设指标包括以下全部指标。预设指标包括:候选蛋白质结构的骨架上的碳原子与目标基序之间的均方根偏差小于第一预设值。候选蛋白质结构的连接图的系数程度小于第二预设值。候选蛋白质结构内的氨基酸不存在碰撞或重叠,即不存在冲突(clash)。候选蛋白质结构中的连续环区(loop)的个数不超过第三预设值。候选蛋白质结构中的二级结构种类数量大于第四预设值。候选蛋白质结构中的内核氨基酸比例大于第五预设值,其中,内核氨基酸是指不位于蛋白质结构表面,而位于内部的氨基酸。上述第一预设值至第五预设值的具体阈值根据优选序列的预设长度进行确定。例如,当优选序列的长度为63时,第一预设值可以是2.5,第二预设值可以是0.5,第三预设值可以是6,第四预设值可以是2,第五预设值可以是20%。也就是说,当候选蛋白质结构中的骨架上的碳原子与目标基序之间的均方根偏差小于2.5,候选蛋白质结构的连接图的系数程度小于0.5,候选蛋白质结构内的氨基酸不存在碰撞或重叠,候选蛋白质结构中的连续环区(loop)的个数不超过6个,候选蛋白质结构中的二级结构种类数量大于2种,候选蛋白质结构中的内核氨基酸比例大于20%时,该候选蛋白质结构为优选结构。通过筛选,即可在各候选蛋白质结构中获得优选结构及对应的优选序列。
该示例可知,本申请的蛋白质结构的设计方法,可以根据一条指定的氨基酸序列或者经过优化后获得的优选序列,获得对应的候选蛋白质结构;并通过预设指标即可以快速筛选出符合要求的优选结构,从而也确定对应的氨基酸序列。这样的设计,结合上述序列设计方法,可以根据需求灵活选用设计方法,即可以获得优选序列,也可以获得优选结构,从而提高获得具有特定功能的蛋白质结构的研发效率,节约研发成本。
与前述应用功能实现方法实施例相对应,本申请还提供了一种蛋白质的序列设计装置、蛋白质的结构设计装置、电子设备及相应的实施例。
图10是本申请实施例示出的蛋白质的序列设计装置的结构示意图。
参见图10,本申请一实施例提供的蛋白质的序列设计装置600,包括数据获取模块610、处理模块620及序列筛选模块630。其中:
数据获取模块610用于获取具有预设长度的起始序列和对应的角度距离分布;其中,起始序列为包括目标基序的序列或随机序列。
处理模块620用于以起始序列开始对单个氨基酸进行随机突变,及依序根据前一次突变后的氨基酸序列及对应的角度距离分布对单个氨基酸进行当前随机突变,并分别按照预设损失函数根据对应的角度距离分布确定各突变后的氨基酸序列对应的变化值。
序列筛选模块630用于选取变化值符合预设条件的氨基酸序列作为优选序列。
在一具体实施方式中,数据获取模块610包括起始序列获取模块611和角度距离分布获取模块612。起始序列获取模块611用于当起始序列包括目标基序时,将目标基序放置于指定位置,生成具有预设长度的起始序列;或将目标基序放置至随机位置,生成具有预设长度的起始序列。角度距离分布获取模块612用于根据trRosetta模型预测获得起始序列的角度距离分布和每次突变后的氨基酸序列的角度距离分布。
进一步地,参见图11,处理模块620还可以包括突变模块621、计算模块622及判断模块623。其中,突变模块621用于在预设模拟退火条件下,根据马尔科夫链蒙特卡洛算法,以起始序列开始对单个氨基酸进行随机突变;当根据预设准则确定接受前一次突变后的氨基酸序列时,根据接受突变后的氨基酸序列及对应的角度距离分布进行当前随机突变;当根据预设准则拒绝接受前一次突变后的氨基酸序列时,以前一次突变之前的氨基酸序列重新进行单个氨基酸随机突变。进一步地,突变模块621每一次突变后的氨基酸序列可以通过角度距离分布获取模块612预测获得对应的角度距离分布。
计算模块622用于分别按照预设损失函数根据对应的角度距离分布确定各突变后的氨基酸序列对应的变化值。判断模块623用于分别通过预设准则根据各突变后的氨基酸序列对应的预设损失函数的变化值确定是否接受突变后的氨基酸序列。可以理解,如果接受突变后的氨基酸序列,则由突变模块621根据接受突变后的氨基酸序列进行下一次随机突变。如果拒绝突变后的氨基酸序列,则由突变模块621根据突变前的氨基酸序列重新进行随机突变。其中,预设准则包括:如果当前随机突变后的氨基酸序列对应的变化值小于前一次突变后的氨基酸序列对应的变化值,则确定接受当前随机突变后的氨基酸序列;如果当前随机突变后的氨基酸序列对应的变化值大于或等于前一次突变后的氨基酸序列对应的变化值,则根据接受概率确定接受或拒绝当前随机突变后的氨基酸序列。序列筛选模块用于当各突变后的氨基酸序列对应的变化值收敛后,选取变化值最小的突变后的氨基酸序列作为优选序列。优选地,预设准则可以是Metropolis准则。
在另一实施例中,突变模块621用于在预设模拟退火条件下的前期步数中,以起始序列开始将至少部分目标基序在序列中随机移动至新的位置,获得移位序列,并对移位序列中的单个氨基酸进行随机突变,及依序根据前一次接受突变后的移位序列在序列中进行至少部分目标基序的随机移动以获得当前移位序列后,根据前一次接受突变后的移位序列对应的角度距离分布对当前移位序列中的单个氨基酸进行当前随机突变;在预设模拟退火条件下的后期步数中,根据最后接受突变的移位序列开始对单个氨基酸进行随机突变,及依序根据前一次突变后的氨基酸序列及对应的角度距离分布对单个氨基酸进行当前随机突变。计算模块622用于分别通过预设准则根据各突变后的移位序列对应的预设损失函数的变化值,及分别通过预设准则根据各突变后的氨基酸序列对应的预设损失函数的变化值。判断模块623用于分别通过预设准则根据各突变后的移位序列和氨基酸序列对应的预设损失函数的变化值确定是否接受突变后的移位序列和氨基酸序列。其中,根据起始序列的预设长度和目标基序的长度设置所有目标基序的总移动次数阈值。预先设置目标基序每次移动的最大移动步长,各目标基序分别根据最大移动步长内的数值在序列中进行独立移动。
进一步地,当起始序列包括目标基序时,预设损失函数包括基序损失函数与第一背景损失函数之和;其中,基序损失函数包括当前随机突变后的氨基酸序列的残基间角度距离分布与目标基序之间的残基角度距离分布之间的交叉熵;第一背景损失函数包括当前随机突变后的氨基酸序列的残基间角度距离分布和通过背景网络输出的除去目标基序以外的当前随机突变后的氨基酸序列的残基角度距离分布之间的KL散度。
当起始序列不包括目标基序时,预设损失函数包括第二背景损失函数,第二背景损失函数包括当前随机突变后的氨基酸序列的残基间角度距离分布和通过背景网络输出的当前随机突变后的氨基酸序列中的残基角度距离分布之间的KL散度。
本申请的蛋白质的序列设计装置,可以灵活满足根据不同起始序列预测获得对应的优选序列,还可以定向预测获得具有特定功能的优选序列,有效提高研发人员的研发效率,减少实验试错次数,降低研发成本。
图12是本申请实施例示出的蛋白质的结构设计装置的结构示意图。
参见图12,本申请一实施例提供的蛋白质的结构设计装置700,包括序列获取模块710、结构生成模块720及结构筛选模块730。其中:
序列获取模块710用于根据上述的蛋白质的序列设计方法,获取优选序列。
结构生成模块720用于根据优选序列生成对应的候选蛋白质结构。
结构筛选模块730用于根据预设指标在候选蛋白质结构中选取优选结构。
进一步地,本实施例中,序列获取模块710还用于获取指定的氨基酸序列或随机的氨基酸序列。结构生成模块720用于根据trRosetta模型预测出优选序列对应的角度距离分布,并在此基础上根据Rosetta模型进行精修优化,获得候选蛋白质结构。结构筛选模块730用于根据以下全部预设指标在候选蛋白质结构中选取优选结构。其中,预设指标包括:候选蛋白质结构的骨架上的碳原子与目标基序之间的均方根偏差小于第一预设值;候选蛋白质结构的连接图的系数程度小于第二预设值;候选蛋白质结构内的氨基酸不存在碰撞或重叠;候选蛋白质结构中的连续环区的个数不超过第三预设值;候选蛋白质结构中的二级结构种类数量大于第四预设值;候选蛋白质结构中的内核氨基酸比例大于第五预设值。
本申请的蛋白质的结构设计装置,可以根据灵活根据不同的序列筛选获得优选结构,尤其可以定向根据优选序列和预设指标筛选获得特定功能的且折叠稳定性好的蛋白结构,极为方便地为研发人员筛选和预测优秀的蛋白结构,节省不必要的实验过程,提高研发效率和降低研发成本。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
图13是本申请实施例示出的电子设备的结构示意图。
参见图13,电子设备1000包括存储器1010和处理器1020。
处理器1020可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器1010可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM)和永久存储装置。其中,ROM可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1010可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(例如DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1010可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等)、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器1010上存储有可执行代码,当可执行代码被处理器1020处理时,可以使处理器1020执行上文述及的方法中的部分或全部。
此外,根据本申请的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。
或者,本申请还可以实施为一种计算机可读存储介质(或非暂时性机器可读存储介质或机器可读存储介质),其上存储有可执行代码(或计算机程序或计算机指令代码),当可执行代码(或计算机程序或计算机指令代码)被电子设备(或服务器等)的处理器执行时,使处理器执行根据本申请的上述方法的各个步骤的部分或全部。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。

Claims (14)

1.一种蛋白质的序列设计方法,其特征在于,包括:
获取具有预设长度的起始序列和对应的角度距离分布;其中,所述起始序列为包括目标基序的序列或随机序列;
以所述起始序列开始对单个氨基酸进行随机突变,及依序根据前一次突变后的氨基酸序列及对应的角度距离分布对单个氨基酸进行当前随机突变,并分别按照预设损失函数根据对应的所述角度距离分布确定各突变后的氨基酸序列对应的变化值;其中,当所述起始序列包括所述目标基序时,所述预设损失函数包括基序损失函数与第一背景损失函数之和;其中,所述基序损失函数包括当前随机突变后的氨基酸序列的残基间角度距离分布与目标基序之间的残基角度距离分布之间的交叉熵;所述第一背景损失函数包括所述当前随机突变后的氨基酸序列的残基间角度距离分布和通过背景网络输出的除去目标基序以外的所述当前随机突变后的氨基酸序列的残基角度距离分布之间的KL散度;或,当所述起始序列不包括所述目标基序时,所述预设损失函数包括第二背景损失函数,所述第二背景损失函数包括当前随机突变后的氨基酸序列的残基间角度距离分布和通过背景网络输出的所述当前随机突变后的氨基酸序列中的残基角度距离分布之间的KL散度;
选取所述变化值符合预设条件的氨基酸序列作为优选序列。
2.根据权利要求1所述的方法,其特征在于,所述获取具有预设长度的起始序列和对应的角度距离分布;其中,所述起始序列为包括目标基序的序列或随机序列,包括:
当所述起始序列包括目标基序时,将所述目标基序放置于指定位置,生成具有预设长度的起始序列;或将所述目标基序放置于随机位置,生成具有预设长度的起始序列。
3.根据权利要求1所述的方法,其特征在于,所述以所述起始序列开始对单个氨基酸进行随机突变,及依序根据前一次突变后的氨基酸序列及对应的角度距离分布对单个氨基酸进行当前随机突变,包括:
在预设模拟退火条件下,根据马尔科夫链蒙特卡洛算法,以起始序列开始对单个氨基酸进行随机突变;
当根据预设准则确定接受前一次突变后的氨基酸序列时,根据接受突变后的氨基酸序列及对应的角度距离分布进行当前随机突变;
当根据所述预设准则拒绝接受前一次突变后的氨基酸序列时,以前一次突变之前的氨基酸序列重新进行单个氨基酸随机突变。
4.根据权利要求3所述的方法,其特征在于,所述预设准则包括:
如果当前随机突变后的氨基酸序列对应的变化值小于前一次突变后的氨基酸序列对应的变化值,则确定接受当前随机突变后的氨基酸序列;
如果当前随机突变后的氨基酸序列对应的变化值大于或等于前一次突变后的氨基酸序列对应的变化值,则根据接受概率确定接受或拒绝当前随机突变后的氨基酸序列。
5.根据权利要求2所述的方法,其特征在于,所述将所述目标基序放置于随机位置,生成具有预设长度的起始序列之后,
所述以所述起始序列开始对单个氨基酸进行随机突变,及依序根据前一次突变后的氨基酸序列及对应的角度距离分布对单个氨基酸进行当前随机突变,并分别按照预设损失函数根据对应的所述角度距离分布确定各突变后的氨基酸序列对应的变化值,包括:
根据马尔科夫链蒙特卡洛算法,在预设模拟退火条件下的前期步数中,以起始序列开始将至少部分目标基序在序列中随机移动至新的位置,获得移位序列,并对移位序列中的单个氨基酸进行随机突变,及依序根据前一次接受突变后的移位序列在序列中进行至少部分目标基序的随机移动以获得当前移位序列后,根据前一次接受突变后的移位序列对应的角度距离分布对当前移位序列中的单个氨基酸进行当前随机突变,并分别通过预设准则根据各突变后的移位序列对应的预设损失函数的变化值确定是否接受突变后的移位序列,直至不再生成新的移位序列;
在所述预设模拟退火条件下的后期步数中,根据最后接受突变的所述移位序列开始对单个氨基酸进行随机突变,及依序根据前一次突变后的氨基酸序列及对应的角度距离分布对单个氨基酸进行当前随机突变;并分别通过预设准则根据各突变后的氨基酸序列对应的预设损失函数的变化值确定是否接受突变后的氨基酸序列。
6.根据权利要求2所述的方法,其特征在于,所述将所述目标基序放置于随机位置,生成具有预设长度的起始序列之后,包括:
根据所述起始序列的预设长度和所述目标基序的长度设置所有目标基序的总移动次数阈值。
7.根据权利要求2所述的方法,其特征在于,所述将所述目标基序放置于随机位置,生成具有预设长度的起始序列之后,包括:
预先设置所述目标基序每次移动的最大移动步长,各目标基序分别根据最大移动步长内的数值在序列中进行独立移动。
8.根据权利要求1所述的方法,其特征在于,所述选取所述变化值符合预设条件的氨基酸序列作为优选序列,包括:
当各突变后的氨基酸序列对应的变化值收敛后,选取变化值最小的突变后的氨基酸序列作为优选序列。
9.一种蛋白质结构的设计方法,其特征在于,包括:
根据权利要求1至8所述的蛋白质的序列设计方法,获取优选序列;
根据所述优选序列生成对应的候选蛋白质结构;
根据预设指标在所述候选蛋白质结构中选取优选结构。
10.根据权利要求9所述的方法,其特征在于,所述预设指标包括以下至少一个或多个指标:
所述候选蛋白质结构的骨架上的碳原子与目标基序之间的均方根偏差小于第一预设值;
所述候选蛋白质结构的连接图的系数程度小于第二预设值;
所述候选蛋白质结构内的氨基酸不存在碰撞或重叠;
所述候选蛋白质结构中的连续环区的个数不超过第三预设值;
所述候选蛋白质结构中的二级结构种类数量大于第四预设值;
所述候选蛋白质结构中的内核氨基酸比例大于第五预设值。
11.一种蛋白质的序列设计装置,其特征在于,包括:
数据获取模块,用于获取具有预设长度的起始序列和对应的角度距离分布;其中,所述起始序列为包括目标基序的序列或随机序列;
处理模块,用于以所述起始序列开始对单个氨基酸进行随机突变,及依序根据前一次突变后的氨基酸序列及对应的角度距离分布对单个氨基酸进行当前随机突变,并分别按照预设损失函数根据对应的所述角度距离分布确定各突变后的氨基酸序列对应的变化值;其中,当所述起始序列包括所述目标基序时,所述预设损失函数包括基序损失函数与第一背景损失函数之和;其中,所述基序损失函数包括当前随机突变后的氨基酸序列的残基间角度距离分布与目标基序之间的残基角度距离分布之间的交叉熵;所述第一背景损失函数包括所述当前随机突变后的氨基酸序列的残基间角度距离分布和通过背景网络输出的除去目标基序以外的所述当前随机突变后的氨基酸序列的残基角度距离分布之间的KL散度;或,当所述起始序列不包括所述目标基序时,所述预设损失函数包括第二背景损失函数,所述第二背景损失函数包括当前随机突变后的氨基酸序列的残基间角度距离分布和通过背景网络输出的所述当前随机突变后的氨基酸序列中的残基角度距离分布之间的KL散度;
序列筛选模块,用于选取所述变化值符合预设条件的氨基酸序列作为优选序列。
12.一种蛋白质的结构设计装置,其特征在于,包括:
序列获取模块,用于根据权利要求1至10所述的蛋白质的序列设计方法,获取优选序列;
结构生成模块,用于根据所述优选序列生成对应的候选蛋白质结构;
结构筛选模块,用于根据预设指标在所述候选蛋白质结构中选取优选结构。
13.一种电子设备,其特征在于,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-10中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-10中任一项所述的方法。
CN202210120554.XA 2022-02-09 2022-02-09 蛋白质的序列设计方法、蛋白质的结构设计方法、装置及电子设备 Active CN114155912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210120554.XA CN114155912B (zh) 2022-02-09 2022-02-09 蛋白质的序列设计方法、蛋白质的结构设计方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210120554.XA CN114155912B (zh) 2022-02-09 2022-02-09 蛋白质的序列设计方法、蛋白质的结构设计方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN114155912A CN114155912A (zh) 2022-03-08
CN114155912B true CN114155912B (zh) 2022-05-17

Family

ID=80450071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210120554.XA Active CN114155912B (zh) 2022-02-09 2022-02-09 蛋白质的序列设计方法、蛋白质的结构设计方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114155912B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002014875A2 (en) * 2000-08-16 2002-02-21 Ramot University Authority For Applied Research & Industrial Development Ltd. Method and system for predicting amino acid sequence
WO2012088006A1 (en) * 2010-12-22 2012-06-28 Bristol-Myers Squibb Company Fibronectin based scaffold domain proteins that bind il-23
CN106778065B (zh) * 2016-12-30 2019-02-01 同济大学 一种基于多元数据预测dna突变影响蛋白互作的预测方法
CN110349627B (zh) * 2019-06-27 2021-08-27 杭州纽安津生物科技有限公司 多肽疫苗序列的设计方法及其自动化设计产品
CN111128300B (zh) * 2019-12-26 2023-03-24 上海市精神卫生中心(上海市心理咨询培训中心) 基于突变信息的蛋白相互作用影响判断方法

Also Published As

Publication number Publication date
CN114155912A (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
Cui et al. A novel artificial bee colony algorithm with an adaptive population size for numerical function optimization
Zhang et al. SPICKER: a clustering approach to identify near‐native protein folds
Dirks et al. A partition function algorithm for nucleic acid secondary structure including pseudoknots
Jumper et al. Trajectory-based training enables protein simulations with accurate folding and Boltzmann ensembles in cpu-hours
KR20190086134A (ko) 인공 신경망을 구성하는 복수의 학습 모델 중 최적 학습 모델 선택 방법 및 장치
Tanaka et al. A multi-label approach using binary relevance and decision trees applied to functional genomics
Crawford et al. Fair evaluation of global network aligners
Memišević et al. An integrative approach to modeling biological networks
Calvo et al. Comparison of parallel multi-objective approaches to protein structure prediction
Brain et al. Optimization of a genetic algorithm for searching molecular conformer space
Calvo et al. PITAGORAS-PSP: Including domain knowledge in a multi-objective approach for protein structure prediction
Pitra et al. Overview of surrogate-model versions of covariance matrix adaptation evolution strategy
CN114155912B (zh) 蛋白质的序列设计方法、蛋白质的结构设计方法、装置及电子设备
Lamiable et al. An algorithmic game-theory approach for coarse-grain prediction of RNA 3D structure
Li et al. An overlapping oriented imbalanced ensemble learning algorithm with weighted projection clustering grouping and consistent fuzzy sample transformation
Bahrami et al. RNA-PAIRS: RNA probabilistic assignment of imino resonance shifts
US12099916B2 (en) Data processing method and apparatus using neural network and electronic device including the same
Boudard et al. GARN2: coarse-grained prediction of 3D structure of large RNA molecules by regret minimization
Sait et al. Optimization of FPGA-based CNN accelerators using metaheuristics
Rezaei et al. Improving the accuracy of protein-ligand binding affinity prediction by deep learning models: benchmark and model
Jindal et al. A machine learning method for predicting disease-associated microRNA connections using network internal topology data
CN113963758A (zh) 无序材料热力学稳定结构的预测推荐方法、设备、终端
Hallén et al. Detection of compound mode of action by computational integration of whole-genome measurements and genetic perturbations
WO2019198408A1 (ja) 学習装置、学習方法、及び学習プログラム
Zhang et al. Unsupervised integration of multiple protein disorder predictors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant