CN117980995A - 多肽结构的时空确定 - Google Patents

多肽结构的时空确定 Download PDF

Info

Publication number
CN117980995A
CN117980995A CN202280051565.5A CN202280051565A CN117980995A CN 117980995 A CN117980995 A CN 117980995A CN 202280051565 A CN202280051565 A CN 202280051565A CN 117980995 A CN117980995 A CN 117980995A
Authority
CN
China
Prior art keywords
polypeptide
function
parameter
residue
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280051565.5A
Other languages
English (en)
Inventor
奥利弗·达顿
卡洛·费西卡罗
马修·迈克尔·赫伯林
路易·德里克·亨德森
伊斯特万·雷德尔
卡米尔·塔米奥拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peptone Co ltd
Original Assignee
Peptone Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peptone Co ltd filed Critical Peptone Co ltd
Publication of CN117980995A publication Critical patent/CN117980995A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/705Receptors; Cell surface antigens; Cell surface determinants
    • C07K14/70503Immunoglobulin superfamily
    • C07K14/70535Fc-receptors, e.g. CD16, CD32, CD64 (CD2314/705F)
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medicinal Chemistry (AREA)
  • Immunology (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Zoology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Genetics & Genomics (AREA)
  • Toxicology (AREA)
  • Cell Biology (AREA)
  • Analytical Chemistry (AREA)
  • Library & Information Science (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本文公开了使用从分子动力学模拟生成的基于时间的数据计算机模拟生成多肽结构的方法。本文还公开了使用计算机模拟方法预测多肽的表位或结合表面的方法。本文还公开了含有多肽治疗剂的组合物,该多肽治疗剂被设计为结合至多肽的预测表位结构,以及通过向受试者施用含有该多肽治疗剂的组合物来治疗受试者的方法。

Description

多肽结构的时空确定
交叉引用
本申请要求于2021年5月21日提交的欧洲申请第21382464.2号的权益,该欧洲申请通过引用以其整体并入。
序列表
本申请包括序列表,该序列表已经以ASCII格式电子提交并且特此通过引用以其整体并入。于2022年5月13日生成的所述ASCII副本被命名为199589-701601_ST25.txt并且大小为7,000字节。
背景
多肽结构的准确预测有望解锁与各种疾病有关的蛋白质的成药性。虽然诸如X射线晶体学的技术可以用于阐明多肽结构,但这样的技术在表达不良或折叠不良的蛋白质中受到阻碍。因此,使用计算机模拟技术预测结构有望解锁这样的蛋白质的治疗潜力。
概述
本文提供了计算机模拟多肽结构生成的方法,该方法包括:(a)进行多肽的分子动力学(MD)模拟以生成作为时间的函数的输出数据,其中输出数据包含多肽的三级结构构象信息;(b)将输出数据编码为函数以生成向量映射,其中向量映射包含:(i)源自多肽中的氨基酸的MD模拟的至少一个残基特异性性质;和(ii)源自多肽中的至少两个氨基酸的MD模拟的至少一个成对性质;以及(c)将机器学习算法应用至向量映射,以基于至少一个残基特异性性质和至少一个成对性质生成预测多肽结构。在一些实施方案中,向量映射包括D维阵列,其中D是(i)的残基特异性性质和(ii)的成对性质的数目。在一些实施方案中,机器学习算法是无监督算法。在一些实施方案中,机器学习算法是监督算法。在一些实施方案中,在进行MD模拟之前,已知的结构数据可以用作输入。这样的结构数据可以例如从通过X射线晶体学生成的静态结构获得;或者通过例如从NMR生成的动态结构获得。在一些实施方案中,残基特异性性质包括库仑能量、范德华能量、残基标记、GRAVY评分或其任何组合。在一些实施方案中,成对性质包括至少两个氨基酸之间的库仑能量、至少两个氨基酸之间的范德华能量、至少两个氨基酸之间的距离或其任何组合。在一些实施方案中,函数是连续时间动态图函数。在一些实施方案中,函数是离散时间动态图函数。在一些实施方案中,MD模拟包括副本交换分子动力学(Replica Exchange Molecular Dynamics)。在一些实施方案中,MD模拟包括蒙特卡洛动力学(Monte Carlo Dynamics)。在一些实施方案中,编码包括动态残基嵌入。在一些实施方案中,方法还包括生成衍生自所述函数的第二函数,其中第二函数包括基于动态残基嵌入的静态蛋白质嵌入。在一些实施方案中,方法还包括将来自晶体结构的数据编码成函数。在一些实施方案中,方法还包括将预测结构输入数据库中。在一些实施方案中,方法还包括将预测结构与数据库中的疾病状态关联。在一些实施方案中,方法还包括基于预测结构和疾病状态选择干预疗法。还公开了包括计算机可读存储器的系统。在一些实施方案中,计算机可读存储器包括用于进行本文描述的计算机模拟多肽结构生成的方法的指令。
本文提供了生成表位结构的方法,该方法包括:(a)提供多肽序列;(b)计算多肽序列中的多于一个表位结构的指数评分,其中基于以下中的至少两个来计算指数评分:表位的结构突出参数、无序参数或保守参数,其中:(i)基于包含靶多肽的多序列比对中至少两个氨基酸残基的保守性来计算保守参数;(ii)无序参数和结构突出参数源自包含靶多肽的同源物的聚集结构的同源模型的分子动力学(MD)模拟;以及(iii)指数评分与结构突出参数和保守参数成正比,并且与无序参数成反比;以及(c)对指数评分进行排序,以从具有最高指数评分的多于一个表位结构中选择表位结构。在一些实施方案中,方法还包括生成互补位结构,该互补位结构被预测特异性结合至表位结构。在一些实施方案中,方法还包括制备包含互补位结构的治疗剂。在一些实施方案中,治疗剂是小分子。在一些实施方案中,治疗剂是多肽。在一些实施方案中,多肽是抗体。在一些实施方案中,多肽是纳米抗体。在一些实施方案中,分子动力学模拟是副本交换分子动力学模拟。在一些实施方案中,结构突出参数通过靶多肽中暴露的氨基酸的溶剂可及表面积确定。在一些实施方案中,结构突出参数通过靶多肽的原子体积映射确定。在一些实施方案中,无序参数通过靶多肽的主链中α碳的均方根波动(root mean square fluctuation)确定。在一些实施方案中,无序参数通过靶多肽的主链中的N-H键级确定。在一些实施方案中,方法还包括基于同源模型生成靶多肽的自由能表面表示,从而确定靶多肽在自由能最小值处的被表示的构象(representedconformations)。在一些实施方案中,方法还包括基于给定自由能最小值处的表示幅度来捆绑被表示的构象。在一些实施方案中,方法还包括在计算指数评分之前生成包含图节点和图边的图网络,其中图节点包括多肽的α碳,并且图边包括多肽的主链中至少两个α碳原子之间的相互作用。在一些实施方案中,方法还包括将聚类算法应用至图网络。在一些实施方案中,聚类算法选自由以下组成的组:K-均值聚类、t-分布随机邻近嵌入及其任何组合。在一些实施方案中,方法还包括将经验数据应用至指数评分。在一些实施方案中,经验数据包括抗体与靶多核苷酸表位的结合的IC50。在一些实施方案中,同源模型是靶多肽的溶剂化模型。还公开了包括计算机可读存储器的系统。在一些实施方案中,计算机可读存储器包括用于进行本文描述的产生表位结构的方法的指令。
本文还公开了包含互补位结构的多肽,其中该互补位结构通过本文描述的生成表位结构的方法获得。
附图简述
在所附权利要求中详细阐述了示例性实施方案的新颖特征。通过参考以下详述和附图,将获得对特征和优点的更好理解,所述详述阐述了说明性实施方案,这些实施方案中利用了所公开的系统和方法的原理,在所述附图中:
图1描绘了与本文描述的实施方案一致的用于计算机模拟生成预测多肽结构和蛋白治疗剂的示例性工作流程。
图2描绘了使用本文描述的方法评估结合位点的成药性和生成治疗性多肽的示意图。
图3描绘了作为时间的函数的单独的图函数的时空绘图的图示。
图4描绘了一对多肽之间的相互作用。
图5描绘了单个多肽构象的卡通表示。在存在二级结构诸如α螺旋的同时,卡通表示中的下层CA原子被表示为球体。
图6描绘了单个多肽构象的示例性图表示(graph representation)。图表示中的节点表示CA原子,而边表示相邻CA原子之间的相互作用。
图7A、图7B和图7C图示出了作为时间的函数的示例性图函数。图7A是在时间t=20纳秒(时间框架=100)拍摄的成对CA图的演变的快照,其中每个节点根据残基类型(即节点标记)着色,每个节点的尺寸与相关程度成正比,并且每个边的宽度与相关权重成正比。图7B是在时间t=50纳秒(时间框架=500)拍摄的成对CA图的演变的快照,其中每个节点根据残基类型(即节点标记)着色,每个节点的尺寸与相关程度成正比,并且每个边的宽度与相关权重成正比。图7C示意性地总结了从t=0纳秒到t=20纳秒的转变。
图8描绘了示例性多肽的表面图,其具有接枝在其上的从成药性指数生成的信息。阴影表面指示使用成药性指数生成的潜在表位。
图9描绘了靶蛋白质的许多天然和非天然变体的成药性指数计算程序的示例性输出。灰色阴影表示潜在可药化位点。
详述
本文公开了使用例如从作为时间的函数的分子动力学模拟生成的大数据计算机模拟生成多肽结构的方法。使用本文描述的方法生成预测多肽结构的示例性工作流程在图1中图示。可以使用如本文描述的机器学习算法来处理这样的数据,以生成与使用现有的结构预测方法相比更丰富的预测多肽结构。通过允许多肽结构作为时间的函数变化,并且沿着势能阱采样罕见的构象,预测结构可以更接近地匹配多肽在其自然环境中存在时存在的动力学。使用这种方法,通过由显著序列空间分隔的残基的动态移动而存在的结合表面和表位可以被准确地映射,这可以允许生成能够与这些表位相互作用的稳健治疗剂。图2图示出了根据本文描述的方法评估多肽中预测表位位点的成药性和蛋白治疗剂的产生的示意图。
定义
本文使用的章节标题可以用于组织目的,并且不被解释为限制所描述的主题。在一些情况下,章节标题可以不被解释为限制所描述的主题。
除非上下文另外清楚地指示,否则如说明书和权利要求中使用的单数形式“一(a)”、“一(an)”和“所述(the)”包含复数指示物。例如,术语“多肽”包括多于一种多肽,包括其混合物。
如本文使用的术语“约(about)”或“大约(approximately)”当提及可测量的值,诸如量或浓度等时,并且除非另外说明,否则意味着涵盖指定量的+/-20%,包括+/-10%、5%、1%、0.5%或甚至0.1%的变化。
如本文使用的,术语“包含(comprising)”意图指组合物和方法包含陈述的要素,但不排除其他要素。当用于定义组合物和方法时,“基本上由...组成(consistingessentially of)”应意指排除对预期用途的组合具有任何本质意义的其他要素。因此,基本上由如本文定义的要素组成的组合物将不排除来自分离和纯化方法中的痕量污染物和药学上可接受的载体,诸如磷酸盐缓冲盐水、防腐剂等。“由...组成(consisting of)”应意指排除超过痕量要素的其他成分和用于施用本公开内容的组合物的实质方法步骤。由这些过渡术语中的每一个术语定义的实施方案在本公开内容的范围内。
术语“受试者”、“宿主”、“个体”和“患者”可互换地指动物,通常是哺乳动物。任何合适的哺乳动物都可以通过本文描述的组合物治疗。哺乳动物的非限制性实例包括人类、非人类灵长类动物(例如,猿、长臂猿、黑猩猩、猩猩、猴、猕猴等)、家养动物(例如,犬和猫)、农场动物(例如,马、牛、山羊、绵羊、猪)和实验动物(例如,小鼠、大鼠、兔、豚鼠)。在一些实施方案中,哺乳动物可以是人类。哺乳动物可以是任何年龄或处于任何发育阶段(例如,成年、青少年、幼年、婴儿或子宫内的哺乳动物)。哺乳动物可以是雄性或雌性。哺乳动物可以是怀孕的雌性。在一些实施方案中,受试者可以是人类。在一些情况下,人类可以大于约:1天至约10个月大、从约9个月至约24个月大、从约1岁至约8岁大、从约5岁至约25岁大、从约20岁至约50岁大、从约1岁大至约130岁大或从约30岁至约100岁大。人类可以大于约:1岁、2岁、5岁、10岁、20岁、30岁、40岁、50岁、60岁、70岁、80岁、90岁、100岁、110岁或120岁。人类可以小于约:1岁、2岁、5岁、10岁、20岁、30岁、40岁、50岁、60岁、70岁、80岁、90岁、100岁、110岁、120岁或130岁。
术语“治疗(treating)”、“治疗(treatment)”和类似术语可以在本文中用于意指获得期望的药理学效果、生理学效果或其任何组合。在一些情况下,治疗可以逆转归因于疾病或紊乱的副作用。在一些情况下,治疗可以稳定疾病或紊乱。在一些情况下,治疗可以延迟疾病或紊乱的进展。在一些情况下,治疗可以引起疾病或紊乱的消退。在一些情况下,治疗可以防止疾病或紊乱的发生。在一些实施方案中,可以测量治疗的效果。在一些情况下,可以在施用组合物之前和之后比较测量结果。例如,受试者可以将治疗之前的医学图像与治疗之后的图像进行比较,以示出癌症消退。在一些情况下,与治疗之前的血液测试相比,受试者在治疗之后可以具有改善的血液测试结果。在一些情况下,测量结果可以与标准进行比较。
术语“蛋白质”、“肽”和“多肽”可互换,并且在其最广泛的意义上指的是具有两个或更多个亚基氨基酸、氨基酸类似物或肽模拟物的化合物。亚基可以通过肽键连接。在另一种实施方案中,亚基可以通过其他键例如酯、醚等连接。蛋白质或肽可以包含至少两个氨基酸,并且对可以构成蛋白质或肽的序列的氨基酸的最大数目可以没有限制。如本文使用的,术语“氨基酸”可以指的是天然的、非天然的或合成的氨基酸。天然的、非天然的或合成的氨基酸可以包括甘氨酸以及D和L光学异构体两者、氨基酸类似物和肽模拟物。如本文使用的,术语“融合蛋白”可以指的是包含来自多于一个天然存在或重组产生的蛋白质的结构域的蛋白质,其中通常每个结构域提供不同的功能。在这方面,接头可以指的是能够用于将这些结构域连接在一起(任选地以保持融合的蛋白结构域的构象和/或防止融合的蛋白结构域之间可能损害其相应功能的不利相互作用)的蛋白质片段。
“同源性”指的是两个肽之间或两个核酸分子之间的序列相似性。同源性是通过比较每个序列中为了比较的目的而比对的位置来确定的。当比较的序列中的一个位置是相同的碱基或氨基酸时,那么分子在该位置处是相同的。序列同源性指的是序列与参考序列的%同一性。实际上,当使用已知的计算机程序诸如Bestfit程序进行比对时,同源序列与参考序列具有至少50%、60%、70%、80%、85%、90%、92%、95%、96%、97%、98%或99%的同一性。当使用Bestfit或任何其他序列比对程序来确定特定序列是否与参考序列例如95%相同时,可以设置参数使得可以在参考序列的全长上计算同一性百分比,并且可以允许多达总参考序列5%的序列同源性的空位。“无关”序列与本公开内容的序列之一共享少于40%同一性,或者可选地少于25%同一性。
术语“表位”指的是多肽上与一个部分(例如多肽免疫球蛋白、抗体等)特异性地结合的部分或结构。
术语“互补位”指的是与表位特异性地结合的部分(例如多肽免疫球蛋白、抗体等)中的结构。
术语“监督学习”指的是其中机器被提供来自人类来源的数据的深度学习训练方法。术语“无监督学习”指的是其中机器不被提供来自人类来源的数据的深度学习训练方法。
术语“半监督学习”指的是其中机器被提供少量的来自人类来源的数据,然后将这些数据与机器可得的来自其他来源的较大量的数据进行比较的深度学习训练方法。
I.来自分子动力学模拟的数据的生成
本文公开了使用从分子动力学模拟生成的数据输入来预测多肽结构的方法。可以计算机模拟地进行分子动力学模拟,以模拟多肽结构构象和生物物理特征。分子动力学模拟可以考虑结构动力学,使得多肽的二级结构和三级结构可以在模拟的时间线内沿着允许的构象变化。通常,允许的构象是表示沿各种自由能阱的最小值的构象。因此,分子动力学模拟可以用于可视化和采样静态结构技术(例如x射线晶体学)可能无法采样的生物学相关构象。用于包含在本文描述的方法中的示例性分子动力学模拟包括但不限于经典动力学、副本交换分子动力学、元动力学、朗之万动力学(Langevin Dynamic)和蒙特卡洛动力学。
本文提供了方法,其中从分子动力学模拟生成的数据依赖于建模和预测多肽结构。如本文描述的,从分子动力学模拟生成的数据被用作机器学习的输入,以在允许的和罕见的结构构象之间迭代,从而生成更稳健和丰富的预测多肽结构。这样的数据可以包括与分子动力学模拟中的单个残基相关的残基特异性生物物理性质,以及涉及与分子动力学模拟中至少两个残基之间的相互作用相关的一组生物物理性质的成对性质。使用分子动力学模拟生成的残基特异性生物物理性质的实例包括总平均亲水性(GRAVY)评分、残基身份或标记、库仑能量、范德华能量、溶剂可及表面积(SASA)、侧链顺序参数(S2)等。使用分子动力学模拟生成的成对生物物理性质的实例包括给定残基之间的距离、库仑能量、范德华能量、天然接触的分数(fraction of native contacts)(Q)等。
从分子动力学生成的这样的性质可以从作为时间的函数的给定构象生成。因此,来自一组多肽结构的作为时间的函数的生物物理性质的数据集可以从分子动力学模拟生成,并且用作机器学习算法的输入。在嵌入之前,该数据被排列成图格式。每个长度L的蛋白质序列映射到无向图(undirected graph)函数中。图3图示了作为时间的函数的单独的图函数的映射。这样的图函数可以包括:
·连续时间动态图其中V表示节点的集,表示V中顶点之间的时间边的集,并且是将每条边映射到对应的时间戳的函数。每条边e i =(u,v, t)∈ET 分配给唯一的时间其中(u,v)表示一对残基。该方法考虑了分子动力学模拟中的一组时间框架,其中每个时间框架都具有唯一的时间t
·离散时间动态图G作为从时间戳1T的图G1,G2 ...,GT 的序列,其中每个时间戳表示分子动力学模拟中的时间框架。在时间t的每个图由Gt=(Vt,E t )表示,其中Vt Et 分别是图的时间跨度[ti-1,ti]之间活动的节点和边。
·静态图G(V,E),其中V表示节点的集,并且E表示边的集。
静态图、连续时间动态图和离散时间动态图中的每个节点表示残基,而每个边表示相关的成对残基-残基相互作用,这是由将与分子动力学模拟中的每个时间框架相关的信息(例如,算术平均值)压缩到单个时间框架中获得的。在每个图函数中,||V||=L,即节点的数目等于序列长度L,序列长度L对于每种蛋白质可以是不同的。然后,从动态图表示生成的数据被编码,以用作本文描述的机器学习算法的输入。在一些实施方案中,生成了函数f:其映射连续时间动态图或离散时间动态图Gt(Vt,Et)中的每个顶点到D-维向量中,其中D是嵌入维度。
函数可以是某些时间随机游走集的条件对数概率。这些是保持时间顺序或时间边的随机游走,即沿着这样的游走的路径,连续边的时间戳是非递减的。此外,这样的函数可以表示为在不断演变的随机游走上训练的动态Skip-gram模型,其中,预训练的Skip-gram模型SGt-1用作下一个Skip-gram模型SGt的初始权重。事实上,其他这样的算法可以与本文描述的方法一起使用。
在生成如本文描述的图表示之后,数据被嵌入用于输入到如本文描述的机器学习算法中。在一些情况下,可以使用多种学习技术,例如t-分布随机邻近嵌入(t-SNE)。如本文描述的嵌入可以包括动态残基嵌入和静态蛋白质嵌入。
在动态残基嵌入中,每个蛋白质被映射/嵌入到稠密的2nd 阶张量Dμν 中,其中μ∈ [0,...,||V||]是残基指数,并且v∈[0,...,Ed]是嵌入指数,其中Ed 是动态嵌入维度。因此,每个残基都被嵌入到稠密向量(dense vector)中,其中i=0,...,||V||,并且针对每个连续时间动态图或者表示C的要素(多肽结构的集)的连续时间动态图训练单独的动态残基嵌入。堆叠Dμv 衍生自C中的每个蛋白质序列,以生成μv ,其中α∈[0,...,||C||]是蛋白质指数。是动态残基嵌入向量,其中j∈[0,...,||C||]
在静态蛋白质嵌入中,每个蛋白质被映射/嵌入到稠密的1st阶张量Sv中。v∈ [0...,Es]是嵌入指数,其中Es 是静态嵌入维度,其中来自动态图嵌入的数据输出用作输入。因此,每个蛋白质都被嵌入到稠密向量中,并且考虑每个表示C的要素的静态图来训练单个静态蛋白质嵌入。豪斯多夫距离(Hausdorff distance)dH(Dα=x,μ,D,Dα=y,μ,v) ,以及其他类型的距离诸如涉及动态图表示的弗罗贝尼乌斯范数(Frobenius norm),可以用作图邻近度量在一些情况下,动态残基嵌入张量Dα=x,μ,v Dα=y,μ,v 可以是度量空间的两个非空子集(R,d),其中R表示动态残基嵌入向量的集并且d是欧几里得距离。来自C中的每个蛋白质序列的堆叠Sv 然后生成以计算Sαv
II.机器学习
本文提供了方法,其中分别从动态嵌入和静态嵌入尘成的张量表示Dαμν和Sav被用作机器学习的输入,以迭代地生成低能量预测多肽结构。这样的机器学习框架可以用于缩短有效模拟时间、执行预测任务和进行设计相关的任务,使得可以从分子动力学模拟获得的有限的数据生成更稳健和丰富的多肽结构。分别从动态嵌入和静态嵌入尘成的张量表示Dαμv和Sαv允许超出分子动力学模拟的当前计算能力的结构的准确预测。
在一些实施方案中,可以使用非结构化计算、人工智能或深度学习来生成多肽结构。在一些情况下,可以采用非结构化计算,使得计算可以迭代地进行。此外,多肽结构计算可以依赖人工智能或深度学习。例如,本文描述的诸如随机森林的方法可以采用深度学习以生成基尼不纯度评分(Giniimpurity score),该评分可以用于解析出具有改进的预测值的探针。
在一些实施方案中,如本文描述的结构预测的方法可以采用机器学习和计算智能技术,诸如深度神经网络,以及监督、半监督和无监督的学习技术的组合。在一些实施方案中,如本文描述的结构预测的方法采用监督算法(通过非限制性实例的方式,线性区域、随机森林分类、决策树学习、集成学习、自助聚合(bootstrap aggregating)等)。在一些实施方案中,如本文描述的结构预测的方法采用非监督算法(通过非限制性实例的方式,聚类或关联)。
在一些实施方案中,如本文描述的结构预测的方法可以被配置为利用选自但不限于决策树、boosting、支持向量机、神经网络、最近邻算法、朴素贝叶斯、bagging、随机森林等的一种或更多种示例性AI/机器学习技术。在一些实施方案中,并且任选地结合上文或下文描述的任何实施方案,示例性神经网络技术可以是但不限于前馈神经网络、径向基函数网络、递归神经网络、卷积网络(例如,U-net)或其他合适的网络中的一种。在一些实施方案中,并且任选地结合上文或下文描述的任何实施方案,神经网络的示例性实施方式可以如下执行:
a.定义神经网络架构/模型,
b.将输入数据传输至示例性神经网络模型,
c.逐渐训练示例性模型,
d.确定特定数目的时间步的准确性,
e.应用示例性经训练的模型以处理新接收的输入数据,
f.任选地并且并行地,以预定周期性继续训练示例性经训练的模型。
在一些实施方案中,并且任选地结合上文或下文描述的任何实施方案,示例性经训练的神经网络模型可以至少通过神经网络拓扑、一系列激活函数和连接权重来指定神经网络。例如,神经网络的拓扑可以包括神经网络的节点的配置以及这样的节点之间的连接。在一些实施方案中,并且任选地结合上文或下文描述的任何实施方案,示例性经训练的神经网络模型也可以被指定为包括其他参数,包括但不限于偏差值/函数和/或聚合函数。例如,节点的激活函数可以是阶跃函数、正弦函数、连续或分段线性函数、sigmoid函数、双曲正切函数或表示激活节点的阈值的其他类型的数学函数。在一些实施方案中,并且任选地结合上文或下文描述的任何实施方案,示例性聚合函数可以是将输入信号组合(例如,求和、求积等)到节点的数学函数。在一些实施方案中,并且任选地结合上文或下文描述的任何实施方案,示例性聚合函数的输出可以用作示例性激活函数的输入。在一些实施方案中,并且任选地结合上文或下文描述的任何实施方案,偏差可以是可以被聚合函数和/或激活函数使用以使节点更可能或更不可能被激活的常数值或函数。
在一些实施方案中,用于结构预测的机器学习模型通过应用机器学习模型的参数以产生模型输出,从而具有上文描述的嵌入中编码的生物物理性质。在一些实施方案中,模型输出可以被解码以生成一个或更多个指示多肽结构的数字输出值和/或向量。
在一些实施方案中,机器学习模型的参数可以基于已知的多肽结构来训练。例如,生物物理性质可以与靶结构和/或测量结果配对以形成训练对,诸如表示历史生物物理性质和结构之间的关系中的数据点的历史生物物理性质和观察到的结构。在一些实施方案中,生物物理性质可以被提供给机器学习模型,例如在嵌入中编码,以产生代表多肽结构的数据。在一些实施方案中,与机器学习模型相关的优化问题然后可以将多肽结构与包括历史生物物理性质的训练对的已知输出进行比较,以确定多肽结构的误差。在一些实施方案中,优化问题可以采用损失函数,诸如例如铰链损失、多类SVM损失、交叉熵损失、负对数似然或其他合适的分类损失函数,以基于已知结构确定多肽结构的误差。
在一些实施方案中,已知输出可以在机器学习模型产生预测之后获得,诸如在在线学习场景中。在这样的场景中,机器学习模型可以接收生物物理性质并且生成模型输出向量,以产生表示多肽结构的数据。随后,用户可以通过例如经由合适的反馈机制诸如用户接口设备(例如,键盘、鼠标、触摸屏、用户界面或用户设备的其他接口机制或其任何合适的组合)修改、调整、去除和/或验证预测结构来提供反馈。反馈可以与生物物理性质配对以形成训练对,并且优化问题可以使用反馈来确定多肽结构的误差。
在一些实施方案中,基于误差,优化问题可以使用合适的训练算法来更新机器学习模型的参数,所述合适的训练算法诸如例如用于预测机器学习模型的反向传播。在一些实施方案中,反向传播可以包括任何合适的最小化算法,诸如损失函数相对于预测机器学习模型的权重的梯度方法。合适的梯度方法的实例包括例如随机梯度下降、批量梯度下降、小批量梯度下降或其他合适的梯度下降技术。作为结果,优化问题可以基于预测结构的误差来更新机器学习模型的参数,以便训练机器学习模型来模拟生物物理性质和多肽结构之间的相关性,以便产生基于生物物理性质的更准确的结构预测。
III.多肽治疗剂的生成
如本文描述的,使用如本文描述的机器学习算法,可以使用从分子动力学模拟生成的数据预测稳健且丰富的多肽结构。这样的结构的知识可以用于有效且准确地映射与疾病或状况有关的感兴趣的多肽的动态表面。通过准确地模拟多肽的表面作为时间的函数,可以生成能够与感兴趣的多肽的表位结合并且相互作用的新颖治疗剂。因此,这样的治疗剂可以用配置为与表位结合的互补位结构生成,并且可用于治疗疾病或状况。图4描绘了使用本文描述的方法的预测的表位和互补位结构的图示。此外,通过使用本文描述的方法捕获多肽的动态结构,可以预测生物学相关的罕见构象,这些构象可以不以静态结构(诸如通过x射线晶体学生成的那些)存在。此外,使用本文描述的方法使用机器学习的迭代允许超出单独分子动力学模拟的能力的稳健模拟,这允许对产生表位的罕见且短暂的(尽管生物学相关)构象进行采样。
可以如上文描述的利用数据的任何组合,以使用如上文描述的任何机器学习算法来生成预测多肽结构。此外,另外的输入可以用于提供对于阐明生物学相关的表位构象有用的另外的信息。例如,相关或同源多肽之间的演变协方差可以用于确定一级结构和二级结构中相隔显著距离的残基之间的保守性。不希望受理论束缚,本文描述的方法利用一对残基之间的演变耦合(evolutionary coupling)作为输入以确定该对残基是否共享生物学功能(例如,存在于相同的结合表位中)。在这样的输入的情况下,可以进行动态建模,以确定这样的残基是否以具有最小熵罚(entropic penalty)的动态结构存在。因此,演变耦合和动力学/无序参数被平衡,以采样产生这样的表位的罕见但生物学相关的构象。
在采用演变耦合的情况下,本文描述的方法包括生成多序列比对以确定氨基酸序列之间的同源性。参考序列(查询序列,即本公开内容的序列)和主题序列之间的同一性,也被称为全局序列比对,可以使用基于Brutlag等人(Comp.App.Biosci.6:237-245(1990))的算法的FASTDB计算机程序来确定。在一些实施方案中,使用FASTDB氨基酸比对的参数可以包括:评分方案=PAM(接受的突变的百分比)0,k-tuple=2,错配罚分=1,连接罚分=20,随机组长度=0,截止值评分=1,窗口大小=序列长度,空位罚分=5,空位大小罚分=0.05,窗口大小=500或主题序列的长度,以可以是较短的为准。根据该实施方案,如果主题序列由于N末端或C末端缺失而不是由于内部缺失而比查询序列更短,则可以对结果进行手动校正,以将FASTDB程序在计算全局同一性百分比时不考虑主题序列的N末端和C末端截短的事实纳入考虑。对于相对于查询序列在N末端和C末端处截短的主题序列,通过计算查询序列中不与对应的主题残基匹配/对齐的在主题序列的N末端和C末端外侧的残基的数目占查询序列的总碱基的百分比来校正同一性百分比。残基是否匹配/对齐的确定可以通过FASTDB序列比对的结果来确定。然后,从FASTDB程序使用指定参数计算的同一性百分比中减去该百分比,以得到最终的同一性百分比评分。该最终同一性百分比评分可以用于本实施方案的目的。在一些情况下,为了手动调整同一性百分比评分的目的,可以只考虑主题序列的N末端和C末端附近的不与查询序列匹配/对齐的残基。也就是说,对于该手动校正,可以只考虑在主题序列的最远N末端和C末端残基之外的查询残基位置。例如,可以将90个残基的主题序列与100个残基的查询序列比对,以确定同一性百分比。缺失发生在主题序列的N末端处,并且因此FASTDB比对不显示N末端处的前10个残基的匹配/比对。10个未配对的残基表示序列的10%(N末端和C末端处未匹配的残基数/查询序列中的残基总数),因此可以从FASTDB程序计算的同一性百分比评分中减去10%。如果剩余的90个残基完全匹配,那么最终同一性百分比可以是90%。在另一个实例中,90个残基的主题序列可以与100个残基的查询序列进行比较。这一次,缺失可以是内部缺失,因此在主题序列的N末端或C末端可以没有与查询序列不匹配/对齐的残基。在这种情况下,不能手动校正FASTDB计算的同一性百分比。同样,只有主题序列的N末端和C末端之外的残基位置(如FASTDB比对中显示的)可以手动校正,这些位置可以不与查询序列匹配/对齐。
在一些情况下,已知结构可以与序列联合用作本文描述的方法的输入。例如,可以访问保存在蛋白质结构数据库中的结构,并且将其用作确定新颖表位的输入。在一些情况下,经验结构数据可以用作输入。例如,通过X射线晶体学获得的靶多肽的静态结构可以用作输入。此外,使用诸如圆二色性或NMR(例如2D NMR、3D NMR、固态NMR等)的技术获得的动态结构可以用作输入。
预测表位结构的示例性工作流程如下。
·将蛋白质序列(或列表)输入到算法中。
·进行多序列比对(MSA)以便评价分析的序列中氨基酸残基对之间的演变耦合(EC)。演变耦合报告了给定序列中任意一对氨基酸残基以耦合方式演变并且因此具有演变意义并可能具有生物学作用的概率。
·计算类似于X射线晶体学或NMR结构的蛋白质同源性3D模型(或来自蛋白质序列列表的模型)。
·生成蛋白质的溶剂化3D模型(使用SPC或TIP3水模型),并且剩余的未中和电荷通过添加单价正离子(Na+)和负离子(CL-)而中和,使得模拟系统的净电荷(所有电荷的总和)等于零。
·使溶剂化系统经受副本交换分子动力学(REMD)模拟,其中:
a.启动任意数目的模拟副本(>2)。数目本身取决于系统大小,并且随着原子数目的增加而放大,例如,25000个原子的系统可能需要25个副本,每个副本运行持续500纳秒。
b.每个副本接收分配给模拟的原始力场的拷贝,对于该拷贝,扭转角势、二面角势和选定的非键合项通过与副本数目成正比的因子线性缩放。集之中的第一个副本接收全部力,而最后一个副本暴露于以等于0.5的有效因子缩放的修改的力场。
·在执行REMD时,重构构型蛋白空间的自由能表面(FES),使得可以识别属于不同自由能阱的最具代表性的结构,并且将其捆绑在一起作为3D蛋白质集合。
·新构建的3D蛋白质集合是子结构域识别程序的主题,该子结构域识别程序使用以下度量来评价靶蛋白质片段的几何和时空适用性:
a.来自以下的单独的蛋白质片段的结构无序(structural disorder):
i.蛋白质主链H-N键级参数(S2)。
ii.蛋白质主链中CA原子的均方根波动(RMSD)。
b.来自以下的结构突出:
i.暴露的氨基酸的溶剂可及表面(SASA)。
ii.原子体积映射(AVM)。
·构建了图网络,其中原始3D蛋白质分子中的每个CA原子通过节点表示,而其与相邻CA主链原子的相互作用通过图边表示。在这种表示中:
a.图节点被分配:
i.RMSF和S2。
ii.根据REMD协议计算的残基内相互作用能量的总和。
iii.组合的SASA和AVM。
b.图边被分配:
i.根据REMD协议估计的残基内相互作用能量。
ii.衍生自算法的步骤2的EC概率。
·将图节点聚类算法应用至来自步骤8的图,使得共享类似时空(动力学)和结构突出的氨基酸残基的簇可以被识别并且标记为子结构域。聚类算法可以包括:
a.K-均值聚类。
b.t-分布随机邻近嵌入(t-SNE)
c.以及等效物。
·针对所有聚类的类设计并且计算了综合成药性指数(DI)。评分是来自SASA和AVM的结构突出和来自EC的演变保守性的总和除以RMSF和S2的倒数的总和。高评分指示突出、暴露于溶剂但在其分子动力学中经历小的结构转变的结构域。此外,EC组分的添加允许具有强保守演变特征的位点的优先化。低评分表示差的结构突出、高动态性并且重要的是低演变保守性的结构域。
·可以通过添加关于抗体-表位相互作用的手动选择的数据,诸如IC50结合值,来进一步提高DI评分。这样的数据可以来自私人进行的实验,或者来自使用自然语言处理(NLP)方法的自动文献搜索。
本文提供了方法,其中在使用本文描述的方法预测表位表面之后,计算机模拟设计蛋白治疗剂以包含被配置为与预测表位结构结合并且相互作用的互补位结构。可以使用标准FMOC蛋白质合成或本领域使用的其他标准肽合成技术来合成蛋白治疗剂。可选地,一些蛋白治疗剂可以在微生物诸如大肠杆菌(Escherichia coli)中从DNA载体表达。在这样的实施方案中,编码感兴趣的多肽的多核苷酸序列被亚克隆到表达载体中,用于在微生物中过表达。多核苷酸序列的成功亚克隆可以通过使用商业上容易获得的方法进行测序来确认,这些方法包括但不限于毛细管测序、无亚硫酸氢盐测序、亚硫酸氢盐测序、TET辅助亚硫酸氢盐(TAB)测序、ACE测序、高通量测序、Maxam-Gilbert测序、大规模平行特征测序(massively parallel signature sequencing)、Polony测序、454焦磷酸测序、Sanger测序、Illumina测序、SOLiD测序、Ion Torrent半导体测序、DNA纳米球测序、Heliscope单分子测序、单分子实时(SMRT)测序、纳米孔测序、鸟枪测序、RNA测序、Enigma测序或其任何组合。
基于本文提供的稳健的结构采样方法,这样的蛋白治疗剂包含用于预测表位的高的结合效能。因此,当施用至受试者时,这样的治疗性多肽显示出针对感兴趣的蛋白质的生物学相关活性。
此外,这样的蛋白治疗剂预期对感兴趣的蛋白质具有高特异性和选择性。在一些情况下,感兴趣的蛋白质对于感兴趣的靶可以具有至少约60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的特异性,如例如在体外竞争测定中确定的。在一些情况下,感兴趣的蛋白质对于在其他蛋白质中的感兴趣的靶可以具有至少约60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的选择性,如例如在体外竞争测定中确定的。
如本文描述的治疗性肽可以以实现生物学结果(例如,治疗受试者的疾病或状况)所需要的任何剂量递送。鉴于使用本文描述的方法生成的治疗剂的高度特异性和效能,实现生物学结果所需要的治疗剂的剂量低于使用可比较的方法(即,仅使用分子动力学、诱变或静态结构)针对相同靶生成的治疗剂。
系统
本文还公开了用于进行本文描述的方法的系统。系统可以包括计算机可读存储器,该计算机可读存储器存储用于进行本文描述的方法的指令。例如,计算机可读存储器可以包括用于如本文描述的多肽结构的计算机模拟确定的指令。在一些实施方案中,计算机可读存储器可以包括用于如本文描述的表位确定的指令。
系统还可以包括利用计算机可读存储器的计算机系统。计算机系统可以包括可操作地耦接到计算机可读存储器的处理器,并且可以被配置为执行指令以进行本文描述的方法。计算机系统还可以包括用户输入和输出装置,诸如键盘、显示器和鼠标。
如本文描述的系统可以被配置为访问数据库。例如,系统可以被配置为访问本地或在线(例如云)数据库,诸如蛋白质结构数据库、蛋白质序列数据库、同源性数据库、核酸序列数据库等。
在执行本文描述的方法时,系统还可以包括通过执行本文描述的方法获得的数据。例如,系统在执行本文描述的方法时可以包括用于确定新颖表位的成药性指数评分。本文的实施例5提供了在执行本文描述的方法之后可以存储在系统上的这样的数据的示例性输出。系统可以包括从本文描述的MD模拟获得的结构信息。此外,系统可以包括经验结构数据,诸如从NMR或X射线晶体学获得的蛋白质结构。系统可以包括使用本文描述的计算机模拟方法获得的优化的多肽结构。
这样的系统可以包括用于存储或传输通过本文描述的方法获得的数据的存储装置。在一些情况下,系统可以包括将通过本文描述的方法获得的数据传输到外部数据库(例如,本地数据库或在线数据库)中的装置。
实施例
为了更好地理解本公开内容及其许多优点,以说明的方式给出了以下实施例并且不限制本公开内容的范围。
实施例1:使用分子动力学模拟生成多肽结构
将示例性多肽序列输入到分子动力学模拟中,以对多肽序列的构象动力学进行建模。使用TIP3水模型将模型溶剂化,并且使用单价Na+和Cl-离子中和电荷。图5表示在单个时间点使用分子动力学生成的多肽结构的卡通表示。在给定时间点的每个结构构象被排列成图函数。图6表示在单个时间点从单个构象的分子动力学生成的示例性图函数。在这种表示中,节点表示单独的CA原子,而边表示残基之间的成对相互作用。图7A和图7B图示了示例性连续时间动态图。图7A是在时间t=20纳秒(时间框架=100)拍摄的成对CA图的演变的快照,其中每个节点根据残基类型着色(即节点标记),每个节点的尺寸与相关程度(即,节点连接到的边或邻居的数目)成正比,并且每个边的宽度与相关权重(即,成对性质的大小)成正比。图7B是在时间t=50纳秒(时间框架=500)拍摄的成对CA图的演变的快照,其中每个节点根据残基类型(即节点标记)着色,每个节点的尺寸与相关程度成正比,并且每个边的宽度与相关权重成正比。图7C示意性地总结了从t=0纳秒到t=20纳秒的转变。
实施例2:用于机器学习实施的图函数的编码
从实施例1中进行的分子动力学模拟生成并且转换成图格式的数据被编码成向量表,用于实施机器学习算法。连续时间动态图函数被转换成D维向量表,其中表的列数对应于由图函数编码的性质(例如,库仑能量、范德华能量、GRAVY评分等)。下文表1提供了从表示给定氨基酸残基的6个嵌入性质的动态图表示生成的示例性向量表。
表1:示例性6维向量表
实施例3:使用机器学习优化动态图表示
包括t-分布随机邻近嵌入的多种学习技术被应用至实施例2中生成的编码的数据,以基于编码的数据生成优化的动态图表示。无监督学习算法用于迭代地生成动态图表示,以生成预测多肽结构。
实施例4:表位结合表面的预测
通过进行蛋白质同源物的多序列比对计算机模拟确定演变协方差。记录残基的成对保守性,并且基于两个氨基酸以耦合方式演变的概率,计算每个任意氨基酸对的演变耦合报告。进行副本交换分子动力学模拟,并且如实施例1中描述的生成来自MD模拟的数据。基于MD模拟中CA原子的RMSD波动计算结构无序参数,而基于暴露的氨基酸的溶剂可及表面积和多肽的原子体积映射计算结构突出参数。
图函数如上文针对实施例2描述的生成,并且被嵌入到包含来自结构无序参数、结构突出参数和演变耦合报告的数据的向量中。使用机器学习进行聚类算法,并且如上文实施例3中描述的生成优化的多肽结构。
对共享类似的结构无序参数、结构突出参数和演变耦合的聚类残基进行分组,并且计算聚类残基的综合成药性指数评分。成药性指数评分与结构突出参数和演变耦合成正比,并且与结构无序参数成反比。可以将成药性指数映射到预测结构上,以识别推定的表位。图8描绘了示例性多肽的表面图,其具有接枝在其上的从成药性指数生成的信息。阴影表面指示使用成药性指数生成的潜在表位。图9描绘了靶蛋白质的许多天然和非天然变体的成药性指数计算程序的示例性输出。灰色阴影表示潜在可药化位点。
实施例5-示例性α-突触核蛋白表位的成药性指数计算
为了说明使用无序参数来阐明新颖表位,汇编了α-突触核蛋白变体用于表位确定。在这项研究中,研究了H50处的突变对新颖表位的成药性的影响。H50是当突变时可以导致α-突触核蛋白的聚集的残基。因此,设计靶向具有H50处的突变的α-突触核蛋白变体的新颖表位的治疗剂的能力提供了深远的治疗意义。
如上文针对实施例4描述的,在每个α-突触核蛋白变体的MD模拟中,基于CA原子的RMSD波动来计算结构无序和结构突出参数。表2描绘了从MD模拟计算的各种参数。在二元无序预测中,1的值指示无序残基,而0的值指示有序残基。在无序倾向中,提供了无序的归一化程度,其中较高的值表示给定的无序被无序化的较高可能性。然后计算二元成药性指数预测,其中1的值指示无序的表位结合残基,0的值指示除表位结合残基之外的无序残基,并且X指示与表位结合无关的残基。最后,基于无序倾向确定归一化的表位结合倾向,其中较高的值表示给定残基将产生可药化表位的较高的可能性,而X指示与表位结合无关的残基。
如下文表2中示出的,无序参数可以用于确定每个变体在逐个残基基础上的表位结合倾向。值得注意的是,在所有测试的变体中,沿C末端具有高相对无序倾向的残基被预测具有高表位结合倾向(大于0.9的值在表2中加下划线),并且因此将是治疗靶向的有吸引力的靶。此外,虽然H50本身的突变(表2中粗体的残基)被认为在α-突触核蛋白的聚集倾向中起作用,但本文提供的H50Y变体(SEQ ID NO:9)相对于具有野生型H50残基的变体,显示沿H50聚集表面的无序显著降低。因此,H50聚集表面看起来不是具有H50Y突变的α-突触核蛋白的变体的可药化表位。
虽然本文已经示出和描述了示例性实施方案,但对于本领域技术人员将明显的是,这样的实施方案仅通过实例的方式提供。本领域技术人员将想到许多变化、改变和替换。应当理解,可以采用本文描述的实施方案的各种替代方案。所附权利要求旨在限定本公开内容的范围,并且由此覆盖这些权利要求范围内的方法和结构及其等效物。

Claims (39)

1.一种计算机模拟多肽结构生成的方法,包括:
a)进行多肽的分子动力学(MD)模拟以生成作为时间的函数的输出数据,其中所述输出数据包括所述多肽的三级结构构象信息;
b)将所述输出数据编码为函数以生成向量映射,其中所述向量映射包含:
(i)源自所述多肽中的氨基酸的MD模拟的至少一个残基特异性性质;和
(ii)源自所述多肽中的至少两个氨基酸的MD模拟的至少一个成对性质;以及
c)将机器学习算法应用至所述向量映射,以基于所述至少一个残基特异性性质和所述至少一个成对性质生成预测多肽结构。
2.根据权利要求1所述的方法,其中所述向量映射包括D维阵列,其中D是(i)的残基特异性性质和(ii)的成对性质的数目。
3.根据权利要求1所述的方法,其中所述机器学习算法是无监督算法。
4.根据权利要求1所述的方法,其中所述机器学习算法是监督算法。
5.根据权利要求1所述的方法,其中所述至少一个残基特异性性质包括库仑能量、范德华能量、残基标记、GRAVY评分或其任何组合。
6.根据权利要求1所述的方法,其中所述至少一个成对性质包括至少两个氨基酸之间的库仑能量、至少两个氨基酸之间的范德华能量、至少两个氨基酸之间的距离或其任何组合。
7.根据权利要求1所述的方法,其中所述函数是连续时间动态图函数。
8.根据权利要求1所述的方法,其中所述函数是离散时间动态图函数。
9.根据权利要求1所述的方法,其中所述MD模拟包括副本交换分子动力学。
10.根据权利要求1所述的方法,其中所述MD模拟包括蒙特卡洛动力学。
11.根据权利要求1所述的方法,其中所述编码包括动态残基嵌入。
12.根据权利要求11所述的方法,还包括生成衍生自所述函数的第二函数,其中所述第二函数包括基于所述动态残基嵌入的静态蛋白质嵌入。
13.根据权利要求1所述的方法,还包括将来自晶体结构的数据编码成函数。
14.根据权利要求1所述的方法,还包括将预测结构输入数据库中。
15.根据权利要求14所述的方法,还包括将所述预测结构与所述数据库中的疾病状态关联。
16.根据权利要求15所述的方法,还包括基于所述预测结构和所述疾病状态选择干预疗法。
17.一种生成表位结构的方法,所述方法包括:
a)提供多肽序列;
b)计算所述多肽序列中的多于一个表位结构的指数评分,其中基于以下中的至少两个来计算所述指数评分:所述表位的结构突出参数、无序参数或保守参数,其中:
(i)所述保守参数基于包含靶多肽的多序列比对中至少两个氨基酸残基的保守性来计算;
(ii)所述无序参数和所述结构突出参数源自包含靶多肽的同源物的聚集结构的同源模型的分子动力学(MD)模拟;以及
(iii)所述指数评分与所述结构突出参数和所述保守参数成正比,并且与所述无序参数成反比;以及
c)对所述指数评分进行排序,以从具有最高指数评分的多于一个表位结构中选择表位结构。
18.根据权利要求17所述的方法,还包括生成被预测特异性结合至所述表位结构的互补位结构。
19.根据权利要求18所述的方法,还包括制备包含所述互补位结构的治疗剂。
20.根据权利要求19所述的方法,其中所述治疗剂是小分子。
21.根据权利要求19所述的方法,其中所述治疗剂是多肽。
22.根据权利要求21所述的方法,其中所述多肽是抗体。
23.根据权利要求21所述的方法,其中所述多肽是纳米抗体。
24.根据权利要求17所述的方法,其中所述分子动力学模拟是副本交换分子动力学模拟。
25.根据权利要求17所述的方法,其中所述结构突出参数通过所述靶多肽中暴露的氨基酸的溶剂可及表面积确定。
26.根据权利要求17所述的方法,其中所述结构突出参数通过所述靶多肽的原子体积映射确定。
27.根据权利要求17所述的方法,其中所述无序参数通过所述靶多肽的主链中α碳的均方根波动确定。
28.根据权利要求17所述的方法,其中所述无序参数通过所述靶多肽的主链中的N-H键级确定。
29.根据权利要求17所述的方法,还包括基于所述同源模型生成所述靶多肽的自由能表面表示,从而确定所述靶多肽在自由能最小值处的被表示的构象。
30.根据权利要求29所述的方法,还包括基于给定自由能最小值处的表示的幅度来捆绑所述被表示的构象。
31.根据权利要求17所述的方法,还包括在计算所述指数评分之前生成包含图节点和图边的图网络,其中所述图节点包括所述多肽的α碳,并且所述图边包括所述多肽的主链中至少两个α碳原子之间的相互作用。
32.根据权利要求31所述的方法,还包括将聚类算法应用至所述图网络。
33.根据权利要求32所述的方法,其中所述聚类算法选自由以下组成的组:K-均值聚类、t-分布随机邻近嵌入及其任何组合。
34.根据权利要求17所述的方法,还包括将经验数据应用至所述指数评分。
35.根据权利要求34所述的方法,其中所述经验数据包括抗体与所述靶多核苷酸的表位结合的IC50
36.根据权利要求17所述的方法,其中所述同源模型是所述靶多肽的溶剂化模型。
37.根据权利要求17所述的方法,还包括提供所述多肽的结构。
38.根据权利要求38所述的方法,其中所述结构是NMR结构。
39.一种多肽,所述多肽包含互补位结构,其中所述互补位结构通过权利要求18所述的方法获得。
CN202280051565.5A 2021-05-21 2022-05-19 多肽结构的时空确定 Pending CN117980995A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP21382464 2021-05-21
EP21382464.2 2021-05-21
PCT/IB2022/054705 WO2022243940A1 (en) 2021-05-21 2022-05-19 Spacio-temporal determination of polypeptide structure

Publications (1)

Publication Number Publication Date
CN117980995A true CN117980995A (zh) 2024-05-03

Family

ID=76197390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280051565.5A Pending CN117980995A (zh) 2021-05-21 2022-05-19 多肽结构的时空确定

Country Status (5)

Country Link
US (3) US20240194291A1 (zh)
EP (1) EP4341936A1 (zh)
JP (1) JP2024521100A (zh)
CN (1) CN117980995A (zh)
WO (1) WO2022243940A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2743361C (en) * 2008-10-06 2021-05-25 Neil R. Cashman Methods and systems for predicting misfolded protein epitopes
WO2020242765A1 (en) * 2019-05-31 2020-12-03 Rubryc Therapeutics, Inc. Meso-scale engineered peptides and methods of selecting
US20210134389A1 (en) * 2019-10-31 2021-05-06 Pharmcadd Co., Ltd. Method for training protein structure prediction apparatus, protein structure prediction apparatus and method for predicting protein structure based on molecular dynamics

Also Published As

Publication number Publication date
WO2022243940A1 (en) 2022-11-24
US20240242775A1 (en) 2024-07-18
EP4341936A1 (en) 2024-03-27
US20240221864A1 (en) 2024-07-04
US20240194291A1 (en) 2024-06-13
JP2024521100A (ja) 2024-05-28

Similar Documents

Publication Publication Date Title
Darnell et al. An automated decision‐tree approach to predicting protein interaction hot spots
Chen et al. Protein p K a Prediction by Tree-Based Machine Learning
Xiao et al. Prediction enhancement of residue real-value relative accessible surface area in transmembrane helical proteins by solving the output preference problem of machine learning-based predictors
Zhang et al. Predicting protein inter-residue contacts using composite likelihood maximization and deep learning
Terruzzi et al. All-atom simulation of the HET-s prion replication
Ye et al. A Comprehensive Review of Computation‐Based Metal‐Binding Prediction Approaches at the Residue Level
Han et al. Quality assessment of protein docking models based on graph neural network
CN117980995A (zh) 多肽结构的时空确定
Kozma et al. TMFoldRec: a statistical potential-based transmembrane protein fold recognition tool
Zhang et al. Unsupervisedly Prompting AlphaFold2 for Accurate Few-Shot Protein Structure Prediction
Praljak et al. ProtWave-VAE: Integrating autoregressive sampling with latent-based inference for data-driven protein design
Zhang et al. Epitope-anchored contrastive transfer learning for paired CD8+ T cell receptor–antigen recognition
Faruk et al. Challenges and advantages of accounting for backbone flexibility in prediction of protein–protein complexes
Bashour et al. Biophysical cartography of the native and human-engineered antibody landscapes quantifies the plasticity of antibody developability
Martyniuk et al. Early evolution of ionotropic GABA receptors and selective regimes acting on the mammalian-specific theta and epsilon subunits
Ingolfsson et al. Protein domain prediction
Li et al. Simultaneous Prediction of Interaction Sites on the Protein and Peptide Sides of Complexes through Multilayer Graph Convolutional Networks
Ranjard et al. Effective machine-learning assembly for next-generation amplicon sequencing with very low coverage
Ji Improving protein structure prediction using amino acid contact & distance prediction
Arvindekar et al. Recent methods from statistical inference and machine learning to improve integrative modeling of macromolecular assemblies
Durairaj et al. Impact of Semiochemicals Binding to Fel d 1 on Its 3D Conformation and Predicted B-Cell Epitopes Using Computational Approaches
Sawhney et al. Improving AlphaFold Predicted Contacts for Alpha-Helical Transmembrane Proteins Using Structural Features
Nielsen et al. Gauss-integral based representation of protein structure for predicting the fold class from the sequence
Benning et al. Ancestral sequence reconstruction of Mic60 reveals a residue signature supporting respiration in yeast
Deng et al. RLpMIEC: High-Affinity Peptide Generation Targeting Major Histocompatibility Complex-I Guided and Interpreted by Interaction Spectrum-Navigated Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination