CN114401734A - 用于工程化中尺度肽的基于机器学习的设备及其方法和系统 - Google Patents
用于工程化中尺度肽的基于机器学习的设备及其方法和系统 Download PDFInfo
- Publication number
- CN114401734A CN114401734A CN202080050301.9A CN202080050301A CN114401734A CN 114401734 A CN114401734 A CN 114401734A CN 202080050301 A CN202080050301 A CN 202080050301A CN 114401734 A CN114401734 A CN 114401734A
- Authority
- CN
- China
- Prior art keywords
- blueprint
- records
- machine learning
- learning model
- reference target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 203
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 201
- 102000004196 processed proteins & peptides Human genes 0.000 title claims abstract description 173
- 238000000034 method Methods 0.000 title claims abstract description 132
- 229920001184 polypeptide Polymers 0.000 claims abstract description 158
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 95
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 95
- 238000012549 training Methods 0.000 claims abstract description 41
- 210000004896 polypeptide structure Anatomy 0.000 claims abstract description 11
- 238000013461 design Methods 0.000 claims description 98
- 238000000329 molecular dynamics simulation Methods 0.000 claims description 75
- 238000013528 artificial neural network Methods 0.000 claims description 26
- 150000001413 amino acids Chemical class 0.000 claims description 21
- 230000000875 corresponding effect Effects 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 16
- 238000003066 decision tree Methods 0.000 claims description 16
- 238000012706 support-vector machine Methods 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 15
- 238000004088 simulation Methods 0.000 claims description 14
- 230000001939 inductive effect Effects 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000003068 static effect Effects 0.000 claims description 10
- 238000007637 random forest analysis Methods 0.000 claims description 8
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 8
- 238000005094 computer simulation Methods 0.000 claims description 7
- 230000008827 biological function Effects 0.000 claims description 6
- 230000008512 biological response Effects 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 6
- 230000002596 correlated effect Effects 0.000 claims description 4
- 238000000342 Monte Carlo simulation Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 abstract description 2
- 238000002360 preparation method Methods 0.000 description 22
- 238000004891 communication Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 17
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 230000012846 protein folding Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 125000000539 amino acid group Chemical group 0.000 description 4
- 238000010438 heat treatment Methods 0.000 description 4
- 230000003042 antagnostic effect Effects 0.000 description 3
- 239000000427 antigen Substances 0.000 description 3
- 102000036639 antigens Human genes 0.000 description 3
- 108091007433 antigens Proteins 0.000 description 3
- 230000003278 mimic effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000011960 computer-aided design Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011067 equilibration Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000002209 hydrophobic effect Effects 0.000 description 2
- 230000000116 mitigating effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000013077 scoring method Methods 0.000 description 2
- 239000002904 solvent Substances 0.000 description 2
- 238000002910 structure generation Methods 0.000 description 2
- 238000002054 transplantation Methods 0.000 description 2
- 101710167800 Capsid assembly scaffolding protein Proteins 0.000 description 1
- 238000003775 Density Functional Theory Methods 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000007474 Multiprotein Complexes Human genes 0.000 description 1
- 108010085220 Multiprotein Complexes Proteins 0.000 description 1
- 101710130420 Probable capsid assembly scaffolding protein Proteins 0.000 description 1
- 101710204410 Scaffold protein Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000010171 animal model Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000011230 binding agent Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 1
- 230000003915 cell function Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002050 diffraction method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000001493 electron microscopy Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000002163 immunogen Effects 0.000 description 1
- 238000000126 in silico method Methods 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 238000002823 phage display Methods 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 238000002255 vaccination Methods 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K14/00—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K14/00—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
- C07K14/001—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof by chemical synthesis
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
- G01N33/6803—General methods of protein analysis not limited to specific proteins or families of proteins
- G01N33/6845—Methods of identifying protein-protein interactions in protein mixtures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/30—Dynamic-time models
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K1/00—General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length
- C07K1/10—General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length using coupling agents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Organic Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biochemistry (AREA)
- Medicinal Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Urology & Nephrology (AREA)
- Hematology (AREA)
- Immunology (AREA)
- Computational Linguistics (AREA)
- Genetics & Genomics (AREA)
- Gastroenterology & Hepatology (AREA)
- Physiology (AREA)
- Analytical Chemistry (AREA)
- Microbiology (AREA)
- Food Science & Technology (AREA)
- Cell Biology (AREA)
Abstract
本文提供了设计经工程化的多肽的方法,所述经工程化的多肽重现参考蛋白质结构的预定部分的分子结构特征,例如抗体表位或蛋白质结合位点。通过用基于由蓝图记录生成的多肽结构的计算蛋白质建模计算的分数标记从参考目标结构生成的蓝图记录来训练机器学习(ML)模型。所述方法可以包括基于第一蓝图记录集或其表示以及第一分数集来训练ML模型,来自所述第一蓝图记录集中的每个蓝图记录与来自所述第一分数集中的每个分数相关联。在所述训练后,可以执行所述机器学习模型以生成第二蓝图记录集。然后基于所述第二蓝图记录集生成经工程化的多肽集。
Description
相关申请的交叉引用
本申请要求2019年5月31日提交的标题为“Meso-Scale Engineered Peptidesand Methods of Selecting”的美国专利申请号62/855,767的优先权和权益,该专利申请以引用的方式整体并入本文。
技术领域
本公开整体涉及人工智能/机器学习领域,尤其涉及用于训练和使用用于工程化肽的机器学习模型的方法和设备。
背景技术
计算设计可以用于设计模拟天然蛋白质的新型治疗性蛋白质,或者用于设计展示来自致病性抗原的一个或多个所期望的表位的疫苗。经计算设计的蛋白质也可以用于生成或选择结合剂。例如,可以针对经设计的蛋白质诱饵对抗体文库(例如噬菌体展示文库)进行淘选以选择与该诱饵结合的克隆,或者可以用经设计的免疫原来免疫实验动物以生成新型抗体。
虽然还有其他平台,但是领先的计算设计建模平台是罗塞塔(Rosetta)(Das和Baker,2008)。该平台可以用于设计与所期望的结构相匹配的蛋白质。Correia等人,Structure 18:1116-26(2010)公开了一种设计表位支架的通用计算方法,其中连续的结构表位被移植到支架蛋白中以实现构象稳定和免疫呈递。Olek等人,PNAS USA 107:17880-87(2010)公开了来自HIV-1gp41蛋白的表位至所选的受体支架的移植。
常规计算设计技术通常依赖于目标蛋白质结构的一部分(例如,表位)到预先存在的支架的移植。建模平台(诸如罗塞塔)计算量太大,无法充分探索大型拓扑空间,诸如重现给定蛋白质结构的庞大的蛋白质拓扑空间。因此,需要用于模拟目标蛋白质结构的蛋白质的计算设计的新型改进装置和方法。
发明内容
通常,在一些变型中,设备可以包括存储表示将由处理器执行的指令的代码的非暂时性处理器可读介质。所述代码可以包括使所述处理器基于第一蓝图记录集或其表示以及第一分数集来训练机器学习模型的代码,来自所述第一蓝图记录集中的每个蓝图记录与来自所述第一分数集中的每个分数相关联。所述介质可以包括在所述训练后执行所述机器学习模型以生成具有至少一个期望分数的第二蓝图记录集的代码。所述第二蓝图记录集可以被配置为作为计算蛋白质建模中的输入而被接收,以基于所述第二蓝图记录集来生成经工程化的多肽。
所述介质可以包括使所述处理器接收参考目标结构的代码。所述介质可以包括使所述处理器从所述参考目标结构的预定部分生成所述第一蓝图记录集的代码,来自所述第一蓝图记录集中的每个蓝图记录包括目标残基位置和支架残基位置,来自多个目标残基位置的每个目标残基位置对应于来自多个目标残基中的一个目标残基。在一些变型中,在至少一个蓝图记录中,所述目标残基位置是不连续的。在一些变型中,在至少一个蓝图记录中,目标残基位置的顺序不同于参考目标序列中所述目标残基位置的顺序。
所述介质可以包括使所述处理器标记所述第一蓝图记录集的代码,所述标记通过对每个蓝图记录执行计算蛋白质建模以生成多肽结构、计算所述多肽结构的分数以及将所述分数与所述蓝图记录相关联来进行。在一些变型中,所述计算蛋白质建模可以基于不具有与所述参考目标结构匹配的模板的从头设计。在一些变型中,每个分数包括能量项和结构约束匹配项,所述结构约束匹配项可以使用从所述参考目标结构的表示中提取的一个或多个结构约束来确定。
所述介质可以包括使所述处理器通过计算所述第二蓝图记录集的第二分数集来确定是否需要重新训练所述机器学习模型的代码。所述介质可以包括作为对所述确定的响应,基于以下各项来重新训练所述机器学习模型的另外的代码:(1)重新训练包括所述第二蓝图记录集的蓝图记录以及(2)重新训练包括所述第二分数集的分数。
所述介质可以包括使所述处理器在机器学习模型的重新训练之后连接所述第一蓝图记录集和所述第二蓝图记录集以生成重新训练的蓝图记录以及生成重新训练分数的代码,来自所述重新训练的蓝图记录中的每个蓝图记录与来自所述重新训练分数的分数相关联。在一些变型中,至少一个期望分数可以是预设值。在一些变型中,所述至少一个期望分数可以动态确定。
在一些变型中,所述机器学习模型可以是监督机器学习模型。所述监督机器学习模型可以包括决策树集合、提升决策树算法、极端梯度提升(XGBoost)模型或随机森林。在一些变型中,所述监督机器学习模型可以包括支持向量机(SVM)、前馈机器学习模型、循环神经网络(RNN)、卷积神经网络(CNN)、图神经网络(GNN)或变换器神经网络。
在一些变型中,所述机器学习模型可以包括归纳机器学习模型。在一些变型中,所述机器学习模型可以包括生成机器学习模型。
所述介质可以包括使所述处理器对所述第二蓝图记录集执行计算蛋白质建模以生成经工程化的多肽的代码。
所述介质可以包括使所述处理器过滤所述经工程化的多肽的代码,所述过滤通过与所述参考目标结构的表示进行静态结构比较来进行。
所述介质可以包括使所述处理器过滤所述经工程化的多肽的代码,所述过滤通过使用所述参考目标结构的表示和所述经工程化的多肽中的每个的分子动力学(MD)模拟与所述参考目标结构的表示进行动态结构比较来进行。在某些变型中,MD模拟使用对称多处理(SMP)并行执行。
附图说明
图1是示例性经工程化的多肽设计装置的示意图。
图2是用于经工程化的多肽设计的示例性机器学习模型的示意图。
图3是经工程化的多肽设计的示例性方法的示意图。
图4是经工程化的多肽设计的示例性方法的示意图。
图5是为经工程化的多肽设计装置而准备数据的示例性方法的示意图。
图6是经工程化的多肽设计的示例性方法的示意图。
图7是用于经工程化的多肽设计的机器学习模型的示例性性能的示意图。
图8是使用机器学习模型进行经工程化的多肽设计的示例性方法的示意图。
图9是用于经工程化的多肽设计的机器学习模型的示例性性能的示意图。
图10A-D展示了执行分子动力学模拟以验证经工程化的多肽的示例性方法。
图11展示了执行分子动力学模拟以验证经工程化的多肽的示例性方法。
图12是使分子动力学模拟并行化的示例性方法的示意图。
图13是验证用于经工程化的多肽设计的机器学习模型的示例性方法的示意图。
具体实施方式
本发明的各个方面和变型的非限制性实例在本文中进行描述并且在附图中展示。
本文提供了设计经工程化的多肽的方法,以及包含所述经工程化的肽的组合物和使用所述经工程化的肽的方法。例如,本文提供了在体外抗体选择中使用经工程化的肽的方法。在一些方面,使用者(或程序)可以选择具有已知结构的目标蛋白质以及鉴定目标蛋白质的一部分作为设计经工程化的多肽的输入。目标蛋白质可以是来自病原性生物的抗原(或推定的抗原);与疾病相关细胞功能有关的蛋白质;酶;信号传导分子;或需要重现蛋白质的一部分的经工程化的多肽的任何蛋白质。经工程化的多肽可以用于抗体发现、疫苗接种、诊断、在治疗方法中的使用、生物制造或其他应用。在一个变型中,“目标蛋白质”可以是多于一种蛋白质,诸如多聚体蛋白质复合物。为简洁起见,本公开涉及目标蛋白质,但是方法也适用于多聚体结构。在一个变型中,目标蛋白质是两种或更多种不同的蛋白质或蛋白质复合物。例如,本文公开的方法可以用于设计模拟来自不同物种的蛋白质的共同属性——例如,靶向用于抗体选择的保守表位的经工程化的肽。
导出出蛋白质拓扑结构的计算记录,本文称为“参考目标结构”。参考目标结构可以是常规蛋白质结构或结构模型,例如以蛋白质中的所有(或大部分)原子的3D坐标或所选的原子的3D坐标(例如,每个蛋白质残基的Cβ原子的坐标)表示。任选地,参考目标结构可以包括计算(例如,从分子动力学模拟)或实验(例如,从光谱学、晶体学或电子显微镜)导出的动态项。
目标蛋白质的预定部分被转换为具有目标残基位置和支架残基位置的蓝图。每个位置都可以被指定固定的氨基酸残基同一性或可变的同一性(例如,任何氨基酸、或具有所期望的生理化学性质——极性/非极性、疏水性、大小等的氨基酸)。在一个变型中,来自目标蛋白质的预定部分的每个氨基酸被映射到一个目标残基位置,该位置被指定为具有与目标蛋白质中存在的相同的氨基酸同一性。目标残基位置可以是连续的和/或按顺序的。然而,在一些变型中,一个优点是目标残基位置可以是不连续的(被支架残基位置中断)和不按顺序的(与目标蛋白质的顺序不同)。在一些变型中,与移植方法不同的是,残基的顺序不受限制。类似地,所公开的方法可以适应目标蛋白质的不连续部分(例如,其中相同蛋白质的不同部分或甚至不同的蛋白质链对一个表位有贡献的不连续表位)。
蓝图的支架残基位置可以被指定为在该位置具有任何氨基酸(即,X代表任何氨基酸)。在变型中,支架残基位置通过从一个可能的天然或非天然氨基酸的子集(例如,小极性氨基酸残基、大疏水性氨基酸残基等)中选择来指定。蓝图还可以适应任选的目标和/或支架残基位置。换句话说,蓝图可以容忍残基位置的插入或缺失。例如,目标或支架残基位置可以被指定为存在或不存在;或者所述位置可以被指定为0、1、2、3、4、5、6、7、8、9、10或更多个残基。
然后一个蓝图的子集可以用于执行计算建模以生成相应的多肽结构,所述计算建模使用例如从参考目标结构导出的能量项和拓扑约束以及针对每个多肽结构计算的分数来进行。机器学习(ML)模型可以使用分数和蓝图或蓝图的表示(例如,表示蓝图的矢量)来训练,并且ML模型可以被执行以生成另外的蓝图。这种方法的一个优点是,与很多蓝图的迭代计算建模所探索的相比,ML模型可以探索更多蓝图覆盖的拓扑空间。
本公开还提供了将输出蓝图转换为经工程化的多肽的序列和/或结构,以及将这些经工程化的多肽与目标蛋白质进行比较——使用静态比较、动态比较或它们二者——以及使用这些比较来过滤多肽的方法和相关装置。
虽然本文将方法和设备描述为处理来自一个蓝图记录集、一个分数集、一个能量项集、一个分子动力学能量集、一个能量项集或一个能量函数集的数据,但是在一些情况下,如图1所显示和描述的经工程化的多肽设计装置101可以用于生成所述蓝图记录集、所述分数集、所述能量项集、所述分子动力学能量集、所述能量项集或所述能量函数集。因此,经工程化的多肽设计装置101可以用于生成或处理任何数据、事件和/或对象的集合或流。例如,经工程化的多肽设计装置101可以处理和/或生成任意一个或多个字符串、一个或多个数字、一个或多个名称、一个或多个图像、一个或多个视频、一个或多个可执行文件、一个或多个数据集、一个或多个电子表格、一个或多个数据文件、一个或多个蓝图文件等等。对于另外的实例,经工程化的多肽设计装置101可以处理和/或生成任意一个或多个软件代码、一个或多个网页、一个或多个数据文件、一个或多个模型文件、一个或多个源文件、一个或多个脚本等等。作为另一个实例,经工程化的多肽设计装置101可以处理和/或生成一个或多个数据流、一个或多个图像数据流、一个或多个文本数据流、一个或多个数值数据流、一个或多个计算机辅助设计(CAD)文件流等等。
图1是示例性经工程化的多肽设计装置101的示意图。经工程化的多肽设计装置可以用于生成一个经工程化的多肽设计集。经工程化的多肽设计装置101包括存储器102、通信接口103和处理器104。经工程化的多肽设计装置101可以任选地经由网络150连接(无中间组件)或耦合(有或无中间组件)至后端服务平台160。经工程化的多肽设计装置101可以是基于硬件的计算装置,例如台式计算机、服务器计算机、大型计算机、量子计算装置、并行计算装置、台式计算机、膝上型计算机、智能手机装置的集合等等。
经工程化的多肽设计装置101的存储器102可以包括例如存储器缓冲器、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、嵌入式多次可编程(MTP)存储器、嵌入式多媒体卡(eMMC)、通用闪存(UFS)装置等等。存储器102可以存储例如一个或多个软件模块和/或代码,所述软件模块和/或代码包括使经工程化的多肽设计装置101的处理器104执行一个或多个过程或功能(例如,数据准备模块105、计算蛋白质建模模块106、机器学习模型107和/或分子动力学模拟模块108)。存储器102可以存储一个与机器学习模型107相关(例如,通过执行生成)的文件集,所述文件包括在经工程化的多肽设计装置101的操作期间由机器学习模型107生成的数据。在一些情况下,所述与机器学习模型107相关的文件集可以包括在经工程化的多肽设计装置101的操作期间生成的临时变量、返回存储器地址、变量、机器学习模型107的图形(例如,机器学习模型107使用的一个算术运算集或所述算术运算集的表示)、图形的元数据、资产(例如,外部文件)、电子签名(例如,指定正在导出的机器学习模型107的类型和输入/输出张量)等等。
经工程化的多肽设计装置101的通信接口103可以是经工程化的多肽设计装置101的硬件组件,所述硬件组件可操作地耦合至处理器104和/或存储器102并且由它们使用。通信接口103可以包括例如网络接口卡(NIC)、Wi-FiTM模块、模块、光通信模块以及/或者任何其他合适的有线和/或无线通信接口。通信接口103可以被配置为将经工程化的多肽设计装置101连接至网络150,如本文所进一步详细描述。在一些情况下,通信接口103可以促进经由网络150接收或发送数据。更具体而言,在一些实施方式中,通信接口103可以促进接收或发送数据,例如经由网络150从后端服务平台160接收一个蓝图记录集、一个分数集、一个能量项集、一个分子动力学能量集、一个能量项集或一个能量函数集或者将它们发送到后端服务平台。在一些情况下,经由通信接口103接收的数据可以由处理器104处理或存储在存储器102中,如本文所进一步详细描述。
处理器104可以包括例如基于硬件的集成电路(IC)或者被配置为运行和/或执行一个指令或代码集的任何其他合适的处理装置。例如,处理器104可以是通用处理器、中央处理单元(CPU)、图形处理单元(GPU)、张量处理单元(TPU)、加速处理单元(APU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、复杂可编程逻辑装置(CPLD)、可编程逻辑控制器(PLC)等等。处理器104通过系统总线(例如,地址总线、数据总线和/或控制总线)可操作地耦合至存储器102。
处理器104可以包括数据准备模块105、计算蛋白质建模模块106和机器学习模型107。处理器104可以任选地包括分子动力学模拟模块108。数据准备模块105、计算蛋白质建模模块106、机器学习模型107或分子动力学模拟模块108中的每个可以是存储在存储器102中并且由处理器104执行的软件。例如,使机器学习模型107生成一个蓝图记录集的代码可以存储在存储器102中并且由处理器104执行。类似地,数据准备模块105、计算蛋白质建模模块106、机器学习模型107或分子动力学模拟模块108中的每个可以是基于硬件的装置。例如,使机器学习模型107生成所述蓝图记录集的过程可以在单独的集成电路(IC)芯片上实施。
数据准备模块105可以被配置为接收(例如,从存储器102或后端服务平台160)一个数据集,包括接收针对参考目标的参考目标结构。数据准备模块105可以另外被配置为从参考目标结构的预定部分生成一个蓝图记录集(例如,在字母数字数据表中编码的蓝图文件)。在一些情况下,来自所述蓝图记录集中的每个蓝图记录可以包括目标残基位置和支架残基位置,每个目标残基位置对应于来自多个目标残基中的一个目标残基。
在一些情况下,数据准备模块105可以另外被配置为将参考目标结构的蓝图编码为蓝图记录。数据准备模块105可以另外将蓝图记录转换为一般适用于机器学习模型的蓝图记录的表示。在一些情况下,所述表示可以是一维数字矢量、二维字母数字数据矩阵、三维归一化数字张量。更具体而言,在一些情况下,所述表示是插入支架残基位置数量的有序列表的矢量。这种表示可以使用是因为目标残基的顺序可以从目标结构推断,因此所述表示不需要鉴定目标残基位置的氨基酸同一性。这种表示的一个实例如图6进一步描述。
在一些情况下,数据准备模块105可以生成和/或处理一个蓝图记录集、一个分数集、一个能量项集、一个分子动力学能量集、一个能量项集和/或一个能量函数集。数据准备模块105可以被配置为从所述蓝图记录集、所述分数集、所述能量项集、所述分子动力学能量集、所述能量项集或所述能量函数集中提取信息。
在一些情况下,数据准备模块105可以将所述蓝图记录集的编码转换为具有通用字符编码,例如ASCII、UTF-8、UTF-16、国标、Big5、Unicode或任何其他合适的字符编码。在另外一些其他情况下,数据准备模块105可以另外被配置为通过例如鉴定对经工程化的多肽意义重大的蓝图记录的一部分或蓝图记录的表示来提取蓝图记录的特征和/或蓝图记录的表示。在一些情况下,数据准备模块105可以将所述蓝图记录集、所述分数集、所述能量项集、所述分子动力学能量集、所述能量项集或所述能量函数集的单位从英制单位(例如英里、英尺、英寸等等)转换为国际单位制(SI)(例如千米、米、厘米等等)。
计算蛋白质建模模块106可以被配置为从参考目标结构的预定部分生成蓝图记录的一个初始候选者集,所述候选者可以用作本文所述的计算优化过程的起始模板。在一个实例中,计算蛋白质建模模块106可以是罗塞塔重建模器。方法的变化采用其他建模算法,包括但不限于分子动力学模拟、从头开始片段组装、蒙特卡罗(Monte Carlo)片段组装、机器学习结构预测(诸如AlphaFold或trRosetta)、基于结构知识库的蛋白质折叠、神经网络蛋白质折叠、基于序列的循环或变换器网络蛋白质折叠、生成对抗网络蛋白质结构生成、马尔可夫(Markov)链蒙特卡罗蛋白质折叠等等。使用罗塞塔重建模器生成的初始候选结构可以用作机器学习模型107的训练集。计算蛋白质建模模块106可以另外从蓝图记录的初始候选者以计算方式确定每个蓝图的能量项。然后数据准备模块105可以被配置为从能量项生成分数。在一个实例中,分数可以是能量项的归一化值。归一化值可以是从0至1的数字、从-1至-1的数字、在0和100之间的归一化值或任何其他数值范围。在一些变型中,计算蛋白质建模模块106可以基于不存在与参考目标结构匹配的模板的从头设计或基于弱距离限制,其中例如在目标结构中目标残基之间的距离被限制在1埃的目标残基距离内。弱距离限制可以包括允许围绕距离限制的变分噪声分布的限制(例如,具有围绕距离限制的特定均值和特定方差的高斯噪声)。在一些变型中,计算蛋白质建模模块106可以通过将变分噪声平滑或添加至任何距离约束和/或定义计算蛋白质模型的目标函数来使用,以使得当不满足远距离约束时计算蛋白质模型受到不太严厉的罚分。此外,在一些情况下,计算蛋白质建模模块106可以使用能量项的平滑标记。该方法的优点在于,通过平滑能量项标记,机器学习模型107可以更容易地优化由要探索的蓝图覆盖的拓扑空间。
与所述蓝图记录的初始候选者集相比,机器学习模型107可以用于生成改进的蓝图记录。机器学习模型107可以是监督机器学习模型,所述模型被配置为接收由计算蛋白质建模模块106计算的所述蓝图记录的初始候选者集和一个分数集。来自所述分数集中的每个分数对应于来自所述蓝图记录的初始候选者集的蓝图记录。处理器104可以被配置为将每个对应的分数和蓝图记录相关联以生成一个标记的训练数据集。
在一些情况下,机器学习模型107可以包括归纳机器学习模型和/或生成机器学习模型。机器学习模型可以包括提升决策树算法、决策树集合、极端梯度提升(XGBoost)模型、随机森林、支持向量机(SVM)、前馈机器学习模型、循环神经网络(RNN)、卷积神经网络(CNN)、图神经网络(GNN)、对抗网络模型、基于实例的训练模型、变换器神经网络等等。机器学习模型107可以被配置为包括一个模型参数集,包括一个权重集、一个偏差集和/或一个活化函数集,一旦经过训练,所述模型参数就可以在归纳模式下执行以从蓝图记录生成分数或可以在生成模式下执行以从分数生成蓝图记录。
在一个实例中,机器学习模型107可以是深度学习模型,所述模型包括输入层、输出层和多个隐藏层(例如,5层、10层、20层、50层、100层、200层等)。多个隐藏层可以包括归一化层、全连接层、活化层、卷积层、循环层和/或任何其他适合表示所述蓝图记录集和所述分数集(每个分数表示一个能量项)之间的相关性的层。
在一个实例中,机器学习模型107可以是XGBoost模型,所述模型包括一个超参数集,例如定义XGBoost模型中的提升轮数或树的多个提升轮数,定义从XGBoost模型的树的根到树的叶等等的最大允许节点数的最大深度。XGBoost模型可以包括一个树集、一个节点集、一个权重集、一个偏差集和其他可以用于描述XGBoost模型的参数。
在一些实施方式中,机器学习模型107(例如,深度学习模型、XGBoost模型等等)可以被配置为从所述蓝图记录集迭代接收每个蓝图记录并且生成输出。来自所述蓝图记录集中的每个蓝图记录都与来自所述分数集的一个分数相关联。可以使用目标函数(也称为“成本函数”)来比较输出和分数以生成第一训练损失值。目标函数可以包括例如均方误差、平均绝对误差、平均绝对百分比误差、logcosh、分类交叉熵等等。所述模型参数集可以在多次迭代中修改,并且第一目标函数可以在每次迭代中执行,直到第一训练损失值收敛到第一预定训练阈值(例如80%、85%、90%、97%等)。
在一些实施方式中,机器学习模型107可以被配置为迭代接收来自所述分数集中的每个分数并且生成输出。来自所述蓝图记录集中的每个蓝图记录都与来自所述分数集的一个分数相关联。可以使用目标函数来比较输出和蓝图记录以生成第二训练损失值。所述模型参数集可以在多次迭代中修改,并且第一目标函数可以在多次迭代的每次迭代中执行,直到第二训练损失值收敛到第二预定训练阈值。
一旦经过训练,机器学习模型107就可以执行以生成一个改进的蓝图记录集。可以预期所述改进的蓝图记录集比所述蓝图记录的初始候选者集具有更高的分数。在一些情况下,机器学习模型107可以是生成机器学习模型,所述模型针对对应于第一分数集的第一蓝图记录集(例如,使用罗塞塔重建模器生成)而训练(例如,每个分数的能量项对应于来自所述蓝图记录集的蓝图记录的罗塞塔能量),以表示第一蓝图记录集的设计空间与第一分数集的相关性(例如,对应于能量项)。一旦经过训练,机器学习模型107就可以生成具有与其相关的第二分数集的第二蓝图记录集。在一些实施方式中,计算蛋白质建模模块106可以用于通过计算第二蓝图记录集的一个能量项集来验证第二蓝图记录集和第二分数集。所述能量项集可以用于生成第二蓝图记录集的一个基准真实分数集。一个蓝图记录的子集可以从第二蓝图记录集选择,以使得来自所述蓝图记录的子集的每个蓝图记录具有大于阈值的基准真实分数。在一些情况下,阈值可以是由例如经工程化的多肽设计装置101的使用者预定的数字。在一些其他情况下,阈值可以是基于所述基准真实分数集动态确定的数字。
在机器学习模型107被执行以生成第二蓝图记录集之后,分子动力学模拟模块108可以任选地用于验证机器学习模型107的输出。经工程化的多肽设计装置101可以通过以下步骤来过滤掉一个第二蓝图记录的子集:基于第二蓝图记录集来生成经工程化的多肽,以及使用参考目标结构和经工程化的多肽的结构中的每个的表示的分子动力学(MD)模拟,与参考目标结构的表示进行动态结构比较。例如,分子动力学模拟模块108可以选择几个(例如,少于10个命中)经工程化的多肽(基于第二蓝图记录集)。在一些情况下,MD模拟可以在边界条件、限制和/或平衡下执行。在一些情况下,MD模拟可以在溶液条件下执行,包括以下步骤:模型准备、平衡(例如,100K至300K的温度),将力场参数和/或溶剂模型参数应用于参考目标结构和经工程化的多肽的结构中的每个的表示。在一些情况下,MD模拟可以进行限制最小化(例如,缓解结构冲突)、限制加热(例如,限制加热100皮秒并逐渐升温至环境温度)、放松限制(例如,放松限制100皮秒并逐渐除去骨架限制)等等。
在一些实施方式中,机器学习模型107是归纳机器学习模型。一旦经过训练,这种机器学习模型107就可以通过例如计算蓝图的分数(例如,计算蛋白质建模模块、基于密度函数理论的分子动力学能量模拟器等等)的数值方法,在通常花费的时间的一小部分内,基于蓝图记录来预测分数。因此,机器学习模型107可以用于快速估算一个蓝图记录集的一个分数集,以大幅提高优化算法的优化速度(例如,快50%、快2倍、快10倍、快100倍、快1000倍、快1,000,000倍、快1,000,000,000倍等等)。在一些实施方式中,机器学习模型107可以生成第一蓝图记录集的第一分数集。经工程化的多肽设计装置101的处理器104可以执行表示一个指令集的代码,以选择第一蓝图记录集中表现最佳者(例如,第一分数集的前10%,例如,第一分数集的前2%等等)。处理器104可以另外包括验证第一蓝图记录集中表现最佳者的分数的代码。在一些变型中,如果第一蓝图记录集中表现最佳者所对应的验证分数具有大于第一分数集中的任一者的值,则可以将其作为输出生成。在一些变型中,机器学习模型107可以基于新数据集而重新训练,所述数据集包括第二蓝图记录集和第二分数集,它们包括蓝图记录和表现最佳者的分数。
网络150可以是服务器和/或计算装置的数字电信网络。网络上的服务器和/或计算装置可以经由一个或多个有线或无线通信网络(未示出)连接,以共享资源(例如数据存储或计算能力)。网络的服务器和/或计算装置之间的有线或无线通信网络可以包括一个或多个通信信道,例如一个或多个射频(RF)通信信道、一个或多个光纤通信信道等等。网络可以是例如因特网、内联网、局域网(LAN)、广域网(WAN)、城域网(MAN)、全球互通微波访问网虚拟网络、任何其他合适的通信系统和/或此类网络的组合。
后端服务平台160可以是可操作地耦合至服务器和/或计算装置的数字通信网络(例如,因特网)和/或在所述数字通信网络内的计算装置(例如,服务器)。在一些变型中,后端服务平台160可以包括和/或执行基于云的服务,例如,软件即服务(SaaS)、平台即服务(PaaS)、基础设施即服务(IaaS)等等。在一个实例中,后端服务平台160可以提供数据存储,以存储大量数据,包括蛋白质结构、蓝图记录、罗塞塔能量、分子动力学能量等等。在另一个实例中,后端服务平台160可以提供快速计算,以执行一个计算蛋白质建模集、分子动力学模拟集、训练机器学习模型集等等。
在一些变型中,本文所述的计算蛋白质模块106的过程可以在提供云计算服务的后端服务平台160中执行。在此类变型中,经工程化的多肽设计装置101可以被配置为使用通信接口103将信号发送至后端服务平台160以生成一个蓝图记录集。后端服务平台160可以执行生成所述蓝图记录集的计算蛋白质建模过程。然后后端服务平台160可以经由网络150将所述蓝图记录集发送到经工程化的多肽设计装置101。
在一些变型中,经工程化的多肽设计装置101可以将包括机器学习模型107的文件发送到远离经工程化的多肽设计装置101的使用者计算装置(未示出)。使用者计算装置可以被配置为生成满足设计标准(例如,具有期望分数)的一个蓝图记录集。在一些变型中,使用者计算装置从经工程化的多肽设计装置101接收参考目标结构。使用者计算装置可以从参考目标结构的预定部分生成第一蓝图记录集,以使得每个蓝图记录包括目标残基位置和支架残基位置。每个目标残基位置对应于来自多个目标残基中的一个目标残基。使用者计算装置可以另外基于第一蓝图记录集或其表示和第一分数集来训练机器学习模型。在训练后,使用者计算装置可以执行机器学习模型以生成具有至少一个期望分数(例如,满足特定设计标准)的第二蓝图记录集。第二蓝图记录集可以作为计算蛋白质建模中的输入而被接收,以基于第二蓝图记录集来生成经工程化的肽。
图2是用于经工程化的多肽设计的示例性机器学习模型202(类似于如图1所描述和显示的机器学习模型107)的示意图。机器学习模型202可以是将蓝图记录的设计空间与对应于基于那些蓝图记录构建的多肽的能量项的分数相关联的监督机器学习模型。机器学习模型可以具有生成操作模式和/或归纳操作模式。
在生成操作模式中,机器学习模型202针对第一蓝图记录集201和第一分数集203而训练。一旦经过训练,机器学习模型202就可以生成第二蓝图记录集,所述第二蓝图记录集具有在统计上比第一分数集更高(例如,具有更高的均值)的第二分数集。在归纳操作模式中,机器学习模型202针对第一蓝图记录集201和第一分数集203而训练。一旦经过训练,机器学习模型202就可以生成第二蓝图记录集的第二分数集。第二分数集是基于历史训练数据的一个预测分数集(例如第一蓝图记录集和第一分数集),并且生成速度比使用计算蛋白质建模(类似于如图1所显示和描述的计算蛋白质建模模块106)或分子动力学模拟(类似于如图1所显示和描述的分子动力学模块108)的数值计算分数和/或能量项明显更快(例如,快50%、快2倍、快10倍、快100倍、快1000倍、快1,000,000倍、快1,000,000,000倍等等)。
图3是经工程化的多肽设计的示例性方法300的示意图。经工程化的多肽设计的方法300可以例如通过经工程化的多肽设计装置(类似于如图1所显示和描述的经工程化的多肽设计装置101)来执行。经工程化的多肽设计的方法300任选地包括,在步骤301,接收参考目标的参考目标结构。经工程化的多肽设计的方法300任选地包括,在步骤302,从参考目标结构的预定部分生成第一蓝图记录集,来自第一蓝图记录集中的每个蓝图记录包括目标残基位置和支架残基位置,每个目标残基位置对应于来自多个目标残基中的一个目标残基。在一些情况下,目标残基是不连续的。在一些情况下,目标残基是不按顺序的。经工程化的多肽设计的方法300可以包括,在步骤303,基于第一蓝图记录集或其表示以及第一分数集来训练机器学习模型(类似于如图1所显示和描述的机器学习模型107),来自第一蓝图记录集中的每个蓝图记录与来自第一分数集中的每个分数相关联。所述表示可以使用数据准备模块(类似于如图1所显示和描述的数据准备模块)基于第一蓝图记录集来生成。经工程化的多肽设计的方法300还包括,在步骤304,在训练后执行机器学习模型,以生成具有至少一个期望分数(例如,一个分数或多个分数)的第二蓝图记录集。在一些构造中,机器学习模型包括生成机器学习模型,并且至少一个期望分数是由经工程化的多肽设计装置的使用者确定的预设值。在一些构造中,机器学习模型包括归纳机器学习模型,所述归纳机器学习模型预测第二蓝图记录集的一个预测分数集。可以选择一个第二蓝图记录集的子集,以使得来自所述蓝图记录的子集的每个蓝图记录具有大于至少一个期望分数的分数。在一些构造中,可以动态确定至少一个期望分数。例如,可以将至少一个期望分数确定为所述预测分数集的第90个百分位。
经工程化的多肽设计的方法300任选地包括,在305,通过使用数值方法计算第二分数集(例如,一个基准真实分数集)来确定是否需要重新训练机器学习模型,所述数值方法例如罗塞塔重建模器、从头开始分子动力学模拟、机器学习结构预测(诸如AlphaFold或trRosetta)、基于结构知识库的蛋白质折叠、神经网络蛋白质折叠、基于序列的循环或变换器网络蛋白质折叠、生成对抗网络蛋白质结构生成、马尔可夫链蒙特卡罗蛋白质折叠等等。然后经工程化的多肽设计装置将第二分数集与所述预测分数集进行比较,并且基于所述预测分数集与第二分数集的偏差确定是否需要重新训练机器学习模型。经工程化的多肽设计的方法300任选地包括,在305,作为对确定的响应,基于以下各项来重新训练机器学习模型:(1)重新训练包括第二蓝图记录集的蓝图记录以及(2)重新训练包括所述预测分数集的分数。在一些构造中,经工程化的多肽设计装置可以连接第一蓝图记录集和第二蓝图记录集以生成重新训练的蓝图记录。经工程化的多肽设计装置可以另外连接第一分数集和第二分数集以生成重新训练分数。在一些构造中,蓝图记录的重新训练仅包括第二蓝图记录集,并且重新训练分数仅包括第二分数集。
图4是经工程化的多肽设计的示例性方法400的示意图。经工程化的多肽设计的方法400可以例如通过经工程化的多肽设计装置(类似于如图1所显示和描述的经工程化的多肽设计装置101)来执行。经工程化的多肽设计的方法400包括,在步骤401,基于第一蓝图记录集或其表示以及第一分数集来训练机器学习模型(类似于如图1所显示和描述的机器学习模型107),来自第一蓝图记录集中的每个蓝图记录与来自第一分数集中的每个分数相关联。所述表示可以使用数据准备模块(类似于如图1所显示和描述的数据准备模块)基于第一蓝图记录集来生成。经工程化的多肽设计的方法400还包括,在步骤402,在训练后执行机器学习模型,以生成具有至少一个期望分数的第二蓝图记录集。经工程化的多肽设计的方法400任选地包括,在步骤403,对第二蓝图记录集执行计算蛋白质建模以生成经工程化的多肽。在一些构造中,经工程化的多肽设计的方法400任选地包括,在步骤404,通过与参考目标结构的表示进行静态结构比较来过滤经工程化的多肽。在一些构造中,经工程化的多肽设计的方法400任选地包括,在步骤405,使用参考目标结构和经工程化的多肽的结构中的每个的表示的分子动力学(MD)模拟,通过与参考目标结构的表示进行动态结构比较来过滤经工程化的多肽。
图5是为经工程化的多肽设计装置而准备数据的示例性方法的示意图。左侧显示了目标蛋白质的结构的飘带图。预定部分以较深的颜色显示,预定部分的氨基酸残基的侧链以棒图显示。在这个实例中,预定部分是作为抗体的所期望的目标表位的目标蛋白质的一部分。通过生成经工程化的多肽来重现该表位,预期可以获得与目标蛋白质的该部分特异性结合的抗体。
图5的右图显示了蓝图集的示意图。每个圆形表示一个残基位置。支架残基位置是浅灰色的,并且未显示侧链。目标残基位置是深灰色的,并且显示每个位置的侧链。侧链是熟知的天然氨基酸的侧链。在一些情况下,目标残基和/或支架残基是非天然氨基酸。在这个实例中,每个目标残基位置正好对应于目标蛋白质的参考目标结构的预定部分的一个残基。所显示的蓝图集是“按顺序的”,因为在每个图中,目标残差位置的顺序相同。目标残基的顺序不一定与目标蛋白质序列中的残基顺序相同。第一个和最后一个蓝图具有连续的目标残差位置,而其他蓝图是不连续的。至少一个支架残基位置在第一个和最后一个目标残基位置之间。字母N和C表示匹配给定蓝图的多肽的氨基(N)末端和羧基(C)末端。
图5所示的五个蓝图是大量可能的蓝图的成员,以图中线条之间的椭圆形表示。对于具有35个位置的蓝图(与35聚体多肽一致),假设目标残基是按顺序的,则潜在蓝图的总数由以下公式给出:35!÷(11!×(35-11)!)=0.42万亿。即使利用可用的最大超级计算服务,罗塞塔重建模器对所有可能的35聚体的计算也需要数年甚至终生的时间。因此,使用目前的计算装置和方法,单独对每个蓝图进行直接计算建模在计算上是难以处理的。
图6是经工程化的多肽设计的示例性方法的示意图。示意图的右侧部分展示了如何将支架蓝图(例如,转换为适合用作输入的蓝图记录,未示出)输入计算蛋白质建模程序(类似于如图1所显示和描述的计算蛋白质建模模块106;包括但不限于罗塞塔重建模器)以生成用作标记的分数。分数通常反映建模程序使用的能量项。就罗塞塔重建模器而言,该分数包括反映从蓝图生成的设计多肽折叠的能量项和反映设计多肽的预测结构与目标蛋白质的参考目标结构的预定部分的已知结构的结构相似性的结构约束匹配项。可以使用其他建模程序和其他评分函数。
示意图的左侧部分展示了蓝图至蓝图的表示的转换。表示可以是适用于机器学习模型(诸如,如图1所显示和描述的机器学习模型107)的任何表示。在此处,表示是矢量。更具体而言,矢量是目标残基位置之间的插入支架残基数量的有序列表。这种表示可以使用是因为在这种表示中目标残基位置的顺序是固定的,因此所述表示不需要鉴定目标残基位置的氨基酸同一性。该信息是隐含的。目标残基位置的顺序不一定与目标结构序列中的顺序相同。矢量的第一个元素8表示在第一目标残基位置之前有八个支架残基位置。矢量的第二个元素1表示在第一目标残基位置之后、第二目标残基位置之前有一个支架残基位置。后续元素0、1、2或3表示没有插入支架残基位置,有一个、两个或三个插入支架残基位置。矢量的最后一个元素4表示蓝图中的最后四个位置是支架残基位置。
蓝图记录的表示的这种变化的一个优点是,除第一个和最后一个元素之外,矢量是帧移恒定的。也就是说,机器学习模型具有与目标残基在蓝图中的位置无关的关于目标残基的相对位置的可用信息。这允许在N-和C-末端设计具有可变的结构化/非结构化区域的类似结构。
图7是用于经工程化的多肽设计的机器学习模型的示例性性能的示意图。散点图展示了机器学习模型(诸如,如图1所显示和描述的机器学习模型107)可以生成/预测一个蓝图记录集的一个预测分数集的准确度。散点图中的每个点表示来自所述蓝图记录集的蓝图记录。横轴表示可以通过数值方法计算的所述蓝图记录集的基准真实分数,所述数值方法例如罗塞塔重建模器、从头开始分子动力学模拟等等。纵轴表示由机器学习模型生成/预测的所述蓝图记录集的预测分数,所述机器学习模型运行速度比数值方法明显更快(例如,快50%、快2倍、快10倍、快100倍、快1000倍、快1,000,000倍、快1,000,000,000倍等等)。在理想情况下,预测分数对应于(例如,等于、近似于)基准真实分数。在预测分数与基准真实分数不对应的情况下,机器学习模型可以通过所述蓝图记录集和基准真实分数重新训练,直到新生成的所述蓝图记录集的新生成的预测分数对应于新生成的所述蓝图记录集的基准真实分数。一般而言,分数可以包括能量项(例如罗塞塔能量函数2015(REF15)和结构约束匹配项(如图6所描述)。分数可以被定义为使得蓝图记录的低分反映蓝图记录的低分子动力学能量和更高的稳定性,如本文图7所示。在一些变型中,分数可以被定义为使得蓝图记录的高分通常反映基于蓝图记录构建的多肽的更高的稳定性。
图8是使用机器学习模型进行经工程化的多肽设计的示例性方法的示意图。如图8所示,包括第一蓝图记录集和第一分数集(例如,表示能量项,诸如罗塞塔能量或分子动力学能量)的初始数据集可以生成,并且通过数据准备模块(诸如如图1所显示和描述的数据准备模块105)进一步准备。机器学习模型(类似于如图1所显示和描述的机器学习模型107)可以基于初始数据集来训练。第二蓝图记录集可以作为输入提供给机器学习模型以生成第二分数集。可以针对基准真实分数来验证具有大于预定值(例如,期望分数)的分数的第二蓝图记录集或第二蓝图记录集的一部分。如果第二分数集足够准确地(例如,具有大于95%的准确度)对应于基准真实分数,则可以将第二蓝图记录集或第二蓝图记录集的一部分呈现给使用者。否则,可以使用第二蓝图记录集或第二蓝图记录集的一部分来重新训练机器学习模型。在一些情况下,可以生成第三蓝图记录集、第四蓝图记录集或更多的蓝图记录迭代,以获得具有期望分数的蓝图。在一些情况下,通过针对新的蓝图集和分数集而迭代重新训练机器学习模型,可以生成达到期望分数的所期望尽可能多的蓝图集。展示训练和使用机器学习模型以生成经工程化的多肽设计的过程的示例性代码片段如下:
training_energies=Rosetta(training_scaffolds)##罗塞塔能量针对支架的初始训练集而计算
而training_energies尚未收敛:##迭代直到罗塞塔能量停止改进
训练xgboost从training_scaffolds预测training_energies##训练XGBoost从支架的训练集预测罗塞塔能量
Predicted_scaffolds=来自xgboost的最佳预测支架##使用XGBoost来预测最佳支架
new_energies=Rosetta(predicted_scaffolds)##针对预测支架而计算罗塞塔能量
将predicted_scaffolds添加到training_scaffolds##将预测支架添加到训练集
将new_energies添加到training_energies##将预测支架能量添加到训练集
图9是用于经工程化的多肽设计的机器学习模型的示例性性能的示意图。如图5所描述,对于具有35个位置的示例性蓝图记录(与35聚体多肽一致),假设目标残基是按顺序的,则潜在蓝图的总数由以下公式给出:35!÷(11!×(35-11)!)=0.42万亿。因此,使用目前的计算装置和方法,使用强力发现/优化单独对每个蓝图进行直接计算建模在计算上是难以处理的,并且可能需要数年或数十年的时间。相比之下,使用数据驱动方法(诸如本文所述的机器学习模型)可以减少这种发现/优化的时间(例如,减少至几周、几天、几小时、几分钟等等)。
图10A-D展示了执行分子动力学模拟以验证经工程化的多肽的示例性方法。在机器学习模型(诸如如图1所显示和描述的机器学习模型107)被训练和执行以生成经改进/优化(例如,满足设计标准、具有期望分数等等)的生成的蓝图记录集之后,经工程化的多肽设计装置(如图1所描述和显示)可以验证所述生成的蓝图记录集。
经工程化的多肽设计装置可以对所述生成的蓝图记录集执行计算蛋白质建模(例如,使用如图1所显示和描述的计算设计建模模块106)以生成经工程化的多肽。在一些实施方式中,然后经工程化的多肽设计装置可以通过对参考目标结构的表示进行静态结构比较来过滤掉经工程化的多肽的子集。
在一些实施方式中,然后经工程化的多肽设计装置可以使用参考目标结构和经工程化的多肽的结构中的每个的表示的分子动力学(MD)模拟,通过与参考目标结构的表示进行动态结构比较来过滤掉经工程化的多肽的子集。例如,经工程化的多肽设计装置可以选择几个(例如,少于10个命中)经工程化的多肽。在一些情况下,MD模拟可以确定在溶液条件下参考目标结构和经工程化的多肽的结构中的每个的表示的动力学,包括模型制备、平衡(例如,温度为100K至300K)和无限制MD模拟的步骤。在一些情况下,MD模拟可以包括将力场参数和溶剂模型参数应用于参考目标结构和经工程化的多肽的结构中的每个的表示。在一些情况下,MD模拟可以进行限制最小化1000个循环(例如,缓解结构冲突)、限制加热(例如,限制加热100皮秒并逐渐升温至环境温度)、放松限制(例如,放松限制100皮秒并逐渐除去骨架限制)。
图11展示了执行分子动力学模拟以验证经工程化的多肽的示例性方法。在一些实施方式中,除如图10所描述的方法之外或作为该方法的替代,MD模拟可以受时间的限制。例如,MD模拟可以执行30ns的无限制动力学。在一些实施方式中,另外地或可替代地,MD模拟可以受构象信息的限制。例如,可以执行MD模拟以获得在任何时间范围内观察到的80%的构象信息,从而获得这种构象信息。在一些实施方式中,确定平衡MD模拟的吞吐量和准确性的模拟时间的指标可以通过参考目标结构和经工程化的多肽的结构中的每个的表示的模拟的余弦相似度分数来计算。
图12是使分子动力学模拟并行执行的示例性方法的示意图。在一些情况下,经工程化的多肽设计可以包括执行多个(例如,100s、1000s、10,000s等等)分子动力学模拟。在这些情况下,经工程化的多肽设计装置的处理器(诸如如图1所显示和描述的经工程化的多肽设计装置101的处理器104)可以包括图形处理单元(GPU)、加速处理单元、和/或任何其他可以并行执行计算的处理单元。GPU可以包括对称的多处理单元(SMP)集。因此,GPU可以被配置为诸如使用所述SMP集并行处理多个(例如,10s、100s等等)分子动力学模拟。在一些变型中,云计算平台(诸如如图1所显示和描述的后端服务平台160)上的多核处理单元可以用于并行处理多个分子动力学模拟。
图13是验证用于经工程化的多肽设计的机器学习模型的示例性方法的示意图。在一些实施方式中,评分方法可以针对参考目标结构的表示的分子动力学(MD)模拟结果和经工程化的多肽中的每个的MD模拟结果而使用,以评估每个经工程化的多肽。评分方法可以涉及使用均方根偏差(RMSD):
其中N是原子数,Xi是参考目标结构的参考位置矢量,并且Yi是每个经工程化的多肽的位置矢量。或者,MEM和表位结构动态匹配评分可以使用均方根内积(RMSIP)来执行:
其中按对应的本征值排序-从最高到最低,对于N个预定参考残基,本征矢量ψ和分别是参考目标结构的本征矢量和经工程化的多肽的本征矢量。本征矢量ψ和中的每个表示运动的最低频率模式,在这种情况下,使用按对应的本征值排序的前10个本征矢量。参考目标结构的本征矢量和经工程化的多肽的本征矢量可以例如使用主成分分析(PCA)来计算。
出于解释的目的,前述描述使用特定的命名法来提供对本发明的充分理解。然而,对于本领域的技术人员显而易见的是,为了实践本发明不需要具体的细节。因此,本发明的特定实施方案的前述描述是出于说明和描述目的而呈现的。它们并非详尽无遗或将本发明限制为所公开的精确形式;显然,鉴于上述教导,很多修改和变化是可能的。选择和描述实施方案是为了解释本发明的原理及其实际应用,从而使本领域的其他技术人员能够利用本发明和具有适合于预期特定用途的各种修改的各种实施方案。以下权利要求及其等同形式旨在限定本发明的范围。
列举的实施方案:
实施方案I-1.一种方法,所述方法包括:
基于第一多个蓝图记录或其表示以及第一多个分数来训练机器学习模型,来自所述第一多个蓝图记录中的每个蓝图记录与来自所述第一多个分数中的每个分数相关联;以及
在所述训练后执行所述机器学习模型以生成具有至少一个期望分数的第二多个蓝图记录,
所述第二多个蓝图记录被配置为作为计算蛋白质建模中的输入而被接收,以基于所述第二多个蓝图记录来生成经工程化的多肽。
实施方案I-2.如实施方案I-1所述的方法,包括:
接收参考目标的参考目标结构的表示;以及
从所述参考目标结构的预定部分生成所述第一多个蓝图记录,来自所述第一多个蓝图记录中的每个蓝图记录包括目标残基位置和支架残基位置,每个目标残基位置对应于来自多个目标残基中的一个目标残基。
实施方案I-3.如实施方案I-1或I-2所述的方法,其中在至少一个蓝图记录中,所述目标残基位置是不连续的。
实施方案I-4.如实施方案I-1至I-3中任一项所述的方法,其中在至少一个蓝图记录中,目标残基位置的顺序不同于参考目标序列中所述目标残基位置的顺序。
实施方案I-5.如实施方案I-1至I-4中任一项方法的方法,包括:
对于来自所述第一多个蓝图记录中的每个蓝图记录,通过以下步骤来标记所述第一多个蓝图记录:
对所述蓝图记录执行计算蛋白质建模以生成多肽结构,
计算所述多肽结构的分数,以及
将所述分数与所述蓝图记录相关联。
实施方案I-6.如实施方案I-1至I-5中任一项所述的方法,其中所述计算蛋白质建模基于不存在与所述参考目标结构匹配的模板的从头设计。
实施方案I-7.如实施方案I-1至I-6中任一项所述的方法,其中来自所述第一多个分数中的每个分数包括能量项和结构约束匹配项,所述结构约束匹配项使用从所述参考目标结构的表示中提取的一个或多个结构约束来确定。
实施方案I-8.如实施方案I-1至I-7中任一项所述的方法,包括:
通过计算所述第二多个蓝图记录的第二多个分数来确定是否需要重新训练所述机器学习模型;以及
作为对所述确定的响应,基于以下各项来重新训练所述机器学习模型:(1)重新训练包括所述第二多个蓝图记录的蓝图记录以及(2)重新训练包括所述第二多个分数的分数。
实施方案I-9.如实施方案I-8所述的方法,包括:
在重新训练所述机器学习模型之后连接所述第一多个蓝图记录和所述第二多个蓝图记录以生成重新训练的蓝图记录以及生成重新训练分数,来自所述重新训练的蓝图记录中的每个蓝图记录与来自所述重新训练分数的分数相关联。
实施方案I-10.如实施方案I-1至I-9中任一项所述的方法,其中所述至少一个期望分数是预设值。
实施方案I-11.如实施方案I-1至I-9中任一项所述的方法,其中所述至少一个期望分数是动态确定的。
实施方案I-12.如实施方案I-1至I-10中任一项所述的方法,其中所述机器学习模型是监督机器学习模型。
实施方案I-13.如实施方案I-12所述的方法,其中所述监督机器学习模型包括决策树集合、提升决策树算法、极端梯度提升(XGBoost)模型或随机森林。
实施方案I-14.如实施方案I-12所述的方法,其中所述监督机器学习模型包括支持向量机(SVM)、前馈机器学习模型、循环神经网络(RNN)、卷积神经网络(CNN)、图神经网络(GNN)或变换器神经网络。
实施方案I-15.如实施方案I-1至I-14中任一项所述的方法,其中所述机器学习模型是归纳机器学习模型。
实施方案I-16.如实施方案I-1至I-14中任一项所述的方法,其中所述机器学习模型是生成机器学习模型。
实施方案I-17.如实施方案I-1至I-16中任一项所述的方法,包括对所述第二多个蓝图记录执行计算蛋白质建模以生成所述经工程化的多肽。
实施方案I-18.如实施方案I-1至I-17中任一项所述的方法,包括通过与所述参考目标结构的表示进行静态结构比较来过滤所述经工程化的多肽。
实施方案I-19.如实施方案I-1至I-18中任一项所述的方法,包括通过使用所述参考目标结构和经工程化的多肽的结构中的每个的表示的分子动力学(MD)模拟与所述参考目标结构的表示进行动态结构比较来过滤所述经工程化的多肽。
实施方案I-20.如实施方案I-19所述的方法,其中所述MD模拟使用对称多处理(SMP)来并行执行。
实施方案I-21.如实施方案I-1至I-20中任一项所述的方法,其中所述第二多个蓝图记录中的蓝图记录的数量小于所述第一多个蓝图记录中的蓝图记录的数量。
实施方案I-22.一种非暂时性处理器可读介质,所述介质存储表示将由处理器执行的指令的代码,所述代码包括使所述处理器执行以下操作的代码:
基于第一多个蓝图记录或其表示以及第一多个分数来训练机器学习模型,来自所述第一多个蓝图记录中的每个蓝图记录与来自所述第一多个分数中的每个分数相关联;以及
在所述训练后执行所述机器学习模型以生成具有至少一个期望分数的第二多个蓝图记录,
所述第二多个蓝图记录被配置为作为计算蛋白质建模中的输入而被接收,以基于所述第二多个蓝图记录来生成经工程化的多肽。
实施方案I-23.如实施方案I-22所述的介质,包括使所述处理器执行以下操作的代码:
接收参考目标结构的表示;以及
从所述参考目标结构的预定部分生成所述第一多个蓝图记录,来自所述第一多个蓝图记录中的每个蓝图记录包括目标残基位置和支架残基位置,来自多个目标残基位置的每个目标残基位置对应于来自多个目标残基中的一个目标残基。
实施方案I-24.如实施方案I-23所述的介质,其中在至少一个蓝图记录中,所述目标残基位置是不连续的。
实施方案I-25.如实施方案I-23或I-24所述的介质,其中在至少一个蓝图记录中,目标残基位置的顺序不同于参考目标序列中所述目标残基位置的顺序。
实施方案I-26.如实施方案I-23至I-25中任一项所述的介质,包括使所述处理器执行以下操作的代码:
通过执行以下步骤来标记所述第一多个蓝图记录:对每个蓝图记录执行计算蛋白质建模以生成多肽结构;计算所述多肽结构的分数;以及将所述分数与所述蓝图记录相关联。
实施方案I-27.如实施方案I-26所述的介质,其中所述计算蛋白质建模基于不存在与所述参考目标结构匹配的模板的从头设计。
实施方案I-28.如实施方案I-26或I-27所述的介质,其中每个分数包括能量项和结构约束匹配项,所述结构约束匹配项使用从所述参考目标结构的表示中提取的一个或多个结构约束来确定。
实施方案I-29.如实施方案I-22至I-28中任一项所述的介质,包括使所述处理器执行以下操作的代码:
通过计算所述第二多个蓝图记录的第二多个分数来确定是否需要重新训练所述机器学习模型;以及
作为对所述确定的响应,基于以下各项来重新训练所述机器学习模型:(1)重新训练包括所述第二多个蓝图记录的蓝图记录以及(2)重新训练包括所述第二多个分数的分数。
实施方案I-30.如实施方案I-29所述的介质,包括使所述处理器执行以下操作的代码:
在重新训练所述机器学习模型之后连接所述第一多个蓝图记录和所述第二多个蓝图记录以生成重新训练的蓝图记录以及生成重新训练分数,来自所述重新训练的蓝图记录中的每个蓝图记录与来自所述重新训练分数的分数相关联。
实施方案I-31.如实施方案I-22至I-30中任一项所述的介质,其中所述至少一个期望分数是预设值。
实施方案I-32.如实施方案I-22至I-31中任一项所述的介质,其中所述至少一个期望分数是动态确定的。
实施方案I-33.如实施方案I-22至I-32中任一项所述的介质,其中所述机器学习模型是监督机器学习模型。
实施方案I-34.如实施方案I-22至I-33中任一项所述的介质,其中所述监督机器学习模型包括决策树集合、提升决策树算法、极端梯度提升(XGBoost)模型或随机森林。
实施方案I-35.如实施方案I-33所述的介质,其中所述监督机器学习模型包括支持向量机(SVM)、前馈机器学习模型、循环神经网络(RNN)、卷积神经网络(CNN)、图神经网络(GNN)或变换器神经网络。
实施方案I-36.如实施方案I-22至I-35中任一项所述的介质,其中所述机器学习模型是归纳机器学习模型。
实施方案I-37.如实施方案I-22至I-36中任一项所述的介质,其中所述机器学习模型是生成机器学习模型。
实施方案I-38.如实施方案I-22至I-37中任一项所述的介质,包括使所述处理器执行以下操作的代码:
对所述第二多个蓝图记录执行计算蛋白质建模以生成经工程化的多肽。
实施方案I-39.如实施方案I-38所述的介质,包括使所述处理器执行以下操作的代码:
通过与所述参考目标结构的表示进行静态结构比较来过滤所述经工程化的多肽。
实施方案I-40.如实施方案I-38或I-39所述的介质,包括使所述处理器执行以下操作的代码:
通过使用所述参考目标结构的表示和所述经工程化的多肽中的每个的分子动力学(MD)模拟与所述参考目标结构的表示进行动态结构比较来过滤所述经工程化的多肽。
实施方案I-41.如实施方案I-40所述的介质,其中所述MD模拟使用对称多处理(SMP)来并行执行。
实施方案I-42.如实施方案I-22至I-41中任一项所述的介质,其中所述第二多个蓝图记录中的蓝图记录的数量小于所述第一多个蓝图记录中的蓝图记录的数量。
实施方案I-43.一种选择经工程化的多肽的设备,所述设备包括:
具有处理器和存储器的第一计算装置,所述存储器存储指令,所述指令可由所述处理器执行以:
从远离所述第一计算装置的第二计算装置接收参考目标结构;
从所述参考目标结构的预定部分生成第一多个蓝图记录,来自所述第一多个蓝图记录中的每个蓝图记录包括目标残基位置和支架残基位置,每个目标残基位置对应于来自多个目标残基中的一个目标残基;
基于第一多个蓝图记录或其表示以及第一多个分数来训练机器学习模型,来自所述第一多个蓝图记录中的每个蓝图记录与来自所述第一多个分数中的每个分数相关联;以及
在所述训练后执行所述机器学习模型以生成具有至少一个期望分数的第二多个蓝图记录,
所述第二多个蓝图记录被配置为作为计算蛋白质建模中的输入而被接收,以基于所述第二多个蓝图记录来生成经工程化的多肽。
实施方案I-44.如实施方案I-43所述的设备,包括使所述处理器执行以下操作的代码:
通过计算所述第二多个蓝图记录的第二多个分数来确定是否需要重新训练所述机器学习模型;以及
作为对所述确定的响应,基于以下各项来重新训练所述机器学习模型:(1)重新训练包括所述第二多个蓝图记录的蓝图记录以及(2)重新训练包括所述第二多个分数的分数。
实施方案I-45.如实施方案I-43或I-44所述的设备,其中所述期望分数是预设值。
实施方案I-46.如实施方案I-43至I-45中任一项所述的设备,其中所述期望分数是动态确定的。
实施方案I-47.如实施方案I-43至I-46中任一项所述的设备,其中所述机器学习模型是监督机器学习模型。
实施方案I-48.如实施方案I-47所述的设备,其中所述监督机器学习模型包括决策树集合、提升决策树算法、极端梯度提升(XGBoost)模型或随机森林。
实施方案I-49.如实施方案I-47或I-48所述的设备,其中所述监督机器学习模型包括支持向量机(SVM)、前馈机器学习模型、循环神经网络(RNN)、卷积神经网络(CNN)、图神经网络(GNN)或变换器神经网络。
实施方案I-50.如实施方案I-43至I-49中任一项所述的设备,其中所述机器学习模型是归纳机器学习模型。
实施方案I-51.如实施方案I-43至I-50中任一项所述的设备,其中所述机器学习模型是生成机器学习模型。
实施方案I-52.如实施方案I-43至I-51中任一项所述的设备,包括使所述处理器执行以下操作的代码:
对所述第二多个蓝图记录执行计算蛋白质建模以生成经工程化的多肽。
实施方案I-53.如实施方案I-52所述的设备,包括使所述处理器执行以下操作的代码:
通过与参考目标结构的表示进行静态结构比较来过滤所述经工程化的多肽。
实施方案I-54.如实施方案I-52或I-53所述的设备,包括使所述处理器执行以下操作的代码:
通过使用所述参考目标结构的表示和所述经工程化的多肽中的每个的分子动力学(MD)模拟与参考目标结构的表示进行动态结构比较来过滤所述经工程化的多肽。
实施方案I-55.如实施方案I-54所述的设备,其中所述MD模拟使用对称多处理(SMP)来并行执行。
实施方案I-56.一种经工程化的多肽设计,其通过如实施方案I-1至I-21中任一项所述的方法、如实施方案I-22至I-42中任一项所述的介质或如实施方案I-43至I-55中任一项所述的设备来生成。
实施方案I-57.一种经工程化的肽,其中所述经工程化的肽具有在1kDa和10kDa之间的分子质量,并且包含最多50个氨基酸,并且其中所述经工程化的肽包含:
空间相关拓扑约束的组合,其中所述约束中的一个或多个是参考目标导出的约束;并且
其中所述经工程化的肽的10%至98%之间的所述氨基酸满足所述一个或多个参考目标导出的约束,
实施方案I-58.如实施方案I-57所述的经工程化的肽,其中满足所述一个或多个参考目标导出的约束的所述氨基酸与所述参考目标具有10%和90%之间的序列同源性。
实施方案I-59.如实施方案I-57或I-58所述的经工程化的肽,其中所述组合包括至少两个参考目标导出的约束。
实施方案I-60.如实施方案I-57至I-59中任一项所述的经工程化的肽,其中所述组合包括能量项和结构约束匹配项,所述结构约束匹配项使用从所述参考目标结构的表示中提取的一个或多个结构约束来确定。
实施方案I-61.如实施方案I-57至I-60中任一项所述的经工程化的肽,其中所述一个或多个非参考目标导出的约束描述期望的结构特征、动力学特征或它们的任何组合。
实施方案I-62.如实施方案I-57至I-61中任一项所述的经工程化的肽,其中所述参考目标包含一个或多个与生物反应或生物功能相关联的原子,
并且其中与生物反应或生物功能相关联的所述经工程化的肽中的所述一个或多个原子的原子波动和与生物反应或生物功能相关联的所述参考目标中的所述一个或多个原子的原子波动重叠。
实施方案I-63.如实施方案I-62所述的经工程化的肽,其中所述重叠的均方根内积(RMSIP)大于0.25。
实施方案I-64.如实施方案I-62或I-63中任一项所述的经工程化的肽,其中重叠的均方根内积(RMSIP)大于0.75。
实施方案I-65.一种选择经工程化的肽的方法,所述方法包括:
鉴定参考目标的一个或多个拓扑特征;
为每个拓扑特征设计空间相关约束,以生成从所述参考目标导出的空间相关拓扑约束的组合;
将候选肽的空间相关拓扑特征与从所述参考目标导出的空间相关拓扑约束的组合进行比较;以及
选择具有空间相关拓扑特征的候选肽,以生成所述经工程化的肽,所述拓扑特征与从所述参考目标导出的空间相关拓扑约束的组合重叠。
实施方案I-66.如实施方案I-65所述的方法,其中一个或多个约束从每个残基的能量和每个残基的原子距离导出。
实施方案I-67.如实施方案I-65或I-66中任一项所述的方法,其中一个或多个候选肽的特征通过计算机模拟来确定。
实施方案I-68.如实施方案I-67所述的方法,其中所述计算机模拟包括分子动力学模拟、蒙特卡罗模拟、粗粒度模拟、高斯网络模型、机器学习或它们的任何组合。
实施方案I-69.如实施方案I-65至I-68中任一项所述的方法,其中满足所述一个或多个参考目标导出的约束的所述氨基酸与所述参考目标具有10%和90%之间的序列同源性。
实施方案I-70.如实施方案I-65至I-69中任一项所述的方法,其中所述一个或多个非参考目标导出的约束描述期望的结构特征和/或动力学特征。
Claims (71)
1.一种方法,所述方法包括:
基于第一多个蓝图记录或其表示以及第一多个分数来训练机器学习模型,来自所述第一多个蓝图记录中的每个蓝图记录与来自所述第一多个分数中的每个分数相关联;以及
在所述训练后执行所述机器学习模型以生成具有至少一个期望分数的第二多个蓝图记录,
所述第二多个蓝图记录被配置为作为计算蛋白质建模中的输入而被接收,以基于所述第二多个蓝图记录来生成经工程化的多肽。
2.如权利要求1所述的方法,包括:
接收参考目标的参考目标结构的表示;以及
从所述参考目标结构的预定部分生成所述第一多个蓝图记录,来自所述第一多个蓝图记录中的每个蓝图记录包括目标残基位置和支架残基位置,每个目标残基位置对应于来自多个目标残基中的一个目标残基。
3.如权利要求2所述的方法,其中在至少一个蓝图记录中,所述目标残基位置是不连续的。
4.如权利要求2所述的方法,其中在至少一个蓝图记录中,目标残基位置的顺序不同于参考目标序列中所述目标残基位置的顺序。
5.如权利要求2所述的方法,包括:
对于来自所述第一多个蓝图记录中的每个蓝图记录,通过以下步骤来标记所述第一多个蓝图记录:
对所述蓝图记录执行计算蛋白质建模以生成多肽结构,
计算所述多肽结构的分数,以及
将所述分数与所述蓝图记录相关联。
6.如权利要求5所述的方法,其中所述计算蛋白质建模基于不存在与所述参考目标结构匹配的模板的从头设计。
7.如权利要求5所述的方法,其中来自所述第一多个分数中的每个分数包括能量项和结构约束匹配项,所述结构约束匹配项使用从所述参考目标结构的表示中提取的一个或多个结构约束来确定。
8.如权利要求1所述的方法,包括:
通过计算所述第二多个蓝图记录的第二多个分数来确定是否需要重新训练所述机器学习模型;以及
作为对所述确定的响应,基于以下各项来重新训练所述机器学习模型:(1)重新训练包括所述第二多个蓝图记录的蓝图记录以及(2)重新训练包括所述第二多个分数的分数。
9.如权利要求8所述的方法,包括:
在重新训练所述机器学习模型之后连接所述第一多个蓝图记录和所述第二多个蓝图记录以生成重新训练的蓝图记录以及生成重新训练分数,来自所述重新训练的蓝图记录中的每个蓝图记录与来自所述重新训练分数的分数相关联。
10.如权利要求1所述的方法,其中所述至少一个期望分数是预设值。
11.如权利要求1所述的方法,其中所述至少一个期望分数是动态确定的。
12.如权利要求1所述的方法,其中所述机器学习模型是监督机器学习模型。
13.如权利要求12所述的方法,其中所述监督机器学习模型包括决策树集合、提升决策树算法、极端梯度提升(XGBoost)模型或随机森林。
14.如权利要求12所述的方法,其中所述监督机器学习模型包括支持向量机(SVM)、前馈机器学习模型、循环神经网络(RNN)、卷积神经网络(CNN)、图神经网络(GNN)或变换器神经网络。
15.如权利要求1所述的方法,其中所述机器学习模型是归纳机器学习模型。
16.如权利要求1所述的方法,其中所述机器学习模型是生成机器学习模型。
17.如权利要求1所述的方法,包括对所述第二多个蓝图记录执行计算蛋白质建模以生成所述经工程化的多肽。
18.如权利要求17所述的方法,包括通过与所述参考目标结构的表示进行静态结构比较来过滤所述经工程化的多肽。
19.如权利要求17所述的方法,包括通过使用所述参考目标结构和经工程化的多肽的结构中的每个的表示的分子动力学(MD)模拟与所述参考目标结构的表示进行动态结构比较来过滤所述经工程化的多肽。
20.如权利要求19所述的方法,其中所述MD模拟使用对称多处理(SMP)来并行执行。
21.如权利要求1所述的方法,其中所述第二多个蓝图记录中的蓝图记录的数量小于所述第一多个蓝图记录中的蓝图记录的数量。
22.一种非暂时性处理器可读介质,所述介质存储表示将由处理器执行的指令的代码,所述代码包括使所述处理器执行以下操作的代码:
基于第一多个蓝图记录或其表示以及第一多个分数来训练机器学习模型,来自所述第一多个蓝图记录中的每个蓝图记录与来自所述第一多个分数中的每个分数相关联;以及
在所述训练后执行所述机器学习模型以生成具有至少一个期望分数的第二多个蓝图记录,
所述第二多个蓝图记录被配置为作为计算蛋白质建模中的输入而被接收,以基于所述第二多个蓝图记录来生成经工程化的多肽。
23.如权利要求22所述的介质,包括使所述处理器执行以下操作的代码:
接收参考目标结构的表示;以及
从所述参考目标结构的预定部分生成所述第一多个蓝图记录,来自所述第一多个蓝图记录中的每个蓝图记录包括目标残基位置和支架残基位置,来自多个目标残基位置的每个目标残基位置对应于来自多个目标残基中的一个目标残基。
24.如权利要求23所述的方法,其中在至少一个蓝图记录中,所述目标残基位置是不连续的。
25.如权利要求23所述的方法,其中在至少一个蓝图记录中,目标残基位置的顺序不同于参考目标序列中所述目标残基位置的顺序。
26.如权利要求23所述的介质,包括使所述处理器执行以下操作的代码:
通过执行以下步骤来标记所述第一多个蓝图记录:对每个蓝图记录执行计算蛋白质建模以生成多肽结构;计算所述多肽结构的分数;以及将所述分数与所述蓝图记录相关联。
27.如权利要求26所述的方法,其中所述计算蛋白质建模基于不存在与所述参考目标结构匹配的模板的从头设计。
28.如权利要求26所述的介质,其中每个分数包括能量项和结构约束匹配项,所述结构约束匹配项使用从所述参考目标结构的表示中提取的一个或多个结构约束来确定。
29.如权利要求22所述的介质,包括使所述处理器执行以下操作的代码:
通过计算所述第二多个蓝图记录的第二多个分数来确定是否需要重新训练所述机器学习模型;以及
作为对所述确定的响应,基于以下各项来重新训练所述机器学习模型:(1)重新训练包括所述第二多个蓝图记录的蓝图记录以及(2)重新训练包括所述第二多个分数的分数。
30.如权利要求29所述的介质,包括使所述处理器执行以下操作的代码:
在重新训练所述机器学习模型之后连接所述第一多个蓝图记录和所述第二多个蓝图记录以生成重新训练的蓝图记录以及生成重新训练分数,来自所述重新训练的蓝图记录中的每个蓝图记录与来自所述重新训练分数的分数相关联。
31.如权利要求22所述的介质,其中所述至少一个期望分数是预设值。
32.如权利要求22所述的介质,其中所述至少一个期望分数是动态确定的。
33.如权利要求22所述的介质,其中所述机器学习模型是监督机器学习模型。
34.如权利要求33所述的介质,其中所述监督机器学习模型包括决策树集合、提升决策树算法、极端梯度提升(XGBoost)模型或随机森林。
35.如权利要求33所述的介质,其中所述监督机器学习模型包括支持向量机(SVM)、前馈机器学习模型、循环神经网络(RNN)、卷积神经网络(CNN)、图神经网络(GNN)或变换器神经网络。
36.如权利要求22所述的介质,其中所述机器学习模型是归纳机器学习模型。
37.如权利要求22所述的介质,其中所述机器学习模型是生成机器学习模型。
38.如权利要求22所述的介质,包括使所述处理器执行以下操作的代码:
对所述第二多个蓝图记录执行计算蛋白质建模以生成经工程化的多肽。
39.如权利要求38所述的介质,包括使所述处理器执行以下操作的代码:
通过与所述参考目标结构的表示进行静态结构比较来过滤所述经工程化的多肽。
40.如权利要求38所述的介质,包括使所述处理器执行以下操作的代码:
通过使用所述参考目标结构的表示和所述经工程化的多肽中的每个的分子动力学(MD)模拟与所述参考目标结构的表示进行动态结构比较来过滤所述经工程化的多肽。
41.如权利要求40所述的介质,其中所述MD模拟使用对称多处理(SMP)来并行执行。
42.如权利要求22所述的介质,其中所述第二多个蓝图记录中的蓝图记录的数量小于所述第一多个蓝图记录中的蓝图记录的数量。
43.一种选择经工程化的多肽的设备,所述设备包括:
具有处理器和存储器的第一计算装置,所述存储器存储指令,所述指令可由所述处理器执行以:
从远离所述第一计算装置的第二计算装置接收参考目标结构;
从所述参考目标结构的预定部分生成第一多个蓝图记录,来自所述第一多个蓝图记录中的每个蓝图记录包括目标残基位置和支架残基位置,每个目标残基位置对应于来自多个目标残基中的一个目标残基;
基于第一多个蓝图记录或其表示以及第一多个分数来训练机器学习模型,来自所述第一多个蓝图记录中的每个蓝图记录与来自所述第一多个分数中的每个分数相关联;以及
在所述训练后执行所述机器学习模型以生成具有至少一个期望分数的第二多个蓝图记录,
所述第二多个蓝图记录被配置为作为计算蛋白质建模中的输入而被接收,以基于所述第二多个蓝图记录来生成经工程化的多肽。
44.如权利要求43所述的设备,包括使所述处理器执行以下操作的代码:
通过计算所述第二多个蓝图记录的第二多个分数来确定是否需要重新训练所述机器学习模型;以及
作为对所述确定的响应,基于以下各项来重新训练所述机器学习模型:(1)重新训练包括所述第二多个蓝图记录的蓝图记录以及(2)重新训练包括所述第二多个分数的分数。
45.如权利要求43所述的设备,其中所述期望分数是预设值。
46.如权利要求43所述的设备,其中所述期望分数是动态确定的。
47.如权利要求43所述的设备,其中所述机器学习模型是监督机器学习模型。
48.如权利要求47所述的设备,其中所述监督机器学习模型包括决策树集合、提升决策树算法、极端梯度提升(XGBoost)模型或随机森林。
49.如权利要求47所述的设备,其中所述监督机器学习模型包括支持向量机(SVM)、前馈机器学习模型、循环神经网络(RNN)、卷积神经网络(CNN)、图神经网络(GNN)或变换器神经网络。
50.如权利要求43所述的设备,其中所述机器学习模型是归纳机器学习模型。
51.如权利要求43所述的设备,其中所述机器学习模型是生成机器学习模型。
52.如权利要求43所述的设备,包括使所述处理器执行以下操作的代码:
对所述第二多个蓝图记录执行计算蛋白质建模以生成经工程化的多肽。
53.如权利要求52所述的设备,包括使所述处理器执行以下操作的代码:
通过与参考目标结构的表示进行静态结构比较来过滤所述经工程化的多肽。
54.如权利要求52所述的设备,包括使所述处理器执行以下操作的代码:
通过使用所述参考目标结构的表示和所述经工程化的多肽中的每个的分子动力学(MD)模拟与参考目标结构的表示进行动态结构比较来过滤所述经工程化的多肽。
55.如权利要求54所述的设备,其中所述MD模拟使用对称多处理(SMP)来并行执行。
56.一种经工程化的多肽,其通过如权利要求1-21中任一项所述的方法、如权利要求22-42中任一项所述的介质或如权利要求43-55中任一项所述的设备来生成。
58.如权利要求57所述的经工程化的肽,其中满足所述一个或多个参考目标导出的约束的所述氨基酸与所述参考目标具有10%和90%之间的序列同源性。
59.如权利要求57或权利要求58所述的经工程化的肽,其中所述组合包括至少两个参考目标导出的约束。
60.如权利要求57或权利要求59所述的经工程化的肽,其中所述组合包括至少两个参考目标导出的约束。
61.如权利要求57至60中任一项所述的经工程化的肽,其中所述组合包括能量项和结构约束匹配项,所述结构约束匹配项使用从所述参考目标结构的表示中提取的一个或多个结构约束来确定。
62.如权利要求57至61中任一项所述的经工程化的肽,其中所述一个或多个非参考目标导出的约束描述期望的结构特征、动力学特征或它们的任何组合。
63.如权利要求57至62中任一项所述的经工程化的肽,其中所述参考目标包含一个或多个与生物反应或生物功能相关联的原子,
并且其中与生物反应或生物功能相关联的所述经工程化的肽中的所述一个或多个原子的原子波动和与生物反应或生物功能相关联的所述参考目标中的所述一个或多个原子的原子波动重叠。
64.如权利要求63所述的经工程化的肽,其中所述重叠的均方根内积(RMSIP)大于0.25。
65.如权利要求63所述的经工程化的肽,其中所述重叠的均方根内积(RMSIP)大于0.75。
66.一种选择经工程化的肽的方法,所述方法包括:
鉴定参考目标的一个或多个拓扑特征;
为每个拓扑特征设计空间相关约束,以生成从所述参考目标导出的空间相关拓扑约束的组合;
将候选肽的空间相关拓扑特征与从所述参考目标导出的空间相关拓扑约束的组合进行比较;以及
选择具有空间相关拓扑特征的候选肽,以生成所述经工程化的肽,所述拓扑特征与从所述参考目标导出的空间相关拓扑约束的组合重叠。
67.如权利要求66所述的方法,其中一个或多个约束从每个残基的能量和每个残基的原子距离导出。
68.如权利要求66或权利要求69中任一项所述的方法,其中一个或多个候选肽的特征通过计算机模拟来确定。
69.如权利要求68所述的方法,其中所述计算机模拟包括分子动力学模拟、蒙特卡罗模拟、粗粒度模拟、高斯网络模型、机器学习或它们的任何组合。
70.如权利要求66至69中任一项所述的方法,其中满足所述一个或多个参考目标导出的约束的所述氨基酸与所述参考目标具有10%和90%之间的序列同源性。
71.如权利要求66至70中任一项所述的方法,其中所述一个或多个非参考目标导出的约束描述期望的结构特征和/或动力学特征。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962855767P | 2019-05-31 | 2019-05-31 | |
US62/855,767 | 2019-05-31 | ||
PCT/US2020/032724 WO2020242766A1 (en) | 2019-05-31 | 2020-05-13 | Machine learning-based apparatus for engineering meso-scale peptides and methods and system for the same |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114401734A true CN114401734A (zh) | 2022-04-26 |
Family
ID=73553528
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080050301.9A Pending CN114401734A (zh) | 2019-05-31 | 2020-05-13 | 用于工程化中尺度肽的基于机器学习的设备及其方法和系统 |
CN202080050892.XA Pending CN114585918A (zh) | 2019-05-31 | 2020-05-13 | 中尺度工程化肽和选择方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080050892.XA Pending CN114585918A (zh) | 2019-05-31 | 2020-05-13 | 中尺度工程化肽和选择方法 |
Country Status (7)
Country | Link |
---|---|
US (3) | US11545238B2 (zh) |
EP (2) | EP3977117A4 (zh) |
JP (2) | JP2022535769A (zh) |
KR (2) | KR20220041784A (zh) |
CN (2) | CN114401734A (zh) |
CA (2) | CA3142339A1 (zh) |
WO (2) | WO2020242766A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115512763A (zh) * | 2022-09-06 | 2022-12-23 | 北京百度网讯科技有限公司 | 多肽序列的生成方法、多肽生成模型的训练方法和装置 |
CN116913395A (zh) * | 2023-09-13 | 2023-10-20 | 青岛虹竹生物科技有限公司 | 一种构建小分子肽数据库的数字化方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2024521100A (ja) * | 2021-05-21 | 2024-05-28 | ペプトーン, リミテッド | ポリペプチド構造の時空間的決定 |
CN114065620B (zh) * | 2021-11-11 | 2022-06-03 | 四川大学 | 基于像素图表征和cnn的可解释性分子动力学轨迹分析方法 |
WO2023215887A1 (en) * | 2022-05-06 | 2023-11-09 | Dyno Therapeutics, Inc. | System and methods for predicting features of biological sequences |
CN115881220B (zh) * | 2023-02-15 | 2023-06-06 | 北京深势科技有限公司 | 一种抗体结构预测的处理方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180009850A1 (en) * | 2010-09-21 | 2018-01-11 | Massachusetts Institute Of Technology | Influenza treatment and/or characterization, human-adapted ha polypeptides; vaccines |
WO2018201020A1 (en) * | 2017-04-28 | 2018-11-01 | University Of Washington | Folded and protease-resistant polypeptides |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AUPP660698A0 (en) * | 1998-10-21 | 1998-11-12 | University Of Queensland, The | A method of protein engineering |
JP2003510672A (ja) * | 1999-08-02 | 2003-03-18 | シンテム ソシエテ アノニム | 分子疑似体を作製するためのコンピュータによる設計方法 |
WO2002064734A2 (en) * | 2000-12-19 | 2002-08-22 | Palatin Technologies, Inc. | Identification of target-specific folding sites in peptides and proteins |
EP1482434A3 (en) * | 2001-08-10 | 2006-07-26 | Xencor, Inc. | Protein design automation for protein libraries |
US20060020396A1 (en) * | 2002-09-09 | 2006-01-26 | Rene Gantier | Rational directed protein evolution using two-dimensional rational mutagenesis scanning |
US20070192033A1 (en) | 2006-02-16 | 2007-08-16 | Microsoft Corporation | Molecular interaction predictors |
US8050870B2 (en) | 2007-01-12 | 2011-11-01 | Microsoft Corporation | Identifying associations using graphical models |
US8374828B1 (en) * | 2007-12-24 | 2013-02-12 | The University Of North Carolina At Charlotte | Computer implemented system for protein and drug target design utilizing quantified stability and flexibility relationships to control function |
US20130090265A1 (en) * | 2011-10-11 | 2013-04-11 | Biolauncher Ltd. | Systems and methods for generation of context-specific, molecular field-based amino acid substitution matrices |
WO2014022817A2 (en) | 2012-08-03 | 2014-02-06 | Novartis Ag | Methods to identify amino acid residues involved in macromolecular binding and uses therefor |
EP2925348B1 (en) * | 2012-11-28 | 2019-03-06 | BioNTech RNA Pharmaceuticals GmbH | Individualized vaccines for cancer |
CN106605228B (zh) * | 2014-07-07 | 2019-08-16 | 耶达研究及发展有限公司 | 计算蛋白质设计的方法 |
KR20180012747A (ko) * | 2015-04-06 | 2018-02-06 | 서브도메인, 엘엘씨 | 드 노보 결합 도메인 함유 폴리펩티드 및 그의 용도 |
US20180068054A1 (en) * | 2016-09-06 | 2018-03-08 | University Of Washington | Hyperstable Constrained Peptides and Their Design |
EP3568782A1 (en) | 2017-01-13 | 2019-11-20 | Massachusetts Institute Of Technology | Machine learning based antibody design |
EP3880698A4 (en) * | 2018-11-14 | 2022-11-30 | RubrYc Therapeutics, Inc. | MANIPULATED CD25 POLYPEPTIDES AND USES THEREOF |
CN113474840A (zh) | 2018-12-21 | 2021-10-01 | 百欧恩泰美国公司 | 用于预测hla ii类特异性表位及表征cd4+ t细胞的方法和系统 |
-
2020
- 2020-05-13 CA CA3142339A patent/CA3142339A1/en active Pending
- 2020-05-13 JP JP2021571033A patent/JP2022535769A/ja active Pending
- 2020-05-13 EP EP20813167.2A patent/EP3977117A4/en active Pending
- 2020-05-13 EP EP20815607.5A patent/EP3976083A4/en active Pending
- 2020-05-13 WO PCT/US2020/032724 patent/WO2020242766A1/en unknown
- 2020-05-13 JP JP2021570755A patent/JP2022535511A/ja active Pending
- 2020-05-13 KR KR1020217043265A patent/KR20220041784A/ko unknown
- 2020-05-13 CN CN202080050301.9A patent/CN114401734A/zh active Pending
- 2020-05-13 WO PCT/US2020/032715 patent/WO2020242765A1/en unknown
- 2020-05-13 CA CA3142227A patent/CA3142227A1/en active Pending
- 2020-05-13 CN CN202080050892.XA patent/CN114585918A/zh active Pending
- 2020-05-13 KR KR1020217043264A patent/KR20220039659A/ko unknown
- 2020-12-01 US US17/108,958 patent/US11545238B2/en active Active
-
2021
- 2021-11-29 US US17/537,215 patent/US20220081472A1/en active Pending
-
2022
- 2022-10-07 US US17/961,942 patent/US20230095685A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180009850A1 (en) * | 2010-09-21 | 2018-01-11 | Massachusetts Institute Of Technology | Influenza treatment and/or characterization, human-adapted ha polypeptides; vaccines |
WO2018201020A1 (en) * | 2017-04-28 | 2018-11-01 | University Of Washington | Folded and protease-resistant polypeptides |
Non-Patent Citations (1)
Title |
---|
HUANG PO-SSU等: "RosettaRemodel: A Generalized Framework for Flexible Backbone Protein Design", 《PLOS ONE》, vol. 6, no. 8, pages 2 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115512763A (zh) * | 2022-09-06 | 2022-12-23 | 北京百度网讯科技有限公司 | 多肽序列的生成方法、多肽生成模型的训练方法和装置 |
CN115512763B (zh) * | 2022-09-06 | 2023-10-24 | 北京百度网讯科技有限公司 | 多肽序列的生成方法、多肽生成模型的训练方法和装置 |
CN116913395A (zh) * | 2023-09-13 | 2023-10-20 | 青岛虹竹生物科技有限公司 | 一种构建小分子肽数据库的数字化方法 |
CN116913395B (zh) * | 2023-09-13 | 2023-11-28 | 青岛虹竹生物科技有限公司 | 一种构建小分子肽数据库的数字化方法 |
Also Published As
Publication number | Publication date |
---|---|
CA3142339A1 (en) | 2020-12-03 |
EP3976083A1 (en) | 2022-04-06 |
JP2022535511A (ja) | 2022-08-09 |
WO2020242766A1 (en) | 2020-12-03 |
CN114585918A (zh) | 2022-06-03 |
US11545238B2 (en) | 2023-01-03 |
JP2022535769A (ja) | 2022-08-10 |
US20210166788A1 (en) | 2021-06-03 |
EP3976083A4 (en) | 2023-07-12 |
US20220081472A1 (en) | 2022-03-17 |
KR20220041784A (ko) | 2022-04-01 |
US20230095685A1 (en) | 2023-03-30 |
EP3977117A4 (en) | 2023-08-16 |
WO2020242765A1 (en) | 2020-12-03 |
KR20220039659A (ko) | 2022-03-29 |
EP3977117A1 (en) | 2022-04-06 |
CA3142227A1 (en) | 2020-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11545238B2 (en) | Machine learning method for protein modelling to design engineered peptides | |
JP7047115B2 (ja) | Mhcペプチド結合予測のためのgan-cnn | |
WO2019114413A1 (zh) | 模型训练 | |
WO2020058177A1 (en) | Machine learning for determining protein structures | |
BR112020022270A2 (pt) | sistemas e métodos para unificar modelos estatísticos para diferentes modalidades de dados | |
US20150278441A1 (en) | High-order semi-Restricted Boltzmann Machines and Deep Models for accurate peptide-MHC binding prediction | |
CN113707235A (zh) | 基于自监督学习的药物小分子性质预测方法、装置及设备 | |
US20230005567A1 (en) | Generating protein sequences using machine learning techniques based on template protein sequences | |
CN113762417A (zh) | 基于深度迁移的对hla抗原呈递预测系统的增强方法 | |
CN114026645A (zh) | 会聚抗体特异性序列模式的鉴定 | |
Deming et al. | Genetic architect: Discovering genomic structure with learned neural architectures | |
US20220130490A1 (en) | Peptide-based vaccine generation | |
Hou et al. | Fossil image identification using deep learning ensembles of data augmented multiviews | |
US20240096443A1 (en) | Generalized Scaffolds for Polypeptide Display and Uses Thereof | |
Bergeron et al. | Prediction of peptide bonding affinity: kernel methods for nonlinear modeling | |
TWI835007B (zh) | 用於預測胜肽與mhc分子結合與呈現之電腦實施方法及系統、用於進行多示例學習的電腦實施方法以及有形的非暫時性電腦可讀取媒體 | |
CN116629374B (zh) | 一种针对异构特征空间学件的查搜与复用方法 | |
Bayat et al. | Fast inverse mapping of face gans | |
Czejdo et al. | Improvement of protein model scoring using grouping and interpreter for machine learning | |
US20220319635A1 (en) | Generating minority-class examples for training data | |
WO2024032909A1 (en) | Methods and systems for cancer-enriched motif discovery from splicing variations in tumours | |
Kaushik et al. | Statistics of unrelated sequence properties to improve prediction of B-cell based linear epitopes | |
KR20240054581A (ko) | 화학 재료 간 유사도를 반영한 레시피 물성 예측 방법 및 장치 | |
TW202223764A (zh) | 用於胜肽-mhc呈現預測的多示例學習 | |
Burns et al. | Semantic Modeling for Accelerated Immune Epitope Database (IEDB) Biocuration. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230216 Address after: Texas, USA Applicant after: Ibio Address before: California, USA Applicant before: Rubik therapy Co.,Ltd. |
|
TA01 | Transfer of patent application right |