CN115280417A - 使用机器学习技术基于模板蛋白质序列来生成蛋白质序列 - Google Patents

使用机器学习技术基于模板蛋白质序列来生成蛋白质序列 Download PDF

Info

Publication number
CN115280417A
CN115280417A CN202080085809.2A CN202080085809A CN115280417A CN 115280417 A CN115280417 A CN 115280417A CN 202080085809 A CN202080085809 A CN 202080085809A CN 115280417 A CN115280417 A CN 115280417A
Authority
CN
China
Prior art keywords
amino acid
protein
acid sequence
sequence
antibody
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080085809.2A
Other languages
English (en)
Inventor
杰里米·马丁·谢弗
蒂莱利·阿米默
兰德尔·罗伯特·凯切姆
亚历克斯·泰勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jaster Evotec Biological Products Co ltd
Original Assignee
Jaster Evotec Biological Products Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jaster Evotec Biological Products Co ltd filed Critical Jaster Evotec Biological Products Co ltd
Publication of CN115280417A publication Critical patent/CN115280417A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Medicinal Chemistry (AREA)
  • Biochemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Peptides Or Proteins (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

描述了使用机器学习技术基于模板蛋白质的氨基酸序列来生成目标蛋白质的氨基酸序列的系统和技术。可以基于限制可以对模板蛋白质的氨基酸序列进行的修饰的数据来生成目标蛋白质的氨基酸序列。在说明性示例中,模板蛋白质可以包括由非人的哺乳动物产生的结合至抗原的抗体,并且目标蛋白质可以对应于具有与模板抗体的结合区具有至少阈值量的同一性的区域的人抗体。生成式对抗网络可以用于产生目标蛋白质的氨基酸序列。

Description

使用机器学习技术基于模板蛋白质序列来生成蛋白质序列
背景技术
蛋白质是由一条或更多条氨基酸链组成的生物分子。蛋白质在生物体内可以具有各种功能。例如,一些蛋白质可以参与引起在生物体内发生的反应。在其他示例中,蛋白质可以在整个生物体中转运分子。在其他示例中,蛋白质可以参与基因的复制。此外,一些蛋白质可以具有治疗特性,并且可以用于治疗各种生物学病症。蛋白质的结构和功能基于构成蛋白质的氨基酸的排列。蛋白质的氨基酸的排列可以由字母序列表示,其中,每个字母对应于蛋白质的某个位置处的氨基酸。蛋白质的氨基酸的排列也可以由三维结构表示,该三维结构不仅指示蛋白质的某些位置处的氨基酸,还指示蛋白质的三维特征,如α-螺旋或β-折叠。
附图说明
通过示例且不限于附图中的图的方式对本公开内容进行说明,在附图中,相似的附图标记指示相似的元件。
图1是示出根据一些实现方式的使用机器学习技术基于模板蛋白质序列来生成目标蛋白质序列的示例框架的图。
图2是示出根据一些实现方式的利用迁移学习技术来生成具有特定特征的蛋白质序列的示例框架的图。
图3是示出根据一些实现方式的使用生成式对抗网络基于模板蛋白质序列和与模板序列位置的修饰相关的约束数据来生成目标蛋白质序列的示例框架的图。
图4是示出根据一些实现方式的利用指示第一生物体的具有指定功能的抗体序列的数据来生成针对不同的第二生物体的与具有指定功能的附加抗体序列对应的数据的示例框架的图。
图5是示出根据一些实现方式的使用机器学习技术通过将蛋白质片段序列与模板蛋白质序列组合来生成目标蛋白质序列的示例框架的图。
图6是示出根据一些实现方式的用于使用模板蛋白质序列和位置修饰数据来产生目标蛋白质序列的示例方法的流程图。
图7是示出根据一些实现方式的用于使用生成式对抗网络基于模板蛋白质序列来产生目标蛋白质序列的示例方法的流程图。
图8示出了根据示例实施方式的呈现计算机系统形式的机器的图形表示,在该计算机系统内可以执行指令集以使机器执行本文中讨论的方法中的任何一种或更多种方法。
具体实施方式
蛋白质在生物体内可以具有许多有益用途。例如,蛋白质可以用于治疗可能不利地影响人类和其他哺乳动物的健康的疾病和其他生物学病症。在各种情况下,蛋白质可以参与对受试者有益并且可以抵消受试者所经历的一种或更多种生物学病症的反应。在一些示例中,蛋白质还可以与生物体内可能对受试者的健康有害的分子结合。在各种情况下,蛋白质与潜在有害分子的结合可以导致受试者的免疫系统的激活,以中和这些分子的潜在影响。出于这些原因,许多个体和组织寻求开发可以具有治疗益处的蛋白质。
用于治疗生物学病症的蛋白质的开发可能是耗时且资源密集的过程。通常,开发的候选蛋白质可以被识别为潜在地具有期望的生物物理特性、三维(3D)结构和/或生物体内的行为。为了确定候选蛋白质是否实际上具有期望特征,可以物理上合成蛋白质,并且然后测试蛋白质来确定合成的蛋白质的实际特征是否对应于期望特征。由于合成蛋白质和针对指定的生物物理特性、3D结构和/或行为测试蛋白质所需的资源量,因此出于治疗目的而合成的候选蛋白质的数量是有限的。在一些情况下,出于治疗目的而合成的蛋白质的数量可能受到当合成候选蛋白质并且该候选蛋白质不具有期望的特征时产生的资源损失的限制。
已经增加了使用计算机实现的技术来识别具有特定特征的候选蛋白质。然而,这些常规技术可能在其范围和准确性方面受到限制。在各种情况下,用于生成蛋白质序列的常规计算机实现的技术可能受到可用数据量和/或可用数据的类型的限制,这些常规技术可能需要所述可用数据量和/或可用数据的类型来准确地生成具有指定特征的蛋白质序列。另外,用于产生可以生成具有特定特征的蛋白质序列的模型的技术可能是复杂的,并且产生准确且高效的模型所需的技术知识可能是复杂且难以实现的。因为随着蛋白质长度的增加,传统技术的准确性可能降低,并且因为生成大量具有相对大量的氨基酸(例如,50-1000)的蛋白质序列(例如,数百、数千至数百万的蛋白质序列)所用的计算资源可能变得令人望而却步,因此,由传统模型产生的蛋白质序列的长度也可能受到限制。因此,通过常规计算技术生成的蛋白质的数量是有限的。
此外,尽管由一个生物体或一种类型的生物体产生的蛋白质可以具有可能对许多生物体有益的功能,但在各种情况下,相同的蛋白质可能被另一生物体或一种类型的生物体的免疫系统排斥,并且消除蛋白质的有益功能。本文所述的技术和系统可以用于基于模板分子的氨基酸序列生成目标分子的氨基酸序列。模板分子可以表现出对除了产生模板分子的原始宿主之外的许多不同生物体有益的功能。目标分子在使被与原始宿主不同的生物体排斥的概率最小化的同时还可以表现出模板分子的功能。
例如,模板蛋白质的氨基酸序列的被认为具有宿主生物体内的模板蛋白质的功能的特质的部分可以被保留,而模板蛋白质的氨基酸序列的其他部分可以被修饰以使被另一生物体排斥的概率最小化。为了说明,在小鼠中产生的模板抗体可以与在小鼠和人两者中发现的抗原有效地结合。模板抗体与抗原的结合可以被认为具有模板抗体的一个或更多个结合区域的特质。本文所述的技术和系统可以生成与目标抗体的多个氨基酸序列对应的数据,所述目标抗体包括模板抗体的结合区域并且还包括从模板抗体修饰的与包括在人抗体中的氨基酸序列对应的其他的区域。以这种方式,本文所述的技术和系统可以产生具有与指定抗原的结合区域结合的人框架的抗体,其中,在已知的人抗体中可能不存在抗原的结合区域。因此,可以使用具有根据本文所述的技术和系统生成的氨基酸序列的抗体来治疗可能对已知人抗体没有反应的生物学病症。
机器学习技术可以用于根据模板蛋白质氨基酸序列产生目标蛋白质氨基酸序列。在说明性示例中,可以使用生成式对抗网络来生成目标蛋白质氨基酸序列。可以使用与模板蛋白质氨基酸序列相关的目标蛋白质氨基酸序列和位置修饰数据来训练生成式对抗网络。对于模板蛋白质氨基酸序列的各个位置,位置修饰数据可以指示氨基酸可以被修饰成不同氨基酸的概率。在各种实现方式中,位置修饰数据可以对应于由生成式对抗网络响应于单个氨基酸的修饰而应用的惩罚。例如,具有相对高的被修饰惩罚的模板蛋白质氨基酸序列的一个位置不太可能被生成式对抗网络修饰,而具有相对低的被修饰惩罚的模板蛋白质氨基酸序列的另一个位置更有可能被生成式对抗网络修饰。在各种示例中,也可以应用迁移学习技术来产生具有一种或更多种生物物理特性的目标抗体。
位置修饰数据可以基于模板蛋白质序列中氨基酸的位置。位于模板蛋白质的与期望功能相关联的区域中的氨基酸可能具有相对高的被修饰惩罚,而位于模板蛋白质的其他区域中的氨基酸可能具有相对中等或相对低的被修饰惩罚。在目标蛋白质对应于与产生模板蛋白质的宿主生物体不同的生物体的情况下,与具有相对低的被修饰惩罚相关联的模板蛋白质的位置最有可能被改变以对应于与目标蛋白质相关的生物体的框架。此外,在目标蛋白质来源于与产生模板蛋白质的宿主的种系基因不同的种系基因的情况下,与具有相对低的被修饰惩罚相关联的模板蛋白质的位置最有可能被改变以对应于由目标蛋白质种系基因产生的蛋白质。如本文所使用的,种系可以与当蛋白质的细胞复制时保留的蛋白质的氨基酸序列对应。当子代细胞的氨基酸序列相对于亲代细胞中的相应氨基酸序列具有至少阈值量的同一性时,该氨基酸序列从亲代细胞到子代细胞可以被保留。在说明性示例中,人抗体的氨基酸序列中为从亲代细胞到子代细胞保留的卡帕(kappa)轻链的部分的一部分可以是抗体的种系部分。
在说明性示例中,在小鼠中产生的抗体可以与在小鼠和人两者中发现的抗原结合。抗体与抗原的结合可以基于位于抗体的互补性决定区(CDR)中的氨基酸。在这种情况下,位置修饰数据可以指示用于改变位于模板小鼠抗体的CDR中的氨基酸的相对高的惩罚。位置修饰数据还可以指示用于修饰位于模板小鼠抗体的可变结构域的其他部分和恒定结构域中的氨基酸的较低的惩罚。因此,本文所述的生成式对抗网络可以生成目标人抗体氨基酸序列,所述目标人抗体氨基酸序列保留了参与与抗原结合的小鼠抗体的大部分或全部残基,同时改变了小鼠抗体的重链和/或轻链的可变结构域的其他部分和/或恒定结构域以与人抗体的重链和轻链对应。也可以使用人抗体来训练本文所述的生成式对抗网络,以确定人抗体的特征并识别可以用于产生针对抗原的人源化目标抗体的模板小鼠抗体的变化。
通过实现本文所述的技术和系统,在使用针对模板蛋白质的被认为具有某个功能的特质的部分的不同的支持框架的同时,可以基于可以保留模板蛋白质的至少某个功能的一个或更多个模板蛋白质氨基酸序列来生成目标蛋白质氨基酸序列。本文中描述的计算和机器学习技术可以有效地生成目标蛋白质氨基酸序列,同时使目标蛋白质将失去模板蛋白质功能的概率最小化。本文所述的技术和系统还可以使目标蛋白质将被与产生模板蛋白质的宿主生物体不同的生物体排斥的概率最小化。例如,使用位置修饰数据可以通过限制可以由计算模型对模板蛋白质序列做出的改变的数量来减少生成目标蛋白质序列时使用的计算资源的量,同时允许模板序列的较少受到符合与新宿主生物体相关的目标蛋白质的特征的约束的部分具有灵活性。在各种示例中,本文描述的技术和系统可以分析蛋白质的数千至数百万个氨基酸序列,以准确生成既保留了模板蛋白质的功能同时又使新蛋白质被新宿主生物体排斥的概率最小化的新蛋白质的氨基酸序列。
图1是示出根据一些实现方式的用于使用机器学习技术基于模板蛋白质序列来生成目标蛋白质序列的示例框架100的图。例如,机器学习架构102可以获得模板蛋白质104的氨基酸序列并生成目标蛋白质106的氨基酸序列。模板蛋白质104可以包括具有某个功能的区域108,并且机器学习架构102可以生成目标蛋白质106,使得目标蛋白质106也包括区域108。在各种实现方式中,目标蛋白质包括与区域108具有至少阈值量的同一性的区域。以这种方式,目标蛋白质106可以保留模板蛋白质104的功能。为了说明,机器学习架构102可以生成目标蛋白质106以通过保留至少阈值量的区域108和/或保留区域108的各种位置处的氨基酸来使目标蛋白质106保留被认为具有区域108的功能的特质的概率最大化。
在说明性示例中,模板蛋白质104的区域108与目标蛋白质106的一部分之间的序列同一性的量可以指示模板蛋白质104的区域108的至少一部分和目标蛋白质106的一部分在多个位置处具有相同的核苷酸。可以使用基本局部比对搜索工具(BLAST)来确定模板蛋白质104的区域108的至少一部分与目标蛋白质106的一部分之间的同一性的量。
目标蛋白质106的其他部分可以相对于模板蛋白质104的部分具有不同的氨基酸序列。目标蛋白质106的相对于模板蛋白质104的部分具有不同氨基酸序列的区域与模板蛋白质104的二级结构相比也可以具有一个或更多个不同的二级结构。模板蛋白质104的区域的氨基酸序列与目标蛋白质106的区域的氨基酸序列之间的差异也可能导致用于模板蛋白质104和目标蛋白质106的不同的三级结构。在图1的说明性示例中,模板蛋白质104可以包括具有与目标蛋白质106的区域112不同的氨基酸序列的区域110。此外,模板蛋白质104可以包括具有与目标蛋白质106的区域116不同的氨基酸序列的区域114。
机器学习架构102可以修饰模板蛋白质104的区域以产生目标蛋白质106的氨基酸序列,使得目标蛋白质106的氨基酸序列的部分与由与产生模板蛋白质104的生物体不同的生物体产生的蛋白质对应。例如,模板蛋白质104可以由一种哺乳动物产生,并且目标蛋白质106可以由不同的哺乳动物产生。为了说明,模板蛋白质104可以由小鼠产生,并且目标蛋白质106可以对应于由人产生的蛋白质。在另外的示例中,模板蛋白质104可以对应于关于第一种系基因产生的蛋白质,并且目标蛋白质106可以对应于关于第二种系基因产生的蛋白质。在模板蛋白质104和目标蛋白质106是抗体的情况下,模板蛋白质104可以具有与第一抗体同种型(例如,免疫球蛋白E(IgE))对应的氨基酸序列并且目标蛋白质106可以具有与第二抗体同种型(例如,IgG)对应的氨基酸序列。
机器学习架构102可以包括生成部件118和挑战部件120。生成部件118可以实现基于提供至生成部件118的输入来生成氨基酸序列的一个或更多个模型。在各种实现方式中,由生成部件118实现的一个或更多个模型可以包括一个或更多个函数。挑战部件120可以生成指示由生成部件118产生的氨基酸序列是否满足各种特征的输出。可以将由挑战部件120产生的输出提供至生成部件118,并且可以基于由挑战部件120提供的反馈来修饰由生成部件118实现的一个或更多个模型。挑战部件120可以将由生成部件118产生的氨基酸序列与目标蛋白质库的氨基酸序列进行比较,并且生成指示由生成部件118产生的氨基酸序列与提供至挑战部件120的目标蛋白质的氨基酸序列之间的对应量的输出。
在各种实现方式中,机器学习架构102可以实现一种或更多种神经网络技术。例如,机器学习架构102可以实现一个或更多个递归神经网络。另外,机器学习架构102可以实现一个或更多个卷积神经网络。在某些实现方式中,机器学习架构102可以实现递归神经网络与卷积神经网络的组合。在示例中,机器学习架构102可以包括生成式对抗网络(GAN)。在这些情况下,生成部件118可以包括生成器,并且挑战部件120可以包括鉴别器。在其他实现方式中,机器学习架构102可以包括条件生成式对抗网络(cGAN)。
在图1的说明性示例中,可以将数据提供至生成部件118,并且生成部件118可以利用数据和一个或更多个模型来产生生成序列122。生成序列122可以包括由一系列字母表示的氨基酸序列,其中,每个字母指示位于蛋白质相应位置处的氨基酸。提供至生成部件118以产生生成序列122的数据可以包括输入数据124。输入数据124可以包括由随机数生成器产生的噪声或由伪随机数生成器产生的噪声。此外,提供至生成部件118以产生生成序列122的数据可以包括一个或更多个模板蛋白质序列126。模板蛋白质序列126可以包括具有期望包括在与模板蛋白质(例如,模板蛋白质104)不同的蛋白质中的一种或更多种的特征的蛋白质的氨基酸序列。在说明性示例中,模板蛋白质序列126可以对应于与特定抗原结合的抗体。在另外的示例中,模板蛋白质序列126可以对应于将一种或更多种金属转运通过哺乳动物身体的蛋白质。
此外,可以将位置修饰数据128提供至生成部件118以由生成部件118用来产生生成序列122。位置修饰数据128可以指示与一个或更多个模板蛋白质序列126的氨基酸的修饰相关的一个或更多个标准。例如,位置修饰数据128可以指示与一个或更多个模板蛋白质序列126的单个氨基酸的修饰对应的一个或更多个标准。为了说明,位置修饰数据128可以指示模板蛋白质序列126的各个位置处的氨基酸可以被修饰的相应概率。在另外的实现方式中,位置修饰数据128可以指示与模板蛋白质序列126的各个位置处的氨基酸的修饰相关联的惩罚。位置修饰数据128可以包括与位于模板蛋白质序列126的各个位置处的相应氨基酸对应的值或函数。
在说明性示例中,位置修饰数据128可以包括降低在与目标蛋白质中要保留的模板蛋白质的功能对应的模板蛋白质的位置处氨基酸被修饰的概率的标准。例如,与修饰位于被认为具有模板蛋白质的功能的特质的区域中的氨基酸相关联的惩罚可能相对高。此外,位置修饰数据128可以包括用于被认为具有模板蛋白质的功能的特质的一个或更多个区域之外的氨基酸的标准,该标准指示这些氨基酸的修饰概率增加或持平(neutral)。为了说明,与修饰位于被认为具有蛋白质的特定功能的特质的区域之外的位置处的氨基酸相关联的惩罚可以相对低或持平。此外,位置修饰数据128可以指示将模板蛋白质位置处的氨基酸改变为不同类型氨基酸的概率。在说明性示例中,位于模板蛋白质的某个位置处的氨基酸可以具有改变为第一类型氨基酸的第一惩罚和改变为第二类型氨基酸的不同的第二惩罚。也就是说,在各种实现方式中,模板蛋白质的疏水性氨基酸可以具有改变为另一疏水性氨基酸的第一惩罚和改变为带正电荷的氨基酸的不同的第二惩罚。
在一个或更多个示例中,可以至少部分地基于经由计算设备获得的输入来确定位置修饰数据128。例如,可以生成包括一个或更多个用户界面元素以捕获位置修饰数据128的至少一部分的用户界面。此外,可以通过通信接口来获得包括位置修饰数据128的至少一部分的数据文件。此外,位置修饰数据128可以通过分析多个氨基酸序列以确定不同氨基酸在蛋白质的一个或更多个位置处的出现次数来计算。氨基酸在蛋白质(包括模板蛋白质和目标蛋白质)的某些位置处的出现可以用于确定位置修饰数据128中指示的氨基酸修饰的概率。在各种示例中,可以结合氨基酸在模板蛋白质和目标蛋白质的一个或更多个位置处的布置来分析蛋白质的生物物理特性和/或结构特性,以确定位置修饰数据128中包括的用于修饰模板蛋白质的一个或更多个位置处的氨基酸以生成目标蛋白质的概率。
生成序列122可以由挑战部件120与包括在目标蛋白质序列数据130中的蛋白质序列进行比较。目标蛋白质序列数据130可以是用于机器学习架构102的训练数据。可以根据方案对目标蛋白质序列数据130进行编码。应用于包括在目标蛋白质序列数据130中的氨基酸序列的方案可以基于氨基酸序列的分类。例如,可以根据第一分类来储存抗体,可以根据第二分类来储存信号蛋白质,并且可以根据第三分类来储存转运蛋白质。
目标蛋白质序列数据130可以包括从存储蛋白质氨基酸序列的一个或更多个数据源获得的蛋白质序列。一个或更多个数据源可以包括一个或更多个被搜索的网站,并且可以从一个或更多个网站中提取与目标蛋白质的氨基酸序列对应的信息。此外,一个或更多个数据源可以包括从中可以提取目标蛋白质的氨基酸序列的电子版本的研究文件。
在说明性示例中,目标蛋白质序列数据130可以包括由与产生模板蛋白质序列126的生物体不同的生物体产生的蛋白质的氨基酸序列。例如,目标蛋白质序列数据130可以包括人蛋白质的氨基酸序列,并且一种或更多种模板蛋白质序列126可以对应于由小鼠或鸡产生的一种或更多种蛋白质。在另外的示例中,目标蛋白质序列数据130可以包括马蛋白质的氨基酸序列,并且一种或更多种模板蛋白质序列126可以对应于由人产生的一种或更多种蛋白质。在各种示例中,包括在目标蛋白质序列数据130中的氨基酸序列可以具有一种或更多种特征和/或功能。为了说明,包括在目标蛋白质序列数据130中的氨基酸序列可以对应于用于人消耗的各种食物的新陈代谢的人类酶。在另外的示例中,包括在目标蛋白质序列数据130中的氨基酸序列可以对应于人抗体。
可以将模板蛋白质序列126、位置修饰数据128、目标蛋白质序列数据130或其组合存储在机器学习架构102可访问的一个或更多个数据存储装置中。一个或更多个数据存储装置可以经由无线网络、有线网络或它们的组合连接至机器学习架构102。模板蛋白质序列126、位置修饰数据128、目标蛋白质序列数据130或它们的组合可以由机器学习架构102基于发送到数据存储装置用于检索模板蛋白质序列126、位置修饰数据128或目标蛋白质序列数据130中的至少一者的一个或更多个部分的请求而获得。
挑战部件120可以生成指示由生成部件118产生的氨基酸序列是否满足各种特征的输出。在一个或更多个实现方式中,挑战部件120可以是鉴别器。在另外的情况下,例如当机器学习架构102包括Wasserstein GAN时,挑战部件120可以包括评价器。
在说明性示例中,基于生成序列122与提供至挑战部件120的附加序列——例如包括在目标蛋白质序列数据130中的氨基酸序列——之间的相似性和差异,挑战部件120可以生成分类输出132,该分类输出132指示生成序列122与提供至挑战部件120的包括在目标蛋白质序列数据130中的序列之间的相似性的量或差异的量。另外,分类输出132可以指示生成序列122与模板蛋白质序列126之间的相似性的量或差异的量。
在一个或更多个示例中,挑战部件120可以将生成序列122标记为零,并且将从目标蛋白质序列数据130获得的编码序列标记为1。在这些情况下,分类输出132可以包括关于包括在目标蛋白质序列数据130中的一个或更多个氨基酸序列的从0到1的第一数字。另外,挑战部件120可以将生成序列122标记为0并且将模板蛋白质序列126标记为1。因此,挑战部件120可以生成关于模板蛋白质序列126的从0到1的另一个数字。
在另外的示例中,挑战部件120可以实现距离函数,该距离函数产生指示生成序列120与包括在目标蛋白质序列数据130中的蛋白质之间的距离量的输出。此外,挑战部件120可以实现距离函数,该距离函数产生指示生成序列122与模板蛋白质序列126之间的距离量的输出。在挑战部件120实现距离函数的实现方式中,分类输出132可以包括从-∞到∞的数字,该数字指示生成序列122与包括在目标蛋白质序列数据130中的一个或更多个序列之间的距离。挑战部件120还可以实现距离函数并生成包括从-∞到∞的附加数字的分类输出132,该附加数字指示生成序列122与模板蛋白质序列126之间的距离。
包括在目标蛋白质序列数据130中的氨基酸序列可以在被提供至挑战部件120之前经受数据预处理134。例如,可以在将目标蛋白质序列数据130提供至挑战部件120之前根据分类系统来布置目标蛋白质序列数据130。数据预处理134可以包括将包括在目标蛋白质序列数据130的目标蛋白质中的氨基酸与可以表示蛋白质内基于结构的位置的数值进行配对。数值可以包括具有起点和终点的数字序列。在说明性示例中,T可以与数字43配对,指示苏氨酸分子位于指定的蛋白质域类型的基于结构的位置43处。在说明性示例中,基于结构的编号可以应用于任何一般蛋白质类型,例如纤连蛋白III型(FNIII)蛋白质、亲和聚体(avimers)、抗体、VHH结构域、激酶、锌指、T细胞受体等。
在各种实现方式中,由数据预处理134实现的分类系统可以包括对位于蛋白质的各个位置处的氨基酸的结构位置进行编码的编号系统。以这种方式,可以根据结构特征使具有不同氨基酸数量的蛋白质对准。例如,分类系统可以指定蛋白质的具有特定功能和/或特征的部分可以具有指定数字的位置。在各种情况下,并非分类系统中包括的所有位置都可以与氨基酸相关联,因为蛋白质的特定区域中的氨基酸数量在蛋白质之间可能变化。在另外的示例中,蛋白质的结构可以反映在分类系统中。为了说明,不与相应氨基酸相关联的分类系统的位置可以指示蛋白质的各种结构特征,例如转角(turn)或环(loop)。在说明性示例中,用于抗体的分类系统可以指示重链区域、轻链区域和铰链区域具有分配给它们的指定数字的位置,并且抗体的氨基酸可以根据分类系统被分配给所述位置。在一个或更多个实现方式中,数据预处理134可以使用抗体结构编号(ASN)来对位于抗体的各个位置处的单个氨基酸进行分类。
用于训练机器学习架构102的数据可能影响由生成部件118产生的氨基酸序列。例如,在提供至挑战部件120的蛋白质序列数据130中包括人抗体的情况下,由生成部件118生成的氨基酸序列可以对应于人抗体氨基酸序列。在另一示例中,在提供至挑战部件120的目标蛋白质序列数据130中包括的氨基酸序列对应于从种系基因产生的蛋白质的情况下,由生成部件118产生的氨基酸序列可以对应于由该种系基因产生的蛋白质。此外,当在提供至挑战部件120的目标蛋白质序列数据130中包括的氨基酸序列对应于特定同种型的抗体时,由生成部件118产生的氨基酸序列可以对应于该特定同种型的抗体。
由数据预处理134产生的输出可以包括编码序列136。编码序列136可以包括指示与蛋白质的各个位置相关联的氨基酸的矩阵。在示例中,编码序列136可以包括矩阵,该矩阵具有与不同氨基酸相对应的列以及与蛋白质的基于结构的位置相对应的行。对于矩阵中的每个元素,0可以用于指示在相应位置处不存在氨基酸,以及1可以用于指示在相应位置处存在氨基酸。矩阵还可以包括附加列,该附加列表示氨基酸序列中在氨基酸序列的特定位置处没有氨基酸的间隙。因此,在一个位置表示氨基酸序列中的间隙的情况下,对于与不存在氨基酸的位置相关联的行,可以将1置于间隙列中。还可以根据与用于编码序列136的编号方案相同或相似的编号方案使用向量来表示生成序列122。在一些说明性示例中,可以使用可以被称为独热编码方法的方法对编码序列136和生成序列122进行编码。
在机器学习架构102已经经历训练处理之后,可以生成可以产生蛋白质序列的经训练的模型138。在使用蛋白质序列数据130进行训练处理之后,经训练的模型138可以包括生成部件118。在说明性示例中,经训练的模型138包括卷积神经网络的多个权重和/或多个参数。用于机器学习架构102的训练处理可以在由生成部件118实现的函数和由挑战部件120实现的函数收敛之后完成。函数的收敛可以基于在由生成部件118生成蛋白质序列并且从挑战部件120获得反馈时模型参数值朝向特定值的移动。在各种实现方式中,当由生成部件118生成的蛋白质序列具有特定特征时,机器学习架构102的训练可以完成。例如,可以通过软件工具来分析由生成部件118生成的氨基酸序列,所述软件工具能够确定氨基酸序列的生物物理特性、氨基酸序列的结构特征或对与一个或更多个蛋白质种系对应的氨基酸序列的依从性中的至少一者。机器学习架构102可以在由生成部件118产生的氨基酸序列被软件工具确定为具有一个或更多个指定特征的情况下产生经训练的模型138。在各种示例中,用于评估由生成部件118产生的氨基酸序列的软件工具可以确定经训练的模型138产生了具有模板蛋白质的保留功能的氨基酸序列。
可以将蛋白质序列输入140提供至经训练的模型138,并且经训练的模型138可以产生生成蛋白质序列142。蛋白质序列输入140可以包括一个或更多个模板蛋白质序列、附加位置约束数据和可以包括随机或伪随机数字序列的输入向量。在说明性示例中,蛋白质序列输入140可以包括一个或更多个模板蛋白质序列126。由经训练的模型138产生的生成蛋白质序列142可以被表示为与用于表示编码序列136和/或生成序列122的矩阵结构相同或相似的矩阵结构。在各种实现方式中,可以对由经训练的模型138产生的包括生成蛋白质序列142的矩阵进行解码以产生与目标蛋白质序列对应的氨基酸串。在说明性示例中,蛋白质序列输入140可以包括模板蛋白质104的氨基酸序列和位置修饰数据,该位置修饰数据指示位于区域108中的氨基酸将被保留以便保留区域108的功能的相对高的概率。经训练的模型138然后可以使用蛋白质序列输入140来生成目标蛋白质的多个氨基酸序列,例如目标蛋白质106的氨基酸序列。在各种示例中,经训练的模型138可以使用蛋白质序列输入140来产生数百、至数千以及至数百万个与目标蛋白质106相似的对应于模板蛋白质104的蛋白质序列。
尽管在图1的说明性示例中未示出,但可以针对生成蛋白质序列142执行另外的处理。例如,可以对生成蛋白质序列142进行评估以确定生成蛋白质序列142是否具有指定的一组特征。为了说明,可以针对目标蛋白质序列142确定一个或更多个度量。例如,可以针对生成蛋白质序列142确定的度量可以与生成蛋白质序列142的特征相关,例如带负电荷的氨基酸的数目、带正电荷的氨基酸的数目、相互作用以形成一个或更多个极性区域的氨基酸的数目、相互作用以形成一个或更多个疏水性区域的氨基酸的数目、它们的一种或更多种组合等。
由经训练的模型138产生的生成蛋白质序列142可以对应于各种类型的蛋白质。例如,生成蛋白质序列142可以对应于用作T细胞受体的蛋白质。在另外的示例中,生成蛋白质序列142可以对应于用作催化剂以引起生物体内的生化反应发生的蛋白质。生成蛋白质序列142也可以对应于一种或更多种类型的抗体。为了说明,生成蛋白质序列142可以对应于一种或更多种抗体亚型,例如免疫球蛋白A(IgA)、免疫球蛋白D(IgD)、免疫球蛋白E(IgE)、免疫球蛋白G(IgG)或免疫球蛋白M(IgM)。此外,生成蛋白质序列142可以对应于与抗原结合的附加蛋白质。在示例中,生成蛋白质序列142可以与affibodies、affilins、affimers、affitins、alphabodies、anticalins、avimers、monobodies、设计的锚蛋白重复蛋白(DARPins)、nanoCLAMP(梭菌抗体模拟蛋白)、抗体片段或其组合对应。在其他示例中,生成蛋白质序列142可以对应于参与蛋白质-蛋白质相互作用的氨基酸序列,例如具有与抗原结合的区域或与其他分子结合的区域的蛋白质。
在一些实现方式中,生成蛋白质序列142可以经受序列过滤。序列过滤可以解析生成蛋白质序列142以识别与一个或更多个特征对应的生成蛋白质序列142中的一个或更多个。例如,可以对生成蛋白质序列142进行分析以识别在特定位置处具有指定氨基酸的氨基酸序列。也可以对生成蛋白质序列142中的一个或更多个进行过滤以识别具有一个或更多个特定氨基酸串或区域的氨基酸序列。在各种实现方式中,可以对生成蛋白质序列142进行过滤以至少部分地基于生成蛋白质序列142中的至少一个与具有一组生物物理特性的附加蛋白质的氨基酸序列之间的相似性来识别与该组生物物理特性相关联的氨基酸序列。
机器学习架构102可以由一个或更多个计算设备144实现。一个或更多个计算设备144可以包括一个或更多个服务器计算设备、一个或更多个台式计算设备、一个或更多个膝上型计算设备、一个或更多个平板计算设备、一个或更多个移动计算设备或其组合。在某些实现方式中,一个或更多个计算设备144的至少一部分可以在分布式计算环境中实现。例如,一个或更多个计算设备144的至少一部分可以在云计算架构中实现。此外,虽然图1的说明性示例示出了包括具有单个生成部件和单个挑战部件的生成式对抗网络的机器学习架构102的实现方式,但在另外的实现方式中,机器学习架构102可以包括多个生成式对抗网络。此外,由机器学习架构102实现的每个生成式对抗网络可以包括一个或更多个生成部件和一个或更多个挑战部件。
图2是示出根据一些实现方式的利用迁移学习技术来生成具有指定特征的蛋白质序列的示例框架200的图。框架200可以包括第一生成式对抗网络202。第一生成式对抗网络202可以包括第一生成部件204和第一挑战部件206。在各种实现方式中,第一生成部件204可以是生成器并且第一挑战部件206可以是鉴别器。第一生成部件204可以实现基于提供至第一生成部件204的输入来生成氨基酸序列的一个或更多个模型。第一挑战部件206可以生成指示由生成部件204产生的氨基酸序列满足一个或更多特征的输出或指示由生成部件204产生的氨基酸序列不满足一个或更多个特征的输出。可以将由第一挑战部件206产生的输出提供至生成部件204,并且可以基于由第一挑战部件206提供的反馈来修饰由第一生成部件204实现的一个或更多个模型。在各种实现方式中,第一挑战部件206可以将由第一生成部件204产生的氨基酸序列与目标蛋白质的氨基酸序列进行比较,并且生成指示由第一生成部件204产生的氨基酸序列与提供至第一挑战部件206的目标蛋白质的氨基酸序列之间的对应量的输出。
可以以相对于图1的机器学习架构102描述的相同或相似的方式来训练第一生成式对抗网络202。例如,可以将第一编码序列210和一个或更多个模板蛋白质序列212反馈到第一挑战部件206中并且将第一编码序列210和一个或更多个模板蛋白质序列212与由第一生成部件204产生的输出进行比较。由第一生成部件204产生的输出可以基于一个或更多个模板蛋白质序列212、位置修饰数据214和第一输入数据216。一个或更多个模板蛋白质序列212可以包括包含待被保留的一种或更多种特征的蛋白质的氨基酸序列。位置修饰数据214可以指示与一个或更多个模板蛋白质序列214的不同位置处的氨基酸的修饰相关的约束。第一输入数据216可以包括由随机数生成器或伪随机数生成器生成的数据。可以响应于由第一生成部件204或第一挑战部件206中的至少一个实现的一个或更多个函数满足一个或更多个标准(例如,一个或更多个收敛标准或一个或更多个优化标准)来产生经训练的模型208。
可以根据分类方案对第一编码目标蛋白质序列210进行编码。此外,第一编码目标蛋白质序列210可以包括目标蛋白质的氨基酸序列,其中,目标蛋白质包括可以支持一个或更多个功能区域的支架或基础结构。例如,在第一编码目标蛋白质序列210是人抗体的情况下,第一编码目标蛋白质序列210可以具有代表特定类型或类别的抗体的轻链和/或重链的恒定区域。为了说明,第一编码目标蛋白质序列210可以包括具有与IgA抗体对应的重链的恒定区域的抗体。
经训练的模型208可以生成除了目标蛋白质的基础结构或支架结构之外还具有一个或更多个模板蛋白质的至少一部分功能的蛋白质的氨基酸序列。在实现方式中,经训练的模型208可以生成具有与最初在小鼠抗体中发现的CDR对应的CDR的与抗原结合的人抗体的氨基酸序列。在另外的示例中,经训练的模型208可以基于从不同的第二种系基因产生的蛋白质的一个或更多个氨基酸序列的输入来生成从第一种系基因产生的蛋白质的氨基酸序列。
在另外的实现方式中,可以在不使用模板蛋白质序列212或位置修饰数据214中的至少一个的情况下生成经训练的模型208。例如,可以使用第一编码目标蛋白质序列210和第一输入216来生成经训练的模型208。在各种实现方式中,可以使用用于第一生成式对抗网络202的训练数据来生成经训练的模型208,使得第一编码目标蛋白序列210包括与一个或更多个种系基因对应的氨基酸序列。
在各种示例中,可以进一步细化由经训练的模型208生成的氨基酸序列。为了说明,经训练的模型208可以通过使用与初始训练处理不同的训练数据集经受另一训练处理而被修饰。例如,用于经训练的模型208的附加训练的数据可以包括用于初始产生经训练的模型208的数据的子集。在另外的示例中,用于经训练的模型208的附加训练的数据可以包括与用于初始产生经训练的模型208的数据不同的数据集。在说明性示例中,经训练的模型208可以产生具有与抗原结合的小鼠抗体的CDR区域的人抗体的氨基酸序列,并且经训练的模型208可以进一步被细化以生成具有最初在鸡抗体中发现的CDR区域的人抗体的氨基酸序列,所述CDR区域具有较高的概率在具有指定pH范围的环境中具有至少阈值水平的表达。继续该示例,经训练的模型208可以通过使用在指定pH范围内具有相对高水平表达的人抗体的数据集进行附加训练来细化。在图2的说明性示例中,经训练的模型208的细化可以通过训练第二生成式对抗网络218来表示,该第二生成式对抗网络218包括作为第二生成部件220的训练模型208。在各种实现方式中,第二生成部件220可以包括在已经对经训练的模型208作出一个或更多个修饰之后的经训练的模型208。例如,可以关于经训练的模型208的架构对经训练的模型208进行修饰,例如添加一个或更多个隐藏层或改变一个或更多个网络过滤器。第二生成式对抗网络218还可以包括第二挑战部件222。第二挑战部件222可以包括鉴别器。
可以将第二输入数据228提供至第二生成部件220,并且第二生成部件220可以产生一个或更多个生成序列224。第二输入数据228可以包括第二生成部件220用于产生生成序列224的随机或伪随机的数字序列。第二挑战部件222可以生成第二分类输出226,该第二分类输出226指示由第二生成部件220产生的氨基酸序列满足各种特征或者指示由第二生成部件220产生的氨基酸序列不满足各种特征。在说明性示例中,第二挑战部件222可以基于一个或更多个生成序列224与提供至第二挑战部件222的氨基酸序列之间的相似性和差异来生成分类输出226。分类输出226可以指示生成序列224与提供至第二挑战部件222的比较序列之间的相似性量或差异量。
提供至第二挑战部件222的氨基酸序列可以包括在附加蛋白质序列数据230中。附加蛋白质序列数据230可以包括具有一个或更多个指定特征的蛋白质的氨基酸序列。例如,附加蛋白质序列数据230可以包括人体中具有阈值表达水平的蛋白质的氨基酸序列。在另外的示例中,附加蛋白质序列数据230可以包括具有一个或更多个生物物理特性和/或一个或更多个结构特性的蛋白质的氨基酸序列。为了说明,附加蛋白质序列数据中包括的蛋白质可以具有带负电荷的区域、疏水区、相对低的聚集概率、指定百分比的高分子量(HMW)、熔解温度(melting temperature)、它们的一个或更多个组合等。在各种示例中,附加蛋白质序列数据230可以包括用于产生经训练的模型208的蛋白质序列数据的子集。通过向第二挑战部件222提供具有一个或更多个指定特征的氨基酸序列,第二生成部件220可以被训练成产生具有至少阈值概率的有指定特征中的一个或更多个指定特征的氨基酸序列。
另外,在期望产生具有指定特征的蛋白质的氨基酸序列的许多情况下,训练生成式对抗网络可用的序列数量是有限的。在这些情况下,生成式对抗网络用于产生具有指定特征的蛋白质的氨基酸序列的准确性、效率和/或有效性可能不令人满意。因此,在没有足够数量的训练生成式对抗网络可用的氨基酸序列的情况下,由生成式对抗网络产生的氨基酸序列可能不具有期望的特征。通过实现关于图2描述的技术和系统,第一生成式对抗网络202可以执行使用第一数据集来确定与蛋白质对应的或与更广泛类别的蛋白质对应的氨基酸序列的处理的一部分,并且第二生成式对抗网络218可以执行附加训练以使用不同的第二数据集来准确且高效地生成具有更多个指定特征的蛋白质的氨基酸序列。第二数据集可以包括初始训练数据集的子集,或者可以包括具有期望特征的蛋白质的氨基酸序列。
在被提供至第二挑战部件222之前,附加蛋白质序列数据230中包括的氨基酸序列可以进行数据预处理232。例如,可以在将附加蛋白质序列数据230提供至第二挑战部件222之前根据分类系统布置附加蛋白质序列数据230。数据预处理232可以包括:将附加蛋白质序列数据230中包括的蛋白质的氨基酸序列中包括的氨基酸与可以表示蛋白质内基于结构的位置的数值进行配对。数值可以包括具有起点和终点的数字序列。第二编码序列234可以包括指示与蛋白质的各个位置相关联的氨基酸的矩阵。在各种示例中,第二编码序列234可以包括具有与不同氨基酸对应的列以及与蛋白质的基于结构的位置对应的行的矩阵。对于矩阵中的每个元素,0可以用于指示在相应位置处不存在氨基酸,以及1可以用于指示在相应位置处存在氨基酸。矩阵还可以包括附加列,该附加列表示氨基酸序列中在氨基酸序列的特定位置处没有氨基酸的间隙。因此,在一个位置表示氨基酸序列中的间隙的情况下,对于与不存在氨基酸的位置相关联的行,可以将1置于间隙列中。也可以根据与用于第二编码序列234的编号方案相同或相似的编号方案使用向量来表示生成序列224。在一些说明性示例中,可以使用可以被称为独热编码方法的方法来对第二编码序列234和第二生成序列224进行编码。在说明性示例中,在数据预处理232中使用的分类系统可以与关于图1描述的预处理134中使用的分类系统相同或相似。数据预处理232可以产生被提供至第二挑战部件222的第二编码序列234。
第二挑战部件222可以生成指示由第二生成部件220产生的氨基酸序列是否满足各种特征的输出。在各种实现方式中,第二挑战部件222可以是鉴别器。在另外的情况下,例如在第二生成式对抗网络218包括Wasserstein GAN时,第二挑战部件222可以包括评价器。
在说明性示例中,基于生成序列224与提供至第二挑战部件222的附加序列——例如附加蛋白质序列数据232中包括的氨基酸序列——之间的相似性和差异,第二挑战部件222可以生成分类输出226,该分类输出226用于指示生成序列224与提供至第二挑战部件222的附加蛋白质序列数据232中包括的序列之间的相似性量或差异量。此外,分类输出226可以指示生成序列224与附加蛋白质序列数据232中包括的氨基酸序列之间的相似性量或差异量。在另外的示例中,第二挑战部件222可以实现距离函数,该距离函数产生指示生成序列222与附加蛋白质序列数据232中包括的蛋白质之间的距离量的输出。在其中第二挑战部件222实现距离函数的实现方式中,分类输出226可以包括从-∞至∞的数字,指示生成序列224与附加蛋白质序列数据232中包括的一个或更多个氨基酸序列之间的距离。
在第二生成式对抗网络218已经经历训练处理之后,可以生成可以产生蛋白质序列的经修饰的训练模型236。经修饰的训练模型236可以表示在使用附加蛋白质序列数据230进行训练之后的经训练的模型208。在示例中,用于第二生成式对抗网络218的训练处理可以在由第二生成部件220和第二挑战部件222实现的函数收敛之后完成。函数的收敛可以基于在由第二生成部件220生成蛋白质序列并且从第二挑战部件222获得反馈时模型参数值朝向特定值的移动。当由第二生成部件220生成的蛋白质序列具有特定特征时,第二生成式对抗网络218的训练可以完成。
可以将附加序列输入238提供至经修饰的训练模型236,并且经修饰的训练模型236可以产生生成序列240。附加序列输入238可以包括一系列随机数或伪随机数,以及生成序列240可以包括可以是蛋白质序列的氨基酸序列。在另外的实现方式中,可以对生成序列240进行评估以确定生成序列240是否具有指定的特征集。对生成序列240的评估可以产生指示生成序列240的特征的度量,例如蛋白质的生物物理特性、蛋白质的区域的生物物理特性以及/或者位于指定位置处的氨基酸的存在或不存在。另外,度量可以指示生成序列240的特征与指定的特征集之间的对应量。在一些示例中,度量可以指示与蛋白质的种系基因产生的序列不同的生成序列240的位置数字。此外,对生成序列240的评估可以确定对应于生成序列240的蛋白质的结构特征的存在或不存在。
虽然图2的说明性示例示出了在包括两个生成式对抗网络的框架中使用多个训练集对模型的训练,但在另外的实现方式中,使用多个训练数据集对模型进行的训练也可以使用单个生成式对抗网络来表示。此外,虽然图2的说明性示例示出了用两个训练数据集对使用生成式对抗网络的模型的训练,但是在各种实现方式中,根据本文中描述的实现方式,可以使用多于两个的数据集来训练使用一个或更多个生成式对抗网络的模型。例如,第一生成式对抗网络202的第一生成部件204可以使用先前训练的生成式对抗网络来产生。为了说明,第一生成部件204可以使用抗体的氨基酸序列的训练数据集来产生,并且经训练的模型208可以使用迁移学习(transfer learning)技术利用抗体的氨基酸序列的训练数据集来产生,抗体的氨基酸序列具有对应于种系基因的位置中的一组或更多组。然后可以进一步训练经训练的模型208以产生可以生成人抗体的氨基酸序列的经修饰的训练模型236。
图3是示出根据一些实现方式的使用生成式对抗网络基于模板蛋白质序列和与模板蛋白质序列位置的修饰相关的约束数据来生成目标蛋白质序列的示例框架300的图。框架300可以包括计算系统302。计算系统302可以由一个或更多个计算设备实现。一个或更多个计算设备可以包括一个或更多个服务器计算设备、一个或更多个台式计算设备、一个或更多个膝上型计算设备、一个或更多个平板计算设备、一个或更多个移动计算设备或它们的组合。在各种实现方式中,一个或更多个计算设备的至少一部分可以在分布式计算环境中实现。例如,一个或更多个计算设备的至少一部分可以在云计算架构中实现。
计算系统302可以包括一个或更多个生成式对抗网络304。一个或更多个生成式对抗网络304可以包括条件生成式对抗网络。在各种实现方式中,一个或更多个生成式对抗网络304可以包括生成部件和挑战部件。生成部件可以生成蛋白质的氨基酸序列,以及挑战部件可以将由生成部件产生的氨基酸序列分类为包括在训练集中的氨基酸序列或不包括在训练数据集中的氨基酸序列。该训练数据集可以包括已经根据一个或更多个分析测试和/或一个或更多个测定法合成和表征的蛋白质的氨基酸序列。挑战部件的输出可以基于由生成部件产生的氨基酸序列与训练数据集中包括的氨基酸序列之间的比较。在说明性示例中,挑战部件的输出可以对应于由生成部件产生的氨基酸序列被包括在训练数据集中的概率。当生成部件产生氨基酸序列时并且当挑战部件产生关于由生成部件产生的氨基酸序列的反馈时,可以对由挑战部件实现的一个或更多个模型的参数和/或权重以及由生成部件实现的一个或更多个模型的参数和/或权重进行细化直到与生成部件相关的一个或更多个模型以及与挑战部件相关的一个或更多个模型已被训练并满足一个或更多个训练标准。在实现方式中,生成部件可能生成一个或更多个不包括在训练数据集中的蛋白质的假氨基酸序列,以尝试和“欺骗”挑战部件将蛋白质的一个或更多个假氨基酸序列分类为包括在训练数据集中。
一个或更多个生成式对抗网络302可以使用一个或更多个模板蛋白质例如模板蛋白质306的氨基酸序列,并生成一个或更多个目标蛋白质(target protein)例如目标蛋白质308的氨基酸序列。在图3的说明性示例中,可以将对应于模板蛋白质304的第一氨基酸序列310的数据提供至计算系统302,并且计算系统302可以生成目标蛋白质308的第二氨基酸序列312。第一氨基酸序列310可以包括在各个位置处的多个氨基酸,例如在模板蛋白质306的位置111处的氨基酸314(苏氨酸)、在模板蛋白质318的位置112处的氨基酸316(组氨酸)、在模板蛋白质306的位置113处的氨基酸318(甲硫氨酸)、在模板蛋白质306的位置274处的氨基酸320(精氨酸)、在模板蛋白质306的位置275处的氨基酸322(组氨酸)以及在模板蛋白质306的位置276处的氨基酸324(组氨酸)。一个或更多个生成式对抗网络304可以是根据对应于提供至计算系统302的氨基酸序列的各个位置的位置修饰数据而定的。例如,氨基酸314、316、318、320、322、324与各自的位置修饰数据相关联。为了说明,氨基酸314可以与位置修饰数据326相关联,氨基酸316可以与位置修饰数据328相关联,氨基酸318可以与位置修饰数据330相关联,氨基酸320可以与位置修饰数据332相关联,氨基酸322可以与位置修饰数据334相关联,以及氨基酸324可以与位置修饰数据336相关联。
位置修饰数据326、328、330、332、334、336可以对应于对模板蛋白质306的第一氨基酸序列310中包括的单个氨基酸314、316、318、320、322、324的修饰的限制。在说明性示例中,位置修饰数据326、328、330、332、334、336可以指示将由一个或更多个生成式对抗网络304的一个或更多个生成部件和/或一个或更多个挑战部件响应于对第一氨基酸序列310中的各个单个氨基酸314、316、318、320、322、324的修饰而应用的惩罚。例如,可以将位置修饰数据326、328、330、332、334、336中包括的惩罚应用至一个或更多个生成式对抗网络304的至少一个损失函数。在另外的示例中,位置修饰数据326、328、330、332、334、336可以包括第一氨基酸序列310中的单个氨基酸314、316、318、320、322、324可以被修饰的概率。位置修饰数据326、328、330、332、334、336可以包括与对应于对第一氨基酸序列310中包括的单个氨基酸314、316、318、320、322、324的修饰的概率和/或惩罚相关的数值。为了说明,位置修饰数据326、328、330、332、334、336可以包括从0至1的数值、从-1至1的数值、和/或从0至100的值。在另外的实现方式中,位置修饰数据326、328、330、332、334、336可以包括一个或更多个函数,例如一个或更多个线性函数或一个或更多个非线性函数,其包括与对应于对第一氨基酸序列310中包括的单个氨基酸314、316、318、320、322、324的修饰的概率和/或惩罚相关的一个或更多个变量。在另外的示例中,位置修饰数据326、328、330、332、334、336的至少一部分可以指示位于一个或更多个位置处的氨基酸314、316、318、320、322、324不会被一个或更多个生成式对抗网络304修饰。此外,尽管图3的说明性示例指示每个位置314、316、318、320、322、324与各自的位置修饰数据326、328、330、332、334、336相关联,但是在另外的实现方式中,位置314、316、318、320、322、324中的至少一个可以不与任何位置修饰数据相关联。在一个或更多个实现方式中,位置修饰数据可以与第一氨基酸序列的一组或多组位置相关联。
在各种示例中,可以将对应于模板蛋白质306的第一氨基酸序列310的数据提供至计算系统302。可以由一个或更多个生成式对抗网络304使用第一氨基酸序列310和对应的位置修饰数据以生成对应于目标蛋白质308的第二氨基酸序列312。目标蛋白质308可以与模板蛋白质306相关,但不同于模板蛋白质306。例如,一个或更多个生成式对抗网络304可以修饰第一氨基酸序列310的一个或更多个位置处的氨基酸以产生第二氨基酸序列312。为了说明,第二氨基酸序列312包括与第一氨基酸序列310的氨基酸314、316对应的氨基酸346和348。即,氨基酸314和氨基酸338两者都是苏氨酸并且氨基酸316和氨基酸340两者都是组氨酸。在图3的说明性示例中,氨基酸318和氨基酸342不同,指示氨基酸318的甲硫氨酸已被一个或更多个生成式对抗网络304改变为氨基酸342的亮氨酸。此外,氨基酸320可以对应于氨基酸344,其中氨基酸320、344两者都是精氨酸,而模板蛋白质306的第一氨基酸序列310中的氨基酸322、324已经从组氨酸改变为在目标蛋白质308的第二氨基酸序列312的氨基酸346、348处的赖氨酸。除了修饰模板蛋白质306的第一氨基酸序列310的各个位置处的氨基酸之外,一个或更多个生成式对抗网络304可以通过将氨基酸添加至第一氨基酸序列310来生成目标蛋白质308的第二氨基酸序列312。一个或更多个生成式对抗网络304也可以通过从模板蛋白质306的第一氨基酸序列310中删除氨基酸来生成目标蛋白质308的第二氨基酸序列312。
目标蛋白质310可以保持模板蛋白质308的一个或更多个特征。模板蛋白质308的一个或更多个特征可以通过将在模板蛋白质306的第一氨基酸序列310的不同位置处的单个氨基维持在目标蛋白质308的第二氨基酸序列312中来维持在目标蛋白质310中。可以通过确定与一个或更多个特征对应的第一氨基酸序列310的一个或更多个位置并且使一个或更多个生成式对抗网络304改变位于所述一个或更多个位置处的氨基酸的概率最小化来保留模板蛋白质306的也存在于目标蛋白质308中的一个或更多个特征。另外,可以限制用于替代模板蛋白质306中的初始氨基酸的目标蛋白质308中氨基酸的特征。例如,针对第一氨基酸序列310的位置修饰数据可以指示疏水性氨基酸将被另一疏水性氨基酸替代。以这种方式,目标蛋白质308可以具有模板蛋白质306的一个或更多个相似或相同的特征。例如,目标蛋白质308可以具有在模板蛋白质306的一个或更多个生物物理特性的值的阈值量内的一个或更多个生物物理特性的值。另外,目标蛋白质308可以具有与模板蛋白质306的功能相似或相同的功能。为了说明,目标蛋白质308和模板蛋白质306两者可以结合至指定分子或结合至指定类型的分子。在说明性示例中,模板蛋白质306可以包括结合至抗原的抗体,并且第一氨基酸序列310可以被修饰为第二氨基酸序列312,使得目标蛋白质308也可以结合至抗原。
在各种示例中,位置修饰数据可以指示与将模板蛋白质306的一个位置处的氨基酸改变为目标蛋白质308中的一个或更多个不同氨基酸相关联的惩罚和/或概率。为了说明,位置修饰数据可以指示将位置114处的氨基酸314的苏氨酸改变为丝氨酸的第一惩罚和/或第一概率以及将位置114处氨基酸314的苏氨酸改变为半胱氨酸的第二惩罚和/或第二概率。在各种实现方式中,位置修饰数据可以指示用于相对于至少5个其他氨基酸、至少10个其他氨基酸、至少15个其他氨基酸或者至少20个其他氨基酸中的每一个修饰模板蛋白质的某个位置处的氨基酸的相应概率和/或相应惩罚。
一个或更多个生成式对抗网络304可以修饰由一种生物体产生的模板蛋白质以生成对应于不同生物体的目标蛋白质。例如,模板蛋白质306可以由小鼠产生,并且可以修饰第一氨基酸序列310,使得第二氨基酸序列312对应于人体蛋白质。在另外的示例中,模板蛋白质306可以由人产生,并且第一氨基酸序列310可以被修饰,使得第二氨基酸序列312对应于马蛋白质。另外,一个或更多个生成式对抗网络304可以修饰由种系的一个或更多个基因产生的模板蛋白质以生成对应于不同种系基因的蛋白质。在说明性示例中,物种内抗体的种系基因的一个或更多个氨基酸的修饰可以对抗体的一个或更多个特征(例如,表达水平、产量、可变区稳定性)产生影响,同时维持一定量的与指定抗原的结合能力。此外,在其中一个或更多个生成式对抗网络304修饰抗体的氨基酸序列的情况下,一个或更多个生成式对抗网络304可以修饰对应于第一抗体同种型例如IgE同种型抗体的模板蛋白质以生成对应于第二抗体同种型例如IgG同种型抗体的目标抗体。
图4是示出根据一些实现方式的利用指示第一生物体的具有指定功能的抗体序列的数据来生成针对不同的第二生物体的与具有指定功能的附加抗体序列对应的数据的示例框架400的图。框架400可以包括计算系统402,计算系统402可以实现一个或更多个生成式对抗网络404以修饰第一哺乳动物08的模板抗体406的氨基酸序列以产生第二哺乳动物412的目标抗体410。在图4的说明性示例中,模板抗体406可以是小鼠抗体并且目标抗体410可以对应于人抗体。模板抗体406可以结合至抗原414。另外,一个或更多个生成式对抗网络404可以生成目标抗体410,使得目标抗体410至少具有也结合至抗原414的阈值概率。
模板抗体406可以包括第一轻链416。第一轻链416可以包括具有多个框架区和多个高变区的可变区。在各种情况下,高变区在本文中可以被称为互补性决定区(CDR)。在图4的说明性示例中,第一轻链416可以包括第一框架区418、第二框架区420、第三框架区422和第四框架区424。另外,第一轻链416可以包括第一CDR 426、第二CDR 428和第三CDR 430。尽管在图4的说明性示例中未示出,但第一轻链416可以包括耦接至第一轻链416的可变区且在第一轻链416的可变区的氨基酸序列之后的恒定区。第一轻链416的恒定区和第一轻链416的可变区可以形成第一轻链416的抗原结合区。
模板抗体406还可以包括第一重链432。第一重链432可以包括具有多个框架区和多个高变区的可变区。第一重链432可以包括第一框架区434、第二框架区436、第三框架区438和第四框架区440。此外,第一重链432可以包括第一CDR 442、第二CDR 444和第三CDR446。尽管在图4的说明性示例中未示出,第一重链432可以包括耦接至第一重链432的可变区的多个恒定区。为了说明,第一重链432的第一恒定区可以耦接至可变区,并且第一重链432的第一恒定区和第一重链432的可变区一起可以形成第一重链432的抗原结合区。第一重链432还可以包括可结晶区,该可结晶区包括两个附加恒定区并且通过桥接区耦接至抗原结合区。
第一轻链416的抗原结合区和第一重链432的抗原结合区可以具有与抗原414的形状和化学分布对应的形状。在各种示例中,第一轻链416的CDR 426、CDR 428、CDR 430的至少一部分和第一重链432的CDR 442、CDR 444、CDR 446的至少一部分可以包括与抗原414的表位区的氨基酸相互作用的氨基酸。以这种方式,CDR 426、CDR 428、CDR 430、CDR 442、CDR444、CDR 446中的至少一部分的氨基酸可以通过静电相互作用、氢键、范德华力或疏水相互作用中的至少一种与抗原414的氨基酸相互作用。
尽管在图4的说明性示例中未示出,但模板抗体406还可以包括与附加重链配对的附加轻链。附加轻链可以对应于第一轻链416并且附加重链可以对应于第一重链432。在说明性示例中,附加轻链可以具有与第一轻链414相同的氨基酸序列,并且附加重链可以具有与第一重链432相同的氨基酸序列。模板抗体406的附加轻链和附加重链可以结合至对应于抗原414的另一抗原分子。
一个或更多个生成式对抗网络404可以使用模板抗体406的各个区域的氨基酸序列生成目标抗体410。目标抗体410可以具有一个或更多个部分,其氨基酸序列不同于模板抗体406的氨基酸序列的部分。可以修饰相对于目标抗体410的氨基酸序列而改变的模板抗体406的氨基酸序列的部分,使得目标抗体410更接近地对应于由与模板抗体406相关的物种产生的抗体不同的物种产生的抗体。在一个或更多个说明性示例中,一个或更多个生成式对抗网络404可以修饰第一轻链416的可变区中包括的氨基酸和/或第一重链432的可变区中包括的氨基酸以产生目标抗体410。在各种说明性示例中,一个或更多个生成式对抗网络404可以修饰第一轻链416的CDR 426、CDR 438、CDR 430中的一个或更多个或者第一重链432的CDR 442、CDR 444、CDR 446中的一个或更多个中的至少一者中包括的氨基酸以产生目标抗体410。
目标抗体410可以包括第二轻链448。第二轻链448可以对应于第一轻链416。在各种示例中,第二轻链448的至少一个氨基酸可以不同于第一轻链416的至少一个氨基酸。第二轻链448可以包括具有多个框架区和多个高变区的可变区。第二轻链448可以包括第一框架区450、第二框架区452、第三框架区454和第四框架区456。另外,第二轻链448可以包括第一CDR 458、第二CDR 460和第三CDR 462。尽管在图4的说明性示例中未示出,第二轻链448可以包括耦接至第二轻链448的可变区且在第二轻链448的可变区的氨基酸序列之后的恒定区。第二轻链448的恒定区和第二轻链448的可变区可以形成第二轻链448的抗原结合区。
目标抗体410还可以包括第二重链464。第二重链464可以对应于第一重链432。在一个或更多个实现方式中,第二重链464的至少一个氨基酸可以与第一重链432的至少一个氨基酸不同。第二重链464可以包括具有多个框架区和多个高变区的可变区。第二重链464可以包括第一框架区466、第二框架区468、第三框架区470和第四框架区472。此外,第二重链464可以包括第一CDR 474、第二CDR 476和第三CDR 478。尽管未在图4的说明性示例中示出,但第二重链464可以包括耦接至第二重链464的可变区的多个恒定区。为了说明,第二重链464的第一恒定区可以耦接至可变区,并且第二重链464的第一恒定区和第二重链464的可变区一起可以形成第二重链464的抗原结合区。第二重链464还可以包括可结晶区,该可结晶区包括两个附加恒定区并且通过桥接区耦接至抗原结合区。
尽管第二轻链448可以具有与第一轻链416不同的氨基酸序列以及/或者第二重链464可以具有与第一重链432不同的氨基酸序列,但第二轻链448的抗原结合区和第二重链464的抗原结合区可以具有与抗原414的形状和化学分布对应的形状。在各种示例中,第二轻链448的CDR 458、CDR 460、CDR 462的至少一部分和第二重链464的CDR 474、CDR 476、CDR 478的至少一部分可以包括与抗原414的表位区的氨基酸相互作用的氨基酸。以这种方式,CDR 458、CDR 460、CDR 462、CDR 474、CDR 476、CDR 478中的至少一部分的氨基酸可以通过静电相互作用、氢键、范德华力或疏水相互作用中的至少一种与抗原414的氨基酸相互作用。
尽管在图4的说明性示例中未示出,但目标抗体410还可以包括与附加重链配对的附加轻链。附加轻链可以对应于第二轻链448并且附加重链可以对应于第二重链464。在说明性示例中,附加轻链可以具有与第二轻链448相同的氨基酸序列,并且附加重链可以具有与第二重链464相同的氨基酸序列。目标抗体410的附加轻链和附加重链可以结合至对应于抗原414的另一抗原分子。
在图4的说明性示例中,模板抗体406可以包括具有第一氨基酸序列480的第一部分,该第一部分不同于目标抗体410的具有第二氨基酸序列482的第二部分。例如,模板抗体406的第一氨基酸序列480中包括的苏氨酸分子可以被目标抗体410的相应部分的第二氨基酸序列482中的天冬酰胺分子替代。另外,模板抗体406可以包括具有第三氨基酸序列484的第三部分,该第三部分不同于目标抗体410的具有第四氨基酸序列482的第四部分。为了说明,模板抗体406的第三部分的第三氨基酸序列484中包括的脯氨酸分子可以被对应于目标抗体410的第四部分的第四氨基酸序列486中的丝氨酸分子替代。
在各种实现方式中,对于每种抗体同种型,例如IgA、IgD、IgE、IgG、IgM,轻链恒定区可以包括相同或相似的氨基酸序列,并且相应的重链恒定区可以包括相同或相似的氨基酸序列。
图5是示出根据一些实现方式的使用机器学习技术通过将蛋白质片段序列与模板蛋白质序列组合来生成目标蛋白质序列的示例框架500的图。在各种示例中,机器学习架构502可以生成蛋白质片段序列。蛋白质片段序列可以与蛋白质模板的序列组合以生成目标蛋白质的序列。在一个或更多个示例中,机器学习架构502可以生成抗体片段序列。在这些情况下,抗体片段序列可以与模板序列例如抗体框架组合以生成抗体序列。在一个或更多个说明性示例中,机器学习架构502可以生成抗体可变区的至少一部分的序列,并且由机器学习架构502生成的抗体片段序列可以与抗体的另外部分的序列组合以生成完整的抗体序列。在一个或更多个实现方式中,抗体序列可以包括一个或更多个轻链可变区、一个或更多个轻链恒定区、一个或更多个重链可变区、一个或更多个重链恒定区、或它们的一个或更多个组合。
机器学习架构502可以包括生成部件504和挑战部件506。生成部件506可以实现基于提供至生成部件506的输入来生成氨基酸序列的一个或更多个模型。在各种实现方式中,由生成部件506实现的一个或更多个模型可以包括一个或更多个函数。挑战部件506可以生成指示由生成部件504产生的氨基酸序列是否满足各种特征的输出。可以将由挑战部件506产生的输出提供至生成部件504,并且可以基于由挑战部件506提供的反馈来修饰由生成部件504实现的一个或更多个模型。挑战部件506可以将由生成部件504产生的氨基酸序列与目标蛋白质库的氨基酸序列进行比较,并且生成指示由生成部件504产生的氨基酸序列与提供至挑战部件506的目标蛋白质的氨基酸序列之间的对应量的输出。
在各种实现方式中,机器学习架构502可以实现一种或更多种神经网络技术。例如,机器学习架构502可以实现一个或更多个递归神经网络。另外,机器学习架构502可以实现一个或更多个卷积神经网络。在某些实现方式中,机器学习架构502可以实现递归神经网络和卷积神经网络的组合。在示例中,机器学习架构502可以包括生成式对抗网络(GAN)。在这些情况下,生成部件504可以包括生成器,并且挑战部件506可以包括鉴别器。挑战部件506可以生成指示由生成部件504产生的氨基酸序列是否满足各种特征的输出。在各种实现方式中,挑战部件506可以是鉴别器。在另外的情况下,例如在机器学习架构502包括Wasserstein GAN时,挑战部件506可以包括评价器。在另外的实现方式中,机器学习架构502可以包括条件生成式对抗网络(cGAN)。
在图5的说明性示例中,生成部件504可以获得输入数据508,并且生成部件504可以利用输入数据508和一个或更多个模型来产生生成序列510。输入数据508可以包括由随机数生成器产生的噪声或者由伪随机数生成器产生的噪声。生成序列510可以包括由一系列字母表示的氨基酸序列,其中每个字母指示位于蛋白质的相应位置处的氨基酸。在各种示例中,生成序列510可以表示蛋白质片段。在一个或更多个说明性示例中,生成序列510可以对应于抗体片段。
挑战部件506可以针对蛋白质序列数据512中包括的蛋白质序列对生成序列510进行分析。蛋白质序列数据512可以是针对机器学习架构502的训练数据。蛋白质序列数据512可以根据方案进行编码。蛋白质序列数据512可以包括从存储蛋白质的氨基酸序列的一个或更多个数据源中获得的蛋白质序列。一个或更多个数据源可以包括一个或更多个被搜索的网站,并且从一个或更多个网站中提取对应于目标蛋白质的氨基酸序列的信息。此外,一个或更多个数据源可以包括可以从中提取目标蛋白质的氨基酸序列的电子版本的研究文件。蛋白质序列数据512可以存储在机器学习架构502可访问的一个或更多个数据存储装置中。一个或更多个数据存储装置可以经由无线网络、有线网络或其组合连接至机器学习架构502。蛋白质序列数据512可以由机器学习架构502基于发送至数据存储装置以检索蛋白质序列数据512的一个或更多个部分的请求而获得。
在一个或更多个示例中,蛋白质序列数据512可以包括蛋白质片段的氨基酸序列。例如,蛋白质序列数据512可以包括抗体轻链或抗体重链中的至少一个的序列。此外,蛋白质序列数据512可以包括抗体轻链可变区、抗体重链可变区、抗体轻链恒定区、抗体重链恒定区、抗体铰链区或抗体的抗原结合位点中的至少一种的序列。在一个或更多个说明性示例中,蛋白质序列数据512可以包括抗体的互补性决定区(CDR)序列,例如CDR1、CDR2或CDR3中的至少一个。在一个或更多个另外的说明性示例中,蛋白质序列数据512可以包括T细胞受体片段的序列。为了说明,蛋白质序列数据512可以包括T细胞受体的抗原结合位点的序列,例如T细胞受体的一个或更多个CDR。
在被提供至挑战部件506之前,蛋白质序列数据512中包括的氨基酸序列可以经受数据预处理514。例如,可以在将蛋白质序列数据512提供至挑战部件506之前,根据分类系统来布置蛋白质序列数据512。数据预处理514可以包括将蛋白质序列数据512中的目标蛋白质中包括的氨基酸与可以表示蛋白质内基于结构的位置的数值进行配对。数值可以包括具有起点和终点的数字序列。在说明性示例中,T可以与数字43配对,指示苏氨酸分子位于指定的蛋白质域类型的基于结构的位置43处。在说明性示例中,基于结构的编号可以应用于任何一般蛋白质类型,例如纤连蛋白质III型(FNIII)蛋白质、亲和聚体(avimers)、抗体、VHH结构域、激酶、锌指等、T细胞受体等。
在各种实现方式中,由数据预处理516实现的分类系统可以包括编号系统,其对位于蛋白质的各个位置处的氨基酸的结构位置进行编码。以这种方式,可以根据结构特征排列具有不同数字氨基酸的蛋白质。例如,分类系统可以指定具有特定功能和/或特征的蛋白质的部分可以具有指定数字的位置。在各种情况下,并非分类系统中包括的所有位置都可以与氨基酸相关联,这是因为蛋白质的特定区域中的氨基酸的数字可以在蛋白质之间变化。在另外的示例中,蛋白质的结构可以反映在分类系统中。为了说明,不与相应氨基酸相关联的分类系统的位置可以指示蛋白质的各种结构特征,例如转角(turn)或环(loop)。在说明性示例中,用于抗体的分类系统可以指示重链区、轻链区和铰链区具有分配给它们的指定数字的位置,并且抗体的氨基酸可以根据分类系统被分配给所述位置。在一个或更多个实现方式中,数据预处理514可以使用抗体结构编号(ASN)对位于抗体的相应位置处的单个氨基酸进行分类。
由数据预处理514产生的输出可以包括编码序列516。编码序列516可以包括指示与蛋白质的各个位置相关联的氨基酸的矩阵。在示例中,编码序列516可以包括具有与不同氨基酸对应的列以及与蛋白质的基于结构的位置对应的行的矩阵。对于矩阵中的每个元素,0可以用于指示在相应位置处不存在氨基酸,以及1可以用于指示在相应位置处存在氨基酸。矩阵还可以包括附加列,该附加列表示氨基酸序列中在氨基酸序列的特定位置处没有氨基酸的间隙。因此,在一个位置表示氨基酸序列中的间隙的情况下,对于与不存在氨基酸的位置相关联的行,可以将1置于间隙列中。也可以根据与用于编码序列516的编号方案相同或相似的编号方案使用向量来表示生成序列510。在一些说明性示例中,可以使用可以被称为独热编码方法的方法对编码序列516和生成序列510进行编码。
在一个或更多个示例中,基于生成序列510与提供至挑战部件506的附加序列——例如蛋白质序列数据512中包括的氨基酸序列——之间的相似性和差异,挑战部件506可以生成分类输出518,该分类输出518用于指示生成序列510与提供至挑战部件506的蛋白质序列数据512中包括的序列之间的相似性量或差异量。在一个或更多个示例中,挑战部件506可以将生成序列510标记为零,并且将从蛋白质序列数据512中获得的编码序列标记为1。在这些情况下,分类输出518可以包括关于蛋白质序列数据512中包括的一个或更多个氨基酸序列的从0至1的第一数字。
在一个或更多个其他示例中,挑战部件506可以实现距离函数,该距离函数产生指示生成序列510与蛋白质序列数据512中包括的蛋白质序列之间的距离量的输出。在其中挑战部件506实现距离函数的实现方式中,分类输出518可以包括从-∞至∞的数字,该数字指示生成序列510与蛋白质序列数据512中包括的一个或更多个序列之间的距离。
用于训练机器学习架构502的数据可以影响由生成部件504产生的氨基酸序列。例如,在其中在提供至挑战部件506的蛋白质序列数据512中包括抗体的CDR的情况下,由生成部件504生成的氨基酸序列可以对应于抗体CDR的氨基酸序列。在另一示例中,在其中提供至挑战部件506的目标蛋白质序列数据512中包括的氨基酸序列对应于T细胞受体的CDR的情况下,由生成部件504产生的氨基酸序列可以对应于T细胞受体的CDR序列。
在机器学习架构502已经经历训练处理之后,可以生成可以产生蛋白质序列的经训练的模型518。在使用蛋白质序列数据512已经执行训练处理之后,经训练的模型518可以包括生成部件504。在一个或更多个说明性示例中,经训练的模型518包括卷积神经网络的多个权重和/或多个参数。用于机器学习架构502的训练处理可以在由生成部件504实现的函数和由挑战部件506实现的函数收敛之后完成。函数的收敛可以基于在由生成部件504生成蛋白质序列并且从挑战部件506获得反馈时模型参数值朝向特定值的移动。在各种实现方式中,当由生成部件504产生的蛋白质序列具有特定特征时,机器学习架构502的训练可以完成。例如,可以通过软件工具来分析由生成部件504生成的氨基酸序列,该软件工具能够确定氨基酸序列的生物物理特性、氨基酸序列的结构特征或者对与一个或更多个蛋白质种系对应的氨基酸序列的依从性中的至少一者。机器学习架构502可以在由生成部件504产生的氨基酸序列被软件工具确定为具有一个或更多个指定特征的情况下产生经训练的模型518。在一个或更多个实现方式中,经训练的模型518可以被包括在生成目标蛋白质序列的目标蛋白质系统520中。
可以将蛋白质序列输入522提供至经训练的模型518,并且经训练的模型518可以产生蛋白质片段序列524。蛋白质序列输入522可以包括输入向量,该输入向量可以包括一系列随机数或伪随机数。在一个或更多个说明性示例中,由经训练的模型518产生的蛋白质片段序列524可以表示为与用于表示编码序列516和/或生成序列510的矩阵结构相同或相似的矩阵结构。在各种实现方式中,可以对由经训练的模型518产生的包括蛋白质片段序列524的矩阵进行解码以产生对应于蛋白质片段序列的氨基酸串。蛋白质片段序列524可以包括纤连蛋白质III型(FNIII)蛋白质、亲和聚体(avimers)、VHH结构域、抗体、激酶、锌指、T细胞受体等的至少部分的序列。在一个或更多个说明性示例中,蛋白质片段序列524可以包括抗体片段的序列。例如,蛋白质片段序列524可以对应于一个或更多个抗体亚型的部分,例如免疫球蛋白质A(IgA)、免疫球蛋白质D(IgD)、免疫球蛋白质E(IgE)、免疫球蛋白质G(IgG)或免疫球蛋白质M(IgM)。在一个或更多个示例中,蛋白质片段序列524可以包括一个或更多个抗体轻链可变区、一个或更多个抗体重链可变区、一个或更多个抗体轻链恒定区、一个或更多个抗体重链恒定区或一个或更多个抗体铰链区中的至少一种的序列。此外,蛋白质片段序列524可以对应于结合抗原的附加蛋白质。在其他示例中,蛋白质片段序列524可以对应于参与蛋白质与蛋白质相互作用的氨基酸序列,例如具有结合至抗原的区或者结合至其他分子的区的蛋白质。
目标蛋白质系统520可以将一个或更多个蛋白质片段序列524与一个或更多个模板蛋白质序列526组合以产生一个或更多个目标蛋白质序列528。模板蛋白质序列526可以包括蛋白质的可以与蛋白质片段序列524组合的部分的氨基酸序列。例如,蛋白质片段序列524可以包括抗体轻链的可变区的氨基酸序列,并且模板蛋白质序列526可以包括抗体的剩余部分的氨基酸序列。为了说明,包括抗体轻链的恒定区的模板蛋白质序列526可以包括氨基酸序列。在这些情况下,目标蛋白质序列528可以包括抗体轻链的氨基酸序列。在一个或更多个另外的示例中,一个或更多个蛋白质片段序列524可以包括抗体轻链可变区的氨基酸序列和抗体重链可变区的氨基酸序列,以及一个或更多个模板序列526可以包括抗体轻链恒定区、抗体重链第一恒定区、抗体重链铰链区、抗体重链第二恒定区和抗体重链第三恒定区的氨基酸序列。在这些情况下,目标蛋白质序列528可以包括与抗体重链耦接的抗体轻链的氨基酸序列。
目标蛋白质系统520可以确定模板蛋白质序列526中一个或更多个缺失氨基酸的一个或更多个位置,并确定一个或更多个蛋白质片段序列524中包括的一个或更多个氨基酸,其可以用于提供一个或更多个缺失的氨基酸序列。在各种示例中,模板蛋白质序列526可以指示单个模板蛋白质序列526内缺失氨基酸的位置。在一个或更多个说明性示例中,经训练的模型518可以产生蛋白质片段序列524,其可以对应于一个或更多个抗体的抗原结合区的氨基酸序列。在这些情况下,目标蛋白质系统520可以确定模板蛋白质序列526缺少一个或更多个抗体的抗原结合区的至少一部分。目标蛋白质系统520然后可以提取蛋白质片段序列524中包括的对应于模板蛋白质序列526的抗原结合区的缺失氨基酸序列的氨基酸序列。目标蛋白质系统520可以组合从蛋白质片段序列524获得的氨基酸序列与模板蛋白质序列526以生成包括模板蛋白质序列526与由蛋白质片段序列524中的一个或更多个提供的抗原结合区的目标蛋白质序列528。
尽管在图5的说明性示例中未示出,但是可以针对目标蛋白质序列528进行附加处理。例如,可以对目标蛋白质序列528进行评估以确定目标蛋白质序列528是否具有指定的特征集合。为了说明,可以针对目标蛋白质序列528确定一个或更多个度量。例如,可以针对目标蛋白质序列528确定的度量可以与目标蛋白质序列528的特征相关,例如许多带负电荷的氨基酸、许多带正电荷的氨基酸、许多相互作用形成一个或更多个极性区的氨基酸、相互作用形成一个或更多个疏水区的氨基酸、它们的一个或更多个组合等。
在一个或更多个实现方式中,可以对目标蛋白质序列528进行序列过滤。序列过滤可以解析目标蛋白质序列528以识别与一个或更多个特征对应的目标蛋白质序列528中的一个或更多个。例如,可以对目标蛋白质序列528进行分析以识别在指定位置处具有指定氨基酸的氨基酸序列。还可以对目标蛋白质序列528中的一个或更多个进行过滤以识别具有一个或更多个特定氨基酸串或区的氨基酸序列。在各种实现方式中,可以对目标蛋白质序列528进行过滤以至少部分地基于目标蛋白质序列528中的至少一个与具有生物物理特性集合的附加蛋白质的氨基酸序列之间的相似性来识别与生物物理特性集合相关联的氨基酸序列。
机器学习架构502可以由一个或更多个计算设备530实现。一个或更多个计算设备530可以包括一个或更多个服务器计算设备、一个或更多个桌面计算设备、一个或更多个膝上型计算设备、一个或更多个平板计算设备、一个或更多个移动计算设备或它们的组合。在某些实现方式中,一个或更多个计算设备530中的至少一部分可以在分布式计算环境中实现。例如,一个或更多个计算设备530的至少一部分可以在云计算架构中实现。此外,尽管图5的说明性示例示出了包括具有单个生成部件和单个挑战部件的生成式对抗网络的机器学习架构530的实现方式,但在另外的实现方式中,机器学习架构502可以包括多个生成式对抗网络。此外,由机器学习架构502实现的每个生成式对抗网络可以包括一个或更多个生成部件和一个或更多个挑战部件。此外,尽管图5的说明性示例将机器学习架构502和目标蛋白质系统520示出为单独的实体,但是机器学习架构502和目标蛋白质系统520可以由一个或更多个计算设备530实现为单个系统。
图6是示出根据一些实现方式的用于使用模板蛋白质序列和位置修饰数据来产生目标蛋白质序列的示例方法600的流程图。方法600可以包括在操作602处获得指示具有功能区的模板蛋白质的氨基酸序列的第一数据。模板蛋白质的功能区可以包括使模板蛋白质与另一分子结合的氨基酸。在各种示例中,功能区可以具有对应于另一分子的形状和化学特性的形状。在说明性示例中,模板蛋白质可以包括抗体并且功能区可以包括结合至抗原的氨基酸。
在操作604处,方法600可以包括获得指示与具有一个或更多个指定特征的附加蛋白质对应的附加氨基酸序列的第二数据。一个或更多个指定特征可以对应于一个或更多个生物物理特性。一个或更多个指定特征也可以对应于可以包括在某些类型的蛋白质中的氨基酸序列。例如,一个或更多个指定特征可以对应于人抗体中包括的氨基酸序列。为了说明,一个或更多个指定特征可以对应于人抗体可变区的框架区中包括的氨基酸序列。此外,一个或更多个指定特征可以对应于由人抗体的一个或更多个种系基因产生的氨基酸序列。附加蛋白质可以关于模板蛋白质具有相似性,但在附加蛋白质中可能不存在模板蛋白质的功能区。例如,附加蛋白质可以对应于抗体,但抗体可能不与结合至模板蛋白质的功能区的抗原结合。在说明性实现方式中,模板蛋白质可以由第一哺乳动物产生,并且附加蛋白质可以对应于由第二哺乳动物例如人产生的抗体。在这些情况下,第二数据中包括的氨基酸序列可以包括人抗体的氨基酸序列。在各种实现方式中,第二数据可以用作生成式对抗网络的训练数据。
此外,在操作606处,方法600可以包括确定指示位于模板蛋白质的各个位置处的氨基酸是可修饰的概率的位置修饰数据。在一个或更多个说明性示例中,位置修饰数据可以指示用于修饰位于结合区中的氨基酸的第一概率不大于约5%以及用于修饰位于蛋白质的附加、非结合区中的一个或更多个部分中的氨基酸的第二概率为至少40%。位置修饰数据还可以包括用于改变模板蛋白质的氨基酸序列的氨基酸的惩罚。在各种示例中,位置修饰数据可以基于模板蛋白质的氨基酸序列位置处的氨基酸的类型。此外,位置修饰数据可以基于取代位于模板蛋白质的一个位置处的氨基酸的氨基酸类型。例如,位置修饰数据可以指示用于修饰具有一个或更多个疏水区的模板蛋白质的氨基酸的第一惩罚和用于修饰带正电荷的模板蛋白质的氨基酸的第二惩罚,第二惩罚与第一惩罚不同。此外,位置修饰数据可以指示用于将具有一个或更多个疏水区的模板蛋白质的氨基酸修饰为具有一个或更多个疏水区的另一氨基酸的第一惩罚,以及用于将具有一个或更多个疏水区的模板蛋白质的氨基酸修饰为带正电荷的氨基酸的第二惩罚,第二惩罚与第一惩罚不同。
此外,在操作608处,方法600可以包括生成作为模板蛋白质的氨基酸序列的变体并且具有一个或更多个指定特征的至少一部分的氨基酸序列。可以使用一个或更多个机器学习技术生成目标蛋白质的氨基酸序列。在各种示例中,变体蛋白质的氨基酸序列可以使用条件生成式对抗网络产生。
变体蛋白质的氨基酸序列可以具有与模板蛋白质的功能区对应的区,但具有不同于模板蛋白质的支撑支架或底层结构,例如一个或更多个框架区。例如,模板蛋白质可以是结合至抗原的抗体,而变体蛋白质可以包括具有与模板蛋白质的也结合至抗原的特征不同的一个或更多个特征的抗体,但是该变体蛋白质在没有首先被修饰的情况下否则将不会具有针对抗原的结合区。在说明性示例中,模板蛋白质可以包括人抗体,该人抗体包括结合至抗原的结合区,并且附加氨基酸序列可以包括具有一个或更多个与模板的生物物理特性不同的生物物理特性的并且不结合至抗原的人抗体。在使用附加氨基酸序列、模板蛋白质的氨基酸序列和位置修饰数据进行训练后,生成式对抗网络可以产生变体抗体的包括模板蛋白质的结合区,并且包括附加蛋白质的生物物理特性的至少一部分的氨基酸序列。
在另外的说明性示例中,模板蛋白质可以对应于由小鼠产生的抗体,该抗体包括结合至抗原的结合区。此外,附加氨基酸序列可以对应于不结合至抗原的人抗体。在使用附加氨基酸序列、模板蛋白质的氨基酸序列和位置修饰数据进行训练后,生成式对抗网络可以产生对应于人抗体的变体抗体的氨基酸序列,而不是对应于小鼠抗体的变体抗体的氨基酸序列,并且变体抗体的氨基酸序列包括模板抗体的结合区以结合至抗原。在各种示例中,生成式对抗网络可以修饰模板小鼠抗体可变区的框架区以对应于人抗体的框架区。此外,生成式对抗网络可以产生人抗体的变体氨基酸序列,使得小鼠抗体结合区的氨基酸序列存在于变体氨基酸序列中,并且使得结合区是稳定的并形成结合至抗原的形状。
图7是示出根据一些实现方式的用于使用生成式对抗网络基于模板蛋白质序列来产生目标蛋白质序列的示例方法700的流程图。在702处,方法700包括获得指示由非人类哺乳动物产生的模板抗体的氨基酸序列的第一数据,其中模板抗体结合抗原。模板抗体可以包括使模板抗体结合至抗原的功能区,例如CDR。
在操作704处,方法700包括获得指示对应于人抗体的多个氨基酸序列的第二数据。此外,在操作706处,方法700包括确定指示位于模板抗体位置处的氨基酸是可修饰的概率的位置修饰数据。位置修饰数据可以指示模板抗体的一些位置具有相对高的被修饰概率,而模板抗体的其他位置可以具有相对低的被修饰概率。具有相对高的被修饰概率的模板抗体的位置可以包括如果被修饰的话不太可能影响模板抗体的功能区的位置处的氨基酸。此外,具有相对低的被修饰概率的模板抗体的位置可以包括如果被修饰的话更可能影响模板抗体的功能区的位置处的氨基酸。在一个或更多个说明性示例中,位置修饰数据可以指示用于修饰位于抗原结合区中的氨基酸的第一概率不大于约5%,以及用于修饰位于抗体的一个或更多个重链框架区或一个或更多个轻链框架区中的至少一者的一个或更多个部分中的氨基酸的第二概率为至少40%。在各种示例中,位置修饰数据可以指示当生成式对抗网络正在生成目标抗体的氨基酸序列时,由生成式对抗网络对模板蛋白质的某些位置处的氨基酸的修饰所应用的惩罚。
在708处,方法700包括使用生成式对抗网络生成模型以产生对应于人抗体并且相对于模板抗体的结合区具有至少阈值量的同一性的氨基酸序列。此外,在710处,方法700包括使用所述模型基于位置修饰数据和模板抗体氨基酸序列生成目标氨基酸序列。在说明性示例中,由生成式对抗网络产生的氨基酸序列可以具有人抗体的支架或底层结构,同时具有对应于模板抗体的功能区的区。例如,氨基酸序列可以具有与人抗体具有至少阈值量的同一性的恒定区以及与模板抗体的功能区具有第二阈值量的同一性的附加区,例如CDR。
图8示出了根据示例实现方式的呈现计算机系统形式的机器800的图形表示,在该计算机系统内可以执行指令集以使机器800执行本文中所讨论的方法中的任何一个或更多个。具体地,图8以计算机系统的示例形式示出了机器800的图形表示,在该机器800中可以执行指令(例如,软件、程序、应用、小程序、app或其他可执行代码),以使机器800执行本文中所讨论的方法中的任何一个或更多个。例如,指令824可以使机器800实现分别关于图1、图2、图3、图4和图5所描述的框架100、200、300、400、500,并且执行分别关于图6和图7所描述的方法600、700。另外,机器900可以包括图1的计算设备144和/或图5的计算设备530中的一个或更多个,或者是其一部分。
指令824将通用的未编程的机器800转化成被编程的特定机器800,从而以所描述的方式执行所描述和所示出的功能。在另外的实现方式中,机器800作为独立设备操作或者可以耦接(例如,联网)至其他机器。在联网部署中,机器800可以以服务器-客户端网络环境中的服务器机器或客户端机器的能力进行操作,或者作为对等(或分布式)网络环境中的对等机器进行操作。机器800可以包括但不限于:服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本计算机、个人数字助理(PDA)、移动计算设备、可穿戴设备(例如,智能手表)、web电器、网络路由器、网络交换机、网络桥接器或者能够顺序地或以其他方式执行指定要由机器800采取的动作的指令824的任何机器。此外,虽然仅示出了单个机器800,但是术语“机器”应还被视为包括机器的集合,所述机器的集合单独地或共同地执行指令824以执行本文中所讨论的方法中的任何一个或更多个。
计算设备800的示例可以包括逻辑、一个或更多个部件、电路(例如,模块)或机构。电路是被配置成执行特定操作的有形实体。在示例中,可以按照指定的方式(例如,在内部或相对于诸如其他电路的外部实体)布置电路。在示例中,一个或更多个计算机系统(例如,单机、客户端或服务器计算机系统)或一个或更多个硬件处理器(处理器)可以由软件(例如,指令、应用部分或应用)配置为操作以执行如本文中所描述的操作的电路。软件可以驻留在(1)非暂态机器可读介质上或者在(2)传输信号中。在示例中,软件在被电路的底层硬件执行时使电路执行操作。
电路可以机械地或电子地实现。例如,电路可以包括被专门配置成执行如以上所讨论的一种或更多种技术的专用电路系统或逻辑,例如包括专用处理器、现场可编程门阵列(FPGA)或专用集成电路(ASIC)。在示例中,电路可以包括可编程逻辑(例如,包含在通用处理器或其他可编程处理器内的电路系统),该可编程逻辑可以(例如通过软件)被暂时配置成执行特定操作。将理解的是,可以通过成本和时间考虑来推动做出机械地(例如,在专用且被永久配置的电路系统中)实现电路或是在(例如通过软件配置的)暂时配置的电路系统中实现电路的决定。
因此,术语“电路”被理解为包括有形实体,该有形实体是被物理构造、永久配置(例如,硬连线)、或被临时(例如,暂时)配置(例如,被编程)成以指定方式进行操作或执行指定操作的实体。在示例中,给定多个临时配置的电路,电路中的每一个无需在任一时刻处均被配置或被实例化。例如,在电路包括经由软件配置的通用处理器的情况下,可以在不同时间将通用处理器配置为相应的不同电路。因此,软件可以将处理器配置成例如在一个时刻构成特定电路而在不同的时刻构成不同的电路。
在示例中,电路可以向其他电路提供信息以及从其他电路接收信息。在该示例中,电路可以被视为通信地耦接至一个或更多个其他电路。在同时存在多个这样的电路的情况下,可以通过连接这些电路的信号传输(例如,通过适当的电路和总线)来实现通信。在其中在不同时间配置或实例化多个电路的实施方式中,可以例如通过对多个电路可访问的存储器结构中的信息进行存储和检索来实现这些电路之间的通信。例如,一个电路可以执行操作并且将该操作的输出存储在与其通信耦接的存储器设备中。另外的电路然后可以在后面的时间处访问存储器设备以检索和处理所存储的输出。在各种示例中,电路还可以被配置成发起或接收与输入设备或输出设备的通信并且可以对资源(例如,信息集合)进行操作。
本文中描述的方法示例的各种操作可以至少部分地由被暂时配置(例如,通过软件)或永久配置成执行相关操作的一个或更多个处理器来执行。无论是暂时配置还是永久配置,这样的处理器都可以构成进行操作以执行一个或更多个操作或功能的处理器实现的电路。在示例中,本文中提到的电路可以包括处理器实现的电路。
类似地,本文中描述的方法可以至少部分地由处理器实现。例如,方法的至少一些操作可以由一个或多个处理器或处理器实现的电路来执行。某些操作的执行可以在一个或更多个处理器之中分配,不仅驻留在单个机器中,而且被部署在多个机器上。在示例中,一个或多个处理器可以位于单个位置(例如,在家庭环境、办公室环境内或作为服务器场),而在其他示例中,处理器可以跨多个位置分布。
一个或更多个处理器也可以操作成支持在“云计算”环境中执行相关操作或作为“软件即服务”,例如,操作中的至少一些操作可以由一组计算机(作为包括处理器的机器的示例)来执行,这些操作是经由网络(例如,因特网)以及经由一个或更多个合适接口(例如,应用程序接口(API))可访问的。
示例实施方式(例如,装置、系统或方法)可以被实现在数字电子电路系统、计算机硬件、固件、软件或其任何组合中。可以使用计算机程序产品(例如,有形地体现在信息载体中或机器可读介质中以供诸如可编程处理器、计算机、或多个计算机的数据处理装置执行或者用于控制数据处理装置的操作的计算机程序)来实现示例实施方式。
计算机程序可以以包括编译语言或解释语言的任何形式的编程语言来编写,并且计算机程序可以被以包括作为单机程序或作为软件模块、子例程或适于用于计算环境中的其他单元的任何形式部署。计算机程序可以被部署成在一个计算机上执行或者在多个计算机上执行,所述多个计算机处于一个位点处或者被分布成跨多个位点并且通过通信网络进行互连。
在示例中,操作可以由执行计算机程序的一个或更多个可编程处理器执行,以通过对输入数据进行操作并生成输出来执行功能。方法操作的示例也可以由专用逻辑电路系统(例如,现场可编程门阵列(FPGA)或专用集成电路(ASIC))来执行,并且示例装置可以被实现为专用逻辑电路系统(例如,现场可编程门阵列(FPGA)或专用集成电路(ASIC))。
计算机系统可以包括客户端和服务器。客户端与服务器通常彼此远离并且通常通过通信网络进行交互。客户端和服务器的关系借助于在各自计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在部署可编程计算系统的实施方式中,将理解的是,硬件架构和软件架构二者都需要考虑。具体地,将理解,在永久配置的硬件(例如,ASIC)中、在暂时配置的硬件(例如,软件和可编程处理器的组合)中、还是在永久配置和暂时配置的硬件的组合中实现特定功能的选择可以是设计选择。以下列出了可以在示例实施方式中部署的硬件(例如,计算设备700)和软件架构。
示例计算设备800可以包括处理器802(例如,中央处理单元(CPU)、图形处理单元(GPU)或两者)、主存储器804和静态存储器806,它们中的一些或全部可以经由总线808彼此通信。计算设备800还可以包括显示单元810、字母数字输入设备812(例如,键盘)和用户接口(UI)导航设备814(例如,鼠标)。在示例中,显示单元810、输入设备812和UI导航设备814可以是触摸屏显示器。计算设备800可以另外包括存储设备(例如,驱动单元)816、信号生成设备818(例如,扬声器)、网络接口设备820以及一个或更多个传感器821,例如全球定位系统(GPS)传感器、指南针、加速度计或其他传感器。
存储设备816可以包括机器可读介质822(在本文中也称为计算机可读介质),其上存储有实施本文中描述的方法或功能中的任何一个或更多个方法或功能或由其利用的一个或更多个数据结构或指令集824(例如,软件)。指令824还可以在计算设备800执行该指令期间完全地或至少部分地驻留在主存储器804内、静态存储器806内或处理器802内。在示例中,处理器802、主存储器804、静态存储器806或存储设备816中的一者或任何组合可以构成机器可读介质。
虽然机器可读介质822被示出为单个介质,但是术语“机器可读介质”可以包括被配置成存储一个或更多个指令824的单个介质或多个介质(例如,集中式或分布式数据库,和/或相关联的高速缓存和服务器)。术语“机器可读介质”还可以被采用以包括下述的任何有形介质,所述任何有形介质能够存储、编码或承载由机器执行的指令并且使机器执行本公开内容的方法中的任何一个或更多个,或者所述任何有形介质能够存储、编码或承载由这样的指令利用或与这样的指令相关联的数据结构。术语“机器可读介质”因此可以被采用以包括但不限于:固态存储器以及光学介质和磁性介质。机器可读介质的具体示例可以包括非易失性存储器,例如包括半导体存储器设备(例如,电可编程只读存储器
(EPROM)、电可擦除可编程只读存储器(EEPROM))和闪存设备;磁盘,例如内部硬盘和可移动磁盘;磁光盘;以及CD-ROM和DVD-ROM盘。
还可以使用传输介质经由网络接口设备820利用多种传输协议中的任何一种(例如,帧中继、IP、TCP、UDP、HTTP等)通过通信网络826发送或接收指令824。示例通信网络可以包括局域网(LAN)、广域网(WAN)、分组数据网络(例如,因特网)、移动电话网络(例如,蜂窝网络)、普通老式电话(POTS)网络以及无线数据网络(例如,称为
Figure BDA0003688567430000371
的IEEE 802.11标准系列、称为
Figure BDA0003688567430000381
的IEEE 802.16标准系列)、对等(P2P)网络等。术语“传输介质”应当被认为包括能够存储、编码或承载用于由机器执行的指令的任意无形介质,并且包括数字或模拟通信信号或其他无形介质以促进这样的软件的通信。
示例实现方式
实现方式1.一种方法,包括:通过包括具有一个或更多个处理器和存储器的一个或更多个计算设备的计算系统获得指示模板蛋白质的第一氨基酸序列的第一数据,所述模板蛋白质包括结合至附加分子或与所述附加分子发生化学反应的功能区;通过所述计算系统获得指示与具有一个或更多个指定特征的附加蛋白质对应的第二氨基酸序列的第二数据;通过所述计算系统获得位置修饰数据,针对所述第一氨基酸序列的各个位置,所述位置修饰数据指示位于所述第一氨基酸序列的各个位置处的氨基酸是可修饰的概率;通过所述计算系统并使用生成式对抗网络生成对应于所述附加蛋白质的多个第三氨基酸序列,所述多个第三氨基酸序列是所述模板蛋白质的所述第一氨基酸序列的变体,其中,所述多个第三氨基酸序列是基于所述第一数据、所述第二数据和所述位置修饰数据生成的。
实现方式2.根据实现方式1所述的方法,其中,所述多个第三氨基酸序列中的各个第三氨基酸序列包括相对于所述功能区具有至少阈值量的同一性的一个或更多个区。
实现方式3.根据实现方式1或2所述的方法,其中,所述第一氨基酸序列包括针对第一种系基因产生的一个或更多个第一组氨基酸,并且所述多个第三氨基酸序列包括针对不同于所述第一种系基因的第二种系基因产生的一个或更多个第二组氨基酸。
实现方式4.根据实现方式3所述的方法,其中,所述一个或更多个第二组氨基酸包括在所述第二氨基酸序列的至少一部分中。
实现方式5.根据实现方式1至4中任一项所述的方法,其中,所述一个或更多个指定特征包括一个或更多个生物物理特性的值。
实现方式6.根据实现方式1至5中任一项所述的方法,其中:所述模板蛋白质为第一抗体;所述附加蛋白质包括第二抗体;以及所述一个或更多个指定特征包括所述第二氨基酸序列的一个或更多个框架区中包括的一个或更多个氨基酸序列。
实现方式7.根据实现方式1至6中任一项所述的方法,其中,所述模板蛋白质由非人的哺乳动物产生,并且所述附加蛋白质对应于由人产生的蛋白质。
实现方式8.根据实现方式1至7中任一项所述的方法,包括:通过所述计算系统使用所述生成式对抗网络并基于所述第一数据、所述第二数据和所述位置修饰数据来训练第一模型;通过所述计算系统获得指示具有生物物理特性集合的蛋白质的附加氨基酸序列的第三数据;通过所述计算系统并使用所述第一模型作为所述生成式对抗网络的生成部件,基于所述第三数据训练第二模型;以及通过所述计算系统并使用所述第二模型生成多个第四氨基酸序列,所述多个第四氨基酸序列对应于作为所述模板蛋白质的变体并且具有至少阈值概率的具有所述生物物理特性集合中的一个或更多个生物物理特性的蛋白质。
实现方式9.一种方法,包括:通过包括具有一个或更多个处理器和存储器的一个或更多个计算设备的计算系统获得指示由不同于人的哺乳动物产生的抗体的第一氨基酸序列的第一数据,所述抗体具有结合至抗原的结合区;通过所述计算系统获得指示多个第二氨基酸序列的第二数据,其中,多个氨基酸序列中的各个第二氨基酸序列对应于人抗体;通过所述计算系统获得位置修饰数据,针对所述第一氨基酸序列的各个位置,所述位置修饰数据指示位于所述第一氨基酸序列的各个位置处的氨基酸是可修饰的概率;通过所述计算系统并使用生成式对抗网络生成模型以产生氨基酸序列,所述氨基酸序列相对于所述结合区具有至少第一阈值量的同一性以及相对于所述多个第二氨基酸序列的一个或更多个重链框架区和一个或更多个轻链框架区具有至少第二阈值量的同一性;以及通过所述计算系统使用所述模型基于所述位置修饰数据和所述第一氨基酸序列生成多个第三氨基酸序列。
实现方式10.根据实现方式9所述的方法,其中,所述位置修饰数据指示用于修饰位于所述结合区中的氨基酸的第一概率不大于约5%,以及用于修饰位于所述抗体的所述一个或更多个重链框架区或者所述一个或更多个轻链框架区中的至少一者的一个或更多个部分中的氨基酸的第二概率为至少40%。
实现方式11.根据实现方式9或10所述的方法,其中,所述位置修饰数据指示针对生成所述多个第三氨基酸序列而应用于对所述抗体的氨基酸的修饰的惩罚。
实现方式12.根据实现方式11所述的方法,其中,所述位置修饰数据指示位于所述抗体的所述第一氨基酸序列的第一位置处的氨基酸具有用于被改变为第一类型氨基酸的第一惩罚以及用于被改变为第二类型氨基酸的第二惩罚。
实现方式13.根据实现方式12所述的方法,其中,所述氨基酸具有一个或更多个疏水区,所述第一类型氨基酸对应于疏水性氨基酸,以及所述第二类型氨基酸对应于带正电荷的氨基酸。
实现方式14.一种系统,包括:一个或更多个硬件处理器;一个或更多个存储指令的非暂态计算机可读存储介质,所述指令在由所述一个或更多个硬件处理器执行时,使所述一个或更多个硬件处理器执行操作,所述操作包括:获得指示模板蛋白质的第一氨基酸序列的第一数据,所述模板蛋白质包括结合至附加分子或与所述附加分子发生化学反应的功能区;获得指示与具有一个或更多个指定特征的附加蛋白质对应的第二氨基酸序列的第二数据;获得位置修饰数据,针对所述第一氨基酸序列的各个位置,所述位置修饰数据指示位于所述第一氨基酸序列的各个位置处的氨基酸是可修饰的概率;使用生成式对抗网络生成对应于所述附加蛋白质的多个第三氨基酸序列,所述多个第三氨基酸序列是所述模板蛋白质的所述第一氨基酸序列的变体,其中,所述多个第三氨基酸序列是基于所述第一数据、所述第二数据和所述位置修饰数据生成的。
实现方式15.根据实现方式14所述的系统,其中,所述多个第三氨基酸序列中的各个第三氨基酸序列包括相对于所述功能区具有至少阈值量的同一性的一个或更多个区。
实现方式16.根据实现方式14或15所述的系统,其中,所述第一氨基酸序列包括针对第一种系基因产生的一个或更多个第一组氨基酸,并且所述多个第三氨基酸序列包括针对不同于所述第一种系基因的第二种系基因产生的一个或更多个第二组氨基酸。
实现方式17.根据实现方式16所述的系统,其中,所述一个或更多个第二组氨基酸包括在所述第二氨基酸序列的至少一部分中。
实现方式18.根据实现方式14至17中任一项所述的系统,其中,所述一个或更多个指定特征包括一个或更多个生物物理特性的值。
实现方式19.根据实现方式14至18中任一项所述的系统,其中:所述模板蛋白质为第一抗体;所述附加蛋白质包括第二抗体;以及所述一个或更多个指定特征包括所述第二氨基酸序列的一个或更多个框架区中包括的一个或更多个氨基酸序列。
实现方式20.根据实现方式14至19中任一项所述的系统,其中,所述模板蛋白质由非人的哺乳动物产生,并且所述附加蛋白质对应于由人产生的蛋白质。
实现方式21.根据实现方式14至20中任一项所述的系统,其中,所述一个或更多个非暂态计算机可读存储介质存储附加指令,所述附加指令在由所述一个或更多个硬件处理器执行时使所述一个或更多个硬件处理器执行附加操作,所述附加操作包括:使用所述生成式对抗网络并基于所述第一数据、所述第二数据和所述位置修饰数据来训练第一模型;获得指示具有生物物理特性集合的蛋白质的附加氨基酸序列的第三数据;使用所述第一模型作为所述生成式对抗网络的生成部件,基于所述第三数据训练第二模型;以及使用所述第二模型生成多个第四氨基酸序列,所述多个第四氨基酸序列对应于作为所述模板蛋白质的变体并且具有至少阈值概率的具有所述生物物理特性集合中的一个或更多个生物物理特性的蛋白质。
实现方式22.一种系统,包括:一个或更多个硬件处理器;一个或更多个存储指令的非暂态计算机可读存储介质,所述指令在由所述一个或更多个硬件处理器执行时,使所述一个或更多个硬件处理器执行操作,所述操作包括:获得指示由不同于人的哺乳动物产生的抗体的第一氨基酸序列的第一数据,所述抗体具有结合至抗原的结合区;获得指示多个第二氨基酸序列的第二数据,其中,多个氨基酸序列中的各个第二氨基酸序列对应于人抗体;获得位置修饰数据,针对所述第一氨基酸序列的各个位置,所述位置修饰数据指示位于所述第一氨基酸序列的各个位置处的氨基酸是可修饰的概率;使用生成式对抗网络生成模型以产生氨基酸序列,所述氨基酸序列相对于所述结合区具有至少第一阈值量的同一性以及相对于所述多个第二氨基酸序列的一个或更多个重链框架区和一个或更多个轻链框架区具有至少第二阈值量的同一性;以及使用所述模型基于所述位置修饰数据和所述第一氨基酸序列生成多个第三氨基酸序列。
实现方式23.根据实现方式22所述的系统,其中,所述位置修饰数据指示用于修饰位于所述结合区中的氨基酸的第一概率不大于约5%,以及用于修饰位于所述抗体的所述一个或更多个重链框架区或者所述一个或更多个轻链框架区中的至少一者的一个或更多个部分中的氨基酸的第二概率为至少40%。
实现方式24.根据实现方式22或23所述的系统,其中,所述位置修饰数据指示针对生成所述多个第三氨基酸序列而应用于对所述抗体的氨基酸的修饰的惩罚。
实现方式25.根据实现方式24所述的系统,其中,所述位置修饰数据指示位于所述抗体的所述第一氨基酸序列的第一位置处的氨基酸具有用于被改变为第一类型氨基酸的第一惩罚以及用于被改变为第二类型氨基酸的第二惩罚。
实现方式26.根据实现方式25所述的系统,其中,所述氨基酸具有一个或更多个疏水区,所述第一类型氨基酸对应于疏水性氨基酸,以及所述第二类型氨基酸对应于带正电荷的氨基酸。

Claims (20)

1.一种系统,包括:
一个或更多个硬件处理器;
一个或更多个存储指令的非暂态计算机可读存储介质,所述指令在由所述一个或更多个硬件处理器执行时,使所述一个或更多个硬件处理器执行操作,所述操作包括:
获得指示由不同于人的哺乳动物产生的抗体的第一氨基酸序列的第一数据,所述抗体具有结合至抗原的结合区;
获得指示多个第二氨基酸序列的第二数据,其中,多个氨基酸序列中的各个第二氨基酸序列对应于人抗体;
确定位置修饰数据,针对所述第一氨基酸序列的各个位置,所述位置修饰数据指示位于所述第一氨基酸序列的各个位置处的氨基酸是可修饰的概率;
使用生成式对抗网络生成模型以产生氨基酸序列,所述氨基酸序列相对于所述结合区具有至少第一阈值量的同一性以及相对于所述多个第二氨基酸序列的一个或更多个重链框架区和一个或更多个轻链框架区具有至少第二阈值量的同一性;以及
使用所述模型基于所述位置修饰数据和所述第一氨基酸序列生成多个第三氨基酸序列。
2.根据权利要求1所述的系统,其中,所述位置修饰数据指示用于修饰位于所述结合区中的氨基酸的第一概率不大于约5%,以及用于修饰位于所述抗体的所述一个或更多个重链框架区或者所述一个或更多个轻链框架区中的至少一者的一个或更多个部分中的氨基酸的第二概率为至少40%。
3.根据权利要求1或2所述的系统,其中,所述位置修饰数据指示针对生成所述多个第三氨基酸序列而应用于对所述抗体的氨基酸的修饰的惩罚。
4.根据权利要求3所述的系统,其中,所述位置修饰数据指示位于所述抗体的所述第一氨基酸序列的第一位置处的氨基酸具有用于被改变为第一类型氨基酸的第一惩罚以及用于被改变为第二类型氨基酸的第二惩罚。
5.根据权利要求4所述的系统,其中,所述氨基酸具有一个或更多个疏水区,所述第一类型氨基酸对应于疏水性氨基酸,以及所述第二类型氨基酸对应于带正电荷的氨基酸。
6.根据权利要求1所述的系统,其中,所述一个或更多个非暂态计算机可读存储介质存储附加指令,所述附加指令在由所述一个或更多个硬件处理器执行时使所述一个或更多个硬件处理器执行附加操作,所述附加操作包括:
执行训练处理以产生所述模型,所述训练处理包括:
通过所述生成式对抗网络的生成部件,使用模板蛋白质的氨基酸序列和所述位置修饰数据产生第一氨基酸序列;
通过所述生成式对抗网络的挑战部件相对于目标蛋白质的氨基酸序列对所述第一氨基酸序列进行分析以确定提供至所述生成部件的分类输出,所述分类输入指示各个第一氨基酸序列与各个第二氨基酸序列之间的差异量;以及
基于使所述各个第一氨基酸序列与所述各个第二氨基酸序列之间的差异量最小化来确定所述模型的参数或系数中的至少一个。
7.根据权利要求6所述的系统,其中,所述一个或更多个非暂态计算机可读存储介质存储附加指令,所述附加指令在由所述一个或多个硬件处理器执行时使所述一个或更多个硬件处理器执行附加操作,所述附加操作包括:
获得指示具有生物物理特性集合的蛋白质的附加氨基酸序列的附加数据;
使用所述模型执行附加模型的附加训练处理作为所述生成式对抗网络的附加生成部件,所述附加训练处理包括:
通过所述附加生成部件使用输入数据产生第三氨基酸序列;
通过所述生成式对抗网络的附加挑战部件相对于所述附加氨基酸序列对所述第三氨基酸序列进行分析以确定提供至所述附加生成部件的附加分类输出,所述附加分类输入指示各个第三氨基酸序列与各个附加氨基酸序列之间的差异量;以及
基于使所述各个第三氨基酸序列与所述各个附加氨基酸序列之间的差异量最小化来确定所述附加模型的参数或系数中的至少一个。
8.一种方法,包括:
通过包括具有一个或更多个处理器和存储器的一个或更多个计算设备的计算系统获得指示模板蛋白质的第一氨基酸序列的第一数据,所述模板蛋白质包括结合至附加分子或与所述附加分子发生化学反应的功能区;
通过所述计算系统获得指示与具有一个或更多个指定特征的附加蛋白质对应的第二氨基酸序列的第二数据;
通过所述计算系统确定位置修饰数据,针对所述第一氨基酸序列的各个位置,所述位置修饰数据指示位于所述第一氨基酸序列的各个位置处的氨基酸是可修饰的概率;以及
通过所述计算系统并使用生成式对抗网络生成对应于所述附加蛋白质的多个第三氨基酸序列,所述多个第三氨基酸序列是所述模板蛋白质的所述第一氨基酸序列的变体,其中,所述多个第三氨基酸序列是基于所述第一数据、所述第二数据和所述位置修饰数据生成的。
9.根据权利要求8所述的方法,其中,所述多个第三氨基酸序列中的各个第三氨基酸序列包括相对于所述功能区具有至少阈值量的同一性的一个或更多个区。
10.根据权利要求8或9所述的方法,其中,所述第一氨基酸序列包括针对第一种系基因产生的一个或更多个第一组氨基酸,并且所述多个第三氨基酸序列包括针对不同于所述第一种系基因的第二种系基因产生的一个或更多个第二组氨基酸。
11.根据权利要求10所述的方法,其中,所述一个或更多个第二组氨基酸包括在所述第二氨基酸序列的至少一部分中。
12.根据权利要求8所述的方法,其中,所述一个或更多个指定特征包括一个或更多个生物物理特性的值。
13.根据权利要求8所述的方法,其中:
所述模板蛋白质为第一抗体;
所述附加蛋白质包括第二抗体;以及
所述一个或更多个指定特征包括所述第二氨基酸序列的一个或更多个框架区中包括的一个或更多个氨基酸序列。
14.根据权利要求8所述的方法,其中,所述模板蛋白质由非人的哺乳动物产生,并且所述附加蛋白质对应于由人产生的蛋白质。
15.根据权利要求8所述的方法,包括:
通过所述计算系统使用所述生成式对抗网络并基于所述第一数据、所述第二数据和所述位置修饰数据来训练第一模型;
通过所述计算系统获得指示具有生物物理特性集合的蛋白质的附加氨基酸序列的第三数据;
通过所述计算系统并使用所述第一模型作为所述生成式对抗网络的生成部件,基于所述第三数据训练第二模型;以及
通过所述计算系统并使用所述第二模型生成多个第四氨基酸序列,所述多个第四氨基酸序列对应于作为所述模板蛋白质的变体并且具有至少阈值概率的具有所述生物物理特性集合中的一个或更多个生物物理特性的蛋白质。
16.一种方法,包括:
通过包括具有一个或更多个处理器和存储器的一个或更多个计算设备的计算系统获得指示由不同于人的哺乳动物产生的抗体的第一氨基酸序列的第一数据,所述抗体具有结合至抗原的结合区;
通过所述计算系统获得指示多个第二氨基酸序列的第二数据,其中,多个氨基酸序列中的各个第二氨基酸序列对应于人抗体;
通过所述计算系统确定位置修饰数据,针对所述第一氨基酸序列的各个位置,所述位置修饰数据指示位于所述第一氨基酸序列的各个位置处的氨基酸是可修饰的概率;
通过所述计算系统并使用生成式对抗网络生成模型以产生氨基酸序列,所述氨基酸序列相对于所述结合区具有至少第一阈值量的同一性以及相对于所述多个第二氨基酸序列的一个或更多个重链框架区和一个或更多个轻链框架区具有至少第二阈值量的同一性;以及
通过所述计算系统使用所述模型基于所述位置修饰数据和所述第一氨基酸序列生成多个第三氨基酸序列。
17.根据权利要求16所述的方法,其中,所述位置修饰数据指示用于修饰位于所述结合区中的氨基酸的第一概率不大于约5%,以及用于修饰位于所述抗体的所述一个或更多个重链框架区或者所述一个或更多个轻链框架区中的至少一者的一个或更多个部分中的氨基酸的第二概率为至少40%。
18.根据权利要求16或17所述的方法,其中,所述位置修饰数据指示针对生成所述多个第三氨基酸序列而应用于对所述抗体的氨基酸的修饰的惩罚。
19.根据权利要求18所述的方法,其中,所述位置修饰数据指示位于所述抗体的所述第一氨基酸序列的第一位置处的氨基酸具有用于被改变为第一类型氨基酸的第一惩罚以及用于被改变为第二类型氨基酸的第二惩罚。
20.根据权利要求19所述的方法,其中,所述氨基酸具有一个或更多个疏水区,所述第一类型氨基酸对应于疏水性氨基酸,以及所述第二类型氨基酸对应于带正电荷的氨基酸。
CN202080085809.2A 2019-12-12 2020-12-11 使用机器学习技术基于模板蛋白质序列来生成蛋白质序列 Pending CN115280417A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962947430P 2019-12-12 2019-12-12
US62/947,430 2019-12-12
PCT/US2020/064579 WO2021119472A1 (en) 2019-12-12 2020-12-11 Generating protein sequences using machine learning techniques based on template protein sequences

Publications (1)

Publication Number Publication Date
CN115280417A true CN115280417A (zh) 2022-11-01

Family

ID=76330599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080085809.2A Pending CN115280417A (zh) 2019-12-12 2020-12-11 使用机器学习技术基于模板蛋白质序列来生成蛋白质序列

Country Status (8)

Country Link
US (1) US20230005567A1 (zh)
EP (1) EP4073806A4 (zh)
JP (1) JP7419534B2 (zh)
KR (1) KR20220128353A (zh)
CN (1) CN115280417A (zh)
AU (1) AU2020403134B2 (zh)
CA (1) CA3161035A1 (zh)
WO (1) WO2021119472A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117174177A (zh) * 2023-06-25 2023-12-05 北京百度网讯科技有限公司 蛋白质序列生成模型的训练方法、装置及电子设备

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023164297A1 (en) * 2022-02-28 2023-08-31 Genentech, Inc. Protein design with segment preservation
CN115512763B (zh) * 2022-09-06 2023-10-24 北京百度网讯科技有限公司 多肽序列的生成方法、多肽生成模型的训练方法和装置
WO2024076641A1 (en) * 2022-10-06 2024-04-11 Just-Evotec Biologics, Inc. Machine learning architecture to generate protein sequences

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3167395B1 (en) 2014-07-07 2020-09-02 Yeda Research and Development Co., Ltd. Method of computational protein design
US20190259474A1 (en) * 2018-02-17 2019-08-22 Regeneron Pharmaceuticals, Inc. Gan-cnn for mhc peptide binding prediction
WO2019165411A1 (en) 2018-02-26 2019-08-29 Just Biotherapeutics, Inc. Determining impact on properties of proteins based on amino acid sequence modifications
NZ782696A (en) * 2019-05-19 2023-01-27 Just Evotec Biologics Inc Generation of protein sequences using machine learning techniques

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117174177A (zh) * 2023-06-25 2023-12-05 北京百度网讯科技有限公司 蛋白质序列生成模型的训练方法、装置及电子设备

Also Published As

Publication number Publication date
US20230005567A1 (en) 2023-01-05
KR20220128353A (ko) 2022-09-20
EP4073806A4 (en) 2023-01-18
JP7419534B2 (ja) 2024-01-22
EP4073806A1 (en) 2022-10-19
AU2020403134A1 (en) 2022-06-30
WO2021119472A1 (en) 2021-06-17
CA3161035A1 (en) 2021-06-17
JP2023505859A (ja) 2023-02-13
AU2020403134B2 (en) 2024-01-04

Similar Documents

Publication Publication Date Title
AU2020403134B2 (en) Generating protein sequences using machine learning techniques based on template protein sequences
Prihoda et al. BioPhi: A platform for antibody design, humanization, and humanness evaluation based on natural antibody repertoires and deep learning
CN114303201B (zh) 使用机器学习技术生成蛋白质序列
JP2021515234A (ja) 薬物発見および分子シミュレーションへの適用を伴う空間グラフ畳み込みのためのシステムおよび方法
Lim et al. Predicting antibody binders and generating synthetic antibodies using deep learning
EP3982369A1 (en) Information processing system, information processing method, program, and method for producing antigen-binding molecule or protein
Khan et al. Antbo: Towards real-world automated antibody design with combinatorial bayesian optimisation
Chungyoun et al. AI models for protein design are driving antibody engineering
JP7236253B2 (ja) 情報処理方法および学習モデル
Frisby et al. Identifying promising sequences for protein engineering using a deep transformer protein language model
Giulini et al. Towards the accurate modelling of antibody-antigen complexes from sequence using machine learning and information-driven docking
US11948664B2 (en) Autoencoder with generative adversarial network to generate protein sequences
JP2024512197A (ja) マスクされたタンパク質表現からの完全なタンパク質表現の予測
Peng et al. AbFold--an AlphaFold Based Transfer Learning Model for Accurate Antibody Structure Prediction
US20230253067A1 (en) Implementing a generative machine learning architecture to produce training data for a classification model
WO2023034865A2 (en) Residual artificial neural network to generate protein sequences
Bashour et al. Biophysical cartography of the native and human-engineered antibody landscapes quantifies the plasticity of antibody developability
Clark et al. Enhancing antibody affinity through experimental sampling of non-deleterious CDR mutations predicted by machine learning
Clark et al. Machine Learning-Guided Antibody Engineering That Leverages Domain Knowledge To Overcome The Small Data Problem
Newton et al. Deep Learning Methods for Urban Analysis and Health Estimation of Obesity
US20240053358A1 (en) Method for antibody identification from protein mixtures
WO2024076641A1 (en) Machine learning architecture to generate protein sequences
WO2024088381A1 (zh) 人源化抗体序列评估模型的构建方法及其应用
Xiang et al. Integrative proteomics reveals exceptional diversity and versatility of mammalian humoral immunity
Badkul et al. TrustAffinity: accurate, reliable and scalable out-of-distribution protein-ligand binding affinity prediction using trustworthy deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination