CN114303201B - 使用机器学习技术生成蛋白质序列 - Google Patents
使用机器学习技术生成蛋白质序列 Download PDFInfo
- Publication number
- CN114303201B CN114303201B CN202080045620.0A CN202080045620A CN114303201B CN 114303201 B CN114303201 B CN 114303201B CN 202080045620 A CN202080045620 A CN 202080045620A CN 114303201 B CN114303201 B CN 114303201B
- Authority
- CN
- China
- Prior art keywords
- amino acid
- sequence
- acid sequence
- antibody
- additional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims description 445
- 102000004169 proteins and genes Human genes 0.000 title claims description 424
- 238000000034 method Methods 0.000 title claims description 176
- 238000010801 machine learning Methods 0.000 title claims description 64
- 125000003275 alpha amino acid group Chemical group 0.000 claims abstract description 800
- 238000012549 training Methods 0.000 claims abstract description 251
- 150000001413 amino acids Chemical class 0.000 claims abstract description 179
- 230000006870 function Effects 0.000 claims description 81
- 230000003042 antagnostic effect Effects 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 15
- 238000004220 aggregation Methods 0.000 claims description 14
- 230000002209 hydrophobic effect Effects 0.000 claims description 12
- 238000002844 melting Methods 0.000 claims description 9
- 230000008018 melting Effects 0.000 claims description 9
- 108010047041 Complementarity Determining Regions Proteins 0.000 abstract description 42
- 108700018351 Major Histocompatibility Complex Proteins 0.000 abstract description 7
- 230000020382 suppression by virus of host antigen processing and presentation of peptide antigen via MHC class I Effects 0.000 abstract description 7
- 230000000875 corresponding effect Effects 0.000 description 160
- 239000000427 antigen Substances 0.000 description 87
- 108091007433 antigens Proteins 0.000 description 86
- 102000036639 antigens Human genes 0.000 description 86
- 210000004602 germ cell Anatomy 0.000 description 59
- 230000003993 interaction Effects 0.000 description 49
- 239000011159 matrix material Substances 0.000 description 44
- 210000004027 cell Anatomy 0.000 description 43
- 239000013598 vector Substances 0.000 description 38
- 230000008569 process Effects 0.000 description 34
- 238000007781 pre-processing Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 28
- 238000011156 evaluation Methods 0.000 description 28
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 22
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 22
- 239000000203 mixture Substances 0.000 description 21
- 230000009830 antibody antigen interaction Effects 0.000 description 20
- 239000002609 medium Substances 0.000 description 20
- 238000013459 approach Methods 0.000 description 16
- 230000005847 immunogenicity Effects 0.000 description 16
- 230000001225 therapeutic effect Effects 0.000 description 16
- 238000004519 manufacturing process Methods 0.000 description 15
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 12
- 238000009826 distribution Methods 0.000 description 12
- 238000001914 filtration Methods 0.000 description 12
- 108091008874 T cell receptors Proteins 0.000 description 11
- 102000016266 T-Cell Antigen Receptors Human genes 0.000 description 11
- 230000001617 migratory effect Effects 0.000 description 11
- 108060003951 Immunoglobulin Proteins 0.000 description 10
- 102000018358 immunoglobulin Human genes 0.000 description 10
- 229940027941 immunoglobulin g Drugs 0.000 description 10
- 108090000765 processed proteins & peptides Proteins 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 230000006854 communication Effects 0.000 description 9
- 238000013461 design Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000000717 retained effect Effects 0.000 description 9
- 101100112922 Candida albicans CDR3 gene Proteins 0.000 description 8
- 101001100327 Homo sapiens RNA-binding protein 45 Proteins 0.000 description 8
- 102100038823 RNA-binding protein 45 Human genes 0.000 description 8
- 230000002776 aggregation Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 8
- 238000010494 dissociation reaction Methods 0.000 description 8
- 230000005593 dissociations Effects 0.000 description 8
- 238000011160 research Methods 0.000 description 8
- 108020004414 DNA Proteins 0.000 description 7
- 108700022150 Designed Ankyrin Repeat Proteins Proteins 0.000 description 7
- 238000002965 ELISA Methods 0.000 description 7
- 238000003556 assay Methods 0.000 description 7
- 125000004429 atom Chemical group 0.000 description 7
- 238000011161 development Methods 0.000 description 7
- 201000010099 disease Diseases 0.000 description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 7
- 125000000524 functional group Chemical group 0.000 description 7
- 229940099472 immunoglobulin a Drugs 0.000 description 7
- 230000005012 migration Effects 0.000 description 7
- 238000013508 migration Methods 0.000 description 7
- 238000000513 principal component analysis Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 108700028369 Alleles Proteins 0.000 description 6
- 102000002090 Fibronectin type III Human genes 0.000 description 6
- 108050009401 Fibronectin type III Proteins 0.000 description 6
- 108091000080 Phosphotransferase Proteins 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 102000020233 phosphotransferase Human genes 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 6
- 239000011780 sodium chloride Substances 0.000 description 6
- 108010032595 Antibody Binding Sites Proteins 0.000 description 5
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 5
- 101001037139 Homo sapiens Immunoglobulin heavy variable 3-30 Proteins 0.000 description 5
- 108010021625 Immunoglobulin Fragments Proteins 0.000 description 5
- 102000008394 Immunoglobulin Fragments Human genes 0.000 description 5
- 102100040219 Immunoglobulin heavy variable 3-30 Human genes 0.000 description 5
- 239000002202 Polyethylene glycol Substances 0.000 description 5
- 210000003719 b-lymphocyte Anatomy 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 239000008103 glucose Substances 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000035772 mutation Effects 0.000 description 5
- 239000002105 nanoparticle Substances 0.000 description 5
- 229920001223 polyethylene glycol Polymers 0.000 description 5
- 238000001542 size-exclusion chromatography Methods 0.000 description 5
- 241001112695 Clostridiales Species 0.000 description 4
- 241000588724 Escherichia coli Species 0.000 description 4
- 101001047619 Homo sapiens Immunoglobulin kappa variable 3-20 Proteins 0.000 description 4
- 102100022964 Immunoglobulin kappa variable 3-20 Human genes 0.000 description 4
- 108091054438 MHC class II family Proteins 0.000 description 4
- 108010033276 Peptide Fragments Proteins 0.000 description 4
- 102000007079 Peptide Fragments Human genes 0.000 description 4
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Natural products CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 description 4
- 239000004473 Threonine Substances 0.000 description 4
- 229940124691 antibody therapeutics Drugs 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 229960003669 carbenicillin Drugs 0.000 description 4
- FPPNZSSZRUTDAP-UWFZAAFLSA-N carbenicillin Chemical compound N([C@H]1[C@H]2SC([C@@H](N2C1=O)C(O)=O)(C)C)C(=O)C(C(O)=O)C1=CC=CC=C1 FPPNZSSZRUTDAP-UWFZAAFLSA-N 0.000 description 4
- 125000004432 carbon atom Chemical group C* 0.000 description 4
- 238000010367 cloning Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 238000009472 formulation Methods 0.000 description 4
- 108020001507 fusion proteins Proteins 0.000 description 4
- 102000037865 fusion proteins Human genes 0.000 description 4
- 238000011534 incubation Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- WEVYAHXRMPXWCK-UHFFFAOYSA-N Acetonitrile Chemical compound CC#N WEVYAHXRMPXWCK-UHFFFAOYSA-N 0.000 description 3
- 101001025761 Homo sapiens Gigaxonin Proteins 0.000 description 3
- 102000043131 MHC class II family Human genes 0.000 description 3
- 229920001213 Polysorbate 20 Polymers 0.000 description 3
- 102000001253 Protein Kinase Human genes 0.000 description 3
- 108010026552 Proteome Proteins 0.000 description 3
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005842 biochemical reaction Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 3
- 239000003054 catalyst Substances 0.000 description 3
- 238000005119 centrifugation Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010790 dilution Methods 0.000 description 3
- 239000012895 dilution Substances 0.000 description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 3
- 239000010931 gold Substances 0.000 description 3
- 229910052737 gold Inorganic materials 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 230000002163 immunogen Effects 0.000 description 3
- 238000000338 in vitro Methods 0.000 description 3
- 238000001727 in vivo Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 244000052769 pathogen Species 0.000 description 3
- 239000013612 plasmid Substances 0.000 description 3
- 239000000256 polyoxyethylene sorbitan monolaurate Substances 0.000 description 3
- 235000010486 polyoxyethylene sorbitan monolaurate Nutrition 0.000 description 3
- 238000001556 precipitation Methods 0.000 description 3
- 102000004196 processed proteins & peptides Human genes 0.000 description 3
- 108020001580 protein domains Proteins 0.000 description 3
- 108060006633 protein kinase Proteins 0.000 description 3
- 230000004850 protein–protein interaction Effects 0.000 description 3
- 238000000746 purification Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 101150098466 rpsL gene Proteins 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 239000006228 supernatant Substances 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000013526 transfer learning Methods 0.000 description 3
- 239000011701 zinc Substances 0.000 description 3
- 229910052725 zinc Inorganic materials 0.000 description 3
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- NFGXHKASABOEEW-UHFFFAOYSA-N 1-methylethyl 11-methoxy-3,7,11-trimethyl-2,4-dodecadienoate Chemical compound COC(C)(C)CCCC(C)CC=CC(C)=CC(=O)OC(C)C NFGXHKASABOEEW-UHFFFAOYSA-N 0.000 description 2
- 108020004705 Codon Proteins 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 101000998953 Homo sapiens Immunoglobulin heavy variable 1-2 Proteins 0.000 description 2
- 241000725303 Human immunodeficiency virus Species 0.000 description 2
- 102100036887 Immunoglobulin heavy variable 1-2 Human genes 0.000 description 2
- 241000124008 Mammalia Species 0.000 description 2
- 230000004988 N-glycosylation Effects 0.000 description 2
- 229910019142 PO4 Inorganic materials 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 2
- 208000003028 Stuttering Diseases 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 125000003172 aldehyde group Chemical group 0.000 description 2
- 238000009175 antibody therapy Methods 0.000 description 2
- 125000003118 aryl group Chemical group 0.000 description 2
- 230000001580 bacterial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005558 fluorometry Methods 0.000 description 2
- 101150045500 galK gene Proteins 0.000 description 2
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 239000001257 hydrogen Substances 0.000 description 2
- 230000028993 immune response Effects 0.000 description 2
- 230000009851 immunogenic response Effects 0.000 description 2
- 230000016784 immunoglobulin production Effects 0.000 description 2
- 238000000126 in silico method Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 238000002898 library design Methods 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 239000013642 negative control Substances 0.000 description 2
- 101150012154 nupG gene Proteins 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- NBIIXXVUZAFLBC-UHFFFAOYSA-K phosphate Chemical compound [O-]P([O-])([O-])=O NBIIXXVUZAFLBC-UHFFFAOYSA-K 0.000 description 2
- 239000010452 phosphate Substances 0.000 description 2
- 230000000704 physical effect Effects 0.000 description 2
- 230000004481 post-translational protein modification Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000003998 size exclusion chromatography high performance liquid chromatography Methods 0.000 description 2
- 235000020183 skimmed milk Nutrition 0.000 description 2
- 239000001488 sodium phosphate Substances 0.000 description 2
- 229910000162 sodium phosphate Inorganic materials 0.000 description 2
- 230000000392 somatic effect Effects 0.000 description 2
- 238000004611 spectroscopical analysis Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- 229940124597 therapeutic agent Drugs 0.000 description 2
- 238000002560 therapeutic procedure Methods 0.000 description 2
- RYFMWSXOAZQYPI-UHFFFAOYSA-K trisodium phosphate Chemical compound [Na+].[Na+].[Na+].[O-]P([O-])([O-])=O RYFMWSXOAZQYPI-UHFFFAOYSA-K 0.000 description 2
- 238000001195 ultra high performance liquid chromatography Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- HNSDLXPSAYFUHK-UHFFFAOYSA-N 1,4-bis(2-ethylhexyl) sulfosuccinate Chemical compound CCCCC(CC)COC(=O)CC(S(O)(=O)=O)C(=O)OCC(CC)CCCC HNSDLXPSAYFUHK-UHFFFAOYSA-N 0.000 description 1
- 229920001817 Agar Polymers 0.000 description 1
- 102000008102 Ankyrins Human genes 0.000 description 1
- 108010049777 Ankyrins Proteins 0.000 description 1
- 101100136076 Aspergillus oryzae (strain ATCC 42149 / RIB 40) pel1 gene Proteins 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical group [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 241000699802 Cricetulus griseus Species 0.000 description 1
- 238000007702 DNA assembly Methods 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 108050001049 Extracellular proteins Proteins 0.000 description 1
- 108010093488 His-His-His-His-His-His Proteins 0.000 description 1
- 102000018713 Histocompatibility Antigens Class II Human genes 0.000 description 1
- 101001138089 Homo sapiens Immunoglobulin kappa variable 1-39 Proteins 0.000 description 1
- 108090000144 Human Proteins Proteins 0.000 description 1
- 102000003839 Human Proteins Human genes 0.000 description 1
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- 108010054477 Immunoglobulin Fab Fragments Proteins 0.000 description 1
- 102000001706 Immunoglobulin Fab Fragments Human genes 0.000 description 1
- 102100020910 Immunoglobulin kappa variable 1-39 Human genes 0.000 description 1
- 108010066345 MHC binding peptide Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 101100301239 Myxococcus xanthus recA1 gene Proteins 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 229920002230 Pectic acid Polymers 0.000 description 1
- 241000508269 Psidium Species 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 108010003723 Single-Domain Antibodies Proteins 0.000 description 1
- 108700005078 Synthetic Genes Proteins 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 108020005038 Terminator Codon Proteins 0.000 description 1
- 239000004098 Tetracycline Substances 0.000 description 1
- 102000008579 Transposases Human genes 0.000 description 1
- 108010020764 Transposases Proteins 0.000 description 1
- 238000005411 Van der Waals force Methods 0.000 description 1
- 238000002835 absorbance Methods 0.000 description 1
- 238000000862 absorption spectrum Methods 0.000 description 1
- 230000002378 acidificating effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000033289 adaptive immune response Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 239000008272 agar Substances 0.000 description 1
- 238000013019 agitation Methods 0.000 description 1
- AEMOLEFTQBMNLQ-BKBMJHBISA-N alpha-D-galacturonic acid Chemical compound O[C@H]1O[C@H](C(O)=O)[C@H](O)[C@H](O)[C@H]1O AEMOLEFTQBMNLQ-BKBMJHBISA-N 0.000 description 1
- 125000000539 amino acid group Chemical group 0.000 description 1
- 229960000723 ampicillin Drugs 0.000 description 1
- AVKUERGKIZMTKX-NJBDSQKTSA-N ampicillin Chemical compound C1([C@@H](N)C(=O)N[C@H]2[C@H]3SC([C@@H](N3C2=O)C(O)=O)(C)C)=CC=CC=C1 AVKUERGKIZMTKX-NJBDSQKTSA-N 0.000 description 1
- 230000000890 antigenic effect Effects 0.000 description 1
- 239000003124 biologic agent Substances 0.000 description 1
- 230000004791 biological behavior Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- LEVWYRKDKASIDU-IMJSIDKUSA-N cystine group Chemical group C([C@@H](C(=O)O)N)SSC[C@@H](C(=O)O)N LEVWYRKDKASIDU-IMJSIDKUSA-N 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- MTHSVFCYNBDYFN-UHFFFAOYSA-N diethylene glycol Chemical compound OCCOCCO MTHSVFCYNBDYFN-UHFFFAOYSA-N 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- -1 e.g. Proteins 0.000 description 1
- 238000004520 electroporation Methods 0.000 description 1
- 230000009881 electrostatic interaction Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000002158 endotoxin Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 101150041954 galU gene Proteins 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 101150096208 gtaB gene Proteins 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 229930027917 kanamycin Natural products 0.000 description 1
- 229960000318 kanamycin Drugs 0.000 description 1
- SBUJHOSQTJFQJX-NOAMYHISSA-N kanamycin Chemical compound O[C@@H]1[C@@H](O)[C@H](O)[C@@H](CN)O[C@@H]1O[C@H]1[C@H](O)[C@@H](O[C@@H]2[C@@H]([C@@H](N)[C@H](O)[C@@H](CO)O2)O)[C@H](N)C[C@@H]1N SBUJHOSQTJFQJX-NOAMYHISSA-N 0.000 description 1
- 229930182823 kanamycin A Natural products 0.000 description 1
- 101150060972 lacX gene Proteins 0.000 description 1
- 101150066555 lacZ gene Proteins 0.000 description 1
- 230000021633 leukocyte mediated immunity Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000006166 lysate Substances 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 101150023497 mcrA gene Proteins 0.000 description 1
- 101150079876 mcrB gene Proteins 0.000 description 1
- 239000002055 nanoplate Substances 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000001672 ovary Anatomy 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 101150040383 pel2 gene Proteins 0.000 description 1
- 101150050446 pelB gene Proteins 0.000 description 1
- 238000002823 phage display Methods 0.000 description 1
- 239000000825 pharmaceutical preparation Substances 0.000 description 1
- 229940127557 pharmaceutical product Drugs 0.000 description 1
- 229940068977 polysorbate 20 Drugs 0.000 description 1
- 239000013641 positive control Substances 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 239000002244 precipitate Substances 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000013587 production medium Substances 0.000 description 1
- 238000012514 protein characterization Methods 0.000 description 1
- 238000010791 quenching Methods 0.000 description 1
- 230000000171 quenching effect Effects 0.000 description 1
- 238000002708 random mutagenesis Methods 0.000 description 1
- 101150079601 recA gene Proteins 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000006152 selective media Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013207 serial dilution Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000000377 silicon dioxide Substances 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 125000006850 spacer group Chemical group 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 229960002180 tetracycline Drugs 0.000 description 1
- 229930101283 tetracycline Natural products 0.000 description 1
- 235000019364 tetracycline Nutrition 0.000 description 1
- 150000003522 tetracyclines Chemical class 0.000 description 1
- 229940126585 therapeutic drug Drugs 0.000 description 1
- 230000010512 thermal transition Effects 0.000 description 1
- 238000001890 transfection Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
- 108091005703 transmembrane proteins Proteins 0.000 description 1
- 102000035160 transmembrane proteins Human genes 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 230000035899 viability Effects 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
- 210000002845 virion Anatomy 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- 239000003643 water by type Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/10—Design of libraries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/123—DNA computing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Library & Information Science (AREA)
- Chemical & Material Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Biochemistry (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Peptides Or Proteins (AREA)
Abstract
可以使用包括生成抗体轻链的氨基酸序列的第一生成部件和生成抗体重链的氨基酸序列的第二生成部件的生成式对抗网络来生成抗体的氨基酸序列。可以通过将由第一生成部件和第二生成部件产生的相应氨基酸序列进行组合来产生抗体的氨基酸序列。第一生成部件和第二生成部件的训练可以以不同的速率进行。另外,可以根据抗体氨基酸序列的互补决定区来评估通过将来自第一生成部件和第二生成部件的氨基酸序列进行组合而产生的抗体氨基酸。可以使用与抗体相对应的氨基酸序列产生训练数据集,所述抗体关于分子具有特定的结合亲和力,例如与主要组织相容性复合物(MHC)分子的结合亲和力。
Description
背景技术
蛋白质是由一条或更多条氨基酸链构成的生物分子。蛋白质可以在生物体内具有各种功能。例如,一些蛋白质可以参与引起在生物体内发生的反应。在其他示例中,蛋白质可以在整个生物体中转运分子。在其他示例中,蛋白质可以参与基因的复制。另外,一些蛋白质可以具有治疗特性并用于治疗各种生物学病症。蛋白质的结构和功能基于构成蛋白质的氨基酸的排列。针对蛋白质的氨基酸的排列可以用字母序列表示,其中,每个字母与某一位置处的氨基酸相对应。针对蛋白质的氨基酸的排列也可以由三维结构表示,三维结构不仅指示蛋白质的某些位置处的氨基酸,还指示蛋白质的三维特征,例如α-螺旋或β-折叠。
附图说明
本公开内容通过示例而非限制的方式在附图的图中示出,在附图中,相同的附图标记表示相似的要素。
图1是示出根据一些实现方式的生成蛋白质序列的示例框架的图。
图2是示出根据一些实现方式的包括用于生成蛋白质序列的编码部件和解码部件的示例框架的图。
图3是示出根据一些实现方式的用于生成蛋白质序列的包括生成部件和挑战部件(challenging component)的示例框架的图。
图4是示出根据一些实现方式的使用具有第一特征集的第一训练数据集和具有不同的第二特征集的第二训练数据集来生成蛋白质序列的示例框架的图。
图5是示出根据一些实现方式的生成作为亲本抗体的变体的抗体序列的示例框架的图。
图6是示出根据一些实现方式的生成与指定抗原结合的抗体的氨基酸序列的示例框架的图。
图7是示出根据一些实现方式的生成多个蛋白质库并对蛋白质库进行组合以生成其他蛋白质的示例框架的图。
图8是示出根据一些实现方式的使用成对的抗体重链和轻链的氨基酸序列来生成抗体的氨基酸序列的其他示例框架的图。
图9是示出根据一些实现方式的实现使用迁移学习技术从抗体重链和轻链的氨基酸序列生成成对的抗体的氨基酸序列的框架的图。
图10是示出根据一些实现方式的用于抗体重链和轻链的氨基酸序列的连结的框架的图。
图11是示出根据一些实现方式的用于产生蛋白质序列的示例方法的流程图。
图12是示出根据一些实现方式的用于产生蛋白质序列的另一示例方法的流程图。
图13是示出根据一些实现方式的用于产生与指定靶分子结合的蛋白质的氨基酸序列的示例方法的流程图。
图14是示出根据一些实现方式的通过将抗体重链的氨基酸序列和轻链的氨基酸序列进行组合来产生抗体的氨基酸序列的示例方法的流程图。
图15是根据一些实现方式的在对抗体的氨基酸序列进行编码以输入到生成式对抗网络之前在结构上比对抗体的氨基酸序列的方案的示例。
图16示出了根据示例实施方式的计算机系统形式的机器的图形表示,在该机器内可以执行指令的集合以使机器执行本文讨论的方法中的任何一个或更多个。
具体实施方式
蛋白质可以在生物体内具有许多有益用途。在特定情况下,蛋白质可以用于治疗可能不利地影响人类和其他哺乳动物的健康的疾病和其他生物学病症。在各种情况下,蛋白质可以参与对受试者有益并且可以抵消受试者所经历的一种或更多种生物学病症的反应。在一些示例中,蛋白质还可以与生物体内可能对受试者的健康有害的靶分子结合。出于这些原因,许多个体和组织寻求开发可以具有治疗益处的蛋白质。
蛋白质的开发可能是耗时且资源密集的过程。通常,用于开发的候选蛋白质可以被指示为潜在地具有期望的生物物理特性、三维(3D)结构和/或生物体内的行为。为了确定候选蛋白质是否实际具有期望特征,可以合成蛋白质,并且然后测试蛋白质以确定经合成的蛋白质的实际特征是否对应于期望特征。由于针对指定的生物物理特性、3D结构和/或行为来合成和测试蛋白质所需的资源量,因此出于治疗目的而合成的候选蛋白质的数量是有限的。在一些情况下,出于治疗目的而合成的蛋白质的数量可能受到当合成候选蛋白质时产生的资源损失的限制,从而不具有期望的特征。
用于识别具有特定特征的候选蛋白质的计算机实现的技术的使用已经增加。然而,这些常规技术可能在其范围和准确性方面受到限制。在各种情况下,用于生成蛋白质序列的常规计算机实现的技术可能受到可用数据量和/或可用数据的类型的限制,这些常规技术可能需要所述可用数据量和/或可用数据的类型来准确地生成具有指定特征的蛋白质序列。另外,用于产生可以生成具有特定特征的蛋白质序列的模型的技术可能是复杂的,并且产生准确且高效的模型所需的技术知识可能是复杂的。在某些情况下,由常规模型产生的蛋白质序列的长度也可能受到限制,因为常规技术的准确性可能随着蛋白质长度的增加而降低。因此,通过常规技术生成的蛋白质的数量是有限的。
本文描述的技术和系统可以用于准确且高效地生成蛋白质的氨基酸序列。在特定实现方式中,可以实现生成式对抗网络以确定可以产生蛋白质的氨基酸序列的模型。可以使用多个不同的训练数据集来训练生成式对抗网络,以产生具有指定特征的蛋白质的氨基酸序列。例如,本文描述的生成式对抗网络可以产生具有特定生物物理特性的蛋白质的氨基酸序列。在其他示例中,本文描述的生成式对抗网络可以产生具有特定结构的氨基酸序列。另外,本文描述的技术和系统可以利用计算机实现的处理,该处理对由生成式对抗网络生成的氨基酸序列进行分析。对氨基酸序列的分析可以确定由生成式对抗网络产生的氨基酸序列的特征是否与期望的特征集相对应。在特定的实现方式中,计算机实现的处理可以对由生成式对抗网络产生的氨基酸序列进行过滤,以识别与指定的特征集相对应的氨基酸序列。
在另外的示例中,本文中描述的一个或更多个实现方式可以包括可以生成蛋白质序列的自编码器架构。在一个或更多个示例中,变分自编码器可以用于生成蛋白质序列。在各种示例中,可以实现变分自编码器以生成抗体的氨基酸序列。在一个或更多个实现方式中,生成式机器学习架构可以包括至少一个编码器和解码器,至少一个编码器和解码器对损失函数进行优化以产生生成与蛋白质序列相对应的氨基酸序列的模型。在对模型进行初始训练之后,可以通过使用与具有指定的特征集(例如一个或更多个指定的生物物理特性)的蛋白质的氨基酸序列相对应的数据对模型进行训练来进一步修改模型。
另外,本文描述的技术和系统可以用于生成具有与指定抗原结合的至少阈值概率的抗体的氨基酸序列。在这些情况下,可以基于指示抗体与抗原之间的相互作用的抗体-抗原相互作用数据来生成氨基酸序列。例如,抗体-抗原相互作用数据可以指示抗体的抗原结合区以及与抗体的抗原结合区结合的抗原的相应表位。
此外,本文描述的技术和系统可以用于使用已分别生成并且随后被组合的抗体重链和抗体轻链的氨基酸序列来产生抗体的氨基酸序列。在各种实现方式中,使用两个生成部件(一个用于重链氨基酸序列以及另一个用于轻链氨基酸序列)的生成式对抗网络可以用于分别产生重链氨基酸序列和轻链氨基酸序列,然后可以将重链氨基酸序列和轻链氨基酸序列进行组合以生成包括重链和轻链两者的抗体序列。用于生成轻链氨基酸序列和重链氨基酸序列的分离的生成部件的实现方式提高了生成式对抗网络的效率,并且使得关于实现用于产生抗体的重链和轻链氨基酸序列的单个生成部件的生成式对抗网络的用于生成抗体的氨基酸序列的计算资源最小化。即,从分别生成的轻链和重链的组合产生多个抗体序列与被生成为最初用轻链和重链两者生成的氨基酸序列的相同数量的抗体序列相比,使用了较少的计算资源。另外,用于化学地对轻链的库和重链的库进行合成的总资源的数量低于简单地化学地对已经具有重链和轻链两者的抗体进行合成的技术,所述轻链的库和重链的库可以被组合以基于如本文描述的机器生成的轻链序列和重链序列产生多个抗体。
图1是示出根据一些实现方式的生成蛋白质序列的示例框架100的图。框架100可以包括生成式机器学习架构102。生成式机器学习架构102可以包括序列生成部件104。序列生成部件104可以实现基于提供给序列生成部件104的输入来生成氨基酸序列的模型。例如,序列生成部件104可以产生所生成的序列106。所生成的序列106可以包括蛋白质的氨基酸序列。在一个或更多个示例中,所生成的序列106可以包括抗体的氨基酸序列。在各种实现方式中,由序列生成部件104实现的模型可以包括一个或更多个函数。
在各种实现方式中,生成式机器学习架构102可以实现一种或更多种神经网络技术。例如,机器学习架构102可以实现一个或更多个递归神经网络。另外,机器学习架构102可以实现一个或更多个卷积神经网络。在某些实现方式中,机器学习架构102可以实现递归神经网络与卷积神经网络的组合。在示例中,机器学习架构102可以包括生成式对抗网络(GAN)。在这些情况下,序列生成部件104可以包括生成器,并且生成式机器学习架构102还可以包括挑战部件。在另外的示例中,生成式机器学习架构102可以包括自编码器。在一个或更多个说明性示例中,生成式机器学习架构102可包括变分自编码器。在这些情况下,序列生成部件104可以包括变分自编码器的编码器或解码器中的至少一个。
可以由序列生成部件104基于输入数据108来产生所生成的序列106。在一个或更多个示例中,输入数据108可以包括一个或更多个氨基酸序列,例如模板蛋白质序列。输入数据108还可以包括输入向量,该输入向量包括由随机噪声生成器或伪随机噪声生成器产生的计算机生成的噪声。
可以关于训练序列110来评估所生成的序列106。训练序列110可以与从蛋白质序列数据112获得的氨基酸序列相对应。蛋白质序列数据112可以包括从存储蛋白质氨基酸序列的一个或更多个数据源获得的蛋白质序列。蛋白质序列数据112可以包括一种或更多种蛋白质——例如纤连蛋白III型(FNIII)蛋白、avimers、抗体、VHH域、激酶、锌指等)——的氨基酸序列。
包括在蛋白质序列数据112中的蛋白质序列在被提供给生成式机器学习架构102之前可以经受数据预处理114。在实现方式中,在将蛋白质序列数据112提供给生成式机器学习架构102之前可以由数据预处理114根据分类系统来布置蛋白质序列数据112。数据预处理114可以包括将蛋白质序列数据112的蛋白质中包括的氨基酸与可以表示蛋白质内基于结构的位置的数值进行配对。数值可以包括具有起点和终点的数字序列。在说明性示例中,T可以与数字43配对,指示苏氨酸分子位于指定的蛋白质域类型的基于结构的位置43处。
在各种实现方式中,由数据预处理114实现的分类系统可以针对蛋白质的某些区域指定特定数量的位置。例如,分类系统可以指定具有特定功能和/或特征的蛋白质的部分可以具有指定数量的位置。在各种情况下,并非分类系统中包括的所有位置都可以与氨基酸相关联,因为蛋白质的特定区域中的氨基酸数量可以在蛋白质之间变化。为了说明,对于不同类型的蛋白质,蛋白质区域中的氨基酸数量可以变化。在其他示例中,可以反映蛋白质的结构。在示例中,不与特定氨基酸相关联的分类系统的位置可以指示蛋白质的各种结构特征,例如转角(turn)或环(loop)。在说明性示例中,用于抗体的分类系统可以指示重链区、轻链区和铰链区具有分配给它们的指定数量的位置,并且抗体的氨基酸可以根据分类系统被分配给所述位置。
在实现方式中,包括在用于训练生成式机器学习架构102的蛋白质序列数据112中的数据可以影响由序列生成部件104产生的氨基酸序列。例如,蛋白质序列数据112的特征、生物物理特性、制造特征(例如,滴度、产率等)等可以影响由序列生成部件104产生的所生成序列106的特征、生物物理特性和/或制造特征。为了说明,在提供给生成式机器学习架构102的蛋白质序列数据112中包括抗体的情况下,由序列生成部件104生成的氨基酸序列可以对应于抗体氨基酸序列。在另一示例中,在提供给生成式机器学习架构102的蛋白质序列数据112中包括T细胞受体的情况下,由序列生成部件104生成的氨基酸序列可以对应于T细胞受体氨基酸序列。在其他示例中,在提供给生成式机器学习架构102的蛋白质序列数据112中包括激酶的情况下,由序列生成部件104生成的氨基酸序列可以对应于激酶的氨基酸序列。在提供给生成式机器学习架构102的蛋白质序列数据112中包括各种不同类型的蛋白质的氨基酸序列的实现方式中,序列生成部件104可以生成通常具有蛋白质特征并且可以不对应于特定类型的蛋白质的氨基酸序列。
由数据预处理114产生的输出可以包括结构化序列116。结构化序列116可以包括指示与蛋白质的各个位置相关联的氨基酸的矩阵。在示例中,结构化序列116可以包括具有与不同氨基酸相对应的列以及与蛋白质的基于结构的位置相对应的行的矩阵。对于矩阵中的每个元素,0可以用于指示在相应位置处不存在氨基酸,以及1可以用于指示在相应位置处存在氨基酸。在位置表示氨基酸序列中的间隙的情况下,与该位置相关联的行针对每一列可以包括零。还可以根据与用于结构化序列116的编号方案相同或相似的编号方案使用向量来表示所生成的序列106。在一些说明性示例中,可以使用可以被称为独热编码方法的方法对结构化序列116和所生成的序列106进行编码。
生成式机器学习架构102可以针对训练序列110来分析所生成的序列106,以评估生成式机器学习架构102的损失函数118。在一个或更多个示例中,损失函数118的输出可以用于修改由序列生成部件104生成的序列。例如,与损失函数118相关的输出可以用于修改生成式机器学习架构102的一个或更多个部件——例如GAN的编码器、解码器和/或生成器,以产生更接近地对应于训练序列110的所生成的序列106。在一个或更多个示例中,可以修改生成式机器学习架构102的部件以优化损失函数118。在各种示例中,可以修改生成式机器学习架构102的部件以使损失函数118最小化。
在生成式机器学习架构102已经经历训练处理之后,可以生成可以产生蛋白质序列的经训练的模型120。经训练的模型120可以包括在使用蛋白质序列数据112的训练处理之后的生成式机器学习架构102的一个或更多个部件。在一个或更多个实现方式中,经训练的模型120可以包括已经使用蛋白质序列数据112进行训练的GAN的生成器。另外,经训练的模型120可以包括已经使用蛋白质序列数据112进行训练的自编码器的编码器或解码器中的至少一个。在示例中,用于生成式机器学习架构102的训练处理可以在由生成式机器学习架构102的一个或更多个部件实现的函数收敛之后完成。函数的收敛可以基于在序列生成部件104生成蛋白质序列并且基于训练序列110与所生成的序列106之间的差异获得关于损失函数118的反馈时模型参数值朝向特定值的移动。
在各种实现方式中,当由序列生成部件104生成的蛋白质序列具有特定特征时,生成式机器学习架构102的训练可以完成。为了说明,可以通过软件工具来分析由序列生成部件104生成的氨基酸序列,所述软件工具可以分析氨基酸序列以确定氨基酸序列的生物物理特性、氨基酸序列的结构特征或对与一个或更多个蛋白质种系对应的氨基酸序列的依从性(adherence)中的至少一者。如本文所使用的,种系可以与当蛋白质的细胞复制时保留的蛋白质的氨基酸序列相对应。当子代细胞的氨基酸序列相对于亲代细胞中的相应氨基酸序列具有至少阈值量的同一性时,该氨基酸序列从亲代细胞到子代细胞可以被保留。在说明性示例中,作为从亲代细胞到子代细胞保留的卡帕(kappa)轻链的一部分的人抗体的氨基酸序列的一部分可以是抗体的种系部分。
可以将序列输入122提供给经训练的模型120,并且经训练的模型120可以产生序列124。序列输入122可以与可以用于产生序列124的一系列随机或伪随机数相对应,序列124可以包括蛋白质的氨基酸序列。由经训练的模型120产生的序列124可以被表示为与用于表示结构化序列116和所生成的序列106的矩阵结构相同或相似的矩阵结构。在各种实现方式中,可以对由经训练的模型120产生的包括序列124的矩阵进行解码以产生与蛋白质序列相对应的氨基酸串。在操作126处,可以评估序列124以确定序列124是否具有指定的特征集。在操作126处执行的序列评估可以产生指示序列124的特征的度量128。另外,度量128可以指示序列124的特征与指定的特征集之间的对应量。在一些示例中,度量128可以指示与从种系基因产生的蛋白质的氨基酸序列不同的氨基酸序列124的位置数量。
由模型120产生的序列124可以对应于各种类型的蛋白质。例如,序列124可以对应于用作T细胞受体的蛋白质。在其他示例中,序列124可以对应于用作催化剂以引起生物体内的生化反应发生的蛋白质。序列124也可以对应于一种或更多种类型的抗体。为了说明,序列124可以对应于一种或更多种抗体亚型,例如免疫球蛋白A(IgA)、免疫球蛋白D(IgD)、免疫球蛋白E(IgE)、免疫球蛋白G(IgG)或免疫球蛋白M(IgM)。此外,序列124可以对应于结合抗原的其他蛋白质。在示例中,序列124可以与affibodies、affilins、affimers、affitins、alphabodies、anticalins、avimers、monobodies、设计的锚蛋白重复蛋白(DARPins)、nanoCLAMP(梭菌抗体模拟蛋白)、抗体片段或其组合相对应。在其他示例中,序列124可以对应于参与蛋白质-蛋白质相互作用的氨基酸序列,例如具有与抗原结合的区域或与其他分子结合的区域的蛋白质。
在一些实现方式中,序列124可以在操作130处经受序列过滤以产生一个或更多个经过滤的序列132。序列过滤130可以针对与一个或更多个特征相对应的序列124中的一个或更多个来解析序列124。例如,操作130处的序列过滤可以分析序列124以识别在特定位置处具有指定氨基酸的序列124。序列过滤130还可以识别具有一个或更多个特定氨基酸串的序列124中的一个或更多个。在各种实现方式中,操作130处的序列过滤可以基于序列124中的至少一个与具有生物物理特性集的蛋白质的氨基酸序列之间的相似性来识别具有生物物理特性集的序列124中的一个或更多个。
图2是示出根据一些实现方式的用于生成蛋白质序列的包括编码部件和解码部件的示例框架200的图。框架200可以包括生成式机器学习架构202。生成式机器学习架构202可以对应于自编码器实现方式,并且包括编码部件204和解码部件206。编码部件204可以确定用于输入氨基酸序列的编码,并且该编码可以由解码部件206进行解码以产生一个或更多个附加氨基酸序列。在各种示例中,可以将输入样本208提供给解码部件206,并且解码部件206可以使用输入样本208和编码来产生所生成的序列210。可以针对训练序列212来分析所生成的序列210,并且可以基于所生成的序列210与训练序列212之间的差异来优化损失函数214。在一个或更多个示例中,损失函数214的输出可以用于修改由解码部件206生成的序列。在一个或更多个示例中,可以修改编码部件204或解码部件206中的至少一个以优化损失函数214。在各种示例中,可以修改编码部件204或解码部件206中的至少一个以使损失函数214最小化。
所生成的序列210可以包括蛋白质的氨基酸序列。在一个或更多个示例中,所生成的序列210可以包括抗体的氨基酸序列。在各种实现方式中,解码部件206可以实现产生所生成的序列210的模型。在各种示例中,由解码部件206实现的模型可以包括一个或更多个函数。
训练序列212可以与从蛋白质序列数据214获得的氨基酸序列相对应。蛋白质序列数据214可以包括从存储蛋白质氨基酸序列的一个或更多个数据源获得的蛋白质序列。蛋白质序列数据214可以包括一种或更多种蛋白质——例如,纤连蛋白III型(FNIII)蛋白、avimers、抗体、VHH域、激酶、锌指等——的氨基酸序列。
包括在蛋白质序列数据214中的蛋白质序列在被提供给生成式机器学习架构202之前可以经受数据预处理216。在实现方式中,在将蛋白质序列数据214提供给生成式机器学习架构202之前可以由数据预处理216根据分类系统来布置蛋白质序列数据214。数据预处理216可以包括将蛋白质序列数据214的蛋白质中包括的氨基酸与可以表示蛋白质内基于结构的位置的数值进行配对。数值可以包括具有起点和终点的数字序列。在说明性示例中,T可以与数字43配对,指示苏氨酸分子位于指定的蛋白质域类型的基于结构的位置43处。
在各种实现方式中,由数据预处理216实现的分类系统可以针对蛋白质的某些区域指定特定数量的位置。例如,分类系统可以指定具有特定功能和/或特征的蛋白质的部分可以具有指定数量的位置。在各种情况下,并非分类系统中包括的所有位置都可以与氨基酸相关联,因为蛋白质的特定区域中的氨基酸数量可以在蛋白质之间变化。为了说明,对于不同类型的蛋白质,蛋白质的区域中的氨基酸数量可以变化。在其他示例中,可以反映蛋白质的结构。在示例中,不与特定氨基酸相关联的分类系统的位置可以指示蛋白质的各种结构特征,例如转角或环。在说明性示例中,用于抗体的分类系统可以指示重链区、轻链区和铰链区具有分配给它们的指定数量的位置,并且抗体的氨基酸可以根据分类系统被分配给所述位置。
在实现方式中,包括在用于训练生成式机器学习架构202的蛋白质序列数据216中的数据可以影响由解码部件206产生的氨基酸序列。例如,蛋白质序列数据216的特征、生物物理特性、制造特征(例如,滴度、产率等)等可以影响由解码部件206产生的所生成序列210的特征、生物物理特性和/或制造特征。为了说明,在提供给生成式机器学习架构202的蛋白质序列数据216中包括抗体的情况下,由解码部件206生成的氨基酸序列可以对应于抗体氨基酸序列。在另一示例中,在提供给生成式机器学习架构202的蛋白质序列数据216中包括T细胞受体的情况下,由解码部件206生成的氨基酸序列可以对应于T细胞受体氨基酸序列。在其他示例中,在提供给生成式机器学习架构202的蛋白质序列数据216中包括激酶的情况下,由解码部件206生成的氨基酸序列可以对应于激酶的氨基酸序列。在提供给生成式机器学习架构202的蛋白质序列数据216中包括各种不同类型的蛋白质的氨基酸序列的实现方式中,解码部件206可以生成通常具有蛋白质特征并且可以不对应于特定类型的蛋白质的氨基酸序列。
由数据预处理218产生的输出可以包括结构化序列220。结构化序列220可以包括指示与蛋白质的各个位置相关联的氨基酸的矩阵。在示例中,结构化序列220可以包括具有与不同氨基酸相对应的列以及与蛋白质的基于结构的位置相对应的行的矩阵。对于矩阵中的每个元素,0可以用于指示在相应位置处不存在氨基酸,以及1可以用于指示在相应位置处存在氨基酸。在位置表示氨基酸序列中的间隙的情况下,与该位置相关联的行针对每一列可以包括零。还可以根据与用于结构化序列220的编号方案相同或相似的编号方案使用向量来表示所生成的序列210。在一些说明性示例中,可以使用可以被称为独热编码方法的方法对结构化序列220和所生成的序列210进行编码。
在生成式机器学习架构202已经经历训练处理之后,可以生成可以产生蛋白质序列的经训练的模型222。经训练的模型222可以包括在使用蛋白质序列数据216的训练处理之后的生成式机器学习架构202的一个或更多个部件。在一个或更多个实现方式中,经训练的模型222可以包括已经使用蛋白质序列数据216进行训练的编码部件204或解码部件206中的至少一个。在示例中,用于生成式机器学习架构202的训练处理可以在由生成式机器学习架构202的一个或更多个部件实现的函数收敛之后完成。函数的收敛可以基于在解码部件206生成蛋白质序列并且基于训练序列212与所生成的序列210之间的差异获得关于损失函数214的反馈时模型参数值朝向特定值的移动。
在各种实现方式中,当由解码部件206生成的蛋白质序列具有特定特征时,生成式机器学习架构202的训练可以完成。为了说明,可以通过软件工具来分析由解码部件206生成的氨基酸序列,所述软件工具可以分析氨基酸序列以确定氨基酸序列的生物物理特性、氨基酸序列的结构特征或对与一个或更多个蛋白质种系对应的氨基酸序列的依从性中的至少一者。如本文所使用的,种系可以与当蛋白质的细胞复制时保留的蛋白质的氨基酸序列相对应。当子代细胞的氨基酸序列相对于亲代细胞中的相应氨基酸序列具有至少阈值量的同一性时,该氨基酸序列从亲代细胞到子代细胞可以被保留。在说明性示例中,作为从亲代细胞到子代细胞保留的的卡帕(kappa)轻链的一部分的人抗体的氨基酸序列的一部分可以是抗体的种系部分。
可以将序列输入224提供给经训练的模型222,并且经训练的模型222可以产生序列226。序列输入224可以与可以用于产生序列226的一系列随机或伪随机数相对应,序列226可以包括蛋白质的氨基酸序列。由经训练的模型222产生的序列226可以被表示为与用于表示结构化序列220和所生成的序列210的矩阵结构相同或相似的矩阵结构。在各种实现方式中,可以对由经训练的模型222产生的包括序列226的矩阵进行解码以产生与蛋白质序列相对应的氨基酸串。在操作228处,可以评估序列226以确定序列226是否具有指定的特征集。在操作228处执行的序列评估可以产生指示序列226的特征的度量230。另外,度量230可以指示序列226的特征与指定的特征集之间的对应量。在一些示例中,度量230可以指示与从种系基因产生的蛋白质的氨基酸序列不同的氨基酸序列226的位置数量。
由模型222产生的序列226可以对应于各种类型的蛋白质。例如,序列226可以对应于用作T细胞受体的蛋白质。在其他示例中,序列226可以对应于用作催化剂以引起生物体内的生化反应发生的蛋白质。序列226也可以对应于一种或更多种类型的抗体。为了说明,序列226可以对应于一种或更多种抗体亚型,例如免疫球蛋白A(IgA),免疫球蛋白D(IgD)、免疫球蛋白E(IgE)、免疫球蛋白G(IgG)或免疫球蛋白M(IgM)。此外,序列226可以对应于结合抗原的其他蛋白质。在示例中,序列124可以与affibodies、affilins、affimers、affitins、alphabodies、anticalins、avimers、monobodies、设计的锚蛋白重复蛋白(DARPins)、nanoCLAMP(梭菌抗体模拟蛋白)、抗体片段或其组合相对应。在其他示例中,序列226可以对应于参与蛋白质-蛋白质相互作用的氨基酸序列,例如具有与抗原结合的区域或与其他分子结合的区域的蛋白质。
在一些实现方式中,序列226可以在操作232处经受序列过滤以产生一个或更多个经过滤的序列234。序列过滤232可以针对与一个或更多个特征相对应的序列226中的一个或更多个来解析序列226。例如,操作232处的序列过滤可以分析序列226以识别在特定位置处具有指定氨基酸的序列226。序列过滤232还可以识别具有一个或更多个特定氨基酸串的序列226中的一个或更多个。在各种实现方式中,操作232处的序列过滤可以基于序列226中的至少一个与具有生物物理特性集的蛋白质的氨基酸序列之间的相似性来识别具有生物物理特性集的序列226中的一个或更多个。
图3是示出根据一些实现方式的用于生成蛋白质序列的包括生成部件和挑战部件的示例框架300的图。框架300可以包括生成式机器学习架构302。生成式机器学习架构302可以包括生成部件304和挑战部件306。生成部件304可以实现基于提供给生成部件304的输入来生成氨基酸序列的模型。在各种实现方式中,由生成部件304实现的模型可以包括一个或更多个函数。挑战部件306可以生成指示由生成部件304产生的氨基酸序列是否满足各种特征的输出。可以将由挑战部件306产生的输出提供给生成部件304,并且可以基于由挑战部件306提供的反馈来修改由生成部件304实现的模型。在各种实现方式中,挑战部件306可以将生成部件304生成的氨基酸序列与蛋白质的氨基酸序列进行比较,并且生成指示由生成部件304产生的氨基酸序列与提供给挑战部件306的蛋白质的氨基酸序列之间的对应量的输出。
在各种实现方式中,机器学习架构302可以实现一种或更多种神经网络技术。例如,机器学习架构302可以实现一个或更多个递归神经网络。另外,机器学习架构302可以实现一个或更多个卷积神经网络。在某些实现方式中,机器学习架构302可以实现递归神经网络和卷积神经网络的组合。在示例中,机器学习架构302可以包括生成式对抗网络(GAN)。在这些情况下,生成部件304可以包括生成器,并且挑战部件306可以包括鉴别器。在其他实现方式中,机器学习架构302可以包括Wasserstein生成式对抗网络(wGAN)。在这些情况下,生成部件304可以包括生成器,并且分类部件306可以包括评价器(critic)。
在图3的说明性示例中,可以将输入向量308提供给生成部件304,并且生成部件304可以使用模型从输入向量308产生一个或更多个生成的序列310。在特定实现方式中,输入向量308可以包括由随机或伪随机数生成器生成的噪声。挑战部件306可以将所生成的序列310与包括在蛋白质序列数据312中的已根据特定方案进行编码的蛋白质序列进行比较。蛋白质序列数据312可以包括从存储蛋白质序列的一个或更多个数据源获得的蛋白质序列。
基于所生成的序列310与从蛋白质序列数据312获得的序列之间的相似性和差异,分类部件306可以生成分类输出314,该分类输出314指示所生成的序列310与包括在蛋白质序列数据312中的序列之间的相似性的量或差异的量。在示例中,挑战部件306可以将所生成的序列310标记为0,并且将从蛋白质序列数据312获得的结构化序列标记为1。在这些情况下,分类输出314可以对应于从0到1的数字。在其他示例中,挑战部件306可以实现距离函数,该距离函数产生指示所生成的序列310与包括在蛋白质序列数据312中的蛋白质之间的距离量的输出。在这些情况下,挑战部件306可以将所生成的序列310标记为-1,并且将从蛋白质序列数据312获得的已编码氨基酸序列标记为1。在挑战部件306实现距离函数的实现方式中,分类输出314可以是从-∞到∞的数。在一些示例中,从蛋白质序列数据312获得的氨基酸序列可以称为地面实况数据(ground truth data)。
包括在蛋白质序列数据312中的蛋白质序列在被提供给挑战部件306之前可以经受数据预处理316。在实现方式中,在将蛋白质序列数据312提供给挑战部件306之前可以根据分类系统来布置蛋白质序列数据312。数据预处理316可以包括将蛋白质序列数据312的蛋白质中包括的氨基酸与可以表示蛋白质内基于结构的位置的数值进行配对。数值可以包括具有起点和终点的数字序列。在说明性示例中,T可以与数字43配对,指示苏氨酸分子位于指定的蛋白质域类型的基于结构的位置43处。在说明性示例中,基于结构的编号可以应用于任何一般蛋白质类型,例如纤连蛋白III型(FNIII)蛋白质、avimers、抗体、VHH域、激酶、锌指等。
在各种实现方式中,由数据预处理316实现的分类系统可以针对蛋白质的某些区域指定特定数量的位置。例如,分类系统可以指定具有特定功能和/或特征的蛋白质的部分可以具有指定数量的位置。在各种情况下,并非分类系统中包括的所有位置都可以与氨基酸相关联,因为蛋白质的特定区域中的氨基酸数量可以在蛋白质之间变化。为了说明,对于不同类型的蛋白质,蛋白质区域中的氨基酸数量可以变化。在其他示例中,可以反映蛋白质的结构。在示例中,不与特定氨基酸相关联的分类系统的位置可以指示蛋白质的各种结构特征,例如转角或环。在说明性示例中,用于抗体的分类系统可以指示重链区、轻链区和铰链区具有分配给它们的指定数量的位置,并且抗体的氨基酸可以根据分类系统被分配给所述位置。
在实现方式中,用于训练机器学习架构302的数据可以影响由生成部件304产生的氨基酸序列。例如,在提供给挑战部件306的蛋白质序列数据312中包括抗体的情况下,由生成部件304生成的氨基酸序列可对应于抗体氨基酸序列。在另一示例中,在提供给挑战部件306的蛋白质序列数据312中包括T细胞受体的情况下,由生成部件304生成的氨基酸序列可以对应于T细胞受体氨基酸序列。在其他示例中,在提供给挑战部件306的蛋白质序列数据312中包括激酶的情况下,由生成部件304生成的氨基酸序列可以对应于激酶的氨基酸序列。在提供给分类部件306的蛋白质序列数据312中包括各种不同类型的蛋白质的氨基酸序列的实现方式中,生成部件304可以生成通常具有蛋白质特征并且可以不对应于特定类型的蛋白质的氨基酸序列。此外,在各种示例中,由生成部件304产生的氨基酸序列可以与提供给挑战性部件306的蛋白质序列数据312中包括的氨基酸序列的部分的类型相对应。
由数据预处理316产生的输出可以包括结构化序列318。结构化序列318可以包括指示与蛋白质的各个位置相关联的氨基酸的矩阵。在示例中,结构化序列318可以包括具有与不同氨基酸相对应的列以及与蛋白质的基于结构的位置相对应的行的矩阵。对于矩阵中的每个元素,0可以用于指示在相应位置处不存在氨基酸,以及1可以用于指示在相应位置处存在氨基酸。在位置表示氨基酸序列中的间隙的情况下,与该位置相关联的行针对每一列可以包括零。还可以根据与用于结构化序列318的编号方案相同或相似的编号方案使用向量来表示所生成的序列310。在一些说明性示例中,可以使用可以被称为独热编码方法的方法来对结构化序列318和所生成的序列310进行编码。
在机器学习架构302已经经历训练处理之后,可以生成可以产生蛋白质序列的经训练的模型320。在使用蛋白质序列数据312的训练处理之后,经训练的模型320可以包括生成部件304。在示例中,用于机器学习架构302的训练处理可以在由生成部件304实现的函数和由挑战部件306实现的函数收敛之后完成。函数的收敛可以基于在蛋白质序列由生成部件304生成并且从挑战部件306获得反馈时模型参数值朝向特定值的移动。在各种实现方式中,当由生成部件304生成的蛋白质序列具有特定特征时,机器学习架构302的训练可以完成。为了说明,可以通过软件工具来分析由生成部件304生成的氨基酸序列,所述软件工具可以分析氨基酸序列以确定氨基酸序列的生物物理特性、氨基酸序列的结构特征或对与一个或更多个蛋白质种系对应的氨基酸序列的依从性中的至少一者。如本文所使用的,如本文所使用的种系可以与当蛋白质的细胞复制时保留的蛋白质的氨基酸序列相对应。当子代细胞的氨基酸序列相对于亲代细胞中的相应氨基酸序列具有至少阈值量的同一性时,该氨基酸序列从亲代细胞到子代细胞可以被保留。在说明性示例中,作为从亲代细胞到子代细胞保留的卡帕(kappa)轻链的一部分的人抗体的氨基酸序列的一部分可以是抗体的种系部分。
可以将序列输入322提供给经训练的模型320,并且经训练的模型320可以产生序列324。序列输入322可以与可以用于产生序列324的一系列随机或伪随机数相对应,序列324可以包括蛋白质的氨基酸序列。由经训练的模型320产生的序列324可以被表示为与用于表示结构化序列318和所生成的序列310的矩阵结构相同或相似的矩阵结构。在各种实现方式中,可以对由经训练的模型320产生的包括序列324的矩阵进行解码以产生与蛋白质序列相对应的氨基酸串。在326处,可以评估序列324以确定序列324是否具有指定的特征集。序列评估326可以产生指示序列324的特征的度量328。另外,度量328可以指示序列324的特征与指定的特征集之间的对应量。在一些示例中,度量328可以指示与从种系基因产生的蛋白质的氨基酸序列不同的氨基酸序列324的位置数量。
由模型320产生的序列324可以对应于各种类型的蛋白质。例如,序列324可以对应于用作T细胞受体的蛋白质。在其他示例中,序列324可以对应于用作催化剂以引起生物体内的生化反应发生的蛋白质。序列324也可以对应于一种或更多种类型的抗体。为了说明,序列324可以对应于一种或更多种抗体亚型,例如免疫球蛋白A(IgA)、免疫球蛋白D(IgD)、免疫球蛋白E(IgE)、免疫球蛋白G(IgG)或免疫球蛋白M(IgM)。此外,序列324可以对应于结合抗原的其他蛋白质。在示例中,序列324可以与affibodies、affilins、affimers、affitins、alphabodies、anticalins、avimers、monobodies、设计的锚蛋白重复蛋白(DARPins)、nanoCLAMP(梭菌抗体模拟蛋白)、抗体片段或其组合相对应。在其他示例中,序列324可以对应于参与蛋白质-蛋白质相互作用的氨基酸序列,例如具有与抗原结合的区域或与其他分子结合的区域的蛋白质。
在一些实现方式中,序列324可以经受序列过滤330以产生一个或更多个经过滤的序列332。序列过滤330可以针对与一个或更多个特征相对应的序列324中的一个或更多个来解析序列324。例如,序列过滤330可以分析序列324以识别在特定位置处具有指定氨基酸的序列324。序列过滤330还可以识别具有一个或更多个特定氨基酸串的序列324中的一个或更多个。在各种实现方式中,序列过滤330可以基于序列324中的至少一个与具有生物物理特性集的蛋白质的氨基酸序列之间的相似性来识别具有生物物理特性集的序列324中的一个或更多个。
图4是示出根据一些实现方式的使用具有第一特征集的第一训练数据集和具有与第一特征集不同的第二特征集的第二训练数据集来生成蛋白质序列的示例框架400的图。框架400可以包括第一生成式对抗网络402。第一生成式对抗网络402可以包括第一生成部件404和第一挑战部件406。在各种实现方式中,第一挑战部件406可以是鉴别器。在其他情况下,例如当第一生成式对抗网络402是Wasserstein GAN时,第一挑战部件406可以包括评价器。第一生成部件204可以实现基于提供给第一生成部件404的输入来生成氨基酸序列的模型。第一挑战部件406可以生成指示由生成部件404产生的氨基酸序列是否满足各种特征的输出。可以将由第一挑战部件406产生的输出提供给生成部件404,并且可以基于由第一挑战部件406提供的反馈来修改由第一生成部件404实现的模型。在各种实现方式中,第一挑战部件406可以将由第一生成部件404产生的氨基酸序列与蛋白质的氨基酸序列进行比较,并且生成指示由第一生成部件404产生的氨基酸序列与提供给第一挑战部件406的蛋白质的氨基酸序列之间的对应量的输出。
可以将第一输入向量408提供给第一生成部件404,并且第一生成部件404可以使用模型、使用第一输入向量408来产生一个或更多个第一生成序列410。在特定实现方式中,可以使用随机或伪随机数生成器来产生第一输入向量408。在说明性示例中,第一输入向量408可以包括噪声信号,该噪声信号包括一系列数字。
第一挑战部件406可以将第一生成序列410与蛋白质序列数据412中包括的蛋白质序列进行比较。第一蛋白质序列数据412可以包括从存储蛋白质序列的一个或更多个数据源获得的蛋白质序列。基于第一生成序列410与从蛋白质序列数据412获得的序列之间的相似性和差异,第一挑战部件406可以生成第一分类输出414,该第一分类输出414指示第一生成序列410与包括在第一蛋白质序列数据412中的序列之间的相似性的量或差异的量。第一挑战部件406可以用0标记第一生成序列410,以及用1标记从第一蛋白质序列数据412得到的结构化序列。在这些情况下,第一分类输出414可以包括从0到1的数字。在其他示例中,当第一生成式对抗网络402是Wasserstein GAN时,第一挑战部件406可以实现距离函数,该距离函数产生指示第一生成序列410与包括在第一蛋白质序列数据412中的蛋白质之间的距离量的输出。在这些情况下,第一挑战部件406可以将第一生成序列410标记为-1,并且将从第一蛋白质序列数据412获得的已编码氨基酸序列标记为1。在第一挑战部件406实现距离函数的实现方式中,第一分类输出414可以是从-∞到∞的数。在一些示例中,从第一蛋白质序列数据412获得的氨基酸序列可以称为地面实况数据。
包括在蛋白质序列数据412中的蛋白质序列在被提供给第一挑战部件406之前可以经受第一数据预处理416。在实现方式中,在将蛋白质序列数据412提供给第一挑战部件406之前可以根据分类系统来布置蛋白质序列数据412。第一数据预处理416可以包括将第一蛋白质序列数据412的蛋白质中包括的氨基酸与可以表示蛋白质内位置的数值进行配对。数值可以包括具有起点和终点的数字序列。第一数据预处理416可以生成被提供给第一挑战部件406的第一结构化序列418。第一结构化序列418可以包括指示与蛋白质的各种位置相关联的氨基酸的矩阵。在示例中,第一结构化序列418可以包括具有与不同氨基酸相对应的列以及与蛋白质的基于结构的位置相对应的行的矩阵。对于矩阵中的每个元素,0可以用于指示在相应位置处不存在氨基酸,以及1可以用于指示在相应位置处存在氨基酸。在位置表示氨基酸序列中的间隙的情况下,与该位置相关联的行针对每一列可以包括零。还可以根据与用于第一结构化序列418的编号方案相同或相似的编号方案使用向量来表示第一生成序列410。在一些说明性示例中,可以使用可以被称为独热编码方法的方法来对第一结构化序列418和第一生成序列410进行编码。
在第一生成式对抗网络402已经经历训练处理之后,可以生成可以产生蛋白质序列的经训练的模型420。在示例中,用于第一生成式对抗网络402的训练处理可以在由第一生成部件404实现的函数收敛之后完成。在各种实现方式中,当由第一生成部件404生成的蛋白质序列具有特定特征时,第一生成式对抗网络402的训练可以完成。为了说明,可以通过软件工具来分析使用经训练的模型420生成的氨基酸序列,所述软件工具可以分析氨基酸序列以确定氨基酸序列的生物物理特性、氨基酸序列的结构特征或对与源自蛋白质的种系基因的一个或更多个氨基酸序列对应的氨基酸序列的依从性中的至少一者。
可以将第一序列输入422提供给经训练的模型420,并且经训练的模型420可以产生第一序列424。第一序列输入422可以与可以用于产生对应于氨基酸的第一序列424的一系列随机或伪随机数相对应,并且第一序列424可以包括蛋白质的氨基酸序列。由经训练的模型420产生的第一序列424可以被表示为与用于表示第一结构化序列418和第一生成序列410的矩阵结构相同或相似的矩阵结构。在各种实现方式中,可以对由经训练的模型420产生的包括第一序列424的矩阵进行解码以产生与蛋白质序列相对应的氨基酸串。在操作426处,可以基于由经训练的模型420产生的第一序列424并且基于模型评估标准428、关于经训练的模型420来执行模型评估426。在特定实现方式中,模型评估标准428可以与用于确定第一生成式对抗网络402的训练是否已完成的标准相同或相似。在其他实现方式中,模型评估标准428可以与用于确定第一生成式对抗网络402的训练是否已经完成的标准不同。在说明性示例中,模型评估标准428可以与使用经训练的模型420产生的序列的特征相对应。在这些情况下,模型评估426可以包括将第一序列424与模型评估标准428中包括的序列特征进行比较。为了说明,模型评估426可以包括确定第一序列424在特定位置处是否包括指定氨基酸序列。在其他实现方式中,模型评估426可以包括确定第一序列424是否与具有指定生物物理结构以及/或者具有指定三级结构的氨基酸相对应。此外,模型评估426可以包括确定关于模型420是否存在收敛。在一些示例中,模型评估426可以包括人类专家基于模型评估标准428对第一序列424的检查。
在说明性示例中,蛋白质序列数据412可以包括抗体的氨基酸序列。在这些情况下,提供给第一挑战部件406的氨基酸序列可以与具有许多不同特征的抗体相对应。例如,可以将来自不同的同种型IgA、IgD、IgE、IgD和/或IgM的抗体的氨基酸序列提供给第一挑战部件406。在其他示例中,提供给第一挑战部件406的氨基酸序列可以与源自不同种系的基因的蛋白质相关。在另外的示例中,提供给第一挑战部件406的抗体的氨基酸序列可以具有各种长度以及/或者轻链可变区和/或重链可变区的序列。在其他示例中,提供给第一挑战部件406的氨基酸序列可以是抗体的轻链区的至少部分、抗体的重链区的至少部分或其组合。在其他示例中,提供给第一挑战部件406的氨基酸序列可以具有抗体的多种不同生物物理特性,例如对应于疏水性区域的氨基酸序列、对应于带负电荷的区域的氨基酸序列、对应于带正电荷的区域的氨基酸序列或其组合。此外,提供给第一挑战部件406的氨基酸序列可以对应于具有各种溶解度特征和/或各种热降解特征的抗体和/或抗体区域。
作为在具有第一特征集的蛋白质的多个氨基酸序列上训练第一生成式对抗网络402的结果。在示例中,可以使用具有相对一般特性的氨基酸序列来训练第一生成式对抗网络402。在一些实现方式中,可以使用几千或更多个氨基酸序列量级的数据集来训练第一生成式对抗网络402。在特定的说明性示例中,可以训练第一生成式对抗网络402以生成通常表现出与抗体相对应的特征的氨基酸序列。在这些实现方式中,模型评估426可以确定第一序列424是否与抗体的一般特征相对应。例如,模型评估标准428可以识别第一序列424中抗体的结构。为了说明,模型评估426可以确定第一序列424是否具有可变区和恒定区。模型评估426还可以确定第一序列424是否具有与重链区中的多个氨基酸相对应的指定数量或指定数字范围的氨基酸以及/或者轻链区中的指定数量或指定数字范围的氨基酸。另外,模型评估426可以确定第一序列424是否具有链接重链的恒定区的铰链区。此外,模型评估426可以确定第一序列424是否具有可以在指定位置处形成二硫键的氨基酸。
在模型评估426确定经训练的模型420满足一个或更多个模型评估标准之后,经训练的模型420可以对另一数据集进行另外的训练。在实现方式中,经训练的模型420可以被表示为包括在第二生成式对抗网络430中,第二生成式对抗网络430包括第二生成部件432和第二挑战部件434。在特定示例中,经训练的模型420可以由第二生成部件432表示。在各种实现方式中,第二生成部件432可以包括在已经对经训练的模型420作出一个或更多个修改之后的经训练的模型420。例如,可以关于经训练的模型420的架构对经训练的模型420进行修改,例如添加一个或更多个隐藏层或改变一个或更多个网络过滤器。第二生成部件432可以获得第二输入向量436以产生第二生成序列438。在各种实现方式中,第二挑战部件434可以是鉴别器。在其他情况下,例如当第二生成式对抗网络430是Wasserstein GAN时,第二挑战部件434可以包括评价器。第二输入向量436可以包括随机或伪随机数字序列。
第二挑战部件434可以生成指示由第二生成部件432产生的氨基酸序列是否满足各种特征的第二分类输出440。在说明性示例中,基于第二生成序列438与提供给第二挑战部件434的序列——例如包括在蛋白质序列数据412中的氨基酸序列——之间的相似性和差异,第二挑战部件434可以生成第二分类输出440,该第二分类输出440指示第二生成序列238与提供给第二挑战部件434的比较序列之间的相似性的量或差异的量。提供给第二挑战部件434的比较序列可以与包括在第二蛋白质序列数据442中的氨基酸序列相对应。第二蛋白质序列数据442可以包括与第一蛋白质序列数据412中包括的氨基酸序列可以至少部分不同的氨基酸序列。在一些说明性示例中,第二蛋白质序列数据442可以包括第一蛋白质序列数据412的子集。在实现方式中,通过根据一个或更多个标准分析第一蛋白质数据412,可以将蛋白质序列过滤应用于第一蛋白质序列数据412。例如,第二蛋白质序列数据442可以与特定类型的蛋白质相对应以及/或者与包括在特定位置处具有指定氨基酸的区域的氨基酸序列相对应。另外,第二蛋白质序列数据442可以与具有指定生物物理特性的蛋白质的氨基酸序列相对应。在各种实现方式中,第二蛋白质序列数据442可以与具有指定结构特性的蛋白质的氨基酸序列相对应。指定结构特性的示例可以包括一个或更多个区域的表面电荷和翻译后修饰(post translational modification)。
第二挑战部件434可以用0标记第二生成序列438,并且用1标记源自蛋白质序列数据442的结构化序列。在这些情况下,第二分类输出440可以包括从0到1的数字。在其他示例中,当第二生成式对抗网络430是Wasserstein GAN时,第二挑战部件434可以实现距离函数,该距离函数产生指示第二生成序列238与包括在第二蛋白质序列数据442中的蛋白质之间的距离量的输出。在第二挑战部件434实现距离函数的实现方式中,第二分类输出440可以是从-∞到∞的数。在一些示例中,从第二蛋白质序列数据442获得的氨基酸序列可以称为地面实况数据。
在经过滤的序列444已经由蛋白质序列过滤442产生之后,经过滤的序列可以在被提供给第二挑战部件434之前经受第二数据预处理446。在实现方式中,在将经过滤的序列444提供给第二挑战部件434之前可以根据分类系统来布置经过滤的序列444。第二数据预处理444可以包括将第二蛋白质序列数据442的蛋白质中包括的氨基酸与可以表示蛋白质内位置的数值进行配对。数值可以包括具有起点和终点的数字序列。第二数据预处理444可以生成被提供给第二挑战部件434的第二结构化序列446。第二结构化序列446可以包括指示与蛋白质的各个位置相关联的氨基酸的矩阵。在示例中,第二结构化序列446可以包括具有与不同氨基酸相对应的列以及与蛋白质的基于结构的位置相对应的行的矩阵。对于矩阵中的每个元素,0可以用于指示在相应位置处不存在氨基酸,以及1可以用于指示在相应位置处存在氨基酸。矩阵还可以包括附加列,该附加列表示氨基酸序列中在氨基酸序列的特定位置处没有氨基酸的间隙。因此,在位置表示氨基酸序列中的间隙的情况下,对于与不存在氨基酸的位置相关联的行,可以将1置于间隙列中。也可以根据与用于第二结构化序列446的编号方案相同或相似的编号方案使用向量来表示第二生成序列438。在一些说明性示例中,可以使用可以被称为独热编码方法的方法来对第二结构化序列446和第二生成序列438进行编码。
在第二生成式对抗网络430已经经历训练处理之后,可以生成可以产生蛋白质序列的修改的经训练模型448。修改的经训练模型448可以表示在使用第二蛋白质序列数据442进行训练之后的经训练的模型420。在示例中,用于第二生成式对抗网络430的训练处理可以在由第二生成部件432和第二挑战部件434实现的函数收敛之后完成。函数的收敛可以基于在蛋白质序列由第二生成部件432生成并且从第二挑战部件434获得反馈时模型参数值朝向特定值的移动。在各种实现方式中,当由第二生成部件432生成的蛋白质序列具有特定特征时,第二生成式对抗网络430的训练可以完成。
可以将第二序列输入450提供给修改的经训练模型448,并且修改的经训练模型448可以产生第二序列452。第二序列输入450可以包括一系列随机或伪随机数,以及第二序列452可以包括可以是蛋白质序列的氨基酸序列。在操作454处,可以评估第二序列452以确定第二序列452是否具有指定的特征集。序列评估454可以产生指示第二序列452的特征——例如,蛋白质或蛋白质区域的生物物理特性以及/或者位于指定位置处的氨基酸的存在或不存在——的度量456。另外,度量456可以指示第二序列452的特征与指定的特征集之间的对应量。在一些示例中,度量456可以指示与蛋白质的种系基因产生的序列不同的第二序列452的位置数量。此外,序列评估454可以确定与第二序列452相对应的蛋白质的结构特征的存在或不存在。
作为第二生成式对抗网络430的一部分,通过继续训练经训练的模型420,可以产生修改的经训练模型448,该修改的经训练模型448生成比由经训练的模型420产生的氨基酸序列更专门定制的氨基酸序列。例如,可以使用与具有特定结构特征和/或指定生物物理特性的蛋白质相对应的经过滤的氨基酸序列来训练第二生成式对抗网络430。因此,一旦经训练的模型420已经由第一生成式对抗网络402产生以生成对应于蛋白质的氨基酸序列,就可以作为第二生成式对抗网络430的一部分,产生修改的经训练模型448以根据提供给第二生成式对抗网络430的第二蛋白质序列数据442来产生更特定蛋白质的氨基酸序列。
另外,在期望产生具有特定特征的蛋白质的氨基酸序列的许多情况下,可用于训练生成式对抗网络的序列数量是有限的。在这些情况下,用于产生具有指定特征的蛋白质的氨基酸序列的生成式对抗网络的准确性、效率和/或有效性可能不令人满意。因此,在没有足够数量的可用于训练生成式对抗网络的氨基酸序列的情况下,由生成式对抗网络产生的氨基酸序列可能不具有期望的特征。通过实现关于图4描述的技术和系统,第一生成式对抗网络402可以执行使用第一数据集来确定与蛋白质相对应或与更广泛类别的蛋白质相对应的氨基酸序列的处理的一部分,并且第二生成式对抗网络430可以执行使用不同的第二数据集来准确且高效地生成具有更多特定特性的蛋白质的氨基酸序列的处理的附加部分。
在说明性示例中,修改的模型448可以产生与具有特定特征的抗体或抗体部分相对应的氨基酸序列。例如,在第一生成式对抗网络402已经产生经训练的模型420以生成具有抗体特征的氨基酸序列之后,通常,第二生成式对抗网络430可以产生修改的经训练模型448以产生具有指定生物物理特征、对应于与种系基因相关的抗体或抗体区域的氨基酸序列或具有指定结构特征——例如指定位置处的特定结构特性——的抗体的氨基酸序列中的至少一者的抗体或抗体部分。在特定说明性示例中,经训练的模型420可以用于生成与IgG抗体相对应的氨基酸序列,以及修改的经训练模型448可以用于生成与包括轻链的IgG抗体相对应的氨基酸序列,氨基酸序列具有在指定位置处具有特定氨基酸的可变区。在另外的说明性示例中,经训练的模型420可以用于生成抗体的重链的氨基酸序列,以及修改的经训练的模型448可以用于生成可以在指定位置处形成二硫键的抗体的重链的氨基酸序列。
虽然图4的说明性示例示出了在包括两个生成式对抗网络的框架中使用多个训练集对模型的训练,但在另外的实现方式中,使用多个训练数据集对模型的训练也可以使用单个生成式对抗网络来表示。此外,虽然图4的说明性示例示出了用两个训练数据集对使用生成式对抗网络的模型的训练,但是在各种实现方式中,根据本文描述的实现方式,可以使用多于两个的数据集来训练使用生成式对抗网络的模型。
图5是示出根据一些实现方式的用于生成作为亲本抗体的变体的抗体序列的示例框架500的图。框架500可以包括生成式对抗网络502,生成式对抗网络502可以包括生成部件504和挑战部件506。生成部件504可以实现基于提供给生成部件504的输入来生成氨基酸序列的模型。在各种实现方式中,由生成部件504实现的模型可以包括一个或更多个函数。在实现方式中,生成部件504可以利用模型来产生所生成的序列508。在各种示例中,生成部件504可以实现基于提供给生成部件504的输入向量510和亲本抗体序列512生成氨基酸序列的模型。训练输入510可以包括指定长度的随机或伪随机数字序列。可以将亲本抗体序列512作为具有与不同氨基酸相对应的列以及与蛋白质的基于结构的位置相对应的行的矩阵提供给生成部件504。对于矩阵中的每个元素,0可以用于指示在相应位置处不存在氨基酸,以及1可以用于指示在相应位置处存在氨基酸。矩阵还可以包括附加列,该附加列表示氨基酸序列中在氨基酸序列的特定位置处没有氨基酸的间隙。因此,在位置表示氨基酸序列中的间隙的情况下,对于与不存在氨基酸的位置相关联的行,可以将1置于间隙列中。亲本抗体序列512可以包括基础分子,生成式对抗网络502可以利用该基础分子来训练模型以产生与亲本抗体序列512相对应的变体抗体序列。
挑战部件506可以生成指示由生成部件504产生的氨基酸序列是否满足各种特征的输出。在各种实现方式中,挑战部件506可以是鉴别器。在其他情况下,例如当生成式对抗网络502是Wasserstein GAN时,挑战部件506可以包括评价器。在示例中,挑战部件506可以生成指示由生成部件504产生的氨基酸序列是否满足各种特征的分类输出514。在说明性示例中,基于所生成的序列508与提供给挑战部件506的附加序列——例如包括在抗体序列数据516中的氨基酸序列——之间的相似性和差异,挑战部件50可以生成指示所生成的序列508与提供给挑战部件506的包括在抗体序列数据516中的序列之间的相似性的量或差异的量的分类输出514。抗体序列数据516可以包括从存储抗体序列的一个或更多个数据库获得的抗体的氨基酸序列。另外,分类输出514可以指示所生成的序列508与亲本抗体序列512之间的相似性的量或差异的量。
在示例中,挑战部件506可以将生成的序列508标记为零,并且将从蛋白质序列数据516获得的结构化序列标记为1。挑战部件506还可以将亲本抗体序列512标记为1。在这些情况下,分类输出514可以包括关于抗体序列数据516中包括的一个或更多个氨基酸序列的从0到1的第一数字和关于亲本抗体序列512的从0到1的第二数字。在其他示例中,挑战部件506可以实现产生输出的距离函数,该输出指示所生成的序列508与包括在抗体序列数据516中的蛋白质之间的距离量。此外,挑战部件506可以实现距离函数,该距离函数产生指示所生成的序列508与亲本抗体序列512之间的距离量的输出。在挑战部件506实现距离函数的实现方式中,分类输出514可以包括从-∞至∞的第一数字和从-∞至∞的第二数字,所述第一数字指示所生成的序列508与包括在抗体序列数据516中的一个或更多个序列之间的距离,所述第二数字指示所生成的序列508与亲本抗体序列512之间的距离。
在各种实现方式中,可以使用惩罚函数来确定与所生成的序列508与亲本抗体序列512之间的差异量或相似性量相关的分类输出514。在特定的实现方式中,挑战部件506可以关于所生成的序列508与亲本抗体序列512之间的相似性的量以及/或者所生成的序列508与亲本抗体序列512之间的不相似性的量来相对于亲本抗体序列512评估所生成的序列508。在示例中,可以指定所生成的序列508与亲本抗体序列512之间的不相似性的第一阈值量。另外,可以指定所生成的序列508与亲本抗体序列512之间的相似性的第二阈值量。挑战部件506可以基于不相似性的第一阈值量或相似性的第二阈值量中的至少一个来相对于亲本抗体序列512评估所生成的序列508。在实现方式中,挑战部件506可以基于所生成的序列508与亲本抗体序列512之间关于第一阈值和/或第二阈值的相似性和/或不相似性的量来实现惩罚函数,并且当生成与亲本抗体序列512相对于所生成的序列508相对应的分类输出514的部分时,利用惩罚函数的输出。
包括在抗体序列数据516中的抗体序列可以在518处经受数据预处理,其中,在将抗体序列提供给挑战部件506之前将其映射到分类系统520上。分类系统520可以指示抗体的某些区域要由特定数量的位置表示。例如,重链可变区可以由分类系统520内的125至165个位置(例如149个位置)表示。在其他示例中,重链恒定区可以由分类系统520内的110至140个位置(例如123个位置)表示。在其他示例中,重链的铰链区可以由分类系统520内的110至140个位置(例如123个位置)表示。在抗体的氨基酸序列不包括与针对抗体区域的指定数量的位置相对应的多个氨基酸的情况下,在518处的数据预处理可以引入针对分类系统520中的一个或更多个位置的空值。在实现方式中,空区可以与可以指示抗体的结构信息的间隙相对应。因此,分类系统520可以容纳包括在抗体的各个区域中的可变数量的氨基酸。将抗体序列数据516的至少一部分的抗体序列映射到分类系统520上可以生成标准化数据集,该标准化数据集可以由生成式对抗网络502进行处理并且与包括在抗体的各个区域中的氨基酸数量无关。
在说明性示例中,在518处发生的将抗体序列映射到分类系统520上可以包括确定抗体的可变区和恒定区。可以通过将包括在抗体序列数据516中的氨基酸序列与对应于抗体的各个区域的模板氨基酸序列进行比较来确定抗体的可变区和恒定区。在具体示例中,可以针对每种区域类型生成位置特异性评分矩阵(PSSM)以确定抗体序列部分与针对抗体区域的模板氨基酸序列之间的比对(alignment)。在确定抗体序列与模板序列之间的局部比对的情况下,从种系基因产生的抗体序列可以用于进一步确定分类系统520内抗体序列的各个氨基酸的定位。
在与种系基因相关的序列用于识别可以与特定类型的抗体区域相对应的抗体序列的一部分后,可以确定抗体序列的特定部分与模板序列之间的同一性的量。在给定抗体序列中最小数量的氨基酸对应于模板序列以及/或者模板序列与给定抗体序列之间的同一性的量为同一性的至少阈值量的情况下,给定抗体序列可以被分类为对应于模板的特定区域。在示例中,给定的抗体序列可以被分类为抗体的重链的互补决定区(CDR)。另外,已经被分类为与特定区域相关的各个抗体序列也可以被赋予可以指示给定抗体序列对应于分类的可能性的评分。可以通过评分来对具有交叠序列的抗体序列的部分进行过滤,使得抗体序列的最高评分部分被分配分类。在针对具有特定分类的抗体序列的给定部分的氨基酸数量小于分类系统520中分配给分类的位置数量的情况下,可以确定抗体序列内的间隙。
尽管已经参照图5的说明性示例描述了特定的分类系统520,但是除了分类系统520之外,或者作为分类系统520的替选,可以使用另外的分类系统。例如,Kabat分类方案、Chotia分类方案、Martin分类方案、Gelfand分类方案、IMGT分类方案、Aho分类方案、其组合等可以用于对包括在抗体序列数据516中的抗体的氨基酸序列进行分类。
在已经在518处将抗体序列数据516映射到分类系统520上之后,可以将映射的序列数据522提供给挑战部件506。映射的序列数据522可以包括指示针对抗体区域的氨基酸位置以及指示与各个位置相关联的氨基酸的矩阵。在关于分类系统的氨基酸序列中存在间隙的情况下,空值可以与包括在矩阵中的每个氨基酸相关联。
在生成式对抗网络502已经经历训练处理之后,可以生成可以产生蛋白质序列的经训练的模型524。在示例中,用于生成式对抗网络502的训练处理可以在由生成部件504实现的函数收敛之后完成。函数的收敛可以基于在抗体序列由生成部件504生成并且从挑战部件506获得反馈时模型参数值朝向特定值的移动。在各种实现方式中,当由生成部件504产生的抗体序列具有特定特征时,生成式对抗网络502的训练可以完成。为了说明,可以通过软件工具来分析由生成部件504生成的氨基酸序列,所述软件工具可以分析氨基酸序列以确定氨基酸序列的生物物理特性、氨基酸序列的结构特征或对与至少一种抗体种系的一个或更多个基因对应的氨基酸序列的依从性中的至少一者。
可以将序列输入526提供给模型524,并且模型524可以产生抗体序列528。序列输入526可以与具有指定长度的一系列随机或伪随机数相对应。在各种实现方式中,抗体序列528可以包括亲本抗体序列512的变体。在530处,可以评估抗体序列528以确定抗体序列528是否具有指定的特征集。序列评估530可以产生指示抗体序列528的特征的度量532。另外,度量532可以指示抗体序列528的特征与指定的特征集之间的对应量。在一些示例中,度量532可以指示与源自抗体的种系基因的氨基酸序列不同的氨基酸序列528的位置数量。
图6是示出根据一些实现方式的用于生成与指定抗原结合的抗体的氨基酸序列的示例框架400的图。框架600可以包括生成式对抗网络602,生成式对抗网络602可以包括生成部件604和挑战部件606。生成式对抗网络602可以包括条件生成式对抗网络。生成部件604可以实现基于提供给生成部件604的输入来生成氨基酸序列的模型。在各种实现方式中,由生成部件604实现的模型可以包括一个或更多个函数。在实现方式中,生成部件604可以利用模型来产生所生成的序列608。
生成部件604可以实现基于提供给生成部件604的输入向量610和抗原序列612生成氨基酸序列的模型。输入向量610可以包括指定长度的随机或伪随机数字序列。可以将抗原序列612作为具有与不同氨基酸相对应的列以及与蛋白质的基于结构的位置相对应的行的矩阵提供给生成部件604。对于矩阵中的每个元素,0可以用于指示在相应位置处不存在氨基酸,以及1可以用于指示在相应位置处存在氨基酸。矩阵还可以包括附加列,该附加列表示氨基酸序列中在氨基酸序列的特定位置处没有氨基酸的间隙。因此,在位置表示氨基酸序列中的间隙的情况下,对于与不存在氨基酸的位置相关联的行,可以将1置于间隙列中。抗原序列612可以对应于具有由生成部件604产生的氨基酸序列的抗体可以结合的抗原。在各种示例中,抗原序列612可以对应于具有抗体可以结合的一个或更多个表位区域的抗原。在一个或更多个示例中,生成式对抗网络602可以产生与一个或更多个表位区域结合的抗体的氨基酸序列。
挑战部件606可以生成指示由生成部件604产生的氨基酸序列是否具有各种特征的输出。在实现方式中,挑战部件606可以是生成式对抗网络602的鉴别器。挑战部件606可以生成指示由生成部件604生成的氨基酸序列是否满足一个或更多个标准的分类输出614。在说明性示例中,基于所生成的序列608与作为训练数据提供给挑战部件606的附加序列——例如包括在抗体-抗原序列数据616中的氨基酸序列——之间的相似性和差异,挑战部件606可以生成指示所生成的序列608与从抗体-抗原相互作用数据616提供给挑战部件606的序列之间的相似性的量或差异的量的分类输出614。
可以从一个或更多个数据库获得抗体-抗原相互作用数据616,所述一个或更多个数据库存储与抗体和抗原的结合相关的数据。抗体-抗原相互作用数据616可以存储抗体的氨基酸序列和被抗体结合的抗原的氨基酸序列。抗体-抗原相互作用数据616还可以包括关于各个抗体和各个抗原的二级结构或三级结构中的至少一者的信息。在各种示例中,抗体-抗原相互作用数据616可以包括与各个抗体和各个抗原在彼此结合时的二级结构或三级结构中的至少一者相对应的信息。另外,抗体-抗原相互作用数据616可以包括抗原的表位区的氨基酸序列和抗体的相应结合区的氨基酸序列,以及各种抗体区与相应表位区结合的结合强度或概率中的至少一个。在说明性示例中,抗体-抗原相互作用数据616可以指示经由非共价分子间相互作用/原子相互作用/化学相互作用——例如范德华力、氢键、静电相互作用、疏水力、其组合等——与抗体的一个或更多个位置结合的抗原的多个位置。
在说明性示例中,提供给挑战部件606的抗体序列数据616的与抗原序列612相关的部分可以包括关于抗原序列612具有至少最小结合亲和力的抗体的氨基酸序列。抗体的氨基酸序列的一部分关于抗原序列612的结合亲和力可以基于抗体的氨基酸序列的该部分关于与抗原序列612具有至少阈值相似性的抗原的结合亲和力来确定。例如,可以将抗原序列612与存储作为抗体-抗原相互作用数据616的一部分的抗原的氨基酸序列进行比较。可以确定具有相对于抗原序列612具有至少阈值量的同一性的氨基酸序列的抗原。然后可以识别与抗原结合的抗体的氨基酸序列,并且可以将这些氨基酸序列作为输入发送至挑战部件606。在其他示例中,可以将包括在抗体-抗原相互作用数据616中的抗原的表位区域的氨基酸序列与抗原序列612进行比较。在这些情况下,可以确定包括在抗体-抗原相互作用数据616中的与抗原序列612的一个或更多个部分具有至少阈值量的同一性的抗原的表位区域。然后可以识别与这些表位区域结合的抗体,并且将所述抗体作为输入发送至挑战部件606。
挑战部件606可以产生分类输出614,该分类输出614基于所生成的序列608与提供给挑战部件606的训练数据之间的对应量来标记所生成的序列608。训练数据可以包括抗体-抗原相互作用数据616中包括的氨基酸序列的至少一部分。分类输出614可以基于与生成式对抗网络602相关联的生成式对抗网络的类型。例如,对于第一类型的生成式对抗网络,挑战部件606可以针对相对于提供给挑战部件820的训练数据具有至少阈值对应量的所生成的序列608生成1的分类输出614。此外,对于第一类型的生成式对抗网络,挑战部件606可以针对相对于提供给挑战部件606的训练数据具有小于阈值对应量的所生成的序列608生成0的分类输出。在各种示例中,对于第一类型的生成式对抗网络,挑战部件606可以生成分类输出614,该分类输出614基于所生成的序列608与提供给挑战部件606的训练数据中包括的氨基酸序列之间的相似性的量使用从0到1的数值标度来标记所生成的序列608。
另外,在生成式对抗网络602实现第二类型的生成式对抗网络(例如WassersteinGAN)的情况下,挑战部件606可以实现产生分类输出614的距离函数,该分类输出614指示所生成的序列608与提供给挑战部件606的训练数据中包括的氨基酸序列之间的距离量。例如,挑战部件606可以产生包括从-∞到∞的数字的分类输出614,该分类输出614指示所生成的序列608与抗体-抗原相互作用数据616中包括的氨基酸序列的至少一部分之间的距离。在各种示例中,从抗体-抗原相互作用数据616获得的训练数据可以被称为地面实况数据。
从抗体-抗原相互作用数据616获得的氨基酸序列可以在618处经受数据预处理。从抗体-抗原相互作用数据616获得的氨基酸序列可以包括抗体的氨基酸序列或抗原的氨基酸序列中的至少一者。在将氨基酸序列提供给挑战部件606之前,可以将其映射到分类系统上作为数据预处理618的一部分。例如,分类系统可以指示抗体的某些区域要由特定数量的位置表示。在示例性实现方式中,分类系统可以与关于图5描述的分类系统520相同或相似。在各种示例中,Kabat分类方案、Chotia分类方案、Martin分类方案、Gelfand分类方案、IMGT分类方案、Aho分类方案、其组合等可以用于对包括在抗体-抗原相互作用数据616中的抗体的氨基酸序列进行分类。将包括在抗体-抗原相互作用数据616中的氨基酸序列的至少一部分映射到分类系统上可以生成标准化数据集,该数据集可以由生成式对抗网络602进行处理并且与包括在抗体的各个区域中的氨基酸数量无关。在从抗体-抗原相互作用数据616获得的氨基酸序列已经经过预处理618之后,可以将与氨基酸序列相对应的抗体序列数据620发送至挑战部件608。
在生成式对抗网络602经历训练处理之后,可以生成可以产生抗体序列的经训练的模型622。在示例中,用于生成式对抗网络602的训练处理可以在由生成部件604实现的函数收敛之后完成。函数的收敛可以基于在抗体序列由生成部件604生成并且从挑战部件606获得反馈时模型参数值朝向特定值的移动。在各种实现方式中,当由生成部件604产生的抗体序列具有特定特征时,生成式对抗网络602的训练可以完成。为了说明,可以通过软件工具来分析由生成部件604生成的氨基酸序列,所述软件工具可以确定氨基酸序列的生物物理特性、氨基酸序列的结构特征或对与至少一种抗体种系的一个或更多个基因对应的氨基酸序列的依从性中的至少一者。
可以将序列输入624提供给经训练的模型622,并且经训练的模型622可以产生抗体序列626。序列输入624可以与具有指定长度的一系列随机或伪随机数相对应。在说明性示例中,序列输入624可以包括抗原序列612。在其他示例中,序列输入624可以包括指示一个或更多个抗体的一个或更多个区域的至少部分与一个或更多个抗原的至少一个或更多个区域的部分之间的相互作用的信息。在628处,可以评估抗体序列626以确定抗体序列626是否具有指定的特征集。例如,序列评估628可以产生指示抗体序列626的特征的度量630。另外,度量630可以指示抗体序列626的特征与指定的特征集之间的对应量。度量630还可以指示特征,例如包括在抗体626序列中的疏水性氨基酸的数量、包括在抗体序列626中的带正电荷的氨基酸的数量、包括在抗体序列626中的带负电荷的氨基酸的数量、具有抗体序列626的抗体的生物物理特性的测量、具有抗体序列626的抗体的表达水平或其一个或更多个组合。在一些示例中,度量630可以对应于抗体与抗原的结合量、抗体与抗原之间的相互作用、抗原与源自种系基因的抗体的氨基酸序列之间的相互作用量。
图7是示出根据一些实现方式的生成多个蛋白质库并对蛋白质库进行组合以生成附加蛋白质的示例框架700的图。框架700可以包括第一生成式对抗网络702和第二生成式对抗网络704。可以训练第一生成式对抗网络702并基于第一蛋白质序列706生成模型。另外,可以训练第二生成式对抗网络704并基于第二蛋白质序列708生成附加模型。在各种实现方式中,第一蛋白质序列706和第二蛋白质序列708可以包括相同的氨基酸序列。在其他实现方式中,第一蛋白质序列706可以包括不同于第二蛋白质序列708的至少一个氨基酸序列。
第一生成式对抗网络702可以产生包括在第一蛋白质序列库710中的蛋白质的多个氨基酸序列。另外,第二生成式对抗网络704可以产生包括在第二蛋白质序列库712中的多个氨基酸序列。包括在第一蛋白质序列库710中的氨基酸序列的至少一部分可以不同于包括在第二蛋白质序列库712中的氨基酸序列。在714处,可以将第一蛋白质序列库710与第二蛋白质序列库712进行组合以产生组合的蛋白质序列716。
在718处,可以根据一个或更多个标准720来评估组合的蛋白质序列716。例如,可以评估组合的蛋白质序列以确定组合的蛋白质序列718是否具有氨基酸序列的特定区域、是否与具有指定生物物理特性的氨基酸序列相关联以及/或者是否与具有指定三级结构的氨基酸序列相关联。在各种实现方式中,可以基于源自种系基因的蛋白质的氨基酸序列来评估组合的蛋白质序列716。
在已经在718处评估了组合的蛋白质序列716后,可以产生组合的蛋白质序列库722。组合的蛋白序列库722可以包括组合的蛋白序列716的至少一部分。在特定的实现方式中,可以根据标准720对组合的蛋白质序列716进行过滤,使得组合的蛋白质序列中包括的指定蛋白质序列包括在组合的蛋白质序列库中。
在说明性示例中,第一蛋白质序列库710可以包括与抗体的重链区相对应的氨基酸序列,以及第二蛋白质序列库712可以包括与抗体的轻链区相对应的氨基酸序列。在这些情况下,可以将重链区和轻链区进行组合以生成包括重链区和轻链区两者的完整抗体氨基酸序列。在各种实现方式中,可以生成附加生成式对抗网络,其可以将对应于重链区的氨基酸序列与对应于轻链区的氨基酸序列进行组合。
图8是示出根据一些实现方式的使用分别生成的成对抗体重链和轻链的氨基酸序列来生成抗体的氨基酸序列的其他示例框架800的图。框架800可以包括生成式对抗网络802。生成式对抗网络802可以实现一种或更多种神经网络技术。例如,生成式对抗网络802可以实现一个或更多个递归神经网络。另外,生成式对抗网络802可以实现一个或更多个卷积神经网络。在某些实现方式中,生成式对抗网络802可以实现递归神经网络和卷积神经网络的组合。
生成式对抗网络802可以包括轻链生成部件804和重链生成部件806。轻链生成部件804可以实现用于生成与抗体轻链的氨基酸序列相对应的数据的第一模型。另外,重链生成部件806可以实现用于生成与抗体重链的氨基酸序列相对应的数据的第二模型。轻链生成部件804可以实现用于基于提供给轻链生成部件804的第一输入数据808来生成抗体轻链的氨基酸序列的第一模型。重链生成部件806可以实现用于基于第二输入数据810来生成抗体重链的氨基酸序列的第二模型。第一输入数据808可以包括由随机数生成器或伪随机数生成器生成的第一噪声数据。第二输入数据810可以包括由随机数生成器或伪随机数生成器生成的第二噪声数据。在各种实现方式中,由轻链生成部件804实现的第一模型可以包括一个或更多个第一函数,所述一个或更多个第一函数各自包括具有相应第一权重的一个或更多个第一变量。由重链生成部件806实现的第二模型可以包括一个或更多个第二函数,所述一个或更多个第二函数各自包括具有相应第二权重的一个或更多个第二变量。
轻链生成部件804可以实现基于第一输入数据808产生轻链序列812的第一模型。轻链序列812可以包括与位于抗体轻链的位置处的氨基酸相对应的数据。轻链序列812可以包括根据一种或更多种编码方案进行编码的抗体轻链的氨基酸序列。在各种示例中,轻链序列812可以包括与根据方案进行编码的抗体轻链的各个位置处的氨基酸相对应的数据。在一个或更多个说明性示例中,轻链序列812可以包括根据独热编码方案进行编码的抗体轻链的氨基酸序列。
重链生成部件806可以实现基于第二输入数据810产生重链序列814的第二模型。重链序列814可以包括与位于抗体重链的位置处的氨基酸相对应的数据。重链序列814可以包括根据一种或更多种编码方案进行编码的抗体轻链的氨基酸序列。在各种示例中,重链序列814可以包括与根据方案进行编码的抗体重链的各个位置处的氨基酸相对应的数据。在一个或更多个说明性示例中,重链序列814可以包括根据独热编码方案进行编码的抗体重链的氨基酸序列。
可以将轻链序列812和重链序列814提供给序列组合部件816。序列组合部件816可以将至少一个轻链序列812与至少一个重链序列814进行组合以生成组合的抗体序列818。在各种实现方式中,序列组合部件816可以将单个轻链序列812与单个重链序列814进行组合。组合的抗体序列818可以包括与位于一个或更多个轻链序列812和一个或更多个重链序列814的位置处的氨基酸相对应的数据。在一个或更多个示例中,序列组合部件816可以通过连结一个或更多个轻链序列812和一个或更多个重链序列814来生成组合的抗体序列818。例如,序列组合部件816可以将表示抗体轻链序列的第一字母数字字符串添加至表示抗体重链序列的第二字母数字字符串以生成组合的抗体序列818。组合的抗体序列818可以包括与轻链序列812相对应的第一部分以及与重链序列814相对应的第二部分。例如,组合的抗体序列818的第一数量的位置可以与轻链序列812的氨基酸相对应,以及组合的抗体序列818的在第一数量的位置之后的第二数量的位置可以与重链序列814相对应。在其他示例中,组合的抗体序列818的第一数量的位置可以与重链序列814的氨基酸相对应,并且组合的抗体序列818的在第一数量的位置之后的第二数量的位置可以与轻链序列812相对应。在各种实现方式中,组合的抗体序列818可以与根据方案排列的一个或更多个轻链序列812和一个或更多个重链序列814的氨基酸相对应。
生成式对抗网络802可以包括挑战部件820。挑战部件820可以生成指示组合的抗体序列818满足或不满足一个或更多个特征的输出。挑战部件820可以产生可以提供给轻链生成部件804和重链生成部件806的分类输出822。挑战部件820可以关于包括抗体序列数据824的训练数据来对组合的抗体序列818进行评估。挑战部件820可以将由序列组合部件816生成的组合抗体序列818与抗体序列数据824中包括的氨基酸序列的至少一部分进行比较。基于比较生成的分类输出822可以指示组合的抗体序列818与抗体序列数据824中包括的氨基酸序列的至少一部分之间的对应量。例如,基于组合的抗体序列818与抗体序列数据824中包括的氨基酸序列的至少一部分之间的相似性和差异,由挑战部件820生成的分类输出822可以指示组合的抗体序列818与抗体序列数据824中包括的氨基酸序列的至少一部分之间的相似性的量或差异的量。
挑战部件820可以基于组合的抗体序列818与提供给挑战部件820的训练数据之间的对应量来产生对组合的抗体序列818进行标记的分类输出822。训练数据可以包括抗体序列数据824中包括的氨基酸序列的至少一部分。分类输出822可以基于与生成式对抗网络802相关联的生成式对抗网络的类型。例如,对于第一类型的生成式对抗网络,挑战部件820可以针对相对于提供给挑战部件820的训练数据具有至少阈值对应量的组合的抗体序列818生成1的分类输出822。此外,对于第一类型的生成式对抗网络,挑战部件820可以针对相对于提供给挑战部件820的训练数据具有小于阈值对应量的组合的抗体序列818生成0的分类输出。在各种示例中,对于第一类型的生成式对抗网络,挑战部件820可以生成分类输出822,该分类输出822基于组合的抗体序列818与提供给挑战部件820的训练数据中包括的氨基酸序列之间的相似性的量使用从0到1的数值标度来对组合的抗体序列818进行标记。
另外,在生成式对抗网络802实现第二类型的生成式对抗网络(例如WassersteinGAN)的情况下,挑战部件820可以实现产生分类输出822的距离函数,该分类输出822指示组合的抗体序列818与提供给挑战部件820的训练数据中包括的氨基酸序列之间的距离量。例如,挑战部件820可以产生包括从-∞到∞的数字的分类输出822,该分类输出822指示组合的抗体序列818与抗体序列数据824中包括的氨基酸序列的至少一部分之间的距离。在各种示例中,从抗体序列数据824获得的训练数据可以被称为地面实况数据。
包括在抗体序列数据824中的氨基酸序列可以在被提供给挑战部件820之前经受数据预处理826。在实现方式中,数据预处理826可以包括在将抗体序列数据824提供给挑战部件820之前根据分类系统来布置抗体序列数据824。例如,数据预处理826可以包括将抗体序列数据824的氨基酸序列中包括的氨基酸与可以表示抗体内基于结构的位置的数值进行配对。数值可以包括具有起点和终点的数字序列。在说明性示例中,T可以与数字43进行配对,指示苏氨酸分子位于指定抗体的基于结构的位置43处。
由数据预处理826产生的输出可以包括结构化序列828。结构化序列828可以包括指示与抗体的各个位置相关联的氨基酸的矩阵。在示例中,结构化序列828可以包括具有与不同氨基酸相对应的列以及与抗体的基于结构的位置相对应的行的矩阵。对于矩阵中的每个元素,0可以用于指示在相应位置处不存在氨基酸,以及1可以用于指示在相应位置处存在氨基酸。在位置表示氨基酸序列中的间隙的情况下,与该位置相关联的行针对每一列可以包括零。还可以根据与用于结构化序列828的编号方案相同或相似的编号方案使用向量来表示组合的抗体序列818。在一些说明性示例中,可以使用可以被称为独热编码方法的方法对结构化序列828和组合的抗体序列818进行编码。在各种实现方式中,结构化序列828可以包括抗体轻链的氨基酸序列,随后是抗体重链的氨基酸序列。在另外的实现方式中,结构化序列828可以包括抗体重链的氨基酸序列,随后是抗体轻链的氨基酸序列。结构化序列828中抗体轻链和抗体重链的布置可以与组合的抗体序列818中包括的抗体轻链和抗体重链的布置相对应。
在各种示例中,对轻链生成部件804和重链生成部件806的训练可以异步进行。例如,对重链部件806的训练可以停止一定时间段,而对轻链生成部件804的训练继续。在一个或更多个示例中,轻链生成部件804和重链生成部件806可以在一定时间段同时训练。在该时间段期间,对重链生成部件806的训练可以比对轻链生成部件804的训练进行得更快。在这些情况下,对重链生成部件806的训练可以停止一定时间段,轻链生成部件804在该时间段内继续训练。在一些示例中,可以在不同时间点处对由重链生成部件806生成的序列进行评估以确定关于由重链生成部件806生成的氨基酸序列的质量的度量。在各种示例中,当度量满足一个或更多个阈值度量时,对重链生成部件806的训练可以停止。轻链生成部件804可以继续训练,直到由轻链生成部件804产生的序列满足所述一个或更多个阈值度量。在来自轻链生成部件804和重链生成部件806两者的序列满足所述一个或更多个阈值度量之后,轻链生成部件804和重链生成部件806可以继续训练。在一个或更多个示例中,对轻链生成部件804和重链生成部件806的训练可以进行训练,直到用于对由轻链生成部件804和重链生成部件806产生的序列进行评估的一个或更多个度量偏离至少阈值量。
在一个或更多个说明性示例中,重链生成部件806的训练可以实现“蹒跚”权重(hobbled weight),使得对轻链生成部件804的训练和对重链生成部件806的训练以相对类似的速率进行。另外,对重链生成部件806的训练可以以较慢的梯度进行,使得对轻链生成部件804的训练和对重链生成部件806的训练以相对相似的速率进行。
在生成式对抗网络802已经经历训练处理之后,可以生成可以产生抗体的氨基酸序列的经训练的模型830。经训练的模型830可以包括在使用抗体序列数据824的训练处理之后的轻链生成部件804和重链生成部件806。在示例中,在分类输出822指示组合的抗体序列818与抗体序列数据824中包括的氨基酸序列之间的至少阈值对应量之后,用于生成式对抗网络802的训练处理可以完成。在其他实现方式中,当组合的抗体序列818具有特定特征时,对生成式对抗网络802的训练可以完成。为了说明,可以通过软件工具来分析由序列组合部件816生成的氨基酸序列,所述软件工具可以分析氨基酸序列以确定氨基酸序列的生物物理特性、氨基酸序列的结构特征或对与一个或更多个蛋白质种系对应的氨基酸序列的依从性中的至少一者。通过软件工具的分析确定的组合的抗体序列818的与指定特征相关的特征可以用于确定对生成式对抗网络802的训练是否完成。
可以将序列输入832提供给经训练的模型830,并且经训练的模型830可以产生组合的抗体序列库834。序列输入832可以与可以用于产生组合的抗体序列库834的一系列随机或伪随机数相对应。组合的抗体序列库834可以包括抗体的氨基酸序列,所述抗体的氨基酸序列包括与组合的抗体序列库834中包括的各个抗体相对应的至少一条轻链和至少一条重链。由经训练的模型830产生的组合的抗体序列库834中包括的氨基酸序列可以表示为与用于表示结构化序列828和/或组合的抗体序列818的矩阵结构相同或相似的矩阵结构。在各种实现方式中,由经训练的模型830产生的矩阵可以被解码以产生与抗体的序列相对应的氨基酸串,所述矩阵包括组合的抗体序列库834中包括的氨基酸序列。
在一些实现方式中,组合的抗体序列库834中包括的氨基酸序列可以经受一个或更多个过滤操作。一个或更多个过滤操作可以针对与一个或更多个指定特征相对应的序列中的一个或更多个来对组合的抗体序列库中包括的氨基酸序列进行解析。例如,可以对组合的抗体序列库834中包括的氨基酸序列进行分析以识别在特定位置处具有指定氨基酸的序列。也可以对组合的抗体序列库834中包括的氨基酸序列进行分析以识别在一个或更多个位置处具有一个或更多个特定氨基酸串的一个或更多个序列。在各种实现方式中,可以对组合的抗体序列库834中包括的氨基酸序列进行分析,以基于组合的抗体序列库834中包括的序列中的至少一个与已知具有生物物理特性集合的附加抗体的氨基酸序列之间的相似性来识别具有生物物理特性集合的一个或更多个序列。
在一个或更多个实现方式中,可以根据一个或更多个标准对由经训练的模型830生成的氨基酸序列以及/或者在对轻链生成部件804和重链生成部件806的训练期间生成的氨基酸序列进行评估。例如,可以基于与关于一种或更多种种系基因产生的氨基酸序列的一致性、氨基酸序列的免疫原性的测量或与CDR H3氨基酸序列的一致性中的至少一者来对经训练的模型830生成的氨基酸序列以及/或者在对轻链生成部件804和重链生成部件806的训练期间生成的氨基酸序列进行评估。PCA模型可以用于关于与CDR H3区域的对应性来确定何时停止训练轻链生成部件804或重链生成部件806中的至少一者。在各种示例中,对免疫原性的测量可以对应于MHC II类结合亲和力。
图9是示出根据一些实现方式的实现使用迁移学习技术从成对抗体重链和轻链的氨基酸序列生成抗体的氨基酸序列的框架900的图。框架900可以包括第一生成式对抗网络902。第一生成式对抗网络902可以包括第一轻链生成部件904、第一重链生成部件906、第一挑战部件908和第一序列组合部件910。在各种实现方式中,第一挑战部件908可以是鉴别器。第一轻链生成部件904可以实现基于提供给第一轻链生成部件904的输入来生成抗体轻链的氨基酸序列的模型。第一重链生成部件906可以实现基于提供给第一重链生成部件906的输入来生成抗体重链的氨基酸序列的模型。第一轻链生成部件904和第一重链生成部件906可以使用输入数据912生成氨基酸序列。输入数据912可以包括使用随机数生成器或伪随机数生成器产生的向量。在说明性示例中,输入数据912可以包括噪声信号,该噪声信号包括一系列数字。
第一序列组合部件910可以将由第一轻链生成部件904生成的氨基酸序列与由第一重链生成部件906生成的氨基酸序列进行组合以产生组合的抗体序列。第一序列组合部件910可以将组合的抗体序列提供给第一挑战部件908。第一挑战部件908然后可以生成指示组合的抗体序列是否满足各种特征的输出。可以将第一挑战部件908产生的输出作为反馈提供给第一轻链生成部件904和第一重链生成部件906中的至少一者。以这种方式,可以基于由第一挑战部件908提供的反馈来修改由第一轻链生成部件904和/或第一重链生成部件906实现的一个或更多个模型。在各种实现方式中,第一挑战部件908可以将由第一序列组合部件910产生的氨基酸序列与对应于用于第一生成式对抗网络902的训练数据的抗体的氨基酸序列进行比较,并且生成指示由第一序列组合部件910产生的氨基酸序列与训练数据中包括的抗体的氨基酸序列之间的对应量的输出。训练数据可以包括抗体序列数据914。抗体序列数据914可以对应于多个抗体的氨基酸序列。对于给定的抗体,抗体序列数据914可以包括抗体轻链和抗体重链的配对。在说明性示例中,抗体序列数据914可以包括由一个或更多个哺乳动物产生的抗体的氨基酸序列。抗体序列数据914还可以包括一种或更多种同种型类别的抗体——例如IgA抗体、IgD抗体、IgE抗体、IgG抗体和/或IgM抗体——的氨基酸序列。
可以以与图6的生成式对抗网络802描述的方式相同或相似的方式来训练第一生成式对抗网络902。例如,可以将抗体序列数据914的至少一部分馈送到第一挑战部件908中,并且与由第一序列组合部件910产生的输出进行比较。由第一序列组合部件910产生的输出可以基于由第一轻链生成部件904生成的抗体轻链的氨基酸序列以及由第一重链生成部件906生成的抗体重链的氨基酸序列。可以响应于迭代地确定关于由第一轻链生成部件904或第一重链生成部件906中的至少一者实现的一个或更多个函数的参数和/或权重来产生经训练的模型916。为了说明,经训练的模型916可以包括经训练的轻链生成部件918和经训练的重链生成部件920。
在各种示例中,可以进一步细化由经训练的模型916生成的氨基酸序列。为了说明,经训练的模型916可以通过使用与初始训练处理中使用的训练数据不同的训练数据集经受另一训练处理而被修改。例如,用于训练模型916的附加训练的数据可以包括用于初始产生经训练的模型916的数据的子集。在其他示例中,用于经训练的模型916的附加训练的数据可以包括与用于初始产生经训练的模型916的数据不同的数据集。在说明性示例中,经训练的模型916可以被进一步细化以生成具有一个或更多个指定属性的抗体的氨基酸序列。所述一个或更多个指定属性可以包括一个或更多个生物物理特性和/或一个或更多个表达水平的值。在这些情况下,可以使用包括具有所述一个或更多个指定属性的抗体的氨基酸序列的训练数据集进一步训练经训练的模型916。
在图9的说明性示例中,可以通过对包括训练模型916的第二生成式对抗网络922进行训练来表示经训练的模型916的细化。例如,第二生成式对抗网络922可以包括最初与经训练的轻链生成部件918相对应的第二轻链生成部件924以及最初与经训练的重链生成部件920相对应的第二重链生成部件926。在各种实现方式中,第二轻链生成部件924可以包括在对经训练的轻链生成部件918进行了一个或更多个修改后的经训练的轻链生成部件918。另外,第二重链生成部件926可以包括在对经训练的重链生成部件920进行了一个或更多个修改后的经训练的重链生成部件920。例如,可以关于经训练的轻链生成部件918的架构对经训练的轻链生成部件918进行修改,例如添加一个或更多个隐藏层或改变一个或更多个网络过滤器。第二生成式对抗网络922还可以包括第二序列组合部件928和第二挑战部件930。第二挑战部件930可以包括鉴别器。
可以将第一附加输入数据932提供给第二轻链生成部件924,并且第二轻链生成部件924可以产生一个或更多个轻链序列934。第一附加输入数据932可以包括第二轻链生成部件924用来产生轻链序列934的随机或伪随机数字序列。另外,可以将第二附加输入数据936提供给第二重链生成部件926并且第二重链生成部件926可以产生一个或更多个重链序列938。第二附加输入数据932可以包括第二重链生成部件926用来产生重链序列938的随机或伪随机数字序列。第二序列组合部件928可以将一个或更多个轻链序列934与一个或更多个重链序列938进行组合以产生一个或更多个组合的序列940。所述一个或更多个组合的序列940可以与包括至少一条轻链和至少一条重链的抗体的氨基酸序列相对应。
第二挑战部件930可以生成分类输出942,该分类输出942指示包括在组合的序列940中的氨基酸序列满足各种特征或者包括在组合的序列940中的氨基酸序列不满足各种特征。在说明性示例中,第二挑战部件930可以基于一个或更多个组合的序列940与作为训练数据提供给第二挑战部件930的氨基酸序列之间的相似性和差异来生成分类输出942。分类输出942可以指示组合的序列940与提供给第二挑战部件930的训练数据氨基酸序列之间的相似性的量或差异的量。
作为训练数据提供给第二挑战部件930的氨基酸序列可以包括在附加抗体序列数据944中。附加抗体序列数据944可以包括具有一个或更多个指定特征的蛋白质的氨基酸序列。例如,附加抗体序列数据944可以包括在人体中具有阈值表达水平的抗体的氨基酸序列。在其他示例中,附加抗体序列数据944可以包括具有一个或更多个生物物理特性和/或一个或更多个结构特性的抗体的氨基酸序列。为了说明,包括在附加抗体序列数据944中的抗体可以具有带负电荷的区域、疏水区域、相对低的聚集概率、指定百分比的高分子量(HMW)、熔解温度(melting temperature)、其一种或更多种组合等。在一个或更多个其他示例中,附加抗体序列数据944可以包括可以在迁移学习中使用的结合亲和力信息。在一个或更多个说明性示例中,附加抗体序列数据944可以与相对于一种或更多种分子(例如MHC II类分子)具有至少阈值量的结合亲和力的抗体相对应。在各种示例中,附加抗体序列数据944可以包括用于产生经训练的模型916的抗体序列数据914的子集。通过向第二挑战部件930提供具有一个或更多个指定特征的氨基酸序列,可以训练第二轻链生成部件924和第二重链生成部件926以产生具有有一种或更多种指定特征的至少阈值概率的抗体的氨基酸序列。
另外,在期望产生具有一种或更多种指定特征的抗体的氨基酸序列的许多情况下,可用于训练生成式对抗网络的序列的数量可能是有限的。在这些情况下,用于产生具有指定特征的抗体的氨基酸序列的生成式对抗网络的准确性、效率和/或有效性可能不令人满意。因此,在没有足够数量的可用于训练生成式对抗网络的氨基酸序列的情况下,由生成式对抗网络产生的氨基酸序列可能不具有期望的特征。通过实现关于图9描述的技术和系统,第一生成式对抗网络902可以执行训练用于产生具有一个或更多个指定特征的抗体的模型的处理的一部分,并且第二生成式对抗网络922可以执行附加训练来以准确且高效的方式生成具有所述一个或更多个指定特征的抗体的氨基酸序列。
包括在附加抗体序列数据944中的氨基酸序列在被提供给第二挑战部件930之前可以经受产生结构化序列948的数据预处理946。例如,可以在将附加蛋白质序列数据944提供给第二挑战部件930之前根据分类系统来布置附加蛋白质序列数据944。数据预处理946可以包括将附加蛋白质序列数据944中包括的抗体的氨基酸序列中包括的氨基酸与可以表示抗体内基于结构的位置的数值进行配对。还可以根据与用于结构化序列948的编号方案相同或相似的编号方案使用向量来表示组合的序列940。
在第二生成式对抗网络922已经经历训练处理之后,可以生成可以产生抗体的氨基酸序列的修改的经训练模型950。修改的经训练模型950可以表示在使用附加蛋白质序列数据944进行训练之后的经训练的模型916。可以将附加序列输入952提供给修改的经训练模型950,并且修改的经训练模型950可以产生抗体序列954。附加序列输入952可以包括一系列随机或伪随机数。在其他实现方式中,可以评估抗体序列954以确定抗体序列954是否具有指定的特征集。对抗体序列954的评估可以产生指示抗体序列954的特征的度量,例如抗体的生物物理特性、抗体区域的生物物理特性以及/或者位于抗体的指定位置处的氨基酸的存在或不存在。
虽然图9的说明性示例示出了在包括两个生成式对抗网络的框架中使用多个训练集对模型的训练,但在其他实现方式中,使用多个训练数据集对模型的训练也可以使用单个生成式对抗网络来表示。此外,虽然图9的说明性示例示出了用两个训练数据集对使用生成式对抗网络的模型的训练,但是在各种实现方式中,根据本文描述的实现方式,可以使用多于两个的数据集来训练使用一个或更多个生成式对抗网络的模型。
另外,虽然图9的说明性示例示出了第二生成式对抗网络922使用具有与经训练的重链生成部件920分离的轻链生成部件918的经训练的模型916,但是在其他实现方式中,由第二生成式对抗网络922用作生成部件的经训练的模型916可以是可以用于生成包括轻链和重链两者的氨基酸序列的单个生成部件。在这些实现方式中,第二生成式对抗网络922可以包括单个生成部件而不是第二轻链生成部件924和第二重链生成部件926两者,并且第二序列组合部件928可以不存在于第二生成式对抗网络922中。在各种实现方式中,在使用具有单个生成部件的生成式对抗网络更高效地捕获的轻链与重链的氨基酸之间的相互作用引入一种或更多种复杂度的情况下,可以由第二生成式对抗网络922实现单个生成部件而不是分开的轻链生成部件和重链生成部件。此外,在一个或更多个实现方式中,可以将附加层添加到第二生成式对抗网络922以生成抗体的氨基酸序列。在各种实现方式中,可以在第二序列组合部件928之后或作为第二序列组合部件928的一部分将一个或更多个附加层添加至第二生成式对抗网络922以生成组合的序列940。
图10是示出根据一些实现方式的用于抗体重链和轻链的氨基酸序列的连结的框架1000的图。框架1000可以包括轻链生成部件1002,该轻链生成部件1002生成与抗体轻链的第一氨基酸序列1004相对应的数据。轻链生成部件1002可以是生成式对抗网络的一部分。另外,轻链生成部件1002可以实现产生与抗体轻链的氨基酸序列相对应的数据的一个或更多个第一模型。所述一个或更多个第一模型可以包括具有一个或更多个变量、一个或更多个参数、一个或更多个权重或其一个或更多个组合的一个或更多个函数。轻链生成部件1002可以基于由轻链生成部件1002获得的输入数据来产生与抗体轻链的氨基酸序列相对应的数据。输入数据可以包括由随机数生成器或伪随机数生成器产生的数字数据。
框架1000还可以包括生成与抗体重链的第二氨基酸序列1008相对应的数据的重链生成部件1006。重链生成部件1006可以是生成式对抗网络的一部分。在各种实现方式中,重链生成部件1006可以实现产生与抗体重链的氨基酸序列相对应的数据的一个或更多个第二模型。所述一个或更多个第二模型可以包括具有一个或更多个变量、一个或更多个参数、一个或更多个权重或其一个或更多个组合的一个或更多个附加函数。重链生成部件1006可以基于由重链生成部件1006获得的附加输入数据产生与抗体重链的氨基酸序列相对应的数据。附加输入数据可以包括由随机数生成器或伪随机数生成器产生的数字数据。
另外,框架1000可以包括连结部件1010,该连结部件1010将第一氨基酸序列1004和第二氨基酸序列1008进行组合以产生与第三氨基酸序列1012相对应的数据。连结部件1010可以将第二氨基酸序列1008附加到第一氨基酸序列1004上。例如,第一氨基酸序列1004可以包括第一字母串,其中,第一字母串中的每个字母指示位于抗体轻链的相应位置处的氨基酸。此外,第二氨基酸序列1008可以包括第二字母串,其中,第二字母串中的每个字母指示位于抗体重链的相应位置处的氨基酸。由连结部件1010生成的第三氨基酸序列1012可以包括第三字母串,第三字母串是通过将包括在第二氨基酸序列1008中的第二字母串添加到包括在第一氨基酸序列1004中的第一字母串的最后一个字母之后而产生的。为了说明,第一氨基酸序列1004以VESG终止,并且第二氨基酸序列1008以EIQM开始。连结部件1010可以通过在第一氨基酸序列1004的VESG之后添加以EIQM开始的第二氨基酸序列1008,将第一氨基酸序列1004与第二氨基酸序列1008进行组合。以这种方式,第三氨基酸序列1012包括与第一氨基酸序列1004中包括的第一数量的氨基酸和第二氨基酸序列1008中包括的第二数量的氨基酸的组合相对应的多个氨基酸。
可以将第三氨基酸序列1012提供给挑战部件1014,挑战部件1014可以对照训练数据1016评估第三氨基酸序列1012。挑战部件1014可以包括在生成式对抗网络中。在说明性示例中,挑战部件1014可以是生成式对抗网络的鉴别器。训练数据1016可以包括抗体的氨基酸序列。包括在训练数据1016中的氨基酸序列可以与由各种生物体产生的并且已经被分析以确定抗体的氨基酸序列的抗体相对应。在各种示例中,训练数据1016可以包括抗体轻链的氨基酸序列、抗体重链的氨基酸序列或抗体轻链与抗体重链的组合的氨基酸序列中的至少一者。通过关于训练数据1016来评估由连结部件1010生成的氨基酸序列(例如第三氨基酸序列1012),挑战部件1014可以生成分类输出1018。分类输出1018可以对应于第三氨基酸序列1012与包括在训练数据1016中的氨基酸序列之间的相似性的测量。
在各种示例中,可以将分类输出1018提供给轻链生成部件1002或重链生成部件1006中的至少一者。轻链生成部件1002和/或重链生成部件1006可以利用分类输出1018来修改由轻链生成部件1002和/或重链生成部件1006实现的一个或更多个模型。以这种方式,可以修改由轻链生成部件1002和/或重链生成部件1006实现的一个或更多个模型以生成与包括在训练数据1016中的氨基酸序列相对应的抗体轻链和/或抗体重链的氨基酸序列。
在一种或更多种情况下,框架1000可以包括一个或更多个附加计算层1020。附加计算层1020可以在将来自连结部件1010的输出提供给挑战部件1014之前修改来自连结部件1016的输出。在各种示例中,附加计算层1020可以是连结部件1010的一部分。附加计算层1020可以用于其中连结部件1010不考虑氨基酸序列与一个或更多个生物物理特性之间的关系的情况。另外,一个或更多个附加计算层1020可以用于其中在由轻链生成部件1002产生的轻链氨基酸序列与由重链生成部件1006产生的重链氨基酸序列之间存在非线性关系的情况。此外,一个或更多个附加计算层1020可以用于第一氨基酸序列1004与第二氨基酸序列1008之间存在可以由一个或更多个附加计算层1020捕获的各种相互作用的情况。
图11至图14示出了用于使用机器学习技术生成蛋白质的氨基酸序列的示例方法。示例过程被示出为逻辑流程图中的块的集合,所述逻辑流程图表示可以在硬件、软件或其组合中实现的操作的序列。所述块用数字表示。在软件的背景下,所述框表示存储在一个或更多个计算机可读介质上的计算机可执行指令,所述指令在由一个或更多个处理单元(例如硬件微处理器)执行时执行所述操作。通常,计算机可执行指令包括执行特定功能或实现特定数据类型的例程、程序、对象、部件、数据结构等。描述操作的顺序不旨在被解释为限制,并且可以以任何顺序以及/或者并行地组合任何数量的所描述的块以实现处理。
图11是示出根据一些实现方式的用于产生蛋白质序列的另一示例方法1100的流程图。在1102处,方法1100包括获得包括蛋白质的氨基酸序列的训练数据集。可以通过从一个或更多个数据库中提取蛋白质的氨基酸序列来获得训练数据集。在各种实现方式中,包括在训练数据集中的氨基酸序列可以与具有一个或更多个特征的蛋白质相对应。例如,包括在训练数据集中的氨基酸序列可以具有一个或更多个结构特征。在其他示例中,包括在训练数据集中的氨基酸序列可以具有一个或更多个生物物理特性。在另外的示例中,包括在训练数据集中的氨基酸序列可以具有包括指定氨基酸序列的一个或更多个区域。
在1104处,方法1100包括基于训练数据集生成已编码氨基酸序列。在各种实现方式中,可以通过将分类系统应用于包括在训练数据集中的氨基酸序列来产生已编码氨基酸序列。在示例中,分类系统可以识别氨基酸序列的一个或更多个区域。另外,生成已编码氨基酸序列可以包括针对每个氨基酸序列生成指示在各个氨基酸序列的各个位置处包括的氨基酸的矩阵。
在1106处,方法1100包括生成用于产生与包括在训练集中的氨基酸序列相对应的附加氨基酸序列的模型。可以使用从训练数据集产生的已编码氨基酸序列来生成模型。另外,可以使用生成式对抗网络来生成模型。在各种实现方式中,该模型可以用于产生具有一个或更多个特征的蛋白质的氨基酸序列,所述一个或更多个特征与对应于包括在训练数据集中的氨基酸序列的蛋白质的至少一个特征相同或相似。
在1108处,方法1100可以包括使用模型和输入向量生成附加氨基酸序列。在示例中,输入向量可以包括一系列随机或伪随机数。此外,在1110处,方法1100可以包括根据一个或更多个标准评估附加氨基酸序列以确定针对附加氨基酸序列的度量。用于评估附加氨基酸序列的技术和操作可以不同于由生成式对抗网络用于生成模型所使用的技术和操作。在实现方式中,可以执行计算机可读指令(例如与软件工具或软件平台相关联的计算机可读指令),以评估附加氨基酸序列。可以评估附加氨基酸序列以确定与附加氨基酸序列相对应的蛋白质是否具有一个或更多个指定的特征。在特定的实现方式中,可以评估附加氨基酸序列以确定来自源自种系基因的蛋白质的氨基酸序列的各个附加氨基酸序列的多个变体。
图12是示出根据一些实现方式的用于产生抗体序列的另一示例方法1200的流程图。在1202处,方法1200包括获得包括抗体的氨基酸序列的训练数据集。可以从存储抗体的氨基酸序列的一个或更多个数据库中获得氨基酸序列。
在1204处,方法1200包括生成用于产生具有与训练数据集的抗体的特征相似的一个或更多个特征的抗体的附加氨基酸序列的模型。可以使用生成式对抗网络来产生该模型。在实现方式中,附加氨基酸序列可以与具有一个或更多个指定结构特征的抗体相对应。此外,附加氨基酸序列可以与具有一种或更多种生物物理特征的抗体相对应。在其他示例中,附加氨基酸序列可以与源自种系基因的抗体的氨基酸序列相对应。
在1206处,方法1200可以包括使用模型和输入向量来生成附加氨基酸序列。在各种情况下,输入向量可以包括具有指定长度的一系列随机或伪随机数。该模型可以获得输入向量并使用该输入向量来产生与抗体氨基酸序列相对应的输出。
图13是示出根据一些实现方式的用于产生与指定靶分子结合的蛋白质的氨基酸序列的示例方法1300的流程图。方法1300可以包括在操作1302处获得指示靶分子的组成的第一数据。靶分子可以与针对其生成与靶分子结合的蛋白质的蛋白质相对应。靶分子的组成可以与构成靶分子的原子的排列相对应。在各种示例中,靶分子的组成可以包括构成靶分子的原子的亚组的排列。例如,靶分子可以包括蛋白质,并且靶分子的组成可以包括氨基酸序列。在说明性示例中,靶分子可以包括抗原,并且方法1300可以涉及生成与抗原结合的抗体的氨基酸序列。在附加说明性示例中,靶分子可以包括底物,并且方法1300可以涉及生成与底物结合的酶的氨基酸序列。
另外,在1304处,方法1300可以包括获得指示第一蛋白质组的各个第一蛋白质与一个或更多个附加分子之间的结合相互作用的第二数据。第二数据可以包括通过实验获得的数据,并且指示第一蛋白质与一个或更多个附加分子之间的结合。在各种示例中,可以模拟并通过计算得出第二数据,以指示第一蛋白质与一个或更多个附加分子之间的结合。结合相互作用可以包括结合亲和力(binding affinity)或结合亲合力(binding avidity)中的至少一者。在各种示例中,结合相互作用可以指示包括在抗体的结合区中的氨基酸序列和抗原的表位区的附加氨基酸序列,其中,结合区具有与表位区的至少阈值量的结合相互作用。另外,结合相互作用可以指示包括在结合区中的氨基酸与位于表位区中的附加氨基酸之间的偶联。在说明性示例中,第二数据可以包括各个蛋白质与一个或更多个附加分子之间的平衡常数。为了说明,第二数据可以包括各个第一蛋白质与一个或更多个附加分子之间的平衡解离常数。第二数据可以指示各个第一蛋白质可以与单个附加分子结合。第二数据还可以指示各个第一蛋白质可以与多个附加分子结合。此外,第二数据可以指示多个第一蛋白质可以与单个附加分子结合。
在各种实现方式中,第二数据可以指示发生结合的第一蛋白质的部分和附加分子的部分。例如,第二数据可以指示参与与附加分子的原子的结合相互作用的第一蛋白质的原子。在附加分子包括蛋白质的情况下,第二数据可以指示参与结合相互作用的第一蛋白质的氨基酸和附加分子的氨基酸。此外,在其他实施方式中,第一蛋白质可以包括抗体并且附加分子可以包括抗原。在这些情况下,第二数据可以指示包括在各个第一蛋白质的一个或更多个结合区域中的氨基酸和包括在各个抗原的一个或更多个表位区域中的氨基酸。
第二数据还可以指示参与结合相互作用的第一蛋白质和附加分子的结构特征。为了说明,第二数据可以指示参与结合相互作用的第一蛋白质的官能团和附加分子的官能团。另外,在附加分子包括蛋白质的情况下,第二数据可以指示参与结合相互作用的第一蛋白质和附加分子的二级结构或三级结构中的至少一者。在说明性示例中,第二数据可以指示作为结合相互作用的一部分的结构,例如片、螺旋、弯曲、线圈、匝、桥、环或其一个或更多个组合。
此外,在1306处,方法1300可以包括确定相对于靶分子的组成的至少一部分具有至少阈值量的相似性的附加分子的组成。可以通过确定包括在靶分子和附加分子中的一个或更多个原子的数量并比较原子的数量来确定靶分子与附加分子之间的相似性的量。例如,包括在靶分子中的碳原子的数量和包括在附加分子中的碳原子的数量可以被确定、可以被彼此比较。继续该示例,包括在靶分子中的碳原子的数量与附加分子中的碳原子的数量之间的差异量可以与靶分子与附加分子之间的相似性的量相对应。
另外,可以通过确定靶分子和附加分子的官能团并对包括在靶分子和附加分子中的一种或更多种类型的官能团的数量和/或位置进行比较来确定靶分子与附加分子之间的相似性的量。在这些情况下,靶分子与附加分子之间的相似性的量可以基于附加分子与靶分子的一个或更多个官能团的数量之间的差异。例如,靶分子与附加分子之间的相似性的量可以基于包括在靶分子中的醛基数量与包括在附加分子中的醛基数量之间的差异。在另一示例中,包括在靶分子中的芳基的数量与包括在附加分子中的芳基的数量可以用于确定靶分子与附加分子之间的相似性的量。官能团的位置之间的差异和/或相似性也可以用于确定靶分子与附加分子之间的相似性的量。为了说明,可以将位于靶分子的碳位置2和10处的羧基与附加分子的羧基的位置进行比较。继续该示例,靶分子与附加分子之间的相似性的量可以基于附加分子的羧基是否也位于位置2和10处。
在靶分子和附加分子是蛋白质的情况下,可以通过将靶分子的氨基酸序列和附加分子的氨基酸序列的各个位置处的氨基酸进行比较来确定靶分子与附加分子之间的相似性的量。在实现方式中,可以将位于靶分子的氨基酸序列的每个位置处的各个氨基酸与位于附加分子的氨基酸序列的每个位置处的各个氨基酸进行比较。在其他实现方式中,可以将位于靶分子的一个或更多个区域的位置处的各个氨基酸与位于对应于靶分子的所述一个或更多个区域的附加分子的一个或更多个区域的位置处的各个氨基酸进行比较。例如,可以将位于靶分子的表位区中的氨基酸与位于可以对应于该表位区的附加分子的一个或更多个区域中的氨基酸进行比较。具有与附加分子的氨基酸序列的至少相应部分的氨基酸相同的氨基酸的靶分子的氨基酸序列的至少一部分的位置的数量可以对应于靶分子与附加分子之间的同一性的量。在这些情况下,附加分子与靶分子之间的相似性的量可以对应于附加分子与靶分子的一个或更多个部分的氨基酸序列之间的同一性的量。
尽管已经关于各种示例描述了靶分子与附加分子之间的相似性的量,但是可以基于多个标准的一个或更多个组合来确定靶分子与附加分子之间的相似性的量。例如,可以通过分析以下中的至少一者来确定靶分子与附加分子之间的相似性的量:包括在靶分子和附加分子中的一个或更多个原子的数量、包括在靶分子和附加分子中的结合布置(例如,单键、双键、三键)的数量、包括在靶分子和附加分子中的一个或更多个官能团的数量、靶分子和附加分子的二级结构特征的位置、包括在靶分子和附加分子的二级结构特征中的氨基酸、靶分子和附加分子的三级结构、或关于靶分子与附加分子的一个或更多个区域的同一性。
附加分子与靶分子之间的相似性的阈值量可以基于与靶分子结合的蛋白质也与附加分子结合的可能性。在其中靶分子和附加分子是抗原的实现方式中,相似性的阈值量可以对应于靶分子的一个或更多个区域与附加分子的一个或更多个区域之间的同一性的最小量。在说明性示例中,靶分子与附加分子之间的相似性的阈值量可以对应于靶分子的表位区与附加分子的一个或更多个区域之间的同一性的最小量。
在1308处,方法1300可以包括确定与附加分子具有至少阈值量的结合相互作用的第一蛋白质组的子集。结合相互作用的阈值量可以与平衡解离常数的最大值相对应。在这些情况下,确定第一蛋白质组的子集可以包括确定单个第一蛋白质与附加分子之间的平衡解离常数。然后可以将平衡解离常数与阈值平衡解离常数进行比较。在平衡解离常数小于阈值平衡解离常数的情况下,可以将相应的第一蛋白质添加至第一蛋白质组的子集。
另外,在1310处,方法1300可以包括使用生成式对抗网络生成用于产生与靶分子具有至少阈值量的结合相互作用的附加蛋白质的附加氨基酸序列的模型。生成式对抗网络可以包括基于抗原序列产生抗体的氨基酸序列的生成部件。生成部件可以使用包括由随机数生成器或伪随机数生成器产生的噪声数据的输入向量来产生氨基酸序列。由生成部件产生的氨基酸序列可以由生成式对抗网络的挑战部件进行评估。挑战部件可以是鉴别器。挑战部件可以相对于与抗原具有至少阈值结合量的抗体氨基酸序列来对由生成部件产生的氨基酸序列进行评估,所述抗原相对于靶抗原具有至少阈值量的相似性。例如,挑战部件可以相对于在操作1308处确定的与附加分子具有至少阈值量的结合相互作用的第一蛋白质组的子集的氨基酸序列来对由生成部件产生的氨基酸序列进行分析。该模型可以包括具有一个或更多个变量的一个或更多个函数,其中,各个变量具有相应的权重。
处理1300还可以包括在1312处使用该模型来生成与靶分子相对应的第二蛋白质的多个第二氨基酸序列。例如,靶分子可以包括抗原,并且该模型可以用于生成抗体的氨基酸序列,所述抗体的氨基酸序列具有相对于抗原具有至少阈值结合相互作用的至少阈值概率。在说明性示例中,该模型可以用于生成抗体的氨基酸序列,所述抗体关于抗原具有至少阈值平衡解离常数。
图14是示出根据一些实现方式的通过将分别生成的抗体重链和轻链的氨基酸序列进行组合来产生抗体的氨基酸序列的示例方法1400的流程图。方法1400可以包括在1402处使用生成式对抗网络来生成对应于与抗体轻链相关的多个第一氨基酸序列的第一数据。生成式对抗网络可以包括实现用于生成所述多个第一氨基酸序列的第一模型的第一生成部件。第一模型可以包括具有一个或更多个第一变量和一个或更多个第一权重的第一函数。抗体轻链可以包括抗体轻链的可变区或恒定区中的至少一者。另外,抗体轻链可以包括抗体轻链的互补决定区(CDR)。生成式对抗网络可以使用输入数据来生成所述多个第一氨基酸序列。输入数据可以包括由随机数生成器或伪随机数生成器产生的数字串。
在1404处,方法1400可以包括使用生成式对抗网络生成与抗体重链相对应的多个第二氨基酸序列。生成式对抗网络还可以包括实现用于生成所述多个第二氨基酸序列的第二模型的第二生成部件。第二模型可以包括不同于第一函数的第二函数。第二函数可以包括一个或更多个第二变量和一个或更多个第二权重。抗体重链可以包括抗体重链的可变区或恒定区中的至少一者。抗体重链还可以包括抗体重链的CDR。生成式对抗网络可以使用附加输入数据来生成所述多个第二氨基酸序列。附加输入数据可以包括由随机数生成器或伪随机数生成器产生的数字串。
在1406处,方法1400可以包括使用生成式对抗网络将第一氨基酸序列与第二氨基酸序列进行组合以产生包括轻链氨基酸序列和重链氨基酸序列的抗体的第三氨基酸序列。可以通过将第二氨基酸序列连结至第一氨基酸序列而使第一氨基酸序列与第二氨基酸序列组合。在一个或更多个示例中,可以根据分类系统对第一氨基酸序列、第二氨基酸序列和第三氨基酸序列进行编码。
在1408处,方法1400可以包括通过生成式对抗网络来针对包括在训练数据中的附加氨基酸序列分析第三氨基酸序列。可以通过鉴别器来分析第三氨基酸序列,并且将输出提供给第一生成部件或第二生成部件中的至少一者。例如,基于鉴别器的输出,第一生成部件可以修改用于生成第一氨基酸序列的第一模型。另外,基于鉴别器的输出,第二生成部件可以修改用于生成第二氨基酸序列的第二模型。以这种方式,来自鉴别器的输出可以由第一生成部件或第二生成部件中的至少一者用作反馈,以生成更可能与包括在训练数据中的附加氨基酸序列相对应的氨基酸序列。
鉴别器随时间产生的输出可以指示第一模型的训练和第二模型的训练的进展量。在第一模型的训练完成后,第一经训练模型可以用于生成抗体轻链的氨基酸序列,以及在第二模型的训练完成后,第二经训练模型可以用于生成抗体重链的氨基酸序列。可以对由第一经训练模型和第二经训练模型产生的氨基酸序列进行组合,并且可以通过软件工具来对组合的氨基酸序列进行分析。软件工具可以确定关于组合的氨基酸序列的一个或更多个度量。为了说明,所述一个或更多个度量可以包括以下各项中的至少一者:疏水性氨基酸的数量、带正电荷的氨基酸的数量、带负电荷的氨基酸的数量、不带电荷的氨基酸的数量、表达水平、熔解温度或自聚集水平。
另外,第一经训练模型和第二经训练模型可以使用与用于产生第一经训练模型和第二经训练模型的初始训练数据不同的附加训练数据进行另外的训练。例如,附加训练数据可以包括具有一个或更多个特征的抗体的氨基酸序列。为了说明,附加训练数据可以包括具有带负电荷的区域、疏水区域、相对低的聚集概率、指定百分比的高分子量(HMW)、熔解温度、阈值表达水平或其一种或更多种组合的抗体的氨基酸序列。在这些实现方式中,来自生成式对抗网络的鉴别器的基于附加训练数据的输出可以用于进一步修改由第一生成部件和第二生成部件实现的模型,使得由生成式对抗网络产生的氨基酸序列可以与包括在附加训练数据中的抗体的氨基酸序列相对应。
图15是根据一些实现方式的在结构上比对抗体的氨基酸序列以输入至生成式机器学习架构的方案的示例。图15的结构对应于将分类系统应用于抗体的重链域。在一个或更多个说明性示例中,分类系统可以分配149个位置来对抗体重链的可变区进行编码。另外,用于产生图15的说明性示例中的结构1500的分类系统可以分配123个位置来对抗体重链的恒定区进行编码。此外,用于产生图15的说明性示例中的结构1500的分类系统可以分配123个位置来对抗体重链的铰链区进行编码。
与氨基酸序列的各个位置相关联的氨基酸可以由结构1500中的字母表示。另外,不与任何氨基酸相关联的位置可以在结构1500中表示。与结构1500相关的氨基酸序列中的间隙可以指示与图15所示的结构相对应的抗体结构。
在图15的说明性示例中,结构1500可以包括从第一位置到第二位置的包括第一重链框架区的氨基酸的第一区域1702以及从第二位置到第三位置的包括第一重链CDR的氨基酸的第二区域1704。另外,结构1500可以包括从第三位置到第四位置的包括第二重链框架区的氨基酸的第三区域1706以及从第四位置到第五位置的包括第二重链CDR的氨基酸的第四区域1708。此外,结构1500可以包括从第五位置到第六位置的包括第三重链框架区的氨基酸的第五区域1710以及从第六位置到第七位置的包括第三CDR的氨基酸的第六区域1712。结构1500还可以包括从第七位置到第八位置的包括第四重链框架区的氨基酸的第七区域1714以及从第八位置到第九位置的包括第一重链恒定区的氨基酸的第八区域1716。另外,结构1500可以包括从第九位置到第十位置的包括抗体重链的铰链区的第九区域1718。在各种示例中,结构1500可以包括从第十位置到第十一位置的包括第二重链恒定区的第十区域1720以及从第十一位置到第十二位置的包括第三重链恒定区的氨基酸的第十一区域1722。结构的每个区域可以包括预定数量的位置,并且至少一部分位置可以与特定的氨基酸相关联。
图16示出了根据示例实施方式的计算机系统形式的机器1600的图形表示,在该机器1600内可以执行指令的集合以使机器1600执行根据示例在本文中讨论的方法中的任何一个或更多个。具体地,图16以计算机系统的示例形式示出了机器1600的图形表示,在该机器1600中可以执行指令1624(例如,软件、程序、应用、小程序、app或其他可执行代码),以使机器1600执行本文讨论的方法中的任何一个或更多个。例如,指令1624可以使机器1600分别实现关于图1、图2、图3、图4、图5、图6、图7、图8、图9和图10描述的框架100、200、300、400、500、600、700、800,并且分别执行关于图11、图12、图13和图14描述的方法1100、1200、1300、1400。另外,可以使用机器1600、使用指令1824来生成图15中所示的编码。
指令1824将通用的非编程的机器1600转换成被编程为以所描述的方式执行所描述和所示功能的特定机器1600。在可替选实施方式中,机器1600作为独立装置操作或者可以耦接(例如,联网)到其他机器。在联网部署中,机器1600可以以服务器-客户端网络环境中的服务器机器或客户端机器的身份进行操作,或者作为对等(或分布式)网络环境中的对等机器进行操作。机器1600可以包括但不限于服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动装置、可穿戴装置(例如,智能手表)、智能家庭装置(例如,智能电器)、其他智能装置、web电器、网络路由器、网络交换机、网络桥接器或者能够顺序地或以其他方式执行指定要由机器1600采取的动作的指令1624的任何机器。此外,虽然仅示出了单个机器1600,但是术语“机器”还应被认为包括单独地或联合地执行指令1016以执行本文中讨论的任何一种或更多种方法的机器1600的集合。
计算装置1600的示例可以包括逻辑、一个或更多个部件、电路(例如,模块)或机构。电路是被配置成执行特定操作的有形实体。在示例中,可以按照指定的方式(例如,在内部或相对于诸如其他电路的外部实体)布置电路。在示例中,一个或更多个计算机系统(例如,单机、客户端或服务器计算机系统)或一个或更多个硬件处理器(处理器)可以由软件(例如,指令、应用部分或应用)配置为操作以执行如本文所述的某些操作的电路。在示例中,软件可以(1)驻留在非暂态机器可读介质上或(2)驻留在传输信号中。在示例中,软件在被电路的底层硬件执行时使电路执行特定操作。
在示例中,可以机械地或电子地实现电路。例如,电路可以包括被专门配置成执行如以上所讨论的一种或更多种技术的专用电路或逻辑,例如包括专用处理器、现场可编程门阵列(FPGA)或专用集成电路(ASIC)。在示例中,电路可以包括可编程逻辑(例如,包含在通用处理器或其他可编程处理器内的电路),该可编程逻辑可以(例如通过软件)被暂时配置成执行特定操作。将理解的是,可以通过成本和时间考虑来推动做出机械地(例如,在专用且被永久配置的电路中)实现电路或是在(例如通过软件配置的)暂时配置的电路中实现电路的决定。
因此,术语“电路”被理解为包括有形实体,该有形实体是被物理构造、永久配置(例如,硬连线)、或被临时(例如,暂时)配置(例如,被编程)成以指定方式进行操作或执行指定操作的实体。在示例中,给定多个临时配置的电路,电路中的每一个无需在任一时刻处均被配置或被实例化。例如,在电路包括经由软件配置的通用处理器的情况下,可以在不同时间将通用处理器配置为相应的不同电路。因此,软件可以将处理器配置成例如在一个时刻构成特定电路而在不同的时刻构成不同的电路。
在示例中,电路可以向其他电路提供信息以及从其他电路接收信息。在该示例中,电路可以被视为通信地耦接至一个或更多个其他电路。在同时存在多个这样的电路的情况下,可以通过连接这些电路的信号传输(例如,通过适当的电路和总线)来实现通信。在其中在不同时间配置或实例化多个电路的实施方式中,可以例如通过对多个电路可访问的存储器结构中的信息进行存储和检索来实现这些电路之间的通信。例如,一个电路可以执行操作并且将该操作的输出存储在与其通信耦接的存储器装置中。另外的电路然后可以在后面的时间处访问存储器装置以检索和处理所存储的输出。在示例中,电路还可以被配置成发起或接收与输入或输出装置的通信并且可以对资源(例如,信息集合)进行操作。
本文描述的方法示例的各种操作可以至少部分地由被暂时配置(例如,通过软件)或永久配置成执行相关操作的一个或更多个处理器来执行。无论是暂时配置还是永久配置,这样的处理器都可以构成处理器实现的电路,其进行操作以执行一个或更多个操作或功能。在示例中,本文提到的电路可以包括处理器实现的电路。
类似地,本文描述的方法可以至少部分地由处理器实现。例如,方法的至少一些操作可以由一个或多个处理器或处理器实现的电路来执行。某些操作的执行可以在一个或更多个处理器之中分配,不仅驻留在单个机器中,而且被部署在多个机器上。在示例中,一个或多个处理器可以位于单个位置(例如,在家庭环境、办公室环境内或作为服务器场),而在其他示例中,处理器可以跨多个位置分布。
一个或更多个处理器还可以操作以支持在“云计算”环境中执行相关操作或者操作为“软件即服务”
(SaaS)。例如,操作中的至少一些操作可以由一组计算机(作为包括处理器的机器的示例)来执行,其中,这些操作是经由网络(例如,因特网)以及经由一个或更多个合适接口(例如,应用程序接口(API))可访问的。
示例实施方式(例如,装置、系统或方法)可以被实现在数字电子电路、计算机硬件、固件、软件或其任何组合中。可以使用计算机程序产品(例如,有形地体现在信息载体中或机器可读介质中以供诸如可编程处理器、计算机、或多台计算机的数据处理设备执行或者用于控制数据处理设备的操作的计算机程序)来实现示例实施方式。
计算机程序可以以包括编译语言或解释语言的任何形式的编程语言来编写,并且计算机程序可以被以包括作为单机程序或作为软件模块、子例程或适于用于计算环境中的其他单元的任何形式部署。计算机程序可以在一个计算机上或者在一个站点处或跨多个站点分布并通过通信网络互连的多个计算机上部署以执行。
在示例中,操作可以由执行计算机程序的一个或更多个可编程处理器执行,以通过对输入数据进行操作并生成输出来执行功能。方法操作的示例也可以由专用逻辑电路(例如,现场可编程门阵列(FPGA)或专用集成电路(ASIC))来执行,并且示例设备可以被实现为专用逻辑电路。
计算系统可以包括客户端和服务器。客户端与服务器通常彼此远离并且通常通过通信网络进行交互。客户端和服务器的关系借助于在各自计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在部署可编程计算系统的实施方式中,将理解的是,硬件架构和软件架构二者都需要考虑。具体地,要理解,是在永久配置的硬件(例如,ASIC)中、在暂时配置的硬件(例如,软件和可编程处理器的组合)中、还是在永久配置和暂时配置的硬件的组合中实现特定功能的选择可以是设计选择。以下列出了可以在示例实施方式中部署的硬件(例如,计算装置1600)和软件架构。
在示例中,计算装置1600可以作为独立装置来操作,或者计算装置1600可以连接(例如,联网)至其他机器。
在联网的部署中,计算装置1600可以在服务器-客户端网络环境中以服务器或客户端机器的身份操作。在示例中,计算装置1600可以充当对等(或其他分布式)网络环境中的对等机器。计算装置1600可以是个人计算机(PC)、平板计算机PC、机顶盒(STB)、个人数字助理(PDA)、移动电话、网络设备、网络路由器、交换机或桥接器、或者能够(顺序地或以其他方式)执行指定要由计算装置1600采取(例如,执行)的动作的指令的任何机器。另外,虽然仅示出了单个计算装置1600,但是术语“计算装置”还应当被认为包括独立地或共同地执行一个(或多个)指令的集合以执行本文中讨论的方法中的任何一种或更多种的机器的任何集合。
示例计算装置1600可以包括处理器1602(例如,中央处理单元(CPU)、图形处理单元(GPU)或两者)、主存储器1804和静态存储器1806,它们中的一些或全部可以经由总线1608彼此通信。计算装置1600还可以包括显示单元1610、字母数字输入装置1612(例如,键盘)和用户接口(UI)导航装置1814(例如,鼠标)。在示例中,显示单元1610、输入装置1612和UI导航装置1814可以是触摸屏显示器。机器1600可以另外包括存储装置(例如,驱动单元)1616、信号生成装置1618(例如,扬声器)、网络接口装置1620以及一个或更多个传感器1621,例如全球定位系统(GPS)传感器、指南针、加速度计或其他传感器。
存储装置1616可以包括其上存储有一个或更多个数据结构或指令1624的集合(例如,软件)的机器可读介质1622,这些数据结构或指令体现了本文中描述的方法或功能中的任何一个或更多个或由其利用。指令1624还可以在计算装置1600执行该指令期间完全地或至少部分地驻留在主存储器1604内、静态存储器1606内或处理器1602内。在示例中,处理器1602、主存储器1604、静态存储器1606或存储装置1616中的一者或任何组合可以构成机器可读介质。
虽然机器可读介质1622被示出为单个介质,但是术语“机器可读介质”可以包括被配置成存储一个或更多个指令1624的单个介质或多个介质(例如,集中式或分布式数据库以及/或者相关联的缓存和服务器)。术语“机器可读介质”还可以被采用以包括下述的任何有形介质,所述任何有形介质能够存储、编码或携载由机器执行的指令并且使机器执行本公开内容的方法中的任何一个或更多个,或者所述任何有形介质能够存储、编码或携载由这样的指令利用或与这样的指令相关联的数据结构。术语“机器可读介质”因此可以被采用以包括但不限于:固态存储器以及光学介质和磁性介质。机器可读介质的特定示例可以包括非易失性存储器,例如包括半导体存储器装置(例如,电可编程只读存储器
(EPROM),电可擦除可编程只读存储器(EEPROM))和闪存装置;磁盘,例如内部硬盘和可移动磁盘;磁光盘;以及CD-ROM和DVD-ROM盘。
还可以使用传输介质经由利用多种传输协议中的任何一种(例如,帧中继、IP、TCP、UDP、HTTP等)的网络接口装置1820通过通信网络1626发送或接收指令1624。示例通信网络可以包括局域网(LAN)、广域网(WAN)、分组数据网络(例如,因特网)、移动电话网络(例如,蜂窝网络)、普通老式电话(POTS)网络以及无线数据网络(例如,称为的IEEE802.11标准系列、称为的IEEE 802.16标准系列)、对等(P2P)网络等。术语“传输介质”应当被认为包括能够存储、编码或携载用于由机器1100执行的指令的任何无形介质,并且包括数字或模拟通信信号或其他无形介质以便于这样的软件的通信。
示例实现方式
1.一种方法,包括:通过计算系统获得指示第一抗原的第一氨基酸序列的第一数据,计算系统包括具有一个或更多个处理器和存储器的一个或更多个计算装置;通过计算系统获得指示第一多个抗体的各个抗体与一个或更多个抗原之间的结合相互作用的第二数据;通过计算系统确定所述一个或更多个抗原中相对于第一抗原的第一氨基酸序列的至少一部分具有至少阈值量的同一性的第二抗原的第二氨基酸序列;通过计算系统并基于第二数据确定包括在第二数据中的与第二抗原具有至少第一阈值量的结合相互作用的所述第一多个抗体的组;通过计算系统并且使用生成式对抗网络生成用于产生附加抗体的附加氨基酸序列的模型,所述附加抗体的附加氨基酸序列具有与第一抗原具有至少第二阈值量的结合相互作用的至少阈值概率,其中,基于第一抗原的第一氨基酸序列和所述第一多个抗体的组来生成模型;以及通过计算系统并且使用模型来生成与第一抗原相对应的抗体的第二多个氨基酸序列。
2.根据1所述的方法,其中,结合相互作用包括结合亲和力或结合亲合力中的至少一者。
3.根据1或2所述的方法,其中:结合相互作用指示所述第一多个抗体的抗体的结合区的氨基酸序列以及所述一个或更多个抗原的抗原的表位区的附加氨基酸序列,并且结合区与表位区结合。
4.根据3所述的方法,其中,结合相互作用指示包括在结合区中的氨基酸与包括在表位区中的附加氨基酸之间的偶联。
5.根据1至4中任一项所述的方法,其中,结合相互作用包括第一多个抗体的各个抗体与所述一个或更多个抗原之间的平衡常数。
6.根据1至5中任一项所述的方法,还包括通过计算系统并且使用软件工具来评估关于抗体的第二多个氨基酸序列的一个或更多个度量,所述一个或更多个度量包括以下各项中的至少一者:包括在第二多个氨基酸序列的各个氨基酸序列中的疏水性氨基酸的数量、包括在第二多个氨基酸序列的各个氨基酸序列中的带正电荷的氨基酸的数量、包括在第二多个氨基酸序列的各个氨基酸序列中的带负电荷的氨基酸的数量、包括在第二多个氨基酸序列的各个氨基酸序列中的不带电荷的氨基酸的数量、各个抗体的表达水平、各个抗体的熔解温度或各个抗体的自聚集水平。
7.一种方法,包括:通过计算系统获得指示靶分子的组成的第一数据,计算系统包括具有一个或更多个处理器和存储器的一个或更多个计算装置;通过计算系统获得指示多个第一蛋白质的各个第一蛋白质与一个或更多个附加分子之间的结合相互作用的第二数据;通过计算系统确定一个或更多个附加分子中的附加分子的组成,附加分子的组成相对于靶分子的组成的至少一部分具有至少阈值量的相似性;通过计算系统并基于第二数据来确定包括在第二数据中的与附加分子具有至少第一阈值量的结合相互作用的多个第一蛋白质的组;通过计算系统并且使用生成式对抗网络生成用于产生附加蛋白质的附加氨基酸序列的模型,所述附加蛋白质的附加氨基酸序列具有与靶分子具有至少第二阈值量的结合相互作用的至少阈值概率,其中,基于靶分子的组成和多个第一蛋白质的组生成模型;以及通过计算系统并且使用该模型来生成与靶分子相对应的第二蛋白质的多个第二氨基酸序列。
8.根据7所述的方法,其中,靶分子包括蛋白质。
9.根据8所述的方法,其中,蛋白质包括抗原,所述多个第一蛋白质包括第一抗体,并且所述多个第二蛋白质包括第二抗体。
10.一种方法,包括:通过计算系统并且使用生成式对抗网络来生成多个第一氨基酸序列,计算系统包括具有一个或更多个处理器和存储器的一个或更多个计算装置,多个第一氨基酸序列的各个第一氨基酸序列与抗体轻链相对应;通过计算系统并且使用生成式对抗网络生成多个第二氨基酸序列,多个第二氨基酸序列的各个第二氨基酸序列与抗体重链相对应;通过计算系统并且使用生成式对抗网络将所述多个第一氨基酸序列中的第一氨基酸序列与所述多个第二氨基酸序列中的第二氨基酸序列进行组合以产生第三氨基酸序列,第三氨基酸序列与包括对应于第一氨基酸序列的轻链和对应于第二氨基酸序列的重链的抗体相对应;以及通过计算系统并且使用生成式对抗网络来针对附加多个氨基酸序列分析第三氨基酸序列以产生输出,附加多个氨基酸序列被包括在用于生成式对抗网络的训练数据中,并且输出指示第三氨基酸序列与附加多个氨基酸序列的至少一部分之间的相似性的测量。
11.根据10所述的方法,其中,将第一氨基酸序列与第二氨基酸序列进行组合包括将第二氨基酸序列连结至第一氨基酸序列。
12.根据10或11所述的方法,其中:生成式对抗网络包括实现用于生成所述多个第一氨基酸序列的第一模型的第一生成部件以及实现用于生成所述多个第二氨基酸序列的第二模型的第二生成部件;第一模型包括第一函数,第一函数具有一个或更多个第一变量和一个或更多个第一权重;并且第二模型包括与第一函数不同的第二函数,第二函数包括一个或更多个第二变量和一个或更多个第二权重。
13.根据12所述的方法,其中,通过鉴别器分析第三氨基酸序列,并且将输出提供给第一生成部件或第二生成部件中的至少一者。
14.根据13所述的方法,其中,第一生成部件基于输出来修改第一模型。
15.根据13所述的方法,其中,第二生成部件基于输出来修改第二模型。
16.根据10至15中任一项所述的方法,其中,第一氨基酸序列包括抗体轻链的第一可变区的至少一部分,并且第二氨基酸序列包括抗体重链的第一可变区的至少一部分。
17.根据10至16中任一项所述的方法,其中,第一氨基酸序列包括抗体轻链的第一可变区和第一恒定区的至少一部分,并且第二氨基酸序列包括抗体重链的第二可变区和第二恒定区的至少一部分。
18.根据10至17中任一项所述的方法,包括:通过计算系统并且基于输出来确定对第一模型的训练完成,使得第一模型是第一经训练模型;通过计算系统并且基于输出来确定对第二模型的训练完成,使得第二模型是第二经训练模型;通过计算系统并且使用第一经训练模型来生成抗体的附加轻链的第一附加氨基酸序列;通过计算系统并且使用第二经训练模型来生成抗体的附加重链的第二附加氨基酸序列;以及通过计算系统将第一附加氨基酸序列与第二附加氨基酸序列进行组合以产生第三附加氨基酸序列,第三附加氨基酸序列包括附加抗体的轻链和重链。
19.根据18所述的方法,包括通过计算系统关于一个或更多个度量来评估第三附加氨基酸序列,所述一个或更多个度量包括以下各项中的至少一者:包括在第三附加氨基酸序列中的疏水性氨基酸的数量、包括在第三附加氨基酸序列中的带正电荷的氨基酸的数量、包括在第三附加氨基酸序列中的带负电荷的氨基酸的数量、包括在第三附加氨基酸序列中的不带电荷的氨基酸的数量、第三附加氨基酸序列的表达水平、第三附加氨基酸序列的熔解温度或第三附加氨基酸序列的自聚集水平。
20.根据18所述的方法,包括通过计算系统并且使用生成式对抗网络来针对另外的多个氨基酸序列分析第三附加氨基酸序列以产生附加输出,其中:另外的多个氨基酸序列被包括在用于生成式对抗网络的附加训练数据中;附加训练数据包括与训练数据中包括的氨基酸序列不同的抗体的氨基酸序列;并且附加输出指示第三附加氨基酸序列与另外的多个氨基酸序列的至少一部分之间的相似性的附加测量。
21.一种系统,包括:一个或更多个硬件处理器;以及存储计算机可执行指令的一个或更多个非暂态计算机可读介质,计算机可执行指令在由所述一个或更多个硬件处理器执行时使所述一个或更多个处理器执行操作,所述操作包括:获得指示第一抗原的第一氨基酸序列的第一数据;获得指示第一多个抗体的各个抗体与一个或更多个抗原之间的结合相互作用的第二数据;确定所述一个或更多个抗原的相对于第一抗原的第一氨基酸序列的至少一部分具有至少阈值量的同一性的第二抗原的第二氨基酸序列;基于第二数据确定包括在第二数据中的与第二抗原具有至少第一阈值量的结合相互作用的第一多个抗体的组;使用生成式对抗网络生成用于产生附加抗体的附加氨基酸序列的模型,所述附加抗体的附加氨基酸序列具有与第一抗原具有至少第二阈值量的结合相互作用的至少阈值概率,其中,基于第一抗原的第一氨基酸序列和所述第一多个抗体的组生成模型;以及使用模型生成与第一抗原相对应的抗体的第二多个氨基酸序列。
22.根据21所述的系统,其中,结合相互作用包括结合亲和力或结合亲合力中的至少一者。
23.根据21或22所述的系统,其中:结合相互作用指示所述第一多个抗体的抗体的结合区的氨基酸序列以及所述一个或更多个抗原的抗原的表位区的附加氨基酸序列,并且结合区与表位区结合。
24.根据23所述的系统,其中,结合相互作用指示包括在结合区中的氨基酸与包括表位区中的附加氨基酸之间的偶联。
25.根据21至24中任一项所述的系统,其中,结合相互作用包括第一多个抗体的各个抗体与所述一个或更多个抗原之间的平衡常数。
26.根据21至25中任一项所述的系统,其中,操作包括使用软件工具来评估关于抗体的第二多个氨基酸序列的一个或更多个度量,所述一个或更多个度量包括以下各项中的至少一者:包括在第二多个氨基酸序列的各个氨基酸序列中的疏水氨基酸的数量、包括在第二多个氨基酸序列的各个氨基酸序列中的带正电荷的氨基酸的数量、包括在第二多个氨基酸序列的各个氨基酸序列中的带负电荷的氨基酸的数量、包括在第二多个氨基酸序列的各个氨基酸序列中的不带电荷的氨基酸的数量、各个抗体的表达水平、各个抗体的熔解温度或各个抗体的自聚集水平。
27.一种系统,包括:一个或更多个硬件处理器;以及存储计算机可执行指令的一个或更多个非暂态计算机可读介质,计算机可执行指令在由所述一个或更多个硬件处理器执行时使所述一个或更多个处理器执行操作,所述操作包括:获得指示靶分子的组成的第一数据;获得指示多个第一蛋白质的各个第一蛋白质与一个或更多个附加分子之间的结合相互作用的第二数据;确定一个或更多个附加分子的相对于靶分子的组成的至少一部分具有至少阈值量的相似性的附加分子的组成;基于第二数据确定包括在第二数据中的与附加分子具有至少第一阈值量的结合相互作用的多个第一蛋白质的组;使用生成式对抗网络生成用于产生附加蛋白质的附加氨基酸序列的模型,所述附加蛋白质的附加氨基酸序列具有与靶分子具有至少第二阈值量的结合相互作用的至少阈值概率,其中,基于靶分子的组成和所述多个第一蛋白质的组生成模型;并且使用模型生成与靶分子相对应的第二蛋白质的多个第二氨基酸序列。
28.根据27所述的系统,其中,靶分子包括蛋白质。
29.根据28所述的系统,其中,蛋白质包括抗原,所述多个第一蛋白质包括第一抗体,并且所述多个第二蛋白质包括第二抗体。
30.一种系统,包括:一个或更多个硬件处理器;以及存储计算机可执行指令的一个或更多个非暂态计算机可读介质,计算机可执行指令在由所述一个或更多个硬件处理器执行时使所述一个或更多个处理器执行操作,所述操作包括:使用生成式对抗网络生成多个第一氨基酸序列,多个第一氨基酸序列的各个第一氨基酸序列与抗体轻链相对应;使用生成式对抗网络生成多个第二氨基酸序列,多个第二氨基酸序列的各个第二氨基酸序列与抗体重链相对应;使用生成式对抗网络将多个第一氨基酸序列中的第一氨基酸序列与多个第二氨基酸序列中的第二氨基酸序列进行组合以产生第三氨基酸序列,第三氨基酸序列与包括对应于第一氨基酸序列的轻链和对应于第二氨基酸序列的重链的抗体相对应;以及使用生成式对抗网络来针对附加多个氨基酸序列分析第三氨基酸序列以产生输出,附加多个氨基酸序列被包括在用于生成式对抗网络的训练数据中,并且输出指示第三氨基酸序列与附加多个氨基酸序列的至少一部分之间的相似性的测量。
31.根据30所述的系统,其中,将第一氨基酸序列与第二氨基酸序列进行组合包括将第二氨基酸序列连结至第一氨基酸序列。
32.根据30或31所述的系统,其中:生成式对抗网络包括实现用于生成所述多个第一氨基酸序列的第一模型的第一生成部件以及实现用于生成所述多个第二氨基酸序列的第二模型的第二生成部件;第一模型包括第一函数,第一函数具有一个或更多个第一变量和一个或更多个第一权重;并且第二模型包括与第一函数不同的第二函数,第二函数包括一个或更多个第二变量和一个或更多个第二权重。
33.根据32所述的系统,其中,通过鉴别器分析第三氨基酸序列,并且将输出提供给第一生成部件或第二生成部件中的至少一者。
34.根据33所述的系统,其中,第一生成部件基于输出来修改第一模型。
35.根据33所述的系统,其中,第二生成部件基于输出来修改第二模型。
36.根据30至35中任一项所述的系统,其中,第一氨基酸序列包括抗体轻链的第一可变区的至少一部分,并且第二氨基酸序列包括抗体重链的第一可变区的至少一部分。
37.根据30至36中任一项所述的系统,其中,第一氨基酸序列包括抗体轻链的第一可变区和第一恒定区的至少一部分,并且第二氨基酸序列包括抗体重链的第二可变区和第二恒定区的至少一部分。
38.根据30至37中任一项所述的系统,其中,操作包括:基于输出来确定对第一模型的训练完成,使得第一模型是第一经训练模型;基于输出来确定对第二模型的训练完成,使得第二模型是第二经训练模型;使用第一经训练模型来生成抗体的附加轻链的第一附加氨基酸序列;使用第二经训练模型来生成抗体的附加重链的第二附加氨基酸序列;以及将第一附加氨基酸序列与第二附加氨基酸序列进行组合以产生第三附加氨基酸序列,第三附加氨基酸序列包括附加抗体的轻链和重链。
39.根据38所述的系统,其中,操作包括关于一个或更多个度量来评估第三附加氨基酸序列,所述一个或更多个度量包括以下中的至少一者:包括在第三附加氨基酸序列中的疏水氨基酸的数量、包括在第三附加氨基酸序列中的带正电荷的氨基酸的数量、包括在第三附加氨基酸序列中的带负电荷的氨基酸的数量、包括在第三附加氨基酸序列中的不带电荷的氨基酸的数量、第三附加氨基酸序列的表达水平、第三附加氨基酸序列的熔解温度或第三附加氨基酸序列的自聚集水平。
40.根据38所述的系统,操作包括使用生成式对抗网络来针对另外的多个氨基酸序列分析第三附加氨基酸序列以产生附加输出,其中:另外的多个氨基酸序列被包括在用于生成式对抗网络的附加训练数据中;附加训练数据包括与训练数据中包括的氨基酸序列不同的抗体的氨基酸序列;并且附加输出指示第三附加氨基酸序列与另外的多个氨基酸序列的至少一部分之间的相似性的附加测量。
41.一种方法,包括:获得包括蛋白质的氨基酸序列的训练数据集;基于训练数据集生成结构化氨基酸序列;使用结构化氨基酸序列和生成式对抗网络来生成用于产生与包括在训练数据集中的氨基酸序列相对应的附加氨基酸序列的模型;使用模型和输入向量生成附加氨基酸序列;以及根据一个或更多个标准来评估附加氨基酸序列以确定用于附加氨基酸序列的度量。
42.根据41所述的方法,还包括确定包括在附加氨基酸序列中的氨基酸序列相对于源自种系基因的蛋白质的多个变体。
43.根据41或42所述的方法,其中,生成式对抗网络包括Wasserstein生成式对抗网络。
44.根据41至43中任一项所述的方法,其中,结构化氨基酸序列以矩阵表示,矩阵包括第一数量的行和第二数量的列,第一数量的行中的各个行与序列的位置相对应,并且第二数量的列中的各个列与各个氨基酸相对应。
45.根据41至44中任一项所述的方法,其中,与附加氨基酸序列相对应的蛋白质的一个或更多个特征与包括在训练数据集中的蛋白质的一个或更多个特征具有至少阈值相似性。
46.根据41至45中任一项所述的方法,其中,所述一个或更多个特征包括结构位置特征、三级结构特征或生物物理特性中的至少一者。
47.根据41至46中任一项所述的方法,其中,蛋白质包括抗体、affibodies、affilins,affimers、affitins、alphabodies、anticalins、avimers、monobodies、设计的锚蛋白重复蛋白(DARPins)、nanoCLAMP(梭菌抗体模拟蛋白)、抗体片段或其组合。
48.一种方法,包括:获得包括抗体的氨基酸序列的训练数据集;使用生成式对抗网络生成用于产生具有与训练数据集的抗体的特征相似的一个或更多个特征的抗体的附加氨基酸序列的模型;以及使用模型和输入向量生成附加氨基酸序列。
49.根据48所述的方法,还包括对训练数据集的氨基酸序列应用分类系统,该分类系统指示与抗体的重链区相关联的第一数量的位置以及与抗体的轻链区相关联的第二数量的位置。
50.根据48或49所述的方法,还包括:使用第一生成式对抗网络和第一训练数据集来生成用于产生抗体的多个重链区的第一模型;使用第二生成式对抗网络和第二训练数据集来生成用于产生抗体的多个轻链区的第二模型;以及通过将多个重链区的至少一部分与轻链区的至少一部分进行组合来生成抗体序列。
51.一种方法,包括:使用包括抗体轻链的第一数量的氨基酸序列的第一训练数据集来训练生成式对抗网络的第一生成部件的第一模型以产生第一经训练模型;使用包括抗体重链的第二数量的氨基酸序列的第二训练数据集来训练生成式对抗网络的第二生成部件的第二模型以产生第二经训练模型,其中,训练第二生成部件以第一速率进行,第一速率与训练第一生成部件的第二速率不同;使用第一生成部件生成与抗体轻链相对应的第一附加数量的第一附加氨基酸序列;使用第二生成部件生成与抗体重链相对应的第二附加数量的第二附加氨基酸序列;以及使用生成式对抗网络将第一附加数量的第一附加氨基酸序列的第一氨基酸序列与第二附加数量的第二附加氨基酸序列的第二氨基酸序列进行组合以产生第三氨基酸序列,第三氨基酸序列与包括对应于第一氨基酸序列的轻链和对应于第二氨基酸序列的重链的抗体相对应。
52.根据51所述的方法,其中,使用多个蹒跚权重来训练第二生成部件,以相对于在没有多个蹒跚权重的情况下训练第二生成部件的附加速率来降低训练第二生成部件的速率。
53.根据51或52所述的方法,其中,通过减慢第二生成部件的梯度来训练第二生成部件。
54.根据51至53中任一项所述的方法,包括:在第一时间段期间训练第二生成部件;确定在第一时间段的结束部分期间产生的第一多个氨基酸序列具有第一质量水平;在第二时间段内训练第一生成部件,第二时间段包括第一时间段并且比第一时间段长;确定在第二时间段的结束部分期间产生的第二多个氨基酸序列具有第一质量水平;在第二时间段之后的第三时间段期间训练第二生成部件;确定在第三时间段的结束部分期间产生的第三多个氨基酸序列具有第二质量水平;在第四时间段内训练第一生成部件,第四时间段包括第三时间段并且比第三时间段长;以及确定在第四时间段的结束部分期间产生的第四多个氨基酸序列具有第二质量水平。
55.根据54所述的方法,其中,训练第二生成部件经过的总时间量小于训练第一生成部件经过的总时间量。
56.一种方法,包括:获得包括蛋白质的氨基酸序列的训练数据集;基于训练数据集生成结构化氨基酸序列;使用结构化氨基酸序列和生成式对抗网络来生成用于产生与包括在训练数据集中的氨基酸序列相对应的附加氨基酸序列的模型;使用模型和输入向量生成附加氨基酸序列;确定与种系基因的表达相关产生的抗体的氨基酸序列与各个附加氨基酸序列之间的相似性的量;确定各个氨基酸序列的相应互补决定区(CDR)H3区域的长度;以及基于相应相似性的量和附加氨基酸序列的CDR H3区域的相应长度来评估附加氨基酸序列。
57.根据56所述的方法,包括基于附加氨基酸序列的免疫原性的测量来评估附加氨基酸序列。
58.根据57所述的方法,其中,免疫原性的测量与主要组织相容性复合体(MHC)II类结合的测量相对应。
59.一种系统,包括:一个或更多个硬件处理器;以及存储计算机可执行指令的一个或更多个非暂态计算机可读介质,计算机可执行指令在由所述一个或更多个硬件处理器执行时使所述一个或更多个处理器执行操作,所述操作包括:使用包括抗体轻链的第一数量的氨基酸序列的第一训练数据集来训练生成式对抗网络的第一生成部件的第一模型以产生第一经训练模型;使用包括抗体重链的第二数量的氨基酸序列的第二训练数据集来训练生成式对抗网络的第二生成部件的第二模型以产生第二经训练模型,其中,训练第二生成部件以第一速率进行,第一速率与训练第一生成部件的第二速率不同;使用第一生成部件生成与抗体轻链相对应的第一附加数量的第一附加氨基酸序列;使用第二生成部件生成与抗体重链相对应的第二附加数量的第二附加氨基酸序列;以及使用生成式对抗网络将第一附加数量的第一附加氨基酸序列的第一氨基酸序列与第二附加数量的第二附加氨基酸序列的第二氨基酸序列进行组合以产生第三氨基酸序列,第三氨基酸序列与包括对应于第一氨基酸序列的轻链和对应于第二氨基酸序列的重链的抗体相对应。
60.根据59所述的系统,其中,使用多个蹒跚权重来训练第二生成部件,以相对于在没有多个蹒跚权重的情况下训练第二生成部件的附加速率来降低训练第二生成部件的速率。
61.根据59或60所述的系统,其中,通过减慢第二生成部件的梯度来训练第二生成部件。
62.根据59至61中任一项所述的系统,其中,操作包括:在第一时间段期间训练第二生成部件;确定在第一时间段的结束部分期间产生的第一多个氨基酸序列具有第一质量水平;在第二时间段内训练第一生成部件,第二时间段包括第一时间段并且比第一时间段长;确定在第二时间段的结束部分期间产生的第二多个氨基酸序列具有第一质量水平;在第二时间段之后的第三时间段期间训练第二生成部件;确定在第三时间段的结束部分期间产生的第三多个氨基酸序列具有第二质量水平;在第四时间段内训练第一生成部件,第四时间段包括第三时间段并且比第三时间段长;以及确定在第四时间段的结束部分期间产生的第四多个氨基酸序列具有第二质量水平。
63.根据62所述的系统,其中,训练第二生成部件经过的总时间量小于训练第一生成部件经过的总时间量。
64.一种系统,包括:一个或更多个硬件处理器;以及存储计算机可执行指令的一个或更多个非暂态计算机可读介质,计算机可执行指令在由所述一个或更多个硬件处理器执行时使所述一个或更多个处理器执行操作,所述操作包括:获得包括蛋白质的氨基酸序列的训练数据集;基于训练数据集生成已编码氨基酸序列;使用已编码氨基酸序列和生成式对抗网络来生成用于产生与包括在训练数据集中的氨基酸序列相对应的附加氨基酸序列的模型;使用模型和输入向量生成附加氨基酸序列;确定与种系基因的表达相关产生的抗体的氨基酸序列与各个附加氨基酸序列之间的相似性的量;确定各个氨基酸序列的相应互补决定区(CDR)H3区域的长度;以及基于相应相似性的量和附加氨基酸序列的CDR H3区域的相应长度来评估附加氨基酸序列。
65.根据64所述的系统,其中,所述操作包括基于附加氨基酸序列的免疫原性的测量来评估附加氨基酸序列。
66.根据65所述的系统,其中,免疫原性的测量与主要组织相容性复合体(MHC)II类结合的测量相对应。
示例
我们演示了使用从一组超过400,000个轻链和重链人抗体序列中训练的生成性对抗网络(Generative Adversarial Network,GAN)来学习人抗体形成的规则。得到的模型通过捕获整个可变区的残基多样性超越了计算机技术中的常见模型,并且能够生成非常大的、多样的新型抗体库,以模拟体细胞超突变的人库应答。这种方法允许我们合理地设计新的类人抗体库,并明确控制我们发现库的多种特性。通过迁移学习,我们能够使GAN偏向于生成具有关键感兴趣特性——例如,改良稳定性和显影性、降低预测的MHC II类结合以及特定的互补决定区(complementarity-determining region,CDR)特征——的分子。这些方法还提供了更好地研究体外和体内抗体序列与分子行为之间的复杂关系的机制。我们通过噬菌体展示成功表达了近100,000个GAN生成的抗体的概念验证库来验证我们的方法。我们提出了在稳定CHO池中表达的并且跨多种生物物理特性评估的实施例生成的抗体的序列和同源模型结构。使用我们的计算机方法创建发现库允许控制药物特性,使得这些治疗性抗体可以提供对生物威胁更快速且更具成本效益的应答。
抗体是一类重要的基于生物制剂的治疗剂,具有特异性和有效性的明显优点。然而,高成本和长开发时间在单克隆抗体治疗剂的可及性方面存在关键挑战。为了快速应答已知和新的病原体和疾病,并为全球范围内的患者提供负担得起的高质量治疗,必须针对活性设计分子;但其也必须对患者是可开发和安全的。由于许多抗体的生物物理特性导致它们在加工成药物产品期间聚集、展开、沉淀或经历其它物理修饰,因此它们的总成本和加工时间提高,许多抗体的产率差或需要单独定制的加工方案或制剂。即使将大量研究投入到发现药理学活性抗体和理解它们的物理和生物学行为中,它们仍然具有鉴定给定疾病或病原体和优化显影性的挑战。
治疗性抗体的发现通常涉及展示方法或从暴露于感兴趣的抗原或疾病靶标的人或动物中分离的B细胞。尽管B细胞分离和深度测序工作流程多年来在成本、劳动力和速度方面有所改进,但在将该过程视为抗体发现平台时仍存在固有的局限性。所使用的特定对象需要足够的免疫应答,并且由于所使用的对象的数量和多样性低,所表达的抗体序列多样性可能不足。还存在克服针对特异性表位的B细胞驱动的存活的挑战,其中当治疗上可行的表位被显性结合表位竞争出局时,其不被免疫应答利用,导致抗体组集中在有限的表位上。库方法可以提供对更宽范围的序列空间的搜索,但合成库的大多数实施例生成与人免疫系统表达的序列谱完全不同的序列谱。在这两种情况下,几乎没有能力控制已识别候选的化学特性、生物物理特性或生物学特性。结果,发现的抗体常常具有使其显影性和稳定性严重复杂化的上述特征。
最近的合成库方法实施了随机诱变,其中允许特定残基根据抗体中位置出现频率的统计规则(通常称为位置频率分析,positional frequency analysis,PFA)在类型上变化。PFA和其他相关方法不考虑残基之间的任何相互作用,除非这种相互作用限制蛋白质的可表达性。虽然这广泛地探索了序列空间,但它忽略了残基类型如何相互作用以形成稳定特征,例如氢键或离子键。随机分配也在不考虑最终抗体实体的特征的情况下进行,导致一些具有不寻常的和潜在问题的蛋白质表面特征。
大多数合成库方法的另一个缺点是它们仅集中于抗体的互补决定区(complementary-determining regions,CDR)。尽管在确定结合相互作用中CDR是抗体可变区的最关键部分,但是许多Kabat定义的CDR位置是核心免疫球蛋白(immunoglobulin,Ig)折叠的一部分,并且许多构架残基也可以在直接抗原结合、分子稳定性和CDR定向6中起重要作用。通过限制对CDR的突变,现有库忽略了由一些构架突变提供的改善的生物活性和显影性的可能性。
即使使用识别的治疗性抗体,通过序列修饰改善抗体的生成和纯化行为也是具有挑战性的。虽然已经发表了许多论文试图开发抗体序列和/或计算的分子结构与分子的多种物理特性之间的可预测的连接,但是这种连接是难以捉摸的,因为它涉及构成氨基酸残基之间的复杂的非线性相互作用。通常,这样的工作涉及来自非多样化序列组(少量亲本序列,具有少量高度相关序列变体的几个亲本,或具有突变扫描的单个抗体)的异常少量的分子,通常低于200个且通常低于50个。此类方法给出了关于单个抗体或小组的信息,但极不可能将残基相互作用的复杂性推广到其他抗体。这种理解需要探索抗体序列的更宽的超维空间。用于优化分子行为的计算方法也经常忽略修正的分子是否与人抗体保持相似。该评估留给昂贵的体外研究。
深度学习提供了一种更好地捕获序列和蛋白质行为之间的复杂关系的途径,并且已经成为许多最近出版物的焦点。在发现和库的背景下,诸如生成性对抗网络(GenerativeAdversarial Networks,GAN)和自编码器网络(autoencoder networks,AE)的生成模型是特别令人感兴趣的,因为它们已显示出可用于生成蛋白质和纳米抗体和抗体CDR的独特序列。但是这些努力集中在蛋白质或抗体部分的短序列上。在全抗体序列空间中使用这些方法给机器学习模型带来了一系列独特的挑战。
抗体来源于不同种系背景,尺寸大得多,并且由多条链构成,导致更复杂的序列和结构空间。机器学习设置中的更多复杂性通常需要更多的数据来解决。然而,序列数据和相关的实验数据对于抗体更有限,并且比小分子更昂贵。
在此,我们提出了抗体GAN,用于设计一类新型抗体治疗剂的新合成方法,我们称之为“类人”抗体。该抗体GAN使用经修饰的Wasserstein-GAN生成单链(轻链或重链)和双链(轻链和重链)抗体序列。这些GAN允许我们将感兴趣的关键特性编码到我们的库中以用于特征偏向的发现平台。我们的抗体GAN架构(1)捕获了标准人抗体序列空间可变区的复杂性,(2)为生成比标准计算机生成的方法开发的序列多样性更大的新型抗体提供了基础,和(3)通过迁移学习(用具有特定所需特征的数据子集继续训练模型)提供了使所生成的抗体的物理特性偏向于改善的显影性和化学特性和生物物理学特性的固有方法。
我们演示了GAN库偏向于这样的特性,如负曲面面积切片的减少,被识别为聚集的潜在来源,热不稳定性和可能的半衰期减少,并且远离MHC II类结合,其可以降低生成的抗体的免疫原性。另外,我们示出了库偏向于更高的等电点(isoelectric point,pI)以降低治疗制剂中的聚集并防止沉淀,并且趋向更长的CDR3长度,其可以增加多样性并且已知针对一类靶标创造更有效的治疗剂。
为了演示抗体GAN生成类人抗体序列的存活力,GAN用于生成来自4种系亚群的100k序列的概念验证库。这些序列用两个单链GANs(每个用一组400,000个来自人抗体库的重链或轻链序列训练)生成。GAN序列在噬菌体中表达为抗体抗原结合片段(antibodyantigen binding fragments,Fab)。使用迁移学习优化了两个代表性较低的种系亚组以获得种系一致性。从这个初始库中,我们提供了在稳定的中国仓鼠卵巢(Chinese hamsterovary,CHO)细胞中表达的具有不同曲面片特征的两种抗体的序列、结构和生物物理特性。
用于抗体设计的生成式对抗网络
通用抗体GAN架构,其中一组真实的训练可变区(Fv)抗体序列与生成器的输出一起被馈送到GAN的鉴别器。生成器将随机种子向量作为输入,并输出随机合成抗体序列。在训练期间,逐步训练鉴别器以试图精确地区分真实序列和合成序列,并且逐步训练生成器以生成不能与训练集中的真实人序列库区分的合成序列。在来自整个训练集的抗体GAN的初始训练之后,迁移学习可用于使GAN偏向生成具有所需特性的分子。
作为一般结构和训练方法的演示,使用随机选自观察到的抗体空间项目(Observed Antibody Space project,OAS)的一组400,000个人序列/链库来训练抗体GAN。在训练之前,所有序列都使用能够直接比较数据集中相同结构位置处的残基的AHo编号系统进行结构比对。这极大地简化了GAN必须为生成和区分捕获的关系。方法部分提供了另外的训练细节。
来自抗体GAN(GAN),OAS训练集和具有100%种系构架和PFA生成的CDR(PFA)的序列集的序列通过从训练集和所有三个合成集中选择10,000个序列的随机集(全部分类为种系HV3-30)进行比较。这些是根据框架残基的种系一致性百分比分布进行评估的。在人库中,构架种系一致性的偏向源于在B细胞成熟过程中经历体细胞超变的序列引起的。来自抗体GAN模型(GAN)的分子很像OAS那样偏离种系。注意PFA集使用精确种系框架;这样,种系一致性总是100%。
将重链可变区(heavy variable,HV)CDR3的多样性用作给定集合内结合互补位的多样性的指标,并使用(1)仅由所有三个集合中的HV CDR3残基计算的成对编辑距离,和(2)来自OAS,GAN和PFA数据的比对HV CDR3序列的主成分分析(principal componentanalysis,PCA)模型的前两个成分的得分来评估。OAS集通常在HV中表现出最大的多样性,然而,GAN和PFA集与OAS中的主峰具有相似多样性,GAN表现出比PFA稍大的多样性。
OAS人库集合中序列变异性的分布比PFA集合中序列变异性的分布更类似于GAN集合中的分布,PFA集合中的序列变异性与其它两个集合显著不同,特别是在图的高密度区域中。PCA分量1和2的解释方差分别是10%和4%。虽然这些仅是HV CDR3中总体变化的一小部分,但是它们确实代表了HV CDR3残基之间最大的共变关系,并且表明抗体GAN方法捕获了PFA方法不能捕获的人库HV CDR3中的显著关系。KL发散度是两个分布彼此如何不同的量度,值0表示相同的分布,而远离0的值表示更发散的分布。对于OAS和GAN集,PC1上分布的KL发散度是0.57,PC1是捕获CDR3中大部分变化的分量。对于OAS和PFA集,PC1的KL发散度为1.45。可以确定GAN和PFA集的PC1和PC2相对于OAS的这些分布。PFA集显著地显示出与OAS和GAN集的更多差异,并提出了PFA方法如何很好地再现人互补位以及这些互补位的多样性的问题。
抗体发现库的偏向和控制
我们对人类抗体库生成的生成性,深入学习的方法不仅生成比现有合成库方法更类似人的抗体库,而且还允许我们控制我们库的特征。使用称为迁移学习的深度学习技术生成这些库的子集,其将网络从一般抗体GAN学习的特性偏向感兴趣的具体特征。相应的热图显示了每个库和OAS之间的差异,以给定库中序列的百分比表示。
可以确定抗体序列的初级结合互补位CDR H3的长度上的偏向。我们将4个库与OAS进行了比较:来自上面的基线抗体GAN(GAN),抗体GAN迁移学习到小的(GAN-C)和大的(GAN+C)CDR H3长度,和来自上面的PFA生成的库(PFA)。基线抗体GAN库显示在其CDR H3分布上与OAS总共有27%的差异。尽管仍然显著不同,但它比PFA(38%差异)或其它两个有意偏向的库更接近地再现了CDR H3上的OAS分布。GAN-C库通过对来自GAN库(CDR H3长度小于12)的约1,000个序列的小子集进行模型转移获得而生成,并导致库向较短的CDR H3序列移位68%。类似地,GAN+C在来自具有>22的CDR H3长度的GAN库的约1,000个序列上迁移学习,生成对较长CDR H3序列非常显著的89%偏向。通过生成具有较长CDR并因此具有更多残基变化的抗体,GAN+C库也固有地偏向多样性。具有长CDR H3的抗体也被证明在治疗人类免疫缺陷病毒(human immunodeficiency virus,HIV)等疾病方面取得了更好的成功,57并且可能用作可能需要如此长的暴露互补位的靶标的发现子库。
利用来源于计算机肽片段MHCII结合亲和力预测的主要组织相容性II类(MHCII)结合分数,可以确定重链免疫原性的偏向。我们使用内部机器学习预测器用于肽MHCII结合,其效果与免疫表位数据库(Immune Epitope DataBase,IEDB)提供的结合预测工具相似。肽MHCI结合是T细胞介导的免疫应答中的第一步,并且是可用于实际减轻免疫原性风险的最明确的手段。GAN库在预测的免疫原性上与OAS仅有2%的差异,在统计学上与人库训练集没有区别(p<0.0001),而PFA显示出向更高的免疫原性有统计学上显著的11%的移位。使用与上述方法类似的迁移学习方法,GAN-I库显示总共76%的移位至比人库更低的预测MHCII结合。假定降低的MHCII结合降低了免疫原性应答的可能性,因为该结合是该应答中必需的第一步。由此生成的偏向性GAN-I应生成具有较低免疫原性应答机会的分子。这种对较低免疫原性序列的大偏向是向较高质量抗体治疗剂的显著偏向,并且可产生对患者更安全的治疗库。
这种偏向对应于较低免疫原性的程度很大程度上取决于用于选择转移样品的模型的质量。作为对照条件,GAN+I库显示向提高的MHCII结合有49%的偏向。虽然这种更高的免疫原性偏向模型在开发库中通常是令人不感兴趣的,但是它可以提供生成分子的手段以帮助验证潜在的MHCII结合模型,再次强调了GAN方法作为探索分子和治疗空间的工具的实用性。
对于抗体治疗剂,等电点(pI,分子为中性时的pH)是显影性的关键量度,因为接近制剂pH的pI可导致高粘度和聚集或沉淀。微酸性pH通常导致更高的总电荷,其导致更新的制剂集中在pH 5.5左右。为了在溶液中保持稳定,治疗性抗体理想地需要整个分子具有大于8.5的pI。GAN库提供了抗体Fv部分的pI分布,其在统计学上与OAS无差别,PFA库向更高的Fv pI产生小的11%的偏向。我们用GAN-P库显示,我们可以通过迁移学习将具有79%位移的库偏向较低的Fv pI。然而,GAN+P库显示出计算的Fv pI大于9的序列提高43%,可能导致对可发育性的显著偏向。
抗体治疗中的大曲面片已与显影性问题(如聚集、热不稳定性、粘度升高和清除率增加)相关联,而且与特异性的改善相关联,特别是当贴片与电荷有关时。因此,将库偏向更大或更小的贴片可能会具有有益的作用。它们还用作朝向期望结构特性的通用偏向模型的实施例。可以确定使用基于结构的同源性建模计算的分子的最大负曲面片面积的偏向。大的负片已被证明在高治疗浓度下会提高抗体粘度。再次,GAN库在最大负片大小方面在统计学上等同于OAS,仅有3%的差异,证明了该模型捕捉人库的能力。PFA库保持小的但显著的7%向较低的负曲面片区域移位。GAN-N库显示,我们可以有意地将我们的库向较小的负曲面片移位,并远离具有31%偏向的已知显影性问题,如GAN-N中所示。GAN+N库显示我们也能以36%的偏向在另一个方向上向更大的负片移位。由于(1)属性的非高斯分布和(2)远离序列的附加抽象层和复杂性,基于结构的属性(如曲面片)可能比基于序列的属性更难偏向。这些问题可能通过例如迭代训练和采样来增加迁移学习训练集中的序列数量来解决。对于更复杂的属性,可以在迁移学习期间将层添加到模型本身。
不同种系的组合库设计和表达
包含特异性序列的多样的新的抗体发现库的合成可能是昂贵的。这种特异性序列靶向不能用标准密码子简并方法进行。为了大大降低该成本,我们使用面向链的方法进行库设计,将用通过抗体GAN设计的特定氨基酸序列产生的重链和轻链组合在一起,而不是单独设计每个Fv。抗体GAN架构被设计为模块化的。在用配对链Fv序列训练后,重链生成器和轻链生成器可分别用于生成单链序列,使得任何独立生成的重链应与任何独立生成的轻链配对以产生维持库预期特征的完整Fv。所有抗体GAN和迁移学习的抗体GAN库均从以这种方式训练的模型生成。
最初,也可以最初将抗体GAN模型拆分为单链模型。这些必须在单链序列上训练,并且当不存在与我们想要偏向的全Fv相关的感兴趣的特性时,在创建不同种系的不同库时可能是有用的。因为在成对链序列上几乎没有提供显影性、表达、稳定性和其它特性的公开数据集,我们选择合成天然的,无偏向的初始发现库以在噬菌体中表达。我们第一个库的目标是复制人库。这样做时,我们还将创建能极大地通知未来库的偏向的数据集。因此,使用抗体GAN的单链形式生成随后的GAN库和分子。
对于我们的初始库,我们选择重链种系IGHV3-30和IGHV1-2与轻链种系IGKV3-20和IGKV1-39组合配对。用IGHV1-2和IGKV1-39的训练集实施例的数量低于其它两个种系的,因此没有足够的实施例来训练足够质量的模型。该问题对于具有甚至更少的训练实例的其它种系是复合的。这可以通过使用迁移学习来再次补救。
因为HV3-30和KV3-20种系在OAS训练集中被很好地表示,所以模型生成足够框架质量的序列。当通过没有迁移学习的基础模型生成时,分别对于较少表示的HV1-2和KV1-39种系,在框架质量方面确定了与OAS的更大差异。只有当模型被迁移学习,允许仅对感兴趣的种系亚群继续训练时,才能够生成具有更接近匹配HV1-2和KV1-39的OAS的框架质量的序列。
尽管全规模生产库可能含有10,000或更多的来自每个种系的单个单链序列组合在一起形成数十亿个分子,但通过从这四个种系的每一个中选择158个序列并将它们组合在一起以组装总共约100,000个序列的库来创建概念验证微型库。
确定我们的4个种系成对子库的Fab片段展示水平,每个含有约25,000个GAN生成的序列。通过在涂有抗人Fab的ELISA板上捕获纯化噬菌体的系列稀释液并用缀合HRP的抗M13抗体检测来估计展示水平。确定多克隆噬菌体中各子库的IgG Fab的平均展示水平(对总噬菌体浓度标准化)。对于含有KV1-39子库的那些种系子库,在较高浓度下可以看到较高表达的轻微偏向。该差异实际上是否显著并且与KV1-39序列的更高耐受性相关,或代表ELISA中使用的抗人Fab捕获抗体的差异结合,是未来研究的领域。
为了证实表达的Fab确实是设计的新序列,我们从4个子库中的每一个选择并测序了在单克隆噬菌体中表达的约30个菌落。从表达KV3-20轻链的两个子库中选择的序列与158个GAN设计的KV3-20序列的可变区重叠主要显示:1)我们的菌落选择是随机的,并且提供设计序列的空间的良好覆盖,和2)相对于GAN设计的序列,仅一小部分表达的序列含有任何氨基酸突变;最匹配的是我们的合成设计。
确定了来自表达HV3-30重链的两个子库的所选序列的相似片段。利用这种设置可以进行相同的观察。选择的序列很好地跨越设计空间,并且显示比KV3-20组更少的氨基酸突变和与新的GAN设计的序列更精确的匹配。同样,显示了采样菌落的表达,并指出这些序列是否与KV3-20轻链配对。未被标记为与来自KV3-20库的轻链配对的噬菌体库序列与来自KV1-39库的轻链序列配对。
从HV3-30/KV3-20子库中选择抗体的另一个亚组,以在稳定CHO池中表达用于生物物理分析。选择分子mAb GAN-1285用于约的非常大的负曲面片,以红色显示。具有如此大的最大负片的分子在基础抗体GAN分布中相对不常见,但是出于显影性目的而进行研究是令人感兴趣的。相比之下,分子mAb GAN-1528具有约的最大负曲面片。
CHO表达的GAN抗体的生物物理验证
为了验证我们的GAN方法和探究最大负曲面片的感兴趣特性,我们提供了稳定CHO表达和纯化后mAb GAN-1285和mAb GAN-1528的生物物理数据。我们平台中的四个关键测定包括:差示扫描荧光测定法(DSF),自相互作用纳米粒子光谱法(SINS),聚乙二醇(PEG)溶解度和尺寸排阻色谱法(SEC)。这些测定法通常用于评估治剂性抗体的稳定性和显影性。
确定mAb GAN-1285和mAb GAN-1528以及平台对照抗体MS-43的DSF结果。DSF评估抗体的某些区域开始展开的温度。更稳定的和因此更展开的抗体倾向于具有一个或多个在更高温度下展开的区域,并具有更高的第一展开转变温度。这三个分子的相同恒定区均在约72℃显示展开的事件,假定为IgG CH2区。具有非常大的负曲面片的分子mAb GAN-1285显示低得多的热稳定性,具有接近60℃的初始展开的事件。这与已知负曲面片与热不稳定性相关的概念一致。
SINS测定通常用于询问分子是否将自身相互作用,导致制造过程中的问题以及可能的粘度和过滤性问题。有趣的是,两种GAN分子表现出与PBS阴性对照相同的SINS特征,表明自身相互作用的倾向低,特别是与已知具有高自身相互作用行为的阳性对照分子MS-63相比。
剩余的测定,尽管在两种测定中两种抗体之间存在潜在的显著差异,PEG溶解度和SEC显示两种抗体均是合理可溶的,并且展示了相对低量的高分子量(high molecularweight,HMW)形成。
讨论
我们在此描述了一类新的来源于计算机的人抗体,由于它们明确要求生成的序列必须模拟人抗体序列模式,我们将其称为“类人”。尽管抗体具有优异的抗原特异性并且经常被改造为用于治疗应用的支架,但是B细胞在体内不经历选择性压力以产生具有理想的生物治疗特征的抗体。为了降低开发成本并大大提高用于已知或新疾病和病原体的响应时间,发现库必须含有具有所需特征的治疗性抗体,例如:在宿主系统中的可表达性,在获得高产物纯度和产率的同时对常用蛋白质制造方法的适用性,以及在长期储存条件下的高稳定性。此外,这些治疗性库还必须含有显示使用特性的抗体,如在高浓度下对于注射能力的低粘度,降低给药频率的长消除半衰期和保存注射剂量的高生物利用度。在此,我们已经描述了在计算机上设计单克隆抗体的抗体GAN方法,所述单克隆抗体保留了典型的人库特征,例如多样性和免疫原性,同时提高了使计算机上的库偏向以实现其它期望的生物治疗特征的可能性。
我们通过噬菌体Fab展示约100,000个GAN序列的初始库在实验上验证了我们的计算机方法,并提供了在CHO中表达的两种示例性GAN抗体的生物物理特性。虽然CHO表达的分子的生物物理数据不足以表明结构差异对生物物理特性的任何因果作用,但是它们表明分子适当折叠并且它们表现出预期的生物物理特性。这些结果表明抗体GAN能够研究数千种的全长分泌抗体和数亿中的抗体Fab在噬菌体上的大的,真正不同的组的生物物理特性。这些将提供真实的基础来鉴定结构特性和序列对生物物理特性的因果效应或其缺乏,并且数据具有馈送到真正概括为抗体的计算机预测模型的潜力。
由于存在许多用于抗体优化的非线性途径,需要正在进行的研究来精确地确定哪个抗体序列,结构或生物物理特征将使抗体库的显影性,质量和功效偏向。询问抗体治疗显影性的现有数据集在少数情况下由数百个分子构成,但更常见的是约数十个抗体。由序列或甚至结构衍生,诸如抗体的粘度或化学或热稳定性的复杂特性将需要远多于数百个示例性分子。到目前为止,蛋白质科学家不得不依赖先前发现的抗体及其附近的变体,其提供了真正抗体空间的非常小的随机抽样。抗体GAN使我们能够以合理的方式探索人抗体空间。使用迁移学习使GAN偏向于给定的属性,要么是根据同源建模的结构计算的属性,要么是根据物理表达的抗体测量的属性,我们现在可以开始理解诸如显影性工程如何影响亲和力和生物利用度等关键属性的问题。这提供了在计算机和体外生成更宽范围的序列的机制,所述序列具有形成用于人抗体研究的深度,丰富的训练集的有意偏向。
蛋白质分析空间的最新进展现在提供了在噬菌体或酵母中的超高通量方法以表达和探询例如分子的稳定性68,和更多的将出现的。我们现在可以合理地设计和创建用于这些和未来方法的大量实验抗体数据集,并开始理解可开发的和有效的治疗药物的特性。
我们的抗体GAN方法作为训练集生成工具,将极大地扩展我们对抗体设计和行为的知识。它还将改变我们创造治疗剂的方式,通过更好地再生体内衍生抗体的特性,这些特性可以进行调整,使其更适合作为生物制剂用于生产和治疗。以这种方式生成的类人发现库将提供更高质量的治疗和对生物威胁和疾病目标的更快速和成本有效的应答。
方法
训练集数据源
训练集的数据来自观察到的抗体空间(Observed Antibody Space,OAS)储存库。使用内部软件(AbacusTM)自动翻译,分类和结构比对原始核苷酸序列。AHo结构编号系统用于可变区的结构比对。
为了创建训练集,首先通过我们的内部软件AbacusTM过滤可变区以去除未被分类为人可变区的任何序列,然后进一步清洗以去除含有终止密码子,截短或插入的那些序列。与其最接近种系具有小于85%一致性的任何序列也被去除。
对于任何配对链模型,然后提取其最接近的种系属于感兴趣的重和轻种系框架的不同序列。这两个子集在训练期间随机采样和组合以创建配对序列。
对于任何单链模型,初始训练集包含所有代表的种系。如果需要迁移学习,则对提取的序列组进行迁移学习,所述提取的序列组的最接近种系属于感兴趣的特定种系。
抗体GAN的开发和训练
抗体GAN代码在Python中开发。Keras和Tensorflow深度学习库主要用于构建和训练抗体GAN。使用Pandas和Numpy库来处理任何数据和训练集构造。在抗体GAN的开发和分析中使用的其它公共库包括:Sklearn,Scipy和Seaborn。
抗体GAN的架构基于Wasserstein-GAN(WGAN)(具有梯度罚分)架构,因此由生成器和鉴别器构成,其在WGAN结构中通常称为评价器。单链网络生成器将大小为296的噪声向量作为输入。该向量被馈送到密集层中,随后是3个上采样和2D卷积转置层,以及最终的Softmax层以生成大小为148×22的2D阵列。该2D阵列对应于抗体序列中轻链或重链的148个残基和22个可能的氨基酸(包括缺失和Xs)的独热编码表示。通过AHo编号比对的抗体序列在任一链中具有149个残基;为了使网络结构更简单,我们选择在编码过程中从每个链中移除一个在人库中相对恒定的残基。在解码时,我们将该常数剩余后加入。鉴别器,或评价器,
将抗体链的相同148×22编码作为输入,并使其通过两个2D卷积层,随后通过展平,密集层和单节点线性输出。
除了具有两个具有相同架构的生成器(每条链一个),配对的抗体GAN架构类似于单链版本。将每个独立链生成器的输出连接到具有重链和轻链的抗体序列的296×22独热编码表示中。当训练或迁移学习时,可以将体系结构扩展到需要两个链之间的非线性交互的复杂属性。配对GAN评价器将配对链抗体序列的296×22独热编码表示作为输入,并保持与上述相似的架构。
在单链HV3-30 GAN(使用一批128大小)的训练期间,确定生成器以及鉴别器(评价器)在假(生成的)和真(训练集实例)上的损失。通过种系框架协议在该模型的训练期评估质量。当生成的序列开始显示足够的质量时,训练结束。
已表明人单克隆抗体在重链中比在轻链中具有更高的可变性。这可能导致在成对训练期间轻链生成器和重链生成器的异步优化。
抗体GAN,导致生成比轻链质量更高的重链。一旦重链生成器达到生成足够质量的序列的状态,这可以通过冻结重链生成器的层来解决,并且在网络上继续训练直到轻链生成器达到期望的质量。
PFA集创建和OAS集选择
使用从OAS提取的IGHV3-30和IGKV3-20训练集创建以上使用的基于IGHV3-30/IGKV3-20PFA的集,其分别由约250,000和约150,000个序列够成。IGHV3-30的100%种系构架用作所有重链PFA序列的恒定构架,而100%IGKV3-20种系构架用于所有轻链。然后使用位置频率分析生成CDR(CDR1,CDR2和CDR3)中的每个残基;对于任何给定位置,从代表训练集中氨基酸频率的分布中随机采样。以此方式生成10,000个重链序列和10,000个轻链序列,然后随机配对在一起以生成一组10,000个具有完整可变区的序列。
通过从IGHV3-30和IGKV3-30训练集的每一组中随机下采样10,000个序列,然后配对在一起以创建具有完整可变区的10,000个序列集,来创建来自上述的OAS集。
DR3 PCA
为了进行PCA分析,将给定抗体的比对CDR3独热编码成载体表示。使用sklearn库,在来自OAS集、PFA集和碱基GAN集(总计30000个样本)的所有序列的那些独热编码载体上构建2组分PCA模型。分别建立和训练重链和轻链模型。
抗体GAN偏向源
CDR H3
我们的内部软件AbacusTM用于评估来自任何训练集、GAN生成集或PFA生成集的CDRH3的长度。
计算的免疫原性
MHCII是一种多态跨膜蛋白,其将外源细胞外蛋白的片段结合并呈递至T细胞受体(T-cell receptors,TCR)以引发适应性免疫应答。MHCII结合分数是复合度量,其旨在基于其构成肽是否被预测为强烈且混杂地结合MHCII蛋白来量化序列中的免疫原性风险。该度量的质量取决于对精确的肽MHCII结合预测因子的选择和对MHCII的序列中的肽片段和等位基因变体进行聚集预测的合理方法。
我们开发了一种用于肽MHCII结合亲和力预测的机器学习算法,在用于训练NetMHCIIpan-3.2并由Jensen等人报告的肽MHCII结合亲和力数据集上进行训练。已经开发了几种机器学习算法,其性能优于传统的基于矩阵的肽MHCII结合亲和力预测方法,包括NetMHCII-pan和最新的MARIA40,54。我们使用我们的内部MHCII结合预测器,以便于与我们的其它序列分析工具整合,并基于与公开的基准(在本报告中未示出)的有利的准确度比较。来自我们的模型的预测通常与用于肽MHCII结合预测的“IEDB推荐的”算法相关60。
为了计算序列MHC II结合分数,我们首先将序列分成15mer肽片段每个(滑动窗口为15,步长为1)。对于每个15mer,我们使用等位基因特异性模型来预测对MHCII的8种常见等位基因变体(由HLA等位基因DRB1*0101,DRB1*0301,DRB1*0401,DRB1*0701,DRB1*0801,DRB1*1101,DRB1*1301和DRB1*1501编码的变体)的结合亲和力。这组等位基因也用于deGroot和Martin的先驱MHCII结合风险降低工作。我们使用对随机选自储存在Uniprot中的人蛋白质序列的大的15mer参考集预测的亲和力的平均值和标准偏差将结合亲和力转化为每个等位基因的z分数。
我们取每个15mer等位基因的中值z分数,并将整个序列的正中值z分数求和以获得最终的MHCII结合分数。中位数是适当的聚集,因为结合几种MHCII变体的肽片段比仅结合一种的片段对更大的患者群体具有免疫原性风险。Dhanda等人,在IEDB网站上的蛋白质去免疫引擎的创造者,也使用中位数聚集了跨等位基因的MHCII结合分数。我们忽略了在我们的序列总和中的负分数,因为肯定不与MHCII结合的肽(大的负分数)不应该抵消与MHCII紧密结合的肽(大的正分数)。确定每个序列中所有独特15mer的推定MHC结合肽的分数。低免疫原性集(GAN-I)具有比其它集更少的MHCII结合肽,表明无论我们的序列分数提取,GAN知道要避免哪些15mer。
使用分子操作环境(MOE,化学计算组,蒙特利尔,加拿大)中的抗体建模工具将结构建模、计算的等电点(pI)和负片表面积结构模型计算为Fab结构。使用Fab结构而不是Fvs以在恒定结构域存在下生成更精确的Fv曲面片。使用MOE内的蛋白质特性工具中的整体等电点方法(称为SVL方法)计算pI。使用蛋白质贴片方法计算电负片大小,作为MOE内的SVL调用,疏水性最小面积(p_hminarea)从默认设置50变为并且电荷截止(p_qcutoff)从默认设置40变为
GAN库序列选择
人库包含具有缺失残基,非标准胱氨酸,非标准N连接糖基化位点或潜在N连接糖基化位点的小序列子集。具有这些特性的序列不从训练集中提取,因此也由GAN库中的小子集表示。对于我们的噬菌体库,在选择最终序列之前,我们滤出由GAN生成的具有任何这些特性的任何序列。
GAN库的噬菌体表达
细菌菌株
大肠杆菌One ShotTM TOP10细胞(F-mcrAΔ(mrr-hsdRMS-mcrBC)Φ80lacZΔM15ΔlacX74 recA1 araD139Δ)(araleu)7697 galU galK rpsL(StrR)endA1 nupG)购自赛默飞世尔科技(Thermo Fisher Scientific)并用于噬菌粒DNA克隆。E.10G电感受态细胞(F-mcrAΔ(mrr-hsdRMS-mcrBC)endA1 recA1Φ80dlacZΔM15ΔlacX74 araD139Δ(ara,leu)7697galU galK rpsL nupGλ-tonA(ara,leu))购自Lucigen Corporation并且也用于噬菌粒DNA克隆。大肠杆菌SS520电感受态细胞(F'[proAB lacIqZΔM15 Tn10(TetR)]araD139Δ(ara-leu)7696 galE15 galK16Δ(lac)X74 rpsL(StrR)hsdR2(rK–mK+)mcrAmcrB1)购自Lucigen Corporation并且用作噬菌体库生产的宿主。
克隆
噬菌粒pADL-20c(抗体设计实验室)可用于构建GAN子库,并经修饰用于表达Fab抗体片段作为大肠杆菌中的N端pIII融合蛋白。该载体利用细菌果胶酸裂解物(pelB)信号序列用于融合蛋白的周质易位,以及氨苄青霉素抗性基因用于在转化的大肠杆菌中生长和选择。将六组氨酸标签和FLAG标签分别添加到CH1和kappa恒定结构域的C末端,并且去除gIII上游的琥珀终止密码子以允许融合蛋白在SS520宿主细胞中表达。
编码可变重链和轻链的合成基因片段首先使用含有与噬菌粒骨架互补的22个碱基对序列的PCR引物分别扩增。接下来,通过种系汇集PCR,并使用HiFi DNAAssembly Master Mix(新英格兰生物实验室)依次组装到噬菌粒中。使用One ShotTM TOP10或E.cloni细胞进行转化,并使用ZymoPURETM II中量质粒提取试剂盒(ZymoResearch)纯化得到的噬菌粒DNA。
噬菌体库生产
如制造商所述,使用250ng每个子库DNA对大肠杆菌SS520宿主细胞进行电穿孔。将每种转化的等分试样涂布在补充有100μg/mL羧苄青霉素和2%葡萄糖的2xYT琼脂板上,并在30℃下孵育过夜。所得菌落用于估计库大小和使用菌落PCR对可变重链和轻链测序。将转化的剩余部分用于在OD600nm为0.07时接种2xYT-CG(含有50μg/mL羧苄青霉素和2%葡萄糖的2xYT肉汤),并在37℃下以250 rpm振荡直至OD600nm至0.5。然后用M13KO7辅助噬菌体(抗体设计实验室)以25的感染复数(MOI)感染培养物,并在37℃下不振荡孵育30分钟,随后以200rpm振荡30分钟。将培养物离心,然后在2xYT-CK(补充有50μg/mL羧苄青霉素和25μg/mL卡那霉素的2xYT)中更换培养基。在30℃和200rpm下孵育过夜后,通过PEG/NaCl沉淀纯化浓缩噬菌体颗粒,并重悬于含有0.5%BSA和0.05%Tween-20的PBS中。使用分光光度计测定噬菌体浓度,假定1单位的OD相当于5×1012噬菌体/mL。将来自每个GAN子库的PEG沉淀的噬菌体标准化为1×1013噬菌体/mL,并在PBS中的2%脱脂奶粉中连续稀释10倍,一式两份,用于多克隆噬菌体ELISA。
单克隆噬菌体生产
将携带功能性Fab融合蛋白的单个克隆接种到500μL 2xYT-CTG(补充有50μg/mL羧苄青霉素,15μg/mL四环素和2%葡萄糖的2xYT肉汤)中,并在96深孔板中在37℃下孵育过夜。然后将5μL过夜培养物转移到含有100μL 2xYT-CTG的新深孔板中,并在37℃下剧烈震荡孵育,直至OD600nm至0.5。将M13KO7辅助噬菌体以MOI25加入到每个孔中,并将板在37℃下无搅拌孵育1小时,然后将培养基更换为2xYT-CK,并在30℃下剧烈振荡孵育过夜。离心后收集噬菌体上清液,并以1:1稀释在PBS中的2%脱脂奶粉中,用于单克隆噬菌体ELISA。
噬菌体ELISA
用ELISA测定噬菌体上展示的Fab的量。简言之,将96孔测定板(Nunc)在4℃下用在PBS中1:500稀释的抗人Fab(Millipore Sigma)涂覆过夜,然后在含有1%BSA的PBS中室温(room temperature,RT)封闭1小时。加入稀释的噬菌体制剂并使其在室温下孵育1小时,然后使用1:5000稀释的抗M13-HRP(santacruz生物技术)在室温下检测捕获的病毒体1小时。所有间隔板洗涤在PBST(补充有0.1%v/v Tween-20的PBS)中进行3次。通过添加TMB溶液(Thermo Fisher Scientific)并使用10%磷酸淬灭来开发ELISA。在A450nm读取吸光度,来自未转化的大肠杆菌SS520宿主细胞的噬菌体上清液作为阴性对照。
选择的CHO表达的分子
如前所述培养细胞。CHOK1谷氨酰胺合成酶(Glutamine Synthetase,GS)敲除宿主细胞(Horizon Discovery,剑桥大学,英国)维持在含有4mM谷氨酰胺的CD OptiCHO(ThermoFisher Scientific,Waltham,MA)中70。
将含有适当信号肽的轻链(light chains,LC)和重链(heavy chains,HC)克隆到内部专有的双顺反子Piggy Bac转座子表达载体70中,以2步方式使用Gibson装配。通过Sanger DNA测序证实了预期编码序列的成功插入。使用常规的基于二氧化硅的低内毒素酶研究试剂盒(Irvine,CA)纯化质粒DNA。
使用Tecan Freedom EVO(Mannedorf,Switzerland)移液器将细胞、DNA和RNA添加到BTX 25多孔电穿孔板(Harvard Bioscience,Holliston,MA)中。对于每次转染,将2.4E6细胞离心并重悬于150uL PFCHO培养基(Sigma-Aldrich,St.Louis,MO)中。将7.5ug DNA和2.5ug pJV95转座酶RNA添加到细胞中,然后在连接到HT100高通量适配器(BTX,Holliston,MA)的ECM830电操纵器中以3175uF电容,290V电压,950Ω电阻电穿孔。将两种分子一式三份转染。将细胞转移到24深孔板(deep well plate,DWP)的2mL非选择性培养基中,在标准生长条件下以220转/分钟振荡培养2天,然后选择。两天后,在番石榴流式细胞仪(Luminex,Austin,TX)上计数细胞;将板离心并重悬于2mL选择性CD OptiCHO培养基中。此后每4至5天对细胞进行计数和传代。
选择开始后13天,存活率>90%,在标准生长条件下,将细胞以在24DWP中的3mL中的8×105c/mL接种于专有生产培养基中。在第3,6和8天,用5%初始体积的Cell Boost7a和0.5%Cell Boost7b(Hyclone GE Healthcare Life Sciences)喂养细胞。如前所述测量细胞计数和葡萄糖。70在第8天,补充50%葡萄糖至约10g/L的终浓度。在第10天,对细胞进行计数,离心并通过离心过滤到24深孔过滤板(Thomson,Oceanside,CA)上。通过超高效液相色谱(Ultra High-Performance Liquid Chromatography,UHPLC)蛋白A亲和力取样滴度。将重复孔汇集在一起用于蛋白A纯化。
CHO表达分子的生物物理验证
样品制备
使用截留分子量为30kDa的离心过滤器(Amicon)将样品与10倍体积的20mM氯化钠,150mM氯化钠,pH 7.1(PBS)进行缓冲液交换。在缓冲液交换之后,使用Lunatic蛋白质浓度板格式仪器(Unchained Labs)将样品标准化为1mg/mL。
差示扫描荧光测定法
根据前述方法(Kerwin,2019)通过DSF测定热转变温度和加权肩分数。
自相互作用纳米颗粒光谱学
根据先前描述的方法(Liu,2013)进行SINS测量。简单地说,将金纳米颗粒(TedPella)与80:20比率的抗人抗体和抗山羊抗体缀合过夜(Jackson Immuno Research)。使用0.1%(w/v)聚山梨醇酯20水溶液封闭未反应的位点。然后通过离心和去除95%的上清液来浓缩缀合的金纳米颗粒。在PBS(20mM磷酸盐,150mM NaCl,pH 7.1)分析,蛋白浓度为0.05mg/mL,与5ul浓缩的缀合金纳米颗粒反应。孵育2小时后,使用Spectrostar Nano读板器以2nm步长收集400至600nm的吸收光谱。记录光谱峰的最大波长。
相对溶解度
根据先前描述的方法(Kerwin,2019)评估溶解度。在PBS缓冲液(20mM磷酸钠和150mM氯化钠pH 7.1)中进行分析,最终PEG 10,000浓度范围为0%至12%。报告PEG孵育后剩余的可溶性蛋白。
尺寸排阻高效液相色谱
Claims (16)
1.一种基于机器学习技术生成蛋白质的氨基酸序列的方法,包括:
通过计算系统并且使用生成式对抗网络生成多个第一氨基酸序列,所述计算系统包括具有一个或更多个处理器和存储器的一个或更多个计算装置,所述多个第一氨基酸序列的各个第一氨基酸序列与抗体轻链相对应;
通过所述计算系统并且使用所述生成式对抗网络生成多个第二氨基酸序列,所述多个第二氨基酸序列的各个第二氨基酸序列与抗体重链相对应;
通过所述计算系统并且使用所述生成式对抗网络将所述多个第一氨基酸序列中的第一氨基酸序列与所述多个第二氨基酸序列中的第二氨基酸序列进行组合以产生第三氨基酸序列,所述第三氨基酸序列与包括对应于所述第一氨基酸序列的轻链和对应于所述第二氨基酸序列的重链的抗体相对应;以及
通过所述计算系统并且使用所述生成式对抗网络来针对附加多个氨基酸序列分析所述第三氨基酸序列以产生输出,所述附加多个氨基酸序列被包括在用于所述生成式对抗网络的训练数据中,并且所述输出指示所述第三氨基酸序列与所述附加多个氨基酸序列的至少一部分之间的相似性的测量。
2.根据权利要求1所述的方法,其中,将所述第一氨基酸序列与所述第二氨基酸序列进行组合包括将所述第二氨基酸序列连结至所述第一氨基酸序列。
3.根据权利要求1或2所述的方法,其中:
所述生成式对抗网络包括实现用于生成所述多个第一氨基酸序列的第一模型的第一生成部件以及实现用于生成所述多个第二氨基酸序列的第二模型的第二生成部件;
所述第一模型包括第一函数,所述第一函数具有一个或更多个第一变量和一个或更多个第一权重;并且
所述第二模型包括不同于所述第一函数的第二函数,所述第二函数包括一个或更多个第二变量和一个或更多个第二权重。
4.根据权利要求3所述的方法,其中,通过鉴别器分析所述第三氨基酸序列,并且将所述输出提供给所述第一生成部件或所述第二生成部件中的至少一者。
5.根据权利要求4所述的方法,其中,所述第一生成部件基于所述输出来修改所述第一模型。
6.根据权利要求4所述的方法,其中,所述第二生成部件基于所述输出来修改所述第二模型。
7.根据权利要求1所述的方法,其中,所述第一氨基酸序列包括抗体轻链的第一可变区的至少一部分,并且所述第二氨基酸序列包括抗体重链的第一可变区的至少一部分。
8.根据权利要求1所述的方法,其中,所述第一氨基酸序列包括抗体轻链的第一可变区和第一恒定区的至少一部分,并且所述第二氨基酸序列包括抗体重链的第二可变区和第二恒定区的至少一部分。
9.根据权利要求1所述的方法,包括:
通过所述计算系统并且基于所述输出确定对第一模型的训练完成,使得所述第一模型是第一经训练模型;
通过所述计算系统并且基于所述输出确定对第二模型的训练完成,使得所述第二模型是第二经训练模型;
通过所述计算系统并且使用所述第一经训练模型生成抗体的附加轻链的第一附加氨基酸序列;
通过所述计算系统并且使用所述第二经训练模型生成抗体的附加重链的第二附加氨基酸序列;以及
通过所述计算系统将所述第一附加氨基酸序列和所述第二附加氨基酸序列进行组合以产生第三附加氨基酸序列,所述第三附加氨基酸序列包括附加抗体的轻链和重链。
10.根据权利要求9所述的方法,包括通过所述计算系统关于一个或更多个度量来评估所述第三附加氨基酸序列,所述一个或更多个度量包括以下各项中的至少一者:包括在所述第三附加氨基酸序列中的疏水性氨基酸的数量、包括在所述第三附加氨基酸序列中的带正电荷的氨基酸的数量、包括在所述第三附加氨基酸序列中的带负电荷的氨基酸的数量、包括在所述第三附加氨基酸序列中的不带电荷的氨基酸的数量、所述第三附加氨基酸序列的表达水平、所述第三附加氨基酸序列的熔解温度或所述第三附加氨基酸序列的自聚集水平。
11.根据权利要求9所述的方法,包括通过所述计算系统并且使用所述生成式对抗网络来针对另外的多个氨基酸序列分析所述第三附加氨基酸序列以产生附加输出,其中:
所述另外的多个氨基酸序列被包括在用于所述生成式对抗网络的附加训练数据中;
所述附加训练数据包括与所述训练数据中包括的氨基酸序列不同的抗体的氨基酸序列;并且
所述附加输出指示所述第三附加氨基酸序列与所述另外的多个氨基酸序列的至少一部分之间的相似性的附加测量。
12.一种基于机器学习技术生成蛋白质的氨基酸序列的系统,包括:
一个或更多个硬件处理器;以及
存储计算机可执行指令的一个或更多个非暂态计算机可读介质,所述计算机可执行指令在由所述一个或更多个硬件处理器执行时使所述一个或更多个处理器执行操作,所述操作包括:
使用包括抗体轻链的第一数量的氨基酸序列的第一训练数据集来训练生成式对抗网络的第一生成部件的第一模型以产生第一经训练模型;
使用包括抗体重链的第二数量的氨基酸序列的第二训练数据集来训练所述生成式对抗网络的第二生成部件的第二模型以产生第二经训练模型,其中,训练所述第二生成部件以第一速率进行,所述第一速率与训练所述第一生成部件的第二速率不同;
使用所述第一生成部件生成与抗体轻链相对应的第一附加数量的第一附加氨基酸序列;
使用所述第二生成部件生成与抗体重链相对应的第二附加数量的第二附加氨基酸序列;以及
使用所述生成式对抗网络将所述第一附加数量的第一附加氨基酸序列的第一氨基酸序列与所述第二附加数量的第二附加氨基酸序列的第二氨基酸序列进行组合以产生第三氨基酸序列,所述第三氨基酸序列与包括对应于所述第一氨基酸序列的轻链和对应于所述第二氨基酸序列的重链的抗体相对应。
13.根据权利要求12所述的系统,其中,使用多个蹒跚权重来训练所述第二生成部件,以相对于在没有所述多个蹒跚权重的情况下训练所述第二生成部件的附加速率来降低训练所述第二生成部件的速率。
14.根据权利要求12所述的系统,其中,通过减慢所述第二生成部件的梯度来训练所述第二生成部件。
15.根据权利要求12至14中任一项所述的系统,其中,所述一个或更多个非暂态计算机可读介质存储附加计算机可执行指令,所述附加计算机可执行指令在由所述一个或更多个硬件处理器执行时使所述一个或更多个处理器执行附加操作,所述附加操作包括:
在第一时间段期间训练所述第二生成部件;
确定在所述第一时间段的结束部分期间产生的第一多个氨基酸序列具有第一质量水平;
在第二时间段内训练所述第一生成部件,所述第二时间段包括所述第一时间段并且比所述第一时间段长;
确定在所述第二时间段的结束部分期间产生的第二多个氨基酸序列具有所述第一质量水平;
在所述第二时间段之后的第三时间段期间训练所述第二生成部件;
确定在所述第三时间段的结束部分期间产生的第三多个氨基酸序列具有第二质量水平;
在第四时间段内训练所述第一生成部件,所述第四时间段包括所述第三时间段并且比所述第三时间段长;以及
确定在所述第四时间段的结束部分期间产生的第四多个氨基酸序列具有所述第二质量水平。
16.根据权利要求15所述的系统,其中,训练所述第二生成部件经过的总时间量小于训练所述第一生成部件经过的总时间量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310305072.6A CN116434844A (zh) | 2019-05-19 | 2020-05-19 | 用于生成蛋白质的氨基酸序列的方法和系统 |
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962849897P | 2019-05-19 | 2019-05-19 | |
US62/849,897 | 2019-05-19 | ||
US201962935980P | 2019-11-15 | 2019-11-15 | |
US62/935,980 | 2019-11-15 | ||
US202063006683P | 2020-04-07 | 2020-04-07 | |
US63/006,683 | 2020-04-07 | ||
PCT/US2020/033646 WO2020236839A2 (en) | 2019-05-19 | 2020-05-19 | Generation of protein sequences using machine learning techniques |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310305072.6A Division CN116434844A (zh) | 2019-05-19 | 2020-05-19 | 用于生成蛋白质的氨基酸序列的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114303201A CN114303201A (zh) | 2022-04-08 |
CN114303201B true CN114303201B (zh) | 2023-04-18 |
Family
ID=73458132
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310305072.6A Pending CN116434844A (zh) | 2019-05-19 | 2020-05-19 | 用于生成蛋白质的氨基酸序列的方法和系统 |
CN202080045620.0A Active CN114303201B (zh) | 2019-05-19 | 2020-05-19 | 使用机器学习技术生成蛋白质序列 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310305072.6A Pending CN116434844A (zh) | 2019-05-19 | 2020-05-19 | 用于生成蛋白质的氨基酸序列的方法和系统 |
Country Status (9)
Country | Link |
---|---|
US (2) | US11587645B2 (zh) |
EP (1) | EP3956896B1 (zh) |
JP (1) | JP2022533209A (zh) |
KR (1) | KR20220011148A (zh) |
CN (2) | CN116434844A (zh) |
AU (1) | AU2020278675B2 (zh) |
CA (1) | CA3141476C (zh) |
NZ (1) | NZ782696A (zh) |
WO (1) | WO2020236839A2 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220011148A (ko) | 2019-05-19 | 2022-01-27 | 저스트-에보텍 바이오로직스, 아이엔씨. | 머신 학습 기술을 사용한 단백질 서열의 생성 |
WO2021119261A1 (en) * | 2019-12-10 | 2021-06-17 | Homodeus, Inc. | Generative machine learning models for predicting functional protein sequences |
EP4073806A4 (en) * | 2019-12-12 | 2023-01-18 | Just-Evotec Biologics, Inc. | GENERATION OF PROTEIN SEQUENCES USING MACHINE LEARNING TECHNIQUES BASED ON MODEL PROTEIN SEQUENCES |
US20220319635A1 (en) * | 2021-04-05 | 2022-10-06 | Nec Laboratories America, Inc. | Generating minority-class examples for training data |
GB202105776D0 (en) * | 2021-04-22 | 2021-06-09 | Alchemab Therapeutics Ltd | Engineering of antigen-binding proteins |
WO2022245737A1 (en) * | 2021-05-17 | 2022-11-24 | Genentech, Inc. | Function guided in silico protein design |
CN113764037B (zh) * | 2021-05-28 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 模型训练、抗体改造和结合位点预测的方法与装置 |
CN113838523A (zh) * | 2021-09-17 | 2021-12-24 | 深圳太力生物技术有限责任公司 | 一种抗体蛋白cdr区域氨基酸序列预测方法及系统 |
AU2022376269A1 (en) * | 2021-11-01 | 2024-05-16 | Adimab, Llc | Systems and methods for intelligent construction of antibody libraries |
WO2023177579A1 (en) * | 2022-03-14 | 2023-09-21 | Sanofi Pasteur Inc. | Machine-learning techniques in protein design for vaccine generation |
CN115171787A (zh) * | 2022-07-08 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 抗原预测方法、装置、设备以及存储介质 |
CN115588462A (zh) * | 2022-09-15 | 2023-01-10 | 哈尔滨工业大学 | 基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法 |
GB202215218D0 (en) * | 2022-10-14 | 2022-11-30 | Alchemab Therapeutics Ltd | Engineering of antigen-binding proteins |
CN115881220B (zh) * | 2023-02-15 | 2023-06-06 | 北京深势科技有限公司 | 一种抗体结构预测的处理方法和装置 |
CN116543839B (zh) * | 2023-06-28 | 2023-09-22 | 深圳大学 | 噬菌体构建方法、装置、设备及存储介质 |
CN117275582A (zh) * | 2023-07-07 | 2023-12-22 | 上海逐药科技有限公司 | 氨基酸序列生成模型的构建以及蛋白质变体获得方法 |
CN117854601B (zh) * | 2024-03-04 | 2024-05-14 | 鲁东大学 | 一种基于基因类型和氨基酸序列的决定性互补区分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005072112A2 (en) * | 2003-12-31 | 2005-08-11 | Vaccinex, Inc. | Methods for producing and identifying multispecific antibodies |
CN108595916A (zh) * | 2018-05-10 | 2018-09-28 | 浙江工业大学 | 基于生成对抗网络的基因表达全谱推断方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11573239B2 (en) * | 2017-07-17 | 2023-02-07 | Bioinformatics Solutions Inc. | Methods and systems for de novo peptide sequencing using deep learning |
CA3132181A1 (en) * | 2019-05-03 | 2020-11-12 | Simon FRIEDENSOHN | Identification of convergent antibody specificity sequence patterns |
KR20220011148A (ko) | 2019-05-19 | 2022-01-27 | 저스트-에보텍 바이오로직스, 아이엔씨. | 머신 학습 기술을 사용한 단백질 서열의 생성 |
-
2020
- 2020-05-19 KR KR1020217041423A patent/KR20220011148A/ko unknown
- 2020-05-19 JP JP2021568898A patent/JP2022533209A/ja active Pending
- 2020-05-19 CA CA3141476A patent/CA3141476C/en active Active
- 2020-05-19 CN CN202310305072.6A patent/CN116434844A/zh active Pending
- 2020-05-19 CN CN202080045620.0A patent/CN114303201B/zh active Active
- 2020-05-19 AU AU2020278675A patent/AU2020278675B2/en active Active
- 2020-05-19 NZ NZ782696A patent/NZ782696A/en unknown
- 2020-05-19 US US17/612,918 patent/US11587645B2/en active Active
- 2020-05-19 WO PCT/US2020/033646 patent/WO2020236839A2/en active Application Filing
- 2020-05-19 EP EP20809685.9A patent/EP3956896B1/en active Active
-
2023
- 2023-01-13 US US18/154,644 patent/US20230178186A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005072112A2 (en) * | 2003-12-31 | 2005-08-11 | Vaccinex, Inc. | Methods for producing and identifying multispecific antibodies |
CN108595916A (zh) * | 2018-05-10 | 2018-09-28 | 浙江工业大学 | 基于生成对抗网络的基因表达全谱推断方法 |
Also Published As
Publication number | Publication date |
---|---|
AU2020278675B2 (en) | 2022-02-03 |
CN116434844A (zh) | 2023-07-14 |
NZ782696A (en) | 2023-01-27 |
KR20220011148A (ko) | 2022-01-27 |
US20230178186A1 (en) | 2023-06-08 |
AU2022202958A1 (en) | 2022-05-26 |
EP3956896B1 (en) | 2024-05-01 |
CA3141476C (en) | 2023-08-22 |
US20220230710A1 (en) | 2022-07-21 |
US11587645B2 (en) | 2023-02-21 |
AU2020278675A1 (en) | 2021-12-23 |
EP3956896A4 (en) | 2022-06-22 |
EP3956896A2 (en) | 2022-02-23 |
WO2020236839A2 (en) | 2020-11-26 |
WO2020236839A3 (en) | 2021-06-10 |
JP2022533209A (ja) | 2022-07-21 |
CN114303201A (zh) | 2022-04-08 |
CA3141476A1 (en) | 2020-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114303201B (zh) | 使用机器学习技术生成蛋白质序列 | |
Amimeur et al. | Designing feature-controlled humanoid antibody discovery libraries using generative adversarial networks | |
Fridy et al. | A robust pipeline for rapid production of versatile nanobody repertoires | |
US20220081472A1 (en) | Meso-scale engineered peptides and methods of selecting | |
JP2009106280A (ja) | ヒトに適合したモノクローナル抗体における使用法 | |
JP2022530941A (ja) | 収束抗体特異性配列パターンの識別 | |
WO2020246617A1 (ja) | 情報処理システム、情報処理方法、プログラム、及び、抗原結合分子或いはタンパク質を製造する方法 | |
CN115280417A (zh) | 使用机器学习技术基于模板蛋白质序列来生成蛋白质序列 | |
Rahumatullah et al. | Antibody-based protective immunity against helminth infections: Antibody phage display derived antibodies against B m R1 antigen | |
Noël et al. | Global analysis of VHHs framework regions with a structural alphabet | |
Murakami et al. | Construction of a humanized artificial VHH library reproducing structural features of camelid VHHs for therapeutics | |
Garcia-Calvo et al. | Construction of a Fab library merging chains from semisynthetic and immune origin, suitable for developing new tools for gluten immunodetection in food | |
Contreras et al. | Design and construction of a synthetic nanobody library: testing its potential with a single selection round strategy | |
AU2022202958B2 (en) | Generation of protein sequences using machine learning techniques | |
Schrade et al. | Back-to-Germline (B2G) procedure for antibody devolution | |
Fernández-Quintero et al. | Structure and Dynamics Guiding Design of Antibody Therapeutics and Vaccines | |
Ramon et al. | AbNatiV: VQ-VAE-based assessment of antibody and nanobody nativeness for hit selection, humanisation, and engineering | |
US11976384B2 (en) | Methods and compositions for protein detection | |
Bashour et al. | Biophysical cartography of the native and human-engineered antibody landscapes quantifies the plasticity of antibody developability | |
Hadsund | Computational Mapping of Antibody Sequence and Structure Space | |
Urdaniz | Understanding Antigenic Variability by Building Novel Deep Mutational Scanning Tools | |
Schulte et al. | Simultaneous polyclonal antibody sequencing and epitope mapping by cryo electron microscopy and mass spectrometry–a perspective | |
WO2023081695A1 (en) | Methods and compositions for protein detection | |
Leem | Development of computational methodologies for antibody design | |
Shastry | Rational Design and Study of Peptide Ligands for Carbohydrates: Applications in Understanding Biomolecular Recognition and in Targeting of Biomolecules |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40070051 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |