JP2023534283A - ペプチドの結合、提示及び免疫原性を予測するための注意ベースのニューラルネットワーク - Google Patents
ペプチドの結合、提示及び免疫原性を予測するための注意ベースのニューラルネットワーク Download PDFInfo
- Publication number
- JP2023534283A JP2023534283A JP2023502978A JP2023502978A JP2023534283A JP 2023534283 A JP2023534283 A JP 2023534283A JP 2023502978 A JP2023502978 A JP 2023502978A JP 2023502978 A JP2023502978 A JP 2023502978A JP 2023534283 A JP2023534283 A JP 2023534283A
- Authority
- JP
- Japan
- Prior art keywords
- peptide
- attention
- sequence
- ipc
- mhc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 1116
- 230000005847 immunogenicity Effects 0.000 title claims abstract description 103
- 230000027455 binding Effects 0.000 title claims description 104
- 238000013528 artificial neural network Methods 0.000 title claims description 38
- 238000000034 method Methods 0.000 claims abstract description 470
- 108700018351 Major Histocompatibility Complex Proteins 0.000 claims abstract description 363
- 230000020382 suppression by virus of host antigen processing and presentation of peptide antigen via MHC class I Effects 0.000 claims abstract description 360
- 102000004196 processed proteins & peptides Human genes 0.000 claims abstract description 359
- 238000010801 machine learning Methods 0.000 claims abstract description 275
- 108091008874 T cell receptors Proteins 0.000 claims abstract description 181
- 102000016266 T-Cell Antigen Receptors Human genes 0.000 claims abstract description 173
- 230000003993 interaction Effects 0.000 claims abstract description 145
- 238000011282 treatment Methods 0.000 claims abstract description 62
- 230000002163 immunogen Effects 0.000 claims abstract description 21
- 239000008194 pharmaceutical composition Substances 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 231
- 238000012549 training Methods 0.000 claims description 222
- 150000001413 amino acids Chemical class 0.000 claims description 134
- 201000010099 disease Diseases 0.000 claims description 129
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 129
- 230000008569 process Effects 0.000 claims description 108
- 150000007523 nucleic acids Chemical class 0.000 claims description 103
- 239000000523 sample Substances 0.000 claims description 99
- 239000013598 vector Substances 0.000 claims description 92
- 239000002131 composite material Substances 0.000 claims description 85
- 206010028980 Neoplasm Diseases 0.000 claims description 83
- 229960005486 vaccine Drugs 0.000 claims description 76
- 210000004027 cell Anatomy 0.000 claims description 71
- 102000039446 nucleic acids Human genes 0.000 claims description 59
- 108020004707 nucleic acids Proteins 0.000 claims description 59
- 230000037361 pathway Effects 0.000 claims description 54
- 238000009169 immunotherapy Methods 0.000 claims description 50
- 108010036650 Immunoproteins Proteins 0.000 claims description 49
- 102000012214 Immunoproteins Human genes 0.000 claims description 49
- 230000014509 gene expression Effects 0.000 claims description 49
- 108091026890 Coding region Proteins 0.000 claims description 48
- 239000000427 antigen Substances 0.000 claims description 46
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 42
- 210000001744 T-lymphocyte Anatomy 0.000 claims description 42
- 238000003556 assay Methods 0.000 claims description 42
- 238000012163 sequencing technique Methods 0.000 claims description 42
- 108091033319 polynucleotide Proteins 0.000 claims description 41
- 102000040430 polynucleotide Human genes 0.000 claims description 41
- 239000002157 polynucleotide Substances 0.000 claims description 41
- 201000011510 cancer Diseases 0.000 claims description 39
- 230000028993 immune response Effects 0.000 claims description 39
- 108020004999 messenger RNA Proteins 0.000 claims description 37
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 36
- 238000003860 storage Methods 0.000 claims description 36
- 108091007433 antigens Proteins 0.000 claims description 34
- 102000036639 antigens Human genes 0.000 claims description 34
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 32
- 230000001900 immune effect Effects 0.000 claims description 32
- 239000002243 precursor Substances 0.000 claims description 31
- 238000002659 cell therapy Methods 0.000 claims description 24
- 108020004414 DNA Proteins 0.000 claims description 20
- 238000004891 communication Methods 0.000 claims description 20
- 229940038309 personalized vaccine Drugs 0.000 claims description 20
- 238000004949 mass spectrometry Methods 0.000 claims description 19
- 230000009466 transformation Effects 0.000 claims description 19
- 239000012472 biological sample Substances 0.000 claims description 17
- 108091054438 MHC class II family Proteins 0.000 claims description 15
- 108091054437 MHC class I family Proteins 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 14
- 238000004519 manufacturing process Methods 0.000 claims description 13
- 102000043131 MHC class II family Human genes 0.000 claims description 12
- 230000001419 dependent effect Effects 0.000 claims description 12
- 239000012634 fragment Substances 0.000 claims description 12
- 238000011275 oncology therapy Methods 0.000 claims description 12
- 102000043129 MHC class I family Human genes 0.000 claims description 10
- 230000001086 cytosolic effect Effects 0.000 claims description 9
- 125000003729 nucleotide group Chemical group 0.000 claims description 9
- 108020005345 3' Untranslated Regions Proteins 0.000 claims description 8
- 101710205883 Amino-terminal enhancer of split Proteins 0.000 claims description 7
- 101710187338 TLE family member 5 Proteins 0.000 claims description 7
- 102100033766 TLE family member 5 Human genes 0.000 claims description 7
- 239000002671 adjuvant Substances 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 7
- 239000002773 nucleotide Substances 0.000 claims description 7
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 6
- 108091036066 Three prime untranslated region Proteins 0.000 claims description 6
- 230000004075 alteration Effects 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 6
- 239000000178 monomer Substances 0.000 claims description 6
- 230000003248 secreting effect Effects 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 108091034057 RNA (poly(A)) Proteins 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 238000011161 development Methods 0.000 claims description 5
- 238000001114 immunoprecipitation Methods 0.000 claims description 5
- 150000002632 lipids Chemical class 0.000 claims description 5
- 239000000546 pharmaceutical excipient Substances 0.000 claims description 5
- 101001028702 Homo sapiens Mitochondrial-derived peptide MOTS-c Proteins 0.000 claims description 4
- 102100037173 Mitochondrial-derived peptide MOTS-c Human genes 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 4
- 230000000977 initiatory effect Effects 0.000 claims description 4
- 210000000265 leukocyte Anatomy 0.000 claims description 4
- 108091027963 non-coding RNA Proteins 0.000 claims description 4
- 102000042567 non-coding RNA Human genes 0.000 claims description 4
- 108091026898 Leader sequence (mRNA) Proteins 0.000 claims description 3
- 108091023045 Untranslated Region Proteins 0.000 claims description 3
- 238000004587 chromatography analysis Methods 0.000 claims description 3
- 239000002479 lipoplex Substances 0.000 claims description 3
- 239000013612 plasmid Substances 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000000536 complexating effect Effects 0.000 claims description 2
- 238000012369 In process control Methods 0.000 claims 23
- 238000004190 ion pair chromatography Methods 0.000 claims 23
- 210000004544 dc2 Anatomy 0.000 claims 1
- 108090000623 proteins and genes Proteins 0.000 description 82
- 108700028369 Alleles Proteins 0.000 description 54
- 102000004169 proteins and genes Human genes 0.000 description 52
- 239000000203 mixture Substances 0.000 description 43
- 230000006870 function Effects 0.000 description 34
- 238000012360 testing method Methods 0.000 description 30
- 210000001519 tissue Anatomy 0.000 description 24
- 238000010586 diagram Methods 0.000 description 22
- 230000035772 mutation Effects 0.000 description 20
- 239000013074 reference sample Substances 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 17
- 210000004881 tumor cell Anatomy 0.000 description 17
- 108020004705 Codon Chemical group 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 15
- 230000004048 modification Effects 0.000 description 14
- 238000012986 modification Methods 0.000 description 14
- 210000000612 antigen-presenting cell Anatomy 0.000 description 13
- 230000005867 T cell response Effects 0.000 description 12
- 238000010828 elution Methods 0.000 description 12
- 229940022005 RNA vaccine Drugs 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 11
- 239000003446 ligand Substances 0.000 description 11
- 238000010606 normalization Methods 0.000 description 11
- 238000010200 validation analysis Methods 0.000 description 11
- 102000008949 Histocompatibility Antigens Class I Human genes 0.000 description 10
- 230000001976 improved effect Effects 0.000 description 10
- 102000018713 Histocompatibility Antigens Class II Human genes 0.000 description 9
- 208000015914 Non-Hodgkin lymphomas Diseases 0.000 description 9
- 238000013459 approach Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 9
- 238000011510 Elispot assay Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 8
- 230000009258 tissue cross reactivity Effects 0.000 description 8
- 238000003559 RNA-seq method Methods 0.000 description 7
- 125000000539 amino acid group Chemical group 0.000 description 7
- 230000002788 anti-peptide Effects 0.000 description 7
- 238000003491 array Methods 0.000 description 7
- 108010088652 Histocompatibility Antigens Class I Proteins 0.000 description 6
- 108010027412 Histocompatibility Antigens Class II Proteins 0.000 description 6
- 108700001237 Nucleic Acid-Based Vaccines Proteins 0.000 description 6
- 239000005557 antagonist Substances 0.000 description 6
- 210000004443 dendritic cell Anatomy 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 229940023146 nucleic acid vaccine Drugs 0.000 description 6
- 230000003068 static effect Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 210000004899 c-terminal region Anatomy 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 210000001151 cytotoxic T lymphocyte Anatomy 0.000 description 5
- 239000003814 drug Substances 0.000 description 5
- 230000037433 frameshift Effects 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 238000000338 in vitro Methods 0.000 description 5
- 238000001727 in vivo Methods 0.000 description 5
- 108700021021 mRNA Vaccine Proteins 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 229920001184 polypeptide Polymers 0.000 description 5
- 238000002560 therapeutic procedure Methods 0.000 description 5
- 238000000844 transformation Methods 0.000 description 5
- 206010009944 Colon cancer Diseases 0.000 description 4
- 208000008839 Kidney Neoplasms Diseases 0.000 description 4
- 108010033276 Peptide Fragments Proteins 0.000 description 4
- 102000007079 Peptide Fragments Human genes 0.000 description 4
- 101800001442 Peptide pr Proteins 0.000 description 4
- 206010038389 Renal cancer Diseases 0.000 description 4
- 208000005718 Stomach Neoplasms Diseases 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000000137 annealing Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 206010017758 gastric cancer Diseases 0.000 description 4
- 210000005260 human cell Anatomy 0.000 description 4
- 230000005965 immune activity Effects 0.000 description 4
- 230000003053 immunization Effects 0.000 description 4
- 230000016784 immunoglobulin production Effects 0.000 description 4
- 238000010348 incorporation Methods 0.000 description 4
- 201000010982 kidney cancer Diseases 0.000 description 4
- 201000001441 melanoma Diseases 0.000 description 4
- 239000002105 nanoparticle Substances 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 4
- 201000011549 stomach cancer Diseases 0.000 description 4
- 238000011144 upstream manufacturing Methods 0.000 description 4
- 206010069754 Acquired gene mutation Diseases 0.000 description 3
- 208000010839 B-cell chronic lymphocytic leukemia Diseases 0.000 description 3
- 108010074708 B7-H1 Antigen Proteins 0.000 description 3
- 208000003174 Brain Neoplasms Diseases 0.000 description 3
- 206010006187 Breast cancer Diseases 0.000 description 3
- 208000026310 Breast neoplasm Diseases 0.000 description 3
- 229940045513 CTLA4 antagonist Drugs 0.000 description 3
- -1 DOTMA and DOPE Chemical class 0.000 description 3
- 238000002965 ELISA Methods 0.000 description 3
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 3
- 241000699666 Mus <mouse, genus> Species 0.000 description 3
- 108700026244 Open Reading Frames Proteins 0.000 description 3
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 3
- 102100024216 Programmed cell death 1 ligand 1 Human genes 0.000 description 3
- 102100040678 Programmed cell death protein 1 Human genes 0.000 description 3
- 101710089372 Programmed cell death protein 1 Proteins 0.000 description 3
- 206010060862 Prostate cancer Diseases 0.000 description 3
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 3
- 108010026552 Proteome Proteins 0.000 description 3
- 238000012300 Sequence Analysis Methods 0.000 description 3
- 206010041067 Small cell lung cancer Diseases 0.000 description 3
- 239000002246 antineoplastic agent Substances 0.000 description 3
- 210000003719 b-lymphocyte Anatomy 0.000 description 3
- 238000001574 biopsy Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 208000029742 colonic neoplasm Diseases 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 229940127089 cytotoxic agent Drugs 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000003114 enzyme-linked immunosorbent spot assay Methods 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 201000010536 head and neck cancer Diseases 0.000 description 3
- 208000014829 head and neck neoplasm Diseases 0.000 description 3
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 201000005202 lung cancer Diseases 0.000 description 3
- 208000020816 lung neoplasm Diseases 0.000 description 3
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 3
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 3
- 201000002528 pancreatic cancer Diseases 0.000 description 3
- 208000008443 pancreatic carcinoma Diseases 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 210000003819 peripheral blood mononuclear cell Anatomy 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 208000000587 small cell lung carcinoma Diseases 0.000 description 3
- 230000000392 somatic effect Effects 0.000 description 3
- 230000037439 somatic mutation Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 3
- 108020003589 5' Untranslated Regions Proteins 0.000 description 2
- 208000031261 Acute myeloid leukaemia Diseases 0.000 description 2
- 208000003950 B-cell lymphoma Diseases 0.000 description 2
- 208000032791 BCR-ABL1 positive chronic myelogenous leukemia Diseases 0.000 description 2
- 201000009030 Carcinoma Diseases 0.000 description 2
- 208000010833 Chronic myeloid leukaemia Diseases 0.000 description 2
- 102100039498 Cytotoxic T-lymphocyte protein 4 Human genes 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 101000889276 Homo sapiens Cytotoxic T-lymphocyte protein 4 Proteins 0.000 description 2
- 108010074328 Interferon-gamma Proteins 0.000 description 2
- 208000031422 Lymphocytic Chronic B-Cell Leukemia Diseases 0.000 description 2
- 206010025323 Lymphomas Diseases 0.000 description 2
- 206010027476 Metastases Diseases 0.000 description 2
- 108010085220 Multiprotein Complexes Proteins 0.000 description 2
- 102000007474 Multiprotein Complexes Human genes 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 2
- 208000033761 Myelogenous Chronic BCR-ABL Positive Leukemia Diseases 0.000 description 2
- 208000033776 Myeloid Acute Leukemia Diseases 0.000 description 2
- 206010033128 Ovarian cancer Diseases 0.000 description 2
- 206010061535 Ovarian neoplasm Diseases 0.000 description 2
- 108010007568 Protamines Proteins 0.000 description 2
- 102000007327 Protamines Human genes 0.000 description 2
- 206010039491 Sarcoma Diseases 0.000 description 2
- 229940126547 T-cell immunoglobulin mucin-3 Drugs 0.000 description 2
- 208000024313 Testicular Neoplasms Diseases 0.000 description 2
- 206010057644 Testis cancer Diseases 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000030741 antigen processing and presentation Effects 0.000 description 2
- 238000002869 basic local alignment search tool Methods 0.000 description 2
- 238000012575 bio-layer interferometry Methods 0.000 description 2
- 230000004071 biological effect Effects 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000001124 body fluid Anatomy 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 125000002091 cationic group Chemical group 0.000 description 2
- 229940030156 cell vaccine Drugs 0.000 description 2
- 208000032852 chronic lymphocytic leukemia Diseases 0.000 description 2
- 238000004737 colorimetric analysis Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 239000002299 complementary DNA Substances 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 2
- 108020001507 fusion proteins Proteins 0.000 description 2
- 102000037865 fusion proteins Human genes 0.000 description 2
- 210000002443 helper t lymphocyte Anatomy 0.000 description 2
- 210000002865 immune cell Anatomy 0.000 description 2
- 229940121354 immunomodulator Drugs 0.000 description 2
- 208000032839 leukemia Diseases 0.000 description 2
- 239000002502 liposome Substances 0.000 description 2
- 201000007270 liver cancer Diseases 0.000 description 2
- 208000014018 liver neoplasm Diseases 0.000 description 2
- 238000011068 loading method Methods 0.000 description 2
- 210000002540 macrophage Anatomy 0.000 description 2
- 230000009401 metastasis Effects 0.000 description 2
- 230000000813 microbial effect Effects 0.000 description 2
- 238000001768 microscale thermophoresis Methods 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 230000004481 post-translational protein modification Effects 0.000 description 2
- 208000017805 post-transplant lymphoproliferative disease Diseases 0.000 description 2
- 229940048914 protamine Drugs 0.000 description 2
- 238000010379 pull-down assay Methods 0.000 description 2
- 230000009257 reactivity Effects 0.000 description 2
- 230000001373 regressive effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000037436 splice-site mutation Effects 0.000 description 2
- 230000000638 stimulation Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000002198 surface plasmon resonance spectroscopy Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 201000003120 testicular cancer Diseases 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- 238000004448 titration Methods 0.000 description 2
- 230000037455 tumor specific immune response Effects 0.000 description 2
- 238000002255 vaccination Methods 0.000 description 2
- 238000007482 whole exome sequencing Methods 0.000 description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 description 2
- LDGWQMRUWMSZIU-LQDDAWAPSA-M 2,3-bis[(z)-octadec-9-enoxy]propyl-trimethylazanium;chloride Chemical compound [Cl-].CCCCCCCC\C=C/CCCCCCCCOCC(C[N+](C)(C)C)OCCCCCCCC\C=C/CCCCCCCC LDGWQMRUWMSZIU-LQDDAWAPSA-M 0.000 description 1
- GOJUJUVQIVIZAV-UHFFFAOYSA-N 2-amino-4,6-dichloropyrimidine-5-carbaldehyde Chemical group NC1=NC(Cl)=C(C=O)C(Cl)=N1 GOJUJUVQIVIZAV-UHFFFAOYSA-N 0.000 description 1
- 208000002008 AIDS-Related Lymphoma Diseases 0.000 description 1
- 101100421761 Arabidopsis thaliana GSNAP gene Proteins 0.000 description 1
- 101150076489 B gene Proteins 0.000 description 1
- 206010005003 Bladder cancer Diseases 0.000 description 1
- 101150111062 C gene Proteins 0.000 description 1
- 101100004286 Caenorhabditis elegans best-5 gene Proteins 0.000 description 1
- 208000010667 Carcinoma of liver and intrahepatic biliary tract Diseases 0.000 description 1
- 102000014914 Carrier Proteins Human genes 0.000 description 1
- 108010078791 Carrier Proteins Proteins 0.000 description 1
- 206010008342 Cervix carcinoma Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 108090000695 Cytokines Proteins 0.000 description 1
- 102000004127 Cytokines Human genes 0.000 description 1
- 229940021995 DNA vaccine Drugs 0.000 description 1
- 241000702421 Dependoparvovirus Species 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 206010014733 Endometrial cancer Diseases 0.000 description 1
- 206010014759 Endometrial neoplasm Diseases 0.000 description 1
- 206010017993 Gastrointestinal neoplasms Diseases 0.000 description 1
- 102100028972 HLA class I histocompatibility antigen, A alpha chain Human genes 0.000 description 1
- 101150118346 HLA-A gene Proteins 0.000 description 1
- 206010073069 Hepatic cancer Diseases 0.000 description 1
- 101000899111 Homo sapiens Hemoglobin subunit beta Proteins 0.000 description 1
- 101000914514 Homo sapiens T-cell-specific surface glycoprotein CD28 Proteins 0.000 description 1
- 101000669402 Homo sapiens Toll-like receptor 7 Proteins 0.000 description 1
- 101000800483 Homo sapiens Toll-like receptor 8 Proteins 0.000 description 1
- 101150106931 IFNG gene Proteins 0.000 description 1
- 208000021330 IgG4-related disease Diseases 0.000 description 1
- 208000037142 IgG4-related systemic disease Diseases 0.000 description 1
- 102000008394 Immunoglobulin Fragments Human genes 0.000 description 1
- 108010021625 Immunoglobulin Fragments Proteins 0.000 description 1
- 208000004187 Immunoglobulin G4-Related Disease Diseases 0.000 description 1
- 102100037850 Interferon gamma Human genes 0.000 description 1
- 102000008070 Interferon-gamma Human genes 0.000 description 1
- 108010002350 Interleukin-2 Proteins 0.000 description 1
- 108091092195 Intron Proteins 0.000 description 1
- 208000007766 Kaposi sarcoma Diseases 0.000 description 1
- 208000007433 Lymphatic Metastasis Diseases 0.000 description 1
- 206010025312 Lymphoma AIDS related Diseases 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 238000000585 Mann–Whitney U test Methods 0.000 description 1
- 208000025205 Mantle-Cell Lymphoma Diseases 0.000 description 1
- 108091027974 Mature messenger RNA Proteins 0.000 description 1
- 206010027145 Melanocytic naevus Diseases 0.000 description 1
- 108010021466 Mutant Proteins Proteins 0.000 description 1
- 102000008300 Mutant Proteins Human genes 0.000 description 1
- 208000007256 Nevus Diseases 0.000 description 1
- 206010030113 Oedema Diseases 0.000 description 1
- 102000035195 Peptidases Human genes 0.000 description 1
- 108091005804 Peptidases Proteins 0.000 description 1
- 208000015634 Rectal Neoplasms Diseases 0.000 description 1
- 206010061934 Salivary gland cancer Diseases 0.000 description 1
- 208000021712 Soft tissue sarcoma Diseases 0.000 description 1
- 208000002847 Surgical Wound Diseases 0.000 description 1
- 230000006044 T cell activation Effects 0.000 description 1
- 208000000389 T-cell leukemia Diseases 0.000 description 1
- 208000026651 T-cell prolymphocytic leukemia Diseases 0.000 description 1
- 102100027213 T-cell-specific surface glycoprotein CD28 Human genes 0.000 description 1
- 108700012920 TNF Proteins 0.000 description 1
- 208000024770 Thyroid neoplasm Diseases 0.000 description 1
- 102100039390 Toll-like receptor 7 Human genes 0.000 description 1
- 102100033110 Toll-like receptor 8 Human genes 0.000 description 1
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 description 1
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 description 1
- 241000700618 Vaccinia virus Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 206010047741 Vulval cancer Diseases 0.000 description 1
- 208000004354 Vulvar Neoplasms Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N adenyl group Chemical class N1=CN=C2N=CNC2=C1N GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 230000009824 affinity maturation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 210000004102 animal cell Anatomy 0.000 description 1
- 229940125644 antibody drug Drugs 0.000 description 1
- 229940124691 antibody therapeutics Drugs 0.000 description 1
- 230000000890 antigenic effect Effects 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 206010003246 arthritis Diseases 0.000 description 1
- 125000003118 aryl group Chemical group 0.000 description 1
- 230000009901 attention process Effects 0.000 description 1
- 230000006472 autoimmune response Effects 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 230000009141 biological interaction Effects 0.000 description 1
- 201000000053 blastoma Diseases 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 238000009566 cancer vaccine Methods 0.000 description 1
- 229940022399 cancer vaccine Drugs 0.000 description 1
- 125000001314 canonical amino-acid group Chemical group 0.000 description 1
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 1
- 229920006317 cationic polymer Polymers 0.000 description 1
- 150000001768 cations Chemical class 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 201000010881 cervical cancer Diseases 0.000 description 1
- 230000008711 chromosomal rearrangement Effects 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 238000012875 competitive assay Methods 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000009089 cytolysis Effects 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 201000008184 embryoma Diseases 0.000 description 1
- 201000003914 endometrial carcinoma Diseases 0.000 description 1
- 230000002357 endometrial effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009093 first-line therapy Methods 0.000 description 1
- 238000002866 fluorescence resonance energy transfer Methods 0.000 description 1
- 230000003325 follicular Effects 0.000 description 1
- 201000003444 follicular lymphoma Diseases 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 238000007306 functionalization reaction Methods 0.000 description 1
- 230000002538 fungal effect Effects 0.000 description 1
- 238000003205 genotyping method Methods 0.000 description 1
- 208000005017 glioblastoma Diseases 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 201000009277 hairy cell leukemia Diseases 0.000 description 1
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 210000004408 hybridoma Anatomy 0.000 description 1
- 230000002519 immonomodulatory effect Effects 0.000 description 1
- 230000005746 immune checkpoint blockade Effects 0.000 description 1
- 239000012642 immune effector Substances 0.000 description 1
- 230000009851 immunogenic response Effects 0.000 description 1
- 229940088592 immunologic factor Drugs 0.000 description 1
- 239000000367 immunologic factor Substances 0.000 description 1
- 239000002955 immunomodulating agent Substances 0.000 description 1
- 230000003308 immunostimulating effect Effects 0.000 description 1
- 239000002596 immunotoxin Substances 0.000 description 1
- 229940051026 immunotoxin Drugs 0.000 description 1
- 238000000126 in silico method Methods 0.000 description 1
- 238000000099 in vitro assay Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 229960003130 interferon gamma Drugs 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000002357 laparoscopic surgery Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 201000002250 liver carcinoma Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 201000005249 lung adenocarcinoma Diseases 0.000 description 1
- 201000005243 lung squamous cell carcinoma Diseases 0.000 description 1
- 230000000527 lymphocytic effect Effects 0.000 description 1
- 229940126582 mRNA vaccine Drugs 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 238000010208 microarray analysis Methods 0.000 description 1
- 210000000274 microglia Anatomy 0.000 description 1
- 239000003226 mitogen Substances 0.000 description 1
- 210000001616 monocyte Anatomy 0.000 description 1
- 208000025113 myeloid leukemia Diseases 0.000 description 1
- 239000013642 negative control Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 102000014187 peptide receptors Human genes 0.000 description 1
- 108010011903 peptide receptors Proteins 0.000 description 1
- 229940023041 peptide vaccine Drugs 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 201000002628 peritoneum cancer Diseases 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 235000019833 protease Nutrition 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 206010038038 rectal cancer Diseases 0.000 description 1
- 201000001275 rectum cancer Diseases 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 201000003804 salivary gland carcinoma Diseases 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000007790 scraping Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000009094 second-line therapy Methods 0.000 description 1
- 238000004062 sedimentation Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 230000036332 sexual response Effects 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000009870 specific binding Effects 0.000 description 1
- 206010041823 squamous cell carcinoma Diseases 0.000 description 1
- 238000010186 staining Methods 0.000 description 1
- 238000010972 statistical evaluation Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 229940124597 therapeutic agent Drugs 0.000 description 1
- 210000001541 thymus gland Anatomy 0.000 description 1
- 201000002510 thyroid cancer Diseases 0.000 description 1
- 239000003053 toxin Substances 0.000 description 1
- 231100000765 toxin Toxicity 0.000 description 1
- 108700012359 toxins Proteins 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 238000011222 transcriptome analysis Methods 0.000 description 1
- 238000010361 transduction Methods 0.000 description 1
- 230000026683 transduction Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 241000701161 unidentified adenovirus Species 0.000 description 1
- 241001529453 unidentified herpesvirus Species 0.000 description 1
- 241001515965 unidentified phage Species 0.000 description 1
- 241001430294 unidentified retrovirus Species 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 201000005112 urinary bladder cancer Diseases 0.000 description 1
- 206010046766 uterine cancer Diseases 0.000 description 1
- 208000012991 uterine carcinoma Diseases 0.000 description 1
- 229940125575 vaccine candidate Drugs 0.000 description 1
- 230000035899 viability Effects 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 201000005102 vulva cancer Diseases 0.000 description 1
- 238000012049 whole transcriptome sequencing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61K—PREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
- A61K39/00—Medicinal preparations containing antigens or antibodies
- A61K39/0005—Vertebrate antigens
- A61K39/0011—Cancer antigens
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Epidemiology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Medicinal Chemistry (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Pharmacology & Pharmacy (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Oncology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Veterinary Medicine (AREA)
- Animal Behavior & Ethology (AREA)
- Mycology (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Primary Health Care (AREA)
Abstract
本明細書に開示される実施形態は、概して、注意ベースの機械学習モデルを使用して、対応するペプチド-免疫タンパク質複合体(IPC)の組み合わせに対する標的相互作用に関する標的相互作用の相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも1つを含む出力を生成することに関する。標的相互作用は、ペプチドと、免疫原性複合体(IPC)、例えば主要組織適合遺伝子複合体(MHC)、T細胞受容体(TCR)、又はその両方等との間であり得る。1つ以上の標的相互作用の可能性がより高いと予測される1つ以上のペプチドを含む医薬組成物を同定、製造及び/又は使用することができる。そのような医薬組成物の投与を含む処置方法を定義及び/又は使用することができる。【選択図】図1
Description
本出願は、2020年7月17日に出願された「ペプチド結合、提示、及び免疫原性を予測するための注意ベースのニューラルネットワーク」と題する米国仮出願第63/053,307号に対する優先権を主張するものであり、本出願の同日に出願された「ペプチド結合、提示、及び免疫原性を予測するための注意ベースのニューラルネットワーク」と題する米国特許出願第___号、代理人整理番号第59868.23US01号に関連するものであり、これらは両方とも、その全体が参照により本明細書に組み込まれる。
本開示は、概して、機械学習モデル(例えば、注意機構を含む)を使用して、目的のペプチド(例えば、変異ペプチド)が免疫タンパク質複合体(IPC)(例えば、MHC分子に結合される、MHC分子によって提示される、TCRに結合される等)との標的相互作用(複数可)を経験するかどうか、そのような標的相互作用(複数可)に関連する親和性、及び/又はペプチドが免疫応答を誘因する能力に関する予測を生成することに関する。本開示は更に、処置のためのそのような予測に基づいて選択される特定の変異ペプチド(又は関連する前駆体又は配列)を含む組成物及びその使用方法に関する。
ネオ抗原ワクチンは、個別化されたがん処置を提供するための比較的新しいアプローチである。ネオ抗原は、腫瘍における体細胞変異に由来し、対象のがん細胞及び抗原提示細胞によって提示される腫瘍特異的抗原である。
ネオ抗原ワクチンは、1つ以上の特定の腫瘍ネオ抗原を発現するがん細胞を認識して攻撃するように対象のT細胞をプライミングすることができる。このアプローチは、腫瘍細胞を標的化しながら健康な細胞を温存する腫瘍特異的免疫応答をもたらす。しかしながら、どのネオ抗原が対象の腫瘍細胞によって産生され、対象の主要組織適合遺伝子複合体(MHC)分子によって提示されるかに関して、対象全体で高い変動性がある。したがって、個別化ワクチンを開発し、特定の対象に使用できる可能性がある。個別化ワクチンは、対象特異的腫瘍プロファイルに基づいて操作又は選択され得る。腫瘍プロファイルは、対象の腫瘍細胞からのDNA及び/又はRNA配列を決定し、その配列を使用して腫瘍細胞に存在するが正常細胞には存在しない抗原を同定することによって定義することができる。
多くの場合、腫瘍細胞で検出される変異配列の大部分は、腫瘍細胞表面に実際には存在しないネオ抗原に対応する。このようなネオ抗原は、個別化ワクチンの候補としては不十分であろう。例えば、検出されたペプチド配列は、細胞内で産生されるが、MHC-I又はMHC-II分子と結合しない、及び/又はMHC-I又はMHC-II分子によって(細胞表面に)提示されない変異ペプチド中のアミノ酸を同定し得る。或いは、MHC-I又はMHC-II分子によって提示され得る変異ペプチドは、細胞内で産生されない場合がある。いずれの場合も、変異ペプチドは、例えば、MHC-I分子の場合はCD8+細胞傷害性Tリンパ球によって、又はMHC-II分子の場合はCD4+ヘルパーT細胞によって免疫学的応答を誘因することができない。
したがって、変異ペプチド配列を検出すること、又はどの変異ペプチド配列に対して単一の生物学的相互作用が生じるか(例えば、ペプチドが分子に結合するかどうか)を予測することのみに焦点を当てたワクチンに対するネオ抗原候補を同定するための配列分析は、多くの偽陽性を生成する可能性がある。このタイプの配列分析は、免疫学的応答をプライムすることを意図した個別化ワクチンの開発には効果がないであろう。
したがって、どのネオ抗原が所与の対象の腫瘍細胞によって提示されるか、及び/又はネオ抗原を含むワクチンが強い免疫学的応答を引き起こすかを予測することが望ましい場合がある。
1つ以上の実施形態において、方法が提供される。本方法は、ペプチドのセットを特徴付けるペプチド配列のセットにアクセスすることであって、ペプチド配列のセットの各ペプチド配列が、対象からの疾患試料を処理することによって同定されている、ペプチド配列のセットにアクセスすることを含む。本方法は、対象の免疫タンパク質複合体(IPC)について同定された免疫タンパク質複合体(IPC)配列にアクセスすることを含む。本方法は、注意ベースの機械学習モデルの初期注意サブシステム内の第1の注意ブロックを用いてペプチド配列のセットを表すペプチド表現のセットと、初期注意サブシステム内の第2の注意ブロックを用いてIPC配列を表す免疫タンパク質複合体(IPC)表現とを処理して、出力を生成することであって、出力が、対応するペプチド-IPC組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも1つを含む、処理して、出力を生成することを含む。本方法は、出力に基づいてレポートを生成することを含む。
1つ以上の実施形態において、ワクチンは、1つ以上のペプチド、1つ以上のペプチドをコードする複数の核酸、又は1つ以上のペプチドを発現する複数の細胞を含む。1つ以上のペプチドは、本明細書に開示される1つ以上の方法の一部又は全部によって生成されたレポートに基づいて、ペプチドのセットの中から選択される。1つ以上のペプチドは、ペプチドのセットの不完全なサブセットである。
1つ以上の実施形態において、ワクチンを製造するための方法が提供される。本方法は、1つ以上のペプチドを含むワクチン、1つ以上のペプチドをコードする複数の核酸、又は1つ以上のペプチドを発現する複数の細胞を含むワクチンを産生することを含む。1つ以上のペプチドは、本明細書に開示される1つ以上の方法の一部又は全部によって生成されたレポートに基づいて、ペプチドのセットの中から選択される。1つ以上のペプチドは、ペプチドのセットの不完全なサブセットである。
1つ以上の実施形態において、本明細書中に開示される1つ以上方法の一部又は全部によって生成されるレポートに基づいて、ペプチドのセットの中から選択される1つ以上のペプチドを含む医薬組成物が提供される。1つ以上のペプチドは、ペプチドのセットの不完全なサブセットである。
1つ以上の実施形態において、本明細書中に開示される1つ以上の方法の一部又は全部によって生成されたレポートに基づいてペプチドのセットの中から選択された1つ以上のペプチドをコードする核酸配列を含む医薬組成物が提供される。1つ以上のペプチドは、ペプチドのセットの不完全なサブセットである。
1つ以上の実施形態において、本明細書に開示される1つ以上の方法の一部又は全部によって生成されてレポートに基づいて同定される免疫原性ペプチドが提供される。
1つ以上の実施形態において、本明細書に開示される1つ以上の方法の一部又は全部によって生成されたレポートに基づいて同定される核酸配列が提供される。
1つ以上の実施形態において、対象を処置する方法が提供される。本方法は、本明細書に開示される1つ以上の方法の一部又は全部によって生成されたレポートに基づいて同定された1つ以上のペプチド、1つ以上の医薬組成物、又は1つ以上の核酸配列の少なくとも1つを投与することを含む。
1つ以上の実施形態において、ペプチドのセットを特徴付けるペプチド配列のセットを生成するために、対象から得られた生物学的試料のセットを処理することを含む方法が提供される。本方法は、対象から得られた生物学的試料のセットを処理して、対象の免疫タンパク質複合体(IPC)について同定された免疫タンパク質複合体(IPC)配列を生成することを含む。本方法は、注意ベースの機械学習モデルの初期注意サブシステム内の第1の注意ブロックを使用して、ペプチド配列のセットを表すペプチド表現のセットを生成することを含む。本方法は、初期注意サブシステム内の第2の注意ブロックを使用して、IPC配列を表す免疫タンパク質複合体(IPC)表現を生成することを含む。本方法は、ペプチド表現のセット及びIPC表現を処理して、出力を生成することであって、出力が、対応するペプチド-IPC組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも1つを含み、対応するペプチド-IPC組み合わせが、ペプチドのセットのペプチドを含む、処理して、出力を生成することを含む。
1つ以上の実施形態において、方法が提供される。本方法は、ユーザ装置において、対象に対する個別化ワクチンを設計する要求を受信することを含む。本方法は、ユーザ装置から遠隔システムへ通信を送信することであって、通信が対象の識別子を含む、通信を送信することを含む。遠隔システムは、ペプチドのセットを特徴付けるペプチド配列のセットにアクセスし(ペプチド配列のセットの各ペプチド配列は、対象からの疾患試料を処理することによって同定されている);対象の免疫タンパク質複合体(IPC)について同定された免疫タンパク質複合体(IPC)配列にアクセスし;注意ベースの機械学習モデルの初期注意サブシステム内の第1の注意ブロックを用いてペプチド配列のセットを表すペプチド表現のセットと、初期注意サブシステム内の第2の注意ブロックを用いてIPC配列を表す免疫タンパク質複合体(IPC)表現とを処理して、出力を生成するように構成される。出力は、対応するペプチド-IPC組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも1つを含む。遠隔システムは、出力に基づいてレポートを生成し、レポートをユーザ装置に送信するように構成される。本方法は、ユーザデバイスにおいてレポートを受信することを含む。
1つ以上の実施形態において、対象に対する処置を作成するための方法が提供される。本方法は、コンピューティングデバイスからレポートを受信することを含む方法を含む。コンピューティングデバイスは、ペプチドのセットを特徴付けるペプチド配列のセットにアクセスし(ペプチド配列のセットの各ペプチド配列は、対象からの疾患試料を処理することによって同定されている);対象の免疫タンパク質複合体(IPC)について同定された免疫タンパク質複合体(IPC)配列にアクセスし;注意ベースの機械学習モデルの初期注意サブシステム内の第1の注意ブロックを用いてペプチド配列のセットを表すペプチド表現のセットと、初期注意サブシステム内の第2の注意ブロックを用いてIPC配列を表す免疫タンパク質複合体(IPC)表現とを処理して、出力を生成するように構成される。出力は、対応するペプチド-IPC組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも1つを含む。コンピューティングデバイスは、出力に基づいてレポートを生成するように構成される。本方法は、レポートに基づいて、処置を作成するための処置作成計画を生成することを更に含む。
1つ以上の実施形態において、複数の変異ペプチドを特徴付ける複数のバリアントコード配列を注意ベースの機械学習モデルに入力することであって、複数のバリアントコード配列の各バリアントコード配列が、対象からの疾患試料を処理することによって同定されている、複数のバリアントコード配列を注意ベースの機械学習モデルに入力することを含む方法が提供される。本方法は、対象の免疫タンパク質複合体(IPC)について同定された免疫タンパク質複合体(IPC)配列を注意ベースの機械学習モデルに入力することを含む。注意ベースの機械学習モデルが、出力を生成するために、注意ベースの機械学習モデルの初期注意サブシステム内の第1の注意ブロックを使用して複数のバリアントコード配列を表す複数のバリアント表現と、初期注意サブシステム内の第2の注意ブロックを使用してIPC配列を表す免疫タンパク質複合体(IPC)表現とを処理するように構成される。出力は、対応する変異ペプチド-IPC組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも1つを含む。本方法は、出力に基づいて生成されたレポートを受信することを含と、レポートに基づいて、対象の処置に使用する複数の変異ペプチドのサブセットを選択することとを含む。
1つ以上の実施形態において、変異ペプチドを特徴付けるペプチド配列を受信することであって、ペプチド配列が、対応する参照配列に対するバリアントを含む、変異ペプチドを特徴付けるペプチド配列を受信することと、主要組織適合遺伝子複合体(MHC)について同定されたMHC配列を受信することと、注意ベースの機械学習モデル内の異なる処理経路を使用してペプチド配列及びMHC配列を処理して、出力を生成することであって、出力が変異ペプチドとMHCの両方に関連する免疫学的活性に関する情報を提供する、処理して、出力を生成することと、出力に基づいてレポートを生成することとを含む方法が提供される。
1つ以上の実施形態において、変異ペプチドを特徴付けるペプチド配列を受信することであって、ペプチド配列が、対応する参照配列に対するバリアントを含む、変異ペプチドを特徴付けるペプチド配列を受信することと、T細胞受容体(TCR)について同定されたTCR配列を受信することと、注意ベースの機械学習モデル内の異なる処理経路を使用してペプチド配列及びTCR配列を処理して、出力を生成することであって、出力が変異ペプチドとTCRの両方に関連する免疫学的活性に関する情報を提供する、処理して、出力を生成することと、出力に基づいてレポートを生成することとを含む方法が提供される。
いくつかの実施形態において、1つ以上のデータプロセッサと、命令を含む非一過性コンピュータ可読記憶媒体であって、該命令が、1つ以上のデータプロセッサ上で実行されると、1つ以上のデータプロセッサに、本明細書に開示される1つ以上の方法の一部又は全部を実行させる、命令を含む非一過性コンピュータ可読記憶媒体と、を備えるシステムが提供される。
いくつかの実施形態において、非一時的機械可読記憶媒体に有形に具現化され、1つ以上のデータプロセッサに、本明細書に開示される1つ以上の方法の一部又は全部を実行させるように構成された命令を含む、コンピュータプログラム製品が提供される。
本開示のいくつかの実施形態は、1つ以上のデータプロセッサを備えるシステムを含む。いくつかの実施形態において、システムは、命令を含む非一時的コンピュータ可読記憶媒体であって、該命令が、1つ以上のデータプロセッサ上で実行されると、1つ以上のデータプロセッサに、本明細書に開示される1つ以上の方法の一部又は全部及び/又は1つ以上のプロセスの一部又は全部を実行させる、命令を含む非一時的コンピュータ可読記憶媒体を含む。本開示のいくつかの実施形態は、1つ以上のデータプロセッサに、本明細書に開示される1つ以上の方法の一部又は全部、及び/又は1つ以上のプロセスの一部又は全部を実行させるように構成された命令を含む、非一時的機械可読記憶媒体において有形に具現化されたコンピュータプログラム製品を含む。
使用された用語及び表現は、限定ではなく説明の用語として使用され、そのような用語及び表現の使用において、示されて説明された特徴の均等物又はその一部を除外する意図はないが、特許請求の範囲に記載された発明の範囲内で様々な変更が可能であることが認識される。したがって、特許請求の範囲に記載された本発明は、実施形態及び任意の特徴によって具体的に開示されているが、本明細書に開示された概念の変更及び変形は、当業者に任されてもよく、そのような変更及び変形は、添付の特許請求の範囲によって定義される本発明の範囲内にあると見なされることを理解されたい。
本開示は、以下の添付の図面と併せて説明される:
添付の図面において、同様の構成要素及び/又は特徴は、同じ参照ラベルを有することができる。さらに、同じタイプの様々な構成要素は、参照ラベルの後に同様の構成要素を区別するダッシュ及び第2のラベルを続けることによって区別されることができる。本明細書において第1の参照符号のみが使用される場合、説明は、第2の参照符号に関係なく、同じ第1の参照符号を有する同様の構成要素のいずれかに適用可能である。
I.概要
どの変異ペプチド(例えば、ネオ抗原)を個別化ワクチンの候補として選択するかを予測できることの重要性を認識して、本明細書に記載の実施形態は、そのような予測を現在利用可能な様々な方法及びシステムよりも正確にするための方法論及びシステムを提供する。本明細書に記載される実施形態は、例えば、限定されないが、ワクチン候補としての変異ペプチドの生存率を決定するために変異ペプチドを特徴付ける配列を分析するときに生成される偽陽性の数を減らすことによって予測性能を改善するために機械学習方法論及びシステムを使用する。
どの変異ペプチド(例えば、ネオ抗原)を個別化ワクチンの候補として選択するかを予測できることの重要性を認識して、本明細書に記載の実施形態は、そのような予測を現在利用可能な様々な方法及びシステムよりも正確にするための方法論及びシステムを提供する。本明細書に記載される実施形態は、例えば、限定されないが、ワクチン候補としての変異ペプチドの生存率を決定するために変異ペプチドを特徴付ける配列を分析するときに生成される偽陽性の数を減らすことによって予測性能を改善するために機械学習方法論及びシステムを使用する。
例えば、本明細書に記載の実施形態は、対象からの疾患試料から同定された配列を分析するために機械学習モデル、並びに機械学習モデル及び/又は機械学習モデルによって生成された出力を使用する様々な方法論を提供する。疾患試料中に検出された変異ペプチドが主要組織適合遺伝子複合体(MHC)分子と相互作用するかどうか(例えば、MHC-I、MHC-II)、変異ペプチドがMHC分子と相互作用する程度、又はその両方を予測するために、機械学習モデルは、最初に、MHC分子に対応するMHC配列の表現の処理とは別に、変異ペプチドを特徴付ける配列の表現を処理する。変異ペプチドを特徴付ける配列は、バリアントコード配列と呼ばれ得る。MHC配列は、MHC分子の完全な配列の少なくとも一部(例えば、完全な配列、ペプチドと相互作用する部分であるMHC分子の疑似配列-結合ポケット、疑似配列を含む他のいくつかの部分等)で構成され得る。
機械学習モデルは、処理の様々なサブシステムを含む。機械学習モデルは、例えば、表現サブシステム、表現注意サブシステム、複合サブシステム、複合注意サブシステム、及び出力サブシステムを含むことができる。各「サブシステム」は、1つ以上のブロックから構成されてもよく、各ブロックは、1つ以上のサブブロック及び/又は層から構成される。サブブロックは、任意の数の層(又はユニット)から構成され得る。
表現サブシステムは、ペプチド配列(バリアントコード配列を含み得る)のペプチド表現及びMHC配列のMHC表現を生成するために使用され得る。表現注意サブシステムは、MHC配列の提示とは独立して又は別個に(例えば、並行して)ペプチド配列の提示を処理するために使用される。これらの2つの並列処理経路は、同様に又は異なって構成されてもよいが、それぞれ少なくとも1つの注意機構を含む。これらの並列処理経路を介してペプチド配列及びMHC配列の表現を処理することにより、機械学習モデルの予測性能が改善される。
さらに、本明細書に記載の実施形態は、一連の生物学的事象に対応するモデルを訓練することは、単一の生物学的事象に対応するモデルを訓練することよりも著しく多くのデータを必要とし得ることを認識し、考慮する。配列分析のためのモデルを訓練することは、潜在的に観察可能な配列の数が非常に多いため、特に複雑であり得る。数百万の潜在的ネオ抗原が存在するだけでなく、例えば、MHCクラスI分子のタンパク質をコードする遺伝子も高度に多型性であり、クラスIヒトMHCの対立遺伝子はほぼ20,000個存在する。したがって、本明細書に記載の実施形態は、訓練の複雑さを低減し、訓練性能を改善する機械学習モデルを訓練するための方法論及びシステムを提供する。例えば、訓練に使用されるバリアントコード配列は、閾値アミノ酸長(例えば、14アミノ酸)以下のアミノ酸長を有するバリアントコード配列を使用して訓練が行われるように選択及び/又はトリミングされ得る。閾値アミノ酸長以下の長さを有するバリアントコード配列を含む訓練データセットを生成することは、訓練の全体的な複雑さを低減し、訓練及び/又は予測性能を改善することができる(例えば、エポックごとの性能メトリックの変化を低減し、それによって予測性能を改善する)。
したがって、本明細書に開示される技術は、変異ペプチド等のペプチドに関連する免疫学的活性に関する予測を生成するための機械学習ベースのアプローチを含む。1つ以上予測を含む出力を生成する機械学習モデルが提供される。出力は、例えば、1つ以上の相互作用予測、1つ以上の相互作用親和性予測、1つ以上の免疫原性予測、又はそれらの組み合わせを生成し得る。相互作用予測は、ペプチド(例えば、所与のバリアントコード配列によって同定されるアミノ酸の所与の順序付きセットを含む変異ペプチド)が1つ以上の標的相互作用を経験するかどうかに関する予測を含み得る。標的相互作用は、例えば、IPC(例えば、MHC分子、TCR)への結合、細胞表面にMHC分子によって提示されること、又は別のタイプの標的相互作用であり得る。相互作用親和性予測は、1つ以上の標的相互作用に対する親和性の予測を含み得る。例えば、相互作用親和性予測は、ペプチド-MHC結合に対する結合親和性を示し得る。相互作用(例えば、結合)親和性は、相互作用(例えば、結合)の傾向、強度、及び/又は安定性に基づいて決定され得る。
さらに、出力は、ペプチドの免疫原性を含み得るか、又は示し得る。例えば、出力は、ペプチドが特定の対象又は対象の群において免疫応答を誘因するかどうかを予測し得る。これらの予測は、複数の変異ペプチドのそれぞれについて生成することができ、予測は、ワクチンに含める及び/又は処置に使用する1つ以上の変異ペプチドを選択するために使用することができる。例えば、限定されないが、高い予測された結合親和性、腫瘍細胞表面に提示される高い確率、及び/又は高い予測された免疫原性に関連する変異ペプチドは、ワクチンへの包含又は処置における使用のために選択され得る。
本明細書に記載の実施形態は、注意ベースの機械学習モデルを使用して、ペプチド及び免疫タンパク質複合体(IPC)に関する免疫学的活性に関する予測を生成するための方法及びシステムを提供する。IPCはMHC又はTCRであり得る。ペプチドのセットを特徴付けるペプチド配列のセットにアクセスすることができ、ペプチド配列のセットの各ペプチド配列は、対象からの疾患試料を処理することによって同定されている。免疫タンパク質複合体(IPC)配列は、対象の免疫タンパク質複合体(IPC)について同定され得る。ペプチド配列のセットを表すペプチド表現のセットは、出力を生成するために、注意ベースの機械学習モデルの初期注意サブシステムにおける第1の注意ブロックと、初期注意サブシステムにおける第2の注意ブロックを使用してIPC配列を表す免疫タンパク質複合体(IPC)表現とを使用して処理される。出力は、対応するペプチド-IPC組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも1つを含む。出力に基づいてレポートが生成される。
以下の説明は、これらの方法及びシステム並びに生成されたレポートが処置を計画、設計、及び/又は製造するために使用され得る方法の例示的な実施態様を提供する。
II.注意ベースの機械学習モデリングを用いた変異ペプチドを含む免疫学的活性に関連する予測
II.A.概要
ここで図面を参照すると、図1は、様々な実施形態による予測システム100のブロック図である。予測システム100は、ペプチド、特に変異ペプチドの免疫学的活性に関する予測を生成するために使用される。予測システム100は、コンピューティングプラットフォーム102と、データストア104と、ディスプレイシステム106とを含む。コンピューティングプラットフォーム102は、様々な形態をとることができる。1つ以上の実施形態において、コンピューティングプラットフォーム102は、互いに通信する単一のコンピュータ(又はコンピュータシステム)又は複数のコンピュータを含む。他の例では、コンピューティングプラットフォーム102は、クラウドコンピューティングプラットフォームの形態をとる。
II.A.概要
ここで図面を参照すると、図1は、様々な実施形態による予測システム100のブロック図である。予測システム100は、ペプチド、特に変異ペプチドの免疫学的活性に関する予測を生成するために使用される。予測システム100は、コンピューティングプラットフォーム102と、データストア104と、ディスプレイシステム106とを含む。コンピューティングプラットフォーム102は、様々な形態をとることができる。1つ以上の実施形態において、コンピューティングプラットフォーム102は、互いに通信する単一のコンピュータ(又はコンピュータシステム)又は複数のコンピュータを含む。他の例では、コンピューティングプラットフォーム102は、クラウドコンピューティングプラットフォームの形態をとる。
データストア104及び表示システム106は各々、コンピューティングプラットフォーム102と通信する。いくつかの例では、データストア104、ディスプレイシステム106、又はその両方は、コンピューティングプラットフォーム102の一部と見なされるか、又はそうでなければ統合され得る。したがって、いくつかの例では、コンピューティングプラットフォーム102、データストレージ104、及びディスプレイシステム106は、互いに通信する別個の構成要素であってもよいが、他の例では、これらの構成要素のいくつかの組み合わせが一緒に統合されてもよい。異なる構成要素間の通信は、任意の数の有線通信リンク、無線通信リンク、光通信リンク、又はそれらの組み合わせを使用して実施され得る。
予測システム100は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせを使用して実装され得る配列アナライザ108を含む。1つ以上の実施形態において、配列アナライザ108はコンピューティングプラットフォーム102に実装される。配列アナライザ108は、処理のための配列データ110を受信する。例えば、配列データ110は、配列解析器108への入力として送信されてもよく、データストア104若しくは何らかの他の種類の記憶装置(例えば、クラウドストレージ)から検索されてもよく、クラウドストレージからアクセスされてもよく、又は何らかの他の方法で取得されてもよい。場合によっては、倍列データ110は、入力デバイスを介してユーザによって入力されたユーザ入力の受信に応答してデータストア104から検索され得る。
配列データ110は、試料112のセットの処理から生成され得る。試料112のセットは、1人以上の対象(例えば、疾患試料、健康な試料、それらの組み合わせ)からの1人以上の生物学的試料の形態をとることができる。試料112のセットは、対象の腫瘍から得られた試料を含み得る。腫瘍は、例えば、肺がん、黒色腫、乳がん、卵がん、前立腺がん、腎臓がん、胃がん、結腸がん、精巣がん、頭頸部がん、膵がん、脳がん、B細胞リンパ腫、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ性白血病、T細胞リンパ性白血病、非小細胞肺がん、小細胞肺がん、又はそれらの組み合わせの症状であり得る。
試料112のセット中の試料は、例えば、様々な免疫タンパク質複合体(IPC)分子及び様々なペプチド、又はそれらの組み合わせを含み得る。試料112のセットが疾患試料を含む場合、ペプチドは、1つ以上の変異ペプチド(例えば、ネオ抗原)を含み得る。IPC分子は、例えば、様々なMHC分子、様々なTCR分子、又はそれらの組み合わせを含み得る。
1つ以上の実施形態において、試料112のセットは、免疫タンパク質複合体(IPC)114(例えば、MHCクラスI分子、MHCクラスII分子、TCR等)及びアミノ酸鎖116を含む。アミノ酸鎖116は、ペプチド118、Nフランク120、及びCフランク122を含むアミノ酸の鎖であり得る。ペプチド118は、ペプチド118とNフランク120との間のN末端を含む又は除外するものとして、及びペプチド118とCフランク122との間のC末端を含む又は除外するものとして定義され得る。ペプチド118は、対応する参照配列と比較した場合、ペプチド118が1つ以上のバリアント(例えば、1つ以上の配列変化)を含む場合、変異ペプチドと見なされる。いくつかの実施形態において、試料112のセットはまた、免疫タンパク質複合体123(例えば、MHCクラスI分子、MHCクラスII分子、TCR等)を含む。
試料112のセットは、配列データ110を生成するために処理され得る。いくつかの実施形態において、試料112のセット内の複数の試料が異なる時間に処理され得る場合。いくつかの実施形態において、予測システム110は、配列データ110を生成するために試料112のセットの処理で使用される試料アナライザを含む。配列データ110は、例えば、少なくとも一つの免疫タンパク質複合体(IPC)配列124(例えば、免疫タンパク質複合体114に対応する1つのIPC配列124)及び少なくとも1つのペプチド配列126(例えば、ペプチド118に対応する1つのペプチド配列126)を含む。配列データ110はまた、それぞれのペプチド配列126に対応する少なくとも1つのNフランク配列128(例えば、Nフランク120に対応する1つのNフランク配列128)、少なくとも1つのCフランク配列130(例えば、Cフランク122に対応する1つのCフランク配列130)、又はその両方を含み得る。
免疫タンパク質複合体114がMHCの形態をとる場合、IPC配列124は、例えば、MHCの少なくとも一部を特徴付けるMHC配列であり得る。免疫タンパク質複合体114がTCRの形態をとる場合、IPC配列124は、例えば、TCRの少なくとも一部を特徴付けるTCR配列であり得る。更に他の実施形態において、IPC配列124は、それぞれ、TCR分子にペプチドを提示することができるTCR分子の少なくとも一部及びMHC分子の少なくとも一部を特徴付けるTCR配列及びMHC配列の両方を含み得る。いくつかの実施形態において、配列データ110は、MHCの形態の少なくとも一部の免疫タンパク質複合体114を特徴付けるMHC配列の形態のIPC配列124、並びに試料112のセット中のTCR(例えば、免疫タンパク質複合体123)の少なくとも一部を特徴付ける別個のTCR配列131を含み得る。
ペプチド配列126は、ペプチド118の少なくとも一部を特徴付ける。Nフランク配列128は、Nフランク120の少なくとも一部を特徴付ける。例えば、N末端から上流のアミノ酸(又はアミノ酸残基)の数が多くなり得るので、Nフランク120の対応する配列をトリミングして、Nフランク配列128を生成することができる。Cフランク配列130は、Cフランク122の少なくとも一部を特徴付ける。場合によっては、C末端から下流のアミノ酸(又はアミノ酸残基)の数が多い場合、Cフランク122の対応する配列をトリミングして、Cフランク配列130を生成することができる。
配列アナライザ108は、処理のための入力として配列データ110を受信する。配列アナライザ108は、配列データ110を処理する機械学習モデル132を含む。いくつかの実施形態において、配列解析器108は、処理のために機械学習モデル132に直接送信される。他の実施形態において、配列アナライザ108は、処理のために配列スデータ110を機械学習モデル132に送る前に配列データ110を前処理する。
機械学習モデル132は、いくつかの異なる方法のいずれかで実装することができる。1つ以上の実施形態において、機械学習モデル132は、注意ベースの機械学習モデルの形態をとる。機械学習モデル132は、訓練モード又は予測モードのいずれかで使用することができる。訓練モードでは、機械学習モデル132は、訓練データセット133を使用して訓練される。訓練データセットを形成し得るデータの例は、セクションII.Eにおいて以下で更に説明される。機械学習モデル132は、予測モードで使用できるように訓練される。
機械学習モデル132は、IPC処理経路134を介してIPC配列124を処理し、ペプチド処理経路136を介してペプチド配列126を処理する。IPC及びペプチドに対するこれらの2つの経路の分離は、機械学習モデル132の改善された予測性能を可能にする。いくつかの実施形態において、機械学習モデル132は、Nフランク処理経路138を介してNフランク配列128を、Cフランク処理経路140を介してCフランク配列130を、又はその両方を更に処理する。
IPC処理経路134は、1つ以上の異なる経路から構成されてもよい。例えば、場合によっては、IPC処理経路134は、処理するためのMHC処理経路の形態をとり、例えば、MHC配列の形態のIPC配列124である。他の場合には、IPC処理経路134は、処理のためのTCR処理経路、例えばTCRシーケンスの形態のIPC配列124を含む。更に他の場合では、IPC処理経路134は、MHC配列とTCR配列の両方を含むIPC配列124を処理するための処理経路を含む。いくつかの実施形態において、IPC処理経路134がMHC処理経路の形態をとる場合、機械学習モデル132はまた、例えばTCR配列131を処理するためのTCR処理経路142を含む。これらの異なる処理経路の実施例は、以下により詳細に記載される。
機械学習モデル132は、配列データ110を処理して、レポート144を生成するために使用される出力を生成する。レポート144は、機械学習モデル132の正確な出力を含むことができ、出力の変換された若しくはフィルタにかけたバージョン、又はその両方を含むことができる。場合によっては、配列アナライザ108は、機械学習モデル132の出力に基づいて通知、勧告、アラート、又は他の情報を生成することができ、この追加情報はレポート144に含まれる。
レポート144は、例えば、1つ以上のペプチドに関する関心対象の免疫学的活性に関する情報(例えば、1つ以上の変異ペプチド)を含む出力であり得る。例えば、レポート144は、ペプチド118及び免疫タンパク質複合体114(例えば、MHC)、ペプチド及び免疫タンパク質複合体123(例えば、TCR)、又はその両方に関連する免疫学的活性に関する情報を含み得る。レポート144は、例えば、相互作用情報146、免疫原性情報148、又はその両方を含み得る。相互作用情報1346は、ペプチド118と免疫タンパク質複合体114との間、ペプチド118と免疫タンパク質複合体123との間、又はその両方の相互作用の選択されたセットに関する予測を提供し得る。免疫原性情報148は、ペプチド118の免疫原性に関する予測を提供し得る。
1つ以上の実施形態において、レポート144は、ディスプレイシステム106のグラフィカルユーザインターフェース150に表示されてもよい。ユーザは、グラフィカルユーザインターフェース150を介してレポート144を閲覧し、及び/又はレポート144と対話し、レポート144を使用して、試料112のセットの少なくとも1つが得られた(又は収集された)対象の処置に関する決定を下すことができる。
いくつかの実施形態において、予測システム100は、遠隔システム152にレポート144を送る(例えば、無線で)。遠隔システム152は、クラウドコンピューティングプラットフォーム、クラウドストレージ、別のコンピュータシステム、ユーザ装置(例えば、スマートフォン、タブレット、ラップトップ等)、又は何らかの他の種類のプラットフォームであってよい。いくつかの実施形態において、遠隔システム152は、処置作成システム(又は機械)又はその一部であってもよい。
図2は、1つ以上の実施形態による機械学習モデルを使用して予測を生成するためのプロセスのフローチャートである。プロセス200は、図1に記載の予測システム100を使用して実施することができる。例えば、プロセス200は、図1の配列アナライザ108及び機械学習モデル132を使用して実施することができる。
プロセス200は、例えば、工程202を含むことができる。工程202は、訓練ペプチド配列データ、訓練免疫タンパク質複合体(IPC)データ、及び訓練免疫学的活性データを含む訓練データセットを使用して、注意ベースの機械学習モデルを訓練することを含む。
工程204、ペプチドのセットを特徴付けるペプチド配列のセットにアクセスすることであって、ペプチド配列のセットの各ペプチド配列が、対象からの疾患試料を処理することによって同定されている、ペプチド配列のセットにアクセスすることを含む。
工程206は、対象の免疫タンパク質複合体(IPC)について同定された免疫タンパク質複合体(IPC)配列にアクセスすることを含む。
工程208は、注意ベースの機械学習モデルの初期注意サブシステム内の第1の注意ブロックを用いてペプチド配列のセットを表すペプチド表現のセットと、初期注意サブシステム内の第2の注意ブロックを用いてIPC配列を表す免疫タンパク質複合体(IPC)表現とを処理して、出力を生成することであって、出力が、対応するペプチド-IPC組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも1つを含む、処理して、出力を生成することを含む。第1の注意ブロックは、第2の注意ブロックから独立している。
工程210は、出力に基づいてレポートを生成することを含む。レポートは、処置及び/又は処置計画の設計及び/又は製造を容易にするために使用され得る。例えば、レポートは、ペプチドのセットのペプチドのサブセットを同定するか、又は対象の処置を生成する際に使用するためにペプチドのサブセットに対してどのペプチドを選択すべきかの指示を提供し得る。処置は、例えば、ペプチドのサブセット、ペプチドのサブセットのそれぞれの前駆体、又は他の何らかの形態であり得る。
II.B.機械学習モデルの例示的なアーキテクチャ
II.B.1.一般的な特徴及び実装上の検討事項
上述したように、様々な実施形態において、本明細書に記載の実施形態の機械学習モデル、例えば機械学習モデル132は、注意ベースの機械学習モデル(例えば、1つ以上の注意層を含む)であってもよい。機械学習モデル132は、例えば、1つ以上の自己注意層を実装することができる。機械学習モデル132は、自己注意機構、グローバル注意機構、ソフト注意機構、ローカル注意機構、及び/又はハード注意機構を使用することができる。
II.B.1.一般的な特徴及び実装上の検討事項
上述したように、様々な実施形態において、本明細書に記載の実施形態の機械学習モデル、例えば機械学習モデル132は、注意ベースの機械学習モデル(例えば、1つ以上の注意層を含む)であってもよい。機械学習モデル132は、例えば、1つ以上の自己注意層を実装することができる。機械学習モデル132は、自己注意機構、グローバル注意機構、ソフト注意機構、ローカル注意機構、及び/又はハード注意機構を使用することができる。
場合によっては、注意ベースの機械学習モデルは、アラインメント(例えば、ペプチド配列とMHC配列との間)を学習するように構成することができる。アラインメントは、例えば、コンテンツベースの関数、加法関数、位置ベースの関数、ドット積関数、及び/又はスケーリングされたドット積関数等の注意ベースのアラインメントスコア関数を使用して学習及び実行することができる。機械学習モデル132は、1つ以上のエンコーダ、1つ以上の変換器、及び/又は1つ以上の変換機エンコーダを含むことができる。いくつかの実施形態において、機械学習モデル132は、Vaswani,A,et al.,’’Attention is All You Need.’’31st Conference on Neural Information Systems,http://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf,2017に記載されているような1つ以上の特性(例えば、1つ以上のエンコーダ等)を使用することができる。
機械学習モデル132は、例えば、入力(例えば、例えば、アミノ酸配列、核酸配列、コドン配列等を表す配列表現)をより高い次元空間に変換するように構成された1つ以上のエンコーダを含むことができる。エンコーダは、変換器エンコーダであってもよい。エンコーダは、注意ベースの技術を実施するように、及び/又は1つ以上の注意層(例えば、1つ以上の自己注意層)を含むように構成され得る。
いくつかの実施形態において、機械学習モデル132は、コンボリューション層、長期短期メモリユニット、回帰構造、及び/又は回帰成分を使用又は省略することができる。例えば、場合によっては、機械学習モデル132は、コンボリューション層、反復構造、長期短期記憶(LSTM)ユニット、及び/又は回帰成分を含まない。場合によっては、機械学習モデル132は、回帰機械学習モデルではなく、及び/又は回帰ニューラルネットワークを含まない。場合によっては、機械学習モデルは、回帰ニューラルネットワークを含み、及び/又は位置エンコーディングを使用して1つ以上の配列にわたって時間情報を提供することができる。場合によっては、機械学習モデル132は、畳み込み機械学習モデルではなく、及び/又はコンボリューションニューラルネットワークを含まない。
機械学習モデル132は、複数のサブシステム(又はサブネットワーク)を含むことができる。複数のサブシステムの各々は、エンコーダ、変圧器エンコーダ、1つ以上注意層、及び/又は1つ以上の自己注意層を含むことができる。機械学習モデル132は、IPC配列の一部又は全部のIPC表現を処理するために使用される第2の注意ブロックとは無関係にペプチド表現を処理するために使用される第1の注意ブロックを有する注意ブロックを含み得る(例えば、MHC疑似配列)。これらの注意ブロックの独立性は、機械学習モデルを使用するときの並列処理を容易にすることができる。さらに、独立性は、機械学習モデル132の性能(例えば、予測の精度)を改善することができる。
機械学習モデル132内で、任意の所与の層における出力値が、対応する入力値だけでなく、1つ、複数、又は全ての他の入力値にも依存するように、注意ベースの機構を構成することができる。したがって、機械学習モデル132、損失関数、及び/又は最適化関数は、所与のMHC分子(対応する入力によって表される)が所与のペプチド(別の対応する入力によって表される)に結合し、及び/又はそれを提示し、及び/又は所与のペプチドに応答して免疫原性を誘因する程度を表す単一の位置に対応する出力を最適化するように構成され得る。場合によっては、変圧器エンコーダの複数の出力のいずれかがそのような発生確率を表すことができ、及び/又はそれに応じてモデルを訓練することができる。いくつかの例では、配列開始要素等のエンドポイント(例えば、余剰エンドポイント)は、結合、提示、及び/又は免疫原性確率を表し得る(訓練に応答して)。集約された出力は、例えば、別の層及び/又は別のサブシステム又は注意ブロック(例えば、注意層及び/又は自己注意層を含む、及び/又は変圧器エンコーダ及び/若しくはエンコーダ)に供給されてもよい。
場合によっては、他の層及び/又は他のサブシステム若しくは注意ブロックからの出力の1つ、2つ、又は全ての寸法は、他の層及び/又は他のサブシステム若しくは注意ブロックに供給される入力と同じサイズである。場合によっては、この他の層及び/又は他のサブシステム又は注意ブロックに供給される入力は、IPC配列中のアミノ酸の数、ペプチド配列中のアミノ酸の数、並びに潜在的にNフランク及びCフランクの1つ以上のアミノ酸の数の合計以上である1つの軸に沿った長さを有する。場合によっては、入力の寸法の長さは、アミノ酸の総数よりも1つ長い。例えば、追加の特徴ベクトル(例えば、配列開始特徴ベクトル)がアミノ酸特異的特徴値に付加される場合、1つの軸に沿った入力の長さは、アミノ酸の合計数を超える場合がある。入力の別の寸法は、いくつかの特徴(例えば、ハイパーパラメータを介して定義される)を含むことができる。他の層及び/又は他のサブシステム又は注意ブロックによって生成される出力は、入力のサイズと同じサイズを有することができる。
他の層及び/又は他のサブネットワークによって生成された出力の値のサブセットは、別のニューラルネットワーク(例えば、完全接続フィードフォワードネットワーク)によって更に処理することができる。値のサブセットは、特徴値の1つのセットに対応することができる値の1次元ベクトルを含むことができる。1次元ベクトルは、配列開始特徴ベクトルに関連付けられた特徴値に対応し得る。
機械学習モデル132内のニューラルネットワークは、1つ以上の結果を出力するように構成することができる。1つ以上の結果は、例えば、数値結果、バイナリ結果、及び/又はカテゴリ結果を含むことができる。1つ以上の結果のそれぞれは、IPC及びペプチドが特定のタイプ(例えば、一緒に結合する)の反応を受けるかどうか及び/又はその程度を予測することができる。機械学習モデル132は、目標時間(例えば、実数の暫定値をバイナリ及び/又はカテゴリ出力に変換するために、)の結果を生成するための1つ以上の活性化層を含むことができる。機械学習モデル132は、複数のタイプの予測(例えば、相互作用予測、相互作用親和性予測、及び/又は免疫原性予測)を生成するように訓練することができる。場合によっては、予測はバイナリ又はカテゴリであってもよい。他の予測は、非バイナリ又は非カテゴリであり得る。例えば、予測はスカラであってもよい。
機械学習モデル132は、アンサンブルモデルを含んでもよく、及び/又はアンサンブルモデル内に含まれてもよい。アンサンブルモデルは、訓練データセットの異なる部分を使用して訓練することができる複数の(例えば、同一)サブモデルを含むことができる。
II.B.2.機械学習モデルの例示的構成
図3は、1つ以上実施形態による、図1の機械学習モデル132の1つの構成の概略図である。引き続き図1を参照して、機械学習モデル132について説明する。機械学習モデル132は、構成300を有する。構成300では、機械学習モデル132は、表現サブシステム302、初期注意サブシステム304、複合サブシステム306、複合注意サブシステム308、及び出力サブシステム310を含む。機械学習モデル132内の各「サブシステム」は、1つ以上のブロック、1つ以上のサブブロック、1つ以上の層、又はそれらの組み合わせで構成することができる。機械学習モデル132内の各「ブロック」は、1つ以上のサブブロック、1つ以上の層、又はそれらの組み合わせから構成されてもよい。機械学習モデル132の各「サブブロック」は、1つ以上の層(又はユニット)から構成されてもよい。
図3は、1つ以上実施形態による、図1の機械学習モデル132の1つの構成の概略図である。引き続き図1を参照して、機械学習モデル132について説明する。機械学習モデル132は、構成300を有する。構成300では、機械学習モデル132は、表現サブシステム302、初期注意サブシステム304、複合サブシステム306、複合注意サブシステム308、及び出力サブシステム310を含む。機械学習モデル132内の各「サブシステム」は、1つ以上のブロック、1つ以上のサブブロック、1つ以上の層、又はそれらの組み合わせで構成することができる。機械学習モデル132内の各「ブロック」は、1つ以上のサブブロック、1つ以上の層、又はそれらの組み合わせから構成されてもよい。機械学習モデル132の各「サブブロック」は、1つ以上の層(又はユニット)から構成されてもよい。
表現サブシステム302は、配列データ110を入力として受信し、配列データ110内の様々な配列に対する表現を生成する。「表現」は、例えば、要素のセット(例えば、各要素は1つ以上の値を含む)を含み得、各要素は、提示の親配列中の1つ以上のアミノ酸又は1つ以上の核酸を表すか又は同定する。例えば、親配列中の各アミノ酸は、アミノ酸を表すバイナリ列及び/又はベクトルとは異なる値のバイナリ列及び/又はベクトルによって表され得る。
初期注意サブシステム304は、これらの表現を入力として受信し、これらの表現を処理し、複合サブシステム306に送信される変換表現を生成する。初期注意サブシステム304は、様々な注意ブロックから構成され、その各々は、少なくとも1つの自己注意層を備える。
1つ以上の実施形態において、表現サブシステム302は、ペプチド配列126を処理してペプチド表現312を生成することができ、次いで、これは、初期注意サブシステム304の注意ブロック314によって処理されて、変換ペプチド表現316を生成する。この処理により、図1のペプチド処理経路136の少なくとも一部が形成され得る。さらに、表現サブシステム302は、IPC配列124を処理してIPC表現318を生成することができ、次いで、これは、初期注意サブシステム304の注意ブロック320によって処理されて、変換IPC表現322を生成する。この処理により、図1のIPC処理経路134の少なくとも一部が形成され得る。IPC配列124がMHC配列である場合、IPC表現318はMHC表現と呼ばれ、変換IPC表現322は変換MHC表現と呼ばれる。IPC配列124がTCR配列である場合、IPC表現318はTCR表現と呼ばれ、変換IPC表現322は変換TCR表現と呼ばれる。
いくつかの実施形態において、表現サブシステム302は、Nフランク配列128を処理してNフランク表現324を生成することができ、次いで、これは、初期注意サブシステム304の注意ブロック326によって処理されて、変換Nフランク表現328を生成する。この処理により、図1のNフランク処理経路138の少なくとも一部が形成され得る。いくつかの実施形態において、表現サブシステム302は、Cフランク配列130を処理してCフランク表現330を生成することができ、次いで、これは、初期注意サブシステム304の注意ブロック332によって処理されて、変換Cフランク表現334を生成する。この処理により、図1のCフランク処理経路140の少なくとも一部が形成され得る。
機械学習モデル132がTCR処理経路142も含む場合、表現サブシステム302は、TCR配列131を処理してTCR表現336を生成することができ、TCR表現はその後、変換TCR表現340を生成するために初期注意サブシステム304内の注意ブロック338によって処理される。この処理により、図1のTCR処理経路142の少なくとも一部が形成され得る。
複合サブシステム306は、初期注意サブシステム304から出力された変換表現(例えば、変換ペプチド表現316、変換IPC表現322、変換Nフランク表現328、変換Cフランク表現334、変換TCR表現340、又はそれらの組み合わせ)を受信し、複合表現342を生成するための1つ以上の動作を実行する。複合表現342は、例えば、初期注意サブシステム304から出力される変換表現の集約体であってもよい。1つ以上の実施形態において、複合表現は、初期注意サブシステム304から出力される変換表現を連結する連結層を含んでもよい。いくつかの実施形態において、複合表現342は、1つ以上の追加の特徴ベクトル(例えば、変換された表現の開始又は終了に追加することができる)を含む。追加の特徴ベクトルは、例えば、それぞれの親配列で表される個々のアミノ酸に対応する特徴の数に等しい長さを有し得る。追加の特徴は、例えば、配列開始(BoS)要素を含み得る。
複合表現342は、入力として複合注意サブシステム308に送られる。複合注意サブシステム308は、複合表現342を処理するための1つ以上の注意ブロックを含む。例えば、複合注意サブシステム308は、複合表現342を受信して処理する注意ブロック344(複合注意ブロックと呼ぶことができる)を含むことができる。複合注意サブシステム308の出力は、処理のために出力サブシステム310に送られ、図1で上述したようにレポート144を生成する。
図4A~4Cは、1つ以上の実施形態による機械学習モデル400の異なる構成の概略図である。
図4Aは、1つ以上の実施形態による機械学習モデル400の概略図である。機械学習モデル400は、図1及び3の機械学習モデル132の実装形態の一例である。機械学習モデル400は、注意ベースの機械学習モデルである。機械学習モデル400は、図3の表現サブシステム401、初期注意サブシステム403、複合サブシステム405、複合注意サブシステム407、及び出力サブシステム409のそれぞれの実装例である、表現サブシステム302、初期注意サブシステム304、複合サブシステム306、複合注意サブシステム308、及び出力サブシステム310を含む。
表現サブシステム401は、ペプチド表現ブロック402及びIPC表現ブロック404を含む。いくつかの実施形態において、表現サブシステム401は、Nフランク表現ブロック406、Cフランク表現ブロック408、又はその両方を更に含む。いくつかの実施形態において、IPC表現ブロック404がMHCに対応し、MHC表現ブロックとして使用される場合、表現サブシステム401はTCR表現ブロック410も含み得る。これらの異なる表現ブロックの各々は、少なくとも1つの埋め込み層を含み、例えば、位置エンコーダを含むことができる。
埋め込み層は、例えば、初期非数値表現(例えば、一連のアミノ酸識別子)を数値表現に変換して埋め込み表現を生成することによって、配列を埋め込むことができる。埋め込みは、例えば、ワン・ホット・エンコーディング、BLOSUM等の進化的に動機付けされた符号化、ランダム又は擬似ランダムに初期化された学習された埋め込み、又はそれらの組み合わせを使用して実行することができる。埋め込み表現は、コード化表現を生成するために位置的にコード化されてもよい。表現ブロックによって生成される配列表現は、コード化表現であってもよく、又はコード化表現と埋め込み表現との集約(例えば、連結又は和)であってもよい。
場合によっては、様々な注意機構は、入力データセット内の値の順序によって伝達される潜在的な情報を検出できないことがある。位置エンコーダが使用され、埋め込まれた表現に追加されてもよく、位置エンコーディングは、学習又は固定されたエンコーディングアルゴリズムを使用する。例えば、固定位置エンコーディングは、正弦及び/又は余弦関数(例えば、独立変数として配列内位置及び/又は寸法を有する)を使用して定義され得る。位置エンコーディングは、コード化表現と同じ次元を有することができる。位置エンコーディングは、埋め込み表現と合計されて、初期注意サブシステム403に供給される配列の位置指示埋め込み表現を生成することができる。
例えば、ペプチド表現ブロック402は、ペプチド配列(例えば、図1のペプチド配列126)を埋め込んで、埋め込まれたペプチド表現を生成する埋め込み層412と、埋め込まれたペプチド表現を位置的にコード化して、ペプチド配列を表すペプチド表現(例えば、図3のペプチド表現312)を生成する位置エンコーダ414とを含み得る。IPC表現ブロック404は、IPC配列(例えば、図1のIPC配列124)を埋め込んで埋め込みIPC表現を生成する埋め込み層416と、IPC配列を表すIPC表現(例えば、図3のIPC表現318)を生成するために埋め込みIPC表現を位置的にコード化する位置エンコーダ418とを含むことができる。
さらに、Nフランク表現ブロック406は、埋め込まれたNフランク表現を生成するためにNフランク配列(例えば、図1のNフランク配列128)を埋め込む埋め込み層420と、Nフランク配列を表すNフランク表現(例えば、図3のNフランク表現324)を生成するために埋め込みNフランク表現を位置的にコード化する位置エンコーダ422とを含むことができる。Cフランク表現ブロック408は、埋め込まれたCフランク表現を生成するためにCフランク配列(例えば、図1のCフランク配列130)を埋め込む埋め込み層424と、Cフランク配列を表すCフランク表現(例えば、図3のCフランク表現330)を生成するために埋め込みCフランク表現を位置的にコード化する位置エンコーダ426とを含むことができる。
さらに、TCR表現ブロック410は、埋め込みTCR表現を生成するためにTCR配列(例えば、図1のTCR配列131)を埋め込む埋め込み層428と、TCR配列を表すTCR表現(例えば、図3のTCR表現336)を生成するために埋め込みTCR表現を位置的に符号化する位置エンコーダ430とを含むことができる。
配列を埋め込むことは、例えば、最初の非数値表現(例えば、一連のアミノ酸識別子を含む)を数値表現に変換することを含むことができる。埋め込みは、ワン・ホット・エンコーディング、BLOSUM等の進化的に動機付けされた符号化、又はランダム若しくは擬似ランダムに初期化された学習された埋め込みを含むことができる。表現は、配列及び埋め込み配列の位置エンコーディングの合計及び/又は集約(例えば、濃度)を含むことができる。
表現サブシステム401によって生成された表現は、処理のために初期注意サブシステム403に入力として送られる。初期注意サブシステム403は、表現内の一、複数、又は全ての位置の各々について、1つ以上の他の位置の各々の値に対する注意重み(例えば、どれだけの注意を払うべきかを示す)を決定する様々な自己注意機構を含むことができる。次いで、注意重みを使用して、位置の変換値を生成することができる。
初期注意サブシステム401は、注意ブロック432及び注意ブロック434含む。初期注意サブシステム401はまた、いくつかの実施形態において、注意ブロック436、注意ブロック438、注意ブロック440、又はそれらの組み合わせを含むことができる。注意ブロック432は、ペプチド表現ブロック402からペプチド表現を受信し、注意サブブロック442のセットを使用してペプチド表現を処理して、変換ペプチド表現を生成する(例えば、図3の変換ペプチド表現316)。注意サブブロックの実施態様の一例は、以下の図6でより詳細に説明される。注意ブロック434は、IPC表現ブロック404からIPC表現を受信し、注意サブブロック444のセットを使用してIPC表現を処理して、変換IPC表現を生成する(例えば、図3の変換IPC表現322)。
さらに、含まれる場合、注意ブロック436は、Nフランク表現ブロック406からNフランク表現を受信し、注意サブブロック446のセットを使用してNフランク表現を処理して、変換Nフランク表現を生成する(例えば、図3の変換Nフランク表現328)。注意ブロック438は、Cフランク表現ブロック408からCフランク表現を受信し、注意サブブロック448のセットを使用してCフランク表現を処理して、変換Cフランク表現を生成する(例えば、図3の変換Cフランク表現334)。注意ブロック440は、TCR表現ブロック410からTCR表現を受信し、注意サブブロック450のセットを使用してTCR表現を処理して、変換TCR表現を生成する(例えば、図3の変換TCR表現340)。
初期注意サブシステム403から出力された変換表現は、処理のために複合サブシステム405に送られる。複合サブシステム405は、複合ブロック452を含む。複合ブロック452は、初期注意サブシステム403から出力された変換表現を使用して複合表現(例えば、図3の複合表現342)を形成することができる。例えば、複合ブロック452は、変換表現を集約、連結、又は結合して、初期複合表現を形成することができる。場合によっては、複合ブロック452はまた、初期複合表現内に1つ以上の追加の特徴ベクトル(例えば、BoSベクトル)を追加する。
いくつかの実施形態において、複合サブシステム405はまた、位置エンコーダ454を含んでもよい。位置エンコーダ454は、初期複合表現を位置的に符号化し、それによって複合注意サブシステム407に出力される複合表現を生成する。位置エンコーダ454が複合サブシステム405内に存在しない場合、複合ブロック452によって生成される初期複合表現は、複合注意サブシステム407に出力される複合表現であってもよい。
複合注意サブシステム407は、注意ブロック456(複合注意ブロックとも呼ばれ得る)を含むことができる。注意ブロック456は、注意サブブロック458のセットを含む。注意ブロック456は、複合サブシステム405によって生成された複合表現を受信し、変換複合表現を生成するために、注意サブブロック458のセットを使用して複合表現を処理する。次いで、この変換された複合表現は、処理のために出力サブシステム409に出力される。
複合注意サブシステム407又は複合注意サブシステム407内の注意サブブロックによって生成される出力のサイズは、複合注意サブシステム407又は複合注意サブシステム407内の注意サブブロックに供給される入力のサイズに等しくてもよい。サイズは、例えば、m x nであってもよく、式中、mは、1によって考慮されているアミノ酸の総数(例えば、シーケンス表現の開始のために)に等しく、nは、特徴の数(所定の値)に等しい。単一の列(n値を有する)を選択して更に処理することができる。単一の列は、第1の列及び/又は配列開始表現に関連付けられた列であり得る。複合注意サブシステム407への出力の一部又は複合注意サブシステム407内の注意サブブロックのみが出力サブシステム409に供給される場合、機械学習モデル400の訓練は、IPC配列及びペプチド関連配列(複数可)の両方に関する関連情報、並びに配列開始表現で表されるペプチド-IPC相互作用を伝達する学習されたパラメータ値をもたらし得る。他の例では、集約表現は、単一のベクトルを生成するために複合注意サブシステム407からの出力後にプールされ、次いで出力サブシステム409に供給され得る。
出力サブシステム409は、最終出力を生成するための様々なブロック、サブブロック、層、又はそれらの組み合わせを含むことができる。1つ以上の実施形態において、出力サブシステム409は、ドロップアウトブロック460、完全接続ブロック462、及び出力ブロック464を備える。ドロップアウトブロック460は、例えば、1つ以上のドロップアウト層を備え得る。完全接続ブロック462は、例えば、1つ以上の完全接続層を含み得る。出力ブロック464は、例えば、出力をフィルタリング、選択、変換、又は生成するための1つ以上の層を含むことができる。例えば、出力ブロック464は、例えば選択された閾値又は範囲に基づいて、出力ブロック464で受信された入力のサブセットを選択するように構成された少なくとも1つのマックス層465を含むことができる。
場合によっては、変換複合表現は、完全接続ブロック462によって受信される第1の出力を生成するために、ドロップアウトブロック460によって受信されて処理される。完全接続ブロック462は、この第1の出力を受信及び処理して第2の出力を生成することができ、その少なくとも一部は出力ブロック464によって受信される。出力ブロック464は、その入力を受信して処理し、相互作用出力466、免疫原性出力468、又はその両方を生成する。
いくつかの実施形態において、完全接続ブロック462は、完全接続ブロック462に供給される次元数よりも小さい次元数を有する(例えば、所定の数の特徴よりも少ない)1つ以上の出力を生成するように構成され得る。例えば、完全接続ブロック462の出力は、単一の値、2つの値、又は3つの値を含むことができ、それぞれが標的相互作用又は免疫応答に関する予測に対応する。完全接続ブロック462は、例えば、単一の隠れ層、2つの隠れ層、又は3つ以上の隠れ層を含むことができる。初期隠れ層のノードの数は、後続の隠れ層のノードの数よりも多くてもよい。例えば、第1の隠れ層は256個のノードを含むことができ、第2の隠れ層は126個のノードを含むことができる。様々な実施形態において、完全接続ブロック462からの各出力は、例えば、バイナリ及び/又はカテゴリ結果(例えば、訓練された活性化関数を用いて)に変換され、及び/又はスケーリングされた数に変換され得る実数スコアを含み得る。例えば、スケーリングされた数は、0~1のスケールの確率を含むことができる。
相互作用出力466は、例えば、1つ以上の標的相互作用に関する相互作用予測のセット470、相互作用親和性予測のセット472、又はその両方を含み得る。相互作用予測は、例えば、IPC(例えば、ペプチド-MHC、ペプチド-TCR)がペプチドに結合するかどうかの対応するペプチド-IPC(例えば、MHC、TCR)の組み合わせの予測を含み得る。相互作用予測は、例えば、IPC(例えば、ペプチド-MHC)が細胞表面にペプチドを提示するかどうかの対応するペプチド-IPC(例えば、MHC)の組み合わせの予測を含み得る。さらに、相互作用親和性予測は、例えば、対応するペプチド-IPC(例えば、ペプチド-MHC、ペプチド-TCR)の組み合わせについての標的相互作用に対する親和性の予測を含み得る。標的相互作用は、例えば、ペプチドとIPCとの結合であり得る。標的相互作用に対する親和性は、例えば、結合親和性であり得、ペプチドとIPCとの間の結合の強度、傾向、及び/又は安定性を示す。
免疫原性出力466は、免疫原性予測のセットを含む。免疫原性予測は、例えば、対応するペプチド-IPC組み合わせに関する免疫原性の予測を含み得る。例えば、免疫原性予測は、目的の特定のIPC(例えば、TCR又はMHC及びTCR複合体)に関して免疫応答を引き起こすペプチドの能力を示し得る。
場合によっては、完全接続ブロック462からの出力の第1の部分は出力ブロック464に送られ、完全接続ブロック462からの出力の第2の部分はその最終形態にあり、相互作用親和性予測472のセットとして使用される。
他の実施形態において、出力サブシステム409で受信された変換された複合表現は、完全結合ブロック462によって受信及び処理され、完全接続ブロックは、変換複合表現を処理して、ドロップアウトブロック460に送信される第1の出力を生成する。ドロップアウトブロック460又はその一部の出力は、その後、処理のために出力ブロック464に送られ得る。
いくつかの実施形態において、出力サブシステム409からの出力は、各IPC(例えば、MHC)対立遺伝子について、ペプチドがIPC対立遺伝子に結合するかどうか及び/又は確率に関する予測を含む複数の結果を含み得る。対立遺伝子特異的予測を出力してもよく、又は場合によっては、マックス層465を使用して対立遺伝子特異的予測の最大値を決定してもよく、最大値を出力することができる。
このようにして、出力サブシステム409は、相互作用出力466、免疫原性出力468、又はその両方の生成を可能にする任意の数の異なるブロック、サブブロック、及び/又は層を用いて、いくつかの異なる方法のいずれかで実施することができる。複合サブシステム405の前のIPC配列(例えば、MHC配列、TCR配列、結合MHC-TCR配列等)の処理とは別にペプチド配列を処理することにより、機械学習モデル400の予測性能が向上する。例えば、複合表現を生成する前に、(適用可能であれば、TCR表現ブロック410及び注意ブロック440を使用した変換TCR表現の生成とは別に)IPC表現ブロック404及び注意ブロック434を使用する変換IPC表現の生成とは別の経路に沿って、ペプチド表現ブロック402及び注意ブロック432を使用して変換ペプチド表現を生成すると、出力生成出力サブシステム409の精度が向上する。さらに、そのような処理は、複数のペプチド-IPC(及びペプチド-TCR)の組み合わせがモジュール方式で考慮され得るので、効率的な処理(例えば、コンピューティングリソースの削減、処理の迅速化等を使用することができる)を可能にし得る。
様々な実施形態において、機械学習モデル400は、どの特定のIPC対立遺伝子がペプチドに結合して提示すると予測されるかに関する自動判定を容易にすることができる。例えば、MHC分子が6つのMHC対立遺伝子を含む場合(ヒトの場合のように)、ニューラルネットワーク処理の少なくとも一部の6回の反復(例えば、並行して)-各対立遺伝子に1回-が実行され得る。各処理は、入力として、MHC対立遺伝子のMHC配列のMHC表現及びペプチドの配列の少なくとも一部のペプチド表現を使用し得る。各処理は、ペプチドがMHC対立遺伝子に結合する及び/又はMHC対立遺伝子によって提示されるかどうかに関する予測に対応する出力を生成することができる。対立遺伝子にわたる最も高い予測値(例えば、最も可能性の高い結合及び/又は提示予測を示す)に関連するペプチドは、そのペプチドが結合するであろうペプチド及びそのペプチドを提示するであろうペプチドであると推測され得る。
いくつかの例では、6つのMHC対立遺伝子について、6つの異なるMHC対立遺伝子配列を同じIPC表現ブロック404に通し、各対立遺伝子-ペプチドの組み合わせについて複合表現を生成することによって、6つの複合表現を生成することができる。いくつかの実施形態において、6つの複合表現のそれぞれは、埋め込み層で埋め込まれた配列開始トークン(ベクトル)と共に集約(例えば、連結)されてもよい。次いで、上述のように、6つの複合表現のそれぞれを複合サブシステム407に供給することができる。
いくつかの実施形態において、処理された配列開始トークンを抽出し、完全接続ブロック462に供給して、機械学習モデル400の最終ノードに直接出力することができる。このBoSトークンは、ノード提示尤度を表すことができる。場合によっては、完全接続ブロック462内の各完全接続サブブロックにドロップアウトが適用され、その後にバッチ正規化層が続く場合がある。いくつかの実施形態において、出力ブロック464は、約6対のペプチド-MHC相互作用が、約6個の提示予測に活性化関数(例えば、ソフトマックス関数を含み得るマックス層465を介して)を適用することによって単一の選択されたMHC対立遺伝子に対応するように、デコンボリューションに使用される。訓練中、選択されたペプチド-MHC相互作用出力は、0~1の値として正規化することができ、損失関数(例えば、バイナリ損失関数)を使用して真の提示値と比較して、モデルパラメータを調整するための誤差を生成することができる。
更に他の実施形態において、機械学習モデル400に含まれる注意ブロック又は注意サブブロックのうちの1つ以上は、別の種類のネットワーク及び/又は処理ユニットで置き換えられて、1つ以上の配列の表現を変換することができる。転換は、様々なアミノ酸(特定の位置にある)が結合親和性及び/若しくは提示確率に影響を及ぼすと予測される程度、及び/又は単一の配列にわたって若しくは配列にわたって生じるアミノ酸の様々な特定の組み合わせ(特定の位置にある)が結合親和性及び/若しくは提示に影響を及ぼすと予測される程度を表し得る。例えば、1つ以上の注意サブブロックは、1つ以上のゲート付き回帰型ユニットに置き換えられてもよい。
図4Bは、1つ以上の実施形態による機械学習モデル400の異なる構成の概略図である。図4Bに示す構成では、表現サブシステム401は集約表現ブロック480を含む。集約表現ブロック480は、例えば、ペプチド配列(例えば、図1のペプチド配列126)とNフランク配列(例えば、図1のNフランク配列128)及び/又はCフランク配列(例えば、図1のCフランク配列130)との集約体等の集約配列を受信する。
集約表現ブロック480は、例えば、集約配列を処理して、位置エンコーダ483によって受信され得る埋め込み集約表現を形成する埋め込み層482を含むことができ、位置エンコーダは、埋め込み集約表現を位置的にコード化し、集約表現484を生成する。したがって、集約表現484は、親ペプチド配列のペプチド提示485と、親Nフランク配列のNフランク表現486及び/又は親Cフランク配列のCフランク表現487とを含み得る。
集約表現484は、集約表現ブロック480から出力され、処理のために初期注意サブシステム403内の注意ブロック488に送られる。注意ブロック488は、集約表現を処理して、処理のために複合ブロック452に送信される変換集約表現484を生成する注意サブブロック489のセットを含む。
いくつかの実施形態において、集約表現ブロック480に送られた集約配列がNフランク配列又はCフランク配列のいずれかを含むが他方を含まない場合、機械学習モデル400はまた、集約配列に含まれない配列の対応する表現ブロック(例えば、Nフランク表現ブロック406又はCフランク表現ブロック408)、及び対応する注意ブロック(例えば、それぞれ注意ブロック436又は注意ブロック438)を含むことができる。
図4Cは、1つ以上の実施形態による機械学習モデル400の異なる構成の概略図である。図4Cに示す構成では、表現サブシステム401によって生成されたペプチド表現及びNフランク表現、並びに任意にCフランク表現は、集約ブロック490に送られる。集約ブロック490は、これらの表現を集約(例えば、連結する)して、注意ブロック492に送られる集約表現を形成することができる。注意ブロック492は、集約表現を処理して、処理のために複合ブロック452に送信される変換集約表現を生成する注意サブブロック494のセットを含む。
図4A~図4Cに示すように、機械学習モデル400は、様々なサブシステム内のブロック、サブブロック、及び/又は層の任意の数又は組み合わせを使用して、いくつかの異なる方法で実装することができる。したがって、機械学習モデル400はモジュール式であり、所与のタスクに対してカスタマイズ可能であり得る。
図5は、1つ以上の実施形態による注意ブロック500の概略図である。注意ブロック500は、図3の初期注意サブシステム304、図3の複合注意サブシステム308、又は図4A~Cの初期注意サブシステム403における注意ブロックの実施の一例であってよい。さらに、注意ブロック500は、図4A~4Cの注意ブロック456の実施態様の一例であってもよい。
注意ブロック500は、1つ以上の注意サブブロックを含む。例えば、注意ブロック500は、注意サブブロック1 501と、任意に、注意サブブロックn 504までの1つ以上の他の注意サブブロックとを含むことができる。注意ブロック500に複数の注意サブブロックが存在する場合、これらの注意サブブロックは、直列に接続(例えば、最終出力を生成するために互いにデイジーチェーン接続)されてもよい。
注意サブブロック1 501は、様々な方法で実施することができる。1つ以上の実施形態において、注意サブブロック1 501は、例えば、自己注意層506と、加算及び正規化層508と、フィードフォワード層510と、加算及び正規化層512とを含む。注意サブブロック501のこの構成により、注意サブブロック1 501は、変換器エンコーダとも呼ばれ場合がある。自己注意層506は、例えば、ワンヘッド注意ユニット又はマルチヘッド注意ユニットを用いて実現されてもよい。存在する場合、注意ブロック500から注意サブブロックnまでの1つ以上の他の注意サブブロックは、注意サブブロック1 501と同様の方法で実施することができる。
加算及び正規化層において、変換された表現は、(残差接続を介して)配列の位置指示埋め込み表現に追加されてもよく、合計された表現は正規化され得る。正規化されたデータは、対応するフィードフォワード層510(例えば、完全接続フィードフォワードネットワーク)に供給することができる。フィードフォワードネットワークは、(例えば)各位置について、1つ、2つ、3つ、又はそれ以上の線形変換に影響を及ぼすことができ、及び/又は線形変換の各々の間の活性化(例えば、ReLU活性化)を含むことができる。例えば、フィードフォワード層は、以下によって表すことができる:
式中、xは層への入力であり、W1及びW2は線形変換の勾配であり、b1及びb2は線形変換の切片である。特定の注意サブブロックのフィードフォワード層の出力の次元数は、注意サブブロックのフィードフォワード層への入力の次元数と同じであってもよい。したがって、場合によっては、様々なタイプの情報の表現を保存するために、入力及び出力を合計して正規化することができる(例えば、別の加算及び正規化層を介した別の残差接続を介して)。
II.B.3.自己注意のための例示的な機構
図6は、1つ以上の実施形態による、例示的な自己注意層を使用して配列表現を処理するためのプロセスのフローチャートである。プロセス600は、例えば、図1及び3の機械学習モデル132に存在する1つ以上の注意ブロック、図4A~4Cの機械学習モデル400に存在する1つ以上の注意ブロック、及び/又は図5の注意ブロック500によって使用され得る。
図6は、1つ以上の実施形態による、例示的な自己注意層を使用して配列表現を処理するためのプロセスのフローチャートである。プロセス600は、例えば、図1及び3の機械学習モデル132に存在する1つ以上の注意ブロック、図4A~4Cの機械学習モデル400に存在する1つ以上の注意ブロック、及び/又は図5の注意ブロック500によって使用され得る。
工程602は、複数の要素を含む配列表現を受信することを含む。配列表現は、アミノ酸配列若しくは遺伝子核酸配列、又は遺伝子配列内のコドン配列を表す。1つ以上の実施形態において、配列表現における複数の要素の各要素は、アミノ酸(又はアミノ酸残基)、核酸、コドン等を表す。さらに、各要素は、シーケンス内の固有の位置に関連付けられている。
配列表現は、例えば、ペプチド表現、IPC表現、Nフランク表現、Cフランク表現、MHC表現、TCR表現、集約表現、又は別のタイプの表現であり得る。例えば、配列表現は、バリアントコード配列、野生型又は変異ペプチドをコードする配列の一部又は全部、エピトープ配列(例えば、変異体を含む)、候補ネオエピトープ配列、ネオ抗原配列の一部又は全部、ペプチドの末端で開始又は終了する配列(例えば、Nフランク又はCフランク)、MHC配列(例えば、MHC疑似配列)の一部又は全部を表し得る。配列表現は、例えば、図3の表現サブシステム302又は図4A~4Cの表現サブシステム401を使用して生成することができる。
工程304は、キー重みのセット、値重みのセット、及びクエリ重みのセットを使用して、配列表現内の各要素についてそれぞれキーベクトル、値ベクトル、及びクエリベクトルを決定する工程を含む。例えば、配列表現で表される配列が例えば20個のアミノ酸を含む場合、20個のキーベクトル、20個の値ベクトル、及び20個のクエリベクトルが生成され得る。配列表現内の要素は、例えば、2次元配列表現(例えば、第1の次元は配列中の異なるアミノ酸を表し、第2の次元は、例えば、個々のアミノ酸を特徴付ける異なる構成要素を表す)内の行又は列に対応することができる。
いくつかの実施形態において、キー重みのセットは、キー重み行列の形態である。特定の要素の鍵重み行列は、キーベクトルがあるべき長さだけ要素の長さに等しいサイズを有することができる。例えば、要素は20(例えば、各値は、配列中のアミノ酸が21個のアミノ酸のうちの特定の1つと同じであるかどうかに関するバイナリ表示に対応する)の長さを有することができ、キーベクトルの長さが5(例えば、5つの構成要素又は特徴を表す)である場合、キー重み行列は[5、21]のサイズを有することができる。キー重み行列は、訓練中に学習することができる(例えば、訓練の開始時にランダムに初期化される)。
要素の値ベクトルは、要素のキーベクトルと同じサイズを有し得る。値ベクトルは、訓練中に学習することができ、値重み行列内に含めることができる値重みのセットを使用して決定することができる。所与の要素の値重み行列は、キー重み行列のサイズを有することができ、及び/又はその要素の長さ及び値ベクトルがあるべき長さに基づいて定義されたサイズを有することができる。
要素のクエリベクトルは、要素のキーベクトル及び/又は値ベクトルと同じサイズを有し得る。クエリベクトルは、訓練中に学習することができ、クエリ重み行列内に含めることができるクエリ重みのセットを使用して決定することができる。要素のクエリ重み行列は、キー重み行列及び/又は値重み行列のサイズを有することができ、及び/又は要素の長さ及びクエリベクトルがあるべき長さに基づいて定義されたサイズを有することができる。
工程606は、配列表現内の各要素について、(クエリ重み及び配列表現を使用して生成された)要素のクエリベクトル、及び(キー重み及び配列表現を使用して生成された)複数の要素のキーベクトルを使用して、要素集中注意スコアのセットを生成することを含む。所与の要素について、要素集中注意スコアのセットは、所与の要素の値ベクトルに与える重みを示すことができる。キーベクトルが配列表現内の選択された要素の要素集中注意スコアのセットを生成する際に使用される複数の要素は、配列表現内の要素の一部又は全部を含み得る(例えば、表されるアミノ酸の一部又は全部の表現)。複数の要素は、焦点要素(例えば、要素集中注意スコアのセットが決定されている特定のアミノ酸)を含むことができる。
要素集中注意スコアのセットは、配列表現の各要素について、同じ又は異なる要素(第2の要素)との焦点の要素(第1の要素)の各ペアリングに対する注意スコアを生成することによって生成される。このペアリングの注意スコアは、第1の要素のクエリベクトルと第2の要素のキーベクトルとの積として定義することができる。
場合によっては、工程606は、活性化関数及び/又は正規化を実施することを含むことができる。正規化は、キーベクトル(又はクエリベクトル)の次元数に基づくことができる。例えば、正規化は、キーベクトルの長さの平方根であると定義することができる。活性化関数は、ソフトマックス関数を含むことができる。場合によっては、正規化は活性化関数の前に適用される。
工程608は、複数の修正要素を形成するために複数の要素の変換を実行することを含み、変換は、複数の要素のそれぞれについて生成された要素集中注意スコアのセットと、複数の要素のそれぞれについて決定された値ベクトルとを使用して実行される。例えば、配列表現が11個の要素(例えば、11個のアミノ酸を表す)を含み、要素の全てのペアワイズ組み合わせについて注意スコアが決定される場合、複数の修正された要素を含む修正された配列表現が生成され、修正要素は、使用して定義され、(重み付けのための注意スコアを使用して)全ての要素の値ベクトルの加重平均であるように定義され得る。
工程610は、変換配列表現、初期配列表現、及びフィードフォワードネットワークを使用して配列のエンコーディングを生成することを含む。例えば、変換配列表現と初期配列表現とを合計することができる。この結果は、依然として複数の要素(例えば、各更新は、変換、加算、及び正規化を介して行われる)を含み得る。次いで、フィードフォワードニューラルネットワークは、(例えば、1つ、2つ、若しくはそれ以上の線形変換を行うこと、及び/又は1つ以上の活性化関数を実装することによって)合計された表現を処理することができる。表現を合計すると、(所与の要素の変換値ベクトルを生成するときに他の要素の値に対応するために)変換配列表現では不明瞭になる可能性がある位置情報を再導入することができる。
フィードフォワードニューラルネットワークは、更新された複数の要素(例えば、同じ技術及び/又は同じパラメータセットを使用する)の各々を別々に処理するように構成することができる。したがって、フィードフォワードネットワークへの入力は、単一要素、単一アミノ酸、及び/又は単一配列位置に対応するベクトルを含むことができる。フィードフォワードネットワークは、フィードフォワードネットワークの出力がフィードフォワードネットワークへの入力と同じサイズであるように構成することができる。場合によっては、フィードフォワードネットワークを使用して変換配列表現及び初期配列表現を処理する代わりに、畳み込み(例えば、1次元畳み込み)を使用して、位置/要素にわたって同一に動作する局所変換を実行する。フィードフォワードニューラルネットワークの機能を解釈する別の方法として、1次元畳み込みを使用することができる。
図6に示す技術は、シングルヘッド注意(single-head attention)(キーベクトル、値ベクトル、及びクエリベクトルは、注意スコアを計算するために使用される)に関する。或いは、マルチヘッド注意(multi-head attention)を使用してもよい。マルチヘッド注意における各注意ヘッドは、それ自体のキー重みのセット、それ自体の値重みのセット、及びそれ自体のクエリ重みのセットに関連付けられ得る。次いで、マルチヘッド注意における各注意ヘッドは、別個のキーベクトル、別個の値ベクトル、及び別個のクエリベクトルを生成することができる。マルチヘッド注意における各注意ヘッドは、これらの別個のベクトルを使用して、各要素の注意スコア及び変換値を生成することができる。変換値は連結して投影することができる。
図6は様々なベクトルの計算及び使用に言及しているが、代わりに行列表現が使用されてもよいことを更に理解されたい。行列表現は、様々なベクトルを個別に反復的に計算するのとは対照的に、要素にわたる計算を効率的に実行することを容易にすることができる。
図7は、1つ以上の実施形態による、上記の図6で説明したプロセス600を示す概略図である。図7において、表現及び注意プロセス700は、配列702を入力として受信する。配列702は、例えばアミノ酸配列であり得る。
図7の例示的な例では、配列702は複数のアミノ酸704(4アミノ酸:x1~x4)を含む。複数の要素a1~a4を含む配列表現706は、埋め込み、及びいくつかの実施形態において位置エンコーディングを介して生成される。各要素aiは、例えば、数値ベクトルを有してもよい。配列表現706は、図6の工程602で受信された配列表現の一例であり得る。
ベクトル708(例えば、クエリベクトルqi、キーベクトルki、及び値ベクトルvi)を、各要素aiに対して生成することができる。ベクトル708は、図6の工程604で生成されたベクトルの実装形態の例であり得る。図示される例は、第1の要素a1に焦点を合わせて、選択要素集中注意スコア710、
を生成することに対応する。要素集中注意スコア710は、図6の工程606で特定の要素に対して生成されたある要素集中注意スコアのセットの例である。要素集中注意スコア
は、q1とkiとのドット積として定義される。重みが
に設定された値ベクトルviの重み付き和が演算されて、修正要素712、b1を生成する変換が実行される。修正要素712は、図6の工程608で生成される修正要素の一例である。同様の変換は、配列表現706の他の要素に対して実行されてもよい。
II.C.機械学習モデルを使用する例示的な方法
図1及び図3の機械学習モデル132、並びに図4A~4Cの機械学習モデル400は、変異ペプチド(例えば、ネオ抗原)を含む様々なペプチドに関連する免疫学的活性(例えば、予測される結合、結合親和性、予測される提示発生、免疫原性等)に関する予測を生成するために様々な方法で使用され得る。
図1及び図3の機械学習モデル132、並びに図4A~4Cの機械学習モデル400は、変異ペプチド(例えば、ネオ抗原)を含む様々なペプチドに関連する免疫学的活性(例えば、予測される結合、結合親和性、予測される提示発生、免疫原性等)に関する予測を生成するために様々な方法で使用され得る。
図8は、様々なペプチドの免疫活性に関する情報を生成する処理のフローチャートである。プロセス800の少なくとも一部は、例えば、限定はしないが、図1に記載の予測システム100を使用して実施することができる。例えば、プロセス800の少なくとも一部は、例えば、限定されるものではないが、図1及び3からの機械学習モデル132、又は図4A~4Cからの機械学習モデル400を使用して実施することができる。
工程802は、変異ペプチドを特徴付けるペプチド配列を受信することを含み、ペプチド配列は、対応する参照配列に対するバリアントを含む。ペプチド配列は、変異ペプチドの少なくとも一部を特徴付けることによって変異ペプチドを特徴付ける。変異ペプチドは、例えばネオ抗原であり得る。工程802は、例えば、データストア(例えば、図1のデータストア104、クラウドストレージ、サーバ又はサーバシステム等)からペプチド配列を検索することによって実行され得る。いくつかの実施形態において、ペプチド配列は、機械学習モデルによって処理される複数のペプチド配列のうちの1つであり得る。
工程804は、免疫タンパク質複合体(IPC)について同定された免疫タンパク質複合体(IPC)配列を受信することを含む。IPCは、例えば、MHC、TCR、又はMHC-TCR複合体であり得る。したがって、IPC配列は、MHC配列、TCR配列、又はMHC-TCR配列であり得る。IPC配列は、IPCの少なくとも一部を特徴付けることによってIPCを特徴付ける。工程802は、例えば、データストア(例えば、図1のデータストア104、クラウドストレージ、サーバ又はサーバシステム等)からIPC配列を検索することによって実行され得る。いくつかの実施形態において、IPS配列は、機械学習モデルによって処理される複数のIPC配列のうちの1つであり得る。
工程806は、出力を生成するために、注意ベースの機械学習モデル内の異なる処理経路を使用してペプチド配列及びIPC配列を処理することを含み、出力は、変異ペプチド及びIPCの両方に関連する免疫学的活性に関する情報を提供する。工程806は、例えば、対応する表示ブロックを介してペプチド配列を処理して、対応する注意ブロックを介して処理されるペプチド表現を生成し、ペプチド配列を表す変換ペプチド表現を生成することを含む。このペプチド処理経路は、IPC配列が対応する表現ブロックを介して処理されてIPC表現(例えば、MHC表現、TCR表現、MHC-TCR表現)を生成するIPC処理経路とは別個であり、IPC表現は、対応する注意ブロックを介して処理されてIPC配列を表す変換IPC表現(例えば、変換MHC表現、変換TCR表現、変換MHC-TCR表現)を生成する。
いくつかの実施形態において、ペプチド表現は、Nフランク配列についてのNフランク表現及び/又はCフランク配列についてのCフランクも含む集約表現の一部である。そのような実施形態において、集約処理経路(ペプチド処理経路を本質的に含む)は、IPC処理経路とは別個のままである。
様々な実施形態において、工程806において、変換されたペプチド表現及び変換されたIPC表現は、複合表現を形成するために使用され、次いで、出力を生成するために更に処理される。例えば、変換複合表現を生成するために注意ブロックを使用して複合表現を変換することができ、変換複合表現はその後、出力を生成するために処理される。出力は、例えば、限定されなれるものではないが、相互作用予測のセット、相互作用親和性予測のセット、免疫原性予測のセット、又はそれらの組み合わせを含み得る。
工程808は、出力に基づいてレポートを生成することを含む。レポートは、出力を含んでもよい。他の実施形態において、レポートは、出力の変換された又はフィルタにかけたバージョンを含む。更に他の実施形態において、レポートは、出力の概要、要約、又は視覚的表現を含む。
いくつかの実施形態において、プロセス800は、工程810を更に含む。工程810は、レポートに基づいて動作のセットを実行することを含む。動作のセットは、レポートに基づく処置の設計及び/又は製造に関する様々な動作を含むことができる。
図9は、様々なペプチドの免疫活性に関する情報を生成する処理のフローチャートである。プロセス900の少なくとも一部は、例えば、限定はしないが、図1に記載の予測システム100を使用して実施することができる。例えば、プロセス900の少なくとも一部は、例えば、限定されるものではないが、図1及び3からの機械学習モデル132、又は図4A~4Cからの機械学習モデル400を使用して実施することができる。
工程902は、複数のペプチド配列及び複数のIPC配列を含む配列データを受信することを含む。
工程904は、ペプチド配列及びIPC配列を使用して複数のペプチド-IPC組み合わせを生成することを含む。ペプチド-IPC組み合わせのそれぞれは、特有の組み合わせである。
工程906は、ペプチド-IPC組み合わせごとに、ペプチド-IPC組み合わせに対応するペプチド配列を機械学習モデルのペプチド処理経路に入力し、ペプチド-IPC組み合わせに対応するIPC配列を機械学習モデルのIPC処理経路に入力することを含む。
工程908は、各ペプチド-IPC組み合わせについて、第1の注意ブロックを使用してペプチド配列のペプチド表現を処理することと、第2の注意ブロックを使用してIPC配列のIPC表現を処理して、それぞれ変換ペプチド表現及び変換IPC表現を生成することとを含む。
工程910は、各ペプチド-IPC組み合わせについて、変換ペプチド表現及び変換されたIPC表現を使用して複合表現を生成することを含む。
工程912は、各ペプチド-IPC組み合わせについて、変換複合表現を生成するために第3の注意ブロックを使用して複合表現を処理することを含む。
工程914は、変換された複合表現に基づいて出力を生成することを含む。出力は、どのペプチド配列が処置を生成するために使用され得るかの指標を提供し得る。例えば、出力は、どのペプチド配列(それによって、そのペプチド配列を含むペプチド)がMHCに結合する可能性が高いか、MHCによって提示される可能性が高いか、ペプチド-MHC結合に対する高い相互作用親和性、及び/又は免疫原性であり、それによって免疫応答を誘因する可能性が高いかの指標を提供し得る。
II.C.1.例示的な方法論:ペプチド及びMHC
図10は、1つ以上の実施形態による、機械学習モデルを訓練し、訓練された機械学習モデルを使用してペプチド及びMHCに関する予測を生成するためのプロセスのフローチャートである。プロセス1000は、図1の予測システム100を使用して実行することができる。例えば、プロセス1000は、図1及び3の機械学習モデル132、又は図4A~4Cの機械学習モデル400を使用して実施することができる。場合によっては、プロセス1000の一部又は全部は、ユーザ装置及び/又は研究所に対して遠隔にあるリモートコンピューティングシステムで実行されてもよい。遠隔コンピューティングシステムは、クラウドコンピューティングシステムであってもよい。
図10は、1つ以上の実施形態による、機械学習モデルを訓練し、訓練された機械学習モデルを使用してペプチド及びMHCに関する予測を生成するためのプロセスのフローチャートである。プロセス1000は、図1の予測システム100を使用して実行することができる。例えば、プロセス1000は、図1及び3の機械学習モデル132、又は図4A~4Cの機械学習モデル400を使用して実施することができる。場合によっては、プロセス1000の一部又は全部は、ユーザ装置及び/又は研究所に対して遠隔にあるリモートコンピューティングシステムで実行されてもよい。遠隔コンピューティングシステムは、クラウドコンピューティングシステムであってもよい。
工程1002は、訓練ペプチド配列データ、訓練MHC配列データ、及び訓練免疫学的活性データを識別する訓練要素を有する訓練データセットにアクセスすることを含む。訓練データセットは、図1の訓練データ133の実施態様の一例であってよい。訓練免疫学的活性データは、例えば、相互作用指標を含み得る。
訓練ペプチド配列データは、例えば、訓練のための1つ以上のペプチド配列を含み得る(バリアントコード配列を含み得る)。ペプチド配列は、ペプチド内のアミノ酸の順序付きセット(例えば、ネオ抗原)を同定することができる。ペプチド配列は、ペプチドのエピトープ(例えば、バリアントを含む、及び/又はネオエピトープを含む、又はネオエピトープである)内のアミノ酸を同定することができる。いくつかの実施形態において、ペプチド配列は、Nフランク配列(例えば、対応するペプチドのN末端におけるアミノ酸の鎖を特徴付けること)又はCフランク配列(例えば、対応するペプチドのC末端におけるアミノ酸の鎖を特徴付けること)も含む集約配列内にある。NフランクもCフランクもMHC分子に結合しないが、それぞれがMHC分子によって提示されるかどうかに影響を及ぼし得る。
訓練MHC配列データは、訓練用の1つ以上のMHC配列を含み得る。MHC配列は、例えば、MHC分子の一部又は全部(例えば、MHC-I分子又はMHC-II分子)内のアミノ酸を同定し得る。MHC配列は、MHC疑似配列(例えば、34個のアミノ酸を含む)を含み得る。MHC配列は、例えば、MHC-Iについては1、2、3、4、5若しくは6個のMHC対立遺伝子、又はMHC-IIについては1、2、3、4、5、6、7、8、9、10、11、12個のMHCアロタイプ内のアミノ酸を同定することができる。MHC配列は、HLA分子の一部又は全部を構成するアミノ酸を同定することができる。
訓練免疫学的活性データは、例えば、1つ以上のペプチド-MHC組み合わせについての1つ以上の相互作用指標を含み得る。例えば、訓練データセットは、各訓練要素が訓練のためのペプチド配列及びMHC配列、並びに対応するペプチド-MHC組み合わせについての1つ以上の相互作用表示を含む訓練要素を含み得る。相互作用指標は、標的相互作用(例えば、ペプチドとMHCとの結合、MHCによる細胞表面上のペプチドの提示)がペプチドとMHCとの間で生じるか、又は標的相互作用に対する親和性を示し得る。
相互作用指示は、例えば、標識であってもよい。陰性相互作用標識は、ペプチドがMHC分子に結合しない及び/又はMHC分子によって提示されないことを示し得る。陽性相互作用標識は、ペプチドがMHC分子に結合する及び/又はMHC分子によって提示されることを示し得る。さらに、相互作用標識は、ペプチドがMHC分子に結合する確率、MHC分子が細胞表面にペプチドを提示する確率、ペプチド-MHCの組み合わせに対する結合親和性、ペプチドとMHC分子との間の結合の強度、ペプチドとMHC分子との間の結合の安定性、ペプチドがMHCと結合する傾向、又はMHCとペプチドとの間の相互作用に関連する別のメトリック若しくは特徴を示し得る。
訓練データセットは、例えば、in vitro又はin vivo実験によって、及び/又は医療記録に基づいて生成されていてもよい。訓練データは、以下のセクションII.Eに開示される1つ以上の技術に基づいて生成されていてもよい。
訓練データセットにアクセスすることは、例えば、ローカル又はリモートストレージから訓練データセットを検索すること、訓練データセットをロードすること、及び/又は1つ以上のデータストア(例えば、クラウドデータストレージ、サーバシステム、又は何らかの他のデータソース)から訓練データセットの一部若しくは全部を要求すること(及び受信すること)を含むことができる。
場合によっては、初期訓練データセット(例えば、バリアントコード配列を含む)は、配列組み合わせの比較的小さな部分(例えば、ペプチド-MHCの組み合わせ)が実際の標的相互作用と関連付けられていることが判明しているという点で、主に陰性データを含み得る。訓練データセットは、陰性的訓練データ要素を含むように設計されてもよい。いくつかの実施形態において、陰性訓練データ要素は、陽性セット(観察された提示に対応する)中の起源タンパク質の擬似ランダムに選択された断片内のアミノ酸を同定するために定義され得る。例えば、陰性訓練データ要素は、陽性セットに基づいてシミュレートされてもよい。断片は、所定の範囲(例えば、均一な確率を使用して、MHC-Iについては8~14アミノ酸及びMHC-IIについては8~30アミノ酸)内の長さを有するように選択されてもよい。N末端及びC末端フランク配列は、潜在的に最大長(例えば、10個のアミノ酸)を課す陰性訓練データ要素内に保持され得る。陽性ペプチドと重複した任意のペプチド断片(例えば、少なくとも9-mer)は、陰性訓練データから廃棄することができる。
様々な実施形態において、陰性訓練データ要素は、陽性データ要素に基づいてシミュレートされる。さらに、訓練データは、訓練期間のエポックごとに異なるセットの陰性訓練データ要素が使用されるように選択される。例えば、各エポックについて、陰性ペプチド配列の異なる「陰性サブセット」が、ペプチド配列の陽性セットに基づいて同定された利用可能な陰性ペプチド配列の全空間から選択され得る。各エポックに対して選択される陰性サブセットは、陰性ペプチド配列が、エポックの総数に対して陰性サブセットのいずれにおいても繰り返されないという点で、特有であり得る。したがって、訓練期間の各エポックに使用される訓練データは、ペプチド配列の同じ陽性セットを含むが、陰性ペプチド配列の全く異なるセットを含む。「陰性セット切り替え」と呼ばれることがあるこの技術は、訓練に全体的なロバスト性を提供することができ、機械学習モデルによって偽陰性(例えば、偽陰性の徴候/予測)の数を減らすことを確実にするか、又は偽陰性が複数回繰り返されないことを確実にするのに役立つ。さらに、この技術では、機械学習モデルは、訓練期間中のエポックの数を乗じた陽性ペプチド配列の数に等しい陰性ペプチド配列の総数で訓練され得る。
工程1004は、訓練データセットを使用して機械学習モデルを訓練することを含む。機械学習モデルは、例えば、図1及び3の機械学習モデル132であってもよく、又は機械学習モデルは、例えば、図4A~4Cの機械学習モデル400であってもよい。
機械学習モデル132は、静的又は動的学習率を使用して訓練することができる。動的学習率は、例えば、学習率アニーリングを用いて生成することができる。訓練は、例えば、分類損失関数及び/又は回帰損失関数を使用して実行することができる。損失関数は、例えば、平均二乗誤差、中央二乗誤差、平均絶対誤差、中央絶対誤差、エントロピーベースの誤差、交差エントロピー誤差、及び/又はバイナリ交差エントロピー誤差に基づくことができる。検証データ(例えば、機械学習モデル132を訓練するために使用される訓練データセットの分離されたサブセット)は、訓練されているときの機械学習モデル132の性能を評価するために使用することができる。目標性能が得られた場合、及び/又は最大訓練反復回数が完了した場合、及び/又は目標性能が得られた場合、訓練を終了することができる。
工程1006は、変異ペプチドのセットに対応するバリアントコード配列の対象特異的セットにアクセスすることを含む。上述したように、バリアントコード配列はペプチド配列の一例である。バリアントコード配列の対象特異的セットは、変異ペプチドのセットに対応することができ、その結果、バリアントコード配列の対象特異的セットの各々は、変異ペプチドのセットの対応する変異ペプチド内のアミノ酸を同定し、及び/又はバリアントコード配列の対象特異的セットの各々は、変異における1つ以上のアミノ酸を同定する。バリアントコード配列の対象特異的セットの各々は、特定の対象(例えば、ヒト対象)と関連付けることができる。特定の対象は、症候を診断されたことがあってもよく、症候を有し得る、及び/又は症候を経験したことがあってもよく、及び/又は特定の病状(例えばがん)と関連する検査結果を受信したことがあってもよい。例えば、バリアントコード配列の対象特異的セットは、腫瘍由来の試料を処理することによって同定されていてもよい。試料は、例えば、図1の試料112のセットであってもよく、又はその中に含まれてもよい。
バリアントコード配列の対象特有のセットは、本明細書に開示される技術(例えば、セクションII.D)を使用して同定され得る。例えば、対象特異的な一組のバリアントコード配列決定は、疾患試料中のペプチドを同定するための配列決定技術を実施し、同定されたペプチドを健康な試料又は参照データベースで検出されたペプチドと比較して固有の配列を同定することによって同定されていてもよい。いくつかの実施形態において、固有の配列が核酸配列である場合、各固有の核酸配列はアミノ酸配列に変換され得る。
バリアントコード配列の対象特異的セットのそれぞれは、ペプチド内のアミノ酸(ネオ抗原のネオエピトープ内のアミノ酸であり得る)を同定することができる。場合によっては、バリアントコード配列の1つ、複数、又は全ての対象特異的セットは、ペプチドのNフランクの配列及び/又はペプチドのCフランクの配列を更に含む対応する集約配列の一部であり得る。
バリアントコード配列の対象特異的セットにアクセスすることは、例えば、ローカル又はリモートストレージからバリアントコード配列の対象特異的セットを取得すること、及び/又は別のデバイスからバリアントコード配列の対象特異的セットを要求することを含むことができる。バリアントコード配列の対象特異的セットにアクセスすることは、バリアントコード配列の対象特異的セットを決定することを含むことができ、及び/又はそれと組み合わせて実行することができる。
対象特異的なバリアントコード配列セットは、対象の疾患試料内のペプチド配列を同定し、どのペプチド配列が参照、健康試料及び/又は野生型配列セット内に表されていないかを決定することによって得られたものであり得る。健康な試料が比較のために使用される場合、健康な試料は、対象から収集されていてもよい(しかし、収集されている必要はない)。
工程1008は、MHCに対応するMHC配列にアクセスすることを含む。MHC配列は、例えば、対象から収集された試料内のMHC(例えば、MHC分子)の疑似配列を含み得る。いくつかの例では、MHC配列及びバリアントコード配列の対象特異的セットは、対象からの同じ試料又は対象からの複数の試料(例えば、疾患試料及び健康な試料)から同定される。いくつかの例では、MHC配列及びバリアントコード配列の対象特異的セットは、対象及び1人以上の他の対象からの試料から同定される。したがって、場合によっては、MHC配列は、対象特異的であり得る。MHC配列は、例えば、配列決定及び/又は質量分析技術を使用して決定されてもよく、又は決定されていてもよい。
MHC配列にアクセスすることは、例えば、局所若しくは遠隔記憶デバイスからMHC配列を回収すること、及び/又は別のデバイスから対象特異的MHC配列を要求することを含み得る。MHC配列へのアクセスは、MHC配列の決定を含み得る、及び/又はMHC配列の決定と組み合わせて実施され得る。
工程1010は、例えば、訓練された機械学習モデルを使用して対象特異的バリアントコード配列のセット及びMHC配列を処理して、出力を生成することを含む。工程1010は、出力を生成するために、対象特異的バリアントコード配列のセットの対象特異的バリアントコード配列とMHC配列との各固有の組み合わせ(例えば、バリアントコード-MHC組み合わせ又はペプチド-MHC組み合わせ)を処理することを含み得る。
機械学習モデルによって生成された出力は、機械学習モデルを訓練するために使用される訓練免疫活動データに含まれるのと同じ又は類似のタイプのデータを含むことができる。各特有の組み合わせごとに、機械学習モデルは、相互作用予測のセット又は相互作用親和性予測のセットのうちの少なくとも1つを含む出力を生成する。
相互作用予測のセットにおける相互作用予測は、バリアントコード配列を含む変異ペプチドとMHC配列を含むMHCとの間の標的相互作用が起こるかどうかに関する予測を含む。例えば、相互作用予測は、対象特異的バリアントコード配列によって示されるアミノ酸構造を有する変異ペプチドが、MHC配列によって示されるアミノ酸構造を有するMHC分子によって提示される及び/又はMHC分子に結合するかどうかとしてのバイナリ又はカテゴリ予測を含み得る。相互作用親和性予測のセットにおける相互作用親和性予測は、標的相互作用に対する親和性に関する予測を含む。この親和性は、例えば、標的相互作用の強度、傾向及び/又は安定性に基づいて定義され得る。例えば、相互作用親和性予測は、対象特異的バリアントコード配列内で同定されたアミノ酸を含む変異ペプチド、及びMHC配列内で同定されたアミノ酸を含むMHC分子に関連する予測された実数結合親和性を含み得る。
工程1012は、機械学習モデルの出力に基づいてレポートを生成することを含む。レポートを、例えば、図1及び3のレポート144のように実施することができる。レポートは、出力であってもよく、又は出力を含んでもよい。場合によっては、レポートは、出力の変換された又はフィルタにかけたバージョンであってもよい。
1つ以上の実施形態において、バリアントコード配列の対象特異的セットは、出力に基づいてフィルタにかけられ、ランク付けされ、及び/又は他の方法で処理されて、レポートに含めるための情報を生成する。例えば、バリアントコード配列の対象特異的セットをフィルタにかけて、予測された相互作用親和性(例えば、結合親和性)が所定の親和性閾値を下回った配列及び/又は標的相互作用(例えば、MHC分子による提示又はMHC分子への結合)が起こらないか又は起こる可能性が低いと予測された配列を除外することができる。いくつかの例では、バリアントコード配列の対象特異的セットの所定の数及び/又は割合を識別するためにフィルタリングが実行される。例えば、フィルタリングを行って、変異ペプチドがMHC分子に結合する及び/又はMHC分子によって提示されるかどうかに関して比較的高い予測確率(例えば、バリアントコード配列の対象特異的セット内の選択されていないバリアントコード配列に対して)に関連する10、20、40、60、80、100、500又は1,000個のバリアントコード配列を同定することができる。
レポートは、1つ以上のバリアントコード配列(例えば、セットから除外されなかったもの)及び/又は1つ以上の変異ペプチド(例えば、選択されたバリアントコード配列に関連する)を同定し得る。変異ペプチドは、例えば、その名称、その配列によって、及び/又は対応する野生型配列とバリアントコード配列で表される変異体の両方を同定することによって同定され得る。
レポート、いくつかの実施形態において、1つ以上のバリアントコード配列又は1つ以上の変異ペプチドに関連する1つ以上の予測を同定し得る。レポートは、対象の名前を含んでもよい。レポートは、例えば、ローカルに(例えば、ユーザ装置のディスプレイシステム上に表示するために、ユーザ装置上の通知として送られる等)提示され、及び/又は別のデバイスに(例えば、クラウドコンピューティングシステムに送られる、クラウドストレージに送られる、医療専門家又は検査専門家に関連付けられたユーザ装置に送られる、電子メールとして送信される等)送信され得る。
図11は、1つ以上の実施形態による訓練データの表を含む図である。表1100は、訓練データ1102(例えば、訓練データセット)を含む。訓練データ1102は、図1の訓練データ133の一部の一例であってもよい。訓練データ1102は、図11の工程1002で説明された訓練データセット等の訓練データセットの一部の一例であってもよい。
訓練データ1102は、対立遺伝子識別子1106、訓練Nフランク配列1108、訓練ペプチド配列1110、訓練Cフランク配列1112、訓練MHC配列1114(例えば、MHC疑似配列)、結合親和性1116、及び提示指示1118を含む。結合親和性1116は、訓練ペプチド配列1110によって特徴付けられるペプチド及び訓練MHC配列1114によって特徴付けられるそれぞれのMHCの結合についての検出された(例えば、観察される)結合親和性を示す。提示の指示1118は、MHCによるペプチドの結合又は提示が検出された(又は観察された)かどうかを示す。
図12は、1つ以上の実施形態によるネオ抗原候補及び対応する潜在的ネオエピトープ候補の図である。プロセス1000等のプロセスが実施される場合、変異ペプチドはネオ抗原であり得る。
ネオ抗原候補1200である比較的長い変異ペプチドの場合、全て同じ変異又はバリアントを含む複数のエピトープ(ネオエピトープと呼ばれる)がMHC分子によって提示され得る可能性がある。したがって、ネオエピトープ候補1202のそれぞれについて生成された予測に基づいて、ネオ抗原候補の免疫原性を予測することができる。
免疫原性は、例えば、所与のネオ抗原から出現し得る全ての可能なネオエピトープのリストを生成し、リスト中のネオエピトープ候補(フランクがエピトープのN末端の上流及びC末端の下流の残りのアミノ酸を構成し、最大10アミノ酸長)のいくつか又は全てのそれぞれについて予測を生成することによって予測することができる。これらの提示予測から、MHC候補1204に対して提示尤度が最大のネオエピトープ候補が、ネオ抗原全体を表すように選択される。或いは、複数の候補ネオエピトープ-MHC対の要約された表現を使用して、ネオ抗原を表す要約されたスコアを得ることができる。そのような要約は、全ての候補ネオエピトープ-MHC対を考慮することによって、又はMHCごとに最良のネオエピトープを考慮し、次いで全てのMHC分子にわたって要約することによって行われ得る。要約は、例えば、各候補ネオエピトープ-HLA対の提示又は結合親和性スコアの算術平均又は調和平均をとることを含むいくつかの数学的関数によって行うことができる。
図12はネオ抗原及びネオエピトープに関して記載されているが、変異又はバリアントを含有し、複数の可能なエピトープ候補を有する他のタイプの比較的長い変異ペプチドにも同様の技術が使用され得る。いくつかの実施形態において、この技術は、抗体薬物配列と併せて使用され得る。
II.C.2.例示的な方法論:ペプチド及びTCR
図13は、1つ以上の実施形態による、機械学習モデルを訓練し、訓練された機械学習モデルを使用してペプチド及びTCRに関する予測を生成するためのプロセスのフローチャートである。プロセス1300は、図1の予測システム130を使用して実行することができる。例えば、プロセス1300は、図1及び3の機械学習モデル132、又は図4A~4Cの機械学習モデル400を使用して実施することができる。場合によっては、プロセス1300の一部又は全部は、ユーザ装置及び/又は研究所に対して遠隔にあるリモートコンピューティングシステムで実行されてもよい。遠隔コンピューティングシステムは、クラウドコンピューティングシステムであってもよい。工程1302~1312は、図10の工程1002~1012と同様の方法で、但しTCRに関して実施されてもよい。
図13は、1つ以上の実施形態による、機械学習モデルを訓練し、訓練された機械学習モデルを使用してペプチド及びTCRに関する予測を生成するためのプロセスのフローチャートである。プロセス1300は、図1の予測システム130を使用して実行することができる。例えば、プロセス1300は、図1及び3の機械学習モデル132、又は図4A~4Cの機械学習モデル400を使用して実施することができる。場合によっては、プロセス1300の一部又は全部は、ユーザ装置及び/又は研究所に対して遠隔にあるリモートコンピューティングシステムで実行されてもよい。遠隔コンピューティングシステムは、クラウドコンピューティングシステムであってもよい。工程1302~1312は、図10の工程1002~1012と同様の方法で、但しTCRに関して実施されてもよい。
工程1302は、訓練ペプチド配列データ、訓練TCR配列データ、及び訓練免疫学的活性データを識別する訓練要素を有する訓練データセットにアクセスすることを含む。訓練TCR配列データは、訓練用の1つ以上のTCR配列を含み得る。TCR配列は、例えば、TCR分子の一部又は全部内のアミノ酸を同定し得る。
訓練免疫学的活性データは、例えば、1つ以上のペプチド-TCRの組み合わせ及び/又は1つ以上の免疫原性予測についての1つ以上の相互作用指標を含み得る。免疫原性予測は、TCRに対するペプチドの免疫原性を予測することができる。例えば、訓練データセットは、バリアントコード配列によって同定されるアミノ酸を有する変異ペプチドが免疫学的応答(例えば、変異ペプチドが免疫原性であるかどうか)を誘因したかどうかを示す相互作用標識を含み得る。免疫原性は、変異ペプチドがT細胞受容体(例えば、CD8+細胞傷害性Tリンパ球又はCD4+ヘルパーT細胞の受容体)を活性化し、及び/又は免疫学的応答を誘因したことを示し得る。
訓練データセットは、例えば、試料(例えば、1つ以上の樹状細胞)中に様々な変異ペプチドを発現させること、及び/又は免疫化及び/又はワクチンによって様々な変異ペプチド(例えば、試料に対して、又は試料がその後に収集された対象に対して)を導入することによって生成されていてもよい。変異ペプチドは、個別に(例えば、それにより、各実験を単一の変異ペプチドに集中させる)又はグループで発現又は導入されていてもよい。
免疫原性は、例えば、腫瘍浸潤細胞を分析することによって試験されていてもよい。例えば、変異ペプチドのエピトープが検出され(例えば、閾値を超える量で)、インターフェロンガンマ(IFN-γ)又はT細胞免疫グロブリンムチン-3(TIM-3)の測定されたレベルが対応する閾値を超え、細胞傷害性T細胞の検出された量(例えば、変異ペプチドに対応するエピトープを提示する一般的又は細胞傷害性T細胞)が対応する閾値を超え、及び/又は少なくとも閾値程度のアポトーシスが観察される場合、変異ペプチドは免疫学的応答を誘因した(したがって、免疫原性である)と判定され得る。別の例として、変異ペプチドは、試料中で発現されていてもよい(例えば、1つ以上樹状細胞)。例えば、提示されたペプチドがその後T細胞によって認識されると決定される場合、変異ペプチドが免疫学的応答を誘因した(したがって、免疫原性である)と決定されている可能性がある。いくつかの実施形態は、訓練データセット(例えば、本明細書に開示される1つ以上の実験及び/又は分析を行うことによって)の少なくとも一部を収集及び/又は決定することを含むことが理解されよう。
訓練データセットにアクセスすることは、例えば、ローカル又はリモートストレージから訓練データセットを検索すること、訓練データセットをロードすること、及び/又は1つ以上のデータストア(例えば、クラウドデータストレージ、サーバシステム、又は何らかの他のデータソース)から訓練データセットの一部若しくは全部を要求すること(及び受信すること)を含むことができる。
工程1304は、訓練データセットを使用して機械学習モデルを訓練することを含む。機械学習モデルは、例えば、図1及び3の機械学習モデル132であってもよく、又は機械学習モデルは、例えば、図4A~4Cの機械学習モデル400であってもよい。
工程1306は、変異ペプチドのセットに対応するバリアントコード配列の対象特異的セットにアクセスすることを含む。
工程1308は、TCRに対応するTCR配列にアクセスすることを含む。いくつかの例では、TCR配列及びバリアントコード配列の対象特異的セットは、対象からの同じ試料又は対象からの複数の試料(例えば、疾患試料及び健康な試料)から同定される。いくつかの例では、TCR配列及びバリアントコード配列の対象特異的セットは、対象及び1人以上の他の対象からの試料から同定される。したがって、場合によっては、TCR配列は、対象特異的であり得る。TCR配列は、例えば、配列決定及び/又は質量分析技術を使用して決定されてもよく、又は決定されていてもよい。
TCR配列にアクセスすることは、例えば、局所若しくは遠隔記憶デバイスからTCR配列を回収すること、及び/又は別のデバイスから対象特異的TCR配列を要求することを含み得る。TCR配列へのアクセスは、TCR配列の決定を含み得る、及び/又はTCR配列の決定と組み合わせて実施され得る。
工程1310は、例えば、訓練された機械学習モデルを使用して対象特異的バリアントコード配列のセット及びTCR配列を処理して、出力を生成することを含む。工程1310は、出力を生成するために、対象特異的バリアントコード配列のセットの対象特異的バリアントコード配列とTCR配列との各固有の組み合わせ(例えば、バリアントコード-TCR組み合わせ又はペプチド-TCR組み合わせ)を処理することを含み得る。
機械学習モデルによって生成された出力は、機械学習モデルを訓練するために使用される訓練免疫活動データに含まれるのと同じ又は類似のタイプのデータを含むことができる。各特有の組み合わせごとに、機械学習モデルは、免疫原性予測のセットを含む出力を生成する。免疫原性予測のセットにおける免疫原性予測は、変異ペプチドが免疫学的応答を誘因した(したがって、免疫原性である)かどうかを示し得る。場合によっては、免疫原性予測は免疫原性の程度を示す(例えば、低、中、高、非常に高い等)。
工程1312は、機械学習モデルの出力に基づいてレポートを生成することを含む。レポートを、例えば、図1及び3のレポート144のように実施することができる。工程1312は、図10の工程1012と同様の方法で実施することができる。
II.C.3.例示的な方法論:機械学習モデルを使用した訓練及び予測のための追加の検討事項
したがって、本明細書に記載の実施形態は、変異ペプチドであり得るペプチドに関連する免疫学的活性の予測を生成するために使用することができる機械学習モデルを提供する。変異ペプチドを特徴付けるペプチド配列、例えば、バリアントコード配列は、ペプチドとIPCとの間の1つ以上の標的相互作用(目的の相互作用)及び/又はペプチドが免疫応答を誘発する能力に関する1つ以上の予測を生成するために、IPCを特徴付けるIPC配列を用いて機械学習モデルによって分析され得る。したがって、機械学習モデルによって生成された出力は、1つ以上の標的相互作用及び/又はペプチドの免疫原性に関する情報を提供する1つ以上の結果を含み得る。
したがって、本明細書に記載の実施形態は、変異ペプチドであり得るペプチドに関連する免疫学的活性の予測を生成するために使用することができる機械学習モデルを提供する。変異ペプチドを特徴付けるペプチド配列、例えば、バリアントコード配列は、ペプチドとIPCとの間の1つ以上の標的相互作用(目的の相互作用)及び/又はペプチドが免疫応答を誘発する能力に関する1つ以上の予測を生成するために、IPCを特徴付けるIPC配列を用いて機械学習モデルによって分析され得る。したがって、機械学習モデルによって生成された出力は、1つ以上の標的相互作用及び/又はペプチドの免疫原性に関する情報を提供する1つ以上の結果を含み得る。
いくつかの実施形態において、1つ以上のバリアントコード配列は、本明細書に記載の1つ以上の機械学習モデルからの結果に基づいて、バリアントコード配列の対象特異的セットから選択することができる。入力データは、MHC配列及び変異ペプチドに対応するバリアントコード配列の表現を含み得る。機械学習モデルは、どのペプチドがMHC分子によって提示されるかを示す結合親和性データ及び質量分析溶出データを使用して訓練することができる。結合親和性データは、定性的データ(例えば、ELISA、プルダウンアッセイ及び/又はゲルシフトアッセイ、蛍光共鳴エネルギー移動アッセイ及び質量分析アッセイを用いて決定される場合)、又は定量的データ(例えば、表面プラズモン共鳴、等温滴定比色法、バイオレイヤー干渉法又はマイクロスケール熱泳動等のバイオセンサベースの方法論を使用して)を含み得る。いくつかの例において、結合親和性データは、競合結合アッセイからのデータ、免疫エピトープデータベースからのデータ及び/又は免疫エピトープデータベースにあるタイプのデータを含み得る。溶出データは、ペプチド-MHC免疫沈降を使用して収集し、続いて溶出し、質量分析によって提示されたMHCリガンドを検出することができる。訓練データは、「陽性」インスタンス(質量分析結果が、ペプチドがMHC分子によって提示されたことを示す)、及び「陰性」インスタンス(例えば、シミュレートされた長さが一致するn-mer(nmer)に対応する)が含まれ、これらは陽性例と同じタンパク質由来であるが、質量分析評価では検出されなかった。
場合によっては、訓練データ内の陽性インスタンスの数は、訓練データ内の陰性スタンスの数に等しい。場合によっては、陽性インスタンスの数は陰性インスタンスの数よりも少ないか又は多い。訓練データ内の陰性インスタンスの1つ、複数、又は全ての各々は、訓練データ内の陽性インスタンスと長さが一致してもよい。場合によっては、訓練データ内の配列の全てが同じ長さを有する。
配列の一部又は全部は、例えば、データエンコーディングを使用して表され得る。エンコーディングは、既知の及び/又は静的な規則又は技術に従って、及び/又は訓練されたネットワークを使用して実行することができる。例えば、エンコーディングは、各コード配列が、配列の各位置及び(例えば、21)アミノ酸のセットのそれぞれについて、特定のアミノ酸がその位置に存在するかどうかを示すように、ワン・ホット・エンコーディングを含み得る。或いは、BLOSUM等の進化的に動機付けられたエンコーディング、又は学習された符号化が、配列内のアミノ酸を表すために使用され得る。エンコーディングは、位置エンコーディング(例えば、学習された又は固定されたエンコーディング)を含むことができる。
場合によっては、機械学習モデルは、シーケンス処理に使用される1つ以上のニューラルネットワークを含む。ニューラルネットワーク(複数可)は、更に又は代替的に、例えば、エンコーダニューラルネットワーク及び/又は変換器ネットワークの一部若しくは全部を含むことができる。
機械学習モデルは、注意ベースであり、コンボリューション層を欠いており、及び/又は回帰層を欠いている1つ以上のニューラルネットワークを含む注意ベースの機械学習モデルを含むことができる。注意ベースの機械学習モデルは、注意ベースではない、1つ以上のコンボリューション層を含む、及び/又は1つ以上の回帰層を含む1つ以上の他のニューラルネットワークを更に含むことができる(が、そうである必要はない)。
注意ベースのネットワークは、クエリ重みのセット、キー重みのセット、及び値重みのセットを使用して、所与のアミノ酸表現について、所与のアミノ酸表現を処理するときに1つ以上の他のアミノ酸表現のそれぞれが「注意」されるべき程度を決定することができる。自己注意層は、例えば、エンコーダ又はデコーダがエンコーダ又はデコーダの前の層の全ての位置に対応することができるように、同じ層からのキー、値、及びクエリを使用することができる。
所与の変異ペプチドが特定のMHC分子に結合する及び/又は特定のMHC分子によって提示されるかどうかを予測する場合、1つ以上の変換機エンコーダは、バリアントコード配列及び/又はMHC配列の異なる部分又は全ての表現を別々に処理することができる。各変換器エンコーダは、自己注意層及びフィードフォワード層を含むことができる。各注意層は、例えば、位置及び/又は非位置埋め込みを実行するように構成された1つ以上埋め込み構成要素を更に含むことができる。場合によっては、変異ペプチドのNフランク領域、変異ペプチドのエピトープ領域、変異ペプチドのCフランク領域、及びMHC分子のそれぞれの配列は、変換器エンコーダの異なる反復で別々に処理される。配列のコード化表現は、配列中の各アミノ酸について、そのアミノ酸を表す特徴ベクトルを含み得る。次いで、配列のコード化表現を連結し、変換器エンコーダの更に別の反復に供給することができる。したがって、連結は、バリアントコード配列の一部又は全部における各アミノ酸及びMHC配列の全部又は一部に対する特徴ベクトルを含み得る。
1つ以上追加の特徴ベクトルが連結に含まれてもよい。追加の特徴の各々は、例えば、特徴ベクトルにランダム又は擬似ランダムな値を割り当てられてもよい。連結表現(例えば、追加の特徴ベクトル(複数可)を含む)は、コード化連結表現を生成するために追加の変換器エンコーダによって処理されてもよい。配列の組み合わせのこのコード化表現は、ドロップアウト及び/又はバッチ正規化が適用され得るフィードフォワードネットワーク(例えば、完全結合ニューラルネットワーク)によって処理され得る。場合によっては、追加の特徴ベクトル(複数可)のコード化表現(複数可)は、フィードフォワードネットワークに選択的に渡される(例えば、これに対して、MHC分子及び/又は変異ペプチドの個々のアミノ酸に対応する特徴ベクトルはそうではない)。例えば、MHC分子の部分配列がx1のアミノ酸を含み、変異ペプチド(例えば、及び1つ以上のフランク)の部分配列がx2個のアミノ酸を含み、特徴変換が各アミノ酸を表すyの特徴値を識別すると仮定する。したがって、1つの追加の特徴ベクトルを含む連結表現は、[(x1+x2+1),y]のサイズを有し得る。フィードフォワードネットワークに供給される入力は、フィードフォワードネットワークによる処理のために1つの特徴ベクトルが選択される場合、[1,y]のサイズを有することができる。追加要素のアプローチを使用する利点は、モデルが可変長の配列を処理できることである。
フィードフォワードネットワークによって生成される結果は、変異ペプチドとMHC分子との間の結合親和性(例えば、対象のMHC分子)及び/又は変異ペプチドがMHC分子によって提示されるかどうかに関する予測に対応し得る。結合親和性予測は、例えば、数値(例えば、変異ペプチドがMHC分子に結合する予測確率、予測結合強度及び/又は予測結合安定性に対応する)、カテゴリ(例えば、変異ペプチドとMHC分子との間の結合安定性がない、低い、又は高いと予測すること)、又はバイナリ(例えば、変異ペプチドがMHC分子に結合するかどうかを予測すること)であり得る。
変異ペプチドに関連して生成される提示予測は、例えば、数値(例えば、対象のMHC分子が変異ペプチドを細胞表面に提示する予測確率、又は変異ペプチドを提示する対象の腫瘍細胞の予測画分に対応する)、カテゴリ(例えば、対象のMHC分子による変異ペプチドの提示がない、稀である、又は頻繁であると予測すること)、又はバイナリ(例えば、変異ペプチドが対象のMHC分子によって発現されるかどうかを予測すること)であり得る。提示予測は、正規化され、及び/又は条件付き予測を表すことができる(但し、そうである必要はない)。例えば、提示予測は、変異ペプチドがMHC分子に安定に結合している場合、対象のMHC分子が変異ペプチドを提示するかどうかに関する予測に対応し得る。
場合によっては、機械学習モデルは、変異ペプチドとMHC-I分子との間の1つ以上の潜在的相互作用に対応する予測を生成する。例えば、機械学習モデルは、MHC-I分子と変異ペプチドとの結合親和性及び/又はMHC-I分子が変異ペプチドを提示するかどうかを予測することができる。機械学習モデルは、入力として、MHC-I分子の配列又は部分配列、及び変異ペプチドに関連するバリアントコード配列を受信し、処理(例えば、1つ以上の自己注意層を使用する)し得る。
場合によっては、機械学習モデルは、変異ペプチドとMHC-II分子との間の1つ以上の潜在的相互作用に対応する予測を生成する。例えば、機械学習モデルは、MHC-II分子及び変異ペプチドに対する結合親和性及び/又はMHC-II分子が変異ペプチドを提示するかどうかを予測することができる。機械学習モデルは、入力として、MHC-II分子の配列又は部分配列及び変異ペプチドのバリアントコード配列を受信し、処理(例えば、1つ以上の自己注意層を使用する)し得る。
場合によっては、機械学習モデルは、変異ペプチド、MHC配列又は部分配列、及びT細胞受容体(例えば、変異ペプチドとMHC分子との間の1つ以上の潜在的な相互作用に対応する予測を生成することの代わりに、又はそれに加えて)の間の1つ以上の潜在的相互作用に対応する予測を生成する。次いで、機械学習モデルは、例えば、変異ペプチドとT細胞受容体との間の結合親和性、及び/又は変異ペプチドがT細胞において免疫学的応答を活性化及び/又は誘因するかどうかを予測することができる。機械学習モデルは、入力として、T細胞受容体の配列又は部分配列、MHCの配列又は部分配列、及び変異ペプチドのバリアントコード配列を受信し、処理(例えば、1つ以上の自己注意層を使用する)し得る。
変異ペプチド(例えば、特定の対象に関連して)の免疫原性は、本明細書に開示される機械学習モデルによって生成された1つ以上の結果に基づいて予測することができる(例えば、注意ベースの機械学習モデル)。例えば、機械学習モデルの結果が、変異ペプチドがMHC分子との結合親和性が低いと予測した場合、対象の疾患試料から検出されたネオ抗原は免疫原性を誘因しないか、又は低い免疫原性を有すること;MHC分子が変異ペプチドを提示しないか、又は提示する可能性がないこと;及び/又は変異ペプチドがT細胞受容体による免疫学的応答を誘因しないことを予測することができる。変異ペプチドに関連して生成される免疫原性予測は、例えば、数値(例えば、免疫原性応答が変異ペプチドに応答して引き起こされる予測確率に対応する、及び/又は変異ペプチドに対する任意の免疫原性応答の予測強度に対応する)、カテゴリ(例えば、免疫学的応答がない、低い又は高いと予測すること)、又はバイナリ(例えば、所与の変異ペプチドが対象において免疫学的応答を誘因するかどうかを予測すること)であり得る。
予測される免疫原性は更に、1つ以上の免疫原性因子の予測及び/又は実験的適応症に基づいてもよい。免疫原性を決定する因子としては、i)変異ペプチド前駆体のタンパク質レベル;ii)変異ペプチド前駆体をコードする転写物の発現レベル;iii)イムノプロテアソームによる変異ペプチド前駆体の処理効率;iv)変異ペプチド前駆体をコードする転写物の発現のタイミング;v)T細胞受容体に対する変異ペプチドの結合親和性;vi)バリアントペプチド内の変異体アミノ酸の位置;vii)MHC分子に結合した場合の変異ペプチドの溶媒曝露;vii)MHC分子に結合した場合のバリアントアミノ酸の溶媒曝露;x)ペプチド中の芳香族残基の含有量;xi)野生型残基と比較した場合のバリアントアミノ酸の特性;及び/又はxii)変異ペプチド前駆体の性質;xiii)微生物ペプチドを知るための変異ペプチドの微生物類似性;xiv)野生型プロテオームに対する変異ペプチドの自己類似性又は非類似性、xv)野生型ペプチドの胸腺発現を含み得る。免疫原性因子は、更に又は加えて、変異ペプチドのタンパク質配列及び/又は長さ(例えば、バリアントコード配列内で同定されたアミノ酸の数によって示すものとして)及び/又は対象におけるMHC対立遺伝子の発現レベル(例えば、RNA-Seq又は質量分析によって測定される場合)を含み得る。
結合親和性予測及び/又は変異ペプチド提示が起こるかどうか(又はその確率)に関する予測(例えば、対象における1つ以上の腫瘍細胞及び/又は1つ以上のMHC分子)は、変異ペプチドのセット(例えば、対象からの疾患試料内で検出されたもの)のそれぞれについて、本明細書に開示される技術(例えば、注意ベースの機械学習モデルを使用して)に従って生成され得る。これらの予測は、セットの不完全なサブセット(例えば、セットの50%未満、セットの25%未満、セットの10%未満、セットの5%未満及び/又はセットの1%未満)を選択するために使用することができる。不完全なサブセットは、1つ以上の相対閾値(例えば、MHC分子との最も安定した結合及び/又は群内の他のものと比較して提示される最も高い尤度を有するセット内の変異ペプチドを同定するため)、又は1つ以上の絶対閾値を使用して選択することができる。例えば、選択された各変異ペプチドは、比較的強い親和性値(例えば、セット内の最良の50%、最良の25%、最良の10%又は最良の5%の親和性値の範囲内)及び/又は絶対的に強い親和性値(例えば、IC50値の場合、5000nM、1000nM又は500nM等の所定の閾値/カットオフよりも良好な親和性値を有する)を有するMHCとの結合親和性を有することができる。セットの不完全なサブセットは、所定の親和性値閾値/カットオフに関係なく、1、2、3、4、5、6、7、8、9、10又はそれ以上の変異ペプチドを含み得る。セットの不完全なサブセットは、20個以上のネオ抗原又は30個以上の変異ペプチドを含み得る。
選択された各変異ペプチドは、製造されてもよく、実験的に試験されてもよく(例えば、結合親和性、提示発生率及び/又は他の免疫学的因子を決定するため)、組成物に含まれてもよく(例えば、ワクチン及び/又は処置等の医薬組成物)、及び/又は対象に投与されてもよい。
結合親和性及び提示予測が生成される変異ペプチドのセットの各々は、特定の対象(例えば、特定のヒト対象)に関連する変異ペプチドを含み得る。変異ペプチドのセットの各々は、個体からの疾患特異的試料を使用して同定された疾患特異的免疫原性変異ペプチドであり得る。個々のバリアントコード配列は、疾患試料中の遺伝子及び/又は核酸配列(例えば、DNA、RNA及び/又はmRNA配列)を配列決定し、同定された各遺伝子及び/又は核酸配列を参照試料配列と比較することによって同定することができる。遺伝的配列及び/又は核酸配列内のコドンは、ペプチド中の対応するアミノ酸の存在を示す。特に、複数のコドンの各々は所与のアミノ酸をコードし得るので、核酸配列はアミノ酸配列を示すことができる(例えば、決定論的に)が、同じアミノ酸配列は他の核酸配列によってコードされ得る。
疾患試料において同定される配列のいくつかは、非疾患ペプチドに対応する非疾患配列であり得る。疾患特異的核酸配列及び/又は疾患特異的アミノ酸配列を同定するために、疾患特異的試料の配列決定の結果として検出される各配列について、配列が参照配列データセットにおいても同定されるかどうかを決定することができる。参照配列データセットは、配列が疾患(例えば、任意の疾患又は所与の疾患)を示さないか又は疾患に特徴的でないことが知られているか、推測されないか、又は仮定される参照配列のセットを含み得る。参照配列データセットは、例えば、疾患特異的試料が収集された同じ対象から収集された1つ以上の参照試料配列を配列決定すること、疾患又は疾患特異的試料に対応する疾患と診断されていない1つ以上の他の対象から収集された1つ以上の参照試料配列を配列決定すること、及び/又は特定の疾患に関連しない1つ以上の細胞株を配列決定することによって同定された配列を含み得る。場合によっては、参照配列データセットは、1つ以上の参照データリポジトリから収集された配列を含むことができる。疾患特異的試料に関連して検出されるが、参照配列データセットにおいて検出されない(又は予め定義された閾値未満の頻度で検出されない)配列は、バリアントコード配列(例えば、一般に、又は疾患特異的試料が収集された対象について)として分類することができる。
いくつかの例では、複数のバリアントコード配列を同定することができ(例えば、各々が疾患試料中で検出されているが、参照試料配列中には示されていない)、結合親和性及び/又は提示予測を予測するために、本明細書に開示される機械学習モデル(例えば、注意ベースの機械学習モデル)を使用して、複数のバリアントコード配列のそれぞれの表現を(例えば、個別に、順次に、及び/又は並行して)処理することができる。
疾患試料は、例えば、組織(例えば、固形腫瘍)、血液及び/又は細胞の集合(例えば、微細針吸引又は腹腔鏡検査を使用して収集され得るがん細胞)を含み得る。疾患試料は、例えば、肺がん、黒色腫、乳がん、卵がん、前立腺がん、腎臓がん、胃がん、結腸がん、精巣がん、頭頸部がん、膵がん、脳がん、B細胞リンパ腫、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ性白血病、及びT細胞リンパ性白血病、非小細胞肺がん、又は小細胞肺がんと診断された及び/又はそれらを有する対象から収集されたがん性細胞を含み得る。
場合によっては、最初の試料を疾患試料と別の残りの試料(例えば、廃棄され得るか、又は参照試料として使用され得る)とに分離する。参照試料は、一致した無病試料を含むことができる。疾患試料及び参照試料の各々は、同じ対象から収集されてもよく、及び/又は同じ若しくは類似の試料タイプ(例えば、組織型)を含んでもよく、又はそれらであってもよい。場合によっては、疾患試料は第1の対象(例えば、病状又は疾患が診断された人)から収集され、参照試料は異なる第2の対象(例えば、病状又は疾患が診断されていない人)から収集される。場合によっては、参照試料配列は、生物に関連する既知の遺伝子のデータベースから検索される。
訓練データは、1つ以上ペプチドの配列を、MHC分子に結合した各ペプチドがMHC分子によって提示されたかどうか、及び/又は免疫学的応答を誘因したかどうかに関する表示と共に更に含み得る。配列データを観察された提示及び/又は結合データと関連付ける訓練データを収集するために、疾患試料(及び潜在的に参照試料)を(別々に)処理して、MHC/ペプチド複合体(例えば、MHCに特異的な抗体を用いて免疫沈降を行うことによって)を単離する、及び/又は(例えば、クロマトグラフィー及び/又は質量分析を使用して)MHC分子からペプチドを溶出する(及びそれによって配列決定する)ことができる。いくつかの例では、MHCクラスI対立遺伝子及び/又はMHCクラスII対立遺伝子を含み得る、1つ以上のMHC対立遺伝子(例えば、疾患試料で検出されたもの)を発現するように操作された1つ以上の細胞株を配列決定することによって提示データを生成する際に使用するために、参照試料配列が同定される。1つ以上の細胞株は、1人以上の対象から得られた、又は誘導された1つ以上のヒト細胞株を含み得る。本明細書の目的のため、疾患試料を使用して同定されるが、参照試料配列のセットに表されないペプチド配列は、バリアントコード配列として同定され得る。
いくつかの実施形態において、訓練に使用するための免疫原性指標メトリックを収集することは、対象特異的MHC分子プロファイルを識別することができるHLAタイピング分析に基づくことができる。対象がヒトである場合、HLA複合体はヒトにおいてMHCタンパク質をコードする遺伝子複合体であるため、このプロファイルはヒト白血球抗原(HLA)プロファイルと呼ばれ得る。HLAタイピング分析は、対象からの試料(例えば、正常組織及び/又は非疾患試料)を使用して行うことができる。プロファイルは、PCRベースの配列決定、直接配列決定及び/又は次世代配列決定等の配列決定技術を使用して決定され得る。HLAタイピング分析は、例えば、高解像度タイピング(例えば、それは、細胞表面上に発現されないヌル対立遺伝子を示すことを除外する)又は対立遺伝子レベルのタイピング(例えば、正確なヌクレオチド配列HLA遺伝子決定を指す)を含み得る。HLAタイピング分析は、対立遺伝子のより広いファミリーを同定する低分解能タイピング及び/又はHLAスーパータイピングを含み得る。
任意のタイプの配列決定(例えば、サンプル中の配列を同定するために、ペプチドがMHC分子に結合する、HLAタイピング)に関して、結果は、1つ以上の核酸配列又は1つ以上のアミノ酸配列を同定し得る。核酸配列が同定され、アミノ酸配列を処理するように注意ベースのモデル(又は他の処理)が構成されている場合、核酸配列内の個々のコドンを個々のアミノ酸に変換するために技術(例えば、ルックアップテーブル)が使用され得る。
いくつかの実施形態は、ペプチド(例えば、選択されたペプチド等のペプチドをコードする核酸配列を使用する工程)又は前駆体を選択されたペプチドに合成することを含む。次いで、合成されたペプチド又は前駆体を実験で使用して、対応する提示及び/又は結合データ(例えば、予測された提示及び/又は結合を検証するために、又は訓練に使用する結果を生成するため)を同定することができる。例えば、実験は、ELISAプルダウンアッセイ、ゲルシフトアッセイ、又はバイオセンサベースの方法論を使用して、選択されたペプチドと特定のMHC分子との結合親和性を評価することを含み得る。別の例として、実験は、ペプチド-MHC免疫沈降を使用することによって、選択されたペプチドがMHC分子によって提示されたかどうかを示す溶出データを収集し、続いて溶出及び質量分析による提示されたMHCリガンドの検出を含み得る。
個々のペプチドが個々のMHCに結合したか及び/又は個々のMHCによって提示されたかどうかを示す訓練又は検証データに加えて、又はその代わりに、訓練又は検証データは、個々のペプチドが免疫原性を誘因したかどうかを示し得る。免疫原性結果は、in vivo又はin vitro試験を使用して決定され得る。1つ以上の選択されたペプチドを試験することは、(例えば、所与の事象が発生するかどうか、及び/又は所与の事象が発生する程度を決定するため)1つ以上の免疫原性因子及び/又は(例えば、ペプチドが免疫学的応答を誘因するかどうか及び/又はその程度を決定するため)免疫原性を調べるように構成することができる。試験は、1つ以上のペプチドを含む組成物(例えば、ワクチン)の所与の対象(例えば、変異ペプチド選択中に使用されたMHC配列が同定されている)への投与が病状(例えば、腫瘍)又は疾患(例えば、がん)の予防又は処置に有効であるかどうかを調べるように構成することができる。対象はヒト対象であり得る。
いくつかの実施形態は、1つ以上の選択された変異ペプチド(又は1つ以上の選択された変異ペプチドをコードする複数の核酸)に基づく組成物を製造することを含む。例えば、1つ以上の選択された変異ペプチドのそれぞれは、対象のMHC分子に結合し、それによって提示されると予測されていてもよい(例えば、少なくとも閾値程度まで)。組成物は、1つ以上の選択された変異ペプチド、1つ以上選択された変異ペプチドに対する1つ以上の前駆体、1つ以上の選択された変異ペプチドに対応する1つ以上のポリペプチド配列、1つ以上の選択された変異ペプチドに対応するRNA(例えば、mRNA)、1つ以上の選択された変異ペプチドに対応するDNA、1つ以上の選択された変異ペプチド、及び/又はそのようなペプチドをコードする核酸(複数可)を含む細胞(例えば、抗原提示細胞)、1つ以上の選択された変異体ペプチドに対応するプラスミド、及び/又は1つ以上の選択された変異ペプチドに対応するベクターのそれぞれを含み得る。
組成物は、アジュバント、賦形剤、免疫調節剤、チェックポイントタンパク質、PD-1のアンタゴニスト(例えば、抗PD-1抗体)及び/又はPD-L1のアンタゴニスト(例えば、抗PD-L1抗体)を更に含み得る。組成物は、腫瘍ワクチン等のワクチンであり得る。組成物は、特定の対象のために製造又は選択された個別化ワクチンであり得る。
組成物は、ポリヌクレオチドコンストラクト(例えば、DNAコンストラクト又はRNAコンストラクト)を含み得る。ポリヌクレオチドコンストラクトは、標的組織又は細胞に「移植」され得る核酸の人工的に構築されたセグメントである。ポリヌクレオチドコンストラクトは、1つ以上の選択された変異ペプチドをコードするヌクレオチド配列を含むDNA又はRNA(例えば、mRNA)挿入を含む。抗原提示(例えば、MHC分子による1つ以上の選択された変異ペプチドの提示)を増加させるために、ポリヌクレオチドコンストラクトは、改善された抗原提示、したがって1つ以上の選択された変異ペプチドに対する改善された免疫原性のために開発された修飾を更に含み得る。いくつかの例では、修飾は、あらゆる目的のためにその全体が参照により本明細書に組み込まれる国際公開第2005038030号A1に記載されているように、MHC分子の鎖の膜貫通領域及び細胞質領域のポリヌクレオチドコンストラクトへの組み込みである。
安定性及び翻訳効率が増加したRNAインサートを提供するために、ポリヌクレオチドコンストラクトは、安定性及び翻訳の改善、したがって1つ以上の選択された変異ペプチドに対する免疫原性の改善のために開発された修飾を更に含み得る。いくつかの例では、改変は、参照によりその全体があらゆる目的のために本明細書に組み込まれる国際公開第2007036366号A2に記載されているように、ヒトβグロビン遺伝子の3’非翻訳領域の少なくとも2つのコピーを有する核酸配列のポリヌクレオチドコンストラクトへの組み込みである。他の例では、修飾は、国際公開第2017060314号A3に記載されているF1 3’UTR等の3’非翻訳領域をコードする核酸配列の組み込みであり、これはあらゆる目的のためにその全体が参照により本明細書に組み込まれる。
安定性及び発現が増加したRNA挿入を提供するために、ポリヌクレオチドコンストラクトは、安定性及び発現の改善、したがって1つ以上の選択された変異ペプチドに対する免疫原性の改善のために開発された修飾を更に含み得る。いくつかの例において、修飾は、RNAの末端におけるキャップ(例えば、5’-キャップ構造等)の組み込みである。キャップ構造は、国際公開第2011015347号A1に記載されているようなベータ-S-ARCAのD1ジアステレオマーであってもよく、これはあらゆる目的のためにその全体が参照により本明細書に組み込まれる。
抗原提示細胞に高い選択性でポリヌクレオチドコンストラクトを送達するために、組成物は、ポリヌクレオチドコンストラクトの取り込みを改善し、したがって1つ以上の選択された変異ペプチドに対する免疫原性を改善するためのカチオン性リポソーム又はリポプレックスを更に含み得る。いくつかの例において、組成物は、ポリヌクレオチドコンストラクト含むナノ粒子を含む。ナノ粒子は、あらゆる目的のためにその全体が参照により本明細書に組み込まれる国際公開第2013143683号A1に記載されているように、DOTMA及びDOPE等の1つ以上の脂質を含むリポプレックスであり得る。
いくつかの実施形態は、1つ以上の選択された変異ペプチドを含む有効量の組成物(例えば、ワクチン)を個体に投与することによって、個体における病状(例えば、腫瘍)又は疾患(例えば、がん)を処置することを含む。個体は、疾患試料を採取したのと同じ個体であってもよい。いくつかの例では、ワクチンは、疾患試料が採取された個体と比較して異なる個体に投与される。異なる個体は、例えば、疾患試料が収集された個体に関連していてもよく、特定のタイプのがんを発症する遺伝的リスクを有していてもよく、及び/又は疾患試料が収集された対象の1つ以上のMHC対立遺伝子と同じ(又は類似する)配列に対応する1つ、複数又は全ての対立遺伝子を有するMHC分子を有していてもよい。
いくつかの実施形態において、変異ペプチドのセット(例えば、対象の試料中で検出される)のそれぞれについて、変異ペプチドが対象のMHC分子に結合するかどうか(又はそのような結合の強度、安定性及び/若しくは発生率)を予測するため、及び/又は対象のMHC分子が変異ペプチドを提示するかどうか(及び/又はそのような提示の発生率)を予測するために、本明細書に開示される1つ以上の技術が使用される。予測は、変異ペプチドの不完全なサブセット(例えば、変異ペプチドのMHC提示が可能性が高いと予測される)を選択するために使用することができる。選択は、各変異ペプチドについて、予測メトリックに対応するメトリックを絶対閾値と比較すること、及び/又は他の変異ペプチドのメトリックの予測メトリックと比較すること(例えば、それによって相対比較を行うこと)を含み得る。選択された各変異ペプチドは、以下を同定することができる:腫瘍細胞表面に提示される可能性が高いこと;腫瘍特異的免疫応答を誘導することができる可能性が高いこと;プロフェッショナル抗原提示細胞(例えば、樹状細胞)によってナイーブT細胞に提示され得る可能性が高いこと;中枢性寛容又は末梢性寛容による阻害を受ける可能性が低いこと;及び/又は対象において正常組織に対する自己免疫応答を誘導することができる可能性が低いこと。
いくつかの実施形態は、MHC分子に結合し、腫瘍細胞の表面でMHC分子によって提示される可能性が高い1つ以上のペプチド(例えば、変異ペプチド)を同定するためのモデルを生成及び/又は使用することを含む。より具体的には、訓練データセットは、データ要素のセットを含むことができ、各データ要素は、エピトープ(又はペプチド)の配列(例えば、及び潜在的には、ペプチドのNフランク及びペプチドのCフランクの配列)、MHC分子の部分配列、並びにペプチド及びMHC分子に関する1つ以上の実験結果(例えば、結合親和性及び/又は溶出リガンド提示データ)を含む。
注意ベースの機械学習モデルは、訓練データセットの少なくとも一部を使用して訓練することができる。訓練データセットは、複数の訓練データ要素を含むことができる。各訓練データ要素は、配列及び結果(例えば、配列に対応するペプチドの少なくとも一部がMHC分子によって提示されるかどうか、及び/又は免疫原性を誘因するかどうかを示す)の表現を含むことができる。提示が検出されなかった訓練データ要素は、計算的に生成することができる。例えば、陽性セット中の各起源タンパク質(陽性溶出リガンド提示データに対応する)について、1つ、複数又は全ての可能なペプチド断片(例えば、8~11等の所定の長さ範囲内)を、各長さについて、潜在的に均一な確率で生成することができる。N末端及びC末端フランク配列は保持され得る(例えば、潜在的に最大長、例えば10アミノ酸を有する)。いくつかの例では、訓練データの陽性例で表される各対立遺伝子について、ペプチド断片(例えば、8~11の1つ、複数、又は全ての長さ)を生成することができる。生成及び/又はその後の選択は、所与の長さを有する配列の発生確率が長さにわたって均一になるように実行することができる。N末端及びC末端のフランク配列は、特定の最大長(例えば、10アミノ酸の最大長)で保持されていてもよく、又は保持されていてもよい。
注意ベースの機械学習モデルは、1、2、3、4、5、6、7、8又はそれ以上の変圧器エンコーダネットワーク(例えば、各々が1ヘッド注意及びフィードフォワードネットワークを含む)を含むことができる。例えば、注意ベースの機械学習モデルは、ペプチドの表現を処理するように構成された変換器エンコーダ、MHC分子の表現を処理するように構成された変換器エンコーダ、潜在的にペプチドNフランクの表現を処理するように構成された変換器エンコーダ、及び潜在的にペプチドCフランクの表現を処理するように構成された変換器エンコーダを含む、複数の第1レベルの変換器エンコーダを含むことができる。注意ベースの機械学習モデルは、第1のレベルの変換器エンコーダによって生成された集約された(例えば、連結される)結果を処理するように構成された第2のレベルの変換器エンコーダを更に含むことができる。
注意ベースの機械学習モデルは、第5の変換器エンコーダ(例えば、ドロップアウトが適用された後)からの結果を処理して、予測された(例えば、実数)結合親和性及び/又は予測された提示を(例えば、バイナリ予測として)生成するように構成されたフィードフォワードネットワーク(例えば、1つ、2つ、又はそれ以上の隠れ層を有する完全接続フィードフォワードネットワーク)を更に含むことができる。注意ベースの機械学習モデルは、モデルのアンサンブル内の1つ以上のモデル(例えば、同じ構成を有する)である。訓練データセットは、アンサンブル内の様々なモデルを訓練するために、ランダムに解析、シャッフル、及び/又は分割することができる。損失関数は、誤差項(例えば、平均二乗誤差又は中央二乗誤差)及び/又はエントロピー項(例えば、交差エントロピー又はバイナリ交差エントロピー)を使用することができる。2つの異なるタイプの結果(例えば、結合親和性及び提示の発生)の各々を予測するためにモデルが同時に訓練されるように、マルチタスク学習を使用することができる。静的又は非静的な学習率を使用することができる。例えば、学習率アニーリング(例えば、段階的アニーリング又はコサインアニーリングを使用する)を使用して、反復にわたって学習率を低下させることができる。検証データ評価を使用して、訓練を早期に(例えば、性能目標が満たされたと判断すると)終了させることができる。
MHCは、in vivoで複数の対立遺伝子(例えば、ヒトあたり6個の対立遺伝子)を含む。したがって、この単一のMHC分子について、複数の配列入力を生成することができる(例えば、各々が複数の対立遺伝子の単一の対立遺伝子を表す)。複数の配列入力のそれぞれは、対立遺伝子のそれぞれに関連するネオ抗原の予測される結合又は提示値を生成するために、1つ以上のニューラルネットワーク(例えば、1つ以上の変換器エンコーダ)を使用して別々に処理することができる。関数(例えば、ソフトマックス関数)は、複数の対立遺伝子の中からどの対立遺伝子が最も高い提示予測と関連しているかを同定することができる。訓練中、この特定の配列入力に対するこの最大提示予測は、パラメータを調整するための誤差を生成するために、バイナリ損失関数を使用して真の提示値と比較することができる。
いくつかの例では、提示されるペプチドコアに長いペプチドをトリミングする時期を決定するために、フランク部由来のアミノ酸(例えば、Nフランク部)がペプチダーゼによっていくつ使用されるかは知られていない。訓練データを生成する際にこの未知のものに対処するため、次いで、所定の範囲内の長さ(例えば、1~10アミノ酸)等の技術(例えば、擬似ランダム選択技術)に基づいて選択された長さにフランクをトリミングすることができる。選択手法は、分布(例えば、一様分布又はガウス分布)を用いて長さを選択してもよい。場合によっては、閾値長さ(例えば、10アミノ酸)を下回るフランクはトリミングされない。いくつかの例では、フランクトリミングは、NフランクのCフランクを保存するように定義される。
次いで、訓練されたモデルは、1つ以上の変異ペプチド配列(例えば、Nフランク領域、候補エピトープ領域及び/又はCフランク領域の)の表現(複数可)、及び(対象に関連する)MHC分子の部分配列を含む入力データセットを受信し、予測された結合親和性及び/又は提示予測を生成することができる。変異ペプチドがMHC分子に安定に結合して提示されると予測される場合、変異ペプチドは、対象を処置するために使用される組成物(例えば、ワクチン)に含まれるように選択され得る。
II.D.機械学習モデルの入力データの例示的な識別
本明細書に記載の入力データを識別するための例示的な方法及びシステムを使用して、例えば図1及び3の機械学習モデル132及び/又は図4A~4Cに記載の機械学習モデル132の入力データを識別することができる。
本明細書に記載の入力データを識別するための例示的な方法及びシステムを使用して、例えば図1及び3の機械学習モデル132及び/又は図4A~4Cに記載の機械学習モデル132の入力データを識別することができる。
所与の対象に関連する変異ペプチドのセットの各々を、注意ベースの機械学習モデルを用いて分析して、変異ペプチドの結合親和性、提示確率及び/又は免疫原性に関する1つ以上の予測を生成することができる。これらの予測を生成するために、機械学習モデルは、変異ペプチドに対応するペプチド(例えば、符号化)配列及び1つ以上の他の配列又は部分配列(例えば、MHC-I分子、MHC-II分子又はT細胞受容体に対応する)を受信し、処理することができる。いくつかの例では、ペプチド配列のセット(例えば、変異ペプチドのセットに対応するバリアントコード配列のセット)のそれぞれについて予測が生成される。変異ペプチドのセットは、対象から収集された疾患試料中に存在するが、1つ以上の非疾患試料(例えば、対象又は別の対象からの)中には観察されないペプチドに対応し得る。
所与の対象に関連する変異ペプチドのセットを同定するための様々な方法が利用可能である。変異は、対象の疾患細胞のゲノム、転写、プロテオーム又はエクソーム中に存在し得るが、非疾患試料、例えば対象又は別の対象からの非疾患試料中には存在し得ない。変異としては、限定されるものではないが、(1)タンパク質中の異なるアミノ酸をもたらす非同義変異;(2)終止コドンが改変又は欠失され、C末端に新規な腫瘍特異的配列を有するより長いタンパク質の翻訳をもたらすリードスルー変異;(3)成熟mRNAへのイントロンの包含、したがって固有の腫瘍特異的タンパク質配列をもたらすスプライス部位突然変異;(4)2つのタンパク質の接合部に腫瘍特異的配列を有するキメラタンパク質を生じる染色体再編成(すなわち、遺伝子融合);(5)新規な腫瘍特異的タンパク質配列を有する新しいオープンリーディングフレームをもたらすフレームシフト挿入又はフレームシフト欠失が挙げられる。変異はまた、1つ以上の非フレームシフトインデル、ミスセンス若しくはナンセンス置換、スプライス部位の変化、ゲノム再編成若しくは遺伝子融合、又はneoORFを生じさせる任意のゲノム若しくは発現変化を含み得る。
例えば、疾患細胞におけるスプライス部位、フレームシフト、リードスルー又は遺伝子融合突然変異から生じる突然変異又は突然変異ポリペプチドを有するペプチドは、疾患試料中のDNA、RNA又はタンパク質を配列決定し、得られた配列を非疾患試料由来の配列と比較することによって同定することができる。
いくつかの実施形態において、疾患試料及び非疾患試料からの全ゲノム配列決定(WGS)又は全エクソーム配列決定(WES)データを取得し、比較することができる。非疾患試料及び疾患試料リードのヒト参照ゲノムへのアラインメントに続いて、単一ヌクレオチドバリアント(SNV)、遺伝子融合及び挿入又は欠失バリアント(インデル)を含む体細胞バリアント、バリアントコーリングアルゴリズムを使用して検出することができる。1つ以上バリアントコーラーを使用して、異なる体細胞バリアント型(すなわち、SNV、遺伝子融合、又はインデル)を検出することができる(その全体があらゆる目的のために参照により本明細書に組み込まれる、Xu et al.’’A review of somatic single nucleotide variant calling algorithms for next-generation sequencing data.’’Comput.Struct.Biotechnol.J.16:15-24(2018)を参照されたい)。
いくつかの例では、変異ペプチドは、個体由来の疾患試料中のトランスクリプトーム配列に基づいて同定される。例えば、全トランスクリプトーム配列又は部分的トランスクリプトーム配列(例えば、RNA-Seq等の方法による)を個体の疾患組織から得て、配列決定分析に供することができる。次いで、疾患組織試料から得られた配列を、参照試料から得られた配列と比較することができる。任意に、疾患組織試料を全トランスクリプトームRNA-Seqに供する。任意に、トランスクリプトーム配列は、参照試料との比較前の特定の配列について「濃縮」である。例えば、配列決定分析に供する前に、特定の所望の配列(例えば、疾患特異的配列)を濃縮するように特異的プローブを設計することができる。全トランスクリプトームシーケンシング及び標的化シーケンシングの方法は当技術分野で公知であり、例えばTang,F.et al.,’’mRNA-Seq whole-transcriptome analysis of a single cell,’’Nature Methods,2009,v.6,377-382;Ozsolak,F.,’’RNA sequencing:advances,challenges and opportunities,’’Nature Reviews,2011,v.12,87-98;German,M.A et al.,’’Global identification of microRNA-target RNA pairs by parallel analysis of RNA ends,’’Nature Biotechnology,2008,v.26,941-946;及びWang,Z.et al.,’’RNA-Seq:a revolutionary tool for transcriptomics,’’Nature Reviews,2009,v.10,p.57-63に報告されている。これらの参考文献の各々は、あらゆる目的のためにその全体が参照により本明細書に組み込まれる。
いくつかの実施形態において、トランスクリプトーム配列決定技術としては、限定されるものではないが、RNAポリ(A)ライブラリー、マイクロアレイ分析、並列配列決定、大規模並列配列決定、PCR及びRNA-Seqが挙げられる。RNA-Seqは、トランスクリプトームの一部又は実質的に全部を配列決定するためのハイスループット技術である。手短に言えば、トランスクリプトーム配列の単離された集団を、一方又は両方の末端に結合したアダプターを有するcDNA断片のライブラリーに変換する。次いで、増幅の有無にかかわらず、各cDNA分子を分析して、配列情報の短いストレッチ、典型的には30~400塩基対を得る。次いで、これらの配列情報の断片を参照ゲノム、参照転写物にアラインメントするか、又はde novoでアセンブルして、転写物の構造(すなわち、転写境界)及び/又は発現レベルを明らかにする。
一旦得られると、罹患試料中の配列を参照試料中の対応する配列と比較することができる。配列比較は、疾患組織中の核酸配列を参照試料中の対応する配列と整列させることによって、核酸レベルで行うことができる。次いで、コードされたアミノ酸の1つ以上の変化をもたらす遺伝子配列変化を同定する。或いは、配列比較をアミノ酸レベルで行うことができ、すなわち、比較を行う前に核酸配列を最初にin silicoでアミノ酸配列に変換する。アミノ酸ベースのアプローチ又は核酸ベースのアプローチのいずれかを使用して、ペプチド中の1つ以上突然変異(例えば、1つ以上の点突然変異)を同定することができる。核酸に基づくアプローチに関して、発見されたバリアントを使用して、所与の観察可能な変異タンパク質(例えば、個々のペプチド変異を複数のコドンバリアントと関連付けるルックアップテーブルを介して)を生じさせる1つ以上の核酸配列(例えば、DNA配列、RNA配列又はmRNA配列)を同定することができる。
いくつかの実施形態において、疾患試料からの配列と参照試料の配列との比較は、手動アライメント、FAST-All(FASTA)、及びBasic Local Alignment Search Tool(BLAST)等の当技術分野で公知の技術によって完了することができる。いくつかの実施形態において、疾患試料からの配列と参照試料の配列との比較は、ショートリードアライナ、例えばGSNAP、BWA、及びSTARを使用して完了することができる。
いくつかの実施形態において、参照試料は一致した無病試料である。本明細書で使用される場合、「一致、」疾患のない組織試料は、同じ又は類似の試料、例えば、疾患試料と同じ又は類似の組織型からの試料から選択されるものである。いくつかの実施形態において、一致した疾患のない組織及び疾患組織は、同じ個体に由来し得る。いくつかの実施形態において本明細書に記載される参照試料は、同じ個体からの疾患のない試料である。いくつかの実施形態において、参照試料は、異なる個体(例えば、疾患を有しない個体)からの無病試料である。いくつかの実施形態において、参照試料は異なる個体の集団から得られる。いくつかの実施形態において、参照試料は、生物に関連する既知の遺伝子のデータベースである。いくつかの実施形態において、参照試料は、細胞株に由来し得る。いくつかの実施形態において、参照試料は、生物に関連する既知の遺伝子と、一致した疾患のない試料からのゲノム情報との組み合わせであり得る。いくつかの実施形態において、バリアントコード配列は、アミノ酸配列中に点突然変異を含み得る。いくつかの実施形態において、バリアントコード配列は、アミノ酸の欠失又は挿入を含み得る。
いくつかの実施形態において、バリアントコード配列のセットは、ゲノム及び/又は核酸配列に基づいて最初に同定される。次いで、この初期セットを更にフィルタにかけて、トランスクリプトームシーケンシングデータベースにおけるバリアントコード配列の存在に基づいて(したがって、「発現している」とされる)、より狭い発現バリアントコード配列セットを得る。いくつかの実施形態において、バリアントコード配列のセットは、トランスクリプトームシーケンシングデータベースをフィルタにかけることによって、少なくとも約10倍、20倍、30倍、40倍、50倍又はそれ以上低減される。
或いは、タンパク質質量分析を使用して、変異ペプチド、例えば腫瘍細胞上のMHCタンパク質に結合した変異体の存在を同定又は検証することができる。ペプチドは、疾患細胞、例えば腫瘍細胞から、又は腫瘍から免疫沈降したHLA分子から酸溶出し、次いで質量分析を使用して同定することができる。
変異ペプチドは、例えば、5個以上、8個以上、11個以上、15個以上、20個以上、40個以上、80個以上、100個以上、120個以下、100個以下、80個以下、60個以下、50個以下、40個以下、30個以下、25個以下、20個以下、18個以下、15個以下又は13個以下のアミノ酸を有し得る。
腫瘍特異的T細胞受容体配列は、例えば、単一細胞T細胞受容体配列決定によって同定することもできる。例えば、De Simone et al.’’Single Cell T Cell Receptor Sequencing:Techniques and Future Challenges,’’Front.Immunol.9:1638(2018);Zong et al.’’Very rapid cloning,expression and identifying specificity of T-cell receptors for T-cell engineering,’’PloS ONE 15(2):e0228112(2020)(これは、あらゆる目的のためにその全体が参照により本明細書に組み込まれる)を参照されたい。T細胞レパートリーのハイスループットシーケンシングもまた、又は代替において、特定の疾患についての腫瘍特異的シグネチャを同定するために行われ得る。例えば、Wang et al.’’High-throughput sequence of CD4+T cell repertoire reveals disease-specific signatures in IgG4-related disease,’’Arthritis Research&Therapy 21:295(2019)(これは、あらゆる目的のためにその全体が参照により本明細書に組み込まれる)を参照されたい。
MHC-I配列及び/又はMHC-II配列は、例えば、HLA遺伝子型決定又は質量分析によって決定することができる(Caron et al.,’’Analysis of Major Histocompatibility Complex(MHC)Immunopeptides Using Mass Spectroscopy,’’Molecular and Cellular Proteomics 14(12):3105-3117(2015)(これは、あらゆる目的のためにその全体が参照により本明細書に組み込まれる)。
II.E.機械学習モデルのための訓練データの例示的な識別
本明細書に記載の訓練データを識別するための例示的な方法及びシステムを使用して、例えば図1及び3の機械学習モデル132及び/又は図4A~4Cに記載の機械学習モデル132の訓練データを識別することができる。例えば、これらの方法及びシステムを使用して、図1の訓練データ131を識別することができる。
本明細書に記載の訓練データを識別するための例示的な方法及びシステムを使用して、例えば図1及び3の機械学習モデル132及び/又は図4A~4Cに記載の機械学習モデル132の訓練データを識別することができる。例えば、これらの方法及びシステムを使用して、図1の訓練データ131を識別することができる。
訓練セットは、複数の他のサンプル(例えば、潜在的に1人以上の他の対象と関連している)から収集されたデータを使用して生成することができる。複数の他の試料のそれぞれは、例えば、組織(例えば、生検)、単一細胞、複数の細胞、細胞の断片又は体液のアリコートを含み得る。場合によっては、複数の他のサンプルは、訓練されたモデルによって処理される入力データに関連付けられた対象と比較して、異なる種類の対象から収集される。例えば、機械学習モデルは、1つ以上の細胞株からの試料を処理することによって収集された訓練データを使用して訓練されてもよく、訓練された機械学習モデルは、対象からの1つ以上の試料を処理することによって決定された入力データを処理するために使用されてもよい。
訓練データセットは、複数の訓練要素を含むことができる。複数の訓練要素のそれぞれは、それぞれが対応するペプチド中の任意のバリアントをコードする及び/又は表すペプチド配列のセット(野生型又はバリアントコード配列のセットを含む)、並びにMHC分子の部分配列又は疑似配列を含む入力データを含み得る。入力データは、本明細書(例えば、セクションII.D)に開示される1つ以上の技術に従って収集することができる。
各訓練要素はまた、1つ以上の実験に基づく結果を含むことができる。実験に基づく結果は、野生型ペプチド又は変異ペプチド(訓練要素内のバリアントコード配列に関連する)とMHC分子(訓練要素内のMHC分子部分配列に関連する)との間の1つ以上の特定の種類の相互作用のそれぞれが生じるかどうか及び/又は程度を示すことができる。特定の種類の相互作用には、例えば、MHC分子へのペプチドの結合及び/又は細胞の表面上のMHC分子によるペプチドの提示(例えば、腫瘍細胞)が含まれ得る。
結果は、ペプチドとMHC分子との間の結合親和性を含み得る。結果は、所与のペプチドが所与のMHC分子と結合するかどうか、そのような結合の強度、そのような結合の安定性、及び/又はそのような結合が生じる傾向を特徴付ける定性的データ及び/又は定量的データを含むことができ、又はそれに基づくことができる。例えば、バイナリ結合親和性指示薬又は定性的バイナリ親和性結果は、ELISA、プルダウンアッセイ、ゲルシフトアッセイ、バイオセンサベースの方法論、例えば表面プラズモン共鳴、等温滴定比色法、バイオレイヤー干渉法又はマイクロスケール熱泳動を用いて生成することができる。
結果は、例えば、更に又は代替的に、所与のMHC分子が所与のペプチドを提示するかどうか及び/又はその確率を特徴付けることができる。MHCリガンドは、サンプルから免疫沈降され得る。その後の溶出及び質量分析を使用して、MHC分子がリガンドを提示したかどうかを決定することができる。
III.薬学的に許容され得る組成物及び製造
1つ以上のバリアントコード配列は、本明細書に記載の1つ以上の機械学習モデルからの結果に基づいて、バリアントコード配列の対象特異的セットから選択することができる。例えば、選択は、予測される結合親和性が500nM未満であり、MHC分子がバリアントコード配列によって同定される変異ペプチドを提示すると予測される、及び/又は変異ペプチドが免疫応答を誘因すると予測される、バリアントコード配列の対象特異的セットの各々を同定することを含み得る。モデルの出力は、500nMが例えば[0,1]スケールの別の値(例えば、0.42)に対応することができるように、異なるスケールであってもよいことが理解されよう。
1つ以上のバリアントコード配列は、本明細書に記載の1つ以上の機械学習モデルからの結果に基づいて、バリアントコード配列の対象特異的セットから選択することができる。例えば、選択は、予測される結合親和性が500nM未満であり、MHC分子がバリアントコード配列によって同定される変異ペプチドを提示すると予測される、及び/又は変異ペプチドが免疫応答を誘因すると予測される、バリアントコード配列の対象特異的セットの各々を同定することを含み得る。モデルの出力は、500nMが例えば[0,1]スケールの別の値(例えば、0.42)に対応することができるように、異なるスケールであってもよいことが理解されよう。
薬学的に許容され得る組成物は、選択されたバリアントコード配列の1つ、複数又は全部を使用して開発及び/又は製造され得る。組成物は、単一の選択されたバリアントコード配列に対応する変異ペプチドを含み得る。組成物は、複数の選択されたバリアントコード配列に対応する変異ペプチド及び/又は変異ペプチド前駆体を含み得る。ペプチド候補のサブセット(例えば、5、10、15、20、30個、又はその間の任意の数に関連付けられた、最も高い提示予測)を更なる前駆体の開発に使用することができる。
組成物中の変異ペプチドの1つ、複数又は全部のそれぞれは、例えば、約7~約40アミノ酸(例えば、約7、8、9、10、11、12、13、14、15、17、20、22、25、30、35、40、45、50、60又は70アミノ酸長のいずれか)の長さを有することができる。いくつかの実施形態において、組成物中の変異ペプチドの1つ、複数又は全部のそれぞれの長さは、所定の範囲内(例えば、8~11アミノ酸、8~12アミノ酸又は8~15アミノ酸)である。いくつかの実施形態において、組成物中の変異ペプチドの1つ、複数又は全部のそれぞれは、約8~10アミノ酸長さである。組成物中の変異ペプチドの1つ、複数又は全てのそれぞれは、その単離された形態であり得る。組成物中の1つ以上の全ての変異ペプチドの各々は、変異ペプチドの末端(又は各末端)に1つ以上のペプチドを付加することによって産生される「長いペプチド」であり得る。組成物中の変異ペプチドの1つ、複数又は全てのそれぞれは、タグ付けされていてもよく、融合タンパク質であってもよく、及び/又はハイブリッド分子であってもよい。
薬学的に許容され得る組成物は、選択されたバリアントコード配列の1つ、複数又は全てのそれぞれについて、バリアントコード配列において同定されたアミノ酸を含むか又はそれによって構成されるペプチドをコードする1つ以上核酸を含むか又はそれを使用するように開発及び/又は製造され得る。核酸(複数可)は、DNA、RNA及び/又はmRNAを含むことができる。複数のコドンのいずれかが所与のアミノ酸をコードすることができることを考えると、コドンは、例えば、所与のタイプの生物における発現を最適化又は促進するように選択され得る。そのような選択は、複数の潜在的コドンのそれぞれが所与の種類の生物によって使用される頻度、所与の種類の生物における複数の潜在的コドンのそれぞれの翻訳効率、及び/又は複数の潜在的コドンのそれぞれに対する所与の種類の生物の偏りの程度に基づき得る。
いくつかの例では、組成物は、上記の変異ペプチド(複数可)又は変異ペプチドの前駆体(複数可)をコードする核酸を含み得る。核酸は、変異ペプチド(又はその前駆体)をコードする配列にフランクする配列を含み得る。いくつかの例では、核酸は、2つ以上の選択されたバリアントコード配列に対応するエピトープを含む。いくつかの例では、核酸は、上記の変異ペプチド又は前駆体をコードするポリヌクレオチド配列を有するDNAである。
いくつかの例では、核酸はRNAである。いくつかの例では、RNAは、上記の変異ペプチド又は前駆体をコードするポリヌクレオチド配列を有するDNA鋳型から逆転写される。いくつかの例では、RNAはmRNAである。いくつかの例では、RNAは裸のmRNAである。いくつかの例では、RNAは修飾mRNA(例えば、プロタミンを用いて分解から保護したmRNA、修飾5’CAP構造を含むmRNA、又は修飾ヌクレオチドを含むmRNA)を含む。いくつかの実施形態において、RNAは一本鎖mRNAを含む。
組成物は、上記の変異ペプチド及び/又は変異ペプチドをコードする核酸(複数可)を含む細胞を含み得る。組成物は、変異ペプチド及び/又は変異ペプチドをコードする核酸(複数可)のための1つ以上の適切なベクター及び/又は1つ以上の送達系を更に含み得る。いくつかの例では、変異ペプチド及び/又は変異ペプチドをコードする核酸を含む細胞は、非ヒト細胞、例えば細菌細胞、原虫細胞、真菌細胞又は非ヒト動物細胞である。いくつかの例では、変異ペプチド及び/又は変異ペプチドをコードする核酸を含む細胞はヒト細胞である。いくつかの例では、ヒト細胞は免疫細胞である。いくつかの例では、免疫細胞は抗原提示細胞(APC)である。いくつかの例では、APCは、マクロファージ、単球、樹状細胞、B細胞、及びミクログリア等のプロフェッショナルAPCである。他の例では、プロフェッショナルAPCはマクロファージ又は樹状細胞である。いくつかの例では、変異ペプチド及び/又は変異ペプチドをコードする核酸配列(複数可)を含むAPCを細胞ワクチンとして使用し、それによりCD4+又はCD8+免疫応答を誘導する。他の例では、細胞ワクチンとして使用される組成物は、変異ペプチド及び/又は変異ペプチドをコードする核酸配列(複数可)を含むAPCによってプライミングされた変異ペプチド特異的T細胞を含む。
組成物は、薬学的に許容されるアジュバント及び/又は薬学的に許容され得る賦形剤を含み得る。アジュバントは、組成物への混合が変異ペプチドに対する免疫応答を改変する任意の物質を指す。アジュバントは、例えば、免疫刺激剤を使用してコンジュゲート化され得る。賦形剤は、活性又は免疫原性を増加させ、安定性を付与し、生物学的活性を増加させ、及び/又は血清半減期を増加させるために、特定の変異ペプチドの分子量を増加させることができる。
薬学的に許容され得る組成物は、特定の対象に特異的な(例えば、及びのために潜在的に開発される)個別化ワクチンを含み得るワクチンであり得る。例えば、MHC配列は、特定の対象からの試料を使用して同定されていてもよく、組成物は、特定の対象を処置するために開発され、及び/又は特定の対象を処置するために使用されてもよい。
ワクチンは核酸ワクチンであり得る。核酸は、変異ペプチド又は変異ペプチドの前駆体をコードすることができる。核酸ワクチンは、変異ペプチド(又はその前駆体)をコードする配列にフランクする配列を含み得る。いくつかの例では、核酸ワクチンは、1つを超える選択されたバリアントコード配列に対応するエピトープを含む。いくつかの例では、核酸ワクチンはDNAベースのワクチンである。いくつかの例では、核酸ワクチンはRNAベースのワクチンである。いくつかの例では、RNAベースのワクチンはmRNAを含む。いくつかの例では、RNAベースのワクチンは裸のmRNAを含む。いくつかの例では、RNAベースのワクチンは修飾mRNA(例えば、プロタミンを用いて分解から保護したmRNA、修飾5’CAP構造を含むmRNA、又は修飾ヌクレオチドを含むmRNA)を含む。いくつかの実施形態において、RNAベースのワクチンは一本鎖mRNAを含む。
核酸ワクチンは、次世代免疫療法の一部として使用される特定の対象のために製造された個別化ネオ抗原特異的療法を含み得る。個別化ワクチンは、最初に特定の対象の試料中の変異ペプチドを検出し、続いて、検出された各変異ペプチドについて、ペプチドが特定の対象のMHCに結合するか、MHCによって提示されるか、特定の対象のT細胞受容体に結合するか、及び/又は免疫学的応答を誘因するかどうか及び/又はその程度を予測することによって設計されていてもよい。これらの予測に基づいて、検出された変異ペプチドのサブセットを選択することができる(例えば、少なくとも1個、少なくとも2個、少なくとも3個、少なくとも5個、少なくとも8個、少なくとも10個、少なくとも12個、少なくとも15個、少なくとも18個、最大40個、最大30個、最大25個、最大20個、最大18個、最大15個及び/又は最大10個の変異ペプチドを有するサブセット)。選択された各変異ペプチドについて、変異ペプチドをコードする合成mRNA配列を同定することができる。mRNAワクチンは、mRNA-リポプレックスを形成するために脂質と複合体化されたmRNA(変異ペプチドの一部又は全部をコードする)を含み得る。mRNA-リポプレックスを含むワクチンの投与は、mRNA刺激TLR7及びTLR8をもたらし、樹状細胞によるT細胞活性化を引き起こすことができる。さらに、投与は、mRNAの変異ペプチドへの翻訳をもたらし得、次いで、変異ペプチドはMHC分子に結合し、MHC分子によって提示され、T細胞応答を誘導し得る。
組成物は、実質的に純粋な変異ペプチド、実質的に純粋なその前駆体、及び/又は変異ペプチド若しくはその前駆体をコードする実質的に純粋な核酸を含み得る。組成物は、変異ペプチド、その前駆体、及び/又は変異ペプチド若しくはその前駆体をコードする核酸を含有するための1つ以上の適切なベクター及び/又は1つ以上の送達系を含み得る。適切なベクター及び送達系としては、アデノウイルス、ワクシニアウイルス、レトロウイルス、ヘルペスウイルス、アデノ随伴ウイルス、又は1つを超えるウイルスの要素を含むハイブリッドに基づく系等のウイルスが挙げられる。非ウイルス送達系には、カチオン性脂質及びカチオン性ポリマー(例えば、カチオン性リポソーム)が含まれる。いくつかの実施形態において、「遺伝子銃」等を用いた物理的送達を使用することができる。
特定の実施形態において、RNAベースのワクチンは、5’→3’方向に、(1)5’キャップ;(2)5’非翻訳領域(UTR);(3)分泌シグナルペプチドをコードするポリヌクレオチド配列;(4)腫瘍標本に存在するがん特異的体細胞変異に起因する1つ以上の変異ペプチドをコードするポリヌクレオチド配列;(5)主要組織適合遺伝子複合体(MHC)分子の膜貫通ドメイン及び細胞質ドメインの少なくとも一部をコードするポリヌクレオチド配列;(6)3’UTRであって、(a)Amino-Terminal Enhancer of Split(AES)mRNAの3’非翻訳領域又はその断片;及び(b)ミトコンドリアにコードされた12S RNAの非コードRNA又はその断片を含む3’UTR;並びに(7)ポリ(A)配列を含むRNA分子を含む。この例示的なRNA分子はまた、以下のセクションVに関して検討されるように、注意ベースの予測モデルの例示的な実施態様を評価するのに使用された。
いくつかの実施形態において、RNA分子は、アミノ酸リンカーをコードするポリヌクレオチド配列を含み、アミノ酸リンカー及び1つ以上の変異ペプチドの第1のペプチドをコードするポリヌクレオチド配列は、第1のリンカー-ネオエピトープモジュールを形成し、第1のリンカー-ネオエピトープモジュールを形成するポリヌクレオチド配列は、5’→3’方向に、分泌シグナルペプチドをコードするポリヌクレオチド配列と、MHC分子の膜貫通ドメイン及び細胞質ドメインの少なくとも一部をコードするポリヌクレオチド配列との間にある。特定の実施形態において、アミノ酸リンカーは、配列GGSGGGGSGGを含む。ある特定の実施形態において、アミノ酸リンカーをコードするポリヌクレオチド配列は、配列GGCGGCUCUGGAGGAGGCGGCUCCGGAGGCを含む。
特定の実施形態において、RNA分子は、5’→3’方向に、少なくとも第2のリンカー-エピトープモジュールをさら含み、少なくとも第2のリンカー-エピトープモジュールは、アミノ酸リンカーをコードするポリヌクレオチド配列と、ネオエピトープをコードするポリヌクレオチド配列とを含み、第2のリンカー-ネオエピトープモジュールを形成するポリヌクレオチド配列は、5’→3’方向に、第1のリンカー-ネオエピトープモジュールのネオエピトープをコードするポリヌクレオチド配列と、MHC分子の膜貫通ドメイン及び細胞質ドメインの少なくとも一部をコードするポリヌクレオチド配列との間にあり、第1のリンカー-エピトープモジュールのネオエピトープは、第2のリンカー-エピトープモジュールのネオエピトープとは異なる。特定の実施形態において、RNA分子は5のリンカー-エピトープモジュールを含み、5のリンカー-エピトープモジュールはそれぞれ異なるネオエピトープをコードする。特定の実施形態において、RNA分子は10のリンカー-エピトープモジュールを含み、10のリンカー-エピトープモジュールはそれぞれ異なるネオエピトープをコードする。特定の実施形態において、RNA分子は20のリンカー-エピトープモジュールを含み、20のリンカー-エピトープモジュールはそれぞれ異なるネオエピトープをコードする。
いくつかの実施形態において、RNA分子は、アミノ酸リンカーをコードする第2のポリヌクレオチド配列を更に含み、アミノ酸リンカーをコードする第2のポリヌクレオチド配列は、3’方向において最も遠位にあるネオエピトープをコードするポリヌクレオチド配列と、MHC分子の膜貫通ドメイン及び細胞質ドメインの少なくとも一部をコードするポリヌクレオチド配列との間にある。
特定の実施形態において、5’キャップは、以下の構造のD1ジアステレオ異性体を含む:
特定の実施形態において、5’UTRは、配列UUCUUCUGGUCCCCACAGACUCAGAGAGAACCCGCCACCを含む。特定の実施形態において、5’UTRは、配列GGCGAACUAGUAUUCUUCUGGUCCCCACAGACUCAGAGAGAACCCGCCACCを含む。
特定の実施形態において、分泌シグナルペプチドは、アミノ酸配列MRVMAPRTLILLLSGALALTETWAGSを含む。特定の実施形態において、分泌シグナルペプチドをコードするポリヌクレオチド配列は、配列AUGAGAGUGAUGGCCCCCAGAACCCUGAUCCUGCUGCUGUCUGGCGCCCUGGCCCUGACAGAGACAUGGGCCGGAAGCを含む。
特定の実施形態において、MHC分子の膜貫通ドメイン及び細胞質ドメインの少なくとも一部は、アミノ酸配列IVGIVAGLAVLAVVVIGAVVATVMCRRKSSGGKGGSYSQAASSDSAQGSDVSLTAを含む。特定の実施形態において、MHC分子の膜貫通ドメイン及び細胞質ドメインの少なくとも一部をコードするポリヌクレオチド配列は、配列AUCGUGGGAAUUGUGGCAGGACUGGCAGUGCUGGCCGUGGUGGUGAUCGGAGCCGUGGUGGCUACCGUGAUGUGCAGACGGAAGUCCAGCGGAGGCAAGGGCGGCAGCUACAGCCAGGCCGCCAGCUCUGAUAGCGCCCAGGGCAGCGACGUGUCACUGACAGCCを含む。
特定の実施形態において、AES mRNAの3’非翻訳領域は、配列CUGGUACUGCAUGCACGCAAUGCUAGCUGCCCCUUUCCCGUCCUGGGUACCCCGAGUCUCCCCCGACCUCGGGUCCCAGGUAUGCUCCCACCUCCACCUGCCCCACUCACCACCUCUGCUAGUUCCAGACACCUCCを含む。特定の実施形態において、ミトコンドリアにコードされた12S RNAの非コードRNAは、配列CAAGCACGCAGCAAUGCAGCUCAAAACGCUUAGCCUAGCCACACCCCCACGGGAAACAGCAGUGAUUAACCUUUAGCAAUAAACGAAAGUUUAACUAAGCUAUACUAACCCCAGGGUUGGUCAAUUUCGUGCCAGCCACACCGを含む。特定の実施形態において、3’UTRは、配列CUCGAGCUGGUACUGCAUGCACGCAAUGCUAGCUGCCCCUUUCCCGUCCUGGGUACCCCGAGUCUCCCCCGACCUCGGGUCCCAGGUAUGCUCCCACCUCCACCUGCCCCACUCACCACCUCUGCUAGUUCCAGACACCUCCCAAGCACGCAGCAAUGCAGCUCAAAACGCUUAGCCUAGCCACACCCCCACGGGAAACAGCAGUGAUUAACCUUUAGCAAUAAACGAAAGUUUAACUAAGCUAUACUAACCCCAGGGUUGGUCAAUUUCGUGCCAGCCACACCGAGACCUGGUCCAGAGUCGCUAGCCGCGUCGCUを含む。
特定の実施形態において、ポリ(A)配列は120のアデニンヌクレオチドを含む。
特定の実施形態において、RNAベースのワクチンは、5’→3’方向に、ポリヌクレオチド配列:GGCGAACUAGUAUUCUUCUGGUCCCCACAGACUCAGAGAGAACCCGCCACCAUGAGAGUGAUGGCCCCCAGAACCCUGAUCCUGCUGCUGUCUGGCGCCCUGGCCCUGACAGAGACAUGGGCCGGAAGC;腫瘍標本中に存在するがん特異的体細胞変異に起因する1つ以上の変異ペプチドをコードするポリヌクレオチド配列;及びポリヌクレオチド配列AUCGUGGGAAUUGUGGCAGGACUGGCAGUGCUGGCCGUGGUGGUGAUCGGAGCCGUGGUGGCUACCGUGAUGUGCAGACGGAAGUCCAGCGGAGGCAAGGGCGGCAGCUACAGCCAGGCCGCCAGCUCUGAUAGCGCCCAGGGCAGCGACGUGUCACUGACAGCCUAGUAACUCGAGCUGGUACUGCAUGCACGCAAUGCUAGCUGCCCCUUUCCCGUCCUGGGUACCCCGAGUCUCCCCCGACCUCGGGUCCCAGGUAUGCUCCCACCUCCACCUGCCCCACUCACCACCUCUGCUAGUUCCAGACACCUCCCAAGCACGCAGCAAUGCAGCUCAAAACGCUUAGCCUAGCCACACCCCCACGGGAAACAGCAGUGAUUAACCUUUAGCAAUAAACGAAAGUUUAACUAAGCUAUACUAACCCCAGGGUUGGUCAAUUUCGUGCCAGCCACACCGAGACCUGGUCCAGAGUCGCUAGCCGCGUCGCUを含むRNA分子を含む。
いくつかの実施形態において、本明細書に記載の変異ペプチド(例えば、本明細書に記載の機械学習技術からの結果に基づいて選択されたバリアントコード配列によって同定されるアミノ酸の順序付きセットを含むか、又はそれからなる)は、抗体治療薬等の変異ペプチド特異的治療薬を作製するために使用することができる。例えば、変異ペプチドは、変異ペプチドを特異的に認識する抗体を産生及び/又は同定するために使用することができる。これらの抗体は治療薬として使用することができる。合成短ペプチドは、タンパク質反応性抗体を生成するために使用されてきた。合成ペプチドで免疫する利点は、無制限量の純粋な安定抗原を使用できることである。このアプローチは、短いペプチド配列を合成し、それらを大きな担体分子にカップリングし、対象をペプチド担体分子で免疫することを含む。抗体の特性は、一次配列情報に依存する。所望のペプチドに対する良好な応答は、通常、配列及びカップリング方法の慎重な選択によって生じ得る。ほとんどのペプチドは、良好な応答を誘発することができる。抗ペプチド抗体の利点は、変異ペプチドのアミノ酸配列を決定した直後に調製することができ、タンパク質の特定の領域を抗体産生のために特異的に標的化することができることである。機械学習モデルが免疫原性を予測した変異ペプチドを選択すること及び/又はそれをスクリーニングすることにより、得られた抗体が腫瘍状況において天然タンパク質を認識する可能性が高くなり得る。変異ペプチドは、例えば、15以下、18以下又は20以下、25以下、30以下、35以下、40以下、50以下、60以下、70以下、85以下、100以下、110以下の残基であり得る。変異ペプチドは、例えば、9残基以上、10残基以上、15残基以上、20残基以上、25残基以上、30残基以上、50残基以上、又は70残基以上であり得る。より短いペプチドは、抗体産生を改善することができる。
ペプチド-担体タンパク質カップリングを使用して、高力価抗体の産生を促進することができる。カップリング方法は、例えば、部位特異的カップリング及び/又はアミノ酸中の反応性官能基、例えば-NH2、-COOH、-SH及びフェノール-OHに依存する技術を含むことができる。抗ペプチド抗体産生に使用される任意の適切な方法を、本発明の方法によって同定された変異ペプチドと共に利用することができる。2つのそのような公知の方法は、多重抗原性ペプチド系(MAP)及び脂質コアペプチド(LCP法)である。MAPの利点は、コンジュゲーション法が不要であることである。担体タンパク質又は結合は免疫化宿主に導入されない。1つの欠点は、ペプチドの純度を制御することがより困難であることである。さらに、MAPは、いくつかの宿主において免疫応答系を迂回することができる。LCP法は、他の抗ペプチドワクチン系よりも高い力価を提供することが知られており、したがって有利であり得る。
本明細書に開示される技術を使用して同定された1つ以上の変異ペプチドを含む単離されたMHC/ペプチド複合体も本明細書で提供される。そのようなMHC/ペプチド複合体は、例えば、抗体、可溶性TCR、又はTCRアナログを同定するために使用することができる。これらの抗体の1つのタイプは、特異的HLA環境に関連して腫瘍関連抗原からのペプチドに結合する抗体であるので、TCR模倣物と呼ばれている。このタイプの抗体は、その表面上に複合体を発現する細胞の溶解を媒介し、複合体を発現する移植がん細胞株からマウスを保護することが示されている(例えば、Wittman et al.,J.of Immunol.177:4187-4195(2006)を参照されたい)。IgG mAbとしてのTCR模倣物の1つの利点は、親和性成熟を行うことができ、分子が現在のFcドメインを介して免疫エフェクター機能と連関されることである。これらの抗体はまた、治療分子、例えば毒素、サイトカイン又は製剤を腫瘍に標的化するために使用することができる。
非ハイブリドーマベースの抗体産生又はバクテリオファージ上の抗ペプチドFab分子等の結合コンピテント抗体断片の産生を用いる本発明の方法を用いて選択されるもの等の変異ペプチドを用いて開発された他の種類の分子。これらの断片はまた、抗ペプチドMHC Fab-免疫毒素コンジュゲート、抗ペプチドMHC Fab-サイトカインコンジュゲート及び抗ペプチドMHC Fab-薬物コンジュゲート等の腫瘍送達のための他の治療分子にコンジュゲートすることもできる。
IV.免疫原性ワクチン又はT細胞を含む処置方法
いくつかの実施形態は、免疫原性ワクチンであり得るワクチンを含む処置方法を提供する。いくつかの実施形態において、有効量の本明細書に記載の組成物、本明細書に開示の技術を使用して同定された変異ペプチド、その前駆体、又は本明細書に記載の技術を使用して同定された変異ペプチド(又は前駆体)をコードする核酸を個体に投与することを含み得る、疾患(がん等)の処置方法が提供される。
いくつかの実施形態は、免疫原性ワクチンであり得るワクチンを含む処置方法を提供する。いくつかの実施形態において、有効量の本明細書に記載の組成物、本明細書に開示の技術を使用して同定された変異ペプチド、その前駆体、又は本明細書に記載の技術を使用して同定された変異ペプチド(又は前駆体)をコードする核酸を個体に投与することを含み得る、疾患(がん等)の処置方法が提供される。
いくつかの実施形態において、疾患(がん等)の処置方法が提供される。この方法は、対象から試料(例えば、血液試料)を採取することを含み得る。T細胞を単離し、刺激することができる。単離は、例えば、密度勾配沈降(例えば、遠心分離)、免疫磁気選択、及び/又は抗体複合体フィルタリングを使用して行うことができる。刺激は、例えば、マイトジェン(例えば、PHA又はConA)又は抗CD3抗体(例えば、CD3に結合し、T細胞受容体複合体を活性化するため)、及び抗CD28抗体(例えば、CD28に結合し、T細胞を刺激するため)を使用し得る抗原-非依存性刺激を含み得る。1つ以上の変異ペプチドは、対象(例えば、本明細書に開示される1つ以上の技術に従って、変異ペプチドのセットのそれぞれが個体のMHC分子に結合するか、個体のMHC分子によって提示されるか、及び/又は個体において免疫応答を誘因するかどうか及び/又はその程度に関する予測に対応する機械学習モデルによって生成された結果に基づく)の処置に使用するために選択され得る(又は選択されていてもよい)。1つ以上の変異ペプチドは、対象に関連する1つ以上の配列表現(例えば、MHC配列、バリアントコード配列のセット及び/又はT細胞受容体配列の表現)を同定及び処理することを含む本明細書中に開示される技術に基づいて選択されていてもよい。1つ以上の配列は、T細胞が単離された試料又は異なる試料を使用して検出されていてもよい。
いくつかの例では、1つ以上の変異ペプチド(又はその前駆体)を使用して、変異ペプチド(例えば、ネオ抗原)特異的T細胞を産生することができる。例えば、末梢血T細胞を対象から単離し、1つ以上の変異ペプチドと接触させて、対象に投与することができる変異ペプチド特異的T細胞集団を誘導することができる。いくつかの例では、変異ペプチド反応性T細胞のT細胞受容体配列を配列決定することができる。配列決定が核酸の順序付きセットを同定する場合、核酸の各コドンをアミノ酸に翻訳することができる(例えば、探索技術を介して)。T細胞受容体配列(例えば、アミノ酸T細胞受容体配列)が得られると、変異ペプチドを特異的に認識するT細胞受容体を含むようにT細胞を操作することができる。次いで、これらの操作されたT細胞を対象に投与することができる。例えば、あらゆる目的のためにその全体が参照により本明細書に組み込まれる、Matsuda et al.’’Induction of Neoantigen-Specific Cytotoxic T Cells and Construction of T-cell Receptor Engineered T Cells for Ovarian Cancer,’’Clin.Cancer Res.1-11(2018)を参照されたい。本明細書で提供される方法のいずれにおいても、T細胞は、対象への投与前にin vitro及び/又はex vivoで増殖させることができる。次いで、対象は、増殖させたT細胞集団を含む組成物を投与(例えば、注入)され得る。
いくつかの例では、例えばT細胞をin vivoでプライミング、活性化及び増殖させるのに有効な量の1つ以上の変異ペプチド(又はその1つ以上の前駆体)を含む組成物を個体に投与することを含み得る、疾患(がん等)の処置方法が提供される。
いくつかの実施形態において、本明細書に記載の技術を使用して選択される変異ペプチドの前駆体を含む有効量の組成物を個体に投与することを含み得る、疾患(がん等)の処置方法が提供される。いくつかの実施形態において、免疫原性ワクチンは、本明細書に記載の技術を使用して選択される薬学的に許容され得る変異ペプチドを含み得る。いくつかの実施形態において、免疫原性ワクチンは、本明細書に記載の技術(例えば、タンパク質、ペプチド、DNA及び/又はRNA等)を使用して選択される変異ペプチドの薬学的に許容され得る前駆体を含み得る。いくつかの実施形態において、本明細書に記載の技術を使用して選択される変異ペプチドを特異的に認識する有効量の抗体を個体に投与することを含み得る、疾患(がん等)の処置方法が提供される。いくつかの実施形態において、本明細書に記載の技術を使用して選択される変異ペプチドを特異的に認識する有効量の可溶性TCR又はTCRアナログを個体に投与することを含み得る、疾患(がん等)の処置方法が提供される。
いくつかの実施形態において、がんは、癌腫、リンパ腫、芽細胞腫、肉腫、白血病、扁平上皮細胞がん、肺がん(小細胞肺がん、非小細胞肺がん、肺の腺癌、及び肺の扁平上皮癌腫を含む)、腹膜のがん、肝細胞がん、胃がん(gastric cancer)又は胃がん(stomach cancer)(消化管がんを含む)、膵臓がん、膠芽腫、子宮頸がん、卵巣がん、肝臓がん、膀胱がん、肝細胞腫、乳がん、結腸がん、黒色腫、子宮内膜癌腫又は子宮癌腫、唾液腺癌腫、腎臓がん(kidney cancer)又は腎臓がん(renal cancer)、肝臓がん、前立腺がん、外陰部がん、甲状腺がん、肝癌腫、頭頸部がん、結腸直腸がん、直腸がん、軟部組織肉腫、カポジ肉腫、B細胞リンパ腫(低悪性度/濾胞性非ホジキンリンパ腫(NHL)、小リンパ球性(SL)NHL、中悪性度/濾胞性NHL、中悪性度びまん性NHL、高悪性度免疫芽細胞性NHL、高悪性度リンパ芽球性NHL、高悪性度小型非開裂細胞性NHL、巨大病変性NHL、マントル細胞リンパ腫、AIDS関連リンパ腫、及びワルデンストレーム高癌マグロブリン血症を含む)、慢性リンパ性白血病(CLL)、急性リンパ芽球性白血病(ALL)、黒色腫、有毛細胞性白血病、慢性骨髄芽球性白血病、及び移植後リンパ増殖性障害(PTLD)、並びに母斑症、浮腫(脳腫瘍と関連するもの等)、及びメイグス症候群と関連する異常な血管増殖が挙げられる。
本明細書に開示される実施形態は、個別化医療戦略の一部若しくは全部を特定すること、及び/又は一部若しくは全部を実施することを含むことができる。例えば、1つ以上の変異ペプチドは、個体由来のサンプルを使用してMHC配列及び/又はバリアントコード配列のセットを決定すること;並びに本明細書に開示される機械学習モデル(例えば、注意ベースの機械学習モデル)を使用してMHC配列及びバリアントコード配列の表現を処理することによって、ワクチンにおける使用のために選択され得る。次いで、1つ以上の変異ペプチド(及び/又はその前駆体)を同じ個体に投与することができる。
いくつかの実施形態において、個体における疾患(がん等)を処置する方法であって、a)該個体において1つ以上の変異ペプチドを同定すること(例えば、本明細書に開示される1つ以上の技術に従って、変異ペプチドのセットのそれぞれが個体のMHC分子に結合するか、個体のMHC分子によって提示されるか、及び/又は個体において免疫応答を誘因するかどうか及び/又はその程度に関する予測に対応する機械学習モデルによって生成された結果に基づいて)と、b)同定された変異ペプチド(複数可)又は変異ペプチドの1つ以上の前駆体又は同定されたペプチド(複数可)若しくはペプチド前駆体(複数可)をコードする核酸(複数可)(例えば、DNA又はRNA等のポリヌクレオチド)を合成すること、c)変異ペプチド(複数可)、変異ペプチド前駆体(複数可)又は核酸(複数可)を個体に投与することを含む方法が提供される。
いくつかの実施形態において、個体における疾患(がん等)を処置する方法であって、a)個体において1つ以上の変異ペプチドを同定すること(例えば、本明細書に開示される1つ以上技術に従って、変異ペプチドのセットのそれぞれが個体のMHC分子に結合するか、個体のMHC分子によって提示されるか、及び/又は個体において免疫応答を誘因するかどうか及び/又はその程度に関する予測に対応する機械学習モデルによって生成された結果に基づいて)と、b)同定された変異ペプチド(複数可)又は変異ペプチド(複数可)の1つ以上の前駆体をコードする核酸のセット(例えば、DNA又はRNA等のポリヌクレオチド)を同定することと、c)核酸のセットを合成することと、d)核酸のセットを個体に投与することと、を含む方法が提供される。
いくつかの実施形態において、個体における疾患(がん等)を処置する方法であって、a)個体において1つ以上の変異ペプチドを同定すること(例えば、本明細書に開示される1つ以上技術に従って、変異ペプチドのセットのそれぞれが個体のMHC分子に結合するか、個体のMHC分子によって提示されるか、及び/又は個体において免疫応答を誘因するかどうか及び/又はその程度に関する予測に対応する機械学習モデルによって生成された結果に基づいて)と、b)変異ペプチドを特異的に認識する抗体を産生することと、c)該ペプチドを個体に投与することと、を含む方法が提供される。
本明細書で提供される方法を、がんと診断されたか、又はがんを有すると疑われる個体(例えば、ヒト)を処置するために使用することができる。いくつかの実施形態において、個体はヒトであり得る。いくつかの実施形態において、個体は、少なくとも約18、20、25、30、35、40、45、50、55、60、65、70、75、80、又は85歳のいずれかであり得る。いくつかの実施形態において、個体は男性であり得る。いくつかの実施形態において、個体は女性であり得る。いくつかの実施形態において、個体は手術を拒否した可能性がある。いくつかの実施形態において、個体は医学的に手術不能であり得る。いくつかの実施形態において、個体は、Ta、Tis、T1、T2、T3a、T3b又はT4の臨床段階にあり得る。いくつかの実施形態において、がんは再発性であり得る。いくつかの実施形態において、個体は、がんに関連する1つ以上の症候を示すヒトであり得る。いくつかの実施形態において、個体は、遺伝的に、或いは他の様態でがんを発症しやすい(例えば、リスク因子を有する)場合がある。
本明細書で提供される方法は、アジュバント状況で実施され得る。いくつかの実施形態において、本方法はネオアジュバント状況で実施され、すなわち、本方法は一次/根治療法の前に実施され得る。いくつかの実施形態において、本方法は、以前に処置されたことがある個体を処置するために使用される。本明細書で提供される処置方法のいずれも、以前に処置されていない個体を処置するために使用され得る。いくつかの実施形態において、本方法は第一選択療法として使用される。いくつかの実施形態において、本方法は第二選択療法として使用される。
いくつかの実施形態において、個体における既存のがん腫瘍転移(肺転移又はリンパ節への転移等)の発生率又は負担を軽減する方法であって、有効量の本明細書に開示される組成物を個体に投与することを含む方法が提供される。いくつかの実施形態において、個体におけるがんの疾患進行までの時間を延長する方法であって、有効量の本明細書に開示される組成物を個体に投与することを含む方法が提供される。いくつかの実施形態において、がんを有する個体の生存を延長する方法であって、有効量の本明細書に開示される組成物を個体に投与することを含む方法が提供される。
いくつかの実施形態において、少なくとも1つ以上の化学療法剤が、本明細書中に開示される組成物に加えて投与される場合がある。いくつかの実施形態において、1つ以上の化学療法剤は、(必ずしもそうとは限らないが)異なるクラスの化学療法剤に属し得る。
いくつかの実施形態において、個体における疾患(がん等)を処置する方法であって、a)本明細書に開示されるワクチン(例えば、本明細書中に開示される機械学習技術に基づいて選択される変異ペプチド又はその前駆体を含む)、及びb)免疫調節剤を投与することを含む方法を提供する。いくつかの実施形態において、個体における疾患(がん等)を処置する方法であって、a)本明細書に開示されるワクチン(例えば、本明細書中に開示される機械学習技術に基づいて選択される変異ペプチド又はその前駆体を含む)、及びb)チェックポイントタンパク質のアンタゴニストを投与することを含む方法を提供する。いくつかの実施形態において、個体における疾患(がん等)を処置する方法であって、a)本明細書に開示されるワクチン(例えば、本明細書中に開示される機械学習技術に基づいて選択される変異ペプチド又はその前駆体を含む)、及びb)抗PD-1等のプログラム細胞死1(PD-1)のアンタゴニストを投与することを含む方法を提供する。いくつかの実施形態において、個体における疾患(がん等)を処置する方法であって、a)本明細書に開示されるワクチン(例えば、本明細書中に開示される機械学習技術に基づいて選択される変異ペプチド又はその前駆体を含む)、及びb)抗PD-L1等のプログラム死リガンド1(PD-L1)のアンタゴニストを投与することを含む方法を提供する。いくつかの実施形態において、個体における疾患(がん等)を処置する方法であって、a)本明細書に開示されるワクチン(例えば、本明細書中に開示される機械学習技術に基づいて選択される変異ペプチド又はその前駆体を含む)、及びb)抗CTLA-4等の細胞傷害性Tリンパ球関連タンパク質4(CTLA-4)のアンタゴニストを投与することを含む方法を提供する。
様々な開示はアミノ酸配列の使用を指すことが理解されよう。核酸配列を追加的又は代替的に使用してもよい。例えば、疾患特異的試料は、対応する非疾患特異的試料(例えば、同じ対象又は異なる対象からのもの)中に存在しない核酸配列のセットを同定するために配列決定され得る。同様に、MHC分子及び/又はT細胞受容体の核酸配列を更に同定することができる。核酸疾患特異的核酸配列及びMHC分子(又はT細胞受容体)のそれぞれの表現は、本明細書に記載の注意ベースのモデルによって処理され得る(例えば、核酸配列の表現を使用して潜在的に訓練されている)。
V.実施例
V.A.概要
例示的なペプチド-MHC(MHCクラスI)注意ベースの機械学習モデル(本明細書では「P-MHC-Iモデル」)及び例示的なペプチド-MHC(MHCクラスII)注意ベースの機械学習モデル(本明細書では「P-MHC-IIモデル」)(本明細書では集合的かつ個別にP-MHCモデルと称する)を開発した。これらのモデルは、図1の機械学習モデル132の実装例である。P-MHC-IモデルアーキテクチャとP-MHC-IIモデルアーキテクチャの両方を、図3及び図4Aに示すアーキテクチャに対応して実装した。
V.A.概要
例示的なペプチド-MHC(MHCクラスI)注意ベースの機械学習モデル(本明細書では「P-MHC-Iモデル」)及び例示的なペプチド-MHC(MHCクラスII)注意ベースの機械学習モデル(本明細書では「P-MHC-IIモデル」)(本明細書では集合的かつ個別にP-MHCモデルと称する)を開発した。これらのモデルは、図1の機械学習モデル132の実装例である。P-MHC-IモデルアーキテクチャとP-MHC-IIモデルアーキテクチャの両方を、図3及び図4Aに示すアーキテクチャに対応して実装した。
P-MHCモデルは、個別化されたがんワクチン開発におけるネオ抗原提示を予測するための例示的な注意ベースの深層学習モデルである。P-MHCモデルは、Nフランク配列、ペプチド配列、及びMHC配列(MHC疑似配列)を入力として受信し、提示又は溶出リガンド(EL)スコアを出力する。天然に存在するアミノ酸の空間にまたがる語彙が構築され、アミノ酸配列を表すようにそれらをトークン化した。入力されたアミノ酸配列を、それぞれが固有の文字で表される文字となるようにトークン化した。特異的結合MHC対立遺伝子を選択するために、入力Nフランク配列及びペプチド配列と6つのMHC対立遺伝子のうちの1つとのモデル対及び6対の相互作用をP-MHC-Iモデルにフィードフォワードし、12のMHCアロタイプのうちの1つと12対の相互作用をP-MHC-IIモデルにフィードフォワードした。
したがって、P-MHCモデルは、複数対立遺伝子データのデコンボリューションを内部で行う。溶出する可能性が最も高いペプチド-MHC相互作用出力は、0と1との間の値として正規化され、バイナリ交差エントロピー損失関数を使用して真の提示値と比較されて、モデルパラメータを調整するための誤差を生成する。オーバーフィッティングを防止し、モデルのロバスト性を高めるために、P-MHCモデルは、モデル訓練においてアンサンブル法を使用する。
他の以前に利用可能なモデル(例えば、P-MHC-IモデルについてはNetMHCpan-4.0(本明細書では「モデルA」)、免疫エピトープデータベース及び分析リソース(IEDB)v2.13(本明細書では「モデルB」)、並びにP-MHC-IIモデルについてはNetMHCIIpan-4.1(本明細書では「モデルC」))と比較した、P-MHC-Iモデル及びP-MHC-IIモデルの訓練及び性能に対応する例示的な結果及び統計。P-MHC-I及びP-MHC-IIモデルは、ペプチド提示のための他のモデルよりも一貫して良好に機能し、P-MHC-Iモデルは、CD8 T細胞応答予測のための他のモデルよりも良好に機能した。P-MHCモデルは、少なくとも多対立遺伝子データからのペプチド-MHC対のデコンボリューションを行うので、より良好に機能し、単一対立遺伝子形式及び多対立遺伝子形式の両方で拡張訓練データで容易に訓練することができる。
V.B.材料及び方法
V.B.1.P-MHCモデルの訓練-免疫ペプチド性データ
質量分析実験からのペプチド溶出データを使用して、P-MHCモデルを訓練するための免疫ペプチド性データセットを構築した。このデータは、細胞株、組織試料及びPBMCドナーからの多対立遺伝子データ及び単対立遺伝子ペプチド溶出データを含む私的データセットと公的データセットとの混合物を含む。
V.B.1.P-MHCモデルの訓練-免疫ペプチド性データ
質量分析実験からのペプチド溶出データを使用して、P-MHCモデルを訓練するための免疫ペプチド性データセットを構築した。このデータは、細胞株、組織試料及びPBMCドナーからの多対立遺伝子データ及び単対立遺伝子ペプチド溶出データを含む私的データセットと公的データセットとの混合物を含む。
V.B.1.a.提示標識付きデータ
陽性セット(EL=1)。各バッチについて、陽性ペプチド-MHC(例えば、ペプチド-HLA)対を以下の方法で処理した:
1)ペプチドをヒトプロテオームに整列させた。
2)各ペプチドについて、最大10アミノ酸長のフランク配列をN末端及びC末端位置に保持した。
3)複数の遺伝子にマッピングされたペプチドを下流分析から除外した。このようなペプチドは、EL=1セットでは特徴的ではなかった。(EL=0ペプチドは、EL=1ペプチドの証拠を有するタンパク質からのみ生成されたので、EL=0にはそのような制限は課されなかった)。48,329個のクラスIペプチドをこの基準によって除外した。これは大きな数であるが、負のセットの信頼性を高める。
4)同じ遺伝子にマッピングされるが、異なるフランキング配列を有するペプチドも下流分析から除外した。これにより、11,443個のクラスIペプチドが更に除外された。
5)翻訳後修飾(PTM)を含むペプチドも下流分析から除外した。7,080個のクラスIのそのようなペプチドが除外された
陽性セット(EL=1)。各バッチについて、陽性ペプチド-MHC(例えば、ペプチド-HLA)対を以下の方法で処理した:
1)ペプチドをヒトプロテオームに整列させた。
2)各ペプチドについて、最大10アミノ酸長のフランク配列をN末端及びC末端位置に保持した。
3)複数の遺伝子にマッピングされたペプチドを下流分析から除外した。このようなペプチドは、EL=1セットでは特徴的ではなかった。(EL=0ペプチドは、EL=1ペプチドの証拠を有するタンパク質からのみ生成されたので、EL=0にはそのような制限は課されなかった)。48,329個のクラスIペプチドをこの基準によって除外した。これは大きな数であるが、負のセットの信頼性を高める。
4)同じ遺伝子にマッピングされるが、異なるフランキング配列を有するペプチドも下流分析から除外した。これにより、11,443個のクラスIペプチドが更に除外された。
5)翻訳後修飾(PTM)を含むペプチドも下流分析から除外した。7,080個のクラスIのそのようなペプチドが除外された
陰性セット(EL=0)。陰性ペプチド-MHC(例えば、ペプチド-HLA)対を計算により生成した。各対立遺伝子について、陽性セット(EL=1)の各起源タンパク質について、長さ8~11の全ての可能なペプチド断片を、各長さについて均一な確率で、MHCクラスIについて生成し、MHCクラスIIについて8~30を生成した。N末端及びC末端のフランク配列もまた、10アミノ酸の最大長さで保持された。EL=1のデータを特徴とする全てのペプチド-遺伝子型対をEL=0のデータから除外した。さらに、MHCクラスIIについて構築されたデータセットについては、EL=1ペプチド(同じ遺伝子型と対をなす)中に見出すことができる任意の長さ9の部分配列を有するペプチド-遺伝子型対が除外される。
V.B.1.b.ベンチマークデータセット
セクションVI.B.1.aで論じた上記のELデータを訓練、検証、及びテストセットに分割することによって、ベンチマークデータセットを生成した。訓練セット及び検証セットをP-MHCモデルの訓練に使用したが、テストセットは訓練に明示的に使用せず、モデルの性能を定量化するためにのみ使用した。MHCクラスIデータについては、各対立遺伝子についての単一対立遺伝子データから10%のペプチドを除外することによって、単一対立遺伝子データを使用して試験データセットを生成した。MHCクラスIIデータについては、全てのデータ、多対立遺伝子及び単対立遺伝子を使用して試験/検証データセットを生成する。
セクションVI.B.1.aで論じた上記のELデータを訓練、検証、及びテストセットに分割することによって、ベンチマークデータセットを生成した。訓練セット及び検証セットをP-MHCモデルの訓練に使用したが、テストセットは訓練に明示的に使用せず、モデルの性能を定量化するためにのみ使用した。MHCクラスIデータについては、各対立遺伝子についての単一対立遺伝子データから10%のペプチドを除外することによって、単一対立遺伝子データを使用して試験データセットを生成した。MHCクラスIIデータについては、全てのデータ、多対立遺伝子及び単対立遺伝子を使用して試験/検証データセットを生成する。
データセットの特徴には、以下が含まれる:全てのペプチド長は、クラスIについては[8,14]アミノ酸、クラスIIについては[8,30]アミノ酸の範囲内に制限された。全てのペプチドは、主配列(すなわち、エピトープ)及びフランク配列に標準アミノ酸を含有するように制限された。全ての対立遺伝子名を、MHCIタンパク質内の以下のアミノ酸位置によって定義される34個のアミノ酸部分配列によって置き換えた:(7、9、24、45、59、62、63、66、67、69、70、73、74、76、77、80、81、84、95、97、99、114、116、118、143、147、150、152、156、158、159、163、167、171)、又はアルファ及びベータMHCIIタンパク質内の位置:
アルファ:9、11、22、24、31、52、53、58、59、61、65、66、68、72、73;及び
ベータ:9、11、13、26、28、30、47、57、67、70、71、74、77、78、81、85、86、89、90。
これらの位置は、MHC-I/IIタンパク質がペプチドと接触する結合ポケット内の位置として以前に記載されている。データポイントの固有の部分配列のセットは、以後、「偽遺伝子型」と呼ばれることがある。場合によっては、複数の対立遺伝子名は、同じ34アミノ酸部分配列を特徴とし得る。これらの対立遺伝子は、注意ベースのP-MHCモデルを訓練するために同一であると考えられた。全ての空のフランク配列(タンパク質の末端に対するペプチドマップ)には、特別なアミノ酸文字「$」が割り当てられた。アミノ酸アルファベットで「NA」として読み取られるフランク配列がある6つのデータ点は、NAを「適用不可能」と解釈する特定のプログラミング言語のために考慮から除外された。
アルファ:9、11、22、24、31、52、53、58、59、61、65、66、68、72、73;及び
ベータ:9、11、13、26、28、30、47、57、67、70、71、74、77、78、81、85、86、89、90。
これらの位置は、MHC-I/IIタンパク質がペプチドと接触する結合ポケット内の位置として以前に記載されている。データポイントの固有の部分配列のセットは、以後、「偽遺伝子型」と呼ばれることがある。場合によっては、複数の対立遺伝子名は、同じ34アミノ酸部分配列を特徴とし得る。これらの対立遺伝子は、注意ベースのP-MHCモデルを訓練するために同一であると考えられた。全ての空のフランク配列(タンパク質の末端に対するペプチドマップ)には、特別なアミノ酸文字「$」が割り当てられた。アミノ酸アルファベットで「NA」として読み取られるフランク配列がある6つのデータ点は、NAを「適用不可能」と解釈する特定のプログラミング言語のために考慮から除外された。
訓練/検証/テスト分割は、以下の方法で行った:
EL=1の場合:各処理バッチ(各バッチはデータセットの元の供給源に基づいていた)について、単一対立遺伝子データを70/20/10の比で列/検証/試験群にわたってランダムに分割した。MHCクラスIIの場合、ペプチド配列からの長さ9の部分配列が、正確な遺伝子型一致を有するペプチドの訓練/検証/テストデータセット間で重複しないことが保証される。単一対立遺伝子データは、データセット全体にわたる111(39)個の固有のMHCクラスI(MHCクラスII)対立遺伝子をそれぞれ表す105(41)個の固有の部分配列で構成される。全ての複数対立遺伝子データをクラスIデータセットの訓練に完全に使用した。多対立遺伝子データは、データセット全体にわたって126(76)個の特有のMHCクラスI(MHCクラスII)遺伝子型からなる。処理バッチにわたるデータを組み合わせ、重複する{ペプチド、nフランク、cフランク、mhc0、mhc1、mhc2、mhc3、mhc4、mhc5}(MHCクラスI)、及び{ペプチド、nフランク、cフランク、mhc_dq1_1、mhc_dq1_2、mhc_dq1_3、mhc_dq1_4、mhc_dp1_1、mhc_dp1_2、mhc_dp1_3、mhc_dp1_4、mhc_dr1_1、mhc_dr1_2、mhc_dr3_1、mhc_dr3_2、mhc_dr4_1、mhc_dr4_2、mhc_dr5_1、mhc_dr5_2}(MHCクラスII)タプルを除外した。
EL=0の場合:EL=0の場合:各処理バッチについて、各{ペプチド、偽遺伝子型}対について、陰性ペプチドデータを訓練群及び検証群においてEL=1のデータで1:1の比でサンプリングした。試験群では、MHCクラスIについては1:99の比で、MHCクラスIIについては1:9の比でサンプリングした。処理バッチにわたるデータを組み合わせ、重複する観察結果を削除した。これにより、最終的に、MHCクラスIについては試験データの1.71%(1%に代えて)、MHCクラスIIについては11.15%(10%に代えて)が陽性として得られた。
「偽遺伝子型」における複数の部分配列、すなわち、複数対立遺伝子データを有する観察のため、陰性ペプチドを、各対立遺伝子について陽性ペプチドを排除することによって作製し、次いで、ランダムペプチドを、供給源タンパク質から選択した。
V.B.1.c.ベンチマークQC
データに冗長性がないことを保証するために、以下の下流QC手順に従った:1)標準的なアミノ酸のみが、ペプチド配列、Nフランク配列及びCフランク配列において許容される;2){Nフランク、ペプチド、Cフランク、偽遺伝子型}タプルの各セットは一意である;3)EL=1及びEL=0セットにおいて{Nフランク、ペプチド、Cフランク、偽遺伝子型}タプルのオーバーラップがない。MHCクラスIIについては、同一の偽遺伝子型を有するペプチドについて、EL=1とEL=0との間のペプチド配列内の長さ9部分配列間に重複がないことが更に保証される。
データに冗長性がないことを保証するために、以下の下流QC手順に従った:1)標準的なアミノ酸のみが、ペプチド配列、Nフランク配列及びCフランク配列において許容される;2){Nフランク、ペプチド、Cフランク、偽遺伝子型}タプルの各セットは一意である;3)EL=1及びEL=0セットにおいて{Nフランク、ペプチド、Cフランク、偽遺伝子型}タプルのオーバーラップがない。MHCクラスIIについては、同一の偽遺伝子型を有するペプチドについて、EL=1とEL=0との間のペプチド配列内の長さ9部分配列間に重複がないことが更に保証される。
異なる対立遺伝子名(2フィールド分解能、すなわち4桁分解能で)を有するいくつかの対立遺伝子は同じ偽遺伝子型を有し得るため、MHC(HLA)偽遺伝子型の数は対立遺伝子の数と異なり得る。
V.B.2.P-MHC-Iモデルの性能を評価するための免疫原性データセット
P-MHC-Iモデルの性能を評価するために、2つの異なるデータセットを使用した。第1の試験免疫原性データセットのために、腫瘍学対象はDNA配列決定され、その標準的なP-MHC結合から、MHCによって提示された及び/又はMHCに結合したネオ抗原を予測するためにIEDPv.2.13 BAを使用して予測を行った。このように予測されたネオ抗原を、腫瘍組織におけるそれらの発現、バリアント対立遺伝子頻度及びクローン性を使用して更に優先順位付けした。その後、上記で導入したRNAワクチンを対象に投与した。RNAワクチンに導入されたネオ抗原に対するT細胞応答を、多量体アッセイ及びELISPOTアッセイを使用して、投与された対象においてモニターした。これらのアッセイにおいていくつかの対照を使用して、技術的アーチファクトであると考えられるT細胞応答を除外した。第2の試験免疫原性データセットでは、Tumor Neoantigen Selection Alliance(TESLA)コンソーシアムによって同定されたチェックポイント遮断療法(但し、RNAワクチン療法ではない)を受けている腫瘍学対象から配列決定データを得た。MHCによって提示された及び/又はMHCに結合したネオ抗原を予測するために、NetMHCcons 1.0を使用してP-MHC結合予測を行った。免疫原性アッセイを、P-MHC-Iモデルによって予測されたネオ抗原で実行し、P-MHC-Iモデルの性能を評価するために使用した。
P-MHC-Iモデルの性能を評価するために、2つの異なるデータセットを使用した。第1の試験免疫原性データセットのために、腫瘍学対象はDNA配列決定され、その標準的なP-MHC結合から、MHCによって提示された及び/又はMHCに結合したネオ抗原を予測するためにIEDPv.2.13 BAを使用して予測を行った。このように予測されたネオ抗原を、腫瘍組織におけるそれらの発現、バリアント対立遺伝子頻度及びクローン性を使用して更に優先順位付けした。その後、上記で導入したRNAワクチンを対象に投与した。RNAワクチンに導入されたネオ抗原に対するT細胞応答を、多量体アッセイ及びELISPOTアッセイを使用して、投与された対象においてモニターした。これらのアッセイにおいていくつかの対照を使用して、技術的アーチファクトであると考えられるT細胞応答を除外した。第2の試験免疫原性データセットでは、Tumor Neoantigen Selection Alliance(TESLA)コンソーシアムによって同定されたチェックポイント遮断療法(但し、RNAワクチン療法ではない)を受けている腫瘍学対象から配列決定データを得た。MHCによって提示された及び/又はMHCに結合したネオ抗原を予測するために、NetMHCcons 1.0を使用してP-MHC結合予測を行った。免疫原性アッセイを、P-MHC-Iモデルによって予測されたネオ抗原で実行し、P-MHC-Iモデルの性能を評価するために使用した。
V.B.2.a.投与された対象の多量体アッセイ
第1の試験免疫原性データセットについて、多量体アッセイデータを、ペプチド-MHC多量体によるCD8 T細胞の検出について陽性又は陰性の結果について評価した。保存的基準を使用して、陽性結果:具体的には、二重四量体陽性CD8 T細胞数が0.05%を超えたかどうかを宣言した。より近いT細胞表現型検査がT細胞応答を強く示唆した場合、ネオエピトープ特異的CD8 T細胞が0.05%未満であるにもかかわらず、ネオエピトープのいくつかは陽性と呼ばれた。多量体アッセイデータから、1318個のネオエピトープが陰性と判定され、保存的基準に基づいて、これらのうちのごく一部が偽陰性であると予想される。27個のネオエピトープ-HLA対がワクチン接種後のみ陽性であると宣言され(デノボ応答と呼ばれる)、20個の対が既存のCD8 T細胞応答であると宣言された。
第1の試験免疫原性データセットについて、多量体アッセイデータを、ペプチド-MHC多量体によるCD8 T細胞の検出について陽性又は陰性の結果について評価した。保存的基準を使用して、陽性結果:具体的には、二重四量体陽性CD8 T細胞数が0.05%を超えたかどうかを宣言した。より近いT細胞表現型検査がT細胞応答を強く示唆した場合、ネオエピトープ特異的CD8 T細胞が0.05%未満であるにもかかわらず、ネオエピトープのいくつかは陽性と呼ばれた。多量体アッセイデータから、1318個のネオエピトープが陰性と判定され、保存的基準に基づいて、これらのうちのごく一部が偽陰性であると予想される。27個のネオエピトープ-HLA対がワクチン接種後のみ陽性であると宣言され(デノボ応答と呼ばれる)、20個の対が既存のCD8 T細胞応答であると宣言された。
V.B.2.b.投与された対象のELISpotアッセイ
さらに、第1の試験免疫原性データセットについて、ELISpotデータを収集した。ペプチド再刺激なしの陰性対照及びペプチド再刺激ありの試験症例のスポット数の統計的評価を実施して陽性呼び出しを宣言し(順列アプローチを使用して)、更に手動で検証して、所与の対象来院に対するネオ抗原の免疫原性について陽性又は陰性の結果を割り当てた。ネオ抗原は、処置前又は処置後にかかわらず、対象の来院のいずれかで陽性結果を示した場合、ELISpotアッセイで陽性と判定された。ネオ抗原を以下の基準に基づいて更にフィルタにかけた:(a)裁定者が決定したアッセイ結果値は「NA」ではなかった;(b)評価したP-MHC-1スコアリング方法(P-MHC-I、モデルA、モデルB)のいずれも、ネオ抗原に「NA」値を割り当てなかった;(c)プールされたネオ抗原を、検討から除外された再刺激に使用した。
さらに、第1の試験免疫原性データセットについて、ELISpotデータを収集した。ペプチド再刺激なしの陰性対照及びペプチド再刺激ありの試験症例のスポット数の統計的評価を実施して陽性呼び出しを宣言し(順列アプローチを使用して)、更に手動で検証して、所与の対象来院に対するネオ抗原の免疫原性について陽性又は陰性の結果を割り当てた。ネオ抗原は、処置前又は処置後にかかわらず、対象の来院のいずれかで陽性結果を示した場合、ELISpotアッセイで陽性と判定された。ネオ抗原を以下の基準に基づいて更にフィルタにかけた:(a)裁定者が決定したアッセイ結果値は「NA」ではなかった;(b)評価したP-MHC-1スコアリング方法(P-MHC-I、モデルA、モデルB)のいずれも、ネオ抗原に「NA」値を割り当てなかった;(c)プールされたネオ抗原を、検討から除外された再刺激に使用した。
全てのフィルタリング工程の後、ELISpotアッセイで評価された各細胞型についての陽性(免疫原性)及び陰性(非免疫原性)ネオ抗原の分布を以下に示す。Assay.value_binary=TRUEは免疫原性ネオ抗原を意味し、非免疫原性結果はAssay.value_binary=FALSEと標識された。
陽性アッセイを、ELISpotアッセイからのスポットカウントに基づいて2つのセットに更に分類した。各ELISpotアッセイは反復実験を行い、平均スポット数を反復実験にわたって特定した。陽性ネオ抗原の場合、全ての来院にわたる平均スポットカウントの最大値を考慮し、陽性ネオ抗原を2つのセットに分割し、一方はこのスポットカウント値<50を有し、他方はこのスポットカウント値>=50を有していた。後者のセットは、より広範なT細胞応答を誘導したネオ抗原を表し、スポット数がより少ないセットと比較して、ELISpot結果の偽陽性解釈を含む可能性が低い。50スポットの選択は、ELISpot陽性を呼び出すために使用された元の閾値(スポット数>15)よりも合理的に高かったため、任意の決定であった。
V.B.2.c.TESLA多量体アッセイ
第2の試験免疫原性データセットについて、TESLAコンソーシアムはネオ抗原予測を検証した。アッセイデータは、TESLAの対象識別子から対象1、2、3、4、10、12及び16について入手可能であった。アッセイ結果は、4つの異なるアッセイに基づいてTESLAによって提供された:TCR_FLOW_I、TCR_FLOW_II、ナノ粒子アッセイ及びTCR反応性アッセイ。TCR_FLOW_Iアッセイ結果をこの実施例で使用した。他のアッセイは、以下の理由のために無視した:(a)ナノ粒子アッセイは、非常に高感度であるように設計された単一細胞アッセイであるため、より高い偽陽性率を有すると予想される;(b)TCR_FLOW_IIは、TCR_FLOW_Iとほぼ冗長であり、両方とも異なる研究室で実行され、TCR_FLOW_IIはより少ないデータポイントを有する。TCR反応性アッセイは、T細胞をIL-2及び短いペプチドで7日間予備刺激し、続いて短いペプチドで再刺激した後の細胞内IFNg/TNFa染色アッセイである。TESLAチームは、ペプチド-MHC提示予測を評価するためにこのアッセイを使用することを支持しなかった。選択されたアッセイは、16の陽性結果及び196の陰性結果を有していた。
第2の試験免疫原性データセットについて、TESLAコンソーシアムはネオ抗原予測を検証した。アッセイデータは、TESLAの対象識別子から対象1、2、3、4、10、12及び16について入手可能であった。アッセイ結果は、4つの異なるアッセイに基づいてTESLAによって提供された:TCR_FLOW_I、TCR_FLOW_II、ナノ粒子アッセイ及びTCR反応性アッセイ。TCR_FLOW_Iアッセイ結果をこの実施例で使用した。他のアッセイは、以下の理由のために無視した:(a)ナノ粒子アッセイは、非常に高感度であるように設計された単一細胞アッセイであるため、より高い偽陽性率を有すると予想される;(b)TCR_FLOW_IIは、TCR_FLOW_Iとほぼ冗長であり、両方とも異なる研究室で実行され、TCR_FLOW_IIはより少ないデータポイントを有する。TCR反応性アッセイは、T細胞をIL-2及び短いペプチドで7日間予備刺激し、続いて短いペプチドで再刺激した後の細胞内IFNg/TNFa染色アッセイである。TESLAチームは、ペプチド-MHC提示予測を評価するためにこのアッセイを使用することを支持しなかった。選択されたアッセイは、16の陽性結果及び196の陰性結果を有していた。
V.B.3.比較モデル-NetMHCpan及びIEDBスコア
P-MHC-Iモデルとの性能比較のために、モデルA及びモデルBを使用して、BA及びEL値をペプチド-HLA対に割り当てた。P-MHC-IIモデルとの性能比較のために、モデルCを使用して、EL値をペプチド-MHC(HLA)対に割り当てた。これらの方法によってパーセンタイルスコアとして出力されるBA及びEL値は、(この実施例では)BA又はELと呼ばれる。これらのパーセンタイル値は、より低い値がより高い親和性又は提示の可能性を意味するように挙動する。より高い値がより強い親和性又は提示尤度を示すように挙動するスコア(例えば、MHC-Iについては、モデルAについての結合親和性スコア、モデルAについての溶出スコア、及びモデルBについての結合親和性スコア;MHC-IIについては、モデルCの結合親和性スコア)を得るために、これらの値の逆数をとることによって変換スコアリングスキームを使用した。ネオエピトープ-HLA対の場合、単一のそのようなスコアが得られる。ネオ抗原については、全てのネオエピトープ-HLA対を、変異を含有する8~14merの長さのネオエピトープ候補について検討し、最高スコアを有する対を選択してネオ抗原スコアを表した。
P-MHC-Iモデルとの性能比較のために、モデルA及びモデルBを使用して、BA及びEL値をペプチド-HLA対に割り当てた。P-MHC-IIモデルとの性能比較のために、モデルCを使用して、EL値をペプチド-MHC(HLA)対に割り当てた。これらの方法によってパーセンタイルスコアとして出力されるBA及びEL値は、(この実施例では)BA又はELと呼ばれる。これらのパーセンタイル値は、より低い値がより高い親和性又は提示の可能性を意味するように挙動する。より高い値がより強い親和性又は提示尤度を示すように挙動するスコア(例えば、MHC-Iについては、モデルAについての結合親和性スコア、モデルAについての溶出スコア、及びモデルBについての結合親和性スコア;MHC-IIについては、モデルCの結合親和性スコア)を得るために、これらの値の逆数をとることによって変換スコアリングスキームを使用した。ネオエピトープ-HLA対の場合、単一のそのようなスコアが得られる。ネオ抗原については、全てのネオエピトープ-HLA対を、変異を含有する8~14merの長さのネオエピトープ候補について検討し、最高スコアを有する対を選択してネオ抗原スコアを表した。
V.C.結果
V.C.1.提示データに対するP-MHC-Iモデル性能
図14A~Cは、1つ以上の実施形態による例示的な精密リコール(PR)曲線を含むプロットである。図14A~Cは、以前に使用されたアプローチと比較したP-MHC-Iモデルの性能を示す。溶出リガンド(EL)試験データセットを使用して、P-MHC-IモデルのEL出力、モデルAのEL出力、及びモデルCの結合親和性(BA)出力間の提示予測性能を評価した。
V.C.1.提示データに対するP-MHC-Iモデル性能
図14A~Cは、1つ以上の実施形態による例示的な精密リコール(PR)曲線を含むプロットである。図14A~Cは、以前に使用されたアプローチと比較したP-MHC-Iモデルの性能を示す。溶出リガンド(EL)試験データセットを使用して、P-MHC-IモデルのEL出力、モデルAのEL出力、及びモデルCの結合親和性(BA)出力間の提示予測性能を評価した。
図14Aは、P-MHC-Iモデルの性能を示すプロット1400を含む。図14Bは、その溶出出力に対するモデルAの性能を示すプロット1402を含む。図14Cは、その結合親和性出力に対するモデルBの性能を示すプロット1404を含む。プロット1400、1402、及び1404の各々の曲線上のドットは、スコアの上位1.71%分位点のスコア閾値に対応する(ゴールドスタンダード試験データの1.71%が陽性であるために選択される)。平均精度(AP)は、閾値非依存性の性能を表す。F1スコア、精度、及びリコール値は、1.71%閾値に基づく。
モデルA及びモデルBの値は、これらの方法からのパーセンタイル順位出力であった。P-MHC-Iモデル値は、P-MHC-Iモデルの(最終ノードの)出力から得た。これらのPR曲線に基づいて、図14A~Cの結果は、P-MHC-Iモデルが、モデルA及びモデルCの両方よりも改善された性能を示したことを示す(モデルAについては0.85対0.78及びモデルBについては0.57のAP値)。この方法のAP値を対立遺伝子ごとに比較した。
図15は、1つ以上の実施形態による試験データセット中の各対立遺伝子について、モデルA及びP-MHC-Iモデルの溶出-リガンド出力の例示的な平均精度値を比較するプロット1500である。単一対立遺伝子であった試験データセットは、少なくとも1000個のデータ点を含み、67個の対立遺伝子が基準を満たした。プロット1500に示すように、モデルAに対するP-MHC-Iモデルは、より高い性能を示した。プロット1500におけるマーカーのパターンは、対立遺伝子がHLA-A、B又はC遺伝子に由来するかどうかを示す。マーカーのサイズは、その対立遺伝子についてP-MHC-Iモデルを訓練する際に使用される単一対立遺伝子データの量を表し、これはまた、各対立遺伝子についての試験データの量と相関する。
図16A及び16Bは、それぞれ、1つ以上の実施形態による、ヒトデータセットに対するP-MHC-Iモデルの性能をマウスデータセットに対するP-MHC-Iモデルの性能と比較するプロット1600及びプロット1602のものである。これらのプロットによって示されるように、P-MHC-Iモデルは両方のデータセットについて良好に機能し、P-MHC-Iモデルの平均精度はヒト及びマウスデータセットの両方について類似していた。これらの結果は、P-MHC-Iモデルが、様々な種にわたって望ましい性能で使用することができる全種モデルであり得ることを実証している。
V.C.2.提示データに対するP-MHC-IIモデル性能
図17A及び図17Bは、それぞれ、1つ以上の実施形態による提示データに対するP-MHC-IIモデルの性能をモデルCと比較するプロット1700及びプロット1702である。モデルC値は、パーセンタイル順位出力であった。P-MHC-IIモデル値は、P-MHC-IIモデルの(最終ノードの)出力から得た。PR曲線からの平均精度を使用して、図17A及び17Bの結果は、AP.69を有するP-MHC-IIモデルを示し、AP.31を有するモデルCよりも改善された性能を示した。これら2つの方法のAP値を対立遺伝子ごとに比較した。
図17A及び図17Bは、それぞれ、1つ以上の実施形態による提示データに対するP-MHC-IIモデルの性能をモデルCと比較するプロット1700及びプロット1702である。モデルC値は、パーセンタイル順位出力であった。P-MHC-IIモデル値は、P-MHC-IIモデルの(最終ノードの)出力から得た。PR曲線からの平均精度を使用して、図17A及び17Bの結果は、AP.69を有するP-MHC-IIモデルを示し、AP.31を有するモデルCよりも改善された性能を示した。これら2つの方法のAP値を対立遺伝子ごとに比較した。
図18A及び18Bは、それぞれ、1つ以上の実施形態による、ホールドアウトデータセットに対するP-MHC-IIモデルの性能をそれぞれモデルCと比較するプロット1800及びプロット1802である。ここでも、84のAPを有するP-MHC-IIモデルは、46のAPを有するモデルCよりも改善された性能を示す。
図19は、1つ以上の実施形態による、試験データセットに対するモデルCを用いたP-MHC-IIモデルの平均精度の遺伝子型ごとの比較を示すプロット1900である。遺伝子型ごとに、P-MHC-IIモデルは、モデルCよりも改善された性能を有していた。
V.C.3.第1及び第2の試験免疫原性データセットの性能
第1及び第2の試験免疫原性データセットを使用して、T細胞応答データに対するP-MHC提示予測の性能を評価した。これらの評価では、免疫原性データについて訓練を行わず、ネオ抗原のアミノ酸配列及びMHCタンパク質のみを使用してP-MHC提示スコアを計算した。他の特徴、例えば、遺伝子又は変異対立遺伝子の発現は、還元論的様式でCD8 T細胞応答を予測することに対するP-MHC提示予測の寄与の評価を可能にするために使用されなかった。
第1及び第2の試験免疫原性データセットを使用して、T細胞応答データに対するP-MHC提示予測の性能を評価した。これらの評価では、免疫原性データについて訓練を行わず、ネオ抗原のアミノ酸配列及びMHCタンパク質のみを使用してP-MHC提示スコアを計算した。他の特徴、例えば、遺伝子又は変異対立遺伝子の発現は、還元論的様式でCD8 T細胞応答を予測することに対するP-MHC提示予測の寄与の評価を可能にするために使用されなかった。
V.C.3.a.投与された対象の多量体アッセイ
図20は、1つ以上の実施形態による、CD8多量体アッセイデータ(第1の試験免疫原性データセット)に対するP-MHC-Iモデル(EL出力)、モデルA(EL出力)及びモデルB(BA出力)の性能を示す受信者動作特性(ROC)曲線のプロット2000である。多量体アッセイから陽性ネオエピトープを予測する能力に関して性能を評価した。モデルA及びモデルBについては、より高い値がより強い結合親和性又は提示尤度を示すように、値を逆変換してEL及びBAスコアをそれぞれ得た。曲線下面積(AUC)をステップ関数に基づいて計算した。ROC曲線をプロットするステップ関数は、真陽性率(tpr)及び偽陽性率(fpr)を表す点を水平方向、次いで垂直方向に接続した。真陽性率(tpr)及び偽陽性率(fpr)の値は、RパッケージROCRを使用して計算した。
図20は、1つ以上の実施形態による、CD8多量体アッセイデータ(第1の試験免疫原性データセット)に対するP-MHC-Iモデル(EL出力)、モデルA(EL出力)及びモデルB(BA出力)の性能を示す受信者動作特性(ROC)曲線のプロット2000である。多量体アッセイから陽性ネオエピトープを予測する能力に関して性能を評価した。モデルA及びモデルBについては、より高い値がより強い結合親和性又は提示尤度を示すように、値を逆変換してEL及びBAスコアをそれぞれ得た。曲線下面積(AUC)をステップ関数に基づいて計算した。ROC曲線をプロットするステップ関数は、真陽性率(tpr)及び偽陽性率(fpr)を表す点を水平方向、次いで垂直方向に接続した。真陽性率(tpr)及び偽陽性率(fpr)の値は、RパッケージROCRを使用して計算した。
V.C.3.b.投与された対象のELISpotアッセイ
図21A~Dは、それぞれ、1つ以上の実施形態によるELISpotアッセイ(第1の試験免疫原性データセット)に対するP-MHC-Iモデル(El出力)、モデルA(EL出力)及びモデルB(BA出力)の性能を示すプロット2102、2104、2106、及び2108である。例示されるように、P-MHC-Iモデルは、強い予測力で良好に機能した。プロットは、PBMC ELISpot(図21A、PBMCパネル)及びCD8 ELISpot(図21B、CD8パネル)について示された別個のサブプロットを有する例示的なROC曲線を示す。より強いT細胞応答(図21C、CD8、スポット>=50)及び比較的弱いT細胞応答(図D、CD8、スポット<50)について、陽性CD8 ELISpotデータを更に2つのセットに分割し、ROC曲線を生成した。これらの2つのセットのROC曲線を生成するために、同じ陰性セットのネオ抗原を使用した。
図21A~Dは、それぞれ、1つ以上の実施形態によるELISpotアッセイ(第1の試験免疫原性データセット)に対するP-MHC-Iモデル(El出力)、モデルA(EL出力)及びモデルB(BA出力)の性能を示すプロット2102、2104、2106、及び2108である。例示されるように、P-MHC-Iモデルは、強い予測力で良好に機能した。プロットは、PBMC ELISpot(図21A、PBMCパネル)及びCD8 ELISpot(図21B、CD8パネル)について示された別個のサブプロットを有する例示的なROC曲線を示す。より強いT細胞応答(図21C、CD8、スポット>=50)及び比較的弱いT細胞応答(図D、CD8、スポット<50)について、陽性CD8 ELISpotデータを更に2つのセットに分割し、ROC曲線を生成した。これらの2つのセットのROC曲線を生成するために、同じ陰性セットのネオ抗原を使用した。
V.C.3.c.TESLA多量体アッセイ
図22A~Dは、それぞれ、1つ以上の実施形態による、モデルA(BA出力)、モデルA(EL出力)、モデルC(BA出力)、及びP-MHC-Iモデル(EL出力)の性能をそれぞれ示すプロット2202、2204、2206、及び2208である。TESLA免疫原性データ(第2の試験免疫原性データセット)で性能を評価し、多量体アッセイの結果を使用した。これらのプロットは、TESLA研究からの多量体アッセイによって評価された例示的なネオエピトープ-HLA対に対応する散布図である。応答は、TESLAによって指定されるアッセイからの陽性ヒットについてはTRUEであり、非免疫原性ネオエピトープについてはFALSEである。ウィルコクソン順位和検定を使用して、両側代替仮説のp値を計算した。Y軸は、より高い値がより強いペプチド-MHC結合又は提示に対応するような変換スコアを示す。
図22A~Dは、それぞれ、1つ以上の実施形態による、モデルA(BA出力)、モデルA(EL出力)、モデルC(BA出力)、及びP-MHC-Iモデル(EL出力)の性能をそれぞれ示すプロット2202、2204、2206、及び2208である。TESLA免疫原性データ(第2の試験免疫原性データセット)で性能を評価し、多量体アッセイの結果を使用した。これらのプロットは、TESLA研究からの多量体アッセイによって評価された例示的なネオエピトープ-HLA対に対応する散布図である。応答は、TESLAによって指定されるアッセイからの陽性ヒットについてはTRUEであり、非免疫原性ネオエピトープについてはFALSEである。ウィルコクソン順位和検定を使用して、両側代替仮説のp値を計算した。Y軸は、より高い値がより強いペプチド-MHC結合又は提示に対応するような変換スコアを示す。
図23は、1つ以上の実施形態による、TESLA多量体アッセイデータを使用した、モデルA(EL出力)、モデルB(BA出力)、及びP-MHC-Iモデル(EL出力)のROC曲線を比較したプロット2300の図である。多量体アッセイは、TCR_FLOW_Iアッセイであった。曲線下面積は、P-MHC-Iモデルで最も高かった。
V.D.結論
したがって、P-MHC提示予測方法を2つのタイプの評価データセット:免疫ペプチド実験からのP-MHC提示データ及び様々な免疫原性アッセイからのT細胞応答データで評価した。免疫ペプチド学データについて訓練された提示予測子は、これらのデータセットの多くにおいて現在の製造方法(IEDBv 2.13 BA出力)と比較して良好に機能する。P-MHCモデルは、データセットの多くにわたって改善された性能値を示した。したがって、免疫ペプチド学データについて訓練された注意ベースの技術を使用することは、in vitro結合親和性データに基づくモデルよりも優れている可能性がある。
したがって、P-MHC提示予測方法を2つのタイプの評価データセット:免疫ペプチド実験からのP-MHC提示データ及び様々な免疫原性アッセイからのT細胞応答データで評価した。免疫ペプチド学データについて訓練された提示予測子は、これらのデータセットの多くにおいて現在の製造方法(IEDBv 2.13 BA出力)と比較して良好に機能する。P-MHCモデルは、データセットの多くにわたって改善された性能値を示した。したがって、免疫ペプチド学データについて訓練された注意ベースの技術を使用することは、in vitro結合親和性データに基づくモデルよりも優れている可能性がある。
VI.コンピュータ実装システム
図26は、様々な実施形態によるコンピュータシステムのブロック図である。コンピュータシステム2600は、図1で上述したコンピューティングプラットフォーム102の一実施態様の一例であり得る。
図26は、様々な実施形態によるコンピュータシステムのブロック図である。コンピュータシステム2600は、図1で上述したコンピューティングプラットフォーム102の一実施態様の一例であり得る。
1つ以上の例において、コンピュータシステム2600は、情報を通信するためのバス2602又は他の通信機構と、情報を処理するためのバス2602に連関されたプロセッサ2604とを備えることができる。様々な実施形態において、コンピュータシステム2600はまた、プロセッサ2606によって実行される命令を決定するためにバス2602に連関された、ランダムアクセスメモリ(RAM)2604又は他の動的記憶デバイスとすることができるメモリを備えることができる。メモリはまた、プロセッサ2604によって実行される命令の実行中に一時変数又は他の中間情報を記憶するために使用されることができる。様々な実施形態において、コンピュータシステム2600は、プロセッサ2604のための静的情報及び命令を記憶するためにバス2602に連関された読み出し専用メモリ(ROM)2608又は他の静的記憶デバイスを更に含むことができる。磁気ディスク又は光ディスク等の記憶デバイス2610が設けられ、情報及び命令を記憶するためにバス2602に連関されることができる。
様々な実施形態において、コンピュータシステム2600は、バス2602を介して、コンピュータユーザに情報を表示するために、陰極線管(CRT)又は液晶ディスプレイ(LCD)等のディスプレイ2612に連関されることができる。英数字及び他のキーを含む入力デバイス2614は、情報及びコマンド選択をプロセッサ2604に通信するためにバス2602に連関させることができる。別の種類のユーザ入力デバイスは、プロセッサ2604に方向情報及びコマンド選択を通信し、ディスプレイ2612上のカーソル移動を制御するための、マウス、ジョイスティック、トラックボール、ジェスチャ入力デバイス、視線ベースの入力デバイス、又はカーソル方向キー等のカーソルコントロール2616である。この入力デバイス2614は、典型的には、デバイスが平面内の位置を指定することを可能にする第1の軸(例えば、x)及び第2の軸(例えば、y)の2軸の2自由度を有する。しかしながら、3次元(例えば、x、y及びz)カーソル移動を可能にする入力デバイス2614も本明細書で企図されることを理解されたい。
本教示の特定の実施と一致して、結果は、RAM2606に含まれる1つ以上の命令の1つ以上のシーケンスを実行するプロセッサ2604に応答して、コンピュータシステム2600によって提供されることができる。そのような命令は、記憶デバイス2610等の別のコンピュータ可読媒体又はコンピュータ可読記憶媒体からRAM2606に読み込まれることができる。RAM2606に含まれる命令のシーケンスの実行は、プロセッサ2604に本明細書に記載のプロセスを実行させることができる。或いは、本教示を実装するために、ソフトウェア命令の代わりに、又はソフトウェア命令と組み合わせて、ハードワイヤード回路が使用されることができる。したがって、本教示の実装形態は、ハードウェア回路とソフトウェアとの特定の組み合わせに限定されない。
本明細書で使用される「コンピュータ可読媒体」(例えば、データストア、ストーレージデバイス、データストレージデバイス等)又は「コンピュータ可読記憶媒体」という用語は、実行のためにプロセッサ2604に命令を提供することに関与する任意の媒体を指す。そのような媒体は、不揮発性媒体、揮発性媒体、及び伝送媒体を含むがこれらに限定されない多くの形態をとることができる。不揮発性媒体の例は、これらに限定されないが、記憶デバイス2610等の光学、固体、磁気ディスクを含むことができる。揮発性媒体の例は、これに限定されないが、RAM2606等のダイナミックメモリを含むことができる。伝送媒体の例は、これらに限定されないが、バス2602を備えるワイヤを含む、同軸ケーブル、銅線、及び光ファイバを含むことができる。
コンピュータ可読媒体の一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、又は任意の他の磁気媒体、CD-ROM、任意の他の光学媒体、パンチカード、紙テープ、孔のパターンを有する任意の他の物理媒体、RAM、PROM、及びEPROM、フラッシュEPROM、任意の他のメモリチップ又はカートリッジ、又はコンピュータが読み取ることができる任意の他の有形媒体を含む。
コンピュータ可読媒体に加えて、命令又はデータは、実行のためにコンピュータシステム2600のプロセッサ2604に1つ以上の命令のシーケンスを提供するために、通信装置又はシステムに含まれる伝送媒体上の信号として提供されることができる。例えば、通信装置は、命令及びデータを示す信号を有するトランシーバを含むことができる。命令及びデータは、1つ以上のプロセッサに、本明細書の開示に概説される機能を実装させるように構成される。データ通信伝送接続の代表的な例は、これらに限定されないが、電話モデム接続、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、赤外線データ接続、NFC接続、光通信接続等を含むことができる。
本明細書に記載のフローチャート、図、及び付随する開示は、コンピュータシステム2600をスタンドアロンデバイスとして使用して、又はクラウドコンピューティングネットワーク等の共有コンピュータ処理リソースの分散ネットワーク上で実装されることができることを理解されたい。
本明細書に記載の方法論は、用途に応じて様々な手段によって実装されることができる。例えば、これらの方法は、ハードウェア、ファームウェア、ソフトウェア、又はそれらの任意の組み合わせで実装されることができる。ハードウェア実装の場合、処理ユニットは、1つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書に記載された機能を実行するように設計された他の電子ユニット、及び/又はそれらの組み合わせ内に実装されることができる。
様々な実施形態において、本教示の方法は、C、C++、Python等の従来のプログラミング言語で書かれたファームウェア及び/又はソフトウェアプログラム及びアプリケーションとして実装されてもよい。ファームウェア及び/又はソフトウェアとして実装される場合、本明細書に記載の実施形態は、コンピュータに上述の方法を実行させるためのプログラムが格納された非一時的コンピュータ可読媒体上に実装することができる。本明細書に記載の様々なエンジンは、コンピュータシステム2600等のコンピュータシステム上に提供されることができ、それによってプロセッサ2604は、メモリ構成要素RAM2606、ROM、2608、又はストーレージデバイス2610、及び入力デバイス2614を介して提供されるユーザ入力のいずれか一方又はそれらの組み合わせによって提供される命令に従って、これらのエンジンによって提供される分析及び決定を実行することを理解されたい。
VII.用語の説明の例
本明細書で使用される場合、「ペプチド」、「ポリペプチド」及び「タンパク質」という用語は、交換可能に使用され、アミノ酸残基のポリマーを指す。この用語は、共有結合ペプチド結合によって連結されたアミノ酸残基を有する全長タンパク質を含む、任意の長さのアミノ酸鎖を包含する。
本明細書で使用される場合、「ペプチド」、「ポリペプチド」及び「タンパク質」という用語は、交換可能に使用され、アミノ酸残基のポリマーを指す。この用語は、共有結合ペプチド結合によって連結されたアミノ酸残基を有する全長タンパク質を含む、任意の長さのアミノ酸鎖を包含する。
本明細書で使用される場合、「変異ペプチド」は、個々の対象の正常組織(例えば、正常組織の野生型アミノ酸配列)に存在しないペプチドを指し得る。変異ペプチドは、少なくとも1つの変異アミノ酸を含み、疾患組織(例えば、特定の対象から収集される)に存在し得るが、正常組織(例えば、特定の対象から収集されたもの、異なる対象から収集されたもの、及び/又は正常組織に対応するものとしてデータベースで同定されたもの)には存在し得ない。変異ペプチドはエピトープを含み得る。エピトープは、MHC分子又はT細胞受容体(TCR)が結合する変異ペプチドの部分である。したがって、変異ペプチドのエピトープとMHC分子又はTCRとの間のこの結合は、(変異ペプチドが対象の「自己」と関連していない結果として)免疫応答を誘導することができる。変異ペプチドは、ネオ抗原を含むことができ、又はネオ抗原であり得る。変異ペプチドは、例えば、タンパク質中の異なるアミノ酸をもたらす非同義変異(例えば、点突然変異);終止コドンが改変又は欠失され、C末端に新規な腫瘍特異的配列を有するより長いタンパク質の翻訳をもたらすリードスルー突然変異;特有の腫瘍特異的タンパク質配列をもたらすスプライス部位突然変異;2つのタンパク質の接合部(すなわち、遺伝子融合)に腫瘍特異的配列を有するキメラタンパク質及び/又は腫瘍特異的タンパク質配列を有する新しいオープンリーディングフレームをもたらすフレームシフト挿入若しくは欠失を生じさせる染色体再編成から生じ得る。変異ペプチドは、(ポリペプチド配列によって特徴付けられる)ポリペプチドを含むことができ、及び/又はヌクレオチド配列によってコードされ得る。
本明細書で使用される場合、ペプチドの「Cフランク」は、親タンパク質からの、ペプチドのC末端の上流の1つ以上のアミノ酸を指す。任意に、ペプチドのCフランクは、ペプチドのC末端の上流の1、2、3、4、5又はそれ以上のアミノ酸残基を含む。
本明細書で使用される場合、ペプチドの「Nフランク」は、親タンパク質からの、ペプチドのN末端の下流の1つ以上のアミノ酸を指す。任意に、ペプチドのCフランクは、ペプチドのN末端の下流の1、2、3、4、5又はそれ以上のアミノ酸残基を含む。
本明細書で使用される場合、ペプチドの「エピトープ」は、CフランクとNフランクとの間のペプチドの領域を指し得、TCRによって認識され得る。ペプチドのエピトープは、T細胞上のTCR及び抗原提示細胞上のMHC Iによって認識されるペプチドの一部である。例えば、エピトープは、TCRが結合するペプチド、例えば、ペプチドが抗原提示細胞上のMHC Iに結合した場合にTCRが結合するペプチドであり得る。
本明細書で使用される場合、「リガンド」は、溶出実験から細胞表面にMHC分子によって提示されることが見出されるか、又はin vitroアッセイでMHCに結合することが見出されるペプチドである。
本明細書で使用される場合、「配列」は、アミノ酸識別子の順序付きセットを含むアミノ酸配列を指す。
本明細書で使用される場合、「ペプチド配列」は、ペプチドの少なくとも一部のアミノ酸を同定する配列を指す。場合によっては、ペプチド配列は、対応する参照配列において観察されないバリアントを含むバリアントコード配列を含む。
ペプチドが変異ペプチドを含む場合、バリアントコード配列は、変異又はバリアントのアミノ酸を同定する。しかしながら、ペプチドが変異又はバリアントを含まない場合、バリアントコード配列は変異又はバリアントのアミノ酸を同定しない(その場合、参照配列と同じである)。バリアントコード配列は、疾患及び/又は腫瘍試料(例えば、腫瘍細胞を含む)を収集し、配列決定分析を行って試料中の疾患及び/又は腫瘍細胞に対応する1つ以上の配列を同定することによって決定することができる。場合によっては、配列決定分析はアミノ酸配列を出力する。いくつかの例では、配列決定分析は核酸配列を出力し、これはその後、コドンをアミノ酸識別子に変換し、したがってアミノ酸配列を生成するために処理され得る。バリアントコード配列は、ネオ抗原の配列を含み得る。バリアントコード配列は、ペプチドの1つ以上の末端(例えば、C末端及び/又はN末端)を含んでもよいが、含まなくてもよい。バリアントコード配列は、ペプチドのエピトープを含み得る。バリアントコード配列は、対応する参照配列と比較して1つ以上のバリアント(例えば、1つ以上のアミノ酸の区別)を有するペプチド内のアミノ酸を同定することができる。いくつかの例では、バリアントコード配列は、アミノ酸の順序付きセットを含む。いくつかの例では、バリアントコード配列は、参照ペプチド(例えば、遺伝子、開始位置及び/又は終了位置等によって遺伝子参照配列を同定することによって;又は遺伝子によって、開始位置及び/又は長さ)及び参照ペプチドに対する1つ以上の点突然変異を同定する。
本明細書で使用される場合、「参照配列」は、非変異ペプチド又は野生型ペプチド(例えば、野生型の親配列)の少なくとも一部内のアミノ酸を同定する配列を指し得る。非変異体又は野生型ペプチドは、バリアントを含まないか、又は変異ペプチドに含まれるよりも少ないバリアントを含み得る。参照配列は、対応するバリアントコード配列を含む遺伝子と比較して同じ遺伝子内の遺伝子配列によってコードされるアミノ酸配列を含み得る。参照配列は、対応するバリアントコード配列に関連する遺伝子配列に関連する遺伝子内位置に対して、遺伝子内の同じ開始及び停止に及ぶ遺伝子配列によってコードされるアミノ酸配列を含み得る。参照配列は、1人以上の対象(バリアントコード配列を決定するために疾患試料が収集された対象を含み得るが、そうである必要はない)から非疾患及び/又は非腫瘍試料を収集し、その試料を用いて配列決定分析を行うことによって同定され得る。
本明細書で使用される場合、MHC分子の「疑似配列」は、ペプチドと接触するMHC分子のアミノ酸の順序付きセットを指し得る。
本明細書で使用される場合、配列の「表現」は、配列中のアミノ酸を表す若しくは同定する値のセット及び/又は配列をコードする核酸を表す若しくは同定する値のセットを含み得る。例えば、各アミノ酸は、互いのアミノ酸を表す互いのバイナリ列及び/又はベクトルとは異なる値のバイナリ列及び/又はベクトルによって表され得る。この表現は、例えば、ワン・ホット・エンコーディング(one-hot encoding)を用いて、又は、ブロック代替行列(BLOcks SUbstitution Matrix)(BLOSUM)の行列を用いて生成され得る。例えば、多次元(例えば、20次元又は21次元)配列が初期化される(例えば、ランダム又は擬似ランダムに初期化される)。初期化されたアレイは、各アミノ酸について、そのアミノ酸に対応する特有のベクトルを含み得る。値は、そのような特有のベクトルの使用が対応するアミノ酸を表すと仮定され得るように固定され得る。複数のコドンのいずれかが単一のアミノ酸をコードすることができると仮定すると、所与の配列の複数の可能な核酸表現が存在し得る。
本明細書で使用される場合、ペプチドの「提示」は、特定の様式でMHC分子に結合することによって細胞の表面に提示されるペプチドの少なくとも一部を指す。次いで、提示されたペプチドは、近くのT細胞等の他の細胞にアクセス可能であり得る。
本明細書で使用される場合、「試料」は、組織(例えば、生検)、単一細胞、複数の細胞、細胞の断片、又は体液のアリコートを含み得る。試料は、例えば、限定されないが、静脈穿刺、排泄、射精、マッサージ、生検、針吸引物、洗浄液試料、掻き取り、外科的切開、介入、別の種類の試料採取手段、又はそれらの組み合わせ等の手段によって対象から得ることができる。
本明細書で使用される場合、「対象」は、1つ以上の細胞、組織、又は生物を包含する。対象は、in vivo、ex vivo、又はin vitro、雄性又は雌性を問わず、ヒト又は非ヒトであり得る。対象は、ヒト等の哺乳動物であり得る。
本明細書で使用される場合、「結合親和性」は、ペプチド(例えば、特異的抗原の)とMHC(例えば、MHC分子及び/又はMHC対立遺伝子)との間の結合の親和性を指す。結合親和性は、ペプチドとMHC分子との間の結合の安定性、傾向、及び/又は強度を特徴付けることができる。
本明細書で使用される場合、「免疫原性」は、免疫応答(例えば、T細胞及び/又はB細胞を介して)を誘発する能力を指し得る。「免疫原性」であるペプチドは、免疫応答を誘発することができるペプチドであり得る。
本明細書で使用される場合、「MHC」は、主要組織適合遺伝子複合体を指す。ヒトMHCは、ヒト白血球抗原(HLA)複合体とも呼ばれる。
VIII.例示的な実施形態
実施形態1.方法が提供される。本方法は、ペプチドのセットを特徴付けるペプチド配列のセットにアクセスすることであって、ペプチド配列のセットの各ペプチド配列が、対象からの疾患試料を処理することによって同定されている、ペプチド配列のセットにアクセスすることを含む。本方法は、対象の免疫タンパク質複合体(IPC)について同定された免疫タンパク質複合体(IPC)配列にアクセスすることを含む。本方法は、注意ベースの機械学習モデルの初期注意サブシステム内の第1の注意ブロックを用いてペプチド配列のセットを表すペプチド表現のセットと、初期注意サブシステム内の第2の注意ブロックを用いてIPC配列を表す免疫タンパク質複合体(IPC)表現とを処理して、出力を生成することであって、出力が、対応するペプチド-IPC組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも1つを含む、処理して、出力を生成することを含む。本方法は、出力に基づいてレポートを生成することを含む。
実施形態1.方法が提供される。本方法は、ペプチドのセットを特徴付けるペプチド配列のセットにアクセスすることであって、ペプチド配列のセットの各ペプチド配列が、対象からの疾患試料を処理することによって同定されている、ペプチド配列のセットにアクセスすることを含む。本方法は、対象の免疫タンパク質複合体(IPC)について同定された免疫タンパク質複合体(IPC)配列にアクセスすることを含む。本方法は、注意ベースの機械学習モデルの初期注意サブシステム内の第1の注意ブロックを用いてペプチド配列のセットを表すペプチド表現のセットと、初期注意サブシステム内の第2の注意ブロックを用いてIPC配列を表す免疫タンパク質複合体(IPC)表現とを処理して、出力を生成することであって、出力が、対応するペプチド-IPC組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも1つを含む、処理して、出力を生成することを含む。本方法は、出力に基づいてレポートを生成することを含む。
実施形態2.ペプチド配列のセットの少なくとも1つのペプチド配列が、対応する参照配列に対するバリアントを含むバリアントコード配列を含む、実施形態1に記載の方法。
実施形態3.処理することが、ペプチド配列のセットの対応するペプチド配列に対するペプチド表現のセットのペプチド表現を受信することと、第1の注意ブロックを介してペプチド表現を変換ペプチド表現に変換することであって、第1の注意ブロックが注意サブブロックのセットを含み、注意サブブロックのセットの各注意サブブロックが自己注意層を含む、ペプチド表現を変換ペプチド表現に変換することとを含む、実施形態1又は実施形態2に記載の方法。
実施形態4.処理することが、IPC表現を受信することと、第2の注意ブロックを介してIPC表現を変換IPC表現に変換することであって、第2の注意ブロックが注意サブブロックのセットを含み、注意サブブロックのセットの各注意サブブロックが自己注意層を含む、IPC表現を変換IPC表現に変換することとを含む、実施形態1~3のいずれか一項に記載の方法。
実施形態5.ペプチド表現の少なくとも一部がペプチド配列中のモノマーに対応し、IPC表示の少なくとも一部がIPC配列中のモノマーに対応し、処理することが、第1の注意ブロック及び重みの第1のセットを使用して、ペプチド表現に基づいて変換ペプチド表現を生成することと、第2の注意ブロックと重みの第2のセットとを使用してIPC表現に基づいて変換IPC表現を生成することと、変換ペプチド表現及び変換MHC表現を使用して複合表現を生成することとを含む、実施形態1~4のいずれか一項に記載の方法。
実施形態6.ペプチド配列のセットのペプチド配列を埋め込んで、ペプチド配列についての埋め込みペプチド表現を生成することと、任意に、ペプチド配列についての埋め込みペプチド表現を位置的にコードして、ペプチド配列を表現するペプチド表現のセットのペプチド表現を生成することとを含む、実施形態1~5のいずれか一項に記載の方法。
実施形態7.第1の注意ブロックが、注意サブブロックのセットを含み、注意サブブロックのセットの各注意サブブロックが、少なくとも1つの自己注意層を含むニューラルネットワークを含む、実施形態1~6のいずれか一項に記載の方法。
実施形態8.第2の注意ブロックが、注意サブブロックのセットを含み、注意サブブロックのセットの各注意サブブロックが、少なくとも1つの自己注意層を含むニューラルネットワークを含む、実施形態1~7のいずれか一項に記載の方法。
実施形態9.第1の注意ブロックが、第1の複数の注意サブブロックを含み、第2の注意ブロックが、第1の複数の注意サブブロックを含み、第1の注意サブブロックセット及び第2の注意サブブロックセットの各注意サブブロックが、少なくとも1つの自己注意層を含むニューラルネットワークを含む、実施形態1~8のいずれか一項に記載の方法。
実施形態10.ペプチド表現のセットのペプチド表現が、第1の注意ブロックを使用して処理された集約表現の第1の部分を形成し、集約表現の第2の部分が、Nフランク配列又はCフランク配列のうちの少なくとも1つを表す、実施形態1~9のいずれか一項に記載の方法。
実施形態11.ペプチド配列のセットのペプチド配列が、集約配列の第1の部分を形成し、集約配列の第2の部分が、Nフランク配列又はCフランク配列のうちの少なくとも1つを含み、注意ベースの機械学習モデルが、集約配列を受信し、処理して、ペプチド配列に対応するペプチド表現のセットのペプチド表現を含む集約表現を形成する表現ブロックを含み、集約表現が、第1の注意ブロックによって処理される、実施形態1~10のいずれか一項に記載の方法。
実施形態12.IPC配列を埋め込んでIPC配列の埋め込みIPC表現を生成することと、任意に、IPC配列の埋め込みIPC表現を位置的にコードして、IPC表現を生成することとを含む、実施形態1~11のいずれか一項に記載の方法。
実施形態13.注意ベースの機械学習モデルが、複数の自己注意層と、複数の自己注意層の各々について、対応する下流フィードフォワードニューラルネットワークとを含む、実施形態1~12のいずれか一項に記載の方法。
実施形態14.第1の注意ブロックが、ペプチド表現のセットのペプチド表現を受信し、処理して、変換ペプチド表現を生成するように構成された第1のニューラルネットワークと、第2の注意ブロックが、IPC表現を受信して処理して変換IPC表現を生成するように構成された第2のニューラルネットワークと含み、第1のニューラルネットワーク及び第2のニューラルネットワークのそれぞれが、少なくとも1つの自己注意層を含み、注意ベースの機械学習モデルが、変換ペプチド表現及び変換IPC表現を使用して複合表現を生成するように構成される、実施形態1~13のいずれか一項に記載の方法。
実施形態15.注意ベースの機械学習モデルが、複合表現を受信し、処理するように構成されたニューラルネットワークを含む複合注意ブロックを更に含み、ニューラルネットワークが自己注意層を含む、実施形態1~14のいずれか一項に記載の方法。
実施形態16.注意ベースの機械学習モデルが、cj風位サブブロックのセットを含む複合注意ブロックを更に含み、注意サブブロックのセットの各注意サブブロックが、少なくとも1つの自己注意層を含むニューラルネットワークを含む、実施形態1~15のいずれか一項に記載の方法。
実施形態17.IPCが主要組織適合遺伝子複合体(MHC)を含み、対応するペプチド-IPC組み合わせがペプチドのセットのペプチドとMHCとを含み、対応するペプチド-IPC組み合わせについての相互作用親和性予測がペプチドとMHCとの間の結合親和性を予測し、対応するペプチド-IPC組み合わせについての相互作用予測が、MHCが細胞表面にペプチドを提示するかどうかを予測する、実施形態1~16のいずれか一項に記載の方法。
実施形態17.IPCが主要組織適合遺伝子複合体(MHC)を含み、対応するペプチド-IPC組み合わせがペプチドのセットのペプチドとMHCとを含み、対応するペプチド-IPC組み合わせについての相互作用親和性予測がペプチドとMHCとの間の結合親和性を予測し、対応するペプチド-IPC組み合わせについての相互作用予測が、MHCが細胞表面にペプチドを提示するかどうかを予測する、実施形態1~16のいずれか一項に記載の方法。
実施形態18.注意ベースの機械学習モデルが、複数の訓練ペプチド配列及び訓練MHC配列のセットについての実験的相互作用親和性データ又は実験的相互作用データのうちの少なくとも1つを含む訓練データセットを使用して訓練される、実施形態1~17のいずれか一項に記載の方法。
実施形態19.IPCがT細胞受容体(TCR)であり、対応するペプチド-IPCの対がペプチドのセットのペプチドとTCR又はTCRのいずれかと主要組織適合遺伝子複合体(MHC)とを含み、対応するペプチド-IPC組み合わせの免疫原性予測が、TCRに対するペプチドの免疫原性を予測し、注意ベースの機械学習モデルが、複数の訓練ペプチド配列及び訓練TCR配列のセットについての実験的免疫原性データを含む訓練データセットを使用して訓練される、実施形態1~18のいずれか一項に記載の方法。
実施形態20.訓練データセットが複数の訓練データ要素を含み、複数の訓練データ要素のうちの少なくとも1つの訓練データ要素が、ペプチドのセットに含まれない訓練ペプチドを特徴付ける訓練ペプチド配列、IPCとは異なる訓練IPCを特徴付ける訓練IPC配列、及び訓練ペプチドと訓練IPCとの間の相互作用親和性指標を特定する実験ベースの結果であって、相互作用親和性指標が、アッセイ又はバイオセンサベースの方法論を使用して検出された、実験ベースの結果のうちの少なくとも1つを含む、実施形態1~19のいずれか一項に記載の方法。
実施形態21.訓練データセットが複数の訓練データ要素を含み、複数の訓練データ要素のうちの少なくとも1つの訓練データ要素が、ペプチドのセットに含まれない訓練ペプチドを特徴付ける訓練ペプチド配列、IPCとは異なる訓練MHCを特徴付ける訓練MHC配列、及び訓練ペプチドが訓練MHCによって細胞表面に提示されたかどうかを特定する相互作用指標を含む実験ベースの結果であって、免疫沈降又は質量分析の少なくとも1つが相互作用指標を決定するために使用された、実験ベースの結果のうちの少なくとも1つを含む、実施形態1~20のいずれか一項に記載の方法。
実施形態22.処理工程の前に、複数のペプチド-IPC組み合わせについての結合親和性、相互作用指標、又は免疫原性指標のうちの少なくとも1つを含む訓練データセットを使用して、注意ベースの機械学習モデルを訓練することを更に含み、訓練データセットが、複数の訓練ペプチド配列と、複数の訓練主要組織適合遺伝子複合体(MHC)配列又は複数の訓練T細胞受容体(TCR)配列のうちの少なくとも1つとを含む、実施形態1~21のいずれか1つに記載の方法。
実施形態23.処理することが、第1の注意ブロックを使用してペプチド表現のセットを処理し、第2の注意ブロックを使用してIPC表現を処理して、ペプチド-IPC組み合わせのセットに対する複合表現のセットを生成することと、複合表現のセットを処理して結果のセットを生成することと、ペプチド-IPC組み合わせのセットのサブセットを選択することであって、ペプチド-IPC組み合わせのセットの残りのサブセットと比較して、サブセットの各ペプチド-IPC組み合わせで選択された相互作用のセットが生じる可能性がより高いペプチド-IPC組み合わせのセットのサブセットを選択することとを含み、、レポートがサブセット内の各ペプチドを同定する、実施形態1~22のいずれか一項に記載の方法。
実施形態24.ペプチドのセットの各ペプチドが、ペプチド-IPC組み合わせを形成するために使用され、注意ベースの機械学習モデルが、ペプチド-IPC組み合わせのセットの各ペプチド-IPC組み合わせについての免疫原性予測を生成するように構成され、ペプチド-IPC組み合わせのセットのペプチド-IPC組み合わせについての免疫原性予測が、ペプチド-IPC組み合わせにおけるペプチドの腫瘍特異的免疫原性の予測である、実施形態1~23のいずれか一項に記載の方法。
実施形態25.レポートが、ペプチドのセットの残りの部分と比較して、腫瘍特異的免疫原性が増加したペプチドのセットからペプチドのサブセットを同定する、実施形態1~24のいずれか一項に記載の方法。
実施形態26.IPCが主要組織適合遺伝子複合体(MHC)であり、ペプチドのセットの各ペプチドが、ペプチド-MHC組み合わせのセットを形成するために使用され、注意ベースの機械学習モデルが、ペプチド-MHC組み合わせのセットの各ペプチド-MHC組み合わせについての相互作用予測を生成するように構成され、ペプチド-MHC組み合わせのセットのペプチド-MHC組み合わせについての相互作用予測が、ペプチド-MHC組み合わせ中のペプチドが細胞表面にMHCによって提示されるかどうかの予測である、実施形態1~25のいずれか一項に記載の方法。
実施形態27.レポートが、ペプチドのセットの残りの部分と比較して、MHCによる提示の可能性が高いペプチドのセットからペプチドのサブセットを同定する、実施形態26に記載の方法。
実施形態28.ペプチド配列のセットのペプチド配列が、変異ペプチドを特徴付けるバリアントコード配列であり、バリアントコード配列が、変異ペプチドのN末端の配列を同定する第1部分を含と、変異ペプチドのエピトープの配列を同定する第2の部分とを含み、処理することが、初期注意サブシステムの第1の自己注意層を使用して、バリアントコード配列の第1の部分の第1の表現を処理することを含と、初期注意サブシステムの第2の自己注意層を使用して、バリアントコード配列の第2の部分の第2の表現を処理することとを含む、実施形態1~27のいずれか一項に記載の方法。
実施形態29.第1の表現及び第2の表現が、第1の注意ブロック内で処理される、実施形態28に記載の方法。
実施形態30.注意ベースの機械学習モデルが、1つ以上の変換器エンコーダを含み、1つ以上の変換器エンコーダの各々が、自己注意層を含む、実施形態1~29のいずれか一項に記載の方法。
実施形態31.IPC配列及びペプチド配列のセットのそれぞれが、アミノ酸識別子の順序付きセットを含む、実施形態1~30のいずれか一項に記載の方法。
実施形態32.IPC配列が、疾患試料を使用して同定される、実施形態1~31のいずれか一項に記載の方法。
実施形態33.IPC配列が、対象からの生物学的試料を使用して同定される、実施形態1~32のいずれか一項に記載の方法。
実施形態34.疾患試料ががん細胞を含む、実施形態1~33のいずれか1つに記載の方法。
実施形態35.対象のIPCが主要組織適合遺伝子複合体(MHC)を含み、IPC配列がMHC配列を含み、IPC表現がMHC表現を含む、実施形態1~34のいずれか一項に記載の方法。
実施形態36.MHCがMHCクラスI分子を含む、実施形態35に記載の方法。
実施形態37.MHCがMHCクラスII分子を含む、実施形態35に記載の方法。
実施形態38.対象のIPCがT細胞受容体(TCR)を含み、IPC配列がTCR配列を含み、IPC表現がTCR表現を含む、実施形態1~35のいずれか一項に記載の方法。
実施形態39.疾患試料が組織を含む、実施形態1~38のいずれか1つに記載の方法。
実施形態40.ペプチドのセットの少なくとも1つのペプチドがネオ抗原である、実施形態1~39のいずれか一項に記載の方法。
実施形態41.ペプチド配列のセットの少なくとも1つのペプチド配列が、疾患試料に由来するゲノム配列である、実施形態1~40のいずれか一項に記載の方法。
実施形態42.少なくとも1つのバリアントコード配列のセットのそれぞれが、疾患試料のRNA配列に基づく、実施形態1~41のいずれか一項に記載の方法。
実施形態43.対応するペプチド-IPC組み合わせが、ペプチドのセットからのペプチド及びIPCを含み、IPCが主要組織適合遺伝子複合体(MHC)であり、相互作用親和性予測が、ペプチドとMHCとの間の結合に対する結合親和性の予測であり、相互作用予測が、細胞表面におけるMHCによるペプチドの提示の予測である、実施形態1~42のいずれか一項に記載の方法。
実施形態44.ユーザによって入力された入力データを受信することであって、入力データが対象に対応する、入力データを受信することを更に含み、ペプチド配列のセット及びIPC配列が、入力データの受信に応答して、データストアからの検索を介してアクセスされ、レポートが、対象の病状を処置するための個別化ワクチンに含めるペプチドのセットからペプチドのサブセットを同定する、実施形態1~43のいずれか一項に記載の方法。
実施形態45.個別化ワクチンを含む対象への処置勧告を生成することを更に含む、実施形態44に記載の方法。
実施形態46.ユーザによって入力された入力データを受信することであって、入力データが対象に対応し、ペプチド配列のセット及びIPC配列が、入力データの受信に応答して、データストアからの検索を介してアクセスされる、入力データを受信することと、レポートに基づいて、個別化ワクチンに含めるための処置ペプチドのセットを決定することと、処置ペプチドのセットを含む個別化ワクチンの製造を容易にする動作を開始することとを更に含む、実施形態1~45のいずれか一項に記載の方法。
実施形態47.動作を開始することが、個別化ワクチンの製造に関与するコンピュータ化プロセスをトリガするアラートを生成することを含む、実施形態46に記載の方法。
実施形態48.処理することが、注意ベースの機械学習モデルの埋め込みブロックから、複数の要素を含む表現を受信することであって、表現が、ペプチド配列のセット中のペプチド配列を表すペプチド表現のセットのペプチド表現、又はIPC配列を表すIPC表現のいずれかであり、複数の要素のデータセット内の各要素が、ペプチド配列又はIPC配列のいずれかにおけるモノマーに対応する、複数の要素を含む表現を受信することと、複数の要素の各要素について、注意ベースの機械学習モデルの自己注意層に関連付けられたキー重みのセット、値重みのセット、及びクエリ重みのセットに基づいて、それぞれキーベクトル、値ベクトル、及びクエリベクトルを決定することと、複数の要素の変換を実行して複数の修正要素を形成することであって、変換が、複数の要素について生成された注意スコアと、複数の要素の各々について決定された値ベクトルとを使用して実行される、複数の修正要素を形成することと、複数の修正要素に基づいて出力を生成することとを含む、実施形態1~47のいずれか一項に記載の方法。
実施形態49.複数の要素のうちの選択された要素に対して変換を実行することが、要素のキーベクトル及びクエリベクトルを使用して選択された要素の注意スコアを決定することであって、選択された要素以外の複数の要素の残りの部分が残りの要素のセットを形成する、選択された要素の注意スコアを決定することと、残りの要素のキーベクトル及び選択された要素のクエリベクトルを使用して、残りの要素のセットの残りの要素のそれぞれについて追加の注意スコアを決定して、追加の注意スコアのセットを形成することと、注意スコアと、追加の注意スコアのセットと、複数の要素の各要素についての値ベクトルとを使用して、修正要素を生成することとを含む、実施形態48に記載の方法。
実施形態50.ディスプレイシステム上のグラフィカルユーザインターフェース上にレポートを表示することを更に含む、実施形態1~49のいずれか一項に記載の方法。
実施形態51.処理することが第1のコンピューティングプラットフォーム上で実行されることを含み、有線通信リンク又は無線通信リンクのうちの少なくとも1つを含む通信リンクのセットを介して第2のコンピューティングプラットフォームにレポートを送ることを更に含む、実施形態1~50のいずれか一項に記載の方法。
実施形態52.レポートに基づいて、ペプチドのセットの少なくとも1つのペプチドを免疫療法の標的として含むことを決定することを更に含む、実施形態1~51のいずれか一項に記載の方法。
実施形態53.免疫療法が、T細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー(NK)細胞療法からなる群から選択される、実施形態52に記載の方法。
実施形態54.レポートに基づいて、ペプチドのセットの少なくとも1つのペプチドを免疫療法の標的として除外することを決定することを更に含む、実施形態1~53のいずれか一項に記載の方法。
実施形態55.免疫療法が、T細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー(NK)細胞療法からなる群から選択される、実施形態54に記載の方法。
実施形態56.IPCがヒト白血球抗原(HLA)分子である、実施形態1~55のいずれか一項に記載の方法。
実施形態57.対象からの疾患試料を配列決定することと、対象由来の疾患試料の配列決定に基づいてペプチド配列のセットを定義することと、レポートに基づいて、ペプチド配列のセットのサブセットを同定することと、ペプチドのセットのサブセットに含まれる少なくとも1つのペプチドをコードするmRNAを合成することと、mRNAを脂質と複合体化してmRNA-リポプレックス処理を産生することと、mRNA-リポプレックス処置を対象に投与することとを含む、実施形態1~56のいずれか一項に記載の方法。
実施形態58.ワクチンは、1つ以上のペプチド;1つ以上のペプチドをコードする複数の核酸;又は1つ以上のペプチドを発現する複数の細胞を含み、1つ以上のペプチドが、実施形態1~49のいずれかの方法によって生成されたレポートに基づいてペプチドのセットの中から選択され、1つ以上のペプチドがペプチドのセットの不完全なサブセットである。
実施形態59.ワクチンが、複数の核酸を含むDNA又は複数の核酸を含むRNAのいずれかを含む、実施形態58に記載のワクチン。
実施形態60.ワクチンが、複数の核酸を含むmRNAを含む、実施形態58又は実施形態59に記載のワクチン。
実施形態61.ワクチンが腫瘍ワクチンである、実施形態58~60のいずれか一項に記載のワクチン。
実施形態62.1つ以上のペプチド;1つ以上のペプチドをコードする複数の核酸;又は1つ以上のペプチドを発現する複数の細胞を含む、ワクチンを生成することを含む、ワクチンを製造する方法であって、1つ以上のペプチドが、実施形態1~49のいずれかの方法によって生成されたレポートに基づいてペプチドのセットの中から選択され、1つ以上のペプチドがペプチドのセットの不完全なサブセットである、方法。
実施形態63.ワクチンが、複数の核酸を含むDNA、複数の核酸を含むRNA、又は複数の核酸を含むmRNAを含む、実施形態62に記載の方法。
実施形態64.1つ以上のペプチド内のアミノ酸に基づいて、1つ以上のペプチドをコードする複数の核酸を同定することを更に含み、ワクチンが複数の核酸を含む、実施形態62又は実施形態63に記載の方法。
実施形態65.ワクチンが腫瘍ワクチンである、実施形態62~64のいずれか一項に記載の方法。
実施形態66.1つ以上のペプチドの各ペプチドについて、腫瘍ワクチンが、各ペプチドをコードするヌクレオチド配列、各ペプチドに対応するアミノ酸配列、各ペプチドに対応するRNA、各ペプチドに対応するDNA、各ペプチドに対応する細胞、各ペプチドに対応するプラスミド、又は各ペプチドに対応するベクターのうちの少なくとも1つを含む、実施形態65に記載の方法。
実施形態67.ワクチンが、賦形剤又はアジュバントの少なくとも1つを更に含む、実施形態62~66のいずれか一項に記載の方法。
実施形態68.RNAワクチンが、RNA分子であって、5’→3’方向に、
5’キャップと、
5’非翻訳領域(UTR)と、
分泌シグナルペプチドをコードするポリヌクレオチド配列と、
1つ以上のペプチドをコードするポリヌクレオチド配列と、
主要組織適合遺伝子複合体(MHC)分子の膜貫通ドメイン及び細胞質ドメインの少なくとも一部をコードするポリヌクレオチド配列と、
3’UTRであって、
Amino-Terminal Enhancer of Split(AES)mRNAの3’非翻訳領域又はその断片、及び
ミトコンドリアにコードされた12S RNAの非コードRNA又はその断片、を含む3’UTRと、
ポリ(A)配列とを含むRNA分子を含む、実施形態62~67のいずれか一項に記載の方法。
5’キャップと、
5’非翻訳領域(UTR)と、
分泌シグナルペプチドをコードするポリヌクレオチド配列と、
1つ以上のペプチドをコードするポリヌクレオチド配列と、
主要組織適合遺伝子複合体(MHC)分子の膜貫通ドメイン及び細胞質ドメインの少なくとも一部をコードするポリヌクレオチド配列と、
3’UTRであって、
Amino-Terminal Enhancer of Split(AES)mRNAの3’非翻訳領域又はその断片、及び
ミトコンドリアにコードされた12S RNAの非コードRNA又はその断片、を含む3’UTRと、
ポリ(A)配列とを含むRNA分子を含む、実施形態62~67のいずれか一項に記載の方法。
実施形態69.実施形態1~49のいずれか一項に記載の方法によって生成されたレポートに基づいてペプチドのセットの中から選択される1つ以上のペプチドを含み、1つ以上のペプチドがペプチドのセットの不完全なサブセットである、医薬組成物。
実施形態70.実施形態1~49のいずれか一項に記載の方法によって生成されたレポートに基づいてペプチドのセットの中から選択された1つ以上のペプチドをコードする核酸配列を含み、1つ以上のペプチドがペプチドのセットの不完全なサブセットである、医薬組成物。
実施形態71.実施形態1~49のいずれか一項に記載の方法によって生成されたレポートに基づいて、免疫原性ペプチドが同定される。
実施形態72.実施形態1~49のいずれか一項に記載の方法によって生成されたレポートに基づいて、核酸配列が同定される。
実施形態73.核酸配列がDNA配列を含む、実施形態72に記載の核酸配列。
実施形態74.核酸配列がRNA配列を含む、実施形態72又は実施形態73に記載の核酸配列。
実施形態75.核酸配列がmRNA配列を含む、実施形態72~74のいずれか一項に記載の核酸配列。
実施形態76.対象を処置する方法であって、実施形態1~49のいずれか一項に記載の方法によって生成されたレポートに基づいて同定された1つ以上のペプチド、1つ以上の医薬組成物、又は1つ以上の核酸配列の少なくとも1つを投与することを含む、方法。
実施形態77.方法は、対象から得られた生物学的試料のセットを処理して、ペプチドのセットを特徴付けるペプチド配列のセットを生成することと、対象から得られた生物学的試料のセットを処理して、対象の免疫タンパク質複合体(IPC)について同定された免疫タンパク質複合体(IPC)配列を生成することと、注意ベースの機械学習モデルの初期注意サブシステム内の第1の注意ブロックを使用して、ペプチド配列のセットを表すペプチド表現のセットを生成することと、初期注意サブシステム内の第2の注意ブロックを使用して、IPC配列を表す免疫タンパク質複合体(IPC)表現を生成することと、ペプチド表現のセット及びIPC表現を処理して、出力を生成することであって、出力が、対応するペプチド-IPC組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも1つを含み、対応するペプチド-IPC組み合わせが、ペプチドのセットのペプチドを含む、処理して、出力を生成することとを含む。
実施形態78.対象から得られた生物学的試料のセットを処理して、ペプチド配列のセットを生成することが、対象から得られた生物学的試料のセット中の疾患試料を処理して、ペプチド配列のセットを生成することを含む、実施形態77に記載の方法。
実施形態79.対象から生物学的試料のセットを得ることを更に含み、生物学的試料のセットが疾患試料を含む、実施形態77又は実施形態78の方法。
実施形態80.出力に基づいてレポートを生成することを更に含む、実施形態77~79のいずれか一項に記載の方法。
実施形態81.方法は、ユーザ装置において、対象のための個別化ワクチンを設計する要求を受信することと、ユーザ装置から、通信を遠隔システムに送信することであって、通信が対象の識別子を含み、遠隔システムが、ペプチドのセットを特徴付けるペプチド配列のセットにアクセスすることであって、ペプチド配列のセットの各ペプチド配列が、対象からの疾患試料を処理することによって同定されている、ペプチド配列のセットにアクセスするように構成され、かつ対象の免疫タンパク質複合体(IPC)について同定された免疫タンパク質複合体(IPC)配列にアクセスするように構成され;注意ベースの機械学習モデルの初期注意サブシステム内の第1の注意ブロックを用いてペプチド配列のセットを表すペプチド表現のセットと、初期注意サブシステム内の第2の注意ブロックを用いてIPC配列を表す免疫タンパク質複合体(IPC)表現とを処理して出力を生成することであって、出力が、対応するペプチド-IPC組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも1つを含む、処理して出力を生成するように構成され;かつ、出力に基づいてレポートを生成するように構成され;かつレポートをユーザ装置に送信するように構成される、遠隔システムに通信を送信することと、ユーザ装置において、レポートを受信することとを含む。
実施形態82.対象から疾患試料を収集することと、クロマトグラフィー又は質量分析の少なくとも1つを使用して、疾患試料中のMHC分子からペプチドのセットを含む複数のペプチドを溶出させることと、ペプチドのセットを配列決定して、初期配列のセットを生成することと、初期配列のセットの各初期配列を参照配列と比較することと、比較に基づいてペプチド配列のセットを定義することであって、ペプチド配列のセット内の各ペプチド配列が、参照配列に対するバリアントを含むバリアントコード配列である、ペプチド配列のセットを定義することとを更に含む、実施形態81に記載の方法。
実施形態83.対象に対する処置を作成するための方法が提供される。方法は、コンピューティングデバイスからレポートを受信することであって、コンピューティングデバイスが、ペプチドのセットを特徴付けるペプチド配列のセットにアクセスすることであって、ペプチド配列のセットの各ペプチド配列が、対象からの疾患試料を処理することによって同定されている、ペプチド配列のセットにアクセスするように構成され、かつ対象の免疫タンパク質複合体(IPC)について同定された免疫タンパク質複合体(IPC)配列にアクセスするように構成され;注意ベースの機械学習モデルの初期注意サブシステム内の第1の注意ブロックを用いてペプチド配列のセットを表すペプチド表現のセットと、初期注意サブシステム内の第2の注意ブロックを用いてIPC配列を表す免疫タンパク質複合体(IPC)表現とを処理して出力を生成することであって、出力が、対応するペプチド-IPC組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも1つを含む、処理して出力を生成するように構成され;かつ出力に基づいてレポートを生成するように構成される、レポートを受信することと、レポートに基づいて、処置を作成するための処置作成計画を生成することと、を含む。
実施形態84.処置作成計画に基づいて処置を作成することを更に含む、実施形態83に記載の方法。
実施形態85.方法は、複数の変異ペプチドを特徴付ける複数のバリアントコード配列を注意ベースの機械学習モデルに入力することであって、複数のバリアントコード配列の各バリアントコード配列が、対象からの疾患試料を処理することによって同定される、複数のバリアントコード配列を注意ベースの機械学習モデルに入力することと、対象の免疫タンパク質複合体(IPC)について同定された免疫タンパク質複合体(IPC)配列を注意ベースの機械学習モデルに入力することであって、注意ベースの機械学習モデルが、注意ベースの機械学習モデルの初期注意サブシステム内の第1の注意ブロックを使用して複数のバリアントコード配列を表す複数のバリアント表現と、初期注意サブシステム内の第2の注意ブロックを使用してIPC配列を表す免疫タンパク質複合体(IPC)表現とを処理して、出力を生成するように構成され、出力が、対応する変異ペプチド-IPC組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも1つを含む、免疫タンパク質複合体(IPC)配列を注意ベースの機械学習モデルに入力することと、出力に基づいて生成されたレポートを受信することと、レポートに基づいて、対象の処置に使用するために複数の変異ペプチドのサブセットを選択することとを含む。
実施形態86.方法は、変異ペプチドを特徴付けるペプチド配列を受信することであって、ペプチド配列が、対応する参照配列に対するバリアントを含む、変異ペプチドを特徴付けるペプチド配列を受信することと、主要組織適合遺伝子複合体(MHC)について同定されたMHC配列を受信することと、注意ベースの機械学習モデル内の異なる処理経路を使用してペプチド配列及びMHC配列を処理して、出力を生成することであって、出力が変異ペプチドとMHCの両方に関連する免疫学的活性に関する情報を提供する、処理して、出力を生成することと、出力に基づいてレポートを生成することとを含む。
実施形態87.処理することが、注意ベースの機械学習モデル内のペプチド処理経路を介してペプチド配列を処理することであって、ペプチド処理経路が、第1の埋め込みブロックと、少なくとも1つの自己注意層を含む第1の注意ブロックとを含む、ペプチド配列を処理することと、
注意ベースの機械学習モデル内のMHC処理経路を介してMHC配列を処理することであって、MHC処理経路が、第2の埋め込みブロック、及び少なくとも1つの自己注意層を含む第2の注意ブロックを含む、MHC配列を処理することとを含む、実施形態86に記載の方法。
実施形態88.T細胞受容体(TCR)について同定されたTCR配列を受信することを更に含み、処理することがが、注意ベースの機械学習モデル内のTCR処理経路を介してTCR配列を処理することであって、TCR処理経路が、第3の埋め込みブロック、及び少なくとも1つの自己注意層を含む第3の注意ブロックを含む、TCR配列を処理することを更に含む、実施形態87に記載の方法。
実施形態89.免疫学的活性が免疫応答を含み、情報が、変異ペプチドが免疫応答を誘発する能力に関する予測を含む、実施形態86~88のいずれか一項に記載の方法。
実施形態90.処理することが、ペプチド処理経路を介してペプチド配列の変換ペプチド表現を生成することと、MHC処理経路を介してMHC配列の変換MHC表現を生成することと、変換ペプチド表現及び変換MHC表現を使用して複合表現を生成することと、複合表現を処理して、出力を生成することとを含む、実施形態86~89のいずれか一項に記載の方法。
実施形態91.免疫学的活性が、MHCへの変異ペプチドの結合を含み、出力が、変異ペプチドがMHCに結合するかどうかに対応する第1の予測、又は結合に関連する親和性に対応する第2の予測のうちの少なくとも1つを含む、実施形態86~90のいずれか一項に記載の方法。
実施形態92.レポートに基づいて、変異ペプチドを免疫療法の標的として含めることを決定することを更に含む、実施形態86~91のいずれか一項に記載の方法。
実施形態93.免疫療法が、T細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー(NK)細胞療法からなる群から選択される、実施形態92に記載の方法。
実施形態94.レポートに基づいて、変異ペプチドを免疫療法の標的として含めることを決定することの少なくとも1つを更に含む、実施形態86~93のいずれか一項に記載の方法。
実施形態95.免疫療法が、T細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー(NK)細胞療法からなる群から選択される、実施形態94に記載の方法。
実施形態96.レポートに基づいて、処置において、変異ペプチド、変異ペプチドの前駆体、変異ペプチドをコードする核酸、又は変異ペプチドを発現する複数の細胞のうちの少なくとも1つを含むと決定することと、処置を作成することと、更に含む、実施形態86~95のいずれか一項に記載の方法。
実施形態97.対象を処置で処置することを更に含む、実施形態96に記載の方法。
実施形態98.変異ペプチドを特徴付けるペプチド配列が、対象からの疾患試料を配列決定することによって同定されたものであり、ペプチド配列が、対応する参照配列と比較して少なくとも1つの配列変化を有し、処置が、レポートに基づいて対象に対して設計される、実施形態86~97のいずれか一項に記載の方法。
実施形態99.方法は、変異ペプチドを特徴付けるペプチド配列を受信することであって、ペプチド配列が、対応する参照配列に対するバリアントを含む、変異ペプチドを特徴付けるペプチド配列を受信することと、T細胞受容体(TCR)について同定されたTCR配列を受信することと、注意ベースの機械学習モデル内の異なる処理経路を使用してペプチド配列及びTCR配列を処理して、出力を生成することであって、出力が変異ペプチドとTCRの両方に関連する免疫学的活性に関する情報を提供する、処理して、出力を生成することと、出力に基づいてレポートを生成することとを含む。
実施形態100.処理することが、注意ベースの機械学習モデル内のペプチド処理経路を介してペプチド配列を処理することであって、ペプチド処理経路が、第1の埋め込みブロックと、少なくとも1つの自己注意層を含む第1の注意ブロックとを含む、ペプチド配列を処理することと、注意ベースの機械学習モデル内のTCR処理経路を介してTCR配列を処理することであって、TCR処理経路が、第1の埋め込みブロック及び第2の注意ブロックを含む、TCR配列を処理することとを含む、実施形態99に記載の方法。
実施形態101.主要組織適合遺伝子複合体(MHC)について同定されたMHC配列を受信することを更に含み、処理することが、注意ベースの機械学習モデル内のMHC処理経路を介してMHC配列を処理することであって、MHC処理経路が、第3の埋め込みブロック及びMHC第3ブロックを含む、MHC配列を処理することを更に含む、実施形態100に記載の方法。
実施形態102.免疫学的活性が免疫応答を含み、情報が、変異ペプチドが免疫応答を誘発する能力に関する予測を含む、実施形態99~101のいずれか一項に記載の方法。
実施形態103.処理することが、ペプチド処理経路を介してペプチド配列の変換ペプチド表現を生成することと、TCR処理経路を介してTCR配列の変換TCR表現を生成することと、変換ペプチド表現及び変換TCR表現を使用して複合表現を生成することと、複合表現を処理して、出力を生成することとを含む、実施形態99~102のいずれか一項に記載の方法。
実施形態104.免疫学的活性が、MHCへの変異ペプチドの結合を含み、出力が、変異ペプチドがMHCに結合するかどうかに対応する第1の予測、又は結合に関連する親和性に対応する第2の予測のうちの少なくとも1つを含む、実施形態99~103のいずれか一項に記載の方法。
実施形態105.レポートに基づいて、変異ペプチドを免疫療法の標的として含めることを決定することを更に含む、実施形態99~104のいずれか一項に記載の方法。
実施形態106.免疫療法が、T細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー(NK)細胞療法からなる群から選択される、実施形態105に記載の方法。
実施形態107.レポートに基づいて、変異ペプチドを免疫療法の標的として含めることを決定することの少なくとも1つを更に含む、実施形態99~106のいずれか一項に記載の方法。
実施形態108.免疫療法が、T細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー(NK)細胞療法からなる群から選択される、実施形態107に記載の方法。
実施形態109.レポートに基づいて、処置において、変異ペプチド、変異ペプチドの前駆体、変異ペプチドをコードする核酸、又は変異ペプチドを発現する複数の細胞のうちの少なくとも1つを含むと決定することと、処置を作成することと、更に含む、実施形態99~108のいずれか一項に記載の方法。
実施形態110.対象を処置で処置することを更に含む、実施形態109に記載の方法。
実施形態111.変異ペプチドを特徴付けるペプチド配列が、対象からの疾患試料を配列決定することによって同定されたものであり、ペプチド配列が、対応する参照配列と比較して少なくとも1つの配列変化を有し、処置が、レポートに基づいて対象に対して設計される、実施形態99~110のいずれか一項に記載の方法。
実施形態112.1つ以上のデータプロセッサと、命令を含む非一時的コンピュータ可読記憶媒体が提供され、該命令が1つ以上のデータプロセッサ上で実行されると、1つ以上のデータプロセッサに、実施形態1~49、77~81、83、85~95、及び99~108のいずれか一項を実行させる、命令を含む非一時的コンピュータ可読記憶媒体と、を備える、システムが提供される。
実施形態113.1つ以上のデータプロセッサに、実施形態1~49、77~81、83、85~95及び99~108のいずれか一項を実行させるように構成された命令を含む非一時的機械可読記憶媒体に有形に具現化されたコンピュータプログラム製品が提供される。
IX.追加の検討
本開示のいくつかの実施形態は、1つ以上のデータプロセッサを備えるシステムを含む。いくつかの実施形態において、システムは、命令を含む非一時的コンピュータ可読記憶媒体であって、該命令が、1つ以上のデータプロセッサ上で実行されると、1つ以上のデータプロセッサに、本明細書に開示される1つ以上の方法の一部又は全部及び/又は1つ以上のプロセスの一部又は全部を実行させる、命令を含む非一時的コンピュータ可読記憶媒体を含む。本開示のいくつかの実施形態は、1つ以上のデータプロセッサに、本明細書に開示される1つ以上の方法の一部又は全部、及び/又は1つ以上のプロセスの一部又は全部を実行させるように構成された命令を含む、非一時的機械可読記憶媒体において有形に具現化されたコンピュータプログラム製品を含む。
本開示のいくつかの実施形態は、1つ以上のデータプロセッサを備えるシステムを含む。いくつかの実施形態において、システムは、命令を含む非一時的コンピュータ可読記憶媒体であって、該命令が、1つ以上のデータプロセッサ上で実行されると、1つ以上のデータプロセッサに、本明細書に開示される1つ以上の方法の一部又は全部及び/又は1つ以上のプロセスの一部又は全部を実行させる、命令を含む非一時的コンピュータ可読記憶媒体を含む。本開示のいくつかの実施形態は、1つ以上のデータプロセッサに、本明細書に開示される1つ以上の方法の一部又は全部、及び/又は1つ以上のプロセスの一部又は全部を実行させるように構成された命令を含む、非一時的機械可読記憶媒体において有形に具現化されたコンピュータプログラム製品を含む。
使用された用語及び表現は、限定ではなく説明の用語として使用され、そのような用語及び表現の使用において、示されて説明された特徴の均等物又はその一部を除外する意図はないが、特許請求の範囲に記載された発明の範囲内で様々な変更が可能であることが認識される。したがって、特許請求の範囲に記載された本発明は、実施形態及び任意の特徴によって具体的に開示されているが、本明細書に開示された概念の変更及び変形は、当業者に任されてもよく、そのような変更及び変形は、添付の特許請求の範囲によって定義される本発明の範囲内にあると見なされることを理解されたい。
説明は、好ましい例示的な実施形態のみを提供し、本開示の範囲、適用可能性又は構成を限定することを意図しない。むしろ、好ましい例示的な実施形態の説明は、様々な実施形態を実装するための可能な説明を当業者に提供する。添付の特許請求の範囲に記載の趣旨及び範囲から逸脱することなく、要素の機能及び配置に様々な変更を加えることができることが理解される。
実施形態の完全な理解を提供するために、以下の説明において具体的な詳細が与えられる。しかしながら、これらの具体的な詳細なしで実施形態が実施され得ることが理解されよう。例えば、回路、システム、ネットワーク、プロセス、及び他の構成要素は、実施形態を不必要に詳細に不明瞭にしないために、ブロック図形式の構成要素として示されてもよい。他の例では、実施形態を不明瞭にすることを避けるために、周知の回路、プロセス、アルゴリズム、構造、及び技術が不必要な詳細なしに示されてもよい。
Claims (113)
- ペプチドのセットを特徴付けるペプチド配列のセットにアクセスすることであって、前記ペプチド配列のセットの各ペプチド配列が、対象からの疾患試料を処理することによって同定されている、ペプチド配列のセットにアクセスすることと、
前記対象の免疫タンパク質複合体(IPC)について同定された免疫タンパク質複合体(IPC)配列にアクセスすることと、
注意ベースの機械学習モデルの初期注意サブシステム内の第1の注意ブロックを用いて前記ペプチド配列のセットを表すペプチド表現のセットと、前記初期注意サブシステム内の第2の注意ブロックを用いて前記IPC配列を表す免疫タンパク質複合体(IPC)表現とを処理して、出力を生成することであって、前記出力が、対応するペプチド-IPC組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも1つを含む、処理して、出力を生成することと、
前記出力に基づいてレポートを生成することと
を含む、方法。 - 前記ペプチド配列のセットの少なくとも1つのペプチド配列が、対応する参照配列に関するバリアントを含むバリアントコード配列を含む、請求項1に記載の方法。
- 前記処理することが、
前記ペプチド配列のセットの対応するペプチド配列に対する前記ペプチド表現のセットのペプチド表現を受信することと、
前記第1の注意ブロックを介して前記ペプチド表現を変換ペプチド表現に変換することであって、前記第1の注意ブロックが注意サブブロックのセットを含み、前記注意サブブロックのセットの各注意サブブロックが自己注意層を含む、前記ペプチド表現を変換ペプチド表現に変換することと
を含む、請求項1又は2に記載の方法。 - 前記処理することが、
前記IPC表現を受信することと、
前記第2の注意ブロックを介して前記IPC表現を変換IPC表現に変換することであって、前記第2の注意ブロックが注意サブブロックのセットを含み、前記注意サブブロックのセットの各注意サブブロックが自己注意層を含む、前記IPC表現を変換IPC表現に変換することと
を含む、請求項1~3のいずれか一項に記載の方法。 - 前記ペプチド表現の少なくとも一部が前記ペプチド配列中のモノマーに対応し、前記IPC表現の少なくとも一部が前記IPC配列中のモノマーに対応し、前記処理することが、
前記第1の注意ブロック及び第1の重みのセットを使用して、前記ペプチド表現に基づいて変換ペプチド表現を生成することと、
前記第2の注意ブロック及び第2の重みのセットを使用して、前記IPC表現に基づいて変換IPC表現を生成することと、
前記変換ペプチド表現及び前記変換MHC表現を使用して、複合表現を生成することと
を含む、請求項1~4のいずれか一項に記載の方法。 - 前記ペプチド配列のセットのペプチド配列を埋め込んで、前記ペプチド配列についての埋め込みペプチド表現を生成することと、
前記ペプチド配列についての前記埋め込みペプチド表現を位置的にコードして、前記ペプチド配列を表現する前記ペプチド表現のセットのペプチド表現を生成することと
を更に含む、請求項1~5のいずれか一項に記載の方法。 - 前記第1の注意ブロックが注意サブブロックのセットを備え、
前記注意サブブロックのセットの各注意サブブロックが、少なくとも1つの自己注意層を備えるニューラルネットワークを含む、請求項1~6のいずれか一項に記載の方法。 - 前記第2の注意ブロックが注意サブブロックのセットを備え、
前記注意サブブロックのセットの各注意サブブロックが、少なくとも1つの自己注意層を備えるニューラルネットワークを含む、請求項1~7のいずれか一項に記載の方法。 - 前記第1の注意ブロックが第1の複数の注意サブブロックを備え、
前記第2の注意ブロックが第1の複数の注意サブブロックを備え、
前記第1の注意サブブロックのセット及び前記第2の注意サブブロックのセットの各注意サブブロックが、少なくとも1つの自己注意層を備えるニューラルネットワークを含む、請求項1~8のいずれか一項に記載の方法。 - 前記ペプチド表現のセットのペプチド表現が、前記第1の注意ブロックを使用して処理された集約表現の第1の部分を形成し、
前記集約表現の第2の部分が、N-隣接配列又はC-隣接配列のうちの少なくとも1つを表す、請求項1~9のいずれか一項に記載の方法。 - 前記ペプチド配列のセットのペプチド配列が、集約配列の第1の部分を形成し、
前記集約配列の第2の部分が、N-隣接配列又はC-隣接配列のうちの少なくとも1つを含み、
前記注意ベースの機械学習モデルが、前記集約配列を受信し、処理して、前記ペプチド配列に対応する前記ペプチド表現のセットのペプチド表現を含む集約表現を形成する表現ブロックを含み、前記集約表現が、前記第1の注意ブロックによって処理される、請求項1~10のいずれか一項に記載の方法。 - 前記IPC配列を埋め込んで、前記IPC配列の埋め込みIPC表現を生成することと、
前記IPC配列の前記埋め込みIPC表現を位置的にコードして、前記IPC表現を生成することと
を更に含む、請求項1~11のいずれか一項に記載の方法。 - 前記注意ベースの機械学習モデルが、複数の自己注意層と、前記複数の自己注意層の各々について、対応する下流フィードフォワードニューラルネットワークとを含む、請求項1~12のいずれか一項に記載の方法。
- 前記第1の注意ブロックが、前記ペプチド表現のセットのペプチド表現を受信し、処理して、変換ペプチド表現を生成するように構成された第1のニューラルネットワークを含み、
前記第2の注意ブロックが、前記IPC表現を受信し、処理して変換IPC表現を生成するように構成された第2のニューラルネットワークを含み、
前記第1のニューラルネットワーク及び前記第2のニューラルネットワークのそれぞれが、少なくとも1つの自己注意層を含み、
前記注意ベースの機械学習モデルが、前記変換ペプチド表現及び前記変換IPC表現を使用して複合表現を生成するように構成される、請求項1~13のいずれか一項に記載の方法。 - 前記注意ベースの機械学習モデルが、
前記複合表現を受信し、処理するように構成されたニューラルネットワークを含む複合注意ブロックを更に含み、前記ニューラルネットワークが、自己注意層を備える、請求項1~14のいずれか一項に記載の方法。 - 前記注意ベースの機械学習モデルが、
注意サブブロックのセットを含む複合注意ブロックを更に含み、前記注意サブブロックのセットの各注意サブブロックが、少なくとも1つの自己注意層を備えるニューラルネットワークを含む、請求項1~15のいずれか一項に記載の方法。 - 前記IPCが主要組織適合遺伝子複合体(MHC)を含み、前記対応するペプチド-IPC組み合わせが前記ペプチドのセットのペプチドと前記MHCとを含み、
前記対応するペプチド-IPC組み合わせについての前記相互作用親和性予測が、前記ペプチドと前記MHCとの間の結合親和性を予測し、
前記対応するペプチド-IPC組み合わせについての前記相互作用予測が、前記MHCが細胞表面に前記ペプチドを提示するかどうかを予測する、請求項1~16のいずれか一項に記載の方法。 - 前記注意ベースの機械学習モデルが、複数の訓練ペプチド配列及び訓練MHC配列のセットについての実験的相互作用親和性データ又は実験的相互作用データのうちの少なくとも1つを含む訓練データセットを使用して訓練される、請求項1~17のいずれか一項に記載の方法。
- 前記IPCがT細胞受容体(TCR)であり、対応する前記ペプチド-IPCの対が、前記ペプチドのセットのペプチドと、前記TCR又は前記TCRと主要組織適合遺伝子複合体(MHC)のいずれかとを含み、
対応するペプチド-IPC組み合わせの前記免疫原性予測が、前記TCRに関する前記ペプチドの免疫原性を予測し、
前記注意ベースの機械学習モデルが、複数の訓練ペプチド配列及び訓練TCR配列のセットについての実験的免疫原性データを含む訓練データセットを使用して訓練される、請求項1~18のいずれか一項に記載の方法。 - 前記訓練データセットが複数の訓練データ要素を含み、前記複数の訓練データ要素のうちの少なくとも1つの訓練データ要素が、
前記ペプチドのセットに含まれない訓練ペプチドを特徴付ける訓練ペプチド配列、
前記IPCとは異なる訓練IPCを特徴付ける訓練IPC配列、及び
前記訓練ペプチドと前記訓練IPCとの間の相互作用親和性指標を特定する実験ベースの結果であって、前記相互作用親和性指標が、アッセイ又はバイオセンサベースの方法論を使用して検出された、実験ベースの結果
のうちの少なくとも1つを含む、請求項1~19のいずれか一項に記載の方法。 - 前記訓練データセットが複数の訓練データ要素を含み、前記複数の訓練データ要素のうちの少なくとも1つの訓練データ要素が、
前記ペプチドのセットに含まれない訓練ペプチドを特徴付ける訓練ペプチド配列、
前記IPCとは異なる訓練MHCを特徴付ける訓練MHC配列、及び
前記訓練ペプチドが前記訓練MHCによって細胞表面に提示されたかどうかを特定する相互作用指標を含む実験ベースの結果であって、免疫沈降又は質量分析の少なくとも1つが前記相互作用指標を決定するために使用された、実験ベースの結果
のうちの少なくとも1つを含む、請求項1~20のいずれか一項に記載の方法。 - 前記処理工程の前に、複数のペプチド-IPC組み合わせについての結合親和性、相互作用指標、又は免疫原性指標のうちの少なくとも1つを含む訓練データセットを使用して、前記注意ベースの機械学習モデルを訓練することを更に含み、
前記訓練データセットが、複数の訓練ペプチド配列と、複数の訓練主要組織適合遺伝子複合体(MHC)配列又は複数の訓練T細胞受容体(TCR)配列のうちの少なくとも1つとを含む、請求項1~21のいずれか一項に記載の方法。 - 前記処理することが、
前記第1の注意ブロックを使用して前記ペプチド表現のセットを処理し、前記第2の注意ブロックを使用して前記IPC表現を処理して、ペプチド-IPC組み合わせのセットについての複合表現のセットを生成することと、
前記複合表現のセットを処理して、結果のセットを生成することと、
ペプチド-IPC組み合わせのセットのサブセットを選択することであって、前記ペプチド-IPC組み合わせのセットの残りのサブセットと比較して、選択された相互作用のセットが生じる可能性が前記サブセットの各ペプチド-IPC組み合わせでより高い、ペプチド-IPC組み合わせのセットのサブセットを選択することと
を含み、
前記レポートが、前記サブセット内の各ペプチドを同定する、請求項1~22のいずれか一項に記載の方法。 - 前記ペプチドのセットの各ペプチドが、ペプチド-IPC組み合わせのセットを形成するために使用され、
前記注意ベースの機械学習モデルが、前記ペプチド-IPC組み合わせのセットの各ペプチド-IPC組み合わせについての前記免疫原性予測を生成するように構成され、前記ペプチド-IPC組み合わせのセットのペプチド-IPC組み合わせについての前記免疫原性予測が、前記ペプチド-IPC組み合わせにおけるペプチドの腫瘍特異的免疫原性の予測である、請求項1~23のいずれか一項に記載の方法。 - 前記レポートが、前記ペプチドのセットの残りの部分と比較して、腫瘍特異的免疫原性が増加した前記ペプチドのセットからペプチドのサブセットを同定する、請求項1~24のいずれか一項に記載の方法。
- 前記IPCが主要組織適合遺伝子複合体(MHC)であり、
前記ペプチドのセットの各ペプチドが、ペプチド-MHC組み合わせのセットを形成するために使用され、
前記注意ベースの機械学習モデルが、前記ペプチド-MHC組み合わせのセットの各ペプチド-MHC組み合わせについての前記相互作用予測を生成するように構成され、前記ペプチド-MHC組み合わせのセットのペプチド-MHC組み合わせについての前記相互作用予測が、前記ペプチド-MHC組み合わせ中のペプチドが細胞表面に前記MHCによって提示されるかどうかの予測である、請求項1~25のいずれか一項に記載の方法。 - 前記レポートが、前記ペプチドのセットの残りの部分と比較して、前記MHCによる提示の可能性が高い前記ペプチドのセットからペプチドのサブセットを同定する、請求項26に記載の方法。
- 前記ペプチド配列のセットのペプチド配列が、変異ペプチドを特徴付けるバリアントコード配列であり、前記バリアントコード配列が、
前記変異ペプチドのN末端の配列を同定する第1の部分と、
前記変異ペプチドのエピトープの配列を同定する第2の部分と
を含み、
前記処理することが、
前記初期注意サブシステムの第1の自己注意層を使用して、前記バリアントコード配列の前記第1の部分の第1の表現を処理することと、
前記初期注意サブシステムの第2の自己注意層を使用して、前記バリアントコード配列の前記第2の部分の第2の表現を処理することと
を含む、請求項1~27のいずれか一項に記載の方法。 - 前記第1の表現及び前記第2の表現が、前記第1の注意ブロック内で処理される、請求項28に記載の方法。
- 前記注意ベースの機械学習モデルが、1つ以上の変換器エンコーダを含み、前記1つ以上の変換器エンコーダの各々が、自己注意層を含む、請求項1~29のいずれか一項に記載の方法。
- 前記IPC配列及び前記ペプチド配列のセットのそれぞれが、アミノ酸識別子の順序付きセットを含む、請求項1~30のいずれか一項に記載の方法。
- 前記IPC配列が、前記疾患試料を使用して同定される、請求項1~31のいずれか一項に記載の方法。
- 前記IPC配列が、前記対象からの生物学的試料を使用して同定される、請求項1~32のいずれか一項に記載の方法。
- 前記疾患試料ががん細胞を含む、請求項1~33のいずれか一項に記載の方法。
- 前記対象の前記IPCが主要組織適合遺伝子複合体(MHC)を含み、
前記IPC配列がMHC配列を含み、
前記IPC表現がMHC表現を含む、請求項1~34のいずれか一項に記載の方法。 - 前記MHCがMHCクラスI分子を含む、請求項35に記載の方法。
- 前記MHCがMHCクラスII分子を含む、請求項35に記載の方法。
- 前記対象の前記IPCがT細胞受容体(TCR)を含み
前記IPC配列がTCR配列を含み、
前記IPC表現がTCR表現を含む、請求項1~35のいずれか一項に記載の方法。 - 前記疾患試料が組織を含む、請求項1~38のいずれか一項に記載の方法。
- 前記ペプチドのセットの少なくとも1つのペプチドがネオ抗原である、請求項1~39のいずれか一項に記載の方法。
- 前記ペプチド配列のセットの少なくとも1つのペプチド配列が、前記疾患試料に由来するゲノム配列である、請求項1~40のいずれか一項に記載の方法。
- 少なくとも1つの前記バリアントコード配列のセットのそれぞれが、前記疾患試料のRNA配列に基づく、請求項1~41のいずれか一項に記載の方法。
- 前記対応するペプチド-IPC組み合わせが、前記ペプチドのセットからのペプチド及び前記IPCを含み、
前記IPCが主要組織適合遺伝子複合体(MHC)であり、
前記相互作用親和性予測が、前記ペプチドと前記MHCとの間の結合に対する結合親和性の予測であり、
前記相互作用予測が、細胞表面における前記MHCによる前記ペプチドの提示の予測である、請求項1~42のいずれか一項に記載の方法。 - ユーザによって入力された入力データを受信することであって、前記入力データが前記対象に対応する、入力データを受信することを更に含み、
前記ペプチド配列のセット及び前記IPC配列が、前記入力データの受信に応答して、データストアからの検索を介してアクセスされ、
前記レポートが、前記対象の医学的症状を処置するための個別化ワクチンに含めるため、前記ペプチドのセットからペプチドのサブセットを同定する、請求項1~43のいずれか一項に記載の方法。 - 前記個別化ワクチンを含む前記対象への処置勧告を生成することを更に含む、請求項44に記載の方法。
- ユーザによって入力された入力データを受信することであって、前記入力データが前記対象に対応し、
前記ペプチド配列のセット及び前記IPC配列が、前記入力データの受信に応答して、データストアからの検索を介してアクセスされる、入力データを受信することと、
前記レポートに基づいて、個別化ワクチンに含めるための処置ペプチドのセットを決定することと、
前記処置ペプチドのセットを含む前記個別化ワクチンの製造を容易にする動作を開始することと
を更に含む、請求項1~45のいずれか一項に記載の方法。 - 前記動作を開始することが、
前記個別化ワクチンの製造に関与するコンピュータ化されたプロセスをトリガする警告を生成することを含む、請求項46に記載の方法。 - 前記処理することが、
前記注意ベースの機械学習モデル内の埋め込みブロックから、複数の要素を含む表現を受信することであって、
前記表現が、前記ペプチド配列のセット中のペプチド配列を表す前記ペプチド表現のセットのペプチド表現、又は前記IPC配列を表す前記IPC表現のいずれかであり、
前記複数の要素のデータセット内の各要素が、前記ペプチド配列又は前記IPC配列のいずれかにおけるモノマーに対応する、複数の要素を含む表現を受信することと、
前記複数の要素の各要素について、前記注意ベースの機械学習モデルの自己注意層に関連付けられたキー重みのセット、値重みのセット、及びクエリ重みのセットに基づいて、それぞれキーベクトル、値ベクトル、及びクエリベクトルを決定することと、
前記複数の要素の変換を実行して複数の修正要素を形成することであって、前記変換が、前記複数の要素について生成された注意スコアと、前記複数の要素のそれぞれについて決定された前記値ベクトルとを使用して実行される、複数の修正要素を形成することと、
前記複数の修正要素に基づいて前記出力を生成することと
を含む、請求項1~47のいずれか一項に記載の方法。 - 前記複数の要素のうちの選択された要素に対して前記変換を実行することが、
前記要素の前記キーベクトル及び前記クエリベクトルを使用して前記選択された要素の注意スコアを決定することであって、前記選択された要素以外の前記複数の要素の残りの部分が残りの要素のセットを形成する、前記選択された要素の注意スコアを決定することと、
前記残りの要素のキーベクトル及び前記選択された要素の前記クエリベクトルを使用して、前記残りの要素のセットの残りの要素のそれぞれについて追加の注意スコアを決定して、追加の注意スコアのセットを形成することと、
前記注意スコアと、前記追加の注意スコアのセットと、前記複数の要素の各要素についての前記値ベクトルとを使用して、修正要素を生成することと
を含む、請求項48に記載の方法。 - ディスプレイシステム上のグラフィカルユーザインターフェース上に前記レポートを表示することを更に含む、請求項1~49のいずれか一項に記載の方法。
- 前記処理することが、第1のコンピューティングプラットフォーム上で実行され、
有線通信リンク又は無線通信リンクのうちの少なくとも1つを含む通信リンクのセットにより第2のコンピューティングプラットフォームに前記レポートを送ることを更に含む、請求項1~50のいずれか一項に記載の方法。 - 前記レポートに基づいて、前記ペプチドのセットの少なくとも1つのペプチドを免疫療法の標的として含むことを決定することを更に含む、請求項1~51のいずれか一項に記載の方法。
- 前記免疫療法が、T細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー(NK)細胞療法からなる群から選択される、請求項52に記載の方法。
- 前記レポートに基づいて、前記ペプチドのセットの少なくとも1つのペプチドを免疫療法の標的として排除することを決定することを更に含む、請求項1~53のいずれか一項に記載の方法。
- 前記免疫療法が、T細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー(NK)細胞療法からなる群から選択される、請求項54に記載の方法。
- 前記IPCがヒト白血球抗原(HLA)分子である、請求項1~55のいずれか一項に記載の方法。
- 前記対象からの前記疾患試料を配列決定することと、
前記対象からの前記疾患試料の前記配列決定に基づいて前記ペプチド配列のセットを定義することと、
前記レポートに基づいて、前記ペプチド配列のセットのサブセットを同定することと、
前記ペプチドのセットの前記サブセットに含まれる少なくとも1つのペプチドをコードするmRNAを合成することと、
前記mRNAを脂質と複合体化してmRNA-リポプレックス処置を生成することと、
前記mRNA-リポプレックス処置を前記対象に投与することと
を含む、請求項1~56のいずれか一項に記載の方法。 - ワクチンであって、
1つ以上のペプチド、
前記1つ以上のペプチドをコードする複数の核酸、又は
前記1つ以上のペプチドを発現する複数の細胞
を含み、
前記1つ以上のペプチドが請求項1~49のいずれか一項に記載の方法によって生成された前記レポートに基づいて前記ペプチドのセットの中から選択され、前記1つ以上のペプチドが前記ペプチドのセットの不完全なサブセットである、ワクチン。 - 前記ワクチンが、前記複数の核酸を含むDNA又は前記複数の核酸を含むRNAのいずれかを含む、請求項58に記載のワクチン。
- 前記ワクチンが、前記複数の核酸を含むmRNAを含む、請求項58又は請求項59に記載のワクチン。
- 前記ワクチンが腫瘍ワクチンである、請求項58~60のいずれか一項に記載のワクチン。
- ワクチンを製造する方法であって、
1つ以上のペプチド、
前記1つ以上のペプチドをコードする複数の核酸、又は
前記1つ以上のペプチドを発現する複数の細胞を含むワクチンを生成することを含み、
前記1つ以上のペプチドが請求項1~49のいずれか一項記載の方法によって生成された前記レポートに基づいて前記ペプチドのセットの中から選択され、前記1つ以上のペプチドが前記ペプチドのセットの不完全なサブセットである、方法。 - 前記ワクチンが、前記複数の核酸を含むDNA、前記複数の核酸を含むRNA、又は前記複数の核酸を含むmRNAを含む、請求項62に記載の方法。
- 前記1つ以上のペプチド内のアミノ酸に基づいて、前記1つ以上のペプチドをコードする前記複数の核酸を同定することを更に含み、前記ワクチンが前記複数の核酸を含む、請求項62又は請求項63に記載の方法。
- 前記ワクチンが腫瘍ワクチンである、請求項62~64のいずれか一項に記載の方法。
- 前記1つ以上のペプチドの各ペプチドについて、前記腫瘍ワクチンが、各ペプチドをコードするヌクレオチド配列、各ペプチドに対応するアミノ酸配列、各ペプチドに対応するRNA、各ペプチドに対応するDNA、各ペプチドに対応する細胞、各ペプチドに対応するプラスミド、又は各ペプチドに対応するベクターのうちの少なくとも1つを含む、請求項65に記載の方法。
- 前記ワクチンが、賦形剤又はアジュバントの少なくとも1つを更に含む、請求項62~66のいずれか一項に記載の方法。
- 前記ワクチンが、RNA分子であって、5’→3’方向に、
5’キャップと、
5’非翻訳領域(UTR)と、
分泌シグナルペプチドをコードするポリヌクレオチド配列と、
前記1つ以上のペプチドをコードするポリヌクレオチド配列と、
主要組織適合遺伝子複合体(MHC)分子の膜貫通ドメイン及び細胞質ドメインの少なくとも一部をコードするポリヌクレオチド配列と、
3’UTRであって、
Amino-Terminal Enhancer of Split(AES)mRNAの3’非翻訳領域又はその断片、及び
ミトコンドリアにコードされた12S RNAの非コードRNA又はその断片を含む、3’UTRと、
ポリ(A)配列と
を含むRNA分子を含む、請求項62~67のいずれか一項に記載の方法。 - 請求項1~49のいずれか一項記載の方法によって生成された前記レポートに基づいて前記ペプチドのセットの中から選択される1つ以上のペプチドを含み、前記1つ以上のペプチドが前記ペプチドのセットの不完全なサブセットである、医薬組成物。
- 請求項1~49のいずれか一項記載の方法によって生成された前記レポートに基づいて前記ペプチドのセットの中から選択された1つ以上のペプチドをコードする核酸配列を含み、前記1つ以上のペプチドが前記ペプチドのセットの不完全なサブセットである、医薬組成物。
- 請求項1~49のいずれか一項に記載の方法によって生成された前記レポートに基づいて同定された、免疫原性ペプチド。
- 請求項1~49のいずれか一項に記載の方法によって生成された前記レポートに基づいて同定された、核酸配列。
- 前記核酸配列がDNA配列を含む、請求項72に記載の核酸配列。
- 前記核酸配列がRNA配列を含む、請求項72又は請求項73に記載の核酸配列。
- 前記核酸配列がmRNA配列を含む、請求項72~74のいずれか一項に記載の核酸配列。
- 対象を処置する方法であって、請求項1~49のいずれか一項に記載の方法によって生成された前記レポートに基づいて同定された1つ以上のペプチド、1つ以上の医薬組成物、又は1つ以上の核酸配列の少なくとも1つを投与することを含む、方法。
- 対象から得られた生物学的試料のセットを処理して、ペプチドのセットを特徴付けるペプチド配列のセットを生成することと、
前記対象から得られた前記生物学的試料のセットを処理して、前記対象の免疫タンパク質複合体(IPC)について同定された免疫タンパク質複合体(IPC)配列を生成することと、
注意ベースの機械学習モデルの初期注意サブシステム内の第1の注意ブロックを使用して、前記ペプチド配列のセットを表すペプチド表現のセットを生成することと、
前記初期注意サブシステム内の第2の注意ブロックを使用して、前記IPC配列を表す免疫タンパク質複合体(IPC)表現を生成することと、
前記ペプチド表現のセット及び前記IPC表現を処理して、出力を生成することであって、前記出力が、対応するペプチド-IPC組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも1つを含み、前記対応するペプチド-IPC組み合わせが、前記ペプチドのセットのペプチドを含む、処理して、出力を生成することと
を含む、方法。 - 前記対象から得られた生物学的試料のセットを処理して、ペプチド配列のセットを生成することが、
前記対象から得られた前記生物学的試料のセット中の疾患試料を処理して、前記ペプチド配列のセットを生成することを含む、請求項77に記載の方法。 - 前記対象から前記生物学的試料のセットを得ることを更に含み、前記生物学的試料のセットが疾患試料を含む、請求項77又は請求項78に記載の方法。
- 前記出力に基づいてレポートを生成することを更に含む、請求項77~79のいずれか一項に記載の方法。
- ユーザ装置において、対象のための個別化ワクチンを設計する要求を受信することと、
前記ユーザ装置から、遠隔システムに通信を送信することであって、前記通信が前記対象の識別子を含み、前記遠隔システムが、
ペプチドのセットを特徴付けるペプチド配列のセットにアクセスすることであって、前記ペプチド配列のセットの各ペプチド配列が、対象からの疾患試料を処理することによって同定されている、ペプチド配列のセットにアクセスするように構成され、かつ
前記対象の免疫タンパク質複合体(IPC)について同定された免疫タンパク質複合体(IPC)配列にアクセスするように構成され;
注意ベースの機械学習モデルの初期注意サブシステム内の第1の注意ブロックを用いて前記ペプチド配列のセットを表すペプチド表現のセットと、前記初期注意サブシステム内の第2の注意ブロックを用いて前記IPC配列を表す免疫タンパク質複合体(IPC)表現とを処理して出力を生成することであって、前記出力が、対応するペプチド-IPC組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも1つを含む、処理して出力を生成するように構成され;かつ
前記出力に基づいてレポートを生成するように構成され;かつ
前記レポートを前記ユーザ装置に送信するように構成される、遠隔システムに通信を送信することと、
前記ユーザ装置において、前記レポートを受信することと
を含む、方法。 - 前記対象から疾患試料を収集することと、
クロマトグラフィー又は質量分析の少なくとも1つを使用して、前記疾患試料中のMHC分子から前記ペプチドのセットを含む複数のペプチドを溶出させることと、
前記ペプチドのセットを配列決定して、初期配列のセットを生成することと、
前記初期配列のセットの各初期配列を参照配列と比較することと、
前記比較に基づいて、前記ペプチド配列のセットを定義することであって、前記ペプチド配列のセット内の各ペプチド配列が、前記参照配列に対するバリアントを含むバリアントコード配列である、前記ペプチド配列のセットを定義することと
を更に含む、請求項81に記載の方法。 - 対象に対する処置を作成するための方法であって、前記方法が、
コンピューティングデバイスからレポートを受信することであって、前記コンピューティングデバイスが、
ペプチドのセットを特徴付けるペプチド配列のセットにアクセスすることであって、前記ペプチド配列のセットの各ペプチド配列が、対象からの疾患試料を処理することによって同定されている、ペプチド配列のセットにアクセスするように構成され、かつ
前記対象の免疫タンパク質複合体(IPC)について同定された免疫タンパク質複合体(IPC)配列にアクセスするように構成され;
注意ベースの機械学習モデルの初期注意サブシステム内の第1の注意ブロックを用いて前記ペプチド配列のセットを表すペプチド表現のセットと、前記初期注意サブシステム内の第2の注意ブロックを用いて前記IPC配列を表す免疫タンパク質複合体(IPC)表現とを処理して出力を生成することであって、前記出力が、対応するペプチド-IPC組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも1つを含む、処理して出力を生成するように構成され;かつ
前記出力に基づいてレポートを生成するように構成される、レポートを受信することと、
前記レポートに基づいて、前記処置を作成するための処置作成計画を生成することと、を含む、方法。 - 前記処置作成計画に基づいて前記処置を作成することを更に含む、請求項83に記載の方法。
- 複数の変異ペプチドを特徴付ける複数のバリアントコード配列を注意ベースの機械学習モデルに入力することであって、前記複数のバリアントコード配列の各バリアントコード配列が、対象からの疾患試料を処理することによって同定されている、複数のバリアントコード配列を注意ベースの機械学習モデルに入力することと、
前記対象の免疫タンパク質複合体(IPC)について同定された免疫タンパク質複合体(IPC)配列を前記注意ベースの機械学習モデルに入力することであって、
前記注意ベースの機械学習モデルが、注意ベースの機械学習モデルの初期注意サブシステム内の第1の注意ブロックを使用して前記複数のバリアントコード配列を表す複数のバリアント表現と、前記初期注意サブシステム内の第2の注意ブロックを使用して前記IPC配列を表す免疫タンパク質複合体(IPC)表現とを処理して、出力を生成するように構成され、
前記出力が、対応する変異ペプチド-IPC組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも1つを含む、免疫タンパク質複合体(IPC)配列を前記注意ベースの機械学習モデルに入力することと、
前記出力に基づいて生成されたレポートを受信することと、
前記レポートに基づいて、前記対象の処置に使用するために前記複数の変異ペプチドのサブセットを選択することと
を含む、方法。 - 変異ペプチドを特徴付けるペプチド配列を受信することであって、前記ペプチド配列が、対応する参照配列に関するバリアントを含む、ペプチド配列を受信することと、
主要組織適合遺伝子複合体(MHC)について同定されたMHC配列を受信することと、
前記ペプチド配列及び前記MHC配列を、注意ベースの機械学習モデル内の異なる処理経路を用いて処理して、出力を生成することであって、
前記出力が、前記変異ペプチド及び前記MHCの両方に関連する免疫学的活性に関する情報を提供する、処理して、出力を生成することと、
前記出力に基づいてレポートを生成することと
を含む、方法。 - 前記処理することが、
前記注意ベースの機械学習モデル内のペプチド処理経路を介して前記ペプチド配列を処理することであって、前記ペプチド処理経路が、第1の埋め込みブロック、及び少なくとも1つの自己注意層を含む第1の注意ブロックを含む、前記ペプチド配列を処理することと、
前記注意ベースの機械学習モデル内のMHC処理経路を介して前記MHC配列を処理することであって、前記MHC処理経路が、第2の埋め込みブロック、及び少なくとも1つの自己注意層を含む第2の注意ブロックを含む、前記MHC配列を処理することと
を含む、請求項86に記載の方法。 - T細胞受容体(TCR)について同定されたTCR配列を受信することを更に含み、
前記処理することが、
前記注意ベースの機械学習モデル内のTCR処理経路を介して前記TCR配列を処理することであって、前記TCR処理経路が、第3の埋め込みブロック、及び少なくとも1つの自己注意層を含む第3の注意ブロックを含む、前記TCR配列を処理することを更に含む、請求項87に記載の方法。 - 前記免疫学的活性が免疫応答を含み、前記情報が、前記変異ペプチドが前記免疫応答を誘発する能力に関する予測を含む、請求項86~88のいずれか一項に記載の方法。
- 前記処理することが、
前記ペプチド処理経路を介して前記ペプチド配列の変換ペプチド表現を生成することと、
前記MHC処理経路を介して前記MHC配列の変換MHC表現を生成することと、
前記変換ペプチド表現及び前記変換MHC表現を使用して複合表現を生成することと、
前記複合表現を処理して、前記出力を生成することと
を含む、請求項86~89のいずれか一項に記載の方法。 - 前記免疫学的活性が、前記MHCへの前記変異ペプチドの結合を含み、前記出力が、前記変異ペプチドが前記MHCに結合するかどうかに対応する第1の予測、又は前記結合に関連する親和性に対応する第2の予測のうちの少なくとも1つを含む、請求項86~90のいずれか一項に記載の方法。
- 前記レポートに基づいて、前記変異ペプチドを免疫療法の標的として含めることを決定することを更に含む、請求項86~91のいずれか一項に記載の方法。
- 前記免疫療法が、T細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー(NK)細胞療法からなる群から選択される、請求項92に記載の方法。
- 前記レポートに基づいて、前記変異ペプチドを免疫療法の標的として排除することを決定することの少なくとも1つを更に含む、請求項86~93のいずれか一項に記載の方法。
- 前記免疫療法が、T細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー(NK)細胞療法からなる群から選択される、請求項94に記載の方法。
- 前記レポートに基づいて、処置において、前記変異ペプチド、前記変異ペプチドの前駆体、前記変異ペプチドをコードする核酸、又は前記変異ペプチドを発現する複数の細胞のうちの少なくとも1つを含むと決定することと、
前記処置を作成することと
を更に含む、請求項86~95のいずれか一項に記載の方法。 - 前記処置で対象を処置することを更に含む、請求項96に記載の方法。
- 前記変異ペプチドを特徴付ける前記ペプチド配列が、対象からの疾患試料を配列決定することによって同定されたものであり、前記ペプチド配列が、対応する参照配列と比較して少なくとも1つの配列変化を有し、処置が、前記レポートに基づいて前記対象に対して設計される、請求項86~97のいずれか一項に記載の方法。
- 変異ペプチドを特徴付けるペプチド配列を受信することであって、前記ペプチド配列が、対応する参照配列に関するバリアントを含む、ペプチド配列を受信することと、
T細胞受容体(TCR)について同定されたTCR配列を受信することと、
前記ペプチド配列及び前記TCR配列を、注意ベースの機械学習モデル内の異なる処理経路を用いて処理して、出力を生成することであって、
前記出力が、前記変異ペプチドと前記TCRの両方に関連する免疫学的活性に関する情報を提供する、処理して、出力を生成することと、
前記出力に基づいてレポートを生成することと
を含む、方法。 - 前記処理することが、
前記注意ベースの機械学習モデル内のペプチド処理経路を介して前記ペプチド配列を処理することであって、前記ペプチド処理経路が、第1の埋め込みブロック及び第1の注意ブロックを含む、前記ペプチド配列を処理することと、
前記注意ベースの機械学習モデル内のTCR処理経路を介して前記TCR配列を処理することであって、前記TCR処理経路が、第2の埋め込みブロック及び第2の注意ブロックを含む、前記TCR配列を処理することと
を含む、請求項99に記載の方法。 - 主要組織適合遺伝子複合体(MHC)について同定されたMHC配列を受信することを更に含み、
前記処理することが、
前記注意ベースの機械学習モデル内のMHC処理経路を介して前記MHC配列を処理することであって、前記MHC処理経路が、第3の埋め込みブロック及びMHC第3ブロックを含む、前記MHC配列を処理することを更に含む、請求項100に記載の方法。 - 前記免疫学的活性が免疫応答を含み、前記情報が、前記変異ペプチドが前記免疫応答を誘発する能力に関する予測を含む、請求項99~101のいずれか一項に記載の方法。
- 前記処理することが、
前記ペプチド処理経路を介して前記ペプチド配列の変換ペプチド表現を生成することと、
前記TCR処理経路を介して前記TCR配列の変換TCR表現を生成することと、
前記変換ペプチド表現及び前記変換TCR表現を使用して複合表現を生成することと、
前記複合表現を処理して、前記出力を生成することと
を含む、請求項99~102のいずれか一項に記載の方法。 - 前記免疫学的活性が、前記MHCへの前記変異ペプチドの結合を含み、前記出力が、前記変異ペプチドが前記MHCに結合するかどうかに対応する第1の予測、又は前記結合に関連する親和性に対応する第2の予測のうちの少なくとも1つを含む、請求項99~103のいずれか一項に記載の方法。
- 前記レポートに基づいて、前記変異ペプチドを免疫療法の標的として含めることを決定することを更に含む、請求項99~104のいずれか一項に記載の方法。
- 前記免疫療法が、T細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー(NK)細胞療法からなる群から選択される、請求項105に記載の方法。
- 前記レポートに基づいて、前記変異ペプチドを免疫療法の標的として排除することを決定することの少なくとも1つを更に含む、請求項99~106のいずれか一項に記載の方法。
- 前記免疫療法が、T細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー(NK)細胞療法からなる群から選択される、請求項107に記載の方法。
- 前記レポートに基づいて、処置において、前記変異ペプチド、前記変異ペプチドの前駆体、前記変異ペプチドをコードする核酸、又は前記変異ペプチドを発現する複数の細胞のうちの少なくとも1つを含むと決定することと、
前記処置を作成することと
を更に含む、請求項99~108のいずれか一項に記載の方法。 - 前記処置で対象を処置することを更に含む、請求項109に記載の方法。
- 前記変異ペプチドを特徴付ける前記ペプチド配列が、対象からの疾患試料を配列決定することによって同定されたものであり、前記ペプチド配列が、対応する参照配列と比較して少なくとも1つの配列変化を有し、処置が、前記レポートに基づいて前記対象に対して設計される、請求項99~110のいずれか一項に記載の方法。
- システムであって、
1つ以上のデータプロセッサと、
命令を含む非一時的コンピュータ可読記憶媒体であって、前記命令が前記1つ以上のデータプロセッサ上で実行されると、前記1つ以上のデータプロセッサに、請求項1~49、77~81、83、85~95、及び99~108のいずれか一項を実行させる、命令を含む非一時的コンピュータ可読記憶媒体と
を備える、システム。 - 1つ以上のデータプロセッサに、請求項1~49、77~81、83、85~95、及び99~108のいずれか一項を実行させるように構成された命令を含む非一時的機械可読記憶媒体に有形に具現化されたコンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063053307P | 2020-07-17 | 2020-07-17 | |
US63/053,307 | 2020-07-17 | ||
PCT/US2021/042105 WO2022016125A1 (en) | 2020-07-17 | 2021-07-16 | Attention-based neural network to predict peptide binding, presentation, and immunogenicity |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023534283A true JP2023534283A (ja) | 2023-08-08 |
Family
ID=77265296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023502978A Pending JP2023534283A (ja) | 2020-07-17 | 2021-07-16 | ペプチドの結合、提示及び免疫原性を予測するための注意ベースのニューラルネットワーク |
Country Status (11)
Country | Link |
---|---|
US (1) | US20220122690A1 (ja) |
EP (1) | EP4182924A1 (ja) |
JP (1) | JP2023534283A (ja) |
KR (1) | KR20230042048A (ja) |
CN (1) | CN115997254A (ja) |
AU (1) | AU2021308081A1 (ja) |
BR (1) | BR112023000827A2 (ja) |
CA (1) | CA3180799A1 (ja) |
IL (1) | IL299801A (ja) |
MX (1) | MX2023000618A (ja) |
WO (1) | WO2022016125A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220028487A1 (en) * | 2020-07-27 | 2022-01-27 | Shenzhen Neocura Biotechnology Corporation | Deep learning-based method for predicting binding affinity between human leukocyte antigens and peptides |
US20220198323A1 (en) * | 2020-12-22 | 2022-06-23 | Collibra Nv | System for preparing machine learning training data for use in evaluation of term definition quality |
KR20230161977A (ko) * | 2021-03-25 | 2023-11-28 | 제넨테크, 인크. | 신경망을 사용한 펩티드 면역원성 예측 |
WO2023249440A1 (ko) * | 2022-06-24 | 2023-12-28 | 지니너스 주식회사 | 펩타이드와 t 세포 수용체간의 결합을 추정하는 방법 및 장치 |
CN115273979A (zh) * | 2022-07-04 | 2022-11-01 | 苏州大学 | 基于自注意力机制的单核苷酸无义突变致病性预测系统 |
WO2024044362A1 (en) * | 2022-08-26 | 2024-02-29 | Massachusetts Institute Of Technology | End-to-end machine learning-driven design of proteins |
WO2024072802A1 (en) * | 2022-09-26 | 2024-04-04 | Bertis Bioscience Incorporated | Methods and systems for classification of a condition using mass spectrometry data |
CN115512396B (zh) * | 2022-11-01 | 2023-04-07 | 山东大学 | 一种基于深度神经网络的抗癌肽和抗菌肽预测方法及系统 |
WO2024107754A1 (en) | 2022-11-15 | 2024-05-23 | Genentech, Inc. | Selection of diverse candidate peptides for peptide therapeutics |
WO2024123699A1 (en) * | 2022-12-05 | 2024-06-13 | Genentech, Inc. | Methods and systems for prediction of peptide presentation by major histocompatibility complex molecules |
CN116309596B (zh) * | 2023-05-23 | 2023-08-04 | 杭州华得森生物技术有限公司 | 基于微流控芯片的ctc细胞检测方法及其系统 |
CN116469457B (zh) * | 2023-06-14 | 2023-10-13 | 普瑞基准科技(北京)有限公司 | Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置 |
CN116844637B (zh) * | 2023-07-07 | 2024-02-09 | 北京分子之心科技有限公司 | 一种获取第一源抗体序列对应的第二源蛋白质序列的方法与设备 |
CN117037902A (zh) * | 2023-07-18 | 2023-11-10 | 哈尔滨工业大学 | 基于蛋白质物理化学特征嵌入的肽与mhc i类蛋白结合基序预测方法 |
CN117831789B (zh) * | 2024-03-05 | 2024-05-28 | 北京市肿瘤防治研究所 | 癌症治疗反应预测系统及其控制方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10347710B4 (de) | 2003-10-14 | 2006-03-30 | Johannes-Gutenberg-Universität Mainz | Rekombinante Impfstoffe und deren Verwendung |
DE102005046490A1 (de) | 2005-09-28 | 2007-03-29 | Johannes-Gutenberg-Universität Mainz | Modifikationen von RNA, die zu einer erhöhten Transkriptstabilität und Translationseffizienz führen |
EP2281579A1 (en) | 2009-08-05 | 2011-02-09 | BioNTech AG | Vaccine composition comprising 5'-Cap modified RNA |
WO2013143555A1 (en) | 2012-03-26 | 2013-10-03 | Biontech Ag | Rna formulation for immunotherapy |
WO2017059902A1 (en) | 2015-10-07 | 2017-04-13 | Biontech Rna Pharmaceuticals Gmbh | 3' utr sequences for stabilization of rna |
CN112912960A (zh) * | 2018-08-20 | 2021-06-04 | 南托米克斯有限责任公司 | 使用递归神经网络编码器和注意力加权来改进对新表位的主要组织相容性复合物(mhc)-肽结合预测的方法和系统 |
-
2021
- 2021-07-16 US US17/378,651 patent/US20220122690A1/en active Pending
- 2021-07-16 MX MX2023000618A patent/MX2023000618A/es unknown
- 2021-07-16 IL IL299801A patent/IL299801A/en unknown
- 2021-07-16 AU AU2021308081A patent/AU2021308081A1/en active Pending
- 2021-07-16 WO PCT/US2021/042105 patent/WO2022016125A1/en unknown
- 2021-07-16 CN CN202180046244.1A patent/CN115997254A/zh active Pending
- 2021-07-16 JP JP2023502978A patent/JP2023534283A/ja active Pending
- 2021-07-16 KR KR1020237005289A patent/KR20230042048A/ko unknown
- 2021-07-16 CA CA3180799A patent/CA3180799A1/en active Pending
- 2021-07-16 EP EP21752405.7A patent/EP4182924A1/en active Pending
- 2021-07-16 BR BR112023000827A patent/BR112023000827A2/pt unknown
Also Published As
Publication number | Publication date |
---|---|
MX2023000618A (es) | 2023-04-10 |
IL299801A (en) | 2023-03-01 |
EP4182924A1 (en) | 2023-05-24 |
AU2021308081A1 (en) | 2022-11-17 |
CA3180799A1 (en) | 2022-01-20 |
BR112023000827A2 (pt) | 2023-02-07 |
KR20230042048A (ko) | 2023-03-27 |
WO2022016125A1 (en) | 2022-01-20 |
US20220122690A1 (en) | 2022-04-21 |
CN115997254A (zh) | 2023-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220122690A1 (en) | Attention-based neural network to predict peptide binding, presentation, and immunogenicity | |
Bailey‐Kellogg et al. | CHOPPI: A web tool for the analysis of immunogenicity risk from host cell proteins in CHO‐based protein production | |
US20190147989A1 (en) | Integrated, molecular, omics, immunotherapy, metabolic, epigenetic, and clinical database | |
Paul et al. | Evaluating the immunogenicity of protein drugs by applying in vitro MHC binding data and the immune epitope database and analysis resource | |
CN113424264B (zh) | 用于生成个性化癌症疫苗的癌症突变选择 | |
JP2020518083A (ja) | 免疫原性がん特異的エピトープのためのランク付けシステム | |
JPWO2019168984A5 (ja) | ||
Ebrahimi-Nik et al. | Reversion analysis reveals the in vivo immunogenicity of a poorly MHC I-binding cancer neoepitope | |
Olsen et al. | Bioinformatics for cancer immunotherapy target discovery | |
CA3217623A1 (en) | Compositions and method for optimized peptide vaccines using residue optimization | |
Obermair et al. | High-resolution profiling of MHC II peptide presentation capacity reveals SARS-CoV-2 CD4 T cell targets and mechanisms of immune escape | |
Albert et al. | Deep neural networks predict class I major histocompatibility complex epitope presentation and transfer learn neoepitope immunogenicity | |
AU2019382854B2 (en) | Method and system of targeting epitopes for neoantigen-based immunotherapy | |
Pei et al. | IConMHC: a deep learning convolutional neural network model to predict peptide and MHC-I binding affinity | |
WO2023089203A1 (en) | Methods for predicting immunogenicity of mutations or neoantigenic peptides in tumors | |
US20240021274A1 (en) | Using neural networks to predict peptide immunogenicity | |
Brodin et al. | Systems level immune response analysis and personalized medicine | |
WO2024123699A1 (en) | Methods and systems for prediction of peptide presentation by major histocompatibility complex molecules | |
Truong et al. | Antigen Discovery | |
WO2024107754A1 (en) | Selection of diverse candidate peptides for peptide therapeutics | |
CN113762416B (zh) | 基于多模态深度编码的抗原免疫原性预测方法和系统 | |
Tabibpour et al. | Putative novel outer membrane antigens multi-epitope DNA vaccine candidates identified by Immunoinformatic approaches to control Acinetobacter baumannii | |
Zhang et al. | Epitope-anchored contrastive transfer learning for paired CD8+ T cell receptor-antigen recognition | |
Xia et al. | Accurate neoantigen prediction depends on mutation position relative to patient allele-specific MHC anchor location | |
WO2024036308A1 (en) | Methods and systems for prediction of hla epitopes |