JP2023530719A - 表面提示ペプチドを予測するための機械学習技術 - Google Patents
表面提示ペプチドを予測するための機械学習技術 Download PDFInfo
- Publication number
- JP2023530719A JP2023530719A JP2022577543A JP2022577543A JP2023530719A JP 2023530719 A JP2023530719 A JP 2023530719A JP 2022577543 A JP2022577543 A JP 2022577543A JP 2022577543 A JP2022577543 A JP 2022577543A JP 2023530719 A JP2023530719 A JP 2023530719A
- Authority
- JP
- Japan
- Prior art keywords
- peptide
- peptides
- machine learning
- data
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 329
- 102000004196 processed proteins & peptides Human genes 0.000 title claims abstract description 187
- 238000010801 machine learning Methods 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 title claims abstract description 69
- 210000004027 cell Anatomy 0.000 claims abstract description 61
- 230000014509 gene expression Effects 0.000 claims abstract description 56
- 230000027455 binding Effects 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims description 91
- 108700018351 Major Histocompatibility Complex Proteins 0.000 claims description 52
- 230000020382 suppression by virus of host antigen processing and presentation of peptide antigen via MHC class I Effects 0.000 claims description 52
- 108090000623 proteins and genes Proteins 0.000 claims description 44
- 108700028369 Alleles Proteins 0.000 claims description 34
- 238000003860 storage Methods 0.000 claims description 15
- 239000012472 biological sample Substances 0.000 claims description 11
- 102000004169 proteins and genes Human genes 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 239000000523 sample Substances 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 239000002131 composite material Substances 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 125000003275 alpha amino acid group Chemical group 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 6
- 230000000875 corresponding effect Effects 0.000 description 43
- 230000008569 process Effects 0.000 description 24
- 210000001519 tissue Anatomy 0.000 description 24
- 206010028980 Neoplasm Diseases 0.000 description 23
- 230000000392 somatic effect Effects 0.000 description 18
- 108010066345 MHC binding peptide Proteins 0.000 description 14
- 230000000052 comparative effect Effects 0.000 description 14
- 210000000987 immune system Anatomy 0.000 description 10
- 210000004881 tumor cell Anatomy 0.000 description 9
- 238000004949 mass spectrometry Methods 0.000 description 8
- 102100028972 HLA class I histocompatibility antigen, A alpha chain Human genes 0.000 description 7
- 108010075704 HLA-A Antigens Proteins 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 230000002093 peripheral effect Effects 0.000 description 7
- 235000018102 proteins Nutrition 0.000 description 7
- 108010069091 Dystrophin Proteins 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 230000035772 mutation Effects 0.000 description 6
- 102100028976 HLA class I histocompatibility antigen, B alpha chain Human genes 0.000 description 5
- 108010058607 HLA-B Antigens Proteins 0.000 description 5
- 201000011510 cancer Diseases 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 5
- 238000009169 immunotherapy Methods 0.000 description 5
- 238000012163 sequencing technique Methods 0.000 description 5
- 102000001039 Dystrophin Human genes 0.000 description 4
- 238000002619 cancer immunotherapy Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000002560 therapeutic procedure Methods 0.000 description 4
- 239000000427 antigen Substances 0.000 description 3
- 108091007433 antigens Proteins 0.000 description 3
- 102000036639 antigens Human genes 0.000 description 3
- 238000010420 art technique Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000899 immune system response Effects 0.000 description 3
- 238000000338 in vitro Methods 0.000 description 3
- 101150087690 ACTB gene Proteins 0.000 description 2
- 208000023275 Autoimmune disease Diseases 0.000 description 2
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 2
- 101150092805 actc1 gene Proteins 0.000 description 2
- 150000001413 amino acids Chemical group 0.000 description 2
- 239000000090 biomarker Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010828 elution Methods 0.000 description 2
- 238000001415 gene therapy Methods 0.000 description 2
- 230000004077 genetic alteration Effects 0.000 description 2
- 231100000118 genetic alteration Toxicity 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 201000006938 muscular dystrophy Diseases 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012958 reprocessing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- LZOIGVDSAMDBIO-LXWJMTKESA-N (2S)-2-[[(2S,3R)-2-[[(2S)-2-[[(2S,3S)-2-[[(2S)-4-amino-2-[[(2S,3S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-amino-4-methylsulfanylbutanoyl]amino]-3-(4-hydroxyphenyl)propanoyl]amino]-3-phenylpropanoyl]amino]-3-methylpentanoyl]amino]-4-oxobutanoyl]amino]-3-methylpentanoyl]amino]-4-methylpentanoyl]amino]-3-hydroxybutanoyl]amino]-4-methylpentanoic acid Chemical compound C([C@@H](C(=O)N[C@H](C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC(C)C)C(O)=O)[C@@H](C)CC)NC(=O)[C@H](CC=1C=CC(O)=CC=1)NC(=O)[C@@H](N)CCSC)C1=CC=CC=C1 LZOIGVDSAMDBIO-LXWJMTKESA-N 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 1
- 102100028971 HLA class I histocompatibility antigen, C alpha chain Human genes 0.000 description 1
- 108010052199 HLA-C Antigens Proteins 0.000 description 1
- 238000012404 In vitro experiment Methods 0.000 description 1
- 102000043129 MHC class I family Human genes 0.000 description 1
- 108091054437 MHC class I family Proteins 0.000 description 1
- 102000043131 MHC class II family Human genes 0.000 description 1
- 108091054438 MHC class II family Proteins 0.000 description 1
- 102000018697 Membrane Proteins Human genes 0.000 description 1
- 108010052285 Membrane Proteins Proteins 0.000 description 1
- 101150076359 Mhc gene Proteins 0.000 description 1
- 206010028289 Muscle atrophy Diseases 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 241000702619 Porcine parvovirus Species 0.000 description 1
- 102000004245 Proteasome Endopeptidase Complex Human genes 0.000 description 1
- 108090000708 Proteasome Endopeptidase Complex Proteins 0.000 description 1
- 239000006096 absorbing agent Substances 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 235000001014 amino acid Nutrition 0.000 description 1
- 230000030741 antigen processing and presentation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 102000023732 binding proteins Human genes 0.000 description 1
- 108091008324 binding proteins Proteins 0.000 description 1
- 229940022399 cancer vaccine Drugs 0.000 description 1
- 238000009566 cancer vaccine Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012239 gene modification Methods 0.000 description 1
- 230000005017 genetic modification Effects 0.000 description 1
- 235000013617 genetically modified food Nutrition 0.000 description 1
- 229930195712 glutamate Natural products 0.000 description 1
- 235000013922 glutamic acid Nutrition 0.000 description 1
- 239000004220 glutamic acid Substances 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 230000003053 immunization Effects 0.000 description 1
- 230000002621 immunoprecipitating effect Effects 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000009149 molecular binding Effects 0.000 description 1
- 210000000663 muscle cell Anatomy 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000011275 oncology therapy Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004803 parallel plate viscometry Methods 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 239000000816 peptidomimetic Substances 0.000 description 1
- 229920000553 poly(phenylenevinylene) Polymers 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 238000004885 tandem mass spectrometry Methods 0.000 description 1
- 101150037438 tpm gene Proteins 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
Description
本出願は、2020年6月18日に出願された“Composite Biomarkers for Immunotherapy for Cancer”と題する米国仮特許出願第63/040,943号、及び2020年11月7日に出願された“Machine-Learning Techniques For Predicting Surface-Presenting Peptides”と題する米国仮特許出願第63/111,007号に基づく、優先権を主張し、これらの全内容は、全ての目的のために参照によりその全体が本明細書に組み込まれる。
少なくとも従来のシステムの上記の欠点に対処するために、本技術を用いて表面提示ペプチドを予測することができる。本明細書で使用される場合、「表面提示ペプチド」とは、MHC分子(例えば、HLA-Aタンパク質)に結合し、対応する細胞表面に提示されるペプチドを意味しうる。1つ又は複数の体細胞バリアントは、正常試料及び腫瘍試料からのDNAの配列を決定することによって同定することできる。体細胞バリアントには、腫瘍試料及び正常試料に存在する1つ又は複数の遺伝子変異が含まれる。腫瘍試料の体細胞バリアントは、訓練済み機械学習モデルを使用して処理され、体細胞バリアントによってコードされたペプチドがMHC分子(例えば、MHCクラス1)に結合し、細胞表面に提示されるかどうかを予測することができる。機械学習モデルには、体細胞バリアントによってコードされるペプチドがMHC分子に結合するかどうかを予測する結合モデルを含むことができる。いくつかの実施形態では、機械学習モデルは、体細胞バリアントによってコードされるペプチドが細胞表面に発現するかどうかを予測する提示モデルを含む。
1.腫瘍試料中のネオアンチゲン
ネオアンチゲンは腫瘍試料中に見ることができ、ネオアンチゲンは、腫瘍細胞表面に提示され、それにより免疫系反応を引き起こす1つ又は複数のペプチドを指す。免疫系は、がんを含む病原体を探すように調整することができ、したがってがんを治癒する能力を有する。免疫系は自己と非自己抗原を区別することができる。腫瘍は遺伝子変異(例えば体細胞バリアント)によって引き起こされるので、これらの遺伝子変異に対応し、細胞表面に発現するペプチドはネオアンチゲンとみなすことができる。これらのペプチドは免疫系にとって「新しい」とみなされるので、理想的には、免疫系は腫瘍細胞表面に提示されたネオアンチゲンを検出することに基づいて腫瘍細胞を認識し、腫瘍細胞を排除することができる。上記で説明したように、腫瘍試料を分析して配列データを明らかにし、その配列データは正常な試料のものと比較されて体細胞バリアントを同定することができる。体細胞バリアントをさらに分析して、どのバリアントのサブセットがペプチドとして現れることになるかを判定することができる。ネオアンチゲンは、MHC分子に結合し、細胞表面に提示されるペプチドを同定することによって予測することができる。したがって、ペプチドが細胞表面に提示される能力は、がんに対する免疫療法を開発するための重要な要素となりうる。
表面提示ペプチドは、自己免疫疾患との関係において同定可能であり、そのペプチドは、特定の免疫療法に起因する遺伝的変化(genetic alterations)に基づいてコードされる。図2は、遺伝子治療に反応する表面提示ペプチドを示す模式図を示す。図2では、ジストロフィン遺伝子の変異が示されており、その遺伝子は典型的には衰弱性の筋ジストロフィーを引き起こす。ジストロフィン遺伝子は、筋細胞の衝撃吸収物質としてクッションの役割を果たすジストロフィンタンパク質分子をコードする。完全に機能するジストロフィンタンパク質がないことで、筋肉の変性に至る可能性がある。典型的には、筋ジストロフィーはエクソームスキップ療法(exome skipping therapy)で治療することができ、ジストロフィン遺伝子変異の原因となるエクソーム(exomes)(例えばエクソン52)をスキップし、対象のための半機能的なジストロフィンタンパク質を生成することができる。エクソームスキップ療法は効果的な場合もあるが、遺伝子改変を通して意図的にエクソームがスキップされることに起因して、新しいタイプのペプチドの生成を誘発する可能性がある。その新しいペプチドはMHC分子に結合し、細胞表面に提示されることになってしまい、それにより破壊的な免疫系反応を引き起こす可能性がある。
表面提示ペプチドを予測するための機械学習モデルは、教師あり訓練アルゴリズムを使用して訓練することができる。機械学習モデルは、訓練データセットを使用して訓練することができる。機械学習モデルを訓練するための訓練データセットは、次の様々なソースからの配列データを含むことができる:(i)インビトロでの実験に基づいてHLA分子に結合すると特定されたペプチド、(ii)腫瘍試料から質量分析を行うことによって同定されたペプチド、(iii)HLAアレル、及び(iv)腫瘍以外の試料。しかし、一部の訓練配列データは、機械学習モデルの訓練に不正確な場合がある。例えば、組織試料から生成された訓練配列データは、細胞表面に同時に発現しているいくつかのタイプのHLAタンパク質(例えば、HLA-A、HLA-B)の1つにペプチドをマッピングするという困難なプロセスを要することになる。別の例では、インビトロの方法を使用して生成された配列データは、表面提示を模倣していない可能性がある。訓練データセットの不整合を体系的に解決するための本開示の実施形態は、配列データから呼び出される(called from)体細胞バリアントから、細胞表面に「シャトル(shuttled)」される可能性が高いペプチドを予測する機械学習モデルを訓練するために使用される。
a)単一アレル免疫ペプチドミクスデータ
場合によっては、訓練データの少なくとも一部は、遺伝子操作された単一アレル細胞株から同定されたペプチドに対応する。図3は、いくつかの実施形態に従って、機械学習モデルを訓練するのに使用できる単一アレル免疫ペプチドミクスデータを特定する概略図を示す。図3に示されるように、遺伝子操作された単一アレルK562細胞株を作製し、次いで特定の目的のHLA分子(例えば、HLA-B)でトランスフェクションすることができる(ステップ305)。前述のように、HLA複合体は、ヒトにおいてMHC遺伝子複合体によってコードされる関連タンパク質のグループである。これらの細胞表面タンパク質は免疫系の調節を担っている。細胞株から、HLA結合ペプチドは、W6/32抗体を使用してHLA-ペプチド複合体を免疫沈降すること(ステップ310)、ペプチド溶出を適用すること(ステップ315)、及び質量分析(例えば、液体クロマトグラフィー-質量分析、質量分析)を使用して溶出されたペプチドに対してペプチド配列の決定を行うこと(ステップ320)によって同定することができる。したがって、その特定の目的のHLA分子についてHLA結合ペプチドを同定することができる(ステップ325)。
場合によっては、トレーニングデータの少なくとも一部は、他の対象の組織試料を配列決定することから同定されたペプチドに対応する。様々な組織試料又は対象の組織試料の細胞株を配列決定して、異なるタイプのHLA分子(例えば、HLA-A、HLA-B、HLA-C)に結合する複数のペプチドを同定することができる。場合によっては、細胞株及び組織試料は質量分析を使用して処理される。同定された複数のペプチドから得られた複アレル免疫ペプチドミクスデータは、訓練データの一部として使用することができる。複アレル免疫ペプチドミクスデータには、ペプチドの長さ及びアレル多様性を含む、同定されたペプチドに対応する様々な特徴を含めることができる。図5は、いくつかの実施形態に従って、表面提示ペプチドを予測するための機械学習モデルを訓練するための対象の組織試料から同定されたソース多様性データを示す。図5では、単一及び複アレル試料のそれぞれについて、ペプチドの種類ごとの量が示されている。追加として又は代替えとして、複アレルデータを公開データソースから取得することもできる。
上記で説明したように、訓練データセットからの免疫ペプチドミクスデータは、ペプチド配列、ペプチドの長さ、結合ポケット配列、左フランキング領域、及び右フランキング領域を含む、HLA結合ペプチドの様々な特徴を特定する。場合によっては、訓練データセットはまた、DPMで測定されたペプチドの発現レベルなどの抗原提示の特徴も含む。上記に加えて、2つの追加の特徴が、免疫ペプチドミクスデータから生成でき、それらを使用して訓練データセットを強化することができる。
免疫ペプチドミクスデータから生成される第1の特徴には、遺伝子発現レベルに基づく予想ペプチド数と実際に観察されたペプチド数との間の比較データを含めることができる。第1の特徴をもつ訓練データセットを含めることによって、上記訓練データから訓練された訓練済み機械学習モデルは、表面提示ペプチドの予想を向上することができ、その結果、予測は、ペプチドの発現と提示の間の集団レベルの関係によって予想される確率と比べて、より確実である提示を予測するスコアと関連するペプチドにバイアスがかかる。さらに、上記訓練データから訓練された訓練済み機械学習モデルは、表面提示ペプチドの予測を容易にすることができ、その結果、予測は、空間内の領域と関連するペプチドへの選択にバイアスをかける方法で実行され、その領域は、集団レベルの関係から逸脱した方法で発現レベル及びペプチド提示メトリクスが関係する訓練データセット内の外れ値ペプチドと関連する。
免疫ペプチドミクスデータから生成される第2の特徴には、所与の遺伝子の1つ又は複数の領域内の発現レベルに基づいた予想ペプチド数と、その1つ又は複数の領域に対応する実際に観察されたペプチド数との比較データを含めることができる。様々な遺伝子にわたって遺伝子発現レベルを特定する第1の特徴とは対照的に、第2の特徴は単一の遺伝子内の領域の発現レベルを特定する。特定された発現レベルに基づいて、予想される量のペプチドを生成することができる。予想される量を観察されたペプチドの量と比較して、訓練データセット第2の特徴を特定することができ、そこでは第2の特徴は、対応する遺伝子内の領域の1つ又は複数の表面提示特性を示す。
訓練データセットを使用して、表面提示ペプチドを予測するための機械学習モデルを訓練することができる。機械学習モデルは、試料中のペプチドの結合特性及び表面提示特性を特定するように構成された1つ又は複数のサブモデルを含む。これらのサブモデルは、訓練データセットの対応するサブセットで別々に訓練することができ、その結果、各サブモデルは、サブセットに対応する特徴から学習したパラメータに基づいて表面提示ペプチドを予測できるようになる。
場合によっては、機械学習モデルは結合モデル及び提示モデルを含み、それぞれが入力データの様々な特徴を処理するように訓練される。図10は、いくつかの実施形態による、結合モデル1005及び提示モデル1010によって使用される特徴の例を示す。結合モデル1005は、ペプチドのセットに関連する情報(例えば、ペプチドを結合するMHC分子の配列、ペプチドの長さ)を含む訓練データセットを使用して訓練することができる。場合によっては、結合モデル1005は、1つ又は複数の訓練済み勾配ブースティングアルゴリズムを含む。勾配ブースティングは、弱い予測モデルのアンサンブルの形態で予測モデルを作成する回帰及び分類問題に対する機械学習技術を意味する。その技術は、段階的にモデルを構築し、任意の微分可能な損失関数の最適化を可能にすることによってモデルを一般化することができる。勾配ブースティングは、弱い学習器を反復する方法で単一の強い学習器に組み合わされる。それぞれの弱い学習器が追加されるにつれて、新しいモデルが適合されて、応答変数のより正確な推定値がもたらされる。新しい弱い学習器は、損失関数の負の勾配と最大に相関させることができ、アンサンブル全体と関連づけられる。勾配ブースティングマシンの例として、XGBoost及びLightGBMを挙げることができる。追加として又は代替えとして、バギング手法、ブースティング手法、及び/又はランダムフォレストアルゴリズムを含む他の種類の機械学習手法を使用して結合モデルを構築することができる。
図11は、いくつかの実施形態による、表面提示ペプチドを予測するための機械学習モデルを訓練するための例示的なモデルアーキテクチャを示す。図11に示されるように、訓練データベースは、様々なタイプの情報を含む円柱で示され、一般に公開されているソースから取得したアレルデータを含む。例えば、濃い灰色の円柱は、遺伝子操作された単一アレル細胞株に対応する免疫ペプチドミクスデータを含む(図4を参照)。別の例では、トレーニングデータベースは、一般に公開されているデータソース(例えば、白い円柱で表されるIEDBデータベース)からのインビトロ結合データも含むことができる。場合によっては、各訓練データベースからの訓練データセットは、対応する結合モデル及び提示モデルを個別に訓練するために使用される。さらに、訓練データベースを大きな訓練データベースに統合して、その対応する結合モデル及び提示モデル(例えば、図11の「ALL(MONO)」薄い灰色の円柱)を訓練することもできる。
訓練済み機械学習モデルの性能を評価するために、訓練プロセスの一部ではないいくつかの実験的に観察されたペプチド及び合成デコイを含むテストデータセットが生成される。訓練済み機械学習モデルは、これらの候補テストペプチドを処理して、MHCクラスI結合及び細胞表面提示を予測するスコアを出力し、機械学習モデルは、上記のように大規模な免疫ペプチドーム訓練データセットを使用して訓練されている。次いで、スコアを、細胞表面に提示されている検証済みMHC結合ペプチドから得られた対応するデータと比較して、訓練済み機械学習モデルの性能レベルを明らかにする。また、出力スコアは、NetMHCpan 4.0(ペプチドのMHC分子に対する結合を予測する既知のプラットフォーム)に対して評価し、訓練された機械学習アルゴリズムは、より高い全体の感度及び特異性を示している。出力スコアを基に、予測されるペプチドの抗原負荷スコアは、信頼性閾値を上回る出力スコアを有するペプチドを使用して計算することができる。
a)陽性的中率
図12は、いくつかの実施形態による、10%ホールドアウトデータに基づき、陽性的中率について測定した、訓練済みの結合モデル及び訓練済み提示モデルの性能レベルを示す。評価データは単一アレル免疫ペプチドミクスデータに基づく。陽性的中率(PPV)は、訓練済み機械学習モデルの予測された陽性のうち、実際に陽性であった割合と定義される。したがって、PPVは予測された陽性が真の陽性である確率を反映する。評価データセットでは、陽性と陰性の比率を示す陽性率は1:999である。
図15は、いくつかの実施形態による、訓練済み提示モデルの一個抜き分析の結果を示す。細胞表面に提示される可能性のある未知のタイプのMHC結合ペプチドを発見する上での訓練済み提示モデルの性能を示すために、一個抜き分析は、訓練済み提示モデルが、いずれの訓練データにもないアレルに対応する表面提示ペプチドを予測することができるかどうかを評価するために使用することができる。一個抜き分析を実施するために、1つの特定のアレルに対応する訓練データを除外した訓練データセットで提示モデルを訓練した。訓練後、訓練済み機械学習モデルは、50万個のランダムペプチドを処理して、少なくともいくつかのMHC結合ペプチドが除外されたアレルによってコードされている表面提示ペプチドを予測することによって評価した。訓練された機械学習モデルによるペプチドの予測の正解率を評価するために、予測されたMHC結合ペプチドのモチーフを、特定のアレルが利用可能な生データから得られたモチーフと比較した。
図16は、いくつかの実施形態による、訓練済み機械学習モデルを評価するための適合率及び再現率の値を示すグラフを示す。適合率-再現率は、予測の成功の有用な指標になりうる。情報検索では、適合率は結果の関連性(result relevancy)の指標であり、一方で再現率は、どれくらい多くの真に関連性のある結果が返されたかの指標である。高い適合率は低い偽陽性率に関係し、高い再現率は低い偽陰性率に関係する。適合率と再現率の両方の高スコアは、所与の分類器が正確な結果を返していること(高適合率)、及び陽性結果の大部分を返していること(高い再現率)を示し得る。訓練済み機械学習モデルの性能は、1:999の比率で合成陰性例と混合された訓練からの免疫ペプチドミクスデータの10%を使用して、ホールドアウトされた単一アレルデータに基づいて評価された。グラフのX軸は、ランクパーセンタイルの閾値が0.02~1.0の範囲のセットに対応し、結合又は提示のいずれかについて考慮される特定のランクパーセンタイル閾値内にある表面提示ペプチドを識別することになる。
さらに、複アレル試料を使用して訓練した機械学習モデルの性能レベルは、NetMHCpanなどの従来技術に比べて、表面提示ペプチドの予測の向上を示す。図17は、いくつかの実施形態による、様々な組織試料にわたる訓練済み機械学習モデルの性能レベルを表すボックスプロットを示す。図17では、3種類の組織試料を訓練済み機械学習モデルで処理して、表面提示ペプチドに対応する真の候補の回収の割合(fraction)を出した。したがって、より高い割合は、訓練済み機械学習モデルが、様々な組織試料にわたって表面提示ペプチドを正確に特定する上で、高い性能レベルを示すことができることを示唆しうる。
図19は、ある特定の実施形態による、表面提示ペプチドを予測する方法の一例を示すフローチャート1900を含む。フローチャート1900に記載の操作は、例えば、訓練済み結合及び提示モデルなどの訓練済み機械学習モデルを実装するコンピュータシステムによって実行することができる。フローチャート1900は、操作を順次的なプロセスとして説明しうるが、様々な実施形態において、操作の多くは、並行して又は同時に実行することができる。さらに、操作の順番を入れ替える(rearranged)ことも可能である。操作には、図に示されていない追加のステップを有してもよい。さらに、本方法の実施形態は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせによって実装することができる。ソフトウェア、ファームウェア、ミドルウェア、又はマイクロコードで実装される場合、関連するタスクを実行するプログラムコード又はコードセグメントは、記憶媒体などのコンピュータ可読媒体に格納することができる。
図20は、本明細書に開示の実施形態のいくつかを実施するためのコンピュータシステム2000の一例を示す。コンピュータシステム2000は、は、分散型アーキテクチャを有することがあり、一部のコンポーネント(例えば、メモリ及びプロセッサ)はエンドユーザデバイスの一部であり、一部の他の類似コンポーネント(例えば、メモリ及びプロセッサ)はコンピュータサーバの一部である。コンピュータシステム2000は、少なくともプロセッサ2002、メモリ2004、記憶装置2006、入力/出力(I/O)周辺機器2008、通信周辺機器2010、及びインターフェースバス2012を含む。インターフェースバス2012は、コンピュータシステム2000の様々なコンポーネント間で、データ、制御、及びコマンドを通信、送信、及び転送するように構成されている。プロセッサ2002は、CPU、GPU、TPU、シストリックアレイ、又はSIMDプロセッサなどの1つ又は複数の処理ユニットを含むことができる。メモリ2004及び記憶装置2006としては、コンピュータ可読記憶媒体、例えば、RAM、ROM、電気的に消去可能なプログラマブルリードオンリーメモリ(EEPROM)、ハードドライブ、CD-ROM、光学記憶装置、磁気記憶装置、電子不揮発性コンピュータ記憶装置、例えば、Flash(登録商標)メモリなどの、及び他の有形記憶媒体が挙げられる。そのようなコンピュータ可読記憶媒体のいずれも、本開示の態様を具現化する命令又はプログラムコードを格納するように構成することができる。メモリ2004及び記憶装置2006はまた、コンピュータ可読信号媒体を含む。コンピュータ可読信号媒体は、コンピュータ可読プログラムコードがそのなかに具現化された伝播データ信号を含む。そのような伝播信号は、電磁式、光学式、又はそれらの任意の組み合わせを含むが、それらに限定されない様々な形態のいずれかをとる。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではなく、コンピュータシステム2000と接続して使用するためのプログラムを通信、伝播、又は伝送できる任意のコンピュータ可読媒体を含む。
Claims (14)
- 機械学習モデルにアクセスすることであって、
前記機械学習モデルは、
以下を含んだ訓練データセットを使用して、前記訓練データセットによって特定される複数のペプチドの各ペプチドについて訓練され、:
前記ペプチドを結合し、提示する主要組織適合性複合体(MHC)分子のタンパク質特性;
前記ペプチドをコードする遺伝子の発現レベルを表す1つ又は複数の発現レベル;及び
前記MHC分子によって提示されたものとして検出されたペプチドの量を表す1つ又は複数のペプチド提示メトリクス;、かつ、
前記1つ又は複数の発現レベル及び前記1つ又は複数のペプチド提示メトリクスが、発現と提示の間の集団レベルの関係に従って関連している程度を示す出力を生成するように構成されている、前記機械学習モデルにアクセスすることと、
対象の組織試料に対応するゲノム及びトランスクリプトームデータにアクセスすることであって、前記ゲノム及びトランスクリプトームデータは、生体試料から1つ又は複数のMHC分子を特定し、かつ、前記組織試料から特定されたペプチドのセットの各ペプチドについて、前記ペプチドを表す1つ又は複数の値を含み、前記1つ又は複数の値の少なくとも1つが前記組織試料の処理に基づいて決定されている、前記ゲノム及びトランスクリプトームデータにアクセスすることと、
前記ペプチドのセットの各ペプチドについて、前記機械学習モデル、前記生体試料から特定された前記1つ又は複数のMHC分子、及び前記ペプチドを表す前記1つ又は複数の値を使用してスコアを決定することと、
前記スコアに基づいて結果を生成することと、
前記結果を出力することと、
を含む、方法。 - 前記スコアに基づいて前記ペプチドのセットの不完全なサブセットを選択することをさらに含み、前記不完全なサブセットの識別は、前記集団レベルの関係によって予想される確率に比べて、提示がより確実であると予想するスコアと関連するペプチドへの該選択にバイアスをかける方法で実行され、前記結果は、前記ペプチドのセットの前記不完全なサブセットを含む、請求項1に記載の方法。
- 前記スコアに基づいて前記ペプチドのセットの不完全なサブセットを選択することをさらに含み、前記不完全なサブセットの識別は、空間内の領域と関連するペプチドへの該選択にバイアスをかける方法で実行され、前記領域は、前記集団レベルの関係から逸脱した方法で発現レベル及びペプチド提示メトリクスが関係する前記訓練データセット内の外れ値ペプチドと関連する、請求項1に記載の方法。
- 前記結果は、前記ペプチドのセットの1つ又は複数の各ペプチドについて、前記ペプチドの識別及び前記スコアを含む、請求項1に記載の方法。
- 前記ペプチドのセットの各ペプチドについて、前記ペプチドを表す前記1つ又は複数の値が、前記ペプチドのアミノ酸配列、前記ペプチドが前記MHC分子の1つ又は複数の結合ポケットに結合するかどうかの指標、前記組織試料中の前記ペプチドの発現レベル、及び/又は、前記ペプチドの長さに基づいて生成される、請求項1に記載の方法。
- 前記訓練データセットは、単一アレル細胞株に由来するペプチドに対応する単一アレルデータ及び/又は他の組織試料に由来するペプチドに対応する複アレルデータから得られる、請求項1に記載の方法。
- 前記ペプチドのセットのペプチドに対応する前記スコアは、前記ペプチドが前記MHC分子に結合し、細胞表面に提示されるかどうかに関する予測確率に対応する、請求項1に記載の方法。
- 前記機械学習モデルは、1つ又は複数の訓練済み勾配ブースティングアルゴリズムを含む、請求項1に記載の方法。
- 前記機械学習モデルは、前記複数のペプチドの各ペプチドについて、前記ペプチドに対応する配列、前記ペプチドに結合するMHC分子の配列、及び/又は、前記ペプチドの長さを含む前記訓練データセットの第1のサブセットで訓練された第1のサブモデルを含む、請求項1に記載の方法。
- 前記機械学習モデルは、前記複数のペプチドの各ペプチドについて、前記ペプチドが由来するソースタンパク質の1つ又は複数の発現レベル及び前記ペプチドの表面提示特性を含む前記訓練データセットの第2のサブセットで訓練された第2のサブモデルを含む、請求項9に記載の方法。
- 前記第1のサブモデル及び前記第2のサブモデルは、サブモデルの別のセットによって生成された1つ又は複数の出力に基づいて各々訓練された、請求項10に記載の方法。
- 複合(composite)機械学習モデルにアクセスすることであって、前記複合機械学習モデルは、(i)生体試料からのペプチドが少なくとも1つの主要組織適合性複合体(MHC)分子に結合するかどうかを予測するように構成された第1の機械学習モデル、及び、(ii)前記生体試料からの前記ペプチドが細胞表面に提示されるかどうかを予測するように構成された第2の機械学習モデルを含み、
前記第1の機械学習モデルは、第1の入力の特徴のセットを含む第1の訓練データセットを使用して訓練され、各前記第1の入力の特徴のセットが、ペプチド及び前記ペプチドに結合する対応するMHC分子の1つ又は複数の結合特性を含み、前記第1の入力の特徴のセットが、1つ又は複数の単一アレル細胞株を処理することによって決定され、かつ、
前記第2の機械学習モデルは、第2の入力の特徴のセットを含む第2の訓練データセットを使用して訓練され、各前記第2の入力の特徴のセットが、前記ペプチド及び前記対応するMHC分子の1つ又は複数の表面提示特性を含み、各前記第2の入力の特徴のセットが、前記第1の機械学習モデルを使用して、1つ又は複数の単一アレル細胞株及び1つ又は複数の複アレル組織試料からのデータをデコンボリューションすることによって決定される、前記複合機械学習モデルにアクセスすることと、
ペプチドのセットから、前記少なくとも1つのMHC分子に結合し、前記細胞表面上に提示されることになるペプチドの不完全なサブセットを予測するように構成された前記複合機械学習モデルを利用することと、
を含む、方法。 - 1つ又は複数のデータプロセッサと、
前記1つ又は複数のデータプロセッサが実行されたときに、本明細書に開示の1つ又は複数の方法の一部又は全てを、前記1つ又は複数のデータプロセッサに実行させる命令を含む非一時的なコンピュータ可読記憶媒体と、
を含む、システム。 - 1つ又は複数のデータプロセッサに本明細書に開示の1つ又は複数の方法の一部又は全部を実行させるように構成された命令を含む、非一時的な機械可読記憶媒体に、実体的に具現化されたコンピュータプログラム製品。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063040943P | 2020-06-18 | 2020-06-18 | |
US63/040,943 | 2020-06-18 | ||
US202063111007P | 2020-11-07 | 2020-11-07 | |
US63/111,007 | 2020-11-07 | ||
PCT/US2021/037902 WO2021257879A1 (en) | 2020-06-18 | 2021-06-17 | Machine-learning techniques for predicting surface-presenting peptides |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023530719A true JP2023530719A (ja) | 2023-07-19 |
Family
ID=79268454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022577543A Pending JP2023530719A (ja) | 2020-06-18 | 2021-06-17 | 表面提示ペプチドを予測するための機械学習技術 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230115039A1 (ja) |
EP (1) | EP4168569A4 (ja) |
JP (1) | JP2023530719A (ja) |
WO (1) | WO2021257879A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102517004B1 (ko) * | 2022-01-24 | 2023-04-03 | 주식회사 네오젠티씨 | 면역펩티돔을 분석하기 위한 방법 및 장치 |
KR102507110B1 (ko) * | 2022-02-15 | 2023-03-07 | 주식회사 네오젠티씨 | 주조직 적합성 복합체의 타입들을 분석하기 위한 방법 및 장치 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018195357A1 (en) * | 2017-04-19 | 2018-10-25 | Gritstone Oncology, Inc. | Neoantigen identification, manufacture, and use |
US20190346442A1 (en) * | 2016-04-18 | 2019-11-14 | The Broad Institute, Inc. | Improved hla epitope prediction |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7283982B2 (en) * | 2003-12-05 | 2007-10-16 | International Business Machines Corporation | Method and structure for transform regression |
JP6971845B2 (ja) * | 2014-10-10 | 2021-11-24 | セクエノム, インコーポレイテッド | 遺伝子の変動の非侵襲的評価のための方法および処理 |
US11965892B2 (en) * | 2017-02-12 | 2024-04-23 | Biontech Us Inc. | HLA-based methods and compositions and uses thereof |
EP3759131A4 (en) * | 2018-02-27 | 2021-12-01 | Gritstone bio, Inc. | NEO-ANTIGEN IDENTIFICATION USING PAN-ALLEL MODELS |
KR20210013589A (ko) * | 2018-05-23 | 2021-02-04 | 그릿스톤 온콜로지, 인코포레이티드 | 면역 체크포인트 억제제 공동-발현 벡터 |
BR112021012278A2 (pt) * | 2018-12-21 | 2021-12-14 | Biontech Us Inc | Método e sistema para a preparação de células hla de classe ii-específica de epitopes e de síntese de cd4 + t |
-
2021
- 2021-06-17 WO PCT/US2021/037902 patent/WO2021257879A1/en active Application Filing
- 2021-06-17 EP EP21825871.3A patent/EP4168569A4/en active Pending
- 2021-06-17 JP JP2022577543A patent/JP2023530719A/ja active Pending
-
2022
- 2022-12-13 US US18/065,410 patent/US20230115039A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190346442A1 (en) * | 2016-04-18 | 2019-11-14 | The Broad Institute, Inc. | Improved hla epitope prediction |
WO2018195357A1 (en) * | 2017-04-19 | 2018-10-25 | Gritstone Oncology, Inc. | Neoantigen identification, manufacture, and use |
Non-Patent Citations (1)
Title |
---|
RACHEL MARTY PYKE,ほか13名, "PRECISION NEOANTIGEN DISCOVERY USING LARGE-SCALE IMMUNOPEPTIDOMES AND COMPOSITE MODELING OF MHC PEP, JPN6023046264, 7 June 2021 (2021-06-07), US, ISSN: 0005196917 * |
Also Published As
Publication number | Publication date |
---|---|
EP4168569A4 (en) | 2024-08-07 |
US20230115039A1 (en) | 2023-04-13 |
EP4168569A1 (en) | 2023-04-26 |
WO2021257879A1 (en) | 2021-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Northey et al. | IntPred: a structure-based predictor of protein–protein interaction sites | |
McDermott et al. | Challenges in biomarker discovery: combining expert insights with statistical analysis of complex omics data | |
CA2877429C (en) | Systems and methods for generating biomarker signatures with integrated bias correction and class prediction | |
CA2877430C (en) | Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques | |
Roy et al. | Exploiting amino acid composition for predicting protein-protein interactions | |
US20230115039A1 (en) | Machine-learning techniques for predicting surface-presenting peptides | |
Li et al. | Prediction of anticancer peptides using a low-dimensional feature model | |
Reimand et al. | Domain-mediated protein interaction prediction: From genome to network | |
Lin et al. | An integrative imputation method based on multi-omics datasets | |
Walsh et al. | RUBI: rapid proteomic-scale prediction of lysine ubiquitination and factors influencing predictor performance | |
Duren et al. | Regulatory analysis of single cell multiome gene expression and chromatin accessibility data with scREG | |
Theofilatos et al. | Predicting protein complexes from weighted protein–protein interaction graphs with a novel unsupervised methodology: evolutionary enhanced Markov clustering | |
Li et al. | DeTOKI identifies and characterizes the dynamics of chromatin TAD-like domains in a single cell | |
Jun-Tao et al. | An improved elastic net for cancer classification and gene selection | |
Yang et al. | iEnhancer-RD: identification of enhancers and their strength using RKPK features and deep neural networks | |
Majidian et al. | Hap10: reconstructing accurate and long polyploid haplotypes using linked reads | |
Gao et al. | RicENN: prediction of rice enhancers with neural network based on DNA sequences | |
Egertson et al. | A theoretical framework for proteome-scale single-molecule protein identification using multi-affinity protein binding reagents | |
Midic et al. | Intrinsic disorder in putative protein sequences | |
Sha et al. | DeepSADPr: A hybrid-learning architecture for serine ADP-ribosylation site prediction | |
WO2008007630A1 (fr) | Méthode et appareil de recherche de protéine | |
Dorigatti et al. | Predicting t cell receptor functionality against mutant epitopes | |
Tasmia et al. | Prediction of serine phosphorylation sites mapping on Schizosaccharomyces Pombe by fusing three encoding schemes with the random forest classifier | |
Patrick et al. | Mapping the stabilome: a novel computational method for classifying metabolic protein stability | |
Leduc et al. | Modeling and interpretation of single-cell proteogenomic data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230301 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231004 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231114 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20240214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240322 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240423 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20240828 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20240917 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20241011 |