JP2023534220A - 新生抗原の提示尤度を決定するための方法、システム及びコンピュータプログラム製品 - Google Patents
新生抗原の提示尤度を決定するための方法、システム及びコンピュータプログラム製品 Download PDFInfo
- Publication number
- JP2023534220A JP2023534220A JP2023501655A JP2023501655A JP2023534220A JP 2023534220 A JP2023534220 A JP 2023534220A JP 2023501655 A JP2023501655 A JP 2023501655A JP 2023501655 A JP2023501655 A JP 2023501655A JP 2023534220 A JP2023534220 A JP 2023534220A
- Authority
- JP
- Japan
- Prior art keywords
- training
- input
- sequence
- peptide
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Peptides Or Proteins (AREA)
Abstract
本発明は、新生抗原の提示尤度を決定するためのコンピュータ実装方法と、コンピュータシステムと、コンピュータプログラム製品とに関する。さらに、本発明は、対象者の治療を決定するための、方法、システム、及び/又はコンピュータプログラム製品の使用に関する。
Description
本発明は、新生抗原の提示尤度を決定するためのコンピュータ実装方法、コンピュータシステム及びコンピュータプログラム製品に関する。
正常な抗原決定基に加えて、癌細胞の表面は、異常ゲノム事象から導出され、T細胞によって認識可能な新生抗原を提示する可能性が高い。
新生抗原は、免疫系によって前もって認識されていない新たに形成された抗原である。近年、これらの新生抗原を標的とすることは、個別化医療の非常に有望な手段であることが示された。
新しい技術的発展は、細胞表面で主要組織適合複合体(MHC)分子に実際に結合されるペプチドの質量分析から導出される一覧の利用可能性を増加させることを可能にした。これらの一覧は「リガンドーム(ligandome)」と呼ばれる。最新技術の新生抗原発見方法は、癌細胞によって産生された全ての潜在的な新生抗原の一覧を生成することから始まり、潜在的に免疫反応を誘発する、これらの細胞の表面に提示される可能性が最も高い抗原決定基を抽出するために、インシリコ(in silico)予測アルゴリズムに依存する。
WO 2017 106 638は、腫瘍細胞表面上に提示される可能性が高い、対象者の腫瘍細胞から1つ以上の新生抗原を識別するための方法を説明する。さらに、この文献は、腫瘍から高品質の塩基配列決定データを取得するための、及び多型ゲノムデータにおける体細胞変化を識別するためのシステム及び方法を開示する。最後に、WO ‘638は、特有の癌ワクチンを説明する。
US 2019 0 311 781は、機械学習アルゴリズム又は統計的推論モデルの使用を通して、細胞処理、輸送及びMHC提示の成功に関連付けられた特徴を含むペプチドを識別するための方法を説明する。US 2018 0 085 447は、癌ワクチンとして治療的有用性を有する免疫原性変異体ペプチドを識別するための方法を説明する。より具体的には、すべての遺伝子改変タンパク質からT細胞活性化新生抗原決定基を識別するための方法である。これらの変異タンパク質は、抗原提示細胞内のタンパク質分解によって分解された後、新生抗原決定基に寄与する。
EP 3 256 853は、ワクチン接種に有用なT細胞抗原決定基を予測するための方法を説明する。特に、この文書は、腫瘍に関連付けられた新生抗原などのペプチド又はポリペプチドにおける修飾が免疫原性であって、特にワクチン接種に有用であるか否かを予測するための、又はそのような修飾のどれが最も免疫原性であって、特にワクチン接種に最も有用であるかを予測するための方法に関連する。
NetMHCpan又はMHCflurryなどの、同じ問題に対処するいくつかのさらなる手段及び手法が利用可能である。これらの手法は、所与のHLA対立遺伝子に対するペプチド結合親和性を予測する方法を使用する。EDGE又はMARIAなどの他の手法も、学習に基づく提示確率を出力するが、HLA配列を考慮せず、HLA型をカテゴリ変数として符号化しない。
さらに、最初の予測方法は、細胞表面における提示の尤度の標示として、MHCに対する候補の新生抗原の結合親和性を使用する。しかしながら、これらの手法は、細胞表面提示処理の全体をモデル化することができず、したがって、低い陽性予測値を被る。さらに、これらの手法は、モデルの訓練に含まれないHLA分子について新生抗原決定基の提示尤度を予測することができない。
本発明は、上述の欠点のうちの少なくともいくつかに対する解決策、ならびに最新技術に関する改善を提供することを目的とする。
第1の態様では、本発明は、請求項1に従って、対象者の腫瘍の腫瘍細胞による新生抗原の集合の提示尤度を決定するためのコンピュータ実装方法に関する。
第2の態様では、本発明は、請求項12に従って、対象者の腫瘍の腫瘍細胞による新生抗原の集合の提示尤度を決定するためのコンピュータシステムに関する。
第3の態様では、本発明は、請求項13に従って、対象者の腫瘍の腫瘍細胞による新生抗原の集合の提示尤度を決定するためのコンピュータプログラム製品に関する。
第4の態様において、本発明は、請求項14に従って、対象者の治療を決定するための使用に関する。
本発明の目的は、前述の細胞によって発現されるHLA対立遺伝子の集合を与えられ、可変長新生抗原決定基の癌細胞表面での提示の尤度を予測することである。この目的のために、深層学習モデルが使用される。
本発明は、モデルがHLA対立遺伝子に関して訓練されていなくても、任意のHLA対立遺伝子に対する新生抗原決定基の提示尤度を予測することができるので有利である。
本発明の好ましい実施形態は、請求項2から12、ならびに説明及び例の全体にわたって論じられる。
本発明は、第1の態様において、新生抗原の集合の提示尤度を決定するためのコンピュータ実装方法に関する。第2及び第3の態様では、本発明は、コンピュータシステム及びコンピュータプログラム製品に関する。第4の態様では、本発明は、対象者の治療を決定するための方法、システム又は製品のいずれかの使用に関する。以下、本発明が詳細に説明され、好ましい実施形態が論じられるであろう。さらに、本発明が非限定的な例によって示されるであろう。
別途定義されない限り、技術用語及び科学用語を含む、本発明を開示する際に使用されるすべての用語は、本発明が属する技術分野の当業者によって一般に理解される意味を有する。さらなる指針によって、本発明の教示をより良く理解するために、説明において使用される用語の定義が含まれる。本明細書で使用される用語又は定義は、単に本発明の理解を助けるために提供される。
本明細書で使用されるとき、以下の用語は以下の意味を有する。
本明細書で使用される「不定冠詞」及び「定冠詞」は、文脈が明らかに別段の指示をしない限り、単数及び複数の両方の指示対象を指す。例として、「不定冠詞付き区画(a compartment)」は、1つ以上の区画を指す。
本明細書で使用される「含む(comprise)」、「含んでいる(comprising)」及び「含む(comprises)」及び「から構成される(comprised of)」は、「包含する(include)」、「包含している(including)」、「包含する(includes)」又は「収容する(contain)」、「収容している(containing)」、「収容する(contains)」と同義であり、例えば構成要素に続くものの存在を指定する包括的又は開放的用語であり、当技術分野で知られる又はそこに開示される、追加の、非列挙の構成要素、特徴、要素、部材、ステップの存在を排除又は除外するものではない。
終点による数値範囲の列挙は、その範囲内に包含される全ての数及び分数、ならびに列挙された終点を含む。全ての割合は、他で定義されない限り、又は異なる意味がその使用から及び使用される文脈において当業者に明白でない限り、重量による割合として理解される。「重量%」、「重量割合」、「%wt」又は「wt%」という表現は、本明細書及び本明細書全体を通して、別段の定義がない限り、配合物の総重量に基づくそれぞれの構成要素の相対重量を指す。
用語「1つ以上」又は「少なくとも1つ」、例えば部材群のうちの1つ以上又は少なくとも1つの部材、はさらなる事例によってそれ自体明らかである。この用語はとりわけ、前述の部材の任意の1つ、又は前述の部材の任意の2つ以上、例えば、前述の部材の任意の≧3、≧4、≧5、≧6又は≧7など、及び前述の部材の全てまで、への言及を包含する。
別途定義されない限り、技術用語及び科学用語を含む、本発明を開示する際に使用されるすべての用語は、本発明が属する技術分野の当業者によって一般に理解される意味を有する。さらなる指針によって、本発明の教示をより良く理解するために、説明の際に使用される用語の定義が含まれる。本明細書で使用される用語又は定義は、単に本発明の理解を助けるために提供される。
本明細書全体を通して「一実施形態」又は「実施形態」への言及は、実施形態に関連して説明される特定の特徴、構造又は特性が本発明の少なくとも1つの実施形態に含まれることを意味する。したがって、本明細書全体にわたる様々な場所における「ある実施形態では」又は「一実施形態では」という語句の出現は、必ずしもすべて同じ実施形態を指すわけではないが、同じ実施形態を指してもよい。さらに、特定の特徴、構造、又は特性は、1つ以上の実施形態において、本開示から当業者に明らかであるように、任意の適切な方法で組み合わされることができる。さらに、本明細書に説明されるいくつかの実施形態は、他の実施形態において含まれる一部の特徴を含むが他の特徴を含まない一方で、異なる実施形態の特徴の組み合わせは、当業者によって理解されるように、本発明の範囲内であり、異なる実施形態を形成することを意味する。例えば、以下の特許請求の範囲において、特許請求される実施形態のいずれも、任意の組み合わせで使用されることができる。
さらに、本明細書及び特許請求の範囲における第1、第2、第3などの用語は、同様の要素間で区別するために使用され、指定されない限り、必ずしも連続的又は時系列的順序を説明するために使用されない。そのように使用される用語は、適切な状況下で交換可能であり、本明細書に説明される本発明の実施形態は、本明細書に説明又は図示される以外の他の順序で動作することが可能であることを理解されたい。
第1の態様では、本発明は、対象者の腫瘍の腫瘍細胞による新生抗原の集合の提示尤度を決定するためのコンピュータ実装方法に関する。本方法は好ましくは、対象者の、前述の腫瘍に関連付けられた腫瘍細胞と正常細胞とから、エクソーム又は全ゲノムヌクレオチド塩基配列決定データとトランスクリプトームヌクレオチド塩基配列決定データとのうちの少なくとも1つを取得するステップを含む。本方法は好ましくは、腫瘍細胞からの、エクソーム及び/又は全ゲノムヌクレオチド塩基配列決定データとトランスクリプトームヌクレオチド塩基配列決定データとを、正常細胞からの、エクソーム及び/又は全ゲノムヌクレオチド塩基配列決定データとトランスクリプトームヌクレオチド塩基配列決定データとに対して比較することによって、前述の腫瘍に関連付けられた異常ゲノム事象の集合を取得するステップをさらに含む。本方法は好ましくは、異常事象の前述の集合に少なくとも部分的に基づいて識別された新生抗原の集合の各々のペプチド配列を表すデータを取得するステップをさらに含む。各新生抗原のペプチド配列は、対象者の正常細胞から識別された対応する野生型ペプチド配列と区別させる少なくとも1つの改変を含む。本方法は好ましくは、腫瘍細胞からの、腫瘍のエクソーム及び/又は全ゲノムヌクレオチド塩基配列決定データとトランスクリプトームヌクレオチド塩基配列決定データとに基づいて、HLAのペプチド配列を表すデータを取得するステップをさらに含む。本方法は好ましくは、陽性データ集合を含む訓練データ集合で深層学習モデルを訓練するステップをさらに含む。陽性データ集合は、複数の入力-出力ペアを含む。各ペアは、入力として、抗原決定基配列の項目を含む。前述の抗原決定基配列は、訓練細胞によって発現された対応するHLA対立遺伝子によって符号化される表面結合又は分泌HLA/ペプチド複合体から識別又は推測される。各ペアは、出力として、対応するHLA対立遺伝子によって符号化されるα鎖のペプチド配列の項目をさらに含む。本方法は好ましくは、訓練されたモデルによって、HLAのペプチド配列について新生抗原の集合の各々の提示尤度を決定するステップをさらに含む。
第2の態様では、本発明は、対象者の腫瘍の腫瘍細胞による新生抗原の集合の提示尤度を決定するためのコンピュータシステムに関する。コンピュータシステムは、本発明の第1の態様によるコンピュータ実装方法を実行するように構成される。
第3の態様では、本発明は、対象者の腫瘍の腫瘍細胞による新生抗原の集合の提示尤度を決定するためのコンピュータプログラム製品に関する。コンピュータプログラム製品は、コンピュータプログラム製品がコンピュータによって実行されると、本発明の第1の態様による方法をコンピュータに実行させる命令を含む。
第4の態様では、本発明は、対象者の治療を決定するための、本発明の第1の態様による方法、及び/又は本発明の第2の態様によるコンピュータシステム、及び/又は本発明の第3の態様によるコンピュータプログラム製品の使用に関する。
本発明は、対象者の腫瘍の腫瘍細胞による新生抗原の提示尤度を決定するためのコンピュータ実装方法、コンピュータシステム及びコンピュータプログラム製品と、対象者の治療を決定するための方法、システム、又は製品のうちのいずれかの使用とを提供する。当業者は、本方法がコンピュータプログラム製品において実装され、コンピュータシステムを使用して実行されることを理解するであろう。また、新生抗原の集合の提示尤度が、対象者の治療を決定するために使用され得ることは、当業者にとって明らかである。したがって、以下では、本発明の4つの態様を一緒に取り扱う。
本明細書で使用される「対象者」は、最新技術において知られる用語を指し、好ましくはヒト又は動物の身体、最も好ましくはヒトの身体として理解されるべきである。本明細書で使用される「動物」は、好ましくは脊椎動物、より好ましくは鳥類及び哺乳類、さらにより好ましくは哺乳類を指す。本明細書で使用される「その必要とする対象者」は、治療から恩恵を得るであろう対象者として理解されるべきである。
本発明の単純な実施形態は好ましくは、対象者の、前述の腫瘍に関連付けられた腫瘍細胞と正常細胞とから、エクソーム又は全ゲノムヌクレオチド塩基配列決定データとトランスクリプトームヌクレオチド塩基配列決定データとのうちの少なくとも1つを取得することを提供する。単純な実施形態は好ましくは、腫瘍細胞からの、エクソーム及び/又は全ゲノムヌクレオチド塩基配列決定データとトランスクリプトームヌクレオチド塩基配列決定データとを、正常細胞からの、エクソーム及び/又は全ゲノムヌクレオチド塩基配列決定データとトランスクリプトームヌクレオチド塩基配列決定データとに対して比較することによって、前述の腫瘍に関連付けられた異常ゲノム事象の集合を取得するステップをさらに提供する。エクソーム、全ゲノムヌクレオチド塩基配列決定データとトランスクリプトームヌクレオチド塩基配列決定データとは、各それぞれ、対応するヌクレオチド塩基配列決定データのデータ型と比較されることは明らかである。
本明細書で使用される「新生抗原決定基」は、最新技術において知られる用語を指し、好ましくは腫瘍に特有な変異体から生じる主要組織適合複合体(MHC)結合ペプチドの部類として理解されるべきである。これらのペプチドは、新生抗原の抗原決定子を表す。新生抗原決定基は、T細胞の標的として免疫系によって認識され、癌に対する免疫応答を誘発することができる。
本明細書で使用される「新生抗原」は、最新技術において知られる用語を指し、好ましくは最も密接に関連した野生型抗原と区別させる少なくとも1つの改変を有する抗原として理解されるべきである。この野生型抗原は、すなわち、対応する野生型配列であり、例えば、腫瘍細胞変異体、腫瘍細胞に特有な翻訳後修飾、融合、転移因子挿入、選択的スプライシング事象、又は当業者により知られる改変の任意の方法を介する。さらに、新生抗原は、ポリペプチド又はヌクレオチド配列を含んでもよいし、含まなくてもよい。
好ましくは、異常ゲノム事象の集合は、一塩基多型(SNP)、挿入欠失変異、遺伝子融合、染色体再配列(逆位、転座、重複、又は変時性など)、転移因子挿入、又は選択的スプライシング事象のうちの1つ以上を含む。本明細書の文脈において、用語「挿入欠失」は、有機体のゲノムにおける1つ以上の核酸の挿入又は欠失の分子生物学用語として理解される。さらに、本明細書の文脈において、用語「SNP」又は「一塩基多型」は、有機体のゲノムにおける特定の位置で生じる一塩基の置換を指す。
本発明は、対象者、好ましくは患者からの生の塩基配列決定データから開始する新生抗原決定基発見パイプラインによって生成された入力ペプチド又は新生抗原決定基配列を使用してもよいし、又は使用しなくてもよい。この生の塩基配列決定データは、少なくとも腫瘍DNA、好ましくは生検により生成された腫瘍DNAを含む。好ましくは、この生のデータは、腫瘍RNA、より好ましくは生検により生成された腫瘍RNAをさらに含む。好ましくは、この生のデータは、対象者の標本、好ましくは血液標本から生成された正常DNAをさらに含む。好ましくは、この生のデータは、対象者の標本、好ましくは血液標本から生成された正常RNAをさらに含む。
本明細書で使用される「標本」は、最新技術において知られる用語を指し、好ましくは、静脈穿刺、排泄、射精、もみ療治、生検、針吸引、洗浄標本、擦過、外科的切開若しくは介入、又は当技術分野で知られる任意の他の手段を含む手段によって、対象者から採取される、単一細胞、又は複数の細胞、又は細胞の断片、又は体液のアリコート、として理解されるべきである。
新生抗原決定基発見パイプラインは、腫瘍内で生じるすべてのゲノム及びトランスクリプトーム改変事象の一覧を出力する。これらの「異常ゲノム事象」は、新規の転移因子挿入事象、新規のRNAアイソフォーム、新規の遺伝子融合、新規のRNA編集事象、ならびに産生されたタンパク質に関する新規のヌクレオチドに基づく翻訳後修飾事象を含む。加えて、それは、RNA及びDNA水準の両方で一塩基多型(SNP)と挿入欠失(限局性挿入又は欠失変異)とを検出し、両方の分析からの結果を対比して、高信頼SNPと挿入欠失との一覧を産生する。
好ましい実施形態によれば、信頼スコアは、関連付けられた各異常ゲノム事象を支持する塩基配列決定データの塩基配列決定読み取りの数に少なくとも部分的に基づいて、前述の異常ゲノム事象の集合の各々に関連付けられる。好ましくは、信頼スコアは、関連付けられた各異常ゲノム事象を支持する塩基配列決定データのゲノムにおける浸透性(pervasive)に少なくとも部分的にさらに基づく。好ましい実施形態は、前述の異常ゲノム事象の集合の各異常ゲノム事象の信頼スコアを閾値と比較することによって異常ゲノム事象の部分集合を取得することをさらに含む。関連付けられた信頼スコアが前述の閾値を超える場合、事象は前述の部分集合に追加される。異常事象の前述の集合に少なくとも部分的に基づいて識別される新生抗原の集合は、好ましい本実施形態によれば、異常事象の前述の部分集合に少なくとも部分的に基づいて識別される。高い信頼スコアを有する事象は、塩基配列決定読み取りの高い数を見せ、ゲノムに浸透し、したがって、さらなる調査のために選択される。その結果、性能は改善される。
入力配列が非標準アミノ酸を含む場合、本発明は機能しないことに留意されたい。本明細書の文脈において、用語「非標準アミノ酸」は、自然に符号化されない、又は任意の有機体の遺伝暗号に見出されない、非標準又は非コードアミノ酸として理解される。
本発明の単純な実施形態は好ましくは、腫瘍細胞からの、腫瘍のエクソーム及び/又は全ゲノムヌクレオチド塩基配列決定データとトランスクリプトームヌクレオチド塩基配列決定データとに基づいて、HLAのペプチド配列を表すデータを取得することを提供する。したがって、腫瘍生検のHLA構成は、新生抗原の集合を識別するために使用されるのと同じゲノムデータを使用して評価される。好ましくは、本発明は、腫瘍細胞からの、腫瘍のエクソーム及び/又は全ゲノムヌクレオチド塩基配列決定データとトランスクリプトームヌクレオチド塩基配列決定データとに基づいて、HLAの集合の各々のペプチド配列を表すデータを取得することを提供する。
本明細書で使用される「ヒト白血球抗原(HLA)」は、最新技術において知られる用語を指し、好ましくはヒトにおける「主要組織適合複合体(MHC)」タンパク質を符号化する遺伝子複合体として理解されるべきである。これらの細胞表面タンパク質は、ヒトにおける免疫系の調節に関与する。HLA遺伝子は、高度に多型であり、すなわち、異なる対立遺伝子を有し得、それにより、HLA遺伝子は、対象者の適応免疫系を微調整することを可能にする。本明細書の文脈において、用語「HLA結合親和性」又は「MHC結合親和性」は、特有な抗原と特有なMHC対立遺伝子との間の結合の親和性として理解される。本明細書の文脈において、用語「HLA型」は、HLA遺伝子対立遺伝子の補体として理解される。
本発明の単純な実施形態は好ましくは、訓練データ集合で深層学習モデルを訓練することを提供する。訓練データ集合は好ましくは、陽性データ集合を含む。陽性データ集合は好ましくは、複数の入力-出力ペアを含む。各ペアは好ましくは、入力として、抗原決定基配列の項目を含む。抗原決定基配列は好ましくは、訓練細胞によって発現された対応するHLA対立遺伝子によって符号化される表面結合又は分泌HLA/ペプチド複合体から識別又は推測される。各ペアは好ましくは、出力として、対応するHLA対立遺伝子によって符号化されるα鎖のペプチド配列の項目をさらに含む。
本明細書で使用される「訓練細胞」は好ましくは、標本が導出される細胞として理解されるべきである。前述の標本は、陽性データ集合における入力-出力ペアの入力と出力とを取得するために使用される。訓練細胞は、ヒト細胞株などの単一対立遺伝子細胞株から取得される細胞、又はヒト組織などの複対立遺伝子組織から取得される細胞、であってもよいし、それでなくてもよい。
最も好ましい実施形態によれば、各陽性入力は、所与のデータ集合において細胞表面に存在することが示された、8から15個のアミノ酸からなる抗原決定基の配列からなる。関連付けられた各陽性出力は、同じデータ集合内の細胞によって発現されるHLA対立遺伝子のα鎖の連結アミノ酸配列、最大71アミノ酸、からなる。
好ましい実施形態によれば、陽性データ集合の各入力-出力ペアのうちの入力の抗原決定基配列は、質量分析によって取得される。別の又は他の実施形態において、陽性データ集合の各入力-出力ペアのうちの出力の対応するHLA対立遺伝子によって符号化されるα鎖のペプチド配列は、質量分析によって取得される。
本発明の一実施形態では、陽性の入力-出力ペアは、好ましくは陽性の訓練集合を構築するために使用される質量分析データにおける発生頻度に応じて、異なる重みを割り当てられることができる。重みは、ペアが深層学習モデルの訓練に及ぼす影響を修正する。より大きな重みは、以下でさらに説明されるように、前述の入力-出力ペアを用いてモデルを訓練するときに、深層学習モデルに関連付けられたパラメータのより大きな調整をもたらすであろう。
他の好ましい実施形態によれば、深層学習モデルを訓練するための訓練データ集合は陰性データ集合をさらに含む。陰性データ集合は好ましくは、複数の入力-出力ペアを含む。各ペアは好ましくは、入力として、ペプチド配列の項目を含む。前述のペプチド配列は好ましくは、ヒトプロテオームのランダム配列である。各ペアは好ましくは、出力として、ランダムHLA対立遺伝子から符号化されたペプチド配列をさらに含む。
最も好ましい実施形態によれば、陽性の各入力は、任意のリガンドームデータ集合内に存在しないヒトプロテオームからのランダム配列である。入力は、8から15個のアミノ酸からなるランダム配列である。関連付けられた各出力は、陽性のデータ集合内に存在するHLA対立遺伝子のランダム集合のα鎖の配列の連結である。
本明細書で使用される「プロテオーム」は、最新技術において知られる用語を指し、好ましくは、ある時点においてゲノム、細胞、組織、又は有機体によって発現される、又は発現され得るタンパク質の全集合として理解されるべきである。これは、所定の条件下で、所与の時間に、所与の種類の細胞又は有機体において発現されたタンパク質の集合である。「プロテオミクス」は、プロテオームの研究である。
好ましくは、陽性データ集合の入力-出力ペアの一部、好ましくは大部分、より好ましくは陽性データ集合と陰性データ集合との両方が深層学習モデルを訓練するために使用される。好ましくは、陽性データ集合の入力-出力ペアの一部、好ましくは少数、より好ましくは陽性データ集合と陰性データ集合との両方が、訓練された深層学習モデルを検証するために使用される。
深層学習モデルを訓練するための陽性及び陰性の入力-出力ペアの数の間の比率は、変更してもよいし、変更しなくてもよい。前述の比率は、モデルの訓練の重要なパラメータである。
深層学習モデルを検証するための陽性及び陰性の入力-出力ペアの数の間の比率は、変更してもよいし、変更しなくてもよい。前述の比率は、モデルの検証の重要なパラメータである。
好ましい実施形態によれば、陽性データ集合は、単一対立遺伝子データ集合と複対立遺伝子データ集合とを含む。単一対立遺伝子データ集合は好ましくは、単一対立遺伝子細胞株からの訓練細胞から取得される入力-出力ペアを含む。複対立遺伝子データ集合は好ましくは、複対立遺伝子組織からの訓練細胞から取得される入力-出力ペアを含む。単一対立遺伝子細胞株から取得される訓練細胞は好ましくは、単一対立遺伝子ヒト細胞株から取得された細胞である。複対立遺伝子組織から取得される訓練細胞は好ましくは、ヒト組織から取得される細胞である。複対立遺伝子ヒト組織は、健常又は癌性であってもよいし、それでなくてもよい。
本明細書で使用される「単一対立遺伝子」は、最新技術において知られる用語を指し、好ましくは、1つの対立遺伝子のみが集団の部位(site)又は遺伝子座に生じる状況として理解されるべきである。
本明細書で使用される「複対立遺伝子」は、最新技術において知られる用語を指し、好ましくは、多くの対立遺伝子が生じる状況として理解されるべきである。多型は「複対立遺伝子」であり、「複対立性(polyallelic)」とも呼ばれる。
好ましい実施形態によれば、深層学習モデルの訓練は、2つ以上の訓練サイクルを含む。各訓練サイクルは好ましくは、複数の訓練ステップを含む。各訓練ステップは好ましくは、複数の入力-出力ペアのうちのペアを処理することを含む。好ましくは、前述の2つ以上の訓練サイクルのうちの1つは、単一対立遺伝子データ集合で深層学習モデルを訓練することを含む。好ましくは、前述の2つ以上の訓練サイクルのうちの1つは、単一対立遺伝子データ集合と複対立遺伝子データ集合との両方で深層学習モデルを訓練することを含む。
さらに好ましい実施形態によれば、本発明は、3つ以上の訓練サイクルを提供する。前述の3つ以上のサイクルのうちの1つの訓練サイクルは、教師あり学習期間である。その期間でモデルは、単一対立遺伝子データ集合と複対立遺伝子データ集合との両方で訓練され、対立遺伝子の特定の集合によって提示されるアミノ酸の完全な配列を予測する。前述の3つ以上のサイクルのうちの1つの訓練サイクルは、バーンイン期間である。その間、モデルが特定のペプチド-HLA関係を学習するために、単一対立遺伝子データ集合から導出される標本のみが使用される。前述の3つ以上のサイクルのうちの1つのサイクルは、一般化期間である。その間、複対立遺伝子データ集合がモデルを一般化するために使用され、それによって、患者データを学習する。
好ましい実施形態によれば、陽性データ集合の各入力-出力ペアのうちの入力の抗原決定基配列は、質量分析によって取得される。新しい技術開発は、細胞表面でMHC分子に実際に結合されるペプチドの質量分析から導出される一覧の利用可能性を増加させることを可能にした。これらの一覧は「リガンドーム」と呼ばれる。本明細書の文脈において、用語「リガンドーム」は、細胞及び有機体におけるタンパク質についての分子配位子の完全な集合として理解される。好ましくは、入力-出力ペアの陽性集合は、訓練細胞からのリガンドームデータから構築される。
好ましくは、本発明による深層学習モデルは、深層意味類似度モデル、畳み込み深層意味類似度モデル、反復深層意味類似度モデル、深層関連性マッチングモデル(deep relevance matching model)、深層及びワイドモデル、深層言語モデル、トランスフォーマネットワーク、長期短期記憶ネットワーク、学習された深層学習テキスト埋め込み、学習された固有表現認識、シャムニューラルネットワーク、相互作用シャムネットワーク、若しくは語彙及び意味マッチングネットワーク、又はそれらの任意の組合せのうちの少なくとも1つである。
好ましくは、深層学習モデルを訓練することはスコア関数を決定することを含む。より好ましくは、スコア関数は、二乗誤差スコア関数、平均スコア関数、又は最大スコア関数のうちの1つ以上である。好ましくは、スコア関数は、モデルによって出力される確率と、訓練データ集合に関連付けられたHLA-新生抗原決定基関係情報との間の二乗誤差の合計として構築される。さらに、これは、スコア0と1とを使用することによって実施されることができる。これらのスコアは、「提示されない」(=0)及び「提示される」(=1)という、訓練データ集合におけるグラウンドトゥルースに帰属される値を表す。
本発明のさらなる実施形態では、モデルの係数が、スコア関数を最小化するために、すべての訓練ステップで調整される。ニューラルネットワークは、互いに接続されたニューロンから構成される。同時に、ニューラルネットワークの各接続は、入力値によって乗算されると、ニューロンにおける関係の重要性を指示する重みに関連付けられる。ニューラルネットワークが学習するために、ニューロン接続に関連付けられた重みは、ネットワークを介したデータの順通過の後に更新されなければならない。これらの重みは、しばしば逆伝播と呼ばれる処理を介して、後続の順通過の実際の結果と予測される結果との間の差異を調整するのに役立つように調整される。
好ましくは、本発明による深層学習モデルがシーケンスツーシーケンス(sequence-to-sequence)モデルである。本明細書で使用される「シーケンスツーシーケンスモデル(seq2seq)」は、最新技術において知られる用語を指し、符号器復号器モデル(Encoder Decoder model)とも呼ばれる。これは、好ましくは、符号器が入力配列を読み取って単一のベクトルを出力し、復号器がそのベクトルを読み取って出力配列を産出するモデルとして理解されるべきである。したがって、そのようなモデルは、入力と出力との長さが異なり得る、固定長及び/又は非固定長入力を、固定長及び/又は非固定長出力と対応付けることを目的とする。HLA対立遺伝子が、構造全体の特定の、機能的に関連する部分のアミノ酸配列によってモデル化されるseq2seq手法の使用は、モデルが訓練されていないHLA対立遺伝子に対する新生抗原決定基の提示尤度を外挿して予測することができるという利点を有する。最も好ましくは、seq2seqモデルはトランスフォーマネットワークである。
好ましい実施形態によれば、本発明は、新生抗原決定基埋め込み器(embedder)と位置符号器とを使用して抗原決定基配列の対応する項目を変換することによって、複数の入力-出力ペアのうちのペアの入力を、埋め込まれた入力数値ベクトルに処理することを提供する。埋め込まれた入力数値ベクトルは、対応する項目の抗原決定基配列を構成する複数のアミノ酸と抗原決定基配列内のアミノ酸の位置の集合とに関する情報を含む。さらに好ましい実施形態によれば、本発明は、対立遺伝子埋め込み器と位置符号器とを使用して、α鎖のペプチド配列の対応する項目を変換することによって、ペアのうちの出力を、埋め込まれた出力数値ベクトルに処理することを提供する。埋め込まれた出力数値ベクトルは、対応する項目のペプチド配列を構成する複数のアミノ酸とペプチド配列内のアミノ酸の位置の集合とに関する情報を含む。上述の埋め込み器と符号器とは、深層学習モデルの入力と出力との変換を、処理の前後に、訓練、検証又は使用中に、適切なフォーマットにすることを可能にする。
最も好ましくは、深層学習モデルは、トランスフォーマネットワーク又はトランスフォーマである。トランスフォーマネットワークは、配列変換又はニューラル機械翻訳の問題を解決するために開発された。つまり、入力配列を出力配列に変換又は一致させる任意のタスクである。配列変換を実行するためのモデルについて、ある種類の記憶を有することが必要である。これは、入力間の、依存性と長距離接続を含む接続性とを理解する必要がある。これらのトランスフォーマニューラルネットワークは、自己注意の概念を利用する。トランスフォーマニューラルネットワークは、モデルの符号器と復号器との間で注意を使用した、長期短期記憶(LSTM)又は畳み込みニューラルネットワーク(CNN)の以前の手法に取って代わることができる。自己注意機構は、モデルの入力が互いに相互作用し、それらがより多くの注意を払うべき要素又は部分を見つけ出すことを可能にする。出力は、これらの相互作用及び注意スコアの集合体である。
より詳細には、注意機能は、クエリ、すなわち、配列と鍵-値ペアの集合とを出力に対応付けるものとして説明されることができる。ここで、クエリ(q)と、鍵(k)と、値(v)と、出力とはすべてベクトルである。鍵と値とは、モデルの記憶と見なされることができ、これは、前に処理されたすべてのクエリを意味する。スコアは、配列内のトークン、すなわちアミノ酸の自己注意を決定するために計算される。配列の各トークンは、自己注意計算が望まれるトークンに対してスコア付けされる必要がある。そのスコアは、トークンが特定の位置で符号化されると、配列の他の部分にどれだけの焦点を合わせる必要があるかを決定する。このスコアは、クエリベクトルと、スコア付けされたトークンそれぞれの鍵ベクトルとのドット積を取ることによって計算される。スケール化されたドット積の注意を採用することによって、出力は、値の重み付けされた合計として計算される。各値に割り当てられた重みは、クエリとすべての鍵とのドット積によって決定される。
自己注意方法の使用には様々な動機付けがある。トランスフォーマ型ニューラルネットワークを使用する主な利点は、符号化器の自己注意を並列化することができ、したがって全体的なモデル訓練時間を短縮することである。別の1つは、ネットワークにおける長距離依存性間の経路長である。長距離依存性を学習することは、多くの配列変換タスクにおいて重要な課題である。そのような依存性を学習する能力に影響を及ぼす1つの重要な要因は、順信号及び逆信号がネットワーク内を通過しなければならない経路の長さである。入力配列と出力配列とにおける位置の任意の組み合わせ間のこれらの経路が短いほど、長距離依存性を学習することがより容易になる。
好ましい実施形態によれば、トランスフォーマネットワークは、符号器と復号器とを含む。符号器は、以下を含む。
o新生抗原決定基埋め込み器
o位置符号器
o1つ以上の配列符号器であって、それぞれ以下の2つの副層を含む
i.マルチヘッド自己注意副層
ii.順伝播副層
復号器は、以下を含む。
o1つ以上の配列復号器であって、それぞれ以下の3つの副層を含む
i.マルチヘッド自己注意副層
ii.マルチヘッド符号器-復号器注意副層
iii.順伝播副層
oHLA配列埋め込み器
o確率生成器であって、以下を含む。
i.線形射影器(linear projector)
ii.ソフトマックス層
o新生抗原決定基埋め込み器
o位置符号器
o1つ以上の配列符号器であって、それぞれ以下の2つの副層を含む
i.マルチヘッド自己注意副層
ii.順伝播副層
復号器は、以下を含む。
o1つ以上の配列復号器であって、それぞれ以下の3つの副層を含む
i.マルチヘッド自己注意副層
ii.マルチヘッド符号器-復号器注意副層
iii.順伝播副層
oHLA配列埋め込み器
o確率生成器であって、以下を含む。
i.線形射影器(linear projector)
ii.ソフトマックス層
「埋め込み器」は、埋め込みアルゴリズムを使用して、各入力をベクトル又はテンソルに変換する。この変換が必要であるのは、深層ニューラルネットワークを含む多くの機械学習アルゴリズムは、それらが平文の文字列上で動作しないので、入力が連続値のベクトルであることを必要とするからである。埋め込み器を使用することは、次元削減と文脈類似度との利点を与える。特徴又はデータ集合の次元を減らすことにより、モデルの精度が向上し、アルゴリズムが高速に訓練し、必要な記憶領域が少なくなり、冗長な特徴及びノイズが除去される。入力のペア間の類似度は、対応するベクトルのペアに適用されるいくつかの類似度又は距離測度によって計算されることができ、データのより表現的な表現を与える。
トランスフォーマでは、自己注意は、配列内のトークンの位置を無視する。しかしながら、トークン、すなわちアミノ酸の位置及び順序は、配列の重要な部分である。この制限を克服するために、トランスフォーマは、「位置符号化」を明示的に追加する。これは、配列内のそれらの位置について各トークンに追加される情報の一部である。入力と出力との両方を埋め込まれた配列は、位置符号化され、自己注意処理が、位置に関連した相互依存性を正確に推論することを可能にする。これらは、合計が最初の注意層に入る前に、入力又は出力の埋め込みに追加される。
「配列符号化」は、いくつかの同一層の積層から構成される。各層は、2つの副層を有する。第1は「マルチヘッド自己注意」機構であり、第2は、単純な「順伝播ネットワーク」である。注意を1回だけ計算するのではなく、マルチヘッド機構は、スケール化されたドット積の注意を複数回並行して行う。独立した注意出力は、単純に連結され、期待される次元に線形変換される。これは、異なる位置に焦点を合わせるモデルの能力を拡張する。自己注意層の出力は、単純な順伝播ニューラルネットワークに供給され、そこで情報はさらに一方向にのみに移動する。残りの接続又はショートカットは、2つの副層の各々の周りに使用される。これは、モデルが初期訓練段階においてより少ない層を使用することを可能にし、それにより、ネットワークを単純化する。各層は、自身の出力と残差接続との合計に関する規格化で終了する。「配列復号器」は符号器に非常に類似するが、追加で「マルチヘッド符号器-復号器注意副層」を有する。符号器-復号器副層は、符号器又は復号器注意副層とは異なる。マルチヘッド自己注意とは異なり、符号器-復号器注意副層は、その下の層からクエリ行列を作成する。これは、復号器自己注意であり、符号器層の出力から鍵と値との行列を取得する。これは、復号器が入力配列内の適切な場所に焦点を合わせるのに役立つ。
復号器出力は、「線形射影」又は変換と「ソフトマックス機能」又は「ソフトマックス層」とを使用することによって、予測された次のトークン確率に変換される。線形射影層は、データの次元、ならびにネットワークパラメータの数を低減する。ソフトマックス層は、多クラス動作であり、多クラスの確率を一度に決定する際に使用される。ソフトマックス関数の出力は確率として解釈されることができるので(すなわち、それらは1まで合計しなければならない)、ソフトマックス層は、典型的にはニューラルネットワーク関数において使用される最終層である。
好ましい実施形態によれば、深層学習モデルの訓練は、複数の訓練ステップを含む。各訓練ステップは、以下のステップに従う複数の入力-出力ペアのうちのペアの処理を含む。
o新生抗原決定基埋め込み器と位置符号器とを使用して、抗原決定基配列の対応する項目を変換することによって、ペアのうちの入力を、埋め込まれた入力数値ベクトルに処理するステップ。埋め込まれた入力数値ベクトルは、対応する項目の抗原決定基配列を構成する複数のアミノ酸と、抗原決定基配列内のアミノ酸の位置の集合とに関する情報を含む。
o対立遺伝子埋め込み器と位置符号器とを使用して、α鎖のペプチド配列の対応する項目を変換することによって、ペアのうちの出力を、埋め込まれた出力数値ベクトルに処理するステップ。埋め込まれた出力数値ベクトルは、対応する項目のペプチド配列を構成する複数のアミノ酸と、ペプチド配列におけるアミノ酸の位置の集合とに関する情報を含む。
oマルチヘッド自己注意副層と順伝播副層とを含む少なくとも1つの配列符号器を使用して、埋め込まれた入力数値ベクトルを、符号化された入力数値ベクトルに処理するステップ。符号化された入力数値ベクトルは、抗原決定基配列の対応する項目の抗原決定基配列の特徴に関する情報を含む。
oマルチヘッド自己注意副層を使用して、埋め込まれた出力数値ベクトルを、出力注意数値ベクトルに処理するステップ。出力注意数値ベクトルは、α鎖のペプチド配列の対応する項目のペプチド配列を構成する複数のアミノ酸の相互依存性に関する情報を含む。
oマルチヘッド符号器-復号器注意副層と順伝播副層とを使用して、符号化された入力数値ベクトルと対応する出力注意ベクトルとを、相関数値ベクトルに処理するステップ。相関数値ベクトルは、符号化された入力数値ベクトルと対応する出力注意ベクトルとの間の相関情報を含む。
o確率生成器を使用して、相関数値ベクトルを、埋め込まれた入力数値ベクトルと埋め込まれた出力数値ベクトルとの間の対応する確率に処理するステップ。
o新生抗原決定基埋め込み器と位置符号器とを使用して、抗原決定基配列の対応する項目を変換することによって、ペアのうちの入力を、埋め込まれた入力数値ベクトルに処理するステップ。埋め込まれた入力数値ベクトルは、対応する項目の抗原決定基配列を構成する複数のアミノ酸と、抗原決定基配列内のアミノ酸の位置の集合とに関する情報を含む。
o対立遺伝子埋め込み器と位置符号器とを使用して、α鎖のペプチド配列の対応する項目を変換することによって、ペアのうちの出力を、埋め込まれた出力数値ベクトルに処理するステップ。埋め込まれた出力数値ベクトルは、対応する項目のペプチド配列を構成する複数のアミノ酸と、ペプチド配列におけるアミノ酸の位置の集合とに関する情報を含む。
oマルチヘッド自己注意副層と順伝播副層とを含む少なくとも1つの配列符号器を使用して、埋め込まれた入力数値ベクトルを、符号化された入力数値ベクトルに処理するステップ。符号化された入力数値ベクトルは、抗原決定基配列の対応する項目の抗原決定基配列の特徴に関する情報を含む。
oマルチヘッド自己注意副層を使用して、埋め込まれた出力数値ベクトルを、出力注意数値ベクトルに処理するステップ。出力注意数値ベクトルは、α鎖のペプチド配列の対応する項目のペプチド配列を構成する複数のアミノ酸の相互依存性に関する情報を含む。
oマルチヘッド符号器-復号器注意副層と順伝播副層とを使用して、符号化された入力数値ベクトルと対応する出力注意ベクトルとを、相関数値ベクトルに処理するステップ。相関数値ベクトルは、符号化された入力数値ベクトルと対応する出力注意ベクトルとの間の相関情報を含む。
o確率生成器を使用して、相関数値ベクトルを、埋め込まれた入力数値ベクトルと埋め込まれた出力数値ベクトルとの間の対応する確率に処理するステップ。
他の実施形態では、ペアのうちの入力、抗原決定基配列と、ペアのうちの出力、HLAペプチド配列との両方の埋め込みは、異なる様式(モダリティ)のうちの1つに従うことができる。
第1の可能な様式によれば、各アミノ酸の位置はワンホット符号化され、これは20個の標準アミノ酸が存在するので、1×20ベクトルに変換されることを意味する。ベクトルの各位置は、0(ゼロ)であり、但し、1(いち)が存在する1つの位置は除かれる。この後者の位置は、存在する実際のアミノ酸を表す。このようにして、例えば、9merは、9×20行列に変換され、9つの位置のみが1である一方、他の全ての位置は0である。
第2の可能な様式によれば、各アミノ酸は個々にトークン化される。すなわち、アミノ酸対数値の辞書が構築され、各アミノ酸は、数値によって表される。例えば、プロリンは1として表され、一方でバリンは2として表される・・・。このようにして、9merは、9の数の長さを有するベクトルに変換される。
第3の可能な様式によれば、各アミノ酸は、nの数値の埋め込みベクトルによって置き換えられる。これらnの数値は、物理的、化学的、又は他の方法で定義され得るアミノ酸の特定の特徴に関連する。好ましい例として、アミノ酸は、物理化学的特性/特徴の集合から導出されるnの主な構成要素の値によって埋め込まれる。したがって、9merは、この例では9×n数の行列に変換される。
3つの可能な埋め込み様式は、個々のアミノ酸の位置で直接実行されることができる。1個のアミノ酸は、1個の埋め込みベクトルに埋め込まれる。別の又は他の様式では、抗原決定基配列(入力)とHLA配列(出力)との両方を埋め込むために、配列は、1を超える長さを有する文字列に分割されることができる。このようにして、個々のアミノ酸を考慮する代わりに、k-merが考慮される。
さらに好ましい実施形態によれば、複数の入力-出力ペアのうちのペアの処理は、以下のステップをさらに含む。
o埋め込まれた入力数値ベクトルと埋め込まれた出力数値ベクトルとの間の対応の確率を、訓練データ集合に関連付けられた対応する関連情報と比較することによって、訓練のためのスコア関数のデータ点を取得するステップ。
o前述のスコア関数を最適化するために、深層学習モデルに関連付けられたパラメータを調整するステップ。
好ましくは、スコア関数は、二乗誤差スコア関数、平均スコア関数、又は最大スコア関数のうちの1つ以上である。
o埋め込まれた入力数値ベクトルと埋め込まれた出力数値ベクトルとの間の対応の確率を、訓練データ集合に関連付けられた対応する関連情報と比較することによって、訓練のためのスコア関数のデータ点を取得するステップ。
o前述のスコア関数を最適化するために、深層学習モデルに関連付けられたパラメータを調整するステップ。
好ましくは、スコア関数は、二乗誤差スコア関数、平均スコア関数、又は最大スコア関数のうちの1つ以上である。
一実施形態では、スコア関数は、二値クロスエントロピー損失関数とすることができる。
本発明の一実施形態では、前に説明されたように、陽性入力-出力ペアは、好ましくは陽性訓練集合を構築するために使用される質量分析データにおける発生の頻度に応じて、異なる重みを割り当てられることができる。重みは、ペアが深層学習モデルの訓練に及ぼす影響を修正する。より大きな重みは、前述の入力-出力ぺアを用いてモデルを訓練するとき、深層学習モデルに関連付けられたパラメータのより大きな調整をもたらすであろう。
別の好ましい実施形態によれば、トランスフォーマネットワークは、符号器を含むが、復号器を含まない。このネットワークでは、入力抗原決定基配列と入力HLA配列の埋め込まれたベクトルとの両方が単一のベクトルとして処理される。入力埋め込みベクトルの値は、新生抗原決定基又はHLAのいずれかに関連するか否かを示すために、マスキングの種類が実行される。これは、例えば、抗原決定基入力に関連付けられた数値の符号が変更される一方で、HLA入力に関連付けられた前述の符号が変化されないことを意味する。加えて、このネットワークモデルでは、カスタム分離値が、入力の埋め込まれたベクトルの様々な位置において、特に、ベクトルの開始及び/又は末尾において、ならびに抗原決定基に関連した値とHLAに関連した値との間に、挿入される。このようにして、両方の入力配列を単一のベクトルとして処理する一方で、両方の入力配列間でさらに区別することができる。
他の好ましい実施形態によれば、モデルの訓練後、以下のうちの1つ以上が取得される。
-正しい構造が与えられたとき、機能を再現するために使用され得る係数の集合
-モデルの訓練のすべての態様を記述するパラメータの集合
-推論/試験のため、モデルを再生成するために使用され得る構造方式
-モデル訓練中に見られるHLAの辞書
-正しい構造が与えられたとき、機能を再現するために使用され得る係数の集合
-モデルの訓練のすべての態様を記述するパラメータの集合
-推論/試験のため、モデルを再生成するために使用され得る構造方式
-モデル訓練中に見られるHLAの辞書
一実施形態によれば、本発明は、他の関連する生物学的パラメータを考慮に入れるために、他の半独立モデルが、主に使用されるアーキテクチャに関連して訓練され得る方法を提供する。これらの生物学的パラメータは、新生抗原決定基が導出される遺伝子のRNA発現と、標本内の他の全ての遺伝子のRNA発現と、非コードRNAの発現と、翻訳後修飾状態と、RNA編集事象と、全ての免疫細胞型の免疫率と、標本のクローン性と、全てのゲノム改変事象の信頼スコアと、他の手段により予測されるペプチド-MHC結合親和性と、ペプチド-MHC複合体安定性と、ペプチド安定性及びターンオーバーと、新生抗原決定基オリジナルタンパク質内の隣接アミノ酸と、プロテアソーム活性と、ペプチドプロセシング活性と、を含む。モデル構造は、この一覧上の任意の欠落データが、モデルが提示確率を出力するのを妨げないような方法で設定される。
好ましい実施形態によれば、本発明はさらに以下のステップを含む。
-少なくとも、深層学習モデル又はその変形の陽性データ集合と、関連付けられた予測-改善パラメータ訓練データ集合とを含む半独立訓練データ集合で半独立ニューラルネットワークを訓練するステップ。前述の関連付けられた予測-改善パラメータ訓練データ集合は、新生抗原決定基が導出される遺伝子のRNA発現と、癌性組織標本内の複数の遺伝子のRNA発現と、非コードRNA配列の発現と、翻訳後修飾情報と、RNA編集事象と、複数の免疫細胞型の免疫率と、癌性組織標本のクローン性と、複数のゲノム改変事象の信頼スコアと、ペプチド-MHC結合親和性と、ペプチド-MHC複合体安定性と、ペプチド安定性及び/又はターンオーバーと、新生抗原決定基配列内の隣接アミノ酸と、プロテアソーム活性と、ペプチドプロセシング活性と、のうちの1つ以上の生物学的パラメータに関連する。好ましくは、前述の関連付けられた予測-改善パラメータ訓練データ集合は、少なくとも新生抗原決定基配列内の隣接アミノ酸に関連する。
-訓練された半独立ニューラルネットワークによって、HLAのペプチド配列について新生抗原の集合の各々の半独立提示尤度を決定するステップ。
-新生抗原の集合の各々について、決定された半独立提示尤度と、訓練されたモデルによって取得された提示尤度とを組み合わせて、全体の提示尤度を取得するステップ。
好ましくは、組合せは、訓練された単層ニューラルネットワークによって実行される。
好ましくは、半独立ニューラルネットワークは、単層ニューラルネットワークである。
好ましくは、対象者の、前述の腫瘍に関連付けられた腫瘍細胞と正常細胞とからのエクソーム又は全ゲノムヌクレオチド塩基配列決定データとトランスクリプトームヌクレオチド塩基配列決定データとのうちの少なくとも1つは、それぞれ、対象者の癌性組織標本と健常組織標本とから取得される。
-少なくとも、深層学習モデル又はその変形の陽性データ集合と、関連付けられた予測-改善パラメータ訓練データ集合とを含む半独立訓練データ集合で半独立ニューラルネットワークを訓練するステップ。前述の関連付けられた予測-改善パラメータ訓練データ集合は、新生抗原決定基が導出される遺伝子のRNA発現と、癌性組織標本内の複数の遺伝子のRNA発現と、非コードRNA配列の発現と、翻訳後修飾情報と、RNA編集事象と、複数の免疫細胞型の免疫率と、癌性組織標本のクローン性と、複数のゲノム改変事象の信頼スコアと、ペプチド-MHC結合親和性と、ペプチド-MHC複合体安定性と、ペプチド安定性及び/又はターンオーバーと、新生抗原決定基配列内の隣接アミノ酸と、プロテアソーム活性と、ペプチドプロセシング活性と、のうちの1つ以上の生物学的パラメータに関連する。好ましくは、前述の関連付けられた予測-改善パラメータ訓練データ集合は、少なくとも新生抗原決定基配列内の隣接アミノ酸に関連する。
-訓練された半独立ニューラルネットワークによって、HLAのペプチド配列について新生抗原の集合の各々の半独立提示尤度を決定するステップ。
-新生抗原の集合の各々について、決定された半独立提示尤度と、訓練されたモデルによって取得された提示尤度とを組み合わせて、全体の提示尤度を取得するステップ。
好ましくは、組合せは、訓練された単層ニューラルネットワークによって実行される。
好ましくは、半独立ニューラルネットワークは、単層ニューラルネットワークである。
好ましくは、対象者の、前述の腫瘍に関連付けられた腫瘍細胞と正常細胞とからのエクソーム又は全ゲノムヌクレオチド塩基配列決定データとトランスクリプトームヌクレオチド塩基配列決定データとのうちの少なくとも1つは、それぞれ、対象者の癌性組織標本と健常組織標本とから取得される。
一実施形態によれば、すべての副層の訓練は、Adam型最適化アルゴリズムを使用することによって実行される。最適化は、損失又は誤差を減らして、結果をより速く得ることを助けるため、重み及び学習率などのニューラルネットワークの属性を変更するために使用されるアルゴリズム又は方法である。アルゴリズムは、適応型学習率法の力を利用して、各パラメータについて個々の学習率を見つける。Adam型は、勾配の第1及び第2のモーメントの推定値を使用して、ニューラルネットワークの各重みについて学習率を適応させる。
一実施形態によれば、深層学習モデル、好ましくはトランスフォーマネットワーク、は、5分割交差検証の5エポックについて訓練される。k分割交差検証は、容易に理解され、容易に実施され、一般に他の方法よりも低い偏りを有する、新しいデータに関するモデルについての技能推定をもたらす。k分割交差検証におけるkの選択に関連付けられた偏り-分散トレードオフが存在する。k=5を使用してk分割交差検証を実行することは、過度に高い偏りも非常に高い分散も受けない試験誤差率推定値をもたらす。
本明細書で使用される「エポック」は、最新技術において知られる用語を指し、好ましくは、機械学習アルゴリズムが完了する訓練データ集合全体を通す通過の数の標示として理解されるべきである。1つのエポックは、完全な訓練データ集合を通す1サイクルである。
本明細書で使用される「K分割交差検証」は、最新技術において知られる用語を指し、好ましくは機械学習モデルの技能を推定するための統計的方法として理解されるべきである。この手法は、観察の集合を、ほぼ等しい大きさのk個のグループ又は集団(fold)に繰り返しランダムに分割することを含む。第1の集団は、検証集合として扱われる。本方法は、残りのk-1の集団に当てはめられる。k分割交差検証の実行結果は、しばしばモデル技能スコアの平均値とともに集約される。また、標準偏差又は標準誤差など、技能スコアの分散の尺度を含めることは、良い実践である。
本発明は、以下の非限定的な例によってさらに説明される。この例は、本発明をさらに例示し、本発明の範囲を限定することを意図するものではなく、又はそのように解釈されるべきではない。
実施例
例1:
本例は、本発明によるシーケンスツーシーケンストランスフォーマモデルの訓練に関する。
例1:
本例は、本発明によるシーケンスツーシーケンストランスフォーマモデルの訓練に関する。
シーケンスツーシーケンストランスフォーマモデルは、以下のアーキテクチャを有する。
-符号器
o新生抗原決定基の埋め込み器
o位置符号器
o1つ以上の配列符号器であって、それぞれ以下の2つの副層を含む
i.マルチヘッド自己注意副層
ii.順伝播副層
-復号器
o1つ以上の配列復号器であって、それぞれ以下の3つの副層を含む
i.マルチヘッド自己注意副層
ii.マルチヘッド符号器-復号器注意副層
iii.順伝播副層
oHLA配列埋め込み器
o確率発生器であって、以下を含む
i.線形射影器
ii.ソフトマックス層
-符号器
o新生抗原決定基の埋め込み器
o位置符号器
o1つ以上の配列符号器であって、それぞれ以下の2つの副層を含む
i.マルチヘッド自己注意副層
ii.順伝播副層
-復号器
o1つ以上の配列復号器であって、それぞれ以下の3つの副層を含む
i.マルチヘッド自己注意副層
ii.マルチヘッド符号器-復号器注意副層
iii.順伝播副層
oHLA配列埋め込み器
o確率発生器であって、以下を含む
i.線形射影器
ii.ソフトマックス層
上述のシーケンスツーシーケンストランスフォーマモデルは、モデルを介して陽性と陰性との入力-出力ペアの集合を処理することによって訓練される。
入力-出力ペアの陽性集合は、単一対立遺伝子ヒト細胞株又は複対立遺伝子ヒト組織(健常又は癌性)からのリガンドームデータから構築される。各陽性入力は、所与のデータ集合において細胞表面に存在することが示された抗原決定基の配列からなる(8~15個のアミノ酸)。関連付けられた各陽性出力は、同じデータ集合内の細胞によって発現されるHLA対立遺伝子のα鎖の連結アミノ酸配列から作られる(71個のアミノ酸)。
入力-出力ぺアの陰性集合は、ヒトプロテオームから構築される。各入力は、いずれのリガンドームデータ集合にも存在しないヒトプロテオームからのランダムな8から15mer配列である。関連付けられた各出力は、陽性データ集合内に存在するHLA対立遺伝子のランダム集合のα鎖の配列の連結である。
各訓練入力-出力ペアは、以下のモデルを介して処理される。
-入力ペプチドは、必要に応じて「.」トークンを用いて15の長さまでパディングされる。次に、結果として得られた配列は、新生抗原決定基埋め込み器によって21*15ワンホットテンソルに埋め込まれる。
-配列に基づくモデルは、2つのペプチド相互作用α‐ヘリックスの配列に従って、対立遺伝子埋め込み器によって、すべてのHLAを、21*71のワンホットテンソルに埋め込む。
-次に、入力と出力との両方の埋め込まれた配列は、位置符号化され、自己注意処理が位置に関連した相互依存性を正確に推論することを可能にする。
-埋め込まれた入力配列は、配列符号器ごとに順次処理される。自己注意副層は、ペプチド内相互依存性を学習する。順伝播副層は、それに応じて入力埋め込みを処理する。
-この符号化処理の結果は、入力新生ペプチドの固定次元の特徴を表す符号化である。
-埋め込まれたHLA配列入力は次に、処理され、各復号器において順次、符号化された新生抗原決定基入力と組み合わされ、埋め込まれた出力配列を進歩的に形成する。自己注意副層は、対立遺伝子内相互依存性を学習する。ペプチド注意副層は、符号化されたペプチド表現を、埋め込まれた出力と相関させる。順伝播副層は、それに応じて埋め込まれた出力に修正を適用する。このステップでは、入力と出力との間の対応が確立される。配列内相互依存性の検出を可能にする注意副層は、モデルの全体的な予測力を著しく改善することに留意されたい。
-最後に、埋め込まれた出力は、埋め込まれた入力と埋め込まれた出力との間の対応の確率を出力するように、生成器を介して処理され、提示の確率を表す(0から1、1が最高確率)。
-スコア関数は、モデルによって出力された確率と実際のHLA-ペプチド関係との間の二乗誤差の合計として構築される(0:ペプチドは、この対立遺伝子を発現する細胞の表面に提示されなかった、すなわち、ペプチドは、前述の陰性データ集合(dataser)の一部であった-1:ペプチドは、この対立遺伝子を発現する細胞の表面に提示された、すなわち、上述の陽性データ集合の部分であった)。平均スコア関数又は最大スコア関数を考慮するなど、データを集約する他の方法が可能である。
-すべての訓練ステップにおいて、すなわち、新しい入力-出力ペアの処理ごとに、モデルの係数は、このように定義されたスコア関数を最小化するように調整される。
-入力ペプチドは、必要に応じて「.」トークンを用いて15の長さまでパディングされる。次に、結果として得られた配列は、新生抗原決定基埋め込み器によって21*15ワンホットテンソルに埋め込まれる。
-配列に基づくモデルは、2つのペプチド相互作用α‐ヘリックスの配列に従って、対立遺伝子埋め込み器によって、すべてのHLAを、21*71のワンホットテンソルに埋め込む。
-次に、入力と出力との両方の埋め込まれた配列は、位置符号化され、自己注意処理が位置に関連した相互依存性を正確に推論することを可能にする。
-埋め込まれた入力配列は、配列符号器ごとに順次処理される。自己注意副層は、ペプチド内相互依存性を学習する。順伝播副層は、それに応じて入力埋め込みを処理する。
-この符号化処理の結果は、入力新生ペプチドの固定次元の特徴を表す符号化である。
-埋め込まれたHLA配列入力は次に、処理され、各復号器において順次、符号化された新生抗原決定基入力と組み合わされ、埋め込まれた出力配列を進歩的に形成する。自己注意副層は、対立遺伝子内相互依存性を学習する。ペプチド注意副層は、符号化されたペプチド表現を、埋め込まれた出力と相関させる。順伝播副層は、それに応じて埋め込まれた出力に修正を適用する。このステップでは、入力と出力との間の対応が確立される。配列内相互依存性の検出を可能にする注意副層は、モデルの全体的な予測力を著しく改善することに留意されたい。
-最後に、埋め込まれた出力は、埋め込まれた入力と埋め込まれた出力との間の対応の確率を出力するように、生成器を介して処理され、提示の確率を表す(0から1、1が最高確率)。
-スコア関数は、モデルによって出力された確率と実際のHLA-ペプチド関係との間の二乗誤差の合計として構築される(0:ペプチドは、この対立遺伝子を発現する細胞の表面に提示されなかった、すなわち、ペプチドは、前述の陰性データ集合(dataser)の一部であった-1:ペプチドは、この対立遺伝子を発現する細胞の表面に提示された、すなわち、上述の陽性データ集合の部分であった)。平均スコア関数又は最大スコア関数を考慮するなど、データを集約する他の方法が可能である。
-すべての訓練ステップにおいて、すなわち、新しい入力-出力ペアの処理ごとに、モデルの係数は、このように定義されたスコア関数を最小化するように調整される。
モデルは以下のように訓練される。
-モデルは、5分割交差検証の5エポックについて訓練される。
-このモデルの訓練は、以下のステップに従う。
最初に、モデルは、すべての標本で訓練され、特定の対立遺伝子の集合によって提示されるアミノ酸の完全な配列を、アミノ酸ごとに単純に予測する(自己教師あり学習)。
次に、モデルが特定のペプチド-HLA関係を学習するために、単一対立遺伝子HLAデータ集合から(例えば、単一対立遺伝子細胞株から)導出された標本のみが訓練のために使用される(「バーンイン」期間)。
最後に、モデル学習を実際の患者データに一般化するために、HLA複対立遺伝子インスタンスが訓練のために使用される。
-モデルのすべての層の訓練は、ADAM型最適化器を使用して行われる。
-モデルは、5分割交差検証の5エポックについて訓練される。
-このモデルの訓練は、以下のステップに従う。
最初に、モデルは、すべての標本で訓練され、特定の対立遺伝子の集合によって提示されるアミノ酸の完全な配列を、アミノ酸ごとに単純に予測する(自己教師あり学習)。
次に、モデルが特定のペプチド-HLA関係を学習するために、単一対立遺伝子HLAデータ集合から(例えば、単一対立遺伝子細胞株から)導出された標本のみが訓練のために使用される(「バーンイン」期間)。
最後に、モデル学習を実際の患者データに一般化するために、HLA複対立遺伝子インスタンスが訓練のために使用される。
-モデルのすべての層の訓練は、ADAM型最適化器を使用して行われる。
訓練の終わりに、モデルは、正しい構造を与えられた関数を再現するために使用され得る係数の集合と、モデルの訓練のすべての態様を記述するパラメータの集合と、推論/試験のモデルを再生成するために使用され得る構造方式と、モデル訓練中に見られるHLAの辞書とを出力する。
例2:
本例は、本発明による作業の流れにおける例1に従って訓練されたモデルの使用に関する。
本例は、本発明による作業の流れにおける例1に従って訓練されたモデルの使用に関する。
本実施形態は、細胞によって発現されたHLA対立遺伝子の集合を与えられた可変長新生抗原決定基の癌細胞表面における提示の尤度を予測するための作業の流れを提供する。
本作業の流れは、シーケンスツーシーケンストランスフォーマモデルを使用する。このようなモデルは、それが訓練されていなくても、任意のHLA対立遺伝子に対する新生抗原決定基の提示尤度の外挿及び予測を可能にする。
本作業の流れは以下の通りである。
-最初に、癌生検に関する次世代塩基配列決定データを使用して、新生ペプチドが発見される。DNAとRNAとの両方の塩基配列決定データを使用して、新生抗原決定基を潜在的に伝える異常ゲノム事象の集合を抽出する。
-これらの事象は、信頼スコアを与えられ、信頼スコアは、それらを支持する塩基配列決定読み取りの数とゲノムにおけるそれらの浸透性とに基づく。最高信頼事象からの抗原決定基は、追跡調査ステップのために選択される。
-生検のHLA構成も、同じゲノムデータを使用して評価される。
-選択されたペプチドの配列は、既知のHLAの配列と共に、訓練されたモデルに提供される。
-モデルは、提供された集合の各HLAについてペプチド提示の確率を計算し、これらの個々の値に基づいて全体のペプチド確率を出力する。
-最初に、癌生検に関する次世代塩基配列決定データを使用して、新生ペプチドが発見される。DNAとRNAとの両方の塩基配列決定データを使用して、新生抗原決定基を潜在的に伝える異常ゲノム事象の集合を抽出する。
-これらの事象は、信頼スコアを与えられ、信頼スコアは、それらを支持する塩基配列決定読み取りの数とゲノムにおけるそれらの浸透性とに基づく。最高信頼事象からの抗原決定基は、追跡調査ステップのために選択される。
-生検のHLA構成も、同じゲノムデータを使用して評価される。
-選択されたペプチドの配列は、既知のHLAの配列と共に、訓練されたモデルに提供される。
-モデルは、提供された集合の各HLAについてペプチド提示の確率を計算し、これらの個々の値に基づいて全体のペプチド確率を出力する。
加えて、本作業の流れは、RNA発現水準、MHC結合尤度又は新生抗原決定基タンパク質コンテキストなどの他の生物学的パラメータをモデルに提供することによって確率予測を改良するステップを含んでもよいし、含まなくてもよい。
例3:
本例は、例1によるトランスフォーマモデルの代替実装形態に関する。
本例は、例1によるトランスフォーマモデルの代替実装形態に関する。
例1において上述したように、入力新生抗原決定基配列は、必要に応じて「.」トークンを用いて15の長さまでパディングされる。次に、結果として得られる配列は、新生抗原決定基埋め込み器によって21×15のワンホットテンソルに埋め込まれる。したがって、例1のモデルは、配列が正しい長さの範囲内にあることを必要とする。しかしながら、任意の長さの抗原決定基とHLAとを可能にするために、モデルを実装することもできる。同様に、モデルは、可変長埋め込みを可能にするために実装されることができる。さらに、モデルは、300×15までの異なる大きさの行列への埋め込みを可能にするために実装されることができる。
例1において上述されたように、モデルは、配列に基づいており、対立遺伝子埋め込み器によって、すべてのHLAを、2つのペプチド相互作用αヘリックスの配列に従って、21×71のワンホットテンソルに埋め込む。代替として、モデルは、関連付けられたHLAを分類別符号化として処理することができる。分類別符号化は、分類別特徴を、1つ又は複数の数値特徴に変換することを指す。すべてのHLAは、それによって、モデルが構築された時点で知られるすべてのHLA配列を再編成する中央リポジトリに従って符号化される。代替として、モデルは非配列に基づくことができる。それによって、HLAは、それらの以前の中央リポジトリ符号化に基づいてワンホット符号化される。関連付けられたHLA配列は、1つずつ処理される。したがって、特定の新生抗原決定基は、特定の標本内で関連付けられることが見出された各HLA配列について一度処理されるであろう。このモデルは、HLA対立遺伝子アミノ酸配列が未知である場合、予測を出力することができないであろう。これは、いくつかのまれなHLA対立遺伝子について、とても起こりそうにないことではあるが実際には可能性がある。
例4:
本例は、対象者の治療を決定するための、例2による作業の流れの使用に関する。
本例は、対象者の治療を決定するための、例2による作業の流れの使用に関する。
治療の決定は以下の通りである。
-決定された提示尤度に基づいて、識別された新生抗原の集合の部分集合を選択して、選択された新生抗原の部分集合を取得するステップ。部分集合は、新生抗原の集合の各々の提示尤度を閾値と比較することによって取得される。関連付けられた提示尤度が前述の閾値を超える場合、新生抗原は、前述の部分集合に加えられる。
-前述の部分集合内の新生抗原のうちの少なくとも1つについて、抗原特有である1つ以上のT細胞を識別する。
-決定された提示尤度に基づいて、識別された新生抗原の集合の部分集合を選択して、選択された新生抗原の部分集合を取得するステップ。部分集合は、新生抗原の集合の各々の提示尤度を閾値と比較することによって取得される。関連付けられた提示尤度が前述の閾値を超える場合、新生抗原は、前述の部分集合に加えられる。
-前述の部分集合内の新生抗原のうちの少なくとも1つについて、抗原特有である1つ以上のT細胞を識別する。
例5:
本例は、例1によるシーケンスツーシーケンストランスフォーマモデルと、前述のトランスフォーマモデルに対する1つ以上の半独立モデルとを含む、改善されたモデルに関する。改善されたモデルは、対象者の治療を決定するために、例2による作業の流れの際に使用されることができる。
本例は、例1によるシーケンスツーシーケンストランスフォーマモデルと、前述のトランスフォーマモデルに対する1つ以上の半独立モデルとを含む、改善されたモデルに関する。改善されたモデルは、対象者の治療を決定するために、例2による作業の流れの際に使用されることができる。
本例によれば、複数の半独立単層ニューラルネットワークモデルは、他の関連する生物学的パラメータを考慮するために、主要なトランスフォーマアーキテクチャに関連して訓練される。したがって、前述の複数の半独立モデルの各々は、シーケンスツーシーケンストランスフォーマモデルの訓練データ集合と、関連付けられた予測-改善パラメータ訓練データ集合とを含む半独立訓練データ集合で単層ニューラルネットワークを訓練することによって訓練される。予測-改善パラメータ訓練データ集合からのパラメータを考慮することによって、全体の予測精度が改善される。
複数の半独立単層ニューラルネットワークモデルの各々のパラメータ訓練データ集合は、新生抗原決定基が導出される遺伝子のRNA発現と、新生抗原決定基が導出される遺伝子を除く癌性組織標本内のすべての遺伝子のRNA発現と、非コードRNA配列の発現と、翻訳後修飾状態と、RNA編集事象と、全ての免疫細胞型の免疫率と、癌性組織標本のクローン性と、全てのゲノム改変事象の信頼スコアと、他の手段により予測されるペプチド-MHC結合親和性と、ペプチド-MHC複合体安定性と、ペプチド安定性及びターンオーバーと、新生抗原決定基オリジナルタンパク質内の隣接アミノ酸と、プロテアソーム活性と、ペプチドプロセシング活性と、のうちの1つ以上の生物学的パラメータに関する。
半独立モデルの各々の訓練後、訓練された半独立ニューラルネットワークによって、HLAのペプチド配列について新生抗原の集合の各々の半独立提示尤度が決定される。次に、この決定された半独立提示尤度は、新生抗原の集合の各々について、決定された半独立提示尤度と、訓練されたモデルによって取得された提示尤度とを組み合わされて、全体の提示尤度を取得する。本例によれば、組み合せは、訓練された単層ニューラルネットワークによって実行される。
例6:
この例は、本発明によるモデルと、従来技術のアルゴリズム、EDGEアルゴリズム及びMHCflurryアルゴリズムと、の間の比較に関する。
この例は、本発明によるモデルと、従来技術のアルゴリズム、EDGEアルゴリズム及びMHCflurryアルゴリズムと、の間の比較に関する。
本発明によるシーケンスツーシーケンストランスフォーマモデルが開発され、以下で訓練された。
-陽性データ集合は、326.297の公的に利用可能な入力-出力ペアを含む。各ペアは、入力として、抗原決定基配列の項目を含む。前述の抗原決定基配列は、訓練細胞によって発現された対応するHLA対立遺伝子によって符号化される表面結合又は分泌HLA/ペプチド複合体から識別又は推定される。各ペアは、出力として、対応するHLA対立遺伝子によって符号化されるα鎖のペプチド配列の項目をさらに含む。Abelinら2017年、Bulik-Sullivanら2019年、di Marcoら2017年、Sarkizovaら2019年、及びTrolleら2016年から公的に入手可能である。
-陰性データ集合は、652.594の入力-出力ペアを含む。各入力は、入力として、ペプチド配列の項目を含む。前述のペプチド配列は、ヒトプロテオームのランダム配列である。各ペアは、出力として、ランダムHLA対立遺伝子から符号化されるペプチド配列をさらに含む。
-陽性データ集合は、326.297の公的に利用可能な入力-出力ペアを含む。各ペアは、入力として、抗原決定基配列の項目を含む。前述の抗原決定基配列は、訓練細胞によって発現された対応するHLA対立遺伝子によって符号化される表面結合又は分泌HLA/ペプチド複合体から識別又は推定される。各ペアは、出力として、対応するHLA対立遺伝子によって符号化されるα鎖のペプチド配列の項目をさらに含む。Abelinら2017年、Bulik-Sullivanら2019年、di Marcoら2017年、Sarkizovaら2019年、及びTrolleら2016年から公的に入手可能である。
-陰性データ集合は、652.594の入力-出力ペアを含む。各入力は、入力として、ペプチド配列の項目を含む。前述のペプチド配列は、ヒトプロテオームのランダム配列である。各ペアは、出力として、ランダムHLA対立遺伝子から符号化されるペプチド配列をさらに含む。
次に、モデルは、以下を含む試験データ集合で試験された。
-729陽性ペア。これは、EDGEアルゴリズムの公表された試験データ集合から選択される(Bulik-Sullivanら2019年)。
-1.822.500陰性ペア。各ペアは、入力として、ペプチド配列の項目を含む。前述のペプチド配列は、ヒトプロテオームのランダム配列である。各ペアは、出力として、ランダムHLA対立遺伝子から符号化されたペプチド配列をさらに含む。
-729陽性ペア。これは、EDGEアルゴリズムの公表された試験データ集合から選択される(Bulik-Sullivanら2019年)。
-1.822.500陰性ペア。各ペアは、入力として、ペプチド配列の項目を含む。前述のペプチド配列は、ヒトプロテオームのランダム配列である。各ペアは、出力として、ランダムHLA対立遺伝子から符号化されたペプチド配列をさらに含む。
モデルの訓練段階において既に含まれていた、試験データ集合内のペアを含めないように注意が払われた。
試験データ集合の適合-再現曲線(PR曲線)が生成された。適合は、真に提示された陽性抗原決定基の判定された(called)割合として測定される一方で、再現は、正確に陽性と判定された真に陽性の抗原決定基の割合を測定する。したがって、適合-再現曲線は、誤りを犯すことなく望ましい肯定的な結果を正確に判定するモデルの能力の良好な尺度である。モデルが良いほど、適合-再現曲線は右上隅に向かって傾斜する。
結果が図1Aに示される。本発明によるトランスフォーマモデルの結果は、青色で示される(右上隅に向かって最も傾斜する)一方、EDGEアルゴリズムの結果は、黒色で示される。加えて、(実質的に平坦な)緑色線は、親和性に基づくモデルMHCflurryによって達成される最良の精度を表す。
結果から、本発明によるモデルは、近い先行技術のアルゴリズムEDGEと、同じ試験データ集合のMHCflurryのような現在の最新技術産業方法と、よりも優れていることが明らかである。
例7:
この実施例は、外挿及び予測について、本発明によるモデルの能力に関する。
この実施例は、外挿及び予測について、本発明によるモデルの能力に関する。
シークエンスツーシークエンスアルゴリズムとして、モデルは、分類別データからではなく、2つの配列間の相関を比較して、相関を指摘することから、予測力を導出する。これは、訓練データが利用できなかったHLA対立遺伝子について、タンパク質配列が知られていれば、予測を行うことが可能であることを意味する。
外挿/予測のためのこの能力は、新規な訓練データを取得することが長期及び費用のかかる処理であることを考慮すると、真に利点である。
この能力を試験するために、モデルは例6のように訓練された。新しい試験データ集合は、HLA-A*74:02の対立遺伝子に一意的に関連付けられた2.039の陽性ペアから構築された。それについては、5.097.500の陰性ペアとともに、訓練集合内にデータが存在しない。各ペアは、入力として、ペプチド配列の項目を含む。前述のペプチド配列は、ヒトプロテオームのランダム配列である。各ペアは、出力として、ランダムHLA対立遺伝子から符号化されるペプチド配列をさらに含む。
結果は、図1Bに示される。適合-再現曲線は、本発明によるモデルが、以前には見られなかった対立遺伝子に関してさえ、非常に良好な予測力を有することを明確に示す。
Claims (15)
- 対象者の腫瘍の腫瘍細胞による新生抗原の集合の提示尤度を決定するためのコンピュータ実装方法であって、前記方法は、
前記対象者の、前記腫瘍に関連付けられた腫瘍細胞と正常細胞とから、エクソーム又は全ゲノムヌクレオチド塩基配列決定データとトランスクリプトームヌクレオチド塩基配列決定データとのうちの少なくとも1つを取得するステップと、
前記腫瘍細胞からの、前記エクソーム及び/又は全ゲノムヌクレオチド塩基配列決定データと前記トランスクリプトームヌクレオチド塩基配列決定データとを、前記正常細胞からの、前記エクソーム及び/又は全ゲノムヌクレオチド塩基配列決定データと前記トランスクリプトームヌクレオチド塩基配列決定データとに対して比較することによって、前記腫瘍に関連付けられた異常ゲノム事象の集合を取得するステップと、
異常事象の前記集合に少なくとも部分的に基づいて識別された新生抗原の集合の各々のペプチド配列を表すデータを取得するステップであって、各新生抗原の前記ペプチド配列は、前記対象者の前記正常細胞から識別された対応する野生型ペプチド配列と区別させる少なくとも1つの改変を含む、ステップと、
前記腫瘍細胞からの、前記腫瘍のエクソーム及び/又は全ゲノムヌクレオチド塩基配列決定データと前記トランスクリプトームヌクレオチド塩基配列決定データとに基づいて、HLAのペプチド配列を表すデータを取得するステップと、
陽性データ集合を含む訓練データ集合で深層学習モデルを訓練するステップであって、前記陽性データ集合は複数の入力-出力ペアを含み、各ペアは、入力として、抗原決定基配列の項目を含み、前記抗原決定基配列は、訓練細胞によって発現された対応するHLA対立遺伝子によって符号化される表面結合又は分泌HLA/ペプチド複合体から識別又は推測され、各ペアは、出力として、前記対応するHLA対立遺伝子によって符号化されるα鎖のペプチド配列の項目をさらに含む、ステップと、
前記訓練されたモデルによって、前記HLAの前記ペプチド配列について前記新生抗原の集合の各々の提示尤度を決定するステップと、
を含む、方法。 - 請求項1に記載の方法において、
関連付けられた各異常ゲノム事象を支持する前記塩基配列決定データの塩基配列決定読み取りの数に少なくとも部分的に基づいて、前記異常ゲノム事象の集合の各々に信頼スコアを関連付けるステップと、
前記異常ゲノム事象の集合の各異常ゲノム事象の前記信頼スコアを閾値と比較することによって異常ゲノム事象の部分集合を取得するステップであって、前記関連付けられた信頼スコアが前記閾値を超える場合、事象が前記部分集合に追加される、ステップと、
を含み、
前記新生抗原の集合は、前記異常ゲノム事象の部分集合に少なくとも部分的に基づいて識別される、
方法。 - 請求項1又は2のいずれかに記載の方法において、前記陽性データ集合は、単一対立遺伝子データ集合と複対立遺伝子データ集合とを含み、前記単一対立遺伝子データ集合は、単一対立遺伝子細胞株からの訓練細胞から取得された入力-出力ペアを含み、前記複対立遺伝子データ集合は、複対立遺伝子組織からの訓練細胞から取得された入力-出力ペアを含む、方法。
- 請求項3に記載の方法において、前記深層学習モデルの前記訓練は2つ以上の訓練サイクルを含み、各訓練サイクルは複数の訓練ステップを含み、各訓練ステップは、前記複数の入力-出力ペアのうちのペアを処理することを含み、前記2つ以上の訓練サイクルのうちの1つは、前記単一対立遺伝子データ集合で前記深層学習モデルを訓練することを含み、前記2つ以上の訓練サイクルのうちの1つは、前記単一対立遺伝子データ集合と前記複対立遺伝子データ集合との両方で前記深層学習モデルを訓練することを含む、方法。
- 請求項1から4のいずれか一項に記載の方法において、前記深層学習モデルを訓練するための前記訓練データ集合は、複数の入力-出力ペアを含む陰性データ集合をさらに含み、各ペアは、入力として、ペプチド配列の項目を含み、前記ペプチド配列は、ヒトプロテオームのランダム配列であり、各ペアは、出力として、ランダムHLA対立遺伝子から符号化されるペプチド配列をさらに含む、方法。
- 請求項1から5のいずれか一項に記載の方法において、前記深層学習モデルは、深層意味類似度モデル、畳み込み深層意味類似度モデル、反復深層意味類似度モデル、深層関連性マッチングモデル、深層及びワイドモデル、深層言語モデル、トランスフォーマネットワーク、長期短期記憶ネットワーク、学習された深層学習テキスト埋め込み、学習された固有表現認識、シャムニューラルネットワーク、相互作用シャムネットワーク、若しくは語彙及び意味マッチングネットワーク、又はそれらの組合せ、のうちの少なくとも1つである、方法。
- 請求項1から6のいずれか一項に記載の方法において、前記深層学習モデルは、トランスフォーマネットワークである、方法。
- 請求項1から7のいずれか一項に記載の方法において、前記深層学習モデルの前記訓練は複数の訓練ステップを含み、各訓練ステップは、前記複数の入力-出力ペアのうちのペアを、
新生抗原決定基埋め込み器と位置符号器とを使用して、抗原決定基配列の前記対応する項目を変換することによって、前記ぺアのうちの前記入力を、埋め込まれた入力数値ベクトルに処理するステップであって、前記埋め込まれた入力数値ベクトルは、前記対応する項目の前記抗原決定基配列を構成する複数のアミノ酸と前記抗原決定基配列内のアミノ酸の位置の集合とに関する情報を含む、ステップと、
対立遺伝子埋め込み器と位置符号器とを使用して、前記α鎖の前記ペプチド配列の前記対応する項目を変換することによって、前記ペアのうちの前記出力を、埋め込まれた出力数値ベクトルに処理するステップであって、前記埋め込まれた出力数値ベクトルは、前記対応する項目の前記ペプチド配列を構成する前記複数のアミノ酸と前記ペプチド配列内の前記アミノ酸の位置の集合とに関する情報を含む、ステップと、
マルチヘッド自己注意副層と順伝播副層とを含む少なくとも1つの配列符号器を使用して、前記埋め込まれた入力数値ベクトルを、符号化された入力数値ベクトルに処理するステップであって、前記符号化された入力数値ベクトルは、前記抗原決定基配列の前記対応する項目の前記抗原決定基配列の特徴に関する情報を含む、ステップと、
マルチヘッド自己注意副層を使用して、前記埋め込まれた出力数値ベクトルを、出力注意数値ベクトルに処理するステップであって、前記出力注意数値ベクトルは、前記α鎖の前記ペプチド配列の前記対応する項目の前記ペプチド配列を構成する前記複数のアミノ酸の相互依存性に関する情報を含む、ステップと、
マルチヘッド符号器-復号器注意副層と順伝播副層とを使用して、前記符号化された入力数値ベクトルと対応する出力注意ベクトルとを、相関数値ベクトルに処理するステップであって、前記相関数値ベクトルは、前記符号化された入力数値ベクトルと前記対応する出力注意ベクトルとの間の相関情報を含む、ステップと、
確率生成器を使用して、前記相関数値ベクトルを、前記埋め込まれた入力数値ベクトルと前記埋め込まれた出力数値ベクトルとの間の対応の確率に処理するステップと、
に従って、処理することを含む、方法。 - 請求項8に記載の方法において、前記複数の入力-出力ペアのうちのペアを前記処理することは、
前記埋め込まれた入力数値ベクトルと前記埋め込まれた出力数値ベクトルとの間の対応の前記確率を、前記訓練データ集合に関連付けられた対応する関係情報と比較することによって、訓練のためのスコア関数のデータ点を取得するステップと、
前記深層学習モデルに関連付けられたパラメータを調整して前記スコア関数を最適化するステップと、
をさらに含み、
好ましくは、前記スコア関数は、二乗誤差合計スコア関数、平均スコア関数、又は最大スコア関数のうちの1つ以上である、
方法。 - 請求項7から9のいずれか一項に記載の方法において、前記トランスフォーマネットワークは、符号器と復号器とを含み、前記符号器は、
新生抗原決定基埋め込み器と、
位置符号器と、
1つ以上の配列符号器であって、それぞれ、マルチヘッド自己注意副層と、順伝播副層との2つの副層を含む、配列符号器と、
を含み、前記復号器は、
1つ以上の配列復号器であって、それぞれ、マルチヘッド自己注意副層と、マルチヘッド符号器-復号器注意副層と、順伝播副層との3つの副層を含む、配列復号器と、
HLA配列埋め込み器と、
確率生成器であって、線形射影器とソフトマックス層とを含む、確率生成器と、
を含む、方法。 - 請求項1から10のいずれか一項に記載の方法において、
前記深層学習モデル又はその変形の前記陽性データ集合と、関連付けられた予測-改善パラメータ訓練データ集合とを少なくとも含む半独立訓練データ集合で半独立ニューラルネットワークを訓練するステップであって、
前記関連付けられた予測-改善パラメータ訓練データ集合は、新生抗原決定基が導出される遺伝子のRNA発現と、癌性組織標本内の複数の遺伝子のRNA発現と、非コードRNA配列の発現と、翻訳後修飾情報と、RNA編集事象情報と、複数の免疫細胞型の免疫率と、癌性組織標本のクローン性と、複数のゲノム改変事象の信頼スコアと、ペプチド-MHC結合親和性と、ペプチド-MHC複合体安定性と、ペプチド安定性及び/又はターンオーバーと、新生抗原決定基配列内の隣接アミノ酸と、プロテアソーム活性と、ペプチドプロセシング活性と、のうちの1つ以上の生物学的パラメータに関連し、
好ましくは前記関連付けられた予測-改善パラメータ訓練データ集合は、新生抗原決定基配列内の隣接アミノ酸に少なくとも関連する、ステップと、
前記訓練された半独立ニューラルネットワークによって、前記HLAの前記ペプチド配列について前記新生抗原の集合の各々の半独立提示尤度を決定するステップと、
前記新生抗原の集合の各々について、前記決定された半独立提示尤度と、前記訓練されたモデルによって取得された前記提示尤度とを組み合わせて、全体の提示尤度を取得するステップと、
を含み、
好ましくは、組合せは、訓練された単層ニューラルネットワークによって実行され、
好ましくは、前記半独立ニューラルネットワークは、単層ニューラルネットワークである、
方法。 - 対象者の腫瘍の腫瘍細胞による新生抗原の集合の提示尤度を決定するためのコンピュータシステムであって、前記コンピュータシステムは、請求項1から11のいずれか一項に記載の前記コンピュータ実装方法を実行するように構成される、コンピュータシステム。
- 対象者の腫瘍の腫瘍細胞による新生抗原の集合の提示尤度を決定するためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、前記コンピュータプログラム製品がコンピュータによって実行されると、前記コンピュータに、請求項1から11のいずれか一項に記載の前記コンピュータ実装方法を実行させる命令を含む、コンピュータプログラム製品。
- 請求項1から11のいずれか一項に記載の前記コンピュータ実装方法、及び/又は請求項12に記載の前記コンピュータシステム、及び/又は請求項13に記載の前記コンピュータプログラム製品の使用であって、前記対象者の治療を決定する、使用。
- 請求項14に記載の使用であって、前記治療を決定することは、
前記決定された提示尤度に基づいて、前記識別された新生抗原の集合の部分集合を選択して、選択された新生抗原の部分集合を取得することであって、好ましくは、前記部分集合は、前記新生抗原の集合の各々の前記提示尤度を閾値と比較することによって取得され、前記関連付けられた提示尤度が前記閾値を超える場合、新生抗原は前記部分集合に追加される、ことと、
前記部分集合内の前記新生抗原のうちの少なくとも1つについて抗原特有である1つ以上のT細胞を識別することと、
を含む、使用。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20185779.4 | 2020-07-14 | ||
EP20185779 | 2020-07-14 | ||
PCT/EP2021/069341 WO2022013154A1 (en) | 2020-07-14 | 2021-07-12 | Method, system and computer program product for determining presentation likelihoods of neoantigens |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023534220A true JP2023534220A (ja) | 2023-08-08 |
Family
ID=71620189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023501655A Pending JP2023534220A (ja) | 2020-07-14 | 2021-07-12 | 新生抗原の提示尤度を決定するための方法、システム及びコンピュータプログラム製品 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230298692A1 (ja) |
EP (1) | EP4182928A1 (ja) |
JP (1) | JP2023534220A (ja) |
CN (1) | CN115836350A (ja) |
WO (1) | WO2022013154A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115512762B (zh) * | 2022-10-26 | 2023-06-20 | 北京百度网讯科技有限公司 | 多肽序列的生成方法、装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016128060A1 (en) | 2015-02-12 | 2016-08-18 | Biontech Ag | Predicting t cell epitopes useful for vaccination |
AU2016369519B2 (en) | 2015-12-16 | 2023-04-20 | Gritstone Bio, Inc. | Neoantigen identification, manufacture, and use |
GB201607521D0 (en) | 2016-04-29 | 2016-06-15 | Oncolmmunity As | Method |
US10350280B2 (en) | 2016-08-31 | 2019-07-16 | Medgenome Inc. | Methods to analyze genetic alterations in cancer to identify therapeutic peptide vaccines and kits therefore |
EP3635594A4 (en) * | 2017-06-09 | 2021-03-03 | Gritstone Oncology, Inc. | NEOANTIGEN IDENTIFICATION, MANUFACTURING AND USE |
-
2021
- 2021-07-12 CN CN202180048981.5A patent/CN115836350A/zh active Pending
- 2021-07-12 US US18/015,525 patent/US20230298692A1/en active Pending
- 2021-07-12 EP EP21742134.6A patent/EP4182928A1/en active Pending
- 2021-07-12 WO PCT/EP2021/069341 patent/WO2022013154A1/en unknown
- 2021-07-12 JP JP2023501655A patent/JP2023534220A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230298692A1 (en) | 2023-09-21 |
WO2022013154A1 (en) | 2022-01-20 |
EP4182928A1 (en) | 2023-05-24 |
CN115836350A (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7275228B2 (ja) | バリアントの分類のための深層畳み込みニューラルネットワーク | |
Chevrette et al. | SANDPUMA: ensemble predictions of nonribosomal peptide chemistry reveal biosynthetic diversity across Actinobacteria | |
Lv et al. | RF-PseU: a random forest predictor for RNA pseudouridine sites | |
US20200243164A1 (en) | Systems and methods for patient-specific identification of neoantigens by de novo peptide sequencing for personalized immunotherapy | |
US8412462B1 (en) | Methods and systems for processing genomic data | |
CN110752041B (zh) | 基于二代测序的新生抗原预测方法、装置和存储介质 | |
WO2015085147A1 (en) | Polymorphic gene typing and somatic change detection using sequencing data | |
JP7041614B2 (ja) | 生体データにおけるパターン認識のマルチレベルアーキテクチャ | |
CN114023376B (zh) | 基于自注意力机制的rna-蛋白质结合位点预测方法和系统 | |
CN114446389B (zh) | 一种肿瘤新抗原特征分析与免疫原性预测工具及其应用 | |
Morales et al. | Deep learning for the classification of genomic signals | |
Yang et al. | NCResNet: noncoding ribonucleic acid prediction based on a deep resident network of ribonucleic acid sequences | |
Salekin et al. | Predicting sites of epitranscriptome modifications using unsupervised representation learning based on generative adversarial networks | |
JP2023534220A (ja) | 新生抗原の提示尤度を決定するための方法、システム及びコンピュータプログラム製品 | |
Mora-Sánchez et al. | Towards a gamete matching platform: using immunogenetics and artificial intelligence to predict recurrent miscarriage | |
Sha et al. | DeepSADPr: A hybrid-learning architecture for serine ADP-ribosylation site prediction | |
Zhang et al. | Context-aware amino acid embedding advances analysis of TCR-epitope interactions | |
CN113539358A (zh) | 基于Hilbert编码的增强子-启动子相互作用预测方法及装置 | |
Arican et al. | PredDRBP-MLP: Prediction of DNA-binding proteins and RNA-binding proteins by multilayer perceptron | |
KR102547977B1 (ko) | 인공지능 기술을 이용하여 pMHC에 대응되는 TCR 정보를 생성하기 위한 방법 및 장치 | |
Shehzadi et al. | Intelligent predictor using cancer-related biologically information extraction from cancer transcriptomes | |
Gupta et al. | DAVI: Deep learning-based tool for alignment and single nucleotide variant identification | |
Levy et al. | FloraBERT: cross-species transfer learning withattention-based neural networks for geneexpression prediction | |
Sanabria et al. | The human genome’s vocabulary as proposed by the DNA language model GROVER | |
Kweon et al. | Personal health information inference using machine learning on RNA expression data from patients with cancer: algorithm validation study |