JP7217711B2

JP7217711B2 - 新生抗原の特定、製造、及び使用

Info

Publication number: JP7217711B2
Application number: JP2019556988A
Authority: JP
Inventors: トーマスバウチャー; ブレンダンブリク－スリバン; ジェニファーバスビー; ローマンヤレンスカイ
Original assignee: グリットストーンバイオインコーポレイテッド
Priority date: 2017-04-19
Filing date: 2018-04-19
Publication date: 2023-02-03
Anticipated expiration: 2038-04-19
Also published as: EP3612965A1; MX2019012433A; US20210113673A1; EP3612965A4; AU2018254526B2; IL269855B2; RU2019136762A; CA3060569A1; KR20190140935A; JP2023055775A; WO2018195357A1; BR112019021782A2; CN110636852A; AU2018254526A1; IL269855A; SG11201909652WA; CO2019012345A2; AU2024202903A1; IL269855B1; JP2020519246A

Description

腫瘍特異的な新生抗原に基づく治療用ワクチンは、次世代の個別化がん免疫療法として極めて有望である。^１～３非小細胞肺癌（ＮＳＣＬＣ）及びメラノーマなどの遺伝子変異量が多いがんは、新生抗原を生じる尤度が比較的高いことから、かかる治療法の特に有望な標的である。^４，５初期の証拠により、新生抗原に基づいたワクチン接種がＴ細胞応答を誘発し^６、新生抗原を標的とした細胞療法が、選択された患者において腫瘍退縮を引き起こしうることが示されている。^７ＭＨＣクラスＩ及びＭＨＣクラスＩＩはいずれもＴ細胞の応答に影響を及ぼす^{７０～７１}。

新生抗原ワクチンの設計に関する１つの問題は、対象とする腫瘍に存在する多数のコーディング変異のうちのどれが「最良の」治療用新生抗原（例えば、抗腫瘍免疫を誘発し、腫瘍退縮を引き起こすことができる抗原）を生じることができるか、ということである。

次世代シークエンシング、ＲＮＡ遺伝子発現、及び新生抗原ペプチド候補のＭＨＣ結合親和性の予測を用いた、変異に基づいた分析を取り入れた初期の方法が提案されている^８。しかしながら、これらの提案されている方法では、遺伝子発現及びＭＨＣ結合に加えて多くの段階（例えば、ＴＡＰ輸送、プロテアソーム切断、ＭＨＣ結合、ペプチド－ＭＨＣ複合体の細胞表面への輸送、及び／またはＭＨＣ－ＩのＴＣＲによる認識；エンドサイトーシスまたはオートファジー、細胞外またはリソソームプロテアーゼ（例えばカテプシン）による切断、ＨＬＡ－ＤＭにより触媒されるＨＬＡ結合に対するＣＬＩＰペプチドとの競合、ペプチド－ＭＨＣ複合体の細胞表面への輸送、及び／またはＭＨＣ－ＩＩのＴＣＲによる認識）を含むエピトープ生成プロセスの全体をモデル化することはできない。^９したがって、既存の方法は、陽性適中率（ＰＰＶ）が低いという問題を有する傾向がある（図１Ａ）。

実際、複数のグループによって実施された、腫瘍細胞により提示されるペプチドの分析は、遺伝子発現及びＭＨＣ結合親和性を用いて提示されることが予測されたペプチドの５％未満しか腫瘍表面のＭＨＣ上に見られないことを示している^{１０，１１}（図１Ｂ）。結合予測とＭＨＣ提示との間のこのような低い相関性は、変異の数単独に対してチェックポイント阻害剤反応について結合に制限された新生抗原の予測精度の向上が認められないという最近の知見によって、さらに裏打ちされている^１２。

提示を予測するための既存の方法のこのような低い陽性適中率（ＰＰＶ）は、新生抗原に基づいたワクチンの設計において問題を提示する。ＰＰＶの低い予測を用いてワクチンが設計される場合、大部分の患者で治療に役立つ新生抗原が投与される可能性が低くなり、複数の新生抗原が投与される患者はさらに少なくなるものと考えられる（提示されるペプチドのすべてが免疫原性であると仮定したとしても）。したがって、現行の方法による新生抗原ワクチン接種は、腫瘍を有する対象の相当数において奏功する可能性は低い（図１Ｃ）。

さらに、これまでのアプローチは、シス作用性の変異のみを用いて新生抗原候補を生成するものであり、複数の腫瘍タイプで生じ、多くの遺伝子で異常スプライシングにつながるスプライシング因子の変異^１３、及びプロテアーゼ切断部位を生じるかまたは除去する変異を含む、新生ＯＲＦのさらなるソースをほとんどの場合で考慮していなかった。

最後に、腫瘍ゲノム及びトランスクリプトーム解析に対する標準的アプローチは、ライブラリ構築、エクソーム及びトランスクリプトームの捕捉、シークエンシング、またはデータ分析における最適に満たない条件のために、新生抗原候補を生ずる体細胞突然変異を見逃す可能性がある。同様に、標準的な腫瘍分析のアプローチでは、配列アーチファクトまたは生殖系列多型を新生抗原として誤って助長してしまう場合があり、それぞれワクチン能の非効率的な利用または自己免疫のリスクにつながりうる。

本明細書では、個別化がんワクチン用の新生抗原を特定及び選択するための最適化されたアプローチが開示される。第１に、次世代シークエンシング（ＮＧＳ）を用いて新生抗原候補を特定するための最適化された腫瘍エクソーム及びトランスクリプトーム解析アプローチに取り組む。これらの方法は、すべてのクラスのゲノム変化にわたって最も感度及び特異度の高い新生抗原候補が開発されるように、ＮＧＳによる腫瘍解析の標準的アプローチに立脚したものである。第２に、特異度の問題を克服し、ワクチン添加用に開発される新生抗原が抗腫瘍免疫をより誘発しやすくするために高ＰＰＶの新生抗原選択に対する新規アプローチが提供される。これらのアプローチには、実施形態に応じて、ペプチド－アレルマッピングを共にモデル化する訓練された統計学的回帰または非線形ディープラーニングモデル、ならびに異なる長さのペプチドにわたって統計学的効力を共有する、複数の長さのペプチドについてのアレルごとのモチーフが含まれる。特に非線形ディープラーニングモデルは、同じ細胞内の異なるＭＨＣアレルを独立したものとして扱うように設計及び訓練することができ、それによって、線形モデル同士が互いに干渉する線形モデルに伴う問題に取り組む。最後に、新生抗原に基づいた個別化ワクチンの設計及び製造に関するさらなる懸案事項に取り組む。
[本発明1001]
対象の1つまたは複数の腫瘍細胞に由来する、前記腫瘍細胞の表面上に提示される可能性の高い1つ以上の新生抗原を特定することによって、個別化されたがんワクチンを構築するための出力を生成するための方法であって、
前記対象の前記腫瘍細胞及び正常細胞からエクソーム、トランスクリプトーム、または全ゲノムのヌクレオチドシークエンシングデータのうちの少なくとも1つを取得する工程であって、前記ヌクレオチドシークエンシングデータを用いて、前記腫瘍細胞由来のヌクレオチドシークエンシングデータと前記正常細胞由来のヌクレオチドシークエンシングデータとの比較により特定された新生抗原のセットの各新生抗原のペプチド配列を表すデータが取得され、各新生抗原のペプチド配列が、前記ペプチド配列を前記対象の前記正常細胞から特定された対応する野生型ペプチド配列とは異なるものとする少なくとも1つの変化を含む、工程；
前記新生抗原のそれぞれの前記ペプチド配列を、対応する数値ベクトルにエンコードする工程であって、各数値ベクトルが、前記ペプチド配列を構成する複数のアミノ酸と、前記ペプチド配列における前記アミノ酸の位置のセットとに関する情報を含む、工程；
コンピュータのプロセッサを使用して前記数値ベクトルをディープラーニング提示モデルに入力して、前記新生抗原のセットについての提示尤度のセットを生成する、工程であって、前記セット内の各提示尤度が、対応する新生抗原が1つ以上のクラスＩＩＭＨＣアレルによって前記対象の前記腫瘍細胞の前記表面上に提示される尤度を表し、前記ディープラーニング提示モデルが、少なくとも訓練データセットに基づいて特定される複数のパラメータ、ならびに、入力として受け取られた前記数値ベクトルと、前記数値ベクトル及び前記パラメータに基づいた出力として生成される前記提示尤度との間の関係を表す関数を含み、
前記訓練データセットが、
複数の試料のうちの少なくとも1つに存在すると特定された、少なくとも1つのクラスＩＩＭＨＣアレルに結合したペプチドの存在を測定する質量分析によって得られた、ラベル、
数値ベクトルとしてエンコードされた訓練ペプチド配列であって、前記数値ベクトルが、前記ペプチド配列を構成する複数のアミノ酸と、前記ペプチド配列における前記アミノ酸の位置のセットとに関する情報を含む、訓練ペプチド配列、及び
前記訓練ペプチド配列に関連付けられた、少なくとも1つのＨＬＡアレル
を含む、工程；
前記提示尤度のセットに基づいて前記新生抗原のセットのサブセットを選択して、選択された新生抗原のセットを生成する、工程；ならびに
前記選択された新生抗原のセットに基づいて、前記個別化されたがんワクチンを構築するための前記出力を生成する工程
を含む、前記方法。
[本発明1002]
前記ペプチド配列をエンコードする工程が、ワンホットエンコーディングスキームを用いて前記ペプチド配列をエンコードすることを含む、本発明1001の方法。
[本発明1003]
前記数値ベクトルを前記ディープラーニング提示モデルに入力することが、
前記新生抗原の前記ペプチド配列に前記ディープラーニング提示モデルを適用して、前記ペプチド配列の特定の位置の特定のアミノ酸に基づいて、前記1つ以上のクラスＩＩＭＨＣアレルのそれぞれについての依存性スコアを生成することであって、前記依存性スコアが、前記クラスＩＩＭＨＣアレルが前記新生抗原を提示するかどうかを示す、こと
を含む、本発明1001または1002の方法。
[本発明1004]
前記数値ベクトルを前記ディープラーニング提示モデルに入力することが、
前記依存性スコアを変換して、各クラスＩＩＭＨＣアレルについての対応するアレルごとの尤度を生成することであって、前記アレルごとの尤度が、対応するクラスＩＩＭＨＣアレルが前記対応する新生抗原を提示する尤度を示す、こと、及び
前記アレルごとの尤度を組み合わせて、前記新生抗原の前記提示尤度を生成する、こと
をさらに含む、本発明1003の方法。
[本発明1005]
前記依存性スコアを変換することが、前記新生抗原の提示を、前記1つ以上のクラスＩＩＭＨＣアレルにわたって相互排他的なものとしてモデル化する、本発明1004の方法。
[本発明1006]
前記数値ベクトルを前記ディープラーニング提示モデルに入力することが、前記依存性スコアの組み合わせを変換して前記提示尤度を生成することをさらに含み、
前記依存性スコアの組み合わせを変換することが、前記新生抗原の提示を、前記1つ以上のクラスＩＩＭＨＣアレル間で干渉するものとしてモデル化する、
本発明1003の方法。
[本発明1007]
前記提示尤度のセットが、少なくとも1つ以上のアレル非相互作用特性によってさらに特定され、前記方法が、
前記アレル非相互作用特性に前記提示モデルを適用して、前記アレル非相互作用特性に基づいて、前記アレル非相互作用特性についての依存性スコアを生成する工程であって、前記依存性スコアが、前記対応する新生抗原のペプチド配列が提示されるかどうかを示す、工程
をさらに含む、本発明1003の方法。
[本発明1008]
前記1つ以上のクラスＩＩＭＨＣアレルの各クラスＩＩＭＨＣアレルについての前記依存性スコアを、前記アレル非相互作用特性についての前記依存性スコアと組み合わせること；
各クラスＩＩＭＨＣアレルについての前記組み合わされた依存性スコアを変換して、各クラスＩＩＭＨＣアレルについてのアレルごとの尤度を生成することであって、前記アレルごとの尤度が、前記対応するクラスＩＩＭＨＣアレルが前記対応する新生抗原を提示する尤度を示す、こと；及び
前記アレルごとの尤度を組み合わせて、前記提示尤度を生成する、こと
をさらに含む、本発明1007の方法。
[本発明1009]
前記クラスＩＩＭＨＣアレルのそれぞれについての前記依存性スコアと、前記アレル非相互作用特性についての前記依存性スコアとの組み合わせを変換して、前記提示尤度を生成する、こと
をさらに含む、本発明1008の方法。
[本発明1010]
前記1つ以上のクラスＩＩＭＨＣアレルが、2つ以上のクラスＩＩＭＨＣアレルを含む、本発明1001～1009のいずれかの方法。
[本発明1011]
前記少なくとも1つのクラスＩＩＭＨＣアレルが、2つ以上の異なるタイプのクラスＩＩＭＨＣアレルを含む、本発明1001～1010のいずれかの方法。
[本発明1012]
前記複数の試料が、
（ａ）1つのＭＨＣクラスＩＩアレルを発現するように操作された1つ以上の細胞株、
（ｂ）複数のＭＨＣクラスＩＩアレルを発現するように操作された1つ以上の細胞株、
（ｃ）複数の患者から得られた、または複数の患者に由来する1つ以上のヒト細胞株、
（ｄ）複数の患者から得られた新鮮なまたは凍結された腫瘍試料、及び
（ｅ）複数の患者から得られた新鮮なまたは凍結された組織試料
のうちの少なくとも1つを含む、本発明1001～1011のいずれかの方法。
[本発明1013]
前記訓練データセットが、
（ａ）単離されたペプチドの少なくとも1つについてのペプチド－ＭＨＣ結合親和性の測定値に関連するデータ、及び
（ｂ）単離されたペプチドの少なくとも1つについてのペプチド－ＭＨＣ結合安定性の測定値に関連するデータ
のうちの少なくとも1つをさらに含む、本発明1001～1012のいずれかの方法。
[本発明1014]
前記提示尤度のセットが、少なくとも、前記対象における前記1つ以上のクラスＩＩＭＨＣアレルの発現レベルによって、さらに特定され、前記発現レベルがＲＮＡ－ｓｅｑまたは質量分析により測定される、本発明1001～1013のいずれかの方法。
[本発明1015]
前記提示尤度のセットが、少なくともアレル相互作用特性によってさらに特定され、前記アレル相互作用特性が、
（ａ）前記新生抗原のセット内の新生抗原と前記1つ以上のＭＨＣアレルとの間の予想される親和性、及び
（ｂ）前記新生抗原によりコードされるペプチド－ＭＨＣ複合体の予想される安定性
のうちの少なくとも1つを含む、本発明1001～1014のいずれかの方法。
[本発明1016]
前記数値的尤度のセットが、少なくともＭＨＣ－アレル非相互作用特性によってさらに特定され、前記ＭＨＣ－アレル非相互作用特性が、
（ａ）そのソースタンパク質配列内の、前記新生抗原によりコードされるペプチドに隣接するＣ末端側配列、及び
（ｂ）そのソースタンパク質配列内の、前記新生抗原によりコードされるペプチドに隣接するＮ末端側配列
のうちの少なくとも1つを含む、本発明1001～1015のいずれかの方法。
[本発明1017]
前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、前記腫瘍細胞表面上に提示される尤度が高い新生抗原を選択することを含む、本発明1001～1016のいずれかの方法。
[本発明1018]
前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、前記対象において腫瘍特異的な免疫応答を誘導することができる尤度が高い新生抗原を選択することを含む、本発明1001～1017のいずれかの方法。
[本発明1019]
前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、プロフェッショナル抗原提示細胞（ＡＰＣ）によってナイーブＴ細胞に提示されることができる尤度が高い新生抗原を選択することを含み、任意で、前記ＡＰＣが樹状細胞（ＤＣ）である、本発明1001～1018のいずれかの方法。
[本発明1020]
前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、中枢性寛容または末梢性寛容によって阻害される尤度が低い新生抗原を選択することを含む、本発明1001～1019のいずれかの方法。
[本発明1021]
前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、前記対象において正常組織に対する自己免疫応答を誘導することができる尤度が低い新生抗原を選択することを含む、本発明1001～1020のいずれかの方法。
[本発明1022]
前記1つまたは複数の腫瘍細胞が、肺癌、メラノーマ、乳癌、卵巣癌、前立腺癌、腎臓癌、胃癌、結腸癌、精巣癌、頭頸部癌、膵臓癌、脳癌、Ｂ細胞リンパ腫、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ球性白血病、Ｔ細胞リンパ球性白血病、非小細胞肺癌、及び小細胞肺癌からなる群より選択される、本発明1001～1021のいずれかの方法。
[本発明1023]
腫瘍を有する対象を治療する方法であって、本発明1001～1022のいずれかの工程を行うことを含み、前記選択された新生抗原のセットを含む腫瘍ワクチンを得ること、及び前記腫瘍ワクチンを前記対象に投与することをさらに含む、前記方法。
[本発明1024]
腫瘍ワクチンを製造する方法であって、本発明1001～1022のいずれかの工程を行うことを含み、前記選択された新生抗原のセットを含む腫瘍ワクチンを生産するかまたは生産したことをさらに含む、前記方法。
[本発明1025]
前記サブセットの中の前記新生抗原のうちの少なくとも1つに対して抗原特異的な1つ以上のＴ細胞を同定する工程をさらに含む、本発明1001～1024のいずれかの方法。
[本発明1026]
前記同定する工程が、前記1つ以上の抗原特異的Ｔ細胞を拡大増殖させる条件下で前記1つ以上のＴ細胞を前記サブセットの中の前記新生抗原のうちの1つ以上と共培養することを含む、本発明1025の方法。
[本発明1027]
前記同定する工程が、前記1つ以上のＴ細胞を、前記サブセットの中の前記新生抗原のうちの1つ以上を含むテトラマーと、前記Ｔ細胞と前記テトラマーとの結合が可能な条件下で接触させることを含む、本発明1025の方法。
[本発明1028]
前記1つ以上の同定されたＴ細胞の1つ以上のＴ細胞受容体（ＴＣＲ）を同定する工程をさらに含む、本発明1025～1027のいずれかの方法。
[本発明1029]
前記1つ以上のＴ細胞受容体を同定する工程が、前記1つ以上の同定されたＴ細胞のＴ細胞受容体配列をシークエンシングすることを含む、本発明1028の方法。
[本発明1030]
本発明1001～1028のいずれかの前記サブセットの中の少なくとも1つの選択された新生抗原に対して抗原特異的な、単離されたＴ細胞。
[本発明1031]
前記1つ以上の同定されたＴ細胞受容体の少なくとも1つを発現するように複数のＴ細胞を遺伝子操作する工程、
前記複数のＴ細胞を拡大増殖させる条件下で前記複数のＴ細胞を培養する工程、及び
前記拡大増殖させたＴ細胞を前記対象に注入する工程
をさらに含む、本発明1028または1029の方法。
[本発明1032]
前記1つ以上の同定されたＴ細胞受容体のうちの少なくとも1つを発現するように前記複数のＴ細胞を遺伝子操作する工程が、
前記1つ以上の同定されたＴ細胞の前記Ｔ細胞受容体配列を発現ベクターにクローニングすること、及び
前記複数のＴ細胞のそれぞれに前記発現ベクターをトランスフェクトすること
を含む、本発明1031の方法。
[本発明1033]
前記1つ以上の同定されたＴ細胞を拡大増殖させる条件下で前記1つ以上の同定されたＴ細胞を培養する工程、及び
前記拡大増殖させたＴ細胞を前記対象に注入する工程
をさらに含む、本発明1025～1029及び本発明1031～1032のいずれかの方法。

本発明のこれら及び他の特徴、態様、及び側面は、以下の説明文及び添付の図面に関してより深い理解が得られるであろう。

新生抗原の特定に対する現在の臨床的アプローチを示す。予測された結合ペプチドのうち、腫瘍細胞上に提示されるものは５％未満であることを示す。新生抗原予測の特異性の問題の影響を示す。結合予測が、新生抗原の特定に充分ではないことを示す。ペプチド長の関数としてのＭＨＣ－Ｉによる提示の確率を示す。Ｐｒｏｍｅｇａ社のダイナミックレンジ標準から生成された、例示的なペプチドスペクトルを示す。ＳＥＱＩＤＮＯ：１を開示する。特性の追加が、いかにモデルの陽性適中率を向上させるかを示す。一実施形態による、患者におけるペプチド提示の尤度を特定するための環境の概略である。一実施形態による、提示情報を取得する方法を説明する。ＳＥＱＩＤＮＯ：３を開示する。一実施形態による、提示情報を取得する方法を説明する。ＳＥＱＩＤＮＯ：３～８をそれぞれ、示される順序で開示する。一実施形態による、提示特定システムのコンピュータ論理構成要素を説明する、ハイレベルブロック図である。一実施形態による、訓練データの例示的なセットを説明する。「ペプチド配列」をＳＥＱＩＤＮＯ：１０～１３として、また、「Ｃ－隣接配列」をＳＥＱＩＤＮＯ：１４、１９～２０、及び２０として、示される順序でそれぞれ開示する。ＭＨＣアレルに関連した例示的なネットワークモデルを説明する。一実施形態による、ＭＨＣアレルによって共有される例示的なネットワークモデルＮＮ_Ｈ（・）を説明する。別の実施形態による、ＭＨＣアレルによって共有される例示的なネットワークモデルＮＮ_Ｈ（・）を説明する。例示的なネットワークモデルを用いた、ＭＨＣアレルに関連したペプチドの提示尤度の生成を説明する。例示的なネットワークモデルを用いた、ＭＨＣアレルに関連したペプチドの提示尤度の生成を説明する。例示的なネットワークモデルを用いた、ＭＨＣアレルに関連したペプチドの提示尤度の生成を説明する。例示的なネットワークモデルを用いた、ＭＨＣアレルに関連したペプチドの提示尤度の生成を説明する。例示的なネットワークモデルを用いた、ＭＨＣアレルに関連したペプチドの提示尤度の生成を説明する。例示的なネットワークモデルを用いた、ＭＨＣアレルに関連したペプチドの提示尤度の生成を説明する。質量分析を用いた、ヒト腫瘍細胞上及び腫瘍浸潤リンパ球（ＴＩＬ）上のクラスＩＩＭＨＣアレルから溶出されたペプチドの長さのヒストグラムである。２つの例示的なデータセットについてｍＲＮＡ定量化と残基当たりの提示ペプチドとの依存関係を示す。２つの例示的なデータセットを用いて訓練及び試験した例示的な提示モデルの性能結果を比較したものである。ＨＬＡクラスＩＩ分子を含む合計３９種の試料の各試料について質量分析を用いてシークエンシングしたペプチドの量を示すヒストグラムである。特定のＭＨＣクラスＩＩ分子のアレルが同定された試料の量を示すヒストグラムである。合計で３９種の試料中でＭＨＣクラスＩＩ分子によって提示されるペプチドの割合を、一定範囲のペプチド長の各ペプチド長について示したものである。３９種の試料中に存在する遺伝子について、遺伝子発現とＭＨＣクラスＩＩ分子による遺伝子発現産物の提示の発生率との間の関係を示す線グラフである。ペプチドの試験データセット内のペプチドがＭＨＣクラスＩＩ分子によって提示される尤度を予想するうえでの入力の異なる同じモデルの性能を比較した線グラフである。ペプチドの試験データセット内のペプチドがＭＨＣクラスＩＩ分子によって提示される尤度を予想するうえでの４つの異なる提示モデルの性能を比較した線グラフである。２つの異なる基準を用いたベスト・イン・クラスの従来モデルと、２つの異なる入力を有する本明細書に開示される提示モデルの、ペプチドの試験データセット内のペプチドがＭＨＣクラスＩＩ分子によって提示される尤度を予想するうえでの性能を比較した線グラフである。図１及び３に示した実体を実施するための例示的なコンピュータを説明する。

詳細な説明
Ｉ．定義
全般的に、特許請求の範囲及び明細書において使用される用語は、当業者により理解される通常の意味を有するものとして解釈されるものとする。特定の用語を、さらなる明確性を与えるために以下に定義する。通常の意味と与えられる定義との間に矛盾が存在する場合、与えられる定義が用いられるものとする。

本明細書で使用するところの「抗原」という用語は、免疫反応を誘導する物質のことである。

本明細書で使用するところの「新生抗原」という用語は、例えば、腫瘍細胞の変異、または腫瘍細胞に特異的な翻訳後修飾によって、抗原を、対応する野生型の親抗原とは異なるものとする少なくとも１つの変化を有する抗原のことである。新生抗原は、ポリペプチド配列またはヌクレオチド配列を含んでよい。変異は、フレームシフトもしくは非フレームシフト挿入欠失（ｉｎｄｅｌ）、ミスセンスもしくはナンセンス置換、スプライス部位変化、ゲノム再編成もしくは遺伝子融合、または、新生ＯＲＦを生じる任意のゲノム変化もしくは発現変化を含むことができる。変異はまた、スプライス変異体も含むことができる。腫瘍細胞に特異的な翻訳後修飾は、異常リン酸化を含むことができる。腫瘍細胞に特異的な翻訳後修飾はまた、プロテアソームによって生成されるスプライス抗原も含むことができる。Ｌｉｅｐｅｅｔａｌ．，ＡｌａｒｇｅｆｒａｃｔｉｏｎｏｆＨＬＡｃｌａｓｓＩｌｉｇａｎｄｓａｒｅｐｒｏｔｅａｓｏｍｅ－ｇｅｎｅｒａｔｅｄｓｐｌｉｃｅｄｐｅｐｔｉｄｅｓ；Ｓｃｉｅｎｃｅ．２０１６Ｏｃｔ２１；３５４（６３１０）：３５４－３５８を参照されたい。

本明細書で使用するところの「腫瘍新生抗原」という用語は、対象の腫瘍細胞または組織中に存在するが、対象の対応する正常細胞または組織中には存在しない新生抗原のことである。

本明細書において使用される場合、「新生抗原ベースのワクチン」という用語は、１つ以上の新生抗原、例えば複数の新生抗原に基づいたワクチンコンストラクトのことである。

本明細書において使用される場合、「新生抗原候補」という用語は、新生抗原を表しうる新たな配列を生じる変異または他の異常のことである。

本明細書において使用される場合、「コード領域」という用語は、遺伝子における、タンパク質をコードする部分のことである。

本明細書において使用される場合、「コード変異」という用語は、コード領域で生じる変異のことである。

本明細書において使用される場合、「ＯＲＦ」という用語は、オープンリーディングフレームを意味する。

本明細書において使用される場合、「新生ＯＲＦ」という用語は、変異または他の異常（例えば、スプライシング）により生じる腫瘍特異的なＯＲＦのことである。

本明細書において使用される場合、「ミスセンス変異」という用語は、１つのアミノ酸から別のアミノ酸への置換を引き起こす変異である。

本明細書において使用される場合、「ナンセンス変異」という用語は、アミノ酸から終止コドンへの置換を引き起こす変異である。

本明細書において使用される場合、「フレームシフト変異」という用語は、タンパク質のフレームに変更を引き起こす変異である。

本明細書において使用される場合、「挿入欠失」という用語は、１つ以上の核酸の挿入または欠失である。

本明細書において使用される場合、２つ以上の核酸またはポリペプチドの配列との関連での「同一性」（％）という用語は、下記の配列比較アルゴリズム（例えば、ＢＬＡＳＴＰ及びＢＬＡＳＴＮ、または当業者が利用可能な他のアルゴリズム）のうちの１つを用いて、または目視検査により測定される、最大の一致について比較し、整列させた場合に、ヌクレオチドまたはアミノ酸残基の特定の比率（％）が同じである２つ以上の配列または部分配列のことを指す。用途に応じて、「同一性」（％）は、比較される配列の領域にわたって、例えば、機能ドメインにわたって存在するか、あるいは、比較される２つの配列の完全長にわたって存在することができる。

配列比較では、一般的に、１つの配列が、試験配列が比較される参照配列として機能する。配列比較アルゴリズムを用いる場合、試験配列及び参照配列をコンピュータに入力し、必要な場合には部分配列座標を指定し、配列アルゴリズムプログラムのパラメータを指定する。次いで、配列比較アルゴリズムが、指定されたプログラムパラメータに基づいて、参照配列に対する試験配列の配列同一性（％）を算出する。あるいは、配列の類似性または相違性は、選択された配列位置（例えば、配列モチーフ）における特定のヌクレオチドの、または翻訳後の配列ではアミノ酸の有無の組み合わせによって確立することもできる。

比較を行うための配列の最適なアラインメントは、例えば、Ｓｍｉｔｈ＆Ｗａｔｅｒｍａｎ，Ａｄｖ．Ａｐｐｌ．Ｍａｔｈ．２：４８２（１９８１）の局所相同性アルゴリズムによって、Ｎｅｅｄｌｅｍａｎ＆Ｗｕｎｓｃｈ，Ｊ．Ｍｏｌ．Ｂｉｏｌ．４８：４４３（１９７０）の相同性アラインメントアルゴリズムによって、Ｐｅａｒｓｏｎ＆Ｌｉｐｍａｎ，Ｐｒｏｃ．Ｎａｔ’ｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ８５：２４４４（１９８８）の類似性の探索法によって、これらのアルゴリズムのコンピュータ処理による実行（ＷｉｓｃｏｎｓｉｎＧｅｎｅｔｉｃｓＳｏｆｔｗａｒｅＰａｃｋａｇｅ，ＧｅｎｅｔｉｃｓＣｏｍｐｕｔｅｒＧｒｏｕｐ，５７５ＳｃｉｅｎｃｅＤｒ．，Ｍａｄｉｓｏｎ，Ｗｉｓ．におけるＧＡＰ、ＢＥＳＴＦＩＴ、ＦＡＳＴＡ、及びＴＦＡＳＴＡ）によって、または目視検査によって実施することができる（一般的には、下記のＡｕｓｕｂｅｌｅｔａｌ．を参照）。

配列同一性（％）及び配列類似性（％）を決定するのに適したアルゴリズムの１つの例として、Ａｌｔｓｃｈｕｌｅｔａｌ．，Ｊ．Ｍｏｌ．Ｂｉｏｌ．２１５：４０３－４１０（１９９０）に記載されるＢＬＡＳＴアルゴリズムがある。ＢＬＡＳＴ解析を行うためのソフトウェアは、ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎを通して公に入手可能である。

本明細書において使用される場合、「ノンストップまたはリードスルー」という用語は、天然の終止コドンの除去を引き起こす変異のことである。

本明細書において使用される場合、「エピトープ」という用語は、抗体またはＴ細胞受容体が一般的に結合する、抗原の特異的な部分のことである。

本明細書において使用される場合、「免疫原性」という用語は、例えば、Ｔ細胞、Ｂ細胞、またはその両方を介して免疫応答を誘発する能力のことである。

本明細書において使用される場合、「ＨＬＡ結合親和性」、「ＭＨＣ結合親和性」という用語は、特異的な抗原と特異的なＭＨＣアレルとの結合の親和性を意味する。

本明細書において使用される場合、「ベイト」という用語は、ＤＮＡまたはＲＮＡの特異的な配列を試料から濃縮するために使用される核酸プローブのことである。

本明細書において使用される場合、「変異」という用語は、対象の核酸と、対照として使用される参照ヒトゲノムとの差である。

本明細書において使用される場合、「変異コール」という用語は、典型的にはシークエンシングからの、変異の存在のアルゴリズム的決定である。

本明細書において使用される場合、「多型」という用語は、生殖細胞系列変異、すなわち、個体のすべてのＤＮＡ保有細胞において見出される変異である。

本明細書において使用される場合、「体細胞変異」という用語は、個体の非生殖系列細胞において生じる変異である。

本明細書において使用される場合、「アレル」という用語は、遺伝子の１つのバージョンまたは遺伝子配列の１つのバージョンまたはタンパク質の１つのバージョンのことである。

本明細書において使用される場合、「ＨＬＡ型」という用語は、ＨＬＡ遺伝子アレルの相補体のことである。

本明細書において使用される場合、「ナンセンス変異依存分解機構」または「ＮＭＤ」という用語は、未成熟な終止コドンに起因する細胞によるｍＲＮＡの分解のことである。

本明細書において使用される場合、「トランカル変異（ｔｒｕｎｃａｌｍｕｔａｔｉｏｎ）」という用語は、腫瘍の発生の初期に生じ、腫瘍の細胞の大部分に存在する変異である。

本明細書において使用される場合、「サブクローナル変異」という用語は、腫瘍の発生において後期に生じ、腫瘍の細胞の一部のみに存在する変異である。

本明細書において使用される場合、「エクソーム」という用語は、タンパク質をコードするゲノムのサブセットである。エクソームは、ゲノムの集合的なエクソンでありうる。

本明細書において使用される場合、「ロジスティック回帰」という用語は、従属変数が１に等しい確率のロジットが従属変数の線形関数としてモデル化される、統計からのバイナリデータ用の回帰モデルである。

本明細書において使用される場合、「ニューラルネットワーク」という用語は、多層の線形変換に続いて一般的に確率的勾配降下法及び逆伝搬により訓練された要素ごとの非線形変換を行うことからなる分類または回帰のための機械学習モデルである。

本明細書において使用される場合、「プロテオーム」という用語は、細胞、細胞の群、または個体によって発現される、及び／または翻訳されるすべてのタンパク質のセットのことである。

本明細書において使用される場合、「ペプチドーム」という用語は、細胞表面上のＭＨＣ－ＩまたはＭＨＣ－ＩＩによって提示されるすべてのペプチドのセットのことである。ペプチドームは、細胞または細胞の集合の性質を指す場合もある（例えば、腫瘍ペプチドームは、腫瘍を含むすべての細胞のペプチドームの和集合を意味する）。

本明細書において使用される場合、「ＥＬＩＳＰＯＴ」という用語は、ヒト及び動物において免疫応答を観察するための一般的な方法である、酵素結合免疫吸着スポットアッセイを意味する。

本明細書において使用される場合、「デキストラマー」という用語は、フローサイトメトリーにおいて抗原特異的Ｔ細胞染色に使用される、デキストランベースのペプチド－ＭＨＣマルチマーである。

本明細書において使用される場合、「寛容または免疫寛容」という用語は、１つ以上の抗原、例えば、自己抗原に対する免疫不応答の状態のことである。

本明細書において使用される場合、「中枢性寛容」という用語は、自己反応性Ｔ細胞クローンを欠失させること、または自己反応性Ｔ細胞クローンの免疫抑制性制御性Ｔ細胞（Ｔｒｅｇ）への分化を促進することのいずれかにより、胸腺において与えられる寛容である。

本明細書において使用される場合、「末梢性寛容」という用語は、中枢性寛容を生き延びた自己反応性Ｔ細胞を下方制御もしくはアネルギー化すること、またはこれらのＴ細胞のＴｒｅｇへの分化を促進することにより、末梢系において与えられる寛容である。

「試料」という用語は、静脈穿刺、排泄、射精、マッサージ、生検、針吸引、洗浄試料、擦過、外科的切開、もしくは介入、または当技術分野において公知の他の手段を含む手段によって対象から採取された、単一細胞、または複数の細胞、または細胞の断片、または体液のアリコートを含むことができる。

「対象」という用語は、インビボ、エクスビボ、またはインビトロ、雄または雌のいずれかの、細胞、組織、または生物体、ヒトまたは非ヒトを包含する。対象という用語は、ヒトを含む哺乳動物を含める。

「哺乳動物」という用語は、ヒト及び非ヒトの両方を包含し、ヒト、非ヒト霊長類、イヌ、ネコ、マウス、ウシ、ウマ、及びブタを含むが、それらに限定されない。

「臨床的因子」という用語は、対象の状態、例えば、疾患の活性または重症度の測定を指す。「臨床的因子」は、非試料マーカーを含む、対象の健康状態のすべてのマーカー、ならびに／または、非限定的に年齢及び性別などの、対象の他の特徴を包含する。臨床的因子は、対象または所定の条件下の対象由来の試料（または試料の集団）の評定から取得され得るスコア、値、または値のセットであることができる。臨床的因子はまた、マーカー、及び／または遺伝子発現代替物などの他のパラメータによっても予測することができる。臨床的因子は、腫瘍タイプ、腫瘍サブタイプ、及び喫煙歴を含むことができる。

略語：ＭＨＣ：主要組織適合性複合体；ＨＬＡ：ヒト白血球抗原、またはヒトＭＨＣ遺伝子座；ＮＧＳ：次世代シークエンシング；ＰＰＶ：陽性適中率；ＴＳＮＡ：腫瘍特異的新生抗原；ＦＦＰＥ：ホルマリン固定パラフィン包埋；ＮＭＤ：ナンセンス変異依存分解機構；ＮＳＣＬＣ：非小細胞肺癌；ＤＣ：樹状細胞。

本明細書及び添付の特許請求の範囲において使用される場合、単数形「ａ」、「ａｎ」、及び「ｔｈｅ」は、文脈によってそうでない旨が明示されない限り、複数の指示物を含む点に留意されたい。

本明細書において直接定義されていない用語は、本発明の技術分野の範囲内で理解されるような、一般的にそれらに付随する意味を有するものとして理解されるべきである。本発明の態様の組成物、装置、方法など、ならびにそれらの製造または使用法を説明するうえで実施者にさらなる手引きを与える目的で特定の用語が本明細書で検討される。同じものについて複数の言い方がなされうる点は認識されるであろう。したがって、代替的な語及び同義語が、本明細書で検討される用語の任意の１つ以上について用いられる場合がある。本明細書においてある用語が詳述または検討されているか否かに重きが置かれるべきではない。いくつかの同義語または代用可能な方法、材料などが提供される。１つまたは数個の同義語または均等物の記載は、明確に述べられない限り、他の同義語または均等物の使用を除外しない。用語の例を含む例の使用は、あくまで説明を目的としたものにすぎず、本明細書における発明の態様の範囲及び意味を限定しない。

本明細書の本文において引用されるすべての参照文献、発行特許、及び特許出願は、あらゆる目的でそれらの全容を参照により本明細書に援用するものである。

ＩＩ．新生抗原を特定する方法
本明細書では、腫瘍、または樹状細胞のようなプロフェッショナル抗原提示細胞を含む免疫細胞の細胞表面上に提示される可能性が高い、かつ／または免疫原性を有する可能性が高い、対象の腫瘍由来の新生抗原を特定するための方法を開示する。例として、かかる１つの方法は、対象の腫瘍細胞から、エクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも１つを得る工程であって、前記腫瘍ヌクレオチドシークエンシングデータを用いて、新生抗原のセットの各々のペプチド配列を表すデータが取得され、各新生抗原のペプチド配列が、ペプチド配列を対応する野生型の親ペプチド配列とは異なるものにする少なくとも１つの変化を含む、工程；各新生抗原のペプチド配列を１つ以上の提示モデルに入力して、対象の腫瘍細胞の腫瘍細胞表面上の１つ以上のＭＨＣアレルによって、または腫瘍内に存在する細胞によって各新生抗原が提示される数値的尤度のセットを生成する、工程であって、前記数値的尤度のセットが、受け取った質量分析データに少なくとも基づいて特定される、工程；ならびに、前記新生抗原のセットのサブセットを、前記数値的尤度のセットに基づいて選択して、選択された新生抗原のセットを生成する、工程、を含む方法を開示する。

提示モデルは、対応するラベルのセットを含む参照データのセット（訓練データセットとも呼ばれる）で訓練された、統計学的回帰または機械学習（例えば、ディープラーニング）モデルを含むことができ、前記参照データのセットは、場合により一部の対象が腫瘍を有しうる複数の別個の対象の各々から取得され、また、前記参照データのセットは、腫瘍組織由来のエクソームヌクレオチド配列を表すデータ、正常組織由来のエクソームヌクレオチド配列を表すデータ、腫瘍組織由来のトランスクリプトームヌクレオチド配列を表すデータ、腫瘍組織由来のプロテオーム配列を表すデータ、及び腫瘍組織由来のＭＨＣペプチドーム配列を表すデータ、及び正常組織由来のＭＨＣペプチドーム配列を表すデータのうちの少なくとも１つを含む。参照データは、合成タンパク質、正常及び腫瘍ヒト細胞株、ならびに新鮮な及び凍結された初代試料に対してその後曝露される所定のＭＨＣアレルを発現するように操作された単一アレル細胞株の質量分析データ、シークエンシングデータ、ＲＮＡシークエンシングデータ、及びプロテオミクスデータ、ならびにＴ細胞アッセイ（例えば、ＥＬＩＳＰＯＴ）をさらに含むことができる。特定の態様では、参照データのセットは、参照データの各形態を含む。

提示モデルは、参照データのセットに少なくとも一部由来する特性のセットを含むことができ、前記特性のセットは、アレル依存的特性及びアレル非依存的特性のうちの少なくとも１つを含む。特定の態様では、各特性が含まれる。

本明細書ではまた、対象の１つまたは複数の腫瘍細胞に由来する、腫瘍細胞の表面上に提示される可能性の高い１つ以上の新生抗原を特定することによって、個別化がんワクチンを構築するための出力を生成するための方法も開示される。例として、かかる１つの方法は、前記対象の前記腫瘍細胞及び正常細胞からエクソーム、トランスクリプトーム、または全ゲノムのヌクレオチドシークエンシングデータのうちの少なくとも１つを取得する工程であって、前記ヌクレオチドシークエンシングデータを用いて、前記腫瘍細胞由来のヌクレオチドシークエンシングデータと前記正常細胞由来のヌクレオチドシークエンシングデータとを比較することにより特定された新生抗原のセットの各新生抗原のペプチド配列を表すデータが取得され、各新生抗原のペプチド配列が、前記ペプチド配列を前記対象の前記正常細胞から特定された対応する野生型ペプチド配列とは異なるものとする少なくとも１つの変化を含む、工程；前記新生抗原のそれぞれの前記ペプチド配列を対応する数値ベクトルにエンコードする工程であって、各数値ベクトルが、前記ペプチド配列を構成する複数のアミノ酸と、前記ペプチド配列における前記アミノ酸の位置のセットとに関する情報を含む、工程；コンピュータのプロセッサを使用して前記数値ベクトルをディープラーニング提示モデルに入力して、前記新生抗原のセットについての提示尤度のセットを生成する、工程であって、前記セット内の各提示尤度が、対応する新生抗原が１つ以上のクラスＩＩＭＨＣアレルによって前記対象の前記腫瘍細胞の表面上に提示される尤度を表す、工程；前記提示尤度のセットに基づいて前記新生抗原のセットのサブセットを選択して、選択された新生抗原のセットを生成する、工程；ならびに、前記選択された新生抗原のセットに基づいて前記個別化されたがんワクチンを構築するための前記出力を生成する工程、を含むことができる。

いくつかの実施形態では、提示モデルは、少なくとも訓練データセットに基づいて特定される複数のパラメータ；ならびに、入力として受け取られた数値ベクトルと、数値ベクトル及び前記パラメータに基づいた出力として生成される提示尤度との間の関係を表す関数を含む。特定の実施形態では、訓練データセットは、複数の試料のうちの少なくとも１つに存在するものとして特定された少なくとも１つのクラスＩＩＭＨＣアレルに結合したペプチドの存在を測定する質量分析によって得られたラベルと、ペプチド配列を構成する複数のアミノ酸及びペプチド配列におけるアミノ酸の位置のセットに関する情報を含む数値ベクトルとしてエンコードされた訓練ペプチド配列と、訓練ペプチド配列に関連付けられた少なくとも１つのＨＬＡアレルと、を含む。

ナイーブＴ細胞に対する樹状細胞提示の特性は、以下のうちの少なくとも１つを含むことができる。すなわち、上記の特性。ワクチン中の抗原の用量及び種類（例えば、ペプチド、ｍＲＮＡ、ウイルスなど）：（１）樹状細胞（ＤＣ）が抗原タイプを取り込む経路（例えば、エンドサイトーシス、マイクロピノサイトーシス）；及び／または（２）抗原がＤＣにより取り込まれる効率。ワクチン中のアジュバントの用量及び種類。ワクチン抗原配列の長さ。ワクチン投与の回数及び部位。ベースラインの患者の免疫機能（例えば、最近の感染の既往歴、血球数などによって測定される）。ＲＮＡワクチンについては、（１）樹状細胞内のｍＲＮＡタンパク質産物の代謝回転速度、（２）インビトロまたはインビボ実験により測定される、樹状細胞による取り込み後のｍＲＮＡの翻訳速度、ならびに／または（３）インビボまたはインビトロ実験により測定される、樹状細胞による取り込み後のｍＲＮＡの翻訳の数またはラウンド。場合により、樹状細胞で典型的に発現しているプロテアーゼ（例えばＲＮＡ－ｓｅｑまたは質量分析によって測定される）にさらなる重みを与える、ペプチド内のプロテアーゼ切断モチーフの存在。典型的な活性化樹状細胞におけるプロテアソーム及びイムノプロテアソームの発現のレベル（ＲＮＡ－ｓｅｑ、質量分析、免疫組織化学、または他の標準的な技法によって測定することができる）。場合により活性化樹状細胞または他の免疫細胞で具体的に測定される、対象とされる個体における特定のＭＨＣアレルの発現レベル（例えばＲＮＡ－ｓｅｑまたは質量分析によって測定される）。場合により活性化樹状細胞または他の免疫細胞で具体的に測定される、特定のＭＨＣアレルを発現する他の個体における当該特定のＭＨＣアレルによるペプチド提示の確率。場合により活性化樹状細胞または他の免疫細胞で具体的に測定される、他の個体における同じ分子のファミリー（例えば、ＨＬＡ－Ａ、ＨＬＡ－Ｂ、ＨＬＡ－Ｃ、ＨＬＡ－ＤＱ、ＨＬＡ－ＤＲ、ＨＬＡ－ＤＰ）のＭＨＣアレルによるペプチド提示の確率。

免疫寛容回避特性は、以下のうちの少なくとも１つを含むことができる。すなわち、１つまたはいくつかの細胞タイプに対して行われるタンパク質質量分析による自己ペプチドームの直接測定。自己タンパク質の全ｋマー（例えば、５～２５）の部分文字列の和集合を取ることによる、自己ペプチドームの推定。場合により生殖細胞系列変異を説明する、すべての非変異自己タンパク質に適用された上記の提示モデルに類似した提示のモデルを用いた、自己ペプチドームの推定。

ランク付けは、数値的尤度に少なくとも一部基づく少なくとも１つのモデルによって与えられる複数の新生抗原を用いて行うことができる。ランク付けの後に、選択を行ってランク付けされた新生抗原のサブセットを選択基準にしたがって選択することができる。選択後に、ランク付けされたペプチドのサブセットを出力として与えることができる。

選択された新生抗原のセットの数は、２０個とすることができる。

提示モデルは、ＭＨＣアレルのうちの特定の１つとペプチド配列の特定の位置の特定のアミノ酸とのペアの存在と、ペアのＭＨＣアレルのうちの特定の１つによる、特定の位置に特定のアミノ酸を含むかかるペプチド配列の腫瘍細胞表面上の提示の尤度との間の依存性を表すことができる。

本明細書に開示される方法はまた、前記１つ以上の提示モデルを、前記対応する新生抗原のペプチド配列に適用して、前記対応する新生抗原のペプチド配列のアミノ酸の少なくとも位置に基づいて、前記１つ以上のＭＨＣアレルのそれぞれについての依存性スコア（前記ＭＨＣアレルが前記対応する新生抗原を提示するかどうかを示す）を生成することを含んでもよい。

本明細書に開示される方法はまた、依存性スコアを変換して、各ＭＨＣアレルについての対応するアレルごとの尤度（対応するＭＨＣアレルが前記対応する新生抗原を提示する尤度を示す）を生成する、工程；及び、アレルごとの尤度を組み合わせて数値的尤度を生成する工程を含んでもよい。

依存性スコアを変換することは、対応する新生抗原のペプチド配列の提示を、相互排他的なものとしてモデル化することができる。

本明細書に開示される方法はまた、依存性スコアの組み合わせを変換して、数値的尤度を生成する、工程をさらに含んでもよい。

依存性スコアの組み合わせを変換することは、対応する新生抗原のペプチド配列の提示を、ＭＨＣアレル間で干渉するものとしてモデル化することができる。

数値的尤度のセットは、少なくともアレル非相互作用特性によってさらに特定することができ、本明細書に開示する方法はまた、１つ以上の提示モデルのうちのアレル非相互作用モデルをアレル非相互作用特性に適用して、アレル非相互作用特性に基づいて、アレル非相互作用特性についての依存性スコア（対応する新生抗原のペプチド配列が提示されるかどうかを示す）を生成する、ことを含んでもよい。

本明細書に開示される方法はまた、１つ以上のＭＨＣアレルの各ＭＨＣアレルについての依存性スコアを、アレル非相互作用特性についての依存性スコアと組み合わせる工程；各ＭＨＣアレルについての組み合わされた依存性スコアを変換して、ＭＨＣアレルについての対応するアレルごとの尤度（対応するＭＨＣアレルが対応する新生抗原を提示する尤度を示す）を生成する、工程；及び、アレルごとの尤度を組み合わせて数値的尤度を生成する工程、を含んでもよい。

本明細書に開示される方法はまた、ＭＨＣアレルの各々についての依存性スコアと、アレル非相互作用特性についての依存性スコアとの組み合わせを変換して、数値的尤度を生成する、工程を含んでもよい。

提示モデルについての数値的パラメータのセットは、複数の試料中に存在すると特定された訓練ペプチド配列のセット、及び各訓練ペプチド配列に関連する１つ以上のＭＨＣアレルを少なくとも含む訓練データセットに基づいて訓練することができ、訓練ペプチド配列は、複数の試料に由来するＭＨＣアレルから溶出された単離ペプチドの質量分析により特定される。

試料はまた、単一のＭＨＣクラスＩまたはクラスＩＩアレルを発現するように操作された細胞株を含んでもよい。

試料はまた、複数のＭＨＣクラスＩまたはクラスＩＩアレルを発現するように操作された細胞株を含んでもよい。

試料はまた、複数の患者から得られた、または複数の患者に由来するヒト細胞株を含んでもよい。

試料はまた、複数の患者から得られた新鮮な、または凍結された腫瘍試料を含んでもよい。

試料はまた、複数の患者から得られた新鮮な、または凍結された組織試料を含んでもよい。

試料はまた、Ｔ細胞アッセイを用いて特定されたペプチドも含んでもよい。

訓練データセットは、試料中に存在する訓練ペプチドのセットのペプチド存在量；試料における訓練ペプチドのセットのペプチド長に関連するデータをさらに含むことができる。

訓練データセットは、既知のタンパク質配列のセットを含むデータベースとのアラインメントにより訓練ペプチド配列のセットを比較することによって生成することができ、訓練タンパク質配列のセットは、訓練ペプチド配列よりも長く、かつ訓練ペプチド配列を含む。

訓練データセットは、細胞株からエクソーム、トランスクリプトーム、または全ゲノムのシークエンシングデータのうちの少なくとも１つを取得するために細胞株に対してヌクレオチドシークエンシングを行うか、またはヌクレオチドシークエンシングがこれまでに行われていることに基づいて生成されてもよく、シークエンシングデータは、変化を含む少なくとも１つのヌクレオチド配列を含む。

訓練データセットは、正常組織試料からエクソーム、トランスクリプトーム、または全ゲノムの正常ヌクレオチドシークエンシングデータのうちの少なくとも１つを取得することに基づいて生成されてもよい。

訓練データセットは、試料に関連するプロテオーム配列に関連するデータをさらに含んでもよい。

訓練データセットは、試料に関連するＭＨＣペプチドーム配列に関連するデータをさらに含んでもよい。

訓練データセットは、単離されたペプチドのうちの少なくとも１つについてのペプチド－ＭＨＣ結合親和性の測定値に関連するデータをさらに含んでもよい。

訓練データセットは、単離されたペプチドのうちの少なくとも１つについてのペプチド－ＭＨＣ結合安定性の測定値に関連するデータをさらに含んでもよい。

訓練データセットは、試料に関連するトランスクリプトームに関連するデータをさらに含んでもよい。

訓練データセットは、試料に関連するゲノムに関連するデータをさらに含んでもよい。

訓練ペプチド配列は、ｋマー（ｋは、ＭＨＣクラスＩの場合は８～１５であり、ＭＨＣクラスＩＩの場合は６～３０である）の範囲内の長さとすることができる。

本明細書に開示する方法はまた、ワンホット（ｏｎｅ－ｈｏｔ）エンコーディングスキームを用いてペプチド配列をエンコードすることを含んでもよい。

本明細書に開示される方法はまた、レフトパディング（ｌｅｆｔ－ｐａｄｄｅｄ）ワンホットエンコーディングスキームを用いて訓練ペプチド配列をエンコードすることを含んでもよい。

請求項１に記載の工程を行うことを含み、選択された新生抗原のセットを含む腫瘍ワクチンを得る工程と、腫瘍ワクチンを対象に投与する工程と、をさらに含む、腫瘍を有する対象を治療する方法。

本明細書に開示される方法はまた、サブセットの中の新生抗原のうちの少なくとも１つに対して抗原特異的な１つ以上のＴ細胞を同定する工程をさらに含むことができる。いくつかの実施形態では、同定は、１つ以上の抗原特異的Ｔ細胞を拡大増殖させる条件下で１つ以上のＴ細胞をサブセットの中の新生抗原のうちの１つ以上と共培養することを含む。更なる実施形態では、同定は、１つ以上のＴ細胞を、サブセットの中の新生抗原のうちの１つ以上を含むテトラマーと、Ｔ細胞とテトラマーとの結合が可能な条件下で接触させることを含む。いっそうさらなる実施形態では、本明細書に開示される方法はまた、前記１つ以上の同定されたＴ細胞の１つ以上のＴ細胞受容体（ＴＣＲ）を同定する工程をさらに含むことができる。特定の実施形態では、１つ以上のＴ細胞受容体を同定することは、前記１つ以上の同定されたＴ細胞のＴ細胞受容体配列をシークエンシングすることを含む。本明細書に開示される方法は、前記１つ以上の同定されたＴ細胞受容体のうちの少なくとも１つを発現するように複数のＴ細胞を遺伝子操作することと、前記複数のＴ細胞を拡大増殖させる条件下で前記複数のＴ細胞を培養することと、前記拡大増殖させたＴ細胞を対象に注入することと、をさらに含むことができる。いくつかの実施形態では、１つ以上の同定されたＴ細胞受容体の少なくとも１つを発現するように複数のＴ細胞を遺伝子操作することは、前記１つ以上の同定されたＴ細胞の前記Ｔ細胞受容体配列を発現ベクターにクローニングすることと、前記複数のＴ細胞のそれぞれに発現ベクターをトランスフェクトすることと、を含む。特定の実施形態では、本明細書に開示される方法は、さらに、前記１つ以上のＴ細胞を拡大増殖させる条件下で前記１つ以上の同定されたＴ細胞を培養することと、拡大増殖させたＴ細胞を対象に注入することと、をさらに含む。

本明細書ではまた、前記サブセットの中の少なくとも１つの選択された新生抗原に対して抗原特異的である単離Ｔ細胞も開示される。

本明細書ではまた、腫瘍ワクチンを製造するための方法であって、対象の腫瘍細胞から、エクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも１つを取得する工程であって、前記腫瘍ヌクレオチドシークエンシングデータを用いて新生抗原のセットの各々のペプチド配列を表すデータが取得され、各新生抗原のペプチド配列が、ペプチド配列を対応する野生型の親ペプチド配列とは異なるものにする少なくとも１つの変異を含む、工程；各新生抗原のペプチド配列を１つ以上の提示モデルに入力して、前記新生抗原のそれぞれが前記対象の前記腫瘍細胞の前記腫瘍細胞表面上の１つ以上のＭＨＣアレルによって提示される数値的尤度のセットを生成する、工程であって、前記数値的尤度のセットが、受け取られた質量分析データに少なくとも基づいて特定されたものである、工程；前記新生抗原のセットのサブセットを、前記数値的尤度のセットに基づいて選択して、選択された新生抗原のセットを生成する、工程；ならびに、前記選択された新生抗原のセットを含む腫瘍ワクチンを生産するか、またはこれまでに生産している工程、を含む方法も開示される。

本明細書ではまた、対象の腫瘍細胞から、エクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも１つを取得する工程であって、前記腫瘍ヌクレオチドシークエンシングデータを用いて新生抗原のセットの各々のペプチド配列を表すデータが取得され、各新生抗原のペプチド配列が、ペプチド配列を対応する野生型の親ペプチド配列とは異なるものにする少なくとも１つの変異を含む、工程；各新生抗原のペプチド配列を１つ以上の提示モデルに入力して、前記新生抗原のそれぞれが前記対象の前記腫瘍細胞の前記腫瘍細胞表面上の１つ以上のＭＨＣアレルによって提示される数値的尤度のセットを生成する、工程であって、前記数値的尤度のセットが、受け取られた質量分析データに少なくとも基づいて特定されたものである、工程；前記新生抗原のセットのサブセットを、前記数値的尤度のセットに基づいて選択して、選択された新生抗原のセットを生成する、工程；ならびに、前記選択された新生抗原のセットを含む腫瘍ワクチンを生産するか、またはこれまでに生産している、工程、を含む方法を実行することによって選択された、選択された新生抗原のセットを含む腫瘍ワクチンも提供される。

腫瘍ワクチンは、ヌクレオチド配列、ポリペプチド配列、ＲＮＡ、ＤＮＡ、細胞、プラスミド、またはベクターのうちの１つ以上を含んでもよい。

腫瘍ワクチンは、腫瘍細胞表面上に提示される１つ以上の新生抗原を含んでもよい。

腫瘍ワクチンは、対象において免疫原性を示す１つ以上の新生抗原を含んでもよい。

腫瘍ワクチンは、対象において正常組織に対する自己免疫応答を誘導する、１つ以上の新生抗原を含まなくともよい。

腫瘍ワクチンは、アジュバントを含んでもよい。

腫瘍ワクチンは、賦形剤を含んでもよい。

本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に比べて、腫瘍細胞表面上に提示される尤度が高い新生抗原を選択することを含んでもよい。

本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に比べて、対象において腫瘍特異的な免疫応答を誘導することができる尤度が高い新生抗原を選択することを含んでもよい。

本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に比べて、プロフェッショナル抗原提示細胞（ＡＰＣ）によってナイーブＴ細胞に提示されることができる尤度が高い新生抗原を選択することを含んでもよく、場合により、ＡＰＣは樹状細胞（ＤＣ）である。

本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に比べて、中枢性寛容または末梢性寛容によって阻害される尤度が低い新生抗原を選択することを含んでもよい。

本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に比べて、対象において正常組織に対する自己免疫応答を誘導することができる尤度が低い新生抗原を選択することを含んでもよい。

エクソームまたはトランスクリプトームのヌクレオチドシークエンシングデータは、腫瘍組織でシークエンシングを行うことによって取得することができる。

シークエンシングは、次世代シークエンシング（ＮＧＳ）または任意の大規模並列処理シークエンシングアプローチであってもよい。

数値的尤度のセットは、以下のうちの少なくとも１つを含む少なくともＭＨＣアレル相互作用特性によってさらに特定することができる。すなわち、ＭＨＣアレルと新生抗原によりコードされるペプチドとが結合する予測親和性；新生抗原によりコードされるペプチド－ＭＨＣ複合体の予測安定性；新生抗原によりコードされるペプチドの配列及び長さ；質量分析プロテオミクスまたは他の手段によって評価される、特定のＭＨＣアレルを発現する他の個体由来の細胞の類似配列を有する新生抗原によりコードされるペプチドの提示の確率；対象とされる対象の特定のＭＨＣアレルの発現レベル（例えば、ＲＮＡ－ｓｅｑまたは質量分析によって測定される）；全体的な新生抗原によりコードされるペプチドの配列とは独立した、特定のＭＨＣアレルを発現する他の別個の個体における当該特定のＭＨＣアレルによる提示の確率；他の別個の対象における、同じ分子のファミリー（例えば、ＨＬＡ－Ａ、ＨＬＡ－Ｂ、ＨＬＡ－Ｃ、ＨＬＡ－ＤＱ、ＨＬＡ－ＤＲ、ＨＬＡ－ＤＰ）のＭＨＣアレルによる提示の、全体的な新生抗原によりコードされるペプチド配列とは独立した確率。

数値的尤度のセットは、以下のうちの少なくとも１つを含む少なくともＭＨＣアレル非相互作用特性によってさらに特定される。すなわち、そのソースタンパク質配列内の、新生抗原によりコードされるペプチドに隣接するＣ末端側及びＮ末端側の配列；場合により、腫瘍細胞内の対応するプロテアーゼの発現（ＲＮＡ－ｓｅｑまたは質量分析によって測定される）にしたがって重み付けされる、新生抗原によりコードされるペプチド内のプロテアーゼ切断モチーフの存在；適切な細胞タイプにおいて測定されるソースタンパク質の代謝回転速度；ＲＮＡ－ｓｅｑもしくはプロテオーム質量分析によって測定される、または、ＤＮＡもしくはＲＮＡ配列データにおいて検出される生殖細胞系列もしくは体細胞系列スプライシング変異のアノテーションから予測される、腫瘍細胞に最も高発現している特定のスプライス変異体（「アイソフォーム」）を場合により考慮した、ソースタンパク質の長さ；腫瘍細胞におけるプロテアソーム、イムノプロテアソーム、胸腺プロテアソーム、または他のプロテアーゼの発現のレベル（ＲＮＡ－ｓｅｑ、プロテオーム質量分析、または免疫組織化学によって測定することができる）；新生抗原によりコードされるペプチドのソース遺伝子の発現（例えば、ＲＮＡ－ｓｅｑまたは質量分析によって測定される）；細胞周期の異なる段階における新生抗原によりコードされるペプチドのソース遺伝子の典型的な組織特異的発現；例えば、ｕｎｉＰｒｏｔまたはＰＤＢｈｔｔｐ：／／ｗｗｗ．ｒｃｓｂ．ｏｒｇ／ｐｄｂ／ｈｏｍｅ／ｈｏｍｅ．ｄｏにみることができるような、ソースタンパク質及び／またはそのドメインの特性の包括的なカタログ；ペプチドを含むソースタンパク質のドメインの性質を説明する特性、例えば、二次構造または三次構造（例えば、βシートに対するαヘリックス）；選択的スプライシング；他の別個の対象における、対象とされる新生抗原によりコードされるペプチドのソースタンパク質に由来するペプチドの提示の確率；ペプチドが、技術的バイアスのために質量分析によって検出されないか、または過剰に表される確率；腫瘍細胞、間質、または腫瘍浸潤リンパ球（ＴＩＬ）の状態について情報を与える、ＲＮＡＳｅｑによって測定される、種々の遺伝子モジュール／経路の発現（ペプチドのソースタンパク質を含む必要はない）；腫瘍細胞内の新生抗原によりコードされるペプチドのソース遺伝子のコピー数；ペプチドがＴＡＰに結合する確率、またはＴＡＰに対するペプチドの測定または予測される結合親和性；腫瘍細胞におけるＴＡＰの発現レベル（ＲＮＡ－ｓｅｑ、プロテオーム質量分析、免疫組織化学によって測定することができる）；以下を含むがただしこれらに限定されない、腫瘍変異の有無：ＥＧＦＲ、ＫＲＡＳ、ＡＬＫ、ＲＥＴ、ＲＯＳ１、ＴＰ５３、ＣＤＫＮ２Ａ、ＣＤＫＮ２Ｂ、ＮＴＲＫ１、ＮＴＲＫ２、ＮＴＲＫ３などの公知のがんドライバー遺伝子におけるドライバー変異、及び抗原提示機構に関与するタンパク質をコードする遺伝子（例えば、Ｂ２Ｍ、ＨＬＡ－Ａ、ＨＬＡ－Ｂ、ＨＬＡ－Ｃ、ＴＡＰ－１、ＴＡＰ－２、ＴＡＰＢＰ、ＣＡＬＲ、ＣＮＸ、ＥＲＰ５７、ＨＬＡ－ＤＭ、ＨＬＡ－ＤＭＡ、ＨＬＡ－ＤＭＢ、ＨＬＡ－ＤＯ、ＨＬＡ－ＤＯＡ、ＨＬＡ－ＤＯＢ、ＨＬＡ－ＤＰ、ＨＬＡ－ＤＰＡ１、ＨＬＡ－ＤＰＢ１、ＨＬＡ－ＤＱ、ＨＬＡ－ＤＱＡ１、ＨＬＡ－ＤＱＡ２、ＨＬＡ－ＤＱＢ１、ＨＬＡ－ＤＱＢ２、ＨＬＡ－ＤＲ、ＨＬＡ－ＤＲＡ、ＨＬＡ－ＤＲＢ１、ＨＬＡ－ＤＲＢ３、ＨＬＡ－ＤＲＢ４、ＨＬＡ－ＤＲＢ５、または、プロテアソームもしくはイムノプロテアソームの構成要素をコードする遺伝子のいずれか）における変異。その提示が、腫瘍において機能喪失変異を生じやすい抗原提示機構の構成要素に依存するペプチドは、提示の確率が低い；以下を含むがただしこれらに限定されない、機能的生殖細胞系列多型の有無：抗原提示機構に関与するタンパク質をコードする遺伝子（例えば、Ｂ２Ｍ、ＨＬＡ－Ａ、ＨＬＡ－Ｂ、ＨＬＡ－Ｃ、ＴＡＰ－１、ＴＡＰ－２、ＴＡＰＢＰ、ＣＡＬＲ、ＣＮＸ、ＥＲＰ５７、ＨＬＡ－ＤＭ、ＨＬＡ－ＤＭＡ、ＨＬＡ－ＤＭＢ、ＨＬＡ－ＤＯ、ＨＬＡ－ＤＯＡ、ＨＬＡ－ＤＯＢ、ＨＬＡ－ＤＰ、ＨＬＡ－ＤＰＡ１、ＨＬＡ－ＤＰＢ１、ＨＬＡ－ＤＱ、ＨＬＡ－ＤＱＡ１、ＨＬＡ－ＤＱＡ２、ＨＬＡ－ＤＱＢ１、ＨＬＡ－ＤＱＢ２、ＨＬＡ－ＤＲ、ＨＬＡ－ＤＲＡ、ＨＬＡ－ＤＲＢ１、ＨＬＡ－ＤＲＢ３、ＨＬＡ－ＤＲＢ４、ＨＬＡ－ＤＲＢ５、または、プロテアソームもしくはイムノプロテアソームの構成要素をコードする遺伝子のいずれか）における多型；腫瘍タイプ（例えば、ＮＳＣＬＣ、メラノーマ）；臨床的腫瘍サブタイプ（例えば、扁平上皮肺癌対非扁平上皮）；喫煙歴；場合によりドライバー変異によって層別化される、関連する腫瘍タイプまたは臨床的サブタイプにおけるペプチドのソース遺伝子の典型的な発現。

少なくとも１つの変異は、フレームシフトもしくは非フレームシフト挿入欠失、ミスセンスもしくはナンセンス置換、スプライス部位変化、ゲノム再編成もしくは遺伝子融合、または、新生ＯＲＦを生じる任意のゲノム変化もしくは発現変化であってよい。

腫瘍細胞は、肺癌、メラノーマ、乳癌、卵巣癌、前立腺癌、腎臓癌、胃癌、結腸癌、精巣癌、頭頸部癌、膵臓癌、脳癌、Ｂ細胞リンパ腫、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ球性白血病、及びＴ細胞リンパ球性白血病、非小細胞肺癌、及び小細胞肺癌からなる群より選択することができる。

本明細書に開示される方法はまた、選択された新生抗原のセットまたはそのサブセットを含む腫瘍ワクチンを得ることを含んでもよく、場合により腫瘍ワクチンを対象に投与する工程をさらに含む。

選択された新生抗原のセット内の新生抗原の少なくとも１つは、ポリペプチド形態である場合、以下のうちの少なくとも１つを含んでもよい：ＩＣ５０値が１０００ｎＭ未満のＭＨＣとの結合親和性、ＭＨＣクラスＩのポリペプチドではアミノ酸８～１５個、８、９、１０、１１、１２、１３、１４、または１５個の長さ、ＭＨＣクラスＩＩのポリペプチドではアミノ酸６～３０、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、または３０個の長さ、プロテアソーム切断を促進する、親タンパク質配列中のポリペプチド内またはその近くの配列モチーフの存在、及び、ＴＡＰ輸送を促進する配列モチーフの存在。ＭＨＣクラスＩＩでは、細胞外またはリソソームプロテアーゼ（例えば、カテプシン類）による切断またはＨＬＡ－ＤＭにより触媒されるＨＬＡ結合を促進するペプチド内またはその近くの配列モチーフの存在。

本明細書ではまた、腫瘍細胞の腫瘍細胞表面上に提示される可能性が高い１つ以上の新生抗原を特定するためのモデルを生成するための方法であって、複数の試料に由来する主要組織適合性複合体（ＭＨＣ）から溶出された複数の単離ペプチドに関連するデータを含む質量分析データを受け取る工程；試料中に存在する訓練ペプチド配列のセット及び各訓練ペプチド配列に関連する１つ以上のＭＨＣを少なくとも特定することにより、訓練データセットを取得する工程；前記訓練ペプチド配列を含む訓練データセットを用いて、提示モデルの数値的パラメータのセットを訓練する工程であって、前記提示モデルが、腫瘍細胞表面上の１つ以上のＭＨＣアレルによって腫瘍細胞由来のペプチド配列が提示される複数の数値的尤度を与える、工程、を含む方法も開示される。

提示モデルは、ペプチド配列の特定の位置の特定のアミノ酸の存在と、特定の位置に特定のアミノ酸を有するペプチド配列の、腫瘍細胞上のＭＨＣアレルのうちの１つによる提示の尤度との間の依存性を表すことができる。

訓練データセットは、試料中に存在する訓練ペプチドのセットのペプチド存在量；試料中の訓練ペプチドのセットのペプチド長に関連するデータをさらに含むことができる。

本明細書に開示される方法はまた、既知のタンパク質配列のセットを含むデータベースとのアラインメントにより訓練ペプチド配列のセットを比較することによって、訓練ペプチド配列に基づいて、訓練ペプチド配列よりも長くかつ訓練ペプチド配列を含む訓練タンパク質配列のセットを取得することを含んでもよい。

本明細書に開示される方法はまた、細胞株からエクソーム、トランスクリプトーム、または全ゲノムのヌクレオチドシークエンシングデータのうちの少なくとも１つを取得するために、細胞株に対して質量分析を行うかまたは質量分析がこれまでに行われていることを含んでもよく、前記ヌクレオチドシークエンシングデータは、変異を含む少なくとも１つのタンパク質配列を含む。

本明細書に開示される方法はまた、ワンホット（ｏｎｅ－ｈｏｔ）エンコーディングスキームを用いて訓練ペプチド配列をエンコードすることを含んでもよい。

本明細書に開示される方法はまた、正常組織試料からエクソーム、トランスクリプトーム、及び全ゲノムの正常ヌクレオチドシークエンシングデータのうちの少なくとも１つを取得すること；ならびに、前記正常ヌクレオチドシークエンシングデータを用いて、提示モデルのパラメータのセットを訓練すること、を含むことができる。

本明細書に開示される方法はまた、パラメータのセットのロジスティック回帰を行うことを含んでもよい。

訓練ペプチド配列は、ｋマー（ｋは、ＭＨＣクラスＩの場合は８～１５以下であり、ＭＨＣクラスＩＩの場合は６～３０である）の範囲内の長さとすることができる。

本明細書に開示される方法はまた、ディープラーニングアルゴリズムを用いてパラメータのセットについて値を決定することを含んでもよい。

本明細書では、腫瘍細胞の腫瘍細胞表面上に提示される可能性が高い１つ以上の新生抗原を特定するための方法であって、複数の新鮮なまたは凍結得様試料に由来する主要組織適合性複合体（ＭＨＣ）から溶出された複数の単離ペプチドに関連するデータを含む質量分析データを受け取る工程；腫瘍試料中に存在し、各訓練ペプチド配列に関連する１つ以上のＭＨＣアレル上に提示される訓練ペプチド配列のセットを少なくとも特定することにより、訓練データセットを取得する工程；前記訓練ペプチド配列に基づいて、訓練タンパク質配列のセットを取得する工程；前記訓練タンパク質配列及び前記訓練ペプチド配列を用いて、提示モデルの数値的パラメータのセットを訓練する工程であって、前記提示モデルが、腫瘍細胞表面上の１つ以上のＭＨＣアレルによって腫瘍細胞由来のペプチド配列が提示される複数の数値的尤度を与える、工程、を含む方法が開示される。

提示モデルは、ＭＨＣアレルのうちの特定の１つとペプチド配列の特定の位置の特定のアミノ酸とのペアの存在と、前記ペアの前記ＭＨＣアレルのうちの特定の１つによる、前記特定の位置に前記特定のアミノ酸を含むそのようなペプチド配列が腫瘍細胞表面上で提示される尤度と、の間の依存関係を表すことができる。

本明細書に開示される方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが１つ以上の別個の腫瘍新生抗原に対して、腫瘍の細胞表面上に提示される尤度が高いために選択される。

本明細書に開示される方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが１つ以上の別個の腫瘍新生抗原に対して、対象において腫瘍特異的な免疫応答を誘導することができる尤度が高いために選択される。

本明細書に開示される方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが１つ以上の別個の腫瘍新生抗原に対して、プロフェッショナル抗原提示細胞（ＡＰＣ）によってナイーブＴ細胞に提示されることができる尤度が高いために選択され、場合により、ＡＰＣは樹状細胞（ＤＣ）である。

本明細書に開示される方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが１つ以上の別個の腫瘍新生抗原に対して、中枢性寛容または末梢性寛容により阻害される尤度が低いために選択される。

本明細書に開示する方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが１つ以上の別個の腫瘍新生抗原に対して、対象において正常組織に対する自己免疫応答を誘導することができる尤度が低いために選択される。

本明細書に開示する方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれがＡＰＣに対して腫瘍細胞において差次的に翻訳後修飾される尤度が低いために選択され、場合により、ＡＰＣは樹状細胞（ＤＣ）である。

本明細書における方法の実施においては、特に断らない限り、当該技術分野における技能の範囲内のタンパク質化学、生化学、組換えＤＮＡ技術及び薬理学の従来の方法を使用する。かかる技術は文献に充分な説明がなされている。例えば、Ｔ．Ｅ．Ｃｒｅｉｇｈｔｏｎ，Ｐｒｏｔｅｉｎｓ：ＳｔｒｕｃｔｕｒｅｓａｎｄＭｏｌｅｃｕｌａｒＰｒｏｐｅｒｔｉｅｓ（Ｗ．Ｈ．ＦｒｅｅｍａｎａｎｄＣｏｍｐａｎｙ，１９９３）；Ａ．Ｌ．Ｌｅｈｎｉｎｇｅｒ，Ｂｉｏｃｈｅｍｉｓｔｒｙ（ＷｏｒｔｈＰｕｂｌｉｓｈｅｒｓ，Ｉｎｃ．，ｃｕｒｒｅｎｔａｄｄｉｔｉｏｎ）；Ｓａｍｂｒｏｏｋ，ｅｔａｌ．，ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ（２ｎｄＥｄｉｔｉｏｎ，１９８９）；ＭｅｔｈｏｄｓＩｎＥｎｚｙｍｏｌｏｇｙ（Ｓ．ＣｏｌｏｗｉｃｋａｎｄＮ．Ｋａｐｌａｎｅｄｓ．，ＡｃａｄｅｍｉｃＰｒｅｓｓ，Ｉｎｃ．）；Ｒｅｍｉｎｇｔｏｎ’ｓＰｈａｒｍａｃｅｕｔｉｃａｌＳｃｉｅｎｃｅｓ，１８ｔｈＥｄｉｔｉｏｎ（Ｅａｓｔｏｎ，Ｐｅｎｎｓｙｌｖａｎｉａ：ＭａｃｋＰｕｂｌｉｓｈｉｎｇＣｏｍｐａｎｙ，１９９０）；ＣａｒｅｙａｎｄＳｕｎｄｂｅｒｇＡｄｖａｎｃｅｄＯｒｇａｎｉｃＣｈｅｍｉｓｔｒｙ３ｒｄＥｄ．（ＰｌｅｎｕｍＰｒｅｓｓ）ＶｏｌｓＡａｎｄＢ（１９９２）を参照されたい。

ＩＩＩ．新生抗原における腫瘍特異的変異の特定
また、ある特定の変異（例えば、がん細胞中に存在する変異またはアレル）の特定のための方法も、本明細書に開示する。特に、これらの変異は、がんを有する対象のがん細胞のゲノム、トランスクリプトーム、プロテオーム、またはエクソーム中に存在し得るが、対象由来の正常組織には存在し得ない。

腫瘍における遺伝子変異は、それらが腫瘍において排他的にタンパク質のアミノ酸配列における変更をもたらす場合、腫瘍の免疫学的ターゲティングに有用と考えることができる。有用な変異は、以下を含む：（１）タンパク質において異なるアミノ酸をもたらす非同義変異；（２）Ｃ末端に新規の腫瘍特異的配列を有する、より長いタンパク質の翻訳をもたらす、終止コドンが修飾されているかまたは欠失しているリードスルー変異；（３）成熟ｍＲＮＡにおけるイントロンの包含、したがってユニークな腫瘍特異的タンパク質配列をもたらす、スプライス部位変異；（４）２種類のタンパク質の接合部に腫瘍特異的配列を有するキメラタンパク質を生じる、染色体再編成（すなわち、遺伝子融合）；（５）新規の腫瘍特異的タンパク質配列を有する新たなオープンリーディングフレームをもたらす、フレームシフト変異または欠失。変異はまた、非フレームシフト挿入欠失、ミスセンスもしくはナンセンス置換、スプライス部位変化、ゲノム再編成もしくは遺伝子融合、または、新生ＯＲＦを生じる任意のゲノム変化もしくは発現変化のうちの１つ以上も含むことができる。

例えば、腫瘍細胞におけるスプライス部位、フレームシフト、リードスルー、または遺伝子融合の変異から生じた、変異を有するペプチドまたは変異したポリペプチドは、腫瘍対正常細胞において、ＤＮＡ、ＲＮＡ、またはタンパク質をシークエンシングすることによって特定することができる。

また、変異は、以前に特定された腫瘍特異的変異を含むことができる。公知の腫瘍変異は、ＣａｔａｌｏｇｕｅｏｆＳｏｍａｔｉｃＭｕｔａｔｉｏｎｓｉｎＣａｎｃｅｒ（ＣＯＳＭＩＣ）データベースで見出すことができる。

様々な方法を、個体のＤＮＡまたはＲＮＡにおいて特定の変異またはアレルの存在を検出するために利用可能である。この分野における進歩は、正確で、容易な、かつ安価な大規模ＳＮＰ遺伝子型判定を提供している。例えば、動的アレル特異的ハイブリダイゼーション（ＤＡＳＨ）、マイクロプレートアレイ対角線ゲル電気泳動（ＭＡＤＧＥ）、パイロシークエンシング、オリゴヌクレオチド特異的ライゲーション、ＴａｑＭａｎシステム、及びＡｆｆｙｍｅｔｒｉｘＳＮＰチップなどの種々のＤＮＡ「チップ」技術を含むいくつかの技法が、記載されている。これらの方法は、典型的にはＰＣＲによる、標的遺伝子領域の増幅を利用する。さらに他の方法は、侵襲性切断による小さなシグナル分子の生成及びその後の質量分析、または、固定化されたパッドロックプローブ及びローリングサークル増幅に基づく。特異的な変異を検出するための、当技術分野において公知の方法のいくつかを、下記に要約する。

ＰＣＲベースの検出手段は、複数のマーカーの多重増幅を同時に含むことができる。例えば、サイズがオーバーラップせず、同時に解析することができるＰＣＲ産物を生成するようにＰＣＲプライマーを選択することが、当技術分野において周知である。あるいは、差次的にラベル化され、したがって、各々を差次的に検出することができるプライマーで異なるマーカーを増幅することが可能である。当然、ハイブリダイゼーションベースの検出手段により、試料における複数のＰＣＲ産物の差次的な検出が可能になる。複数のマーカーの多重解析を可能にする他の技法が、当技術分野において公知である。

いくつかの方法が、ゲノムＤＮＡまたは細胞ＲＮＡにおける単一ヌクレオチド多型の解析を容易にするために開発されている。例えば、一塩基多型は、例えば、Ｍｕｎｄｙ，Ｃ．Ｒ．（米国特許第４，６５６，１２７号）において開示されているような、特化されたエキソヌクレアーゼ抵抗性ヌクレオチドを用いることによって検出することができる。この方法にしたがって、多型部位のすぐ３’のアレル配列に対して相補的なプライマーを、特定の動物またはヒトから取得された標的分子に対してハイブリダイズさせる。標的分子上の多型部位が、存在する特定のエキソヌクレアーゼ抵抗性ヌクレオチド誘導体に対して相補的であるヌクレオチドを含有する場合、その誘導体は、ハイブリダイズされたプライマーの末端上に組み込まれる。そのような組み込みのために、プライマーはエキソヌクレアーゼに対して抵抗性になり、それによってその検出が可能になる。試料のエキソヌクレアーゼ抵抗性誘導体の同一性は既知であるため、プライマーがエキソヌクレアーゼに対して抵抗性になったという知見により、標的分子の多型部位に存在するヌクレオチドが、反応において使用されたヌクレオチド誘導体のものに対して相補的であることが明らかになる。この方法は、多量の外来性配列データの決定を必要としないという利点を有する。

多型部位のヌクレオチドの同一性を決定するために、溶液ベースの方法を使用することができる（Ｃｏｈｅｎ，Ｄ．ｅｔａｌ．（フランス国特許第２，６５０，８４０号；ＰＣＴ出願第ＷＯ９１／０２０８７号）。米国特許第４，６５６，１２７号のＭｕｎｄｙの方法におけるように、多型部位のすぐ３’のアレル配列に対して相補的であるプライマーを使用する。この方法は、多型部位のヌクレオチドに対して相補的である場合は、プライマーの末端上に組み込まれるようになる、ラベル化ジデオキシヌクレオチド誘導体を用いて、その部位のヌクレオチドの同一性を決定する。

ＧｅｎｅｔｉｃＢｉｔＡｎａｌｙｓｉｓまたはＧＢＡとして公知である代替的な方法が、Ｇｏｅｌｅｔ，Ｐ．ｅｔａｌ．（ＰＣＴ出願第９２／１５７１２号）により記載されている。Ｇｏｅｌｅｔ，Ｐ．ｅｔａｌ．の方法は、ラベル化ターミネーターと、多型部位の３’の配列に対して相補的であるプライマーとの混合物を使用する。Ｇｏｅｌｅｔ，Ｐ．ｅｔａｌ．の方法は、ラベル化ターミネーターと、多型部位の３’の配列に対して相補的であるプライマーとの混合物を使用する。Ｃｏｈｅｎｅｔａｌ．（フランス国特許第２，６５０，８４０号；ＰＣＴ出願第ＷＯ９１／０２０８７号）の方法とは対照的に、Ｇｏｅｌｅｔ，Ｐ．ｅｔａｌ．の方法は、プライマーまたは標的分子が固相に固定化される、不均一相アッセイであることができる。

ＤＮＡにおいて多型部位をアッセイするための、いくつかのプライマーガイドヌクレオチド組み込み手順が、記載されている（Ｋｏｍｈｅｒ，Ｊ．Ｓ．ｅｔａｌ．，Ｎｕｃｌ．Ａｃｉｄｓ．Ｒｅｓ．１７：７７７９－７７８４（１９８９）；Ｓｏｋｏｌｏｖ，Ｂ．Ｐ．，Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．１８：３６７１（１９９０）；Ｓｙｖａｎｅｎ，Ａ．－Ｃ．，ｅｔａｌ．，Ｇｅｎｏｍｉｃｓ８：６８４－６９２（１９９０）；Ｋｕｐｐｕｓｗａｍｙ，Ｍ．Ｎ．ｅｔａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．（Ｕ．Ｓ．Ａ．）８８：１１４３－１１４７（１９９１）；Ｐｒｅｚａｎｔ，Ｔ．Ｒ．ｅｔａｌ．，Ｈｕｍ．Ｍｕｔａｔ．１：１５９－１６４（１９９２）；Ｕｇｏｚｚｏｌｉ，Ｌ．ｅｔａｌ．，ＧＡＴＡ９：１０７－１１２（１９９２）；Ｎｙｒｅｎ，Ｐ．ｅｔａｌ．，Ａｎａｌ．Ｂｉｏｃｈｅｍ．２０８：１７１－１７５（１９９３））。これらの方法は、それらが、多型部位で塩基間を識別するためにラベル化デオキシヌクレオチドの組み込みを利用する点で、ＧＢＡとは異なる。そのような形式において、シグナルは、組み込まれたデオキシヌクレオチドの数に比例するため、同じヌクレオチドのランにおいて起こる多型は、ランの長さに比例するシグナルを結果としてもたらすことができる（Ｓｙｖａｎｅｎ，Ａ．－Ｃ．，ｅｔａｌ．，Ａｍｅｒ．Ｊ．Ｈｕｍ．Ｇｅｎｅｔ．５２：４６－５９（１９９３））。

数多くのイニシアティブは、ＤＮＡまたはＲＮＡの何百万もの個々の分子から並行して直接、配列情報を取得する。リアルタイムの単一分子の合成によるシークエンシング技術は、シークエンシングされる鋳型に対して相補的であるＤＮＡの新生鎖の中に組み込まれる際の、蛍光ヌクレオチドの検出に依拠する。１つの方法において、長さが３０～５０塩基のオリゴヌクレオチドを、ガラスのカバーガラスに、５’端で共有結合性に固着させる。これらの固着した鎖は、２つの機能を果たす。第１に、それらは、鋳型が、表面結合オリゴヌクレオチドに対して相補的な捕捉尾部を有して構成されている場合に、標的鋳型鎖の捕捉部位として作用する。それらはまた、配列読み取りの基礎を形成する、鋳型指向性プライマー伸長のためのプライマーとしても作用する。捕捉プライマーは、複数サイクルの合成、検出、及び、色素を除去するための色素－リンカーの化学的切断を用いた、配列決定のための、固定された位置部位として機能する。各サイクルは、ポリメラーゼ／ラベル化ヌクレオチド混合物の添加、リンス、画像化、及び色素の切断からなる。代替的な方法において、ポリメラーゼは、蛍光ドナー分子で修飾されてスライドガラス上に固定化され、他方、各ヌクレオチドは、γ－ホスファートに付着したアクセプター蛍光部分で色分けされている。ヌクレオチドが、新規の鎖の中に組み込まれるようになる際に、システムが、蛍光タグ付加されたポリメラーゼと蛍光修飾されたヌクレオチドとの間の相互作用を検出する。他の合成によるシークエンシング技術もまた、存在する。

任意の適している合成によるシークエンシングプラットフォームを、変異を特定するために使用することができる。上記のように、４種類の主要な合成によるシークエンシングプラットフォームを、現在利用可能である：Ｒｏｃｈｅ／４５４ＬｉｆｅＳｃｉｅｎｃｅｓより販売されるＧｅｎｏｍｅＳｅｑｕｅｎｃｅｒ、Ｉｌｌｕｍｉｎａ／Ｓｏｌｅｘａより販売される１ＧＡｎａｌｙｚｅｒ、ＡｐｐｌｉｅｄＢｉｏＳｙｓｔｅｍｓより販売されるＳＯＬｉＤシステム、及びＨｅｌｉｃｏｓＢｉｏｓｃｉｅｎｃｅより販売されるＨｅｌｉｓｃｏｐｅシステム。合成によるシークエンシングプラットフォームはまた、ＰａｃｉｆｉｃＢｉｏＳｃｉｅｎｃｅｓ及びＶｉｓｉＧｅｎＢｉｏｔｅｃｈｎｏｌｏｇｉｅｓによっても記載されている。いくつかの実施形態において、シークエンシングされる複数の核酸分子は、支持体（例えば、固体支持体）に結合している。核酸を支持体上に固定化するために、捕捉配列／万能プライミング部位を、鋳型の３’端及び／または５’端に付加することができる。核酸は、支持体に共有結合性に付着した相補的配列に対して捕捉配列をハイブリダイズすることによって、支持体に結合させることができる。捕捉配列（万能捕捉配列とも呼ばれる）は、万能プライマーとして二重に働き得る、支持体に付着した配列に対して相補的な核酸配列である。

捕捉配列に対する代替物として、カップリングペア（例えば、抗体／抗原、受容体／リガンド、または、例えば米国特許出願第２００６／０２５２０７７号に記載されているようなアビジン－ビオチンペアなど）のメンバーを、各断片に連結させて、そのカップリングペアのそれぞれの第２のメンバーでコーティングされた表面上に捕捉させることができる。

捕捉に続いて、配列を、例えば、鋳型依存性の合成によるシークエンシングを含む、例えば、実施例及び米国特許第７，２８３，３３７号に記載されているような、単一分子検出／シークエンシングによって解析することができる。合成によるシークエンシングにおいて、表面に結合した分子は、ポリメラーゼの存在下で、複数のラベル化ヌクレオチド三リン酸に曝露される。鋳型の配列は、成長する鎖の３’端の中に組み込まれるラベル化ヌクレオチドの順序によって決定される。これは、リアルタイムで行うことができ、ステップ・アンド・リピートモードで行うことができる。リアルタイム解析のために、各ヌクレオチドに対して異なる光ラベルを組み込むことができ、複数のレーザーを、組み込まれたヌクレオチドの刺激のために利用することができる。

シークエンシングはまた、他の大規模並列処理シークエンシング、または次世代シークエンシング（ＮＧＳ）技法及びプラットフォームも含むことができる。大規模並列処理シークエンシング技法及びプラットフォームの追加的な例は、ＩｌｌｕｍｉｎａＨｉＳｅｑまたはＭｉＳｅｑ、ＴｈｅｒｍｏＰＧＭまたはＰｒｏｔｏｎ、ＰａｃＢｉｏＲＳＩＩまたはＳｅｑｕｅｌ、ＱｉａｇｅｎのＧｅｎｅＲｅａｄｅｒ、及びＯｘｆｏｒｄＮａｎｏｐｏｒｅＭｉｎＩＯＮである。追加的な類似した現在の大規模並列処理シークエンシング技術、及びこれらの技術の将来世代を、使用することができる。

任意の細胞タイプまたは組織を利用して、本明細書に記載した方法における使用のための核酸試料を取得することができる。例えば、ＤＮＡまたはＲＮＡ試料を、腫瘍または体液、例えば、公知の技法（例えば、静脈穿刺）によって取得された血液、もしくは唾液から取得することができる。あるいは、核酸試験を、乾燥試料（例えば、髪または皮膚）に対して行うことができる。加えて、試料を、シークエンシングのために腫瘍から取得することができ、別の試料を、正常組織が腫瘍と同じ組織タイプのものである場合に、シークエンシングのために正常組織から取得することができる。試料を、シークエンシングのために腫瘍から取得することができ、別の試料を、正常試料が腫瘍とは別個の組織タイプのものである場合に、シークエンシングのために正常組織から取得することができる。

腫瘍は、肺癌、黒色腫、乳癌、卵巣癌、前立腺癌、腎臓癌、胃癌、結腸癌、精巣癌、頭頸部癌、膵臓癌、脳癌、Ｂ細胞リンパ腫、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ球性白血病、及びＴ細胞リンパ球性白血病、非小細胞肺癌、及び小細胞肺癌のうちの１つ以上を含むことができる。

あるいは、タンパク質質量分析を使用して、腫瘍細胞上のＭＨＣタンパク質に結合した変異したペプチドの存在を特定または実証することができる。ペプチドは、腫瘍細胞から、または腫瘍から免疫沈降させたＨＬＡ分子から酸溶出することができ、次いで、質量分析を用いて特定することができる。

ＩＶ．新生抗原
新生抗原は、ヌクレオチドまたはポリヌクレオチドを含むことができる。例えば、新生抗原は、ポリペプチド配列をコードするＲＮＡ配列であることができる。したがって、ワクチンにおいて有用な新生抗原は、ヌクレオチド配列またはポリペプチド配列を含むことができる。

本明細書に開示する方法によって特定された腫瘍特異的変異を含む単離されたペプチド、公知の腫瘍特異的変異を含むペプチド、および、本明細書に開示する方法によって特定された変異ポリペプチドまたはその断片を、本明細書に開示する。新生抗原ペプチドは、新生抗原が関連するポリペプチド配列をコードするヌクレオチド配列（例えば、ＤＮＡまたはＲＮＡ）を含む場合に、それらのコード配列の文脈において記載することができる。

新生抗原ヌクレオチド配列によってコードされる１つ以上のポリペプチドは、以下のうちの少なくとも１つを含むことができる：１０００ｎＭ未満のＩＣ５０値でのＭＨＣとの結合親和性、ＭＨＣクラスＩペプチドについてはアミノ酸８～１５個、８、９、１０、１１、１２、１３、１４、または１５個の長さ、プロテアソーム切断を促進するペプチド内またはその近くの配列モチーフの存在、及び、ＴＡＰ輸送を促進する配列モチーフの存在。ＭＨＣクラスＩＩのポリペプチドではアミノ酸６～３０、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、または３０個の長さ、細胞外またはリソソームプロテアーゼ（例えば、カテプシン類）による切断またはＨＬＡ－ＤＭにより触媒されるＨＬＡ結合を促進するペプチド内またはその近くの配列モチーフの存在。

１つ以上の新生抗原は、腫瘍の表面上に存在することができる。

１つ以上の新生抗原は、腫瘍を有する対象において免疫原性であることができ、例えば、対象においてＴ細胞応答またはＢ細胞応答を惹起することができ得る。

対象において自己免疫応答を誘導する１つ以上の新生抗原は、腫瘍を有する対象のためのワクチン生成の文脈において、考察から排除することができる。

少なくとも１つの新生抗原ペプチド分子のサイズは、約５個、約６個、約７個、約８個、約９個、約１０個、約１１個、約１２個、約１３個、約１４個、約１５個、約１６個、約１７個、約１８個、約１９個、約２０個、約２１個、約２２個、約２３個、約２４個、約２５個、約２６個、約２７個、約２８個、約２９個、約３０個、約３１個、約３２個、約３３個、約３４個、約３５個、約３６個、約３７個、約３８個、約３９個、約４０個、約４１個、約４２個、約４３個、約４４個、約４５個、約４６個、約４７個、約４８個、約４９個、約５０個、約６０個、約７０個、約８０個、約９０個、約１００個、約１１０個、約１２０個、またはそれよりも多いアミノ分子残基、及びこれらの範囲から導出される任意の範囲を含むことができるが、それらに限定されない。具体的な実施形態において、新生抗原ペプチド分子は、アミノ酸５０個以下である。

新生抗原ペプチド及びポリペプチドは、ＭＨＣクラスＩについては長さが１５残基以下で、通常約８～約１１残基の間からなり、特に９または１０残基であることができ；ＭＨＣクラスＩＩについては、６～３０残基であることができる。

望ましい場合、より長いペプチドを、いくつかのやり方において設計することができる。１つの例において、ＨＬＡアレル上のペプチドの提示尤度が予測されるかまたは公知である場合、より長いペプチドは、（１）各々の対応する遺伝子産物のＮ末端側及びＣ末端側に向かって２～５アミノ酸の伸長を有する個々の提示されるペプチド；（２）各々について伸長した配列を有する、提示されるペプチドのいくつかまたはすべての連鎖のいずれかからなることができる。別の例において、シークエンシングにより、腫瘍中に存在する長い（１０残基より長い）新生エピトープ配列（例えば、新規のペプチド配列をもたらすフレームシフト、リードスルー、またはイントロンの包含による）が明らかになる場合、より長いペプチドは、（３）新規の腫瘍特異的アミノ酸のストレッチ全体からなることになり、したがって、最強のＨＬＡに提示されるより短いペプチドの計算的なまたはインビトロ試験ベースの選択の必要を回避する。いずれの例においても、より長いペプチドの使用によって、患者細胞による内因性のプロセシングが可能になり、より有効な抗原提示及びＴ細胞応答の誘導がもたらされ得る。

新生抗原ペプチド及びポリペプチドは、ＨＬＡタンパク質上に提示されることができる。いくつかの態様において、新生抗原ペプチド及びポリペプチドは、野生型ペプチドよりも強い親和性でＨＬＡタンパク質上に提示される。いくつかの態様において、新生抗原ペプチドまたはポリペプチドは、少なくとも５０００ｎＭ未満、少なくとも１０００ｎＭ未満、少なくとも５００ｎＭ未満、少なくとも２５０ｎＭ未満、少なくとも２００ｎＭ未満、少なくとも１５０ｎＭ未満、少なくとも１００ｎＭ未満、少なくとも５０ｎＭ未満、またはそれよりも小さいＩＣ５０を有することができる。

いくつかの態様において、新生抗原ペプチド及びポリペプチドは、対象に投与された場合に、自己免疫応答を誘導せず、かつ／または免疫寛容を引き起こさない。

また、少なくとも２種類以上の新生抗原ペプチドを含む組成物も提供する。いくつかの実施形態において、組成物は、少なくとも２種類の異なるペプチドを含有する。少なくとも２種類の異なるペプチドは、同じポリペプチドに由来することができる。異なるポリペプチドとは、ペプチドが、長さ、アミノ酸配列、またはその両方において異なることを意味する。ペプチドは、腫瘍特異的変異を含有することが知られているか、または見出されている任意のポリペプチドに由来する。新生抗原ペプチドが由来することができる、適しているポリペプチドは、例えば、ＣＯＳＭＩＣデータベースにおいて見出すことができる。ＣＯＳＭＩＣは、ヒトがんにおける体細胞性変異についての総合的な情報の管理を行う。ペプチドは、腫瘍特異的変異を含有する。いくつかの態様において、腫瘍特異的変異は、特定のがんタイプについてのドライバー変異である。

望ましい活性または性質を有する新生抗原ペプチド及びポリペプチドは、望ましいＭＨＣ分子に結合して適切なＴ細胞を活性化する非改変ペプチドの生物学的活性を増強するかまたは実質的にそのすべてを少なくとも保持しつつ、特定の望ましい属性、例えば、改善された薬理学的特徴を与えるように改変することができる。例として、新生抗原ペプチド及びポリペプチドを、保存的または非保存的のいずれかの置換などの、種々の改変にさらに供することができ、そのような改変は、改善されたＭＨＣ結合、安定性、または提示などの、それらの使用におけるある特定の利点を提供し得る。保存的置換とは、アミノ酸残基を、生物学的及び／または化学的に類似している別のもので、例えば、１つの疎水性残基を別の疎水性残基、または１つの極性残基を別の極性残基で置き換えることを意味する。置換は、Ｇｌｙ、Ａｌａ；Ｖａｌ、Ｉｌｅ、Ｌｅｕ、Ｍｅｔ；Ａｓｐ、Ｇｌｕ；Ａｓｎ、Ｇｌｎ；Ｓｅｒ、Ｔｈｒ；Ｌｙｓ、Ａｒｇ；及びＰｈｅ、Ｔｙｒなどの組み合わせを含む。単一アミノ酸置換の効果はまた、Ｄ－アミノ酸を用いて探査してもよい。そのような改変は、例えば、Ｍｅｒｒｉｆｉｅｌｄ，Ｓｃｉｅｎｃｅ２３２：３４１－３４７（１９８６），Ｂａｒａｎｙ＆Ｍｅｒｒｉｆｉｅｌｄ，ＴｈｅＰｅｐｔｉｄｅｓ，Ｇｒｏｓｓ＆Ｍｅｉｅｎｈｏｆｅｒ，ｅｄｓ．（Ｎ．Ｙ．，ＡｃａｄｅｍｉｃＰｒｅｓｓ），ｐｐ．１－２８４（１９７９）；及びＳｔｅｗａｒｔ＆Ｙｏｕｎｇ，ＳｏｌｉｄＰｈａｓｅＰｅｐｔｉｄｅＳｙｎｔｈｅｓｉｓ，（Ｒｏｃｋｆｏｒｄ，Ｉｌｌ．，Ｐｉｅｒｃｅ），２ｄＥｄ．（１９８４）に記載されているように、周知のペプチド合成手順を用いて行うことができる。

種々のアミノ酸模倣物または非天然アミノ酸でのペプチド及びポリペプチドの改変は、インビボでのペプチド及びポリペプチドの安定性の向上に特に有用である場合がある。安定性は多くの方法でアッセイすることができる。例として、ペプチダーゼ、ならびに、ヒト血漿及び血清などの種々の生物学的媒質が、安定性を試験するために使用されている。例えば、Ｖｅｒｈｏｅｆｅｔａｌ．，Ｅｕｒ．Ｊ．ＤｒｕｇＭｅｔａｂＰｈａｒｍａｃｏｋｉｎ．１１：２９１－３０２（１９８６）を参照されたい。ペプチドの半減期は、２５％ヒト血清（ｖ／ｖ）アッセイを用いて好都合に決定することができる。プロトコールは、概して以下のようなものである。プールしたヒト血清（ＡＢ型、非熱不活性化）を、使用前に遠心分離によって脱脂する。次いで、血清を、ＲＰＭＩ組織培養培地で２５％に希釈し、ペプチド安定性を試験するために使用する。あらかじめ決定された時間間隔で、少量の反応溶液を取り出して、６％水性トリクロロ酢酸またはエタノールのいずれかに添加する。濁った反応試料を１５分間冷却（４℃）し、次いで、スピンして沈降血清タンパク質を沈殿させる。次いで、ペプチドの存在を、安定性特異的クロマトグラフィー条件を用いた逆相ＨＰＬＣによって決定する。

ペプチド及びポリペプチドを、改善された血清半減期以外の望ましい属性を提供するために修飾することができる。例として、ＣＴＬ活性を誘導するペプチドの能力を、Ｔヘルパー細胞応答を誘導することができる少なくとも１つのエピトープを含有する配列への連結によって増強することができる。免疫原性ペプチド／Ｔヘルパーコンジュゲートは、スペーサー分子によって連結することができる。スペーサーは、典型的には、生理学的条件下で実質的に無電荷である、アミノ酸またはアミノ酸模倣物などの相対的に小さな中性分子から構成される。スペーサーは、典型的には、例えば、Ａｌａ、Ｇｌｙ、または、非極性アミノ酸もしくは中性極性アミノ酸の他の中性スペーサーから選択される。任意で存在するスペーサーは、同じ残基から構成される必要はなく、したがって、ヘテロオリゴマーまたはホモオリゴマーであり得ることが、理解されるであろう。存在する場合、スペーサーは、通常、少なくとも１または２残基、より通常は、３～６残基であろう。あるいは、ペプチドを、スペーサーなしでＴヘルパーペプチドに連結することができる。

新生抗原ペプチドは、ペプチドのアミノ末端またはカルボキシ末端のいずれかで、直接またはスペーサーを介してのいずれかでＴヘルパーペプチドに連結することができる。新生抗原ペプチドまたはＴヘルパーペプチドのいずれかのアミノ末端を、アシル化することができる。例示的なＴヘルパーペプチドは、破傷風毒素の８３０～８４３、インフルエンザの３０７～３１９、マラリアスポロゾイトの周囲３８２～３９８及び３７８～３８９を含む。

タンパク質またはペプチドは、標準的な分子生物学的技法を通したタンパク質、ポリペプチド、もしくはペプチドの発現、天然由来源からのタンパク質もしくはペプチドの単離、またはタンパク質もしくはペプチドの化学合成を含む、当業者に公知の任意の技法によって作製することができる。種々の遺伝子に対応する、ヌクレオチドならびにタンパク質、ポリペプチド及びペプチドの配列は、以前に開示されており、当業者に公知のコンピュータ処理されたデータベースで見出すことができる。１つのそのようなデータベースは、ＮａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅｓｏｆＨｅａｌｔｈのウェブサイトに位置する、ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎのＧｅｎｂａｎｋ及びＧｅｎＰｅｐｔデータベースである。公知の遺伝子のコード領域は、本明細書に開示する技法を用いて、または当業者に公知であるように、増幅及び／または発現させることができる。あるいは、タンパク質、ポリペプチド、及びペプチドの種々の商業的調製物が、当業者に公知である。

さらなる態様において、新生抗原は、新生抗原ペプチドまたはその一部をコードする核酸（例えば、ポリヌクレオチド）を含む。ポリヌクレオチドは、例えば、ＤＮＡ、ｃＤＮＡ、ＰＮＡ、ＣＮＡ、ＲＮＡ（例えば、ｍＲＮＡ）、例えば、ホスホロチオアートバックボーンを有するポリヌクレオチドなどの、ポリヌクレオチドの一本鎖及び／もしくは二本鎖、または天然形態もしくは安定化形態のいずれか、または、それらの組み合わせであることができ、イントロンを含有してもよく、または含有しなくてもよい。またさらなる態様は、ポリペプチドまたはその一部を発現することができる発現ベクターを提供する。様々な細胞タイプ用の発現ベクターが、当技術分野において周知であり、過度の実験なしで選択することができる。概して、ＤＮＡを、プラスミドなどの発現ベクター中に、発現のための適正な方向及び正確なリーディングフレームで挿入する。必要な場合は、ＤＮＡを、望ましい宿主によって認識される適切な転写及び翻訳調節性制御ヌクレオチド配列に連結することができるが、そのような制御は、概して発現ベクターにおいて利用可能である。次いで、ベクターを、標準的な技法を通して宿主中に導入する。手引きは、例えば、Ｓａｍｂｒｏｏｋｅｔａｌ．（１９８９）ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ，ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒ，Ｎ．Ｙ．において見出すことができる。

ＩＶ．ワクチン組成物
また、特異的な免疫応答、例えば、腫瘍特異的な免疫応答を生じることができる免疫原性組成物、例えば、ワクチン組成物も、本明細書に開示する。ワクチン組成物は、典型的に、例えば、本明細書に記載した方法を用いて選択された複数の新生抗原を含む。ワクチン組成物はまた、ワクチンと呼ぶこともできる。

ワクチンは、１～３０種類のペプチド、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、もしくは３０種類の異なるペプチド、６、７、８、９、１０、１１、１２、１３、もしくは１４種類の異なるペプチド、または１２、１３、もしくは１４種類の異なるペプチドを含有することができる。ペプチドは、翻訳後修飾を含むことができる。ワクチンは、１～１００種類もしくはそれよりも多いヌクレオチド配列、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、５１、５２、５３、５４、５５、５６、５７、５８、５９、６０、６１、６２、６３、６４、６５、６６、６７、６８、６９、７０、７１、７２、７３、７４、７５、７６、７７、７８、７９、８０、８１、８２、８３、８４、８５、８６、８７、８８、８９、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９、１００種類もしくはそれよりも多い異なるヌクレオチド配列、６、７、８、９、１０、１１、１２、１３、もしくは１４種類の異なるヌクレオチド配列、または１２、１３、もしくは１４種類の異なるヌクレオチド配列を含有することができる。ワクチンは、１～３０種類の新生抗原配列、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、５１、５２、５３、５４、５５、５６、５７、５８、５９、６０、６１、６２、６３、６４、６５、６６、６７、６８、６９、７０、７１、７２、７３、７４、７５、７６、７７、７８、７９、８０、８１、８２、８３、８４、８５、８６、８７、８８、８９、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９、１００種類もしくはそれよりも多い異なる新生抗原配列、６、７、８、９、１０、１１、１２、１３、もしくは１４種類の異なる新生抗原配列、または１２、１３、もしくは１４種類の異なる新生抗原配列を含有することができる。

一実施形態では、異なるペプチド及び／もしくはポリペプチド、またはそれらをコードするヌクレオチド配列は、ペプチド及び／またはポリペプチドが、異なるＭＨＣクラスＩ分子及び／または異なるＭＨＣクラスＩＩ分子などの異なるＭＨＣ分子と結合することができるように選択される。いくつかの態様において、１つのワクチン組成物は、最も頻繁に存在するＭＨＣクラスＩ分子及び／またはＭＨＣクラスＩＩ分子と結合することができるペプチド及び／またはポリペプチドのコード配列を含む。したがって、ワクチン組成物は、少なくとも２種類の好ましい、少なくとも３種類の好ましい、または少なくとも４種類の好ましいＭＨＣクラスＩ分子及び／またはＭＨＣクラスＩＩ分子と結合することができる異なる断片を含むことができる。

ワクチン組成物は、特異的な細胞傷害性Ｔ細胞応答、及び／または特異的なヘルパーＴ細胞応答を生じることができる。

ワクチン組成物は、アジュバント及び／または担体をさらに含むことができる。有用なアジュバント及び担体の例を、本明細書の下記に示す。組成物は、例えば、タンパク質などの担体、または、例えば、Ｔ細胞に対してペプチドを提示することができる樹状細胞（ＤＣ）などの抗原提示細胞と結合することができる。

アジュバントは、ワクチン組成物中へのその混合が、新生抗原に対する免疫応答を増強させるか、または別の方法で修飾する任意の物質である。担体は、新生抗原がそれに結合することができる足場構造、例えば、ポリペプチドまたは多糖であることができる。任意で、アジュバントは、共有結合性または非共有結合性にコンジュゲートされる。

抗原に対する免疫応答を増強させるアジュバントの能力は、典型的に、免疫媒介性反応の有意なもしくは実質的な増強、または疾患症候の低減によって明示される。例えば、体液性免疫の増強は、典型的に、抗原に対して生じた抗体の力価の有意な上昇によって明示され、Ｔ細胞活性の増強は、典型的に、細胞増殖、または細胞性細胞傷害、またはサイトカイン分泌の増加において明示される。アジュバントはまた、例えば、主として体液性またはＴｈ応答を、主として細胞性またはＴｈ応答へと変更することによって、免疫応答を変化させ得る。

適しているアジュバントは、１０１８ＩＳＳ、アラム、アルミニウム塩、Ａｍｐｌｉｖａｘ、ＡＳ１５、ＢＣＧ、ＣＰ－８７０，８９３、ＣｐＧ７９０９、ＣｙａＡ、ｄＳＬＩＭ、ＧＭ－ＣＳＦ、ＩＣ３０、ＩＣ３１、イミキモド、ＩｍｕＦａｃｔＩＭＰ３２１、ＩＳＰａｔｃｈ、ＩＳＳ、ＩＳＣＯＭＡＴＲＩＸ、ＪｕｖＩｍｍｕｎｅ、ＬｉｐｏＶａｃ、ＭＦ５９、モノホスホリル脂質Ａ、ＭｏｎｔａｎｉｄｅＩＭＳ１３１２、ＭｏｎｔａｎｉｄｅＩＳＡ２０６、ＭｏｎｔａｎｉｄｅＩＳＡ５０Ｖ、ＭｏｎｔａｎｉｄｅＩＳＡ－５１、ＯＫ－４３２、ＯＭ－１７４、ＯＭ－１９７－ＭＰ－ＥＣ、ＯＮＴＡＫ、ＰｅｐＴｅｌベクターシステム、ＰＬＧマイクロ粒子、レシキモド、ＳＲＬ１７２、ビロソーム及び他のウイルス様粒子、ＹＦ－１７Ｄ、ＶＥＧＦトラップ、Ｒ８４８、β－グルカン、Ｐａｍ３Ｃｙｓ、サポニンに由来するＡｑｕｉｌａ’ｓＱＳ２１ｓｔｉｍｕｌｏｎ（ＡｑｕｉｌａＢｉｏｔｅｃｈ、Ｗｏｒｃｅｓｔｅｒ、Ｍａｓｓ．、ＵＳＡ）、マイコバクテリア抽出物及び合成細菌細胞壁模倣物、及びＲｉｂｉ’ｓＤｅｔｏｘ．ＱｕｉｌまたはＳｕｐｅｒｆｏｓなどの他の専売アジュバントを含むが、それらに限定されない。不完全フロインドまたはＧＭ－ＣＳＦなどのアジュバントが、有用である。樹状細胞に特異的ないくつかの免疫学的アジュバント（例えば、ＭＦ５９）及びそれらの調製物が、以前に記載されている（ＤｕｐｕｉｓＭ，ｅｔａｌ．，ＣｅｌｌＩｍｍｕｎｏｌ．１９９８；１８６（１）：１８－２７；ＡｌｌｉｓｏｎＡＣ；ＤｅｖＢｉｏｌＳｔａｎｄ．１９９８；９２：３－１１）。また、サイトカインを使用することもできる。いくつかのサイトカインは、リンパ組織に対する樹状細胞の遊走への影響（例えば、ＴＮＦ－α）、Ｔリンパ球に対する効率的な抗原提示細胞への樹状細胞の成熟の加速化（例えば、ＧＭ－ＣＳＦ、ＩＬ－１、及びＩＬ－４）（具体的にその全体が参照により本明細書に組み入れられる、米国特許第５，８４９，５８９号）、及び免疫アジュバントとしての作用（例えば、ＩＬ－１２）に直接結び付けられている（ＧａｂｒｉｌｏｖｉｃｈＤＩ，ｅｔａｌ．，ＪＩｍｍｕｎｏｔｈｅｒＥｍｐｈａｓｉｓＴｕｍｏｒＩｍｍｕｎｏｌ．１９９６（６）：４１４－４１８）。

ＣｐＧ免疫刺激性オリゴヌクレオチドもまた、ワクチン設定においてアジュバントの効果を増強することが報告されている。ＴＬＲ７、ＴＬＲ８、及び／またはＴＬＲ９に結合するＲＮＡなどの他のＴＬＲ結合分子がまた、使用されてもよい。

有用なアジュバントの他の例は、化学的に修飾されたＣｐＧ（例えば、ＣｐＲ、Ｉｄｅｒａ）、Ｐｏｌｙ（Ｉ：Ｃ）（例えば、ｐｏｌｙｉ：ＣＩ２Ｕ）、非ＣｐＧ細菌ＤＮＡまたはＲＮＡ、ならびに、治療的に及び／またはアジュバントとして作用し得る、シクロホスファミド、スニチニブ、ベバシズマブ、セレブレックス、ＮＣＸ－４０１６、シルデナフィル、タダラフィル、バルデナフィル、ソラフィニブ、ＸＬ－９９９、ＣＰ－５４７６３２、パゾパニブ、ＺＤ２１７１、ＡＺＤ２１７１、イピリムマブ、トレメリムマブ、及びＳＣ５８１７５などの免疫活性小分子及び抗体を含むが、それらに限定されない。アジュバント及び添加物の量及び濃度は、当業者が過度の実験なしで容易に決定することができる。追加的なアジュバントは、顆粒球マクロファージコロニー刺激因子（ＧＭ－ＣＳＦ、サルグラモスチム）などのコロニー刺激因子を含む。

ワクチン組成物は、１種類よりも多い異なるアジュバントを含むことができる。さらに、治療用組成物は、上記の任意またはそれらの組み合わせを含む、任意のアジュバント物質を含むことができる。ワクチン及びアジュバントを、任意の適切な配列において、一緒にまたは別々に投与できることもまた、企図される。

担体（または賦形剤）は、アジュバントから独立して存在することができる。担体の機能は、例えば、活性または免疫原性を増強させるため、安定性を与えるため、生物学的活性を増強させるため、または血清半減期を増大させるために、特に変異体の分子量を増大させることであり得る。さらに、担体は、Ｔ細胞に対してペプチドを提示するのを助けることができる。担体は、当業者に公知の任意の適している担体、例えば、タンパク質または抗原提示細胞であることができる。担体タンパク質は、キーホールリンペットヘモシアニン、トランスフェリンなどの血清タンパク質、ウシ血清アルブミン、ヒト血清アルブミン、サイログロブリンもしくはオボアルブミン、免疫グロブリン、またはインスリンなどのホルモン、またはパルミチン酸であることができるが、それらに限定されない。ヒトの免疫化のためには、担体は概して、ヒトに許容されかつ安全な、生理学的に許容される担体である。しかし、破傷風トキソイド及び／またはジフテリアトキソイドは、適している担体である。あるいは、担体は、デキストラン、例えばセファロースであることができる。

細胞傷害性Ｔ細胞（ＣＴＬ）は、無傷の外来抗原自体よりも、ＭＨＣ分子に結合したペプチドの形態において抗原を認識する。ＭＨＣ分子自体は、抗原提示細胞の細胞表面に位置する。したがって、ＣＴＬの活性化は、ペプチド抗原、ＭＨＣ分子、及びＡＰＣの三量体複合体が存在する場合に可能である。対応して、ペプチドがＣＴＬの活性化のために使用される場合だけではなく、追加的にそれぞれのＭＨＣ分子を有するＡＰＣが添加される場合に、それは免疫応答を増強し得る。したがって、いくつかの実施形態において、ワクチン組成物は、追加的に、少なくとも１つの抗原提示細胞を含有する。

新生抗原はまた、ワクシニア、鶏痘、自己複製アルファウイルス、マラバウイルス、アデノウイルス（例えば、Ｔａｔｓｉｓｅｔａｌ．，Ａｄｅｎｏｖｉｒｕｓｅｓ，ＭｏｌｅｃｕｌａｒＴｈｅｒａｐｙ（２００４）１０，６１６－６２９を参照されたい）、または、第２、第３、もしくはハイブリッド第２／第３世代のレンチウイルス、及び特異的な細胞タイプもしくは受容体を標的とするように設計された任意の世代の組換えレンチウイルスを含むがそれらに限定されないレンチウイルス（例えば、Ｈｕｅｔａｌ．，ＩｍｍｕｎｉｚａｔｉｏｎＤｅｌｉｖｅｒｅｄｂｙＬｅｎｔｉｖｉｒａｌＶｅｃｔｏｒｓｆｏｒＣａｎｃｅｒａｎｄＩｎｆｅｃｔｉｏｕｓＤｉｓｅａｓｅｓ，ＩｍｍｕｎｏｌＲｅｖ．（２０１１）２３９（１）：４５－６１、Ｓａｋｕｍａｅｔａｌ．，Ｌｅｎｔｉｖｉｒａｌｖｅｃｔｏｒｓ：ｂａｓｉｃｔｏｔｒａｎｓｌａｔｉｏｎａｌ，ＢｉｏｃｈｅｍＪ．（２０１２）４４３（３）：６０３－１８、Ｃｏｏｐｅｒｅｔａｌ．，Ｒｅｓｃｕｅｏｆｓｐｌｉｃｉｎｇ－ｍｅｄｉａｔｅｄｉｎｔｒｏｎｌｏｓｓｍａｘｉｍｉｚｅｓｅｘｐｒｅｓｓｉｏｎｉｎｌｅｎｔｉｖｉｒａｌｖｅｃｔｏｒｓｃｏｎｔａｉｎｉｎｇｔｈｅｈｕｍａｎｕｂｉｑｕｉｔｉｎＣｐｒｏｍｏｔｅｒ，Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．（２０１５）４３（１）：６８２－６９０、Ｚｕｆｆｅｒｅｙｅｔａｌ．，Ｓｅｌｆ－ＩｎａｃｔｉｖａｔｉｎｇＬｅｎｔｉｖｉｒｕｓＶｅｃｔｏｒｆｏｒＳａｆｅａｎｄＥｆｆｉｃｉｅｎｔＩｎＶｉｖｏＧｅｎｅＤｅｌｉｖｅｒｙ，Ｊ．Ｖｉｒｏｌ．（１９９８）７２（１２）：９８７３－９８８０を参照されたい）などの、ウイルスベクターベースのワクチンプラットフォームに含めることもできる。上述のウイルスベクターベースのワクチンプラットフォームのパッケージング能力に依存して、このアプローチは、１つ以上の新生抗原ペプチドをコードする１つ以上のヌクレオチド配列を送達することができる。配列は、非変異配列が隣接していてもよく、リンカーによって分離されていてもよく、または、細胞内区画を標的とする１つもしくは複数の配列が先行していてもよい（例えば、Ｇｒｏｓｅｔａｌ．，Ｐｒｏｓｐｅｃｔｉｖｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｎｅｏａｎｔｉｇｅｎ－ｓｐｅｃｉｆｉｃｌｙｍｐｈｏｃｙｔｅｓｉｎｔｈｅｐｅｒｉｐｈｅｒａｌｂｌｏｏｄｏｆｍｅｌａｎｏｍａｐａｔｉｅｎｔｓ，ＮａｔＭｅｄ．（２０１６）２２（４）：４３３－８、Ｓｔｒｏｎｅｎｅｔａｌ．，Ｔａｒｇｅｔｉｎｇｏｆｃａｎｃｅｒｎｅｏａｎｔｉｇｅｎｓｗｉｔｈｄｏｎｏｒ－ｄｅｒｉｖｅｄＴｃｅｌｌｒｅｃｅｐｔｏｒｒｅｐｅｒｔｏｉｒｅｓ，Ｓｃｉｅｎｃｅ．（２０１６）３５２（６２９１）：１３３７－４１、Ｌｕｅｔａｌ．，ＥｆｆｉｃｉｅｎｔｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｍｕｔａｔｅｄｃａｎｃｅｒａｎｔｉｇｅｎｓｒｅｃｏｇｎｉｚｅｄｂｙＴｃｅｌｌｓａｓｓｏｃｉａｔｅｄｗｉｔｈｄｕｒａｂｌｅｔｕｍｏｒｒｅｇｒｅｓｓｉｏｎｓ，ＣｌｉｎＣａｎｃｅｒＲｅｓ．（２０１４）２０（１３）：３４０１－１０を参照されたい）。宿主中への導入時に、感染した細胞は、新生抗原を発現し、それによって、ペプチドに対する宿主免疫（例えば、ＣＴＬ）応答を惹起する。免疫化プロトコールにおいて有用なワクシニアベクター及び方法は、例えば、米国特許第４，７２２，８４８号に記載されている。別のベクターは、ＢＣＧ（カルメット・ゲラン桿菌）である。ＢＣＧベクターは、Ｓｔｏｖｅｒｅｔａｌ．（Ｎａｔｕｒｅ３５１：４５６－４６０（１９９１））に記載されている。新生抗原の治療的投与または免疫化に有用な、多種多様の他のワクチンベクター、例えば、チフス菌（Ｓａｌｍｏｎｅｌｌａｔｙｐｈｉ）ベクターなどが、本明細書における記載から当業者に明らかであろう。

ＩＶ．Ａ．ワクチン設計及び製造のさらなる考慮事項
ＩＶ．Ａ．１．すべての腫瘍サブクローンをカバーするペプチドのセットの決定
すべての、または大部分の腫瘍サブクローンによって提示されるものを意味するトランカルペプチド（ｔｒｕｎｃａｌｐｅｐｔｉｄｅ）が、ワクチン中への包含について優先される^５３。任意で、高い確率で提示されかつ免疫原性であることが予測されるトランカルペプチドがない場合、または、高い確率で提示されかつ免疫原性であることが予測されるトランカルペプチドの数が、追加的な非トランカルペプチドをワクチンに含めることができるほど少ない場合には、腫瘍サブクローンの数及び同一性を推定すること、及びワクチンによってカバーされる腫瘍サブクローンの数を最大化するようにペプチドを選ぶことによって、さらなるペプチドを優先順位付けすることができる^５４。

ＩＶ．Ａ．２．新生抗原の優先順位決定
上記の新生抗原フィルターのすべてを適用した後、ワクチン技術が対応できるよりも多くの新生抗原候補が、依然としてワクチン包含に利用可能である可能性がある。追加的に、新生抗原解析の種々の態様についての不確定度が残っている可能性があり、候補ワクチン新生抗原の様々な性状の間にトレードオフが存在する可能性がある。したがって、選択プロセスの各段階でのあらかじめ決定されたフィルターの代わりに、少なくとも以下の軸を有する空間に新生抗原候補を置き、積分アプローチを用いて選択を最適化する、積分多次元モデルを考えることができる。
１．自己免疫または寛容のリスク（生殖細胞系列のリスク）（典型的には自己免疫のリスクが低い方が好ましい）
２．シークエンシングアーチファクトの確率（典型的にはアーチファクトの確率が低い方が好ましい）
３．免疫原性の確率（典型的には免疫原性の確率が高い方が好ましい）
４．提示の確率（典型的には提示の確率が高い方が好ましい）
５．遺伝子発現（典型的には発現が高い方が好ましい）
６．ＨＬＡ遺伝子のカバレッジ（新生抗原のセットの提示に関与する、より多い数のＨＬＡ分子は、腫瘍が、ＨＬＡ分子の下方制御または変異を介して免疫攻撃を回避する確率を低くする可能性がある）
ＨＬＡクラスのカバレッジ（ＨＬＡ－Ｉ及びＨＬＡ－ＩＩの両方をカバーすることで、治療応答の確率が高まり、腫瘍の免疫回避の確率が低くなる可能性がある）

さらに、場合によっては、新生抗原が患者の腫瘍のすべてまたは一部において喪失するかまたは不活性化されたＨＬＡアレルによって提示されることが予想される場合には、これらの新生抗原のワクチン接種における優先順位を下げる（例えば除外）することができる。ＨＬＡアレルの喪失は、体細胞変異、ヘテロ接合性の喪失、または遺伝子座のホモ接合欠失のいずれかによって生じうる。ＨＬＡアレルの体細胞変異の検出方法は当該技術分野では周知のものである（例えば、Ｓｈｕｋｌａｅｔａｌ．，２０１５）。体細胞ＬＯＨ及びホモ接合欠失（ＨＬＡ遺伝子座を含む）の検出方法についても同様に述べられている（Ｃａｒｔｅｒｅｔａｌ．，２０１２；ＭｃＧｒａｎａｈａｎｅｔａｌ．，２０１７；ＶａｎＬｏｏｅｔａｌ．，２０１０）。

Ｖ．治療方法及び製造方法
本明細書に開示する方法を用いて特定された複数の新生抗原などの１つ以上の新生抗原を対象に投与することにより、対象において腫瘍特異的な免疫応答を誘導し、腫瘍に対するワクチン接種を行い、対象のがんの症状を治療及び／または緩和する方法も提供される。

いくつかの態様において、対象は、がんと診断されているか、またはがんを発症するリスクにある。対象は、ヒト、イヌ、ネコ、ウマ、または、腫瘍特異的な免疫応答が望ましい任意の動物であることができる。腫瘍は、乳、卵巣、前立腺、肺、腎臓、胃、結腸、精巣、頭頸部、膵臓、脳、黒色腫、及び他の組織器官の腫瘍などの、任意の固形腫瘍、ならびに、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ球性白血病、Ｔ細胞リンパ球性白血病、及びＢ細胞リンパ腫を含むリンパ腫及び白血病などの、血液腫瘍であることができる。

新生抗原は、ＣＴＬ応答を誘導するのに十分な量で投与することができる。

新生抗原は、単独で、または他の治療用物質との組み合わせで投与することができる。治療用物質は、例えば、化学療法剤、放射線、または免疫療法である。特定のがんのための任意の適している治療的処置を、施すことができる。

加えて、対象に、チェックポイント阻害因子などの抗免疫抑制性／免疫刺激性物質をさらに投与することができる。例えば、対象に、抗ＣＴＬＡ抗体または抗ＰＤ－１または抗ＰＤ－Ｌ１をさらに投与することができる。抗体によるＣＴＬＡ－４またはＰＤ－Ｌ１の遮断は、患者においてがん性細胞に対する免疫応答を増強することができる。特に、ＣＴＬＡ－４遮断は、ワクチン接種プロトコールを採用した場合に有効であることが示されている。

ワクチン組成物に含まれるべき各新生抗原の最適量、及び最適投薬レジメンを、決定することができる。例えば、新生抗原またはその変異体は、静脈内（ｉ．ｖ．）注射、皮下（ｓ．ｃ．）注射、皮内（ｉ．ｄ．）注射、腹腔内（ｉ．ｐ．）注射、筋肉内（ｉ．ｍ．）注射のために調製することができる。注射の方法は、ｓ．ｃ．、ｉ．ｄ．、ｉ．ｐ．、ｉ．ｍ．、及びｉ．ｖ．を含む。ＤＮＡまたはＲＮＡ注射の方法は、ｉ．ｄ．、ｉ．ｍ．、ｓ．ｃ．、ｉ．ｐ．、及びｉ．ｖ．を含む。ワクチン組成物の投与の他の方法は、当業者に公知である。

ワクチンは、組成物中に存在する新生抗原の選択、数、及び／または量が、組織、がん、及び／または患者に特異的であるように編集することができる。例として、ペプチドの厳密な選択は、所定の組織における親タンパク質の発現パターンによって手引きされ得る。選択は、がんの特異的なタイプ、疾患の状態、より早期の処置レジメン、患者の免疫状態、及び当然、患者のＨＬＡハロタイプに依存し得る。さらに、ワクチンは、特定の患者の個人的な必要にしたがって、個別化された構成要素を含有することができる。例は、特定の患者における新生抗原の発現にしたがって新生抗原の選択を変えること、または、処置の第１のラウンドまたはスキームの後の二次的処置についての調整を含む。

がんのためのワクチンとして使用されるべき組成物について、正常組織において多量に発現している類似した正常な自己ペプチドを有する新生抗原は、本明細書に記載した組成物において、避けられるか、または少量で存在することができる。他方で、患者の腫瘍が、多量のある特定の新生抗原を発現することが公知である場合、このがんの処置のためのそれぞれの薬学的組成物は、多量に存在することができ、及び／または、この特定の新生抗原もしくはこの新生抗原の経路に特異的な１種類よりも多い新生抗原を含めることができる。

新生抗原を含む組成物を、既にがんを患っている個体に投与することができる。治療的適用において、組成物は、腫瘍抗原に対する有効なＣＴＬ応答を惹起し、かつ、症候及び／または合併症を治癒するかまたは少なくとも部分的に停止するのに十分な量で、患者に投与される。これを達成するのに妥当な量を、「治療的有効用量」として定義する。この用途のために有効な量は、例えば、組成物、投与の様式、処置される疾患の病期及び重症度、患者の体重及び健康の全身状態、ならびに処方医の判断に依存するであろう。組成物は、概して、重篤な疾患状態、すなわち、命に関わるか、または潜在的に命に関わる状況、特にがんが転移している場合に使用できることを、心に留めるべきである。そのような例において、外来性物質の最小化、及び新生抗原の相対的な非毒性の性質を考慮して、実質的過剰量のこれらの組成物を投与することが、可能であり、かつ処置する医師が望ましいと感じることができる。

治療用途のために、投与は、腫瘍の検出または外科的除去時に始めることができる。これに、少なくとも症候が実質的に減ずるまで、及びその後ある期間にわたって、ブースト用量が続く。

治療的処置のための薬学的組成物（例えば、ワクチン組成物）は、非経口、局部、経鼻、経口、または局所投与について意図される。薬学的組成物は、非経口的に、例えば、静脈内、皮下、皮内、または筋肉内に投与することができる。組成物は、腫瘍に対する局所免疫応答を誘導するために、外科的切除の部位に投与することができる。新生抗原の溶液を含む非経口投与用の組成物を、本明細書に開示し、ワクチン組成物は、許容される担体、例えば、水性担体に溶解または懸濁される。様々な水性担体、例えば、水、緩衝水、０．９％食塩水、０．３％グリシン、ヒアルロン酸などを使用することができる。これらの組成物は、従来の周知の滅菌技法によって滅菌することができ、または滅菌濾過することができる。結果として生じた水溶液を、そのままで使用のためにパッケージングするか、または凍結乾燥することができ、凍結乾燥調製物は、投与前に滅菌溶液と組み合わされる。組成物は、ｐＨ調整剤及び緩衝剤、等張化剤、湿潤剤など、例えば、酢酸ナトリウム、乳酸ナトリウム、塩化ナトリウム、塩化カリウム、塩化カルシウム、ソルビタンモノラウラート、トリエタノールアミンオレアートなどのような、生理学的条件に近づけるために必要とされる、薬学的に許容される補助物質を含有してもよい。

新生抗原はまた、それらをリンパ組織などの特定の細胞組織にターゲティングする、リポソームを介して投与することもできる。リポソームはまた、半減期を増大させるのにも有用である。リポソームは、エマルジョン、フォーム、ミセル、不溶性単層、液晶、リン脂質分散物、ラメラ層などを含む。これらの調製物において、送達されるべき新生抗原は、単独で、または、ＣＤ４５抗原に結合するモノクローナル抗体などの、例えば、リンパ系細胞の間で優性な受容体に結合する分子、または他の治療用組成物もしくは免疫原性組成物と共に、リポソームの一部として組み込まれる。したがって、所望の新生抗原で満たされたリポソームは、リンパ系細胞の部位へ方向付けられることができ、そこで、リポソームは次いで、選択された治療用／免疫原性組成物を送達する。リポソームは、概して、中性及び負電荷を有するリン脂質、及びコレステロールなどのステロールを含む、標準的な小胞形成脂質から形成され得る。脂質の選択は、概して、例えば、リポソームサイズ、酸不安定性、及び血流におけるリポソームの安定性の考慮により手引きされる。例えば、Ｓｚｏｋａｅｔａｌ．，Ａｎｎ．Ｒｅｖ．Ｂｉｏｐｈｙｓ．Ｂｉｏｅｎｇ．９；４６７（１９８０）、米国特許第４，２３５，８７１号、第４，５０１，７２８号、第４，５０１，７２８号、第４，８３７，０２８号、及び第５，０１９，３６９号に記載されているように、様々な方法を、リポソームを調製するために利用可能である。

免疫細胞へのターゲティングのために、リポソーム中に組み込まれるべきリガンドは、例えば、所望の免疫系細胞の細胞表面決定基に特異的な抗体またはその断片を含むことができる。リポソーム懸濁液は、とりわけ、投与の様式、送達されるペプチド、及び処置される疾患の病期にしたがって変動する用量で、静脈内、局所、局部などに投与することができる。

治療目的または免疫化目的で、本明細書に記載したペプチド、及び任意でペプチドの１つ以上をコードする核酸をまた、患者に投与することもできる。数多くの方法が、核酸を患者に送達するために好都合に使用される。例として、核酸を、「裸のＤＮＡ」として直接送達することができる。このアプローチは、例として、Ｗｏｌｆｆｅｔａｌ．，Ｓｃｉｅｎｃｅ２４７：１４６５－１４６８（１９９０）、ならびに米国特許第５，５８０，８５９号及び第５，５８９，４６６号に記載されている。核酸はまた、例として、米国特許第５，２０４，２５３号に記載されているような弾道送達を用いて投与することもできる。単にＤＮＡからなる粒子を、投与することができる。あるいは、ＤＮＡを、金粒子などの粒子に接着させることができる。核酸配列を送達するためのアプローチは、エレクトロポレーションを伴うかまたは伴わない、ウイルスベクター、ｍＲＮＡベクター、及びＤＮＡベクターを含むことができる。

核酸はまた、カチオン性脂質などのカチオン性化合物に複合体化させて送達することもできる。脂質媒介性遺伝子送達法は、例として、９６１８３７２ＷＯＡＷＯ９６／１８３７２；９３２４６４０ＷＯＡＷＯ９３／２４６４０；Ｍａｎｎｉｎｏ＆Ｇｏｕｌｄ－Ｆｏｇｅｒｉｔｅ，ＢｉｏＴｅｃｈｎｉｑｕｅｓ６（７）：６８２－６９１（１９８８）；米国特許第５，２７９，８３３号Ｒｏｓｅ、米国特許第５，２７９，８３３号；９１０６３０９ＷＯＡＷＯ９１／０６３０９；及びＦｅｌｇｎｅｒｅｔａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ８４：７４１３－７４１４（１９８７）に記載されている。

新生抗原はまた、ワクシニア、鶏痘、自己複製アルファウイルス、マラバウイルス、アデノウイルス（例えば、Ｔａｔｓｉｓｅｔａｌ．，Ａｄｅｎｏｖｉｒｕｓｅｓ，ＭｏｌｅｃｕｌａｒＴｈｅｒａｐｙ（２００４）１０，６１６－６２９を参照されたい）、または、第２、第３、もしくはハイブリッド第２／第３世代のレンチウイルス、及び特異的な細胞タイプもしくは受容体を標的とするように設計された任意の世代の組換えレンチウイルスを含むがそれらに限定されないレンチウイルス（例えば、Ｈｕｅｔａｌ．，ＩｍｍｕｎｉｚａｔｉｏｎＤｅｌｉｖｅｒｅｄｂｙＬｅｎｔｉｖｉｒａｌＶｅｃｔｏｒｓｆｏｒＣａｎｃｅｒａｎｄＩｎｆｅｃｔｉｏｕｓＤｉｓｅａｓｅｓ，ＩｍｍｕｎｏｌＲｅｖ．（２０１１）２３９（１）：４５－６１、Ｓａｋｕｍａｅｔａｌ．，Ｌｅｎｔｉｖｉｒａｌｖｅｃｔｏｒｓ：ｂａｓｉｃｔｏｔｒａｎｓｌａｔｉｏｎａｌ，ＢｉｏｃｈｅｍＪ．（２０１２）４４３（３）：６０３－１８、Ｃｏｏｐｅｒｅｔａｌ．，Ｒｅｓｃｕｅｏｆｓｐｌｉｃｉｎｇ－ｍｅｄｉａｔｅｄｉｎｔｒｏｎｌｏｓｓｍａｘｉｍｉｚｅｓｅｘｐｒｅｓｓｉｏｎｉｎｌｅｎｔｉｖｉｒａｌｖｅｃｔｏｒｓｃｏｎｔａｉｎｉｎｇｔｈｅｈｕｍａｎｕｂｉｑｕｉｔｉｎＣｐｒｏｍｏｔｅｒ，Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．（２０１５）４３（１）：６８２－６９０、Ｚｕｆｆｅｒｅｙｅｔａｌ．，Ｓｅｌｆ－ＩｎａｃｔｉｖａｔｉｎｇＬｅｎｔｉｖｉｒｕｓＶｅｃｔｏｒｆｏｒＳａｆｅａｎｄＥｆｆｉｃｉｅｎｔＩｎＶｉｖｏＧｅｎｅＤｅｌｉｖｅｒｙ，Ｊ．Ｖｉｒｏｌ．（１９９８）７２（１２）：９８７３－９８８０を参照されたい）などの、ウイルスベクターベースのワクチンプラットフォームに含めることもできる。上述のウイルスベクターベースのワクチンプラットフォームのパッケージング能力に依存して、このアプローチは、１つ以上の新生抗原ペプチドをコードする１つ以上のヌクレオチド配列を送達することができる。配列は、非変異配列が隣接していてもよく、リンカーによって分離されていてもよく、または、細胞内区画を標的とする１つもしくは複数の配列が先行していてもよい（例えば、Ｇｒｏｓｅｔａｌ．，Ｐｒｏｓｐｅｃｔｉｖｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｎｅｏａｎｔｉｇｅｎ－ｓｐｅｃｉｆｉｃｌｙｍｐｈｏｃｙｔｅｓｉｎｔｈｅｐｅｒｉｐｈｅｒａｌｂｌｏｏｄｏｆｍｅｌａｎｏｍａｐａｔｉｅｎｔｓ，ＮａｔＭｅｄ．（２０１６）２２（４）：４３３－８、Ｓｔｒｏｎｅｎｅｔａｌ．，Ｔａｒｇｅｔｉｎｇｏｆｃａｎｃｅｒｎｅｏａｎｔｉｇｅｎｓｗｉｔｈｄｏｎｏｒ－ｄｅｒｉｖｅｄＴｃｅｌｌｒｅｃｅｐｔｏｒｒｅｐｅｒｔｏｉｒｅｓ，Ｓｃｉｅｎｃｅ．（２０１６）３５２（６２９１）：１３３７－４１、Ｌｕｅｔａｌ．，ＥｆｆｉｃｉｅｎｔｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｍｕｔａｔｅｄｃａｎｃｅｒａｎｔｉｇｅｎｓｒｅｃｏｇｎｉｚｅｄｂｙＴｃｅｌｌｓａｓｓｏｃｉａｔｅｄｗｉｔｈｄｕｒａｂｌｅｔｕｍｏｒｒｅｇｒｅｓｓｉｏｎｓ，ＣｌｉｎＣａｎｃｅｒＲｅｓ．（２０１４）２０（１３）：３４０１－１０を参照されたい）。宿主中への導入時に、感染した細胞は、新生抗原を発現し、それによって、ペプチドに対する宿主免疫（例えば、ＣＴＬ）応答を惹起する。免疫化プロトコールにおいて有用なワクシニアベクター及び方法は、例えば、米国特許第４，７２２，８４８号に記載されている。別のベクターは、ＢＣＧ（カルメット・ゲラン桿菌）である。ＢＣＧベクターは、Ｓｔｏｖｅｒｅｔａｌ．（Ｎａｔｕｒｅ３５１：４５６－４６０（１９９１））に記載されている。新生抗原の治療的投与または免疫化に有用な、多種多様の他のワクチンベクター、例えば、チフス菌ベクターなどが、本明細書における記載から当業者に明らかであろう。

核酸を投与する手段は、１つ以上のエピトープをコードするミニ遺伝子構築物を使用する。ヒト細胞における発現のための、選択されたＣＴＬエピトープをコードするＤＮＡ配列（ミニ遺伝子）を作製するために、エピトープのアミノ酸配列を逆翻訳する。各アミノ酸に対するコドン選択を手引きするために、ヒトコドン使用頻度表を使用する。これらのエピトープをコードするＤＮＡ配列を、直接隣り合わせて、連続的なポリペプチド配列を作製する。発現及び／または免疫原性を最適化するために、追加の要素を、ミニ遺伝子設計中に組み入れることができる。逆翻訳して、ミニ遺伝子配列に含めることができるアミノ酸配列の例は、ヘルパーＴリンパ球エピトープ、リーダー（シグナル）配列、及び小胞体保持シグナルを含む。加えて、ＣＴＬエピトープのＭＨＣ提示は、ＣＴＬエピトープに近接した合成の（例えば、ポリアラニン）または天然に存在する隣接配列を含むことによって、改善することができる。ミニ遺伝子配列は、ミニ遺伝子のプラス鎖及びマイナス鎖をコードするオリゴヌクレオチドをアセンブルすることによって、ＤＮＡに変換される。オーバーラップするオリゴヌクレオチド（３０～１００塩基長）を、周知の技法を用いて適切な条件下で、合成し、リン酸化し、精製し、アニーリングする。オリゴヌクレオチドの端は、Ｔ４ＤＮＡリガーゼを用いて連結する。ＣＴＬエピトープポリペプチドをコードするこの合成ミニ遺伝子を、次いで、望ましい発現ベクター中にクローニングすることができる。

精製プラスミドＤＮＡは、様々な製剤を用いて、注射のために調製することができる。これらのうちでもっとも単純なものは、滅菌リン酸緩衝食塩水（ＰＢＳ）における凍結乾燥ＤＮＡの再構成である。様々な方法が記載されており、新たな技法が利用可能になり得る。上記で言及したように、核酸は、カチオン性脂質で好都合に製剤化される。加えて、糖脂質、融合性リポソーム、ペプチド、及び保護的、相互作用的、非縮合性（ＰＩＮＣ）と集合的に呼ばれる化合物もまた、精製プラスミドＤＮＡと複合体化させて、安定性、筋肉内分散、または特異的な器官もしくは細胞タイプへの輸送などの変数に影響を及ぼすことができる。

また、本明細書に開示する方法の工程を行うこと；及び、複数の新生抗原または複数の新生抗原のサブセットを含む腫瘍ワクチンを生産する工程を含む、腫瘍ワクチンを製造する方法も、本明細書に開示する。

本明細書に開示する新生抗原は、当技術分野において公知の方法を用いて製造することができる。例えば、本明細書に開示する新生抗原またはベクター（例えば、１つ以上の新生抗原をコードする少なくとも１つの配列を含むベクター）を生産する方法は、新生抗原またはベクターを発現するのに適している条件下で宿主細胞を培養する工程であって、宿主細胞が、新生抗原またはベクターをコードする少なくとも１つのポリヌクレオチドを含む工程、及び、新生抗原またはベクターを精製する工程を含むことができる。標準的な精製法は、クロマトグラフィー技法、電気泳動技法、免疫学的技法、沈降技法、透析技法、濾過技法、濃縮技法、及びクロマトフォーカシング技法を含む。

宿主細胞は、チャイニーズハムスター卵巣（ＣＨＯ）細胞、ＮＳ０細胞、酵母、またはＨＥＫ２９３細胞を含むことができる。宿主細胞は、本明細書に開示する新生抗原またはベクターをコードする少なくとも１つの核酸配列を含む、１つ以上のポリヌクレオチドで形質転換することができ、任意で、単離されたポリヌクレオチドは、新生抗原またはベクターをコードする少なくとも１つの核酸配列に機能的に連結されたプロモーター配列をさらに含む。ある特定の実施形態において、単離されたポリヌクレオチドは、ｃＤＮＡであることができる。

Ｖ．Ａ．ＭＨＣ／ペプチド標的反応性Ｔ細胞及びＴＣＲの同定
Ｔ細胞は、患者の血液、リンパ節、または腫瘍から単離することができる。Ｔ細胞は、例えば、抗原－ＭＨＣテトラマー結合細胞を分取することにより、またはＴ細胞と抗原でパルスした抗原提示細胞とのインビトロ共培養物中で刺激した活性化された細胞を分取することにより、抗原特異的Ｔ細胞について濃縮することができる。抗原ロードテトラマー及び他のＭＨＣベースの試薬をはじめとする、抗原特異的Ｔ細胞の同定のためのさまざまな試薬が当該技術分野で知られている。

抗原関連αβ（またはγδ）ＴＣＲダイマーを、抗原特異的Ｔ細胞のＴＣＲのシングルセルシークエンシングによって同定することができる。また、抗原特異的Ｔ細胞のバルクＴＣＲシークエンシングを行ってもよく、マッチングの確率が高いαβのペアを当該技術分野では周知のＴＣＲペアリング法を用いて決定することができる。

これに代えるかまたはこれに加えて、健康なドナーから得たナイーブＴ細胞のインビトロプライミングによって抗原特異的Ｔ細胞を得ることもできる。ＰＢＭＣ、リンパ節、または臍帯血から得られたＴ細胞を抗原でパルスした抗原提示細胞によって繰り返し刺激することにより、抗原経験Ｔ細胞の分化を開始させることができる。この後、ＴＣＲを患者からの抗原特異的Ｔ細胞について上記に述べたのと同様にして同定することができる。

ＶＩ．新生抗原の特定
ＶＩ．Ａ．新生抗原候補の特定
腫瘍及び正常のエクソーム及びトランスクリプトームのＮＧＳ解析のための研究法を、新生抗原の特定のスペースに記載し、適用している^{６，１４，１５}。下記の例は、臨床設定における新生抗原の特定について、より大きな感度及び特異度のためのある特定の最適化を考慮している。これらの最適化は、実験室プロセスに関連するもの及びＮＧＳデータ解析に関連するものの、２つの区域にグループ化することができる。

ＶＩ．Ａ．１．実験室プロセスの最適化
本明細書に提示したプロセスの改善は、標的とされるがんパネルにおける信頼できるがんドライバー遺伝子の評価について開発された概念^１６を、新生抗原の特定のために必要な全エクソーム設定及び全トランスクリプトーム設定に拡大することによって、低い腫瘍含量及び少ない体積の臨床標本からの高精度の新生抗原の発見における難題に対処する。具体的には、これらの改善は、以下を含む：
１．低い腫瘍含量またはサブクローン状態のいずれかにより、低い変異体アレル頻度で存在する変異を検出するための、腫瘍エクソームにわたる深い（５００ｘよりも大きい）ユニークな平均カバレッジのターゲティング。
２．可能性のある新生抗原の見逃しが最も少ないように、１００ｘ未満でカバーされる塩基が５％未満である、例として、
ａ．個々のプローブＱＣを有するＤＮＡベースの捕捉プローブの使用^１７
ｂ．十分にカバーされていない領域についての追加的なベイトの包含
３．可能性のある新生抗原が体細胞性／生殖細胞系列ステータスについて分類されていないままである（したがってＴＳＮＡとして使用可能ではない）ことが最も少ないように、２０ｘ未満でカバーされる塩基が５％未満である、正常エクソームにわたる均一カバレッジのターゲティング。
４．必要とされるシークエンシングの総量を最小化するために、配列捕捉プローブは、非コードＲＮＡは新生抗原を生じることができないことから、遺伝子のコード領域のみについて設計される。追加的な最適化は、以下を含む：
ａ．ＧＣリッチであり、標準的なエクソームシークエンシングでは十分に捕捉されないＨＬＡ遺伝子についての補充的プローブ^１８。
ｂ．不十分な発現、プロテアソームによる最適に満たない消化、または異例の配列特性などの要因により、新生抗原候補を少ししかまたは全く生成しないと予測される遺伝子の排除。
５．変異検出、遺伝子及びスプライス変異体（「アイソフォーム」）発現の定量、ならびに融合物検出を可能にするために、腫瘍ＲＮＡが同様に、高深度（１００Ｍリードよりも大きい）でシークエンシングされる。ＦＦＰＥ試料由来のＲＮＡは、ＤＮＡにおいてエクソームを捕捉するために使用されるのと同じまたは類似したプローブで、プローブベース濃縮^１９を用いて抽出される。

ＶＩ．Ａ．２．ＮＧＳデータ解析の最適化
解析法の改善は、一般的な研究変異コーリングアプローチの最適に満たない感度及び特異性に対処し、具体的には、臨床設定における新生抗原の特定のために関連するカスタマイズ化を考慮する。これらは、以下を含む：
１．アラインメントのための、ＨＧ３８参照ヒトゲノムまたはより後のバージョンの使用（それが、以前のゲノムリリースとは対照的に、集団多型をより良好に反映する複数のＭＨＣ領域アセンブリーを含有するため）。
２．様々なプログラム^５からの結果をマージすることによる、単一変異コーラー２０の限界の克服。
ａ．単一ヌクレオチド変異及び挿入欠失は、以下を含む一連のツールで、腫瘍ＤＮＡ、腫瘍ＲＮＡ、及び正常ＤＮＡから検出される：Ｓｔｒｅｌｋａ^２１及びＭｕｔｅｃ^ｔ２２などの、腫瘍及び正常ＤＮＡの比較に基づくプログラム；ならびに、低純度の試料において特に有利である^２３、ＵＮＣｅｑＲなどの、腫瘍ＤＮＡ、腫瘍ＲＮＡ、及び正常ＤＮＡを組み入れるプログラム。
ｂ．挿入欠失は、Ｓｔｒｅｌｋａ及びＡＢＲＡ^２４などの、局所リアセンブリーを行うプログラムで決定される。
ｃ．構造的再編成は、Ｐｉｎｄｅｌ^２５またはＢｒｅａｋｓｅｑ^２６などの専用のツールを用いて決定される。
３．試料スワップを検出して阻止するために、同じ患者についての試料由来の変異コールが、選ばれた数の多型部位で比較される。
４．例として、以下による、人工的コールの広範囲のフィルタリングが行われる：
ａ．潜在的に、低いカバレッジの例においては緩やかな検出パラメータで、及び挿入欠失の例においては許容的な近接基準での、正常ＤＮＡにおいて見出される変異の除去。
ｂ．低いマッピング品質または低い塩基品質による変異の除去^２７。
ｃ．たとえ対応する正常において観察されないとしても、再出現するシークエンシングアーチファクトから生じる変異の除去^２７。例は、主として１本の鎖上に検出される変異を含む。
ｄ．無関連の対照のセットにおいて検出される変異の除去^２７。
５．ｓｅｑ２ＨＬＡ^２８、ＡＴＨＬＡＴＥＳ^２９、またはＯｐｔｉｔｙｐｅのうちの１つを使用する、かつまた、エクソーム及びＲＮＡシークエンシングデータを組み合わせる^２８、正常エクソームからの正確なＨＬＡコーリング。追加的な潜在的最適化は、ロングリードＤＮＡシークエンシングなどの、ＨＬＡタイピングのための専用アッセイの採用^３０、または、ＲＮＡ断片を連結して連続性を保持するための方法の適応^３１を含む。
６．腫瘍特異的スプライス変異体から生じた新生ＯＲＦの堅牢な検出は、ＣＬＡＳＳ^３２、Ｂａｙｅｓｅｍｂｌｅｒ^３３、ＳｔｒｉｎｇＴｉｅ^３４、またはそのリファレンスガイドモードにおける類似したプログラム（すなわち、各実験からそれらの全体の転写産物を再作製するように試みるよりもむしろ、公知の転写産物構造を用いる）を用いて、ＲＮＡ－ｓｅｑデータから転写産物をアセンブルすることによって、行われる。Ｃｕｆｆｌｉｎｋｓ^３５が、この目的で一般的に使用されるが、それは頻繁に、信じ難いほど多数のスプライス変異体を産生し、それらの多くは、完全長遺伝子よりもはるかに短く、単純な陽性対照をリカバーすることができない場合がある。コード配列及び潜在的なナンセンス変異依存分解機構は、変異体配列を再導入した、ＳｐｌｉｃｅＲ^３６及びＭＡＭＢＡ^３７などのツールで決定される。遺伝子発現は、Ｃｕｆｆｌｉｎｋｓ^３５またはＥｘｐｒｅｓｓ（ＲｏｂｅｒｔｓａｎｄＰａｃｈｔｅｒ，２０１３）などのツールで決定される。野生型及び変異体特異的な発現カウント及び／または相対レベルは、ＡＳＥ^３８またはＨＴＳｅｑ^３９などの、これらの目的で開発されたツールで決定される。潜在的なフィルタリング段階は、以下を含む：
ａ．不十分に発現されていると考えられる候補新生ＯＲＦの除去。
ｂ．ナンセンス変異依存分解機構（ＮＭＤ）を引き起こすと予測される候補新生ＯＲＦの除去。
７．腫瘍特異的と直接検証することができない、ＲＮＡにおいてのみ観察される新生抗原候補（例えば、新生ＯＲＦ）は、例として以下を考慮することにより、追加的なパラメータにしたがって、腫瘍特異的である可能性が高いとして分類される：
ａ．腫瘍ＤＮＡのみのシス作用性フレームシフトまたはスプライス部位変異の支持の存在。
ｂ．スプライシング因子における腫瘍ＤＮＡのみのトランス作用性変異の確証の存在。例として、Ｒ６２５変異体ＳＦ３Ｂ１での３つの独立して公開された実験において、最も差次的にスプライシングを呈する遺伝子は、１つの実験がブドウ膜黒色腫患者を検討し^４０、第２の実験がブドウ膜黒色腫細胞株を検討し^４１、及び第３の実験が乳がん患者を検討した^４２にもかかわらず、一致していた。
ｃ．新規のスプライシングアイソフォームについては、ＲＮＡＳｅｑデータにおける「新規の」スプライス－ジャンクションリードの確証の存在。
ｄ．新規の再編成については、正常ＤＮＡには存在しない腫瘍ＤＮＡにおけるエクソン近傍リードの確証の存在。
ｅ．ＧＴＥｘ^４３などの遺伝子発現大要からの欠如（すなわち、生殖細胞系列起源の可能性をより低くする）。
８．アラインメント及びアノテーションベースのエラー及びアーチファクトを直接避けるために、アセンブルされたＤＮＡの腫瘍及び正常リード（またはそのようなリード由来のｋマー）を比較することによる、参照ゲノムアラインメントベースの解析の補完（例えば、生殖細胞系列変異またはリピートコンテクスト挿入欠失の近くに生じる体細胞性変異について）。

ポリアデニル化ＲＮＡを有する試料において、ＲＮＡ－ｓｅｑデータにおけるウイルスＲＮＡ及び微生物ＲＮＡの存在は、患者の応答を予測し得る追加的因子の特定に向かって、ＲＮＡＣｏＭＰＡＳＳ４４または類似した方法を用いて評価される。

ＶＩ．Ｂ．ＨＬＡペプチドの単離及び検出
ＨＬＡペプチド分子の単離は、組織試料の溶解及び可溶化後に、古典的な免疫沈降（ＩＰ）法を用いて行った^{５５～５８}。清澄化した溶解物を、ＨＬＡ特異的ＩＰに使用した。

免疫沈降は、抗体がＨＬＡ分子に特異的である、ビーズにカップリングした抗体を用いて行った。汎クラスＩＨＬＡ免疫沈降のためには、汎クラスＩＣＲ抗体を使用し、クラスＩＩＨＬＡ－ＤＲのためには、ＨＬＡ－ＤＲ抗体を使用する。抗体を、一晩インキュベーション中に、ＮＨＳ－セファロースビーズに共有結合で付着させる。共有結合性の付着後、ビーズを洗浄して、ＩＰのために等分した^{５９、６０}。ビーズに共有結合されていない抗体を用いて免疫沈降を行うこともできる。一般的に、これは、抗体をカラムに保持するためにＰｒｏｔｅｉｎＡ及び／またはＰｒｏｔｅｉｎＧでコーティングしたセファロースまたは磁気ビーズを使用して行われる。ＭＨＣ／ペプチド複合体を選択的に濃縮するために使用することができるいくつかの抗体を下記に示す。

清澄化した組織溶解物を、免疫沈降のために抗体ビーズに添加する。免疫沈降後、ビーズを溶解物から除去し、追加的なＩＰを含む追加的な実験のために、溶解物を保存する。標準的な技法を用いて、ＩＰビーズを洗浄して非特異的結合を除去し、ＨＬＡ／ペプチド複合体をビーズから溶出する。分子量スピンカラムまたはＣ１８分画を用いて、タンパク質構成要素をペプチドから除去する。結果として生じたペプチドを、ＳｐｅｅｄＶａｃ蒸発によって乾燥させ、いくつかの場合には、ＭＳ解析の前に－２０℃で保存する。

乾燥したペプチドを、逆相クロマトグラフィーに適しているＨＰＬＣ緩衝液において再構成し、ＦｕｓｉｏｎＬｕｍｏｓ質量分析計（Ｔｈｅｒｍｏ）における勾配溶出のために、Ｃ－１８マイクロキャピラリーＨＰＬＣカラム上にロードする。ペプチド質量／電荷（ｍ／ｚ）のＭＳ１スペクトルを、Ｏｒｂｉｔｒａｐ検出器において高解像度で収集し、その後、ＭＳ２低解像度スキャンを、選択イオンのＨＣＤフラグメンテーション後にイオントラップ検出器において収集した。追加的に、ＭＳ２スペクトルは、ＣＩＤもしくはＥＴＤフラグメンテーション法、または、ペプチドのより大きなアミノ酸カバレッジを獲得するための３つの技法の任意の組み合わせのいずれかを用いて、取得することができる。ＭＳ２スペクトルはまた、Ｏｒｂｉｔｒａｐ検出器において高解像度質量精度で測定することもできる。

各解析由来のＭＳ２スペクトルを、Ｃｏｍｅｔ^{６１、６２}を用いてタンパク質データベースに対して検索し、ペプチド特定を、Ｐｅｒｃｏｌａｔｏｒ^{６３～６５}を用いてスコア化する。ＰＥＡＫＳｓｔｕｄｉｏ（ＢｉｏｉｎｆｏｒｍａｔｉｃｓＳｏｌｕｔｉｏｎｓＩｎｃ．）及び他のサーチエンジンを用いてさらなるシークエンシングを行うか、またはスペクトルマッチング及びデノボシークエンシング^７５を含むシークエンシング法を用いることができる。

ＶＩ．Ｂ．１．総合的ＨＬＡペプチドシークエンシングのためのＭＳ検出限界の研究
ペプチドＹＶＹＶＡＤＶＡＡＫ（ＳＥＱＩＤＮＯ：１）を用いて、何が検出の限界かを、ＬＣカラム上にロードした様々な量のペプチドを用いて決定した。試験したペプチドの量は、１ｐｍｏｌ、１００ｆｍｏｌ、１０ｆｍｏｌ、１ｆｍｏｌ、及び１００ａｍｏｌであった。（表１）結果を図１Ｆに示す。これらの結果は、検出の最低限界（ＬｏＤ）がアトモルの範囲（１０^－１８）にあること、ダイナミックレンジが５桁に及ぶこと、及び、シグナル対ノイズが、低いフェムトモル範囲（１０^－１５）でシークエンシングに十分であるように見えることを示す。

ＶＩＩ．提示モデル
ＶＩＩ．Ａ．システムの概要
図２Ａは、１つの実施形態にしたがう、患者におけるペプチド提示の尤度を特定するための環境１００の概要である。環境１００は、それ自体が提示情報記憶装置１６５を含む提示特定システム１６０を導入するコンテクストを提供する。

提示特定システム１６０は、図１４に関して下記で議論されるようなコンピュータ計算システムにおいて具現化された、１つまたはコンピュータモデルであり、ＭＨＣアレルのセットに関連するペプチド配列を受け取り、ペプチド配列が、関連するＭＨＣアレルのセットの１つ以上によって提示される尤度を決定する。提示特定システム１６０はクラスＩ及びクラスＩＩＭＨＣアレルの両方に適用することができる。これは、様々なコンテクストにおいて有用である。提示特定システム１６０の１つの具体的な用途の例は、患者１１０の腫瘍細胞由来のＭＨＣアレルのセットに関連する新生抗原候補のヌクレオチド配列を受け取り、新生抗原候補が、腫瘍の関連するＭＨＣアレルの１つ以上によって提示され、及び／または患者１１０の免疫系において免疫原性応答を誘導する尤度を決定することができることである。システム１６０によって決定された際に高い尤度を有するそれらの新生抗原候補を、ワクチン１１８における包含のために選択することができ、そのような抗腫瘍免疫応答が、腫瘍細胞を提供する患者１１０の免疫系から惹起され得る。

提示特定システム１６０は、１つ以上の提示モデルを通して提示尤度を決定する。具体的には、提示モデルは、所定のペプチド配列が、関連するＭＨＣアレルのセットについて提示されるかどうかの尤度を生成し、尤度は、記憶装置１６５に保存された提示情報に基づいて生成される。例えば、提示モデルは、ペプチド配列「ＹＶＹＶＡＤＶＡＡＫ（ＳＥＱＩＤＮＯ：１）」が、試料の細胞表面上のアレルのセットＨＬＡ－Ａ＊０２：０１、ＨＬＡ－Ａ＊０３：０１、ＨＬＡ－Ｂ＊０７：０２、ＨＬＡ－Ｂ＊０８：０３、ＨＬＡ－Ｃ＊０１：０４について提示されるかどうかの尤度を生成し得る。提示情報１６５は、ＭＨＣアレルによってペプチドが提示されるようにこれらのペプチドが様々なタイプのＭＨＣアレルに結合するかどうかについての情報を含有し、これは、モデルにおいて、ペプチド配列中のアミノ酸の位置に応じて決定される。提示モデルは、提示情報１６５に基づいて、認識されていないペプチド配列が、ＭＨＣアレルの関連するセットと結合して提示されるかどうかを予測することができる。上記に述べたように、提示モデルはクラスＩ及びクラスＩＩＭＨＣアレルの両方に適用することができる。

ＶＩＩ．Ｂ．提示情報
図２は、１つの実施形態にしたがう、提示情報を取得する方法を説明する。提示情報１６５は、２つの一般的部類の情報：アレル相互作用情報及びアレル非相互作用情報を含む。アレル相互作用情報は、ＭＨＣアレルのタイプに依存する、ペプチド配列の提示に影響を及ぼす情報を含む。アレル非相互作用情報は、ＭＨＣアレルのタイプに非依存的な、ペプチド配列の提示に影響を及ぼす情報を含む。

ＶＩＩ．Ｂ．１．アレル相互作用情報
アレル相互作用情報は、主として、ヒト、マウスなど由来の１つ以上の特定されたＭＨＣ分子によって提示されていることが公知である、特定されたペプチド配列を含む。注目すべきことに、これは、腫瘍試料から取得されたデータを含んでもよく、または含まなくてもよい。提示されたペプチド配列は、単一のＭＨＣアレルを発現する細胞から特定されてもよい。この例において、提示されたペプチド配列は、概して、あらかじめ決定されたＭＨＣアレルを発現するように操作されてその後合成タンパク質に曝露された単一アレル細胞株から収集される。ＭＨＣアレル上に提示されたペプチドは、酸溶出などの技法によって単離され、質量分析により特定される。図２Ｂは、あらかじめ決定されたＭＨＣアレルＨＬＡ－ＤＲＢ１＊１２：０１上に提示された例示的なペプチド

が単離され、質量分析により特定される、この例を示す。この状況においては、ペプチドが、単一のあらかじめ決定されたＭＨＣタンパク質を発現するように操作された細胞を通して特定されるため、提示されたペプチドとそれが結合したＭＨＣタンパク質との間の直接の関連が、決定的に既知である。

提示されたペプチド配列はまた、複数のＭＨＣアレルを発現する細胞から収集されてもよい。典型的にヒトにおいては、６種類の異なるタイプのＭＨＣＩ分子及び最大で１２種類の異なるタイプのＭＨＣＩＩ分子が細胞で発現している。そのような提示されたペプチド配列は、複数のあらかじめ決定されたＭＨＣアレルを発現するように操作されている複数アレル細胞株から特定されてもよい。そのような提示されたペプチド配列はまた、正常組織試料または腫瘍組織試料のいずれかの、組織試料から特定されてもよい。この例において特に、ＭＨＣ分子は、正常組織または腫瘍組織から免疫沈降させることができる。複数のＭＨＣアレル上に提示されたペプチドは、同様に、酸溶出などの技法によって単離され、質量分析により特定されることができる。図２Ｃは、６種類の例示的なペプチド

が、特定されたクラスＩＭＨＣアレルＨＬＡ－Ａ＊０１：０１、ＨＬＡ－Ａ＊０２：０１、ＨＬＡ－Ｂ＊０７：０２、ＨＬＡ－Ｂ＊０８：０１、及びクラスＩＩＭＨＣアレルＨＬＡ－ＤＲＢ１＊１０：０１、ＨＬＡ－ＤＲＢ１：１１：０１上に提示されており、単離され、質量分析により特定される、この例を示す。単一アレル細胞株とは対照的に、結合したペプチドが、特定される前のＭＨＣ分子から単離されるため、提示されたペプチドとそれが結合したＭＨＣタンパク質との間の直接の関連は、未知である可能性がある。

アレル相互作用情報はまた、ペプチド－ＭＨＣ分子複合体の濃度、及びペプチドのイオン化効率の両方に依存する、質量分析イオン電流も含むことができる。イオン化効率は、配列依存性様式で、ペプチドごとに変動する。概して、イオン効率は、およそ２桁にわたってペプチドごとに変動し、他方、ペプチド－ＭＨＣ複合体の濃度は、それよりも大きい範囲にわたって変動する。

アレル相互作用情報はまた、所定のＭＨＣアレルと所定のペプチドとの間の結合親和性の測定値または予測値も含むことができる。１つ以上の親和性モデルが、そのような予測値を生成することができる（７２，７３，７４）。例えば、図１Ｄに示した例に戻ると、提示情報１６５は、ペプチドＹＥＭＦＮＤＫＳＦ（ＳＥＱＩＤＮＯ：３）とクラスＩアレルＨＬＡ－Ａ^＊０１：０１との間の１０００ｎＭの結合親和性予測値を含み得る。ＩＣ５０＞１０００ｎＭであるペプチドは、わずかしかＭＨＣによって提示されず、より低いＩＣ５０値は、提示の確率を高める。提示情報１６５は、ペプチドＫＮＦＬＥＮＦＩＥＳＯＦＩとクラスＩＩアレルＨＬＡ－ＤＲＢ１：１１：０１との間の結合親和性予測値を含み得る。

アレル相互作用情報はまた、ＭＨＣ複合体の安定性の測定値または予測値も含むことができる。１つ以上の安定性モデルが、そのような予測値を生成することができる。より安定なペプチド－ＭＨＣ複合体（すなわち、より長い半減期を有する複合体）は、腫瘍細胞上、及びワクチン抗原に遭遇する抗原提示細胞上に高コピー数で提示される可能性がより高い。例えば、図２Ｃに示した例に戻ると、提示情報１６５は、クラスＩ分子ＨＬＡ－Ａ＊０１：０１について１時間の半減期の安定性予測値を含み得る。提示情報１６５はクラスＩＩ分子ＨＬＡ－ＤＲＢ１：１１：０１の半減期の安定性予測値も含み得る。

アレル相互作用情報はまた、ペプチド－ＭＨＣ複合体の形成反応の、測定されたかまたは予測された速度も含むことができる。より速い速度で形成する複合体は、高濃度で細胞表面上に提示される可能性がより高い。

アレル相互作用情報はまた、ペプチドの配列及び長さも含むことができる。ＭＨＣクラスＩ分子は典型的に、８～１５ペプチドの長さを有するペプチドを提示することを好む。提示されたペプチドの６０～８０％は、長さ９を有する。ＭＨＣクラスＩＩ分子は一般的にペプチド６～３０個の長さを有するペプチドを提示する傾向にある。

アレル相互作用情報はまた、新生抗原によりコードされるペプチド上のキナーゼ配列モチーフの存在、及び新生抗原によりコードされるペプチド上の特異的な翻訳後修飾の有無も含むことができる。キナーゼモチーフの存在は、ＭＨＣ結合を増強または干渉し得る、翻訳後修飾の確率に影響を及ぼす。

アレル相互作用情報はまた、（ＲＮＡｓｅｑ、質量分析、または他の方法によって測定されたかまたは予測された際の）翻訳後修飾のプロセスに関与するタンパク質、例えば、キナーゼの発現または活性レベルも含むことができる。

アレル相互作用情報はまた、質量分析プロテオミクスまたは他の手段によって評価された際の、特定のＭＨＣアレルを発現する他の個体由来の細胞における、類似した配列を有するペプチドの提示の確率も含むことができる。

アレル相互作用情報はまた、問題の個体における特定のＭＨＣアレルの発現レベル（例えば、ＲＮＡ－ｓｅｑまたは質量分析によって測定される）も含むことができる。高レベルで発現しているＭＨＣアレルに最も強く結合するペプチドは、低レベルで発現しているＭＨＣアレルに最も強く結合するペプチドよりも、提示される可能性がより高い。

アレル相互作用情報はまた、特定のＭＨＣアレルを発現する他の個体における、特定のＭＨＣアレルによる提示の、全体的な新生抗原によりコードされるペプチド配列非依存的確率も含むことができる。

アレル相互作用情報はまた、他の個体における同じファミリーの分子（例えば、ＨＬＡ－Ａ、ＨＬＡ－Ｂ、ＨＬＡ－Ｃ、ＨＬＡ－ＤＱ、ＨＬＡ－ＤＲ、ＨＬＡ－ＤＰ）のＭＨＣアレルによる提示の、全体的なペプチド配列に非依存的な確率も含むことができる。例えば、ＨＬＡ－Ｃ分子は典型的に、ＨＬＡ－ＡまたはＨＬＡ－Ｂ分子よりも低いレベルで発現しており、したがって、ＨＬＡ－Ｃによるペプチドの提示は、ＨＬＡ－ＡまたはＨＬＡ－ＢＩＩによる提示よりも先験的に確率が低い。別の例として、ＨＬＡ－ＤＰは一般的にＨＬＡ－ＤＲまたはＨＬＡ－ＤＱよりも低いレベルで発現されることから、ＨＬＡ－ＤＰによるペプチドの提示はＨＬＡ－ＤＲまたはＨＬＡ－ＤＱによる提示よりもより確率が低いものと推測される。

アレル相互作用情報はまた、特定のＭＨＣアレルのタンパク質配列も含むことができる。

下記のセクションに列挙される任意のＭＨＣアレル非相互作用情報もまた、ＭＨＣアレル相互作用情報としてモデル化することができる。

ＶＩＩ．Ｂ．２．アレル非相互作用情報
アレル非相互作用情報は、そのソースタンパク質配列内の、新生抗原によりコードされるペプチドに隣接するＣ末端側配列を含むことができる。ＭＨＣ－Ｉでは、Ｃ末端側隣接配列は、ペプチドのプロテアソームプロセシングに影響を及ぼし得る。しかし、Ｃ末端側隣接配列は、ペプチドが小胞体に輸送され、細胞の表面上のＭＨＣアレルと遭遇する前に、プロテアソームによってペプチドから切断される。その結果、ＭＨＣ分子は、Ｃ末端側隣接配列についてのいかなる情報も受け取らず、したがって、Ｃ末端側隣接配列の効果は、ＭＨＣアレルタイプに応じて変動することができない。例えば、図２Ｃに示した例に戻ると、提示情報１６５は、ペプチドのソースタンパク質から特定された、提示されたペプチドＦＪＩＥＪＦＯＥＳＳ（ＳＥＱＩＤＮＯ：５）のＣ末端側隣接配列

を含み得る。

アレル非相互作用情報はまた、ｍＲＮＡ定量測定値も含むことができる。例えば、ｍＲＮＡ定量データは、質量分析訓練データを提供する同じ試料について取得することができる。図１３Ｇに関して後に記載するように、ＲＮＡ発現は、ペプチド提示の強い予測因子であると特定された。一実施形態では、ｍＲＮＡ定量測定値は、ソフトウェアツールＲＳＥＭから特定される。ＲＳＥＭソフトウェアツールの詳細な実行は、ＢｏＬｉａｎｄＣｏｌｉｎＮ．Ｄｅｗｅｙ．ＲＳＥＭ：ａｃｃｕｒａｔｅｔｒａｎｓｃｒｉｐｔｑｕａｎｔｉｆｉｃａｔｉｏｎｆｒｏｍＲＮＡ－Ｓｅｑｄａｔａｗｉｔｈｏｒｗｉｔｈｏｕｔａｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅ．ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ，１２：３２３，Ａｕｇｕｓｔ２０１１で見出すことができる。一実施形態では、ｍＲＮＡ定量は、１００万個のマップされたリードあたりの転写産物のキロ塩基あたりの断片の単位（ＦＰＫＭ）で測定される。

アレル非相互作用情報はまた、そのソースタンパク質配列内の、ペプチドに隣接するＮ末端側配列も含むことができる。

アレル非相互作用情報はペプチド配列のソース遺伝子も含むことができる。ソース遺伝子はペプチド配列のＥｎｓｅｍｂｌタンパク質ファミリーとして定義することができる。他の例では、ソース遺伝子はペプチド配列のソースＤＮＡまたはソースＲＮＡとして定義することができる。ソース遺伝子は、例えば、タンパク質をコードするヌクレオチドのストリングとして表すか、またはその代わりに、特定のタンパク質をコードしていることが知られている既知のＤＮＡまたはＲＮＡ配列の命名されたセットに基づいてよりカテゴリー化された形で表すことができる。別の例では、アレル非相互作用情報は、ＥｎｓｅｍｂｌまたはＲｅｆＳｅｑのようなデータベースから抽出されたペプチド配列のソース転写産物もしくはアイソフォームまたは潜在的なソース転写産物もしくはアイソフォームのセットも含むことができる。

アレル非相互作用情報はまた、（ＲＮＡ－ｓｅｑまたは質量分析によって測定された際の）任意で、腫瘍細胞における対応するプロテアーゼの発現にしたがって重み付けされる、ペプチドにおけるプロテアーゼ切断モチーフの存在も含むことができる。プロテアーゼ切断モチーフを含有するペプチドは、プロテアーゼによってより容易に分解され、したがって細胞内で安定性がより低いことになるため、提示される可能性がより低い。

アレル非相互作用情報はまた、適切な細胞タイプにおいて測定された際の、ソースタンパク質の代謝回転速度も含むことができる。より速い代謝回転速度（すなわち、より低い半減期）は提示の確率を高めるが、類似していない細胞タイプにおいて測定された場合、この特性の予測力は低い。

アレル非相互作用情報はまた、ＲＮＡ－ｓｅｑもしくはプロテオーム質量分析によって測定された際、または、ＤＮＡもしくはＲＮＡ配列データにおいて検出される生殖細胞系列もしくは体細胞性スプライシング変異のアノテーションから予測された際の、任意で、腫瘍細胞において最も高発現している特異的なスプライス変異体（「アイソフォーム」）を考慮する、ソースタンパク質の長さも含むことができる。

アレル非相互作用情報はまた、（ＲＮＡ－ｓｅｑ、プロテオーム質量分析、または免疫組織化学によって測定され得る）腫瘍細胞におけるプロテアソーム、イムノプロテアソーム、胸腺プロテアソーム、または他のプロテアーゼの発現のレベルも含むことができる。異なるプロテアソームは、異なる切断部位の好みを有する。その発現レベルに比例して、より大きい重みが、プロテアソームの各タイプの切断の好みに与えられる。

アレル非相互作用情報はまた、（例えば、ＲＮＡ－ｓｅｑまたは質量分析によって測定された際の）ペプチドのソース遺伝子の発現も含むことができる。可能な最適化は、腫瘍試料内の間質細胞及び腫瘍浸潤リンパ球の存在を説明する、測定された発現を調整することを含む。より高発現している遺伝子由来のペプチドは、提示される可能性がより高い。検出不可能なレベルの発現を有する遺伝子由来のペプチドは、考察から排除することができる。

アレル非相互作用情報はまた、新生抗原によりコードされるペプチドのソースｍＲＮＡが、ナンセンス変異依存分解機構のモデル、例えば、Ｒｉｖａｓｅｔａｌ，Ｓｃｉｅｎｃｅ２０１５からのモデルによって予測されるようなナンセンス変異依存分解機構に供される確率も含むことができる。

アレル非相互作用情報はまた、細胞周期の種々の段階の最中の、ペプチドのソース遺伝子の典型的な組織特異的発現も含むことができる。（ＲＮＡ－ｓｅｑまたは試料分析プロテオミクスによって測定された際に）全体的に低いレベルで発現しているが、細胞周期の特異的な段階の最中に高レベルで発現していることが公知である遺伝子は、非常に低いレベルで安定に発現している遺伝子よりも、より提示されるペプチドを産生する可能性が高い。

アレル非相互作用情報はまた、例えば、ｕｎｉＰｒｏｔまたはＰＤＢ http://www.rcsb.org/pdb/home/home.doにおいて与えられるような、ソースタンパク質の特性の総合的なカタログも含むことができる。これらの特性は、とりわけ、タンパク質の二次構造及び三次構造、細胞内局在化１１、遺伝子オントロジー（ＧＯ）用語を含み得る。具体的には、この情報は、タンパク質のレベルで作用するアノテーション、例えば、５’ＵＴＲ長、及び特異的残基のレベルで作用するアノテーション、例えば、残基３００～３１０のヘリックスモチーフを含有し得る。これらの特性はまた、ターンモチーフ、シートモチーフ、及び無秩序残基も含むことができる。

アレル非相互作用情報はまた、ペプチドを含有するソースタンパク質のドメインの性状を説明する特性、例えば、二次構造または三次構造（例えば、αヘリックス対βシート）；選択的スプライシングも含むことができる。

アレル非相互作用情報はまた、ペプチドのソースタンパク質におけるペプチドの位置での提示ホットスポットの有無を説明する特性も含むことができる。

アレル非相互作用情報はまた、他の個体における問題のペプチドのソースタンパク質由来のペプチドの提示の確率（それらの個体におけるソースタンパク質の発現レベル、及びそれらの個体の様々なＨＬＡタイプの影響を調整した後）も含むことができる。

アレル非相互作用情報はまた、ペプチドが、技術的バイアスのために質量分析によって検出されないか、または過剰に表される確率も含むことができる。

腫瘍細胞、間質、または腫瘍浸潤リンパ球（ＴＩＬ）の状態について情報を与える、ＲＮＡＳｅｑ、マイクロアレイ、Ｎａｎｏｓｔｒｉｎｇなどの標的化パネルなどの、遺伝子発現アッセイ、または、ＲＴ－ＰＣＲなどのアッセイによって測定される遺伝子モジュールを代表する単一／複数遺伝子によって測定された際の、種々の遺伝子モジュール／経路の発現（ペプチドのソースタンパク質を含有する必要はない）。

アレル非相互作用情報はまた、腫瘍細胞におけるペプチドのソース遺伝子のコピー数も含むことができる。例えば、腫瘍細胞においてホモ接合性欠失に供される遺伝子由来のペプチドは、提示確率＝ゼロを割り当てることができる。

アレル非相互作用情報はまた、ペプチドがＴＡＰに結合する確率、または、測定されたかもしくは予測された、ＴＡＰに対するペプチドの結合親和性も含むことができる。ＴＡＰに結合する可能性がより高いペプチド、またはより高い親和性でＴＡＰに結合するペプチドは、ＭＨＣ－Ｉによって提示される可能性がより高い。

アレル非相互作用情報はまた、（ＲＮＡ－ｓｅｑ、プロテオーム質量分析、免疫組織化学によって測定され得る）腫瘍細胞におけるＴＡＰの発現レベルも含むことができる。ＭＨＣ－Ｉでは、より高いＴＡＰ発現レベルは、すべてのペプチドの提示の確率を高める。

アレル非相互作用情報はまた、以下を含むがそれらに限定されない、腫瘍変異の有無も含むことができる：
ｉ．ＥＧＦＲ、ＫＲＡＳ、ＡＬＫ、ＲＥＴ、ＲＯＳ１、ＴＰ５３、ＣＤＫＮ２Ａ、ＣＤＫＮ２Ｂ、ＮＴＲＫ１、ＮＴＲＫ２、ＮＴＲＫ３などの公知のがんドライバー遺伝子におけるドライバー変異。
ｉｉ．抗原提示機構に関与するタンパク質をコードする遺伝子（例えば、Ｂ２Ｍ、ＨＬＡ－Ａ、ＨＬＡ－Ｂ、ＨＬＡ－Ｃ、ＴＡＰ－１、ＴＡＰ－２、ＴＡＰＢＰ、ＣＡＬＲ、ＣＮＸ、ＥＲＰ５７、ＨＬＡ－ＤＭ、ＨＬＡ－ＤＭＡ、ＨＬＡ－ＤＭＢ、ＨＬＡ－ＤＯ、ＨＬＡ－ＤＯＡ、ＨＬＡ－ＤＯＢＨＬＡ－ＤＰ、ＨＬＡ－ＤＰＡ１、ＨＬＡ－ＤＰＢ１、ＨＬＡ－ＤＱ、ＨＬＡ－ＤＱＡ１、ＨＬＡ－ＤＱＡ２、ＨＬＡ－ＤＱＢ１、ＨＬＡ－ＤＱＢ２、ＨＬＡ－ＤＲ、ＨＬＡ－ＤＲＡ、ＨＬＡ－ＤＲＢ１、ＨＬＡ－ＤＲＢ３、ＨＬＡ－ＤＲＢ４、ＨＬＡ－ＤＲＢ５、または、プロテアソームもしくはイムノプロテアソームの構成要素をコードする遺伝子のいずれか）におけるもの。その提示が、腫瘍において機能喪失変異の影響下にある抗原提示機構の構成要素に依拠するペプチドは、提示の確率が低減している。

以下を含むがそれらに限定されない、機能的生殖細胞系列多型の有無：
ｉ．抗原提示機構に関与するタンパク質をコードする遺伝子（例えば、Ｂ２Ｍ、ＨＬＡ－Ａ、ＨＬＡ－Ｂ、ＨＬＡ－Ｃ、ＴＡＰ－１、ＴＡＰ－２、ＴＡＰＢＰ、ＣＡＬＲ、ＣＮＸ、ＥＲＰ５７、ＨＬＡ－ＤＭ、ＨＬＡ－ＤＭＡ、ＨＬＡ－ＤＭＢ、ＨＬＡ－ＤＯ、ＨＬＡ－ＤＯＡ、ＨＬＡ－ＤＯＢＨＬＡ－ＤＰ、ＨＬＡ－ＤＰＡ１、ＨＬＡ－ＤＰＢ１、ＨＬＡ－ＤＱ、ＨＬＡ－ＤＱＡ１、ＨＬＡ－ＤＱＡ２、ＨＬＡ－ＤＱＢ１、ＨＬＡ－ＤＱＢ２、ＨＬＡ－ＤＲ、ＨＬＡ－ＤＲＡ、ＨＬＡ－ＤＲＢ１、ＨＬＡ－ＤＲＢ３、ＨＬＡ－ＤＲＢ４、ＨＬＡ－ＤＲＢ５、または、プロテアソームもしくはイムノプロテアソームの構成要素をコードする遺伝子のいずれか）におけるもの。

アレル非相互作用情報はまた、腫瘍タイプ（例えば、ＮＳＣＬＣ、黒色腫）も含むことができる。

アレル非相互作用情報はまた、例としてＨＬＡアレル接尾辞によって反映されるような、ＨＬＡアレルの公知の機能性も含むことができる。例えば、アレル名ＨＬＡ－Ａ＊２４：０９ＮにおけるＮの接尾辞は、発現せず、したがってエピトープを提示する可能性が低いヌルアレルを示し；完全なＨＬＡアレル接尾辞の命名法は、https://www.ebi.ac.uk/ipd/imgt/hla/nomenclature/suffixes.htmlに記載されている。

アレル非相互作用情報はまた、臨床的腫瘍サブタイプ（例えば、扁平上皮肺癌対非扁平上皮）も含むことができる。

アレル非相互作用情報はまた、喫煙歴も含むことができる。

アレル非相互作用情報はまた、日焼け、日光曝露、または他の変異原に対する曝露の経歴も含むことができる。

アレル非相互作用情報はまた、任意でドライバー変異によって層別化される、関連性のある腫瘍タイプまたは臨床的サブタイプにおけるペプチドのソース遺伝子の局部的発現も含むことができる。関連性のある腫瘍タイプにおいて典型的に高レベルで発現している遺伝子は、提示される可能性がより高い。

アレル非相互作用情報はまた、すべての腫瘍における、または同じタイプの腫瘍における、または少なくとも１つの共有されたＭＨＣアレルを有する個体由来の腫瘍における、または少なくとも１つの共有されたＭＨＣアレルを有する個体中の同じタイプの腫瘍における、変異の頻度も含むことができる。

変異した腫瘍特異的ペプチドの例において、提示確率を予測するために使用される特性の一覧はまた、変異のアノテーション（例えば、ミスセンス、リードスルー、フレームシフト、融合など）、または、変異がナンセンス変異依存分解機構（ＮＭＤ）を結果としてもたらすと予測されるかどうかも含み得る。例えば、ホモ接合性早期終止変異のために腫瘍細胞において翻訳されないタンパク質セグメント由来のペプチドは、提示確率＝ゼロを割り当てることができる。ＮＭＤは、提示確率を低下させる、ｍＲＮＡ翻訳の減少を結果としてもたらす。

ＶＩＩ．Ｃ．提示特定システム
図３は、１つの実施形態による、提示特定システム１６０のコンピュータ論理構成要素を説明する、ハイレベルブロック図である。この例示的実施形態において、提示特定システム１６０は、データ管理モジュール３１２、エンコーディングモジュール３１４、訓練モジュール３１６、及び予測モジュール３２０を含む。提示特定システム１６０はまた、訓練データ記憶装置１７０及び提示モデル記憶装置１７５から構成される。モデル管理システム１６０のいくつかの実施形態は、本明細書に記載したものとは異なるモジュールを有する。同様に、機能は、本明細書に記載したものは異なる様式で、モジュールの間に分配され得る。

ＶＩＩ．Ｃ．１．データ管理モジュール
データ管理モジュール３１２は、提示情報１６５から訓練データ１７０のセットを生成する。各々の訓練データのセットは、複数のデータインスタンスを含有し、各データインスタンスｉは、少なくとも、提示されるかまたは提示されないペプチド配列ｐ^ｉと、ペプチド配列ｐ^ｉと結合する１つ以上の関連するＭＨＣアレルａ^ｉと、提示特定システム１６０が、独立変数の新たな値を予測することに関与するという情報を表す従属変数ｙ^ｉとを含む、独立変数ｚ^ｉのセットを含有する。

本明細書の残りの部分を通じて言及される１つの特定の実現形態において、従属変数ｙ^ｉは、ペプチドｐ^ｉが１つ以上の関連するＭＨＣアレルａ^ｉによって提示されたかどうかを示す、バイナリーラベルである。しかし、他の実現形態において、従属変数ｙ^ｉは、提示特定システム１６０が、独立変数ｚ^ｉに依存して予測することに関与するという任意の他の種類の情報を表し得ることが、認識される。例えば、別の実現形態において、従属変数ｙ^ｉは、データインスタンスについて特定された質量分析イオン電流を示す数値であってもよい。

データインスタンスｉについてのペプチド配列ｐ^ｉは、ｋ_ｉ個のアミノ酸の配列であり、ｋ_ｉは、データインスタンスｉの間で、ある範囲内で変動し得る。例えば、その範囲は、ＭＨＣクラスＩについては８～１５、またはＭＨＣクラスＩＩについては６～３０であり得る。システム１６０の１つの具体的な実現形態において、訓練データセット中のすべてのペプチド配列ｐ^ｉは、同じ長さ、例えば９を有し得る。ペプチド配列中のアミノ酸の数は、ＭＨＣアレルのタイプ（例えば、ヒトにおけるＭＨＣアレルなど）に応じて変動し得る。データインスタンスｉについてのＭＨＣアレルａ^ｉは、どのＭＨＣアレルが対応するペプチド配列ｐ^ｉと結合して存在したかを示す。

データ管理モジュール３１２はまた、訓練データ１７０に含有されるペプチド配列ｐ^ｉ及び結合したＭＨＣアレルａ^ｉと共に、結合親和性ｂ^ｉ及び安定性ｓ^ｉの予測値などの追加的なアレル相互作用変数も含み得る。例えば、訓練データ１７０は、ペプチドｐ^ｉと、ａ^ｉにおいて示される結合したＭＨＣ分子の各々との間の結合親和性予測値ｂ^ｉを含有し得る。別の例として、訓練データ１７０は、ａ^ｉにおいて示されるＭＨＣアレルの各々についての安定性予測値ｓ^ｉを含有し得る。

データ管理モジュール３１２はまた、ペプチド配列ｐ^ｉと共に、Ｃ末端側隣接配列及びｍＲＮＡ定量測定値などのアレル非相互作用変数ｗ^ｉも含み得る。

データ管理モジュール３１２はまた、ＭＨＣアレルによって提示されないペプチド配列も特定して、訓練データ１７０を生成する。概して、これは、提示の前に、提示されるペプチド配列を含むソースタンパク質の「より長い」配列を特定することを含む。提示情報が、操作された細胞株を含有する場合、データ管理モジュール３１２は、細胞に曝露した合成タンパク質における、細胞のＭＨＣアレル上に提示されなかった一連のペプチド配列を特定する。提示情報が組織試料を含有する場合、データ管理モジュール３１２は、提示されたペプチド配列の起源であるソースタンパク質を特定して、ソースタンパク質における、組織試料細胞のＭＨＣアレル上に提示されなかった一連のペプチド配列を特定する。

データ管理モジュール３１２はまた、ランダムなアミノ酸配列を有するペプチドを人工的に生成し、生成された配列を、ＭＨＣアレル上に提示されないペプチドとして特定する。これは、ペプチド配列をランダムに生成することによって達成することができ、ＭＨＣアレル上に提示されないペプチドについての多量の合成データをデータ管理モジュール３１２が容易に生成することを可能にする。実際には、小さなパーセンテージのペプチド配列はＭＨＣアレルによって提示されるため、合成で生成されたペプチド配列は、たとえそれらが細胞によってプロセシングされたタンパク質に含まれたとしても、ＭＨＣアレルによって提示されない可能性が非常に高い。

図４は、１つの実施形態による、訓練データ１７０Ａの例示的なセットを説明する。具体的には、訓練データ１７０Ａにおける最初の３つのデータインスタンスは、アレルＨＬＡ－Ｃ＊０１：０３を含む単一アレル細胞株、ならびに３種類のペプチド配列

からのペプチド提示情報を示す。訓練データ１７０Ａにおける４番目のデータインスタンスは、アレルＨＬＡ－Ｂ＊０７：０２、ＨＬＡ－Ｃ＊０１：０３、ＨＬＡ－Ａ＊０１：０１を含む複数アレル細胞株、及びペプチド配列ＱＩＥＪＯＥＩＪＥ（ＳＥＱＩＤＮＯ：１３）からのペプチド情報を示す。最初のデータインスタンスは、ペプチド配列ＱＣＥＩＯＷＡＲＥ（ＳＥＱＩＤＮＯ：１０）が、アレルＨＬＡ－ＤＲＢ３：０１：０１によって提示されなかったことを示す。前の２つの段落において議論したように、ネガティブなラベルを付けられれたペプチド配列は、データ管理モジュール３１２によってランダムに生成されてもよいし、提示されるペプチドのソースタンパク質から特定されてもよい。訓練データ１７０Ａはまた、ペプチド配列－アレルのペアについて、１０００ｎＭの結合親和性予測値及び１時間の半減期の安定性予測値も含む。訓練データ１７０Ａはまた、ペプチド

のＣ末端側隣接配列、及び１０^２ＴＰＭのｍＲＮＡ定量測定値などの、アレル非相互作用変数も含む。４番目のデータインスタンスは、ペプチド配列ＱＩＥＪＯＥＩＪＥ（ＳＥＱＩＤＮＯ：１３）が、アレルＨＬＡ－Ｂ＊０７：０２、ＨＬＡ－Ｃ＊０１：０３、またはＨＬＡ－Ａ＊０１：０１のうちの１つによって提示されたことを示す。訓練データ１７０Ａはまた、アレルの各々についての結合親和性予測値及び安定性予測値、ならびに、ペプチドのＣ末端側隣接配列及びペプチドについてのｍＲＮＡ定量測定値も含む。

ＶＩＩ．Ｃ．２．エンコーディングモジュール
エンコーディングモジュール３１４は、訓練データ１７０に含有される情報を、１つ以上の提示モデルを生成するために使用することができる数値的表示へとエンコードする。一実現形態では、エンコーディングモジュール３１４は、配列（例えば、ペプチド配列またはＣ末端側隣接配列）を、あらかじめ決定された２０文字のアミノ酸アルファベットについて、ワンホットでエンコードする。具体的には、ｋ_ｉ個のアミノ酸を有するペプチド配列ｐ^ｉは、２０・ｋ_ｉ要素の行ベクトルとして表され、ペプチド配列のｊ番目の位置のアミノ酸のアルファベットに対応するｐ^ｉ _{２０・（ｊ－１）＋１}，ｐ^ｉ _{２０・（ｊ－１）＋２}，．．．，ｐ^ｉ _２０・ｊの中の単一要素は、１の値を有する。その以外の、残りの要素は、０の値を有する。例として、所定のアルファベット｛Ａ，Ｃ，Ｄ，Ｅ，Ｆ，Ｇ，Ｈ，Ｉ，Ｋ，Ｌ，Ｍ，Ｎ，Ｐ，Ｑ，Ｒ，Ｓ，Ｔ，Ｖ，Ｗ，Ｙ｝について、データインスタンスｉの３個のアミノ酸のペプチド配列ＥＡＦは、６０個の要素の行ベクトル

によって表され得る。Ｃ末端側隣接配列ｃ^ｉ、ならびに、ＭＨＣアレルについてのタンパク質配列ｄ_ｈ、及び提示情報における他の配列データは、同様に、上記のようにエンコードすることができる。

訓練データ１７０が、異なる長さのアミノ酸の配列を含有する場合、エンコーディングモジュール３１４は、さらに、あらかじめ決定されたアルファベットを拡張するようにＰＡＤ文字を追加することによって、ペプチドを同等の長さのベクトルへとエンコードし得る。例えば、これは、ペプチド配列の長さが、訓練データ１７０において最大の長さを有するペプチド配列に達するまで、ペプチド配列をＰＡＤ文字でレフトパディングすることによって行われ得る。したがって、最大の長さを有するペプチド配列がｋ_最大個のアミノ酸を有する場合、エンコーディングモジュール３１４は、各配列を、（２０＋１）・ｋ_最大個の要素の行ベクトルとして数値的に表す。例として、拡張されたアルファベット｛ＰＡＤ，Ａ，Ｃ，Ｄ，Ｅ，Ｆ，Ｇ，Ｈ，Ｉ，Ｋ，Ｌ，Ｍ，Ｎ，Ｐ，Ｑ，Ｒ，Ｓ，Ｔ，Ｖ，Ｗ，Ｙ｝及びｋ_最大＝５の最大アミノ酸長について、３個のアミノ酸の同じ例示的なペプチド配列ＥＡＦは、１０５要素の行ベクトル

によって表され得る。Ｃ末端側隣接配列ｃ^ｉまたは他の配列データは、同様に、上記のようにエンコードすることができる。したがって、ペプチド配列ｐ^ｉまたはｃ^ｉにおける各々の独立変数または列は、配列の特定の位置の特定のアミノ酸の存在を表す。

配列データをエンコードする上記の方法は、アミノ酸配列を有する配列に関して記載したが、方法を、同様に、例えば、ＤＮＡまたはＲＮＡの配列データなどの、他のタイプの配列データに拡張することができる。

エンコーディングモジュール３１４はまた、データインスタンスｉについての１つ以上のＭＨＣアレルａ^ｉを、ｍ要素の行ベクトルへとエンコードし、各要素ｈ＝１，２，．．．，ｍは、ユニークな特定されたＭＨＣアレルに対応する。データインスタンスｉについて特定されたＭＨＣアレルに対応する要素は、１の値を有する。その以外の、残りの要素は、０の値を有する。例として、ｍ＝４のユニークな特定されたＭＨＣアレルタイプ｛ＨＬＡ－Ａ＊０１：０１，ＨＬＡ－Ｃ＊０１：０８，ＨＬＡ－Ｂ＊０７：０２，ＨＬＡ－ＤＲＢ１＊１０：０１｝の中の、複数アレル細胞株に対応するデータインスタンスｉについてのアレルＨＬＡ－Ｂ＊０７：０２及びＨＬＡ－ＤＲＢ１＊１０：０１は、４要素の行ベクトルａ^ｉ＝［００１１］によって表され得、ａ_３ ^ｉ＝１及びａ_４ ^ｉ＝１である。４種類の特定されたＭＨＣアレルタイプでの例を、本明細書に記載するが、ＭＨＣアレルタイプの数は、実際には数百または数千であることができる。上記で述べたように、各データインスタンスｉは、典型的に、ペプチド配列ｐ_ｉに関連して最大で６種類の異なるＭＨＣクラスＩアレルタイプを、及び／またはペプチド配列ｐ_ｉに関連して最大で４種類の異なるＭＨＣクラスＩＩＤＲアレルタイプを、及び／またはペプチド配列ｐ_ｉに関連して最大で１２種類の異なるＭＨＣクラスＩＩアレルタイプを含む。

エンコーディングモジュール３１４はまた、各データインスタンスｉについてのラベルｙ_ｉを、｛０，１｝のセットからの値を有するバイナリー変数としてエンコードし、１の値は、ペプチドｘ^ｉが、関連するＭＨＣアレルａ^ｉのうちの１つによって提示されたことを示し、０の値は、ペプチドｘ^ｉが、関連するＭＨＣアレルａ^ｉのいずれによっても提示されなかったことを示す。従属変数ｙ_ｉが、質量分析イオン電流を表す場合、エンコーディングモジュール３１４は、［０，∞］の間のイオン電流値について［－∞，∞］の範囲を有するｌｏｇ関数などの種々の関数を用いて、値を追加的にスケール調整し得る。

エンコーディングモジュール３１４は、ペプチドｐ_ｉ及び関連するＭＨＣアレルｈについてのアレル相互作用変数ｘ_ｈ ^ｉのペアを、アレル相互作用変数の数値的表示が次々に連結されている行ベクトルとして表し得る。例えば、エンコーディングモジュール３１４は、ｘ_ｈ ^ｉを、［ｐ^ｉ］、［ｐ^ｉｂ_ｈ ^ｉ］、［ｐ^ｉｓ_ｈ ^ｉ］、または［ｐ^ｉｂ_ｈ ^ｉｓ_ｈ ^ｉ］と同等の行ベクトルとして表し得、ｂ_ｈ ^ｉは、ペプチドｐｉ及び関連するＭＨＣアレルｈについての結合親和性予測値であり、同様に、ｓ_ｈ ^ｉは、安定性についてのものである。あるいは、アレル相互作用変数の１つ以上の組み合わせは、個々に（例えば、個々のベクトルまたは行列として）保存されてもよい。

１つの例において、エンコーディングモジュール３１４は、結合親和性について測定されたかまたは予測された値をアレル相互作用変数ｘ_ｈ ^ｉに組み入れることによって、結合親和性情報を表す。

１つの例において、エンコーディングモジュール３１４は、結合安定性について測定されたかまたは予測された値をアレル相互作用変数ｘ_ｈ ^ｉに組み入れることによって、結合安定性情報を表す。

１つの例において、エンコーディングモジュール３１４は、結合オンレートについて測定されたかまたは予測された値をアレル相互作用変数ｘ_ｈ ^ｉに組み入れることによって、結合オンレート情報を表す。

１つの例において、クラスＩＭＨＣ分子によって提示されるペプチドについて、エンコーディングモジュール３１４はペプチド長をベクトル

（ここで、

は指標関数であり、Ｌ_ｋはペプチドｐ_ｋの長さを意味する）として表す。ベクトルＴ_ｋを、アレル相互作用変数ｘ_ｈ ^ｉに含めることができる。別の例では、クラスＩＩのＭＨＣ分子によって提示されるペプチドについて、エンコーディングモジュール３１４はペプチド長をベクトル

（ここで、

は指標関数であり、Ｌ_ｋはペプチドｐ_ｋの長さを意味する）として表す。ベクトルＴ_ｋを、アレル相互作用変数ｘ_ｈ ^ｉに含めることができる。

１つの例において、エンコーディングモジュール３１４は、ＭＨＣアレルのＲＮＡ－ｓｅｑベースの発現レベルをアレル相互作用変数ｘｈｉに組み入れることによって、ＭＨＣアレルのＲＮＡ発現情報を表す。

同様に、エンコーディングモジュール３１４は、アレル非相互作用変数ｗ^ｉを、アレル非相互作用変数の数値的表示が次々に連鎖している行ベクトルとして表し得る。例えば、ｗ^ｉは、［ｃ^ｉ］または［ｃ^ｉｍ^ｉｗ^ｉ］と同等の行ベクトルであってもよく、ｗ_ｉは、ペプチドｐｉのＣ末端側隣接配列及びペプチドに関連するｍＲＮＡ定量測定値ｍ^ｉに加えて任意の他のアレル非相互作用変数を表す、行ベクトルである。あるいは、アレル非相互作用変数の１つ以上の組み合わせは、個々に（例えば、個々のベクトルまたは行列として）保存されてもよい。

１つの例において、エンコーディングモジュール３１４は、代謝回転速度または半減期をアレル非相互作用変数ｗ^ｉに組み入れることによって、ペプチド配列についてのソースタンパク質の代謝回転速度を表す。

１つの例において、エンコーディングモジュール３１４は、タンパク質長をアレル非相互作用変数ｗ^ｉに組み入れることによって、ソースタンパク質またはアイソフォームの長さを表す。

１つの例において、エンコーディングモジュール３１４は、β１_ｉ、β２_ｉ、β５_ｉサブユニットを含むイムノプロテアソーム特異的プロテアソームサブユニットの平均発現を、アレル非相互作用変数ｗ^ｉに組み入れることによって、イムノプロテアソームの活性化を表す。

１つの例において、エンコーディングモジュール３１４は、（ＲＳＥＭなどの技法によってＦＰＫＭ、ＴＰＭの単位で定量された）ペプチド、またはペプチドの遺伝子もしくは転写産物のソースタンパク質のＲＮＡ－ｓｅｑ存在量を、ソースタンパク質の存在量をアレル非相互作用変数ｗ^ｉに組み入れることによって表す。

１つの例において、エンコーディングモジュール３１４は、例えば、Ｒｉｖａｓｅｔ．ａｌ．Ｓｃｉｅｎｃｅ，２０１５におけるモデルによって推定されるような、ペプチドの起源の転写産物がナンセンス変異依存分解機構（ＮＭＤ）を受ける確率を、この確率をアレル非相互作用変数ｗ^ｉに組み入れることによって表す。

１つの例において、エンコーディングモジュール３１４は、ＲＮＡ－ｓｅｑを介して評価された遺伝子モジュールまたは経路の活性化状況を、例えば、経路における遺伝子の各々について、例えばＲＳＥＭを用いてＴＰＭの単位で、経路における遺伝子の発現を定量すること、次いで、経路における遺伝子にわたる要約統計量、例えば平均値をコンピュータ計算することによって表す。平均を、アレル非相互作用変数ｗ^ｉに組み入れることができる。

１つの例において、エンコーディングモジュール３１４は、ソース遺伝子のコピー数を、コピー数をアレル非相互作用変数ｗ^ｉに組み入れることによって表す。

１つの例において、エンコーディングモジュール３１４は、（例えば、ナノモル単位での）測定されたかまたは予測されたＴＡＰ結合親和性をアレル非相互作用変数ｗ^ｉに含むことによって、ＴＡＰ結合親和性を表す。

１つの例において、エンコーディングモジュール３１４は、ＲＮＡ－ｓｅｑによって測定され（かつ、例えばＲＳＥＭによってＴＰＭの単位で定量された）ＴＡＰ発現レベルをアレル非相互作用変数ｗ^ｉに含むことによって、ＴＡＰ発現レベルを表す。

１つの例において、エンコーディングモジュール３１４は、腫瘍変異を、アレル非相互作用変数ｗ^ｉにおける指標変数のベクトル（すなわち、ペプチドｐ^ｋがＫＲＡＳＧ１２Ｄ変異を有する試料に由来するならばｄ^ｋ＝１、それ以外は０）として表す。

１つの例において、エンコーディングモジュール３１４は、抗原提示遺伝子における生殖細胞系列多型を、指標変数のベクトル（すなわち、ペプチドｐ^ｋがＴＡＰにおいて特異的な生殖細胞系列多型を有する試料に由来するならばｄ^ｋ＝１）として表す。
これらの指標変数を、アレル非相互作用変数ｗ^ｉに含めることができる。

１つの例において、エンコーディングモジュール３１４は、腫瘍タイプを、腫瘍タイプ（例えば、ＮＳＣＬＣ、黒色腫、大腸癌など）のアルファベットについての長さ１のワンホットエンコードされたベクトルとして表す。これらのワンホットエンコードされた変数を、アレル非相互作用変数ｗ^ｉに含めることができる。

１つの例において、エンコーディングモジュール３１４は、ＭＨＣアレル接尾辞を、４桁のＨＬＡアレルを様々な接尾辞で処理することによって表す。例えば、ＨＬＡ－Ａ＊２４：０９Ｎは、モデルの目的で、ＨＬＡ－Ａ＊２４：０９とは異なるアレルと考えられる。あるいは、Ｎ接尾辞で終わるＨＬＡアレルは発現しないため、Ｎ接尾辞のＭＨＣアレルによる提示の確率は、すべてのペプチドについてゼロに設定することができる。

１つの例において、エンコーディングモジュール３１４は、腫瘍サブタイプを、腫瘍サブタイプ（例えば、肺腺癌、肺扁平上皮細胞癌など）のアルファベットについての長さ１のワンホットエンコードされたベクトルとして表す。これらのワンホットエンコードされた変数を、アレル非相互作用変数ｗ^ｉに含めることができる。

１つの例において、エンコーディングモジュール３１４は、喫煙歴を、アレル非相互作用変数ｗ^ｉに含めることができる、バイナリー指標変数（患者が喫煙歴を有するならばｄ^ｋ＝１、それ以外は０）として表す。あるいは、喫煙歴を、喫煙の重症度のアルファベットについての長さ１のワンホットエンコードされた変数としてエンコードすることができる。例えば、喫煙状況を、１が非喫煙者を示し、５が現在の大量喫煙者を示す、１～５のスケールに査定することができる。喫煙歴は、主として肺腫瘍と関連性があるため、複数の腫瘍タイプに対するモデルを訓練する場合、この変数は、患者が喫煙の経歴を有し、かつ腫瘍タイプが肺腫瘍であるならば１と同等であり、それ以外はゼロであると定義することもできる。

１つの例において、エンコーディングモジュール３１４は、日焼け歴を、アレル非相互作用変数ｗ^ｉに含めることができる、バイナリー指標変数（患者が重症の日焼けの経歴を有するならばｄ^ｋ＝１、それ以外は０）として表す。重症の日焼けは、主として黒色腫と関連性があるため、複数の腫瘍タイプに対するモデルを訓練する場合、この変数は、患者が重症の日焼けの経歴を有し、かつ腫瘍タイプが黒色腫であるならば１と同等であり、それ以外はゼロであると定義することもできる。

１つの例において、エンコーディングモジュール３１４は、ヒトゲノムにおける各遺伝子または転写産物についての特定の遺伝子または転写産物の発現レベルの分布を、ＴＣＧＡなどの参照データベースを用いることによって、発現レベルの分布の要約統計量（例えば、平均値、中央値）として表す。具体的には、腫瘍タイプ黒色腫を有する試料におけるペプチドｐ^ｋについて、ペプチドｐ^ｋの起源の遺伝子または転写産物の、測定された遺伝子または転写産物の発現レベルをアレル非相互作用変数ｗ^ｉに含むことができるだけでなく、ＴＣＧＡによって測定された際の、黒色腫におけるペプチドｐ^ｋの起源の遺伝子または転写産物の、平均値及び／または中央値の遺伝子または転写産物発現も含むことができる。

１つの例において、エンコーディングモジュール３１４は、変異タイプを、変異タイプ（例えば、ミスセンス、フレームシフト、ＮＭＤ誘導性など）のアルファベットについての長さ１のワンホットエンコードされた変数として表す。これらのワンホットエンコードされた変数を、アレル非相互作用変数ｗ^ｉに含めることができる。

１つの例において、エンコーディングモジュール３１４は、タンパク質のタンパク質レベルの特性を、ソースタンパク質のアノテーション（例えば、５’ＵＴＲ長）の値として、アレル非相互作用変数ｗ^ｉにおいて表す。別の例において、エンコーディングモジュール３１４は、ペプチドｐⁱについてのソースタンパク質の残基レベルのアノテーションを、ペプチドｐⁱがヘリックスモチーフとオーバーラップするならば１と同等であり、それ以外は０であるか、または、ペプチドｐⁱがヘリックスモチーフ内に完全に含有されるならば１と同等である指標変数を、アレル非相互作用変数ｗｉに含むことによって表す。別の例において、ヘリックスモチーフアノテーション内に含有されるペプチドｐⁱにおける残基の割合を表す特性を、アレル非相互作用変数ｗ^ｉに含めることができる。

１つの例において、エンコーディングモジュール３１４は、ヒトプロテオームにおけるタンパク質またはアイソフォームのタイプを、ヒトプロテオームにおけるタンパク質またはアイソフォームの数と同等の長さを有する指標ベクトルｏ^ｋとして表し、対応する要素ｏ^ｋ _ｉは、ペプチドｐ^ｋがタンパク質ｉに由来するならば１であり、それ以外は０である。

１つの例において、エンコーディングモジュール３１４は、ペプチドｐ^ｉのソース遺伝子Ｇ＝ｇｅｎｅ（ｐ^ｉ）をＬ個の可能なカテゴリーを有するカテゴリー変数として表す（ただし、Ｌは添え字を付したソース遺伝子の数の上限１，２，．．．，Ｌを示す）。

エンコーディングモジュール３１４はまた、ペプチドｐ^ｉ及び関連するＭＨＣアレルｈについての変数ｚ^ｉの全体的なセットを、アレル相互作用変数ｘ^ｉ及びアレル非相互作用変数ｗ^ｉの数値的表示が次々に連鎖している行ベクトルとしても表し得る。例えば、エンコーディングモジュール３１４は、ｚ_ｈ ^ｉを、［ｘ_ｈ ^ｉｗ^ｉ］または［ｗ_ｉｘ_ｈ ^ｉ］と同等の行ベクトルとして表し得る。

ＶＩＩＩ．訓練モジュール
訓練モジュール３１６は、ペプチド配列に関連するＭＨＣアレルによってペプチド配列が提示されるかどうかの尤度を生成する、１つ以上の提示モデルを構築する。具体的には、ペプチド配列ｐ^ｋ及びペプチド配列ｐ_ｋに関連するＭＨＣアレルａ^ｋのセットを与えられ、各提示モデルは、ペプチド配列ｐ^ｋが、関連するＭＨＣアレルａ^ｋのうちの１つ以上によって提示される尤度を示す、推定値ｕ_ｋを生成する。

ＶＩＩＩ．Ａ．概要
訓練モジュール３１６は、１６５に保存された提示情報から生成された、記憶装置１７０に保存された訓練データセットに基づいて、１つ以上の提示モデルを構築する。概して、提示モデルの具体的なタイプに関わらず、提示モデルのすべては、損失関数が最小化されるように、訓練データ１７０における独立変数と従属変数との間の依存性を捕捉する。具体的には、損失関数（ｙ_ｉ∈Ｓ，ｕ_ｉ∈Ｓ；θ）は、訓練データ１７０における１つ以上のデータインスタンスＳについての従属変数ｙ_ｉ∈Ｓの値と、提示モデルによって生成されたデータインスタンスＳについての推定された尤度ｕ_ｉ∈Ｓとの間の矛盾を表す。本明細書の残りの部分を通じて言及される１つの特定の実現形態において、損失関数（ｙ_ｉ∈Ｓ，ｕ_ｉ∈Ｓ；θ）は、以下の等式（１ａ）によって与えられる負のｌｏｇ尤度関数である。

しかし、実際には、別の損失関数が使用されてもよい。例えば、質量分析イオン電流について予測がなされる場合、損失関数は、以下の等式１ｂによって与えられる平均二乗損失である。

提示モデルは、１つまたは複数のパラメータθが、独立変数と従属変数との間の依存性を数学的に明記する、パラメトリックモデルであり得る。典型的に、損失関数（ｙ_ｉ∈Ｓ，ｕ_ｉ∈Ｓ；θ）を最小化するパラメトリックタイプの提示モデルの種々のパラメータは、例えば、バッチ勾配アルゴリズム、確率的勾配アルゴリズムなどの、勾配ベースの数値的最適化アルゴリズムを通して決定される。あるいは、提示モデルは、モデル構造が、訓練データ１７０から決定され、固定されたパラメータのセットに厳密には基づかない、ノンパラメトリックモデルであり得る。

ＶＩＩＩ．Ｂ．アレルごとのモデル
訓練モジュール３１６は、アレルごとベースでペプチドの提示尤度を予測するための提示モデルを構築し得る。この例において、訓練モジュール３１６は、単一のＭＨＣアレルを発現する細胞から生成された訓練データ１７０におけるデータインスタンスＳに基づいて、提示モデルを訓練し得る。

一実現形態では、訓練モジュール３１６は、特定のアレルｈについてのペプチドｐ^ｋの推定提示尤度ｕ_ｋを、

によってモデル化し、式中、ペプチド配列ｘ_ｈ ^ｋは、ペプチドｐ^ｋ及び対応するＭＨＣアレルｈについてのエンコードされたアレル相互作用変数を意味し、ｆ（・）は、任意の関数であり、記載の便宜上、本明細書中を通して変換関数と呼ばれる。さらに、ｇ_ｈ（・）は、任意の関数であり、記載の便宜上、本明細書中を通して依存性関数と呼ばれ、ＭＨＣアレルｈについて決定されたパラメータθ_ｈのセットに基づいて、アレル相互作用変数ｘ_ｈ ^ｋについての依存性スコアを生成する。各ＭＨＣアレルｈについてのパラメータθ_ｈのセットの値は、θ_ｈに関する損失関数を最小化することによって決定することができ、ここでｉは、単一のＭＨＣアレルｈを発現する細胞から生成された訓練データ１７０のサブセットＳにおける各インスタンスである。

依存性関数ｇ_ｈ（ｘ_ｈ ^ｋ；θ_ｈ）の出力は、ＭＨＣアレルｈが、少なくともアレル相互作用特性ｘ_ｈ ^ｋに基づいて、及び特に、ペプチドｐ^ｋのペプチド配列のアミノ酸の位置に基づいて、対応する新生抗原を提示するかどうかを示す、ＭＨＣアレルｈについての依存性スコアを表す。例えば、ＭＨＣアレルｈについての依存性スコアは、ＭＨＣアレルｈが、ペプチドｐ^ｋを提示する可能性が高い場合に、高い値を有し得、提示の可能性が高くない場合に、低い値を有し得る。変換関数ｆ（・）は、入力を変換し、より具体的には、この例においてｇ_ｈ（ｘ_ｈ ^ｋ；θ_ｈ）によって生成された依存性スコアを、ペプチドｐ^ｋがＭＨＣアレルによって提示される尤度を示す適切な値に変換する。

本明細書の残りの部分を通じて言及される１つの特定の実現形態において、ｆ（・）は、適切なドメイン範囲について［０，１］内の範囲を有する関数である。１つの例において、ｆ（・）は、

によって与えられるｅｘｐｉｔ関数である。
別の例として、ｆ（・）はまた、ドメインｚの値が０以上である場合、

によって与えられる双曲線正接関数であることもできる。あるいは、予測が、範囲［０，１］の外側の値を有する質量分析イオン電流についてなされる場合、ｆ（・）は、例えば、恒等関数、指数関数、ｌｏｇ関数などの任意の関数であることができる。

したがって、ペプチド配列ｐ^ｋがＭＨＣアレルｈによって提示されるアレルごとの尤度は、ＭＨＣアレルｈについての依存性関数ｇ_ｈ（・）をペプチド配列ｐ^ｋのエンコードされたバージョンに適用して、対応する依存性スコアを生成することによって、生成することができる。依存性スコアは、ペプチド配列ｐ^ｋがＭＨＣアレルｈによって提示されるアレルごとの尤度を生成するように、変換関数ｆ（・）によって変換されてもよい。

ＶＩＩＩ．Ｂ．１アレル相互作用変数についての依存性関数
本明細書を通して言及される１つの特定の実現形態において、依存性関数ｇ_ｈ（・）は、ｘ_ｈ ^ｋにおける各アレル相互作用変数を、関連するＭＨＣアレルｈについて決定されたパラメータθ_ｈのセットにおける対応するパラメータと線形結合する、

によって与えられるアフィン関数である。

本明細書を通して言及される別の特定の実現形態において、依存性関数ｇ_ｈ（・）は、１つ以上の層において配置された一連のノードを有するネットワークモデルＮＮ_ｈ（・）によって表される、

によって与えられるネットワーク関数である。ノードは、パラメータθ_ｈのセットにおける関連するパラメータを各々有する接続を通して、他のノードに接続され得る。１つの特定のノードでの値は、特定のノードに関連する活性化関数によってマッピングされた関連するパラメータによって重み付けられた、特定のノードに接続されたノードの値の和として表され得る。アフィン関数と対照的に、ネットワークモデルは、提示モデルが非線形性、及び異なる長さのアミノ酸配列を有するプロセスデータを組み入れることができるため、有利である。具体的には、非線形モデリングを通して、ネットワークモデルは、ペプチド配列中の異なる位置のアミノ酸間の相互作用、及びこの相互作用がペプチド提示にいかに影響を及ぼすかを捕捉することができる。

概して、ネットワークモデルＮＮ_ｈ（・）は、人工ニューラルネットワーク（ＡＮＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、深層ニューラルネットワーク（ＤＮＮ）などのフィードフォワードネットワーク、及び／または、長・短期記憶ネットワーク（ＬＳＴＭ）、双方向再帰型ネットワーク、深層双方向再帰型ネットワークなどの再帰型ネットワークなどとして、構造化され得る。

本明細書の残りの部分を通じて言及される１つの例において、ｈ＝１，２，．．．，ｍにおける各ＭＨＣアレルは、別々のネットワークモデルに関連し、ＮＮ_ｈ（・）は、ＭＨＣアレルｈに関連するネットワークモデルからの出力を意味する。

図５は、任意のＭＨＣアレルｈ＝３に関連した例示的なネットワークモデルＮＮ_３（・）を説明する。図５に示すように、ＭＨＣアレルｈ＝３についてのネットワークモデルＮＮ_３（・）は、層ｌ＝１での３種類の入力ノード、層ｌ＝２での４種類のノード、層ｌ＝３での２種類のノード、及び層ｌ＝４での１種類の出力ノードを含む。ネットワークモデルＮＮ_３（・）は、１０種類のパラメータθ_３（１），θ_３（２），．．．，θ_３（１０）のセットに関連している。ネットワークモデルＮＮ_３（・）は、ＭＨＣアレルｈ＝３についての３種類のアレル相互作用変数ｘ_３ ^ｋ（１）、ｘ_３ ^ｋ（２）、及びｘ_３ ^ｋ（３）についての入力値（エンコードされたポリペプチド配列データ及び使用される任意の他の訓練データを含む、個々のデータインスタンス）を受け取り、値ＮＮ_３（ｘ_３ ^ｋ）を出力する。ネットワーク関数は、異なるアレル相互作用変数をそれぞれが入力として取る１つ以上のネットワークモデルを含んでもよい。

別の例において、特定されたＭＨＣアレルｈ＝１，２，．．．，ｍは、単一ネットワークモデルＮＮ_Ｈ（・）に関連しており、ＮＮ_ｈ（・）は、ＭＨＣアレルｈに関連する単一ネットワークモデルの１つ以上の出力を意味する。そのような例において、パラメータθ_ｈのセットは、単一ネットワークモデルについてのパラメータのセットに対応し得、したがって、パラメータθ_ｈのセットは、すべてのＭＨＣアレルによって共有され得る。

図６Ａは、ＭＨＣアレルｈ＝１，２，．．．，ｍによって共有される例示的なネットワークモデルＮＮ_Ｈ（・）を説明する。図６Ａに示すように、ネットワークモデルＮＮ_Ｈ（・）は、ＭＨＣアレルに各々対応する、ｍ個の出力ノードを含む。ネットワークモデルＮＮ_３（・）は、ＭＨＣアレルｈ＝３についてのアレル相互作用変数ｘ_３ ^ｋを受け取り、ＭＨＣアレルｈ＝３に対応する値ＮＮ_３（ｘ_３ ^ｋ）を含む、ｍ個の値を出力する。

さらに別の例において、単一ネットワークモデルＮＮ_Ｈ（・）は、ＭＨＣアレルｈのアレル相互作用変数ｘ_ｈ ^ｋ及びエンコードされたタンパク質配列ｄ_ｈを与えられて依存性スコアを出力する、ネットワークモデルであり得る。そのような例において、パラメータθ_ｈのセットは、再び、単一ネットワークモデルについてのパラメータのセットに対応し得、したがって、パラメータθ_ｈのセットは、すべてのＭＨＣアレルによって共有され得る。したがって、そのような例において、ＮＮｈ（・）は、単一ネットワークモデルに対して入力［ｘ_ｈ ^ｋｄ_ｈ］を与えられた、単一ネットワークモデルＮＮ_Ｈ（・）の出力を意味する。そのようなネットワークモデルは、訓練データにおいて未知であったＭＨＣアレルについてのペプチド提示確率を、単にそれらのタンパク質配列を特定することによって正しく予測することができるため、有利である。

図６Ｂは、ＭＨＣアレルによって共有される例示的なネットワークモデルＮＮ_Ｈ（・）を説明する。図６Ｂに示すように、ネットワークモデルＮＮ_Ｈ（・）は、ＭＨＣアレルｈ＝３のアレル相互作用変数及びタンパク質配列を入力として受け取り、ＭＨＣアレルｈ＝３に対応する依存性スコアＮＮ_３（ｘ_３ ^ｋ）を出力する。

さらに別の例において、依存性関数ｇ_ｈ（・）は、

として表すことができ、式中、ｇ’_ｈ（ｘ_ｈ ^ｋ；θ’_ｈ）は、パラメータθ’_ｈのセットを伴うアフィン関数、ネットワーク関数などであり、ＭＨＣアレルｈについての提示のベースライン確率を表す、ＭＨＣアレルのアレル相互作用変数についてのパラメータのセットにおけるバイアスパラメータθ_ｈ ^０を伴う。

別の実現形態において、バイアスパラメータθ_ｈ ^０は、ＭＨＣアレルｈの遺伝子ファミリーにしたがって共有されてもよい。すなわち、ＭＨＣアレルｈについてのバイアスパラメータθ_ｈ ^０はθ_{遺伝子（ｈ）} ^０と同等であり得、遺伝子（ｈ）は、ＭＨＣアレルｈの遺伝子ファミリーである。例えば、クラスＩＭＨＣアレルＨＬＡ－Ａ＊０２：０１、ＨＬＡ－Ａ＊０２：０２、及びＨＬＡ－Ａ＊０２：０３は、「ＨＬＡ－Ａ」の遺伝子ファミリーに割り当てられてもよく、これらのＭＨＣアレルの各々についてのバイアスパラメータθ_ｈ ^０が共有されてもよい。別の例として、クラスＩＩＭＨＣアレルＨＬＡ－ＤＲＢ１：１０：０１、ＨＬＡ－ＤＲＢ１：１１：０１、及びＨＬＡ－ＤＲＢ３：０１：０１を「ＨＬＡ－ＤＲＢ」の遺伝子ファミリーに割り当て、これらのＭＨＣアレルのそれぞれのバイアスパラメータθ_ｈ ^０を共有することができる。

例として、等式（２）に戻ると、アフィン依存性関数ｇ_ｈ（・）を用いた、ｍ＝４の異なる特定されたＭＨＣアレルの中でＭＨＣアレルｈ＝３によってペプチドｐ^ｋが提示される尤度は、

によって生成することができ、式中、ｘ_３ ^ｋは、ＭＨＣアレルｈ＝３について特定されたアレル相互作用変数であり、θ_３は、損失関数最小化を通してＭＨＣアレルｈ＝３について決定されたパラメータのセットである。

別の例として、別々のネットワーク変換関数ｇｈ（・）を用いた、ｍ＝４の異なる特定されたＭＨＣアレルの中でＭＨＣアレルｈ＝３によってペプチドｐ^ｋが提示される尤度は、

によって生成することができ、式中、ｘ_３ ^ｋは、ＭＨＣアレルｈ＝３について特定されたアレル相互作用変数であり、θ_３は、ＭＨＣアレルｈ＝３に関連するネットワークモデルＮＮ_３（・）について決定されたパラメータのセットである。

図７は、例示的なネットワークモデルＮＮ_３（・）を用いて、ＭＨＣアレルｈ＝３に関連するペプチドｐ^ｋの提示尤度を生成することを説明する。図７に示すように、ネットワークモデルＮＮ_３（・）は、ＭＨＣアレルｈ＝３についてのアレル相互作用変数ｘ_３ ^ｋを受け取り、出力ＮＮ_３（ｘ_３ ^ｋ）を生成する。この出力は、関数ｆ（・）によってマッピングされて、推定提示尤度ｕ_ｋを生成する。

ＶＩＩＩ．Ｂ．２．アレル非相互作用変数を伴うアレルごと
一実現形態では、訓練モジュール３１６は、アレル非相互作用変数を組み入れて、

によって、ペプチドｐ^ｋの推定提示尤度ｕ_ｋをモデル化し、式中、ｗ^ｋは、ペプチドｐ^ｋについてのエンコードされたアレル非相互作用変数を意味し、ｇ_ｗ（・）は、アレル非相互作用変数について決定されたパラメータθ_ｗのセットに基づく、アレル非相互作用変数ｗ^ｋについての関数である。具体的には、各ＭＨＣアレルｈについてのパラメータθ_ｈのセット及びアレル非相互作用変数についてのパラメータθ_ｗのセットの値を、θ_ｈ及びθ_ｗに関する損失関数を最小化することによって決定することができ、ｉは、単一のＭＨＣアレルを発現する細胞から生成された訓練データ１７０のサブセットＳにおける各インスタンスである。

依存性関数ｇ_ｗ（ｗ^ｋ；θ_ｗ）の出力は、アレル非相互作用変数の影響に基づいて、１つ以上のＭＨＣアレルによってペプチドｐ^ｋが提示されるかどうかを示す、アレル非相互作用変数についての依存性スコアを表す。例えば、アレル非相互作用変数についての依存性スコアは、ペプチドｐ^ｋの提示に正の影響を及ぼすことが公知であるＣ末端側隣接配列とペプチドｐ^ｋが結合している場合は、高い値を有し得、ペプチドｐ^ｋの提示に負の影響を及ぼすことが公知であるＣ末端側隣接配列とペプチドｐ^ｋが結合している場合は、低い値を有し得る。

等式（８）によると、ペプチド配列ｐ^ｋがＭＨＣアレルｈによって提示されるアレルごとの尤度は、ＭＨＣアレルｈについての関数ｇ_ｈ（・）を、ペプチド配列ｐ^ｋのエンコードされたバージョンに適用して、アレル相互作用変数についての対応する依存性スコアを生成することによって、生成することができる。また、アレル非相互作用変数についての関数ｇ_ｗ（・）も、アレル非相互作用変数のエンコードされたバージョンに適用されて、アレル非相互作用変数についての依存性スコアが生成される。両方のスコアが組み合わされ、組み合わされたスコアが変換関数ｆ（・）によって変換されて、ＭＨＣアレルｈによってペプチド配列ｐ^ｋが提示されるアレルごとの尤度が生成される。

あるいは、訓練モジュール３１６は、等式（２）においてアレル非相互作用変数ｗ^ｋをアレル相互作用変数ｘ_ｈ ^ｋに付加することにより、予測におけるアレル非相互作用変数ｗ^ｋを含んでもよい。したがって、提示尤度は、

によって与えられ得る。

ＶＩＩＩ．Ｂ．３アレル非相互作用変数についての依存性関数
アレル相互作用変数についての依存性関数ｇ_ｈ（・）と同様に、アレル非相互作用変数についての依存性関数ｇ_ｗ（・）は、アフィン関数、または別々のネットワークモデルがアレル非相互作用変数ｗ^ｋに関連しているネットワーク関数であり得る。

具体的には、依存性関数ｇ_ｗ（・）は、ｗ^ｋにおけるアレル非相互作用変数を、パラメータθ_ｗのセットにおける対応するパラメータと線形結合する、

によって与えられるアフィン関数である。

依存性関数ｇ_ｗ（・）はまた、パラメータθ_ｗのセットにおける関連するパラメータを有するネットワークモデルＮＮ_ｗ（・）によって表される、

によって与えられるネットワーク関数である。ネットワーク関数は、異なるアレル非相互作用変数をそれぞれが入力として取る１つ以上のネットワークモデルを含んでもよい。

別の例において、アレル非相互作用変数についての依存性関数ｇ_ｗ（・）は、

によって与えられ得、式中、ｇ’_ｗ（ｗ^ｋ；θ’_ｗ）は、アレル非相互作用パラメータθ’_ｗのセットを伴うアフィン関数、ネットワーク関数などであり、ｍ^ｋは、ペプチドｐ^ｋについてのｍＲＮＡ定量測定値であり、ｈ（・）は、定量測定値を変換する関数であり、かつθ_ｗ ^ｍは、ｍＲＮＡ定量測定値についての依存性スコアを生成するようにｍＲＮＡ定量測定値と組み合わされる、アレル非相互作用変数についてのパラメータのセットにおけるパラメータである。本明細書の残りの部分を通じて言及される１つの特定の実施形態において、ｈ（・）はｌｏｇ関数であるが、実際には、ｈ（・）は、様々な異なる関数のうちのいずれか１つであり得る。

さらに別の例において、アレル非相互作用変数についての依存性関数ｇ_ｗ（・）は、

によって与えられ、式中、ｇ’_ｗ（ｗ^ｋ；θ’_ｗ）は、アレル非相互作用パラメータθ’_ｗのセットを伴うアフィン関数、ネットワーク関数などであり、ｏ^ｋは、ペプチドｐ^ｋについてヒトプロテオームにおけるタンパク質及びアイソフォームを表す、セクションＶＩＩ．Ｃ．２で述べた指標ベクトルであり、かつθ_ｗ ^ｏは、指標ベクトルと組み合わされるアレル非相互作用変数についてのパラメータのセットにおける、パラメータのセットである。１つのバリエーションにおいて、ｏ^ｋ及びパラメータθ_ｗ ^ｏのセットの次元が有意に高い場合、

（ただし、

は、Ｌ１ノルム、Ｌ２ノルム、組み合わせなどを表す）などのパラメータ正則化項を、パラメータの値を決定する時に損失関数に加えることができる。ハイパーパラメータλの最適値を、適切な方法を通して決定することができる。

さらに別の例において、アレル非相互作用変数に対する依存性関数ｇ_ｗ（・）は下式により与えられる。すなわち、

ただし、ｇ’_ｗ（ｗ^ｋ；θ’_ｗ）は、アレル非相互作用パラメータθ’_ｗのセットを伴うアフィン関数、ネットワーク関数などであり、

は、ペプチドｐ^ｋがアレル非相互作用変数に関して上記に述べたソース遺伝子ｌに由来するものである場合に１に等しいインジケータ関数であり、θ_ｗ ^ｌはソース遺伝子ｌの「抗原性」を示すパラメータである。１つのバリエーションにおいて、Ｌが充分に大きく、したがって、パラメータの数θ_ｗ ^{ｌ＝１，２，．．．，Ｌ}が充分に大きい場合、

（ただし、

は、Ｌ１ノルム、Ｌ２ノルム、組み合わせなど）などのパラメータ正則化項をパラメータの値を決定する際に損失関数に加えることができる。ハイパーパラメータλの最適値は適当な方法によって決定することができる。

実際には、式（１０）、（１１）、及び（１２）のいずれかの追加項を組み合わせることによってアレル非相互作用変数に関する依存性関数ｇ_ｗ（・）を生成することができる。例えば、式（１０）のｍＲＮＡ定量測定値を示す項ｈ（・）と式（１２）のソース遺伝子の抗原性を示す項とを他の任意のアフィン関数またはネットワーク関数とともに互いに加え合わせることにより、アレル非相互作用変数に関する依存性関数を生成することができる。

例として、等式（８）に戻ると、アフィン変換関数ｇ_ｈ（・）、ｇ_ｗ（・）を用いた、ｍ＝４の異なる特定されたＭＨＣアレルの中でＭＨＣアレルｈ＝３によってペプチドｐ^ｋが提示される尤度は、

によって生成することができ、式中、ｗ^ｋは、ペプチドｐ^ｋについて特定されたアレル非相互作用変数であり、θ_ｗは、アレル非相互作用変数について決定されたパラメータのセットである。

別の例として、ネットワーク変換関数ｇ_ｈ（・）、ｇ_ｗ（・）を用いた、ｍ＝４の異なる特定されたＭＨＣアレルの中でＭＨＣアレルｈ＝３によってペプチドｐ^ｋが提示される尤度は、

によって生成することができ、式中、ｗ^ｋは、ペプチドｐ^ｋについて特定されたアレル相互作用変数であり、θ_ｗは、アレル非相互作用変数について決定されたパラメータのセットである。

図８は、例示的なネットワークモデルＮＮ_３（・）及びＮＮ_ｗ（・）を用いた、ＭＨＣアレルｈ＝３に関連したペプチドｐ^ｋの提示尤度の生成を説明する。図８に示すように、ネットワークモデルＮＮ_３（・）は、ＭＨＣアレルｈ＝３についてのアレル相互作用変数ｘ_３ ^ｋを受け取り、出力ＮＮ_３（ｘ_３ ^ｋ）を生成する。ネットワークモデルＮＮ_ｗ（・）は、ペプチドｐ^ｋについてのアレル非相互作用変数ｗ^ｋを受け取り、出力ＮＮ_ｗ（ｗ^ｋ）を生成する。出力は、組み合わされ、関数ｆ（・）によってマッピングされて、推定提示尤度ｕ_ｋを生成する。

ＶＩＩＩ．Ｃ．複数アレルモデル
訓練モジュール３１６はまた、２つ以上のＭＨＣアレルが存在する複数アレル設定においてペプチドの提示尤度を予測するための提示モデルを構築し得る。この例において、訓練モジュール３１６は、単一のＭＨＣアレルを発現する細胞、複数のＭＨＣアレルを発現する細胞、またはそれらの組み合わせから生成された訓練データ１７０におけるデータインスタンスＳに基づいて、提示モデルを訓練し得る。

ＶＩＩＩ．Ｃ．１．実施例１：アレルごとのモデルの最大値
一実現形態では、訓練モジュール３１６は、複数のＭＨＣアレルＨのセットに関連したペプチドｐ^ｋの推定提示尤度ｕ_ｋを、等式（２）～（１１）と共に上記で説明したような、単一アレルを発現する細胞に基づいて決定されたセットＨにおけるＭＨＣアレルｈの各々について決定された提示尤度ｕ_ｋ ^ｈ∈Ｈの関数としてモデル化する。具体的には、提示尤度ｕ_ｋは、ｕ_ｋ ^ｈ∈Ｈの任意の関数であることができる。一実現形態では、等式（１２）に示すように、関数は最大値関数であり、提示尤度ｕ_ｋは、セットＨにおける各ＭＨＣアレルｈについての提示尤度の最大値として決定することができる。

ＶＩＩＩ．Ｃ．２．実施例２．１：和の関数モデル
一実現形態では、訓練モジュール３１６は、ペプチドｐ^ｋの推定提示尤度ｕ_ｋを、

によってモデル化し、式中、要素ａ_ｈ ^ｋは、ペプチド配列ｐ^ｋに関連する複数のＭＨＣアレルＨについて１であり、ｘ_ｈ ^ｋは、ペプチドｐ^ｋ及び対応するＭＨＣアレルについてのエンコードされたアレル相互作用変数を意味する。各ＭＨＣアレルｈについてのパラメータθ_ｈのセットの値は、θ_ｈに関する損失関数を最小化することによって決定することができ、ｉは、単一のＭＨＣアレルを発現する細胞及び／または複数のＭＨＣアレルを発現する細胞から生成された訓練データ１７０のサブセットＳにおける各インスタンスである。依存性関数ｇ_ｈは、セクションＶＩＩＩ．Ｂ．１．において上記で導入された依存性関数ｇ_ｈのいずれかの形態であり得る。

等式（１３）によると、ペプチド配列ｐ^ｋが１つ以上のＭＨＣアレルｈによって提示される提示尤度は、依存性関数ｇ_ｈ（・）を、ＭＨＣアレルＨの各々についてペプチド配列ｐ^ｋのエンコードされたバージョンに適用して、アレル相互作用変数についての対応するスコアを生成することによって、生成することができる。各ＭＨＣアレルｈについてのスコアが組み合わされて、ペプチド配列ｐ^ｋがＭＨＣアレルＨのセットによって提示される提示尤度を生成するように変換関数ｆ（・）によって変換される。

等式（１３）の提示モデルは、各ペプチドｐ^ｋについての関連するアレルの数が１よりも大きいことができる点で、等式（２）のアレルごとのモデルとは異なる。換言すると、ａ_ｈ ^ｋにおける複数の要素が、ペプチド配列ｐ^ｋに関連する複数のＭＨＣアレルＨについて１の値を有することができる。

例として、アフィン変換関数ｇ_ｈ（・）を用いた、ｍ＝４の異なる特定されたＭＨＣアレルの中でＭＨＣアレルｈ＝２、ｈ＝３によってペプチドｐ^ｋが提示される尤度は、

によって生成することができ、式中、ｘ_２ ^ｋ、ｘ_３ ^ｋは、ＭＨＣアレルｈ＝２、ｈ＝３について特定されたアレル相互作用変数であり、θ_２、θ_３は、ＭＨＣアレルｈ＝２、ｈ＝３について決定されたパラメータのセットである。

別の例として、ネットワーク変換関数ｇ_ｈ（・）、ｇ_ｗ（・）を用いた、ｍ＝４の異なる特定されたＭＨＣアレルの中でＭＨＣアレルｈ＝２、ｈ＝３によってペプチドｐ^ｋが提示される尤度は、

によって生成することができ、式中、ＮＮ_２（・）、ＮＮ_３（・）は、ＭＨＣアレルｈ＝２、ｈ＝３について特定されたネットワークモデルであり、θ_２、θ_３は、ＭＨＣアレルｈ＝２、ｈ＝３について決定されたパラメータのセットである。

図９は、例示的なネットワークモデルＮＮ_２（・）及びＮＮ_３（・）を用いた、ＭＨＣアレルｈ＝２、ｈ＝３に関連したペプチドｐ^ｋの提示尤度の生成を説明する。図９に示すように、ネットワークモデルＮＮ_２（・）は、ＭＨＣアレルｈ＝２についてのアレル相互作用変数ｘ_２ ^ｋを受け取り、出力ＮＮ_２（ｘ_２ ^ｋ）を生成し、ネットワークモデルＮＮ_３（・）は、ＭＨＣアレルｈ＝３についてのアレル相互作用変数ｘ_３ ^ｋを受け取り、出力ＮＮ_３（ｘ_３ ^ｋ）を生成する。出力は、組み合わされ、関数ｆ（・）によってマッピングされて、推定提示尤度ｕ_ｋを生成する。

ＶＩＩＩ．Ｃ．３．実施例２．２：アレル非相互作用変数を伴う和の関数モデル
一実現形態では、訓練モジュール３１６は、アレル非相互作用変数を組み入れて、

によって、ペプチドｐ^ｋの推定提示尤度ｕ_ｋをモデル化し、式中、ｗ^ｋは、ペプチドｐ^ｋについてのエンコードされたアレル非相互作用変数を意味する。具体的には、各ＭＨＣアレルｈについてのパラメータθ_ｈのセット及びアレル非相互作用変数についてのパラメータθ_ｗのセットの値を、θ_ｈ及びθ_ｗに関する損失関数を最小化することによって決定することができ、ｉは、単一のＭＨＣアレルを発現する細胞及び／または複数のＭＨＣアレルを発現する細胞から生成された訓練データ１７０のサブセットＳにおける各インスタンスである。依存性関数ｇ_ｗは、セクションＶＩＩＩ．Ｂ．３．において上記で導入された依存性関数ｇ_ｗのいずれかの形態であり得る。

したがって、等式（１４）によると、１つ以上のＭＨＣアレルＨによってペプチド配列ｐ^ｋが提示される提示尤度は、関数ｇ_ｈ（・）を、ＭＨＣアレルＨの各々についてペプチド配列ｐ^ｋのエンコードされたバージョンに適用して、各ＭＨＣアレルｈのアレル相互作用変数についての対応する依存性スコアを生成することによって、生成することができる。また、アレル非相互作用変数についての関数ｇ_ｗ（・）も、アレル非相互作用変数のエンコードされたバージョンに適用されて、アレル非相互作用変数についての依存性スコアが生成される。これらのスコアが組み合わされて、組み合わされたスコアが変換関数ｆ（・）によって変換されて、ＭＨＣアレルＨによってペプチド配列ｐ^ｋが提示される提示尤度が生成される。

等式（１４）の提示モデルにおいて、各ペプチドｐ^ｋについての関連するアレルの数は、１よりも大きいことができる。換言すると、ａ_ｈ ^ｋにおける複数の要素が、ペプチド配列ｐ^ｋに関連する複数のＭＨＣアレルＨについて１の値を有することができる。

例として、アフィン変換関数ｇ_ｈ（・）、ｇ_ｗ（・）を用いた、ｍ＝４の異なる特定されたＭＨＣアレルの中でＭＨＣアレルｈ＝２、ｈ＝３によってペプチドｐ^ｋが提示される尤度は、

図１０は、例示的なネットワークモデルＮＮ_２（・）、ＮＮ_３（・）、及びＮＮ_ｗ（・）を用いた、ＭＨＣアレルｈ＝２、ｈ＝３に関連したペプチドｐ^ｋの提示尤度の生成を説明する。図１０に示すように、ネットワークモデルＮＮ_２（・）は、ＭＨＣアレルｈ＝２についてのアレル相互作用変数ｘ_２ ^ｋを受け取り、出力ＮＮ_２（ｘ_２ ^ｋ）を生成する。ネットワークモデルＮＮ_３（・）は、ＭＨＣアレルｈ＝３についてのアレル相互作用変数ｘ_３ ^ｋを受け取り、出力ＮＮ_３（ｘ_３ ^ｋ）を生成する。ネットワークモデルＮＮ_ｗ（・）は、ペプチドｐ^ｋについてのアレル非相互作用変数ｗ^ｋを受け取り、出力ＮＮ_ｗ（ｗ^ｋ）を生成する。出力は、組み合わされ、関数ｆ（・）によってマッピングされて、推定提示尤度ｕ_ｋを生成する。

あるいは、訓練モジュール３１６は、等式（１５）においてアレル非相互作用変数ｗ^ｋをアレル相互作用変数ｘ_ｈ ^ｋに付加することにより、予測におけるアレル非相互作用変数ｗ^ｋを含んでもよい。したがって、提示尤度は、

によって与えられ得る。

ＶＩＩＩ．Ｃ．４．実施例３．１：潜在的なアレルごとの尤度を用いたモデル
別の実現形態において、訓練モジュール３１６は、ペプチドｐ^ｋの推定提示尤度ｕ_ｋを、

によってモデル化し、式中、要素ａ_ｈ ^ｋは、ペプチド配列ｐ^ｋに関連する複数のＭＨＣアレルｈ∈Ｈについて１であり、ｕ’_ｋ ^ｈは、ＭＨＣアレルｈについての潜在的なアレルごとの提示尤度であり、ベクトルｖは、要素ｖ_ｈがａ_ｈ ^ｋ・・・ｕ’_ｋ ^ｈに対応するベクトルであり、ｓ（・）は、ｖの要素をマッピングする関数であり、かつｒ（・）は、入力の値を所定の範囲にクリップするクリッピング関数である。より詳細に下記に記載するように、ｓ（・）は総和関数または二次関数であってもよいが、他の実施形態では、ｓ（・）は、最大値関数などの任意の関数であり得ることが認識される。潜在的なアレルごとの尤度についてのパラメータθのセットの値は、θに関する損失関数を最小化することによって決定することができ、ｉは、単一のＭＨＣアレルを発現する細胞及び／または複数のＭＨＣアレルを発現する細胞から生成された訓練データ１７０のサブセットＳにおける各インスタンスである。

等式（１７）の提示モデルにおける提示尤度は、潜在的なアレルごとの提示尤度ｕ’_ｋ ^ｈ（各々が、個々のＭＨＣアレルｈによってペプチドｐ^ｋが提示される尤度に対応する）の関数としてモデル化される。潜在的なアレルごとの尤度は、潜在的なアレルごとの尤度についてのパラメータが、単一アレル設定に加えて、提示されるペプチドと対応するＭＨＣアレルとの間の直接の関連が未知である複数アレル設定から学習され得る点で、セクションＶＩＩＩ．Ｂのアレルごとの提示尤度とは異なる。したがって、複数アレル設定において、提示モデルは、ペプチドｐ^ｋが全体としてＭＨＣアレルＨのセットによって提示されるかどうかを推定できるだけではなく、どのＭＨＣアレルｈがペプチドｐ^ｋを提示した可能性が最も高いかを示す個々の尤度ｕ’_ｋ ^ｈ∈Ｈも提供することができる。これの利点は、提示モデルが、単一のＭＨＣアレルを発現する細胞についての訓練データを用いずに潜在的な尤度を生成できることである。

本明細書の残りの部分を通じて言及される１つの特定の実現形態において、ｒ（・）は、範囲［０，１］を有する関数である。例えば、ｒ（・）は、クリップ関数：
r(z)＝min(max(z,0)，1)
であってもよく、ｚと１の間の最小値が、提示尤度ｕ_ｋとして選ばれる。別の実現形態において、ｒ（・）は、
r(z)＝tanh(z)
として与えられる双曲線正接関数であり、ドメインｚの値は０以上である。

ＶＩＩＩ．Ｃ．５．実施例３．２：関数の和モデル
１つの特定の実現形態において、ｓ（・）は総和関数であり、提示尤度は、潜在的なアレルごとの提示尤度を総和することによって与えられる。

１つの実現形態では、ＭＨＣアレルｈについての潜在的なアレルごとの提示尤度を、

によって生成して、提示尤度が、

によって推定されるようにする。

等式（１９）によると、１つ以上のＭＨＣアレルＨによってペプチド配列ｐ^ｋが提示される提示尤度は、関数ｇ_ｈ（・）を、ＭＨＣアレルＨの各々についてペプチド配列ｐ^ｋのエンコードされたバージョンに適用して、アレル相互作用変数についての対応する依存性スコアを生成することによって、生成することができる。最初に、各依存性スコアが関数ｆ（・）によって変換されて、潜在的なアレルごとの提示尤度ｕ’_ｋ ^ｈが生成される。アレルごとの尤度ｕ’_ｋ ^ｈが組み合わされ、組み合わされた尤度に、値を範囲［０，１］中にクリップするためのクリッピング関数が適用されて、ペプチド配列ｐ^ｋがＭＨＣアレルＨのセットによって提示される提示尤度が生成され得る。依存性関数ｇ_ｈは、セクションＶＩＩＩ．Ｂ．１．において上記で導入された依存性関数ｇ_ｈのいずれかの形態であり得る。

図１１は、例示的なネットワークモデルＮＮ_２（・）及びＮＮ_３（・）を用いた、ＭＨＣアレルｈ＝２、ｈ＝３に関連したペプチドｐ^ｋの提示尤度の生成を説明する。図９に示すように、ネットワークモデルＮＮ_２（・）は、ＭＨＣアレルｈ＝２についてのアレル相互作用変数ｘ_２ ^ｋを受け取り、出力ＮＮ_２（ｘ_２ ^ｋ）を生成し、ネットワークモデルＮＮ_３（・）は、ＭＨＣアレルｈ＝３についてのアレル相互作用変数ｘ_３ ^ｋを受け取り、出力ＮＮ_３（ｘ_３ ^ｋ）を生成する。各出力は、関数ｆ（・）によってマッピングされ、組み合わされて、推定提示尤度ｕ_ｋを生成する。

別の実現形態において、予測が、質量分析イオン電流のｌｏｇについてなされる場合、ｒ（・）はｌｏｇ関数であり、ｆ（・）は指数関数である。

ＶＩＩＩ．Ｃ．６．実施例３．３：アレル非相互作用変数を伴う関数の和モデル
１つの実現形態では、ＭＨＣアレルｈについての潜在的なアレルごとの提示尤度を、

によって生成して、提示尤度が、

によって生成されるようにして、ペプチド提示に、アレル非相互作用変数の影響を組み入れる。

等式（２１）によると、１つ以上のＭＨＣアレルＨによってペプチド配列ｐ^ｋが提示される提示尤度は、次のように生成することができる。ＭＨＣアレルＨの各々についてペプチド配列ｐ^ｋのエンコードされたバージョンに関数ｇ_ｈ（・）を適用して、各ＭＨＣアレルｈのアレル相互作用変数についての対応する依存性スコアを生成する。また、アレル非相互作用変数についての関数ｇ_ｗ（・）を、アレル非相互作用変数のエンコードされたバージョンに適用して、アレル非相互作用変数についての依存性スコアを生成する。アレル非相互作用変数のスコアを、アレル相互作用変数の依存性スコアの各々に組み合わせる。組み合わせたスコアの各々を関数ｆ（・）によって変換して、潜在的なアレルごとの提示尤度を生成する。潜在的な尤度を組み合わせて、組み合わせた出力にクリッピング関数を適用して値を範囲［０，１］内にクリップし、ＭＨＣアレルＨによってペプチド配列ｐ^ｋが提示される提示尤度を生成し得る。依存性関数ｇ_ｗは、セクションＶＩＩＩ．Ｂ．３．において上記で導入された依存性関数ｇ_ｗのいずれかの形態であり得る。

によって生成することができ、式中、ｗ^ｋは、ペプチドｐ^ｋについての特定されたアレル非相互作用変数であり、θ_ｗは、アレル非相互作用変数についての決定されたパラメータのセットである。

図１２は、例示的なネットワークモデルＮＮ_２（・）、ＮＮ_３（・）、及びＮＮ_ｗ（・）を用いた、ＭＨＣアレルｈ＝２、ｈ＝３に関連したペプチドｐ^ｋの提示尤度の生成を説明する。図１２に示すように、ネットワークモデルＮＮ_２（・）は、ＭＨＣアレルｈ＝２についてのアレル相互作用変数ｘ_２ ^ｋを受け取り、出力ＮＮ_２（ｘ_２ ^ｋ）を生成する。ネットワークモデルＮＮ_ｗ（・）は、ペプチドｐ^ｋについてのアレル非相互作用変数ｗ^ｋを受け取り、出力ＮＮ_ｗ（ｗ^ｋ）を生成する。出力は、組み合わされ、関数ｆ（・）によってマッピングされる。ネットワークモデルＮＮ_３（・）は、ＭＨＣアレルｈ＝３についてのアレル相互作用変数ｘ_３ ^ｋを受け取り、出力ＮＮ_３（ｘ_３ ^ｋ）を生成し、これも、同じネットワークモデルＮＮ_ｗ（・）の出力ＮＮ_ｗ（ｗ^ｋ）と組み合わされ、関数ｆ（・）によってマッピングされる。両方の出力が組み合わされて、推定提示尤度ｕ_ｋを生成する。

別の実現形態では、ＭＨＣアレルｈについての潜在的なアレルごとの提示尤度を、

によって生成して、提示尤度が、

によって生成されるようにする。

ＶＩＩＩ．Ｃ．７．実施例４：二次モデル
一実現形態では、ｓ（・）は、二次関数であり、ペプチドｐ^ｋの推定提示尤度ｕ_ｋは、

によって与えられ、式中、要素ｕ’_ｋ ^ｈは、ＭＨＣアレルｈについての潜在的なアレルごとの提示尤度である。潜在的なアレルごとの尤度についてのパラメータθのセットの値は、θに関する損失関数を最小化することによって決定することができ、ｉは、単一のＭＨＣアレルを発現する細胞及び／または複数のＭＨＣアレルを発現する細胞から生成された訓練データ１７０のサブセットＳにおける各インスタンスである。潜在的なアレルごとの提示尤度は、上記の等式（１８）、（２０）、及び（２２）において示すいずれかの形態であり得る。

一態様において、等式（２３）のモデルは、ペプチド配列ｐ^ｋが、２つのＭＨＣアレルによって同時に提示される可能性が存在し、２つのＨＬＡアレルによる提示は統計学的に独立していることを意味し得る。

等式（２３）によると、１つ以上のＭＨＣアレルＨによってペプチド配列ｐ^ｋが提示される提示尤度は、潜在的なアレルごとの提示尤度を合算すること、及び、ＭＨＣアレルの各ペアがペプチドｐ^ｋを同時に提示する尤度を総和から差し引いて、ＭＨＣアレルＨによってペプチド配列ｐ^ｋが提示される提示尤度を生成することによって、生成することができる。

例として、アフィン変換関数ｇ_ｈ（・）を用いた、ｍ＝４の異なる特定されたＨＬＡアレルの中でＨＬＡアレルｈ＝２、ｈ＝３によってペプチドｐ^ｋが提示される尤度は、

によって生成することができ、式中、ｘ_２ ^ｋ、ｘ_３ ^ｋは、ＨＬＡアレルｈ＝２、ｈ＝３について特定されたアレル相互作用変数であり、θ_２、θ_３は、ＨＬＡアレルｈ＝２、ｈ＝３について決定されたパラメータのセットである。

別の例として、ネットワーク変換関数ｇ_ｈ（・）、ｇ_ｗ（・）を用いた、ｍ＝４の異なる特定されたＨＬＡアレルの中でＨＬＡアレルｈ＝２、ｈ＝３によってペプチドｐ^ｋが提示される尤度は、

によって生成することができ、式中、ＮＮ_２（・）、ＮＮ_３（・）は、ＨＬＡアレルｈ＝２、ｈ＝３について特定されたネットワークモデルであり、θ_２、θ_３は、ＨＬＡアレルｈ＝２、ｈ＝３について決定されたパラメータのセットである。

ＩＸ．実施例５：予測モジュール
予測モジュール３２０は、配列データを受け取って、提示モデルを用いて配列データ中の新生抗原候補を選択する。具体的には、配列データは、患者の腫瘍組織細胞から抽出されたＤＮＡ配列、ＲＮＡ配列、及び／またはタンパク質配列であってよい。予測モジュール３２０は、配列データを、ＭＨＣ－Ｉについては８～１５個のアミノ酸を有する、またはＭＨＣ－ＩＩについては６～３０個のアミノ酸を有する複数のペプチド配列ｐ^ｋに処理する。例えば、予測モジュール３２０は、所定の配列「ＩＥＦＲＯＥＩＦＪＥＦ」（ＳＥＱＩＤＮＯ：１５）を、９個のアミノ酸を有する３種類のペプチド配列「ＩＥＦＲＯＥＩＦＪ」（ＳＥＱＩＤＮＯ：１６）、「ＥＦＲＯＥＩＦＪＥ」（ＳＥＱＩＤＮＯ：１７）、及び「ＦＲＯＥＩＦＪＥＦ」（ＳＥＱＩＤＮＯ：１８）に処理することができる。一実施形態では、予測モジュール３２０は、患者の正常組織細胞から抽出された配列データをその患者の腫瘍組織細胞から抽出された配列データと比較して１つ以上の変異を有する部分を特定することによって、変異したペプチド配列である新生抗原候補を特定することができる。

提示モジュール３２０は、提示モデルの１つ以上を処理されたペプチド配列に適用してペプチド配列の提示尤度を推定する。具体的には、予測モジュール３２０は、提示モデルを新生抗原候補に適用することによって、腫瘍ＨＬＡ分子上に提示される可能性が高い１つ以上の新生抗原候補のペプチド配列を選択することができる。一実現形態では、提示モジュール３２０は、あらかじめ決定された閾値を上回る推定提示尤度を有する新生抗原候補配列を選択する。別の実現形態では、提示モデルは、最も高い推定提示尤度を有するＮ個の新生抗原候補配列を選択する（Ｎは、一般的に、ワクチン中で送達することができるエピトープの最大数である）。所定の患者について選択された新生抗原候補を含むワクチンを患者に注射して免疫応答を誘導することができる。

Ｘ．実施例６：例示的な提示モデルの性能を示す実験結果
上記の種々の提示モデルの妥当性を、提示モデルを訓練するために使用されなかった訓練データ１７０のサブセット、または、訓練データ１７０と類似した変数及びデータ構造を有する訓練データ１７０とは別々のデータセットであった、試験データＴに対して試験した。

提示モデルの性能を示す関連性のある測定基準は、

であり、これは、関連するＨＬＡアレル上に提示されると正確に予測されたペプチドインスタンスの数の、当該ＨＬＡアレル上に提示されると予測されたペプチドインスタンスの数に対する比率を示す。一実現形態では、試験データＴにおけるペプチドｐ^ｉは、対応する尤度推定値ｕ_ｉが、所定の閾値ｔ以上である場合に、１つ以上の関連するＨＬＡアレル上に提示されると予測された。提示モデルの性能を示す別の関連性のある測定基準は、

であり、これは、関連するＨＬＡアレル上に提示されると正確に予測されたペプチドインスタンスの数の、当該ＨＬＡアレル上に提示されることが公知であったペプチドインスタンスの数に対する比率を示す。提示モデルの性能を示す別の関連性のある測定基準は、受信者動作特性（ＲＯＣ）の曲線下面積（ＡＵＣ）である。ＲＯＣは、

によって与えられる、偽陽性率（ＦＰＲ）に対するリコールをプロットする。

Ｘ．Ａ．質量分析データに対する提示モデルの性能
Ｘ．Ａ．１．実施例１
図１３Ａは、質量分析を用いたヒト腫瘍細胞及び腫瘍浸潤リンパ球（ＴＩＬ）上のクラスＩＩＭＨＣアレルから溶出されたペプチドの長さのヒストグラムである。具体的には、ＨＬＡ－ＤＲＢ１＊１２：０１ホモ接合体アレル（「データセット１」）及びＨＬＡ－ＤＲＢ１＊１２：０１、ＨＬＡ－ＤＲＢ１＊１０：０１の複数アレル試料（「データセット２」）に対して質量分析ペプチドミクスを行った。結果は、クラスＩＩＭＨＣアレルから溶出されたペプチドの長さはアミノ酸６～３０個の範囲であることを示している。図１３Ａに示される頻度分布は、参考文献６９の図１Ｃに示される、最新の質量分析法を用いてクラスＩＩＭＨＣから溶出されたペプチドの長さと同様である。

図１３Ｂは、データセット１及びデータセット２についてｍＲＮＡ定量化と残基当たりの提示ペプチドとの依存関係を示す。結果は、ｍＲＮＡの発現とクラスＩＩＭＨＣアレルのペプチド提示との間には強い依存関係があることを示している。

具体的には、図１３Ｂの横軸は、ｌｏｇ_１０（ビン１００万個当たりの転写物（ＴＰＭ））で表したｍＲＮＡの発現を示す。図１３Ｂの縦軸は、残基当たりのペプチド提示量を、１０^－２＜ｌｏｇ_１０ＴＰＭ＜１０^－１の間のｍＲＮＡ発現量に対応した最も低いビンの倍数として示したものである。一方の実線は、データセット１のｍＲＮＡ定量化及びペプチド提示に関連したプロットであり、別の実線はデータセット２のものである。図１３Ｂに示されるように、ｍＲＮＡ発現量と対応する遺伝子内の残基当たりのペプチド提示量との間には強い相関がある。具体的には、ＲＮＡ発現量が１０^－２＜ｌｏｇ_１０ＴＰＭ＜１０^－１の範囲である遺伝子からのペプチドは、最低のビンと比較して５倍以上提示される可能性が高い。

結果は、ｍＲＮＡ定量測定値がペプチド提示を強く予測するため、これらの測定値を組み入れることによって提示モデルの性能を大きく改善できることを示す。

図１３Ｃは、データセット１及びデータセット２を用いて訓練及び試験した例示的な提示モデルの性能結果を比較したものである。例示的な提示モデルのモデル特性の各セットについて、図１３Ｃは、そのモデル特性のセットの中の特性がアレル相互作用特性として分類される場合、あるいはそのモデル特性のセットの中の特性がアレル非相互作用特性変数として分類される場合の１０％リコールでのＰＰＶ値を示している図１３Ｃにみられるように、例示的な提示モデルのモデル特性の各セットについて、そのモデル特性のセットの中の特性がアレル相互作用特性として分類される場合に特定された１０％リコールでのＰＰＶ値が左側に示され、そのモデル特性のセットの中の特性がアレル非相互作用特性として分類される場合に特定された１０％リコールでのＰＰＶ値が右側に示されている。ペプチド配列の特性は、図１３Ｃの目的では常にアレル相互作用特性として分類された点に注目されたい。結果は、この提示モデルによって１４％～２９％の範囲の１０％リコールでのＰＰＶ値が実現され、この値はランダム予想におけるＰＰＶよりも有意に高い（およそ５００倍）ことを示している。

この実験では、９～２０個の長さのペプチド配列を検討した。データを、訓練、検証、及び試験セットに分けた。データセット１及びデータセット２の両方からの５０個の残基のペプチドのブロックを訓練セット及び試験セットに割り当てた。プロテオーム内のどこかで複製されたペプチドを除去し、訓練セットと試験セットの両方に現れるペプチド配列がないようにした。訓練セット及び試験セットにおけるペプチド提示の発生率は、非提示ペプチドを除去することにより５０倍増加した。これは、データセット１及びデータセット２が、細胞の一部のみがクラスＩＩＨＬＡアレルであるヒト腫瘍試料由来のものであり、クラスＩＩＨＬＡアレルの純粋な試料よりもおよそ１０倍低いペプチド収率となり、それでもなお、不完全な質量分析の感度による過小評価であることによる。訓練セットは、１０６４個の提示ペプチド及び３，８１０，０７０個の非提示ペプチドを含んでいた。試験セットは、３１４個の提示ペプチド及び８０７，４００個の非提示ペプチドを含んでいた。

モデル例１は、ネットワーク依存性関数ｇｈ（・）、ｅｘｐｉｔ関数ｆ（・）、及びアイデンティティー関数ｒ（・）を用いた式（２２）の関数の総和モデルとした。ネットワーク依存性関数ｇｈ（・）は、２５６個の隠れノード及び正規化線形ユニット（ＲｅＬＵ）活性化を伴う多層パーセプトロン（ＭＬＰ）として構造化した。ペプチド配列以外に、アレル相互作用変数ｗは、ワンホットエンコードされたＣ末端側及びＮ末端側隣接配列、ペプチドｐｉのソース遺伝子の添え字Ｇ＝ｇｅｎｅ（ｐｉ）を示すカテゴリー変数、及びｍＲＮＡ定量測定値を示す変数を含んでいた。モデル例２は、Ｃ末端側及びＮ末端側隣接配列をアレル相互作用変数から省略した点以外は、モデル例１と同じものとした。モデル例３は、ソース遺伝子の添え字をアレル相互作用変数から省略した点以外は、モデル例１と同じものとした。モデル例４は、ｍＲＮＡ測定値をアレル相互作用変数から省略した点以外は、モデル例１と同じものとした。

モデル例５は、ネットワーク依存性関数ｇｈ（・）、ｅｘｐｉｔ関数ｆ（・）、アイデンティティー関数ｒ（・）、及び式（１２）の依存性関数ｇｗ（・）を用いた式（２０）の関数の総和モデルとした。依存性関数ｇｗ（・）は、ｍＲＮＡ定量測定値を入力とし、１６個の隠れノード及び正規化線形ユニット（ＲｅＬＵ）活性化を伴うＭＬＰとして構造化したネットワークモデル、及びＣ末端側隣接配列を入力とし、３２個の隠れノード及び正規化線形ユニット（ＲｅＬＵ）活性化を伴うＭＬＰとして構造化したネットワークモデルも含んでいた。ネットワーク依存性関数ｇｈ（・）は、２５６個の隠れノード及び正規化線形ユニット（ＲｅＬＵ）活性化を伴う多層パーセプトロンとして構造化した。モデル例６は、Ｃ末端側及びＮ末端側隣接配列のネットワークモデルを省略した点以外は、モデル例５と同じものとした。モデル例７は、ソース遺伝子の添え字をアレル非相互作用変数から省略した点以外は、モデル例５と同じものとした。モデル例８は、ｍＲＮＡ定量測定値のネットワークモデルを省略した点以外は、モデル例５と同じものとした。

試験セット内の提示ペプチドの発生率はおよそ１／２４００であり、したがって、ランダム予想のＰＰＶもおよそ１／２４００＝０．０００４２となるであろう。図１３Ｃに示されるように、最も精度のよい提示モデルではおよそ２９％のＰＰＶ値が実現され、この値はランダム予想のＰＰＶ値よりもおよそ５００倍良好である。

Ｘ．Ａ．２．実施例２
図１３Ｄは、ＨＬＡクラスＩＩ分子を含む合計３９種の試料の各試料について質量分析を用いてシークエンシングしたペプチドの量を示すヒストグラムである。さらに、複数の試料の各試料について、図１３Ｄに示されるヒストグラムは、異なるｑ値の閾値で質量分析を用いてシークエンシングしたペプチドの量を示している。具体的には、複数の試料の各試料について、図１３Ｄは、０．０１未満のｑ値、０．０５未満のｑ値、及び０．２未満のｑ値で質量分析を用いてシークエンシングしたペプチドの量を示している。

上記に述べたように、図３９Ｄの３９種の試料の各試料は、ＨＬＡクラスＩＩ分子を含んでいた。より具体的には、図１３Ｄの３９種の試料の各試料はＨＬＡ－ＤＲ分子を含んでいた。ＨＬＡ－ＤＲ分子は、ＨＬＡクラスＩＩ分子の一種である。さらにより具体的には、図１３Ｄの３９種の試料の各試料は、ＨＬＡ－ＤＲＢ１分子、ＨＬＡ－ＤＲＢ３分子、ＨＬＡ－ＤＲＢ４分子、及び／またはＨＬＡ－ＤＲＢ５分子を含んでいた。ＨＬＡ－ＤＲＢ１分子、ＨＬＡ－ＤＲＢ３分子、ＨＬＡ－ＤＲＢ４分子、及びＨＬＡ－ＤＲＢ５分子は、ＨＬＡ－ＤＲ分子の種類である。

この特定の実験は、ＨＬＡ－ＤＲ分子、特にＨＬＡ－ＤＲＢ１分子、ＨＬＡ－ＤＲＢ３分子、ＨＬＡ－ＤＲＢ４分子、及びＨＬＡ－ＤＲＢ５分子を含む試料を用いて行ったが、代替的な実施形態では、この実験はＨＬＡクラスＩＩ分子の任意の種類（複数可）のうちの１つ以上を含む試料を用いて行うことができる。例えば、代替的な実施形態では、ＨＬＡ－ＤＰ及び／またはＨＬＡ－ＤＱ分子を含む試料を用いて同じ実験を行うことができる。同じ方法を用いて任意の種類（複数可）のＭＨＣクラスＩＩ分子をモデル化し、なおも信頼性の高い結果を得ることが可能であることは、当業者には周知である。例えば、Ｊｅｎｓｅｎ、ＫａｍｉｌｌａＫｊａｅｒｇａａｒｄｅｔａｌ．（７６）は、ＨＬＡ－ＤＲ分子に対する、ならびにＨＬＡ－ＤＰ及びＨＬＡ－ＤＱ分子に対する結合親和性をモデル化するために同じ方法を用いている最近の科学論文の一例である。したがって、当業者であれば、本明細書に記載される実験及びモデルを用いることで、ＨＬＡ－ＤＲ分子のみでなく、他の任意のＭＨＣクラスＩＩ分子を別々または同時にモデル化し、なおも信頼性の高い結果を得ることができる点は理解されよう。

合計３９種の試料の各試料のペプチドをシークエンシングすため、各試料について質量分析を行った。試料について得られた質量スペクトルをＣｏｍｅｔで検索し、Ｐｅｒｃｏｌａｔｏｒでスコアリングしてペプチドをシークエンシングした。次いで、試料中でシークエンシングされたペプチドの量を複数の異なるＰｅｒｃｏｌａｔｏｒのｑ値の閾値について特定した。具体的には、その試料について、０．０１未満のＰｅｒｃｏｌａｔｏｒのｑ値、０．０５未満のＰｅｒｃｏｌａｔｏｒのｑ値、及び０．２未満のＰｅｒｃｏｌａｔｏｒのｑ値を用いてシークエンシングしたペプチドの量を決定した。

３９種の試料の各試料について、異なるＰｅｒｃｏｌａｔｏｒのｑ値の閾値のそれぞれでシークエンシングしたペプチドの量を図１３Ｄに示す。例えば、図１３Ｄにみられるように、第１の試料では、０．２未満のｑ値で、質量分析を用いておよそ４０００種のペプチドがシークエンシングされ、０．０５未満のｑ値で、質量分析を用いておよそ２８００種のペプチドがシークエンシングされ、０．０１未満のｑ値で、質量分析を用いておよそ２３００種のペプチドがシークエンシングされた。

全体として、図１３Ｄは、質量分析を用いてＭＨＣクラスＩＩ分子を含有する試料から大量のペプチドを、低いｑ値でシークエンシングすることができることを示している。換言すると、図１３Ｄに示されるデータは、質量分析を用いて、ＭＨＣクラスＩＩ分子によって提示されうるペプチドを高い信頼度でシークエンシングすることができることを実証するものである。

図１３Ｅは、特定のＭＨＣクラスＩＩ分子のアレルが同定された試料の量を示すヒストグラムである。より具体的には、図１３Ｅは、ＨＬＡクラスＩＩ分子を含む合計で３９種の試料について、特定のＭＨＣクラスＩＩ分子が同定された試料の量を示している。

図１３Ｄに関して上記に述べたように、図１３Ｄの３９種の試料の各試料は、ＨＬＡ－ＤＲＢ１分子、ＨＬＡ－ＤＲＢ３分子、ＨＬＡ－ＤＲＢ４分子、及び／またはＨＬＡ－ＤＲＢ５分子を含んでいた。したがって、図１３Ｅは、ＨＬＡ－ＤＲＢ１分子、ＨＬＡ－ＤＲＢ３分子、ＨＬＡ－ＤＲＢ４分子、及びＨＬＡ－ＤＲＢ５分子について特定のアレルが同定された試料の量を示している。試料中に存在するＨＬＡアレルを同定するには、その試料についてＨＬＡクラスＩＩＤＲのタイピングを行う。次いで、特定のＨＬＡアレルが同定された試料の量を特定するには、ＨＬＡクラスＩＩＤＲのタイピングを用いてＨＬＡアレルが同定された試料の数を単純に合計する。例えば、図１３Ｅに示されるように、合計で３９種の試料のうちの１９種の試料が、ＨＬＡクラスＩＩ分子のアレルＨＬＡ－ＤＲＢ４＊０１：０３を含んでいた。換言すると、合計で３９種の試料のうちの１９種の試料がＨＬＡ－ＤＲＢ４分子についてアレルＨＬＡ－ＤＲＢ４＊０１：０３を含んでいた。全体として、図１３Ｅは、ＨＬＡクラスＩＩ分子を含む３９種の試料から広範囲のＨＬＡクラスＩＩ分子のアレルを同定することができることを示している。

図１３Ｆは、合計で３９種の試料中でＭＨＣクラスＩＩ分子によって提示されるペプチドの割合を、一定範囲のペプチド長の各ペプチド長について示したものである。合計で３９種の試料の各試料中の各ペプチドの長さを決定するため、各ペプチドを図１３Ｄに関して上記に述べたような質量分析を用いてシークエンシングし、次いでシークエンシングしたペプチド中の残基の数を単純に定量した。

上記に述べたように、ＭＨＣクラスＩＩ分子は、一般的にはアミノ酸９～２０個の長さを有するペプチドを提示する。したがって、図１３Ｆは、アミノ酸９～２０個の各ペプチド長について３９種の試料中のＭＨＣクラスＩＩ分子によって提示されるペプチドの割合を示している。例えば、図１３Ｆに示されるように、３９種の試料中のＭＨＣクラスＩＩ分子によって提示されるペプチドのおよそ２２％がアミノ酸１４個の長さを有している。

図１３Ｆに示されるデータに基づけば、３９種の試料中のＭＨＣクラスＩＩ分子によって提示されるペプチドの最頻長は、アミノ酸１４個及び１５個の長さと特定された。３９種の試料中のＭＨＣクラスＩＩ分子によって提示されるペプチドについて特定されたこれらの最頻長は、ＭＨＣクラスＩＩ分子によって提示されるペプチドの最頻長についての以前の報告と一致する。さらに、やはり以前の報告と一致するように、図１３Ｆのデータは、３９種の試料に由来するＭＨＣクラスＩＩ分子によって提示されるペプチドの６０％超がアミノ酸１４個及び１５個以外の長さを有することを示している。換言すれば、図１３Ｆは、ＭＨＣクラスＩＩ分子によって提示されるペプチドは最も高頻度でアミノ酸１４個または１５個の長さであるが、ＭＨＣクラスＩＩ分子によって提示されるペプチドの大きな割合がアミノ酸１４個でも１５個でもない長さであることを示している。したがって、すべての長さのペプチドが、ＭＨＣクラスＩＩ分子によって提示される等しい確率を有する、またはアミノ酸１４個または１５個の長さを有するペプチドのみがＭＨＣＩＩクラス分子によって提示されると仮定することは正確でない仮定である。図１３Ｊに関して下記に詳細に述べるように、これらの誤った仮定は、ＭＨＣクラスＩＩ分子による提示を予測するための多くの最新のモデルで現在用いられており、したがって、これらのモデルにより予想される提示尤度はしばしば信頼性が低い。

図１３Ｇは、３９種の試料中に存在する遺伝子について、遺伝子発現とＭＨＣクラスＩＩ分子による遺伝子発現産物の提示の発生率との間の関係を示す線グラフである。より具体的には、図１３Ｇは、遺伝子発現と、ＭＨＣクラスＩＩ分子によって提示されるペプチドのＮ末端を形成する、その遺伝子発現より生ずる残基の割合との間の関係を示している。合計で３９種の試料の各試料中の遺伝子発現を定量化するため、各試料中に含まれるＲＮＡにＲＮＡシークエンシングを行う。図１３Ｇでは、遺伝子発現は、１００万当たりの転写物（ｔｒａｎｓｃｒｉｐｔｓｐｅｒｍｉｌｌｉｏｎ）（ＴＰＭ）の単位でＲＮＡシークエンシングによって測定されている。３９種の試料の各試料について遺伝子発現の提示の発生率を特定するため、ＨＬＡクラスＩＩＤＲペプチドームデータの同定を各試料について行った。

図１３Ｇに示されるように、３９種の試料について、遺伝子発現レベルと、ＭＨＣクラスＩＩ分子による発現遺伝子産物の残基の提示との間には強い相関が認められる。具体的には、図１３Ｇに示されるように、発現レベルの最も低い遺伝子の発現から生じるペプチドは、発現レベルの最も高い遺伝子の発現から生じるペプチドと比較して、１００倍以上、ＭＨＣクラスＩＩ分子によって提示されにくい。より簡単に言えば、より高度に発現される遺伝子の産物はＭＨＣクラスＩＩ分子によってより高頻度で提示される。

図１３Ｈ～Ｊは、ペプチドの試験データセット内のペプチドが、試験データセット内に存在するＭＨＣクラスＩＩ分子の少なくとも１つによって提示される尤度を予想するうえでの異なる提示モデルの性能を比較した線グラフである。図１３Ｈ～Ｊに示されるように、あるペプチドが試験データセット内に存在するＭＨＣクラスＩＩ分子の少なくとも１つによって提示される尤度を予想するうえでのモデルの性能は、そのモデルによって生成される各予想について偽陽性率に対する真の陽性率の比を特定することにより決定される。所定のモデルについて特定されたこれらの比は、ＲＯＣ（ｒｅｃｅｉｖｅｒｏｐｅｒａｔｏｒｃｈａｒａｃｔｅｒｉｓｔｉｃ）（受信者動作特性）曲線として、ｘ軸が偽陽性率を定量化し、ｙ軸が真の陽性率を定量化した線グラフにおいて可視化することが可能である。曲線下面積（ＡＵＣ）を用いてモデルの性能を定量化する。具体的には、ＡＵＣが大きいモデルほど、ＡＵＣが小さいモデルと比較してより高い性能（すなわちより高い精度）を有する。図１３Ｈ～Ｉにおいて、傾き１の黒い破線（偽陽性率に対する真の陽性率の比が１）は、ランダムに推定されたペプチド提示の尤度の予想曲線を示す。破線のＡＵＣは０．５である。ＲＯＣ曲線及びＡＵＣの計測については、上記のセクションＸの前半部分に関して詳細な考察がなされている。

図１３Ｈは、アレル相互作用及びアレル非相互作用変数の異なるセットが与えられた場合に、ペプチドの試験データセット内のペプチドがＭＨＣクラスＩＩ分子によって提示される尤度を予想するうえでの５つのモデル例の性能を比較した線グラフである。換言すれば、図１３Ｈは、ペプチドがＭＨＣクラスＩＩ分子によって提示される尤度を予想するうえでの異なるアレル相互作用及びアレル非相互作用変数の相対的な重要度を定量化するものである。

図１３Ｈの線グラフのＲＯＣ曲線を作成するために用いた５つのモデル例の各例示的提示モデルのモデルアーキテクチャは、５つのシグモイド総和モデルの集合からなる。集合内の各シグモイド総和モデルは、試料当たり最大で４つのユニークなＨＬＡ－ＤＲアレルについてペプチド提示をモデル化するように構成した。さらに、集合内の各シグモイド総和モデルは、以下のアレル相互作用及びアレル非相互作用変数、すなわち、ペプチド配列、隣接配列、ＴＰＭ単位のＲＮＡ発現、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を行うように構成した。集合内の各シグモイド総和モデルのアレル相互作用成分は、２５６個の隠れユニットとしてＲｅＬＵ活性化を伴う１隠れ層のＭＬＰであった。

ペプチドの試験データセット内のペプチドがＭＨＣクラスＩＩ分子によって提示される尤度をモデル例を用いて予想するのに先立って、モデル例を訓練及び検証した。モデル例を訓練、検証、及び最終的に試験するため、３９種の試料について上記に述べたデータを訓練、検証、及び試験データセットに分けた。

訓練、検証、及び試験データセットのうちの複数のデータセットにペプチドが現れないようにするため、以下の手順を行った。最初に、プロテオーム内の複数の位置に現れた、合計３９種の試料に由来するすべてのペプチドを除去した。次いで、合計３９種の試料に由来するペプチドを１０個の隣接するペプチドのブロックに分割した。合計３９種の試料に由来するペプチドの各ブロックを、訓練データセット、検証データセット、または試験データセットに個々に割り当てた。これにより、訓練、検証、及び試験データセットの複数のデータセットに現れるペプチドはなくなった。

合計３９種の試料中の２８，０８１，９４４種のペプチドのうち、訓練データセットは、合計３９種の試料のうちの３８種に由来するＭＨＣクラスＩＩ分子によって提示された２１，０７７種のペプチドで構成されていた。訓練データセットに含まれる２１，０７７種のペプチドは、アミノ酸９～２０個の長さであった。図１３ＨのＲＯＣカーブを作成するために用いたモデル例を、ＡＤＡＭｏｐｔｉｍｉｚｅｒ及び早期終了（ｅａｒｌｙｓｔｏｐｐｉｎｇ）を用いて訓練データセット上で訓練した。

検証データセットは、訓練データセットで用いられた同じ３８種の試料に由来するＭＨＣクラスＩＩ分子によって提示された２，３４６種のペプチドで構成されていた。検証セットは、早期停止のためだけに用いた。

試験データセットは、質量分析を用いて腫瘍試料から同定されたＭＨＣクラスＩＩ分子によって提示されたペプチドで構成されていた。具体的には、試験データセットは、腫瘍試料から同定されたＭＨＣクラスＩＩ分子、具体的には、ＨＬＡ－ＤＲＢ１＊０７：０１，ＨＬＡ－ＤＲＢ１＊１５：０１，ＨＬＡ－ＤＲＢ４＊０１：０３，及びＨＬＡ－ＤＲＢ５＊０１：０１分子によって提示された２０３種のペプチドで構成されていた。試験データセットに含まれるペプチドは、上記に述べた訓練データセットからは除外されていた。

上記に述べたように、図１３Ｈは、ペプチドがＭＨＣクラスＩＩ分子によって提示される尤度を予想するうえでの異なるアレル相互作用変数及びアレル非相互作用変数の相対的な重要度を定量化するものである。やはり上記に述べたように、図１３Ｈの線グラフのＲＯＣ曲線を作成するために用いたモデル例は、以下のアレル相互作用及びアレル非相互作用変数、すなわち、ペプチド配列、隣接配列、ＴＰＭ単位のＲＮＡ発現、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を行うように構成した。ペプチドがＭＨＣクラスＩＩ分子によって提示される尤度を予想するためにこれら５つの変数（ペプチド配列、隣接配列、ＲＮＡ発現、及び遺伝子識別子）のうちの４つの変数の相対的な重要度を定量化するため、上記に述べた５つのモデル例の各モデル例を、４つの変数の異なる組み合わせを用いて、試験データセットからのデータを用いて試験した。具体的には、試験データセットの各ペプチドについて、モデル例１は、ＲＮＡ発現を除いた、ペプチド配列、隣接配列、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を生成した。同様に、試験データセットの各ペプチドについて、モデル例２は、隣接配列を除いた、ペプチド配列、ＲＮＡ発現、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を生成した。同様に、試験データセットの各ペプチドについて、モデル例３は、ペプチド配列を除いた、隣接配列、ＲＮＡ発現、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を生成した。同様に、試験データセットの各ペプチドについて、モデル例４は、遺伝子識別子を除いた、隣接配列、ＲＮＡ発現、ペプチド配列、及び試料識別子に基づいてペプチド提示尤度の予想を生成した。最後に、試験データセットの各ペプチドについて、モデル例５は、隣接配列、ＲＮＡ発現、ペプチド配列、遺伝子識別子、及び試料識別子の５つの変数のすべてに基づいてペプチド提示尤度の予想を生成した。

これら５つのモデル例のそれぞれの性能を図１３Ｈの線グラフに示す。具体的には、５つのモデル例のそれぞれは、モデルによって生成された各予想について偽陽性率に対する真の陽性率の比を示すＲＯＣ曲線に関連付けられる。例えば、図１３Ｈは、ＲＮＡ発現を除いた、ペプチド配列、隣接配列、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を生成したモデル例１の曲線を示している。図１３Ｈは、隣接配列を除いた、ペプチド配列、ＲＮＡ発現、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を生成したモデル例２の曲線を示している。図１３Ｈはまた、ペプチド配列を除いた、隣接配列、ＲＮＡ発現、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を生成したモデル例３の曲線も示している。図１３Ｈはまた、遺伝子識別子を除いた、隣接配列、ＲＮＡ発現、ペプチド配列、及び試料識別子に基づいてペプチド提示尤度の予想を生成したモデル例４の曲線も示している。そして最後に、図１３Ｈは、隣接配列、ＲＮＡ発現、ペプチド配列、試料識別子、及び遺伝子識別子の５つの変数のすべてに基づいてペプチド提示尤度の予想を生成したモデル例５の曲線を示している。

上記に述べたように、あるペプチドがＭＨＣクラスＩＩ分子によって提示される尤度を予想するうえでのモデルの性能は、そのモデルによって生成された各予想について偽陽性率に対する真の陽性率の比を示すＲＯＣ曲線のＡＵＣを特定することによって定量化される。ＡＵＣが大きいモデルほど、ＡＵＣが小さいモデルと比較してより高い性能（すなわちより高い精度）を有する。図１３Ｈに示されるように、隣接配列、ＲＮＡ発現、ペプチド配列、試料識別子、及び遺伝子識別子の５つの変数のすべてに基づいてペプチド提示尤度の予想を生成したモデル例５の曲線は０．９８と最も高いＡＵＣを実現した。したがって、ペプチド提示の予想を生成するために５つの変数すべてを用いたモデル例５は、最良の性能を実現した。隣接配列を除いた、ペプチド配列、ＲＮＡ発現、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を生成したモデル例２の曲線は、０．９７と２番目に高いＡＵＣを実現した。したがって、隣接配列は、ペプチドがＭＨＣクラスＩＩ分子によって提示される尤度を予想するうえで最も重要度の低い変数として特定することができる。遺伝子識別子を除いた、隣接配列、ＲＮＡ発現、ペプチド配列、及び試料識別子に基づいてペプチド提示尤度の予想を生成したモデル例４の曲線は、０．９６と３番目に高いＡＵＣを実現した。したがって、遺伝子識別子は、ペプチドがＭＨＣクラスＩＩ分子によって提示される尤度を予想するうえで２番目に重要度の低い変数として特定することができる。ペプチド配列を除いた、隣接配列、ＲＮＡ発現、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を生成したモデル例３の曲線は、０．８８と最も低いＡＵＣを実現した。したがって、ペプチド配列は、ペプチドがＭＨＣクラスＩＩ分子によって提示される尤度を予想するうえで最も重要な変数として特定することができる。ＲＮＡ発現を除いた、ペプチド配列、隣接配列、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を生成したモデル例１の曲線は、０．９５と２番目に低いＡＵＣを実現した。したがって、ＲＮＡ発現は、ペプチドがＭＨＣクラスＩＩ分子によって提示される尤度を予想するうえで２番目に重要な変数として特定することができる。

図１３Ｉは、ペプチドの試験データセット内のペプチドがＭＨＣクラスＩＩ分子によって提示される尤度を予想するうえでの４つの異なる提示モデルの性能を比較した線グラフである。

図１３Ｉで試験される第１のモデルは、本明細書では「完全非相互作用モデル」と呼ばれる。完全非相互作用モデルは、アレル非相互作用変数ｗ^ｋ及びアレル相互作用変数ｘ_ｈ ^ｋが例えばニューラルネットワークのような別々の依存性関数に入力された後、これらの別々の依存性関数の出力が加え合わされる、上記に述べた提示モデルの一実施形態である。具体的には、完全非相互作用モデルは、アレル非相互作用変数ｗ^ｋが依存性関数ｇ_ｗに入力され、アレル相互作用変数ｘ_ｈ ^ｋが別の依存性関数ｇ_ｈに入力され、依存性関数ｇ_ｗと依存性関数ｇ_ｈの出力が互いに加え合わされる、上記に述べた提示モデルの一実施形態である。したがって、いくつかの実施形態では、完全非相互作用モデルは、上記に示した式８を用いてペプチド提示の尤度を決定する。さらに、アレル非相互作用変数ｗ^ｋが依存性関数ｇ_ｗに入力され、アレル相互作用変数ｘ_ｈ ^ｋが別の依存性関数ｇ_ｈに入力され、依存性関数ｇ_ｗと依存性関数ｇ_ｈの出力が加え合わされる完全非相互作用モデルの実施形態は、セクションＶＩＩＩ．Ｂ．２．の前半部分、セクションＶＩＩＩ．Ｂ．３．の後半部分、セクションＶＩＩＩ．Ｃ．３．の前半部分、及びセクションＶＩＩＩ．Ｃ．６．の前半部分に関して上記に詳細に述べられている。

図１３Ｉで試験される第２のモデルは、本明細書では「完全相互作用モデル」と呼ばれる。完全相互作用モデルは、例えばニューラルネットワークのような別々の依存性関数に入力される前にアレル非相互作用変数ｗ^ｋがアレル相互作用変数ｘ_ｈ ^ｋと直接連結される、上記に述べた提示モデルの一実施形態である。したがって、いくつかの実施形態では、完全相互作用モデルは、上記に示した式９を用いてペプチド提示の尤度を決定する。さらに、変数が依存性関数に入力される前にアレル非相互作用変数ｗ^ｋがアレル相互作用変数ｘ_ｈ ^ｋと連結される完全相互作用モデルの実施形態は、セクションＶＩＩＩ．Ｂ．２．の後半部分、セクションＶＩＩＩ．Ｃ．２．の後半部分、及びセクションＶＩＩＩ．Ｃ．５．の後半部分に関して上記に詳細に述べられている。

図１３Ｉで試験される第３のモデルは、本明細書では「ＣＮＮモデル」と呼ばれる。ＣＮＮモデルは、畳み込みニューラルネットワークで構成され、上記に述べた完全非相互作用モデルと類似している。しかしながら、ＣＮＮモデルの畳み込みニューラルネットワークの層は、完全非相互作用モデルのニューラルネットワークの層とは異なっている。具体的には、ＣＮＮモデルの畳み込みニューラルネットワークの入力層は、２０マーペプチドストリングを受け入れ、続いてこの２０マーペプチドストリングを（ｎ，２０，２１）テンソルとして埋め込む。ＣＮＮモデルの畳み込みニューラルネットワークの次の各層は、ストライドが１でサイズ５の１Ｄ畳み込みカーネル層、グローバル最大プーリング層、ｐ＝０．２のドロップアウト層、及び最後にＲｅＬｕ活性化を伴う全結合３４ノード層からなる。

図１３Ｉで試験される第４及び最後のモデルは、本明細書では「ＬＳＴＭモデル」と呼ばれる。ＬＳＴＭモデルは、長期短期記憶ニューラルネットワークで構成される。ＬＳＴＭモデルの長期短期記憶ニューラルネットワークの入力層は、２０マーペプチドストリングを受け入れ、続いてこの２０マーペプチドストリングを（ｎ，２０，２１）テンソルとして埋め込む。ＬＳＴＭモデルの長期短期記憶ニューラルネットワークの次の各層は、１２８個のノードを有する長期短期記憶層、ｐ＝０．２のドロップアウト層、及び最後にＲｅＬｕ活性化を伴う全結合３４ノード層からなる。

ペプチドのデータセット内のペプチドがＭＨＣクラスＩＩ分子によって提示される尤度を予想するために図１３Ｉの４つのモデルのそれぞれを使用するのに先立って、各モデルを上記に述べた３８種の試料の訓練データセットを用いて訓練し、上記に述べた検証データセットを用いて検証した。各モデルのこの訓練及び検証に続き、４つのモデルのそれぞれを上記に述べた除外された３９番目の試料の試験データセットを用いて試験した。具体的には、４つのモデルのそれぞれについて、試験データセットの各ペプチドをモデルに入力し、続いてモデルがそのペプチドの提示尤度を出力した。

これら４つのモデルのそれぞれの性能を図１３Ｉの線グラフに示す。具体的には、４つのモデルのそれぞれは、モデルによって生成された各予想について偽陽性率に対する真の陽性率の比を示すＲＯＣ曲線に関連付けられる。例えば、図１３Ｉは、ＣＮＮモデルのＲＯＣ曲線、完全相互作用モデルのＲＯＣ曲線、ＬＳＴＭモデルのＲＯＣ曲線、及び完全非相互作用モデルのＲＯＣ曲線を示している。

上記に述べたように、あるペプチドがＭＨＣクラスＩＩ分子によって提示される尤度を予想するうえでのモデルの性能は、そのモデルによって生成された各予想について偽陽性率に対する真の陽性率の比を示すＲＯＣ曲線のＡＵＣを特定することによって定量化される。ＡＵＣが大きいモデルほど、ＡＵＣが小さいモデルと比較してより高い性能（すなわちより高い精度）を有する。図１３Ｉに示されるように、完全相互作用モデルの曲線は０．９８２と最も高いＡＵＣを実現した。したがって、完全相互作用モデルは最良の性能を実現した。完全非相互作用モデルの曲線は、０．９７７と２番目に高いＡＵＣを実現した。したがって、完全非相互作用モデルは２番目に良好な性能を実現した。ＣＮＮモデルの曲線は、０．９４７と最も低いＡＵＣを実現した。したがって、ＣＮＮモデルは最も悪い性能となった。ＬＳＴＭモデルの曲線は、０．９５２と２番目に低いＡＵＣを実現した。したがって、ＬＳＴＭモデルは２番目に悪い性能となった。しかしながら、図１３Ｉで試験したすべてのモデルが０．９よりも大きいＡＵＣを有している点に注目されたい。したがって、モデル間のアーキテクチャの相違にもよらず、図１３Ｉで試験したすべてのモデルは、ペプチド提示の比較的正確な予想を実現することが可能である。

図１３Ｊは、２つの異なる基準が与えられた２つの例示的なベスト・イン・クラスの従来モデル、ならびにアレル相互作用変数及びアレル非相互作用変数の２つの異なるセットが与えられた２つの実施例提示モデルの、ペプチドの試験データセット内のペプチドがＭＨＣクラスＩＩ分子によって提示される尤度を予想するうえでの性能を比較した線グラフである。具体的には、図１３Ｊは、予想を生成するうえで最小ＮｅｔＭＨＣＩＩ２．３で予想された結合親和性を基準として用いる実施例のベスト・イン・クラス従来モデル（モデル例１）、予想を生成するうえで最小ＮｅｔＭＨＣＩＩ２．３で予想された結合ランクを基準として用いる実施例のベスト・イン・クラス従来モデル（モデル例２）、ＭＨＣクラスＩＩ分子のタイプ及びペプチド配列に基づいてペプチド提示尤度の予想を生成するモデル例（モデル例４）、ならびに、ＭＨＣクラスＩＩ分子のタイプ、ペプチド配列、ＲＮＡ発現、遺伝子識別子、及び隣接配列に基づいてペプチド提示尤度の予想を生成するモデル例（モデル例３）の性能を比較した線グラフである。

図１３Ｊにおいてモデル例１及びモデル例２として用いられているベスト・イン・クラス従来モデルは、ＮｅｔＭＨＣＩＩ２．３モデルである。ＮｅｔＭＨＣＩＩ２．３モデルは、ＭＨＣクラスＩＩ分子のタイプ及びペプチド配列に基づいてペプチド提示尤度の予想を生成する。ＮｅｔＭＨＣＩＩ２．３モデルは、ＮｅｔＭＨＣＩＩ２．３のウェブサイト（www.cbs.dtu.dk/services/NetMHCII/, PMID 29315598）^７６を用いて試験した。

上記に述べたように、ＮｅｔＭＨＣＩＩ２．３モデルは２つの基準にしたがって試験した。具体的には、モデル例１は、最小ＮｅｔＭＨＣＩＩ２．３で予想された結合親和性にしたがってペプチド提示尤度の予想を生成し、モデル例２は、最小ＮｅｔＭＨＣＩＩ２．３で予想された結合ランクにしたがってペプチド提示尤度の予想を生成した。

モデル例３及びモデル例４として用いられている提示モデルは、質量分析によって得られたデータを用いて訓練される、本明細書に開示される提示モデルの実施形態である。上記に述べたように、提示モデルは、アレル相互作用及びアレル非相互作用変数の２つの異なるセットに基づいてペプチド提示尤度の予想を生成した。具体的には、モデル例４は、ＭＨＣクラスＩＩ分子のタイプ及びペプチド配列（ＮｅｔＭＨＣＩＩ２．３モデルで用いたものと同じ変数）に基づいてペプチド提示尤度の予想を生成し、モデル例３は、ＭＨＣクラスＩＩ分子のタイプ、ペプチド配列、ＲＮＡ発現、遺伝子識別子、及び隣接配列に基づいてペプチド提示尤度の予想を生成した。

ペプチドの試験データセット内のペプチドがＭＨＣクラスＩＩ分子によって提示される尤度を図１３Ｊの例示的モデルを用いて予想するのに先立って、各モデルを訓練及び検証した。ＮｅｔＭＨＣＩＩ２．３モデル（モデル例１及びモデル例２）は、免疫エピトープデータベース（IEDB, www.iedb.org）に蓄積されたＨＬＡペプチド結合親和性アッセイに基づいてそれ自体の訓練及び検証データセットを用いて訓練及び検証した。ＮｅｔＭＨＣＩＩ２．３モデルを訓練するために使用される訓練データセットは、ほとんど１５マーペプチドのみで構成されることが知られている。これに対して、モデル例３及び４は、図１３Ｈに関して上記に述べた訓練データセットを用いて訓練し、図１３Ｈに関して上記に述べた検証データセットを用いて検証した。

各モデルの訓練及び検証に続き、モデルのそれぞれを試験データセットを用いて試験した。上記に述べたように、ＮｅｔＭＨＣＩＩ２．３モデルはほとんど１５マーペプチドのみで構成されたデータセットで訓練されるが、これはＮｅｔＭＨＣＩＩ３．２が異なる重さのペプチドに異なる優先順位を与えることができないことを意味し、これにより、すべての長さのペプチドを含むＨＬＡクラスＩＩの提示の質量分析データに対するＮｅｔＭＨＣＩＩ３．２の予想性能が低下する。したがって、変動するペプチド長によって影響されないモデル間の適正な比較を与えるため、試験データセットは１５マーペプチドのみを含むものとした。具体的には、試験データセットは、９３３種の１５マーペプチドで構成されるものとした。試験データセット内の９３３種のペプチドのうちの４０種は、ＭＨＣクラスＩＩ分子により、具体的には、ＨＬＡ－ＤＲＢ１＊０７：０１、ＨＬＡ－ＤＲＢ１＊１５：０１、ＨＬＡ－ＤＲＢ４＊０１：０３、及びＨＬＡ－ＤＲＢ５＊０１：０１分子により提示された。試験データセットに含まれるペプチドは、上記に述べた訓練データセットからは除外されていた。

試験データセットを用いて各モデル例を試験するため、モデル例のそれぞれについて、試験データセット内の９３３種のペプチドの各ペプチドについて、モデルによってペプチドの提示尤度の予想を生成した。具体的には、試験データセット内の各ペプチドについて、モデル例１は、ＭＨＣクラスＩＩ分子によるそのペプチドの提示スコアを、ＭＨＣクラスＩＩ分子のタイプ及びペプチド配列を用い、試験データセット内の４つのＨＬＡクラスＩＩＤＲアレルにわたって最小ＮｅｔＭＨＣＩＩ２．３により予想された結合親和性によってペプチドをランク付けすることにより生成した。同様に、試験データセット内の各ペプチドについて、モデル例２は、ＭＨＣクラスＩＩ分子によるそのペプチドの提示スコアを、ＭＨＣクラスＩＩ分子のタイプ及びペプチド配列を用い、試験データセット内の４つのＨＬＡクラスＩＩＤＲアレルにわたって最小ＮｅｔＭＨＣＩＩ２．３により予想された結合ランク（すなわち、ｑｕａｎｔｉｌｅ正規化した結合親和性）によってペプチドをランキングすることにより生成した。試験データセット内の各ペプチドについて、モデル例４は、ＭＨＣクラスＩＩ分子のタイプ及びペプチド配列に基づいてＭＨＣクラスＩＩ分子によるそのペプチドの提示尤度を生成した。同様に、試験データセット内の各ペプチドについて、モデル例３は、ＭＨＣクラスＩＩ分子のタイプ、ペプチド配列、ＲＮＡ発現、遺伝子識別子、及び隣接配列に基づいてＭＨＣクラスＩＩ分子によるそのペプチドの提示尤度を生成した。

これら４つのモデル例のそれぞれの性能を図１３Ｊの線グラフに示す。具体的には、４つのモデル例のそれぞれは、モデルによって生成された各予想について偽陽性率に対する真の陽性率の比を示すＲＯＣ曲線に関連付けられる。例えば、図１３Ｊは、予想を生成するために最小ＮｅｔＭＨＣＩＩ２．３により予想された結合親和性を用いたモデル例１のＲＯＣ曲線、予想を生成するために最小ＮｅｔＭＨＣＩＩ２．３により予想された結合ランクを用いたモデル例２のＲＯＣ曲線、ＭＨＣクラスＩＩ分子のタイプ及びペプチド配列に基づいてペプチド提示尤度を生成したモデル例４のＲＯＣ曲線、ならびに、ＭＨＣクラスＩＩ分子のタイプ、ペプチド配列、ＲＮＡ発現、遺伝子識別子、及び隣接配列に基づいてペプチド提示尤度を生成したモデル例３のＲＯＣ曲線を示している。

上記に述べたように、あるペプチドがＭＨＣクラスＩＩ分子によって提示される尤度を予想するうえでのモデルの性能は、そのモデルによって生成された各予想について偽陽性率に対する真の陽性率の比を示すＲＯＣ曲線のＡＵＣを特定することによって定量化される。ＡＵＣが大きいモデルほど、ＡＵＣが小さいモデルと比較してより高い性能（すなわちより高い精度）を有する。図１３Ｊに示されるように、ＭＨＣクラスＩＩ分子のタイプ、ペプチド配列、ＲＮＡ発現、遺伝子識別子、及び隣接配列に基づいてペプチド提示尤度を生成したモデル例３の曲線は、０．９５と最も高いＡＵＣを実現した。したがって、ＭＨＣクラスＩＩ分子のタイプ、ペプチド配列、ＲＮＡ発現、遺伝子識別子、及び隣接配列に基づいてペプチド提示尤度を生成したモデル例３は、最も良好な性能を実現した。ＭＨＣクラスＩＩ分子のタイプ及びペプチド配列に基づいてペプチド提示尤度を生成したモデル例４の曲線は、０．９１と２番目に高いＡＵＣを実現した。したがって、ＭＨＣクラスＩＩ分子のタイプ及びペプチド配列に基づいてペプチド提示尤度を生成したモデル例４は、２番目に良好な性能を実現した。予想を生成するために最小ＮｅｔＭＨＣＩＩ２．３により予想した結合親和性を用いたモデル例１の曲線は、０．７５と最も低いＡＵＣとなった。したがって、予想を生成するために最小ＮｅｔＭＨＣＩＩ２．３により予想した結合親和性を用いたモデル例１の曲線は、最も悪い性能となった。予想を生成するために最小ＮｅｔＭＨＣＩＩ２．３により予想した結合ランクを用いたモデル例２の曲線は、０．７６と２番目に低いＡＵＣとなった。したがって、予想を生成するために最小ＮｅｔＭＨＣＩＩ２．３により予想した結合ランクを用いたモデル例２の曲線は、２番目に悪い性能となった。

図１３Ｊに示されるように、モデル例１及び２とモデル例３及び４との間の性能の隔たりは大きい。具体的には、ＮｅｔＭＨＣＩＩ２．３モデル（最小ＮｅｔＭＨＣＩＩ２．３により予想した結合親和性、または最小ＮｅｔＭＨＣＩＩ２．３により予想した結合ランクのいずれかの基準を用いるもの）の性能は、本明細書に開示される提示モデル（ＭＨＣクラスＩＩ分子の種類及びペプチド配列、またはＭＨＣクラスＩＩ分子の種類、ペプチド配列、ＲＮＡ発現、遺伝子識別子、及び隣接配列に基づいてペプチド提示尤度を生成するもの）の性能よりもほぼ２５％低い。したがって、図１３Ｊは、本明細書に開示される提示モデルは、現在のベスト・イン・クラスの従来モデルであるＮｅｔＭＨＣＩＩ２．３モデルよりも大幅に正確な提示予想を実現することが可能であることを示すものである。

いっそうさらには、上記で述べたように、ＮｅｔＭＨＣＩＩ２．３モデルは、ほとんど１５マーペプチドのみで構成された訓練データセットで訓練される。その結果、ＮｅｔＭＨＣＩＩ２．３モデルは、どのペプチド長がＭＨＣクラスＩＩ分子によってより提示されやすいかを学習するようには訓練されない。したがって、ＮｅｔＭＨＣＩＩ２．３モデルは、ＭＨＣクラスＩＩ分子によるペプチド提示の尤度のその予想を、ペプチドの長さにしたがって重み付けしない。換言すれば、ＮｅｔＭＨＣＩＩ２．３モデルは、ＭＨＣクラスＩＩ分子によるペプチド提示の尤度のその予想をアミノ酸１５個の最頻ペプチド長の外側の長さを有するペプチドについては変更しない。その結果、ＮｅｔＭＨＣＩＩ２．３モデルは、アミノ酸１５個よりも長いかまたは短い長さを有するペプチドの提示の尤度を過大に予測する。

これに対して、本明細書に開示される提示モデルは、質量分析によって得られたペプチドデータを用いて訓練されることから、すべての異なる長さのペプチドを含む訓練データセットで訓練することができる。その結果、本明細書に開示される開示モデルは、どのペプチド長がＭＨＣクラスＩＩ分子によってより提示されやすいかを学習することができる。したがって、本明細書に開示される提示モデルは、ＭＨＣクラスＩＩ分子によるペプチド提示の尤度のその予想を、ペプチドの長さにしたがって重み付けすることができる。換言すれば、本明細書に開示される提示モデルは、ＭＨＣクラスＩＩ分子によるペプチド提示の尤度のそれらの予想をアミノ酸１５個の最頻ペプチド長の外側の長さを有するペプチドについて変更することができる。その結果、本明細書に開示される提示モデルは、現在のベスト・イン・クラスの従来モデルであるＮｅｔＭＨＣＩＩ２．３モデルと比較して、アミノ酸１５個よりも長いかまたは短い長さを有するペプチドについて、大幅に正確な提示予想を実現することが可能である。これは、ＭＨＣクラスＩＩ分子によるペプチド提示の尤度を予想するために本明細書に開示される提示モデルを用いることの利点の１つである。

Ｘ．Ｂ．ＭＨＣアレルについて求められるパラメータの例
以下は、クラスＩＩＭＨＣアレルであるＨＬＡ－ＤＲＢ１＊１２：０１及びＨＬＡ－ＤＲＢ１＊１０：０１についての潜在的なアレルごとの提示尤度を生成する複数アレル提示モデル（式（１６））のバリエーションについて求められるパラメータのセットを示す。

式中、ｒｅｌｕ（・）は、正規化線形ユニット（ＲｅＬＵ）関数、Ｗ^１、ｂ^１、Ｗ^２、及びｂ^２は、モデルについて求められたパラメータθのセットである。アレル相互作用変数Ｘは、入力ペプチド当たり１行のワンホットエンコードされ、中間パッド化された（ｍｉｄｄｌｅ－ｐａｄｄｅｄ）ペプチド配列からなる（１×３９９）行列に含まれる。Ｗ^１の次元は（３９９×２５６）、ｂ^１の次元は（１×２５６）、Ｗ^２の次元は（２５６×２）、ｂ^２の次元は（１×２）である。出力の第１の列は、アレルＨＬＡ－ＤＲＢ１＊１２：０１によるそのペプチド配列の潜在的なアレルごとの提示の確率を示し、出力の第２の列は、アレルＨＬＡ－ＤＲＢ１＊１０：０１によるそのペプチド配列の潜在的なアレルごとの提示の確率を示す。デモンストレーションの目的で、ｂ^１、ｂ^２、Ｗ^１、及びＷ^２の値を以下に示す。

ＸＩ．例示的なコンピュータ
図１４は、図１及び図３に示した実体を実施するための例示的なコンピュータ１４００を説明する。コンピュータ１４００は、チップセット１４０４に連結された少なくとも１つのプロセッサ１４０２を含む。チップセット１４０４は、メモリコントローラハブ１４２０及び入力／出力（Ｉ／Ｏ）コントローラハブ１４２２を含む。メモリ１４０６及びグラフィックスアダプタ１４１２は、メモリコントローラハブ１４２０に連結されており、ディスプレイ１４１８は、グラフィックスアダプタ１４１２に連結されている。記憶デバイス１４０８、入力装置１４１４、及びネットワークアダプタ１４１６は、Ｉ／Ｏコントローラハブ１４２２に連結されている。コンピュータ１４００の他の実施形態は、異なるアーキテクチャを有する。

記憶デバイス１４０８は、ハードドライブ、コンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、ＤＶＤ、またはソリッドステートメモリ装置などの、非一時的なコンピュータ可読の記憶媒体である。メモリ１４０６は、プロセッサ１４０２によって使用される命令及びデータを保持する。入力インターフェイス１４１４は、タッチスクリーンインターフェイス、マウス、トラックボール、もしくは他のタイプのポインティングデバイス、キーボード、またはそれらのいくつかの組み合わせであり、データをコンピュータ１４００中に入力するために使用される。いくつかの実施形態において、コンピュータ１４００は、ユーザーからのジェスチャーを介して、入力インターフェイス１４１４からの入力（例えば、コマンド）を受け取るように構成されていてもよい。グラフィックスアダプタ１４１２は、ディスプレイ１４１８上に画像及び他の情報を表示する。ネットワークアダプタ１４１６は、コンピュータ１４００を、１つ以上のコンピュータネットワークに連結する。

コンピュータ１４００は、本明細書に記載した機能性を提供するためのコンピュータプログラムモジュールを遂行するように適合している。本明細書において使用される場合、「モジュール」という用語は、特定の機能性を提供するために使用されるコンピュータプログラム論理を指す。したがって、モジュールは、ハードウェア、ファームウェア、及び／またはソフトウェアにおいて実行されることができる。一実施形態では、プログラムモジュールは、記憶デバイス１４０８に保存され、メモリ１４０６中にロードされ、プロセッサ１４０２によって遂行される。

図１の実体によって使用されるコンピュータ１４００のタイプは、実体によって必要とされる実施形態及びプロセシングパワーに応じて変動することができる。例えば、提示特定システム１６０は、単一のコンピュータ１４００、または、例えばサーバーファームにおいてネットワークを通して互いに通信する複数のコンピュータ１４００において、起動することができる。コンピュータ１４００は、グラフィックスアダプタ１４１２及びディスプレイ１４１８などの、上記の構成要素のうちのいくつかを欠いてもよい。

参考文献

Claims

対象の１つまたは複数の腫瘍細胞に由来する、前記腫瘍細胞の表面上に提示される可能性の高い１つ以上の新生抗原を特定することによって、個別化されたがんワクチンを構築するための出力を生成するための方法であって、
前記対象の前記腫瘍細胞及び正常細胞からエクソーム、トランスクリプトーム、または全ゲノムのヌクレオチドシークエンシングデータのうちの少なくとも１つを取得する工程であって、前記ヌクレオチドシークエンシングデータを用いて、前記腫瘍細胞由来のヌクレオチドシークエンシングデータと前記正常細胞由来のヌクレオチドシークエンシングデータとの比較により特定された新生抗原のセットの各新生抗原のペプチド配列を表すデータが取得され、各新生抗原のペプチド配列が、前記ペプチド配列を前記対象の前記正常細胞から特定された対応する野生型ペプチド配列とは異なるものとする少なくとも１つの変化を含む、工程；
前記新生抗原のそれぞれの前記ペプチド配列を、対応する数値ベクトルにエンコードする工程であって、各数値ベクトルが、前記ペプチド配列を構成する複数のアミノ酸と、前記ペプチド配列における前記アミノ酸の位置のセットとに関する情報を含む、工程；
コンピュータのプロセッサを使用して前記数値ベクトルをディープラーニング提示モデルに入力して、前記新生抗原のセットについての提示尤度のセットを生成する、工程であって、前記セット内の各提示尤度が、対応する新生抗原が１つ以上のクラスＩＩＭＨＣアレルによって前記対象の前記腫瘍細胞の前記表面上に提示される尤度を表し、前記ディープラーニング提示モデルが、少なくとも訓練データセットに基づいて特定される複数のパラメータ、ならびに、入力として受け取られた前記数値ベクトルと、前記数値ベクトル及び前記パラメータに基づいた出力として生成される前記提示尤度との間の関係を表す関数を含み、
前記訓練データセットが、
複数の試料のうちの少なくとも１つに存在すると特定された、少なくとも１つのクラスＩＩＭＨＣアレルに結合したペプチドの存在を測定する質量分析によって得られた、ラベル、
数値ベクトルとしてエンコードされた訓練ペプチド配列であって、前記数値ベクトルが、前記ペプチド配列を構成する複数のアミノ酸と、前記ペプチド配列における前記アミノ酸の位置のセットとに関する情報を含む、訓練ペプチド配列、及び
前記訓練ペプチド配列に関連付けられた、少なくとも１つのＨＬＡアレル
を含む、工程；
前記提示尤度のセットに基づいて前記新生抗原のセットのサブセットを選択して、選択された新生抗原のセットを生成する、工程；ならびに
前記選択された新生抗原のセットに基づいて、前記個別化されたがんワクチンを構築するための前記出力を生成する工程
を含む、前記方法。
前記ペプチド配列をエンコードする工程が、ワンホットエンコーディングスキームを用いて前記ペプチド配列をエンコードすることを含む、請求項１に記載の方法。
前記数値ベクトルを前記ディープラーニング提示モデルに入力することが、
前記新生抗原の前記ペプチド配列に前記ディープラーニング提示モデルを適用して、前記ペプチド配列の特定の位置の特定のアミノ酸に基づいて、前記１つ以上のクラスＩＩＭＨＣアレルのそれぞれについての依存性スコアを生成することであって、前記依存性スコアが、前記クラスＩＩＭＨＣアレルが前記新生抗原を提示するかどうかを示す、こと
を含む、請求項１または２に記載の方法。
前記数値ベクトルを前記ディープラーニング提示モデルに入力することが、
前記依存性スコアを変換して、各クラスＩＩＭＨＣアレルについての対応するアレルごとの尤度を生成することであって、前記アレルごとの尤度が、対応するクラスＩＩＭＨＣアレルが前記対応する新生抗原を提示する尤度を示す、こと、及び
前記アレルごとの尤度を組み合わせて、前記新生抗原の前記提示尤度を生成する、こと
をさらに含む、請求項３に記載の方法。
前記依存性スコアを変換することが、前記新生抗原の提示を、前記１つ以上のクラスＩＩＭＨＣアレルにわたって相互排他的なものとしてモデル化する、請求項４に記載の方法。
前記数値ベクトルを前記ディープラーニング提示モデルに入力することが、前記依存性スコアの組み合わせを変換して前記提示尤度を生成することをさらに含み、
前記依存性スコアの組み合わせを変換することが、前記新生抗原の提示を、前記１つ以上のクラスＩＩＭＨＣアレル間で干渉するものとしてモデル化する、
請求項３に記載の方法。
前記提示尤度のセットが、少なくとも１つ以上のアレル非相互作用特性によってさらに特定され、前記方法が、
前記アレル非相互作用特性に前記提示モデルを適用して、前記アレル非相互作用特性に基づいて、前記アレル非相互作用特性についての依存性スコアを生成する工程であって、前記依存性スコアが、前記対応する新生抗原のペプチド配列が提示されるかどうかを示す、工程
をさらに含む、請求項３に記載の方法。
前記１つ以上のクラスＩＩＭＨＣアレルの各クラスＩＩＭＨＣアレルについての前記依存性スコアを、前記アレル非相互作用特性についての前記依存性スコアと組み合わせること；
各クラスＩＩＭＨＣアレルについての前記組み合わされた依存性スコアを変換して、各クラスＩＩＭＨＣアレルについてのアレルごとの尤度を生成することであって、前記アレルごとの尤度が、前記対応するクラスＩＩＭＨＣアレルが前記対応する新生抗原を提示する尤度を示す、こと；及び
前記アレルごとの尤度を組み合わせて、前記提示尤度を生成する、こと
をさらに含む、請求項７に記載の方法。
前記クラスＩＩＭＨＣアレルのそれぞれについての前記依存性スコアと、前記アレル非相互作用特性についての前記依存性スコアとの組み合わせを変換して、前記提示尤度を生成する、こと
をさらに含む、請求項８に記載の方法。
前記１つ以上のクラスＩＩＭＨＣアレルが、２つ以上のクラスＩＩＭＨＣアレルを含む、請求項１～９のいずれか一項に記載の方法。
前記少なくとも１つのクラスＩＩＭＨＣアレルが、２つ以上の異なるタイプのクラスＩＩＭＨＣアレルを含む、請求項１～１０のいずれか一項に記載の方法。
前記複数の試料が、
（ａ）１つのＭＨＣクラスＩＩアレルを発現するように操作された１つ以上の細胞株、
（ｂ）複数のＭＨＣクラスＩＩアレルを発現するように操作された１つ以上の細胞株、
（ｃ）複数の患者から得られた、または複数の患者に由来する１つ以上のヒト細胞株、
（ｄ）複数の患者から得られた新鮮なまたは凍結された腫瘍試料、及び
（ｅ）複数の患者から得られた新鮮なまたは凍結された組織試料
のうちの少なくとも１つを含む、請求項１～１１のいずれか一項に記載の方法。
前記訓練データセットが、
（ａ）単離されたペプチドの少なくとも１つについてのペプチド－ＭＨＣ結合親和性の測定値に関連するデータ、及び
（ｂ）単離されたペプチドの少なくとも１つについてのペプチド－ＭＨＣ結合安定性の測定値に関連するデータ
のうちの少なくとも１つをさらに含む、請求項１～１２のいずれか一項に記載の方法。
前記提示尤度のセットが、少なくとも、前記対象における前記１つ以上のクラスＩＩＭＨＣアレルの発現レベルによって、さらに特定され、前記発現レベルがＲＮＡ－ｓｅｑまたは質量分析により測定される、請求項１～１３のいずれか一項に記載の方法。
前記提示尤度のセットが、少なくともアレル相互作用特性によってさらに特定され、前記アレル相互作用特性が、
（ａ）前記新生抗原のセット内の新生抗原と前記１つ以上のＭＨＣアレルとの間の予想される親和性、及び
（ｂ）前記新生抗原によりコードされるペプチド－ＭＨＣ複合体の予想される安定性
のうちの少なくとも１つを含む、請求項１～１４のいずれか一項に記載の方法。
前記提示尤度のセットが、少なくともＭＨＣ－アレル非相互作用特性によってさらに特定され、前記ＭＨＣ－アレル非相互作用特性が、
（ａ）そのソースタンパク質配列内の、前記新生抗原によりコードされるペプチドに隣接するＣ末端側配列、及び
（ｂ）そのソースタンパク質配列内の、前記新生抗原によりコードされるペプチドに隣接するＮ末端側配列
のうちの少なくとも１つを含む、請求項１～１５のいずれか一項に記載の方法。
前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、前記腫瘍細胞表面上に提示される尤度が高い新生抗原を選択することを含む、請求項１～１６のいずれか一項に記載の方法。
前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、前記対象において腫瘍特異的な免疫応答を誘導することができる尤度が高い新生抗原を選択することを含む、請求項１～１７のいずれか一項に記載の方法。
前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、プロフェッショナル抗原提示細胞（ＡＰＣ）によってナイーブＴ細胞に提示されることができる尤度が高い新生抗原を選択することを含み、任意で、前記ＡＰＣが樹状細胞（ＤＣ）である、請求項１～１８のいずれか一項に記載の方法。
前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、中枢性寛容または末梢性寛容によって阻害される尤度が低い新生抗原を選択することを含む、請求項１～１９のいずれか一項に記載の方法。
前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、前記対象において正常組織に対する自己免疫応答を誘導することができる尤度が低い新生抗原を選択することを含む、請求項１～２０のいずれか一項に記載の方法。
前記１つまたは複数の腫瘍細胞が、肺癌、メラノーマ、乳癌、卵巣癌、前立腺癌、腎臓癌、胃癌、結腸癌、精巣癌、頭頸部癌、膵臓癌、脳癌、Ｂ細胞リンパ腫、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ球性白血病、Ｔ細胞リンパ球性白血病、非小細胞肺癌、及び小細胞肺癌からなる群より選択される、請求項１～２１のいずれか一項に記載の方法。
腫瘍ワクチンを製造する方法であって、請求項１～２２のいずれか一項に記載の工程を行うことを含み、前記選択された新生抗原のセットを含む腫瘍ワクチンを生産するかまたは生産したことをさらに含む、前記方法。
前記サブセットの中の前記新生抗原のうちの少なくとも１つに対して抗原特異的な１つ以上のＴ細胞を同定する工程をさらに含む、請求項１～２３のいずれか一項に記載の方法。
前記同定する工程が、前記１つ以上の抗原特異的Ｔ細胞を拡大増殖させる条件下で前記１つ以上のＴ細胞を前記サブセットの中の前記新生抗原のうちの１つ以上と共培養することを含む、請求項２４に記載の方法。
前記同定する工程が、前記１つ以上のＴ細胞を、前記サブセットの中の前記新生抗原のうちの１つ以上を含むテトラマーと、前記Ｔ細胞と前記テトラマーとの結合が可能な条件下で接触させることを含む、請求項２４に記載の方法。
前記１つ以上の同定されたＴ細胞の１つ以上のＴ細胞受容体（ＴＣＲ）を同定する工程をさらに含む、請求項２４～２６のいずれか一項に記載の方法。
前記１つ以上のＴ細胞受容体を同定する工程が、前記１つ以上の同定されたＴ細胞のＴ細胞受容体配列をシークエンシングすることを含む、請求項２７に記載の方法。
請求項１～２７のいずれか一項に記載の工程を行う工程を含み；および
前記サブセットの中の前記新生抗原のうちの少なくとも１つに対して抗原特異的な１つ以上のインビトロもしくはエクスビボＴ細胞を同定する工程をさらに含む、
少なくとも１つの選択された新生抗原に対して抗原特異的なインビトロもしくはエクスビボＴ細胞を製造する方法。
前記１つ以上の同定されたＴ細胞受容体の少なくとも１つを発現するように複数のＴ細胞を遺伝子操作する工程、及び
前記複数のＴ細胞を拡大増殖させる条件下で前記複数のＴ細胞を培養する工程、
をさらに含む、請求項２７または２８に記載の方法。
前記１つ以上の同定されたＴ細胞受容体のうちの少なくとも１つを発現するように前記複数のＴ細胞を遺伝子操作する工程が、
前記１つ以上の同定されたＴ細胞の前記Ｔ細胞受容体配列を発現ベクターにクローニングすること、
を含む、請求項３０に記載の方法。
前記１つ以上の同定されたＴ細胞を拡大増殖させる条件下で前記１つ以上の同定されたＴ細胞を培養する工程、
をさらに含む、請求項２４～２８及び請求項３０～３１のいずれか一項に記載の方法。