JP2020523010A

JP2020523010A - 新生抗原の特定、製造、及び使用

Info

Publication number: JP2020523010A
Application number: JP2019567557A
Authority: JP
Inventors: ブレンダンブリク−スリバン; ローマンヤレンスカイ; ジェニファーバスビー; アドナンデルティ
Original assignee: グリットストーンオンコロジーインコーポレイテッド
Priority date: 2017-06-09
Filing date: 2018-06-08
Publication date: 2020-08-06
Also published as: IL271038A; EP3635594A4; WO2018227030A1; SG11201911620PA; NZ759958A; EP3635594A1; AU2018279627A1; CN110720127A; AU2018279627B2; CA3066635A1; US20200105377A1; JP2023134542A; KR20200016265A

Abstract

本明細書では、個人の腫瘍変異に基づいて決定される、アレル、新生抗原、及びワクチン組成物を決定するためのシステム及び方法を開示する。腫瘍から高品質のシークエンシングデータを得るためのシステム及び方法も開示する。さらに本明細書では、多型ゲノムデータ内の体細胞変化を同定するためのシステム及び方法について記載する。さらに本明細書では、治療に適した患者のサブセットを選択するためのシステム及び方法について記載する。腫瘍細胞の表面上に提示される新生抗原の推定数を示す有用性スコアが、その患者について特定された１つ以上の新生抗原候補に基づいて各患者について決定される。患者の前記サブセットは、決定された有用性スコアに基づいて選択される。選択されたサブセットの患者は、新生抗原ワクチンまたはチェックポイント阻害剤療法などの治療を受けることができる。最後に本明細書では、独自のがんワクチンについて記載する。【選択図】図１３Ｂ

Description

関連出願の相互参照
本出願は、その全容を参照により本明細書に援用するところの２０１７年６月９日出願の米国特許仮出願第６２／５１７，７８６号の利益を主張する。

背景
腫瘍特異的な新生抗原に基づいた治療用ワクチンは、次世代の個別化がん免疫療法として極めて有望である。^１〜３非小細胞肺癌（ＮＳＣＬＣ）及びメラノーマなどの高い遺伝子変異量を有するがんは、新生抗原を生じる可能性が比較的高いことから、かかる治療法の特に有望な標的である。^４，５初期の証拠により、新生抗原に基づいたワクチン接種がＴ細胞応答を誘発し^６、新生抗原を標的とした細胞療法が、選択された患者において腫瘍退縮を引き起こしうる^７ことが示されている。ＭＨＣクラスＩ及びＭＨＣクラスＩＩはいずれもＴ細胞の応答に影響を及ぼす^{７０〜７１}。

新生抗原ワクチンの設計に関する１つの疑問は、対象とする腫瘍に存在する多数のコーディング変異のうちのどれが「最良の」治療用新生抗原（例えば、抗腫瘍免疫を誘発し、腫瘍退縮を引き起こすことができる抗原）を生じることができるか、ということである。

次世代のシークエンシング、ＲＮＡ遺伝子発現、及び新生抗原ペプチドのＭＨＣ結合親和性の予測を用いた、変異に基づいた分析を取り入れた初期の方法が提案されている^８。しかしながら、これらの提案されている方法では、遺伝子発現及びＭＨＣ結合以外の多くの段階（例えば、ＴＡＰ輸送、プロテアソーム切断、ＭＨＣ結合、ペプチド−ＭＨＣ複合体の細胞表面への輸送、及び／またはＭＨＣ−ＩのＴＣＲによる認識；エンドサイトーシスまたはオートファジー、細胞外またはリソソームプロテアーゼ（例えばカテプシン）による切断、ＨＬＡ−ＤＭにより触媒されるＨＬＡ結合に対するＣＬＩＰペプチドとの競合、ペプチド−ＭＨＣ複合体の細胞表面への輸送、及び／またはＭＨＣ−ＩＩのＴＣＲによる認識）を含む^９エピトープ生成プロセスの全体をモデル化することはできない。したがって、既存の方法は、陽性適中率（ＰＰＶ）が低くなるという問題を有する傾向にある（図１Ａ）。

実際、複数の群によって実施された、腫瘍細胞により提示されるペプチドの分析は、遺伝子発現及びＭＨＣ結合親和性を用いて提示されることが予測されたペプチドの５％未満しか腫瘍表面のＭＨＣ上に見られないことを示している^{１０，１１}（図１Ｂ）。結合予測とＭＨＣ提示との間のこのような低い相関は、変異の数単独に対してチェックポイント阻害剤反応について結合に制限された新生抗原の予測精度の向上が認められないことによってさらに指示されている^１２。

提示を予測するための既存の方法のこのような低い陽性適中率（ＰＰＶ）は、新生抗原に基づいたワクチンの設計において問題を提示する。ＰＰＶの低い予測を用いてワクチンが設計される場合、大部分の患者で治療用新生抗原が投与される可能性は低くなり、複数の新生抗原が投与される患者はさらに少なくなるものと考えられる（提示されるペプチドのすべてが免疫原性であると仮定したとしても）。したがって、現行の方法による新生抗原ワクチン接種は、腫瘍を有する対象の相当数において奏功する可能性は低い（図１Ｃ）。

さらに、これまでのアプローチは、シス作用性の変異のみを用いて候補新生抗原を生成するものであり、複数の腫瘍タイプで生じ、多くの遺伝子で異常スプライシングにつながるスプライシング因子の変異^１３、及びプロテアーゼ切断部位を生じるかまたは除去する変異を含む、新生ＯＲＦのさらなるソースをほとんどの場合で考慮していなかった。

最後に、腫瘍ゲノム及びトランスクリプトーム解析に対する標準的アプローチは、ライブラリ構築、エクソーム及びトランスクリプトームの捕捉、シークエンシング、またはデータ分析における最適に満たない条件のために、候補新生抗原を生ずる体細胞突然変異を見逃す可能性がある。同様に、標準的な腫瘍分析のアプローチでは、配列アーチファクトまたは生殖系列多型を新生抗原として誤って助長してしまう場合があり、それぞれワクチン容量の非効率的な利用または自己免疫のリスクにつながりうる。

概要
本明細書では、個別化がんワクチン用の新生抗原を特定及び選択するための最適化されたアプローチが開示される。第１に、次世代シークエンシング（ＮＧＳ）を用いた新生抗原候補を特定するための最適化された腫瘍エクソーム及びトランスクリプトーム解析アプローチに対する取り組みを行う。これらの方法は、最も感度及び特異性の高い新生抗原候補がすべてのクラスのゲノム変化にわたって発展されるように、ＮＧＳによる腫瘍解析の標準的アプローチに立脚したものである。第２に、特異性の問題を克服し、ワクチン添加用に開発される新生抗原が抗腫瘍免疫をより誘発しやすくするために高ＰＰＶの新生抗原選択に対する新規なアプローチが提供される。これらのアプローチには、実施形態に応じて、ペプチド−アレルマッピングを共にモデル化する訓練された統計学的回帰または非線形ディープラーニングモデル、ならびに異なる長さのペプチドにわたって統計学的効力を共有する、複数の長さのペプチドについてのアレル毎のモチーフが含まれる。特に非線形ディープラーニングモデルは同じ細胞内の異なるＭＨＣアレルを独立したものとして扱うように設計及び訓練することができるため、線形モデル同士が互いに干渉する線形モデルに伴う問題が解決される。最後に、新生抗原に基づいた個別化ワクチンの設計及び製造に関するさらなる懸案事項が解決される。

本明細書では、治療に適した患者のサブセットを特定するための方法も開示する。各患者の腫瘍細胞及び正常細胞から、エクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも１つが取得される。腫瘍ヌクレオチドシークエンシングデータを用いて、腫瘍細胞からのヌクレオチドシークエンシングデータと正常細胞からのヌクレオチドシークエンシングデータとを比較することによって特定された新生抗原のセットのそれぞれのペプチド配列が得られる。患者の各新生抗原のペプチド配列は、それを患者の正常細胞から特定された対応する野生型の親ペプチド配列とは異なるものとする少なくとも１つの変化を含む。新生抗原のセットのそれぞれのペプチド配列を、機械学習させた提示モデルに入力することにより、各患者について新生抗原のセットの数値的提示尤度のセットが生成される。各提示尤度は、対応する新生抗原が患者の腫瘍細胞の表面上の１つ以上のＭＨＣアレルによって提示される尤度を表す。提示尤度のセットは少なくとも質量分析データに基づいて特定されたものである。患者の新生抗原のセットから１つ以上の新生抗原が特定される。患者についての１つ以上の新生抗原の対応する提示尤度によって決定される、患者の腫瘍細胞の表面上に提示される新生抗原の推定数を示す有用性スコアが、それぞれの患者について決定される。患者のサブセットが治療を行うために選択される。この患者のサブセット内の各患者は、所定の組み入れ基準を満たす有用性スコアと関連する。選択されたサブセットの患者に新生抗原ワクチンまたはチェックポイント阻害剤療法などの治療を行うことができる。

本発明のこれらの特徴、態様、及び側面、ならびに他の特徴、態様、及び側面は、以下の説明文及び添付の図面に関してより深い理解が得られるであろう。

新生抗原の特定に対する現在の臨床的アプローチを示す。予測された結合ペプチドのうち、腫瘍細胞上に提示されるものは５％未満であることを示す。新生抗原予測の特異性の問題の影響を示す。結合予測が、新生抗原の特定に充分ではないことを示す。ペプチド長の関数としてのＭＨＣ−Ｉ提示の確率を示す。Ｐｒｏｍｅｇａ社のダイナミックレンジ標準から生成された、例示的なペプチドスペクトルを示す。特性の追加が、いかにモデルの陽性適中率を増大させるかを示す。一実施形態による、患者におけるペプチド提示の尤度を特定するための環境の概略である。一実施形態による、提示情報を取得する方法を説明する。一実施形態による、提示情報を取得する方法を説明する。一実施形態による、提示特定システムのコンピュータ論理構成要素を説明する、ハイレベルブロック図である。一実施形態による、訓練データの例示的なセットを説明する。ＭＨＣアレルに関連した例示的なネットワークモデルを説明する。一実施形態による、ＭＨＣアレルによって共有される例示的なネットワークモデルＮＮ_Ｈ（・）別の実施形態による、ＭＨＣアレルによって共有される例示的なネットワークモデルＮＮ_Ｈ（・）例示的なネットワークモデルを用いた、ＭＨＣアレルに関連したペプチドの提示尤度の生成を説明する。例示的なネットワークモデルを用いた、ＭＨＣアレルに関連したペプチドの提示尤度の生成を説明する。例示的なネットワークモデルを用いた、ＭＨＣアレルに関連したペプチドの提示尤度の生成を説明する。例示的なネットワークモデルを用いた、ＭＨＣアレルに関連したペプチドの提示尤度の生成を説明する。例示的なネットワークモデルを用いた、ＭＨＣアレルに関連したペプチドの提示尤度の生成を説明する。例示的なネットワークモデルを用いた、ＭＨＣアレルに関連したペプチドの提示尤度の生成を説明する。ＮＳＣＬＣ患者における腫瘍変異負荷の標本度数分布を示す。一実施形態による、患者が最小腫瘍変異負荷を満たすかどうかの組み入れ基準に基づいて選択された患者に対してシミュレートしたワクチンにおける提示される新生抗原の数を示す。一実施形態による、提示モデルに基づいて特定された治療サブセットを含むワクチンに関連付けられた選択された患者と、従来技術のモデルによって特定された治療サブセットを含むワクチンに関連付けられた選択された患者との間のシミュレートしたワクチンにおける提示される新生抗原の数を比較したものである。ＨＬＡ−Ａ＊０２：０１についての単一アレル毎提示モデルに基づいて特定された治療サブセットを含むワクチンに関連付けられた選択された患者と、ＨＬＡ−Ａ＊０２：０１及びＨＬＡ−Ｂ＊０７：０２についてのアレル毎提示モデルの両方に基づいて特定された治療サブセットを含むワクチンに関連付けられた選択された患者との間のシミュレートしたワクチンにおける提示される新生抗原の数を比較したものである。一実施形態によれば、ワクチン容量は、ｖ＝２０種類のエピトープに設定される。一実施形態による、腫瘍変異負荷に基づいて選択された患者と、期待有用性スコアにより選択された患者との間でシミュレートしたワクチンにおける提示される新生抗原の数を比較したものである。図１及び３に示した実体を実施するための例示的なコンピュータを説明する。

詳細な説明
Ｉ．定義
一般に、特許請求の範囲及び明細書において使用される用語は、当業者により理解される通常の意味を有するものとして解釈されるものとする。特定の用語を、さらなる明確性を与えるために下記に定義する。通常の意味と与えられる定義との間に矛盾が存在する場合、与えられる定義が用いられるものとする。

本明細書で使用するところの「抗原」という用語は、免疫反応を誘導する物質のことである。

本明細書で使用するところの「新生抗原」という用語は、例えば、腫瘍細胞の変異、または腫瘍細胞に特異的な翻訳後修飾によって、抗原を対応する野生型の親抗原とは異なるものとする少なくとも１つの変化を有する抗原のことである。新生抗原は、ポリペプチド配列またはヌクレオチド配列を含んでよい。変異は、フレームシフトもしくは非フレームシフト挿入欠失（ｉｎｄｅｌ）、ミスセンスもしくはナンセンス置換、スプライス部位変化、ゲノム再編成もしくは遺伝子融合、または、新生ＯＲＦを生じる任意のゲノム変化もしくは発現変化を含むことができる。変異はまた、スプライス変異体も含むことができる。腫瘍細胞に特異的な翻訳後修飾は、異常リン酸化を含むことができる。腫瘍細胞に特異的な翻訳後修飾はまた、プロテアソームによって生成されるスプライス抗原も含むことができる。Ｌｉｅｐｅｅｔａｌ．，ＡｌａｒｇｅｆｒａｃｔｉｏｎｏｆＨＬＡｃｌａｓｓＩｌｉｇａｎｄｓａｒｅｐｒｏｔｅａｓｏｍｅ− ｇｅｎｅｒａｔｅｄｓｐｌｉｃｅｄｐｅｐｔｉｄｅｓ；Ｓｃｉｅｎｃｅ．２０１６Ｏｃｔ２１；３５４（６３１０）：３５４−３５８を参照されたい。

本明細書で使用するところの「腫瘍新生抗原」という用語は、対象の腫瘍細胞または組織中に存在するが、対象の対応する正常細胞または組織中には存在しない新生抗原のことである。

本明細書において使用される場合、「新生抗原ベースのワクチン」という用語は、１つ以上の新生抗原、例えば複数の新生抗原に基づいたワクチンコンストラクトのことである。

本明細書において使用される場合、「候補新生抗原」という用語は、新生抗原を表しうる新たな配列を生じる変異、または他の異常のことである。

本明細書において使用される場合、「コード領域」という用語は、タンパク質をコード化する遺伝子の部分のことである。

本明細書において使用される場合、「コード変異」という用語は、コード領域で生じる変異のことである。

本明細書において使用される場合、「ＯＲＦ」という用語は、オープンリーディングフレームを意味する。

本明細書において使用される場合、「新生ＯＲＦ」という用語は、変異またはスプライシングなどの他の異常により生じる腫瘍特異的なＯＲＦのことである。

本明細書において使用される場合、「ミスセンス変異」という用語は、１つのアミノ酸から別のアミノ酸への置換を引き起こす変異である。

本明細書において使用される場合、「ナンセンス変異」という用語は、アミノ酸から終止コドンへの置換を引き起こす変異である。

本明細書において使用される場合、「フレームシフト変異」という用語は、タンパク質のフレームに変更を引き起こす変異である。

本明細書において使用される場合、「挿入欠失」という用語は、１つ以上の核酸の挿入または欠失である。

本明細書において使用される場合、２つ以上の核酸またはポリペプチドの配列との関連での「同一性」（％）という用語は、下記の配列比較アルゴリズム（例えば、ＢＬＡＳＴＰ及びＢＬＡＳＴＮ、または当業者が利用可能な他のアルゴリズム）のうちの１つを用いて、または目視検査により測定される、最大の一致について比較し、整列させた場合に、ヌクレオチドまたはアミノ酸残基の特定のパーセンテージが同じである２つ以上の配列または部分配列のことを指す。用途に応じて、「同一性」（％）は、比較される配列の領域にわたって、例えば、機能ドメインにわたって存在するか、あるいは、比較される２つの配列の完全長にわたって存在することができる。

配列比較では、一般的に、１つの配列が、試験配列が比較される参照配列として機能する。配列比較アルゴリズムを用いる場合、試験配列及び参照配列をコンピュータに入力し、必要な場合には部分配列座標を指定し、配列アルゴリズムプログラムのパラメータを指定する。次いで、配列比較アルゴリズムが、指定されたプログラムパラメータに基づいて、参照配列に対する試験配列の配列同一性（％）を算出する。あるいは、配列の類似性または相違性は、選択された配列位置（例えば、配列モチーフ）における特定のヌクレオチドの、または翻訳後の配列ではアミノ酸の有無の組み合わせによって確立することもできる。

比較を行うための配列の最適なアラインメントは、例えば、Ｓｍｉｔｈ＆Ｗａｔｅｒｍａｎ，Ａｄｖ．Ａｐｐｌ．Ｍａｔｈ．２：４８２（１９８１）の局所相同性アルゴリズムによって、Ｎｅｅｄｌｅｍａｎ＆Ｗｕｎｓｃｈ，Ｊ．Ｍｏｌ．Ｂｉｏｌ．４８：４４３（１９７０）の相同性アラインメントアルゴリズムによって、Ｐｅａｒｓｏｎ＆Ｌｉｐｍａｎ，Ｐｒｏｃ．Ｎａｔ’ｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ８５：２４４４（１９８８）の類似性の探索法によって、これらのアルゴリズムのコンピュータ処理による実行（ＷｉｓｃｏｎｓｉｎＧｅｎｅｔｉｃｓＳｏｆｔｗａｒｅＰａｃｋａｇｅ，ＧｅｎｅｔｉｃｓＣｏｍｐｕｔｅｒＧｒｏｕｐ，５７５ＳｃｉｅｎｃｅＤｒ．，Ｍａｄｉｓｏｎ，Ｗｉｓ．におけるＧＡＰ、ＢＥＳＴＦＩＴ、ＦＡＳＴＡ、及びＴＦＡＳＴＡ）によって、または目視検査によって実施することができる（一般的には、下記のＡｕｓｕｂｅｌｅｔａｌ．を参照）。

配列同一性（％）及び配列類似性（％）を決定するのに適したアルゴリズムの１つの例として、Ａｌｔｓｃｈｕｌｅｔａｌ．，Ｊ．Ｍｏｌ．Ｂｉｏｌ．２１５：４０３−４１０（１９９０）に記載されるＢＬＡＳＴアルゴリズムがある。ＢＬＡＳＴ解析を行うためのソフトウェアは、ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎを通して公に入手可能である。

本明細書において使用される場合、「ノンストップまたはリードスルー」という用語は、天然の終止コドンの除去を引き起こす変異のことである。

本明細書において使用される場合、「エピトープ」という用語は、抗体またはＴ細胞受容体が一般的に結合する、抗原の特異的な部分のことである。

本明細書において使用される場合、「免疫原性」という用語は、例えば、Ｔ細胞、Ｂ細胞、またはその両方を介して免疫応答を誘発する能力のことである。

本明細書において使用される場合、「ＨＬＡ結合親和性」、「ＭＨＣ結合親和性」という用語は、特異的な抗原と特異的なＭＨＣアレルとの結合の親和性を意味する。

本明細書において使用される場合、「ベイト」という用語は、ＤＮＡまたはＲＮＡの特異的な配列を試料から濃縮するために使用される核酸プローブのことである。

本明細書において使用される場合、「変異」という用語は、対象の核酸と、対照として使用される参照ヒトゲノムとの差である。

本明細書において使用される場合、「変異コール」という用語は、典型的にはシークエンシングからの、変異の存在のアルゴリズム的決定である。

本明細書において使用される場合、「多型」という用語は、生殖細胞系列変異、すなわち、個体のすべてのＤＮＡ保有細胞において見出される変異である。

本明細書において使用される場合、「体細胞変異」という用語は、個体の非生殖系列細胞において生じる変異である。

本明細書において使用される場合、「アレル」という用語は、遺伝子の１つのバージョンまたは遺伝子配列の１つのバージョンまたはタンパク質の１つのバージョンのことである。

本明細書において使用される場合、「ＨＬＡ型」という用語は、ＨＬＡ遺伝子アレルの相補体のことである。

本明細書において使用される場合、「ナンセンス変異依存分解機構」または「ＮＭＤ」という用語は、未成熟な終止コドンに起因する細胞によるｍＲＮＡの分解のことである。

本明細書において使用される場合、「トランカル変異（ｔｒｕｎｃａｌｍｕｔａｔｉｏｎ）」という用語は、腫瘍の発生の初期に生じ、腫瘍の細胞の大部分に存在する変異である。

本明細書において使用される場合、「サブクローナル変異」という用語は、腫瘍の発生において後期に生じ、腫瘍の細胞の一部のみに存在する変異である。

本明細書において使用される場合、「エクソーム」という用語は、タンパク質をコードするゲノムのサブセットである。エクソームは、ゲノムの集合的なエクソンでありうる。

本明細書において使用される場合、「ロジスティック回帰」という用語は、従属変数が１に等しい確率のロジットが従属変数の線形関数としてモデル化される、統計からのバイナリデータ用の回帰モデルである。

本明細書において使用される場合、「ニューラルネットワーク」という用語は、多層の線形変換に続いて一般的に確率的勾配降下法及び逆伝搬により訓練された要素ごとの非線形変換を行うことからなる分類または回帰のための機械学習モデルである。

本明細書において使用される場合、「プロテオーム」という用語は、細胞、細胞の群、または個体によって発現される、及び／または翻訳されるすべてのタンパク質のセットのことである。

本明細書において使用される場合、「ペプチドーム」という用語は、細胞表面上のＭＨＣ−ＩまたはＭＨＣ−ＩＩによって提示されるすべてのペプチドのセットのことである。ペプチドームは、細胞または細胞の集合の性質を指す場合もある（例えば、腫瘍ペプチドームは、腫瘍を含むすべての細胞のペプチドームの和集合を意味する）。

本明細書において使用される場合、「ＥＬＩＳＰＯＴ」という用語は、ヒト及び動物において免疫応答を観察するための一般的な方法である、酵素結合免疫吸着スポットアッセイを意味する。

本明細書において使用される場合、「デキサトラマー」という用語は、フローサイトメトリーにおいて抗原特異的Ｔ細胞染色に使用される、デキストランベースのペプチド−ＭＨＣマルチマーである。

本明細書において使用される場合、「寛容または免疫寛容」という用語は、１つ以上の抗原、例えば、自己抗原に対する免疫不応答の状態のことである。

本明細書において使用される場合、「中枢性寛容」という用語は、自己反応性Ｔ細胞クローンを欠失させること、または自己反応性Ｔ細胞クローンの免疫抑制性制御性Ｔ細胞（Ｔｒｅｇ）への分化を促進することのいずれかにより、胸腺において与えられる寛容である。

本明細書において使用される場合、「末梢性寛容」という用語は、中枢性寛容を生き延びた自己反応性Ｔ細胞を下方制御もしくはアネルギー化すること、またはこれらのＴ細胞のＴｒｅｇへの分化を促進することにより、末梢系において与えられる寛容である。

「試料」という用語は、静脈穿刺、排泄、射精、マッサージ、生検、針吸引、洗浄試料、擦過、外科的切開、もしくは介入、または当技術分野において公知の他の手段を含む手段によって対象から採取された、単一細胞、または複数の細胞、または細胞の断片、または体液のアリコートを含むことができる。

「対象」という用語は、インビボ、エクスビボ、またはインビトロ、雄または雌のいずれかの、細胞、組織、または生物体、ヒトまたは非ヒトを包含する。対象という用語は、ヒトを含む哺乳動物を含める。

「哺乳動物」という用語は、ヒト及び非ヒトの両方を包含し、ヒト、非ヒト霊長類、イヌ、ネコ、マウス、ウシ、ウマ、及びブタを含むが、それらに限定されない。

「臨床的因子」という用語は、対象の状態、例えば、疾患の活性または重症度の測定を指す。「臨床的因子」は、非試料マーカーを含む、対象の健康状態のすべてのマーカー、ならびに／または、非限定的に年齢及び性別などの、対象の他の特徴を包含する。臨床的因子は、対象または所定の条件下の対象由来の試料（または試料の集団）の評定から取得され得るスコア、値、または値のセットであることができる。臨床的因子はまた、マーカー、及び／または遺伝子発現代替物などの他のパラメータによっても予測することができる。臨床的因子は、腫瘍タイプ、腫瘍サブタイプ、及び喫煙歴を含むことができる。

略語：ＭＨＣ：主要組織適合性複合体；ＨＬＡ：ヒト白血球抗原、またはヒトＭＨＣ遺伝子座；ＮＧＳ：次世代シークエンシング；ＰＰＶ：陽性適中率；ＴＳＮＡ：腫瘍特異的新生抗原；ＦＦＰＥ：ホルマリン固定パラフィン包埋；ＮＭＤ：ナンセンス変異依存分解機構；ＮＳＣＬＣ：非小細胞肺癌；ＤＣ：樹状細胞。

本明細書及び添付の特許請求の範囲において使用される場合、単数形「ａ」、「ａｎ」、及び「ｔｈｅ」は、文脈によってそうでない旨が明示されない限り、複数の指示物を含む点に留意されたい。

本明細書において直接定義されていない用語は、本発明の技術分野の範囲内で理解されるような、一般的にそれらに付随する意味を有するものとして理解されるべきである。本発明の態様の組成物、装置、方法など、ならびにそれらの製造または使用法を説明するうえで実施者にさらなる手引きを与える目的で特定の用語が本明細書で検討される。同じものについて複数の言い方がなされうる点は認識されるであろう。したがって、代替的な語及び同義語が、本明細書で検討される用語の任意の１つ以上について用いられる場合がある。本明細書においてある用語が詳述または検討されているか否かに重きが置かれるべきではない。いくつかの同義語または代用可能な方法、材料などが提供される。１つまたは数個の同義語または均等物の記載は、明確に述べられない限り、他の同義語または均等物の使用を除外しない。用語の例を含む例の使用は、あくまで説明を目的としたものにすぎず、本明細書における発明の態様の範囲及び意味を限定しない。

本明細書の本文において引用されるすべての参照文献、発行特許、及び特許出願は、あらゆる目的でそれらの全容を参照により本明細書に援用するものである。

ＩＩ．新生抗原を特定する方法
本明細書では、腫瘍の細胞表面上に提示される可能性が高い、及び／または免疫原性を有する可能性が高い、対象の腫瘍由来の新生抗原を特定するための方法を開示する。例として、かかる１つの方法は、対象の腫瘍細胞から、エクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも１つを取得する工程であって、前記腫瘍ヌクレオチドシークエンシングデータを用いて新生抗原のセットの各々のペプチド配列を表すデータが取得され、各新生抗原のペプチド配列が、ペプチド配列を対応する野生型の親ペプチド配列とは異なるものにする少なくとも１つの変化を含む、前記工程と、対象の腫瘍細胞の腫瘍細胞表面上の１つ以上のＭＨＣアレルによって、または腫瘍内に存在する細胞によって新生抗原の各々が提示される数値的尤度のセットを生成するために、各新生抗原のペプチド配列を、１つ以上の提示モデルに入力する工程であって、前記数値的尤度のセットが、受け取った質量分析データに少なくとも基づいて特定されている、前記工程と、選択された新生抗原のセットを生成するために、前記新生抗原のセットのサブセットを、前記数値的尤度のセットに基づいて選択する工程と、を含む。

提示モデルは、対応するラベルのセットを含む参照データのセット（訓練データセットとも呼ばれる）で訓練された、統計学的回帰または機械学習（例えば、ディープラーニング）モデルを含むことができ、前記参照データのセットは、場合により一部の対象が腫瘍を有しうる複数の別個の対象の各々から取得され、また、前記参照データのセットは、腫瘍組織由来のエクソームヌクレオチド配列を表すデータ、正常組織由来のエクソームヌクレオチド配列を表すデータ、腫瘍組織由来のトランスクリプトームヌクレオチド配列を表すデータ、腫瘍組織由来のプロテオーム配列を表すデータ、及び腫瘍組織由来のＭＨＣペプチドーム配列を表すデータ、及び正常組織由来のＭＨＣペプチドーム配列を表すデータのうちの少なくとも１つを含む。参照データは、合成タンパク質、正常及び腫瘍ヒト細胞株、ならびに新鮮な及び凍結された初代試料に対してその後曝露される所定のＭＨＣアレルを発現するように操作された単一アレル細胞株の質量分析データ、シークエンシングデータ、ＲＮＡシークエンシングデータ、及びプロテオミクスデータ、ならびにＴ細胞アッセイ（例えば、ＥＬＩＳＰＯＴ）をさらに含むことができる。特定の態様では、参照データのセットは、参照データの各形態を含む。

提示モデルは、参照データのセットに少なくとも一部由来する特性のセットを含むことができ、前記特性のセットは、アレル依存的特性及びアレル非依存的特性のうちの少なくとも１つを含む。特定の態様では、各特性が含まれる。

ナイーブＴ細胞に対する樹状細胞提示の特性は、上記の特性のうちの少なくとも１つを含むことができる。ワクチン中の抗原の用量及び種類（例えば、ペプチド、ｍＲＮＡ、ウイルスなど）：（１）樹状細胞（ＤＣ）が抗原タイプを取り込む経路（例えば、エンドサイトーシス、マイクロピノサイトーシス）；及び／または（２）抗原がＤＣにより取り込まれる効率。ワクチン中のアジュバントの用量及び種類。ワクチン抗原配列の長さ。ワクチン投与の回数及び部位。ベースラインの患者の免疫機能（例えば、最近の感染の既往歴、血球数などによって測定される）。ＲＮＡワクチンについては、（１）樹状細胞内のｍＲＮＡタンパク質産物の代謝回転速度、（２）インビトロまたはインビボ実験により測定される、樹状細胞による取り込み後のｍＲＮＡの翻訳速度、ならびに／または（３）インビボまたはインビトロ実験により測定される、樹状細胞による取り込み後のｍＲＮＡの翻訳の数またはラウンド。場合により、樹状細胞で典型的に発現しているプロテアーゼ（例えばＲＮＡ−ｓｅｑまたは質量分析によって測定される）にさらなる重みを与える、ペプチド内のプロテアーゼ切断モチーフの存在。典型的な活性化樹状細胞におけるプロテアソーム及びイムノプロテアソームの発現のレベル（ＲＮＡ−ｓｅｑ、質量分析、免疫組織化学、または他の標準的な技法によって測定することができる）。場合により活性化樹状細胞または他の免疫細胞で具体的に測定される、対象とされる個体における特定のＭＨＣアレルの発現レベル（例えばＲＮＡ−ｓｅｑまたは質量分析によって測定される）。場合により活性化樹状細胞または他の免疫細胞で具体的に測定される、特定のＭＨＣアレルを発現する他の個体における特定のＭＨＣアレルによるペプチド提示の確率。場合により活性化樹状細胞または他の免疫細胞で具体的に測定される、他の個体内の同じ分子のファミリー（例えば、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、ＨＬＡ−ＤＱ、ＨＬＡ−ＤＲ、ＨＬＡ−ＤＰ）のＭＨＣアレルによるペプチド提示の確率。

免疫寛容逃避特性は、以下のうちの少なくとも１つを含むことができる：１つまたはいくつかの細胞タイプに対して行われるタンパク質質量分析による自己ペプチドームの直接測定。自己タンパク質の全ｋマー（例えば、５〜２５）の部分文字列の和集合を取ることによる、自己ペプチドームの推定。場合により生殖細胞系列変異を説明する、すべての非変異自己タンパク質に適用された上記の提示モデルに類似した提示のモデルを用いた、自己ペプチドームの推定。

ランク付けは、数値的尤度に少なくとも一部基づく少なくとも１つのモデルによって与えられる複数の新生抗原を用いて行うことができる。ランク付けの後に、選択を行ってランク付けされた新生抗原のサブセットを選択基準にしたがって選択することができる。選択後に、ランク付けされたペプチドのサブセットを出力として与えることができる。

選択された新生抗原のセットの数は、２０個とすることができる。

提示モデルは、ＭＨＣアレルのうちの特定の１つとペプチド配列の特定の位置の特定のアミノ酸とのペアの存在と、ペアのＭＨＣアレルのうちの特定の１つによる、特定の位置に特定のアミノ酸を含むかかるペプチド配列の腫瘍細胞表面上の提示の尤度との間の依存性を表すことができる。

本明細書に開示される方法はまた、対応する新生抗原のペプチド配列のアミノ酸の少なくとも位置に基づいて、対応する新生抗原をＭＨＣアレルが提示するかどうかを示す依存性スコアを、１つ以上のＭＨＣアレルのそれぞれについて生成するために、１つ以上の提示モデルを、対応する新生抗原のペプチド配列に適用することを含んでもよい。

本明細書に開示される方法はまた、対応する新生抗原を対応するＭＨＣアレルが提示する尤度を示す、対応するアレル毎尤度を、各ＭＨＣアレルについて生成するために、依存性スコアを変換すること；及び数値的尤度を生成するために、アレル毎尤度を組み合わせること、を含んでもよい。

依存性スコアを変換する工程は、対応する新生抗原のペプチド配列の提示を相互排他的としてモデル化することができる。

本明細書に開示される方法はまた、依存性スコアの組み合わせを変換して数値的尤度を生成することをさらに含んでもよい。

依存性スコアの組み合わせを変換する工程は、対応する新生抗原のペプチド配列の提示をＭＨＣアレル間の干渉としてモデル化することができる。

数値的尤度のセットは、少なくともアレル非相互作用特性によってさらに特定することができ、本明細書に開示する方法はまた、アレル非相互作用特性に基づいて、対応する新生抗原のペプチド配列が提示されるかどうかを示す、アレル非相互作用特性についての依存性スコアを生成するために、１つ以上の提示モデルのうちのアレル非相互作用モデルをアレル非相互作用特性に適用することを含んでもよい。

本明細書に開示される方法はまた、１つ以上のＭＨＣアレルにおける各ＭＨＣアレルについての依存性スコアを、アレル非相互作用特性についての依存性スコアと組み合わせること；対応する新生抗原を対応するＭＨＣアレルが提示する尤度を示す、ＭＨＣアレルについての対応するアレル毎尤度を生成するために、各ＭＨＣアレルについての組み合わされた依存性スコアを変換すること；及び数値的尤度を生成するために、アレル毎尤度を組み合わせること、を含んでもよい。

本明細書に開示される方法はまた、ＭＨＣアレルの各々についての依存性スコアと、アレル非相互作用特性についての依存性スコアとの組み合わせを変換することにより、数値的尤度を生成することを含んでもよい。

提示モデルについての数値的パラメータのセットは、複数の試料中に存在すると特定された訓練ペプチド配列のセット、及び各訓練ペプチド配列に関連する１つ以上のＭＨＣアレルを少なくとも含む訓練データセットに基づいて訓練することができ、訓練ペプチド配列は、複数の試料に由来するＭＨＣアレルから溶出された単離ペプチドの質量分析により特定される。

試料はまた、単一のＭＨＣクラスＩまたはクラスＩＩアレルを発現するように操作された細胞株を含んでもよい。

試料はまた、複数のＭＨＣクラスＩまたはクラスＩＩアレルを発現するように操作された細胞株を含んでもよい。

試料はまた、複数の患者から得られた、または複数の患者に由来するヒト細胞株を含んでもよい。

試料はまた、複数の患者から得られた新鮮な、または凍結された腫瘍試料を含んでもよい。

試料はまた、複数の患者から得られた新鮮な、または凍結された組織試料を含んでもよい。

試料はまた、Ｔ細胞アッセイを用いて特定されたペプチドも含んでもよい。

訓練データセットは、試料中に存在する訓練ペプチドのセットのペプチド存在量；試料における訓練ペプチドのセットのペプチド長に関連するデータをさらに含むことができる。

訓練データセットは、既知のタンパク質配列のセットを含むデータベースとのアラインメントにより訓練ペプチド配列のセットを比較することによって生成することができ、訓練タンパク質配列のセットは、訓練ペプチド配列よりも長く、かつ訓練ペプチド配列を含む。

訓練データセットは、細胞株からエクソーム、トランスクリプトーム、または全ゲノムのシークエンシングデータのうちの少なくとも１つを取得するために細胞株に対してヌクレオチドシークエンシングを行うか、またはヌクレオチドシークエンシングがこれまでに行われていることに基づいて生成されてもよく、シークエンシングデータは、変化を含む少なくとも１つのヌクレオチド配列を含む。

訓練データセットは、正常組織試料からエクソーム、トランスクリプトーム、または全ゲノムの正常ヌクレオチドシークエンシングデータのうちの少なくとも１つを取得することに基づいて生成されてもよい。

訓練データセットは、試料に関連するプロテオーム配列に関連するデータをさらに含んでもよい。

訓練データセットは、試料に関連するＭＨＣペプチドーム配列に関連するデータをさらに含んでもよい。

訓練データセットは、単離されたペプチドのうちの少なくとも１つについてのペプチド−ＭＨＣ結合親和性の測定値に関連するデータをさらに含んでもよい。

訓練データセットは、単離されたペプチドのうちの少なくとも１つについてのペプチド−ＭＨＣ結合安定性の測定値に関連するデータをさらに含んでもよい。

訓練データセットは、試料に関連するトランスクリプトームに関連するデータをさらに含んでもよい。

訓練データセットは、試料に関連するゲノムに関連するデータをさらに含んでもよい。

訓練ペプチド配列は、ｋマー（ｋは、ＭＨＣクラスＩでは８以上１５以下、または、ＭＨＣクラスＩＩでは６以上３０以下である）の範囲内の長さとすることができる。

本明細書に開示する方法はまた、ワン・ホット（ｏｎｅ−ｈｏｔ）エンコーディングスキームを用いてペプチド配列をコード化することを含んでもよい。

本明細書に開示される方法はまた、レフトパディング（ｌｅｆｔ−ｐａｄｄｅｄ）ワン・ホットエンコーディングスキームを用いて訓練ペプチド配列をコードすることを含んでもよい。

請求項１に記載の工程を行うことを含み、選択された新生抗原のセットを含む腫瘍ワクチンを得る工程と、腫瘍ワクチンを対象に投与する工程と、をさらに含む、腫瘍を有する対象を治療する方法。

本明細書ではまた、腫瘍ワクチンを製造するための方法であって、対象の腫瘍細胞から、エクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも１つを取得する工程であって、前記腫瘍ヌクレオチドシークエンシングデータを用いて新生抗原のセットの各々のペプチド配列を表すデータが取得され、各新生抗原のペプチド配列が、ペプチド配列を対応する野生型の親ペプチド配列とは異なるものにする少なくとも１つの変異を含む、工程と、各新生抗原のペプチド配列を１つ以上の提示モデルに入力することにより、前記新生抗原のそれぞれが前記対象の前記腫瘍細胞の前記腫瘍細胞表面上の１つ以上のＭＨＣアレルによって提示される数値的尤度のセットを生成する工程であって、前記数値的尤度のセットが、受け取られた質量分析データに少なくとも基づいて特定されたものである、工程と、前記新生抗原のセットのサブセットを、前記数値的尤度のセットに基づいて選択することにより、選択された新生抗原のセットを生成する工程と、前記選択された新生抗原のセットを含む腫瘍ワクチンを生産するか、またはこれまでに生産している工程と、を含む方法も開示される。

本明細書ではまた、対象の腫瘍細胞から、エクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも１つを取得する工程であって、前記腫瘍ヌクレオチドシークエンシングデータを用いて新生抗原のセットの各々のペプチド配列を表すデータが取得され、各新生抗原のペプチド配列が、ペプチド配列を対応する野生型の親ペプチド配列とは異なるものにする少なくとも１つの変異を含む、工程と、各新生抗原のペプチド配列を１つ以上の提示モデルに入力することにより、前記新生抗原のそれぞれが前記対象の前記腫瘍細胞の前記腫瘍細胞表面上の１つ以上のＭＨＣアレルによって提示される数値的尤度のセットを生成する工程であって、前記数値的尤度のセットが、受け取られた質量分析データに少なくとも基づいて特定されたものである、工程と、前記新生抗原のセットのサブセットを、前記数値的尤度のセットに基づいて選択することにより、選択された新生抗原のセットを生成する工程と、前記選択された新生抗原のセットを含む腫瘍ワクチンを生産するか、またはこれまでに生産している工程と、を含む方法を実行することによって選択された、選択された新生抗原のセットを含む腫瘍ワクチンも提供される。

腫瘍ワクチンは、ヌクレオチド配列、ポリペプチド配列、ＲＮＡ、ＤＮＡ、細胞、プラスミド、またはベクターのうちの１つ以上を含んでもよい。

腫瘍ワクチンは、腫瘍細胞表面上に提示された１つ以上の新生抗原を含んでもよい。

腫瘍ワクチンは、対象において免疫原性を示す１つ以上の新生抗原を含んでもよい。

腫瘍ワクチンは、対象において正常組織に対する自己免疫応答を誘導する、１つ以上の新生抗原を含まなくともよい。

腫瘍ワクチンは、アジュバントを含んでもよい。

腫瘍ワクチンは、賦形剤を含んでもよい。

本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に対して腫瘍細胞表面上に提示される尤度が増大している新生抗原を選択することを含んでもよい。

本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に対して対象に腫瘍特異的な免疫応答を誘導することができる尤度が増大している新生抗原を選択することを含んでもよい。

本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に対してプロフェッショナル抗原提示細胞（ＡＰＣ）によってナイーブＴ細胞に対して提示されることができる尤度が増大している新生抗原を選択することを含んでもよく、場合により、ＡＰＣは樹状細胞（ＤＣ）である。

本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に対して中枢性寛容または末梢性寛容によって阻害される尤度が減少している新生抗原を選択することを含んでもよい。

本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に対して対象に正常組織に対する自己免疫応答を誘導することができる尤度が減少している新生抗原を選択することを含んでもよい。

エクソームまたはトランスクリプトームのヌクレオチドシークエンシングデータは、腫瘍組織でシークエンシングを行うことによって取得することができる。

シークエンシングは、次世代シークエンシング（ＮＧＳ）または任意の大規模並列処理シークエンシングアプローチであってもよい。

数値的尤度のセットは、以下のうちの少なくとも１つを含む少なくともＭＨＣアレル相互作用特性によってさらに特定することができる。すなわち、ＭＨＣアレルと新生抗原コード化ペプチドとが結合する予測親和性；新生抗原コード化ペプチド−ＭＨＣ複合体の予測安定性；新生抗原コード化ペプチドの配列及び長さ；質量分析プロテオミクスまたは他の手段によって評価される、特定のＭＨＣアレルを発現する他の個体由来の細胞の類似した配列を有する新生抗原コード化ペプチドの提示の確率；対象とされる対象の特定のＭＨＣアレルの発現レベル（例えば、ＲＮＡ−ｓｅｑまたは質量分析によって測定される）；特定のＭＨＣアレルを発現する他の別個の個体における、特定のＭＨＣアレルによる提示の、全体的な新生抗原コード化ペプチド配列とは独立した確率；他の別個の対象における、同じ分子のファミリー（例えば、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、ＨＬＡ−ＤＱ、ＨＬＡ−ＤＲ、ＨＬＡ−ＤＰ）のＭＨＣアレルによる提示の、全体的な新生抗原コード化ペプチド配列とは独立した確率。

数値的尤度のセットは、以下のうちの少なくとも１つを含む少なくともＭＨＣアレル非相互作用特性によってさらに特定される。すなわち、そのソースタンパク質配列内の、新生抗原コード化ペプチドに隣接するＣ末端及びＮ末端配列；場合により、腫瘍細胞内の対応するプロテアーゼの発現（ＲＮＡ−ｓｅｑまたは質量分析によって測定される）にしたがって重み付けされる、新生抗原コード化ペプチド内のプロテアーゼ切断モチーフの存在；適切な細胞タイプにおいて測定されるソースタンパク質の代謝回転速度；ＲＮＡ−ｓｅｑもしくはプロテオーム質量分析によって測定される、または、ＤＮＡもしくはＲＮＡ配列データにおいて検出される生殖細胞系列もしくは体細胞系列スプライシング変異のアノテーションから予測される、腫瘍細胞に最も高発現している特定のスプライス変異体（「アイソフォーム」）を場合により考慮した、ソースタンパク質の長さ；腫瘍細胞におけるプロテアソーム、イムノプロテアソーム、胸腺プロテアソーム、または他のプロテアーゼの発現のレベル（ＲＮＡ−ｓｅｑ、プロテオーム質量分析、または免疫組織化学によって測定することができる）；新生抗原コード化ペプチドのソース遺伝子の発現（例えば、ＲＮＡ−ｓｅｑまたは質量分析によって測定される）；細胞周期の異なる段階における新生抗原コード化ペプチドのソース遺伝子の典型的な組織特異的発現；例えば、ｕｎｉＰｒｏｔまたはＰＤＢｈｔｔｐ：／／ｗｗｗ．ｒｃｓｂ．ｏｒｇ／ｐｄｂ／ｈｏｍｅ／ｈｏｍｅ．ｄｏにみることができるような、ソースタンパク質及び／またはそのドメインの特性の包括的なカタログ；ペプチドを含むソースタンパク質のドメインの性質を説明する特性、例えば、二次構造または三次構造（例えば、βシートに対するαヘリックス）；選択的スプライシング；他の別個の対象における、対象とされる新生抗原コード化ペプチドのソースタンパク質に由来するペプチドの提示の確率；ペプチドが、技術的バイアスのために質量分析によって検出されないか、または過剰に表現される確率；腫瘍細胞、間質、または腫瘍浸潤リンパ球（ＴＩＬ）の状態について情報を与える、ＲＮＡＳｅｑによって測定される、種々の遺伝子モジュール／経路の発現（ペプチドのソースタンパク質を含む必要はない）；腫瘍細胞内の新生抗原コード化ペプチドのソース遺伝子のコピー数；ペプチドがＴＡＰに結合する確率、またはＴＡＰに対するペプチドの測定または予測される結合親和性；腫瘍細胞におけるＴＡＰの発現レベル（ＲＮＡ−ｓｅｑ、プロテオーム質量分析、免疫組織化学によって測定することができる）；以下を含むがただしこれらに限定されない、腫瘍変異の有無：ＥＧＦＲ、ＫＲＡＳ、ＡＬＫ、ＲＥＴ、ＲＯＳ１、ＴＰ５３、ＣＤＫＮ２Ａ、ＣＤＫＮ２Ｂ、ＮＴＲＫ１、ＮＴＲＫ２、ＮＴＲＫ３などの公知のがんドライバー遺伝子におけるドライバー変異、及び抗原提示マシナリーに関与するタンパク質をコードする遺伝子（例えば、Ｂ２Ｍ、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、ＴＡＰ−１、ＴＡＰ−２、ＴＡＰＢＰ、ＣＡＬＲ、ＣＮＸ、ＥＲＰ５７、ＨＬＡ−ＤＭ、ＨＬＡ−ＤＭＡ、ＨＬＡ−ＤＭＢ、ＨＬＡ−ＤＯ、ＨＬＡ−ＤＯＡ、ＨＬＡ−ＤＯＢ、ＨＬＡ−ＤＰ、ＨＬＡ−ＤＰＡ１、ＨＬＡ−ＤＰＢ１、ＨＬＡ−ＤＱ、ＨＬＡ−ＤＱＡ１、ＨＬＡ−ＤＱＡ２、ＨＬＡ−ＤＱＢ１、ＨＬＡ−ＤＱＢ２、ＨＬＡ−ＤＲ、ＨＬＡ−ＤＲＡ、ＨＬＡ−ＤＲＢ１、ＨＬＡ−ＤＲＢ３、ＨＬＡ−ＤＲＢ４、ＨＬＡ−ＤＲＢ５、または、プロテアソームもしくはイムノプロテアソームの構成要素をコードする遺伝子のいずれか）における変異。その提示が、腫瘍において機能喪失変異を生ずる抗原提示マシナリーの構成要素に依存するペプチドは、提示の確率が低い；以下を含むがただしこれらに限定されない、機能的生殖細胞系列多型の有無：抗原提示マシナリーに関与するタンパク質をコードする遺伝子（例えば、Ｂ２Ｍ、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、ＴＡＰ−１、ＴＡＰ−２、ＴＡＰＢＰ、ＣＡＬＲ、ＣＮＸ、ＥＲＰ５７、ＨＬＡ−ＤＭ、ＨＬＡ−ＤＭＡ、ＨＬＡ−ＤＭＢ、ＨＬＡ−ＤＯ、ＨＬＡ−ＤＯＡ、ＨＬＡ−ＤＯＢ、ＨＬＡ−ＤＰ、ＨＬＡ−ＤＰＡ１、ＨＬＡ−ＤＰＢ１、ＨＬＡ−ＤＱ、ＨＬＡ−ＤＱＡ１、ＨＬＡ−ＤＱＡ２、ＨＬＡ−ＤＱＢ１、ＨＬＡ−ＤＱＢ２、ＨＬＡ−ＤＲ、ＨＬＡ−ＤＲＡ、ＨＬＡ−ＤＲＢ１、ＨＬＡ−ＤＲＢ３、ＨＬＡ−ＤＲＢ４、ＨＬＡ−ＤＲＢ５、または、プロテアソームもしくはイムノプロテアソームの構成要素をコードする遺伝子のいずれか）における多型；腫瘍タイプ（例えば、ＮＳＣＬＣ、メラノーマ）；臨床的腫瘍サブタイプ（例えば、扁平上皮肺癌対非扁平上皮）；喫煙歴；場合によりドライバー変異によって層別化される、関連する腫瘍タイプまたは臨床的サブタイプにおけるペプチドのソース遺伝子の典型的な発現。

少なくとも１つの変異は、フレームシフトもしくは非フレームシフト挿入欠失、ミスセンスもしくはナンセンス置換、スプライス部位変化、ゲノム再編成もしくは遺伝子融合、または、新生ＯＲＦを生じる任意のゲノム変化もしくは発現変化であってよい。

腫瘍細胞は、肺癌、メラノーマ、乳癌、卵巣癌、前立腺癌、腎臓癌、胃癌、結腸癌、精巣癌、頭頸部癌、膵臓癌、脳癌、Ｂ細胞リンパ腫、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ球性白血病、及びＴ細胞リンパ球性白血病、非小細胞肺癌、及び小細胞肺癌からなる群から選択することができる。

本明細書に開示される方法はまた、選択された新生抗原のセットまたはそのサブセットを含む腫瘍ワクチンを得ることを含んでもよく、場合により腫瘍ワクチンを対象に投与することをさらに含む。

選択された新生抗原のセット内の新生抗原の少なくとも１つは、ポリペプチド形態である場合、以下のうちの少なくとも１つを含んでもよい：ＩＣ５０値が１０００ｎＭ未満のＭＨＣとの結合親和性、ＭＨＣクラスＩのポリペプチドではアミノ酸８〜１５個、８、９、１０、１１、１２、１３、１４、または１５個の長さ、ＭＨＣクラスＩＩのポリペプチドではアミノ酸６〜３０、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、または３０個の長さ、プロテアソーム切断を促進する、親タンパク質配列中のポリペプチド内またはその近くの配列モチーフの存在、及び、ＴＡＰ輸送を促進する配列モチーフの存在。ＭＨＣクラスＩＩでは、細胞外またはリソソームプロテアーゼ（例えば、カテプシン類）による切断またはＨＬＡ−ＤＭにより触媒されるＨＬＡ結合を促進するペプチド内またはその近くの配列モチーフの存在。

本明細書ではまた、腫瘍細胞の腫瘍細胞表面上に提示される可能性が高い１つ以上の新生抗原を特定するためのモデルを生成するための方法であって、複数の試料に由来する主要組織適合性複合体（ＭＨＣ）から溶出された複数の単離ペプチドに関連するデータを含む質量分析データを受け取る工程と、試料中に存在する訓練ペプチド配列のセット及び各訓練ペプチド配列に関連する１つ以上のＭＨＣを少なくとも特定することにより、訓練データセットを取得する工程と、前記訓練ペプチド配列を含む訓練データセットを用いて、提示モデルの数値的パラメータのセットを訓練する工程であって、前記提示モデルが、腫瘍細胞表面上の１つ以上のＭＨＣアレルによって腫瘍細胞由来のペプチド配列が提示される複数の数値的尤度を与える、工程と、を含む方法も開示される。

提示モデルは、ペプチド配列の特定の位置の特定のアミノ酸の存在と、特定の位置に特定のアミノ酸を有するペプチド配列の、腫瘍細胞上のＭＨＣアレルのうちの１つによる提示の尤度との間の依存性を表すことができる。

訓練データセットは、試料中に存在する訓練ペプチドのセットのペプチド存在量；試料中の訓練ペプチドのセットのペプチド長に関連するデータをさらに含むことができる。

本明細書に開示される方法はまた、既知のタンパク質配列のセットを含むデータベースとのアラインメントにより訓練ペプチド配列のセットを比較することによって、訓練ペプチド配列に基づいて、訓練ペプチド配列よりも長くかつ訓練ペプチド配列を含む訓練タンパク質配列のセットを取得することを含んでもよい。

本明細書に開示される方法はまた、細胞株からエクソーム、トランスクリプトーム、または全ゲノムのヌクレオチドシークエンシングデータのうちの少なくとも１つを取得するために、細胞株に対して質量分析を行うかまたは質量分析がこれまでに行われていることを含んでもよく、前記ヌクレオチドシークエンシングデータは、変異を含む少なくとも１つのタンパク質配列を含む。

本明細書に開示される方法はまた、ワン・ホット（ｏｎｅ−ｈｏｔ）エンコーディングスキームを用いて訓練ペプチド配列をコード化することを含んでもよい。

本明細書に開示される方法はまた、正常組織試料からエクソーム、トランスクリプトーム、及び全ゲノムの正常ヌクレオチドシークエンシングデータのうちの少なくとも１つを取得することと、前記正常ヌクレオチドシークエンシングデータを用いて、提示モデルのパラメータのセットを訓練することと、を含むことができる。

本明細書に開示される方法はまた、パラメータのセットのロジスティック回帰を行うことを含んでもよい。

本明細書に開示される方法はまた、ディープラーニングアルゴリズムを用いてパラメータのセットについて値を決定することを含んでもよい。

本明細書では、腫瘍細胞の腫瘍細胞表面上に提示される可能性が高い１つ以上の新生抗原を特定するための方法であって、複数の新鮮なまたは凍結得様試料に由来する主要組織適合性複合体（ＭＨＣ）から溶出された複数の単離ペプチドに関連するデータを含む質量分析データを受け取る工程と、腫瘍試料中に存在し、各訓練ペプチド配列に関連する１つ以上のＭＨＣアレル上に提示される訓練ペプチド配列のセットを少なくとも特定することにより、訓練データセットを取得する工程と、前記訓練ペプチド配列に基づいて、訓練タンパク質配列のセットを取得する工程と、前記訓練タンパク質配列及び前記訓練ペプチド配列を用いて、提示モデルの数値的パラメータのセットを訓練する工程であって、前記提示モデルが、腫瘍細胞表面上の１つ以上のＭＨＣアレルによって腫瘍細胞由来のペプチド配列が提示される複数の数値的尤度を与える、工程と、を含む方法が開示される。

提示モデルは、ＭＨＣアレルのうちの特定の１つとペプチド配列の特定の位置の特定のアミノ酸とのペアの存在と、前記ペアの前記ＭＨＣアレルのうちの特定の１つによる、前記特定の位置に前記特定のアミノ酸を含むそのようなペプチド配列の腫瘍細胞表面上での提示の尤度と、の間の依存性を表すことができる。

本明細書に開示される方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが１つ以上の別個の腫瘍新生抗原に対して、腫瘍の細胞表面上に提示される尤度が増大していることから選択される。

本明細書に開示される方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが１つ以上の別個の腫瘍新生抗原に対して、対象に腫瘍特異的な免疫応答を誘導することができる尤度が増大していることから選択される。

本明細書に開示される方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが１つ以上の別個の腫瘍新生抗原に対して、プロフェッショナル抗原提示細胞（ＡＰＣ）によってナイーブＴ細胞に対して提示されることができる尤度が増大していることから選択され、場合により、ＡＰＣは樹状細胞（ＤＣ）である。

本明細書に開示される方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが１つ以上の別個の腫瘍新生抗原に対して、中枢性寛容または末梢性寛容により阻害される尤度が減少していることから選択される。

本明細書に開示する方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが１つ以上の別個の腫瘍新生抗原に対して、対象に正常組織に対する自己免疫応答を誘導することができる尤度が減少していることから選択される。

本明細書に開示する方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれがＡＰＣに対して腫瘍細胞において差次的に翻訳後修飾される尤度が減少していることから選択され、場合により、ＡＰＣは樹状細胞（ＤＣ）である。

本明細書における方法の実施においては、特に断らない限り、当該技術分野における技能の範囲内のタンパク質化学、生化学、組換えＤＮＡ技術及び薬理学の従来の方法を使用する。かかる技術は文献に充分な説明がなされている。例えば、Ｔ．Ｅ．Ｃｒｅｉｇｈｔｏｎ，Ｐｒｏｔｅｉｎｓ：ＳｔｒｕｃｔｕｒｅｓａｎｄＭｏｌｅｃｕｌａｒＰｒｏｐｅｒｔｉｅｓ（Ｗ．Ｈ．ＦｒｅｅｍａｎａｎｄＣｏｍｐａｎｙ，１９９３）；Ａ．Ｌ．Ｌｅｈｎｉｎｇｅｒ，Ｂｉｏｃｈｅｍｉｓｔｒｙ（ＷｏｒｔｈＰｕｂｌｉｓｈｅｒｓ，Ｉｎｃ．，ｃｕｒｒｅｎｔａｄｄｉｔｉｏｎ）；Ｓａｍｂｒｏｏｋ，ｅｔａｌ．，ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ（２ｎｄＥｄｉｔｉｏｎ，１９８９）；ＭｅｔｈｏｄｓＩｎＥｎｚｙｍｏｌｏｇｙ（Ｓ．ＣｏｌｏｗｉｃｋａｎｄＮ．Ｋａｐｌａｎｅｄｓ．，ＡｃａｄｅｍｉｃＰｒｅｓｓ，Ｉｎｃ．）；Ｒｅｍｉｎｇｔｏｎ’ｓＰｈａｒｍａｃｅｕｔｉｃａｌＳｃｉｅｎｃｅｓ，１８ｔｈＥｄｉｔｉｏｎ（Ｅａｓｔｏｎ，Ｐｅｎｎｓｙｌｖａｎｉａ：ＭａｃｋＰｕｂｌｉｓｈｉｎｇＣｏｍｐａｎｙ，１９９０）；ＣａｒｅｙａｎｄＳｕｎｄｂｅｒｇＡｄｖａｎｃｅｄＯｒｇａｎｉｃＣｈｅｍｉｓｔｒｙ３ｒｄＥｄ．（ＰｌｅｎｕｍＰｒｅｓｓ）ＶｏｌｓＡａｎｄＢ（１９９２）を参照されたい。

提示尤度のセットは、新生抗原のセットのソース遺伝子に基づいて生成することもできる。

提示尤度のセットは、新生抗原のセットのソース遺伝子及びソース組織タイプに基づいて生成することもできる。

本明細書に開示される方法は、新生抗原ワクチンを用いる治療に適した患者のサブセットを特定することを含んでもよく、工程は以下を含む：
患者の腫瘍細胞からエクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも１つをそれぞれの患者について取得することであって、腫瘍ヌクレオチドシークエンシングデータが、新生抗原のセットのそれぞれのペプチド配列を取得するために用いられ、各新生抗原のペプチド配列が、それを対応する野生型の親ペプチド配列とは異なるものとする少なくとも１つの変化を含む、前記取得することと、
新生抗原のセットのそれぞれのペプチド配列を、１つ以上の提示モデルに入力することにより、患者について新生抗原のセットについての数値的提示尤度のセットをそれぞれの患者について生成することであって、提示尤度のセットが、新生抗原のセットのそれぞれが患者の腫瘍細胞の表面上の１つ以上のＭＨＣアレルによって提示される尤度を表し、提示尤度のセットが、少なくとも受け取った質量分析データに基づいて特定されたものである、前記生成することと、
患者の新生抗原のセットから新生抗原の治療サブセットをそれぞれの患者について特定することであって、治療サブセットが、その患者について生成された提示尤度のセット内の最も高い提示尤度を有する所定の数の新生抗原に対応する、前記特定することと、
新生抗原ワクチンを用いる治療に適した患者のサブセットを選択することであって、患者の選択されるサブセットが、選択されたサブセット内の各患者について取得された新生抗原のセットに基づく、または腫瘍ヌクレオチドシークエンシングデータに基づく組み入れ基準を満たす、前記選択すること。

本明細書に開示される方法は、患者の選択されたサブセット内の各患者を対応する新生抗原ワクチンを用いて治療することを含んでもよく、患者に対する新生抗原ワクチンは、患者についての提示尤度のセットにより特定された治療サブセットを含む。

本明細書に開示される方法は、最小閾値よりも高い腫瘍変異負荷（ＴＭＢ）を有する患者のサブセットを選択することを含んでもよく、ある患者のＴＭＢは、その患者に関連付けられた新生抗原のセット内の新生抗原の数を示す。

本明細書に開示される方法は、患者の治療サブセットからの提示される新生抗原の推定数の尺度を示す有用性スコアを、それぞれの患者について特定すること；及び最小閾値よりも高い有用性スコアを有する患者のサブセットを選択すること、を含んでもよい。

新生抗原の提示は、ベルヌーイランダム変数としてモデル化することができ、有用性スコアは、患者についての治療サブセットにおける提示新生抗原の期待数を表すことができ、有用性スコアは、患者の治療サブセットにおける各新生抗原についての提示尤度の総和によって与えられ得る。

新生抗原の提示は、ポアソン二項ランダム変数としてモデル化することもでき、有用性スコアは、患者についての治療サブセットにおける提示新生抗原の数が最小閾値を上回る確率であることができる。

ＩＩＩ．新生抗原における腫瘍特異的変異の特定
また、ある特定の変異（例えば、がん細胞中に存在する変異またはアレル）の特定のための方法も、本明細書に開示する。特に、これらの変異は、がんを有する対象のがん細胞のゲノム、トランスクリプトーム、プロテオーム、またはエクソーム中に存在し得るが、対象由来の正常組織には存在し得ない。

腫瘍における遺伝子変異は、それらが腫瘍において排他的にタンパク質のアミノ酸配列における変更をもたらす場合、腫瘍の免疫学的ターゲティングに有用と考えることができる。有用な変異は、以下を含む：（１）タンパク質において異なるアミノ酸をもたらす非同義変異；（２）Ｃ末端に新規の腫瘍特異的配列を有する、より長いタンパク質の翻訳をもたらす、終止コドンが修飾されているかまたは欠失しているリードスルー変異；（３）成熟ｍＲＮＡにおけるイントロンの包含、したがって固有の腫瘍特異的タンパク質配列をもたらす、スプライス部位変異；（４）２種類のタンパク質の接合部に腫瘍特異的配列を有するキメラタンパク質を生じる、染色体再編成（すなわち、遺伝子融合）；（５）新規の腫瘍特異的タンパク質配列を有する新たなオープンリーディングフレームをもたらす、フレームシフト変異または欠失。変異はまた、非フレームシフト挿入欠失、ミスセンスもしくはナンセンス置換、スプライス部位変化、ゲノム再編成もしくは遺伝子融合、または、新生ＯＲＦを生じる任意のゲノム変化もしくは発現変化のうちの１つ以上も含むことができる。

例えば、腫瘍細胞におけるスプライス部位、フレームシフト、リードスルー、または遺伝子融合の変異から生じた、変異を有するペプチドまたは変異したポリペプチドは、腫瘍対正常細胞において、ＤＮＡ、ＲＮＡ、またはタンパク質をシークエンシングすることによって特定することができる。

また、変異は、以前に特定された腫瘍特異的変異を含むことができる。公知の腫瘍変異は、ＣａｔａｌｏｇｕｅｏｆＳｏｍａｔｉｃＭｕｔａｔｉｏｎｓｉｎＣａｎｃｅｒ（ＣＯＳＭＩＣ）データベースで見出すことができる。

様々な方法を、個体のＤＮＡまたはＲＮＡにおいて特定の変異またはアレルの存在を検出するために利用可能である。この分野における進歩は、正確で、容易な、かつ安価な大規模ＳＮＰ遺伝子型判定を提供している。例えば、動的アレル特異的ハイブリダイゼーション（ＤＡＳＨ）、マイクロプレートアレイ対角線ゲル電気泳動（ＭＡＤＧＥ）、パイロシークエンシング、オリゴヌクレオチド特異的ライゲーション、ＴａｑＭａｎシステム、及びＡｆｆｙｍｅｔｒｉｘＳＮＰチップなどの種々のＤＮＡ「チップ」技術を含むいくつかの技法が、記載されている。これらの方法は、典型的にはＰＣＲによる、標的遺伝子領域の増幅を利用する。さらに他の方法は、侵襲性切断による小さなシグナル分子の生成及びその後の質量分析、または、固定化されたパッドロックプローブ及びローリングサークル増幅に基づく。特異的な変異を検出するための、当技術分野において公知の方法のいくつかを、下記に要約する。

ＰＣＲベースの検出手段は、多数のマーカーの多重増幅を同時に含むことができる。例えば、サイズがオーバーラップせず、同時に解析することができるＰＣＲ産物を生成するようにＰＣＲプライマーを選択することが、当技術分野において周知である。あるいは、差次的にラベル化され、したがって、各々を差次的に検出することができるプライマーで異なるマーカーを増幅することが可能である。当然、ハイブリダイゼーションベースの検出手段により、試料における複数のＰＣＲ産物の差次的な検出が可能になる。複数のマーカーの多重解析を可能にする他の技法が、当技術分野において公知である。

いくつかの方法が、ゲノムＤＮＡまたは細胞ＲＮＡにおける単一ヌクレオチド多型の解析を容易にするために開発されている。例えば、一塩基多型は、例えば、Ｍｕｎｄｙ，Ｃ．Ｒ．（米国特許第４，６５６，１２７号）において開示されているような、特化されたエキソヌクレアーゼ抵抗性ヌクレオチドを用いることによって検出することができる。この方法にしたがって、多型部位のすぐ３’のアレル配列に対して相補的なプライマーを、特定の動物またはヒトから取得された標的分子に対してハイブリダイズさせる。標的分子上の多型部位が、存在する特定のエキソヌクレアーゼ抵抗性ヌクレオチド誘導体に対して相補的であるヌクレオチドを含有する場合、その誘導体は、ハイブリダイズされたプライマーの末端上に組み込まれる。そのような組み込みのために、プライマーはエキソヌクレアーゼに対して抵抗性になり、それによりその検出が可能になる。試料のエキソヌクレアーゼ抵抗性誘導体の同一性は既知であるため、プライマーがエキソヌクレアーゼに対して抵抗性になったという知見により、標的分子の多型部位に存在するヌクレオチドが、反応において使用されたヌクレオチド誘導体のものに対して相補的であることが明らかになる。この方法は、多量の外来性配列データの決定を必要としないという利点を有する。

多型部位のヌクレオチドの同一性を決定するために、溶液ベースの方法を使用することができる（Ｃｏｈｅｎ，Ｄ．ｅｔａｌ．（フランス国特許第２，６５０，８４０号；ＰＣＴ出願第ＷＯ９１／０２０８７号）。米国特許第４，６５６，１２７号のＭｕｎｄｙの方法におけるように、多型部位のすぐ３’のアレル配列に対して相補的であるプライマーを使用する。この方法は、多型部位のヌクレオチドに対して相補的である場合は、プライマーの末端上に組み込まれるようになる、ラベル化ジデオキシヌクレオチド誘導体を用いて、その部位のヌクレオチドの同一性を決定する。ＧｅｎｅｔｉｃＢｉｔＡｎａｌｙｓｉｓまたはＧＢＡとして公知である代替的な方法が、Ｇｏｅｌｅｔ，Ｐ．ｅｔａｌ．（ＰＣＴ出願第９２／１５７１２号）により記載されている。Ｇｏｅｌｅｔ，Ｐ．ｅｔａｌ．の方法は、ラベル化ターミネーターと、多型部位の３’の配列に対して相補的であるプライマーとの混合物を使用する。Ｇｏｅｌｅｔ，Ｐ．ｅｔａｌ．の方法は、ラベル化ターミネーターと、多型部位の３’の配列に対して相補的であるプライマーとの混合物を使用する。Ｃｏｈｅｎｅｔａｌ．（フランス国特許第２，６５０，８４０号；ＰＣＴ出願第ＷＯ９１／０２０８７号）の方法とは対照的に、Ｇｏｅｌｅｔ，Ｐ．ｅｔａｌ．の方法は、プライマーまたは標的分子が固相に固定化される、不均一相アッセイであることができる。

ＤＮＡにおいて多型部位をアッセイするための、いくつかのプライマーガイドヌクレオチド組み込み手順が、記載されている（Ｋｏｍｈｅｒ，Ｊ．Ｓ．ｅｔａｌ．，Ｎｕｃｌ．Ａｃｉｄｓ．Ｒｅｓ．１７：７７７９−７７８４（１９８９）；Ｓｏｋｏｌｏｖ，Ｂ．Ｐ．，Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．１８：３６７１（１９９０）；Ｓｙｖａｎｅｎ，Ａ．−Ｃ．，ｅｔａｌ．，Ｇｅｎｏｍｉｃｓ８：６８４−６９２（１９９０）；Ｋｕｐｐｕｓｗａｍｙ，Ｍ．Ｎ．ｅｔａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．（Ｕ．Ｓ．Ａ．）８８：１１４３−１１４７（１９９１）；Ｐｒｅｚａｎｔ，Ｔ．Ｒ．ｅｔａｌ．，Ｈｕｍ．Ｍｕｔａｔ．１：１５９−１６４（１９９２）；Ｕｇｏｚｚｏｌｉ，Ｌ．ｅｔａｌ．，ＧＡＴＡ９：１０７−１１２（１９９２）；Ｎｙｒｅｎ，Ｐ．ｅｔａｌ．，Ａｎａｌ．Ｂｉｏｃｈｅｍ．２０８：１７１−１７５（１９９３））。これらの方法は、それらが、多型部位で塩基間を識別するためにラベル化デオキシヌクレオチドの組み込みを利用する点で、ＧＢＡとは異なる。そのような形式において、シグナルは、組み込まれたデオキシヌクレオチドの数に比例するため、同じヌクレオチドのランにおいて起こる多型は、ランの長さに比例するシグナルを結果としてもたらすことができる（Ｓｙｖａｎｅｎ，Ａ．−Ｃ．，ｅｔａｌ．，Ａｍｅｒ．Ｊ．Ｈｕｍ．Ｇｅｎｅｔ．５２：４６−５９（１９９３））。

数多くのイニシアティブは、ＤＮＡまたはＲＮＡの何百万もの個々の分子から並行して直接、配列情報を取得する。リアルタイムの単一分子の合成によるシークエンシング技術は、シークエンシングされる鋳型に対して相補的であるＤＮＡの新生鎖の中に組み込まれる際の、蛍光ヌクレオチドの検出に依拠する。１つの方法において、長さが３０〜５０塩基のオリゴヌクレオチドを、ガラスのカバーガラスに、５’端で共有結合性に固着させる。これらの固着した鎖は、２つの機能を果たす。第１に、それらは、鋳型が、表面結合オリゴヌクレオチドに対して相補的な捕捉尾部を有して構成されている場合に、標的鋳型鎖の捕捉部位として作用する。それらはまた、配列読み取りの基礎を形成する、鋳型指向性プライマー伸長のためのプライマーとしても作用する。捕捉プライマーは、複数サイクルの合成、検出、及び、色素を除去するための色素−リンカーの化学的切断を用いた、配列決定のための、固定された位置部位として機能する。各サイクルは、ポリメラーゼ／ラベル化ヌクレオチド混合物の添加、リンス、画像化、及び色素の切断からなる。代替的な方法において、ポリメラーゼは、蛍光ドナー分子で修飾されてスライドガラス上に固定化され、他方、各ヌクレオチドは、γ−ホスファートに付着したアクセプター蛍光部分で色分けされている。ヌクレオチドが、新規の鎖の中に組み込まれるようになる際に、システムが、蛍光タグ付加されたポリメラーゼと蛍光修飾されたヌクレオチドとの間の相互作用を検出する。他の合成によるシークエンシング技術もまた、存在する。

任意の適している合成によるシークエンシングプラットフォームを、変異を特定するために使用することができる。上記のように、４種類の主要な合成によるシークエンシングプラットフォームを、現在利用可能である：Ｒｏｃｈｅ／４５４ＬｉｆｅＳｃｉｅｎｃｅｓより販売されるＧｅｎｏｍｅＳｅｑｕｅｎｃｅｒ、Ｉｌｌｕｍｉｎａ／Ｓｏｌｅｘａより販売される１ＧＡｎａｌｙｚｅｒ、ＡｐｐｌｉｅｄＢｉｏＳｙｓｔｅｍｓより販売されるＳＯＬｉＤシステム、及びＨｅｌｉｃｏｓＢｉｏｓｃｉｅｎｃｅより販売されるＨｅｌｉｓｃｏｐｅシステム。合成によるシークエンシングプラットフォームはまた、ＰａｃｉｆｉｃＢｉｏＳｃｉｅｎｃｅｓ及びＶｉｓｉＧｅｎＢｉｏｔｅｃｈｎｏｌｏｇｉｅｓによっても記載されている。いくつかの実施形態において、シークエンシングされる多数の核酸分子は、支持体（例えば、固体支持体）に結合している。核酸を支持体上に固定化するために、捕捉配列／万能プライミング部位を、鋳型の３’端及び／または５’端に付加することができる。核酸は、支持体に共有結合性に付着した相補的配列に対して捕捉配列をハイブリダイズすることによって、支持体に結合させることができる。捕捉配列（万能捕捉配列とも呼ばれる）は、万能プライマーとして二重に働き得る、支持体に付着した配列に対して相補的な核酸配列である。

捕捉配列に対する代替物として、カップリングペア（例えば、抗体／抗原、受容体／リガンド、または、例えば米国特許出願第２００６／０２５２０７７号に記載されているようなアビジン−ビオチンペアなど）のメンバーを、各断片に連結させて、そのカップリングペアのそれぞれの第２のメンバーでコーティングされた表面上に捕捉させることができる。

捕捉に続いて、配列を、例えば、鋳型依存性の合成によるシークエンシングを含む、例えば、実施例及び米国特許第７，２８３，３３７号に記載されているような、単一分子検出／シークエンシングによって解析することができる。合成によるシークエンシングにおいて、表面に結合した分子は、ポリメラーゼの存在下で、多数のラベル化ヌクレオチド三リン酸に曝露される。鋳型の配列は、成長する鎖の３’端の中に組み込まれるラベル化ヌクレオチドの順序によって決定される。これは、リアルタイムで行うことができ、ステップ・アンド・リピートモードで行うことができる。リアルタイム解析のために、各ヌクレオチドに対して異なる光ラベルを組み込むことができ、複数のレーザーを、組み込まれたヌクレオチドの刺激のために利用することができる。

シークエンシングはまた、他の大規模並列処理シークエンシング、または次世代シークエンシング（ＮＧＳ）技法及びプラットフォームも含むことができる。大規模並列処理シークエンシング技法及びプラットフォームの追加的な例は、ＩｌｌｕｍｉｎａＨｉＳｅｑまたはＭｉＳｅｑ、ＴｈｅｒｍｏＰＧＭまたはＰｒｏｔｏｎ、ＰａｃＢｉｏＲＳＩＩまたはＳｅｑｕｅｌ、ＱｉａｇｅｎのＧｅｎｅＲｅａｄｅｒ、及びＯｘｆｏｒｄＮａｎｏｐｏｒｅＭｉｎＩＯＮである。追加的な類似した現在の大規模並列処理シークエンシング技術、及びこれらの技術の将来世代を、使用することができる。

任意の細胞タイプまたは組織を利用して、本明細書に記載した方法における使用のための核酸試料を取得することができる。例えば、ＤＮＡまたはＲＮＡ試料を、腫瘍または体液、例えば、公知の技法（例えば、静脈穿刺）によって取得された血液、もしくは唾液から取得することができる。あるいは、核酸試験を、乾燥試料（例えば、髪または皮膚）に対して行うことができる。加えて、試料を、シークエンシングのために腫瘍から取得することができ、別の試料を、正常組織が腫瘍と同じ組織タイプのものである場合に、シークエンシングのために正常組織から取得することができる。試料を、シークエンシングのために腫瘍から取得することができ、別の試料を、正常試料が腫瘍とは別個の組織タイプのものである場合に、シークエンシングのために正常組織から取得することができる。

腫瘍は、肺癌、黒色腫、乳癌、卵巣癌、前立腺癌、腎臓癌、胃癌、結腸癌、精巣癌、頭頸部癌、膵臓癌、脳癌、Ｂ細胞リンパ腫、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ球性白血病、及びＴ細胞リンパ球性白血病、非小細胞肺癌、及び小細胞肺癌のうちの１つ以上を含むことができる。

あるいは、タンパク質質量分析を使用して、腫瘍細胞上のＭＨＣタンパク質に結合した変異したペプチドの存在を特定または実証することができる。ペプチドは、腫瘍細胞から、または腫瘍から免疫沈降させたＨＬＡ分子から酸溶出することができ、次いで、質量分析を用いて特定することができる。

ＩＶ．新生抗原
新生抗原は、ヌクレオチドまたはポリヌクレオチドを含むことができる。例えば、新生抗原は、ポリペプチド配列をコードするＲＮＡ配列であることができる。ワクチンにおいて有用な新生抗原は、したがって、ヌクレオチド配列またはポリペプチド配列を含むことができる。

本明細書に開示する方法によって特定された腫瘍特異的変異を含む単離されたペプチド、公知の腫瘍特異的変異を含むペプチド、及び、本明細書に開示する方法によって特定された変異ポリペプチドまたはその断片を、本明細書に開示する。新生抗原ペプチドは、新生抗原が関連するポリペプチド配列をコードするヌクレオチド配列（例えば、ＤＮＡまたはＲＮＡ）を含む場合に、それらのコード配列の文脈において記載することができる。

新生抗原ヌクレオチド配列によってコードされる１つ以上のポリペプチドは、以下のうちの少なくとも１つを含むことができる：１０００ｎＭ未満のＩＣ５０値でのＭＨＣとの結合親和性、ＭＨＣクラスＩのペプチドについてはアミノ酸８〜１５個、８、９、１０、１１、１２、１３、１４、または１５個の長さ、プロテアソーム切断を促進するペプチド内またはその近くの配列モチーフの存在、及び、ＴＡＰ輸送を促進する配列モチーフの存在。ＭＨＣクラスＩＩのペプチドではアミノ酸６〜３０、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、または３０個の長さ、細胞外またはリソソームプロテアーゼ（例えば、カテプシン類）による切断またはＨＬＡ−ＤＭにより触媒されるＨＬＡ結合を促進するペプチド内またはその近くの配列モチーフの存在。

１つ以上の新生抗原は、腫瘍の表面上に存在することができる。

１つ以上の新生抗原は、腫瘍を有する対象において免疫原性であることができ、例えば、対象においてＴ細胞応答またはＢ細胞応答を惹起することができ得る。

対象において自己免疫応答を誘導する１つ以上の新生抗原は、腫瘍を有する対象のためのワクチン生成の文脈において、考察から排除することができる。

少なくとも１つの新生抗原性ペプチド分子のサイズは、約５個、約６個、約７個、約８個、約９個、約１０個、約１１個、約１２個、約１３個、約１４個、約１５個、約１６個、約１７個、約１８個、約１９個、約２０個、約２１個、約２２個、約２３個、約２４個、約２５個、約２６個、約２７個、約２８個、約２９個、約３０個、約３１個、約３２個、約３３個、約３４個、約３５個、約３６個、約３７個、約３８個、約３９個、約４０個、約４１個、約４２個、約４３個、約４４個、約４５個、約４６個、約４７個、約４８個、約４９個、約５０個、約６０個、約７０個、約８０個、約９０個、約１００個、約１１０個、約１２０個、またはそれよりも多いアミノ分子残基、及びこれらの範囲から導出される任意の範囲を含むことができるが、それらに限定されない。具体的な実施形態において、新生抗原性ペプチド分子は、アミノ酸５０個以下である。

新生抗原性ペプチド及びポリペプチドは、ＭＨＣクラスＩについては長さが１５残基以下で、通常約８〜約１１残基の間からなり、特に９または１０残基であることができ；ＭＨＣクラスＩＩについては、６以上３０以下の残基であることができる。

望ましい場合、より長いペプチドを、いくつかのやり方において設計することができる。１つの例において、ＨＬＡアレル上のペプチドの提示尤度が予測されるかまたは公知である場合、より長いペプチドは、（１）各々の対応する遺伝子産物のＮ末端及びＣ末端に向かって２〜５アミノ酸の伸長を有する個々の提示されるペプチド；（２）各々について伸長した配列を有する、提示されるペプチドのいくつかまたはすべての連鎖のいずれかからなることができる。別の例において、シークエンシングにより、腫瘍中に存在する長い（１０残基より長い）新生エピトープ配列（例えば、新規のペプチド配列をもたらすフレームシフト、リードスルー、またはイントロンの包含による）が明らかになる場合、より長いペプチドは、（３）新規の腫瘍特異的アミノ酸のストレッチ全体からなることになり、したがって、最強のＨＬＡに提示されるより短いペプチドの計算的なまたはインビトロ試験ベースの選択の必要を回避する。いずれの例においても、より長いペプチドの使用によって、患者細胞による内因性のプロセシングが可能になり、より有効な抗原提示及びＴ細胞応答の誘導がもたらされ得る。

新生抗原性ペプチド及びポリペプチドは、ＨＬＡタンパク質上に提示されることができる。いくつかの態様において、新生抗原性ペプチド及びポリペプチドは、野生型ペプチドよりも強い親和性でＨＬＡタンパク質上に提示される。いくつかの態様において、新生抗原性ペプチドまたはポリペプチドは、少なくとも５０００ｎＭ未満、少なくとも１０００ｎＭ未満、少なくとも５００ｎＭ未満、少なくとも２５０ｎＭ未満、少なくとも２００ｎＭ未満、少なくとも１５０ｎＭ未満、少なくとも１００ｎＭ未満、少なくとも５０ｎＭ未満、またはそれよりも小さいＩＣ５０を有することができる。

いくつかの態様において、新生抗原性ペプチド及びポリペプチドは、対象に投与された場合に、自己免疫応答を誘導せず、及び／または免疫寛容を引き起こさない。

また、少なくとも２種類以上の新生抗原性ペプチドを含む組成物も提供する。いくつかの実施形態において、組成物は、少なくとも２種類の異なるペプチドを含有する。少なくとも２種類の異なるペプチドは、同じポリペプチドに由来することができる。異なるポリペプチドとは、ペプチドが、長さ、アミノ酸配列、またはその両方において異なることを意味する。ペプチドは、腫瘍特異的変異を含有することが知られているか、または見出されている任意のポリペプチドに由来する。新生抗原性ペプチドが由来することができる、適しているポリペプチドは、例えば、ＣＯＳＭＩＣデータベースにおいて見出すことができる。ＣＯＳＭＩＣは、ヒトがんにおける体細胞性変異についての総合的な情報の管理を行う。ペプチドは、腫瘍特異的変異を含有する。いくつかの態様において、腫瘍特異的変異は、特定のがんタイプについてのドライバー変異である。

望ましい活性または性質を有する新生抗原性ペプチド及びポリペプチドは、望ましいＭＨＣ分子に結合して適切なＴ細胞を活性化する非改変ペプチドの生物学的活性を増大させるかまたは実質的にそのすべてを少なくとも保持しつつ、特定の望ましい属性、例えば、改善された薬理学的特徴を与えるように改変することができる。例として、新生抗原性ペプチド及びポリペプチドを、保存的または非保存的のいずれかの置換などの、種々の改変にさらに供することができ、そのような改変は、改善されたＭＨＣ結合、安定性、または提示などの、それらの使用におけるある特定の利点を提供し得る。保存的置換とは、アミノ酸残基を、生物学的及び／または化学的に類似している別のもので、例えば、１つの疎水性残基を別の疎水性残基、または１つの極性残基を別の極性残基で置き換えることを意味する。置換は、Ｇｌｙ、Ａｌａ；Ｖａｌ、Ｉｌｅ、Ｌｅｕ、Ｍｅｔ；Ａｓｐ、Ｇｌｕ；Ａｓｎ、Ｇｌｎ；Ｓｅｒ、Ｔｈｒ；Ｌｙｓ、Ａｒｇ；及びＰｈｅ、Ｔｙｒなどの組み合わせを含む。単一アミノ酸置換の効果はまた、Ｄ−アミノ酸を用いて探査してもよい。そのような改変は、例えば、Ｍｅｒｒｉｆｉｅｌｄ，Ｓｃｉｅｎｃｅ２３２：３４１−３４７（１９８６），Ｂａｒａｎｙ＆Ｍｅｒｒｉｆｉｅｌｄ，ＴｈｅＰｅｐｔｉｄｅｓ，Ｇｒｏｓｓ＆Ｍｅｉｅｎｈｏｆｅｒ，ｅｄｓ．（Ｎ．Ｙ．，ＡｃａｄｅｍｉｃＰｒｅｓｓ），ｐｐ．１−２８４（１９７９）；及びＳｔｅｗａｒｔ＆Ｙｏｕｎｇ，ＳｏｌｉｄＰｈａｓｅＰｅｐｔｉｄｅＳｙｎｔｈｅｓｉｓ，（Ｒｏｃｋｆｏｒｄ，Ｉｌｌ．，Ｐｉｅｒｃｅ），２ｄＥｄ．（１９８４）に記載されているように、周知のペプチド合成手順を用いて行うことができる。

種々のアミノ酸模倣物または非天然アミノ酸でのペプチド及びポリペプチドの改変は、インビボでのペプチド及びポリペプチドの安定性の増大に特に有用である場合がある。安定性は多くの方法でアッセイすることができる。例として、ペプチダーゼ、ならびに、ヒト血漿及び血清などの種々の生物学的媒質が、安定性を試験するために使用されている。例えば、Ｖｅｒｈｏｅｆｅｔａｌ．，Ｅｕｒ．Ｊ．ＤｒｕｇＭｅｔａｂＰｈａｒｍａｃｏｋｉｎ．１１：２９１−３０２（１９８６）を参照されたい。ペプチドの半減期は、２５％ヒト血清（ｖ／ｖ）アッセイを用いて好都合に決定することができる。プロトコールは、概して以下のようなものである。プールしたヒト血清（タイプＡＢ、非熱不活性化）を、使用前に遠心分離によって脱脂する。次いで、血清を、ＲＰＭＩ組織培養培地で２５％に希釈し、ペプチド安定性を試験するために使用する。あらかじめ決定された時間間隔で、少量の反応溶液を取り出して、６％水性トリクロロ酢酸またはエタノールのいずれかに添加する。濁った反応試料を１５分間冷却（４℃）し、次いで、スピンして沈降血清タンパク質を沈殿させる。次いで、ペプチドの存在を、安定性特異的クロマトグラフィー条件を用いた逆相ＨＰＬＣによって決定する。

ペプチド及びポリペプチドを、改善された血清半減期以外の望ましい属性を提供するために修飾することができる。例として、ＣＴＬ活性を誘導するペプチドの能力を、Ｔヘルパー細胞応答を誘導することができる少なくとも１つのエピトープを含有する配列への連結によって増強することができる。免疫原性ペプチド／Ｔヘルパーコンジュゲートは、スペーサー分子によって連結することができる。スペーサーは、典型的には、生理学的条件下で実質的に無電荷である、アミノ酸またはアミノ酸模倣物などの相対的に小さな中性分子から構成される。スペーサーは、典型的には、例えば、Ａｌａ、Ｇｌｙ、または、非極性アミノ酸もしくは中性極性アミノ酸の他の中性スペーサーから選択される。任意で存在するスペーサーは、同じ残基から構成される必要はなく、したがって、ヘテロオリゴマーまたはホモオリゴマーであり得ることが、理解されるであろう。存在する場合、スペーサーは、通常、少なくとも１または２残基、より通常は、３〜６残基であろう。あるいは、ペプチドを、スペーサーなしでＴヘルパーペプチドに連結することができる。

新生抗原性ペプチドは、ペプチドのアミノ末端またはカルボキシ末端のいずれかで、直接またはスペーサーを介してのいずれかでＴヘルパーペプチドに連結することができる。新生抗原性ペプチドまたはＴヘルパーペプチドのいずれかのアミノ末端を、アシル化することができる。例示的なＴヘルパーペプチドは、破傷風トキソイドの８３０〜８４３、インフルエンザの３０７〜３１９、マラリアスポロゾイトの周囲３８２〜３９８及び３７８〜３８９を含む。

タンパク質またはペプチドは、標準的な分子生物学的技法を通したタンパク質、ポリペプチド、もしくはペプチドの発現、天然由来源からのタンパク質もしくはペプチドの単離、またはタンパク質もしくはペプチドの化学合成を含む、当業者に公知の任意の技法によって作製することができる。種々の遺伝子に対応する、ヌクレオチドならびにタンパク質、ポリペプチド及びペプチドの配列は、以前に開示されており、当業者に公知のコンピュータ処理されたデータベースで見出すことができる。１つのそのようなデータベースは、ＮａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅｓｏｆＨｅａｌｔｈのウェブサイトに位置する、ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎのＧｅｎｂａｎｋ及びＧｅｎＰｅｐｔデータベースである。公知の遺伝子のコード領域は、本明細書に開示する技法を用いて、または当業者に公知であるように、増幅及び／または発現させることができる。あるいは、タンパク質、ポリペプチド、及びペプチドの種々の商業的調製物が、当業者に公知である。

さらなる態様において、新生抗原は、新生抗原性ペプチドまたはその一部をコードする核酸（例えば、ポリヌクレオチド）を含む。ポリヌクレオチドは、例えば、ＤＮＡ、ｃＤＮＡ、ＰＮＡ、ＣＮＡ、ＲＮＡ（例えば、ｍＲＮＡ）、例えば、ホスホロチオアートバックボーンを有するポリヌクレオチドなどの、ポリヌクレオチドの一本鎖及び／もしくは二本鎖、または天然形態もしくは安定化形態のいずれか、または、それらの組み合わせであることができ、イントロンを含有してもよく、または含有しなくてもよい。またさらなる態様は、ポリペプチドまたはその一部を発現することができる発現ベクターを提供する。様々な細胞タイプ用の発現ベクターが、当技術分野において周知であり、過度の実験なしで選択することができる。概して、ＤＮＡを、プラスミドなどの発現ベクター中に、発現のための適正な方向及び正確なリーディングフレームで挿入する。必要な場合は、ＤＮＡを、望ましい宿主によって認識される適切な転写及び翻訳調節性制御ヌクレオチド配列に連結することができるが、そのような制御は、概して発現ベクターにおいて利用可能である。次いで、ベクターを、標準的な技法を通して宿主中に導入する。手引きは、例えば、Ｓａｍｂｒｏｏｋｅｔａｌ．（１９８９）ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ，ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒ，Ｎ．Ｙ．において見出すことができる。

ＩＶ．ワクチン組成物
また、特異的な免疫応答、例えば、腫瘍特異的な免疫応答を生じることができる免疫原性組成物、例えば、ワクチン組成物も、本明細書に開示する。ワクチン組成物は、典型的に、例えば、本明細書に記載した方法を用いて選択された多数の新生抗原を含む。ワクチン組成物はまた、ワクチンと呼ぶこともできる。

ワクチンは、１〜３０種類のペプチド、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、もしくは３０種類の異なるペプチド、６、７、８、９、１０、１１、１２、１３、もしくは１４種類の異なるペプチド、または１２、１３、もしくは１４種類の異なるペプチドを含有することができる。ペプチドは、翻訳後修飾を含むことができる。ワクチンは、１〜１００種類もしくはそれよりも多いヌクレオチド配列、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、５１、５２、５３、５４、５５、５６、５７、５８、５９、６０、６１、６２、６３、６４、６５、６６、６７、６８、６９、７０、７１、７２、７３、７４、７５、７６、７７、７８、７９、８０、８１、８２、８３、８４、８５、８６、８７、８８、８９、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９、１００種類もしくはそれよりも多い異なるヌクレオチド配列、６、７、８、９、１０、１１、１２、１３、もしくは１４種類の異なるヌクレオチド配列、または１２、１３、もしくは１４種類の異なるヌクレオチド配列を含有することができる。ワクチンは、１〜３０種類の新生抗原配列、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、５１、５２、５３、５４、５５、５６、５７、５８、５９、６０、６１、６２、６３、６４、６５、６６、６７、６８、６９、７０、７１、７２、７３、７４、７５、７６、７７、７８、７９、８０、８１、８２、８３、８４、８５、８６、８７、８８、８９、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９、１００種類もしくはそれよりも多い異なる新生抗原配列、６、７、８、９、１０、１１、１２、１３、もしくは１４種類の異なる新生抗原配列、または１２、１３、もしくは１４種類の異なる新生抗原配列を含有することができる。

一実施形態では、異なるペプチド及び／もしくはポリペプチド、またはそれらをコードするヌクレオチド配列は、ペプチド及び／またはポリペプチドが、異なるＭＨＣクラスＩ分子及び／または異なるＭＨＣクラスＩＩ分子などの異なるＭＨＣ分子と結合することができるように選択される。いくつかの態様において、１つのワクチン組成物は、最も頻繁に存在するＭＨＣクラスＩ分子及び／またはＭＨＣクラスＩＩ分子と結合することができるペプチド及び／またはポリペプチドのコード配列を含む。したがって、ワクチン組成物は、少なくとも２種類の好ましい、少なくとも３種類の好ましい、または少なくとも４種類の好ましいＭＨＣクラスＩ分子及び／またはＭＨＣクラスＩＩ分子と結合することができる異なる断片を含むことができる。

ワクチン組成物は、特異的な細胞傷害性Ｔ細胞応答、及び／または特異的なヘルパーＴ細胞応答を生じることができる。

ワクチン組成物は、アジュバント及び／または担体をさらに含むことができる。有用なアジュバント及び担体の例を、本明細書の下記に示す。組成物は、例えば、タンパク質などの担体、または、例えば、Ｔ細胞に対してペプチドを提示することができる樹状細胞（ＤＣ）などの抗原提示細胞と結合することができる。

アジュバントは、ワクチン組成物中へのその混合が、新生抗原に対する免疫応答を増大させるか、または別の方法で修飾する任意の物質である。担体は、新生抗原がそれに結合することができる足場構造、例えば、ポリペプチドまたは多糖であることができる。任意で、アジュバントは、共有結合性または非共有結合性にコンジュゲートされる。

抗原に対する免疫応答を増大させるアジュバントの能力は、典型的に、免疫媒介性反応の有意なもしくは実質的な増大、または疾患症候の低減によって明示される。例えば、体液性免疫の増大は、典型的に、抗原に対して生じた抗体の力価の有意な増大によって明示され、Ｔ細胞活性の増大は、典型的に、細胞増殖、または細胞性細胞傷害、またはサイトカイン分泌の増大において明示される。アジュバントはまた、例えば、主として体液性またはＴｈ応答を、主として細胞性またはＴｈ応答へと変更することによって、免疫応答を変化させ得る。

適しているアジュバントは、１０１８ＩＳＳ、アラム、アルミニウム塩、Ａｍｐｌｉｖａｘ、ＡＳ１５、ＢＣＧ、ＣＰ−８７０，８９３、ＣｐＧ７９０９、ＣｙａＡ、ｄＳＬＩＭ、ＧＭ−ＣＳＦ、ＩＣ３０、ＩＣ３１、イミキモド、ＩｍｕＦａｃｔＩＭＰ３２１、ＩＳＰａｔｃｈ、ＩＳＳ、ＩＳＣＯＭＡＴＲＩＸ、ＪｕｖＩｍｍｕｎｅ、ＬｉｐｏＶａｃ、ＭＦ５９、モノホスホリル脂質Ａ、ＭｏｎｔａｎｉｄｅＩＭＳ１３１２、ＭｏｎｔａｎｉｄｅＩＳＡ２０６、ＭｏｎｔａｎｉｄｅＩＳＡ５０Ｖ、ＭｏｎｔａｎｉｄｅＩＳＡ−５１、ＯＫ−４３２、ＯＭ−１７４、ＯＭ−１９７−ＭＰ−ＥＣ、ＯＮＴＡＫ、ＰｅｐＴｅｌベクターシステム、ＰＬＧマイクロ粒子、レシキモド、ＳＲＬ１７２、ビロソーム及び他のウイルス様粒子、ＹＦ−１７Ｄ、ＶＥＧＦトラップ、Ｒ８４８、β−グルカン、Ｐａｍ３Ｃｙｓ、サポニンに由来するＡｑｕｉｌａ’ｓＱＳ２１ｓｔｉｍｕｌｏｎ（ＡｑｕｉｌａＢｉｏｔｅｃｈ、Ｗｏｒｃｅｓｔｅｒ、Ｍａｓｓ．、ＵＳＡ）、マイコバクテリア抽出物及び合成細菌細胞壁模倣物、及びＲｉｂｉ’ｓＤｅｔｏｘ．ＱｕｉｌまたはＳｕｐｅｒｆｏｓなどの他の専売アジュバントを含むが、それらに限定されない。不完全フロインドまたはＧＭ−ＣＳＦなどのアジュバントが、有用である。樹状細胞に特異的ないくつかの免疫学的アジュバント（例えば、ＭＦ５９）及びそれらの調製物が、以前に記載されている（ＤｕｐｕｉｓＭ，ｅｔａｌ．，ＣｅｌｌＩｍｍｕｎｏｌ．１９９８；１８６（１）：１８−２７；ＡｌｌｉｓｏｎＡＣ；ＤｅｖＢｉｏｌＳｔａｎｄ．１９９８；９２：３−１１）。また、サイトカインを使用することもできる。いくつかのサイトカインは、リンパ組織に対する樹状細胞の遊走への影響（例えば、ＴＮＦ−α）、Ｔリンパ球に対する効率的な抗原提示細胞への樹状細胞の成熟の加速化（例えば、ＧＭ−ＣＳＦ、ＩＬ−１、及びＩＬ−４）（具体的にその全体が参照により本明細書に組み入れられる、米国特許第５，８４９，５８９号）、及び免疫アジュバントとしての作用（例えば、ＩＬ−１２）に直接結び付けられている（ＧａｂｒｉｌｏｖｉｃｈＤＩ，ｅｔａｌ．，ＪＩｍｍｕｎｏｔｈｅｒＥｍｐｈａｓｉｓＴｕｍｏｒＩｍｍｕｎｏｌ．１９９６（６）：４１４−４１８）。

ＣｐＧ免疫刺激性オリゴヌクレオチドもまた、ワクチン設定においてアジュバントの効果を増強することが報告されている。ＴＬＲ７、ＴＬＲ８、及び／またはＴＬＲ９に結合するＲＮＡなどの他のＴＬＲ結合分子がまた、使用されてもよい。

有用なアジュバントの他の例は、化学的に修飾されたＣｐＧ（例えば、ＣｐＲ、Ｉｄｅｒａ）、Ｐｏｌｙ（Ｉ：Ｃ）（例えば、ｐｏｌｙｉ：ＣＩ２Ｕ）、非ＣｐＧ細菌ＤＮＡまたはＲＮＡ、ならびに、治療的に及び／またはアジュバントとして作用し得る、シクロホスファミド、スニチニブ、ベバシズマブ、セレブレックス、ＮＣＸ−４０１６、シルデナフィル、タダラフィル、バルデナフィル、ソラフィニブ、ＸＬ−９９９、ＣＰ−５４７６３２、パゾパニブ、ＺＤ２１７１、ＡＺＤ２１７１、イピリムマブ、トレメリムマブ、及びＳＣ５８１７５などの免疫活性小分子及び抗体を含むが、それらに限定されない。アジュバント及び添加物の量及び濃度は、当業者が過度の実験なしで容易に決定することができる。追加的なアジュバントは、顆粒球マクロファージコロニー刺激因子（ＧＭ−ＣＳＦ、サルグラモスチム）などのコロニー刺激因子を含む。

ワクチン組成物は、１種類よりも多い異なるアジュバントを含むことができる。さらに、治療用組成物は、上記の任意またはそれらの組み合わせを含む、任意のアジュバント物質を含むことができる。ワクチン及びアジュバントを、任意の適切な配列において、一緒にまたは別々に投与できることもまた、企図される。

担体（または賦形剤）は、アジュバントから独立して存在することができる。担体の機能は、例えば、活性または免疫原性を増大させるため、安定性を与えるため、生物学的活性を増大させるため、または血清半減期を増大させるために、特に変異体の分子量を増大させることであり得る。さらに、担体は、Ｔ細胞に対してペプチドを提示するのを助けることができる。担体は、当業者に公知の任意の適している担体、例えば、タンパク質または抗原提示細胞であることができる。担体タンパク質は、キーホールリンペットヘモシアニン、トランスフェリンなどの血清タンパク質、ウシ血清アルブミン、ヒト血清アルブミン、サイログロブリンもしくはオボアルブミン、免疫グロブリン、またはインスリンなどのホルモン、またはパルミチン酸であることができるが、それらに限定されない。ヒトの免疫化のためには、担体は概して、ヒトに許容されかつ安全な、生理学的に許容される担体である。しかし、破傷風トキソイド及び／またはジフテリアトキソイドは、適している担体である。あるいは、担体は、デキストラン、例えばセファロースであることができる。

細胞傷害性Ｔ細胞（ＣＴＬ）は、無傷の外来抗原自体よりも、ＭＨＣ分子に結合したペプチドの形態において抗原を認識する。ＭＨＣ分子自体は、抗原提示細胞の細胞表面に位置する。したがって、ＣＴＬの活性化は、ペプチド抗原、ＭＨＣ分子、及びＡＰＣの三量体複合体が存在する場合に可能である。対応して、ペプチドがＣＴＬの活性化のために使用される場合だけではなく、追加的にそれぞれのＭＨＣ分子を有するＡＰＣが添加される場合に、それは免疫応答を増強し得る。したがって、いくつかの実施形態において、ワクチン組成物は、追加的に、少なくとも１つの抗原提示細胞を含有する。

新生抗原はまた、ワクシニア、鶏痘、自己複製アルファウイルス、マラバウイルス、アデノウイルス（例えば、Ｔａｔｓｉｓｅｔａｌ．，Ａｄｅｎｏｖｉｒｕｓｅｓ，ＭｏｌｅｃｕｌａｒＴｈｅｒａｐｙ（２００４）１０，６１６−６２９を参照されたい）、または、第２、第３、もしくはハイブリッド第２／第３世代のレンチウイルス、及び特異的な細胞タイプもしくは受容体を標的とするように設計された任意の世代の組換えレンチウイルスを含むがそれらに限定されないレンチウイルス（例えば、Ｈｕｅｔａｌ．，ＩｍｍｕｎｉｚａｔｉｏｎＤｅｌｉｖｅｒｅｄｂｙＬｅｎｔｉｖｉｒａｌＶｅｃｔｏｒｓｆｏｒＣａｎｃｅｒａｎｄＩｎｆｅｃｔｉｏｕｓＤｉｓｅａｓｅｓ，ＩｍｍｕｎｏｌＲｅｖ．（２０１１）２３９（１）：４５−６１、Ｓａｋｕｍａｅｔａｌ．，Ｌｅｎｔｉｖｉｒａｌｖｅｃｔｏｒｓ：ｂａｓｉｃｔｏｔｒａｎｓｌａｔｉｏｎａｌ，ＢｉｏｃｈｅｍＪ．（２０１２）４４３（３）：６０３−１８、Ｃｏｏｐｅｒｅｔａｌ．，Ｒｅｓｃｕｅｏｆｓｐｌｉｃｉｎｇ−ｍｅｄｉａｔｅｄｉｎｔｒｏｎｌｏｓｓｍａｘｉｍｉｚｅｓｅｘｐｒｅｓｓｉｏｎｉｎｌｅｎｔｉｖｉｒａｌｖｅｃｔｏｒｓｃｏｎｔａｉｎｉｎｇｔｈｅｈｕｍａｎｕｂｉｑｕｉｔｉｎＣｐｒｏｍｏｔｅｒ，Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．（２０１５）４３（１）：６８２−６９０、Ｚｕｆｆｅｒｅｙｅｔａｌ．，Ｓｅｌｆ−ＩｎａｃｔｉｖａｔｉｎｇＬｅｎｔｉｖｉｒｕｓＶｅｃｔｏｒｆｏｒＳａｆｅａｎｄＥｆｆｉｃｉｅｎｔＩｎＶｉｖｏＧｅｎｅＤｅｌｉｖｅｒｙ，Ｊ．Ｖｉｒｏｌ．（１９９８）７２（１２）：９８７３−９８８０を参照されたい）などの、ウイルスベクターベースのワクチンプラットフォームに含めることもできる。上述のウイルスベクターベースのワクチンプラットフォームのパッケージング能力に依存して、このアプローチは、１つ以上の新生抗原ペプチドをコードする１つ以上のヌクレオチド配列を送達することができる。配列は、非変異配列が隣接していてもよく、リンカーによって分離されていてもよく、または、細胞内区画を標的とする１つもしくは複数の配列が先行していてもよい（例えば、Ｇｒｏｓｅｔａｌ．，Ｐｒｏｓｐｅｃｔｉｖｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｎｅｏａｎｔｉｇｅｎ−ｓｐｅｃｉｆｉｃｌｙｍｐｈｏｃｙｔｅｓｉｎｔｈｅｐｅｒｉｐｈｅｒａｌｂｌｏｏｄｏｆｍｅｌａｎｏｍａｐａｔｉｅｎｔｓ，ＮａｔＭｅｄ．（２０１６）２２（４）：４３３−８、Ｓｔｒｏｎｅｎｅｔａｌ．，Ｔａｒｇｅｔｉｎｇｏｆｃａｎｃｅｒｎｅｏａｎｔｉｇｅｎｓｗｉｔｈｄｏｎｏｒ−ｄｅｒｉｖｅｄＴｃｅｌｌｒｅｃｅｐｔｏｒｒｅｐｅｒｔｏｉｒｅｓ，Ｓｃｉｅｎｃｅ．（２０１６）３５２（６２９１）：１３３７−４１、Ｌｕｅｔａｌ．，ＥｆｆｉｃｉｅｎｔｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｍｕｔａｔｅｄｃａｎｃｅｒａｎｔｉｇｅｎｓｒｅｃｏｇｎｉｚｅｄｂｙＴｃｅｌｌｓａｓｓｏｃｉａｔｅｄｗｉｔｈｄｕｒａｂｌｅｔｕｍｏｒｒｅｇｒｅｓｓｉｏｎｓ，ＣｌｉｎＣａｎｃｅｒＲｅｓ．（２０１４）２０（１３）：３４０１−１０を参照されたい）。宿主中への導入時に、感染した細胞は、新生抗原を発現し、それにより、ペプチドに対する宿主免疫（例えば、ＣＴＬ）応答を惹起する。免疫化プロトコールにおいて有用なワクシニアベクター及び方法は、例えば、米国特許第４，７２２，８４８号に記載されている。別のベクターは、ＢＣＧ（カルメット・ゲラン桿菌）である。ＢＣＧベクターは、Ｓｔｏｖｅｒｅｔａｌ．（Ｎａｔｕｒｅ３５１：４５６−４６０（１９９１））に記載されている。新生抗原の治療的投与または免疫化に有用な、多種多様の他のワクチンベクター、例えば、チフス菌（Ｓａｌｍｏｎｅｌｌａｔｙｐｈｉ）ベクターなどが、本明細書における記載から当業者に明らかであろう。

ＩＶ．Ａ．ワクチン設計及び製造のさらなる考慮事項
ＩＶ．Ａ．１．すべての腫瘍サブクローンをカバーするペプチドのセットの決定
すべての、または大部分の腫瘍サブクローンによって提示されるものを意味するトランカルペプチド（ｔｒｕｎｃａｌｐｅｐｔｉｄｅ）が、ワクチン中への包含について優先される^５３。任意で、高い確率で提示されかつ免疫原性であることが予測されるトランカルペプチドがない場合、または、高い確率で提示されかつ免疫原性であることが予測されるトランカルペプチドの数が、追加的な非トランカルペプチドをワクチンに含めることができるほど少ない場合には、腫瘍サブクローンの数及び同一性を推定すること、及びワクチンによってカバーされる腫瘍サブクローンの数を最大化するようにペプチドを選ぶことによって、さらなるペプチドを優先順位付けすることができる^５４。

ＩＶ．Ａ．２．新生抗原の優先順位決定
上記の新生抗原フィルターのすべてを適用した後、ワクチン技術が対応できるよりも多くの候補新生抗原が、依然としてワクチン包含に利用可能である可能性がある。追加的に、新生抗原解析の種々の態様についての不確定度が残っている可能性があり、候補ワクチン新生抗原の様々な性状の間にトレードオフが存在する可能性がある。したがって、選択プロセスの各段階でのあらかじめ決定されたフィルターの代わりに、少なくとも以下の軸を有する空間に候補新生抗原を置き、積分アプローチを用いて選択を最適化する、積分多次元モデルを考えることができる。
１．自己免疫または寛容のリスク（生殖細胞系列のリスク）（より低い自己免疫のリスクが、典型的に好ましい）
２．シークエンシングアーチファクトの確率（より低いアーチファクトの確率が、典型的に好ましい）
３．免疫原性の確率（より高い免疫原性の確率が、典型的に好ましい）
４．提示の確率（より高い提示の確率が、典型的に好ましい）
５．遺伝子発現（より高い発現が、典型的に好ましい）
６．ＨＬＡ遺伝子のカバレッジ（新生抗原のセットの提示に関与する、より多い数のＨＬＡ分子は、腫瘍が、ＨＬＡ分子の下方制御または変異を介して免疫攻撃を回避する確率を低くする可能性がある）
７．ＨＬＡクラスのカバレッジ（ＨＬＡ−Ｉ及びＨＬＡ−ＩＩの両方をカバーすることで、治療応答の確率が高まり、腫瘍の免疫回避の確率が低くなる可能性がある）

Ｖ．治療及び製造方法
本明細書に開示する方法を用いて特定された複数の新生抗原などの１つ以上の新生抗原を対象に投与することにより、対象に腫瘍特異的な免疫応答を誘導し、腫瘍に対するワクチン接種を行い、対象のがんの症状を治療及び／または緩和する方法も提供される。

いくつかの態様において、対象は、がんと診断されているか、またはがんを発症するリスクにある。対象は、ヒト、イヌ、ネコ、ウマ、または、腫瘍特異的な免疫応答が望ましい任意の動物であることができる。腫瘍は、乳、卵巣、前立腺、肺、腎臓、胃、結腸、精巣、頭頸部、膵臓、脳、黒色腫、及び他の組織器官の腫瘍などの、任意の固形腫瘍、ならびに、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ球性白血病、Ｔ細胞リンパ球性白血病、及びＢ細胞リンパ腫を含むリンパ腫及び白血病などの、血液腫瘍であることができる。

新生抗原は、ＣＴＬ応答を誘導するのに十分な量で投与することができる。

新生抗原は、単独で、または他の治療用物質との組み合わせで投与することができる。治療用物質は、例えば、化学療法剤、放射線、または免疫療法である。特定のがんのための任意の適している治療的処置を、施すことができる。

加えて、対象に、チェックポイント阻害因子などの抗免疫抑制性／免疫刺激性物質をさらに投与することができる。例えば、対象に、抗ＣＴＬＡ抗体または抗ＰＤ−１または抗ＰＤ−Ｌ１をさらに投与することができる。抗体によるＣＴＬＡ−４またはＰＤ−Ｌ１の遮断は、患者においてがん性細胞に対する免疫応答を増強することができる。特に、ＣＴＬＡ−４遮断は、ワクチン接種プロトコールを採用した場合に有効であることが示されている。

ワクチン組成物に含まれるべき各新生抗原の最適量、及び最適投薬レジメンを、決定することができる。例えば、新生抗原またはその変異体は、静脈内（ｉ．ｖ．）注射、皮下（ｓ．ｃ．）注射、皮内（ｉ．ｄ．）注射、腹腔内（ｉ．ｐ．）注射、筋肉内（ｉ．ｍ．）注射のために調製することができる。注射の方法は、ｓ．ｃ．、ｉ．ｄ．、ｉ．ｐ．、ｉ．ｍ．、及びｉ．ｖ．を含む。ＤＮＡまたはＲＮＡ注射の方法は、ｉ．ｄ．、ｉ．ｍ．、ｓ．ｃ．、ｉ．ｐ．、及びｉ．ｖ．を含む。ワクチン組成物の投与の他の方法は、当業者に公知である。

ワクチンは、組成物中に存在する新生抗原の選択、数、及び／または量が、組織、がん、及び／または患者に特異的であるように編集することができる。例として、ペプチドの厳密な選択は、所定の組織における親タンパク質の発現パターンによって手引きされ得る。選択は、がんの特異的なタイプ、疾患の状態、より早期の処置レジメン、患者の免疫状態、及び当然、患者のＨＬＡハロタイプに依存し得る。さらに、ワクチンは、特定の患者の個人的な必要にしたがって、個別化された構成要素を含有することができる。例は、特定の患者における新生抗原の発現にしたがって新生抗原の選択を変えること、または、処置の第１のラウンドまたはスキームの後の二次的処置についての調整を含む。

がんのためのワクチンとして使用されるべき組成物について、正常組織において多量に発現している類似した正常な自己ペプチドを有する新生抗原は、本明細書に記載した組成物において、避けられるか、または少量で存在することができる。他方で、患者の腫瘍が、多量のある特定の新生抗原を発現することが公知である場合、このがんの処置のためのそれぞれの薬学的組成物は、多量に存在することができ、及び／または、この特定の新生抗原もしくはこの新生抗原の経路に特異的な１種類よりも多い新生抗原を含めることができる。

新生抗原を含む組成物を、既にがんを患っている個体に投与することができる。治療的適用において、組成物は、腫瘍抗原に対する有効なＣＴＬ応答を惹起し、かつ、症候及び／または合併症を治癒するかまたは少なくとも部分的に停止するのに十分な量で、患者に投与される。これを達成するのに妥当な量を、「治療的有効用量」として定義する。この用途のために有効な量は、例えば、組成物、投与の様式、処置される疾患の病期及び重症度、患者の体重及び健康の全身状態、ならびに処方医の判断に依存するであろう。組成物は、概して、重篤な疾患状態、すなわち、命に関わるか、または潜在的に命に関わる状況、特にがんが転移している場合に使用できることを、心に留めるべきである。そのような例において、外来性物質の最小化、及び新生抗原の相対的な非毒性の性質を考慮して、実質的過剰量のこれらの組成物を投与することが、可能であり、かつ処置する医師が望ましいと感じることができる。

治療的用途のために、投与は、腫瘍の検出または外科的除去時に始めることができる。これに、少なくとも症候が実質的に減ずるまで、及びその後ある期間にわたって、ブースト用量が続く。

治療的処置のための薬学的組成物（例えば、ワクチン組成物）は、非経口、局部、経鼻、経口、または局所投与について意図される。薬学的組成物は、非経口的に、例えば、静脈内、皮下、皮内、または筋肉内に投与することができる。組成物は、腫瘍に対する局所免疫応答を誘導するために、外科的切除の部位に投与することができる。新生抗原の溶液を含む非経口投与用の組成物を、本明細書に開示し、ワクチン組成物は、許容される担体、例えば、水性担体に溶解または懸濁される。様々な水性担体、例えば、水、緩衝水、０．９％食塩水、０．３％グリシン、ヒアルロン酸などを使用することができる。これらの組成物は、従来の周知の滅菌技法によって滅菌することができ、または滅菌濾過することができる。結果として生じた水溶液を、そのままで使用のためにパッケージングするか、または凍結乾燥することができ、凍結乾燥調製物は、投与前に滅菌溶液と組み合わされる。組成物は、ｐＨ調整剤及び緩衝剤、等張化剤、湿潤剤など、例えば、酢酸ナトリウム、乳酸ナトリウム、塩化ナトリウム、塩化カリウム、塩化カルシウム、ソルビタンモノラウラート、トリエタノールアミンオレアートなどのような、生理学的条件に近づけるために必要とされる、薬学的に許容される補助物質を含有してもよい。

新生抗原はまた、それらをリンパ組織などの特定の細胞組織にターゲティングする、リポソームを介して投与することもできる。リポソームはまた、半減期を増大させるのにも有用である。リポソームは、エマルジョン、フォーム、ミセル、不溶性単層、液晶、リン脂質分散物、ラメラ層などを含む。これらの調製物において、送達されるべき新生抗原は、単独で、または、ＣＤ４５抗原に結合するモノクローナル抗体などの、例えば、リンパ系細胞の間で優性な受容体に結合する分子、または他の治療用組成物もしくは免疫原性組成物と共に、リポソームの一部として組み込まれる。したがって、所望の新生抗原で満たされたリポソームは、リンパ系細胞の部位へ方向付けられることができ、そこで、リポソームは次いで、選択された治療用／免疫原性組成物を送達する。リポソームは、概して、中性及び負電荷を有するリン脂質、及びコレステロールなどのステロールを含む、標準的な小胞形成脂質から形成され得る。脂質の選択は、概して、例えば、リポソームサイズ、酸不安定性、及び血流におけるリポソームの安定性の考慮により手引きされる。例えば、Ｓｚｏｋａｅｔａｌ．，Ａｎｎ．Ｒｅｖ．Ｂｉｏｐｈｙｓ．Ｂｉｏｅｎｇ．９；４６７（１９８０）、米国特許第４，２３５，８７１号、第４，５０１，７２８号、第４，５０１，７２８号、第４，８３７，０２８号、及び第５，０１９，３６９号に記載されているように、様々な方法を、リポソームを調製するために利用可能である。

免疫細胞へのターゲティングのために、リポソーム中に組み込まれるべきリガンドは、例えば、所望の免疫系細胞の細胞表面決定基に特異的な抗体またはその断片を含むことができる。リポソーム懸濁液は、とりわけ、投与の様式、送達されるペプチド、及び処置される疾患の病期にしたがって変動する用量で、静脈内、局所、局部などに投与することができる。

治療目的または免疫化目的で、本明細書に記載したペプチド、及び任意でペプチドの１つ以上をコードする核酸をまた、患者に投与することもできる。数多くの方法が、核酸を患者に送達するために好都合に使用される。例として、核酸を、「裸のＤＮＡ」として直接送達することができる。このアプローチは、例として、Ｗｏｌｆｆｅｔａｌ．，Ｓｃｉｅｎｃｅ２４７：１４６５−１４６８（１９９０）、ならびに米国特許第５，５８０，８５９号及び第５，５８９，４６６号に記載されている。核酸はまた、例として、米国特許第５，２０４，２５３号に記載されているような弾道送達を用いて投与することもできる。単にＤＮＡからなる粒子を、投与することができる。あるいは、ＤＮＡを、金粒子などの粒子に接着させることができる。核酸配列を送達するためのアプローチは、エレクトロポレーションを伴うかまたは伴わない、ウイルスベクター、ｍＲＮＡベクター、及びＤＮＡベクターを含むことができる。

核酸はまた、カチオン性脂質などのカチオン性化合物に複合体化させて送達することもできる。脂質媒介性遺伝子送達法は、例として、９６１８３７２ＷＯＡＷＯ９６／１８３７２；９３２４６４０ＷＯＡＷＯ９３／２４６４０；Ｍａｎｎｉｎｏ＆Ｇｏｕｌｄ−Ｆｏｇｅｒｉｔｅ，ＢｉｏＴｅｃｈｎｉｑｕｅｓ６（７）：６８２−６９１（１９８８）；米国特許第５，２７９，８３３号Ｒｏｓｅ、米国特許第５，２７９，８３３号；９１０６３０９ＷＯＡＷＯ９１／０６３０９；及びＦｅｌｇｎｅｒｅｔａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ８４：７４１３−７４１４（１９８７）に記載されている。

新生抗原はまた、ワクシニア、鶏痘、自己複製アルファウイルス、マラバウイルス、アデノウイルス（例えば、Ｔａｔｓｉｓｅｔａｌ．，Ａｄｅｎｏｖｉｒｕｓｅｓ，ＭｏｌｅｃｕｌａｒＴｈｅｒａｐｙ（２００４）１０，６１６−６２９を参照されたい）、または、第２、第３、もしくはハイブリッド第２／第３世代のレンチウイルス、及び特異的な細胞タイプもしくは受容体を標的とするように設計された任意の世代の組換えレンチウイルスを含むがそれらに限定されないレンチウイルス（例えば、Ｈｕｅｔａｌ．，ＩｍｍｕｎｉｚａｔｉｏｎＤｅｌｉｖｅｒｅｄｂｙＬｅｎｔｉｖｉｒａｌＶｅｃｔｏｒｓｆｏｒＣａｎｃｅｒａｎｄＩｎｆｅｃｔｉｏｕｓＤｉｓｅａｓｅｓ，ＩｍｍｕｎｏｌＲｅｖ．（２０１１）２３９（１）：４５−６１、Ｓａｋｕｍａｅｔａｌ．，Ｌｅｎｔｉｖｉｒａｌｖｅｃｔｏｒｓ：ｂａｓｉｃｔｏｔｒａｎｓｌａｔｉｏｎａｌ，ＢｉｏｃｈｅｍＪ．（２０１２）４４３（３）：６０３−１８、Ｃｏｏｐｅｒｅｔａｌ．，Ｒｅｓｃｕｅｏｆｓｐｌｉｃｉｎｇ−ｍｅｄｉａｔｅｄｉｎｔｒｏｎｌｏｓｓｍａｘｉｍｉｚｅｓｅｘｐｒｅｓｓｉｏｎｉｎｌｅｎｔｉｖｉｒａｌｖｅｃｔｏｒｓｃｏｎｔａｉｎｉｎｇｔｈｅｈｕｍａｎｕｂｉｑｕｉｔｉｎＣｐｒｏｍｏｔｅｒ，Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．（２０１５）４３（１）：６８２−６９０、Ｚｕｆｆｅｒｅｙｅｔａｌ．，Ｓｅｌｆ−ＩｎａｃｔｉｖａｔｉｎｇＬｅｎｔｉｖｉｒｕｓＶｅｃｔｏｒｆｏｒＳａｆｅａｎｄＥｆｆｉｃｉｅｎｔＩｎＶｉｖｏＧｅｎｅＤｅｌｉｖｅｒｙ，Ｊ．Ｖｉｒｏｌ．（１９９８）７２（１２）：９８７３−９８８０を参照されたい）などの、ウイルスベクターベースのワクチンプラットフォームに含めることもできる。上述のウイルスベクターベースのワクチンプラットフォームのパッケージング能力に依存して、このアプローチは、１つ以上の新生抗原ペプチドをコードする１つ以上のヌクレオチド配列を送達することができる。配列は、非変異配列が隣接していてもよく、リンカーによって分離されていてもよく、または、細胞内区画を標的とする１つもしくは複数の配列が先行していてもよい（例えば、Ｇｒｏｓｅｔａｌ．，Ｐｒｏｓｐｅｃｔｉｖｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｎｅｏａｎｔｉｇｅｎ−ｓｐｅｃｉｆｉｃｌｙｍｐｈｏｃｙｔｅｓｉｎｔｈｅｐｅｒｉｐｈｅｒａｌｂｌｏｏｄｏｆｍｅｌａｎｏｍａｐａｔｉｅｎｔｓ，ＮａｔＭｅｄ．（２０１６）２２（４）：４３３−８、Ｓｔｒｏｎｅｎｅｔａｌ．，Ｔａｒｇｅｔｉｎｇｏｆｃａｎｃｅｒｎｅｏａｎｔｉｇｅｎｓｗｉｔｈｄｏｎｏｒ−ｄｅｒｉｖｅｄＴｃｅｌｌｒｅｃｅｐｔｏｒｒｅｐｅｒｔｏｉｒｅｓ，Ｓｃｉｅｎｃｅ．（２０１６）３５２（６２９１）：１３３７−４１、Ｌｕｅｔａｌ．，ＥｆｆｉｃｉｅｎｔｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｍｕｔａｔｅｄｃａｎｃｅｒａｎｔｉｇｅｎｓｒｅｃｏｇｎｉｚｅｄｂｙＴｃｅｌｌｓａｓｓｏｃｉａｔｅｄｗｉｔｈｄｕｒａｂｌｅｔｕｍｏｒｒｅｇｒｅｓｓｉｏｎｓ，ＣｌｉｎＣａｎｃｅｒＲｅｓ．（２０１４）２０（１３）：３４０１−１０を参照されたい）。宿主中への導入時に、感染した細胞は、新生抗原を発現し、それにより、ペプチドに対する宿主免疫（例えば、ＣＴＬ）応答を惹起する。免疫化プロトコールにおいて有用なワクシニアベクター及び方法は、例えば、米国特許第４，７２２，８４８号に記載されている。別のベクターは、ＢＣＧ（カルメット・ゲラン桿菌）である。ＢＣＧベクターは、Ｓｔｏｖｅｒｅｔａｌ．（Ｎａｔｕｒｅ３５１：４５６−４６０（１９９１））に記載されている。新生抗原の治療的投与または免疫化に有用な、多種多様の他のワクチンベクター、例えば、チフス菌ベクターなどが、本明細書における記載から当業者に明らかであろう。

核酸を投与する手段は、１つ以上のエピトープをコードするミニ遺伝子構築物を使用する。ヒト細胞における発現のための、選択されたＣＴＬエピトープをコードするＤＮＡ配列（ミニ遺伝子）を作製するために、エピトープのアミノ酸配列を逆翻訳する。各アミノ酸に対するコドン選択を手引きするために、ヒトコドン使用頻度表を使用する。これらのエピトープをコードするＤＮＡ配列を、直接隣り合わせて、連続的なポリペプチド配列を作製する。発現及び／または免疫原性を最適化するために、追加の要素を、ミニ遺伝子設計中に組み入れることができる。逆翻訳して、ミニ遺伝子配列に含めることができるアミノ酸配列の例は、ヘルパーＴリンパ球エピトープ、リーダー（シグナル）配列、及び小胞体保持シグナルを含む。加えて、ＣＴＬエピトープのＭＨＣ提示は、ＣＴＬエピトープに近接した合成の（例えば、ポリアラニン）または天然に存在する隣接配列を含むことによって、改善することができる。ミニ遺伝子配列は、ミニ遺伝子のプラス鎖及びマイナス鎖をコードするオリゴヌクレオチドをアセンブルすることによって、ＤＮＡに変換される。オーバーラップするオリゴヌクレオチド（３０〜１００塩基長）を、周知の技法を用いて適切な条件下で、合成し、リン酸化し、精製し、アニーリングする。オリゴヌクレオチドの端は、Ｔ４ＤＮＡリガーゼを用いて連結する。ＣＴＬエピトープポリペプチドをコードするこの合成ミニ遺伝子を、次いで、望ましい発現ベクター中にクローニングすることができる。

精製プラスミドＤＮＡは、様々な製剤を用いて、注射のために調製することができる。これらのうちでもっとも単純なものは、滅菌リン酸緩衝食塩水（ＰＢＳ）における凍結乾燥ＤＮＡの再構成である。様々な方法が記載されており、新たな技法が利用可能になり得る。上記で言及したように、核酸は、カチオン性脂質で好都合に製剤化される。加えて、糖脂質、融合性リポソーム、ペプチド、及び保護的、相互作用的、非縮合性（ＰＩＮＣ）と集合的に呼ばれる化合物もまた、精製プラスミドＤＮＡと複合体化させて、安定性、筋肉内分散、または特異的な器官もしくは細胞タイプへの輸送などの変数に影響を及ぼすことができる。

また、本明細書に開示する方法の工程を行うこと；及び、多数の新生抗原または多数の新生抗原のサブセットを含む腫瘍ワクチンを生産する工程を含む、腫瘍ワクチンを製造する方法も、本明細書に開示する。

本明細書に開示する新生抗原は、当技術分野において公知の方法を用いて製造することができる。例えば、本明細書に開示する新生抗原またはベクター（例えば、１つ以上の新生抗原をコードする少なくとも１つの配列を含むベクター）を生産する方法は、新生抗原またはベクターを発現するのに適している条件下で宿主細胞を培養する工程であって、宿主細胞が、新生抗原またはベクターをコードする少なくとも１つのポリヌクレオチドを含む工程、及び、新生抗原またはベクターを精製する工程を含むことができる。標準的な精製法は、クロマトグラフィー技法、電気泳動技法、免疫学的技法、沈降技法、透析技法、濾過技法、濃縮技法、及びクロマトフォーカシング技法を含む。

宿主細胞は、チャイニーズハムスター卵巣（ＣＨＯ）細胞、ＮＳ０細胞、酵母、またはＨＥＫ２９３細胞を含むことができる。宿主細胞は、本明細書に開示する新生抗原またはベクターをコードする少なくとも１つの核酸配列を含む、１つ以上のポリヌクレオチドで形質転換することができ、任意で、単離されたポリヌクレオチドは、新生抗原またはベクターをコードする少なくとも１つの核酸配列に機能的に連結されたプロモーター配列をさらに含む。ある特定の実施形態において、単離されたポリヌクレオチドは、ｃＤＮＡであることができる。

ＶＩ．新生抗原の特定
ＶＩ．Ａ．新生抗原候補の特定
腫瘍及び正常のエクソーム及びトランスクリプトームのＮＧＳ解析のための研究法を、新生抗原の特定のスペースに記載し、適用している^{６，１４，１５}。下記の例は、臨床設定における新生抗原の特定について、より大きな感度及び特異性のためのある特定の最適化を考慮している。これらの最適化は、実験室プロセスに関連するもの及びＮＧＳデータ解析に関連するものの、２つの区域にグループ化することができる。

ＶＩ．Ａ．１．実験室プロセスの最適化
本明細書に提示したプロセスの改善は、標的とされるがんパネルにおける信頼できるがんドライバー遺伝子の評価について開発された概念^１６を、新生抗原の特定のために必要な全エクソーム設定及び全トランスクリプトーム設定に拡大することによって、低い腫瘍含量及び少ない体積の臨床標本からの高精度の新生抗原の発見における難題に対処する。具体的には、これらの改善は、以下を含む：
１．低い腫瘍含量またはサブクローン状態のいずれかにより、低い変異体アレル頻度で存在する変異を検出するための、腫瘍エクソームにわたる深い（５００ｘよりも大きい）固有の平均カバレッジのターゲティング。
２．可能性のある新生抗原の見逃しが最も少ないように、１００ｘ未満でカバーされる塩基が５％未満である、例として、
ａ．個々のプローブＱＣを有するＤＮＡベースの捕捉プローブの使用^１７
ｂ．十分にカバーされていない領域についての追加的なベイトの包含
３．可能性のある新生抗原が体細胞性／生殖細胞系列ステータスについて分類されていないままである（したがってＴＳＮＡとして使用可能ではない）ことが最も少ないように、２０ｘ未満でカバーされる塩基が５％未満である、正常エクソームにわたる均一カバレッジのターゲティング。
４．必要とされるシークエンシングの総量を最小化するために、配列捕捉プローブは、非コードＲＮＡは新生抗原を生じることができないことから、遺伝子のコード領域のみについて設計される。追加的な最適化は、以下を含む：
ａ．ＧＣリッチであり、標準的なエクソームシークエンシングでは十分に捕捉されないＨＬＡ遺伝子についての補充的プローブ^１８。
ｂ．不十分な発現、プロテアソームによる最適に満たない消化、または異例の配列特性などの要因により、候補新生抗原を少ししかまたは全く生成しないと予測される遺伝子の排除。
５．変異検出、遺伝子及びスプライス変異体（「アイソフォーム」）発現の定量、ならびに融合物検出を可能にするために、腫瘍ＲＮＡが同様に、高深度（１００Ｍリードよりも大きい）でシークエンシングされる。ＦＦＰＥ試料由来のＲＮＡは、ＤＮＡにおいてエクソームを捕捉するために使用されるのと同じまたは類似したプローブで、プローブベース濃縮^１９を用いて抽出される。

ＶＩ．Ａ．２．ＮＧＳデータ解析の最適化
解析法の改善は、一般的な研究変異コーリングアプローチの最適に満たない感度及び特異性に対処し、具体的には、臨床設定における新生抗原の特定のために関連するカスタマイズ化を考慮する。これらは、以下を含む：
１．アラインメントのための、ＨＧ３８参照ヒトゲノムまたはより後のバージョンの使用（それが、以前のゲノムリリースとは対照的に、集団多型をより良好に反映する複数のＭＨＣ領域アセンブリーを含有するため）。
２．様々なプログラム^５からの結果をマージすることによる、単一変異コーラー２０の限界の克服。
ａ．単一ヌクレオチド変異及び挿入欠失は、以下を含む一連のツールで、腫瘍ＤＮＡ、腫瘍ＲＮＡ、及び正常ＤＮＡから検出される：Ｓｔｒｅｌｋａ^２１及びＭｕｔｅｃ^ｔ２２などの、腫瘍及び正常ＤＮＡの比較に基づくプログラム；ならびに、低純度の試料において特に有利である^２３、ＵＮＣｅｑＲなどの、腫瘍ＤＮＡ、腫瘍ＲＮＡ、及び正常ＤＮＡを組み入れるプログラム。
ｂ．挿入欠失は、Ｓｔｒｅｌｋａ及びＡＢＲＡ^２４などの、局所リアセンブリーを行うプログラムで決定される。
ｃ．構造的再編成は、Ｐｉｎｄｅｌ^２５またはＢｒｅａｋｓｅｑ^２６などの専用のツールを用いて決定される。
３．試料スワップを検出して阻止するために、同じ患者についての試料由来の変異コールが、選ばれた数の多型部位で比較される。
４．例として、以下による、人工的コールの広範囲のフィルタリングが行われる：
ａ．潜在的に、低いカバレッジの例においては緩やかな検出パラメータで、及び挿入欠失の例においては許容的な近接基準での、正常ＤＮＡにおいて見出される変異の除去。
ｂ．低いマッピング品質または低い塩基品質による変異の除去^２７。
ｃ．たとえ対応する正常において観察されないとしても、再出現するシークエンシングアーチファクトから生じる変異の除去^２７。例は、主として１本の鎖上に検出される変異を含む。
ｄ．無関連の対照のセットにおいて検出される変異の除去^２７。
５．ｓｅｑ２ＨＬＡ^２８、ＡＴＨＬＡＴＥＳ^２９、またはＯｐｔｉｔｙｐｅのうちの１つを使用する、かつまた、エクソーム及びＲＮＡシークエンシングデータを組み合わせる^２８、正常エクソームからの正確なＨＬＡコーリング。追加的な潜在的最適化は、ロングリードＤＮＡシークエンシングなどの、ＨＬＡタイピングのための専用アッセイの採用^３０、または、ＲＮＡ断片を連結して連続性を保持するための方法の適応^３１を含む。
６．腫瘍特異的スプライス変異体から生じた新生ＯＲＦの堅牢な検出は、ＣＬＡＳＳ^３２、Ｂａｙｅｓｅｍｂｌｅｒ^３３、ＳｔｒｉｎｇＴｉｅ^３４、またはそのリファレンスガイドモードにおける類似したプログラム（すなわち、各実験からそれらの全体の転写産物を再作製するように試みるよりもむしろ、公知の転写産物構造を用いる）を用いて、ＲＮＡ−ｓｅｑデータから転写産物をアセンブルすることによって、行われる。Ｃｕｆｆｌｉｎｋｓ^３５が、この目的で一般的に使用されるが、それは頻繁に、信じ難いほど多数のスプライス変異体を産生し、それらの多くは、完全長遺伝子よりもはるかに短く、単純な陽性対照をリカバーすることができない場合がある。コード配列及び潜在的なナンセンス変異依存分解機構は、変異体配列を再導入した、ＳｐｌｉｃｅＲ^３６及びＭＡＭＢＡ^３７などのツールで決定される。遺伝子発現は、Ｃｕｆｆｌｉｎｋｓ^３５またはＥｘｐｒｅｓｓ（ＲｏｂｅｒｔｓａｎｄＰａｃｈｔｅｒ，２０１３）などのツールで決定される。野生型及び変異体特異的な発現カウント及び／または相対レベルは、ＡＳＥ^３８またはＨＴＳｅｑ^３９などの、これらの目的で開発されたツールで決定される。潜在的なフィルタリング段階は、以下を含む：
ａ．不十分に発現されていると考えられる候補新生ＯＲＦの除去。
ｂ．ナンセンス変異依存分解機構（ＮＭＤ）を引き起こすと予測される候補新生ＯＲＦの除去。
７．腫瘍特異的と直接検証することができない、ＲＮＡにおいてのみ観察される候補新生抗原（例えば、新生ＯＲＦ）は、例として以下を考慮することにより、追加的なパラメータにしたがって、腫瘍特異的である可能性が高いとして分類される：
ａ．腫瘍ＤＮＡのみのシス作用性フレームシフトまたはスプライス部位変異の支持の存在。
ｂ．スプライシング因子における腫瘍ＤＮＡのみのトランス作用性変異の確証の存在。例として、Ｒ６２５変異体ＳＦ３Ｂ１での３つの独立して公開された実験において、最も差次的にスプライシングを呈する遺伝子は、１つの実験がブドウ膜黒色腫患者を検討し^４０、第２の実験がブドウ膜黒色腫細胞株を検討し^４１、及び第３の実験が乳がん患者を検討した^４２にもかかわらず、一致していた。
ｃ．新規のスプライシングアイソフォームについては、ＲＮＡＳｅｑデータにおける「新規の」スプライス−ジャンクションリードの確証の存在。
ｄ．新規の再編成については、正常ＤＮＡには存在しない腫瘍ＤＮＡにおけるエクソン近傍リードの確証の存在。
ｅ．ＧＴＥｘ^４３などの遺伝子発現大要からの欠如（すなわち、生殖細胞系列起源の可能性をより低くする）。
８．アラインメント及びアノテーションベースのエラー及びアーチファクトを直接避けるために、アセンブルされたＤＮＡの腫瘍及び正常リード（またはそのようなリード由来のｋマー）を比較することによる、参照ゲノムアラインメントベースの解析の補完（例えば、生殖細胞系列変異またはリピートコンテクスト挿入欠失の近くに生じる体細胞性変異について）。

ポリアデニル化ＲＮＡを有する試料において、ＲＮＡ−ｓｅｑデータにおけるウイルスＲＮＡ及び微生物ＲＮＡの存在は、患者の応答を予測し得る追加的因子の特定に向かって、ＲＮＡＣｏＭＰＡＳＳ４４または類似した方法を用いて評価される。

ＶＩ．Ｂ．ＨＬＡペプチドの単離及び検出
ＨＬＡペプチド分子の単離は、組織試料の溶解及び可溶化後に、古典的な免疫沈降（ＩＰ）法を用いて行った^{５５〜５８}。清澄化した溶解物を、ＨＬＡ特異的ＩＰに使用した。

免疫沈降は、抗体がＨＬＡ分子に特異的である、ビーズにカップリングした抗体を用いて行った。汎クラスＩＨＬＡ免疫沈降のためには、汎クラスＩＣＲ抗体を使用し、クラスＩＩＨＬＡ−ＤＲのためには、ＨＬＡ−ＤＲ抗体を使用する。抗体を、一晩インキュベーション中に、ＮＨＳ−セファロースビーズに共有結合で付着させる。共有結合性の付着後、ビーズを洗浄して、ＩＰのために等分した^{５９、６０}。ビーズに共有結合されていない抗体を用いて免疫沈降を行うこともできる。一般的に、これは、抗体をカラムに保持するためにプロテインＡ及び／またはプロテインＧでコーティングしたセファロースまたは磁気ビーズを使用して行われる。ＭＨＣ／ペプチド複合体を選択的に濃縮するために使用することができるいくつかの抗体を下記に示す。

清澄化した組織溶解物を、免疫沈降のために抗体ビーズに添加する。免疫沈降後、ビーズを溶解物から除去し、追加的なＩＰを含む追加的な実験のために、溶解物を保存する。標準的な技法を用いて、ＩＰビーズを洗浄して非特異的結合を除去し、ＨＬＡ／ペプチド複合体をビーズから溶出する。分子量スピンカラムまたはＣ１８分画を用いて、タンパク質構成要素をペプチドから除去する。結果として生じたペプチドを、ＳｐｅｅｄＶａｃ蒸発によって乾燥させ、いくつかの場合には、ＭＳ解析の前に−２０℃で保存する。

乾燥したペプチドを、逆相クロマトグラフィーに適しているＨＰＬＣ緩衝液において再構成し、ＦｕｓｉｏｎＬｕｍｏｓ質量分析計（Ｔｈｅｒｍｏ）における勾配溶出のために、Ｃ−１８マイクロキャピラリーＨＰＬＣカラム上にロードする。ペプチド質量／電荷（ｍ／ｚ）のＭＳ１スペクトルを、Ｏｒｂｉｔｒａｐ検出器において高解像度で収集し、その後、ＭＳ２低解像度スキャンを、選択イオンのＨＣＤフラグメンテーション後にイオントラップ検出器において収集した。追加的に、ＭＳ２スペクトルは、ＣＩＤもしくはＥＴＤフラグメンテーション法、または、ペプチドのより大きなアミノ酸カバレッジを獲得するための３つの技法の任意の組み合わせのいずれかを用いて、取得することができる。ＭＳ２スペクトルはまた、Ｏｒｂｉｔｒａｐ検出器において高解像度質量精度で測定することもできる。

各解析由来のＭＳ２スペクトルを、Ｃｏｍｅｔ^{６１、６２}を用いてタンパク質データベースに対して検索し、ペプチド特定を、Ｐｅｒｃｏｌａｔｏｒ^{６３〜６５}を用いてスコア化する。ＰＥＡＫＳｓｔｕｄｉｏ（ＢｉｏｉｎｆｏｒｍａｔｉｃｓＳｏｌｕｔｉｏｎｓＩｎｃ．）及び他のサーチエンジンを用いてさらなるシークエンシングを行うか、またはスペクトルマッチング及びデノボシークエンシング^７５を含むシークエンシング法を用いることができる。

ＶＩ．Ｂ．１．総合的ＨＬＡペプチドシークエンシングのためのＭＳ検出限界の研究
ペプチドＹＶＹＶＡＤＶＡＡＫを用いて、何が検出の限界かを、ＬＣカラム上にロードした様々な量のペプチドを用いて決定した。試験したペプチドの量は、１ｐｍｏｌ、１００ｆｍｏｌ、１０ｆｍｏｌ、１ｆｍｏｌ、及び１００ａｍｏｌであった。（表１）結果を図１Ｆに示す。これらの結果は、検出の最低限界（ＬｏＤ）がアトモルの範囲（１０^−１８）にあること、ダイナミックレンジが５桁に及ぶこと、及び、シグナル対ノイズが、低いフェムトモル範囲（１０^−１５）でシークエンシングに十分であるように見えることを示す。

ＶＩＩ．提示モデル
ＶＩＩ．Ａ．システムの概要
図２Ａは、１つの実施形態にしたがう、患者におけるペプチド提示の尤度を特定するための環境１００の概要である。環境１００は、それ自体が提示情報記憶装置１６５を含む提示特定システム１６０を導入するコンテクストを提供する。

提示特定システム１６０は、図１４に関して下記で議論されるようなコンピュータ計算システムにおいて具現化された、１つまたはコンピュータモデルであり、ＭＨＣアレルのセットに関連するペプチド配列を受け取り、ペプチド配列が、関連するＭＨＣアレルのセットの１つ以上によって提示されるであろう尤度を決定する。提示特定システム１６０はクラスＩ及びクラスＩＩＭＨＣアレルの両方に適用することができる。これは、様々なコンテクストにおいて有用である。提示特定システム１６０の１つの具体的な用途の例は、患者１１０の腫瘍細胞由来のＭＨＣアレルのセットに関連する候補新生抗原のヌクレオチド配列を受け取り、候補新生抗原が、腫瘍の関連するＭＨＣアレルの１つ以上によって提示され、及び／または患者１１０の免疫系において免疫原性応答を誘導するであろう尤度を決定することができることである。システム１６０によって決定された際に高い尤度を有するそれらの候補新生抗原を、ワクチン１１８における包含のために選択することができ、そのような抗腫瘍免疫応答が、腫瘍細胞を提供する患者１１０の免疫系から惹起され得る。

提示特定システム１６０は、１つ以上の提示モデルを通して提示尤度を決定する。具体的には、提示モデルは、所定のペプチド配列が、関連するＭＨＣアレルのセットについて提示されるかどうかの尤度を生成し、尤度は、記憶装置１６５に保存された提示情報に基づいて生成される。例えば、提示モデルは、ペプチド配列「ＹＶＹＶＡＤＶＡＡＫ」が、試料の細胞表面上のアレルのセットＨＬＡ−Ａ＊０２：０１、ＨＬＡ−Ａ＊０３：０１、ＨＬＡ−Ｂ＊０７：０２、ＨＬＡ−Ｂ＊０８：０３、ＨＬＡ−Ｃ＊０１：０４について提示されるかどうかの尤度を生成し得る。提示情報１６５は、ＭＨＣアレルによってペプチドが提示されるようにこれらのペプチドが様々なタイプのＭＨＣアレルに結合するかどうかについての情報を含有し、これは、モデルにおいて、ペプチド配列中のアミノ酸の位置に応じて決定される。提示モデルは、提示情報１６５に基づいて、認識されていないペプチド配列が、ＭＨＣアレルの関連するセットと結合して提示されるかどうかを予測することができる。上記に述べたように、提示モデルはクラスＩ及びクラスＩＩＭＨＣアレルの両方に適用することができる。

ＶＩＩ．Ｂ．提示情報
図２は、１つの実施形態にしたがう、提示情報を取得する方法を説明する。提示情報１６５は、２つの一般的部類の情報：アレル相互作用情報及びアレル非相互作用情報を含む。アレル相互作用情報は、ＭＨＣアレルのタイプに依存する、ペプチド配列の提示に影響を及ぼす情報を含む。アレル非相互作用情報は、ＭＨＣアレルのタイプに非依存的な、ペプチド配列の提示に影響を及ぼす情報を含む。

ＶＩＩ．Ｂ．１．アレル相互作用情報
アレル相互作用情報は、主として、ヒト、マウスなど由来の１つ以上の特定されたＭＨＣ分子によって提示されていることが公知である、特定されたペプチド配列を含む。注目すべきことに、これは、腫瘍試料から取得されたデータを含んでもよく、または含まなくてもよい。提示されたペプチド配列は、単一のＭＨＣアレルを発現する細胞から特定されてもよい。この例において、提示されたペプチド配列は、概して、あらかじめ決定されたＭＨＣアレルを発現するように操作されてその後合成タンパク質に曝露された単一アレル細胞株から収集される。ＭＨＣアレル上に提示されたペプチドは、酸溶出などの技法によって単離され、質量分析により特定される。図２Ｂは、あらかじめ決定されたＭＨＣアレルＨＬＡ−ＤＲＢ１＊１２：０１上に提示された例示的なペプチド

が単離され、質量分析により特定される、この例を示す。この状況においては、ペプチドが、単一のあらかじめ決定されたＭＨＣタンパク質を発現するように操作された細胞を通して特定されるため、提示されたペプチドとそれが結合したＭＨＣタンパク質との間の直接の関連が、決定的に既知である。

提示されたペプチド配列はまた、複数のＭＨＣアレルを発現する細胞から収集されてもよい。典型的にヒトにおいては、６種類の異なるタイプのＭＨＣ−Ｉ分子及び最大で１２種類の異なるタイプのＭＨＣ−ＩＩ分子が細胞で発現している。そのような提示されたペプチド配列は、複数のあらかじめ決定されたＭＨＣアレルを発現するように操作されている複数アレル細胞株から特定されてもよい。そのような提示されたペプチド配列はまた、正常組織試料または腫瘍組織試料のいずれかの、組織試料から特定されてもよい。この例において特に、ＭＨＣ分子は、正常組織または腫瘍組織から免疫沈降させることができる。複数のＭＨＣアレル上に提示されたペプチドは、同様に、酸溶出などの技法によって単離され、質量分析により特定されることができる。図２Ｃは、６種類の例示的なペプチド

が、特定されたクラスＩＭＨＣアレルＨＬＡ−Ａ＊０１：０１、ＨＬＡ−Ａ＊０２：０１、ＨＬＡ−Ｂ＊０７：０２、ＨＬＡ−Ｂ＊０８：０１、及びクラスＩＩＭＨＣアレルＨＬＡ−ＤＲＢ１＊１０：０１、ＨＬＡ−ＤＲＢ１：１１：０１上に提示されており、単離され、質量分析により特定される、この例を示す。単一アレル細胞株とは対照的に、結合したペプチドが、特定される前のＭＨＣ分子から単離されるため、提示されたペプチドとそれが結合したＭＨＣタンパク質との間の直接の関連は、未知である可能性がある。

アレル相互作用情報はまた、ペプチド−ＭＨＣ分子複合体の濃度、及びペプチドのイオン化効率の両方に依存する、質量分析イオン電流も含むことができる。イオン化効率は、配列依存性様式で、ペプチドごとに変動する。概して、イオン効率は、およそ２桁にわたってペプチドごとに変動し、他方、ペプチド−ＭＨＣ複合体の濃度は、それよりも大きい範囲にわたって変動する。

アレル相互作用情報はまた、所定のＭＨＣアレルと所定のペプチドとの間の結合親和性の測定値または予測値も含むことができる。１つ以上の親和性モデルが、そのような予測値を生成することができる（７２，７３，７４）。例えば、図１Ｄに示した例に戻ると、提示情報１６５は、ペプチドＹＥＭＦＮＤＫＳＦとクラスＩアレルＨＬＡ−Ａ^＊０１：０１との間の１０００ｎＭの結合親和性予測値を含み得る。ＩＣ５０＞１０００ｎｍであるペプチドはわずかしか、ＭＨＣによって提示されず、より低いＩＣ５０値が、提示の確率を増大させる。提示情報１６５は、ペプチド

とクラスＩＩアレルＨＬＡ−ＤＲＢ１：１１：０１との間の結合親和性予測値を含み得る。

アレル相互作用情報はまた、ＭＨＣ複合体の安定性の測定値または予測値も含むことができる。１つ以上の安定性モデルが、そのような予測値を生成することができる。より安定なペプチド−ＭＨＣ複合体（すなわち、より長い半減期を有する複合体）は、腫瘍細胞上、及びワクチン抗原に遭遇する抗原提示細胞上に高コピー数で提示される可能性がより高い。例えば、図２Ｃに示した例に戻ると、提示情報１６５は、クラスＩ分子ＨＬＡ−Ａ＊０１：０１について１時間の半減期の安定性予測値を含み得る。提示情報１６５はクラスＩＩ分子ＨＬＡ−ＤＲＢ１：１１：０１の半減期の安定性予測値も含み得る。

アレル相互作用情報はまた、ペプチド−ＭＨＣ複合体の形成反応の、測定されたかまたは予測された速度も含むことができる。より速い速度で形成する複合体は、高濃度で細胞表面上に提示される可能性がより高い。

アレル相互作用情報はまた、ペプチドの配列及び長さも含むことができる。ＭＨＣクラスＩ分子は典型的に、８〜１５ペプチドの長さを有するペプチドを提示することを好む。提示されたペプチドの６０〜８０％は、長さ９を有する。ＭＨＣクラスＩＩ分子は一般的にペプチド６〜３０個の長さを有するペプチドを提示する傾向にある。

アレル相互作用情報はまた、新生抗原コード化ペプチド上のキナーゼ配列モチーフの存在、及び新生抗原コード化ペプチド上の特異的な翻訳後修飾の有無も含むことができる。キナーゼモチーフの存在は、ＭＨＣ結合を増強または干渉し得る、翻訳後修飾の確率に影響を及ぼす。

アレル相互作用情報はまた、（ＲＮＡｓｅｑ、質量分析、または他の方法によって測定されたかまたは予測された際の）翻訳後修飾のプロセスに関与するタンパク質、例えば、キナーゼの発現または活性レベルも含むことができる。

アレル相互作用情報はまた、質量分析プロテオミクスまたは他の手段によって評価された際の、特定のＭＨＣアレルを発現する他の個体由来の細胞における、類似した配列を有するペプチドの提示の確率も含むことができる。

アレル相互作用情報はまた、（例えば、ＲＮＡ−ｓｅｑまたは質量分析によって測定された際の）問題の個体における特定のＭＨＣアレルの発現レベルも含むことができる。高レベルで発現しているＭＨＣアレルに最も強く結合するペプチドは、低レベルで発現しているＭＨＣアレルに最も強く結合するペプチドよりも、提示される可能性がより高い。

アレル相互作用情報はまた、特定のＭＨＣアレルを発現する他の個体における、特定のＭＨＣアレルによる提示の、全体的な新生抗原コード化ペプチド配列非依存的確率も含むことができる。

アレル相互作用情報はまた、他の個体における同じファミリーの分子（例えば、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、ＨＬＡ−ＤＱ、ＨＬＡ−ＤＲ、ＨＬＡ−ＤＰ）のＭＨＣアレルによる提示の、全体的なペプチド配列に非依存的な確率も含むことができる。例えば、ＨＬＡ−Ｃ分子は典型的に、ＨＬＡ−ＡまたはＨＬＡ−Ｂ分子よりも低いレベルで発現しており、したがって、ＨＬＡ−Ｃによるペプチドの提示は、ＨＬＡ−ＡまたはＨＬＡ−ＢＩＩによる提示よりも先験的に確率が低い。別の例として、ＨＬＡ−ＤＰは一般的にＨＬＡ−ＤＲまたはＨＬＡ−ＤＱよりも低いレベルで発現されることから、ＨＬＡ−ＤＰによるペプチドの提示はＨＬＡ−ＤＲまたはＨＬＡ−ＤＱによる提示よりもより確率が低いものと推測される。

アレル相互作用情報はまた、特定のＭＨＣアレルのタンパク質配列も含むことができる。

下記のセクションに列挙される任意のＭＨＣアレル非相互作用情報もまた、ＭＨＣアレル相互作用情報としてモデル化することができる。

ＶＩＩ．Ｂ．２．アレル非相互作用情報
アレル非相互作用情報は、そのソースタンパク質配列内の、新生抗原コード化ペプチドに隣接するＣ末端配列を含むことができる。ＭＨＣ−Ｉでは、Ｃ末端フランキング配列は、ペプチドのプロテアソームプロセシングに影響を及ぼし得る。しかし、Ｃ末端フランキング配列は、ペプチドが小胞体に輸送され、細胞の表面上のＭＨＣアレルと遭遇する前に、プロテアソームによってペプチドから切断される。その結果、ＭＨＣ分子は、Ｃ末端フランキング配列についてのいかなる情報も受け取らず、したがって、Ｃ末端フランキング配列の効果は、ＭＨＣアレルタイプに応じて変動することができない。例えば、図２Ｃに示した例に戻ると、提示情報１６５は、ペプチドのソースタンパク質から特定された、提示されたペプチドＦＪＩＥＪＦＯＥＳＳのＣ末端フランキング配列

を含み得る。

アレル非相互作用情報はまた、ｍＲＮＡ定量測定値も含むことができる。例えば、ｍＲＮＡ定量データは、質量分析訓練データを提供する同じ試料について取得することができる。図１３Ｈに関して後に記載するように、ＲＮＡ発現は、ペプチド提示の強い予測因子であると特定された。一実施形態では、ｍＲＮＡ定量測定値は、ソフトウェアツールＲＳＥＭから特定される。ＲＳＥＭソフトウェアツールの詳細な実行は、ＢｏＬｉａｎｄＣｏｌｉｎＮ．Ｄｅｗｅｙ．ＲＳＥＭ：ａｃｃｕｒａｔｅｔｒａｎｓｃｒｉｐｔｑｕａｎｔｉｆｉｃａｔｉｏｎｆｒｏｍＲＮＡ−Ｓｅｑｄａｔａｗｉｔｈｏｒｗｉｔｈｏｕｔａｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅ．ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ，１２：３２３，Ａｕｇｕｓｔ２０１１で見出すことができる。一実施形態では、ｍＲＮＡ定量は、１００万個のマップされたリードあたりの転写産物のキロ塩基あたりの断片の単位（ＦＰＫＭ）で測定される。

アレル非相互作用情報はまた、そのソースタンパク質配列内の、ペプチドに隣接するＮ末端配列も含むことができる。

アレル非相互作用情報はペプチド配列のソース遺伝子も含むことができる。ソース遺伝子はペプチド配列のＥｎｓｅｍｂｌタンパク質ファミリーとして定義することができる。他の例では、ソース遺伝子はペプチド配列のソースＤＮＡまたはソースＲＮＡとして定義することができる。ソース遺伝子は、例えば、タンパク質をコードするヌクレオチドのストリングとして表すか、またはその代わりに、特定のタンパク質をコードしていることが知られている既知のＤＮＡまたはＲＮＡ配列の命名されたセットに基づいてよりカテゴリー化された形で表すことができる。別の例では、アレル非相互作用情報は、ＥｎｓｅｍｂｌまたはＲｅｆＳｅｑのようなデータベースから抽出されたペプチド配列のソース転写産物もしくはアイソフォームまたは潜在的なソース転写産物もしくはアイソフォームのセットも含むことができる。

アレル非相互作用情報はまた、ペプチド配列が由来する細胞の組織タイプ、細胞タイプ、または腫瘍タイプも含むことができる。

アレル非相互作用情報はまた、（ＲＮＡ−ｓｅｑまたは質量分析によって測定された際の）任意で、腫瘍細胞における対応するプロテアーゼの発現にしたがって重み付けされる、ペプチドにおけるプロテアーゼ切断モチーフの存在も含むことができる。プロテアーゼ切断モチーフを含有するペプチドは、プロテアーゼによってより容易に分解され、したがって細胞内で安定性がより低いことになるため、提示される可能性がより低い。

アレル非相互作用情報はまた、適切な細胞タイプにおいて測定された際の、ソースタンパク質の代謝回転速度も含むことができる。より速い代謝回転速度（すなわち、より低い半減期）は提示の確率を増大させるが、類似していない細胞タイプにおいて測定された場合、この特性の予測力は低い。

アレル非相互作用情報はまた、ＲＮＡ−ｓｅｑもしくはプロテオーム質量分析によって測定された際、または、ＤＮＡもしくはＲＮＡ配列データにおいて検出される生殖細胞系列もしくは体細胞性スプライシング変異のアノテーションから予測された際の、任意で、腫瘍細胞において最も高発現している特異的なスプライス変異体（「アイソフォーム」）を考慮する、ソースタンパク質の長さも含むことができる。

アレル非相互作用情報はまた、（ＲＮＡ−ｓｅｑ、プロテオーム質量分析、または免疫組織化学によって測定され得る）腫瘍細胞におけるプロテアソーム、イムノプロテアソーム、胸腺プロテアソーム、または他のプロテアーゼの発現のレベルも含むことができる。異なるプロテアソームは、異なる切断部位の好みを有する。より大きい重みが、その発現レベルに比例して、プロテアソームの各タイプの切断の好みに与えられる。

アレル非相互作用情報はまた、（例えば、ＲＮＡ−ｓｅｑまたは質量分析によって測定された際の）ペプチドのソース遺伝子の発現も含むことができる。可能な最適化は、腫瘍試料内の間質細胞及び腫瘍浸潤リンパ球の存在を説明する、測定された発現を調整することを含む。より高発現している遺伝子由来のペプチドは、提示される可能性がより高い。検出不可能なレベルの発現を有する遺伝子由来のペプチドは、考察から排除することができる。

アレル非相互作用情報はまた、新生抗原コード化ペプチドのソースｍＲＮＡが、ナンセンス変異依存分解機構のモデル、例えば、Ｒｉｖａｓｅｔａｌ，Ｓｃｉｅｎｃｅ２０１５からのモデルによって予測されるようなナンセンス変異依存分解機構に供されるであろう確率も含むことができる。

アレル非相互作用情報はまた、細胞周期の種々の段階の最中の、ペプチドのソース遺伝子の典型的な組織特異的発現も含むことができる。（ＲＮＡ−ｓｅｑまたは試料分析プロテオミクスによって測定された際に）全体的に低いレベルで発現しているが、細胞周期の特異的な段階の最中に高レベルで発現していることが公知である遺伝子は、非常に低いレベルで安定に発現している遺伝子よりも、より提示されるペプチドを産生する可能性が高い。

アレル非相互作用情報はまた、例えば、ｕｎｉＰｒｏｔまたはＰＤＢ http://www.rcsb.org/pdb/home/home.doにおいて与えられるような、ソースタンパク質の特性の総合的なカタログも含むことができる。これらの特性は、とりわけ、タンパク質の二次構造及び三次構造、細胞内局在化１１、遺伝子オントロジー（ＧＯ）用語を含み得る。具体的には、この情報は、タンパク質のレベルで作用するアノテーション、例えば、５’ＵＴＲ長、及び特異的残基のレベルで作用するアノテーション、例えば、残基３００〜３１０のヘリックスモチーフを含有し得る。これらの特性はまた、ターンモチーフ、シートモチーフ、及び無秩序残基も含むことができる。

アレル非相互作用情報はまた、ペプチドを含有するソースタンパク質のドメインの性状を説明する特性、例えば、二次構造または三次構造（例えば、αヘリックス対βシート）；選択的スプライシングも含むことができる。

アレル非相互作用情報はまた、ペプチドのソースタンパク質におけるペプチドの位置での提示ホットスポットの有無を説明する特性も含むことができる。

アレル非相互作用情報はまた、他の個体における問題のペプチドのソースタンパク質由来のペプチドの提示の確率（それらの個体におけるソースタンパク質の発現レベル、及びそれらの個体の様々なＨＬＡタイプの影響を調整した後）も含むことができる。

アレル非相互作用情報はまた、ペプチドが、技術的バイアスのために質量分析によって検出されないか、または過剰に表されるであろう確率も含むことができる。

腫瘍細胞、間質、または腫瘍浸潤リンパ球（ＴＩＬ）の状態について情報を与える、ＲＮＡＳｅｑ、マイクロアレイ、Ｎａｎｏｓｔｒｉｎｇなどの標的化パネルなどの、遺伝子発現アッセイ、または、ＲＴ−ＰＣＲなどのアッセイによって測定される遺伝子モジュールを代表する単一／複数遺伝子によって測定された際の、種々の遺伝子モジュール／経路の発現（ペプチドのソースタンパク質を含有する必要はない）。

アレル非相互作用情報はまた、腫瘍細胞におけるペプチドのソース遺伝子のコピー数も含むことができる。例えば、腫瘍細胞においてホモ接合性欠失に供される遺伝子由来のペプチドは、ゼロの提示確率を割り当てることができる。

アレル非相互作用情報はまた、ペプチドがＴＡＰに結合する確率、または、測定されたかもしくは予測された、ＴＡＰに対するペプチドの結合親和性も含むことができる。ＴＡＰに結合する可能性がより高いペプチド、またはより高い親和性でＴＡＰに結合するペプチドは、ＭＨＣ−Ｉによって提示される可能性がより高い。

アレル非相互作用情報はまた、（ＲＮＡ−ｓｅｑ、プロテオーム質量分析、免疫組織化学によって測定され得る）腫瘍細胞におけるＴＡＰの発現レベルも含むことができる。ＭＨＣ−Ｉでは、より高いＴＡＰ発現レベルは、すべてのペプチドの提示の確率を増大させる。

アレル非相互作用情報はまた、以下を含むがそれらに限定されない、腫瘍変異の有無も含むことができる：
ｉ．ＥＧＦＲ、ＫＲＡＳ、ＡＬＫ、ＲＥＴ、ＲＯＳ１、ＴＰ５３、ＣＤＫＮ２Ａ、ＣＤＫＮ２Ｂ、ＮＴＲＫ１、ＮＴＲＫ２、ＮＴＲＫ３などの公知のがんドライバー遺伝子におけるドライバー変異。
ｉｉ．抗原提示マシナリーに関与するタンパク質をコードする遺伝子（例えば、Ｂ２Ｍ、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、ＴＡＰ−１、ＴＡＰ−２、ＴＡＰＢＰ、ＣＡＬＲ、ＣＮＸ、ＥＲＰ５７、ＨＬＡ−ＤＭ、ＨＬＡ−ＤＭＡ、ＨＬＡ−ＤＭＢ、ＨＬＡ−ＤＯ、ＨＬＡ−ＤＯＡ、ＨＬＡ−ＤＯＢＨＬＡ−ＤＰ、ＨＬＡ−ＤＰＡ１、ＨＬＡ−ＤＰＢ１、ＨＬＡ−ＤＱ、ＨＬＡ−ＤＱＡ１、ＨＬＡ−ＤＱＡ２、ＨＬＡ−ＤＱＢ１、ＨＬＡ−ＤＱＢ２、ＨＬＡ−ＤＲ、ＨＬＡ−ＤＲＡ、ＨＬＡ−ＤＲＢ１、ＨＬＡ−ＤＲＢ３、ＨＬＡ−ＤＲＢ４、ＨＬＡ−ＤＲＢ５、または、プロテアソームもしくはイムノプロテアソームの構成要素をコードする遺伝子のいずれか）におけるもの。その提示が、腫瘍において機能喪失変異の影響下にある抗原提示マシナリーの構成要素に依拠するペプチドは、提示の確率が低減している。

以下を含むがそれらに限定されない、機能的生殖細胞系列多型の有無：
ｉ．抗原提示マシナリーに関与するタンパク質をコードする遺伝子（例えば、Ｂ２Ｍ、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、ＴＡＰ−１、ＴＡＰ−２、ＴＡＰＢＰ、ＣＡＬＲ、ＣＮＸ、ＥＲＰ５７、ＨＬＡ−ＤＭ、ＨＬＡ−ＤＭＡ、ＨＬＡ−ＤＭＢ、ＨＬＡ−ＤＯ、ＨＬＡ−ＤＯＡ、ＨＬＡ−ＤＯＢＨＬＡ−ＤＰ、ＨＬＡ−ＤＰＡ１、ＨＬＡ−ＤＰＢ１、ＨＬＡ−ＤＱ、ＨＬＡ−ＤＱＡ１、ＨＬＡ−ＤＱＡ２、ＨＬＡ−ＤＱＢ１、ＨＬＡ−ＤＱＢ２、ＨＬＡ−ＤＲ、ＨＬＡ−ＤＲＡ、ＨＬＡ−ＤＲＢ１、ＨＬＡ−ＤＲＢ３、ＨＬＡ−ＤＲＢ４、ＨＬＡ−ＤＲＢ５、または、プロテアソームもしくはイムノプロテアソームの構成要素をコードする遺伝子のいずれか）におけるもの。

アレル非相互作用情報はまた、腫瘍タイプ（例えば、ＮＳＣＬＣ、黒色腫）も含むことができる。

アレル非相互作用情報はまた、例としてＨＬＡアレル接尾辞によって反映されるような、ＨＬＡアレルの公知の機能性も含むことができる。例えば、アレル名ＨＬＡ−Ａ＊２４：０９ＮにおけるＮの接尾辞は、発現せず、したがってエピトープを提示する可能性が低いヌルアレルを示し；完全なＨＬＡアレル接尾辞の命名法は、https://www.ebi.ac.uk/ipd/imgt/hla/nomenclature/suffixes.htmlに記載されている。

アレル非相互作用情報はまた、臨床的腫瘍サブタイプ（例えば、扁平上皮肺癌対非扁平上皮）も含むことができる。

アレル非相互作用情報はまた、喫煙歴も含むことができる。

アレル非相互作用情報はまた、日焼け、日光曝露、または他の変異原に対する曝露の経歴も含むことができる。

アレル非相互作用情報はまた、任意でドライバー変異によって層別化される、関連性のある腫瘍タイプまたは臨床的サブタイプにおけるペプチドのソース遺伝子の局部的発現も含むことができる。関連性のある腫瘍タイプにおいて典型的に高レベルで発現している遺伝子は、提示される可能性がより高い。

アレル非相互作用情報はまた、すべての腫瘍における、または同じタイプの腫瘍における、または少なくとも１つの共有されたＭＨＣアレルを有する個体由来の腫瘍における、または少なくとも１つの共有されたＭＨＣアレルを有する個体中の同じタイプの腫瘍における、変異の頻度も含むことができる。

変異した腫瘍特異的ペプチドの例において、提示の確率を予測するために使用される特性の一覧はまた、変異のアノテーション（例えば、ミスセンス、リードスルー、フレームシフト、融合など）、または、変異がナンセンス変異依存分解機構（ＮＭＤ）を結果としてもたらすと予測されるかどうかも含み得る。例えば、ホモ接合性早期終止変異のために腫瘍細胞において翻訳されないタンパク質セグメント由来のペプチドは、ゼロの提示確率を割り当てることができる。ＮＭＤは、提示の確率を減少させる、ｍＲＮＡ翻訳の減少を結果としてもたらす。

ＶＩＩ．Ｃ．提示特定システム
図３は、１つの実施形態による、提示特定システム１６０のコンピュータ論理構成要素を説明する、ハイレベルブロック図である。この例示的実施形態において、提示特定システム１６０は、データ管理モジュール３１２、コード化モジュール３１４、訓練モジュール３１６、及び予測モジュール３２０を含む。提示特定システム１６０はまた、訓練データ記憶装置１７０及び提示モデル記憶装置１７５から構成される。モデル管理システム１６０のいくつかの実施形態は、本明細書に記載したものとは異なるモジュールを有する。同様に、機能は、本明細書に記載したものは異なる様式で、モジュールの間に分配され得る。

ＶＩＩ．Ｃ．１．データ管理モジュール
データ管理モジュール３１２は、提示情報１６５から訓練データ１７０のセットを生成する。各々の訓練データのセットは、多数のデータ例を含有し、各データ例ｉは、少なくとも、提示されるかまたは提示されないペプチド配列ｐ^ｉと、ペプチド配列ｐ^ｉと結合した１つ以上の関連するＭＨＣアレルａ^ｉと、提示特定システム１６０が、独立変数の新たな値を予測することに関心があるという情報を表す従属変数ｙ^ｉとを含む、独立変数ｚ^ｉのセットを含有する。

本明細書の残りの部分を通じて言及される１つの特定の実現形態において、従属変数ｙ^ｉは、ペプチドｐ^ｉが、１つ以上の関連するＭＨＣアレルａ^ｉによって提示されたかどうかを示す、バイナリーラベルである。しかし、他の実現形態において、従属変数ｙ^ｉは、提示特定システム１６０が、独立変数ｚ^ｉに依存して予測することに関心があるという任意の他の種類の情報を表し得ることが、認識される。例えば、別の実現形態において、従属変数ｙ^ｉはまた、データ例について特定された質量分析イオン電流を示す数値であってもよい。

データ例ｉについてのペプチド配列ｐ^ｉは、ｋ_ｉ個のアミノ酸の配列であり、ｋ_ｉは、データ例ｉの間で、ある範囲内で変動し得る。例えば、その範囲は、ＭＨＣクラスＩについては８〜１５、またはＭＨＣクラスＩＩについては６〜３０であり得る。システム１６０の１つの具体的な実現形態において、訓練データセット中のすべてのペプチド配列ｐ^ｉは、同じ長さ、例えば９を有し得る。ペプチド配列中のアミノ酸の数は、ＭＨＣアレルのタイプ（例えば、ヒトにおけるＭＨＣアレルなど）に応じて変動し得る。データ例ｉについてのＭＨＣアレルａ^ｉは、どのＭＨＣアレルが対応するペプチド配列ｐ^ｉと結合して存在したかを示す。

データ管理モジュール３１２はまた、訓練データ１７０に含有されるペプチド配列ｐ^ｉ及び結合したＭＨＣアレルａ^ｉと共に、結合親和性ｂ^ｉ及び安定性ｓ^ｉの予測値などの追加的なアレル相互作用変数も含み得る。例えば、訓練データ１７０は、ペプチドｐ^ｉと、ａ^ｉにおいて示される結合したＭＨＣ分子の各々との間の結合親和性予測値ｂ^ｉを含有し得る。別の例として、訓練データ１７０は、ａ^ｉにおいて示されるＭＨＣアレルの各々についての安定性予測値ｓ^ｉを含有し得る。

データ管理モジュール３１２はまた、ペプチド配列ｐ^ｉと共に、Ｃ末端隣接配列及びｍＲＮＡ定量測定値などのアレル非相互作用変数ｗ^ｉも含み得る。

データ管理モジュール３１２はまた、ＭＨＣアレルによって提示されないペプチド配列も特定して、訓練データ１７０を生成する。概して、これは、提示の前に、提示されるペプチド配列を含むソースタンパク質の「より長い」配列を特定することを含む。提示情報が、操作された細胞株を含有する場合、データ管理モジュール３１２は、細胞のＭＨＣアレル上に提示されなかった、細胞がそれに対して曝露された合成タンパク質における一連のペプチド配列を特定する。提示情報が、組織試料を含有する場合、データ管理モジュール３１２は、提示されたペプチド配列の起源であるソースタンパク質を特定して、組織試料細胞のＭＨＣアレル上に提示されなかった、ソースタンパク質における一連のペプチド配列を特定する。

データ管理モジュール３１２はまた、ランダム配列のアミノ酸を有するペプチドを人工的に生成し、生成された配列を、ＭＨＣアレル上に提示されないペプチドとして特定する。これは、ペプチド配列をランダムに生成することによって達成することができ、ＭＨＣアレル上に提示されないペプチドについての多量の合成データをデータ管理モジュール３１２が容易に生成することを可能にする。実際には、小さなパーセンテージのペプチド配列がＭＨＣアレルによって提示されるため、合成で生成されたペプチド配列は、たとえそれらが細胞によってプロセシングされたタンパク質に含まれたとしても、ＭＨＣアレルによって提示されていない可能性が非常に高い。

図４は、１つの実施形態による、訓練データ１７０Ａの例示的なセットを説明する。具体的には、訓練データ１７０Ａ中の最初の３つのデータ例は、アレルＨＬＡ−Ｃ＊０１：０３を含む単一アレル細胞株、ならびに３種類のペプチド配列

からのペプチド提示情報を示す。訓練データ１７０Ａ中の４番目のデータ例は、アレルＨＬＡ−Ｂ＊０７：０２、ＨＬＡ−Ｃ＊０１：０３、ＨＬＡ−Ａ＊０１：０１を含む複数アレル細胞株、及びペプチド配列ＱＩＥＪＯＥＩＪＥからのペプチド情報を示す。最初のデータ例は、ペプチド配列ＱＣＥＩＯＷＡＲＥが、アレルＨＬＡ−ＤＲＢ３：０１：０１によって提示されなかったことを示す。前の２つの段落において議論したように、ネガティブ標識されたペプチド配列は、データ管理モジュール３１２によってランダムに生成されてもよく、または提示されるペプチドのソースタンパク質から特定されてもよい。訓練データ１７０Ａはまた、ペプチド配列−アレルペアについて、１０００ｎＭの結合親和性予測値及び１時間の半減期の安定性予測値も含む。訓練データ１７０Ａはまた、ペプチドＦＪＥＬＦＩＳＢＯＳＪＦＩＥのＣ末端フランキング配列、及び１０^２ＴＰＭのｍＲＮＡ定量測定値などの、アレル非相互作用変数も含む。４番目のデータ例は、ペプチド配列ＱＩＥＪＯＥＩＪＥが、アレルＨＬＡ−Ｂ＊０７：０２、ＨＬＡ−Ｃ＊０１：０３、またはＨＬＡ−Ａ＊０１：０１のうちの１つによって提示されたことを示す。訓練データ１７０Ａはまた、アレルの各々についての結合親和性予測値及び安定性予測値、ならびに、ペプチドのＣ末端フランキング配列及びペプチドについてのｍＲＮＡ定量測定値も含む。

ＶＩＩ．Ｃ．２．コード化モジュール
コード化モジュール３１４は、訓練データ１７０に含有される情報を、１つ以上の提示モデルを生成するために使用することができる数値的表示へとコード化する。一実現形態では、コード化モジュール３１４は、配列（例えば、ペプチド配列またはＣ末端隣接配列）を、あらかじめ決定された２０文字のアミノ酸アルファベットについて、ワン・ホットでコード化する。具体的には、ｋ_ｉ個のアミノ酸を有するペプチド配列ｐ^ｉは、２０・ｋ_ｉ要素の行ベクトルとして表され、ペプチド配列のｊ番目の位置のアミノ酸のアルファベットに対応するｐ^ｉ _{２０・（ｊ−１）＋１}，ｐ^ｉ _{２０・（ｊ−１）＋２}，．．．，ｐ^ｉ _２０・ｊの中の単一要素は、１の値を有する。その以外の、残りの要素は、０の値を有する。例として、所定のアルファベット｛Ａ，Ｃ，Ｄ，Ｅ，Ｆ，Ｇ，Ｈ，Ｉ，Ｋ，Ｌ，Ｍ，Ｎ，Ｐ，Ｑ，Ｒ，Ｓ，Ｔ，Ｖ，Ｗ，Ｙ｝について、データ例ｉの３個のアミノ酸のペプチド配列ＥＡＦは、６０個の要素の行ベクトル

によって表され得る。Ｃ末端隣接配列ｃ^ｉ、ならびに、ＭＨＣアレルについてのタンパク質配列ｄ_ｈ、及び提示情報における他の配列データは、同様に、上記のようにコード化することができる。

訓練データ１７０が、異なる長さのアミノ酸の配列を含有する場合、コード化モジュール３１４は、さらに、あらかじめ決定されたアルファベットを拡張するようにＰＡＤ文字を追加することによって、ペプチドを同等の長さのベクトルへとコード化し得る。例えば、これは、ペプチド配列の長さが、訓練データ１７０において最大の長さを有するペプチド配列に達するまで、ペプチド配列をＰＡＤ文字でレフトパディングすることによって行われ得る。したがって、最大の長さを有するペプチド配列がｋ_最大個のアミノ酸を有する場合、コード化モジュール３１４は、各配列を、（２０＋１）・ｋ_最大個の要素の行ベクトルとして数値的に表す。例として、拡張されたアルファベット｛ＰＡＤ，Ａ，Ｃ，Ｄ，Ｅ，Ｆ，Ｇ，Ｈ，Ｉ，Ｋ，Ｌ，Ｍ，Ｎ，Ｐ，Ｑ，Ｒ，Ｓ，Ｔ，Ｖ，Ｗ，Ｙ｝及びｋ_最大＝５の最大アミノ酸長について、３個のアミノ酸の同じ例示的なペプチド配列ＥＡＦは、１０５要素の行ベクトル

によって表され得る。Ｃ末端隣接配列ｃ^ｉまたは他の配列データは、同様に、上記のようにコード化することができる。したがって、ペプチド配列ｐ^ｉまたはｃ^ｉにおける各々の独立変数または列は、配列の特定の位置の特定のアミノ酸の存在を表す。

配列データをコード化する上記の方法は、アミノ酸配列を有する配列に関して記載したが、方法を、同様に、例えば、ＤＮＡまたはＲＮＡの配列データなどの、他のタイプの配列データに拡張することができる。

コード化モジュール３１４はまた、データ例ｉについての１つ以上のＭＨＣアレルａ^ｉを、ｍ要素の行ベクトルへとコード化し、各要素ｈ＝１，２，．．．，ｍは、固有の特定されたＭＨＣアレルに対応する。データ例ｉについて特定されたＭＨＣアレルに対応する要素は、１の値を有する。その以外の、残りの要素は、０の値を有する。例として、ｍ＝４の固有の特定されたＭＨＣアレルタイプ｛ＨＬＡ−Ａ＊０１：０１，ＨＬＡ−Ｃ＊０１：０８，ＨＬＡ−Ｂ＊０７：０２，ＨＬＡ−ＤＲＢ１＊１０：０１｝の中の、複数アレル細胞株に対応するデータ例ｉについてのアレルＨＬＡ−Ｂ＊０７：０２及びＨＬＡ−ＤＲＢ１＊１０：０１は、４要素の行ベクトルａ^ｉ＝［００１１］によって表され得、ａ_３ ^ｉ＝１及びａ_４ ^ｉ＝１である。４種類の特定されたＭＨＣアレルタイプでの例を、本明細書に記載するが、ＭＨＣアレルタイプの数は、実際には数百または数千であることができる。上記で述べたように、各データ例ｉは、典型的に、ペプチド配列ｐ_ｉに関連して最大で６種類の異なるＭＨＣアレルタイプを含む。

コード化モジュール３１４はまた、各データ例ｉについてのラベルｙ_ｉを、｛０，１｝のセットからの値を有するバイナリー変数としてコード化し、１の値は、ペプチドｘ^ｉが、関連するＭＨＣアレルａ^ｉのうちの１つによって提示されたことを示し、０の値は、ペプチドｘ^ｉが、関連するＭＨＣアレルａ^ｉのいずれによっても提示されなかったことを示す。従属変数ｙ_ｉが、質量分析イオン電流を表す場合、コード化モジュール３１４は、［０，∞］の間のイオン電流値について［−∞，∞］の範囲を有するｌｏｇ関数などの種々の関数を用いて、値を追加的にスケール調整し得る。

コード化モジュール３１４は、ペプチドｐ_ｉ及び関連するＭＨＣアレルｈについてのアレル相互作用変数ｘ_ｈ ^ｉのペアを、アレル相互作用変数の数値的表示が次々に連結されている行ベクトルとして表し得る。例えば、コード化モジュール３１４は、ｘ_ｈ ^ｉを、［ｐ^ｉ］、［ｐ^ｉｂ_ｈ ^ｉ］、［ｐ^ｉｓ_ｈ ^ｉ］、または［ｐ^ｉｂ_ｈ ^ｉｓ_ｈ ^ｉ］と同等の行ベクトルとして表し得、ただし、ｂ_ｈ ^ｉは、ペプチドｐｉ及び関連するＭＨＣアレルｈについての結合親和性予測値であり、同様に、ｓ_ｈ ^ｉは、安定性についてのものである。あるいは、アレル相互作用変数の１つ以上の組み合わせは、個々に（例えば、個々のベクトルまたは行列として）保存されてもよい。

１つの例において、コード化モジュール３１４は、結合親和性について測定されたかまたは予測された値をアレル相互作用変数ｘ_ｈ ^ｉに組み入れることによって、結合親和性情報を表す。

１つの例において、コード化モジュール３１４は、結合安定性について測定されたかまたは予測された値をアレル相互作用変数ｘ_ｈ ^ｉに組み入れることによって、結合安定性情報を表す

１つの例において、コード化モジュール３１４は、結合オンレートについて測定されたかまたは予測された値をアレル相互作用変数ｘ_ｈ ^ｉに組み入れることによって、結合オンレート情報を表す。

１つの例において、クラスＩＭＨＣ分子によって提示されるペプチドについて、コード化モジュール３１４は、ペプチド長を、ベクトル

（ただし、

は指標関数であり、Ｌ_ｋはペプチドｐ_ｋの長さを意味する）として表す。ベクトルＴ_ｋを、アレル相互作用変数ｘ_ｈ ^ｉに含めることができる。別の例では、クラスＩＩのＭＨＣ分子によって提示されるペプチドについて、コード化モジュール３１４はペプチド長をベクトル

（ただし、

は指標関数であり、Ｌ_ｋはペプチドｐ_ｋの長さを意味する）として表す。ベクトルＴ_ｋを、アレル相互作用変数ｘ_ｈ ^ｉに含めることができる。

１つの例において、コード化モジュール３１４は、ＭＨＣアレルのＲＮＡ−ｓｅｑベースの発現レベルをアレル相互作用変数ｘｈｉに組み入れることによって、ＭＨＣアレルのＲＮＡ発現情報を表す。

同様に、コード化モジュール３１４は、アレル非相互作用変数ｗ^ｉを、アレル非相互作用変数の数値的表示が次々に連鎖している行ベクトルとして表し得る。例えば、ｗ^ｉは、［ｃ^ｉ］または［ｃ^ｉｍ^ｉｗ^ｉ］と同等の行ベクトルであってもよく、ｗ_ｉは、ペプチドｐｉのＣ末端隣接配列及びペプチドに関連するｍＲＮＡ定量測定値ｍ^ｉに加えて任意の他のアレル非相互作用変数を表す、行ベクトルである。あるいは、アレル非相互作用変数の１つ以上の組み合わせは、個々に（例えば、個々のベクトルまたは行列として）保存されてもよい。

１つの例において、コード化モジュール３１４は、代謝回転速度または半減期をアレル非相互作用変数ｗ^ｉに組み入れることによって、ペプチド配列についてのソースタンパク質の代謝回転速度を表す。

１つの例において、コード化モジュール３１４は、タンパク質長をアレル非相互作用変数ｗ^ｉに組み入れることによって、ソースタンパク質またはアイソフォームの長さを表す。

１つの例において、コード化モジュール３１４は、β１_ｉ、β２_ｉ、β５_ｉサブユニットを含むイムノプロテアソーム特異的プロテアソームサブユニットの平均発現を、アレル非相互作用変数ｗ^ｉに組み入れることによって、イムノプロテアソームの活性化を表す。

１つの例において、コード化モジュール３１４は、（ＲＳＥＭなどの技法によってＦＰＫＭ、ＴＰＭの単位で定量された）ペプチド、またはペプチドの遺伝子もしくは転写産物のソースタンパク質のＲＮＡ−ｓｅｑ存在量を、ソースタンパク質の存在量をアレル非相互作用変数ｗ^ｉに組み入れることによって表す。

１つの例において、コード化モジュール３１４は、例えば、Ｒｉｖａｓｅｔ．ａｌ．Ｓｃｉｅｎｃｅ，２０１５におけるモデルによって推定されるような、ペプチドの起源の転写産物がナンセンス変異依存分解機構（ＮＭＤ）を受けるであろう確率を、この確率をアレル非相互作用変数ｗ^ｉに組み入れることによって表す。

１つの例において、コード化モジュール３１４は、ＲＮＡ−ｓｅｑを介して評価された遺伝子モジュールまたは経路の活性化状況を、例えば、経路における遺伝子の各々について、例えばＲＳＥＭを用いてＴＰＭの単位で、経路における遺伝子の発現を定量すること、次いで、経路における遺伝子にわたる要約統計量、例えば平均値をコンピュータ計算することによって表す。平均を、アレル非相互作用変数ｗ^ｉに組み入れることができる。

１つの例において、コード化モジュール３１４は、ソース遺伝子のコピー数を、コピー数をアレル非相互作用変数ｗ^ｉに組み入れることによって表す。

１つの例において、コード化モジュール３１４は、（例えば、ナノモル単位での）測定されたかまたは予測されたＴＡＰ結合親和性をアレル非相互作用変数ｗ^ｉに含むことによって、ＴＡＰ結合親和性を表す。

１つの例において、コード化モジュール３１４は、ＲＮＡ−ｓｅｑによって測定され（かつ、例えばＲＳＥＭによってＴＰＭの単位で定量された）ＴＡＰ発現レベルをアレル非相互作用変数ｗ^ｉに含むことによって、ＴＡＰ発現レベルを表す。

１つの例において、コード化モジュール３１４は、腫瘍変異を、アレル非相互作用変数ｗ^ｉにおける指標変数のベクトル（すなわち、ペプチドｐ^ｋがＫＲＡＳＧ１２Ｄ変異を有する試料に由来するならばｄ^ｋ＝１、それ以外は０）として表す。

１つの例において、コード化モジュール３１４は、抗原提示遺伝子における生殖細胞系列多型を、指標変数のベクトル（すなわち、ペプチドｐ^ｋがＴＡＰにおいて特異的な生殖細胞系列多型を有する試料に由来するならばｄ^ｋ＝１）として表す。これらの指標変数を、アレル非相互作用変数ｗ^ｉに含めることができる。

１つの例において、コード化モジュール３１４は、腫瘍タイプを、腫瘍タイプ（例えば、ＮＳＣＬＣ、黒色腫、大腸癌など）のアルファベットについての長さ１のワン・ホットコード化ベクトルとして表す。これらのワン・ホットコード化変数を、アレル非相互作用変数ｗ^ｉに含めることができる。

１つの例において、コード化モジュール３１４は、ＭＨＣアレル接尾辞を、４桁のＨＬＡアレルを様々な接尾辞で処理することによって表す。例えば、ＨＬＡ−Ａ＊２４：０９Ｎは、モデルの目的で、ＨＬＡ−Ａ＊２４：０９とは異なるアレルと考えられる。あるいは、Ｎ接尾辞で終わるＨＬＡアレルは発現しないため、Ｎ接尾辞のＭＨＣアレルによる提示の確率は、すべてのペプチドについてゼロに設定することができる。

１つの例において、コード化モジュール３１４は、腫瘍サブタイプを、腫瘍サブタイプ（例えば、肺腺癌、肺扁平上皮細胞癌など）のアルファベットについての長さ１のワン・ホットコード化ベクトルとして表す。これらのワン・ホットコード化変数を、アレル非相互作用変数ｗ^ｉに含めることができる。

１つの例において、コード化モジュール３１４は、喫煙歴を、アレル非相互作用変数ｗ^ｉに含めることができる、バイナリー指標変数（患者が喫煙歴を有するならばｄ^ｋ＝１、それ以外は０）として表す。あるいは、喫煙歴を、喫煙の重症度のアルファベットについての長さ１のワン・ホットコード化変数としてコード化することができる。例えば、喫煙状況を、１が非喫煙者を示し、５が現在の大量喫煙者を示す、１〜５のスケールに査定することができる。喫煙歴は、主として肺腫瘍と関連性があるため、複数の腫瘍タイプに対するモデルを訓練する場合、この変数は、患者が喫煙の経歴を有し、かつ腫瘍タイプが肺腫瘍であるならば１と同等であり、それ以外はゼロであると定義することもできる。

１つの例において、コード化モジュール３１４は、日焼け歴を、アレル非相互作用変数ｗ^ｉに含めることができる、バイナリー指標変数（患者が重症の日焼けの経歴を有するならばｄ^ｋ＝１、それ以外は０）として表す。重症の日焼けは、主として黒色腫と関連性があるため、複数の腫瘍タイプに対するモデルを訓練する場合、この変数は、患者が重症の日焼けの経歴を有し、かつ腫瘍タイプが黒色腫であるならば１と同等であり、それ以外はゼロであると定義することもできる。

１つの例において、コード化モジュール３１４は、ヒトゲノムにおける各遺伝子または転写産物についての特定の遺伝子または転写産物の発現レベルの分布を、ＴＣＧＡなどの参照データベースを用いることによって、発現レベルの分布の要約統計量（例えば、平均値、中央値）として表す。具体的には、腫瘍タイプ黒色腫を有する試料におけるペプチドｐ^ｋについて、ペプチドｐ^ｋの起源の遺伝子または転写産物の、測定された遺伝子または転写産物の発現レベルをアレル非相互作用変数ｗ^ｉに含むことができるだけでなく、ＴＣＧＡによって測定された際の、黒色腫におけるペプチドｐ^ｋの起源の遺伝子または転写産物の、平均値及び／または中央値の遺伝子または転写産物発現も含むことができる。

１つの例において、コード化モジュール３１４は、変異タイプを、変異タイプ（例えば、ミスセンス、フレームシフト、ＮＭＤ誘導性など）のアルファベットについての長さ１のワン・ホットコード化変数として表す。これらのワン・ホットコード化変数を、アレル非相互作用変数ｗ^ｉに含めることができる。

１つの例において、コード化モジュール３１４は、タンパク質のタンパク質レベルの特性を、ソースタンパク質のアノテーション（例えば、５’ＵＴＲ長）の値として、アレル非相互作用変数ｗ^ｉにおいて表す。別の例において、コード化モジュール３１４は、ペプチドｐⁱについてのソースタンパク質の残基レベルのアノテーションを、ペプチドｐⁱがヘリックスモチーフとオーバーラップするならば１と同等であり、それ以外は０であるか、または、ペプチドｐⁱがヘリックスモチーフ内に完全に含有されるならば１と同等である指標変数を、アレル非相互作用変数ｗｉに含むことによって表す。別の例において、ヘリックスモチーフアノテーション内に含有されるペプチドｐⁱにおける残基の割合を表す特性を、アレル非相互作用変数ｗ^ｉに含めることができる。

１つの例において、コード化モジュール３１４は、ヒトプロテオームにおけるタンパク質またはアイソフォームのタイプを、ヒトプロテオームにおけるタンパク質またはアイソフォームの数と同等の長さを有する指標ベクトルｏ^ｋとして表し、対応する要素ｏ^ｋ _ｉは、ペプチドｐ^ｋがタンパク質ｉに由来するならば１であり、それ以外は０である。

１つの例において、コード化モジュール３１４は、ペプチドｐ^ｉのソース遺伝子Ｇ＝遺伝子（ｐ^ｉ）をＬ個の可能なカテゴリーを有するカテゴリー変数として表す（ただし、Ｌは添え字を付したソース遺伝子１，２，．．．，Ｌの数の上限を示す）。

１つの例において、コード化モジュール３１４は、ペプチドｐ^ｉの組織タイプ、細胞タイプ、腫瘍タイプ、または腫瘍組織学タイプＴ＝組織（ｐ^ｉ）をＭ個の可能なカテゴリーを有するカテゴリー変数として表す（ただし、Ｍは添え字を付したタイプ１，２，．．．，Ｍの数の上限を示す）。組織のタイプとしては、例えば、肺組織、心組織、腸組織、神経組織などを挙げることができる。細胞のタイプとしては、樹状細胞、マクロファージ、ＣＤ４Ｔ細胞などを挙げることができる。肺腺癌、肺扁平上皮癌、メラノーマ、非ホジキンリンパ腫などを挙げることができる。

コード化モジュール３１４はまた、ペプチドｐ^ｉ及び関連するＭＨＣアレルｈについての変数ｚ^ｉの全体的なセットを、アレル相互作用変数ｘ^ｉ及びアレル非相互作用変数ｗ^ｉの数値的表示が次々に連鎖している行ベクトルとしても表し得る。例えば、コード化モジュール３１４は、ｚ_ｈ ^ｉを、［ｘ_ｈ ^ｉｗ^ｉ］または［ｗ_ｉｘ_ｈ ^ｉ］と同等の行ベクトルとして表し得る。

ＶＩＩＩ．訓練モジュール
訓練モジュール３１６は、ペプチド配列に関連するＭＨＣアレルによってペプチド配列が提示されるかどうかの尤度を生成する、１つ以上の提示モデルを構築する。具体的には、ペプチド配列ｐ^ｋ及びペプチド配列ｐ_ｋに関連するＭＨＣアレルａ^ｋのセットを与えられ、各提示モデルは、ペプチド配列ｐ^ｋが、関連するＭＨＣアレルａ^ｋのうちの１つ以上によって提示されるであろう尤度を示す、推定値ｕ_ｋを生成する。

ＶＩＩＩ．Ａ．概要
訓練モジュール３１６は、１６５に保存された提示情報から生成された、記憶装置１７０に保存された訓練データセットに基づいて、１つ以上の提示モデルを構築する。概して、提示モデルの具体的なタイプに関わらず、提示モデルのすべては、損失関数が最小化されるように、訓練データ１７０における独立変数と従属変数との間の依存性を捕捉する。具体的には、損失関数

は、訓練データ１７０における１つ以上のデータ例Ｓについての従属変数ｙ_ｉ∈Ｓの値と、提示モデルによって生成されたデータ例Ｓについての推定された尤度ｕ_ｉ∈Ｓとの間の矛盾を表す。本明細書の残りの部分を通じて言及される１つの特定の実現形態において、損失関数

は、以下のような等式（１ａ）によって与えられる負のｌｏｇ尤度関数である。

しかし、実際には、別の損失関数が使用されてもよい。例えば、質量分析イオン電流について予測がなされる場合、損失関数は、以下のような等式１ｂによって与えられる平均二乗損失である。

提示モデルは、１つ以上のパラメータθが、独立変数と従属変数との間の依存性を数学的に明記する、パラメトリックモデルであり得る。典型的に、損失関数

を最小化するパラメトリックタイプの提示モデルの種々のパラメータは、例えば、バッチ勾配アルゴリズム、確率的勾配アルゴリズムなどの、勾配ベースの数値的最適化アルゴリズムを通して決定される。あるいは、提示モデルは、モデル構造が、訓練データ１７０から決定され、固定されたパラメータのセットに厳密には基づかない、ノンパラメトリックモデルであり得る。

ＶＩＩＩ．Ｂ．アレル毎モデル
訓練モジュール３１６は、アレル毎ベースでペプチドの提示尤度を予測するための提示モデルを構築し得る。この例において、訓練モジュール３１６は、単一のＭＨＣアレルを発現する細胞から生成された訓練データ１７０におけるデータ例Ｓに基づいて、提示モデルを訓練し得る。

一実現形態では、訓練モジュール３１６は、

によって、特定のアレルｈについてのペプチドｐｋの推定提示尤度ｕ^ｋをモデル化し、ただし、ペプチド配列ｘ_ｈ ^ｋは、ペプチドｐ^ｋ及び対応するＭＨＣアレルｈについてのコード化されたアレル相互作用変数を意味し、ｆ（・）は、任意の関数であり、記載の便宜上、本明細書中を通して変換関数と呼ばれる。さらに、ｇ_ｈ（・）は、任意の関数であり、記載の便宜上、本明細書中を通して依存性関数と呼ばれ、ＭＨＣアレルｈについて決定されたパラメータθ_ｈのセットに基づいて、アレル相互作用変数ｘ_ｈ ^ｋについての依存性スコアを生成する。各ＭＨＣアレルｈについてのパラメータθ_ｈのセットの値は、θ_ｈに関する損失関数を最小化することによって決定することができ、ここでｉは、単一のＭＨＣアレルｈを発現する細胞から生成された訓練データ１７０のサブセットＳにおける各例である。

依存性関数ｇ_ｈ（ｘ_ｈ ^ｋ；θ_ｈ）の出力は、ＭＨＣアレルｈが、少なくともアレル相互作用特性ｘ_ｈ ^ｋに基づいて、及び特に、ペプチドｐ^ｋのペプチド配列のアミノ酸の位置に基づいて、対応する新生抗原を提示するかどうかを示す、ＭＨＣアレルｈについての依存性スコアを表す。例えば、ＭＨＣアレルｈについての依存性スコアは、ＭＨＣアレルｈが、ペプチドｐ^ｋを提示する可能性が高い場合に、高い値を有し得、提示の可能性が高くない場合に、低い値を有し得る。変換関数ｆ（・）は、入力を変換し、より具体的には、この例においてｇ_ｈ（ｘ_ｈ ^ｋ；θ_ｈ）によって生成された依存性スコアを、ペプチドｐ^ｋがＭＨＣアレルによって提示されるであろう尤度を示す適切な値に変換する。

本明細書の残りの部分を通じて言及される１つの特定の実現形態において、ｆ（・）は、適切なドメイン範囲について［０，１］内の範囲を有する関数である。１つの例において、ｆ（・）は、

によって与えられるｅｘｐｉｔ関数である。
別の例として、ｆ（・）はまた、ドメインｚの値が０以上である場合、

によって与えられる双曲線正接関数であることもできる。あるいは、予測が、範囲［０，１］の外側の値を有する質量分析イオン電流についてなされる場合、ｆ（・）は、例えば、恒等関数、指数関数、ｌｏｇ関数などの任意の関数であることができる。

したがって、ペプチド配列ｐ^ｋがＭＨＣアレルｈによって提示されるであろうアレル毎尤度は、ＭＨＣアレルｈについての依存性関数ｇ_ｈ（・）をペプチド配列ｐ^ｋのコード化されたバージョンに適用して、対応する依存性スコアを生成することによって、生成することができる。依存性スコアは、ペプチド配列ｐ^ｋがＭＨＣアレルｈによって提示されるであろうアレル毎尤度を生成するように、変換関数ｆ（・）によって変換されてもよい。

ＶＩＩＩ．Ｂ．１アレル相互作用変数についての依存性関数
本明細書を通して言及される１つの特定の実現形態において、依存性関数ｇ_ｈ（・）は、ｘ_ｈ ^ｋにおける各アレル相互作用変数を、関連するＭＨＣアレルｈについて決定されたパラメータθ_ｈのセットにおける対応するパラメータと線形結合する、

によって与えられるアフィン関数である。

本明細書を通して言及される別の特定の実現形態において、依存性関数ｇ_ｈ（・）は、１つ以上の層において配置された一連のノードを有するネットワークモデルＮＮ_ｈ（・）によって表される、

によって与えられるネットワーク関数である。ノードは、パラメータθ_ｈのセットにおける関連するパラメータを各々有する接続を通して、他のノードに接続され得る。１つの特定のノードでの値は、特定のノードに関連する活性化関数によってマッピングされた関連するパラメータによって重み付けられた、特定のノードに接続されたノードの値の和として表され得る。アフィン関数と対照的に、ネットワークモデルは、提示モデルが非線形性、及び異なる長さのアミノ酸配列を有するプロセスデータを組み入れることができるため、有利である。具体的には、非線形モデリングを通して、ネットワークモデルは、ペプチド配列中の異なる位置のアミノ酸間の相互作用、及びこの相互作用がペプチド提示にいかに影響を及ぼすかを捕捉することができる。

概して、ネットワークモデルＮＮ_ｈ（・）は、人工ニューラルネットワーク（ＡＮＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、深層ニューラルネットワーク（ＤＮＮ）などのフィードフォワードネットワーク、及び／または、長・短期記憶ネットワーク（ＬＳＴＭ）、双方向再帰型ネットワーク、深層双方向再帰型ネットワークなどの再帰型ネットワークなどとして、構造化され得る。

本明細書の残りの部分を通じて言及される１つの例において、ｈ＝１，２，．．．，ｍにおける各ＭＨＣアレルは、別々のネットワークモデルに関連し、ＮＮ_ｈ（・）は、ＭＨＣアレルｈに関連するネットワークモデルからの出力を意味する。

図５は、任意のＭＨＣアレルｈ＝３に関連した例示的なネットワークモデルＮＮ_３（・）を説明する。図５に示すように、ＭＨＣアレルｈ＝３についてのネットワークモデルＮＮ_３（・）は、層ｌ＝１での３種類の入力ノード、層ｌ＝２での４種類のノード、層ｌ＝３での２種類のノード、及び層ｌ＝４での１種類の出力ノードを含む。ネットワークモデルＮＮ_３（・）は、１０種類のパラメータθ_３（１），θ_３（２），．．．，θ_３（１０）のセットに関連している。ネットワークモデルＮＮ_３（・）は、ＭＨＣアレルｈ＝３についての３種類のアレル相互作用変数ｘ_３ ^ｋ（１）、ｘ_３ ^ｋ（２）、及びｘ_３ ^ｋ（３）についての入力値（コード化されたポリペプチド配列データ及び使用される任意の他の訓練データを含む、個々のデータ例）を受け取り、値ＮＮ_３（ｘ_３ ^ｋ）を出力する。ネットワーク関数は、異なるアレル相互作用変数をそれぞれが入力として取る１つ以上のネットワークモデルを含んでもよい。

別の例において、特定されたＭＨＣアレルｈ＝１，２，．．．，ｍは、単一ネットワークモデルＮＮ_Ｈ（・）に関連しており、ＮＮ_ｈ（・）は、ＭＨＣアレルｈに関連する単一ネットワークモデルの１つ以上の出力を意味する。そのような例において、パラメータθ_ｈのセットは、単一ネットワークモデルについてのパラメータのセットに対応し得、したがって、パラメータθ_ｈのセットは、すべてのＭＨＣアレルによって共有され得る。

図６Ａは、ＭＨＣアレルｈ＝１，２，．．．，ｍによって共有される例示的なネットワークモデルＮＮ_Ｈ（・）を説明する。図６Ａに示すように、ネットワークモデルＮＮ_Ｈ（・）は、ＭＨＣアレルに各々対応する、ｍ個の出力ノードを含む。ネットワークモデルＮＮ_３（・）は、ＭＨＣアレルｈ＝３についてのアレル相互作用変数ｘ_３ ^ｋを受け取り、ＭＨＣアレルｈ＝３に対応する値ＮＮ_３（ｘ_３ ^ｋ）を含む、ｍ個の値を出力する。

さらに別の例において、単一ネットワークモデルＮＮ_Ｈ（・）は、ＭＨＣアレルｈのアレル相互作用変数ｘ_ｈ ^ｋ及びコード化されたタンパク質配列ｄ_ｈを与えられて依存性スコアを出力する、ネットワークモデルであり得る。そのような例において、パラメータθ_ｈのセットは、再び、単一ネットワークモデルについてのパラメータのセットに対応し得、したがって、パラメータθ_ｈのセットは、すべてのＭＨＣアレルによって共有され得る。したがって、そのような例において、ＮＮｈ（・）は、単一ネットワークモデルに対して入力［ｘ_ｈ ^ｋｄ_ｈ］を与えられた、単一ネットワークモデルＮＮ_Ｈ（・）の出力を意味する。そのようなネットワークモデルは、訓練データにおいて未知であったＭＨＣアレルについてのペプチド提示確率を、単にそれらのタンパク質配列を特定することによって正しく予測することができるため、有利である。

図６Ｂは、ＭＨＣアレルによって共有される例示的なネットワークモデルＮＮ_Ｈ（・）を説明する。図６Ｂに示すように、ネットワークモデルＮＮ_Ｈ（・）は、ＭＨＣアレルｈ＝３のアレル相互作用変数及びタンパク質配列を入力として受け取り、ＭＨＣアレルｈ＝３に対応する依存性スコアＮＮ_３（ｘ_３ ^ｋ）を出力する。

さらに別の例において、依存性関数ｇ_ｈ（・）は、

として表すことができ、式中、ｇ’_ｈ（ｘ_ｈ ^ｋ；θ’_ｈ）は、パラメータθ’ｈのセットを伴うアフィン関数、ネットワーク関数などであり、ＭＨＣアレルｈについての提示のベースライン確率を表す、ＭＨＣアレルのアレル相互作用変数についてのパラメータのセットにおけるバイアスパラメータθ_ｈ ^０を伴う。

別の実現形態において、バイアスパラメータθ_ｈ ^０は、ＭＨＣアレルｈの遺伝子ファミリーにしたがって共有されてもよい。すなわち、ＭＨＣアレルｈについてのバイアスパラメータθ_ｈ ^０はθ_{遺伝子（ｈ）} ^０と同等であり得、遺伝子（ｈ）は、ＭＨＣアレルｈの遺伝子ファミリーである。例えば、クラスＩＭＨＣアレルＨＬＡ−Ａ＊０２：０１、ＨＬＡ−Ａ＊０２：０２、及びＨＬＡ−Ａ＊０２：０３は、「ＨＬＡ−Ａ」の遺伝子ファミリーに割り当てられてもよく、これらのＭＨＣアレルの各々についてのバイアスパラメータθ_ｈ ^０が共有されてもよい。別の例として、クラスＩＩＭＨＣアレルＨＬＡ−ＤＲＢ１：１０：０１、ＨＬＡ−ＤＲＢ１：１１：０１、及びＨＬＡ−ＤＲＢ３：０１：０１を「ＨＬＡ−ＤＲＢ」の遺伝子ファミリーに割り当て、これらのＭＨＣアレルのそれぞれのバイアスパラメータθ_ｈ ^０を共有することができる。

例として、等式（２）に戻ると、アフィン依存性関数ｇ_ｈ（・）を用いた、ｍ＝４の異なる特定されたＭＨＣアレルの中でＭＨＣアレルｈ＝３によってペプチドｐ^ｋが提示されるであろう尤度は、

によって生成することができ、式中、ｘ３ｋは、ＭＨＣアレルｈ＝３について特定されたアレル相互作用変数であり、θ３は、損失関数最小化を通してＭＨＣアレルｈ＝３について決定されたパラメータのセットである。

別の例として、別々のネットワーク変換関数ｇｈ（・）を用いた、ｍ＝４の異なる特定されたＭＨＣアレルの中でＭＨＣアレルｈ＝３によってペプチドｐ^ｋが提示されるであろう尤度は、

によって生成することができ、式中、ｘ_３ ^ｋは、ＭＨＣアレルｈ＝３について特定されたアレル相互作用変数であり、θ_３は、ＭＨＣアレルｈ＝３に関連するネットワークモデルＮＮ_３（・）について決定されたパラメータのセットである。

図７は、例示的なネットワークモデルＮＮ_３（・）を用いた、ＭＨＣアレルｈ＝３に関連したペプチドｐ^ｋの提示尤度の生成を説明する。図７に示すように、ネットワークモデルＮＮ_３（・）は、ＭＨＣアレルｈ＝３についてのアレル相互作用変数ｘ_３ ^ｋを受け取り、出力ＮＮ_３（ｘ_３ ^ｋ）を生成する。出力は、関数ｆ（・）によってマッピングされて、推定提示尤度ｕ_ｋを生成する。

ＶＩＩＩ．Ｂ．２．アレル非相互作用変数を伴うアレル毎
一実現形態では、訓練モジュール３１６は、アレル非相互作用変数を組み入れて、

によって、ペプチドｐ^ｋの推定提示尤度ｕｋをモデル化し、式中、ｗ^ｋは、ペプチドｐ^ｋについてのコード化されたアレル非相互作用変数を意味し、ｇ_ｗ（・）は、アレル非相互作用変数について決定されたパラメータθ_ｗのセットに基づく、アレル非相互作用変数ｗ^ｋについての関数である。具体的には、各ＭＨＣアレルｈについてのパラメータθ_ｈのセット及びアレル非相互作用変数についてのパラメータθ_ｗのセットの値を、θ_ｈ及びθ_ｗに関する損失関数を最小化することによって決定することができ、ｉは、単一のＭＨＣアレルを発現する細胞から生成された訓練データ１７０のサブセットＳにおける各例である。

依存性関数ｇ_ｗ（ｗ^ｋ；θ_ｗ）の出力は、アレル非相互作用変数の影響に基づいて、１つ以上のＭＨＣアレルによってペプチドｐ^ｋが提示されるかどうかを示す、アレル非相互作用変数についての依存性スコアを表す。例えば、アレル非相互作用変数についての依存性スコアは、ペプチドｐ^ｋの提示に正の影響を及ぼすことが公知であるＣ末端隣接配列とペプチドｐ^ｋが結合している場合は、高い値を有し得、ペプチドｐ^ｋの提示に負の影響を及ぼすことが公知であるＣ末端隣接配列とペプチドｐ^ｋが結合している場合は、低い値を有し得る。

等式（８）によると、ペプチド配列ｐ^ｋがＭＨＣアレルｈによって提示されるであろうアレル毎尤度は、ＭＨＣアレルｈについての関数ｇ_ｈ（・）を、ペプチド配列ｐ^ｋのコード化されたバージョンに適用して、アレル相互作用変数について対応する依存性スコアを生成することによって、生成することができる。アレル非相互作用変数についての関数ｇ_ｗ（・）もまた、アレル非相互作用変数についての依存性スコアを生成するように、アレル非相互作用変数のコード化されたバージョンに適用される。両方のスコアが組み合わされ、組み合わされたスコアが、ＭＨＣアレルｈによってペプチド配列ｐ^ｋが提示されるであろうアレル毎尤度を生成するように、変換関数ｆ（・）によって変換される。

あるいは、訓練モジュール３１６は、等式（２）においてアレル非相互作用変数ｗ^ｋをアレル相互作用変数ｘ_ｈ ^ｋに付加することにより、予測におけるアレル非相互作用変数ｗｋを含んでもよい。したがって、提示尤度は、

によって与えられ得る。

ＶＩＩＩ．Ｂ．３アレル非相互作用変数についての依存性関数
アレル相互作用変数についての依存性関数ｇ_ｈ（・）と同様に、アレル非相互作用変数についての依存性関数ｇ_ｗ（・）は、アフィン関数、または別々のネットワークモデルがアレル非相互作用変数ｗ^ｋに関連しているネットワーク関数であり得る。

具体的には、依存性関数ｇ_ｗ（・）は、ｗ^ｋにおけるアレル非相互作用変数を、パラメータθ_ｗのセットにおける対応するパラメータと線形結合する、

によって与えられるアフィン関数である。

依存性関数ｇ_ｗ（・）はまた、パラメータθ_ｗのセットにおける関連するパラメータを有するネットワークモデルＮＮ_ｗ（・）によって表される、

によって与えられるネットワーク関数である。ネットワーク関数は、異なるアレル非相互作用変数をそれぞれが入力として取る１つ以上のネットワークモデルを含んでもよい。

別の例において、アレル非相互作用変数についての依存性関数ｇ_ｗ（・）は、

によって与えられ得、式中、ｇ’_ｗ（ｗ^ｋ；θ’_ｗ）は、アレル非相互作用パラメータθ’_ｗのセットを伴うアフィン関数、ネットワーク関数などであり、ｍ^ｋは、ペプチドｐ^ｋについてのｍＲＮＡ定量測定値であり、ｈ（・）は、定量測定値を変換する関数であり、かつθ_ｗ ^ｍは、ｍＲＮＡ定量測定値についての依存性スコアを生成するようにｍＲＮＡ定量測定値と組み合わされる、アレル非相互作用変数についてのパラメータのセットにおけるパラメータである。本明細書の残りの部分を通じて言及される１つの特定の実施形態において、ｈ（・）はｌｏｇ関数であるが、実際には、ｈ（・）は、様々な異なる関数のうちのいずれか１つであり得る。

さらに別の例において、アレル非相互作用変数についての依存性関数ｇ_ｗ（・）は、

によって与えられ、式中、ｇ’_ｗ（ｗ^ｋ；θ’_ｗ）は、アレル非相互作用パラメータθ’_ｗのセットを伴うアフィン関数、ネットワーク関数などであり、ｏ^ｋは、ペプチドｐ^ｋについてヒトプロテオームにおけるタンパク質及びアイソフォームを表す、セクションＶＩＩ．Ｃ．２で述べた指標ベクトルであり、かつθ_ｗ ^ｏは、指標ベクトルと組み合わされるアレル非相互作用変数についてのパラメータのセットにおける、パラメータのセットである。１つのバリエーションにおいて、ｏ^ｋ及びパラメータθ_ｗ ^ｏのセットの次元が有意に高い場合、

（

は、Ｌ１ノルム、Ｌ２ノルム、組み合わせなどを表す）などのパラメータ正則化項を、パラメータの値を決定する時に損失関数に加えることができる。ハイパーパラメータλの最適値を、適切な方法を通して決定することができる。

さらに別の例において、アレル非相互作用変数に対する依存性関数ｇ_ｗ（・）は、

により与えられ、式中、ｇ’_ｗ（ｗ^ｋ；θ’_ｗ）は、アレル非相互作用パラメータθ’_ｗのセットを伴うアフィン関数、ネットワーク関数などであり、

は、ペプチドｐ^ｋがアレル非相互作用変数に関して上記に述べたソース遺伝子ｌに由来するものである場合に１に等しいインジケータ関数であり、θ_ｗ ^ｌはソース遺伝子ｌの「抗原性」を示すパラメータである。１つのバリエーションにおいて、Ｌが充分に大きく、したがって、パラメータの数θ_ｗ ^{ｌ＝１，２，．．．，Ｌ}が充分に大きい場合、

のようなパラメータ正則化項（ただし、

は、Ｌ１ノルム、Ｌ２ノルム、組み合わせなど）をパラメータの値を決定する際に損失関数に加えることができる。ハイパーパラメータλの最適値は適当な方法によって決定することができる。

は、アレル非相互作用変数に関して上記に述べたようにペプチドｐ^ｋがソース遺伝子ｌに由来するものである場合、かつペプチドｐ^ｋが組織タイプｍに由来するものである場合に１に等しいインジケータ関数であり、θ_ｗ ^ｌｍはソース遺伝子ｌと組織タイプｍとの組み合わせの抗原性を示すパラメータである。詳細には、組織タイプｍの遺伝子ｌの抗原性は、組織タイプｍの細胞が、ＲＮＡ発現及びペプチド配列コンテキストについての調節後に遺伝子ｌ由来のペプチドを提示する残留傾向を示し得る。

１つのバリエーションにおいて、ＬまたはＭが充分に大きく、したがって、パラメータの数θ_ｗ ^{ｌｍ＝１，２，．．．，ＬＭ}が充分に大きい場合、

のようなパラメータ正則化項（ただし、

は、Ｌ１ノルム、Ｌ２ノルム、組み合わせなど）をパラメータの値を決定する際に損失関数に加えることができる。ハイパーパラメータλの最適値は適当な方法によって決定することができる。別のバリエーションにおいて、同じソース遺伝子に対する係数が組織タイプ間で大きく異ならないように、パラメータの値を決定する際にパラメータ正則化項を損失関数に加えることができる。例えば、以下のようなペナルティ項：

（式中、

はソース遺伝子lの組織タイプにわたった平均の抗原性である）は、損失関数中の異なる組織タイプにわたった抗原性の標準偏差にペナルティを付加することができる。

実際には、式（１０）、（１１）、（１２a）及び（１２ｂ）のいずれかの追加項を組み合わせることによってアレル非相互作用変数に関する依存性関数ｇ_ｗ（・）を生成することができる。例えば、式（１０）のｍＲＮＡ定量測定値を示す項ｈ（・）と式（１２）のソース遺伝子の抗原性を示す項とを他の任意のアフィン関数またはネットワーク関数とともに互いに加え合わせることにより、アレル非相互作用変数に関する依存性関数を生成することができる。

例として、等式（８）に戻ると、アフィン変換関数ｇ_ｈ（・）、ｇ_ｗ（・）を用いた、ｍ＝４の異なる特定されたＭＨＣアレルの中でＭＨＣアレルｈ＝３によってペプチドｐ^ｋが提示されるであろう尤度は、

によって生成することができ、式中、ｗ^ｋは、ペプチドｐ^ｋについて特定されたアレル非相互作用変数であり、θ_ｗは、アレル非相互作用変数について決定されたパラメータのセットである。

別の例として、ネットワーク変換関数ｇ_ｈ（・）、ｇ_ｗ（・）を用いた、ｍ＝４の異なる特定されたＭＨＣアレルの中でＭＨＣアレルｈ＝３によってペプチドｐ^ｋが提示されるであろう尤度は、

によって生成することができ、式中、ｗ^ｋは、ペプチドｐ^ｋについて特定されたアレル相互作用変数であり、θ_ｗは、アレル非相互作用変数について決定されたパラメータのセットである。

図８は、例示的なネットワークモデルＮＮ_３（・）及びＮＮ_ｗ（・）を用いた、ＭＨＣアレルｈ＝３に関連したペプチドｐ^ｋの提示尤度の生成を説明する。図８に示すように、ネットワークモデルＮＮ_３（・）は、ＭＨＣアレルｈ＝３についてのアレル相互作用変数ｘ_３ ^ｋを受け取り、出力ＮＮ_３（ｘ_３ ^ｋ）を生成する。ネットワークモデルＮＮ_ｗ（・）は、ペプチドｐ^ｋについてのアレル非相互作用変数ｗ^ｋを受け取り、出力ＮＮ_ｗ（ｗ^ｋ）を生成する。出力は、組み合わされ、関数ｆ（・）によってマッピングされて、推定提示尤度ｕ_ｋを生成する。

ＶＩＩＩ．Ｃ．複数アレルモデル
訓練モジュール３１６はまた、２つ以上のＭＨＣアレルが存在する複数アレル設定においてペプチドの提示尤度を予測するための提示モデルを構築し得る。この例において、訓練モジュール３１６は、単一のＭＨＣアレルを発現する細胞、複数のＭＨＣアレルを発現する細胞、またはそれらの組み合わせから生成された訓練データ１７０におけるデータ例Ｓに基づいて、提示モデルを訓練し得る。

ＶＩＩＩ．Ｃ．１．実施例１：アレル毎モデルの最大値
一実現形態では、訓練モジュール３１６は、複数のＭＨＣアレルＨのセットに関連したペプチドｐ^ｋの推定提示尤度ｕ_ｋを、等式（２）〜（１１）と共に上記で説明したような、単一アレルを発現する細胞に基づいて決定されたセットＨにおけるＭＨＣアレルｈの各々について決定された提示尤度

の関数としてモデル化する。具体的には、提示尤度ｕ_ｋは、

の任意の関数であることができる。一実現形態では、等式（１２）に示すように、関数は最大値関数であり、提示尤度ｕ_ｋは、セットＨにおける各ＭＨＣアレルｈについての提示尤度の最大値として決定することができる。

ＶＩＩＩ．Ｃ．２．実施例２．１：和の関数モデル
一実現形態では、訓練モジュール３１６は、ペプチドｐ^ｋの推定提示尤度ｕ_ｋを、

によってモデル化し、式中、要素ａ_ｈ ^ｋは、ペプチド配列ｐ^ｋに関連する複数のＭＨＣアレルＨについて１であり、ｘ_ｈ ^ｋは、ペプチドｐ^ｋ及び対応するＭＨＣアレルについてのコード化されたアレル相互作用変数を意味する。各ＭＨＣアレルｈについてのパラメータθ_ｈのセットの値は、θ_ｈに関する損失関数を最小化することによって決定することができ、ｉは、単一のＭＨＣアレルを発現する細胞及び／または複数のＭＨＣアレルを発現する細胞から生成された訓練データ１７０のサブセットＳにおける各例である。依存性関数ｇ_ｈは、セクションＶＩＩＩ．Ｂ．１．において上記で導入された依存性関数ｇ_ｈのいずれかの形態であり得る。

等式（１３）によると、ペプチド配列ｐ^ｋが１つ以上のＭＨＣアレルｈによって提示されるであろう提示尤度は、依存性関数ｇ_ｈ（・）を、ＭＨＣアレルＨの各々についてペプチド配列ｐ^ｋのコード化されたバージョンに適用して、アレル相互作用変数についての対応するスコアを生成することによって、生成することができる。各ＭＨＣアレルｈについてのスコアが組み合わされて、ペプチド配列ｐ^ｋがＭＨＣアレルＨのセットによって提示されるであろう提示尤度を生成するように変換関数ｆ（・）によって変換される。

等式（１３）の提示モデルは、各ペプチドｐ^ｋについての関連するアレルの数が１よりも大きいことができる点で、等式（２）のアレル毎モデルとは異なる。換言すると、ａ_ｈ ^ｋにおける１つよりも多い要素が、ペプチド配列ｐ^ｋに関連する複数のＭＨＣアレルＨについて１の値を有することができる。

例として、アフィン変換関数ｇ_ｈ（・）を用いた、ｍ＝４の異なる特定されたＭＨＣアレルの中でＭＨＣアレルｈ＝２、ｈ＝３によってペプチドｐ^ｋが提示されるであろう尤度は、

によって生成することができ、式中、ｘ_２ ^ｋ、ｘ_３ ^ｋは、ＭＨＣアレルｈ＝２、ｈ＝３について特定されたアレル相互作用変数であり、θ_２、θ_３は、ＭＨＣアレルｈ＝２、ｈ＝３について決定されたパラメータのセットである。

別の例として、ネットワーク変換関数ｇ_ｈ（・）、ｇ_ｗ（・）を用いた、ｍ＝４の異なる特定されたＭＨＣアレルの中でＭＨＣアレルｈ＝２、ｈ＝３によってペプチドｐ^ｋが提示されるであろう尤度は、

によって生成することができ、式中、ＮＮ_２（・）、ＮＮ_３（・）は、ＭＨＣアレルｈ＝２、ｈ＝３について特定されたネットワークモデルであり、θ_２、θ_３は、ＭＨＣアレルｈ＝２、ｈ＝３について決定されたパラメータのセットである。

図９は、例示的なネットワークモデルＮＮ_２（・）及びＮＮ_３（・）を用いた、ＭＨＣアレルｈ＝２、ｈ＝３に関連したペプチドｐ^ｋの提示尤度の生成を説明する。図９に示すように、ネットワークモデルＮＮ_２（・）は、ＭＨＣアレルｈ＝２についてのアレル相互作用変数ｘ_２ ^ｋを受け取り、出力ＮＮ_２（ｘ_２ ^ｋ）を生成し、ネットワークモデルＮＮ_３（・）は、ＭＨＣアレルｈ＝３についてのアレル相互作用変数ｘ_３ ^ｋを受け取り、出力ＮＮ_３（ｘ_３ ^ｋ）を生成する。出力は、組み合わされ、関数ｆ（・）によってマッピングされて、推定提示尤度ｕ_ｋを生成する。

ＶＩＩＩ．Ｃ．３．実施例２．２：アレル非相互作用変数を伴う和の関数モデル
一実現形態では、訓練モジュール３１６は、アレル非相互作用変数を組み入れて、

によって、ペプチドｐ^ｋの推定提示尤度ｕ_ｋをモデル化し、式中、ｗ^ｋは、ペプチドｐ^ｋについてのコード化されたアレル非相互作用変数を意味する。具体的には、各ＭＨＣアレルｈについてのパラメータθ_ｈのセット及びアレル非相互作用変数についてのパラメータθ_ｗのセットの値を、θ_ｈ及びθ_ｗに関する損失関数を最小化することによって決定することができ、ｉは、単一のＭＨＣアレルを発現する細胞及び／または複数のＭＨＣアレルを発現する細胞から生成された訓練データ１７０のサブセットＳにおける各例である。依存性関数ｇ_ｗは、セクションＶＩＩＩ．Ｂ．３．において上記で導入された依存性関数ｇ_ｗのいずれかの形態であり得る。

したがって、等式（１４）によると、１つ以上のＭＨＣアレルＨによってペプチド配列ｐ^ｋが提示されるであろう提示尤度は、関数ｇ_ｈ（・）を、ＭＨＣアレルＨの各々についてペプチド配列ｐ^ｋのコード化されたバージョンに適用して、各ＭＨＣアレルｈのアレル相互作用変数について対応する依存性スコアを生成することによって、生成することができる。アレル非相互作用変数についての関数ｇ_ｗ（・）もまた、アレル非相互作用変数についての依存性スコアを生成するように、アレル非相互作用変数のコード化されたバージョンに適用される。スコアが組み合わされ、組み合わされたスコアが、ＭＨＣアレルＨによってペプチド配列ｐ^ｋが提示されるであろう提示尤度を生成するように、変換関数ｆ（・）によって変換される。

等式（１４）の提示モデルにおいて、各ペプチドｐ^ｋについての関連するアレルの数は、１よりも大きいことができる。換言すると、ａ_ｈ ^ｋにおける１つよりも多い要素が、ペプチド配列ｐ^ｋに関連する複数のＭＨＣアレルＨについて１の値を有することができる。

例として、アフィン変換関数ｇ_ｈ（・）、ｇ_ｗ（・）を用いた、ｍ＝４の異なる特定されたＭＨＣアレルの中でＭＨＣアレルｈ＝２、ｈ＝３によってペプチドｐ^ｋが提示されるであろう尤度は、

図１０は、例示的なネットワークモデルＮＮ_２（・）、ＮＮ_３（・）、及びＮＮ_ｗ（・）を用いた、ＭＨＣアレルｈ＝２、ｈ＝３に関連するペプチドｐ^ｋについての提示尤度の生成を示す。図１０に示すように、ネットワークモデルＮＮ_２（・）は、ＭＨＣアレルｈ＝２についてのアレル相互作用変数ｘ_２ ^ｋを受け取り、出力ＮＮ_２（ｘ_２ ^ｋ）を生成する。ネットワークモデルＮＮ_３（・）は、ＭＨＣアレルｈ＝３についてのアレル相互作用変数ｘ_３ ^ｋを受け取り、出力ＮＮ_３（ｘ_３ ^ｋ）を生成する。ネットワークモデルＮＮ_ｗ（・）は、ペプチドｐ^ｋについてのアレル非相互作用変数ｗ^ｋを受け取り、出力ＮＮ_ｗ（ｗ^ｋ）を生成する。出力は、組み合わされ、関数ｆ（・）によってマッピングされて、推定提示尤度ｕ_ｋを生成する。

あるいは、訓練モジュール３１６は、等式（１５）においてアレル非相互作用変数ｗ^ｋをアレル相互作用変数ｘ_ｈ ^ｋに付加することにより、予測におけるアレル非相互作用変数ｗ^ｋを含んでもよい。したがって、提示尤度は、

によって与えられ得る。

ＶＩＩＩ．Ｃ．４．実施例３．１：暗黙のアレル毎尤度を用いたモデル
別の実現形態において、訓練モジュール３１６は、ペプチドｐ^ｋの推定提示尤度ｕ_ｋを、

によってモデル化し、式中、要素ａ_ｈ ^ｋは、ペプチド配列ｐ^ｋに関連する複数のＭＨＣアレル

について１であり、ｕ’_ｋ ^ｈは、ＭＨＣアレルｈについての暗黙のアレル毎提示尤度であり、ベクトルｖは、要素ｖ_ｈが、ａ_ｈ ^ｋ・ｕ’_ｋ ^ｈに対応するベクトルであり、ｓ（・）は、ｖの要素をマッピングする関数であり、かつｒ（・）は、入力の値を所定の範囲中にクリップするクリッピング関数である。より詳細に下記に記載するように、ｓ（・）は、総和関数または二次関数であってもよいが、他の実施形態において、ｓ（・）は、最大値関数などの任意の関数であり得ることが認識される。暗黙のアレル毎尤度についてのパラメータθのセットの値は、θに関する損失関数を最小化することによって決定することができ、ｉは、単一のＭＨＣアレルを発現する細胞及び／または複数のＭＨＣアレルを発現する細胞から生成された訓練データ１７０のサブセットＳにおける各例である。

等式（１７）の提示モデルにおける提示尤度は、各々が、個々のＭＨＣアレルｈによってペプチドｐ^ｋが提示されるであろう尤度に対応する、暗黙のアレル毎提示尤度ｕ’_ｋ ^ｈの関数としてモデル化される。暗黙のアレル毎尤度は、暗黙のアレル毎尤度についてのパラメータが、単一アレル設定に加えて、提示されるペプチドと対応するＭＨＣアレルとの間の直接の関連が未知である複数アレル設定から学習され得る点で、セクションＶＩＩＩ．Ｂのアレル毎提示尤度とは異なる。したがって、複数アレル設定において、提示モデルは、ペプチドｐ^ｋが全体としてＭＨＣアレルＨのセットによって提示されるかどうかを推定できるだけではなく、どのＭＨＣアレルｈがペプチドｐ^ｋを提示した可能性が最も高いかを示す個々の尤度

も提供することもできる。これの利点は、提示モデルが、単一のＭＨＣアレルを発現する細胞についての訓練データを伴わずに暗黙の尤度を生成できることである。

本明細書の残りの部分を通じて言及される１つの特定の実現形態において、ｒ（・）は、範囲［０，１］を有する関数である。例えば、ｒ（・）は、クリップ関数：
r(z)＝min(max(z,0)，1)
であってもよく、ｚと１の間の最小値が、提示尤度ｕ_ｋとして選ばれる。別の実現形態において、ｒ（・）は、
r(z)＝tanh(z)
として与えられる双曲線正接関数であり、ドメインｚの値は、０以上である。

ＶＩＩＩ．Ｃ．５．実施例３．２：関数の和モデル
１つの特定の実現形態において、ｓ（・）は、総和関数であり、提示尤度は、暗黙のアレル毎提示尤度を総和することによって与えられる。

１つの実現形態では、ＭＨＣアレルｈについての暗黙のアレル毎提示尤度を、

によって生成して、提示尤度が、

によって推定されるようにする。

等式（１９）によると、１つ以上のＭＨＣアレルＨによってペプチド配列ｐ^ｋが提示されるであろう提示尤度は、関数ｇ_ｈ（・）を、ＭＨＣアレルＨの各々についてペプチド配列ｐ^ｋのコード化されたバージョンに適用して、アレル相互作用変数についての対応する依存性スコアを生成することによって、生成することができる。各依存性スコアは、最初に、暗黙のアレル毎提示尤度ｕ’_ｋ ^ｈを生成するように、関数ｆ（・）によって変換される。アレル毎尤度ｕ’_ｋ ^ｈが組み合わされ、組み合わされた尤度にクリッピング関数が、値を範囲［０，１］中にクリップするために適用されて、ペプチド配列ｐ^ｋがＭＨＣアレルＨのセットによって提示されるであろう提示尤度が生成され得る。依存性関数ｇ_ｈは、セクションＶＩＩＩ．Ｂ．１．において上記で導入された依存性関数ｇ_ｈのいずれかの形態であり得る。

図１１は、例示的なネットワークモデルＮＮ_２（・）及びＮＮ_３（・）を用いた、ＭＨＣアレルｈ＝２、ｈ＝３に関連したペプチドｐ^ｋの提示尤度の生成を説明する。図９に示すように、ネットワークモデルＮＮ_２（・）は、ＭＨＣアレルｈ＝２についてのアレル相互作用変数ｘ_２ ^ｋを受け取り、出力ＮＮ_２（ｘ_２ ^ｋ）を生成し、ネットワークモデルＮＮ_３（・）は、ＭＨＣアレルｈ＝３についてのアレル相互作用変数ｘ_３ ^ｋを受け取り、出力ＮＮ_３（ｘ_３ ^ｋ）を生成する。各出力は、関数ｆ（・）によってマッピングされ、組み合わされて、推定提示尤度ｕ_ｋを生成する。

別の実現形態において、予測が、質量分析イオン電流のｌｏｇについてなされる場合、ｒ（・）はｌｏｇ関数であり、ｆ（・）は指数関数である。

ＶＩＩＩ．Ｃ．６．実施例３．３：アレル非相互作用変数を伴う関数の和モデル
１つの実現形態では、ＭＨＣアレルｈについての暗黙のアレル毎提示尤度を、

によって生成して、提示尤度が、

によって生成されるようにして、ペプチド提示に、アレル非相互作用変数の影響を組み入れる。

等式（２１）によると、１つ以上のＭＨＣアレルＨによってペプチド配列ｐ^ｋが提示されるであろう提示尤度は、関数ｇ_ｈ（・）を、ＭＨＣアレルＨの各々についてペプチド配列ｐ^ｋのコード化されたバージョンに適用して、各ＭＨＣアレルｈのアレル相互作用変数について対応する依存性スコアを生成することによって、生成することができる。アレル非相互作用変数についての関数ｇ_ｗ（・）もまた、アレル非相互作用変数についての依存性スコアを生成するように、アレル非相互作用変数のコード化されたバージョンに適用される。アレル非相互作用変数のスコアが、アレル相互作用変数の依存性スコアの各々に組み合わされる。組み合わされたスコアの各々が、暗黙のアレル毎提示尤度を生成するように、関数ｆ（・）によって変換される。暗黙の尤度が組み合わされ、組み合わされた出力にクリッピング関数が、値を範囲［０，１］中にクリップするために適用されて、ＭＨＣアレルＨによってペプチド配列ｐ^ｋが提示されるであろう提示尤度が生成され得る。依存性関数ｇ_ｗは、セクションＶＩＩＩ．Ｂ．３．において上記で導入された依存性関数ｇ_ｗのいずれかの形態であり得る。

図１２は、例示的なネットワークモデルＮＮ_２（・）、ＮＮ_３（・）、及びＮＮ_ｗ（・）を用いた、ＭＨＣアレルｈ＝２、ｈ＝３に関連したペプチドｐ^ｋの提示尤度の生成を説明する。図１２に示すように、ネットワークモデルＮＮ_２（・）は、ＭＨＣアレルｈ＝２についてのアレル相互作用変数ｘ_２ ^ｋを受け取り、出力ＮＮ_２（ｘ_２ ^ｋ）を生成する。ネットワークモデルＮＮ_ｗ（・）は、ペプチドｐ^ｋについてのアレル非相互作用変数ｗ^ｋを受け取り、出力ＮＮ_ｗ（ｗ^ｋ）を生成する。出力は、組み合わされ、関数ｆ（・）によってマッピングされる。ネットワークモデルＮＮ_３（・）は、ＭＨＣアレルｈ＝３についてのアレル相互作用変数ｘ_３ ^ｋを受け取り、出力ＮＮ_３（ｘ_３ ^ｋ）を生成し、これも、同じネットワークモデルＮＮ_ｗ（・）の出力ＮＮ_ｗ（ｗ^ｋ）と組み合わされ、関数ｆ（・）によってマッピングされる。両方の出力が組み合わされて、推定提示尤度ｕ_ｋを生成する。

別の実現形態では、ＭＨＣアレルｈについての暗黙のアレル毎提示尤度を、

によって生成して、提示尤度が、

によって生成されるようにする。

ＶＩＩＩ．Ｃ．７．実施例４：二次モデル
一実現形態では、ｓ（・）は、二次関数であり、ペプチドｐ^ｋの推定提示尤度ｕ_ｋは、

によって与えられ、式中、要素ｕ’_ｋ ^ｈは、ＭＨＣアレルｈについての暗黙のアレル毎提示尤度である。暗黙のアレル毎尤度についてのパラメータθのセットの値は、θに関する損失関数を最小化することによって決定することができ、ｉは、単一のＭＨＣアレルを発現する細胞及び／または複数のＭＨＣアレルを発現する細胞から生成された訓練データ１７０のサブセットＳにおける各例である。暗黙のアレル毎提示尤度は、上記の等式（１８）、（２０）、及び（２２）において示すいずれかの形態であり得る。

一態様において、等式（２３）のモデルは、ペプチド配列ｐ^ｋが、２つのＭＨＣアレルによって同時に提示されるであろう可能性が存在し、２つのＨＬＡアレルによる提示は統計学的に独立していることを含意し得る。

等式（２３）によると、１つ以上のＭＨＣアレルＨによってペプチド配列ｐ^ｋが提示されるであろう提示尤度は、暗黙のアレル毎提示尤度を組み合わせること、及び、ＭＨＣアレルＨによってペプチド配列ｐ^ｋが提示されるであろう提示尤度を生成するように、ＭＨＣアレルの各ペアがペプチドｐ^ｋを同時に提示するであろう尤度を総和から差し引くことによって、生成することができる。

例として、アフィン変換関数ｇ_ｈ（・）を用いた、ｍ＝４の異なる特定されたＨＬＡアレルの中でＨＬＡアレルｈ＝２、ｈ＝３によってペプチドｐ^ｋが提示されるであろう尤度は、

によって生成することができ、式中、ｘ_２ ^ｋ、ｘ_３ ^ｋは、ＨＬＡアレルｈ＝２、ｈ＝３について特定されたアレル相互作用変数であり、θ_２、θ_３は、ＨＬＡアレルｈ＝２、ｈ＝３について決定されたパラメータのセットである。

別の例として、ネットワーク変換関数ｇ_ｈ（・）、ｇ_ｗ（・）を用いた、ｍ＝４の異なる特定されたＨＬＡアレルの中でＨＬＡアレルｈ＝２、ｈ＝３によってペプチドｐ^ｋが提示されるであろう尤度は、

によって生成することができ、式中、ＮＮ_２（・）、ＮＮ_３（・）は、ＨＬＡアレルｈ＝２、ｈ＝３について特定されたネットワークモデルであり、θ_２、θ_３は、ＨＬＡアレルｈ＝２、ｈ＝３について決定されたパラメータのセットである。

ＩＸ．実施例５：予測モジュール
予測モジュール３２０は、配列データを受け取って、提示モデルを用いて配列データ中の候補新生抗原を選択する。具体的には、配列データは、患者の腫瘍組織細胞から抽出されたＤＮＡ配列、ＲＮＡ配列、及び／またはタンパク質配列であってよい。予測モジュール３２０は、配列データを、ＭＨＣ−Ｉについては８〜１５個のアミノ酸を有する、またはＭＨＣ−ＩＩについては６〜３０個のアミノ酸を有する複数のペプチド配列ｐ^ｋに処理する。例えば、予測モジュール３２０は、所定の配列

を、９個のアミノ酸を有する３種類のペプチド配列

に処理することができる。一実施形態では、予測モジュール３２０は、患者の正常組織細胞から抽出された配列データをその患者の腫瘍組織細胞から抽出された配列データと比較して１つ以上の変異を有する部分を特定することによって、変異したペプチド配列である候補新生抗原を特定することができる。

予測モジュール３２０は、提示モデルの１つ以上を処理されたペプチド配列に適用してペプチド配列の提示尤度を推定する。具体的には、予測モジュール３２０は、提示モデルを候補新生抗原に適用することによって、腫瘍ＨＬＡ分子上に提示される可能性が高い１つ以上の候補新生抗原ペプチド配列を選択することができる。一実現形態では、予測モジュール３２０は、あらかじめ決定された閾値を上回る推定提示尤度を有する候補新生抗原配列を選択する。別の実現形態では、提示モデルは、最も高い推定提示尤度を有するｖ個の候補新生抗原配列を選択する（ｖは、一般的に、ワクチン中で送達することができるエピトープの最大数である）。所定の患者について選択された候補新生抗原を含むワクチンを患者に注射して免疫応答を誘導することができる。

Ｘ．実施例６：患者選択モジュール
患者選択モジュール３２４は、患者が組み入れ基準を満たすかどうかに基づいてワクチン治療に対する患者のサブセットを選択する。一実施形態では、組み入れ基準は、提示モデルによって生成される患者の新生抗原候補の提示尤度に基づいて決定される。組み入れ基準を調整することにより、患者選択モジュール３２４は、患者の新生抗原候補の提示尤度に基づいてワクチン投与を受ける患者数を調整することができる。具体的には、厳密な組み入れ基準では、ワクチンで治療される患者の数はより少なくなるが、有効な治療を受ける（例えば、１つ以上の腫瘍特異的新生抗原（ＴＳＮＡ）が送達される）ワクチン治療患者の比率は高くなり得る。これに対して、緩い組み入れ基準では、ワクチンで治療される患者の数はより多くなるが、有効な治療を受けるワクチン治療患者の比率は低くなり得る。患者選択モジュール３２４は、ワクチン投与を受ける患者の目標比率とワクチン治療の結果、有効な治療を受ける患者の比率との所望のバランスに基づいて組み入れ基準を変更する。

一実施形態では、患者に、ワクチン容量ｖを有する患者に対する個別化ワクチンに潜在的に含ませることができるｖ種類の新生抗原候補の対応する治療サブセットが関連付けられる。一実施形態では、ある患者に対する治療サブセットは、提示モデルによって決定される最も高い提示尤度を有する新生抗原候補である。例えば、ワクチンがｖ＝２０種類のエピトープを含み得る場合、ワクチンは、提示モデルによって決定される最も高い提示尤度を有する各患者の治療サブセットを含み得る。しかしながら、他の実施形態では、ある患者に対する治療サブセットは、他の方法に基づいて決定することもできる点は認識される。例えば、ある患者に対する治療サブセットは、その患者に対する新生抗原候補のセットからランダムに選択することができ、または、ペプチド配列の結合親和性もしくは安定性をモデリングする従来技術のモデル、または提示モデルから得られる提示尤度及びこれらのペプチド配列に関する親和性または安定性情報を含む因子の組み合わせに一部基づいて決定することができる。

一実施形態では、患者選択モジュール３２４は、患者の腫瘍変異負荷が最小の変異負荷に等しいかまたはそれよりも高い場合に患者が組み入れ基準を満たすものと判定する。ある患者の腫瘍変異負荷（ＴＭＢ）は、腫瘍エクソームの非同義変異の総数を示す。一実施形態では、患者選択モジュール３２４は、患者のＴＭＢの絶対数が所定の閾値に等しいかまたはそれよりも高い場合にワクチン治療に適した患者を選択する。別の実現形態では、患者選択モジュール３２４は、患者のＴＭＢが患者のセットについて決定されたＴＭＢ間の閾値パーセンタイル内にある場合にワクチン治療に適した患者を選択する。

別の実施形態では、患者選択モジュール３２４は、患者の治療サブセットに基づく患者の有用性スコアが最小の有用性スコアに等しいかまたはそれよりも高い場合に患者が組み入れ基準を満たすものと判定する。一実施形態では、有用性スコアは、治療サブセットからの提示抗原の推定数の尺度である。

提示抗原の推定数は、新生抗原の提示を１つ以上の確率分布のランダム変数としてモデル化することによって予測することができる。一実現形態では、患者ｉの有用性スコアは、治療サブセットからの提示新生抗原候補の期待数、またはその特定の関数である。例として、各新生抗原の提示は、提示（成功）の確率が新生抗原候補の提示尤度によって与えられるベルヌーイのランダム変数としてモデル化することができる。詳細には、それぞれが最も高い提示尤度ｕ_ｉ１、ｕ_ｉ２、…、ｕ_ｉｖを有するｖ種類の新生抗原候補ｐ^ｉ１、ｐ^ｉ２、…、ｐ^ｉｖの治療サブセットＳ_ｉについて、新生抗原候補ｐ^ｉｊの提示は、ランダム変数Ａ_ｉｊによって与えられ、ここで、

提示される新生抗原の期待数は、各新生抗原候補の提示尤度の総和により与えられる。換言すれば、患者ｉの有用性スコアは、下式として表される：

患者選択モジュール３２４は、ワクチン治療について最小有用性に等しいかまたはそれよりも高い有用性スコアを有する患者のサブセットを選択する。

別の実現形態では、患者ｉの有用性スコアは、少なくとも閾値数の新生抗原ｋが提示される確率である。１つの例では、新生抗原候補の治療サブセットＳ_ｉ内の提示抗原の数は、提示（成功）の確率がエピトープのそれぞれの提示尤度によって与えられるポアソン二項ランダム変数としてモデル化される。詳細には、患者ｉの提示抗原の数は、ランダム変数Ｎ_ｉによって与えることができる：

式中、ＰＢＤ（・）は、ポアソン二項分布を示す。少なくとも閾値数の新生抗原ｋが提示される確率は、提示抗原の数Ｎ_ｉがｋに等しいかまたはそれよりも大きい確率の操作によって与えられる。換言すれば、患者ｉの有用性スコアは、下式として表される：

別の実施形態では、ある患者に対する治療サブセット内の新生抗原の数は、ワクチン容量ｖに限定される必要はなく、患者選択モジュール３２４はその患者の候補新生抗原の任意のセットに基づいて決定される有用性スコアを用いて患者を選択することができる。例えば、有用性スコアは、その患者について特定されたすべての変異または候補新生抗原に基づいて決定することができる。有用性スコアは、例えば、式（２４）〜（２７）とともに述べた方法（ただし、ここでｖは患者ｉに依存する変数ｖ（ｉ）である）を用いて生成することができ、その患者について特定された変異または候補新生抗原の総数を示す。

別の実現形態では、患者ｉの有用性スコアは、１つ以上の患者のＨＬＡアレルに対して固定閾値（例えば５００ｎＭ）よりも低い結合親和性または予測される結合親和性を有する新生抗原候補の治療サブセットＳ_ｉ内の新生抗原の数である。１つの例では、固定閾値は、１０００ｎＭ〜１０ｎＭの範囲である。場合により、有用性スコアは、ＲＮＡ−ｓｅｑによって発現されたものとして検出された新生抗原のみをカウントしてもい。

別の実現形態では、患者ｉの有用性スコアは、その患者の１つ以上のＨＬＡアレルに対する結合親和性がそのＨＬＡアレルに対するランダムなペプチドの結合親和性の閾値パーセンタイル以下である、新生抗原候補の治療サブセットＳ_ｉ内の新生抗原の数である。１つの例では、閾値パーセンタイルは、１０パーセンタイル〜０．１パーセンタイルの範囲である。場合により、有用性スコアは、ＲＮＡ−ｓｅｑによって発現されたものとして検出された新生抗原のみをカウントしてもよい。

式（２５）及び（２７）に関して説明した有用性スコアの例はあくまで例示的なものに過ぎず、患者選択モジュール３２４は他の統計学または確率分布を用いて有用性スコアを生成することもできる点は認識されよう。

ＸＩ．実施例７：免疫チェックポイント阻害剤療法及び他の免疫療法のための新生抗原負荷
患者選択モジュール３２４は、上記のセクションＸで定義した有用性スコアを用いて、免疫チェックポイント阻害剤療法（例えば、ＰＤ−１、ＣＴＬＡ４）または新生抗原負荷が有効性と関連し得る他の任意の免疫療法を行う患者を選択することもできる。他の免疫療法としては、免疫賦活剤、免疫刺激分子アゴニスト（例えば、ＣＤ４０）、腫瘍溶解性ウイルス（例えば、Ｔ−ＶＥＣ）、新生抗原もしくは他のがん抗原含有治療ワクチン、新生抗原もしくは他のがん抗原標的化養子細胞療法、腫瘍微小環境調節物質（例えば、ＴＧＦβ）、またはこれらと免疫チェックポイント阻害剤の任意の組み合わせが挙げられる。

例えば、いくつかの実施形態では、免疫賦活剤は、免疫細胞の阻害性受容体、またはそのリガンドのシグナル伝達をブロックする薬剤である。いくつかの実施形態では、阻害性受容体またはリガンドは、ＣＴＬＡ−４、ＰＤ−１、ＰＤ−Ｌ１、ＬＡＧ−３、Ｔｉｍ３、ＴＩＧＩＴ、ニューリチン、ＢＴＬＡ、ＫＩＲ、及びこれらの組み合わせから選択される。いくつかの態様では、薬剤は、抗ＰＤ−１抗体（例えば、ペムブロリズマブまたはニボルマブ）、抗ＰＤ−Ｌ１抗体（例えば、アテゾリズマブ）、抗ＣＴＬＡ−４抗体（例えば、イピリムマブ）、及びこれらの組み合わせから選択される。いくつかの態様では、薬剤は、ペムブロリズマブである。いくつかの態様では、薬剤は、ニボルマブである。いくつかの態様では、薬剤は、アテゾリズマブである。

いくつかの実施形態では、治療剤は、ＰＤ−１とＰＤ−Ｌ１との相互作用を阻害する薬剤である。いくつかの態様では、ＰＤ−１とＰＤ−Ｌ１との相互作用を阻害するさらなる薬剤は、抗体、ペプチド模倣体、及び小分子から選択される。いくつかの態様では、ＰＤ−１とＰＤ−Ｌ１との相互作用を阻害するさらなる薬剤は、ペムブロリズマブ、ニボルマブ、アテゾリズマブ、アベルマブ、デュルバルマブ、ＢＭＳ−９３６５５９、スルファモノメトキシン１、及びスルファメチゾール２から選択される。いくつかの実施形態では、ＰＤ−１とＰＤ−Ｌ１との相互作用を阻害するさらなる薬剤は、例えば、その全容を参照により援用するＷｅｉｎｍａｎｎｅｔａｌ．，ＣｈｅｍＭｅｄＣｈｅｍ，２０１６，１４：１５７６（ＤＯＩ：１０．１００２／ｃｍｄｃ．２０１５００５６６）に記載されるような、そのような活性を有する当該技術分野では周知の任意の治療剤である。

いくつかの実施形態では、免疫賦活剤は、免疫細胞の共刺激性受容体のアゴニストである。いくつかの態様では、共刺激性受容体は、ＯＸ４０、ＩＣＯＳ、ＣＤ２７、ＣＤ２８、４−１ＢＢ、及びＣＤ４０から選択される。いくつかの実施形態では、アゴニストは、抗体である。

いくつかの実施形態では、免疫賦活剤は、サイトカインである。いくつかの態様では、サイトカインは、ＩＬ−２、ＩＬ−５、ＩＬ−７、ＩＬ−１２、ＩＬ−１５、ＩＬ−２１、及びこれらの組み合わせから選択される。

いくつかの実施形態では、免疫賦活剤は、腫瘍溶解性ウイルスである。いくつかの態様では、腫瘍溶解性ウイルスは、単純ヘルペスウイルス、水疱性口炎ウイルス、アデノウイルス、ニューカッスル病ウイルス、ワクシニアウイルス、及びマラバウイルスから選択される。

いくつかの実施形態では、免疫賦活剤は、キメラ抗原受容体を有するＴ細胞（ＣＡＲ−Ｔ細胞）である。いくつかの実施形態では、免疫賦活剤は、二重特異性または多重特異性Ｔ細胞指向性抗体である。いくつかの実施形態では、免疫賦活剤は、抗ＴＧＦ−β抗体である。いくつかの実施形態では、免疫刺激剤は、ＴＧＦ−βトラップである。

いくつかの実施形態では、治療剤は、腫瘍抗原に対するワクチンである。本明細書で提供される方法によって治療される腫瘍中にその抗原が存在するならば、任意の適当な抗原にワクチンを標的化することができる。いくつかの態様では、腫瘍抗原は、正常組織中におけるその発現レベルと比較して過剰発現される腫瘍抗原である。いくつかの態様では、腫瘍抗原は、がん・精巣抗原（ｃａｎｃｅｒｔｅｓｔｉｓａｎｔｉｇｅｎ）、分化抗原、ＮＹ−ＥＳＯ−１、ＭＡＧＥ−Ａ１、ＭＡＲＴ、及びこれらの組み合わから選択される。いくつかの実施形態では、治療剤は、１つ以上の新生抗原に対するワクチンである。ワクチン中の新生抗原は、本明細書で提供される方法により特定することができる。

詳細には、患者選択モジュール３２４は、各患者についての提示新生抗原の総期待数を示す新生抗原負荷を決定する。組み入れ基準を満たす新生抗原負荷を有する患者に、チェックポイント阻害剤療法を投与することができる。例えば、所定の閾値を上回る新生抗原負荷を有する患者にかかる療法を投与することができる。一実施形態では、新生抗原負荷は、セクションＸＩに示される有用性スコアであり、その場合、ｖは、その患者に対する候補抗原のサブセットではなく、患者について特定された変異または候補新生抗原の総数である。

ある特定の腫瘍中の新生抗原負荷が中央値に対して高い場合、その腫瘍を有する対象は、抗ＣＴＬＡ４、抗ＰＤ１、及び／または抗ＰＤＬ１などのチェックポイント阻害剤による治療が奏功する可能性が高いことを示し得る。例えば、新生抗原は一般的に、腫瘍細胞表面上に提示され、チェックポイント阻害剤療法後の腫瘍に対してより高い活性を有するＴ細胞によって認識される可能性がより高いことから、新生抗原負荷は、変異負荷と比較してチェックポイント阻害剤による効果のより優れた指標となり得る。

別の実施形態では、患者選択モジュール３２４は、以下の特性、すなわち、予測されたＨＬＡクラスＩ新生抗原負荷、予測されたＨＬＡクラスＩＩ新生抗原負荷、及び腫瘍変異負荷のうちの１つ以上のものの組み合わせから生成された有用性スコアを用いることができる。ある患者について予測されたＨＬＡクラスＩの新生抗原負荷は、その患者のクラスＩＨＬＡアレルのセットに対する新生抗原負荷であり、その患者のクラスＩＨＬＡアレル上に提示される新生抗原の総期待数を示す。ある患者について予測されたＨＬＡクラスＩＩの新生抗原負荷は、その患者のクラスＩＩＨＬＡアレルのセットに対する新生抗原負荷であり、その患者のクラスＩＩＨＬＡアレル上に提示される新生抗原の総期待数を示す。例えば、有用性スコアは、ｆ（クラスＩ新生抗原負荷、クラスＩＩ新生抗原負荷、腫瘍変異負荷；ｂ）として計算することができる（ただし、ｆ（・）は機械学習されるパラメータのセットｂによってパラメータ化された関数である）。機械学習されるパラメータのセットｂは、腫瘍タイプに依存し得る（例えば、ｂは、メラノーマと非小細胞肺癌とで異なり得る）。

別の実施形態では、患者選択モジュール３２４は、新生抗原以外の免疫原性腫瘍抗原に関する情報を組み入れた有用性スコアを用いることができる。新生抗原以外の免疫原性腫瘍抗原の例としては、がん・生殖細胞系抗原（ｃａｎｃｅｒ−ｇｅｒｍｌｉｎｅａｎｔｉｇｅｎ）（ＣＧＡ、例えば、ＭＡＧＥＡ３）、分化抗原（例えば、チロシナーゼ）、及び腫瘍中で過剰発現される抗原（例えば、ＣＥＡ）が挙げられる。これらの抗原の発現レベルは、少なくとも腫瘍ＲＮＡシークエンシングデータを用いて決定することができ、患者の腫瘍のＨＬＡアレルによって提示されるこれらの遺伝子からのＨＬＡクラスＩまたはクラスＩＩエピトープの期待数は、各遺伝子についてのＲＮＡシークエンシングデータを用い、腫瘍抗原のセットからの各ペプチドに提示モデルを適用することによって決定することができる。これらの提示尤度は、ｆ（クラスＩ新生抗原負荷、クラスＩＩ新生抗原負荷、腫瘍変異負荷、クラスＩ非新生抗原腫瘍抗原負荷、クラスＩＩ非新生抗原腫瘍抗原負荷；ｂ）として計算される有用性スコアに組み入れることができる（ただし、ｆ（・）は機械学習されるパラメータのセットｂによってパラメータ化された関数である）。機械学習されるパラメータのセットｂは、腫瘍タイプに依存し得る（例えば、ｂは、メラノーマと非小細胞肺癌とで異なり得る）。

有用性スコアがより高い場合、これは、患者の免疫系によって異物または非自己として認識されるより多くのＨＬＡエピトープを提示する腫瘍を示す。より多くの非自己ＨＬＡエピトープを提示する腫瘍を有する患者は、こうした腫瘍は免疫治療後の腫瘍に対してより高い活性を有するＴ細胞によって認識されやすいことから、チェックポイント阻害剤または他の免疫療法が奏功する可能性がより高くなり得る。

上記のセクションＸで述べた有用性スコアは、ｆ（クラスＩ新生抗原負荷、クラスＩＩ新生抗原負荷、腫瘍変異負荷、クラスＩ非新生抗原腫瘍抗原負荷、クラスＩＩ非新生抗原腫瘍抗原負荷）を用いることにより、養子細胞療法（例えば、増殖させたＴＩＬ、ＣＡＲ−Ｔ、または操作したＴＣＲ）による治療を行うための患者を選択するように適合することもできる（ただし、クラスＩ及びクラスＩＩの新生抗原及び非新生抗原は、養子免疫療法中に存在する、または存在すると予測されるものとしてのみ考慮される）。例えば、単一の新生抗原エピトープに対するＴＣＲ療法を操作する場合では、ｆをその単一のエピトープの提示尤度にまで縮小することができる。

ＸＩＩ．実施例８：例示的な患者選択性能を示す実験結果
セクションＸで述べた患者選択の妥当性を、質量分析データにおいてシミュレートした新生抗原のサブセットが提示されていることが分かっている、シミュレートした新生抗原候補の試験セットがそれぞれに関連付けられたシミュレートした患者のセットで患者の選択を行うことにより検証する。詳細には、試験セット内のそれぞれのシミュレートした新生抗原候補に、その新生抗原がバッサーニ−スターンバーグデータセット（データセット「Ｄ１」）（データは、www.ebi.ac.uk/pride/archive/projects/PXD0000394にみることができる）からの複数アレルＪＹ細胞株ＨＬＡ−Ａ＊０２：０１及びＨＬＡ−Ｂ＊０７：０２の質量分析データセットにおいて提示されているかどうかを示すラベルを関連付ける。図１３Ａとともに下記に詳細に述べるように、シミュレートした患者について多数の新生抗原候補を、非小細胞肺癌（ＮＳＣＬＣ）患者における変異負荷の既知の度数分布に基づいてヒトプロテオームからサンプリングする。

同じＨＬＡアレルについてのアレル毎提示モデルを、ＩＥＤＢデータセット（データセット「Ｄ２」）（データは、http://www.iedb.org/doc/mhc_ligand_full.zipにみることができる）からの単一アレルＨＬＡ−Ａ＊０２：０１及びＨＬＡ−Ｂ＊０７：０２の質量分析データのサブセットである訓練セットを用いて訓練する。詳細には、各アレルの提示モデルを、Ｎ末端側及びＣ末端側のフランキング配列をアレル非相互作用変数として、ネットワーク依存性関数ｇ_ｈ（・）及びｇ_ｗ（・）ならびにｅｘｐｉｔ関数ｆ（・）とともに組み入れた式（８）に示されるアレル毎モデルとした。アレルＨＬＡ−Ａ＊０２：０１の提示モデルは、アレル相互作用変数としてペプチド配列が、アレル非相互作用変数としてＮ末端側及びＣ末端側のフランキング配列が与えられるものとして、特定のペプチドがアレルＨＬＡ−Ａ＊０２：０１上に提示される提示尤度を生成する。アレルＨＬＡ−Ｂ＊０７：０２の提示モデルは、アレル相互作用変数としてペプチド配列が、アレル非相互作用変数としてＮ末端側及びＣ末端側のフランキング配列が与えられるものとして、特定のペプチドがアレルＨＬＡ−Ｂ＊０７：０２上に提示される提示尤度を生成する。

以下の例に図１３Ａ〜１３Ｇを参照して開示するように、ペプチド結合の予測について訓練された提示モデル及び従来技術のモデルなどの異なるモデルを、それぞれのシミュレートした患者に対する新生抗原候補の試験セットに適用することによって予測に基づき患者に対する異なる治療サブセットを特定する。ワクチン治療について組み入れ基準を満たす患者を選択し、患者の治療サブセットにエピトープを含む個別化ワクチンに関連付ける。治療サブセットのサイズは、異なるワクチン容量に応じて異なる。提示モデルを訓練するために用いられる訓練セットとシミュレートした新生抗原候補の試験セットとの間の重複は導入されない。

以下の例では、ワクチンに含まれるエピトープ間で少なくとも特定の数の提示新生抗原を有する選択された患者の比率を分析する。この統計は、患者に免疫応答を誘発する潜在的な新生抗原を送達するうえでのシミュレートしたワクチンの有効性を示すものである。詳細には、ある試験セット内のシミュレートした新生抗原は、その新生抗原が質量分析データセットＤ２において提示されている場合に提示される。提示された新生抗原を有する患者の高い比率は、免疫応答を誘導することによって新生抗原ワクチンによる治療の奏功の可能性を示す。

ＸＩＩ．Ａ．実施例８Ａ：ＮＳＣＬＣ癌患者における腫瘍変異負荷の度数分布
図１３Ａは、ＮＳＣＬＣ患者における変異負荷の標本度数分布を示す。ＮＳＣＬＣを含む異なる腫瘍タイプにおける変異負荷及び変異は、例えば、がんゲノムアトラス（ｔｈｅｃａｎｃｅｒｇｅｎｏｍｅａｔｌａｓ）（ＴＣＧＡ）（https://cancergenome.nih.gov）にみることができる。Ｘ軸は各患者の非同義変異の数を表し、Ｙ軸は特定の数の非同義変異を有する標本患者の比率を表す。図１３Ａの標本度数分布は、３〜１７８６個の変異の範囲を示し、患者の３０％は１００個よりも少ない変異を有している。図１３Ａには示されていないが、変異負荷は非喫煙者と比較して喫煙者でより高く、変異負荷が患者における新生抗原負荷の強力な指標となり得ることが研究によって示されている。

上記のセクションＸＩの冒頭で導入したように、シミュレートした患者の数のそれぞれに、新生抗原候補の試験セットが関連付けられる。各患者の試験セットは、各患者について図１３Ａに示される度数分布から変異負荷ｍ_ｉをサンプリングすることによって生成される。各変異について、ヒトプロテオーム由来の２１マーのペプチド配列を、シミュレートする変異配列を表すようにランダムに選択する。新生抗原候補配列の試験セットを、２１マー内の変異にわたった各（８、９、１０、１１）マーのペプチド配列を特定することにより患者ｉについて生成する。各新生抗原候補に、新生抗原候補配列が質量分析Ｄ１データセット内に存在するかどうかを示すラベルを関連付ける。例えば、データセットＤ１内に存在する新生抗原候補配列にはラベル「１」を関連付け、データセットＤ１内に存在しない配列にはラベル「０」を関連付けることができる。以下でより詳細に述べるように、図１３Ｂ〜１３Ｇは、試験セット内の患者の提示新生抗原に基づいた患者選択の実験結果を示している。

ＸＩＩ．Ｂ．実施例８Ｂ：腫瘍変異負荷の組み入れ基準に基づく新生抗原提示を有する選択された患者の比率
図１３Ｂは、患者が最小腫瘍変異負荷を満たすかどうかの組み入れ基準に基づいて選択された患者に対してシミュレートしたワクチンにおける提示される新生抗原の数を示す。対応する試験において少なくとも特定の数の提示新生抗原を有する選択された患者の比率を特定する。

図１３Ｂにおいて、ｘ軸は、「最小数の変異」のラベルで示される、腫瘍変異負荷に基づいたワクチン治療から除外される患者の比率を示す。例えば、「最小数の変異」２００におけるデータポイントは、患者選択モジュール３２４が、少なくとも変異が２００個の腫瘍変異負荷を有するシミュレートした患者のサブセットのみを選択したことを示す。別の例として、「最小数の変異」３００におけるデータポイントは、患者選択モジュール３２４が、少なくとも３００個の変異を有するより低い比率のシミュレートした患者を選択したことを示す。ｙ軸は、ワクチン容量ｖを有さない試験セット内の少なくとも特定の数の提示された新生抗原が関連付けられた選択された患者の比率を示す。詳細には、上のプロットは、少なくとも１種類の新生抗原を提示する選択された患者の比率を示し、中間のプロットは、少なくとも２種類の抗原を提示する選択された患者の比率を示し、下のプロットは、少なくとも３個の抗原を提示する選択された患者の比率を示す。

図１３Ｂに示されるように、提示された新生抗原を有する選択された患者の比率は、腫瘍変異負荷が高くなるほど顕著に増大している。これは、組み入れ基準としての腫瘍変異負荷が、新生抗原ワクチンが効果的な免疫反応を誘導する可能性の高い患者を選択するうえで効果的であり得ることを示している。

ＸＩＩ．Ｃ．実施例８Ｃ：提示モデルと従来技術のモデルとによって特定されたワクチンおける新生抗原提示の比較
図１３Ｃは、提示モデルに基づいて特定された治療サブセットを含むワクチンに関連付けられた選択された患者と、従来技術のモデルによって特定された治療サブセットを含むワクチンに関連付けられた選択された患者との間のシミュレートしたワクチンにおける提示される新生抗原の数を比較したものである。左側のプロットは、限定的なワクチン容量としてｖ＝１０を仮定しており、右側のプロットは限定的なワクチン容量としてｖ＝２０を仮定している。患者は、提示された新生抗原の期待数を示す有用性スコアに基づいて選択される。

図１３Ｃにおいて、実線は、アレルＨＬＡ−Ａ＊０２：０１及びＨＬＡ−Ｂ＊０７：０２に対する提示モデルに基づいて特定された治療サブセットを含むワクチンに関連付けられた患者を示す。各患者に対する治療サブセットを、試験セット内の配列に提示モデルのそれぞれを適用し、最も高い提示尤度を有するｖ種類の新生抗原候補を特定することによって特定する。点線は、単一アレルＨＬＡ−Ａ＊０２：０１に対する従来技術のモデルＮＥＴＭＨＣｐａｎに基づいて特定された治療サブセットを含むワクチンに関連付けられた患者を示す。ＮＥＴＭＨＣｐａｎについての実施の詳細は、http://www.cbs.dtu.dk/services/NetMHCpanに示されている。各患者に対する治療サブセットは、試験セット内の配列にＮＥＴＭＨＣｐａｎモデルを適用し、最も高い推定される結合親和性を有するｖ種類の新生抗原候補を特定することによって特定される。両グラフのｘ軸は、提示モデルに基づいて特定された治療サブセットにおける提示新生抗原の期待数を示す期待有用性スコアに基づいてワクチン治療から除外された患者の比率を示す。期待有用性スコアは、セクションＸにおいて式（２５）に関連して述べたようにして決定される。ｙ軸は、ワクチンに含まれる少なくとも特定の数の新生抗原（１、２、または３種類の新生抗原）を提示する選択された患者の比率を示す。

図１３Ｃに示されるように、提示モデルに基づいた治療サブセットを含むワクチンに関連付けられた患者には、従来技術のモデルに基づいた治療サブセットを含むワクチンに関連付けられた患者よりも有意に高い割合で提示新生抗原を含むワクチンが投与される。例えば、右側のグラフに示されるように、従来技術のモデルに基づいたワクチンに関連付けられた選択された患者のわずか４０％と比較して、提示モデルに基づいたワクチンに関連付けられた選択された患者の８０％に、ワクチン中で少なくとも１つの提示新生抗原が投与される。これらの結果は、本明細書に述べられる提示モデルは、腫瘍を治療するための免疫反応を誘発する可能性の高いワクチンの新生抗原候補を選択するうえで効果的であることを示している。

ＸＩＩ．Ｄ．実施例８Ｄ：提示モデルにより特定されたワクチンの新生抗原提示に対するＨＬＡカバレージの影響
図１３Ｄは、ＨＬＡ−Ａ＊０２：０１についての単一アレル毎提示モデルに基づいて特定された治療サブセットを含むワクチンに関連付けられた選択された患者と、ＨＬＡ−Ａ＊０２：０１及びＨＬＡ−Ｂ＊０７：０２についてのアレル毎提示モデルの両方に基づいて特定された治療サブセットを含むワクチンに関連付けられた選択された患者との間のシミュレートしたワクチンにおける提示される新生抗原の数を比較したものである。ワクチン容量は、ｖ＝２０種類のエピトープに設定する。各実験について、異なる治療サブセットに基づいて決定された期待有用性スコアに基づいて患者を選択する。

図１３Ｄにおいて、実線は、ＨＬＡアレルＨＬＡ−Ａ＊０２：０１及びＨＬＡ−Ｂ＊０７：０２に対する提示モデルの両方に基づいた治療サブセットを含むワクチンに関連付けられた患者を示す。各患者に対する治療サブセットは、試験セット内の配列に提示モデルのそれぞれを適用し、最も高い提示尤度を有するｖ種類の新生抗原候補を特定することによって特定される。点線は、ＨＬＡアレルＨＬＡ−Ａ＊０２：０１に対する単一提示モデルに基づいた治療サブセットを含むワクチンに関連付けられた患者を示す。各患者に対する治療サブセットは、試験セット内の配列に単一ＨＬＡアレルのみについての提示モデルを適用し、最も高い提示尤度を有するｖ種類の新生抗原候補を特定することによって特定される。実線のプロットでは、ｘ軸は、両方の提示モデルにより特定された治療サブセットに対する期待有用性スコアに基づいてワクチン治療から除外された患者の比率を示す。点線のプロットでは、ｘ軸は、単一の提示モデルにより特定された治療サブセットに対する期待有用性スコアに基づいてワクチン治療から除外された患者の比率を示す。ｙ軸は、少なくとも特定の数の新生抗原（１、２、または３種類の新生抗原）を提示する選択された患者の比率を示す。

図１３Ｄに示されるように、両方のＨＬＡアレルに対する提示モデルより特定された治療サブセットを含むワクチンに関連付けられた患者は、単一の提示モデルにより特定された治療サブセットを含むワクチンに関連付けられた患者よりも有意に高い割合で新生抗原を提示する。これらの結果は、高いＨＬＡカバレージを有する提示モデルを確立することの重要性を示すものである。

ＸＩＩ．Ｅ．実施例８Ｅ：腫瘍変異負荷と提示新生抗原の期待数とによって選択された患者における新生抗原提示の比較
図１３Ｅは、腫瘍変異負荷に基づいて選択された患者と、期待有用性スコアにより選択された患者との間でシミュレートしたワクチンにおける提示される新生抗原の数を比較したものである。期待有用性スコアは、ｖ＝２０種類のエピトープのサイズを有する提示モデルにより特定された治療サブセットに基づいて決定する。

図１３Ｅにおいて、実線は、提示モデルにより特定された治療サブセットを含むワクチンに関連付けられた期待有用性スコアに基づいて選択された患者を示す。各患者に対する治療サブセットは、試験セット内の配列に提示モデルのそれぞれを適用し、最も高い提示尤度を有するｖ＝２０種類の新生抗原候補を特定することによって特定される。治療有用性スコアは、セクションＸで式（２５）に基づいて特定された治療サブセットの提示尤度に基づいて決定される。点線は、提示モデルにより特定された治療サブセットを含むワクチンに関連付けられた腫瘍変異負荷に基づいて選択された患者を示す。ｘ軸は、実線のプロットの期待有用性スコアに基づいてワクチン治療から除外された患者の比率、及び点線のプロットの腫瘍変異負荷に基づいて除外された患者の比率を示す。ｙ軸は、少なくとも特定の数の提示新生抗原（１、２、または３種類の新生抗原）を含むワクチンが投与される選択された患者の比率を示す。

図１３Ｅに示されるように、期待有用性スコアに基づいて選択された患者には、腫瘍変異負荷に基づいて選択された患者よりも高い割合で提示新生抗原を含むワクチンが投与される。しかしながら、腫瘍変異負荷に基づいて選択された患者には、選択されない患者よりも高い割合で提示新生抗原を含むワクチンが投与される。したがって、腫瘍変異負荷は効果的な新生抗原ワクチン治療における効果的な患者選択基準であるが、期待有用性スコアはより効果的である。

ＸＩＩＩ．例示的なコンピュータ
図１４は、図１及び図３に示した実体を実施するための例示的なコンピュータ１４００を説明する。コンピュータ１４００は、チップセット１４０４に連結された少なくとも１つのプロセッサ１４０２を含む。チップセット１４０４は、メモリコントローラハブ１４２０及び入力／出力（Ｉ／Ｏ）コントローラハブ１４２２を含む。メモリ１４０６及びグラフィックスアダプタ１４１２は、メモリコントローラハブ１４２０に連結されており、ディスプレイ１４１８は、グラフィックスアダプタ１４１２に連結されている。記憶デバイス１４０８、入力装置１４１４、及びネットワークアダプタ１４１６は、Ｉ／Ｏコントローラハブ１４２２に連結されている。コンピュータ１４００の他の実施形態は、異なるアーキテクチャを有する。

記憶デバイス１４０８は、ハードドライブ、コンパクトディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、ＤＶＤ、またはソリッドステートメモリ装置などの、非一時的なコンピュータ可読の記憶媒体である。メモリ１４０６は、プロセッサ１４０２によって使用される命令及びデータを保持する。入力インターフェイス１４１４は、タッチスクリーンインターフェイス、マウス、トラックボール、もしくは他のタイプのポインティングデバイス、キーボード、またはそれらのいくつかの組み合わせであり、データをコンピュータ１４００中に入力するために使用される。いくつかの実施形態において、コンピュータ１４００は、ユーザーからのジェスチャーを介して、入力インターフェイス１４１４からの入力（例えば、コマンド）を受け取るように構成されていてもよい。グラフィックスアダプタ１４１２は、ディスプレイ１４１８上に画像及び他の情報を表示する。ネットワークアダプタ１４１６は、コンピュータ１４００を、１つ以上のコンピュータネットワークに連結する。

コンピュータ１４００は、本明細書に記載した機能性を提供するためのコンピュータプログラムモジュールを遂行するように適合している。本明細書において使用される場合、「モジュール」という用語は、特定の機能性を提供するために使用されるコンピュータプログラム論理を指す。したがって、モジュールは、ハードウェア、ファームウェア、及び／またはソフトウェアにおいて実行されることができる。一実施形態では、プログラムモジュールは、記憶デバイス１４０８に保存され、メモリ１４０６中にロードされ、プロセッサ１４０２によって遂行される。

図１の実体によって使用されるコンピュータ１４００のタイプは、実体によって必要とされる実施形態及びプロセシングパワーに応じて変動することができる。例えば、提示特定システム１６０は、単一のコンピュータ１４００、または、例えばサーバーファームにおいてネットワークを通して互いに通信する複数のコンピュータ１４００において、起動することができる。コンピュータ１４００は、グラフィックスアダプタ１４１２及びディスプレイ１４１８などの、上記の構成要素のうちのいくつかを欠いてもよい。

参考文献

本明細書では、治療に適した患者のサブセットを特定するための方法も開示する。各患者の腫瘍細胞及び正常細胞から、エクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも１つが取得される。腫瘍ヌクレオチドシークエンシングデータを用いて、腫瘍細胞からのヌクレオチドシークエンシングデータと正常細胞からのヌクレオチドシークエンシングデータとを比較することによって特定された新生抗原のセットのそれぞれのペプチド配列が得られる。患者の各新生抗原のペプチド配列は、それを患者の正常細胞から特定された対応する野生型の親ペプチド配列とは異なるものとする少なくとも１つの変化を含む。新生抗原のセットのそれぞれのペプチド配列を、機械学習させた提示モデルに入力することにより、各患者について新生抗原のセットの数値的提示尤度のセットが生成される。各提示尤度は、対応する新生抗原が患者の腫瘍細胞の表面上の１つ以上のＭＨＣアレルによって提示される尤度を表す。提示尤度のセットは少なくとも質量分析データに基づいて特定されたものである。患者の新生抗原のセットから１つ以上の新生抗原が特定される。患者についての１つ以上の新生抗原の対応する提示尤度によって決定される、患者の腫瘍細胞の表面上に提示される新生抗原の推定数を示す有用性スコアが、それぞれの患者について決定される。患者のサブセットが治療を行うために選択される。この患者のサブセット内の各患者は、所定の組み入れ基準を満たす有用性スコアと関連する。選択されたサブセットの患者に新生抗原ワクチンまたはチェックポイント阻害剤療法などの治療を行うことができる。
[本発明1001]
治療に適した患者のサブセットを特定する方法であって、
患者の腫瘍細胞及び正常細胞からエクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも1つをそれぞれの患者について取得することであって、前記腫瘍ヌクレオチドシークエンシングデータが、前記腫瘍細胞からの前記ヌクレオチドシークエンシングデータと前記正常細胞からの前記ヌクレオチドシークエンシングデータとを比較することにより特定された新生抗原のセットのそれぞれのペプチド配列を取得するために用いられ、前記患者についての各新生抗原のペプチド配列が、それを前記患者の正常細胞から特定された対応する野生型の親ペプチド配列とは異なるものとする少なくとも1つの変化を含む、前記取得することと、
新生抗原のセットのそれぞれのペプチド配列を、機械学習させた提示モデルに入力することにより、前記患者についての新生抗原の前記セットについての数値的提示尤度のセットをそれぞれの患者について生成することであって、各提示尤度が、対応する新生抗原が前記患者の腫瘍細胞の表面上の1つ以上のＭＨＣアレルによって提示される尤度を表し、提示尤度の前記セットが、少なくとも質量分析データに基づいて特定されたものである、前記生成することと、
前記患者の新生抗原の前記セットから1つ以上の新生抗原をそれぞれの患者について特定することと、
前記患者についての前記1つ以上の新生抗原についての対応する提示尤度によって決定される、前記患者の腫瘍細胞の表面上に提示される新生抗原の推定数を示す有用性スコアをそれぞれの患者について決定することと、
治療に適した患者のサブセットを選択することであって、前記の患者のサブセット内の各患者が、所定の組み入れ基準を満たす有用性スコアと関連する、前記選択することと
を含む、前記方法。
[本発明1002]
前記1つ以上の新生抗原を前記患者について特定することが、前記患者についての新生抗原の前記セット中の、新生抗原のサブセットを選択することを含む、本発明1001の方法。
[本発明1003]
新生抗原の前記サブセットが、前記患者についての提示尤度の前記セットの中で最も高い提示尤度を有する新生抗原である、本発明1002の方法。
[本発明1004]
前記の患者の選択されたサブセット内の各患者を、前記患者について特定された前記1つ以上の新生抗原のうちの少なくとも1つを含む対応する新生抗原ワクチンを用いて治療することをさらに含む、本発明1001の方法。
[本発明1005]
前記の患者の選択されたサブセット内の各患者について、前記患者について特定された前記1つ以上の新生抗原のうちの少なくとも1つに対して抗原特異的である1つ以上のＴ細胞またはＴ細胞受容体を特定することをさらに含む、本発明1001の方法。
[本発明1006]
前記1つ以上の新生抗原を前記患者について特定することが、前記患者について特定された新生抗原のセット全体を選択することを含む、本発明1001の方法。
[本発明1007]
前記の患者の選択されたサブセット内の各患者にチェックポイント阻害剤治療を施すことをさらに含む、本発明1006の方法。
[本発明1008]
治療に適した患者のサブセットを選択することが、最小閾値よりも高い腫瘍変異負荷（ＴＭＢ）を有する患者のサブセットを選択することを含み、ある患者のＴＭＢが、その患者に関連付けられた新生抗原のセット内の新生抗原の数を示す、本発明1001の方法。
[本発明1009]
治療に適した患者のサブセットを選択することが、
最小閾値よりも高い有用性スコアを有する患者のサブセットを選択すること
を含む、本発明1001の方法。
[本発明1010]
前記有用性スコアが、前記患者の新生抗原の前記特定されたサブセット内の各新生抗原についての提示尤度の総和である、本発明1001の方法。
[本発明1011]
前記有用性スコアが、前記患者について前記特定された1つ以上の新生抗原のうちの提示新生抗原の数が最小の閾値を上回る確率である、本発明1001の方法。
[本発明1012]
前記機械学習させた提示モデルが、
複数の試料のうちの少なくとも1つに存在するものとして特定された少なくとも1つのＭＨＣアレルに結合したペプチドの存在を測定する質量分析によって得られた標識と、
訓練ペプチド配列を構成する複数のアミノ酸及び前記訓練ペプチド配列内におけるアミノ酸の位置のセットに関する情報を含む前記訓練ペプチド配列と、
前記訓練ペプチド配列に関連付けられた少なくとも1つのＭＨＣアレルと
を含む、訓練データセットに少なくとも基づいて特定された複数のパラメータ；ならびに
前記ペプチド配列と前記複数のパラメータに基づいた前記提示尤度との間の関係を表す関数
を含む、本発明1001の方法。
[本発明1013]
前記訓練データセットが、
（ａ）単離されたペプチドの少なくとも1つについてのペプチド−ＭＨＣ結合親和性の測定値に関連するデータ、及び
（ｂ）単離されたペプチドの少なくとも1つについてのペプチド−ＭＨＣ結合安定性の測定値に関連するデータ
のうちの少なくとも1つをさらに含む、本発明1012の方法。
[本発明1014]
数値的尤度の前記セットが、
（ａ）そのソースタンパク質配列内の、前記新生抗原コード化ペプチド配列に隣接するＣ末端配列、及び
（ｂ）そのソースタンパク質配列内の、前記新生抗原コード化ペプチド配列に隣接するＮ末端配列
のうちの少なくとも1つを含む特性によってさらに特定される、本発明1001の方法。
[本発明1015]
提示尤度の前記セットが、ＲＮＡ−ｓｅｑまたは質量分析により測定される、前記対象の前記1つ以上のＭＨＣアレルの少なくとも発現レベルによってさらに特定される、本発明1001の方法。
[本発明1016]
提示尤度の前記セットが、
（ａ）新生抗原の前記セット内の新生抗原と前記1つ以上のＭＨＣアレルとの間の予測される親和性、及び
（ｂ）前記新生抗原コード化ペプチド−ＭＨＣ複合体の予測される安定性
のうちの少なくとも1つを含む特性によってさらに特定される、本発明1001の方法。
[本発明1017]
前記ペプチド配列を前記機械学習させた提示モデルに入力することが、
前記ペプチド配列の特定の位置の特定のアミノ酸に基づいて、ＭＨＣアレルが前記新生抗原を提示するかどうかを示す依存性スコアを、前記1つ以上のＭＨＣアレルのそれぞれについて生成するために、前記機械学習させた提示モデルを各新生抗原の前記ペプチド配列に適用すること
を含む、本発明1001の方法。
[本発明1018]
前記ペプチド配列を前記機械学習させた提示モデルに入力することが、
対応する新生抗原を対応するＭＨＣアレルが提示する尤度を示す、対応するアレル毎尤度を、各ＭＨＣアレルについて生成するために、前記依存性スコアを変換すること；及び
前記新生抗原の提示尤度を生成するために、前記アレル毎尤度を組み合わせること
を含む、本発明1017の方法。
[本発明1019]
前記依存性スコアを変換することが、前記新生抗原の提示を、前記1つ以上のクラスＭＨＣアレルにわたって相互排他的なものとしてモデル化する、本発明1018の方法。
[本発明1020]
前記ペプチド配列を前記機械学習させた提示モデルに入力することが、
提示尤度を生成するために、前記依存性スコアの組み合わせを変換すること
を含み、前記依存性スコアの組み合わせを変換することが、前記新生抗原の提示を、前記1つ以上のＭＨＣアレル間で干渉するものとしてモデル化する、本発明1017の方法。

新生抗原の特定に対する現在の臨床的アプローチを示す。予測された結合ペプチドのうち、腫瘍細胞上に提示されるものは５％未満であることを示す。新生抗原予測の特異性の問題の影響を示す。結合予測が、新生抗原の特定に充分ではないことを示す。ペプチド長の関数としてのＭＨＣ−Ｉ提示の確率を示す。Ｐｒｏｍｅｇａ社のダイナミックレンジ標準から生成された、例示的なペプチドスペクトルを示す。特性の追加が、いかにモデルの陽性適中率を増大させるかを示す。一実施形態による、患者におけるペプチド提示の尤度を特定するための環境の概略である。一実施形態による、提示情報を取得する方法を説明する。図２ＢはＳＥＱＩＤＮＯ：２０を開示する。一実施形態による、提示情報を取得する方法を説明する。図２Ｃは、出現順にそれぞれＳＥＱＩＤＮＯ：３〜８を開示する。一実施形態による、提示特定システムのコンピュータ論理構成要素を説明する、ハイレベルブロック図である。一実施形態による、訓練データの例示的なセットを説明する。図４は、出現順にそれぞれＳＥＱＩＤＮＯ：１０〜１３として「ペプチド配列」、ＳＥＱＩＤＮＯ：１５、２１〜２２、及び２２として「Ｃ末端フランキング配列を開示する。ＭＨＣアレルに関連した例示的なネットワークモデルを説明する。一実施形態による、ＭＨＣアレルによって共有される例示的なネットワークモデルＮＮ_Ｈ（・）別の実施形態による、ＭＨＣアレルによって共有される例示的なネットワークモデルＮＮ_Ｈ（・）例示的なネットワークモデルを用いた、ＭＨＣアレルに関連したペプチドの提示尤度の生成を説明する。例示的なネットワークモデルを用いた、ＭＨＣアレルに関連したペプチドの提示尤度の生成を説明する。例示的なネットワークモデルを用いた、ＭＨＣアレルに関連したペプチドの提示尤度の生成を説明する。例示的なネットワークモデルを用いた、ＭＨＣアレルに関連したペプチドの提示尤度の生成を説明する。例示的なネットワークモデルを用いた、ＭＨＣアレルに関連したペプチドの提示尤度の生成を説明する。例示的なネットワークモデルを用いた、ＭＨＣアレルに関連したペプチドの提示尤度の生成を説明する。ＮＳＣＬＣ患者における腫瘍変異負荷の標本度数分布を示す。一実施形態による、患者が最小腫瘍変異負荷を満たすかどうかの組み入れ基準に基づいて選択された患者に対してシミュレートしたワクチンにおける提示される新生抗原の数を示す。一実施形態による、提示モデルに基づいて特定された治療サブセットを含むワクチンに関連付けられた選択された患者と、従来技術のモデルによって特定された治療サブセットを含むワクチンに関連付けられた選択された患者との間のシミュレートしたワクチンにおける提示される新生抗原の数を比較したものである。ＨＬＡ−Ａ＊０２：０１についての単一アレル毎提示モデルに基づいて特定された治療サブセットを含むワクチンに関連付けられた選択された患者と、ＨＬＡ−Ａ＊０２：０１及びＨＬＡ−Ｂ＊０７：０２についてのアレル毎提示モデルの両方に基づいて特定された治療サブセットを含むワクチンに関連付けられた選択された患者との間のシミュレートしたワクチンにおける提示される新生抗原の数を比較したものである。一実施形態によれば、ワクチン容量は、ｖ＝２０種類のエピトープに設定される。一実施形態による、腫瘍変異負荷に基づいて選択された患者と、期待有用性スコアにより選択された患者との間でシミュレートしたワクチンにおける提示される新生抗原の数を比較したものである。図１及び３に示した実体を実施するための例示的なコンピュータを説明する。

ＶＩ．Ｂ．１．総合的ＨＬＡペプチドシークエンシングのためのＭＳ検出限界の研究
ペプチドＹＶＹＶＡＤＶＡＡＫ（ＳＥＱＩＤＮＯ：１）を用いて、何が検出の限界かを、ＬＣカラム上にロードした様々な量のペプチドを用いて決定した。試験したペプチドの量は、１ｐｍｏｌ、１００ｆｍｏｌ、１０ｆｍｏｌ、１ｆｍｏｌ、及び１００ａｍｏｌであった。（表１）結果を図１Ｆに示す。これらの結果は、検出の最低限界（ＬｏＤ）がアトモルの範囲（１０^−１８）にあること、ダイナミックレンジが５桁に及ぶこと、及び、シグナル対ノイズが、低いフェムトモル範囲（１０^−１５）でシークエンシングに十分であるように見えることを示す。

提示特定システム１６０は、１つ以上の提示モデルを通して提示尤度を決定する。具体的には、提示モデルは、所定のペプチド配列が、関連するＭＨＣアレルのセットについて提示されるかどうかの尤度を生成し、尤度は、記憶装置１６５に保存された提示情報に基づいて生成される。例えば、提示モデルは、ペプチド配列「ＹＶＹＶＡＤＶＡＡＫ（ＳＥＱＩＤＮＯ：１）」が、試料の細胞表面上のアレルのセットＨＬＡ−Ａ＊０２：０１、ＨＬＡ−Ａ＊０３：０１、ＨＬＡ−Ｂ＊０７：０２、ＨＬＡ−Ｂ＊０８：０３、ＨＬＡ−Ｃ＊０１：０４について提示されるかどうかの尤度を生成し得る。提示情報１６５は、ＭＨＣアレルによってペプチドが提示されるようにこれらのペプチドが様々なタイプのＭＨＣアレルに結合するかどうかについての情報を含有し、これは、モデルにおいて、ペプチド配列中のアミノ酸の位置に応じて決定される。提示モデルは、提示情報１６５に基づいて、認識されていないペプチド配列が、ＭＨＣアレルの関連するセットと結合して提示されるかどうかを予測することができる。上記に述べたように、提示モデルはクラスＩ及びクラスＩＩＭＨＣアレルの両方に適用することができる。

アレル相互作用情報はまた、所定のＭＨＣアレルと所定のペプチドとの間の結合親和性の測定値または予測値も含むことができる。１つ以上の親和性モデルが、そのような予測値を生成することができる（７２，７３，７４）。例えば、図１Ｄに示した例に戻ると、提示情報１６５は、ペプチドＹＥＭＦＮＤＫＳＦ（ＳＥＱＩＤＮＯ：３）とクラスＩアレルＨＬＡ−Ａ^＊０１：０１との間の１０００ｎＭの結合親和性予測値を含み得る。ＩＣ５０＞１０００ｎｍであるペプチドはわずかしか、ＭＨＣによって提示されず、より低いＩＣ５０値が、提示の確率を増大させる。提示情報１６５は、ペプチド

ＶＩＩ．Ｂ．２．アレル非相互作用情報
アレル非相互作用情報は、そのソースタンパク質配列内の、新生抗原コード化ペプチドに隣接するＣ末端配列を含むことができる。ＭＨＣ−Ｉでは、Ｃ末端フランキング配列は、ペプチドのプロテアソームプロセシングに影響を及ぼし得る。しかし、Ｃ末端フランキング配列は、ペプチドが小胞体に輸送され、細胞の表面上のＭＨＣアレルと遭遇する前に、プロテアソームによってペプチドから切断される。その結果、ＭＨＣ分子は、Ｃ末端フランキング配列についてのいかなる情報も受け取らず、したがって、Ｃ末端フランキング配列の効果は、ＭＨＣアレルタイプに応じて変動することができない。例えば、図２Ｃに示した例に戻ると、提示情報１６５は、ペプチドのソースタンパク質から特定された、提示されたペプチドＦＪＩＥＪＦＯＥＳＳ（ＳＥＱＩＤＮＯ：５）のＣ末端フランキング配列

を含み得る。

からのペプチド提示情報を示す。訓練データ１７０Ａ中の４番目のデータ例は、アレルＨＬＡ−Ｂ＊０７：０２、ＨＬＡ−Ｃ＊０１：０３、ＨＬＡ−Ａ＊０１：０１を含む複数アレル細胞株、及びペプチド配列ＱＩＥＪＯＥＩＪＥ（ＳＥＱＩＤＮＯ：１３）からのペプチド情報を示す。最初のデータ例は、ペプチド配列ＱＣＥＩＯＷＡＲＥ（ＳＥＱＩＤＮＯ：１４）が、アレルＨＬＡ−ＤＲＢ３：０１：０１によって提示されなかったことを示す。前の２つの段落において議論したように、ネガティブ標識されたペプチド配列は、データ管理モジュール３１２によってランダムに生成されてもよく、または提示されるペプチドのソースタンパク質から特定されてもよい。訓練データ１７０Ａはまた、ペプチド配列−アレルペアについて、１０００ｎＭの結合親和性予測値及び１時間の半減期の安定性予測値も含む。訓練データ１７０Ａはまた、ペプチドＦＪＥＬＦＩＳＢＯＳＪＦＩＥ（ＳＥＱＩＤＮＯ：１５）のＣ末端フランキング配列、及び１０^２ＴＰＭのｍＲＮＡ定量測定値などの、アレル非相互作用変数も含む。４番目のデータ例は、ペプチド配列ＱＩＥＪＯＥＩＪＥ（ＳＥＱＩＤＮＯ：１３）が、アレルＨＬＡ−Ｂ＊０７：０２、ＨＬＡ−Ｃ＊０１：０３、またはＨＬＡ−Ａ＊０１：０１のうちの１つによって提示されたことを示す。訓練データ１７０Ａはまた、アレルの各々についての結合親和性予測値及び安定性予測値、ならびに、ペプチドのＣ末端フランキング配列及びペプチドについてのｍＲＮＡ定量測定値も含む。

を、９個のアミノ酸を有する３種類のペプチド配列

Claims

治療に適した患者のサブセットを特定する方法であって、
患者の腫瘍細胞及び正常細胞からエクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも１つをそれぞれの患者について取得することであって、前記腫瘍ヌクレオチドシークエンシングデータが、前記腫瘍細胞からの前記ヌクレオチドシークエンシングデータと前記正常細胞からの前記ヌクレオチドシークエンシングデータとを比較することにより特定された新生抗原のセットのそれぞれのペプチド配列を取得するために用いられ、前記患者についての各新生抗原のペプチド配列が、それを前記患者の正常細胞から特定された対応する野生型の親ペプチド配列とは異なるものとする少なくとも１つの変化を含む、前記取得することと、
新生抗原のセットのそれぞれのペプチド配列を、機械学習させた提示モデルに入力することにより、前記患者についての新生抗原の前記セットについての数値的提示尤度のセットをそれぞれの患者について生成することであって、各提示尤度が、対応する新生抗原が前記患者の腫瘍細胞の表面上の１つ以上のＭＨＣアレルによって提示される尤度を表し、提示尤度の前記セットが、少なくとも質量分析データに基づいて特定されたものである、前記生成することと、
前記患者の新生抗原の前記セットから１つ以上の新生抗原をそれぞれの患者について特定することと、
前記患者についての前記１つ以上の新生抗原についての対応する提示尤度によって決定される、前記患者の腫瘍細胞の表面上に提示される新生抗原の推定数を示す有用性スコアをそれぞれの患者について決定することと、
治療に適した患者のサブセットを選択することであって、前記の患者のサブセット内の各患者が、所定の組み入れ基準を満たす有用性スコアと関連する、前記選択することと
を含む、前記方法。
前記１つ以上の新生抗原を前記患者について特定することが、前記患者についての新生抗原の前記セット中の、新生抗原のサブセットを選択することを含む、請求項１に記載の方法。
新生抗原の前記サブセットが、前記患者についての提示尤度の前記セットの中で最も高い提示尤度を有する新生抗原である、請求項２に記載の方法。
前記の患者の選択されたサブセット内の各患者を、前記患者について特定された前記１つ以上の新生抗原のうちの少なくとも１つを含む対応する新生抗原ワクチンを用いて治療することをさらに含む、請求項１に記載の方法。
前記の患者の選択されたサブセット内の各患者について、前記患者について特定された前記１つ以上の新生抗原のうちの少なくとも１つに対して抗原特異的である１つ以上のＴ細胞またはＴ細胞受容体を特定することをさらに含む、請求項１に記載の方法。
前記１つ以上の新生抗原を前記患者について特定することが、前記患者について特定された新生抗原のセット全体を選択することを含む、請求項１に記載の方法。
前記の患者の選択されたサブセット内の各患者にチェックポイント阻害剤治療を施すことをさらに含む、請求項６に記載の方法。
治療に適した患者のサブセットを選択することが、最小閾値よりも高い腫瘍変異負荷（ＴＭＢ）を有する患者のサブセットを選択することを含み、ある患者のＴＭＢが、その患者に関連付けられた新生抗原のセット内の新生抗原の数を示す、請求項１に記載の方法。
治療に適した患者のサブセットを選択することが、
最小閾値よりも高い有用性スコアを有する患者のサブセットを選択すること
を含む、請求項１に記載の方法。
前記有用性スコアが、前記患者の新生抗原の前記特定されたサブセット内の各新生抗原についての提示尤度の総和である、請求項１に記載の方法。
前記有用性スコアが、前記患者について前記特定された１つ以上の新生抗原のうちの提示新生抗原の数が最小の閾値を上回る確率である、請求項１に記載の方法。
前記機械学習させた提示モデルが、
複数の試料のうちの少なくとも１つに存在するものとして特定された少なくとも１つのＭＨＣアレルに結合したペプチドの存在を測定する質量分析によって得られた標識と、
訓練ペプチド配列を構成する複数のアミノ酸及び前記訓練ペプチド配列内におけるアミノ酸の位置のセットに関する情報を含む前記訓練ペプチド配列と、
前記訓練ペプチド配列に関連付けられた少なくとも１つのＭＨＣアレルと
を含む、訓練データセットに少なくとも基づいて特定された複数のパラメータ；ならびに
前記ペプチド配列と前記複数のパラメータに基づいた前記提示尤度との間の関係を表す関数
を含む、請求項１に記載の方法。
前記訓練データセットが、
（ａ）単離されたペプチドの少なくとも１つについてのペプチド−ＭＨＣ結合親和性の測定値に関連するデータ、及び
（ｂ）単離されたペプチドの少なくとも１つについてのペプチド−ＭＨＣ結合安定性の測定値に関連するデータ
のうちの少なくとも１つをさらに含む、請求項１２に記載の方法。
数値的尤度の前記セットが、
（ａ）そのソースタンパク質配列内の、前記新生抗原コード化ペプチド配列に隣接するＣ末端配列、及び
（ｂ）そのソースタンパク質配列内の、前記新生抗原コード化ペプチド配列に隣接するＮ末端配列
のうちの少なくとも１つを含む特性によってさらに特定される、請求項１に記載の方法。
提示尤度の前記セットが、ＲＮＡ−ｓｅｑまたは質量分析により測定される、前記対象の前記１つ以上のＭＨＣアレルの少なくとも発現レベルによってさらに特定される、請求項１に記載の方法。
提示尤度の前記セットが、
（ａ）新生抗原の前記セット内の新生抗原と前記１つ以上のＭＨＣアレルとの間の予測される親和性、及び
（ｂ）前記新生抗原コード化ペプチド−ＭＨＣ複合体の予測される安定性
のうちの少なくとも１つを含む特性によってさらに特定される、請求項１に記載の方法。
前記ペプチド配列を前記機械学習させた提示モデルに入力することが、
前記ペプチド配列の特定の位置の特定のアミノ酸に基づいて、ＭＨＣアレルが前記新生抗原を提示するかどうかを示す依存性スコアを、前記１つ以上のＭＨＣアレルのそれぞれについて生成するために、前記機械学習させた提示モデルを各新生抗原の前記ペプチド配列に適用すること
を含む、請求項１に記載の方法。
前記ペプチド配列を前記機械学習させた提示モデルに入力することが、
対応する新生抗原を対応するＭＨＣアレルが提示する尤度を示す、対応するアレル毎尤度を、各ＭＨＣアレルについて生成するために、前記依存性スコアを変換すること；及び
前記新生抗原の提示尤度を生成するために、前記アレル毎尤度を組み合わせること
を含む、請求項１７に記載の方法。
前記依存性スコアを変換することが、前記新生抗原の提示を、前記１つ以上のクラスＭＨＣアレルにわたって相互排他的なものとしてモデル化する、請求項１８に記載の方法。
前記ペプチド配列を前記機械学習させた提示モデルに入力することが、
提示尤度を生成するために、前記依存性スコアの組み合わせを変換すること
を含み、前記依存性スコアの組み合わせを変換することが、前記新生抗原の提示を、前記１つ以上のＭＨＣアレル間で干渉するものとしてモデル化する、請求項１７に記載の方法。