本発明者は、かかるネオエピトープの数が閾値より上である場合に、HLA一致患者および癌に特異的なネオエピトープを、1つまたは複数のチェックポイント阻害物質による腫瘍の有望な治療成功のための代理的指標として使用することができることをここで見出した。かかる比較的多数の発現ネオエピトープは、様々な原因(MMRおよび/またはMSIが含まれる)に起因するかまたはそれらに関連し得る。加えて、本発明者は、患者および癌に特異的なネオエピトープが有望な治療成功を表し得ることも見出し、そこで、ネオエピトープは、ユニークかつ腫瘍特異的な抗原を生じさせ得る特定の突然変異パターン(例えばUV誘導性DNA損傷または喫煙誘導性DNA損傷)と関連していた。
ネオエピトープは、ユニークかつ腫瘍特異的な抗原を生成した腫瘍細胞において発現されるランダム変異として特徴づけることができる。したがって、異なる観点から見ると、ネオエピトープは、突然変異のタイプ(例えば欠失、挿入、トランスバージョン、トランジション、転座)および影響(例えばナンセンス、ミスセンス、フレームシフトなど)の考慮によって同定することができ、それは、それゆえサイレントかつ他の関連しない(例えば発現されない)突然変異が取り除かれる第1のコンテンツフィルターとして供することができる。比較的短い長さ(例えば7〜11mer)を備えた配列ストレッチであり、アミノ酸配列中の変化(複数可)を含むかかるストレッチとして、ネオエピトープ配列を定義できることが、さらに認識されるべきである。最も典型的には、変化したアミノ酸は、中央のアミノ酸位置であるかまたはその位置に近いだろう。例えば、典型的なネオエピトープは、A4−N−A4またはA3−N−A5またはA2−N−A7またはA5−N−A3またはA7−N−A2の構造(式中、Aはタンパク質構成性アミノ酸であり、Nは変化したアミノ酸(野生型に比べてまたは一致した正常に比べて)である)を有し得る。例えば、本明細書において企図されるようなネオエピトープ配列は、比較的短い長さ(例えば5〜30mer、より典型的には7〜11merまたは12〜25mer)を備えた配列ストレッチであり、アミノ酸配列中の変化(複数可)を含むかかるストレッチを包含する。
したがって、変化したアミノ酸の位置に依存して、変化したアミノ酸を含む多数のネオエピトープ配列中の単一アミノ酸変化が提示され得ることが認識されるべきである。有利には、かかる配列変動は、ネオエピトープの複数の選択を可能にし、したがって、1つまたは複数の所望される形質(例えば患者HLAタイプへの最も高い親和性、最も高い構造安定性など)に基づいて次いで選択できる有用な可能性のある標的の数を増加させる。最も典型的には、ネオエピトープは、2〜50のアミノ酸の間、より典型的には5〜30のアミノ酸の間、および最も典型的には9〜15のアミノ酸の間の長さを有すると計算され、変化したアミノ酸は、好ましくは中心に所在するか、またはそうでなければMHCへのその結合を改善する様式で位置するだろう。例えば、エピトープがMHC−I複合体によって提示される場合には、典型的なネオエピトープ長は約8〜11のアミノ酸である一方で、MHC−II複合体経由の提示のための典型的なネオエピトープ長は約13〜17のアミノ酸の長さを有するだろう。容易に認識されるように、ネオエピトープ中の変化したアミノ酸の位置は中央以外のものであり得るので、実際のペプチド配列およびそれに伴うそのネオエピトープの実際のトポロジーは大幅に変動し得る。
もちろん、ネオエピトープの同定または探索が多様な生物学的材料(新鮮な生検、凍結またはそうでなければ保存された組織または細胞のサンプル、循環腫瘍細胞、エキソソーム、様々な体液(および特に血液)などが含まれる)で開始し得ることが認識されるべきである。したがって、オミックス分析の好適な方法には、核酸シーケンシング、および特にDNA上で作動するNGS方法(例えばIlluminaシーケンシング、ion torrentシーケンシング、454ピロシーケンシング、ナノポアシーケンシングなど)、RNAシーケンシング(例えばRNAseq、逆転写ベースのシーケンシングなど)、およびタンパク質シーケンシングまたは質量分光法ベースのシーケンシング(例えばSRM、MRM、CRMなど)が含まれる。
それゆえ、および特に核酸ベースのシーケンシングについて、腫瘍組織のハイスループットゲノムシーケンシングがネオエピトープの迅速同定を可能にするであろうことは特に認識されるべきである。しかしながら、そのように得られた配列情報を標準参照と比較する場合に、通常起こる患者間のバリエーション(例えばSNP、短いインデル、異なる数の反復などに起因する)に加えて、ヘテロ接合性は、比較的多数の偽陽性の可能性のあるネオエピトープをもたらすだろうことが認識されなければならない。顕著なことに、患者の腫瘍サンプルを同じ患者の一致した正常(すなわち非腫瘍)サンプルと比較する場合に、かかる不正確性は取り除くことができる。
本発明の対象の1つの特に好ましい態様において、DNA分析は、腫瘍および一致した正常サンプルの両方の全ゲノムシーケンシングおよび/またはエキソームシーケンシング(典型的には少なくとも10×、より典型的には少なくとも20×のカバレッジ深度で)によって遂行される。あるいは、DNAデータは、事前シーケンス決定から既に確立している配列記録(例えばSAM、BAM、FASTA、FASTQまたはVCFファイル)からも提供され得る。したがって、データセットには、非加工データセットまたは加工データセットが含まれる場合があり、例示的なデータセットには、BAMBAMフォーマット、SAMBAMフォーマット、FASTQフォーマットまたはFASTAフォーマットを有するものが含まれる。しかしながら、データセットは、BAMBAMフォーマットにおいて、またはBAMBAM差分オブジェクトとして提供されることが特に好ましい(例えばUS2012/0059670A1およびUS2012/0066001A1を参照)。さらに、データセットが腫瘍および同じ患者の一致した正常サンプルを反映し、したがって患者および腫瘍に特異的な情報が得られることが指摘されるべきである。したがって、腫瘍を生じさせない遺伝的生殖細胞系列変更(例えばサイレント突然変異、SNPなど)は除外され得る。もちろん、腫瘍サンプルは、初発腫瘍から、治療の開始に際して腫瘍から、再発腫瘍または転移部位からなどであり得ることが認識されるべきである。大部分の事例において、患者の一致した正常サンプルは、血液、または腫瘍と同じ組織タイプからの疾患のない組織であり得る。
同様に、配列データのコンピュータ分析は多数の様式で遂行され得る。最も好ましい方法において、しかしながら、例えば、BAMファイルおよびBAMサーバーを使用するUS2012/0059670A1およびUS2012/0066001A1中で開示されるように、分析は、腫瘍および正常サンプルの所在位置にガイドされた同時アライメントによってインシリコで遂行される。かかる分析は、有利なことには、偽陽性のネオエピトープを低減させ、メモリおよびコンピュータリソースについての需要を有意に低減させる。
コンピュータに関する任意の文言は、計算デバイス(サーバー、インターフェース、システム、データベース、エージェント、ピア、エンジン、コントローラー、または個別にまたは集合的に作動する他のタイプの計算デバイスが含まれる)の任意の好適な組み合わせを含むように、読み取られることが、指摘されるべきである。計算デバイスが、有形の非一時的なコンピュータ可読ストレージメディア(例えばハードドライブ、ソリッドステートドライブ、RAM、フラッシュ、ROMなど)上にストアされたソフトウェア命令を実施するように構成されたプロセッサを含むことが、認識されるべきである。ソフトウェア命令は、好ましくは、開示した機器に関して以下に論じられるような役割、責務、または他の機能性を提供する、計算デバイスを構成する。さらに、開示される技術は、プロセッサにコンピュータベースのアルゴリズム、プロセス、方法、または他の命令の実装と関連する開示されるステップを実施させるソフトウェア命令をストアする非一時的なコンピュータ可読メディアを含むコンピュータプログラム製品として具体化され得る。特に好ましい実施形態において、様々なサーバー、システム、データベースまたはインターフェースは、おそらく、HTTP、HTTPS、AES、公開鍵−秘密鍵交換、ウェブサービスAPI、公知の金融取引プロトコル、または他の電子情報交換方法に基づいて、標準化されたプロトコルまたはアルゴリズムを使用して、データを交換する。デバイスの中でデータ交換は、パケットスイッチネットワーク、インターネット、LAN、WAN、VPN、もしくは他のタイプのパケットスイッチネットワーク;回線交換ネットワーク;セル交換ネットワーク;または他のタイプのネットワークにわたって行われ得る。
異なる観点から見ると、配列の患者および癌に特異的なインシリコのコレクションを確立することができ、それは5〜25アミノ酸の間の既定の長さを有し、少なくとも1つの変化したアミノ酸を含む。かかるコレクションは典型的には各々の変化したアミノ酸について少なくとも2、少なくとも3、少なくとも4、少なくとも5、または少なくとも6のメンバーを含み、そこで、変化したアミノ酸の位置は同一でない。次いでかかるコレクションは、より詳細に以下で記載されるように、さらなるフィルタリング(例えば細胞下での所在位置、転写/発現レベル、MHC−Iおよび/またはMHC−IIの親和性などによって)のために使用することができる。
例えば、腫瘍および一致した正常の配列データへの同時の所在位置にガイドされた分析を使用して、本発明者は以前に多様な癌および患者からの様々な癌ネオエピトープを同定し、それらには以下の癌タイプ:BLCA、BRCA、CESC、COAD、DLBC、GBM、HNSC、KICH、KIRC、KIRP、LAML、LGG、LIHC、LUAD、LUSC、OV、PRAD、READ、SARC、SKCM、STAD、THCAおよびUCECが含まれる。すべてのネオエピトープデータは、国際出願PCT/US16/29244(参照によって本明細書に援用される)中で見出すことができる。
癌のタイプおよびステージに依存して、チェックポイント阻害物質が患者へ与えられる場合に、患者において同定されたネオエピトープのすべてが治療的に同等に効果的な反応を必ずしも引き起こすとは限らないであろうことが指摘されるべきである。実際、ネオエピトープのごく一部分のみが免疫応答を生成するであろうことは当技術分野において周知である。治療的に所望される応答の可能性を増加させるために、ネオエピトープはさらにフィルタリングされ得る。もちろん、下流の分析は、本明細書において提示される方法の目的のためにサイレント突然変異を考慮に入れる必要がないことは認識されるべきである。しかしながら、好ましい突然変異の分析は、突然変異のタイプ(例えば欠失、挿入、トランスバージョン、トランジション、転座)に加えて、突然変異の影響(例えばナンセンス、ミスセンスなど)の情報も提供し、それゆえサイレント突然変異が取り除かれる第1のコンテンツフィルターとして供することができる。例えば、突然変異が、フレームシフト突然変異、ナンセンス突然変異、および/またはミスセンス突然変異である場合に、ネオエピトープはさらなる考慮のために選択することができる。
さらなるフィルタリングアプローチにおいて、ネオエピトープは、細胞下での所在位置パラメーターについても詳細な分析を受け得る。例えば、ネオエピトープ配列は、ネオエピトープが膜会合性の所在位置(例えば、細胞の細胞膜の外側に所在する)を有すると同定されるならば、および/または、ネオエピトープが溶媒曝露される可能性が高いかもしくは構造的に安定的なエピトープを提示することをインシリコの構造計算が確認するならば(例えばJ Exp Med 2014)、などで、さらなる考慮のために選択され得る。
ネオエピトープのフィルタリングに関して、オミックス(または他の)分析がネオエピトープが実際に発現されることを明らかにする場合に、ネオエピトープは、本明細書における使用のために特に好適であることが一般的には企図される。ネオエピトープの発現の同定(および発現レベル)は当技術分野において公知のすべての様式で遂行することができ、好ましい方法には、定量的RNA(hnRNAまたはmRNA)分析および/または定量的プロテオミクス分析が含まれる。最も典型的には、ネオエピトープの包含のための閾値は、対応する一致した正常配列の発現レベルの少なくとも20%、少なくとも30%、少なくとも40%、または少なくとも50%の発現レベルであり、したがって(ネオ)エピトープが免疫系へ少なくとも「見える」が可能性があることを保証するだろう。それゆえ、オミックス分析が遺伝子発現の分析(トランスクリプトーム分析)も含むことが一般的には好ましく、したがって突然変異を備えた遺伝子についての発現のレベルの同定を支援する。
当技術分野において公知のトランスクリプトーム分析の多数の方法があり、すべての公知の方法は本明細書における使用に好適であると考えられる。例えば、好ましい材料にはmRNAおよび一次転写物(hnRNA)が含まれ、RNA配列情報は、逆転写されたポリA+−RNAから得ることができ、それは今度は腫瘍サンプルおよび同じ患者の一致した正常(健康)なサンプルから得られる。同様に、ポリA+−RNAはトランスクリプトームの代表として典型的には好ましいが、RNAの他の形態(hn−RNA、非ポリアデニル化RNA、siRNA、miRNAなど)も、本明細書における使用に好適であると考えられることが指摘されるべきである。好ましい方法には、定量的RNA(hnRNAまたはmRNA)分析および/または定量的プロテオミクス分析が含まれ、特にRNAseqが含まれる。他の態様において、RNA定量化およびシーケンシングは、RNA−seq、qPCRおよび/またはrtPCRベースの方法を使用して遂行されるが、様々な代替の方法(例えば固相ハイブリダイゼーションベースの方法)も好適であると考えられる。別の観点から見ると、トランスクリプトーム分析は、癌および患者に特異的な突然変異を有する遺伝子を同定および定量化するのに好適であり得る(単独でまたはゲノム分析と組み合わせて)。
同様に、プロテオミクス分析は、ネオエピトープのRNAの実際の翻訳を確認する多数の様式で遂行することができ、プロテオミクス分析のすべての公知の様式が本明細書において企図される。しかしながら、特に好ましいプロテオミクスの方法には抗体ベースの方法および質量分光法が含まれる。さらに、プロテオミクス分析はタンパク質に関する定性的情報または定量的情報をそれ自体で提供し得るだけではなく、タンパク質が触媒活性または他の機能的な活性を有する場合のタンパク質活性データも含み得ることが指摘されるべきである。プロテオームアッセイの遂行のための1つの例示的な技法はUS7473532(参照によって本明細書において援用される)中で記載される。同定のさらに好適な方法および場合によってはタンパク質発現の定量化には、様々な質量分光分析(例えば選択反応モニタリング(SRM)、多重反応モニタリング(MRM)、および連続反応モニタリング(CRM))が含まれる。
フィルタリングのさらに別の態様において、ネオエピトープは、既知のヒト配列(例えば患者または患者のコレクションの)を含有するデータベースと比較されて、そのようにしてヒトで同一の配列の使用を避けることができる。さらに、フィルタリングには、患者におけるSNPに起因するネオエピトープ配列(そこでSNPは腫瘍および一致した正常配列の両方中で存在する)の除去も含まれ得る。例えば、dbSNP(一塩基多型データベース)は、National Human Genome Research Institute(NHGRI)と共同してNational Center for Biotechnology Information(NCBI)によって開発およびホストされた、種内および異なる種にわたる遺伝変異についての無料の公共のアーカイブである。データベースの名称は1つのクラスの多型のみ(一塩基多型(SNP))のコレクションを暗示するが、実際は、比較的広範囲の分子バリエーション:(1)SNP、(2)短い欠失および挿入多型(インデル/DIP)、(3)マイクロサテライトマーカーまたは、ショートタンデムリピート(STR)、(4)多塩基多型(MNP)、(5)ヘテロ接合配列、および(6)命名されたバリアントを含有する。dbSNPは、明らかに中立の多型、既知の表現型に対応する多型、およびバリエーションのない領域を受理する。
かかるデータベースおよび他のフィルタリングオプションを上記のように使用して、患者および腫瘍に特異的なネオエピトープをフィルタリングしてそれらの既知の配列を除去し、実質的に低減した偽陽性を有する複数のネオエピトープ配列により設定された配列をもたらすことができる。
しかしながら、フィルタリングにもかかわらず、患者のMHC複合体上でネオエピトープも提示する必要があるので、すべてのネオエピトープが免疫系へ見えるとは限らないであろうことが認識されるべきである。実際、ネオエピトープのごく一部分のみが提示のための十分な親和性を有し、MHC複合体の大きな多様性は、すべてではないが大部分の共通のネオエピトープの使用を除外するだろう。それゆえ、免疫療法の文脈において、したがって、ネオエピトープがより効果的になる可能性は、ネオエピトープがMHC複合体へ結合されMHC複合体によって提示される場合に、容易に明らかであるに違いない。別の観点から見ると、チェックポイント阻害物質による治療成功は、複数のネオエピトープがMHC複合体経由で提示されることを必要とし、そこで、ネオエピトープは患者のHLAタイプへの最小の親和性を有してなくてはならない。それゆえ、効果的な結合および提示は、ネオエピトープの配列と患者の特定のHLAタイプとの組み合わせ関数であることが認識されるべきである。最も典型的には、HLAタイプ決定には、少なくとも3つのMHC−Iサブタイプ(例えばHLA−A、HLA−B、HLA−C)および少なくとも3つのMHC−IIサブタイプ(例えばHLA−DP、HLA−DQ、HLA−DR)が含まれ、好ましくは、各々のサブタイプは少なくとも4桁深度まで決定されている。しかしながら、より高い深度(例えば6桁、8桁)も本明細書において企図される。
一旦患者のHLAタイプが確認されれば(既知のケミストリーまたはインシリコの決定を使用して)、HLAタイプのための構造解は計算されるかまたはデータベースから得られ、次いでそれをインシリコのドッキングモデルにおいて使用して、HLA構造解への(典型的にはフィルタリングされた)ネオエピトープの結合親和性を決定する。さらに以下で議論されるように、結合親和性の決定のために好適な系にはNetMHCプラットフォーム(例えばNucleic Acids Res.2008 Jul 1;36(ウェブサーバー号):W509−W512を参照)が含まれる。次いで、以前に決定されたHLAタイプについての高親和性を備えたネオエピトープ(例えば100nM未満、75nM未満、50nM未満)は、MHC−I/IIサブタイプの知見と共に治療法生成のために選択される。
HLA決定は当技術分野において周知のウェットケミストリーにおける様々な方法を使用して遂行することができ、これらの方法のすべては本明細書における使用に好適であると考えられる。しかしながら、特に好ましい方法において、HLAタイプは、より詳細に以下で示されるように、既知および/または共通のHLAタイプの大部分またはすべてを含有する参照配列を使用して、インシリコのオミックスデータから予測することもできる。
例えば、本発明の対象に従う1つの好ましい方法において、染色体6p21.3(またはHLA対立遺伝子が見出される近くの/HLA対立遺伝子が見出される所での他の所在位置)へマッピングされる比較的多数の患者配列リードは、データベースまたはシーケンシングマシンによって提供される。最も典型的には、配列リードは約100〜300塩基の長さを有し、メタデータ(リードクオリティ、アライメント情報、方向性、所在位置などが含まれる)を含むだろう。例えば、好適なフォーマットにはSAM、BAM、FASTA、GARなどが含まれる。本発明の対象への限定ではないが、患者配列リードは少なくとも5×、より典型的には少なくとも10×、さらにより典型的には少なくとも20×、および最も典型的には少なくとも30×のカバレッジ深度を提供することが、一般的には好ましい。
患者配列リードに加えて、企図された方法は、既知かつ別個のHLA対立遺伝子の複数の配列を含む、1つまたは複数の参照配列をさらに用いる。例えば、典型的な参照配列は、そのHLAタイプの複数のHLA対立遺伝子を備えた少なくとも1つのHLAタイプの配列セグメントを含む合成(対応するヒトまたは他の哺乳動物のカウンターパートのない)配列であり得る。例えば、好適な参照配列は、HLA−Aの少なくとも50の異なる対立遺伝子についての既知のゲノム配列のコレクションを含む。あるいはまたは加えて、参照配列は、HLA−Aの少なくとも50の異なる対立遺伝子についての既知のRNA配列のコレクションも含み得る。もちろん、そしてさらにより詳細に以下で議論されるように、参照配列はHLA−Aの50の対立遺伝子へ限定されないが、対立遺伝子のHLAタイプおよび数/構成に関する代替の構成を有し得る。最も典型的には、参照配列はコンピュータ可読フォーマットであり、データベースまたは他のデータストレージ装置から提供されるだろう。例えば、好適な参照配列フォーマットにはFASTA、FASTQ、EMBL、GCGまたはGenBankフォーマットが含まれ、それらは、公共のデータレポジトリ(例えばIMGT、International ImMunoGeneTics information system、またはAllele Frequency Net Database、EUROSTAM、URL:www.allelefrequencies.net)のデータから直接得られるかまたは構築され得る。あるいは、参照配列は、1つまたは複数の既定の基準(対立遺伝子頻度、人種の対立遺伝子分布、共通または稀な対立遺伝子タイプなど)に基づいて、個別の既知のHLA対立遺伝子からも構築され得る。
参照配列を使用して、ここで患者配列リードをde Bruijnグラフを介して繋げて対立遺伝子を最良のフィットにより同定することができる。この文脈において、各々の個体が各々のHLAタイプにつき2つの対立遺伝子を保有し、これらの対立遺伝子が非常に類似し得るか、またはいくつかの事例においては、同一でさえあり得ることが指摘されるべきである。かかる類似性の高い程度は、従来のアライメントスキームについて重要な問題を提起する。本発明者はここで、HLA対立遺伝子および非常に密接に関連する対立遺伝子でさえ、比較的小さなk−mer(典型的には10〜20塩基の間の長さを有する)への配列リードの分解によっておよび重み付け投票プロセスの実装によって構築されるde Bruijnグラフによるアプローチを使用して、分割することができ、そこで、各々の患者配列リードは、対立遺伝子の配列に一致するその配列リードのk−merに基づいて対立遺伝子の各々についての投票(「定量的リードサポート」)を提供することを見出した。次いで対立遺伝子についての累積的に最も高い投票は、最も有望な予測されたHLA対立遺伝子を指示する。加えて、対立遺伝子へ一致する各々の断片は、その対立遺伝子についての全体的なカバレッジおよびカバレッジ深度の計算にも使用されることが一般的には好ましい。
スコアリングは必要に応じてさらに改善または微調整することができ、そこでは、特にトップヒットの多くは類似する(例えばそこではそれらのスコアの大部分が高度に共有されるk−merのセットに由来する)。例えば、スコア微調整は重み付けスキームを含むことができ、そこで、最新のトップヒットへ実質的に類似する(例えば>99%、または他の既定値)対立遺伝子は、今後の考慮から除かれる。最新のトップヒットによって使用されるk−merについてのカウントは、次いで係数(例えば0.5)によって再重み付けされ、各々のHLA対立遺伝子についてのスコアはこれらの重み付きカウントの合計によって再計算される。この選択プロセスを反復して、新しいトップヒットを見出す。方法の正確性は、腫瘍によって発現される対立遺伝子(それは時にはDNA中に存在する2つの対立遺伝子のうちのたった1つであり得る)の同定を可能にするRNA配列データを使用して、なおさらに改善することができる。企図された系および方法のさらに有利な態様において、DNAもしくはRNAまたはDNAおよびRNAの両方の組み合わせは、高度に正確なHLA予測をするために加工することができ、腫瘍または血液のDNAまたはRNAに由来し得る。高精度のインシリコのHLAタイピングについてのさらなる態様、好適な方法および考察は、国際PCT/US16/48768(参照によって本明細書において援用される)中で記載される。
一旦患者および腫瘍に特異的なネオエピトープおよびHLAタイプが同定されたならば、さらなるコンピュータ分析は、例えばNetMHCを使用して、HLAへのネオエピトープのドッキングおよび最良の結合物(例えば最低のKD、例えば500nM未満、または250nM未満、または150nM未満、または50nM未満)の決定によって、遂行することができる。かかるアプローチは、患者および腫瘍に真に特異的なネオエピトープだけではなく、細胞上で提示される可能性が最も高く、それゆえ治療効果による免疫応答を誘発する可能性が最も高いネオエピトープもまた同定することが認識されるべきである。もちろん、さらに以下で議論されるように、ウイルスの中のペイロードとしてエピトープをコードする核酸を包含する前に、このように同定されたHLA一致ネオエピトープが生化学的にインビトロで検証され得ることも認識されるべきである。
もちろん、患者および癌に特異的なネオエピトープへの患者のHLAタイプの一致がNetMHC以外の系を使用して行われ得ることが認識されるべきであり、好適な系にはNetMHC II、NetMHCpan、IEDB分析リソース(URL、immuneepitope.org)、RankPep、PREDEP、SVMHC、Epipredict、HLABindingなどが含まれる(例えばJ Immunol Methods 2011;374:1−4を参照)。最も高い親和性の計算において、ネオエピトープ配列(そこで、改変されたアミノ酸の位置は移動される(前出))のコレクションを使用できることが指摘されるべきである。あるいはまたは加えて、ネオエピトープへの修飾は、N末端および/またはC末端の修飾を追加して、患者のHLAタイプへの発現ネオエピトープの結合をさらに増加させることによって実装され得る。したがって、ネオエピトープは、同定されたままの生来のものであるか、または特定のHLAタイプにより良好に一致するようにさらに修飾され得る。さらに、所望される場合には、対応する野生型配列(すなわちアミノ酸変化のないネオエピトープ配列)の結合を計算して、高い差異的な親和性を保証することができる。例えば、ネオエピトープとその対応する野生型配列との間のMHC結合における特に好ましい高い差異的な親和性は、少なくとも2倍、少なくとも5倍、少なくとも10倍、少なくとも100倍、少なくとも500倍、少なくとも1000倍などである。
さらなる観察(データ不掲載)に基づいて、本発明者は、患者のオミックスデータを分析して(好ましくはエキソームまたは全ゲノムシーケンシングの同時の所在位置にガイドされたアライメントを使用して)特定の突然変異のタイプまたはパターンも同定できること、およびかかるパターン(特に最小数の上記のようなネオエピトープと組み合わせて)がチェックポイント阻害物質による有望な治療成功をさらに表し得ることを企図する。例えば、ネオエピトープがUV損傷について典型的な変異パターン(例えばタンデムなCC>TT/GG>AA突然変異)と関連する場合に、および50または70または100を超えるHLA一致患者および癌に特異的なネオエピトープが存在する場合に、チェックポイント阻害物質による治療成功は、変異パターンのない事例および/またはHLAが一致していない患者および癌に特異的でないネオエピトープが存在する場合においてよりも可能性が高いだろう。同様に、ネオエピトープが喫煙誘導性DNA損傷について典型的な変異パターン(例えば高頻度のG>T突然変異)と関連する場合に、および50または70または100を超えるネオエピトープが存在する場合に、チェックポイント阻害物質による治療成功は、変異パターンのない事例および/またはHLAが一致していない患者および癌に特異的でないネオエピトープが存在する場合においてよりも可能性が高いだろう。
加えて、ネオエピトープの数の増加は様々な根底にある疾患または現象に起因し得ることが企図される。例えば、細胞中のMMR(DNAミスマッチ修復)系の不完全または異常な機能(それは複数の鎖切断およびより高い突然変異率ならびにより高いカウントの可能性のあるHLA一致患者および癌に特異的なネオエピトープを引き起こし得る)が引き金となってより多数のネオエピトープが生じ、それはMSI(マイクロサテライト不安定性)としても観察され得ることが仮定される。したがって、全ゲノムおよび/またはエキソームシーケンシングからのMMRおよび/またはMSIの観察は、代理的指標として増加した数のHLA一致患者および癌に特異的なネオエピトープについて使用され得ることも企図される。MMRおよび/またはMSIは、好ましくは公知のオミックス分析アルゴリズムおよびデータ可視化を使用して(例えば、円プロット図解を使用して)、一致した正常なものに対して同定される。
一旦ネオエピトープが上記のような方法のうちの1つまたは複数を使用して適切にフィルタリングされたならば、そのようにフィルタリングされたネオエピトープは定量化/カウントされ得る。容易に認識されるように、免疫チェックポイント阻害物質による治療有効性のある癌の治療は、発現および提示されるネオエピトープの存在に依存する。任意の特定の理論または仮説に拘束されることを望むものではないが、本発明者は、発現および提示されたネオエピトープのごく一部分のみが治療法への応答をもたらすこと、および腫瘍は癌細胞の不均一集団を有し、各々の集団はそれぞれの個別のネオエピトープを備えている可能性があることを、全体として企図する。したがって、本発明者は、免疫チェックポイント阻害物質による癌の治療は、最小量/閾値量のHLA一致患者および癌に特異的なネオエピトープを要求するだろうことを企図する。様々な癌データのレトロスペクティブ分析に基づいて、そしてさらにより詳細に以下で議論されるように、本発明者は、したがって、HLA一致患者および癌に特異的なネオエピトープの量が、既定の閾値量を超過した場合に、チェックポイント阻害物質は患者へ投与されるべきであることを企図する。最も典型的には、既定の閾値量は、少なくとも50のHLA一致患者および癌に特異的なネオエピトープ、または少なくとも100のHLA一致患者および癌に特異的なネオエピトープ、または少なくとも150のHLA一致患者および癌に特異的なネオエピトープである。
異なる観点から見ると、癌における比較的多数の突然変異の診断は、それ自体、チェックポイント阻害物質による癌の治療における治療法への応答の予測ではないことが認識されるべきであり、それは、多数のかかる突然変異は、(a)例えばサイレント突然変異に起因してネオエピトープをもたらさないかもしれない、(b)対応する一致した正常配列を有し、それゆえネオエピトープを全く提示しないかもしれない、(c)発現されず、それゆえ免疫系に見えないかもしれない、(d)患者の特異的なMHC複合体へ結合せず、それゆえ免疫系に見えないかもしれない、からである。これとは対照的に、企図された系および方法は、HLA一致患者および癌に特異的なネオエピトープを高い信頼度により同定する。反対に、患者の突然変異が比較的多数のHLA一致患者および癌に特異的なネオエピトープ(例えば少なくとも50または100または150または200など)に翻訳される患者において、比較的低い突然変異頻度を備えた癌が、実際治療可能であり得ることが認識されるべきである。
好適なチェックポイント阻害物質に関して、チェックポイントシグナリング(例えばCTLA−4(CD152)またはPD−1(CD 279))を妨害するすべての化合物および組成物は、本明細書における使用に好適であると考えられることが企図される。例えば、特に好ましいチェックポイント阻害物質には、ペムブロリズマブ、ニボルマブおよびイピリムマブが含まれる。最も典型的には、チェックポイント阻害物質は従来のプロトコルに従って、および処方情報中で記載されるように、投与されるだろう。しかしながら、チェックポイント阻害物質がペプチドまたはタンパク質である場合に、かかるペプチドおよび/またはタンパク質は任意の好適な発現系からも患者において発現され得る(ネオエピトーパー(neoepitoper)および/または共刺激性分子と共にまたは組み合わせて)ことに注目すべきである。さらに、本明細書において使用される時、チェックポイント阻害物質に関して「投与すること」という用語は、患者へのチェックポイント阻害物質の直接投与(例えば医師または他の有資格医療専門家による)または間接投与(例えば投与することを引き起こすかまたは助言する)を指す。
なおさらに企図された態様において、1つまたは複数の抗癌治療剤と一緒にチェックポイント阻害物質を使用する組み合わせ療法は、好適であり得る。他の薬剤の中で、同定されたネオエピトープのうちの少なくとも1つの発現を引き起こす核酸コンストラクトにより遺伝的に修飾されたウイルスにより腫瘍を治療して、そのようにして腫瘍に対する免疫応答を増強し得ることが、特に好ましい。例えば、好適なウイルスには、アデノウイルス、アデノ随伴ウイルス、アルファウイルス、ヘルペスウイルス、レンチウイルスなどが含まれる。しかしながら、アデノウイルスが特に好ましい。さらに、ウイルスは、複製欠損性かつ非免疫原性のウイルス(それは典型的には選択されたウイルスタンパク質(例えばE1タンパク質、E3タンパク質)の標的化欠失によって達成される)であることがさらに好ましい。最近報告されたように(例えばJ Virol.1998 Feb;72(2):926−933)、かかる所望される特性はE2b遺伝子機能の欠失によってさらに促進され、高力価の組換えウイルスは遺伝的に修飾されたヒト293細胞を使用して達成され得る。最も典型的には、所望される核酸配列(ウイルス感染した細胞からの発現のための)は、当技術分野において周知の適切な調節エレメントの制御下にある。あるいは、免疫療法はウイルスに依存する必要がないが、核酸ワクチン接種、またはネオエピトープの発現を引き起こす他の組換えベクター(例えば単一ペプチド、タンデムミニ遺伝子などとして)により達成され得る。
同様に、ウイルス発現ベクター以外のさらなる免疫療法剤も好適であると考えられ、それらにはキメラ抗原受容体を発現する遺伝子操作細胞(および特に様々な免疫適格細胞)または高親和性CD16受容体が含まれる。例えば、企図される免疫療法剤には、ナチュラルキラー細胞(例えばaNK細胞、haNK細胞、またはtaNK細胞、NantKwest、9920 Jefferson Blvd.Culver City、CA 90232から商業的に入手可能)または遺伝的に修飾されたT細胞(例えばT細胞受容体を発現する)またはHLA一致患者および癌に特異的なネオエピトープによりエクスビボで刺激されたT細胞が含まれる。あるいは、HLA一致患者および癌に特異的なネオエピトープは、担体タンパク質へ随意に結合されて、ペプチドとしても投与され得る。
実施例
データセット:以下で指示されるような様々な癌についてのTCGA WGSおよびRNAseqデータを、University of California,Santa Cruz(UCSC)Cancer Genomics Hub(https://cghub.ucsc.edu/)からダウンロードした。TCGAサンプルを完全なWGSデータの利用可能性に基づいて選択して、インシリコのHLAタイピングを支援した。入手可能な場合に、対応するサンプルのRNAseqデータを使用した。
腫瘍バリアントおよびネオエピトープの同定:単一ヌクレオチドバリアント(SNV)および挿入/欠失(インデル)を、実質的にはUS2012/0059670A1およびUS2012/0066001A1中で開示されるような様式で、BAMファイルを使用して、腫瘍サンプルおよび正常サンプルの所在位置にガイドされた同時のアライメントによって同定した。HLA−A対立遺伝子が9−merペプチドフラグメントへ優先的に結合するので、本発明者は9−merネオエピトープの同定に注目した。同定されたSNVまたはインデルに由来する9−merアミノ酸文字列のすべての可能な並べ替えの生成によって、ネオエピトープを同定した(すなわち9−merは各々ユニークな位置で変化させたアミノ酸を有していた)。特定のネオエピトープの標的外の効果の可能性を低減させる手段として、本発明者は、既知のヒト遺伝子ごとに生成されたすべての可能な9−merペプチド配列に対するすべての同定されたネオエピトープをフィルタリングした。加えて、本発明者は、dbSNP(URL:www.ncbi.nlm.nih.gov/SNP/)からの一塩基多型についてもフィルタリングして、シーケンシングデータ内で見落とされ得る稀なタンパク質配列を考慮した。ネオエピトープを、RNA発現に加えて、観察されたコーディングバリアントの対立遺伝子頻度によってさらに格付けして、腫瘍不均一性から生じる問題を相殺した。
HLAタイピング:HLAタイピングデータはTCGAサンプルについて入手可能ではなかった。したがって、本発明者は、実質的にPCT/US16/48768中で記載されるように、WGS、RNAseqデータおよびHLAフォレストアルゴリズムを使用して、インシリコのHLAタイピングを遂行した。簡潔には、Burrows−Wheelerアライメントアルゴリズムを使用して、IMGT/HLAデータベース(URL:www.ebi.ac.uk/ipd/imgt/hla/)内のすべての異なるHLA対立遺伝子へ、シーケンシングリードをアライメントさせた。各々のアライメントは、リードクオリティスコアを考慮に入れた、塩基の保存に基づくスコアを与えられる。次いで各々のHLA対立遺伝子は、各々のリードがある特定のHLA対立遺伝子へどのくらい良好にアライメントするかを考慮するスコアの合計を有し、最も高いスコアを備えた対立遺伝子を一次対立遺伝子タイピングとして選択する。次いで二次対立遺伝子タイピングを一次対立遺伝子タイピングへ完全にアライメントするリードの除去によって遂行し、次いで後続のリードを一次対立遺伝子へのアライメントなしに再スコアリングする。このプロセスを使用して、本発明者は、少なくとも4桁のレベルまで、すべてのサンプルについて、HLA−A、HLA−B、HLA−CおよびHLA−DRB1のタイピング結果を得た。
ネオエピトープ−HLA親和性決定:NetMHC 3.4(URL:www.cbs.dtu.dk/services/NetMHC−3.4/)を使用して、ネオエピトープが特異的HLA対立遺伝子へ結合するかどうかを予測した。複雑性空間を低減させるために、本発明者は結合分析をHLA−A対立遺伝子へ限ることを選択したが、これは、それらが最も良く特徴づけられたHLA対立遺伝子であり、最良の結合親和性モデルを有するからである。NetMHC 3.4ツールはすべての同定されたHLA−A対立遺伝子についてのモデルを有するとは限らないので、患者のHLA−AタイピングがNetMHC 3.4における使用のために入手可能でなかったならば、HLAスーパータイプを結合予測のために選択した。予測された結合親和性(<500nMタンパク質濃度)を備えたネオエピトープを詳しい分析のために保持した。しかしながら、他のより厳格な結合基準(<250nM、<150nMまたは<50nM)も適切であると考えられる。
癌タイプにわたるコーディング突然変異およびネオエピトープの荷重:WGSデータおよび対応するRNAseqデータを入手可能な場合に使用して、図1中で示されるように、23の癌分類にわたる750名の患者サンプルについてのコーディングDNAの1メガベースあたりの可能性のあるネオエピトープおよび体細胞コーディングバリアントのベースラインを確立する。ここで、ネオエピトープおよびバリアントのカウントを、TCGA内の23の癌分類にわたる750名の患者サンプルのために示す。パネル(a)はネオエピトープカウントを図示し;パネル(b)はバリアントカウントを図示する。y軸は、コーディングDNAの1メガベースあたりのカウントを示す(ヒトゲノムアセンブリー(hg)19について88MB)。x軸は、括弧中で示される患者サンプルの人数による各々の癌分類を示す。中央値サンプルカウントを正方形によって指示する。パネル(c)は、すべての癌タイプ内のネオエピトープおよび正常エピトープのパーセンテージを指示する。
図1から容易に読み取ることができるように、突然変異およびネオエピトープの荷重は異なる癌タイプにわたって変動し、黒色腫および肺扁平上皮細胞癌は最も高いネオエピトープ荷重を有し、甲状腺癌および急性骨髄白血病は最低のネオエピトープ荷重を有していた。既知のヒト配列のデータベースに対して推定ネオエピトープをフィルタリングして可能性のある標的外の効果を除去することにより、同定されたネオエピトープの10%のみが既知のタンパク質の断片へマッピングされることが明らかになった。したがって、大部分の突然変異はユニークなタンパク質配列を生成する。しかしながら、たとえユニークなネオエピトープの分率が比較的高くても、発現および提示が起こることを推定することができない。実際、さらにより詳細に以下で示されるように、発現および提示されたネオエピトープの数がシーケンシングのみによって同定されたネオエピトープの数よりも劇的に低いことが認識されるべきである。
ネオエピトープ突然変異の荷重および発現:MHCクラスI(MHC−I)によって提示されたエピトープの長さに起因して、単一突然変異は、それでも多数の別個のネオエピトープの発現をもたらし得る。したがって、何百もの突然変異を含有する個別の患者の腫瘍はおそらく何千ものネオエピトープを含有するだろう。多くの腫瘍突然変異はパッセンジャー突然変異である可能性が高く、癌進行の原因ではないが、可能性のある治療介入のために標的としてそれらを利用することができた。RNAseqデータを使用して、組み合わせたすべての癌分類内で、および異なる突然変異荷重を有する癌分類(子宮体部内膜癌、甲状腺癌、および浸潤乳癌)内でも発現されるネオエピトープを選択する。最も顕著なことには、図2中で見てとれるように、WGSによって同定されたネオエピトープカウントは、様々な癌にわたってRNAseqによって同定されたネオエピトープ発現と相関した(組み合わせたすべての癌について、ピアソンのr=0.99)。ここで、パネル(a)はすべての癌を描写し、パネル(b)は甲状腺癌(THCA)を描写し、パネル(c)は浸潤乳癌(BRCA)を描写し、パネル(d)は子宮体部内膜癌(UCEC)を描写する。y軸は、WGSによって同定されるようなサンプルあたりのネオエピトープの生のカウントを示し、x軸は、RNAseqによって決定されるような発現した遺伝子に対するフィルタリング後のネオエピトープの生のカウントを示す。ピアソン相関性、P値およびサンプル数を各々のグラフ上で示す。高いネオエピトープ荷重を備えた癌は、平均突然変異荷重にかかわらず、一般的には高いネオエピトープ発現を有していた。
トリプルネガティブ乳癌におけるネオエピトープの同定:トリプルネガティブ乳癌(TNBC)は侵襲性癌であり、治療選択肢は限定的で、多くの場合予後は非常に不良であり、標準的化学療法後の進行が後続する。TCGAデータセットは、26のTNBCサンプルについてのWGSデータおよびRNAseqデータを含有していた。TNBCにおけるネオエピトープカウントを、以下のような反復アプローチを使用して同定した。すべての可能なネオエピトープを、WGSによって同定されたコーディングバリアントに基づいて予測し;ネオエピトープの数を、RNAseqによって同定された発現ネオエピトープの選択によって絞り;リストを、患者のHLAタイプ内の特異的対立遺伝子へ結合すると予測されたネオエピトープの選択によって、さらに微調整した。ネオエピトープのこの選択的枝刈りにより質の高いネオエピトープのリストがもたらされ、それは表1中で示されるように各々の患者にユニークであった。
表1
すべての26名の患者について図3(上部パネル、a)中で描写されるように、予測されるネオエピトープ、発現されるネオエピトープ、および各々の患者特異的HLA−Aタイプへの親和性を備えるネオエピトープの数は、それぞれ17,925、8184および228であった。明らかに、シーケンシング(ならびに腫瘍vs一致した正常のシーケンシングおよび分析でさえ)によって決定されるような多数のネオエピトープに対する信頼性は、チェックポイント阻害物質による治療への応答性についての意味のある予測因子を提供しないだろう。同様に、発現のさらなる考慮は、偽陽性結果を中程度にのみ除去し、その一方で実際のHLA結合物への結果の正規化は、発現および提示された患者および腫瘍に特異的なネオエピトープの分率を実質的に増加させるだろう。
癌分類にわたるネオエピトープの同定:TNBCに罹患する患者の中で共有されるネオエピトープがなかったので、本発明者は、TCGAデータセット内の他の癌分類の中で任意のネオエピトープが共有されるかどうかを決定しようとした。共通のネオエピトープがHLA複合体へも結合するであろうことを保証するために、本発明者は、HLA−A*02:01対立遺伝子(それは北アメリカにわたって高頻度で出現する)を含有するサンプルへ分析を限定した。TNBCについて遂行された同じ反復アプローチを使用して、本発明者は、完全なWGSおよびRNAseqデータを有していた12の癌にわたってネオエピトープを同定し、結果を図3(下部パネル、b)中で示す。各々のバー内の陰影は異なる患者サンプルを指示する。
ここで、予測されるネオエピトープ、発現されるネオエピトープ、およびHLA−A
*02:01への親和性を備えるネオエピトープの数は、それぞれ211,285、89,351および1,732であった。異なるサンプルの大きさについて修正して、予測されるネオエピトープ、発現されるネオエピトープ、およびHLA−A
*02:01への親和性を備えるネオエピトープの平均数は、それぞれ23,272、9,619および138であった。このデータにわたって、4つの異なる癌タイプ:膀胱癌、尿路上皮癌、肺扁平上皮細胞癌、肺腺癌および浸潤乳癌を表わす4つの異なる患者サンプル中で出現した1つのネオエピトープが同定された。多数のネオエピトープが2つの異なる癌タイプを表わすペアの患者の間で共有された(表2)。
表2
顕著なことに、WGSにのみ基づく初期のネオエピトープ予測は、TNBC患者の中で再発したいくつかのネオエピトープを同定した(データ不掲載)。ネオエピトープ−HLAの結合分析後に、再発性ネオエピトープのすべては、患者中での、HLA対立遺伝子および結合能における差に起因して取り除かれた。組み合わせた12の癌分類の中でさえ、再発性ネオエピトープは稀であり、1つの検出されたネオエピトープのみが4名の患者の中での別個の癌タイプにより共有され、もう一度、包括的な分子プロファイリングについての必要性が強調される。図3(下部円グラフ、c)はすべての癌にわたってそのことをさらに図示し、ネオエピトープのうちのおよそ6%が癌ドライバー遺伝子において出現し、それは以前の観察と一致している。
ある特定の腫瘍(黒色腫および肺癌等)は体細胞ネオエピトープの発現増加による高い突然変異荷重を有し、それは抗腫瘍応答を誘発し、これらの癌をチェックポイント阻害物質へより応答性にするはずである。その一方で、比較的低い突然変異/ネオエピトープ荷重を有する癌は、発現/結合されるネオエピトープを有する可能性がそれほど高くなく、それゆえチェックポイント阻害物質による療法へそれほど応答性でないだろう。残念なことに、かかる仮定は単純化され過ぎており、チェックポイント阻害物質治療への実際の応答性は、腫瘍特異的に発現されるネオエピトープと患者のHLAタイプへのネオエピトープの患者特異的親和性との間の、患者および腫瘍に特異的な一致に高度に依存するだろう。例えば、TCGA内の黒色腫サンプルおよび肺癌サンプルは高い平均突然変異荷重を有していたが、いくつかの個別のサンプルは低い突然変異荷重を有していた。したがって、疾患タイプのみによる通常の分類が過剰に包括的であり、それゆえ効果的でない可能性の高い治療を患者に行うことが認識されるべきである。本発明者は、高い突然変異の量を有する癌タイプの多様なアレイにわたって多くの個別の腫瘍サンプルも同定し、患者にチェックポイント阻害物質による治療への感受性の可能性を与えた。総合すると、本発明者の研究結果は、これらの薬剤についての認可された適応症以外のチェックポイント阻害物質の可能な利益を決定するには、患者の腫瘍の詳細な分子分析が必要であることを示唆する。指針として、そして上で提供されたデータおよび企図を考慮して、分析は、HLA一致(すなわち患者のHLAタイプへの高親和性(典型的には250nM未満または150nM未満)を備えたネオエピトープ)の患者および癌に特異的なネオエピトープ(それは閾値数を超えて(例えば少なくとも50、より典型的には少なくとも100)存在しなければならない)に注目すべきである。
図4は、上記のように同定された様々な癌ネオエピトープについてのバリアントカウントを典型的に描写する。容易に明らかであるように、ある特定の癌は比較的多数のネオエピトープを有する一方で、他の癌は中程度の数のネオエピトープのみを有する。さらに、同じタイプの癌内のネオエピトープ出現の変動が均一ではないことが指摘されるべきである。実際、いくつかの癌は比較的低い平均数のネオエピトープを有するが、高い変動が100の既定の閾値を超えてかなり広がっている(例えばHNSC、LUAD;閾値は破線で示される)。顕著なことに、閾値より上のネオエピトープカウントを備えた癌はチェックポイント阻害物質による治療へ応答性であることが著しく高い可能性であることが示された(例えばUCEC、READ、BLCA、SKCM、LUSC、COAD、STAD)。さらに、これらの癌はMMRおよび/またはMSIとも典型的には関連することも観察された。
本明細書における値の範囲の列挙は、範囲内に収まる各々の分離した値を個別に指す簡便方法として供されることを単に意図する。本明細書において特別の指示のない限り、あたかも本明細書においてそれが個別に列挙されるかのように、各々の個別の値は明細書の中へ援用される。本明細書において記述されるすべての方法は、本明細書において特別の指示のない限りまたは明らかに文脈と矛盾しない限り、任意の好適な順序で行うことができる。任意のおよびすべての実施例、または本明細書におけるある特定の実施形態に関して提供される例示的な文言(例えば「等の」)の使用は、本発明をより良好に明らかにすることを単に意図し、請求項に記載されない限り、本発明の範囲に対する限定をもたらさない。本明細書内の文言は、本発明の実践に不可欠な任意の請求されていない要素の指示として解釈されるべきでない。
本明細書における発明概念から逸脱せずに、既に記載されたものの他にさらに多くの修飾が可能であることは、当業者に明らかであるべきである。したがって、本発明の対象物は添付の請求項の範囲以外では限定することができない。さらに、明細書および請求項の両方の解釈において、すべての用語は、文脈と矛盾しないで可能な限り広範囲の様式で解釈されるべきである。特に、「含む」および「含むこと」という用語は、非独占的な様式で要素、構成要素またはステップを指すと解釈されるべきであり、参照された要素、構成要素またはステップは、明示的に参照されない他の要素、構成要素またはステップと共に存在または利用または組み合わされ得ることを示す。明細書請求項がA、B、C....およびNからなる群から選択されるもののうちの少なくとも1つを指す場合に、テキストは、A+NまたはB+Nなどではなく、群から1要素のみを要求すると解釈されるべきである。