JP2023534283A

JP2023534283A - ペプチドの結合、提示及び免疫原性を予測するための注意ベースのニューラルネットワーク

Info

Publication number: JP2023534283A
Application number: JP2023502978A
Authority: JP
Inventors: カイリウ，; ニコラスウィンストンラウンズベリー，; ウィリアムジョンスリフト，; アドリッククエイドブロードウェル，; レリアイヴォンヌドゥラマーレ，; スチットスシルジュンジュンワラ，
Original assignee: Genentech Inc
Current assignee: Genentech Inc
Priority date: 2020-07-17
Filing date: 2021-07-16
Publication date: 2023-08-08
Also published as: EP4182924A1; AU2021308081A1; CN115997254A; US20220122690A1; IL299801A; MX2023000618A; KR20230042048A; BR112023000827A2; CA3180799A1; WO2022016125A1

Abstract

本明細書に開示される実施形態は、概して、注意ベースの機械学習モデルを使用して、対応するペプチド－免疫タンパク質複合体（ＩＰＣ）の組み合わせに対する標的相互作用に関する標的相互作用の相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも１つを含む出力を生成することに関する。標的相互作用は、ペプチドと、免疫原性複合体（ＩＰＣ）、例えば主要組織適合遺伝子複合体（ＭＨＣ）、Ｔ細胞受容体（ＴＣＲ）、又はその両方等との間であり得る。１つ以上の標的相互作用の可能性がより高いと予測される１つ以上のペプチドを含む医薬組成物を同定、製造及び／又は使用することができる。そのような医薬組成物の投与を含む処置方法を定義及び／又は使用することができる。【選択図】図１

Description

関連出願の相互参照

本出願は、２０２０年７月１７日に出願された「ペプチド結合、提示、及び免疫原性を予測するための注意ベースのニューラルネットワーク」と題する米国仮出願第６３／０５３，３０７号に対する優先権を主張するものであり、本出願の同日に出願された「ペプチド結合、提示、及び免疫原性を予測するための注意ベースのニューラルネットワーク」と題する米国特許出願第＿＿＿号、代理人整理番号第５９８６８．２３ＵＳ０１号に関連するものであり、これらは両方とも、その全体が参照により本明細書に組み込まれる。

本開示は、概して、機械学習モデル（例えば、注意機構を含む）を使用して、目的のペプチド（例えば、変異ペプチド）が免疫タンパク質複合体（ＩＰＣ）（例えば、ＭＨＣ分子に結合される、ＭＨＣ分子によって提示される、ＴＣＲに結合される等）との標的相互作用（複数可）を経験するかどうか、そのような標的相互作用（複数可）に関連する親和性、及び／又はペプチドが免疫応答を誘因する能力に関する予測を生成することに関する。本開示は更に、処置のためのそのような予測に基づいて選択される特定の変異ペプチド（又は関連する前駆体又は配列）を含む組成物及びその使用方法に関する。

ネオ抗原ワクチンは、個別化されたがん処置を提供するための比較的新しいアプローチである。ネオ抗原は、腫瘍における体細胞変異に由来し、対象のがん細胞及び抗原提示細胞によって提示される腫瘍特異的抗原である。

ネオ抗原ワクチンは、１つ以上の特定の腫瘍ネオ抗原を発現するがん細胞を認識して攻撃するように対象のＴ細胞をプライミングすることができる。このアプローチは、腫瘍細胞を標的化しながら健康な細胞を温存する腫瘍特異的免疫応答をもたらす。しかしながら、どのネオ抗原が対象の腫瘍細胞によって産生され、対象の主要組織適合遺伝子複合体（ＭＨＣ）分子によって提示されるかに関して、対象全体で高い変動性がある。したがって、個別化ワクチンを開発し、特定の対象に使用できる可能性がある。個別化ワクチンは、対象特異的腫瘍プロファイルに基づいて操作又は選択され得る。腫瘍プロファイルは、対象の腫瘍細胞からのＤＮＡ及び／又はＲＮＡ配列を決定し、その配列を使用して腫瘍細胞に存在するが正常細胞には存在しない抗原を同定することによって定義することができる。

多くの場合、腫瘍細胞で検出される変異配列の大部分は、腫瘍細胞表面に実際には存在しないネオ抗原に対応する。このようなネオ抗原は、個別化ワクチンの候補としては不十分であろう。例えば、検出されたペプチド配列は、細胞内で産生されるが、ＭＨＣ－Ｉ又はＭＨＣ－ＩＩ分子と結合しない、及び／又はＭＨＣ－Ｉ又はＭＨＣ－ＩＩ分子によって（細胞表面に）提示されない変異ペプチド中のアミノ酸を同定し得る。或いは、ＭＨＣ－Ｉ又はＭＨＣ－ＩＩ分子によって提示され得る変異ペプチドは、細胞内で産生されない場合がある。いずれの場合も、変異ペプチドは、例えば、ＭＨＣ－Ｉ分子の場合はＣＤ８＋細胞傷害性Ｔリンパ球によって、又はＭＨＣ－ＩＩ分子の場合はＣＤ４＋ヘルパーＴ細胞によって免疫学的応答を誘因することができない。

したがって、変異ペプチド配列を検出すること、又はどの変異ペプチド配列に対して単一の生物学的相互作用が生じるか（例えば、ペプチドが分子に結合するかどうか）を予測することのみに焦点を当てたワクチンに対するネオ抗原候補を同定するための配列分析は、多くの偽陽性を生成する可能性がある。このタイプの配列分析は、免疫学的応答をプライムすることを意図した個別化ワクチンの開発には効果がないであろう。

したがって、どのネオ抗原が所与の対象の腫瘍細胞によって提示されるか、及び／又はネオ抗原を含むワクチンが強い免疫学的応答を引き起こすかを予測することが望ましい場合がある。

１つ以上の実施形態において、方法が提供される。本方法は、ペプチドのセットを特徴付けるペプチド配列のセットにアクセスすることであって、ペプチド配列のセットの各ペプチド配列が、対象からの疾患試料を処理することによって同定されている、ペプチド配列のセットにアクセスすることを含む。本方法は、対象の免疫タンパク質複合体（ＩＰＣ）について同定された免疫タンパク質複合体（ＩＰＣ）配列にアクセスすることを含む。本方法は、注意ベースの機械学習モデルの初期注意サブシステム内の第１の注意ブロックを用いてペプチド配列のセットを表すペプチド表現のセットと、初期注意サブシステム内の第２の注意ブロックを用いてＩＰＣ配列を表す免疫タンパク質複合体（ＩＰＣ）表現とを処理して、出力を生成することであって、出力が、対応するペプチド－ＩＰＣ組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも１つを含む、処理して、出力を生成することを含む。本方法は、出力に基づいてレポートを生成することを含む。

１つ以上の実施形態において、ワクチンは、１つ以上のペプチド、１つ以上のペプチドをコードする複数の核酸、又は１つ以上のペプチドを発現する複数の細胞を含む。１つ以上のペプチドは、本明細書に開示される１つ以上の方法の一部又は全部によって生成されたレポートに基づいて、ペプチドのセットの中から選択される。１つ以上のペプチドは、ペプチドのセットの不完全なサブセットである。

１つ以上の実施形態において、ワクチンを製造するための方法が提供される。本方法は、１つ以上のペプチドを含むワクチン、１つ以上のペプチドをコードする複数の核酸、又は１つ以上のペプチドを発現する複数の細胞を含むワクチンを産生することを含む。１つ以上のペプチドは、本明細書に開示される１つ以上の方法の一部又は全部によって生成されたレポートに基づいて、ペプチドのセットの中から選択される。１つ以上のペプチドは、ペプチドのセットの不完全なサブセットである。

１つ以上の実施形態において、本明細書中に開示される１つ以上方法の一部又は全部によって生成されるレポートに基づいて、ペプチドのセットの中から選択される１つ以上のペプチドを含む医薬組成物が提供される。１つ以上のペプチドは、ペプチドのセットの不完全なサブセットである。

１つ以上の実施形態において、本明細書中に開示される１つ以上の方法の一部又は全部によって生成されたレポートに基づいてペプチドのセットの中から選択された１つ以上のペプチドをコードする核酸配列を含む医薬組成物が提供される。１つ以上のペプチドは、ペプチドのセットの不完全なサブセットである。

１つ以上の実施形態において、本明細書に開示される１つ以上の方法の一部又は全部によって生成されてレポートに基づいて同定される免疫原性ペプチドが提供される。

１つ以上の実施形態において、本明細書に開示される１つ以上の方法の一部又は全部によって生成されたレポートに基づいて同定される核酸配列が提供される。

１つ以上の実施形態において、対象を処置する方法が提供される。本方法は、本明細書に開示される１つ以上の方法の一部又は全部によって生成されたレポートに基づいて同定された１つ以上のペプチド、１つ以上の医薬組成物、又は１つ以上の核酸配列の少なくとも１つを投与することを含む。

１つ以上の実施形態において、ペプチドのセットを特徴付けるペプチド配列のセットを生成するために、対象から得られた生物学的試料のセットを処理することを含む方法が提供される。本方法は、対象から得られた生物学的試料のセットを処理して、対象の免疫タンパク質複合体（ＩＰＣ）について同定された免疫タンパク質複合体（ＩＰＣ）配列を生成することを含む。本方法は、注意ベースの機械学習モデルの初期注意サブシステム内の第１の注意ブロックを使用して、ペプチド配列のセットを表すペプチド表現のセットを生成することを含む。本方法は、初期注意サブシステム内の第２の注意ブロックを使用して、ＩＰＣ配列を表す免疫タンパク質複合体（ＩＰＣ）表現を生成することを含む。本方法は、ペプチド表現のセット及びＩＰＣ表現を処理して、出力を生成することであって、出力が、対応するペプチド－ＩＰＣ組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも１つを含み、対応するペプチド－ＩＰＣ組み合わせが、ペプチドのセットのペプチドを含む、処理して、出力を生成することを含む。

１つ以上の実施形態において、方法が提供される。本方法は、ユーザ装置において、対象に対する個別化ワクチンを設計する要求を受信することを含む。本方法は、ユーザ装置から遠隔システムへ通信を送信することであって、通信が対象の識別子を含む、通信を送信することを含む。遠隔システムは、ペプチドのセットを特徴付けるペプチド配列のセットにアクセスし（ペプチド配列のセットの各ペプチド配列は、対象からの疾患試料を処理することによって同定されている）；対象の免疫タンパク質複合体（ＩＰＣ）について同定された免疫タンパク質複合体（ＩＰＣ）配列にアクセスし；注意ベースの機械学習モデルの初期注意サブシステム内の第１の注意ブロックを用いてペプチド配列のセットを表すペプチド表現のセットと、初期注意サブシステム内の第２の注意ブロックを用いてＩＰＣ配列を表す免疫タンパク質複合体（ＩＰＣ）表現とを処理して、出力を生成するように構成される。出力は、対応するペプチド－ＩＰＣ組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも１つを含む。遠隔システムは、出力に基づいてレポートを生成し、レポートをユーザ装置に送信するように構成される。本方法は、ユーザデバイスにおいてレポートを受信することを含む。

１つ以上の実施形態において、対象に対する処置を作成するための方法が提供される。本方法は、コンピューティングデバイスからレポートを受信することを含む方法を含む。コンピューティングデバイスは、ペプチドのセットを特徴付けるペプチド配列のセットにアクセスし（ペプチド配列のセットの各ペプチド配列は、対象からの疾患試料を処理することによって同定されている）；対象の免疫タンパク質複合体（ＩＰＣ）について同定された免疫タンパク質複合体（ＩＰＣ）配列にアクセスし；注意ベースの機械学習モデルの初期注意サブシステム内の第１の注意ブロックを用いてペプチド配列のセットを表すペプチド表現のセットと、初期注意サブシステム内の第２の注意ブロックを用いてＩＰＣ配列を表す免疫タンパク質複合体（ＩＰＣ）表現とを処理して、出力を生成するように構成される。出力は、対応するペプチド－ＩＰＣ組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも１つを含む。コンピューティングデバイスは、出力に基づいてレポートを生成するように構成される。本方法は、レポートに基づいて、処置を作成するための処置作成計画を生成することを更に含む。

１つ以上の実施形態において、複数の変異ペプチドを特徴付ける複数のバリアントコード配列を注意ベースの機械学習モデルに入力することであって、複数のバリアントコード配列の各バリアントコード配列が、対象からの疾患試料を処理することによって同定されている、複数のバリアントコード配列を注意ベースの機械学習モデルに入力することを含む方法が提供される。本方法は、対象の免疫タンパク質複合体（ＩＰＣ）について同定された免疫タンパク質複合体（ＩＰＣ）配列を注意ベースの機械学習モデルに入力することを含む。注意ベースの機械学習モデルが、出力を生成するために、注意ベースの機械学習モデルの初期注意サブシステム内の第１の注意ブロックを使用して複数のバリアントコード配列を表す複数のバリアント表現と、初期注意サブシステム内の第２の注意ブロックを使用してＩＰＣ配列を表す免疫タンパク質複合体（ＩＰＣ）表現とを処理するように構成される。出力は、対応する変異ペプチド－ＩＰＣ組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも１つを含む。本方法は、出力に基づいて生成されたレポートを受信することを含と、レポートに基づいて、対象の処置に使用する複数の変異ペプチドのサブセットを選択することとを含む。

１つ以上の実施形態において、変異ペプチドを特徴付けるペプチド配列を受信することであって、ペプチド配列が、対応する参照配列に対するバリアントを含む、変異ペプチドを特徴付けるペプチド配列を受信することと、主要組織適合遺伝子複合体（ＭＨＣ）について同定されたＭＨＣ配列を受信することと、注意ベースの機械学習モデル内の異なる処理経路を使用してペプチド配列及びＭＨＣ配列を処理して、出力を生成することであって、出力が変異ペプチドとＭＨＣの両方に関連する免疫学的活性に関する情報を提供する、処理して、出力を生成することと、出力に基づいてレポートを生成することとを含む方法が提供される。

１つ以上の実施形態において、変異ペプチドを特徴付けるペプチド配列を受信することであって、ペプチド配列が、対応する参照配列に対するバリアントを含む、変異ペプチドを特徴付けるペプチド配列を受信することと、Ｔ細胞受容体（ＴＣＲ）について同定されたＴＣＲ配列を受信することと、注意ベースの機械学習モデル内の異なる処理経路を使用してペプチド配列及びＴＣＲ配列を処理して、出力を生成することであって、出力が変異ペプチドとＴＣＲの両方に関連する免疫学的活性に関する情報を提供する、処理して、出力を生成することと、出力に基づいてレポートを生成することとを含む方法が提供される。

いくつかの実施形態において、１つ以上のデータプロセッサと、命令を含む非一過性コンピュータ可読記憶媒体であって、該命令が、１つ以上のデータプロセッサ上で実行されると、１つ以上のデータプロセッサに、本明細書に開示される１つ以上の方法の一部又は全部を実行させる、命令を含む非一過性コンピュータ可読記憶媒体と、を備えるシステムが提供される。

いくつかの実施形態において、非一時的機械可読記憶媒体に有形に具現化され、１つ以上のデータプロセッサに、本明細書に開示される１つ以上の方法の一部又は全部を実行させるように構成された命令を含む、コンピュータプログラム製品が提供される。

本開示のいくつかの実施形態は、１つ以上のデータプロセッサを備えるシステムを含む。いくつかの実施形態において、システムは、命令を含む非一時的コンピュータ可読記憶媒体であって、該命令が、１つ以上のデータプロセッサ上で実行されると、１つ以上のデータプロセッサに、本明細書に開示される１つ以上の方法の一部又は全部及び／又は１つ以上のプロセスの一部又は全部を実行させる、命令を含む非一時的コンピュータ可読記憶媒体を含む。本開示のいくつかの実施形態は、１つ以上のデータプロセッサに、本明細書に開示される１つ以上の方法の一部又は全部、及び／又は１つ以上のプロセスの一部又は全部を実行させるように構成された命令を含む、非一時的機械可読記憶媒体において有形に具現化されたコンピュータプログラム製品を含む。

使用された用語及び表現は、限定ではなく説明の用語として使用され、そのような用語及び表現の使用において、示されて説明された特徴の均等物又はその一部を除外する意図はないが、特許請求の範囲に記載された発明の範囲内で様々な変更が可能であることが認識される。したがって、特許請求の範囲に記載された本発明は、実施形態及び任意の特徴によって具体的に開示されているが、本明細書に開示された概念の変更及び変形は、当業者に任されてもよく、そのような変更及び変形は、添付の特許請求の範囲によって定義される本発明の範囲内にあると見なされることを理解されたい。

本開示は、以下の添付の図面と併せて説明される：

図１は、様々な実施形態による予測モデルを訓練するためのプロセスを示す。

図２は、１つ以上の実施形態による機械学習モデルを使用して予測を生成するためのプロセスのフローチャートである。

図３は、１つ以上の実施形態による、図１の機械学習モデルの１つの構成の概略図である。

図４Ａは、１つ以上の実施形態による機械学習モデル４００の概略図である。

図４Ｂは、１つ以上の実施形態による機械学習モデル４００の異なる構成の概略図である。

図４Ｃは、１つ以上の実施形態による機械学習モデル４００の異なる構成の概略図である。

図５は、１つ以上の実施形態による注意ブロック５００の概略図である。

図６は、１つ以上の実施形態による、例示的な自己注意層を使用して配列表現を処理するためのプロセスのフローチャートである。

図７は、１つ以上の実施形態による、上記の図６で説明したプロセス６００を示す概略図である。

図８は、様々なペプチドの免疫活性に関する情報を生成する処理のフローチャートである。

図９は、様々なペプチドの免疫活性に関する情報を生成する処理のフローチャートである。

図１０は、１つ以上の実施形態による、機械学習モデルを訓練し、訓練された機械学習モデルを使用してペプチド及びＭＨＣに関する予測を生成するためのプロセスのフローチャートである。

図１１は、１つ以上の実施形態による訓練データの表を含む図である。

図１２は、１つ以上の実施形態によるネオ抗原候補及び対応する潜在的ネオエピトープ候補の図である。

図１３は、１つ以上の実施形態による、機械学習モデルを訓練し、訓練された機械学習モデルを使用してペプチド及びＴＣＲに関する予測を生成するためのプロセスのフローチャートである。

図１４Ａ、１４Ｂ及び１４Ｃは、１つ以上の実施形態による例示的な精度－再現率（ＰＲ）曲線を含むプロットである。

図１５は、１つ以上の実施形態による試験データセット中の各対立遺伝子について、モデルＡ及びＰ－ＭＨＣ－Ｉモデルの溶出－リガンド出力の例示的な平均精度値を比較するプロットである。

図１６Ａ及び１６Ｂは、１つ以上の実施形態による、ヒトデータセットに対するＰ－ＭＨＣ－Ｉモデルの性能をマウスデータセットに対するＰ－ＭＨＣ－Ｉモデルの性能と比較するプロットである。

図１７Ａ及び図１７Ｂは、１つ以上の実施形態による提示データに対するＰ－ＭＨＣ－ＩＩモデルの性能をモデルＣと比較するプロットである。

図１８Ａ及び１８Ｂは、それぞれ１つ以上の実施形態による、ホールドアウトデータセットに対するＰ－ＭＨＣ－ＩＩモデルの性能をモデルＣと比較するプロットである。

図１９は、１つ以上の実施形態による、試験データセットに対するモデルＣを用いたＰ－ＭＨＣ－ＩＩモデルの平均精度の遺伝子型ごとの比較を示すプロットである。

図２０は、１つ以上の実施形態による、ＣＤ８多量体アッセイデータ（第１の試験免疫原性データセット）に対するＰ－ＭＨＣ－Ｉモデル（ＥＬ出力）、モデルＡ（ＥＬ出力）及びモデルＢ（ＢＡ出力）の性能を示す受信者動作特性（ＲＯＣ）曲線のプロットである。

図２１Ａ～Ｄは、１つ以上の実施形態によるＥＬＩＳｐｏｔアッセイ（第１の試験免疫原性データセット）に対するＰ－ＭＨＣ－Ｉモデル（Ｅｌ出力）、モデルＡ（ＥＬ出力）及びモデルＢ（ＢＡ出力）の性能を示すプロットである。

図２２Ａ～Ｄは、それぞれ、１つ以上の実施形態による、モデルＡ（ＢＡ出力）、モデルＡ（ＥＬ出力）、モデルＣ（ＢＡ出力）、及びＰ－ＭＨＣ－Ｉモデル（ＥＬ出力）の性能を示すプロットである。

図２３は、１つ以上の実施形態による、ＴＥＳＬＡ多量体アッセイデータを使用した、モデルＡ（ＥＬ出力）、モデルＢ（ＢＡ出力）、及びＰ－ＭＨＣ－Ｉモデル（ＥＬ出力）のＲＯＣ曲線を比較したプロットの図である。

添付の図面において、同様の構成要素及び／又は特徴は、同じ参照ラベルを有することができる。さらに、同じタイプの様々な構成要素は、参照ラベルの後に同様の構成要素を区別するダッシュ及び第２のラベルを続けることによって区別されることができる。本明細書において第１の参照符号のみが使用される場合、説明は、第２の参照符号に関係なく、同じ第１の参照符号を有する同様の構成要素のいずれかに適用可能である。

Ｉ．概要
どの変異ペプチド（例えば、ネオ抗原）を個別化ワクチンの候補として選択するかを予測できることの重要性を認識して、本明細書に記載の実施形態は、そのような予測を現在利用可能な様々な方法及びシステムよりも正確にするための方法論及びシステムを提供する。本明細書に記載される実施形態は、例えば、限定されないが、ワクチン候補としての変異ペプチドの生存率を決定するために変異ペプチドを特徴付ける配列を分析するときに生成される偽陽性の数を減らすことによって予測性能を改善するために機械学習方法論及びシステムを使用する。

例えば、本明細書に記載の実施形態は、対象からの疾患試料から同定された配列を分析するために機械学習モデル、並びに機械学習モデル及び／又は機械学習モデルによって生成された出力を使用する様々な方法論を提供する。疾患試料中に検出された変異ペプチドが主要組織適合遺伝子複合体（ＭＨＣ）分子と相互作用するかどうか（例えば、ＭＨＣ－Ｉ、ＭＨＣ－ＩＩ）、変異ペプチドがＭＨＣ分子と相互作用する程度、又はその両方を予測するために、機械学習モデルは、最初に、ＭＨＣ分子に対応するＭＨＣ配列の表現の処理とは別に、変異ペプチドを特徴付ける配列の表現を処理する。変異ペプチドを特徴付ける配列は、バリアントコード配列と呼ばれ得る。ＭＨＣ配列は、ＭＨＣ分子の完全な配列の少なくとも一部（例えば、完全な配列、ペプチドと相互作用する部分であるＭＨＣ分子の疑似配列－結合ポケット、疑似配列を含む他のいくつかの部分等）で構成され得る。

機械学習モデルは、処理の様々なサブシステムを含む。機械学習モデルは、例えば、表現サブシステム、表現注意サブシステム、複合サブシステム、複合注意サブシステム、及び出力サブシステムを含むことができる。各「サブシステム」は、１つ以上のブロックから構成されてもよく、各ブロックは、１つ以上のサブブロック及び／又は層から構成される。サブブロックは、任意の数の層（又はユニット）から構成され得る。

表現サブシステムは、ペプチド配列（バリアントコード配列を含み得る）のペプチド表現及びＭＨＣ配列のＭＨＣ表現を生成するために使用され得る。表現注意サブシステムは、ＭＨＣ配列の提示とは独立して又は別個に（例えば、並行して）ペプチド配列の提示を処理するために使用される。これらの２つの並列処理経路は、同様に又は異なって構成されてもよいが、それぞれ少なくとも１つの注意機構を含む。これらの並列処理経路を介してペプチド配列及びＭＨＣ配列の表現を処理することにより、機械学習モデルの予測性能が改善される。

さらに、本明細書に記載の実施形態は、一連の生物学的事象に対応するモデルを訓練することは、単一の生物学的事象に対応するモデルを訓練することよりも著しく多くのデータを必要とし得ることを認識し、考慮する。配列分析のためのモデルを訓練することは、潜在的に観察可能な配列の数が非常に多いため、特に複雑であり得る。数百万の潜在的ネオ抗原が存在するだけでなく、例えば、ＭＨＣクラスＩ分子のタンパク質をコードする遺伝子も高度に多型性であり、クラスＩヒトＭＨＣの対立遺伝子はほぼ２０，０００個存在する。したがって、本明細書に記載の実施形態は、訓練の複雑さを低減し、訓練性能を改善する機械学習モデルを訓練するための方法論及びシステムを提供する。例えば、訓練に使用されるバリアントコード配列は、閾値アミノ酸長（例えば、１４アミノ酸）以下のアミノ酸長を有するバリアントコード配列を使用して訓練が行われるように選択及び／又はトリミングされ得る。閾値アミノ酸長以下の長さを有するバリアントコード配列を含む訓練データセットを生成することは、訓練の全体的な複雑さを低減し、訓練及び／又は予測性能を改善することができる（例えば、エポックごとの性能メトリックの変化を低減し、それによって予測性能を改善する）。

したがって、本明細書に開示される技術は、変異ペプチド等のペプチドに関連する免疫学的活性に関する予測を生成するための機械学習ベースのアプローチを含む。１つ以上予測を含む出力を生成する機械学習モデルが提供される。出力は、例えば、１つ以上の相互作用予測、１つ以上の相互作用親和性予測、１つ以上の免疫原性予測、又はそれらの組み合わせを生成し得る。相互作用予測は、ペプチド（例えば、所与のバリアントコード配列によって同定されるアミノ酸の所与の順序付きセットを含む変異ペプチド）が１つ以上の標的相互作用を経験するかどうかに関する予測を含み得る。標的相互作用は、例えば、ＩＰＣ（例えば、ＭＨＣ分子、ＴＣＲ）への結合、細胞表面にＭＨＣ分子によって提示されること、又は別のタイプの標的相互作用であり得る。相互作用親和性予測は、１つ以上の標的相互作用に対する親和性の予測を含み得る。例えば、相互作用親和性予測は、ペプチド－ＭＨＣ結合に対する結合親和性を示し得る。相互作用（例えば、結合）親和性は、相互作用（例えば、結合）の傾向、強度、及び／又は安定性に基づいて決定され得る。

さらに、出力は、ペプチドの免疫原性を含み得るか、又は示し得る。例えば、出力は、ペプチドが特定の対象又は対象の群において免疫応答を誘因するかどうかを予測し得る。これらの予測は、複数の変異ペプチドのそれぞれについて生成することができ、予測は、ワクチンに含める及び／又は処置に使用する１つ以上の変異ペプチドを選択するために使用することができる。例えば、限定されないが、高い予測された結合親和性、腫瘍細胞表面に提示される高い確率、及び／又は高い予測された免疫原性に関連する変異ペプチドは、ワクチンへの包含又は処置における使用のために選択され得る。

本明細書に記載の実施形態は、注意ベースの機械学習モデルを使用して、ペプチド及び免疫タンパク質複合体（ＩＰＣ）に関する免疫学的活性に関する予測を生成するための方法及びシステムを提供する。ＩＰＣはＭＨＣ又はＴＣＲであり得る。ペプチドのセットを特徴付けるペプチド配列のセットにアクセスすることができ、ペプチド配列のセットの各ペプチド配列は、対象からの疾患試料を処理することによって同定されている。免疫タンパク質複合体（ＩＰＣ）配列は、対象の免疫タンパク質複合体（ＩＰＣ）について同定され得る。ペプチド配列のセットを表すペプチド表現のセットは、出力を生成するために、注意ベースの機械学習モデルの初期注意サブシステムにおける第１の注意ブロックと、初期注意サブシステムにおける第２の注意ブロックを使用してＩＰＣ配列を表す免疫タンパク質複合体（ＩＰＣ）表現とを使用して処理される。出力は、対応するペプチド－ＩＰＣ組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも１つを含む。出力に基づいてレポートが生成される。

以下の説明は、これらの方法及びシステム並びに生成されたレポートが処置を計画、設計、及び／又は製造するために使用され得る方法の例示的な実施態様を提供する。

ＩＩ．注意ベースの機械学習モデリングを用いた変異ペプチドを含む免疫学的活性に関連する予測
ＩＩ．Ａ．概要
ここで図面を参照すると、図１は、様々な実施形態による予測システム１００のブロック図である。予測システム１００は、ペプチド、特に変異ペプチドの免疫学的活性に関する予測を生成するために使用される。予測システム１００は、コンピューティングプラットフォーム１０２と、データストア１０４と、ディスプレイシステム１０６とを含む。コンピューティングプラットフォーム１０２は、様々な形態をとることができる。１つ以上の実施形態において、コンピューティングプラットフォーム１０２は、互いに通信する単一のコンピュータ（又はコンピュータシステム）又は複数のコンピュータを含む。他の例では、コンピューティングプラットフォーム１０２は、クラウドコンピューティングプラットフォームの形態をとる。

データストア１０４及び表示システム１０６は各々、コンピューティングプラットフォーム１０２と通信する。いくつかの例では、データストア１０４、ディスプレイシステム１０６、又はその両方は、コンピューティングプラットフォーム１０２の一部と見なされるか、又はそうでなければ統合され得る。したがって、いくつかの例では、コンピューティングプラットフォーム１０２、データストレージ１０４、及びディスプレイシステム１０６は、互いに通信する別個の構成要素であってもよいが、他の例では、これらの構成要素のいくつかの組み合わせが一緒に統合されてもよい。異なる構成要素間の通信は、任意の数の有線通信リンク、無線通信リンク、光通信リンク、又はそれらの組み合わせを使用して実施され得る。

予測システム１００は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせを使用して実装され得る配列アナライザ１０８を含む。１つ以上の実施形態において、配列アナライザ１０８はコンピューティングプラットフォーム１０２に実装される。配列アナライザ１０８は、処理のための配列データ１１０を受信する。例えば、配列データ１１０は、配列解析器１０８への入力として送信されてもよく、データストア１０４若しくは何らかの他の種類の記憶装置（例えば、クラウドストレージ）から検索されてもよく、クラウドストレージからアクセスされてもよく、又は何らかの他の方法で取得されてもよい。場合によっては、倍列データ１１０は、入力デバイスを介してユーザによって入力されたユーザ入力の受信に応答してデータストア１０４から検索され得る。

配列データ１１０は、試料１１２のセットの処理から生成され得る。試料１１２のセットは、１人以上の対象（例えば、疾患試料、健康な試料、それらの組み合わせ）からの１人以上の生物学的試料の形態をとることができる。試料１１２のセットは、対象の腫瘍から得られた試料を含み得る。腫瘍は、例えば、肺がん、黒色腫、乳がん、卵がん、前立腺がん、腎臓がん、胃がん、結腸がん、精巣がん、頭頸部がん、膵がん、脳がん、Ｂ細胞リンパ腫、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ性白血病、Ｔ細胞リンパ性白血病、非小細胞肺がん、小細胞肺がん、又はそれらの組み合わせの症状であり得る。

試料１１２のセット中の試料は、例えば、様々な免疫タンパク質複合体（ＩＰＣ）分子及び様々なペプチド、又はそれらの組み合わせを含み得る。試料１１２のセットが疾患試料を含む場合、ペプチドは、１つ以上の変異ペプチド（例えば、ネオ抗原）を含み得る。ＩＰＣ分子は、例えば、様々なＭＨＣ分子、様々なＴＣＲ分子、又はそれらの組み合わせを含み得る。

１つ以上の実施形態において、試料１１２のセットは、免疫タンパク質複合体（ＩＰＣ）１１４（例えば、ＭＨＣクラスＩ分子、ＭＨＣクラスＩＩ分子、ＴＣＲ等）及びアミノ酸鎖１１６を含む。アミノ酸鎖１１６は、ペプチド１１８、Ｎフランク１２０、及びＣフランク１２２を含むアミノ酸の鎖であり得る。ペプチド１１８は、ペプチド１１８とＮフランク１２０との間のＮ末端を含む又は除外するものとして、及びペプチド１１８とＣフランク１２２との間のＣ末端を含む又は除外するものとして定義され得る。ペプチド１１８は、対応する参照配列と比較した場合、ペプチド１１８が１つ以上のバリアント（例えば、１つ以上の配列変化）を含む場合、変異ペプチドと見なされる。いくつかの実施形態において、試料１１２のセットはまた、免疫タンパク質複合体１２３（例えば、ＭＨＣクラスＩ分子、ＭＨＣクラスＩＩ分子、ＴＣＲ等）を含む。

試料１１２のセットは、配列データ１１０を生成するために処理され得る。いくつかの実施形態において、試料１１２のセット内の複数の試料が異なる時間に処理され得る場合。いくつかの実施形態において、予測システム１１０は、配列データ１１０を生成するために試料１１２のセットの処理で使用される試料アナライザを含む。配列データ１１０は、例えば、少なくとも一つの免疫タンパク質複合体（ＩＰＣ）配列１２４（例えば、免疫タンパク質複合体１１４に対応する１つのＩＰＣ配列１２４）及び少なくとも１つのペプチド配列１２６（例えば、ペプチド１１８に対応する１つのペプチド配列１２６）を含む。配列データ１１０はまた、それぞれのペプチド配列１２６に対応する少なくとも１つのＮフランク配列１２８（例えば、Ｎフランク１２０に対応する１つのＮフランク配列１２８）、少なくとも１つのＣフランク配列１３０（例えば、Ｃフランク１２２に対応する１つのＣフランク配列１３０）、又はその両方を含み得る。

免疫タンパク質複合体１１４がＭＨＣの形態をとる場合、ＩＰＣ配列１２４は、例えば、ＭＨＣの少なくとも一部を特徴付けるＭＨＣ配列であり得る。免疫タンパク質複合体１１４がＴＣＲの形態をとる場合、ＩＰＣ配列１２４は、例えば、ＴＣＲの少なくとも一部を特徴付けるＴＣＲ配列であり得る。更に他の実施形態において、ＩＰＣ配列１２４は、それぞれ、ＴＣＲ分子にペプチドを提示することができるＴＣＲ分子の少なくとも一部及びＭＨＣ分子の少なくとも一部を特徴付けるＴＣＲ配列及びＭＨＣ配列の両方を含み得る。いくつかの実施形態において、配列データ１１０は、ＭＨＣの形態の少なくとも一部の免疫タンパク質複合体１１４を特徴付けるＭＨＣ配列の形態のＩＰＣ配列１２４、並びに試料１１２のセット中のＴＣＲ（例えば、免疫タンパク質複合体１２３）の少なくとも一部を特徴付ける別個のＴＣＲ配列１３１を含み得る。

ペプチド配列１２６は、ペプチド１１８の少なくとも一部を特徴付ける。Ｎフランク配列１２８は、Ｎフランク１２０の少なくとも一部を特徴付ける。例えば、Ｎ末端から上流のアミノ酸（又はアミノ酸残基）の数が多くなり得るので、Ｎフランク１２０の対応する配列をトリミングして、Ｎフランク配列１２８を生成することができる。Ｃフランク配列１３０は、Ｃフランク１２２の少なくとも一部を特徴付ける。場合によっては、Ｃ末端から下流のアミノ酸（又はアミノ酸残基）の数が多い場合、Ｃフランク１２２の対応する配列をトリミングして、Ｃフランク配列１３０を生成することができる。

配列アナライザ１０８は、処理のための入力として配列データ１１０を受信する。配列アナライザ１０８は、配列データ１１０を処理する機械学習モデル１３２を含む。いくつかの実施形態において、配列解析器１０８は、処理のために機械学習モデル１３２に直接送信される。他の実施形態において、配列アナライザ１０８は、処理のために配列スデータ１１０を機械学習モデル１３２に送る前に配列データ１１０を前処理する。

機械学習モデル１３２は、いくつかの異なる方法のいずれかで実装することができる。１つ以上の実施形態において、機械学習モデル１３２は、注意ベースの機械学習モデルの形態をとる。機械学習モデル１３２は、訓練モード又は予測モードのいずれかで使用することができる。訓練モードでは、機械学習モデル１３２は、訓練データセット１３３を使用して訓練される。訓練データセットを形成し得るデータの例は、セクションＩＩ．Ｅにおいて以下で更に説明される。機械学習モデル１３２は、予測モードで使用できるように訓練される。

機械学習モデル１３２は、ＩＰＣ処理経路１３４を介してＩＰＣ配列１２４を処理し、ペプチド処理経路１３６を介してペプチド配列１２６を処理する。ＩＰＣ及びペプチドに対するこれらの２つの経路の分離は、機械学習モデル１３２の改善された予測性能を可能にする。いくつかの実施形態において、機械学習モデル１３２は、Ｎフランク処理経路１３８を介してＮフランク配列１２８を、Ｃフランク処理経路１４０を介してＣフランク配列１３０を、又はその両方を更に処理する。

ＩＰＣ処理経路１３４は、１つ以上の異なる経路から構成されてもよい。例えば、場合によっては、ＩＰＣ処理経路１３４は、処理するためのＭＨＣ処理経路の形態をとり、例えば、ＭＨＣ配列の形態のＩＰＣ配列１２４である。他の場合には、ＩＰＣ処理経路１３４は、処理のためのＴＣＲ処理経路、例えばＴＣＲシーケンスの形態のＩＰＣ配列１２４を含む。更に他の場合では、ＩＰＣ処理経路１３４は、ＭＨＣ配列とＴＣＲ配列の両方を含むＩＰＣ配列１２４を処理するための処理経路を含む。いくつかの実施形態において、ＩＰＣ処理経路１３４がＭＨＣ処理経路の形態をとる場合、機械学習モデル１３２はまた、例えばＴＣＲ配列１３１を処理するためのＴＣＲ処理経路１４２を含む。これらの異なる処理経路の実施例は、以下により詳細に記載される。

機械学習モデル１３２は、配列データ１１０を処理して、レポート１４４を生成するために使用される出力を生成する。レポート１４４は、機械学習モデル１３２の正確な出力を含むことができ、出力の変換された若しくはフィルタにかけたバージョン、又はその両方を含むことができる。場合によっては、配列アナライザ１０８は、機械学習モデル１３２の出力に基づいて通知、勧告、アラート、又は他の情報を生成することができ、この追加情報はレポート１４４に含まれる。

レポート１４４は、例えば、１つ以上のペプチドに関する関心対象の免疫学的活性に関する情報（例えば、１つ以上の変異ペプチド）を含む出力であり得る。例えば、レポート１４４は、ペプチド１１８及び免疫タンパク質複合体１１４（例えば、ＭＨＣ）、ペプチド及び免疫タンパク質複合体１２３（例えば、ＴＣＲ）、又はその両方に関連する免疫学的活性に関する情報を含み得る。レポート１４４は、例えば、相互作用情報１４６、免疫原性情報１４８、又はその両方を含み得る。相互作用情報１３４６は、ペプチド１１８と免疫タンパク質複合体１１４との間、ペプチド１１８と免疫タンパク質複合体１２３との間、又はその両方の相互作用の選択されたセットに関する予測を提供し得る。免疫原性情報１４８は、ペプチド１１８の免疫原性に関する予測を提供し得る。

１つ以上の実施形態において、レポート１４４は、ディスプレイシステム１０６のグラフィカルユーザインターフェース１５０に表示されてもよい。ユーザは、グラフィカルユーザインターフェース１５０を介してレポート１４４を閲覧し、及び／又はレポート１４４と対話し、レポート１４４を使用して、試料１１２のセットの少なくとも１つが得られた（又は収集された）対象の処置に関する決定を下すことができる。

いくつかの実施形態において、予測システム１００は、遠隔システム１５２にレポート１４４を送る（例えば、無線で）。遠隔システム１５２は、クラウドコンピューティングプラットフォーム、クラウドストレージ、別のコンピュータシステム、ユーザ装置（例えば、スマートフォン、タブレット、ラップトップ等）、又は何らかの他の種類のプラットフォームであってよい。いくつかの実施形態において、遠隔システム１５２は、処置作成システム（又は機械）又はその一部であってもよい。

図２は、１つ以上の実施形態による機械学習モデルを使用して予測を生成するためのプロセスのフローチャートである。プロセス２００は、図１に記載の予測システム１００を使用して実施することができる。例えば、プロセス２００は、図１の配列アナライザ１０８及び機械学習モデル１３２を使用して実施することができる。

プロセス２００は、例えば、工程２０２を含むことができる。工程２０２は、訓練ペプチド配列データ、訓練免疫タンパク質複合体（ＩＰＣ）データ、及び訓練免疫学的活性データを含む訓練データセットを使用して、注意ベースの機械学習モデルを訓練することを含む。

工程２０４、ペプチドのセットを特徴付けるペプチド配列のセットにアクセスすることであって、ペプチド配列のセットの各ペプチド配列が、対象からの疾患試料を処理することによって同定されている、ペプチド配列のセットにアクセスすることを含む。

工程２０６は、対象の免疫タンパク質複合体（ＩＰＣ）について同定された免疫タンパク質複合体（ＩＰＣ）配列にアクセスすることを含む。

工程２０８は、注意ベースの機械学習モデルの初期注意サブシステム内の第１の注意ブロックを用いてペプチド配列のセットを表すペプチド表現のセットと、初期注意サブシステム内の第２の注意ブロックを用いてＩＰＣ配列を表す免疫タンパク質複合体（ＩＰＣ）表現とを処理して、出力を生成することであって、出力が、対応するペプチド－ＩＰＣ組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも１つを含む、処理して、出力を生成することを含む。第１の注意ブロックは、第２の注意ブロックから独立している。

工程２１０は、出力に基づいてレポートを生成することを含む。レポートは、処置及び／又は処置計画の設計及び／又は製造を容易にするために使用され得る。例えば、レポートは、ペプチドのセットのペプチドのサブセットを同定するか、又は対象の処置を生成する際に使用するためにペプチドのサブセットに対してどのペプチドを選択すべきかの指示を提供し得る。処置は、例えば、ペプチドのサブセット、ペプチドのサブセットのそれぞれの前駆体、又は他の何らかの形態であり得る。

ＩＩ．Ｂ．機械学習モデルの例示的なアーキテクチャ
ＩＩ．Ｂ．１．一般的な特徴及び実装上の検討事項
上述したように、様々な実施形態において、本明細書に記載の実施形態の機械学習モデル、例えば機械学習モデル１３２は、注意ベースの機械学習モデル（例えば、１つ以上の注意層を含む）であってもよい。機械学習モデル１３２は、例えば、１つ以上の自己注意層を実装することができる。機械学習モデル１３２は、自己注意機構、グローバル注意機構、ソフト注意機構、ローカル注意機構、及び／又はハード注意機構を使用することができる。

場合によっては、注意ベースの機械学習モデルは、アラインメント（例えば、ペプチド配列とＭＨＣ配列との間）を学習するように構成することができる。アラインメントは、例えば、コンテンツベースの関数、加法関数、位置ベースの関数、ドット積関数、及び／又はスケーリングされたドット積関数等の注意ベースのアラインメントスコア関数を使用して学習及び実行することができる。機械学習モデル１３２は、１つ以上のエンコーダ、１つ以上の変換器、及び／又は１つ以上の変換機エンコーダを含むことができる。いくつかの実施形態において、機械学習モデル１３２は、Ｖａｓｗａｎｉ，Ａ，ｅｔａｌ．，’’ＡｔｔｅｎｔｉｏｎｉｓＡｌｌＹｏｕＮｅｅｄ．’’３１^ｓｔＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ，ｈｔｔｐ：／／ｐａｐｅｒｓ．ｎｉｐｓ．ｃｃ／ｐａｐｅｒ／７１８１－ａｔｔｅｎｔｉｏｎ－ｉｓ－ａｌｌ－ｙｏｕ－ｎｅｅｄ．ｐｄｆ，２０１７に記載されているような１つ以上の特性（例えば、１つ以上のエンコーダ等）を使用することができる。

機械学習モデル１３２は、例えば、入力（例えば、例えば、アミノ酸配列、核酸配列、コドン配列等を表す配列表現）をより高い次元空間に変換するように構成された１つ以上のエンコーダを含むことができる。エンコーダは、変換器エンコーダであってもよい。エンコーダは、注意ベースの技術を実施するように、及び／又は１つ以上の注意層（例えば、１つ以上の自己注意層）を含むように構成され得る。

いくつかの実施形態において、機械学習モデル１３２は、コンボリューション層、長期短期メモリユニット、回帰構造、及び／又は回帰成分を使用又は省略することができる。例えば、場合によっては、機械学習モデル１３２は、コンボリューション層、反復構造、長期短期記憶（ＬＳＴＭ）ユニット、及び／又は回帰成分を含まない。場合によっては、機械学習モデル１３２は、回帰機械学習モデルではなく、及び／又は回帰ニューラルネットワークを含まない。場合によっては、機械学習モデルは、回帰ニューラルネットワークを含み、及び／又は位置エンコーディングを使用して１つ以上の配列にわたって時間情報を提供することができる。場合によっては、機械学習モデル１３２は、畳み込み機械学習モデルではなく、及び／又はコンボリューションニューラルネットワークを含まない。

機械学習モデル１３２は、複数のサブシステム（又はサブネットワーク）を含むことができる。複数のサブシステムの各々は、エンコーダ、変圧器エンコーダ、１つ以上注意層、及び／又は１つ以上の自己注意層を含むことができる。機械学習モデル１３２は、ＩＰＣ配列の一部又は全部のＩＰＣ表現を処理するために使用される第２の注意ブロックとは無関係にペプチド表現を処理するために使用される第１の注意ブロックを有する注意ブロックを含み得る（例えば、ＭＨＣ疑似配列）。これらの注意ブロックの独立性は、機械学習モデルを使用するときの並列処理を容易にすることができる。さらに、独立性は、機械学習モデル１３２の性能（例えば、予測の精度）を改善することができる。

機械学習モデル１３２内で、任意の所与の層における出力値が、対応する入力値だけでなく、１つ、複数、又は全ての他の入力値にも依存するように、注意ベースの機構を構成することができる。したがって、機械学習モデル１３２、損失関数、及び／又は最適化関数は、所与のＭＨＣ分子（対応する入力によって表される）が所与のペプチド（別の対応する入力によって表される）に結合し、及び／又はそれを提示し、及び／又は所与のペプチドに応答して免疫原性を誘因する程度を表す単一の位置に対応する出力を最適化するように構成され得る。場合によっては、変圧器エンコーダの複数の出力のいずれかがそのような発生確率を表すことができ、及び／又はそれに応じてモデルを訓練することができる。いくつかの例では、配列開始要素等のエンドポイント（例えば、余剰エンドポイント）は、結合、提示、及び／又は免疫原性確率を表し得る（訓練に応答して）。集約された出力は、例えば、別の層及び／又は別のサブシステム又は注意ブロック（例えば、注意層及び／又は自己注意層を含む、及び／又は変圧器エンコーダ及び／若しくはエンコーダ）に供給されてもよい。

場合によっては、他の層及び／又は他のサブシステム若しくは注意ブロックからの出力の１つ、２つ、又は全ての寸法は、他の層及び／又は他のサブシステム若しくは注意ブロックに供給される入力と同じサイズである。場合によっては、この他の層及び／又は他のサブシステム又は注意ブロックに供給される入力は、ＩＰＣ配列中のアミノ酸の数、ペプチド配列中のアミノ酸の数、並びに潜在的にＮフランク及びＣフランクの１つ以上のアミノ酸の数の合計以上である１つの軸に沿った長さを有する。場合によっては、入力の寸法の長さは、アミノ酸の総数よりも１つ長い。例えば、追加の特徴ベクトル（例えば、配列開始特徴ベクトル）がアミノ酸特異的特徴値に付加される場合、１つの軸に沿った入力の長さは、アミノ酸の合計数を超える場合がある。入力の別の寸法は、いくつかの特徴（例えば、ハイパーパラメータを介して定義される）を含むことができる。他の層及び／又は他のサブシステム又は注意ブロックによって生成される出力は、入力のサイズと同じサイズを有することができる。

他の層及び／又は他のサブネットワークによって生成された出力の値のサブセットは、別のニューラルネットワーク（例えば、完全接続フィードフォワードネットワーク）によって更に処理することができる。値のサブセットは、特徴値の１つのセットに対応することができる値の１次元ベクトルを含むことができる。１次元ベクトルは、配列開始特徴ベクトルに関連付けられた特徴値に対応し得る。

機械学習モデル１３２内のニューラルネットワークは、１つ以上の結果を出力するように構成することができる。１つ以上の結果は、例えば、数値結果、バイナリ結果、及び／又はカテゴリ結果を含むことができる。１つ以上の結果のそれぞれは、ＩＰＣ及びペプチドが特定のタイプ（例えば、一緒に結合する）の反応を受けるかどうか及び／又はその程度を予測することができる。機械学習モデル１３２は、目標時間（例えば、実数の暫定値をバイナリ及び／又はカテゴリ出力に変換するために、）の結果を生成するための１つ以上の活性化層を含むことができる。機械学習モデル１３２は、複数のタイプの予測（例えば、相互作用予測、相互作用親和性予測、及び／又は免疫原性予測）を生成するように訓練することができる。場合によっては、予測はバイナリ又はカテゴリであってもよい。他の予測は、非バイナリ又は非カテゴリであり得る。例えば、予測はスカラであってもよい。

機械学習モデル１３２は、アンサンブルモデルを含んでもよく、及び／又はアンサンブルモデル内に含まれてもよい。アンサンブルモデルは、訓練データセットの異なる部分を使用して訓練することができる複数の（例えば、同一）サブモデルを含むことができる。

ＩＩ．Ｂ．２．機械学習モデルの例示的構成
図３は、１つ以上実施形態による、図１の機械学習モデル１３２の１つの構成の概略図である。引き続き図１を参照して、機械学習モデル１３２について説明する。機械学習モデル１３２は、構成３００を有する。構成３００では、機械学習モデル１３２は、表現サブシステム３０２、初期注意サブシステム３０４、複合サブシステム３０６、複合注意サブシステム３０８、及び出力サブシステム３１０を含む。機械学習モデル１３２内の各「サブシステム」は、１つ以上のブロック、１つ以上のサブブロック、１つ以上の層、又はそれらの組み合わせで構成することができる。機械学習モデル１３２内の各「ブロック」は、１つ以上のサブブロック、１つ以上の層、又はそれらの組み合わせから構成されてもよい。機械学習モデル１３２の各「サブブロック」は、１つ以上の層（又はユニット）から構成されてもよい。

表現サブシステム３０２は、配列データ１１０を入力として受信し、配列データ１１０内の様々な配列に対する表現を生成する。「表現」は、例えば、要素のセット（例えば、各要素は１つ以上の値を含む）を含み得、各要素は、提示の親配列中の１つ以上のアミノ酸又は１つ以上の核酸を表すか又は同定する。例えば、親配列中の各アミノ酸は、アミノ酸を表すバイナリ列及び／又はベクトルとは異なる値のバイナリ列及び／又はベクトルによって表され得る。

初期注意サブシステム３０４は、これらの表現を入力として受信し、これらの表現を処理し、複合サブシステム３０６に送信される変換表現を生成する。初期注意サブシステム３０４は、様々な注意ブロックから構成され、その各々は、少なくとも１つの自己注意層を備える。

１つ以上の実施形態において、表現サブシステム３０２は、ペプチド配列１２６を処理してペプチド表現３１２を生成することができ、次いで、これは、初期注意サブシステム３０４の注意ブロック３１４によって処理されて、変換ペプチド表現３１６を生成する。この処理により、図１のペプチド処理経路１３６の少なくとも一部が形成され得る。さらに、表現サブシステム３０２は、ＩＰＣ配列１２４を処理してＩＰＣ表現３１８を生成することができ、次いで、これは、初期注意サブシステム３０４の注意ブロック３２０によって処理されて、変換ＩＰＣ表現３２２を生成する。この処理により、図１のＩＰＣ処理経路１３４の少なくとも一部が形成され得る。ＩＰＣ配列１２４がＭＨＣ配列である場合、ＩＰＣ表現３１８はＭＨＣ表現と呼ばれ、変換ＩＰＣ表現３２２は変換ＭＨＣ表現と呼ばれる。ＩＰＣ配列１２４がＴＣＲ配列である場合、ＩＰＣ表現３１８はＴＣＲ表現と呼ばれ、変換ＩＰＣ表現３２２は変換ＴＣＲ表現と呼ばれる。

いくつかの実施形態において、表現サブシステム３０２は、Ｎフランク配列１２８を処理してＮフランク表現３２４を生成することができ、次いで、これは、初期注意サブシステム３０４の注意ブロック３２６によって処理されて、変換Ｎフランク表現３２８を生成する。この処理により、図１のＮフランク処理経路１３８の少なくとも一部が形成され得る。いくつかの実施形態において、表現サブシステム３０２は、Ｃフランク配列１３０を処理してＣフランク表現３３０を生成することができ、次いで、これは、初期注意サブシステム３０４の注意ブロック３３２によって処理されて、変換Ｃフランク表現３３４を生成する。この処理により、図１のＣフランク処理経路１４０の少なくとも一部が形成され得る。

機械学習モデル１３２がＴＣＲ処理経路１４２も含む場合、表現サブシステム３０２は、ＴＣＲ配列１３１を処理してＴＣＲ表現３３６を生成することができ、ＴＣＲ表現はその後、変換ＴＣＲ表現３４０を生成するために初期注意サブシステム３０４内の注意ブロック３３８によって処理される。この処理により、図１のＴＣＲ処理経路１４２の少なくとも一部が形成され得る。

複合サブシステム３０６は、初期注意サブシステム３０４から出力された変換表現（例えば、変換ペプチド表現３１６、変換ＩＰＣ表現３２２、変換Ｎフランク表現３２８、変換Ｃフランク表現３３４、変換ＴＣＲ表現３４０、又はそれらの組み合わせ）を受信し、複合表現３４２を生成するための１つ以上の動作を実行する。複合表現３４２は、例えば、初期注意サブシステム３０４から出力される変換表現の集約体であってもよい。１つ以上の実施形態において、複合表現は、初期注意サブシステム３０４から出力される変換表現を連結する連結層を含んでもよい。いくつかの実施形態において、複合表現３４２は、１つ以上の追加の特徴ベクトル（例えば、変換された表現の開始又は終了に追加することができる）を含む。追加の特徴ベクトルは、例えば、それぞれの親配列で表される個々のアミノ酸に対応する特徴の数に等しい長さを有し得る。追加の特徴は、例えば、配列開始（ＢｏＳ）要素を含み得る。

複合表現３４２は、入力として複合注意サブシステム３０８に送られる。複合注意サブシステム３０８は、複合表現３４２を処理するための１つ以上の注意ブロックを含む。例えば、複合注意サブシステム３０８は、複合表現３４２を受信して処理する注意ブロック３４４（複合注意ブロックと呼ぶことができる）を含むことができる。複合注意サブシステム３０８の出力は、処理のために出力サブシステム３１０に送られ、図１で上述したようにレポート１４４を生成する。

図４Ａ～４Ｃは、１つ以上の実施形態による機械学習モデル４００の異なる構成の概略図である。

図４Ａは、１つ以上の実施形態による機械学習モデル４００の概略図である。機械学習モデル４００は、図１及び３の機械学習モデル１３２の実装形態の一例である。機械学習モデル４００は、注意ベースの機械学習モデルである。機械学習モデル４００は、図３の表現サブシステム４０１、初期注意サブシステム４０３、複合サブシステム４０５、複合注意サブシステム４０７、及び出力サブシステム４０９のそれぞれの実装例である、表現サブシステム３０２、初期注意サブシステム３０４、複合サブシステム３０６、複合注意サブシステム３０８、及び出力サブシステム３１０を含む。

表現サブシステム４０１は、ペプチド表現ブロック４０２及びＩＰＣ表現ブロック４０４を含む。いくつかの実施形態において、表現サブシステム４０１は、Ｎフランク表現ブロック４０６、Ｃフランク表現ブロック４０８、又はその両方を更に含む。いくつかの実施形態において、ＩＰＣ表現ブロック４０４がＭＨＣに対応し、ＭＨＣ表現ブロックとして使用される場合、表現サブシステム４０１はＴＣＲ表現ブロック４１０も含み得る。これらの異なる表現ブロックの各々は、少なくとも１つの埋め込み層を含み、例えば、位置エンコーダを含むことができる。

埋め込み層は、例えば、初期非数値表現（例えば、一連のアミノ酸識別子）を数値表現に変換して埋め込み表現を生成することによって、配列を埋め込むことができる。埋め込みは、例えば、ワン・ホット・エンコーディング、ＢＬＯＳＵＭ等の進化的に動機付けされた符号化、ランダム又は擬似ランダムに初期化された学習された埋め込み、又はそれらの組み合わせを使用して実行することができる。埋め込み表現は、コード化表現を生成するために位置的にコード化されてもよい。表現ブロックによって生成される配列表現は、コード化表現であってもよく、又はコード化表現と埋め込み表現との集約（例えば、連結又は和）であってもよい。

場合によっては、様々な注意機構は、入力データセット内の値の順序によって伝達される潜在的な情報を検出できないことがある。位置エンコーダが使用され、埋め込まれた表現に追加されてもよく、位置エンコーディングは、学習又は固定されたエンコーディングアルゴリズムを使用する。例えば、固定位置エンコーディングは、正弦及び／又は余弦関数（例えば、独立変数として配列内位置及び／又は寸法を有する）を使用して定義され得る。位置エンコーディングは、コード化表現と同じ次元を有することができる。位置エンコーディングは、埋め込み表現と合計されて、初期注意サブシステム４０３に供給される配列の位置指示埋め込み表現を生成することができる。

例えば、ペプチド表現ブロック４０２は、ペプチド配列（例えば、図１のペプチド配列１２６）を埋め込んで、埋め込まれたペプチド表現を生成する埋め込み層４１２と、埋め込まれたペプチド表現を位置的にコード化して、ペプチド配列を表すペプチド表現（例えば、図３のペプチド表現３１２）を生成する位置エンコーダ４１４とを含み得る。ＩＰＣ表現ブロック４０４は、ＩＰＣ配列（例えば、図１のＩＰＣ配列１２４）を埋め込んで埋め込みＩＰＣ表現を生成する埋め込み層４１６と、ＩＰＣ配列を表すＩＰＣ表現（例えば、図３のＩＰＣ表現３１８）を生成するために埋め込みＩＰＣ表現を位置的にコード化する位置エンコーダ４１８とを含むことができる。

さらに、Ｎフランク表現ブロック４０６は、埋め込まれたＮフランク表現を生成するためにＮフランク配列（例えば、図１のＮフランク配列１２８）を埋め込む埋め込み層４２０と、Ｎフランク配列を表すＮフランク表現（例えば、図３のＮフランク表現３２４）を生成するために埋め込みＮフランク表現を位置的にコード化する位置エンコーダ４２２とを含むことができる。Ｃフランク表現ブロック４０８は、埋め込まれたＣフランク表現を生成するためにＣフランク配列（例えば、図１のＣフランク配列１３０）を埋め込む埋め込み層４２４と、Ｃフランク配列を表すＣフランク表現（例えば、図３のＣフランク表現３３０）を生成するために埋め込みＣフランク表現を位置的にコード化する位置エンコーダ４２６とを含むことができる。

さらに、ＴＣＲ表現ブロック４１０は、埋め込みＴＣＲ表現を生成するためにＴＣＲ配列（例えば、図１のＴＣＲ配列１３１）を埋め込む埋め込み層４２８と、ＴＣＲ配列を表すＴＣＲ表現（例えば、図３のＴＣＲ表現３３６）を生成するために埋め込みＴＣＲ表現を位置的に符号化する位置エンコーダ４３０とを含むことができる。

配列を埋め込むことは、例えば、最初の非数値表現（例えば、一連のアミノ酸識別子を含む）を数値表現に変換することを含むことができる。埋め込みは、ワン・ホット・エンコーディング、ＢＬＯＳＵＭ等の進化的に動機付けされた符号化、又はランダム若しくは擬似ランダムに初期化された学習された埋め込みを含むことができる。表現は、配列及び埋め込み配列の位置エンコーディングの合計及び／又は集約（例えば、濃度）を含むことができる。

表現サブシステム４０１によって生成された表現は、処理のために初期注意サブシステム４０３に入力として送られる。初期注意サブシステム４０３は、表現内の一、複数、又は全ての位置の各々について、１つ以上の他の位置の各々の値に対する注意重み（例えば、どれだけの注意を払うべきかを示す）を決定する様々な自己注意機構を含むことができる。次いで、注意重みを使用して、位置の変換値を生成することができる。

初期注意サブシステム４０１は、注意ブロック４３２及び注意ブロック４３４含む。初期注意サブシステム４０１はまた、いくつかの実施形態において、注意ブロック４３６、注意ブロック４３８、注意ブロック４４０、又はそれらの組み合わせを含むことができる。注意ブロック４３２は、ペプチド表現ブロック４０２からペプチド表現を受信し、注意サブブロック４４２のセットを使用してペプチド表現を処理して、変換ペプチド表現を生成する（例えば、図３の変換ペプチド表現３１６）。注意サブブロックの実施態様の一例は、以下の図６でより詳細に説明される。注意ブロック４３４は、ＩＰＣ表現ブロック４０４からＩＰＣ表現を受信し、注意サブブロック４４４のセットを使用してＩＰＣ表現を処理して、変換ＩＰＣ表現を生成する（例えば、図３の変換ＩＰＣ表現３２２）。

さらに、含まれる場合、注意ブロック４３６は、Ｎフランク表現ブロック４０６からＮフランク表現を受信し、注意サブブロック４４６のセットを使用してＮフランク表現を処理して、変換Ｎフランク表現を生成する（例えば、図３の変換Ｎフランク表現３２８）。注意ブロック４３８は、Ｃフランク表現ブロック４０８からＣフランク表現を受信し、注意サブブロック４４８のセットを使用してＣフランク表現を処理して、変換Ｃフランク表現を生成する（例えば、図３の変換Ｃフランク表現３３４）。注意ブロック４４０は、ＴＣＲ表現ブロック４１０からＴＣＲ表現を受信し、注意サブブロック４５０のセットを使用してＴＣＲ表現を処理して、変換ＴＣＲ表現を生成する（例えば、図３の変換ＴＣＲ表現３４０）。

初期注意サブシステム４０３から出力された変換表現は、処理のために複合サブシステム４０５に送られる。複合サブシステム４０５は、複合ブロック４５２を含む。複合ブロック４５２は、初期注意サブシステム４０３から出力された変換表現を使用して複合表現（例えば、図３の複合表現３４２）を形成することができる。例えば、複合ブロック４５２は、変換表現を集約、連結、又は結合して、初期複合表現を形成することができる。場合によっては、複合ブロック４５２はまた、初期複合表現内に１つ以上の追加の特徴ベクトル（例えば、ＢｏＳベクトル）を追加する。

いくつかの実施形態において、複合サブシステム４０５はまた、位置エンコーダ４５４を含んでもよい。位置エンコーダ４５４は、初期複合表現を位置的に符号化し、それによって複合注意サブシステム４０７に出力される複合表現を生成する。位置エンコーダ４５４が複合サブシステム４０５内に存在しない場合、複合ブロック４５２によって生成される初期複合表現は、複合注意サブシステム４０７に出力される複合表現であってもよい。

複合注意サブシステム４０７は、注意ブロック４５６（複合注意ブロックとも呼ばれ得る）を含むことができる。注意ブロック４５６は、注意サブブロック４５８のセットを含む。注意ブロック４５６は、複合サブシステム４０５によって生成された複合表現を受信し、変換複合表現を生成するために、注意サブブロック４５８のセットを使用して複合表現を処理する。次いで、この変換された複合表現は、処理のために出力サブシステム４０９に出力される。

複合注意サブシステム４０７又は複合注意サブシステム４０７内の注意サブブロックによって生成される出力のサイズは、複合注意サブシステム４０７又は複合注意サブシステム４０７内の注意サブブロックに供給される入力のサイズに等しくてもよい。サイズは、例えば、ｍｘｎであってもよく、式中、ｍは、１によって考慮されているアミノ酸の総数（例えば、シーケンス表現の開始のために）に等しく、ｎは、特徴の数（所定の値）に等しい。単一の列（ｎ値を有する）を選択して更に処理することができる。単一の列は、第１の列及び／又は配列開始表現に関連付けられた列であり得る。複合注意サブシステム４０７への出力の一部又は複合注意サブシステム４０７内の注意サブブロックのみが出力サブシステム４０９に供給される場合、機械学習モデル４００の訓練は、ＩＰＣ配列及びペプチド関連配列（複数可）の両方に関する関連情報、並びに配列開始表現で表されるペプチド－ＩＰＣ相互作用を伝達する学習されたパラメータ値をもたらし得る。他の例では、集約表現は、単一のベクトルを生成するために複合注意サブシステム４０７からの出力後にプールされ、次いで出力サブシステム４０９に供給され得る。

出力サブシステム４０９は、最終出力を生成するための様々なブロック、サブブロック、層、又はそれらの組み合わせを含むことができる。１つ以上の実施形態において、出力サブシステム４０９は、ドロップアウトブロック４６０、完全接続ブロック４６２、及び出力ブロック４６４を備える。ドロップアウトブロック４６０は、例えば、１つ以上のドロップアウト層を備え得る。完全接続ブロック４６２は、例えば、１つ以上の完全接続層を含み得る。出力ブロック４６４は、例えば、出力をフィルタリング、選択、変換、又は生成するための１つ以上の層を含むことができる。例えば、出力ブロック４６４は、例えば選択された閾値又は範囲に基づいて、出力ブロック４６４で受信された入力のサブセットを選択するように構成された少なくとも１つのマックス層４６５を含むことができる。

場合によっては、変換複合表現は、完全接続ブロック４６２によって受信される第１の出力を生成するために、ドロップアウトブロック４６０によって受信されて処理される。完全接続ブロック４６２は、この第１の出力を受信及び処理して第２の出力を生成することができ、その少なくとも一部は出力ブロック４６４によって受信される。出力ブロック４６４は、その入力を受信して処理し、相互作用出力４６６、免疫原性出力４６８、又はその両方を生成する。

いくつかの実施形態において、完全接続ブロック４６２は、完全接続ブロック４６２に供給される次元数よりも小さい次元数を有する（例えば、所定の数の特徴よりも少ない）１つ以上の出力を生成するように構成され得る。例えば、完全接続ブロック４６２の出力は、単一の値、２つの値、又は３つの値を含むことができ、それぞれが標的相互作用又は免疫応答に関する予測に対応する。完全接続ブロック４６２は、例えば、単一の隠れ層、２つの隠れ層、又は３つ以上の隠れ層を含むことができる。初期隠れ層のノードの数は、後続の隠れ層のノードの数よりも多くてもよい。例えば、第１の隠れ層は２５６個のノードを含むことができ、第２の隠れ層は１２６個のノードを含むことができる。様々な実施形態において、完全接続ブロック４６２からの各出力は、例えば、バイナリ及び／又はカテゴリ結果（例えば、訓練された活性化関数を用いて）に変換され、及び／又はスケーリングされた数に変換され得る実数スコアを含み得る。例えば、スケーリングされた数は、０～１のスケールの確率を含むことができる。

相互作用出力４６６は、例えば、１つ以上の標的相互作用に関する相互作用予測のセット４７０、相互作用親和性予測のセット４７２、又はその両方を含み得る。相互作用予測は、例えば、ＩＰＣ（例えば、ペプチド－ＭＨＣ、ペプチド－ＴＣＲ）がペプチドに結合するかどうかの対応するペプチド－ＩＰＣ（例えば、ＭＨＣ、ＴＣＲ）の組み合わせの予測を含み得る。相互作用予測は、例えば、ＩＰＣ（例えば、ペプチド－ＭＨＣ）が細胞表面にペプチドを提示するかどうかの対応するペプチド－ＩＰＣ（例えば、ＭＨＣ）の組み合わせの予測を含み得る。さらに、相互作用親和性予測は、例えば、対応するペプチド－ＩＰＣ（例えば、ペプチド－ＭＨＣ、ペプチド－ＴＣＲ）の組み合わせについての標的相互作用に対する親和性の予測を含み得る。標的相互作用は、例えば、ペプチドとＩＰＣとの結合であり得る。標的相互作用に対する親和性は、例えば、結合親和性であり得、ペプチドとＩＰＣとの間の結合の強度、傾向、及び／又は安定性を示す。

免疫原性出力４６６は、免疫原性予測のセットを含む。免疫原性予測は、例えば、対応するペプチド－ＩＰＣ組み合わせに関する免疫原性の予測を含み得る。例えば、免疫原性予測は、目的の特定のＩＰＣ（例えば、ＴＣＲ又はＭＨＣ及びＴＣＲ複合体）に関して免疫応答を引き起こすペプチドの能力を示し得る。

場合によっては、完全接続ブロック４６２からの出力の第１の部分は出力ブロック４６４に送られ、完全接続ブロック４６２からの出力の第２の部分はその最終形態にあり、相互作用親和性予測４７２のセットとして使用される。

他の実施形態において、出力サブシステム４０９で受信された変換された複合表現は、完全結合ブロック４６２によって受信及び処理され、完全接続ブロックは、変換複合表現を処理して、ドロップアウトブロック４６０に送信される第１の出力を生成する。ドロップアウトブロック４６０又はその一部の出力は、その後、処理のために出力ブロック４６４に送られ得る。

いくつかの実施形態において、出力サブシステム４０９からの出力は、各ＩＰＣ（例えば、ＭＨＣ）対立遺伝子について、ペプチドがＩＰＣ対立遺伝子に結合するかどうか及び／又は確率に関する予測を含む複数の結果を含み得る。対立遺伝子特異的予測を出力してもよく、又は場合によっては、マックス層４６５を使用して対立遺伝子特異的予測の最大値を決定してもよく、最大値を出力することができる。

このようにして、出力サブシステム４０９は、相互作用出力４６６、免疫原性出力４６８、又はその両方の生成を可能にする任意の数の異なるブロック、サブブロック、及び／又は層を用いて、いくつかの異なる方法のいずれかで実施することができる。複合サブシステム４０５の前のＩＰＣ配列（例えば、ＭＨＣ配列、ＴＣＲ配列、結合ＭＨＣ－ＴＣＲ配列等）の処理とは別にペプチド配列を処理することにより、機械学習モデル４００の予測性能が向上する。例えば、複合表現を生成する前に、（適用可能であれば、ＴＣＲ表現ブロック４１０及び注意ブロック４４０を使用した変換ＴＣＲ表現の生成とは別に）ＩＰＣ表現ブロック４０４及び注意ブロック４３４を使用する変換ＩＰＣ表現の生成とは別の経路に沿って、ペプチド表現ブロック４０２及び注意ブロック４３２を使用して変換ペプチド表現を生成すると、出力生成出力サブシステム４０９の精度が向上する。さらに、そのような処理は、複数のペプチド－ＩＰＣ（及びペプチド－ＴＣＲ）の組み合わせがモジュール方式で考慮され得るので、効率的な処理（例えば、コンピューティングリソースの削減、処理の迅速化等を使用することができる）を可能にし得る。

様々な実施形態において、機械学習モデル４００は、どの特定のＩＰＣ対立遺伝子がペプチドに結合して提示すると予測されるかに関する自動判定を容易にすることができる。例えば、ＭＨＣ分子が６つのＭＨＣ対立遺伝子を含む場合（ヒトの場合のように）、ニューラルネットワーク処理の少なくとも一部の６回の反復（例えば、並行して）－各対立遺伝子に１回－が実行され得る。各処理は、入力として、ＭＨＣ対立遺伝子のＭＨＣ配列のＭＨＣ表現及びペプチドの配列の少なくとも一部のペプチド表現を使用し得る。各処理は、ペプチドがＭＨＣ対立遺伝子に結合する及び／又はＭＨＣ対立遺伝子によって提示されるかどうかに関する予測に対応する出力を生成することができる。対立遺伝子にわたる最も高い予測値（例えば、最も可能性の高い結合及び／又は提示予測を示す）に関連するペプチドは、そのペプチドが結合するであろうペプチド及びそのペプチドを提示するであろうペプチドであると推測され得る。

いくつかの例では、６つのＭＨＣ対立遺伝子について、６つの異なるＭＨＣ対立遺伝子配列を同じＩＰＣ表現ブロック４０４に通し、各対立遺伝子－ペプチドの組み合わせについて複合表現を生成することによって、６つの複合表現を生成することができる。いくつかの実施形態において、６つの複合表現のそれぞれは、埋め込み層で埋め込まれた配列開始トークン（ベクトル）と共に集約（例えば、連結）されてもよい。次いで、上述のように、６つの複合表現のそれぞれを複合サブシステム４０７に供給することができる。

いくつかの実施形態において、処理された配列開始トークンを抽出し、完全接続ブロック４６２に供給して、機械学習モデル４００の最終ノードに直接出力することができる。このＢｏＳトークンは、ノード提示尤度を表すことができる。場合によっては、完全接続ブロック４６２内の各完全接続サブブロックにドロップアウトが適用され、その後にバッチ正規化層が続く場合がある。いくつかの実施形態において、出力ブロック４６４は、約６対のペプチド－ＭＨＣ相互作用が、約６個の提示予測に活性化関数（例えば、ソフトマックス関数を含み得るマックス層４６５を介して）を適用することによって単一の選択されたＭＨＣ対立遺伝子に対応するように、デコンボリューションに使用される。訓練中、選択されたペプチド－ＭＨＣ相互作用出力は、０～１の値として正規化することができ、損失関数（例えば、バイナリ損失関数）を使用して真の提示値と比較して、モデルパラメータを調整するための誤差を生成することができる。

更に他の実施形態において、機械学習モデル４００に含まれる注意ブロック又は注意サブブロックのうちの１つ以上は、別の種類のネットワーク及び／又は処理ユニットで置き換えられて、１つ以上の配列の表現を変換することができる。転換は、様々なアミノ酸（特定の位置にある）が結合親和性及び／若しくは提示確率に影響を及ぼすと予測される程度、及び／又は単一の配列にわたって若しくは配列にわたって生じるアミノ酸の様々な特定の組み合わせ（特定の位置にある）が結合親和性及び／若しくは提示に影響を及ぼすと予測される程度を表し得る。例えば、１つ以上の注意サブブロックは、１つ以上のゲート付き回帰型ユニットに置き換えられてもよい。

図４Ｂは、１つ以上の実施形態による機械学習モデル４００の異なる構成の概略図である。図４Ｂに示す構成では、表現サブシステム４０１は集約表現ブロック４８０を含む。集約表現ブロック４８０は、例えば、ペプチド配列（例えば、図１のペプチド配列１２６）とＮフランク配列（例えば、図１のＮフランク配列１２８）及び／又はＣフランク配列（例えば、図１のＣフランク配列１３０）との集約体等の集約配列を受信する。

集約表現ブロック４８０は、例えば、集約配列を処理して、位置エンコーダ４８３によって受信され得る埋め込み集約表現を形成する埋め込み層４８２を含むことができ、位置エンコーダは、埋め込み集約表現を位置的にコード化し、集約表現４８４を生成する。したがって、集約表現４８４は、親ペプチド配列のペプチド提示４８５と、親Ｎフランク配列のＮフランク表現４８６及び／又は親Ｃフランク配列のＣフランク表現４８７とを含み得る。

集約表現４８４は、集約表現ブロック４８０から出力され、処理のために初期注意サブシステム４０３内の注意ブロック４８８に送られる。注意ブロック４８８は、集約表現を処理して、処理のために複合ブロック４５２に送信される変換集約表現４８４を生成する注意サブブロック４８９のセットを含む。

いくつかの実施形態において、集約表現ブロック４８０に送られた集約配列がＮフランク配列又はＣフランク配列のいずれかを含むが他方を含まない場合、機械学習モデル４００はまた、集約配列に含まれない配列の対応する表現ブロック（例えば、Ｎフランク表現ブロック４０６又はＣフランク表現ブロック４０８）、及び対応する注意ブロック（例えば、それぞれ注意ブロック４３６又は注意ブロック４３８）を含むことができる。

図４Ｃは、１つ以上の実施形態による機械学習モデル４００の異なる構成の概略図である。図４Ｃに示す構成では、表現サブシステム４０１によって生成されたペプチド表現及びＮフランク表現、並びに任意にＣフランク表現は、集約ブロック４９０に送られる。集約ブロック４９０は、これらの表現を集約（例えば、連結する）して、注意ブロック４９２に送られる集約表現を形成することができる。注意ブロック４９２は、集約表現を処理して、処理のために複合ブロック４５２に送信される変換集約表現を生成する注意サブブロック４９４のセットを含む。

図４Ａ～図４Ｃに示すように、機械学習モデル４００は、様々なサブシステム内のブロック、サブブロック、及び／又は層の任意の数又は組み合わせを使用して、いくつかの異なる方法で実装することができる。したがって、機械学習モデル４００はモジュール式であり、所与のタスクに対してカスタマイズ可能であり得る。

図５は、１つ以上の実施形態による注意ブロック５００の概略図である。注意ブロック５００は、図３の初期注意サブシステム３０４、図３の複合注意サブシステム３０８、又は図４Ａ～Ｃの初期注意サブシステム４０３における注意ブロックの実施の一例であってよい。さらに、注意ブロック５００は、図４Ａ～４Ｃの注意ブロック４５６の実施態様の一例であってもよい。

注意ブロック５００は、１つ以上の注意サブブロックを含む。例えば、注意ブロック５００は、注意サブブロック１５０１と、任意に、注意サブブロックｎ５０４までの１つ以上の他の注意サブブロックとを含むことができる。注意ブロック５００に複数の注意サブブロックが存在する場合、これらの注意サブブロックは、直列に接続（例えば、最終出力を生成するために互いにデイジーチェーン接続）されてもよい。

注意サブブロック１５０１は、様々な方法で実施することができる。１つ以上の実施形態において、注意サブブロック１５０１は、例えば、自己注意層５０６と、加算及び正規化層５０８と、フィードフォワード層５１０と、加算及び正規化層５１２とを含む。注意サブブロック５０１のこの構成により、注意サブブロック１５０１は、変換器エンコーダとも呼ばれ場合がある。自己注意層５０６は、例えば、ワンヘッド注意ユニット又はマルチヘッド注意ユニットを用いて実現されてもよい。存在する場合、注意ブロック５００から注意サブブロックｎまでの１つ以上の他の注意サブブロックは、注意サブブロック１５０１と同様の方法で実施することができる。

加算及び正規化層において、変換された表現は、（残差接続を介して）配列の位置指示埋め込み表現に追加されてもよく、合計された表現は正規化され得る。正規化されたデータは、対応するフィードフォワード層５１０（例えば、完全接続フィードフォワードネットワーク）に供給することができる。フィードフォワードネットワークは、（例えば）各位置について、１つ、２つ、３つ、又はそれ以上の線形変換に影響を及ぼすことができ、及び／又は線形変換の各々の間の活性化（例えば、ＲｅＬＵ活性化）を含むことができる。例えば、フィードフォワード層は、以下によって表すことができる：

式中、ｘは層への入力であり、Ｗ_１及びＷ_２は線形変換の勾配であり、ｂ_１及びｂ_２は線形変換の切片である。特定の注意サブブロックのフィードフォワード層の出力の次元数は、注意サブブロックのフィードフォワード層への入力の次元数と同じであってもよい。したがって、場合によっては、様々なタイプの情報の表現を保存するために、入力及び出力を合計して正規化することができる（例えば、別の加算及び正規化層を介した別の残差接続を介して）。

ＩＩ．Ｂ．３．自己注意のための例示的な機構
図６は、１つ以上の実施形態による、例示的な自己注意層を使用して配列表現を処理するためのプロセスのフローチャートである。プロセス６００は、例えば、図１及び３の機械学習モデル１３２に存在する１つ以上の注意ブロック、図４Ａ～４Ｃの機械学習モデル４００に存在する１つ以上の注意ブロック、及び／又は図５の注意ブロック５００によって使用され得る。

工程６０２は、複数の要素を含む配列表現を受信することを含む。配列表現は、アミノ酸配列若しくは遺伝子核酸配列、又は遺伝子配列内のコドン配列を表す。１つ以上の実施形態において、配列表現における複数の要素の各要素は、アミノ酸（又はアミノ酸残基）、核酸、コドン等を表す。さらに、各要素は、シーケンス内の固有の位置に関連付けられている。

配列表現は、例えば、ペプチド表現、ＩＰＣ表現、Ｎフランク表現、Ｃフランク表現、ＭＨＣ表現、ＴＣＲ表現、集約表現、又は別のタイプの表現であり得る。例えば、配列表現は、バリアントコード配列、野生型又は変異ペプチドをコードする配列の一部又は全部、エピトープ配列（例えば、変異体を含む）、候補ネオエピトープ配列、ネオ抗原配列の一部又は全部、ペプチドの末端で開始又は終了する配列（例えば、Ｎフランク又はＣフランク）、ＭＨＣ配列（例えば、ＭＨＣ疑似配列）の一部又は全部を表し得る。配列表現は、例えば、図３の表現サブシステム３０２又は図４Ａ～４Ｃの表現サブシステム４０１を使用して生成することができる。

工程３０４は、キー重みのセット、値重みのセット、及びクエリ重みのセットを使用して、配列表現内の各要素についてそれぞれキーベクトル、値ベクトル、及びクエリベクトルを決定する工程を含む。例えば、配列表現で表される配列が例えば２０個のアミノ酸を含む場合、２０個のキーベクトル、２０個の値ベクトル、及び２０個のクエリベクトルが生成され得る。配列表現内の要素は、例えば、２次元配列表現（例えば、第１の次元は配列中の異なるアミノ酸を表し、第２の次元は、例えば、個々のアミノ酸を特徴付ける異なる構成要素を表す）内の行又は列に対応することができる。

いくつかの実施形態において、キー重みのセットは、キー重み行列の形態である。特定の要素の鍵重み行列は、キーベクトルがあるべき長さだけ要素の長さに等しいサイズを有することができる。例えば、要素は２０（例えば、各値は、配列中のアミノ酸が２１個のアミノ酸のうちの特定の１つと同じであるかどうかに関するバイナリ表示に対応する）の長さを有することができ、キーベクトルの長さが５（例えば、５つの構成要素又は特徴を表す）である場合、キー重み行列は［５、２１］のサイズを有することができる。キー重み行列は、訓練中に学習することができる（例えば、訓練の開始時にランダムに初期化される）。

要素の値ベクトルは、要素のキーベクトルと同じサイズを有し得る。値ベクトルは、訓練中に学習することができ、値重み行列内に含めることができる値重みのセットを使用して決定することができる。所与の要素の値重み行列は、キー重み行列のサイズを有することができ、及び／又はその要素の長さ及び値ベクトルがあるべき長さに基づいて定義されたサイズを有することができる。

要素のクエリベクトルは、要素のキーベクトル及び／又は値ベクトルと同じサイズを有し得る。クエリベクトルは、訓練中に学習することができ、クエリ重み行列内に含めることができるクエリ重みのセットを使用して決定することができる。要素のクエリ重み行列は、キー重み行列及び／又は値重み行列のサイズを有することができ、及び／又は要素の長さ及びクエリベクトルがあるべき長さに基づいて定義されたサイズを有することができる。

工程６０６は、配列表現内の各要素について、（クエリ重み及び配列表現を使用して生成された）要素のクエリベクトル、及び（キー重み及び配列表現を使用して生成された）複数の要素のキーベクトルを使用して、要素集中注意スコアのセットを生成することを含む。所与の要素について、要素集中注意スコアのセットは、所与の要素の値ベクトルに与える重みを示すことができる。キーベクトルが配列表現内の選択された要素の要素集中注意スコアのセットを生成する際に使用される複数の要素は、配列表現内の要素の一部又は全部を含み得る（例えば、表されるアミノ酸の一部又は全部の表現）。複数の要素は、焦点要素（例えば、要素集中注意スコアのセットが決定されている特定のアミノ酸）を含むことができる。

要素集中注意スコアのセットは、配列表現の各要素について、同じ又は異なる要素（第２の要素）との焦点の要素（第１の要素）の各ペアリングに対する注意スコアを生成することによって生成される。このペアリングの注意スコアは、第１の要素のクエリベクトルと第２の要素のキーベクトルとの積として定義することができる。

場合によっては、工程６０６は、活性化関数及び／又は正規化を実施することを含むことができる。正規化は、キーベクトル（又はクエリベクトル）の次元数に基づくことができる。例えば、正規化は、キーベクトルの長さの平方根であると定義することができる。活性化関数は、ソフトマックス関数を含むことができる。場合によっては、正規化は活性化関数の前に適用される。

工程６０８は、複数の修正要素を形成するために複数の要素の変換を実行することを含み、変換は、複数の要素のそれぞれについて生成された要素集中注意スコアのセットと、複数の要素のそれぞれについて決定された値ベクトルとを使用して実行される。例えば、配列表現が１１個の要素（例えば、１１個のアミノ酸を表す）を含み、要素の全てのペアワイズ組み合わせについて注意スコアが決定される場合、複数の修正された要素を含む修正された配列表現が生成され、修正要素は、使用して定義され、（重み付けのための注意スコアを使用して）全ての要素の値ベクトルの加重平均であるように定義され得る。

工程６１０は、変換配列表現、初期配列表現、及びフィードフォワードネットワークを使用して配列のエンコーディングを生成することを含む。例えば、変換配列表現と初期配列表現とを合計することができる。この結果は、依然として複数の要素（例えば、各更新は、変換、加算、及び正規化を介して行われる）を含み得る。次いで、フィードフォワードニューラルネットワークは、（例えば、１つ、２つ、若しくはそれ以上の線形変換を行うこと、及び／又は１つ以上の活性化関数を実装することによって）合計された表現を処理することができる。表現を合計すると、（所与の要素の変換値ベクトルを生成するときに他の要素の値に対応するために）変換配列表現では不明瞭になる可能性がある位置情報を再導入することができる。

フィードフォワードニューラルネットワークは、更新された複数の要素（例えば、同じ技術及び／又は同じパラメータセットを使用する）の各々を別々に処理するように構成することができる。したがって、フィードフォワードネットワークへの入力は、単一要素、単一アミノ酸、及び／又は単一配列位置に対応するベクトルを含むことができる。フィードフォワードネットワークは、フィードフォワードネットワークの出力がフィードフォワードネットワークへの入力と同じサイズであるように構成することができる。場合によっては、フィードフォワードネットワークを使用して変換配列表現及び初期配列表現を処理する代わりに、畳み込み（例えば、１次元畳み込み）を使用して、位置／要素にわたって同一に動作する局所変換を実行する。フィードフォワードニューラルネットワークの機能を解釈する別の方法として、１次元畳み込みを使用することができる。

図６に示す技術は、シングルヘッド注意（ｓｉｎｇｌｅ－ｈｅａｄａｔｔｅｎｔｉｏｎ）（キーベクトル、値ベクトル、及びクエリベクトルは、注意スコアを計算するために使用される）に関する。或いは、マルチヘッド注意（ｍｕｌｔｉ－ｈｅａｄａｔｔｅｎｔｉｏｎ）を使用してもよい。マルチヘッド注意における各注意ヘッドは、それ自体のキー重みのセット、それ自体の値重みのセット、及びそれ自体のクエリ重みのセットに関連付けられ得る。次いで、マルチヘッド注意における各注意ヘッドは、別個のキーベクトル、別個の値ベクトル、及び別個のクエリベクトルを生成することができる。マルチヘッド注意における各注意ヘッドは、これらの別個のベクトルを使用して、各要素の注意スコア及び変換値を生成することができる。変換値は連結して投影することができる。

図６は様々なベクトルの計算及び使用に言及しているが、代わりに行列表現が使用されてもよいことを更に理解されたい。行列表現は、様々なベクトルを個別に反復的に計算するのとは対照的に、要素にわたる計算を効率的に実行することを容易にすることができる。

図７は、１つ以上の実施形態による、上記の図６で説明したプロセス６００を示す概略図である。図７において、表現及び注意プロセス７００は、配列７０２を入力として受信する。配列７０２は、例えばアミノ酸配列であり得る。

図７の例示的な例では、配列７０２は複数のアミノ酸７０４（４アミノ酸：ｘ^１～ｘ^４）を含む。複数の要素ａ^１～ａ^４を含む配列表現７０６は、埋め込み、及びいくつかの実施形態において位置エンコーディングを介して生成される。各要素ａ^ｉは、例えば、数値ベクトルを有してもよい。配列表現７０６は、図６の工程６０２で受信された配列表現の一例であり得る。

ベクトル７０８（例えば、クエリベクトルｑ^ｉ、キーベクトルｋ^ｉ、及び値ベクトルｖ^ｉ）を、各要素ａ^ｉに対して生成することができる。ベクトル７０８は、図６の工程６０４で生成されたベクトルの実装形態の例であり得る。図示される例は、第１の要素ａ１に焦点を合わせて、選択要素集中注意スコア７１０、

を生成することに対応する。要素集中注意スコア７１０は、図６の工程６０６で特定の要素に対して生成されたある要素集中注意スコアのセットの例である。要素集中注意スコア

は、ｑ^１とｋ^ｉとのドット積として定義される。重みが

に設定された値ベクトルｖ^ｉの重み付き和が演算されて、修正要素７１２、ｂ^１を生成する変換が実行される。修正要素７１２は、図６の工程６０８で生成される修正要素の一例である。同様の変換は、配列表現７０６の他の要素に対して実行されてもよい。

ＩＩ．Ｃ．機械学習モデルを使用する例示的な方法
図１及び図３の機械学習モデル１３２、並びに図４Ａ～４Ｃの機械学習モデル４００は、変異ペプチド（例えば、ネオ抗原）を含む様々なペプチドに関連する免疫学的活性（例えば、予測される結合、結合親和性、予測される提示発生、免疫原性等）に関する予測を生成するために様々な方法で使用され得る。

図８は、様々なペプチドの免疫活性に関する情報を生成する処理のフローチャートである。プロセス８００の少なくとも一部は、例えば、限定はしないが、図１に記載の予測システム１００を使用して実施することができる。例えば、プロセス８００の少なくとも一部は、例えば、限定されるものではないが、図１及び３からの機械学習モデル１３２、又は図４Ａ～４Ｃからの機械学習モデル４００を使用して実施することができる。

工程８０２は、変異ペプチドを特徴付けるペプチド配列を受信することを含み、ペプチド配列は、対応する参照配列に対するバリアントを含む。ペプチド配列は、変異ペプチドの少なくとも一部を特徴付けることによって変異ペプチドを特徴付ける。変異ペプチドは、例えばネオ抗原であり得る。工程８０２は、例えば、データストア（例えば、図１のデータストア１０４、クラウドストレージ、サーバ又はサーバシステム等）からペプチド配列を検索することによって実行され得る。いくつかの実施形態において、ペプチド配列は、機械学習モデルによって処理される複数のペプチド配列のうちの１つであり得る。

工程８０４は、免疫タンパク質複合体（ＩＰＣ）について同定された免疫タンパク質複合体（ＩＰＣ）配列を受信することを含む。ＩＰＣは、例えば、ＭＨＣ、ＴＣＲ、又はＭＨＣ－ＴＣＲ複合体であり得る。したがって、ＩＰＣ配列は、ＭＨＣ配列、ＴＣＲ配列、又はＭＨＣ－ＴＣＲ配列であり得る。ＩＰＣ配列は、ＩＰＣの少なくとも一部を特徴付けることによってＩＰＣを特徴付ける。工程８０２は、例えば、データストア（例えば、図１のデータストア１０４、クラウドストレージ、サーバ又はサーバシステム等）からＩＰＣ配列を検索することによって実行され得る。いくつかの実施形態において、ＩＰＳ配列は、機械学習モデルによって処理される複数のＩＰＣ配列のうちの１つであり得る。

工程８０６は、出力を生成するために、注意ベースの機械学習モデル内の異なる処理経路を使用してペプチド配列及びＩＰＣ配列を処理することを含み、出力は、変異ペプチド及びＩＰＣの両方に関連する免疫学的活性に関する情報を提供する。工程８０６は、例えば、対応する表示ブロックを介してペプチド配列を処理して、対応する注意ブロックを介して処理されるペプチド表現を生成し、ペプチド配列を表す変換ペプチド表現を生成することを含む。このペプチド処理経路は、ＩＰＣ配列が対応する表現ブロックを介して処理されてＩＰＣ表現（例えば、ＭＨＣ表現、ＴＣＲ表現、ＭＨＣ－ＴＣＲ表現）を生成するＩＰＣ処理経路とは別個であり、ＩＰＣ表現は、対応する注意ブロックを介して処理されてＩＰＣ配列を表す変換ＩＰＣ表現（例えば、変換ＭＨＣ表現、変換ＴＣＲ表現、変換ＭＨＣ－ＴＣＲ表現）を生成する。

いくつかの実施形態において、ペプチド表現は、Ｎフランク配列についてのＮフランク表現及び／又はＣフランク配列についてのＣフランクも含む集約表現の一部である。そのような実施形態において、集約処理経路（ペプチド処理経路を本質的に含む）は、ＩＰＣ処理経路とは別個のままである。

様々な実施形態において、工程８０６において、変換されたペプチド表現及び変換されたＩＰＣ表現は、複合表現を形成するために使用され、次いで、出力を生成するために更に処理される。例えば、変換複合表現を生成するために注意ブロックを使用して複合表現を変換することができ、変換複合表現はその後、出力を生成するために処理される。出力は、例えば、限定されなれるものではないが、相互作用予測のセット、相互作用親和性予測のセット、免疫原性予測のセット、又はそれらの組み合わせを含み得る。

工程８０８は、出力に基づいてレポートを生成することを含む。レポートは、出力を含んでもよい。他の実施形態において、レポートは、出力の変換された又はフィルタにかけたバージョンを含む。更に他の実施形態において、レポートは、出力の概要、要約、又は視覚的表現を含む。

いくつかの実施形態において、プロセス８００は、工程８１０を更に含む。工程８１０は、レポートに基づいて動作のセットを実行することを含む。動作のセットは、レポートに基づく処置の設計及び／又は製造に関する様々な動作を含むことができる。

図９は、様々なペプチドの免疫活性に関する情報を生成する処理のフローチャートである。プロセス９００の少なくとも一部は、例えば、限定はしないが、図１に記載の予測システム１００を使用して実施することができる。例えば、プロセス９００の少なくとも一部は、例えば、限定されるものではないが、図１及び３からの機械学習モデル１３２、又は図４Ａ～４Ｃからの機械学習モデル４００を使用して実施することができる。

工程９０２は、複数のペプチド配列及び複数のＩＰＣ配列を含む配列データを受信することを含む。

工程９０４は、ペプチド配列及びＩＰＣ配列を使用して複数のペプチド－ＩＰＣ組み合わせを生成することを含む。ペプチド－ＩＰＣ組み合わせのそれぞれは、特有の組み合わせである。

工程９０６は、ペプチド－ＩＰＣ組み合わせごとに、ペプチド－ＩＰＣ組み合わせに対応するペプチド配列を機械学習モデルのペプチド処理経路に入力し、ペプチド－ＩＰＣ組み合わせに対応するＩＰＣ配列を機械学習モデルのＩＰＣ処理経路に入力することを含む。

工程９０８は、各ペプチド－ＩＰＣ組み合わせについて、第１の注意ブロックを使用してペプチド配列のペプチド表現を処理することと、第２の注意ブロックを使用してＩＰＣ配列のＩＰＣ表現を処理して、それぞれ変換ペプチド表現及び変換ＩＰＣ表現を生成することとを含む。

工程９１０は、各ペプチド－ＩＰＣ組み合わせについて、変換ペプチド表現及び変換されたＩＰＣ表現を使用して複合表現を生成することを含む。

工程９１２は、各ペプチド－ＩＰＣ組み合わせについて、変換複合表現を生成するために第３の注意ブロックを使用して複合表現を処理することを含む。

工程９１４は、変換された複合表現に基づいて出力を生成することを含む。出力は、どのペプチド配列が処置を生成するために使用され得るかの指標を提供し得る。例えば、出力は、どのペプチド配列（それによって、そのペプチド配列を含むペプチド）がＭＨＣに結合する可能性が高いか、ＭＨＣによって提示される可能性が高いか、ペプチド－ＭＨＣ結合に対する高い相互作用親和性、及び／又は免疫原性であり、それによって免疫応答を誘因する可能性が高いかの指標を提供し得る。

ＩＩ．Ｃ．１．例示的な方法論：ペプチド及びＭＨＣ
図１０は、１つ以上の実施形態による、機械学習モデルを訓練し、訓練された機械学習モデルを使用してペプチド及びＭＨＣに関する予測を生成するためのプロセスのフローチャートである。プロセス１０００は、図１の予測システム１００を使用して実行することができる。例えば、プロセス１０００は、図１及び３の機械学習モデル１３２、又は図４Ａ～４Ｃの機械学習モデル４００を使用して実施することができる。場合によっては、プロセス１０００の一部又は全部は、ユーザ装置及び／又は研究所に対して遠隔にあるリモートコンピューティングシステムで実行されてもよい。遠隔コンピューティングシステムは、クラウドコンピューティングシステムであってもよい。

工程１００２は、訓練ペプチド配列データ、訓練ＭＨＣ配列データ、及び訓練免疫学的活性データを識別する訓練要素を有する訓練データセットにアクセスすることを含む。訓練データセットは、図１の訓練データ１３３の実施態様の一例であってよい。訓練免疫学的活性データは、例えば、相互作用指標を含み得る。

訓練ペプチド配列データは、例えば、訓練のための１つ以上のペプチド配列を含み得る（バリアントコード配列を含み得る）。ペプチド配列は、ペプチド内のアミノ酸の順序付きセット（例えば、ネオ抗原）を同定することができる。ペプチド配列は、ペプチドのエピトープ（例えば、バリアントを含む、及び／又はネオエピトープを含む、又はネオエピトープである）内のアミノ酸を同定することができる。いくつかの実施形態において、ペプチド配列は、Ｎフランク配列（例えば、対応するペプチドのＮ末端におけるアミノ酸の鎖を特徴付けること）又はＣフランク配列（例えば、対応するペプチドのＣ末端におけるアミノ酸の鎖を特徴付けること）も含む集約配列内にある。ＮフランクもＣフランクもＭＨＣ分子に結合しないが、それぞれがＭＨＣ分子によって提示されるかどうかに影響を及ぼし得る。

訓練ＭＨＣ配列データは、訓練用の１つ以上のＭＨＣ配列を含み得る。ＭＨＣ配列は、例えば、ＭＨＣ分子の一部又は全部（例えば、ＭＨＣ－Ｉ分子又はＭＨＣ－ＩＩ分子）内のアミノ酸を同定し得る。ＭＨＣ配列は、ＭＨＣ疑似配列（例えば、３４個のアミノ酸を含む）を含み得る。ＭＨＣ配列は、例えば、ＭＨＣ－Ｉについては１、２、３、４、５若しくは６個のＭＨＣ対立遺伝子、又はＭＨＣ－ＩＩについては１、２、３、４、５、６、７、８、９、１０、１１、１２個のＭＨＣアロタイプ内のアミノ酸を同定することができる。ＭＨＣ配列は、ＨＬＡ分子の一部又は全部を構成するアミノ酸を同定することができる。

訓練免疫学的活性データは、例えば、１つ以上のペプチド－ＭＨＣ組み合わせについての１つ以上の相互作用指標を含み得る。例えば、訓練データセットは、各訓練要素が訓練のためのペプチド配列及びＭＨＣ配列、並びに対応するペプチド－ＭＨＣ組み合わせについての１つ以上の相互作用表示を含む訓練要素を含み得る。相互作用指標は、標的相互作用（例えば、ペプチドとＭＨＣとの結合、ＭＨＣによる細胞表面上のペプチドの提示）がペプチドとＭＨＣとの間で生じるか、又は標的相互作用に対する親和性を示し得る。

相互作用指示は、例えば、標識であってもよい。陰性相互作用標識は、ペプチドがＭＨＣ分子に結合しない及び／又はＭＨＣ分子によって提示されないことを示し得る。陽性相互作用標識は、ペプチドがＭＨＣ分子に結合する及び／又はＭＨＣ分子によって提示されることを示し得る。さらに、相互作用標識は、ペプチドがＭＨＣ分子に結合する確率、ＭＨＣ分子が細胞表面にペプチドを提示する確率、ペプチド－ＭＨＣの組み合わせに対する結合親和性、ペプチドとＭＨＣ分子との間の結合の強度、ペプチドとＭＨＣ分子との間の結合の安定性、ペプチドがＭＨＣと結合する傾向、又はＭＨＣとペプチドとの間の相互作用に関連する別のメトリック若しくは特徴を示し得る。

訓練データセットは、例えば、ｉｎｖｉｔｒｏ又はｉｎｖｉｖｏ実験によって、及び／又は医療記録に基づいて生成されていてもよい。訓練データは、以下のセクションＩＩ．Ｅに開示される１つ以上の技術に基づいて生成されていてもよい。

訓練データセットにアクセスすることは、例えば、ローカル又はリモートストレージから訓練データセットを検索すること、訓練データセットをロードすること、及び／又は１つ以上のデータストア（例えば、クラウドデータストレージ、サーバシステム、又は何らかの他のデータソース）から訓練データセットの一部若しくは全部を要求すること（及び受信すること）を含むことができる。

場合によっては、初期訓練データセット（例えば、バリアントコード配列を含む）は、配列組み合わせの比較的小さな部分（例えば、ペプチド－ＭＨＣの組み合わせ）が実際の標的相互作用と関連付けられていることが判明しているという点で、主に陰性データを含み得る。訓練データセットは、陰性的訓練データ要素を含むように設計されてもよい。いくつかの実施形態において、陰性訓練データ要素は、陽性セット（観察された提示に対応する）中の起源タンパク質の擬似ランダムに選択された断片内のアミノ酸を同定するために定義され得る。例えば、陰性訓練データ要素は、陽性セットに基づいてシミュレートされてもよい。断片は、所定の範囲（例えば、均一な確率を使用して、ＭＨＣ－Ｉについては８～１４アミノ酸及びＭＨＣ－ＩＩについては８～３０アミノ酸）内の長さを有するように選択されてもよい。Ｎ末端及びＣ末端フランク配列は、潜在的に最大長（例えば、１０個のアミノ酸）を課す陰性訓練データ要素内に保持され得る。陽性ペプチドと重複した任意のペプチド断片（例えば、少なくとも９－ｍｅｒ）は、陰性訓練データから廃棄することができる。

様々な実施形態において、陰性訓練データ要素は、陽性データ要素に基づいてシミュレートされる。さらに、訓練データは、訓練期間のエポックごとに異なるセットの陰性訓練データ要素が使用されるように選択される。例えば、各エポックについて、陰性ペプチド配列の異なる「陰性サブセット」が、ペプチド配列の陽性セットに基づいて同定された利用可能な陰性ペプチド配列の全空間から選択され得る。各エポックに対して選択される陰性サブセットは、陰性ペプチド配列が、エポックの総数に対して陰性サブセットのいずれにおいても繰り返されないという点で、特有であり得る。したがって、訓練期間の各エポックに使用される訓練データは、ペプチド配列の同じ陽性セットを含むが、陰性ペプチド配列の全く異なるセットを含む。「陰性セット切り替え」と呼ばれることがあるこの技術は、訓練に全体的なロバスト性を提供することができ、機械学習モデルによって偽陰性（例えば、偽陰性の徴候／予測）の数を減らすことを確実にするか、又は偽陰性が複数回繰り返されないことを確実にするのに役立つ。さらに、この技術では、機械学習モデルは、訓練期間中のエポックの数を乗じた陽性ペプチド配列の数に等しい陰性ペプチド配列の総数で訓練され得る。

工程１００４は、訓練データセットを使用して機械学習モデルを訓練することを含む。機械学習モデルは、例えば、図１及び３の機械学習モデル１３２であってもよく、又は機械学習モデルは、例えば、図４Ａ～４Ｃの機械学習モデル４００であってもよい。

機械学習モデル１３２は、静的又は動的学習率を使用して訓練することができる。動的学習率は、例えば、学習率アニーリングを用いて生成することができる。訓練は、例えば、分類損失関数及び／又は回帰損失関数を使用して実行することができる。損失関数は、例えば、平均二乗誤差、中央二乗誤差、平均絶対誤差、中央絶対誤差、エントロピーベースの誤差、交差エントロピー誤差、及び／又はバイナリ交差エントロピー誤差に基づくことができる。検証データ（例えば、機械学習モデル１３２を訓練するために使用される訓練データセットの分離されたサブセット）は、訓練されているときの機械学習モデル１３２の性能を評価するために使用することができる。目標性能が得られた場合、及び／又は最大訓練反復回数が完了した場合、及び／又は目標性能が得られた場合、訓練を終了することができる。

工程１００６は、変異ペプチドのセットに対応するバリアントコード配列の対象特異的セットにアクセスすることを含む。上述したように、バリアントコード配列はペプチド配列の一例である。バリアントコード配列の対象特異的セットは、変異ペプチドのセットに対応することができ、その結果、バリアントコード配列の対象特異的セットの各々は、変異ペプチドのセットの対応する変異ペプチド内のアミノ酸を同定し、及び／又はバリアントコード配列の対象特異的セットの各々は、変異における１つ以上のアミノ酸を同定する。バリアントコード配列の対象特異的セットの各々は、特定の対象（例えば、ヒト対象）と関連付けることができる。特定の対象は、症候を診断されたことがあってもよく、症候を有し得る、及び／又は症候を経験したことがあってもよく、及び／又は特定の病状（例えばがん）と関連する検査結果を受信したことがあってもよい。例えば、バリアントコード配列の対象特異的セットは、腫瘍由来の試料を処理することによって同定されていてもよい。試料は、例えば、図１の試料１１２のセットであってもよく、又はその中に含まれてもよい。

バリアントコード配列の対象特有のセットは、本明細書に開示される技術（例えば、セクションＩＩ．Ｄ）を使用して同定され得る。例えば、対象特異的な一組のバリアントコード配列決定は、疾患試料中のペプチドを同定するための配列決定技術を実施し、同定されたペプチドを健康な試料又は参照データベースで検出されたペプチドと比較して固有の配列を同定することによって同定されていてもよい。いくつかの実施形態において、固有の配列が核酸配列である場合、各固有の核酸配列はアミノ酸配列に変換され得る。

バリアントコード配列の対象特異的セットのそれぞれは、ペプチド内のアミノ酸（ネオ抗原のネオエピトープ内のアミノ酸であり得る）を同定することができる。場合によっては、バリアントコード配列の１つ、複数、又は全ての対象特異的セットは、ペプチドのＮフランクの配列及び／又はペプチドのＣフランクの配列を更に含む対応する集約配列の一部であり得る。

バリアントコード配列の対象特異的セットにアクセスすることは、例えば、ローカル又はリモートストレージからバリアントコード配列の対象特異的セットを取得すること、及び／又は別のデバイスからバリアントコード配列の対象特異的セットを要求することを含むことができる。バリアントコード配列の対象特異的セットにアクセスすることは、バリアントコード配列の対象特異的セットを決定することを含むことができ、及び／又はそれと組み合わせて実行することができる。

対象特異的なバリアントコード配列セットは、対象の疾患試料内のペプチド配列を同定し、どのペプチド配列が参照、健康試料及び／又は野生型配列セット内に表されていないかを決定することによって得られたものであり得る。健康な試料が比較のために使用される場合、健康な試料は、対象から収集されていてもよい（しかし、収集されている必要はない）。

工程１００８は、ＭＨＣに対応するＭＨＣ配列にアクセスすることを含む。ＭＨＣ配列は、例えば、対象から収集された試料内のＭＨＣ（例えば、ＭＨＣ分子）の疑似配列を含み得る。いくつかの例では、ＭＨＣ配列及びバリアントコード配列の対象特異的セットは、対象からの同じ試料又は対象からの複数の試料（例えば、疾患試料及び健康な試料）から同定される。いくつかの例では、ＭＨＣ配列及びバリアントコード配列の対象特異的セットは、対象及び１人以上の他の対象からの試料から同定される。したがって、場合によっては、ＭＨＣ配列は、対象特異的であり得る。ＭＨＣ配列は、例えば、配列決定及び／又は質量分析技術を使用して決定されてもよく、又は決定されていてもよい。

ＭＨＣ配列にアクセスすることは、例えば、局所若しくは遠隔記憶デバイスからＭＨＣ配列を回収すること、及び／又は別のデバイスから対象特異的ＭＨＣ配列を要求することを含み得る。ＭＨＣ配列へのアクセスは、ＭＨＣ配列の決定を含み得る、及び／又はＭＨＣ配列の決定と組み合わせて実施され得る。

工程１０１０は、例えば、訓練された機械学習モデルを使用して対象特異的バリアントコード配列のセット及びＭＨＣ配列を処理して、出力を生成することを含む。工程１０１０は、出力を生成するために、対象特異的バリアントコード配列のセットの対象特異的バリアントコード配列とＭＨＣ配列との各固有の組み合わせ（例えば、バリアントコード－ＭＨＣ組み合わせ又はペプチド－ＭＨＣ組み合わせ）を処理することを含み得る。

機械学習モデルによって生成された出力は、機械学習モデルを訓練するために使用される訓練免疫活動データに含まれるのと同じ又は類似のタイプのデータを含むことができる。各特有の組み合わせごとに、機械学習モデルは、相互作用予測のセット又は相互作用親和性予測のセットのうちの少なくとも１つを含む出力を生成する。

相互作用予測のセットにおける相互作用予測は、バリアントコード配列を含む変異ペプチドとＭＨＣ配列を含むＭＨＣとの間の標的相互作用が起こるかどうかに関する予測を含む。例えば、相互作用予測は、対象特異的バリアントコード配列によって示されるアミノ酸構造を有する変異ペプチドが、ＭＨＣ配列によって示されるアミノ酸構造を有するＭＨＣ分子によって提示される及び／又はＭＨＣ分子に結合するかどうかとしてのバイナリ又はカテゴリ予測を含み得る。相互作用親和性予測のセットにおける相互作用親和性予測は、標的相互作用に対する親和性に関する予測を含む。この親和性は、例えば、標的相互作用の強度、傾向及び／又は安定性に基づいて定義され得る。例えば、相互作用親和性予測は、対象特異的バリアントコード配列内で同定されたアミノ酸を含む変異ペプチド、及びＭＨＣ配列内で同定されたアミノ酸を含むＭＨＣ分子に関連する予測された実数結合親和性を含み得る。

工程１０１２は、機械学習モデルの出力に基づいてレポートを生成することを含む。レポートを、例えば、図１及び３のレポート１４４のように実施することができる。レポートは、出力であってもよく、又は出力を含んでもよい。場合によっては、レポートは、出力の変換された又はフィルタにかけたバージョンであってもよい。

１つ以上の実施形態において、バリアントコード配列の対象特異的セットは、出力に基づいてフィルタにかけられ、ランク付けされ、及び／又は他の方法で処理されて、レポートに含めるための情報を生成する。例えば、バリアントコード配列の対象特異的セットをフィルタにかけて、予測された相互作用親和性（例えば、結合親和性）が所定の親和性閾値を下回った配列及び／又は標的相互作用（例えば、ＭＨＣ分子による提示又はＭＨＣ分子への結合）が起こらないか又は起こる可能性が低いと予測された配列を除外することができる。いくつかの例では、バリアントコード配列の対象特異的セットの所定の数及び／又は割合を識別するためにフィルタリングが実行される。例えば、フィルタリングを行って、変異ペプチドがＭＨＣ分子に結合する及び／又はＭＨＣ分子によって提示されるかどうかに関して比較的高い予測確率（例えば、バリアントコード配列の対象特異的セット内の選択されていないバリアントコード配列に対して）に関連する１０、２０、４０、６０、８０、１００、５００又は１，０００個のバリアントコード配列を同定することができる。

レポートは、１つ以上のバリアントコード配列（例えば、セットから除外されなかったもの）及び／又は１つ以上の変異ペプチド（例えば、選択されたバリアントコード配列に関連する）を同定し得る。変異ペプチドは、例えば、その名称、その配列によって、及び／又は対応する野生型配列とバリアントコード配列で表される変異体の両方を同定することによって同定され得る。

レポート、いくつかの実施形態において、１つ以上のバリアントコード配列又は１つ以上の変異ペプチドに関連する１つ以上の予測を同定し得る。レポートは、対象の名前を含んでもよい。レポートは、例えば、ローカルに（例えば、ユーザ装置のディスプレイシステム上に表示するために、ユーザ装置上の通知として送られる等）提示され、及び／又は別のデバイスに（例えば、クラウドコンピューティングシステムに送られる、クラウドストレージに送られる、医療専門家又は検査専門家に関連付けられたユーザ装置に送られる、電子メールとして送信される等）送信され得る。

図１１は、１つ以上の実施形態による訓練データの表を含む図である。表１１００は、訓練データ１１０２（例えば、訓練データセット）を含む。訓練データ１１０２は、図１の訓練データ１３３の一部の一例であってもよい。訓練データ１１０２は、図１１の工程１００２で説明された訓練データセット等の訓練データセットの一部の一例であってもよい。

訓練データ１１０２は、対立遺伝子識別子１１０６、訓練Ｎフランク配列１１０８、訓練ペプチド配列１１１０、訓練Ｃフランク配列１１１２、訓練ＭＨＣ配列１１１４（例えば、ＭＨＣ疑似配列）、結合親和性１１１６、及び提示指示１１１８を含む。結合親和性１１１６は、訓練ペプチド配列１１１０によって特徴付けられるペプチド及び訓練ＭＨＣ配列１１１４によって特徴付けられるそれぞれのＭＨＣの結合についての検出された（例えば、観察される）結合親和性を示す。提示の指示１１１８は、ＭＨＣによるペプチドの結合又は提示が検出された（又は観察された）かどうかを示す。

図１２は、１つ以上の実施形態によるネオ抗原候補及び対応する潜在的ネオエピトープ候補の図である。プロセス１０００等のプロセスが実施される場合、変異ペプチドはネオ抗原であり得る。

ネオ抗原候補１２００である比較的長い変異ペプチドの場合、全て同じ変異又はバリアントを含む複数のエピトープ（ネオエピトープと呼ばれる）がＭＨＣ分子によって提示され得る可能性がある。したがって、ネオエピトープ候補１２０２のそれぞれについて生成された予測に基づいて、ネオ抗原候補の免疫原性を予測することができる。

免疫原性は、例えば、所与のネオ抗原から出現し得る全ての可能なネオエピトープのリストを生成し、リスト中のネオエピトープ候補（フランクがエピトープのＮ末端の上流及びＣ末端の下流の残りのアミノ酸を構成し、最大１０アミノ酸長）のいくつか又は全てのそれぞれについて予測を生成することによって予測することができる。これらの提示予測から、ＭＨＣ候補１２０４に対して提示尤度が最大のネオエピトープ候補が、ネオ抗原全体を表すように選択される。或いは、複数の候補ネオエピトープ－ＭＨＣ対の要約された表現を使用して、ネオ抗原を表す要約されたスコアを得ることができる。そのような要約は、全ての候補ネオエピトープ－ＭＨＣ対を考慮することによって、又はＭＨＣごとに最良のネオエピトープを考慮し、次いで全てのＭＨＣ分子にわたって要約することによって行われ得る。要約は、例えば、各候補ネオエピトープ－ＨＬＡ対の提示又は結合親和性スコアの算術平均又は調和平均をとることを含むいくつかの数学的関数によって行うことができる。

図１２はネオ抗原及びネオエピトープに関して記載されているが、変異又はバリアントを含有し、複数の可能なエピトープ候補を有する他のタイプの比較的長い変異ペプチドにも同様の技術が使用され得る。いくつかの実施形態において、この技術は、抗体薬物配列と併せて使用され得る。

ＩＩ．Ｃ．２．例示的な方法論：ペプチド及びＴＣＲ
図１３は、１つ以上の実施形態による、機械学習モデルを訓練し、訓練された機械学習モデルを使用してペプチド及びＴＣＲに関する予測を生成するためのプロセスのフローチャートである。プロセス１３００は、図１の予測システム１３０を使用して実行することができる。例えば、プロセス１３００は、図１及び３の機械学習モデル１３２、又は図４Ａ～４Ｃの機械学習モデル４００を使用して実施することができる。場合によっては、プロセス１３００の一部又は全部は、ユーザ装置及び／又は研究所に対して遠隔にあるリモートコンピューティングシステムで実行されてもよい。遠隔コンピューティングシステムは、クラウドコンピューティングシステムであってもよい。工程１３０２～１３１２は、図１０の工程１００２～１０１２と同様の方法で、但しＴＣＲに関して実施されてもよい。

工程１３０２は、訓練ペプチド配列データ、訓練ＴＣＲ配列データ、及び訓練免疫学的活性データを識別する訓練要素を有する訓練データセットにアクセスすることを含む。訓練ＴＣＲ配列データは、訓練用の１つ以上のＴＣＲ配列を含み得る。ＴＣＲ配列は、例えば、ＴＣＲ分子の一部又は全部内のアミノ酸を同定し得る。

訓練免疫学的活性データは、例えば、１つ以上のペプチド－ＴＣＲの組み合わせ及び／又は１つ以上の免疫原性予測についての１つ以上の相互作用指標を含み得る。免疫原性予測は、ＴＣＲに対するペプチドの免疫原性を予測することができる。例えば、訓練データセットは、バリアントコード配列によって同定されるアミノ酸を有する変異ペプチドが免疫学的応答（例えば、変異ペプチドが免疫原性であるかどうか）を誘因したかどうかを示す相互作用標識を含み得る。免疫原性は、変異ペプチドがＴ細胞受容体（例えば、ＣＤ８＋細胞傷害性Ｔリンパ球又はＣＤ４＋ヘルパーＴ細胞の受容体）を活性化し、及び／又は免疫学的応答を誘因したことを示し得る。

訓練データセットは、例えば、試料（例えば、１つ以上の樹状細胞）中に様々な変異ペプチドを発現させること、及び／又は免疫化及び／又はワクチンによって様々な変異ペプチド（例えば、試料に対して、又は試料がその後に収集された対象に対して）を導入することによって生成されていてもよい。変異ペプチドは、個別に（例えば、それにより、各実験を単一の変異ペプチドに集中させる）又はグループで発現又は導入されていてもよい。

免疫原性は、例えば、腫瘍浸潤細胞を分析することによって試験されていてもよい。例えば、変異ペプチドのエピトープが検出され（例えば、閾値を超える量で）、インターフェロンガンマ（ＩＦＮ－γ）又はＴ細胞免疫グロブリンムチン－３（ＴＩＭ－３）の測定されたレベルが対応する閾値を超え、細胞傷害性Ｔ細胞の検出された量（例えば、変異ペプチドに対応するエピトープを提示する一般的又は細胞傷害性Ｔ細胞）が対応する閾値を超え、及び／又は少なくとも閾値程度のアポトーシスが観察される場合、変異ペプチドは免疫学的応答を誘因した（したがって、免疫原性である）と判定され得る。別の例として、変異ペプチドは、試料中で発現されていてもよい（例えば、１つ以上樹状細胞）。例えば、提示されたペプチドがその後Ｔ細胞によって認識されると決定される場合、変異ペプチドが免疫学的応答を誘因した（したがって、免疫原性である）と決定されている可能性がある。いくつかの実施形態は、訓練データセット（例えば、本明細書に開示される１つ以上の実験及び／又は分析を行うことによって）の少なくとも一部を収集及び／又は決定することを含むことが理解されよう。

工程１３０４は、訓練データセットを使用して機械学習モデルを訓練することを含む。機械学習モデルは、例えば、図１及び３の機械学習モデル１３２であってもよく、又は機械学習モデルは、例えば、図４Ａ～４Ｃの機械学習モデル４００であってもよい。

工程１３０６は、変異ペプチドのセットに対応するバリアントコード配列の対象特異的セットにアクセスすることを含む。

工程１３０８は、ＴＣＲに対応するＴＣＲ配列にアクセスすることを含む。いくつかの例では、ＴＣＲ配列及びバリアントコード配列の対象特異的セットは、対象からの同じ試料又は対象からの複数の試料（例えば、疾患試料及び健康な試料）から同定される。いくつかの例では、ＴＣＲ配列及びバリアントコード配列の対象特異的セットは、対象及び１人以上の他の対象からの試料から同定される。したがって、場合によっては、ＴＣＲ配列は、対象特異的であり得る。ＴＣＲ配列は、例えば、配列決定及び／又は質量分析技術を使用して決定されてもよく、又は決定されていてもよい。

ＴＣＲ配列にアクセスすることは、例えば、局所若しくは遠隔記憶デバイスからＴＣＲ配列を回収すること、及び／又は別のデバイスから対象特異的ＴＣＲ配列を要求することを含み得る。ＴＣＲ配列へのアクセスは、ＴＣＲ配列の決定を含み得る、及び／又はＴＣＲ配列の決定と組み合わせて実施され得る。

工程１３１０は、例えば、訓練された機械学習モデルを使用して対象特異的バリアントコード配列のセット及びＴＣＲ配列を処理して、出力を生成することを含む。工程１３１０は、出力を生成するために、対象特異的バリアントコード配列のセットの対象特異的バリアントコード配列とＴＣＲ配列との各固有の組み合わせ（例えば、バリアントコード－ＴＣＲ組み合わせ又はペプチド－ＴＣＲ組み合わせ）を処理することを含み得る。

機械学習モデルによって生成された出力は、機械学習モデルを訓練するために使用される訓練免疫活動データに含まれるのと同じ又は類似のタイプのデータを含むことができる。各特有の組み合わせごとに、機械学習モデルは、免疫原性予測のセットを含む出力を生成する。免疫原性予測のセットにおける免疫原性予測は、変異ペプチドが免疫学的応答を誘因した（したがって、免疫原性である）かどうかを示し得る。場合によっては、免疫原性予測は免疫原性の程度を示す（例えば、低、中、高、非常に高い等）。

工程１３１２は、機械学習モデルの出力に基づいてレポートを生成することを含む。レポートを、例えば、図１及び３のレポート１４４のように実施することができる。工程１３１２は、図１０の工程１０１２と同様の方法で実施することができる。

ＩＩ．Ｃ．３．例示的な方法論：機械学習モデルを使用した訓練及び予測のための追加の検討事項
したがって、本明細書に記載の実施形態は、変異ペプチドであり得るペプチドに関連する免疫学的活性の予測を生成するために使用することができる機械学習モデルを提供する。変異ペプチドを特徴付けるペプチド配列、例えば、バリアントコード配列は、ペプチドとＩＰＣとの間の１つ以上の標的相互作用（目的の相互作用）及び／又はペプチドが免疫応答を誘発する能力に関する１つ以上の予測を生成するために、ＩＰＣを特徴付けるＩＰＣ配列を用いて機械学習モデルによって分析され得る。したがって、機械学習モデルによって生成された出力は、１つ以上の標的相互作用及び／又はペプチドの免疫原性に関する情報を提供する１つ以上の結果を含み得る。

いくつかの実施形態において、１つ以上のバリアントコード配列は、本明細書に記載の１つ以上の機械学習モデルからの結果に基づいて、バリアントコード配列の対象特異的セットから選択することができる。入力データは、ＭＨＣ配列及び変異ペプチドに対応するバリアントコード配列の表現を含み得る。機械学習モデルは、どのペプチドがＭＨＣ分子によって提示されるかを示す結合親和性データ及び質量分析溶出データを使用して訓練することができる。結合親和性データは、定性的データ（例えば、ＥＬＩＳＡ、プルダウンアッセイ及び／又はゲルシフトアッセイ、蛍光共鳴エネルギー移動アッセイ及び質量分析アッセイを用いて決定される場合）、又は定量的データ（例えば、表面プラズモン共鳴、等温滴定比色法、バイオレイヤー干渉法又はマイクロスケール熱泳動等のバイオセンサベースの方法論を使用して）を含み得る。いくつかの例において、結合親和性データは、競合結合アッセイからのデータ、免疫エピトープデータベースからのデータ及び／又は免疫エピトープデータベースにあるタイプのデータを含み得る。溶出データは、ペプチド－ＭＨＣ免疫沈降を使用して収集し、続いて溶出し、質量分析によって提示されたＭＨＣリガンドを検出することができる。訓練データは、「陽性」インスタンス（質量分析結果が、ペプチドがＭＨＣ分子によって提示されたことを示す）、及び「陰性」インスタンス（例えば、シミュレートされた長さが一致するｎ－ｍｅｒ（ｎｍｅｒ）に対応する）が含まれ、これらは陽性例と同じタンパク質由来であるが、質量分析評価では検出されなかった。

場合によっては、訓練データ内の陽性インスタンスの数は、訓練データ内の陰性スタンスの数に等しい。場合によっては、陽性インスタンスの数は陰性インスタンスの数よりも少ないか又は多い。訓練データ内の陰性インスタンスの１つ、複数、又は全ての各々は、訓練データ内の陽性インスタンスと長さが一致してもよい。場合によっては、訓練データ内の配列の全てが同じ長さを有する。

配列の一部又は全部は、例えば、データエンコーディングを使用して表され得る。エンコーディングは、既知の及び／又は静的な規則又は技術に従って、及び／又は訓練されたネットワークを使用して実行することができる。例えば、エンコーディングは、各コード配列が、配列の各位置及び（例えば、２１）アミノ酸のセットのそれぞれについて、特定のアミノ酸がその位置に存在するかどうかを示すように、ワン・ホット・エンコーディングを含み得る。或いは、ＢＬＯＳＵＭ等の進化的に動機付けられたエンコーディング、又は学習された符号化が、配列内のアミノ酸を表すために使用され得る。エンコーディングは、位置エンコーディング（例えば、学習された又は固定されたエンコーディング）を含むことができる。

場合によっては、機械学習モデルは、シーケンス処理に使用される１つ以上のニューラルネットワークを含む。ニューラルネットワーク（複数可）は、更に又は代替的に、例えば、エンコーダニューラルネットワーク及び／又は変換器ネットワークの一部若しくは全部を含むことができる。

機械学習モデルは、注意ベースであり、コンボリューション層を欠いており、及び／又は回帰層を欠いている１つ以上のニューラルネットワークを含む注意ベースの機械学習モデルを含むことができる。注意ベースの機械学習モデルは、注意ベースではない、１つ以上のコンボリューション層を含む、及び／又は１つ以上の回帰層を含む１つ以上の他のニューラルネットワークを更に含むことができる（が、そうである必要はない）。

注意ベースのネットワークは、クエリ重みのセット、キー重みのセット、及び値重みのセットを使用して、所与のアミノ酸表現について、所与のアミノ酸表現を処理するときに１つ以上の他のアミノ酸表現のそれぞれが「注意」されるべき程度を決定することができる。自己注意層は、例えば、エンコーダ又はデコーダがエンコーダ又はデコーダの前の層の全ての位置に対応することができるように、同じ層からのキー、値、及びクエリを使用することができる。

所与の変異ペプチドが特定のＭＨＣ分子に結合する及び／又は特定のＭＨＣ分子によって提示されるかどうかを予測する場合、１つ以上の変換機エンコーダは、バリアントコード配列及び／又はＭＨＣ配列の異なる部分又は全ての表現を別々に処理することができる。各変換器エンコーダは、自己注意層及びフィードフォワード層を含むことができる。各注意層は、例えば、位置及び／又は非位置埋め込みを実行するように構成された１つ以上埋め込み構成要素を更に含むことができる。場合によっては、変異ペプチドのＮフランク領域、変異ペプチドのエピトープ領域、変異ペプチドのＣフランク領域、及びＭＨＣ分子のそれぞれの配列は、変換器エンコーダの異なる反復で別々に処理される。配列のコード化表現は、配列中の各アミノ酸について、そのアミノ酸を表す特徴ベクトルを含み得る。次いで、配列のコード化表現を連結し、変換器エンコーダの更に別の反復に供給することができる。したがって、連結は、バリアントコード配列の一部又は全部における各アミノ酸及びＭＨＣ配列の全部又は一部に対する特徴ベクトルを含み得る。

１つ以上追加の特徴ベクトルが連結に含まれてもよい。追加の特徴の各々は、例えば、特徴ベクトルにランダム又は擬似ランダムな値を割り当てられてもよい。連結表現（例えば、追加の特徴ベクトル（複数可）を含む）は、コード化連結表現を生成するために追加の変換器エンコーダによって処理されてもよい。配列の組み合わせのこのコード化表現は、ドロップアウト及び／又はバッチ正規化が適用され得るフィードフォワードネットワーク（例えば、完全結合ニューラルネットワーク）によって処理され得る。場合によっては、追加の特徴ベクトル（複数可）のコード化表現（複数可）は、フィードフォワードネットワークに選択的に渡される（例えば、これに対して、ＭＨＣ分子及び／又は変異ペプチドの個々のアミノ酸に対応する特徴ベクトルはそうではない）。例えば、ＭＨＣ分子の部分配列がｘ_１のアミノ酸を含み、変異ペプチド（例えば、及び１つ以上のフランク）の部分配列がｘ_２個のアミノ酸を含み、特徴変換が各アミノ酸を表すｙの特徴値を識別すると仮定する。したがって、１つの追加の特徴ベクトルを含む連結表現は、［（ｘ_１＋ｘ_２＋１），ｙ］のサイズを有し得る。フィードフォワードネットワークに供給される入力は、フィードフォワードネットワークによる処理のために１つの特徴ベクトルが選択される場合、［１，ｙ］のサイズを有することができる。追加要素のアプローチを使用する利点は、モデルが可変長の配列を処理できることである。

フィードフォワードネットワークによって生成される結果は、変異ペプチドとＭＨＣ分子との間の結合親和性（例えば、対象のＭＨＣ分子）及び／又は変異ペプチドがＭＨＣ分子によって提示されるかどうかに関する予測に対応し得る。結合親和性予測は、例えば、数値（例えば、変異ペプチドがＭＨＣ分子に結合する予測確率、予測結合強度及び／又は予測結合安定性に対応する）、カテゴリ（例えば、変異ペプチドとＭＨＣ分子との間の結合安定性がない、低い、又は高いと予測すること）、又はバイナリ（例えば、変異ペプチドがＭＨＣ分子に結合するかどうかを予測すること）であり得る。

変異ペプチドに関連して生成される提示予測は、例えば、数値（例えば、対象のＭＨＣ分子が変異ペプチドを細胞表面に提示する予測確率、又は変異ペプチドを提示する対象の腫瘍細胞の予測画分に対応する）、カテゴリ（例えば、対象のＭＨＣ分子による変異ペプチドの提示がない、稀である、又は頻繁であると予測すること）、又はバイナリ（例えば、変異ペプチドが対象のＭＨＣ分子によって発現されるかどうかを予測すること）であり得る。提示予測は、正規化され、及び／又は条件付き予測を表すことができる（但し、そうである必要はない）。例えば、提示予測は、変異ペプチドがＭＨＣ分子に安定に結合している場合、対象のＭＨＣ分子が変異ペプチドを提示するかどうかに関する予測に対応し得る。

場合によっては、機械学習モデルは、変異ペプチドとＭＨＣ－Ｉ分子との間の１つ以上の潜在的相互作用に対応する予測を生成する。例えば、機械学習モデルは、ＭＨＣ－Ｉ分子と変異ペプチドとの結合親和性及び／又はＭＨＣ－Ｉ分子が変異ペプチドを提示するかどうかを予測することができる。機械学習モデルは、入力として、ＭＨＣ－Ｉ分子の配列又は部分配列、及び変異ペプチドに関連するバリアントコード配列を受信し、処理（例えば、１つ以上の自己注意層を使用する）し得る。

場合によっては、機械学習モデルは、変異ペプチドとＭＨＣ－ＩＩ分子との間の１つ以上の潜在的相互作用に対応する予測を生成する。例えば、機械学習モデルは、ＭＨＣ－ＩＩ分子及び変異ペプチドに対する結合親和性及び／又はＭＨＣ－ＩＩ分子が変異ペプチドを提示するかどうかを予測することができる。機械学習モデルは、入力として、ＭＨＣ－ＩＩ分子の配列又は部分配列及び変異ペプチドのバリアントコード配列を受信し、処理（例えば、１つ以上の自己注意層を使用する）し得る。

場合によっては、機械学習モデルは、変異ペプチド、ＭＨＣ配列又は部分配列、及びＴ細胞受容体（例えば、変異ペプチドとＭＨＣ分子との間の１つ以上の潜在的な相互作用に対応する予測を生成することの代わりに、又はそれに加えて）の間の１つ以上の潜在的相互作用に対応する予測を生成する。次いで、機械学習モデルは、例えば、変異ペプチドとＴ細胞受容体との間の結合親和性、及び／又は変異ペプチドがＴ細胞において免疫学的応答を活性化及び／又は誘因するかどうかを予測することができる。機械学習モデルは、入力として、Ｔ細胞受容体の配列又は部分配列、ＭＨＣの配列又は部分配列、及び変異ペプチドのバリアントコード配列を受信し、処理（例えば、１つ以上の自己注意層を使用する）し得る。

変異ペプチド（例えば、特定の対象に関連して）の免疫原性は、本明細書に開示される機械学習モデルによって生成された１つ以上の結果に基づいて予測することができる（例えば、注意ベースの機械学習モデル）。例えば、機械学習モデルの結果が、変異ペプチドがＭＨＣ分子との結合親和性が低いと予測した場合、対象の疾患試料から検出されたネオ抗原は免疫原性を誘因しないか、又は低い免疫原性を有すること；ＭＨＣ分子が変異ペプチドを提示しないか、又は提示する可能性がないこと；及び／又は変異ペプチドがＴ細胞受容体による免疫学的応答を誘因しないことを予測することができる。変異ペプチドに関連して生成される免疫原性予測は、例えば、数値（例えば、免疫原性応答が変異ペプチドに応答して引き起こされる予測確率に対応する、及び／又は変異ペプチドに対する任意の免疫原性応答の予測強度に対応する）、カテゴリ（例えば、免疫学的応答がない、低い又は高いと予測すること）、又はバイナリ（例えば、所与の変異ペプチドが対象において免疫学的応答を誘因するかどうかを予測すること）であり得る。

予測される免疫原性は更に、１つ以上の免疫原性因子の予測及び／又は実験的適応症に基づいてもよい。免疫原性を決定する因子としては、ｉ）変異ペプチド前駆体のタンパク質レベル；ｉｉ）変異ペプチド前駆体をコードする転写物の発現レベル；ｉｉｉ）イムノプロテアソームによる変異ペプチド前駆体の処理効率；ｉｖ）変異ペプチド前駆体をコードする転写物の発現のタイミング；ｖ）Ｔ細胞受容体に対する変異ペプチドの結合親和性；ｖｉ）バリアントペプチド内の変異体アミノ酸の位置；ｖｉｉ）ＭＨＣ分子に結合した場合の変異ペプチドの溶媒曝露；ｖｉｉ）ＭＨＣ分子に結合した場合のバリアントアミノ酸の溶媒曝露；ｘ）ペプチド中の芳香族残基の含有量；ｘｉ）野生型残基と比較した場合のバリアントアミノ酸の特性；及び／又はｘｉｉ）変異ペプチド前駆体の性質；ｘｉｉｉ）微生物ペプチドを知るための変異ペプチドの微生物類似性；ｘｉｖ）野生型プロテオームに対する変異ペプチドの自己類似性又は非類似性、ｘｖ）野生型ペプチドの胸腺発現を含み得る。免疫原性因子は、更に又は加えて、変異ペプチドのタンパク質配列及び／又は長さ（例えば、バリアントコード配列内で同定されたアミノ酸の数によって示すものとして）及び／又は対象におけるＭＨＣ対立遺伝子の発現レベル（例えば、ＲＮＡ－Ｓｅｑ又は質量分析によって測定される場合）を含み得る。

結合親和性予測及び／又は変異ペプチド提示が起こるかどうか（又はその確率）に関する予測（例えば、対象における１つ以上の腫瘍細胞及び／又は１つ以上のＭＨＣ分子）は、変異ペプチドのセット（例えば、対象からの疾患試料内で検出されたもの）のそれぞれについて、本明細書に開示される技術（例えば、注意ベースの機械学習モデルを使用して）に従って生成され得る。これらの予測は、セットの不完全なサブセット（例えば、セットの５０％未満、セットの２５％未満、セットの１０％未満、セットの５％未満及び／又はセットの１％未満）を選択するために使用することができる。不完全なサブセットは、１つ以上の相対閾値（例えば、ＭＨＣ分子との最も安定した結合及び／又は群内の他のものと比較して提示される最も高い尤度を有するセット内の変異ペプチドを同定するため）、又は１つ以上の絶対閾値を使用して選択することができる。例えば、選択された各変異ペプチドは、比較的強い親和性値（例えば、セット内の最良の５０％、最良の２５％、最良の１０％又は最良の５％の親和性値の範囲内）及び／又は絶対的に強い親和性値（例えば、ＩＣ５０値の場合、５０００ｎＭ、１０００ｎＭ又は５００ｎＭ等の所定の閾値／カットオフよりも良好な親和性値を有する）を有するＭＨＣとの結合親和性を有することができる。セットの不完全なサブセットは、所定の親和性値閾値／カットオフに関係なく、１、２、３、４、５、６、７、８、９、１０又はそれ以上の変異ペプチドを含み得る。セットの不完全なサブセットは、２０個以上のネオ抗原又は３０個以上の変異ペプチドを含み得る。

選択された各変異ペプチドは、製造されてもよく、実験的に試験されてもよく（例えば、結合親和性、提示発生率及び／又は他の免疫学的因子を決定するため）、組成物に含まれてもよく（例えば、ワクチン及び／又は処置等の医薬組成物）、及び／又は対象に投与されてもよい。

結合親和性及び提示予測が生成される変異ペプチドのセットの各々は、特定の対象（例えば、特定のヒト対象）に関連する変異ペプチドを含み得る。変異ペプチドのセットの各々は、個体からの疾患特異的試料を使用して同定された疾患特異的免疫原性変異ペプチドであり得る。個々のバリアントコード配列は、疾患試料中の遺伝子及び／又は核酸配列（例えば、ＤＮＡ、ＲＮＡ及び／又はｍＲＮＡ配列）を配列決定し、同定された各遺伝子及び／又は核酸配列を参照試料配列と比較することによって同定することができる。遺伝的配列及び／又は核酸配列内のコドンは、ペプチド中の対応するアミノ酸の存在を示す。特に、複数のコドンの各々は所与のアミノ酸をコードし得るので、核酸配列はアミノ酸配列を示すことができる（例えば、決定論的に）が、同じアミノ酸配列は他の核酸配列によってコードされ得る。

疾患試料において同定される配列のいくつかは、非疾患ペプチドに対応する非疾患配列であり得る。疾患特異的核酸配列及び／又は疾患特異的アミノ酸配列を同定するために、疾患特異的試料の配列決定の結果として検出される各配列について、配列が参照配列データセットにおいても同定されるかどうかを決定することができる。参照配列データセットは、配列が疾患（例えば、任意の疾患又は所与の疾患）を示さないか又は疾患に特徴的でないことが知られているか、推測されないか、又は仮定される参照配列のセットを含み得る。参照配列データセットは、例えば、疾患特異的試料が収集された同じ対象から収集された１つ以上の参照試料配列を配列決定すること、疾患又は疾患特異的試料に対応する疾患と診断されていない１つ以上の他の対象から収集された１つ以上の参照試料配列を配列決定すること、及び／又は特定の疾患に関連しない１つ以上の細胞株を配列決定することによって同定された配列を含み得る。場合によっては、参照配列データセットは、１つ以上の参照データリポジトリから収集された配列を含むことができる。疾患特異的試料に関連して検出されるが、参照配列データセットにおいて検出されない（又は予め定義された閾値未満の頻度で検出されない）配列は、バリアントコード配列（例えば、一般に、又は疾患特異的試料が収集された対象について）として分類することができる。

いくつかの例では、複数のバリアントコード配列を同定することができ（例えば、各々が疾患試料中で検出されているが、参照試料配列中には示されていない）、結合親和性及び／又は提示予測を予測するために、本明細書に開示される機械学習モデル（例えば、注意ベースの機械学習モデル）を使用して、複数のバリアントコード配列のそれぞれの表現を（例えば、個別に、順次に、及び／又は並行して）処理することができる。

疾患試料は、例えば、組織（例えば、固形腫瘍）、血液及び／又は細胞の集合（例えば、微細針吸引又は腹腔鏡検査を使用して収集され得るがん細胞）を含み得る。疾患試料は、例えば、肺がん、黒色腫、乳がん、卵がん、前立腺がん、腎臓がん、胃がん、結腸がん、精巣がん、頭頸部がん、膵がん、脳がん、Ｂ細胞リンパ腫、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ性白血病、及びＴ細胞リンパ性白血病、非小細胞肺がん、又は小細胞肺がんと診断された及び／又はそれらを有する対象から収集されたがん性細胞を含み得る。

場合によっては、最初の試料を疾患試料と別の残りの試料（例えば、廃棄され得るか、又は参照試料として使用され得る）とに分離する。参照試料は、一致した無病試料を含むことができる。疾患試料及び参照試料の各々は、同じ対象から収集されてもよく、及び／又は同じ若しくは類似の試料タイプ（例えば、組織型）を含んでもよく、又はそれらであってもよい。場合によっては、疾患試料は第１の対象（例えば、病状又は疾患が診断された人）から収集され、参照試料は異なる第２の対象（例えば、病状又は疾患が診断されていない人）から収集される。場合によっては、参照試料配列は、生物に関連する既知の遺伝子のデータベースから検索される。

訓練データは、１つ以上ペプチドの配列を、ＭＨＣ分子に結合した各ペプチドがＭＨＣ分子によって提示されたかどうか、及び／又は免疫学的応答を誘因したかどうかに関する表示と共に更に含み得る。配列データを観察された提示及び／又は結合データと関連付ける訓練データを収集するために、疾患試料（及び潜在的に参照試料）を（別々に）処理して、ＭＨＣ／ペプチド複合体（例えば、ＭＨＣに特異的な抗体を用いて免疫沈降を行うことによって）を単離する、及び／又は（例えば、クロマトグラフィー及び／又は質量分析を使用して）ＭＨＣ分子からペプチドを溶出する（及びそれによって配列決定する）ことができる。いくつかの例では、ＭＨＣクラスＩ対立遺伝子及び／又はＭＨＣクラスＩＩ対立遺伝子を含み得る、１つ以上のＭＨＣ対立遺伝子（例えば、疾患試料で検出されたもの）を発現するように操作された１つ以上の細胞株を配列決定することによって提示データを生成する際に使用するために、参照試料配列が同定される。１つ以上の細胞株は、１人以上の対象から得られた、又は誘導された１つ以上のヒト細胞株を含み得る。本明細書の目的のため、疾患試料を使用して同定されるが、参照試料配列のセットに表されないペプチド配列は、バリアントコード配列として同定され得る。

いくつかの実施形態において、訓練に使用するための免疫原性指標メトリックを収集することは、対象特異的ＭＨＣ分子プロファイルを識別することができるＨＬＡタイピング分析に基づくことができる。対象がヒトである場合、ＨＬＡ複合体はヒトにおいてＭＨＣタンパク質をコードする遺伝子複合体であるため、このプロファイルはヒト白血球抗原（ＨＬＡ）プロファイルと呼ばれ得る。ＨＬＡタイピング分析は、対象からの試料（例えば、正常組織及び／又は非疾患試料）を使用して行うことができる。プロファイルは、ＰＣＲベースの配列決定、直接配列決定及び／又は次世代配列決定等の配列決定技術を使用して決定され得る。ＨＬＡタイピング分析は、例えば、高解像度タイピング（例えば、それは、細胞表面上に発現されないヌル対立遺伝子を示すことを除外する）又は対立遺伝子レベルのタイピング（例えば、正確なヌクレオチド配列ＨＬＡ遺伝子決定を指す）を含み得る。ＨＬＡタイピング分析は、対立遺伝子のより広いファミリーを同定する低分解能タイピング及び／又はＨＬＡスーパータイピングを含み得る。

任意のタイプの配列決定（例えば、サンプル中の配列を同定するために、ペプチドがＭＨＣ分子に結合する、ＨＬＡタイピング）に関して、結果は、１つ以上の核酸配列又は１つ以上のアミノ酸配列を同定し得る。核酸配列が同定され、アミノ酸配列を処理するように注意ベースのモデル（又は他の処理）が構成されている場合、核酸配列内の個々のコドンを個々のアミノ酸に変換するために技術（例えば、ルックアップテーブル）が使用され得る。

いくつかの実施形態は、ペプチド（例えば、選択されたペプチド等のペプチドをコードする核酸配列を使用する工程）又は前駆体を選択されたペプチドに合成することを含む。次いで、合成されたペプチド又は前駆体を実験で使用して、対応する提示及び／又は結合データ（例えば、予測された提示及び／又は結合を検証するために、又は訓練に使用する結果を生成するため）を同定することができる。例えば、実験は、ＥＬＩＳＡプルダウンアッセイ、ゲルシフトアッセイ、又はバイオセンサベースの方法論を使用して、選択されたペプチドと特定のＭＨＣ分子との結合親和性を評価することを含み得る。別の例として、実験は、ペプチド－ＭＨＣ免疫沈降を使用することによって、選択されたペプチドがＭＨＣ分子によって提示されたかどうかを示す溶出データを収集し、続いて溶出及び質量分析による提示されたＭＨＣリガンドの検出を含み得る。

個々のペプチドが個々のＭＨＣに結合したか及び／又は個々のＭＨＣによって提示されたかどうかを示す訓練又は検証データに加えて、又はその代わりに、訓練又は検証データは、個々のペプチドが免疫原性を誘因したかどうかを示し得る。免疫原性結果は、ｉｎｖｉｖｏ又はｉｎｖｉｔｒｏ試験を使用して決定され得る。１つ以上の選択されたペプチドを試験することは、（例えば、所与の事象が発生するかどうか、及び／又は所与の事象が発生する程度を決定するため）１つ以上の免疫原性因子及び／又は（例えば、ペプチドが免疫学的応答を誘因するかどうか及び／又はその程度を決定するため）免疫原性を調べるように構成することができる。試験は、１つ以上のペプチドを含む組成物（例えば、ワクチン）の所与の対象（例えば、変異ペプチド選択中に使用されたＭＨＣ配列が同定されている）への投与が病状（例えば、腫瘍）又は疾患（例えば、がん）の予防又は処置に有効であるかどうかを調べるように構成することができる。対象はヒト対象であり得る。

いくつかの実施形態は、１つ以上の選択された変異ペプチド（又は１つ以上の選択された変異ペプチドをコードする複数の核酸）に基づく組成物を製造することを含む。例えば、１つ以上の選択された変異ペプチドのそれぞれは、対象のＭＨＣ分子に結合し、それによって提示されると予測されていてもよい（例えば、少なくとも閾値程度まで）。組成物は、１つ以上の選択された変異ペプチド、１つ以上選択された変異ペプチドに対する１つ以上の前駆体、１つ以上の選択された変異ペプチドに対応する１つ以上のポリペプチド配列、１つ以上の選択された変異ペプチドに対応するＲＮＡ（例えば、ｍＲＮＡ）、１つ以上の選択された変異ペプチドに対応するＤＮＡ、１つ以上の選択された変異ペプチド、及び／又はそのようなペプチドをコードする核酸（複数可）を含む細胞（例えば、抗原提示細胞）、１つ以上の選択された変異体ペプチドに対応するプラスミド、及び／又は１つ以上の選択された変異ペプチドに対応するベクターのそれぞれを含み得る。

組成物は、アジュバント、賦形剤、免疫調節剤、チェックポイントタンパク質、ＰＤ－１のアンタゴニスト（例えば、抗ＰＤ－１抗体）及び／又はＰＤ－Ｌ１のアンタゴニスト（例えば、抗ＰＤ－Ｌ１抗体）を更に含み得る。組成物は、腫瘍ワクチン等のワクチンであり得る。組成物は、特定の対象のために製造又は選択された個別化ワクチンであり得る。

組成物は、ポリヌクレオチドコンストラクト（例えば、ＤＮＡコンストラクト又はＲＮＡコンストラクト）を含み得る。ポリヌクレオチドコンストラクトは、標的組織又は細胞に「移植」され得る核酸の人工的に構築されたセグメントである。ポリヌクレオチドコンストラクトは、１つ以上の選択された変異ペプチドをコードするヌクレオチド配列を含むＤＮＡ又はＲＮＡ（例えば、ｍＲＮＡ）挿入を含む。抗原提示（例えば、ＭＨＣ分子による１つ以上の選択された変異ペプチドの提示）を増加させるために、ポリヌクレオチドコンストラクトは、改善された抗原提示、したがって１つ以上の選択された変異ペプチドに対する改善された免疫原性のために開発された修飾を更に含み得る。いくつかの例では、修飾は、あらゆる目的のためにその全体が参照により本明細書に組み込まれる国際公開第２００５０３８０３０号Ａ１に記載されているように、ＭＨＣ分子の鎖の膜貫通領域及び細胞質領域のポリヌクレオチドコンストラクトへの組み込みである。

安定性及び翻訳効率が増加したＲＮＡインサートを提供するために、ポリヌクレオチドコンストラクトは、安定性及び翻訳の改善、したがって１つ以上の選択された変異ペプチドに対する免疫原性の改善のために開発された修飾を更に含み得る。いくつかの例では、改変は、参照によりその全体があらゆる目的のために本明細書に組み込まれる国際公開第２００７０３６３６６号Ａ２に記載されているように、ヒトβグロビン遺伝子の３’非翻訳領域の少なくとも２つのコピーを有する核酸配列のポリヌクレオチドコンストラクトへの組み込みである。他の例では、修飾は、国際公開第２０１７０６０３１４号Ａ３に記載されているＦ１３’ＵＴＲ等の３’非翻訳領域をコードする核酸配列の組み込みであり、これはあらゆる目的のためにその全体が参照により本明細書に組み込まれる。

安定性及び発現が増加したＲＮＡ挿入を提供するために、ポリヌクレオチドコンストラクトは、安定性及び発現の改善、したがって１つ以上の選択された変異ペプチドに対する免疫原性の改善のために開発された修飾を更に含み得る。いくつかの例において、修飾は、ＲＮＡの末端におけるキャップ（例えば、５’－キャップ構造等）の組み込みである。キャップ構造は、国際公開第２０１１０１５３４７号Ａ１に記載されているようなベータ－Ｓ－ＡＲＣＡのＤ１ジアステレオマーであってもよく、これはあらゆる目的のためにその全体が参照により本明細書に組み込まれる。

抗原提示細胞に高い選択性でポリヌクレオチドコンストラクトを送達するために、組成物は、ポリヌクレオチドコンストラクトの取り込みを改善し、したがって１つ以上の選択された変異ペプチドに対する免疫原性を改善するためのカチオン性リポソーム又はリポプレックスを更に含み得る。いくつかの例において、組成物は、ポリヌクレオチドコンストラクト含むナノ粒子を含む。ナノ粒子は、あらゆる目的のためにその全体が参照により本明細書に組み込まれる国際公開第２０１３１４３６８３号Ａ１に記載されているように、ＤＯＴＭＡ及びＤＯＰＥ等の１つ以上の脂質を含むリポプレックスであり得る。

いくつかの実施形態は、１つ以上の選択された変異ペプチドを含む有効量の組成物（例えば、ワクチン）を個体に投与することによって、個体における病状（例えば、腫瘍）又は疾患（例えば、がん）を処置することを含む。個体は、疾患試料を採取したのと同じ個体であってもよい。いくつかの例では、ワクチンは、疾患試料が採取された個体と比較して異なる個体に投与される。異なる個体は、例えば、疾患試料が収集された個体に関連していてもよく、特定のタイプのがんを発症する遺伝的リスクを有していてもよく、及び／又は疾患試料が収集された対象の１つ以上のＭＨＣ対立遺伝子と同じ（又は類似する）配列に対応する１つ、複数又は全ての対立遺伝子を有するＭＨＣ分子を有していてもよい。

いくつかの実施形態において、変異ペプチドのセット（例えば、対象の試料中で検出される）のそれぞれについて、変異ペプチドが対象のＭＨＣ分子に結合するかどうか（又はそのような結合の強度、安定性及び／若しくは発生率）を予測するため、及び／又は対象のＭＨＣ分子が変異ペプチドを提示するかどうか（及び／又はそのような提示の発生率）を予測するために、本明細書に開示される１つ以上の技術が使用される。予測は、変異ペプチドの不完全なサブセット（例えば、変異ペプチドのＭＨＣ提示が可能性が高いと予測される）を選択するために使用することができる。選択は、各変異ペプチドについて、予測メトリックに対応するメトリックを絶対閾値と比較すること、及び／又は他の変異ペプチドのメトリックの予測メトリックと比較すること（例えば、それによって相対比較を行うこと）を含み得る。選択された各変異ペプチドは、以下を同定することができる：腫瘍細胞表面に提示される可能性が高いこと；腫瘍特異的免疫応答を誘導することができる可能性が高いこと；プロフェッショナル抗原提示細胞（例えば、樹状細胞）によってナイーブＴ細胞に提示され得る可能性が高いこと；中枢性寛容又は末梢性寛容による阻害を受ける可能性が低いこと；及び／又は対象において正常組織に対する自己免疫応答を誘導することができる可能性が低いこと。

いくつかの実施形態は、ＭＨＣ分子に結合し、腫瘍細胞の表面でＭＨＣ分子によって提示される可能性が高い１つ以上のペプチド（例えば、変異ペプチド）を同定するためのモデルを生成及び／又は使用することを含む。より具体的には、訓練データセットは、データ要素のセットを含むことができ、各データ要素は、エピトープ（又はペプチド）の配列（例えば、及び潜在的には、ペプチドのＮフランク及びペプチドのＣフランクの配列）、ＭＨＣ分子の部分配列、並びにペプチド及びＭＨＣ分子に関する１つ以上の実験結果（例えば、結合親和性及び／又は溶出リガンド提示データ）を含む。

注意ベースの機械学習モデルは、訓練データセットの少なくとも一部を使用して訓練することができる。訓練データセットは、複数の訓練データ要素を含むことができる。各訓練データ要素は、配列及び結果（例えば、配列に対応するペプチドの少なくとも一部がＭＨＣ分子によって提示されるかどうか、及び／又は免疫原性を誘因するかどうかを示す）の表現を含むことができる。提示が検出されなかった訓練データ要素は、計算的に生成することができる。例えば、陽性セット中の各起源タンパク質（陽性溶出リガンド提示データに対応する）について、１つ、複数又は全ての可能なペプチド断片（例えば、８～１１等の所定の長さ範囲内）を、各長さについて、潜在的に均一な確率で生成することができる。Ｎ末端及びＣ末端フランク配列は保持され得る（例えば、潜在的に最大長、例えば１０アミノ酸を有する）。いくつかの例では、訓練データの陽性例で表される各対立遺伝子について、ペプチド断片（例えば、８～１１の１つ、複数、又は全ての長さ）を生成することができる。生成及び／又はその後の選択は、所与の長さを有する配列の発生確率が長さにわたって均一になるように実行することができる。Ｎ末端及びＣ末端のフランク配列は、特定の最大長（例えば、１０アミノ酸の最大長）で保持されていてもよく、又は保持されていてもよい。

注意ベースの機械学習モデルは、１、２、３、４、５、６、７、８又はそれ以上の変圧器エンコーダネットワーク（例えば、各々が１ヘッド注意及びフィードフォワードネットワークを含む）を含むことができる。例えば、注意ベースの機械学習モデルは、ペプチドの表現を処理するように構成された変換器エンコーダ、ＭＨＣ分子の表現を処理するように構成された変換器エンコーダ、潜在的にペプチドＮフランクの表現を処理するように構成された変換器エンコーダ、及び潜在的にペプチドＣフランクの表現を処理するように構成された変換器エンコーダを含む、複数の第１レベルの変換器エンコーダを含むことができる。注意ベースの機械学習モデルは、第１のレベルの変換器エンコーダによって生成された集約された（例えば、連結される）結果を処理するように構成された第２のレベルの変換器エンコーダを更に含むことができる。

注意ベースの機械学習モデルは、第５の変換器エンコーダ（例えば、ドロップアウトが適用された後）からの結果を処理して、予測された（例えば、実数）結合親和性及び／又は予測された提示を（例えば、バイナリ予測として）生成するように構成されたフィードフォワードネットワーク（例えば、１つ、２つ、又はそれ以上の隠れ層を有する完全接続フィードフォワードネットワーク）を更に含むことができる。注意ベースの機械学習モデルは、モデルのアンサンブル内の１つ以上のモデル（例えば、同じ構成を有する）である。訓練データセットは、アンサンブル内の様々なモデルを訓練するために、ランダムに解析、シャッフル、及び／又は分割することができる。損失関数は、誤差項（例えば、平均二乗誤差又は中央二乗誤差）及び／又はエントロピー項（例えば、交差エントロピー又はバイナリ交差エントロピー）を使用することができる。２つの異なるタイプの結果（例えば、結合親和性及び提示の発生）の各々を予測するためにモデルが同時に訓練されるように、マルチタスク学習を使用することができる。静的又は非静的な学習率を使用することができる。例えば、学習率アニーリング（例えば、段階的アニーリング又はコサインアニーリングを使用する）を使用して、反復にわたって学習率を低下させることができる。検証データ評価を使用して、訓練を早期に（例えば、性能目標が満たされたと判断すると）終了させることができる。

ＭＨＣは、ｉｎｖｉｖｏで複数の対立遺伝子（例えば、ヒトあたり６個の対立遺伝子）を含む。したがって、この単一のＭＨＣ分子について、複数の配列入力を生成することができる（例えば、各々が複数の対立遺伝子の単一の対立遺伝子を表す）。複数の配列入力のそれぞれは、対立遺伝子のそれぞれに関連するネオ抗原の予測される結合又は提示値を生成するために、１つ以上のニューラルネットワーク（例えば、１つ以上の変換器エンコーダ）を使用して別々に処理することができる。関数（例えば、ソフトマックス関数）は、複数の対立遺伝子の中からどの対立遺伝子が最も高い提示予測と関連しているかを同定することができる。訓練中、この特定の配列入力に対するこの最大提示予測は、パラメータを調整するための誤差を生成するために、バイナリ損失関数を使用して真の提示値と比較することができる。

いくつかの例では、提示されるペプチドコアに長いペプチドをトリミングする時期を決定するために、フランク部由来のアミノ酸（例えば、Ｎフランク部）がペプチダーゼによっていくつ使用されるかは知られていない。訓練データを生成する際にこの未知のものに対処するため、次いで、所定の範囲内の長さ（例えば、１～１０アミノ酸）等の技術（例えば、擬似ランダム選択技術）に基づいて選択された長さにフランクをトリミングすることができる。選択手法は、分布（例えば、一様分布又はガウス分布）を用いて長さを選択してもよい。場合によっては、閾値長さ（例えば、１０アミノ酸）を下回るフランクはトリミングされない。いくつかの例では、フランクトリミングは、ＮフランクのＣフランクを保存するように定義される。

次いで、訓練されたモデルは、１つ以上の変異ペプチド配列（例えば、Ｎフランク領域、候補エピトープ領域及び／又はＣフランク領域の）の表現（複数可）、及び（対象に関連する）ＭＨＣ分子の部分配列を含む入力データセットを受信し、予測された結合親和性及び／又は提示予測を生成することができる。変異ペプチドがＭＨＣ分子に安定に結合して提示されると予測される場合、変異ペプチドは、対象を処置するために使用される組成物（例えば、ワクチン）に含まれるように選択され得る。

ＩＩ．Ｄ．機械学習モデルの入力データの例示的な識別
本明細書に記載の入力データを識別するための例示的な方法及びシステムを使用して、例えば図１及び３の機械学習モデル１３２及び／又は図４Ａ～４Ｃに記載の機械学習モデル１３２の入力データを識別することができる。

所与の対象に関連する変異ペプチドのセットの各々を、注意ベースの機械学習モデルを用いて分析して、変異ペプチドの結合親和性、提示確率及び／又は免疫原性に関する１つ以上の予測を生成することができる。これらの予測を生成するために、機械学習モデルは、変異ペプチドに対応するペプチド（例えば、符号化）配列及び１つ以上の他の配列又は部分配列（例えば、ＭＨＣ－Ｉ分子、ＭＨＣ－ＩＩ分子又はＴ細胞受容体に対応する）を受信し、処理することができる。いくつかの例では、ペプチド配列のセット（例えば、変異ペプチドのセットに対応するバリアントコード配列のセット）のそれぞれについて予測が生成される。変異ペプチドのセットは、対象から収集された疾患試料中に存在するが、１つ以上の非疾患試料（例えば、対象又は別の対象からの）中には観察されないペプチドに対応し得る。

所与の対象に関連する変異ペプチドのセットを同定するための様々な方法が利用可能である。変異は、対象の疾患細胞のゲノム、転写、プロテオーム又はエクソーム中に存在し得るが、非疾患試料、例えば対象又は別の対象からの非疾患試料中には存在し得ない。変異としては、限定されるものではないが、（１）タンパク質中の異なるアミノ酸をもたらす非同義変異；（２）終止コドンが改変又は欠失され、Ｃ末端に新規な腫瘍特異的配列を有するより長いタンパク質の翻訳をもたらすリードスルー変異；（３）成熟ｍＲＮＡへのイントロンの包含、したがって固有の腫瘍特異的タンパク質配列をもたらすスプライス部位突然変異；（４）２つのタンパク質の接合部に腫瘍特異的配列を有するキメラタンパク質を生じる染色体再編成（すなわち、遺伝子融合）；（５）新規な腫瘍特異的タンパク質配列を有する新しいオープンリーディングフレームをもたらすフレームシフト挿入又はフレームシフト欠失が挙げられる。変異はまた、１つ以上の非フレームシフトインデル、ミスセンス若しくはナンセンス置換、スプライス部位の変化、ゲノム再編成若しくは遺伝子融合、又はｎｅｏＯＲＦを生じさせる任意のゲノム若しくは発現変化を含み得る。

例えば、疾患細胞におけるスプライス部位、フレームシフト、リードスルー又は遺伝子融合突然変異から生じる突然変異又は突然変異ポリペプチドを有するペプチドは、疾患試料中のＤＮＡ、ＲＮＡ又はタンパク質を配列決定し、得られた配列を非疾患試料由来の配列と比較することによって同定することができる。

いくつかの実施形態において、疾患試料及び非疾患試料からの全ゲノム配列決定（ＷＧＳ）又は全エクソーム配列決定（ＷＥＳ）データを取得し、比較することができる。非疾患試料及び疾患試料リードのヒト参照ゲノムへのアラインメントに続いて、単一ヌクレオチドバリアント（ＳＮＶ）、遺伝子融合及び挿入又は欠失バリアント（インデル）を含む体細胞バリアント、バリアントコーリングアルゴリズムを使用して検出することができる。１つ以上バリアントコーラーを使用して、異なる体細胞バリアント型（すなわち、ＳＮＶ、遺伝子融合、又はインデル）を検出することができる（その全体があらゆる目的のために参照により本明細書に組み込まれる、Ｘｕｅｔａｌ．’’Ａｒｅｖｉｅｗｏｆｓｏｍａｔｉｃｓｉｎｇｌｅｎｕｃｌｅｏｔｉｄｅｖａｒｉａｎｔｃａｌｌｉｎｇａｌｇｏｒｉｔｈｍｓｆｏｒｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｄａｔａ．’’Ｃｏｍｐｕｔ．Ｓｔｒｕｃｔ．Ｂｉｏｔｅｃｈｎｏｌ．Ｊ．１６：１５－２４（２０１８）を参照されたい）。

いくつかの例では、変異ペプチドは、個体由来の疾患試料中のトランスクリプトーム配列に基づいて同定される。例えば、全トランスクリプトーム配列又は部分的トランスクリプトーム配列（例えば、ＲＮＡ－Ｓｅｑ等の方法による）を個体の疾患組織から得て、配列決定分析に供することができる。次いで、疾患組織試料から得られた配列を、参照試料から得られた配列と比較することができる。任意に、疾患組織試料を全トランスクリプトームＲＮＡ－Ｓｅｑに供する。任意に、トランスクリプトーム配列は、参照試料との比較前の特定の配列について「濃縮」である。例えば、配列決定分析に供する前に、特定の所望の配列（例えば、疾患特異的配列）を濃縮するように特異的プローブを設計することができる。全トランスクリプトームシーケンシング及び標的化シーケンシングの方法は当技術分野で公知であり、例えばＴａｎｇ，Ｆ．ｅｔａｌ．，’’ｍＲＮＡ－Ｓｅｑｗｈｏｌｅ－ｔｒａｎｓｃｒｉｐｔｏｍｅａｎａｌｙｓｉｓｏｆａｓｉｎｇｌｅｃｅｌｌ，’’ＮａｔｕｒｅＭｅｔｈｏｄｓ，２００９，ｖ．６，３７７－３８２；Ｏｚｓｏｌａｋ，Ｆ．，’’ＲＮＡｓｅｑｕｅｎｃｉｎｇ：ａｄｖａｎｃｅｓ，ｃｈａｌｌｅｎｇｅｓａｎｄｏｐｐｏｒｔｕｎｉｔｉｅｓ，’’ＮａｔｕｒｅＲｅｖｉｅｗｓ，２０１１，ｖ．１２，８７－９８；Ｇｅｒｍａｎ，Ｍ．Ａｅｔａｌ．，’’ＧｌｏｂａｌｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｍｉｃｒｏＲＮＡ－ｔａｒｇｅｔＲＮＡｐａｉｒｓｂｙｐａｒａｌｌｅｌａｎａｌｙｓｉｓｏｆＲＮＡｅｎｄｓ，’’ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ，２００８，ｖ．２６，９４１－９４６；及びＷａｎｇ，Ｚ．ｅｔａｌ．，’’ＲＮＡ－Ｓｅｑ：ａｒｅｖｏｌｕｔｉｏｎａｒｙｔｏｏｌｆｏｒｔｒａｎｓｃｒｉｐｔｏｍｉｃｓ，’’ＮａｔｕｒｅＲｅｖｉｅｗｓ，２００９，ｖ．１０，ｐ．５７－６３に報告されている。これらの参考文献の各々は、あらゆる目的のためにその全体が参照により本明細書に組み込まれる。

いくつかの実施形態において、トランスクリプトーム配列決定技術としては、限定されるものではないが、ＲＮＡポリ（Ａ）ライブラリー、マイクロアレイ分析、並列配列決定、大規模並列配列決定、ＰＣＲ及びＲＮＡ－Ｓｅｑが挙げられる。ＲＮＡ－Ｓｅｑは、トランスクリプトームの一部又は実質的に全部を配列決定するためのハイスループット技術である。手短に言えば、トランスクリプトーム配列の単離された集団を、一方又は両方の末端に結合したアダプターを有するｃＤＮＡ断片のライブラリーに変換する。次いで、増幅の有無にかかわらず、各ｃＤＮＡ分子を分析して、配列情報の短いストレッチ、典型的には３０～４００塩基対を得る。次いで、これらの配列情報の断片を参照ゲノム、参照転写物にアラインメントするか、又はｄｅｎｏｖｏでアセンブルして、転写物の構造（すなわち、転写境界）及び／又は発現レベルを明らかにする。

一旦得られると、罹患試料中の配列を参照試料中の対応する配列と比較することができる。配列比較は、疾患組織中の核酸配列を参照試料中の対応する配列と整列させることによって、核酸レベルで行うことができる。次いで、コードされたアミノ酸の１つ以上の変化をもたらす遺伝子配列変化を同定する。或いは、配列比較をアミノ酸レベルで行うことができ、すなわち、比較を行う前に核酸配列を最初にｉｎｓｉｌｉｃｏでアミノ酸配列に変換する。アミノ酸ベースのアプローチ又は核酸ベースのアプローチのいずれかを使用して、ペプチド中の１つ以上突然変異（例えば、１つ以上の点突然変異）を同定することができる。核酸に基づくアプローチに関して、発見されたバリアントを使用して、所与の観察可能な変異タンパク質（例えば、個々のペプチド変異を複数のコドンバリアントと関連付けるルックアップテーブルを介して）を生じさせる１つ以上の核酸配列（例えば、ＤＮＡ配列、ＲＮＡ配列又はｍＲＮＡ配列）を同定することができる。

いくつかの実施形態において、疾患試料からの配列と参照試料の配列との比較は、手動アライメント、ＦＡＳＴ－Ａｌｌ（ＦＡＳＴＡ）、及びＢａｓｉｃＬｏｃａｌＡｌｉｇｎｍｅｎｔＳｅａｒｃｈＴｏｏｌ（ＢＬＡＳＴ）等の当技術分野で公知の技術によって完了することができる。いくつかの実施形態において、疾患試料からの配列と参照試料の配列との比較は、ショートリードアライナ、例えばＧＳＮＡＰ、ＢＷＡ、及びＳＴＡＲを使用して完了することができる。

いくつかの実施形態において、参照試料は一致した無病試料である。本明細書で使用される場合、「一致、」疾患のない組織試料は、同じ又は類似の試料、例えば、疾患試料と同じ又は類似の組織型からの試料から選択されるものである。いくつかの実施形態において、一致した疾患のない組織及び疾患組織は、同じ個体に由来し得る。いくつかの実施形態において本明細書に記載される参照試料は、同じ個体からの疾患のない試料である。いくつかの実施形態において、参照試料は、異なる個体（例えば、疾患を有しない個体）からの無病試料である。いくつかの実施形態において、参照試料は異なる個体の集団から得られる。いくつかの実施形態において、参照試料は、生物に関連する既知の遺伝子のデータベースである。いくつかの実施形態において、参照試料は、細胞株に由来し得る。いくつかの実施形態において、参照試料は、生物に関連する既知の遺伝子と、一致した疾患のない試料からのゲノム情報との組み合わせであり得る。いくつかの実施形態において、バリアントコード配列は、アミノ酸配列中に点突然変異を含み得る。いくつかの実施形態において、バリアントコード配列は、アミノ酸の欠失又は挿入を含み得る。

いくつかの実施形態において、バリアントコード配列のセットは、ゲノム及び／又は核酸配列に基づいて最初に同定される。次いで、この初期セットを更にフィルタにかけて、トランスクリプトームシーケンシングデータベースにおけるバリアントコード配列の存在に基づいて（したがって、「発現している」とされる）、より狭い発現バリアントコード配列セットを得る。いくつかの実施形態において、バリアントコード配列のセットは、トランスクリプトームシーケンシングデータベースをフィルタにかけることによって、少なくとも約１０倍、２０倍、３０倍、４０倍、５０倍又はそれ以上低減される。

或いは、タンパク質質量分析を使用して、変異ペプチド、例えば腫瘍細胞上のＭＨＣタンパク質に結合した変異体の存在を同定又は検証することができる。ペプチドは、疾患細胞、例えば腫瘍細胞から、又は腫瘍から免疫沈降したＨＬＡ分子から酸溶出し、次いで質量分析を使用して同定することができる。

変異ペプチドは、例えば、５個以上、８個以上、１１個以上、１５個以上、２０個以上、４０個以上、８０個以上、１００個以上、１２０個以下、１００個以下、８０個以下、６０個以下、５０個以下、４０個以下、３０個以下、２５個以下、２０個以下、１８個以下、１５個以下又は１３個以下のアミノ酸を有し得る。

腫瘍特異的Ｔ細胞受容体配列は、例えば、単一細胞Ｔ細胞受容体配列決定によって同定することもできる。例えば、ＤｅＳｉｍｏｎｅｅｔａｌ．’’ＳｉｎｇｌｅＣｅｌｌＴＣｅｌｌＲｅｃｅｐｔｏｒＳｅｑｕｅｎｃｉｎｇ：ＴｅｃｈｎｉｑｕｅｓａｎｄＦｕｔｕｒｅＣｈａｌｌｅｎｇｅｓ，’’Ｆｒｏｎｔ．Ｉｍｍｕｎｏｌ．９：１６３８（２０１８）；Ｚｏｎｇｅｔａｌ．’’Ｖｅｒｙｒａｐｉｄｃｌｏｎｉｎｇ，ｅｘｐｒｅｓｓｉｏｎａｎｄｉｄｅｎｔｉｆｙｉｎｇｓｐｅｃｉｆｉｃｉｔｙｏｆＴ－ｃｅｌｌｒｅｃｅｐｔｏｒｓｆｏｒＴ－ｃｅｌｌｅｎｇｉｎｅｅｒｉｎｇ，’’ＰｌｏＳＯＮＥ１５（２）：ｅ０２２８１１２（２０２０）（これは、あらゆる目的のためにその全体が参照により本明細書に組み込まれる）を参照されたい。Ｔ細胞レパートリーのハイスループットシーケンシングもまた、又は代替において、特定の疾患についての腫瘍特異的シグネチャを同定するために行われ得る。例えば、Ｗａｎｇｅｔａｌ．’’Ｈｉｇｈ－ｔｈｒｏｕｇｈｐｕｔｓｅｑｕｅｎｃｅｏｆＣＤ４＋Ｔｃｅｌｌｒｅｐｅｒｔｏｉｒｅｒｅｖｅａｌｓｄｉｓｅａｓｅ－ｓｐｅｃｉｆｉｃｓｉｇｎａｔｕｒｅｓｉｎＩｇＧ４－ｒｅｌａｔｅｄｄｉｓｅａｓｅ，’’ＡｒｔｈｒｉｔｉｓＲｅｓｅａｒｃｈ＆Ｔｈｅｒａｐｙ２１：２９５（２０１９）（これは、あらゆる目的のためにその全体が参照により本明細書に組み込まれる）を参照されたい。

ＭＨＣ－Ｉ配列及び／又はＭＨＣ－ＩＩ配列は、例えば、ＨＬＡ遺伝子型決定又は質量分析によって決定することができる（Ｃａｒｏｎｅｔａｌ．，’’ＡｎａｌｙｓｉｓｏｆＭａｊｏｒＨｉｓｔｏｃｏｍｐａｔｉｂｉｌｉｔｙＣｏｍｐｌｅｘ（ＭＨＣ）ＩｍｍｕｎｏｐｅｐｔｉｄｅｓＵｓｉｎｇＭａｓｓＳｐｅｃｔｒｏｓｃｏｐｙ，’’ＭｏｌｅｃｕｌａｒａｎｄＣｅｌｌｕｌａｒＰｒｏｔｅｏｍｉｃｓ１４（１２）：３１０５－３１１７（２０１５）（これは、あらゆる目的のためにその全体が参照により本明細書に組み込まれる）。

ＩＩ．Ｅ．機械学習モデルのための訓練データの例示的な識別
本明細書に記載の訓練データを識別するための例示的な方法及びシステムを使用して、例えば図１及び３の機械学習モデル１３２及び／又は図４Ａ～４Ｃに記載の機械学習モデル１３２の訓練データを識別することができる。例えば、これらの方法及びシステムを使用して、図１の訓練データ１３１を識別することができる。

訓練セットは、複数の他のサンプル（例えば、潜在的に１人以上の他の対象と関連している）から収集されたデータを使用して生成することができる。複数の他の試料のそれぞれは、例えば、組織（例えば、生検）、単一細胞、複数の細胞、細胞の断片又は体液のアリコートを含み得る。場合によっては、複数の他のサンプルは、訓練されたモデルによって処理される入力データに関連付けられた対象と比較して、異なる種類の対象から収集される。例えば、機械学習モデルは、１つ以上の細胞株からの試料を処理することによって収集された訓練データを使用して訓練されてもよく、訓練された機械学習モデルは、対象からの１つ以上の試料を処理することによって決定された入力データを処理するために使用されてもよい。

訓練データセットは、複数の訓練要素を含むことができる。複数の訓練要素のそれぞれは、それぞれが対応するペプチド中の任意のバリアントをコードする及び／又は表すペプチド配列のセット（野生型又はバリアントコード配列のセットを含む）、並びにＭＨＣ分子の部分配列又は疑似配列を含む入力データを含み得る。入力データは、本明細書（例えば、セクションＩＩ．Ｄ）に開示される１つ以上の技術に従って収集することができる。

各訓練要素はまた、１つ以上の実験に基づく結果を含むことができる。実験に基づく結果は、野生型ペプチド又は変異ペプチド（訓練要素内のバリアントコード配列に関連する）とＭＨＣ分子（訓練要素内のＭＨＣ分子部分配列に関連する）との間の１つ以上の特定の種類の相互作用のそれぞれが生じるかどうか及び／又は程度を示すことができる。特定の種類の相互作用には、例えば、ＭＨＣ分子へのペプチドの結合及び／又は細胞の表面上のＭＨＣ分子によるペプチドの提示（例えば、腫瘍細胞）が含まれ得る。

結果は、ペプチドとＭＨＣ分子との間の結合親和性を含み得る。結果は、所与のペプチドが所与のＭＨＣ分子と結合するかどうか、そのような結合の強度、そのような結合の安定性、及び／又はそのような結合が生じる傾向を特徴付ける定性的データ及び／又は定量的データを含むことができ、又はそれに基づくことができる。例えば、バイナリ結合親和性指示薬又は定性的バイナリ親和性結果は、ＥＬＩＳＡ、プルダウンアッセイ、ゲルシフトアッセイ、バイオセンサベースの方法論、例えば表面プラズモン共鳴、等温滴定比色法、バイオレイヤー干渉法又はマイクロスケール熱泳動を用いて生成することができる。

結果は、例えば、更に又は代替的に、所与のＭＨＣ分子が所与のペプチドを提示するかどうか及び／又はその確率を特徴付けることができる。ＭＨＣリガンドは、サンプルから免疫沈降され得る。その後の溶出及び質量分析を使用して、ＭＨＣ分子がリガンドを提示したかどうかを決定することができる。

ＩＩＩ．薬学的に許容され得る組成物及び製造
１つ以上のバリアントコード配列は、本明細書に記載の１つ以上の機械学習モデルからの結果に基づいて、バリアントコード配列の対象特異的セットから選択することができる。例えば、選択は、予測される結合親和性が５００ｎＭ未満であり、ＭＨＣ分子がバリアントコード配列によって同定される変異ペプチドを提示すると予測される、及び／又は変異ペプチドが免疫応答を誘因すると予測される、バリアントコード配列の対象特異的セットの各々を同定することを含み得る。モデルの出力は、５００ｎＭが例えば［０，１］スケールの別の値（例えば、０．４２）に対応することができるように、異なるスケールであってもよいことが理解されよう。

薬学的に許容され得る組成物は、選択されたバリアントコード配列の１つ、複数又は全部を使用して開発及び／又は製造され得る。組成物は、単一の選択されたバリアントコード配列に対応する変異ペプチドを含み得る。組成物は、複数の選択されたバリアントコード配列に対応する変異ペプチド及び／又は変異ペプチド前駆体を含み得る。ペプチド候補のサブセット（例えば、５、１０、１５、２０、３０個、又はその間の任意の数に関連付けられた、最も高い提示予測）を更なる前駆体の開発に使用することができる。

組成物中の変異ペプチドの１つ、複数又は全部のそれぞれは、例えば、約７～約４０アミノ酸（例えば、約７、８、９、１０、１１、１２、１３、１４、１５、１７、２０、２２、２５、３０、３５、４０、４５、５０、６０又は７０アミノ酸長のいずれか）の長さを有することができる。いくつかの実施形態において、組成物中の変異ペプチドの１つ、複数又は全部のそれぞれの長さは、所定の範囲内（例えば、８～１１アミノ酸、８～１２アミノ酸又は８～１５アミノ酸）である。いくつかの実施形態において、組成物中の変異ペプチドの１つ、複数又は全部のそれぞれは、約８～１０アミノ酸長さである。組成物中の変異ペプチドの１つ、複数又は全てのそれぞれは、その単離された形態であり得る。組成物中の１つ以上の全ての変異ペプチドの各々は、変異ペプチドの末端（又は各末端）に１つ以上のペプチドを付加することによって産生される「長いペプチド」であり得る。組成物中の変異ペプチドの１つ、複数又は全てのそれぞれは、タグ付けされていてもよく、融合タンパク質であってもよく、及び／又はハイブリッド分子であってもよい。

薬学的に許容され得る組成物は、選択されたバリアントコード配列の１つ、複数又は全てのそれぞれについて、バリアントコード配列において同定されたアミノ酸を含むか又はそれによって構成されるペプチドをコードする１つ以上核酸を含むか又はそれを使用するように開発及び／又は製造され得る。核酸（複数可）は、ＤＮＡ、ＲＮＡ及び／又はｍＲＮＡを含むことができる。複数のコドンのいずれかが所与のアミノ酸をコードすることができることを考えると、コドンは、例えば、所与のタイプの生物における発現を最適化又は促進するように選択され得る。そのような選択は、複数の潜在的コドンのそれぞれが所与の種類の生物によって使用される頻度、所与の種類の生物における複数の潜在的コドンのそれぞれの翻訳効率、及び／又は複数の潜在的コドンのそれぞれに対する所与の種類の生物の偏りの程度に基づき得る。

いくつかの例では、組成物は、上記の変異ペプチド（複数可）又は変異ペプチドの前駆体（複数可）をコードする核酸を含み得る。核酸は、変異ペプチド（又はその前駆体）をコードする配列にフランクする配列を含み得る。いくつかの例では、核酸は、２つ以上の選択されたバリアントコード配列に対応するエピトープを含む。いくつかの例では、核酸は、上記の変異ペプチド又は前駆体をコードするポリヌクレオチド配列を有するＤＮＡである。

いくつかの例では、核酸はＲＮＡである。いくつかの例では、ＲＮＡは、上記の変異ペプチド又は前駆体をコードするポリヌクレオチド配列を有するＤＮＡ鋳型から逆転写される。いくつかの例では、ＲＮＡはｍＲＮＡである。いくつかの例では、ＲＮＡは裸のｍＲＮＡである。いくつかの例では、ＲＮＡは修飾ｍＲＮＡ（例えば、プロタミンを用いて分解から保護したｍＲＮＡ、修飾５’ＣＡＰ構造を含むｍＲＮＡ、又は修飾ヌクレオチドを含むｍＲＮＡ）を含む。いくつかの実施形態において、ＲＮＡは一本鎖ｍＲＮＡを含む。

組成物は、上記の変異ペプチド及び／又は変異ペプチドをコードする核酸（複数可）を含む細胞を含み得る。組成物は、変異ペプチド及び／又は変異ペプチドをコードする核酸（複数可）のための１つ以上の適切なベクター及び／又は１つ以上の送達系を更に含み得る。いくつかの例では、変異ペプチド及び／又は変異ペプチドをコードする核酸を含む細胞は、非ヒト細胞、例えば細菌細胞、原虫細胞、真菌細胞又は非ヒト動物細胞である。いくつかの例では、変異ペプチド及び／又は変異ペプチドをコードする核酸を含む細胞はヒト細胞である。いくつかの例では、ヒト細胞は免疫細胞である。いくつかの例では、免疫細胞は抗原提示細胞（ＡＰＣ）である。いくつかの例では、ＡＰＣは、マクロファージ、単球、樹状細胞、Ｂ細胞、及びミクログリア等のプロフェッショナルＡＰＣである。他の例では、プロフェッショナルＡＰＣはマクロファージ又は樹状細胞である。いくつかの例では、変異ペプチド及び／又は変異ペプチドをコードする核酸配列（複数可）を含むＡＰＣを細胞ワクチンとして使用し、それによりＣＤ４＋又はＣＤ８＋免疫応答を誘導する。他の例では、細胞ワクチンとして使用される組成物は、変異ペプチド及び／又は変異ペプチドをコードする核酸配列（複数可）を含むＡＰＣによってプライミングされた変異ペプチド特異的Ｔ細胞を含む。

組成物は、薬学的に許容されるアジュバント及び／又は薬学的に許容され得る賦形剤を含み得る。アジュバントは、組成物への混合が変異ペプチドに対する免疫応答を改変する任意の物質を指す。アジュバントは、例えば、免疫刺激剤を使用してコンジュゲート化され得る。賦形剤は、活性又は免疫原性を増加させ、安定性を付与し、生物学的活性を増加させ、及び／又は血清半減期を増加させるために、特定の変異ペプチドの分子量を増加させることができる。

薬学的に許容され得る組成物は、特定の対象に特異的な（例えば、及びのために潜在的に開発される）個別化ワクチンを含み得るワクチンであり得る。例えば、ＭＨＣ配列は、特定の対象からの試料を使用して同定されていてもよく、組成物は、特定の対象を処置するために開発され、及び／又は特定の対象を処置するために使用されてもよい。

ワクチンは核酸ワクチンであり得る。核酸は、変異ペプチド又は変異ペプチドの前駆体をコードすることができる。核酸ワクチンは、変異ペプチド（又はその前駆体）をコードする配列にフランクする配列を含み得る。いくつかの例では、核酸ワクチンは、１つを超える選択されたバリアントコード配列に対応するエピトープを含む。いくつかの例では、核酸ワクチンはＤＮＡベースのワクチンである。いくつかの例では、核酸ワクチンはＲＮＡベースのワクチンである。いくつかの例では、ＲＮＡベースのワクチンはｍＲＮＡを含む。いくつかの例では、ＲＮＡベースのワクチンは裸のｍＲＮＡを含む。いくつかの例では、ＲＮＡベースのワクチンは修飾ｍＲＮＡ（例えば、プロタミンを用いて分解から保護したｍＲＮＡ、修飾５’ＣＡＰ構造を含むｍＲＮＡ、又は修飾ヌクレオチドを含むｍＲＮＡ）を含む。いくつかの実施形態において、ＲＮＡベースのワクチンは一本鎖ｍＲＮＡを含む。

核酸ワクチンは、次世代免疫療法の一部として使用される特定の対象のために製造された個別化ネオ抗原特異的療法を含み得る。個別化ワクチンは、最初に特定の対象の試料中の変異ペプチドを検出し、続いて、検出された各変異ペプチドについて、ペプチドが特定の対象のＭＨＣに結合するか、ＭＨＣによって提示されるか、特定の対象のＴ細胞受容体に結合するか、及び／又は免疫学的応答を誘因するかどうか及び／又はその程度を予測することによって設計されていてもよい。これらの予測に基づいて、検出された変異ペプチドのサブセットを選択することができる（例えば、少なくとも１個、少なくとも２個、少なくとも３個、少なくとも５個、少なくとも８個、少なくとも１０個、少なくとも１２個、少なくとも１５個、少なくとも１８個、最大４０個、最大３０個、最大２５個、最大２０個、最大１８個、最大１５個及び／又は最大１０個の変異ペプチドを有するサブセット）。選択された各変異ペプチドについて、変異ペプチドをコードする合成ｍＲＮＡ配列を同定することができる。ｍＲＮＡワクチンは、ｍＲＮＡ－リポプレックスを形成するために脂質と複合体化されたｍＲＮＡ（変異ペプチドの一部又は全部をコードする）を含み得る。ｍＲＮＡ－リポプレックスを含むワクチンの投与は、ｍＲＮＡ刺激ＴＬＲ７及びＴＬＲ８をもたらし、樹状細胞によるＴ細胞活性化を引き起こすことができる。さらに、投与は、ｍＲＮＡの変異ペプチドへの翻訳をもたらし得、次いで、変異ペプチドはＭＨＣ分子に結合し、ＭＨＣ分子によって提示され、Ｔ細胞応答を誘導し得る。

組成物は、実質的に純粋な変異ペプチド、実質的に純粋なその前駆体、及び／又は変異ペプチド若しくはその前駆体をコードする実質的に純粋な核酸を含み得る。組成物は、変異ペプチド、その前駆体、及び／又は変異ペプチド若しくはその前駆体をコードする核酸を含有するための１つ以上の適切なベクター及び／又は１つ以上の送達系を含み得る。適切なベクター及び送達系としては、アデノウイルス、ワクシニアウイルス、レトロウイルス、ヘルペスウイルス、アデノ随伴ウイルス、又は１つを超えるウイルスの要素を含むハイブリッドに基づく系等のウイルスが挙げられる。非ウイルス送達系には、カチオン性脂質及びカチオン性ポリマー（例えば、カチオン性リポソーム）が含まれる。いくつかの実施形態において、「遺伝子銃」等を用いた物理的送達を使用することができる。

特定の実施形態において、ＲＮＡベースのワクチンは、５’→３’方向に、（１）５’キャップ；（２）５’非翻訳領域（ＵＴＲ）；（３）分泌シグナルペプチドをコードするポリヌクレオチド配列；（４）腫瘍標本に存在するがん特異的体細胞変異に起因する１つ以上の変異ペプチドをコードするポリヌクレオチド配列；（５）主要組織適合遺伝子複合体（ＭＨＣ）分子の膜貫通ドメイン及び細胞質ドメインの少なくとも一部をコードするポリヌクレオチド配列；（６）３’ＵＴＲであって、（ａ）Ａｍｉｎｏ－ＴｅｒｍｉｎａｌＥｎｈａｎｃｅｒｏｆＳｐｌｉｔ（ＡＥＳ）ｍＲＮＡの３’非翻訳領域又はその断片；及び（ｂ）ミトコンドリアにコードされた１２ＳＲＮＡの非コードＲＮＡ又はその断片を含む３’ＵＴＲ；並びに（７）ポリ（Ａ）配列を含むＲＮＡ分子を含む。この例示的なＲＮＡ分子はまた、以下のセクションＶに関して検討されるように、注意ベースの予測モデルの例示的な実施態様を評価するのに使用された。

いくつかの実施形態において、ＲＮＡ分子は、アミノ酸リンカーをコードするポリヌクレオチド配列を含み、アミノ酸リンカー及び１つ以上の変異ペプチドの第１のペプチドをコードするポリヌクレオチド配列は、第１のリンカー－ネオエピトープモジュールを形成し、第１のリンカー－ネオエピトープモジュールを形成するポリヌクレオチド配列は、５’→３’方向に、分泌シグナルペプチドをコードするポリヌクレオチド配列と、ＭＨＣ分子の膜貫通ドメイン及び細胞質ドメインの少なくとも一部をコードするポリヌクレオチド配列との間にある。特定の実施形態において、アミノ酸リンカーは、配列ＧＧＳＧＧＧＧＳＧＧを含む。ある特定の実施形態において、アミノ酸リンカーをコードするポリヌクレオチド配列は、配列ＧＧＣＧＧＣＵＣＵＧＧＡＧＧＡＧＧＣＧＧＣＵＣＣＧＧＡＧＧＣを含む。

特定の実施形態において、ＲＮＡ分子は、５’→３’方向に、少なくとも第２のリンカー－エピトープモジュールをさら含み、少なくとも第２のリンカー－エピトープモジュールは、アミノ酸リンカーをコードするポリヌクレオチド配列と、ネオエピトープをコードするポリヌクレオチド配列とを含み、第２のリンカー－ネオエピトープモジュールを形成するポリヌクレオチド配列は、５’→３’方向に、第１のリンカー－ネオエピトープモジュールのネオエピトープをコードするポリヌクレオチド配列と、ＭＨＣ分子の膜貫通ドメイン及び細胞質ドメインの少なくとも一部をコードするポリヌクレオチド配列との間にあり、第１のリンカー－エピトープモジュールのネオエピトープは、第２のリンカー－エピトープモジュールのネオエピトープとは異なる。特定の実施形態において、ＲＮＡ分子は５のリンカー－エピトープモジュールを含み、５のリンカー－エピトープモジュールはそれぞれ異なるネオエピトープをコードする。特定の実施形態において、ＲＮＡ分子は１０のリンカー－エピトープモジュールを含み、１０のリンカー－エピトープモジュールはそれぞれ異なるネオエピトープをコードする。特定の実施形態において、ＲＮＡ分子は２０のリンカー－エピトープモジュールを含み、２０のリンカー－エピトープモジュールはそれぞれ異なるネオエピトープをコードする。

いくつかの実施形態において、ＲＮＡ分子は、アミノ酸リンカーをコードする第２のポリヌクレオチド配列を更に含み、アミノ酸リンカーをコードする第２のポリヌクレオチド配列は、３’方向において最も遠位にあるネオエピトープをコードするポリヌクレオチド配列と、ＭＨＣ分子の膜貫通ドメイン及び細胞質ドメインの少なくとも一部をコードするポリヌクレオチド配列との間にある。

特定の実施形態において、５’キャップは、以下の構造のＤ１ジアステレオ異性体を含む：

特定の実施形態において、５’ＵＴＲは、配列ＵＵＣＵＵＣＵＧＧＵＣＣＣＣＡＣＡＧＡＣＵＣＡＧＡＧＡＧＡＡＣＣＣＧＣＣＡＣＣを含む。特定の実施形態において、５’ＵＴＲは、配列ＧＧＣＧＡＡＣＵＡＧＵＡＵＵＣＵＵＣＵＧＧＵＣＣＣＣＡＣＡＧＡＣＵＣＡＧＡＧＡＧＡＡＣＣＣＧＣＣＡＣＣを含む。

特定の実施形態において、分泌シグナルペプチドは、アミノ酸配列ＭＲＶＭＡＰＲＴＬＩＬＬＬＳＧＡＬＡＬＴＥＴＷＡＧＳを含む。特定の実施形態において、分泌シグナルペプチドをコードするポリヌクレオチド配列は、配列ＡＵＧＡＧＡＧＵＧＡＵＧＧＣＣＣＣＣＡＧＡＡＣＣＣＵＧＡＵＣＣＵＧＣＵＧＣＵＧＵＣＵＧＧＣＧＣＣＣＵＧＧＣＣＣＵＧＡＣＡＧＡＧＡＣＡＵＧＧＧＣＣＧＧＡＡＧＣを含む。

特定の実施形態において、ＭＨＣ分子の膜貫通ドメイン及び細胞質ドメインの少なくとも一部は、アミノ酸配列ＩＶＧＩＶＡＧＬＡＶＬＡＶＶＶＩＧＡＶＶＡＴＶＭＣＲＲＫＳＳＧＧＫＧＧＳＹＳＱＡＡＳＳＤＳＡＱＧＳＤＶＳＬＴＡを含む。特定の実施形態において、ＭＨＣ分子の膜貫通ドメイン及び細胞質ドメインの少なくとも一部をコードするポリヌクレオチド配列は、配列ＡＵＣＧＵＧＧＧＡＡＵＵＧＵＧＧＣＡＧＧＡＣＵＧＧＣＡＧＵＧＣＵＧＧＣＣＧＵＧＧＵＧＧＵＧＡＵＣＧＧＡＧＣＣＧＵＧＧＵＧＧＣＵＡＣＣＧＵＧＡＵＧＵＧＣＡＧＡＣＧＧＡＡＧＵＣＣＡＧＣＧＧＡＧＧＣＡＡＧＧＧＣＧＧＣＡＧＣＵＡＣＡＧＣＣＡＧＧＣＣＧＣＣＡＧＣＵＣＵＧＡＵＡＧＣＧＣＣＣＡＧＧＧＣＡＧＣＧＡＣＧＵＧＵＣＡＣＵＧＡＣＡＧＣＣを含む。

特定の実施形態において、ＡＥＳｍＲＮＡの３’非翻訳領域は、配列ＣＵＧＧＵＡＣＵＧＣＡＵＧＣＡＣＧＣＡＡＵＧＣＵＡＧＣＵＧＣＣＣＣＵＵＵＣＣＣＧＵＣＣＵＧＧＧＵＡＣＣＣＣＧＡＧＵＣＵＣＣＣＣＣＧＡＣＣＵＣＧＧＧＵＣＣＣＡＧＧＵＡＵＧＣＵＣＣＣＡＣＣＵＣＣＡＣＣＵＧＣＣＣＣＡＣＵＣＡＣＣＡＣＣＵＣＵＧＣＵＡＧＵＵＣＣＡＧＡＣＡＣＣＵＣＣを含む。特定の実施形態において、ミトコンドリアにコードされた１２ＳＲＮＡの非コードＲＮＡは、配列ＣＡＡＧＣＡＣＧＣＡＧＣＡＡＵＧＣＡＧＣＵＣＡＡＡＡＣＧＣＵＵＡＧＣＣＵＡＧＣＣＡＣＡＣＣＣＣＣＡＣＧＧＧＡＡＡＣＡＧＣＡＧＵＧＡＵＵＡＡＣＣＵＵＵＡＧＣＡＡＵＡＡＡＣＧＡＡＡＧＵＵＵＡＡＣＵＡＡＧＣＵＡＵＡＣＵＡＡＣＣＣＣＡＧＧＧＵＵＧＧＵＣＡＡＵＵＵＣＧＵＧＣＣＡＧＣＣＡＣＡＣＣＧを含む。特定の実施形態において、３’ＵＴＲは、配列ＣＵＣＧＡＧＣＵＧＧＵＡＣＵＧＣＡＵＧＣＡＣＧＣＡＡＵＧＣＵＡＧＣＵＧＣＣＣＣＵＵＵＣＣＣＧＵＣＣＵＧＧＧＵＡＣＣＣＣＧＡＧＵＣＵＣＣＣＣＣＧＡＣＣＵＣＧＧＧＵＣＣＣＡＧＧＵＡＵＧＣＵＣＣＣＡＣＣＵＣＣＡＣＣＵＧＣＣＣＣＡＣＵＣＡＣＣＡＣＣＵＣＵＧＣＵＡＧＵＵＣＣＡＧＡＣＡＣＣＵＣＣＣＡＡＧＣＡＣＧＣＡＧＣＡＡＵＧＣＡＧＣＵＣＡＡＡＡＣＧＣＵＵＡＧＣＣＵＡＧＣＣＡＣＡＣＣＣＣＣＡＣＧＧＧＡＡＡＣＡＧＣＡＧＵＧＡＵＵＡＡＣＣＵＵＵＡＧＣＡＡＵＡＡＡＣＧＡＡＡＧＵＵＵＡＡＣＵＡＡＧＣＵＡＵＡＣＵＡＡＣＣＣＣＡＧＧＧＵＵＧＧＵＣＡＡＵＵＵＣＧＵＧＣＣＡＧＣＣＡＣＡＣＣＧＡＧＡＣＣＵＧＧＵＣＣＡＧＡＧＵＣＧＣＵＡＧＣＣＧＣＧＵＣＧＣＵを含む。

特定の実施形態において、ポリ（Ａ）配列は１２０のアデニンヌクレオチドを含む。

特定の実施形態において、ＲＮＡベースのワクチンは、５’→３’方向に、ポリヌクレオチド配列：ＧＧＣＧＡＡＣＵＡＧＵＡＵＵＣＵＵＣＵＧＧＵＣＣＣＣＡＣＡＧＡＣＵＣＡＧＡＧＡＧＡＡＣＣＣＧＣＣＡＣＣＡＵＧＡＧＡＧＵＧＡＵＧＧＣＣＣＣＣＡＧＡＡＣＣＣＵＧＡＵＣＣＵＧＣＵＧＣＵＧＵＣＵＧＧＣＧＣＣＣＵＧＧＣＣＣＵＧＡＣＡＧＡＧＡＣＡＵＧＧＧＣＣＧＧＡＡＧＣ；腫瘍標本中に存在するがん特異的体細胞変異に起因する１つ以上の変異ペプチドをコードするポリヌクレオチド配列；及びポリヌクレオチド配列ＡＵＣＧＵＧＧＧＡＡＵＵＧＵＧＧＣＡＧＧＡＣＵＧＧＣＡＧＵＧＣＵＧＧＣＣＧＵＧＧＵＧＧＵＧＡＵＣＧＧＡＧＣＣＧＵＧＧＵＧＧＣＵＡＣＣＧＵＧＡＵＧＵＧＣＡＧＡＣＧＧＡＡＧＵＣＣＡＧＣＧＧＡＧＧＣＡＡＧＧＧＣＧＧＣＡＧＣＵＡＣＡＧＣＣＡＧＧＣＣＧＣＣＡＧＣＵＣＵＧＡＵＡＧＣＧＣＣＣＡＧＧＧＣＡＧＣＧＡＣＧＵＧＵＣＡＣＵＧＡＣＡＧＣＣＵＡＧＵＡＡＣＵＣＧＡＧＣＵＧＧＵＡＣＵＧＣＡＵＧＣＡＣＧＣＡＡＵＧＣＵＡＧＣＵＧＣＣＣＣＵＵＵＣＣＣＧＵＣＣＵＧＧＧＵＡＣＣＣＣＧＡＧＵＣＵＣＣＣＣＣＧＡＣＣＵＣＧＧＧＵＣＣＣＡＧＧＵＡＵＧＣＵＣＣＣＡＣＣＵＣＣＡＣＣＵＧＣＣＣＣＡＣＵＣＡＣＣＡＣＣＵＣＵＧＣＵＡＧＵＵＣＣＡＧＡＣＡＣＣＵＣＣＣＡＡＧＣＡＣＧＣＡＧＣＡＡＵＧＣＡＧＣＵＣＡＡＡＡＣＧＣＵＵＡＧＣＣＵＡＧＣＣＡＣＡＣＣＣＣＣＡＣＧＧＧＡＡＡＣＡＧＣＡＧＵＧＡＵＵＡＡＣＣＵＵＵＡＧＣＡＡＵＡＡＡＣＧＡＡＡＧＵＵＵＡＡＣＵＡＡＧＣＵＡＵＡＣＵＡＡＣＣＣＣＡＧＧＧＵＵＧＧＵＣＡＡＵＵＵＣＧＵＧＣＣＡＧＣＣＡＣＡＣＣＧＡＧＡＣＣＵＧＧＵＣＣＡＧＡＧＵＣＧＣＵＡＧＣＣＧＣＧＵＣＧＣＵを含むＲＮＡ分子を含む。

いくつかの実施形態において、本明細書に記載の変異ペプチド（例えば、本明細書に記載の機械学習技術からの結果に基づいて選択されたバリアントコード配列によって同定されるアミノ酸の順序付きセットを含むか、又はそれからなる）は、抗体治療薬等の変異ペプチド特異的治療薬を作製するために使用することができる。例えば、変異ペプチドは、変異ペプチドを特異的に認識する抗体を産生及び／又は同定するために使用することができる。これらの抗体は治療薬として使用することができる。合成短ペプチドは、タンパク質反応性抗体を生成するために使用されてきた。合成ペプチドで免疫する利点は、無制限量の純粋な安定抗原を使用できることである。このアプローチは、短いペプチド配列を合成し、それらを大きな担体分子にカップリングし、対象をペプチド担体分子で免疫することを含む。抗体の特性は、一次配列情報に依存する。所望のペプチドに対する良好な応答は、通常、配列及びカップリング方法の慎重な選択によって生じ得る。ほとんどのペプチドは、良好な応答を誘発することができる。抗ペプチド抗体の利点は、変異ペプチドのアミノ酸配列を決定した直後に調製することができ、タンパク質の特定の領域を抗体産生のために特異的に標的化することができることである。機械学習モデルが免疫原性を予測した変異ペプチドを選択すること及び／又はそれをスクリーニングすることにより、得られた抗体が腫瘍状況において天然タンパク質を認識する可能性が高くなり得る。変異ペプチドは、例えば、１５以下、１８以下又は２０以下、２５以下、３０以下、３５以下、４０以下、５０以下、６０以下、７０以下、８５以下、１００以下、１１０以下の残基であり得る。変異ペプチドは、例えば、９残基以上、１０残基以上、１５残基以上、２０残基以上、２５残基以上、３０残基以上、５０残基以上、又は７０残基以上であり得る。より短いペプチドは、抗体産生を改善することができる。

ペプチド－担体タンパク質カップリングを使用して、高力価抗体の産生を促進することができる。カップリング方法は、例えば、部位特異的カップリング及び／又はアミノ酸中の反応性官能基、例えば－ＮＨ２、－ＣＯＯＨ、－ＳＨ及びフェノール－ＯＨに依存する技術を含むことができる。抗ペプチド抗体産生に使用される任意の適切な方法を、本発明の方法によって同定された変異ペプチドと共に利用することができる。２つのそのような公知の方法は、多重抗原性ペプチド系（ＭＡＰ）及び脂質コアペプチド（ＬＣＰ法）である。ＭＡＰの利点は、コンジュゲーション法が不要であることである。担体タンパク質又は結合は免疫化宿主に導入されない。１つの欠点は、ペプチドの純度を制御することがより困難であることである。さらに、ＭＡＰは、いくつかの宿主において免疫応答系を迂回することができる。ＬＣＰ法は、他の抗ペプチドワクチン系よりも高い力価を提供することが知られており、したがって有利であり得る。

本明細書に開示される技術を使用して同定された１つ以上の変異ペプチドを含む単離されたＭＨＣ／ペプチド複合体も本明細書で提供される。そのようなＭＨＣ／ペプチド複合体は、例えば、抗体、可溶性ＴＣＲ、又はＴＣＲアナログを同定するために使用することができる。これらの抗体の１つのタイプは、特異的ＨＬＡ環境に関連して腫瘍関連抗原からのペプチドに結合する抗体であるので、ＴＣＲ模倣物と呼ばれている。このタイプの抗体は、その表面上に複合体を発現する細胞の溶解を媒介し、複合体を発現する移植がん細胞株からマウスを保護することが示されている（例えば、Ｗｉｔｔｍａｎｅｔａｌ．，Ｊ．ｏｆＩｍｍｕｎｏｌ．１７７：４１８７－４１９５（２００６）を参照されたい）。ＩｇＧｍＡｂとしてのＴＣＲ模倣物の１つの利点は、親和性成熟を行うことができ、分子が現在のＦｃドメインを介して免疫エフェクター機能と連関されることである。これらの抗体はまた、治療分子、例えば毒素、サイトカイン又は製剤を腫瘍に標的化するために使用することができる。

非ハイブリドーマベースの抗体産生又はバクテリオファージ上の抗ペプチドＦａｂ分子等の結合コンピテント抗体断片の産生を用いる本発明の方法を用いて選択されるもの等の変異ペプチドを用いて開発された他の種類の分子。これらの断片はまた、抗ペプチドＭＨＣＦａｂ－免疫毒素コンジュゲート、抗ペプチドＭＨＣＦａｂ－サイトカインコンジュゲート及び抗ペプチドＭＨＣＦａｂ－薬物コンジュゲート等の腫瘍送達のための他の治療分子にコンジュゲートすることもできる。

ＩＶ．免疫原性ワクチン又はＴ細胞を含む処置方法
いくつかの実施形態は、免疫原性ワクチンであり得るワクチンを含む処置方法を提供する。いくつかの実施形態において、有効量の本明細書に記載の組成物、本明細書に開示の技術を使用して同定された変異ペプチド、その前駆体、又は本明細書に記載の技術を使用して同定された変異ペプチド（又は前駆体）をコードする核酸を個体に投与することを含み得る、疾患（がん等）の処置方法が提供される。

いくつかの実施形態において、疾患（がん等）の処置方法が提供される。この方法は、対象から試料（例えば、血液試料）を採取することを含み得る。Ｔ細胞を単離し、刺激することができる。単離は、例えば、密度勾配沈降（例えば、遠心分離）、免疫磁気選択、及び／又は抗体複合体フィルタリングを使用して行うことができる。刺激は、例えば、マイトジェン（例えば、ＰＨＡ又はＣｏｎＡ）又は抗ＣＤ３抗体（例えば、ＣＤ３に結合し、Ｔ細胞受容体複合体を活性化するため）、及び抗ＣＤ２８抗体（例えば、ＣＤ２８に結合し、Ｔ細胞を刺激するため）を使用し得る抗原－非依存性刺激を含み得る。１つ以上の変異ペプチドは、対象（例えば、本明細書に開示される１つ以上の技術に従って、変異ペプチドのセットのそれぞれが個体のＭＨＣ分子に結合するか、個体のＭＨＣ分子によって提示されるか、及び／又は個体において免疫応答を誘因するかどうか及び／又はその程度に関する予測に対応する機械学習モデルによって生成された結果に基づく）の処置に使用するために選択され得る（又は選択されていてもよい）。１つ以上の変異ペプチドは、対象に関連する１つ以上の配列表現（例えば、ＭＨＣ配列、バリアントコード配列のセット及び／又はＴ細胞受容体配列の表現）を同定及び処理することを含む本明細書中に開示される技術に基づいて選択されていてもよい。１つ以上の配列は、Ｔ細胞が単離された試料又は異なる試料を使用して検出されていてもよい。

いくつかの例では、１つ以上の変異ペプチド（又はその前駆体）を使用して、変異ペプチド（例えば、ネオ抗原）特異的Ｔ細胞を産生することができる。例えば、末梢血Ｔ細胞を対象から単離し、１つ以上の変異ペプチドと接触させて、対象に投与することができる変異ペプチド特異的Ｔ細胞集団を誘導することができる。いくつかの例では、変異ペプチド反応性Ｔ細胞のＴ細胞受容体配列を配列決定することができる。配列決定が核酸の順序付きセットを同定する場合、核酸の各コドンをアミノ酸に翻訳することができる（例えば、探索技術を介して）。Ｔ細胞受容体配列（例えば、アミノ酸Ｔ細胞受容体配列）が得られると、変異ペプチドを特異的に認識するＴ細胞受容体を含むようにＴ細胞を操作することができる。次いで、これらの操作されたＴ細胞を対象に投与することができる。例えば、あらゆる目的のためにその全体が参照により本明細書に組み込まれる、Ｍａｔｓｕｄａｅｔａｌ．’’ＩｎｄｕｃｔｉｏｎｏｆＮｅｏａｎｔｉｇｅｎ－ＳｐｅｃｉｆｉｃＣｙｔｏｔｏｘｉｃＴＣｅｌｌｓａｎｄＣｏｎｓｔｒｕｃｔｉｏｎｏｆＴ－ｃｅｌｌＲｅｃｅｐｔｏｒＥｎｇｉｎｅｅｒｅｄＴＣｅｌｌｓｆｏｒＯｖａｒｉａｎＣａｎｃｅｒ，’’Ｃｌｉｎ．ＣａｎｃｅｒＲｅｓ．１－１１（２０１８）を参照されたい。本明細書で提供される方法のいずれにおいても、Ｔ細胞は、対象への投与前にｉｎｖｉｔｒｏ及び／又はｅｘｖｉｖｏで増殖させることができる。次いで、対象は、増殖させたＴ細胞集団を含む組成物を投与（例えば、注入）され得る。

いくつかの例では、例えばＴ細胞をｉｎｖｉｖｏでプライミング、活性化及び増殖させるのに有効な量の１つ以上の変異ペプチド（又はその１つ以上の前駆体）を含む組成物を個体に投与することを含み得る、疾患（がん等）の処置方法が提供される。

いくつかの実施形態において、本明細書に記載の技術を使用して選択される変異ペプチドの前駆体を含む有効量の組成物を個体に投与することを含み得る、疾患（がん等）の処置方法が提供される。いくつかの実施形態において、免疫原性ワクチンは、本明細書に記載の技術を使用して選択される薬学的に許容され得る変異ペプチドを含み得る。いくつかの実施形態において、免疫原性ワクチンは、本明細書に記載の技術（例えば、タンパク質、ペプチド、ＤＮＡ及び／又はＲＮＡ等）を使用して選択される変異ペプチドの薬学的に許容され得る前駆体を含み得る。いくつかの実施形態において、本明細書に記載の技術を使用して選択される変異ペプチドを特異的に認識する有効量の抗体を個体に投与することを含み得る、疾患（がん等）の処置方法が提供される。いくつかの実施形態において、本明細書に記載の技術を使用して選択される変異ペプチドを特異的に認識する有効量の可溶性ＴＣＲ又はＴＣＲアナログを個体に投与することを含み得る、疾患（がん等）の処置方法が提供される。

いくつかの実施形態において、がんは、癌腫、リンパ腫、芽細胞腫、肉腫、白血病、扁平上皮細胞がん、肺がん（小細胞肺がん、非小細胞肺がん、肺の腺癌、及び肺の扁平上皮癌腫を含む）、腹膜のがん、肝細胞がん、胃がん（ｇａｓｔｒｉｃｃａｎｃｅｒ）又は胃がん（ｓｔｏｍａｃｈｃａｎｃｅｒ）（消化管がんを含む）、膵臓がん、膠芽腫、子宮頸がん、卵巣がん、肝臓がん、膀胱がん、肝細胞腫、乳がん、結腸がん、黒色腫、子宮内膜癌腫又は子宮癌腫、唾液腺癌腫、腎臓がん（ｋｉｄｎｅｙｃａｎｃｅｒ）又は腎臓がん（ｒｅｎａｌｃａｎｃｅｒ）、肝臓がん、前立腺がん、外陰部がん、甲状腺がん、肝癌腫、頭頸部がん、結腸直腸がん、直腸がん、軟部組織肉腫、カポジ肉腫、Ｂ細胞リンパ腫（低悪性度／濾胞性非ホジキンリンパ腫（ＮＨＬ）、小リンパ球性（ＳＬ）ＮＨＬ、中悪性度／濾胞性ＮＨＬ、中悪性度びまん性ＮＨＬ、高悪性度免疫芽細胞性ＮＨＬ、高悪性度リンパ芽球性ＮＨＬ、高悪性度小型非開裂細胞性ＮＨＬ、巨大病変性ＮＨＬ、マントル細胞リンパ腫、ＡＩＤＳ関連リンパ腫、及びワルデンストレーム高癌マグロブリン血症を含む）、慢性リンパ性白血病（ＣＬＬ）、急性リンパ芽球性白血病（ＡＬＬ）、黒色腫、有毛細胞性白血病、慢性骨髄芽球性白血病、及び移植後リンパ増殖性障害（ＰＴＬＤ）、並びに母斑症、浮腫（脳腫瘍と関連するもの等）、及びメイグス症候群と関連する異常な血管増殖が挙げられる。

本明細書に開示される実施形態は、個別化医療戦略の一部若しくは全部を特定すること、及び／又は一部若しくは全部を実施することを含むことができる。例えば、１つ以上の変異ペプチドは、個体由来のサンプルを使用してＭＨＣ配列及び／又はバリアントコード配列のセットを決定すること；並びに本明細書に開示される機械学習モデル（例えば、注意ベースの機械学習モデル）を使用してＭＨＣ配列及びバリアントコード配列の表現を処理することによって、ワクチンにおける使用のために選択され得る。次いで、１つ以上の変異ペプチド（及び／又はその前駆体）を同じ個体に投与することができる。

いくつかの実施形態において、個体における疾患（がん等）を処置する方法であって、ａ）該個体において１つ以上の変異ペプチドを同定すること（例えば、本明細書に開示される１つ以上の技術に従って、変異ペプチドのセットのそれぞれが個体のＭＨＣ分子に結合するか、個体のＭＨＣ分子によって提示されるか、及び／又は個体において免疫応答を誘因するかどうか及び／又はその程度に関する予測に対応する機械学習モデルによって生成された結果に基づいて）と、ｂ）同定された変異ペプチド（複数可）又は変異ペプチドの１つ以上の前駆体又は同定されたペプチド（複数可）若しくはペプチド前駆体（複数可）をコードする核酸（複数可）（例えば、ＤＮＡ又はＲＮＡ等のポリヌクレオチド）を合成すること、ｃ）変異ペプチド（複数可）、変異ペプチド前駆体（複数可）又は核酸（複数可）を個体に投与することを含む方法が提供される。

いくつかの実施形態において、個体における疾患（がん等）を処置する方法であって、ａ）個体において１つ以上の変異ペプチドを同定すること（例えば、本明細書に開示される１つ以上技術に従って、変異ペプチドのセットのそれぞれが個体のＭＨＣ分子に結合するか、個体のＭＨＣ分子によって提示されるか、及び／又は個体において免疫応答を誘因するかどうか及び／又はその程度に関する予測に対応する機械学習モデルによって生成された結果に基づいて）と、ｂ）同定された変異ペプチド（複数可）又は変異ペプチド（複数可）の１つ以上の前駆体をコードする核酸のセット（例えば、ＤＮＡ又はＲＮＡ等のポリヌクレオチド）を同定することと、ｃ）核酸のセットを合成することと、ｄ）核酸のセットを個体に投与することと、を含む方法が提供される。

いくつかの実施形態において、個体における疾患（がん等）を処置する方法であって、ａ）個体において１つ以上の変異ペプチドを同定すること（例えば、本明細書に開示される１つ以上技術に従って、変異ペプチドのセットのそれぞれが個体のＭＨＣ分子に結合するか、個体のＭＨＣ分子によって提示されるか、及び／又は個体において免疫応答を誘因するかどうか及び／又はその程度に関する予測に対応する機械学習モデルによって生成された結果に基づいて）と、ｂ）変異ペプチドを特異的に認識する抗体を産生することと、ｃ）該ペプチドを個体に投与することと、を含む方法が提供される。

本明細書で提供される方法を、がんと診断されたか、又はがんを有すると疑われる個体（例えば、ヒト）を処置するために使用することができる。いくつかの実施形態において、個体はヒトであり得る。いくつかの実施形態において、個体は、少なくとも約１８、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、又は８５歳のいずれかであり得る。いくつかの実施形態において、個体は男性であり得る。いくつかの実施形態において、個体は女性であり得る。いくつかの実施形態において、個体は手術を拒否した可能性がある。いくつかの実施形態において、個体は医学的に手術不能であり得る。いくつかの実施形態において、個体は、Ｔａ、Ｔｉｓ、Ｔ１、Ｔ２、Ｔ３ａ、Ｔ３ｂ又はＴ４の臨床段階にあり得る。いくつかの実施形態において、がんは再発性であり得る。いくつかの実施形態において、個体は、がんに関連する１つ以上の症候を示すヒトであり得る。いくつかの実施形態において、個体は、遺伝的に、或いは他の様態でがんを発症しやすい（例えば、リスク因子を有する）場合がある。

本明細書で提供される方法は、アジュバント状況で実施され得る。いくつかの実施形態において、本方法はネオアジュバント状況で実施され、すなわち、本方法は一次／根治療法の前に実施され得る。いくつかの実施形態において、本方法は、以前に処置されたことがある個体を処置するために使用される。本明細書で提供される処置方法のいずれも、以前に処置されていない個体を処置するために使用され得る。いくつかの実施形態において、本方法は第一選択療法として使用される。いくつかの実施形態において、本方法は第二選択療法として使用される。

いくつかの実施形態において、個体における既存のがん腫瘍転移（肺転移又はリンパ節への転移等）の発生率又は負担を軽減する方法であって、有効量の本明細書に開示される組成物を個体に投与することを含む方法が提供される。いくつかの実施形態において、個体におけるがんの疾患進行までの時間を延長する方法であって、有効量の本明細書に開示される組成物を個体に投与することを含む方法が提供される。いくつかの実施形態において、がんを有する個体の生存を延長する方法であって、有効量の本明細書に開示される組成物を個体に投与することを含む方法が提供される。

いくつかの実施形態において、少なくとも１つ以上の化学療法剤が、本明細書中に開示される組成物に加えて投与される場合がある。いくつかの実施形態において、１つ以上の化学療法剤は、（必ずしもそうとは限らないが）異なるクラスの化学療法剤に属し得る。

いくつかの実施形態において、個体における疾患（がん等）を処置する方法であって、ａ）本明細書に開示されるワクチン（例えば、本明細書中に開示される機械学習技術に基づいて選択される変異ペプチド又はその前駆体を含む）、及びｂ）免疫調節剤を投与することを含む方法を提供する。いくつかの実施形態において、個体における疾患（がん等）を処置する方法であって、ａ）本明細書に開示されるワクチン（例えば、本明細書中に開示される機械学習技術に基づいて選択される変異ペプチド又はその前駆体を含む）、及びｂ）チェックポイントタンパク質のアンタゴニストを投与することを含む方法を提供する。いくつかの実施形態において、個体における疾患（がん等）を処置する方法であって、ａ）本明細書に開示されるワクチン（例えば、本明細書中に開示される機械学習技術に基づいて選択される変異ペプチド又はその前駆体を含む）、及びｂ）抗ＰＤ－１等のプログラム細胞死１（ＰＤ－１）のアンタゴニストを投与することを含む方法を提供する。いくつかの実施形態において、個体における疾患（がん等）を処置する方法であって、ａ）本明細書に開示されるワクチン（例えば、本明細書中に開示される機械学習技術に基づいて選択される変異ペプチド又はその前駆体を含む）、及びｂ）抗ＰＤ－Ｌ１等のプログラム死リガンド１（ＰＤ－Ｌ１）のアンタゴニストを投与することを含む方法を提供する。いくつかの実施形態において、個体における疾患（がん等）を処置する方法であって、ａ）本明細書に開示されるワクチン（例えば、本明細書中に開示される機械学習技術に基づいて選択される変異ペプチド又はその前駆体を含む）、及びｂ）抗ＣＴＬＡ－４等の細胞傷害性Ｔリンパ球関連タンパク質４（ＣＴＬＡ－４）のアンタゴニストを投与することを含む方法を提供する。

様々な開示はアミノ酸配列の使用を指すことが理解されよう。核酸配列を追加的又は代替的に使用してもよい。例えば、疾患特異的試料は、対応する非疾患特異的試料（例えば、同じ対象又は異なる対象からのもの）中に存在しない核酸配列のセットを同定するために配列決定され得る。同様に、ＭＨＣ分子及び／又はＴ細胞受容体の核酸配列を更に同定することができる。核酸疾患特異的核酸配列及びＭＨＣ分子（又はＴ細胞受容体）のそれぞれの表現は、本明細書に記載の注意ベースのモデルによって処理され得る（例えば、核酸配列の表現を使用して潜在的に訓練されている）。

Ｖ．実施例
Ｖ．Ａ．概要
例示的なペプチド－ＭＨＣ（ＭＨＣクラスＩ）注意ベースの機械学習モデル（本明細書では「Ｐ－ＭＨＣ－Ｉモデル」）及び例示的なペプチド－ＭＨＣ（ＭＨＣクラスＩＩ）注意ベースの機械学習モデル（本明細書では「Ｐ－ＭＨＣ－ＩＩモデル」）（本明細書では集合的かつ個別にＰ－ＭＨＣモデルと称する）を開発した。これらのモデルは、図１の機械学習モデル１３２の実装例である。Ｐ－ＭＨＣ－ＩモデルアーキテクチャとＰ－ＭＨＣ－ＩＩモデルアーキテクチャの両方を、図３及び図４Ａに示すアーキテクチャに対応して実装した。

Ｐ－ＭＨＣモデルは、個別化されたがんワクチン開発におけるネオ抗原提示を予測するための例示的な注意ベースの深層学習モデルである。Ｐ－ＭＨＣモデルは、Ｎフランク配列、ペプチド配列、及びＭＨＣ配列（ＭＨＣ疑似配列）を入力として受信し、提示又は溶出リガンド（ＥＬ）スコアを出力する。天然に存在するアミノ酸の空間にまたがる語彙が構築され、アミノ酸配列を表すようにそれらをトークン化した。入力されたアミノ酸配列を、それぞれが固有の文字で表される文字となるようにトークン化した。特異的結合ＭＨＣ対立遺伝子を選択するために、入力Ｎフランク配列及びペプチド配列と６つのＭＨＣ対立遺伝子のうちの１つとのモデル対及び６対の相互作用をＰ－ＭＨＣ－Ｉモデルにフィードフォワードし、１２のＭＨＣアロタイプのうちの１つと１２対の相互作用をＰ－ＭＨＣ－ＩＩモデルにフィードフォワードした。

したがって、Ｐ－ＭＨＣモデルは、複数対立遺伝子データのデコンボリューションを内部で行う。溶出する可能性が最も高いペプチド－ＭＨＣ相互作用出力は、０と１との間の値として正規化され、バイナリ交差エントロピー損失関数を使用して真の提示値と比較されて、モデルパラメータを調整するための誤差を生成する。オーバーフィッティングを防止し、モデルのロバスト性を高めるために、Ｐ－ＭＨＣモデルは、モデル訓練においてアンサンブル法を使用する。

他の以前に利用可能なモデル（例えば、Ｐ－ＭＨＣ－ＩモデルについてはＮｅｔＭＨＣｐａｎ－４．０（本明細書では「モデルＡ」）、免疫エピトープデータベース及び分析リソース（ＩＥＤＢ）ｖ２．１３（本明細書では「モデルＢ」）、並びにＰ－ＭＨＣ－ＩＩモデルについてはＮｅｔＭＨＣＩＩｐａｎ－４．１（本明細書では「モデルＣ」））と比較した、Ｐ－ＭＨＣ－Ｉモデル及びＰ－ＭＨＣ－ＩＩモデルの訓練及び性能に対応する例示的な結果及び統計。Ｐ－ＭＨＣ－Ｉ及びＰ－ＭＨＣ－ＩＩモデルは、ペプチド提示のための他のモデルよりも一貫して良好に機能し、Ｐ－ＭＨＣ－Ｉモデルは、ＣＤ８Ｔ細胞応答予測のための他のモデルよりも良好に機能した。Ｐ－ＭＨＣモデルは、少なくとも多対立遺伝子データからのペプチド－ＭＨＣ対のデコンボリューションを行うので、より良好に機能し、単一対立遺伝子形式及び多対立遺伝子形式の両方で拡張訓練データで容易に訓練することができる。

Ｖ．Ｂ．材料及び方法
Ｖ．Ｂ．１．Ｐ－ＭＨＣモデルの訓練－免疫ペプチド性データ
質量分析実験からのペプチド溶出データを使用して、Ｐ－ＭＨＣモデルを訓練するための免疫ペプチド性データセットを構築した。このデータは、細胞株、組織試料及びＰＢＭＣドナーからの多対立遺伝子データ及び単対立遺伝子ペプチド溶出データを含む私的データセットと公的データセットとの混合物を含む。

Ｖ．Ｂ．１．ａ．提示標識付きデータ
陽性セット（ＥＬ＝１）。各バッチについて、陽性ペプチド－ＭＨＣ（例えば、ペプチド－ＨＬＡ）対を以下の方法で処理した：
１）ペプチドをヒトプロテオームに整列させた。
２）各ペプチドについて、最大１０アミノ酸長のフランク配列をＮ末端及びＣ末端位置に保持した。
３）複数の遺伝子にマッピングされたペプチドを下流分析から除外した。このようなペプチドは、ＥＬ＝１セットでは特徴的ではなかった。（ＥＬ＝０ペプチドは、ＥＬ＝１ペプチドの証拠を有するタンパク質からのみ生成されたので、ＥＬ＝０にはそのような制限は課されなかった）。４８，３２９個のクラスＩペプチドをこの基準によって除外した。これは大きな数であるが、負のセットの信頼性を高める。
４）同じ遺伝子にマッピングされるが、異なるフランキング配列を有するペプチドも下流分析から除外した。これにより、１１，４４３個のクラスＩペプチドが更に除外された。
５）翻訳後修飾（ＰＴＭ）を含むペプチドも下流分析から除外した。７，０８０個のクラスＩのそのようなペプチドが除外された

陰性セット（ＥＬ＝０）。陰性ペプチド－ＭＨＣ（例えば、ペプチド－ＨＬＡ）対を計算により生成した。各対立遺伝子について、陽性セット（ＥＬ＝１）の各起源タンパク質について、長さ８～１１の全ての可能なペプチド断片を、各長さについて均一な確率で、ＭＨＣクラスＩについて生成し、ＭＨＣクラスＩＩについて８～３０を生成した。Ｎ末端及びＣ末端のフランク配列もまた、１０アミノ酸の最大長さで保持された。ＥＬ＝１のデータを特徴とする全てのペプチド－遺伝子型対をＥＬ＝０のデータから除外した。さらに、ＭＨＣクラスＩＩについて構築されたデータセットについては、ＥＬ＝１ペプチド（同じ遺伝子型と対をなす）中に見出すことができる任意の長さ９の部分配列を有するペプチド－遺伝子型対が除外される。

Ｖ．Ｂ．１．ｂ．ベンチマークデータセット
セクションＶＩ．Ｂ．１．ａで論じた上記のＥＬデータを訓練、検証、及びテストセットに分割することによって、ベンチマークデータセットを生成した。訓練セット及び検証セットをＰ－ＭＨＣモデルの訓練に使用したが、テストセットは訓練に明示的に使用せず、モデルの性能を定量化するためにのみ使用した。ＭＨＣクラスＩデータについては、各対立遺伝子についての単一対立遺伝子データから１０％のペプチドを除外することによって、単一対立遺伝子データを使用して試験データセットを生成した。ＭＨＣクラスＩＩデータについては、全てのデータ、多対立遺伝子及び単対立遺伝子を使用して試験／検証データセットを生成する。

データセットの特徴には、以下が含まれる：全てのペプチド長は、クラスＩについては［８，１４］アミノ酸、クラスＩＩについては［８，３０］アミノ酸の範囲内に制限された。全てのペプチドは、主配列（すなわち、エピトープ）及びフランク配列に標準アミノ酸を含有するように制限された。全ての対立遺伝子名を、ＭＨＣＩタンパク質内の以下のアミノ酸位置によって定義される３４個のアミノ酸部分配列によって置き換えた：（７、９、２４、４５、５９、６２、６３、６６、６７、６９、７０、７３、７４、７６、７７、８０、８１、８４、９５、９７、９９、１１４、１１６、１１８、１４３、１４７、１５０、１５２、１５６、１５８、１５９、１６３、１６７、１７１）、又はアルファ及びベータＭＨＣＩＩタンパク質内の位置：
アルファ：９、１１、２２、２４、３１、５２、５３、５８、５９、６１、６５、６６、６８、７２、７３；及び
ベータ：９、１１、１３、２６、２８、３０、４７、５７、６７、７０、７１、７４、７７、７８、８１、８５、８６、８９、９０。
これらの位置は、ＭＨＣ－Ｉ／ＩＩタンパク質がペプチドと接触する結合ポケット内の位置として以前に記載されている。データポイントの固有の部分配列のセットは、以後、「偽遺伝子型」と呼ばれることがある。場合によっては、複数の対立遺伝子名は、同じ３４アミノ酸部分配列を特徴とし得る。これらの対立遺伝子は、注意ベースのＰ－ＭＨＣモデルを訓練するために同一であると考えられた。全ての空のフランク配列（タンパク質の末端に対するペプチドマップ）には、特別なアミノ酸文字「＄」が割り当てられた。アミノ酸アルファベットで「ＮＡ」として読み取られるフランク配列がある６つのデータ点は、ＮＡを「適用不可能」と解釈する特定のプログラミング言語のために考慮から除外された。

訓練／検証／テスト分割は、以下の方法で行った：

ＥＬ＝１の場合：各処理バッチ（各バッチはデータセットの元の供給源に基づいていた）について、単一対立遺伝子データを７０／２０／１０の比で列／検証／試験群にわたってランダムに分割した。ＭＨＣクラスＩＩの場合、ペプチド配列からの長さ９の部分配列が、正確な遺伝子型一致を有するペプチドの訓練／検証／テストデータセット間で重複しないことが保証される。単一対立遺伝子データは、データセット全体にわたる１１１（３９）個の固有のＭＨＣクラスＩ（ＭＨＣクラスＩＩ）対立遺伝子をそれぞれ表す１０５（４１）個の固有の部分配列で構成される。全ての複数対立遺伝子データをクラスＩデータセットの訓練に完全に使用した。多対立遺伝子データは、データセット全体にわたって１２６（７６）個の特有のＭＨＣクラスＩ（ＭＨＣクラスＩＩ）遺伝子型からなる。処理バッチにわたるデータを組み合わせ、重複する｛ペプチド、ｎフランク、ｃフランク、ｍｈｃ０、ｍｈｃ１、ｍｈｃ２、ｍｈｃ３、ｍｈｃ４、ｍｈｃ５｝（ＭＨＣクラスＩ）、及び｛ペプチド、ｎフランク、ｃフランク、ｍｈｃ＿ｄｑ１＿１、ｍｈｃ＿ｄｑ１＿２、ｍｈｃ＿ｄｑ１＿３、ｍｈｃ＿ｄｑ１＿４、ｍｈｃ＿ｄｐ１＿１、ｍｈｃ＿ｄｐ１＿２、ｍｈｃ＿ｄｐ１＿３、ｍｈｃ＿ｄｐ１＿４、ｍｈｃ＿ｄｒ１＿１、ｍｈｃ＿ｄｒ１＿２、ｍｈｃ＿ｄｒ３＿１、ｍｈｃ＿ｄｒ３＿２、ｍｈｃ＿ｄｒ４＿１、ｍｈｃ＿ｄｒ４＿２、ｍｈｃ＿ｄｒ５＿１、ｍｈｃ＿ｄｒ５＿２｝（ＭＨＣクラスＩＩ）タプルを除外した。

ＥＬ＝０の場合：ＥＬ＝０の場合：各処理バッチについて、各｛ペプチド、偽遺伝子型｝対について、陰性ペプチドデータを訓練群及び検証群においてＥＬ＝１のデータで１：１の比でサンプリングした。試験群では、ＭＨＣクラスＩについては１：９９の比で、ＭＨＣクラスＩＩについては１：９の比でサンプリングした。処理バッチにわたるデータを組み合わせ、重複する観察結果を削除した。これにより、最終的に、ＭＨＣクラスＩについては試験データの１．７１％（１％に代えて）、ＭＨＣクラスＩＩについては１１．１５％（１０％に代えて）が陽性として得られた。

「偽遺伝子型」における複数の部分配列、すなわち、複数対立遺伝子データを有する観察のため、陰性ペプチドを、各対立遺伝子について陽性ペプチドを排除することによって作製し、次いで、ランダムペプチドを、供給源タンパク質から選択した。

Ｖ．Ｂ．１．ｃ．ベンチマークＱＣ
データに冗長性がないことを保証するために、以下の下流ＱＣ手順に従った：１）標準的なアミノ酸のみが、ペプチド配列、Ｎフランク配列及びＣフランク配列において許容される；２）｛Ｎフランク、ペプチド、Ｃフランク、偽遺伝子型｝タプルの各セットは一意である；３）ＥＬ＝１及びＥＬ＝０セットにおいて｛Ｎフランク、ペプチド、Ｃフランク、偽遺伝子型｝タプルのオーバーラップがない。ＭＨＣクラスＩＩについては、同一の偽遺伝子型を有するペプチドについて、ＥＬ＝１とＥＬ＝０との間のペプチド配列内の長さ９部分配列間に重複がないことが更に保証される。

異なる対立遺伝子名（２フィールド分解能、すなわち４桁分解能で）を有するいくつかの対立遺伝子は同じ偽遺伝子型を有し得るため、ＭＨＣ（ＨＬＡ）偽遺伝子型の数は対立遺伝子の数と異なり得る。

Ｖ．Ｂ．２．Ｐ－ＭＨＣ－Ｉモデルの性能を評価するための免疫原性データセット
Ｐ－ＭＨＣ－Ｉモデルの性能を評価するために、２つの異なるデータセットを使用した。第１の試験免疫原性データセットのために、腫瘍学対象はＤＮＡ配列決定され、その標準的なＰ－ＭＨＣ結合から、ＭＨＣによって提示された及び／又はＭＨＣに結合したネオ抗原を予測するためにＩＥＤＰｖ．２．１３ＢＡを使用して予測を行った。このように予測されたネオ抗原を、腫瘍組織におけるそれらの発現、バリアント対立遺伝子頻度及びクローン性を使用して更に優先順位付けした。その後、上記で導入したＲＮＡワクチンを対象に投与した。ＲＮＡワクチンに導入されたネオ抗原に対するＴ細胞応答を、多量体アッセイ及びＥＬＩＳＰＯＴアッセイを使用して、投与された対象においてモニターした。これらのアッセイにおいていくつかの対照を使用して、技術的アーチファクトであると考えられるＴ細胞応答を除外した。第２の試験免疫原性データセットでは、ＴｕｍｏｒＮｅｏａｎｔｉｇｅｎＳｅｌｅｃｔｉｏｎＡｌｌｉａｎｃｅ（ＴＥＳＬＡ）コンソーシアムによって同定されたチェックポイント遮断療法（但し、ＲＮＡワクチン療法ではない）を受けている腫瘍学対象から配列決定データを得た。ＭＨＣによって提示された及び／又はＭＨＣに結合したネオ抗原を予測するために、ＮｅｔＭＨＣｃｏｎｓ１．０を使用してＰ－ＭＨＣ結合予測を行った。免疫原性アッセイを、Ｐ－ＭＨＣ－Ｉモデルによって予測されたネオ抗原で実行し、Ｐ－ＭＨＣ－Ｉモデルの性能を評価するために使用した。

Ｖ．Ｂ．２．ａ．投与された対象の多量体アッセイ
第１の試験免疫原性データセットについて、多量体アッセイデータを、ペプチド－ＭＨＣ多量体によるＣＤ８Ｔ細胞の検出について陽性又は陰性の結果について評価した。保存的基準を使用して、陽性結果：具体的には、二重四量体陽性ＣＤ８Ｔ細胞数が０．０５％を超えたかどうかを宣言した。より近いＴ細胞表現型検査がＴ細胞応答を強く示唆した場合、ネオエピトープ特異的ＣＤ８Ｔ細胞が０．０５％未満であるにもかかわらず、ネオエピトープのいくつかは陽性と呼ばれた。多量体アッセイデータから、１３１８個のネオエピトープが陰性と判定され、保存的基準に基づいて、これらのうちのごく一部が偽陰性であると予想される。２７個のネオエピトープ－ＨＬＡ対がワクチン接種後のみ陽性であると宣言され（デノボ応答と呼ばれる）、２０個の対が既存のＣＤ８Ｔ細胞応答であると宣言された。

Ｖ．Ｂ．２．ｂ．投与された対象のＥＬＩＳｐｏｔアッセイ
さらに、第１の試験免疫原性データセットについて、ＥＬＩＳｐｏｔデータを収集した。ペプチド再刺激なしの陰性対照及びペプチド再刺激ありの試験症例のスポット数の統計的評価を実施して陽性呼び出しを宣言し（順列アプローチを使用して）、更に手動で検証して、所与の対象来院に対するネオ抗原の免疫原性について陽性又は陰性の結果を割り当てた。ネオ抗原は、処置前又は処置後にかかわらず、対象の来院のいずれかで陽性結果を示した場合、ＥＬＩＳｐｏｔアッセイで陽性と判定された。ネオ抗原を以下の基準に基づいて更にフィルタにかけた：（ａ）裁定者が決定したアッセイ結果値は「ＮＡ」ではなかった；（ｂ）評価したＰ－ＭＨＣ－１スコアリング方法（Ｐ－ＭＨＣ－Ｉ、モデルＡ、モデルＢ）のいずれも、ネオ抗原に「ＮＡ」値を割り当てなかった；（ｃ）プールされたネオ抗原を、検討から除外された再刺激に使用した。

全てのフィルタリング工程の後、ＥＬＩＳｐｏｔアッセイで評価された各細胞型についての陽性（免疫原性）及び陰性（非免疫原性）ネオ抗原の分布を以下に示す。Ａｓｓａｙ．ｖａｌｕｅ＿ｂｉｎａｒｙ＝ＴＲＵＥは免疫原性ネオ抗原を意味し、非免疫原性結果はＡｓｓａｙ．ｖａｌｕｅ＿ｂｉｎａｒｙ＝ＦＡＬＳＥと標識された。

陽性アッセイを、ＥＬＩＳｐｏｔアッセイからのスポットカウントに基づいて２つのセットに更に分類した。各ＥＬＩＳｐｏｔアッセイは反復実験を行い、平均スポット数を反復実験にわたって特定した。陽性ネオ抗原の場合、全ての来院にわたる平均スポットカウントの最大値を考慮し、陽性ネオ抗原を２つのセットに分割し、一方はこのスポットカウント値＜５０を有し、他方はこのスポットカウント値＞＝５０を有していた。後者のセットは、より広範なＴ細胞応答を誘導したネオ抗原を表し、スポット数がより少ないセットと比較して、ＥＬＩＳｐｏｔ結果の偽陽性解釈を含む可能性が低い。５０スポットの選択は、ＥＬＩＳｐｏｔ陽性を呼び出すために使用された元の閾値（スポット数＞１５）よりも合理的に高かったため、任意の決定であった。

Ｖ．Ｂ．２．ｃ．ＴＥＳＬＡ多量体アッセイ
第２の試験免疫原性データセットについて、ＴＥＳＬＡコンソーシアムはネオ抗原予測を検証した。アッセイデータは、ＴＥＳＬＡの対象識別子から対象１、２、３、４、１０、１２及び１６について入手可能であった。アッセイ結果は、４つの異なるアッセイに基づいてＴＥＳＬＡによって提供された：ＴＣＲ＿ＦＬＯＷ＿Ｉ、ＴＣＲ＿ＦＬＯＷ＿ＩＩ、ナノ粒子アッセイ及びＴＣＲ反応性アッセイ。ＴＣＲ＿ＦＬＯＷ＿Ｉアッセイ結果をこの実施例で使用した。他のアッセイは、以下の理由のために無視した：（ａ）ナノ粒子アッセイは、非常に高感度であるように設計された単一細胞アッセイであるため、より高い偽陽性率を有すると予想される；（ｂ）ＴＣＲ＿ＦＬＯＷ＿ＩＩは、ＴＣＲ＿ＦＬＯＷ＿Ｉとほぼ冗長であり、両方とも異なる研究室で実行され、ＴＣＲ＿ＦＬＯＷ＿ＩＩはより少ないデータポイントを有する。ＴＣＲ反応性アッセイは、Ｔ細胞をＩＬ－２及び短いペプチドで７日間予備刺激し、続いて短いペプチドで再刺激した後の細胞内ＩＦＮｇ／ＴＮＦａ染色アッセイである。ＴＥＳＬＡチームは、ペプチド－ＭＨＣ提示予測を評価するためにこのアッセイを使用することを支持しなかった。選択されたアッセイは、１６の陽性結果及び１９６の陰性結果を有していた。

Ｖ．Ｂ．３．比較モデル－ＮｅｔＭＨＣｐａｎ及びＩＥＤＢスコア
Ｐ－ＭＨＣ－Ｉモデルとの性能比較のために、モデルＡ及びモデルＢを使用して、ＢＡ及びＥＬ値をペプチド－ＨＬＡ対に割り当てた。Ｐ－ＭＨＣ－ＩＩモデルとの性能比較のために、モデルＣを使用して、ＥＬ値をペプチド－ＭＨＣ（ＨＬＡ）対に割り当てた。これらの方法によってパーセンタイルスコアとして出力されるＢＡ及びＥＬ値は、（この実施例では）ＢＡ又はＥＬと呼ばれる。これらのパーセンタイル値は、より低い値がより高い親和性又は提示の可能性を意味するように挙動する。より高い値がより強い親和性又は提示尤度を示すように挙動するスコア（例えば、ＭＨＣ－Ｉについては、モデルＡについての結合親和性スコア、モデルＡについての溶出スコア、及びモデルＢについての結合親和性スコア；ＭＨＣ－ＩＩについては、モデルＣの結合親和性スコア）を得るために、これらの値の逆数をとることによって変換スコアリングスキームを使用した。ネオエピトープ－ＨＬＡ対の場合、単一のそのようなスコアが得られる。ネオ抗原については、全てのネオエピトープ－ＨＬＡ対を、変異を含有する８～１４ｍｅｒの長さのネオエピトープ候補について検討し、最高スコアを有する対を選択してネオ抗原スコアを表した。

Ｖ．Ｃ．結果
Ｖ．Ｃ．１．提示データに対するＰ－ＭＨＣ－Ｉモデル性能
図１４Ａ～Ｃは、１つ以上の実施形態による例示的な精密リコール（ＰＲ）曲線を含むプロットである。図１４Ａ～Ｃは、以前に使用されたアプローチと比較したＰ－ＭＨＣ－Ｉモデルの性能を示す。溶出リガンド（ＥＬ）試験データセットを使用して、Ｐ－ＭＨＣ－ＩモデルのＥＬ出力、モデルＡのＥＬ出力、及びモデルＣの結合親和性（ＢＡ）出力間の提示予測性能を評価した。

図１４Ａは、Ｐ－ＭＨＣ－Ｉモデルの性能を示すプロット１４００を含む。図１４Ｂは、その溶出出力に対するモデルＡの性能を示すプロット１４０２を含む。図１４Ｃは、その結合親和性出力に対するモデルＢの性能を示すプロット１４０４を含む。プロット１４００、１４０２、及び１４０４の各々の曲線上のドットは、スコアの上位１．７１％分位点のスコア閾値に対応する（ゴールドスタンダード試験データの１．７１％が陽性であるために選択される）。平均精度（ＡＰ）は、閾値非依存性の性能を表す。Ｆ１スコア、精度、及びリコール値は、１．７１％閾値に基づく。

モデルＡ及びモデルＢの値は、これらの方法からのパーセンタイル順位出力であった。Ｐ－ＭＨＣ－Ｉモデル値は、Ｐ－ＭＨＣ－Ｉモデルの（最終ノードの）出力から得た。これらのＰＲ曲線に基づいて、図１４Ａ～Ｃの結果は、Ｐ－ＭＨＣ－Ｉモデルが、モデルＡ及びモデルＣの両方よりも改善された性能を示したことを示す（モデルＡについては０．８５対０．７８及びモデルＢについては０．５７のＡＰ値）。この方法のＡＰ値を対立遺伝子ごとに比較した。

図１５は、１つ以上の実施形態による試験データセット中の各対立遺伝子について、モデルＡ及びＰ－ＭＨＣ－Ｉモデルの溶出－リガンド出力の例示的な平均精度値を比較するプロット１５００である。単一対立遺伝子であった試験データセットは、少なくとも１０００個のデータ点を含み、６７個の対立遺伝子が基準を満たした。プロット１５００に示すように、モデルＡに対するＰ－ＭＨＣ－Ｉモデルは、より高い性能を示した。プロット１５００におけるマーカーのパターンは、対立遺伝子がＨＬＡ－Ａ、Ｂ又はＣ遺伝子に由来するかどうかを示す。マーカーのサイズは、その対立遺伝子についてＰ－ＭＨＣ－Ｉモデルを訓練する際に使用される単一対立遺伝子データの量を表し、これはまた、各対立遺伝子についての試験データの量と相関する。

図１６Ａ及び１６Ｂは、それぞれ、１つ以上の実施形態による、ヒトデータセットに対するＰ－ＭＨＣ－Ｉモデルの性能をマウスデータセットに対するＰ－ＭＨＣ－Ｉモデルの性能と比較するプロット１６００及びプロット１６０２のものである。これらのプロットによって示されるように、Ｐ－ＭＨＣ－Ｉモデルは両方のデータセットについて良好に機能し、Ｐ－ＭＨＣ－Ｉモデルの平均精度はヒト及びマウスデータセットの両方について類似していた。これらの結果は、Ｐ－ＭＨＣ－Ｉモデルが、様々な種にわたって望ましい性能で使用することができる全種モデルであり得ることを実証している。

Ｖ．Ｃ．２．提示データに対するＰ－ＭＨＣ－ＩＩモデル性能
図１７Ａ及び図１７Ｂは、それぞれ、１つ以上の実施形態による提示データに対するＰ－ＭＨＣ－ＩＩモデルの性能をモデルＣと比較するプロット１７００及びプロット１７０２である。モデルＣ値は、パーセンタイル順位出力であった。Ｐ－ＭＨＣ－ＩＩモデル値は、Ｐ－ＭＨＣ－ＩＩモデルの（最終ノードの）出力から得た。ＰＲ曲線からの平均精度を使用して、図１７Ａ及び１７Ｂの結果は、ＡＰ．６９を有するＰ－ＭＨＣ－ＩＩモデルを示し、ＡＰ．３１を有するモデルＣよりも改善された性能を示した。これら２つの方法のＡＰ値を対立遺伝子ごとに比較した。

図１８Ａ及び１８Ｂは、それぞれ、１つ以上の実施形態による、ホールドアウトデータセットに対するＰ－ＭＨＣ－ＩＩモデルの性能をそれぞれモデルＣと比較するプロット１８００及びプロット１８０２である。ここでも、８４のＡＰを有するＰ－ＭＨＣ－ＩＩモデルは、４６のＡＰを有するモデルＣよりも改善された性能を示す。

図１９は、１つ以上の実施形態による、試験データセットに対するモデルＣを用いたＰ－ＭＨＣ－ＩＩモデルの平均精度の遺伝子型ごとの比較を示すプロット１９００である。遺伝子型ごとに、Ｐ－ＭＨＣ－ＩＩモデルは、モデルＣよりも改善された性能を有していた。

Ｖ．Ｃ．３．第１及び第２の試験免疫原性データセットの性能
第１及び第２の試験免疫原性データセットを使用して、Ｔ細胞応答データに対するＰ－ＭＨＣ提示予測の性能を評価した。これらの評価では、免疫原性データについて訓練を行わず、ネオ抗原のアミノ酸配列及びＭＨＣタンパク質のみを使用してＰ－ＭＨＣ提示スコアを計算した。他の特徴、例えば、遺伝子又は変異対立遺伝子の発現は、還元論的様式でＣＤ８Ｔ細胞応答を予測することに対するＰ－ＭＨＣ提示予測の寄与の評価を可能にするために使用されなかった。

Ｖ．Ｃ．３．ａ．投与された対象の多量体アッセイ
図２０は、１つ以上の実施形態による、ＣＤ８多量体アッセイデータ（第１の試験免疫原性データセット）に対するＰ－ＭＨＣ－Ｉモデル（ＥＬ出力）、モデルＡ（ＥＬ出力）及びモデルＢ（ＢＡ出力）の性能を示す受信者動作特性（ＲＯＣ）曲線のプロット２０００である。多量体アッセイから陽性ネオエピトープを予測する能力に関して性能を評価した。モデルＡ及びモデルＢについては、より高い値がより強い結合親和性又は提示尤度を示すように、値を逆変換してＥＬ及びＢＡスコアをそれぞれ得た。曲線下面積（ＡＵＣ）をステップ関数に基づいて計算した。ＲＯＣ曲線をプロットするステップ関数は、真陽性率（ｔｐｒ）及び偽陽性率（ｆｐｒ）を表す点を水平方向、次いで垂直方向に接続した。真陽性率（ｔｐｒ）及び偽陽性率（ｆｐｒ）の値は、ＲパッケージＲＯＣＲを使用して計算した。

Ｖ．Ｃ．３．ｂ．投与された対象のＥＬＩＳｐｏｔアッセイ
図２１Ａ～Ｄは、それぞれ、１つ以上の実施形態によるＥＬＩＳｐｏｔアッセイ（第１の試験免疫原性データセット）に対するＰ－ＭＨＣ－Ｉモデル（Ｅｌ出力）、モデルＡ（ＥＬ出力）及びモデルＢ（ＢＡ出力）の性能を示すプロット２１０２、２１０４、２１０６、及び２１０８である。例示されるように、Ｐ－ＭＨＣ－Ｉモデルは、強い予測力で良好に機能した。プロットは、ＰＢＭＣＥＬＩＳｐｏｔ（図２１Ａ、ＰＢＭＣパネル）及びＣＤ８ＥＬＩＳｐｏｔ（図２１Ｂ、ＣＤ８パネル）について示された別個のサブプロットを有する例示的なＲＯＣ曲線を示す。より強いＴ細胞応答（図２１Ｃ、ＣＤ８、スポット＞＝５０）及び比較的弱いＴ細胞応答（図Ｄ、ＣＤ８、スポット＜５０）について、陽性ＣＤ８ＥＬＩＳｐｏｔデータを更に２つのセットに分割し、ＲＯＣ曲線を生成した。これらの２つのセットのＲＯＣ曲線を生成するために、同じ陰性セットのネオ抗原を使用した。

Ｖ．Ｃ．３．ｃ．ＴＥＳＬＡ多量体アッセイ
図２２Ａ～Ｄは、それぞれ、１つ以上の実施形態による、モデルＡ（ＢＡ出力）、モデルＡ（ＥＬ出力）、モデルＣ（ＢＡ出力）、及びＰ－ＭＨＣ－Ｉモデル（ＥＬ出力）の性能をそれぞれ示すプロット２２０２、２２０４、２２０６、及び２２０８である。ＴＥＳＬＡ免疫原性データ（第２の試験免疫原性データセット）で性能を評価し、多量体アッセイの結果を使用した。これらのプロットは、ＴＥＳＬＡ研究からの多量体アッセイによって評価された例示的なネオエピトープ－ＨＬＡ対に対応する散布図である。応答は、ＴＥＳＬＡによって指定されるアッセイからの陽性ヒットについてはＴＲＵＥであり、非免疫原性ネオエピトープについてはＦＡＬＳＥである。ウィルコクソン順位和検定を使用して、両側代替仮説のｐ値を計算した。Ｙ軸は、より高い値がより強いペプチド－ＭＨＣ結合又は提示に対応するような変換スコアを示す。

図２３は、１つ以上の実施形態による、ＴＥＳＬＡ多量体アッセイデータを使用した、モデルＡ（ＥＬ出力）、モデルＢ（ＢＡ出力）、及びＰ－ＭＨＣ－Ｉモデル（ＥＬ出力）のＲＯＣ曲線を比較したプロット２３００の図である。多量体アッセイは、ＴＣＲ＿ＦＬＯＷ＿Ｉアッセイであった。曲線下面積は、Ｐ－ＭＨＣ－Ｉモデルで最も高かった。

Ｖ．Ｄ．結論
したがって、Ｐ－ＭＨＣ提示予測方法を２つのタイプの評価データセット：免疫ペプチド実験からのＰ－ＭＨＣ提示データ及び様々な免疫原性アッセイからのＴ細胞応答データで評価した。免疫ペプチド学データについて訓練された提示予測子は、これらのデータセットの多くにおいて現在の製造方法（ＩＥＤＢｖ２．１３ＢＡ出力）と比較して良好に機能する。Ｐ－ＭＨＣモデルは、データセットの多くにわたって改善された性能値を示した。したがって、免疫ペプチド学データについて訓練された注意ベースの技術を使用することは、ｉｎｖｉｔｒｏ結合親和性データに基づくモデルよりも優れている可能性がある。

ＶＩ．コンピュータ実装システム
図２６は、様々な実施形態によるコンピュータシステムのブロック図である。コンピュータシステム２６００は、図１で上述したコンピューティングプラットフォーム１０２の一実施態様の一例であり得る。

１つ以上の例において、コンピュータシステム２６００は、情報を通信するためのバス２６０２又は他の通信機構と、情報を処理するためのバス２６０２に連関されたプロセッサ２６０４とを備えることができる。様々な実施形態において、コンピュータシステム２６００はまた、プロセッサ２６０６によって実行される命令を決定するためにバス２６０２に連関された、ランダムアクセスメモリ（ＲＡＭ）２６０４又は他の動的記憶デバイスとすることができるメモリを備えることができる。メモリはまた、プロセッサ２６０４によって実行される命令の実行中に一時変数又は他の中間情報を記憶するために使用されることができる。様々な実施形態において、コンピュータシステム２６００は、プロセッサ２６０４のための静的情報及び命令を記憶するためにバス２６０２に連関された読み出し専用メモリ（ＲＯＭ）２６０８又は他の静的記憶デバイスを更に含むことができる。磁気ディスク又は光ディスク等の記憶デバイス２６１０が設けられ、情報及び命令を記憶するためにバス２６０２に連関されることができる。

様々な実施形態において、コンピュータシステム２６００は、バス２６０２を介して、コンピュータユーザに情報を表示するために、陰極線管（ＣＲＴ）又は液晶ディスプレイ（ＬＣＤ）等のディスプレイ２６１２に連関されることができる。英数字及び他のキーを含む入力デバイス２６１４は、情報及びコマンド選択をプロセッサ２６０４に通信するためにバス２６０２に連関させることができる。別の種類のユーザ入力デバイスは、プロセッサ２６０４に方向情報及びコマンド選択を通信し、ディスプレイ２６１２上のカーソル移動を制御するための、マウス、ジョイスティック、トラックボール、ジェスチャ入力デバイス、視線ベースの入力デバイス、又はカーソル方向キー等のカーソルコントロール２６１６である。この入力デバイス２６１４は、典型的には、デバイスが平面内の位置を指定することを可能にする第１の軸（例えば、ｘ）及び第２の軸（例えば、ｙ）の２軸の２自由度を有する。しかしながら、３次元（例えば、ｘ、ｙ及びｚ）カーソル移動を可能にする入力デバイス２６１４も本明細書で企図されることを理解されたい。

本教示の特定の実施と一致して、結果は、ＲＡＭ２６０６に含まれる１つ以上の命令の１つ以上のシーケンスを実行するプロセッサ２６０４に応答して、コンピュータシステム２６００によって提供されることができる。そのような命令は、記憶デバイス２６１０等の別のコンピュータ可読媒体又はコンピュータ可読記憶媒体からＲＡＭ２６０６に読み込まれることができる。ＲＡＭ２６０６に含まれる命令のシーケンスの実行は、プロセッサ２６０４に本明細書に記載のプロセスを実行させることができる。或いは、本教示を実装するために、ソフトウェア命令の代わりに、又はソフトウェア命令と組み合わせて、ハードワイヤード回路が使用されることができる。したがって、本教示の実装形態は、ハードウェア回路とソフトウェアとの特定の組み合わせに限定されない。

本明細書で使用される「コンピュータ可読媒体」（例えば、データストア、ストーレージデバイス、データストレージデバイス等）又は「コンピュータ可読記憶媒体」という用語は、実行のためにプロセッサ２６０４に命令を提供することに関与する任意の媒体を指す。そのような媒体は、不揮発性媒体、揮発性媒体、及び伝送媒体を含むがこれらに限定されない多くの形態をとることができる。不揮発性媒体の例は、これらに限定されないが、記憶デバイス２６１０等の光学、固体、磁気ディスクを含むことができる。揮発性媒体の例は、これに限定されないが、ＲＡＭ２６０６等のダイナミックメモリを含むことができる。伝送媒体の例は、これらに限定されないが、バス２６０２を備えるワイヤを含む、同軸ケーブル、銅線、及び光ファイバを含むことができる。

コンピュータ可読媒体の一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、又は任意の他の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光学媒体、パンチカード、紙テープ、孔のパターンを有する任意の他の物理媒体、ＲＡＭ、ＰＲＯＭ、及びＥＰＲＯＭ、フラッシュＥＰＲＯＭ、任意の他のメモリチップ又はカートリッジ、又はコンピュータが読み取ることができる任意の他の有形媒体を含む。

コンピュータ可読媒体に加えて、命令又はデータは、実行のためにコンピュータシステム２６００のプロセッサ２６０４に１つ以上の命令のシーケンスを提供するために、通信装置又はシステムに含まれる伝送媒体上の信号として提供されることができる。例えば、通信装置は、命令及びデータを示す信号を有するトランシーバを含むことができる。命令及びデータは、１つ以上のプロセッサに、本明細書の開示に概説される機能を実装させるように構成される。データ通信伝送接続の代表的な例は、これらに限定されないが、電話モデム接続、ワイドエリアネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、赤外線データ接続、ＮＦＣ接続、光通信接続等を含むことができる。

本明細書に記載のフローチャート、図、及び付随する開示は、コンピュータシステム２６００をスタンドアロンデバイスとして使用して、又はクラウドコンピューティングネットワーク等の共有コンピュータ処理リソースの分散ネットワーク上で実装されることができることを理解されたい。

本明細書に記載の方法論は、用途に応じて様々な手段によって実装されることができる。例えば、これらの方法は、ハードウェア、ファームウェア、ソフトウェア、又はそれらの任意の組み合わせで実装されることができる。ハードウェア実装の場合、処理ユニットは、１つ以上の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書に記載された機能を実行するように設計された他の電子ユニット、及び／又はそれらの組み合わせ内に実装されることができる。

様々な実施形態において、本教示の方法は、Ｃ、Ｃ＋＋、Ｐｙｔｈｏｎ等の従来のプログラミング言語で書かれたファームウェア及び／又はソフトウェアプログラム及びアプリケーションとして実装されてもよい。ファームウェア及び／又はソフトウェアとして実装される場合、本明細書に記載の実施形態は、コンピュータに上述の方法を実行させるためのプログラムが格納された非一時的コンピュータ可読媒体上に実装することができる。本明細書に記載の様々なエンジンは、コンピュータシステム２６００等のコンピュータシステム上に提供されることができ、それによってプロセッサ２６０４は、メモリ構成要素ＲＡＭ２６０６、ＲＯＭ、２６０８、又はストーレージデバイス２６１０、及び入力デバイス２６１４を介して提供されるユーザ入力のいずれか一方又はそれらの組み合わせによって提供される命令に従って、これらのエンジンによって提供される分析及び決定を実行することを理解されたい。

ＶＩＩ．用語の説明の例
本明細書で使用される場合、「ペプチド」、「ポリペプチド」及び「タンパク質」という用語は、交換可能に使用され、アミノ酸残基のポリマーを指す。この用語は、共有結合ペプチド結合によって連結されたアミノ酸残基を有する全長タンパク質を含む、任意の長さのアミノ酸鎖を包含する。

本明細書で使用される場合、「変異ペプチド」は、個々の対象の正常組織（例えば、正常組織の野生型アミノ酸配列）に存在しないペプチドを指し得る。変異ペプチドは、少なくとも１つの変異アミノ酸を含み、疾患組織（例えば、特定の対象から収集される）に存在し得るが、正常組織（例えば、特定の対象から収集されたもの、異なる対象から収集されたもの、及び／又は正常組織に対応するものとしてデータベースで同定されたもの）には存在し得ない。変異ペプチドはエピトープを含み得る。エピトープは、ＭＨＣ分子又はＴ細胞受容体（ＴＣＲ）が結合する変異ペプチドの部分である。したがって、変異ペプチドのエピトープとＭＨＣ分子又はＴＣＲとの間のこの結合は、（変異ペプチドが対象の「自己」と関連していない結果として）免疫応答を誘導することができる。変異ペプチドは、ネオ抗原を含むことができ、又はネオ抗原であり得る。変異ペプチドは、例えば、タンパク質中の異なるアミノ酸をもたらす非同義変異（例えば、点突然変異）；終止コドンが改変又は欠失され、Ｃ末端に新規な腫瘍特異的配列を有するより長いタンパク質の翻訳をもたらすリードスルー突然変異；特有の腫瘍特異的タンパク質配列をもたらすスプライス部位突然変異；２つのタンパク質の接合部（すなわち、遺伝子融合）に腫瘍特異的配列を有するキメラタンパク質及び／又は腫瘍特異的タンパク質配列を有する新しいオープンリーディングフレームをもたらすフレームシフト挿入若しくは欠失を生じさせる染色体再編成から生じ得る。変異ペプチドは、（ポリペプチド配列によって特徴付けられる）ポリペプチドを含むことができ、及び／又はヌクレオチド配列によってコードされ得る。

本明細書で使用される場合、ペプチドの「Ｃフランク」は、親タンパク質からの、ペプチドのＣ末端の上流の１つ以上のアミノ酸を指す。任意に、ペプチドのＣフランクは、ペプチドのＣ末端の上流の１、２、３、４、５又はそれ以上のアミノ酸残基を含む。

本明細書で使用される場合、ペプチドの「Ｎフランク」は、親タンパク質からの、ペプチドのＮ末端の下流の１つ以上のアミノ酸を指す。任意に、ペプチドのＣフランクは、ペプチドのＮ末端の下流の１、２、３、４、５又はそれ以上のアミノ酸残基を含む。

本明細書で使用される場合、ペプチドの「エピトープ」は、ＣフランクとＮフランクとの間のペプチドの領域を指し得、ＴＣＲによって認識され得る。ペプチドのエピトープは、Ｔ細胞上のＴＣＲ及び抗原提示細胞上のＭＨＣＩによって認識されるペプチドの一部である。例えば、エピトープは、ＴＣＲが結合するペプチド、例えば、ペプチドが抗原提示細胞上のＭＨＣＩに結合した場合にＴＣＲが結合するペプチドであり得る。

本明細書で使用される場合、「リガンド」は、溶出実験から細胞表面にＭＨＣ分子によって提示されることが見出されるか、又はｉｎｖｉｔｒｏアッセイでＭＨＣに結合することが見出されるペプチドである。

本明細書で使用される場合、「配列」は、アミノ酸識別子の順序付きセットを含むアミノ酸配列を指す。

本明細書で使用される場合、「ペプチド配列」は、ペプチドの少なくとも一部のアミノ酸を同定する配列を指す。場合によっては、ペプチド配列は、対応する参照配列において観察されないバリアントを含むバリアントコード配列を含む。

ペプチドが変異ペプチドを含む場合、バリアントコード配列は、変異又はバリアントのアミノ酸を同定する。しかしながら、ペプチドが変異又はバリアントを含まない場合、バリアントコード配列は変異又はバリアントのアミノ酸を同定しない（その場合、参照配列と同じである）。バリアントコード配列は、疾患及び／又は腫瘍試料（例えば、腫瘍細胞を含む）を収集し、配列決定分析を行って試料中の疾患及び／又は腫瘍細胞に対応する１つ以上の配列を同定することによって決定することができる。場合によっては、配列決定分析はアミノ酸配列を出力する。いくつかの例では、配列決定分析は核酸配列を出力し、これはその後、コドンをアミノ酸識別子に変換し、したがってアミノ酸配列を生成するために処理され得る。バリアントコード配列は、ネオ抗原の配列を含み得る。バリアントコード配列は、ペプチドの１つ以上の末端（例えば、Ｃ末端及び／又はＮ末端）を含んでもよいが、含まなくてもよい。バリアントコード配列は、ペプチドのエピトープを含み得る。バリアントコード配列は、対応する参照配列と比較して１つ以上のバリアント（例えば、１つ以上のアミノ酸の区別）を有するペプチド内のアミノ酸を同定することができる。いくつかの例では、バリアントコード配列は、アミノ酸の順序付きセットを含む。いくつかの例では、バリアントコード配列は、参照ペプチド（例えば、遺伝子、開始位置及び／又は終了位置等によって遺伝子参照配列を同定することによって；又は遺伝子によって、開始位置及び／又は長さ）及び参照ペプチドに対する１つ以上の点突然変異を同定する。

本明細書で使用される場合、「参照配列」は、非変異ペプチド又は野生型ペプチド（例えば、野生型の親配列）の少なくとも一部内のアミノ酸を同定する配列を指し得る。非変異体又は野生型ペプチドは、バリアントを含まないか、又は変異ペプチドに含まれるよりも少ないバリアントを含み得る。参照配列は、対応するバリアントコード配列を含む遺伝子と比較して同じ遺伝子内の遺伝子配列によってコードされるアミノ酸配列を含み得る。参照配列は、対応するバリアントコード配列に関連する遺伝子配列に関連する遺伝子内位置に対して、遺伝子内の同じ開始及び停止に及ぶ遺伝子配列によってコードされるアミノ酸配列を含み得る。参照配列は、１人以上の対象（バリアントコード配列を決定するために疾患試料が収集された対象を含み得るが、そうである必要はない）から非疾患及び／又は非腫瘍試料を収集し、その試料を用いて配列決定分析を行うことによって同定され得る。

本明細書で使用される場合、ＭＨＣ分子の「疑似配列」は、ペプチドと接触するＭＨＣ分子のアミノ酸の順序付きセットを指し得る。

本明細書で使用される場合、配列の「表現」は、配列中のアミノ酸を表す若しくは同定する値のセット及び／又は配列をコードする核酸を表す若しくは同定する値のセットを含み得る。例えば、各アミノ酸は、互いのアミノ酸を表す互いのバイナリ列及び／又はベクトルとは異なる値のバイナリ列及び／又はベクトルによって表され得る。この表現は、例えば、ワン・ホット・エンコーディング（ｏｎｅ－ｈｏｔｅｎｃｏｄｉｎｇ）を用いて、又は、ブロック代替行列（ＢＬＯｃｋｓＳＵｂｓｔｉｔｕｔｉｏｎＭａｔｒｉｘ）（ＢＬＯＳＵＭ）の行列を用いて生成され得る。例えば、多次元（例えば、２０次元又は２１次元）配列が初期化される（例えば、ランダム又は擬似ランダムに初期化される）。初期化されたアレイは、各アミノ酸について、そのアミノ酸に対応する特有のベクトルを含み得る。値は、そのような特有のベクトルの使用が対応するアミノ酸を表すと仮定され得るように固定され得る。複数のコドンのいずれかが単一のアミノ酸をコードすることができると仮定すると、所与の配列の複数の可能な核酸表現が存在し得る。

本明細書で使用される場合、ペプチドの「提示」は、特定の様式でＭＨＣ分子に結合することによって細胞の表面に提示されるペプチドの少なくとも一部を指す。次いで、提示されたペプチドは、近くのＴ細胞等の他の細胞にアクセス可能であり得る。

本明細書で使用される場合、「試料」は、組織（例えば、生検）、単一細胞、複数の細胞、細胞の断片、又は体液のアリコートを含み得る。試料は、例えば、限定されないが、静脈穿刺、排泄、射精、マッサージ、生検、針吸引物、洗浄液試料、掻き取り、外科的切開、介入、別の種類の試料採取手段、又はそれらの組み合わせ等の手段によって対象から得ることができる。

本明細書で使用される場合、「対象」は、１つ以上の細胞、組織、又は生物を包含する。対象は、ｉｎｖｉｖｏ、ｅｘｖｉｖｏ、又はｉｎｖｉｔｒｏ、雄性又は雌性を問わず、ヒト又は非ヒトであり得る。対象は、ヒト等の哺乳動物であり得る。

本明細書で使用される場合、「結合親和性」は、ペプチド（例えば、特異的抗原の）とＭＨＣ（例えば、ＭＨＣ分子及び／又はＭＨＣ対立遺伝子）との間の結合の親和性を指す。結合親和性は、ペプチドとＭＨＣ分子との間の結合の安定性、傾向、及び／又は強度を特徴付けることができる。

本明細書で使用される場合、「免疫原性」は、免疫応答（例えば、Ｔ細胞及び／又はＢ細胞を介して）を誘発する能力を指し得る。「免疫原性」であるペプチドは、免疫応答を誘発することができるペプチドであり得る。

本明細書で使用される場合、「ＭＨＣ」は、主要組織適合遺伝子複合体を指す。ヒトＭＨＣは、ヒト白血球抗原（ＨＬＡ）複合体とも呼ばれる。

ＶＩＩＩ．例示的な実施形態
実施形態１．方法が提供される。本方法は、ペプチドのセットを特徴付けるペプチド配列のセットにアクセスすることであって、ペプチド配列のセットの各ペプチド配列が、対象からの疾患試料を処理することによって同定されている、ペプチド配列のセットにアクセスすることを含む。本方法は、対象の免疫タンパク質複合体（ＩＰＣ）について同定された免疫タンパク質複合体（ＩＰＣ）配列にアクセスすることを含む。本方法は、注意ベースの機械学習モデルの初期注意サブシステム内の第１の注意ブロックを用いてペプチド配列のセットを表すペプチド表現のセットと、初期注意サブシステム内の第２の注意ブロックを用いてＩＰＣ配列を表す免疫タンパク質複合体（ＩＰＣ）表現とを処理して、出力を生成することであって、出力が、対応するペプチド－ＩＰＣ組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも１つを含む、処理して、出力を生成することを含む。本方法は、出力に基づいてレポートを生成することを含む。

実施形態２．ペプチド配列のセットの少なくとも１つのペプチド配列が、対応する参照配列に対するバリアントを含むバリアントコード配列を含む、実施形態１に記載の方法。

実施形態３．処理することが、ペプチド配列のセットの対応するペプチド配列に対するペプチド表現のセットのペプチド表現を受信することと、第１の注意ブロックを介してペプチド表現を変換ペプチド表現に変換することであって、第１の注意ブロックが注意サブブロックのセットを含み、注意サブブロックのセットの各注意サブブロックが自己注意層を含む、ペプチド表現を変換ペプチド表現に変換することとを含む、実施形態１又は実施形態２に記載の方法。

実施形態４．処理することが、ＩＰＣ表現を受信することと、第２の注意ブロックを介してＩＰＣ表現を変換ＩＰＣ表現に変換することであって、第２の注意ブロックが注意サブブロックのセットを含み、注意サブブロックのセットの各注意サブブロックが自己注意層を含む、ＩＰＣ表現を変換ＩＰＣ表現に変換することとを含む、実施形態１～３のいずれか一項に記載の方法。

実施形態５．ペプチド表現の少なくとも一部がペプチド配列中のモノマーに対応し、ＩＰＣ表示の少なくとも一部がＩＰＣ配列中のモノマーに対応し、処理することが、第１の注意ブロック及び重みの第１のセットを使用して、ペプチド表現に基づいて変換ペプチド表現を生成することと、第２の注意ブロックと重みの第２のセットとを使用してＩＰＣ表現に基づいて変換ＩＰＣ表現を生成することと、変換ペプチド表現及び変換ＭＨＣ表現を使用して複合表現を生成することとを含む、実施形態１～４のいずれか一項に記載の方法。

実施形態６．ペプチド配列のセットのペプチド配列を埋め込んで、ペプチド配列についての埋め込みペプチド表現を生成することと、任意に、ペプチド配列についての埋め込みペプチド表現を位置的にコードして、ペプチド配列を表現するペプチド表現のセットのペプチド表現を生成することとを含む、実施形態１～５のいずれか一項に記載の方法。

実施形態７．第１の注意ブロックが、注意サブブロックのセットを含み、注意サブブロックのセットの各注意サブブロックが、少なくとも１つの自己注意層を含むニューラルネットワークを含む、実施形態１～６のいずれか一項に記載の方法。

実施形態８．第２の注意ブロックが、注意サブブロックのセットを含み、注意サブブロックのセットの各注意サブブロックが、少なくとも１つの自己注意層を含むニューラルネットワークを含む、実施形態１～７のいずれか一項に記載の方法。

実施形態９．第１の注意ブロックが、第１の複数の注意サブブロックを含み、第２の注意ブロックが、第１の複数の注意サブブロックを含み、第１の注意サブブロックセット及び第２の注意サブブロックセットの各注意サブブロックが、少なくとも１つの自己注意層を含むニューラルネットワークを含む、実施形態１～８のいずれか一項に記載の方法。

実施形態１０．ペプチド表現のセットのペプチド表現が、第１の注意ブロックを使用して処理された集約表現の第１の部分を形成し、集約表現の第２の部分が、Ｎフランク配列又はＣフランク配列のうちの少なくとも１つを表す、実施形態１～９のいずれか一項に記載の方法。

実施形態１１．ペプチド配列のセットのペプチド配列が、集約配列の第１の部分を形成し、集約配列の第２の部分が、Ｎフランク配列又はＣフランク配列のうちの少なくとも１つを含み、注意ベースの機械学習モデルが、集約配列を受信し、処理して、ペプチド配列に対応するペプチド表現のセットのペプチド表現を含む集約表現を形成する表現ブロックを含み、集約表現が、第１の注意ブロックによって処理される、実施形態１～１０のいずれか一項に記載の方法。

実施形態１２．ＩＰＣ配列を埋め込んでＩＰＣ配列の埋め込みＩＰＣ表現を生成することと、任意に、ＩＰＣ配列の埋め込みＩＰＣ表現を位置的にコードして、ＩＰＣ表現を生成することとを含む、実施形態１～１１のいずれか一項に記載の方法。

実施形態１３．注意ベースの機械学習モデルが、複数の自己注意層と、複数の自己注意層の各々について、対応する下流フィードフォワードニューラルネットワークとを含む、実施形態１～１２のいずれか一項に記載の方法。

実施形態１４．第１の注意ブロックが、ペプチド表現のセットのペプチド表現を受信し、処理して、変換ペプチド表現を生成するように構成された第１のニューラルネットワークと、第２の注意ブロックが、ＩＰＣ表現を受信して処理して変換ＩＰＣ表現を生成するように構成された第２のニューラルネットワークと含み、第１のニューラルネットワーク及び第２のニューラルネットワークのそれぞれが、少なくとも１つの自己注意層を含み、注意ベースの機械学習モデルが、変換ペプチド表現及び変換ＩＰＣ表現を使用して複合表現を生成するように構成される、実施形態１～１３のいずれか一項に記載の方法。

実施形態１５．注意ベースの機械学習モデルが、複合表現を受信し、処理するように構成されたニューラルネットワークを含む複合注意ブロックを更に含み、ニューラルネットワークが自己注意層を含む、実施形態１～１４のいずれか一項に記載の方法。

実施形態１６．注意ベースの機械学習モデルが、ｃｊ風位サブブロックのセットを含む複合注意ブロックを更に含み、注意サブブロックのセットの各注意サブブロックが、少なくとも１つの自己注意層を含むニューラルネットワークを含む、実施形態１～１５のいずれか一項に記載の方法。
実施形態１７．ＩＰＣが主要組織適合遺伝子複合体（ＭＨＣ）を含み、対応するペプチド－ＩＰＣ組み合わせがペプチドのセットのペプチドとＭＨＣとを含み、対応するペプチド－ＩＰＣ組み合わせについての相互作用親和性予測がペプチドとＭＨＣとの間の結合親和性を予測し、対応するペプチド－ＩＰＣ組み合わせについての相互作用予測が、ＭＨＣが細胞表面にペプチドを提示するかどうかを予測する、実施形態１～１６のいずれか一項に記載の方法。

実施形態１８．注意ベースの機械学習モデルが、複数の訓練ペプチド配列及び訓練ＭＨＣ配列のセットについての実験的相互作用親和性データ又は実験的相互作用データのうちの少なくとも１つを含む訓練データセットを使用して訓練される、実施形態１～１７のいずれか一項に記載の方法。

実施形態１９．ＩＰＣがＴ細胞受容体（ＴＣＲ）であり、対応するペプチド－ＩＰＣの対がペプチドのセットのペプチドとＴＣＲ又はＴＣＲのいずれかと主要組織適合遺伝子複合体（ＭＨＣ）とを含み、対応するペプチド－ＩＰＣ組み合わせの免疫原性予測が、ＴＣＲに対するペプチドの免疫原性を予測し、注意ベースの機械学習モデルが、複数の訓練ペプチド配列及び訓練ＴＣＲ配列のセットについての実験的免疫原性データを含む訓練データセットを使用して訓練される、実施形態１～１８のいずれか一項に記載の方法。

実施形態２０．訓練データセットが複数の訓練データ要素を含み、複数の訓練データ要素のうちの少なくとも１つの訓練データ要素が、ペプチドのセットに含まれない訓練ペプチドを特徴付ける訓練ペプチド配列、ＩＰＣとは異なる訓練ＩＰＣを特徴付ける訓練ＩＰＣ配列、及び訓練ペプチドと訓練ＩＰＣとの間の相互作用親和性指標を特定する実験ベースの結果であって、相互作用親和性指標が、アッセイ又はバイオセンサベースの方法論を使用して検出された、実験ベースの結果のうちの少なくとも１つを含む、実施形態１～１９のいずれか一項に記載の方法。

実施形態２１．訓練データセットが複数の訓練データ要素を含み、複数の訓練データ要素のうちの少なくとも１つの訓練データ要素が、ペプチドのセットに含まれない訓練ペプチドを特徴付ける訓練ペプチド配列、ＩＰＣとは異なる訓練ＭＨＣを特徴付ける訓練ＭＨＣ配列、及び訓練ペプチドが訓練ＭＨＣによって細胞表面に提示されたかどうかを特定する相互作用指標を含む実験ベースの結果であって、免疫沈降又は質量分析の少なくとも１つが相互作用指標を決定するために使用された、実験ベースの結果のうちの少なくとも１つを含む、実施形態１～２０のいずれか一項に記載の方法。

実施形態２２．処理工程の前に、複数のペプチド－ＩＰＣ組み合わせについての結合親和性、相互作用指標、又は免疫原性指標のうちの少なくとも１つを含む訓練データセットを使用して、注意ベースの機械学習モデルを訓練することを更に含み、訓練データセットが、複数の訓練ペプチド配列と、複数の訓練主要組織適合遺伝子複合体（ＭＨＣ）配列又は複数の訓練Ｔ細胞受容体（ＴＣＲ）配列のうちの少なくとも１つとを含む、実施形態１～２１のいずれか１つに記載の方法。

実施形態２３．処理することが、第１の注意ブロックを使用してペプチド表現のセットを処理し、第２の注意ブロックを使用してＩＰＣ表現を処理して、ペプチド－ＩＰＣ組み合わせのセットに対する複合表現のセットを生成することと、複合表現のセットを処理して結果のセットを生成することと、ペプチド－ＩＰＣ組み合わせのセットのサブセットを選択することであって、ペプチド－ＩＰＣ組み合わせのセットの残りのサブセットと比較して、サブセットの各ペプチド－ＩＰＣ組み合わせで選択された相互作用のセットが生じる可能性がより高いペプチド－ＩＰＣ組み合わせのセットのサブセットを選択することとを含み、、レポートがサブセット内の各ペプチドを同定する、実施形態１～２２のいずれか一項に記載の方法。

実施形態２４．ペプチドのセットの各ペプチドが、ペプチド－ＩＰＣ組み合わせを形成するために使用され、注意ベースの機械学習モデルが、ペプチド－ＩＰＣ組み合わせのセットの各ペプチド－ＩＰＣ組み合わせについての免疫原性予測を生成するように構成され、ペプチド－ＩＰＣ組み合わせのセットのペプチド－ＩＰＣ組み合わせについての免疫原性予測が、ペプチド－ＩＰＣ組み合わせにおけるペプチドの腫瘍特異的免疫原性の予測である、実施形態１～２３のいずれか一項に記載の方法。

実施形態２５．レポートが、ペプチドのセットの残りの部分と比較して、腫瘍特異的免疫原性が増加したペプチドのセットからペプチドのサブセットを同定する、実施形態１～２４のいずれか一項に記載の方法。

実施形態２６．ＩＰＣが主要組織適合遺伝子複合体（ＭＨＣ）であり、ペプチドのセットの各ペプチドが、ペプチド－ＭＨＣ組み合わせのセットを形成するために使用され、注意ベースの機械学習モデルが、ペプチド－ＭＨＣ組み合わせのセットの各ペプチド－ＭＨＣ組み合わせについての相互作用予測を生成するように構成され、ペプチド－ＭＨＣ組み合わせのセットのペプチド－ＭＨＣ組み合わせについての相互作用予測が、ペプチド－ＭＨＣ組み合わせ中のペプチドが細胞表面にＭＨＣによって提示されるかどうかの予測である、実施形態１～２５のいずれか一項に記載の方法。

実施形態２７．レポートが、ペプチドのセットの残りの部分と比較して、ＭＨＣによる提示の可能性が高いペプチドのセットからペプチドのサブセットを同定する、実施形態２６に記載の方法。

実施形態２８．ペプチド配列のセットのペプチド配列が、変異ペプチドを特徴付けるバリアントコード配列であり、バリアントコード配列が、変異ペプチドのＮ末端の配列を同定する第１部分を含と、変異ペプチドのエピトープの配列を同定する第２の部分とを含み、処理することが、初期注意サブシステムの第１の自己注意層を使用して、バリアントコード配列の第１の部分の第１の表現を処理することを含と、初期注意サブシステムの第２の自己注意層を使用して、バリアントコード配列の第２の部分の第２の表現を処理することとを含む、実施形態１～２７のいずれか一項に記載の方法。

実施形態２９．第１の表現及び第２の表現が、第１の注意ブロック内で処理される、実施形態２８に記載の方法。

実施形態３０．注意ベースの機械学習モデルが、１つ以上の変換器エンコーダを含み、１つ以上の変換器エンコーダの各々が、自己注意層を含む、実施形態１～２９のいずれか一項に記載の方法。

実施形態３１．ＩＰＣ配列及びペプチド配列のセットのそれぞれが、アミノ酸識別子の順序付きセットを含む、実施形態１～３０のいずれか一項に記載の方法。

実施形態３２．ＩＰＣ配列が、疾患試料を使用して同定される、実施形態１～３１のいずれか一項に記載の方法。

実施形態３３．ＩＰＣ配列が、対象からの生物学的試料を使用して同定される、実施形態１～３２のいずれか一項に記載の方法。

実施形態３４．疾患試料ががん細胞を含む、実施形態１～３３のいずれか１つに記載の方法。

実施形態３５．対象のＩＰＣが主要組織適合遺伝子複合体（ＭＨＣ）を含み、ＩＰＣ配列がＭＨＣ配列を含み、ＩＰＣ表現がＭＨＣ表現を含む、実施形態１～３４のいずれか一項に記載の方法。

実施形態３６．ＭＨＣがＭＨＣクラスＩ分子を含む、実施形態３５に記載の方法。

実施形態３７．ＭＨＣがＭＨＣクラスＩＩ分子を含む、実施形態３５に記載の方法。

実施形態３８．対象のＩＰＣがＴ細胞受容体（ＴＣＲ）を含み、ＩＰＣ配列がＴＣＲ配列を含み、ＩＰＣ表現がＴＣＲ表現を含む、実施形態１～３５のいずれか一項に記載の方法。

実施形態３９．疾患試料が組織を含む、実施形態１～３８のいずれか１つに記載の方法。

実施形態４０．ペプチドのセットの少なくとも１つのペプチドがネオ抗原である、実施形態１～３９のいずれか一項に記載の方法。

実施形態４１．ペプチド配列のセットの少なくとも１つのペプチド配列が、疾患試料に由来するゲノム配列である、実施形態１～４０のいずれか一項に記載の方法。

実施形態４２．少なくとも１つのバリアントコード配列のセットのそれぞれが、疾患試料のＲＮＡ配列に基づく、実施形態１～４１のいずれか一項に記載の方法。

実施形態４３．対応するペプチド－ＩＰＣ組み合わせが、ペプチドのセットからのペプチド及びＩＰＣを含み、ＩＰＣが主要組織適合遺伝子複合体（ＭＨＣ）であり、相互作用親和性予測が、ペプチドとＭＨＣとの間の結合に対する結合親和性の予測であり、相互作用予測が、細胞表面におけるＭＨＣによるペプチドの提示の予測である、実施形態１～４２のいずれか一項に記載の方法。

実施形態４４．ユーザによって入力された入力データを受信することであって、入力データが対象に対応する、入力データを受信することを更に含み、ペプチド配列のセット及びＩＰＣ配列が、入力データの受信に応答して、データストアからの検索を介してアクセスされ、レポートが、対象の病状を処置するための個別化ワクチンに含めるペプチドのセットからペプチドのサブセットを同定する、実施形態１～４３のいずれか一項に記載の方法。

実施形態４５．個別化ワクチンを含む対象への処置勧告を生成することを更に含む、実施形態４４に記載の方法。

実施形態４６．ユーザによって入力された入力データを受信することであって、入力データが対象に対応し、ペプチド配列のセット及びＩＰＣ配列が、入力データの受信に応答して、データストアからの検索を介してアクセスされる、入力データを受信することと、レポートに基づいて、個別化ワクチンに含めるための処置ペプチドのセットを決定することと、処置ペプチドのセットを含む個別化ワクチンの製造を容易にする動作を開始することとを更に含む、実施形態１～４５のいずれか一項に記載の方法。

実施形態４７．動作を開始することが、個別化ワクチンの製造に関与するコンピュータ化プロセスをトリガするアラートを生成することを含む、実施形態４６に記載の方法。

実施形態４８．処理することが、注意ベースの機械学習モデルの埋め込みブロックから、複数の要素を含む表現を受信することであって、表現が、ペプチド配列のセット中のペプチド配列を表すペプチド表現のセットのペプチド表現、又はＩＰＣ配列を表すＩＰＣ表現のいずれかであり、複数の要素のデータセット内の各要素が、ペプチド配列又はＩＰＣ配列のいずれかにおけるモノマーに対応する、複数の要素を含む表現を受信することと、複数の要素の各要素について、注意ベースの機械学習モデルの自己注意層に関連付けられたキー重みのセット、値重みのセット、及びクエリ重みのセットに基づいて、それぞれキーベクトル、値ベクトル、及びクエリベクトルを決定することと、複数の要素の変換を実行して複数の修正要素を形成することであって、変換が、複数の要素について生成された注意スコアと、複数の要素の各々について決定された値ベクトルとを使用して実行される、複数の修正要素を形成することと、複数の修正要素に基づいて出力を生成することとを含む、実施形態１～４７のいずれか一項に記載の方法。

実施形態４９．複数の要素のうちの選択された要素に対して変換を実行することが、要素のキーベクトル及びクエリベクトルを使用して選択された要素の注意スコアを決定することであって、選択された要素以外の複数の要素の残りの部分が残りの要素のセットを形成する、選択された要素の注意スコアを決定することと、残りの要素のキーベクトル及び選択された要素のクエリベクトルを使用して、残りの要素のセットの残りの要素のそれぞれについて追加の注意スコアを決定して、追加の注意スコアのセットを形成することと、注意スコアと、追加の注意スコアのセットと、複数の要素の各要素についての値ベクトルとを使用して、修正要素を生成することとを含む、実施形態４８に記載の方法。

実施形態５０．ディスプレイシステム上のグラフィカルユーザインターフェース上にレポートを表示することを更に含む、実施形態１～４９のいずれか一項に記載の方法。

実施形態５１．処理することが第１のコンピューティングプラットフォーム上で実行されることを含み、有線通信リンク又は無線通信リンクのうちの少なくとも１つを含む通信リンクのセットを介して第２のコンピューティングプラットフォームにレポートを送ることを更に含む、実施形態１～５０のいずれか一項に記載の方法。

実施形態５２．レポートに基づいて、ペプチドのセットの少なくとも１つのペプチドを免疫療法の標的として含むことを決定することを更に含む、実施形態１～５１のいずれか一項に記載の方法。

実施形態５３．免疫療法が、Ｔ細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー（ＮＫ）細胞療法からなる群から選択される、実施形態５２に記載の方法。

実施形態５４．レポートに基づいて、ペプチドのセットの少なくとも１つのペプチドを免疫療法の標的として除外することを決定することを更に含む、実施形態１～５３のいずれか一項に記載の方法。

実施形態５５．免疫療法が、Ｔ細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー（ＮＫ）細胞療法からなる群から選択される、実施形態５４に記載の方法。

実施形態５６．ＩＰＣがヒト白血球抗原（ＨＬＡ）分子である、実施形態１～５５のいずれか一項に記載の方法。

実施形態５７．対象からの疾患試料を配列決定することと、対象由来の疾患試料の配列決定に基づいてペプチド配列のセットを定義することと、レポートに基づいて、ペプチド配列のセットのサブセットを同定することと、ペプチドのセットのサブセットに含まれる少なくとも１つのペプチドをコードするｍＲＮＡを合成することと、ｍＲＮＡを脂質と複合体化してｍＲＮＡ－リポプレックス処理を産生することと、ｍＲＮＡ－リポプレックス処置を対象に投与することとを含む、実施形態１～５６のいずれか一項に記載の方法。

実施形態５８．ワクチンは、１つ以上のペプチド；１つ以上のペプチドをコードする複数の核酸；又は１つ以上のペプチドを発現する複数の細胞を含み、１つ以上のペプチドが、実施形態１～４９のいずれかの方法によって生成されたレポートに基づいてペプチドのセットの中から選択され、１つ以上のペプチドがペプチドのセットの不完全なサブセットである。

実施形態５９．ワクチンが、複数の核酸を含むＤＮＡ又は複数の核酸を含むＲＮＡのいずれかを含む、実施形態５８に記載のワクチン。

実施形態６０．ワクチンが、複数の核酸を含むｍＲＮＡを含む、実施形態５８又は実施形態５９に記載のワクチン。

実施形態６１．ワクチンが腫瘍ワクチンである、実施形態５８～６０のいずれか一項に記載のワクチン。

実施形態６２．１つ以上のペプチド；１つ以上のペプチドをコードする複数の核酸；又は１つ以上のペプチドを発現する複数の細胞を含む、ワクチンを生成することを含む、ワクチンを製造する方法であって、１つ以上のペプチドが、実施形態１～４９のいずれかの方法によって生成されたレポートに基づいてペプチドのセットの中から選択され、１つ以上のペプチドがペプチドのセットの不完全なサブセットである、方法。

実施形態６３．ワクチンが、複数の核酸を含むＤＮＡ、複数の核酸を含むＲＮＡ、又は複数の核酸を含むｍＲＮＡを含む、実施形態６２に記載の方法。

実施形態６４．１つ以上のペプチド内のアミノ酸に基づいて、１つ以上のペプチドをコードする複数の核酸を同定することを更に含み、ワクチンが複数の核酸を含む、実施形態６２又は実施形態６３に記載の方法。

実施形態６５．ワクチンが腫瘍ワクチンである、実施形態６２～６４のいずれか一項に記載の方法。

実施形態６６．１つ以上のペプチドの各ペプチドについて、腫瘍ワクチンが、各ペプチドをコードするヌクレオチド配列、各ペプチドに対応するアミノ酸配列、各ペプチドに対応するＲＮＡ、各ペプチドに対応するＤＮＡ、各ペプチドに対応する細胞、各ペプチドに対応するプラスミド、又は各ペプチドに対応するベクターのうちの少なくとも１つを含む、実施形態６５に記載の方法。

実施形態６７．ワクチンが、賦形剤又はアジュバントの少なくとも１つを更に含む、実施形態６２～６６のいずれか一項に記載の方法。

実施形態６８．ＲＮＡワクチンが、ＲＮＡ分子であって、５’→３’方向に、
５’キャップと、
５’非翻訳領域（ＵＴＲ）と、
分泌シグナルペプチドをコードするポリヌクレオチド配列と、
１つ以上のペプチドをコードするポリヌクレオチド配列と、
主要組織適合遺伝子複合体（ＭＨＣ）分子の膜貫通ドメイン及び細胞質ドメインの少なくとも一部をコードするポリヌクレオチド配列と、
３’ＵＴＲであって、
Ａｍｉｎｏ－ＴｅｒｍｉｎａｌＥｎｈａｎｃｅｒｏｆＳｐｌｉｔ（ＡＥＳ）ｍＲＮＡの３’非翻訳領域又はその断片、及び
ミトコンドリアにコードされた１２ＳＲＮＡの非コードＲＮＡ又はその断片、を含む３’ＵＴＲと、
ポリ（Ａ）配列とを含むＲＮＡ分子を含む、実施形態６２～６７のいずれか一項に記載の方法。

実施形態６９．実施形態１～４９のいずれか一項に記載の方法によって生成されたレポートに基づいてペプチドのセットの中から選択される１つ以上のペプチドを含み、１つ以上のペプチドがペプチドのセットの不完全なサブセットである、医薬組成物。

実施形態７０．実施形態１～４９のいずれか一項に記載の方法によって生成されたレポートに基づいてペプチドのセットの中から選択された１つ以上のペプチドをコードする核酸配列を含み、１つ以上のペプチドがペプチドのセットの不完全なサブセットである、医薬組成物。

実施形態７１．実施形態１～４９のいずれか一項に記載の方法によって生成されたレポートに基づいて、免疫原性ペプチドが同定される。

実施形態７２．実施形態１～４９のいずれか一項に記載の方法によって生成されたレポートに基づいて、核酸配列が同定される。

実施形態７３．核酸配列がＤＮＡ配列を含む、実施形態７２に記載の核酸配列。

実施形態７４．核酸配列がＲＮＡ配列を含む、実施形態７２又は実施形態７３に記載の核酸配列。

実施形態７５．核酸配列がｍＲＮＡ配列を含む、実施形態７２～７４のいずれか一項に記載の核酸配列。

実施形態７６．対象を処置する方法であって、実施形態１～４９のいずれか一項に記載の方法によって生成されたレポートに基づいて同定された１つ以上のペプチド、１つ以上の医薬組成物、又は１つ以上の核酸配列の少なくとも１つを投与することを含む、方法。

実施形態７７．方法は、対象から得られた生物学的試料のセットを処理して、ペプチドのセットを特徴付けるペプチド配列のセットを生成することと、対象から得られた生物学的試料のセットを処理して、対象の免疫タンパク質複合体（ＩＰＣ）について同定された免疫タンパク質複合体（ＩＰＣ）配列を生成することと、注意ベースの機械学習モデルの初期注意サブシステム内の第１の注意ブロックを使用して、ペプチド配列のセットを表すペプチド表現のセットを生成することと、初期注意サブシステム内の第２の注意ブロックを使用して、ＩＰＣ配列を表す免疫タンパク質複合体（ＩＰＣ）表現を生成することと、ペプチド表現のセット及びＩＰＣ表現を処理して、出力を生成することであって、出力が、対応するペプチド－ＩＰＣ組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも１つを含み、対応するペプチド－ＩＰＣ組み合わせが、ペプチドのセットのペプチドを含む、処理して、出力を生成することとを含む。

実施形態７８．対象から得られた生物学的試料のセットを処理して、ペプチド配列のセットを生成することが、対象から得られた生物学的試料のセット中の疾患試料を処理して、ペプチド配列のセットを生成することを含む、実施形態７７に記載の方法。

実施形態７９．対象から生物学的試料のセットを得ることを更に含み、生物学的試料のセットが疾患試料を含む、実施形態７７又は実施形態７８の方法。

実施形態８０．出力に基づいてレポートを生成することを更に含む、実施形態７７～７９のいずれか一項に記載の方法。

実施形態８１．方法は、ユーザ装置において、対象のための個別化ワクチンを設計する要求を受信することと、ユーザ装置から、通信を遠隔システムに送信することであって、通信が対象の識別子を含み、遠隔システムが、ペプチドのセットを特徴付けるペプチド配列のセットにアクセスすることであって、ペプチド配列のセットの各ペプチド配列が、対象からの疾患試料を処理することによって同定されている、ペプチド配列のセットにアクセスするように構成され、かつ対象の免疫タンパク質複合体（ＩＰＣ）について同定された免疫タンパク質複合体（ＩＰＣ）配列にアクセスするように構成され；注意ベースの機械学習モデルの初期注意サブシステム内の第１の注意ブロックを用いてペプチド配列のセットを表すペプチド表現のセットと、初期注意サブシステム内の第２の注意ブロックを用いてＩＰＣ配列を表す免疫タンパク質複合体（ＩＰＣ）表現とを処理して出力を生成することであって、出力が、対応するペプチド－ＩＰＣ組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも１つを含む、処理して出力を生成するように構成され；かつ、出力に基づいてレポートを生成するように構成され；かつレポートをユーザ装置に送信するように構成される、遠隔システムに通信を送信することと、ユーザ装置において、レポートを受信することとを含む。

実施形態８２．対象から疾患試料を収集することと、クロマトグラフィー又は質量分析の少なくとも１つを使用して、疾患試料中のＭＨＣ分子からペプチドのセットを含む複数のペプチドを溶出させることと、ペプチドのセットを配列決定して、初期配列のセットを生成することと、初期配列のセットの各初期配列を参照配列と比較することと、比較に基づいてペプチド配列のセットを定義することであって、ペプチド配列のセット内の各ペプチド配列が、参照配列に対するバリアントを含むバリアントコード配列である、ペプチド配列のセットを定義することとを更に含む、実施形態８１に記載の方法。

実施形態８３．対象に対する処置を作成するための方法が提供される。方法は、コンピューティングデバイスからレポートを受信することであって、コンピューティングデバイスが、ペプチドのセットを特徴付けるペプチド配列のセットにアクセスすることであって、ペプチド配列のセットの各ペプチド配列が、対象からの疾患試料を処理することによって同定されている、ペプチド配列のセットにアクセスするように構成され、かつ対象の免疫タンパク質複合体（ＩＰＣ）について同定された免疫タンパク質複合体（ＩＰＣ）配列にアクセスするように構成され；注意ベースの機械学習モデルの初期注意サブシステム内の第１の注意ブロックを用いてペプチド配列のセットを表すペプチド表現のセットと、初期注意サブシステム内の第２の注意ブロックを用いてＩＰＣ配列を表す免疫タンパク質複合体（ＩＰＣ）表現とを処理して出力を生成することであって、出力が、対応するペプチド－ＩＰＣ組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも１つを含む、処理して出力を生成するように構成され；かつ出力に基づいてレポートを生成するように構成される、レポートを受信することと、レポートに基づいて、処置を作成するための処置作成計画を生成することと、を含む。

実施形態８４．処置作成計画に基づいて処置を作成することを更に含む、実施形態８３に記載の方法。

実施形態８５．方法は、複数の変異ペプチドを特徴付ける複数のバリアントコード配列を注意ベースの機械学習モデルに入力することであって、複数のバリアントコード配列の各バリアントコード配列が、対象からの疾患試料を処理することによって同定される、複数のバリアントコード配列を注意ベースの機械学習モデルに入力することと、対象の免疫タンパク質複合体（ＩＰＣ）について同定された免疫タンパク質複合体（ＩＰＣ）配列を注意ベースの機械学習モデルに入力することであって、注意ベースの機械学習モデルが、注意ベースの機械学習モデルの初期注意サブシステム内の第１の注意ブロックを使用して複数のバリアントコード配列を表す複数のバリアント表現と、初期注意サブシステム内の第２の注意ブロックを使用してＩＰＣ配列を表す免疫タンパク質複合体（ＩＰＣ）表現とを処理して、出力を生成するように構成され、出力が、対応する変異ペプチド－ＩＰＣ組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも１つを含む、免疫タンパク質複合体（ＩＰＣ）配列を注意ベースの機械学習モデルに入力することと、出力に基づいて生成されたレポートを受信することと、レポートに基づいて、対象の処置に使用するために複数の変異ペプチドのサブセットを選択することとを含む。

実施形態８６．方法は、変異ペプチドを特徴付けるペプチド配列を受信することであって、ペプチド配列が、対応する参照配列に対するバリアントを含む、変異ペプチドを特徴付けるペプチド配列を受信することと、主要組織適合遺伝子複合体（ＭＨＣ）について同定されたＭＨＣ配列を受信することと、注意ベースの機械学習モデル内の異なる処理経路を使用してペプチド配列及びＭＨＣ配列を処理して、出力を生成することであって、出力が変異ペプチドとＭＨＣの両方に関連する免疫学的活性に関する情報を提供する、処理して、出力を生成することと、出力に基づいてレポートを生成することとを含む。

実施形態８７．処理することが、注意ベースの機械学習モデル内のペプチド処理経路を介してペプチド配列を処理することであって、ペプチド処理経路が、第１の埋め込みブロックと、少なくとも１つの自己注意層を含む第１の注意ブロックとを含む、ペプチド配列を処理することと、

注意ベースの機械学習モデル内のＭＨＣ処理経路を介してＭＨＣ配列を処理することであって、ＭＨＣ処理経路が、第２の埋め込みブロック、及び少なくとも１つの自己注意層を含む第２の注意ブロックを含む、ＭＨＣ配列を処理することとを含む、実施形態８６に記載の方法。

実施形態８８．Ｔ細胞受容体（ＴＣＲ）について同定されたＴＣＲ配列を受信することを更に含み、処理することがが、注意ベースの機械学習モデル内のＴＣＲ処理経路を介してＴＣＲ配列を処理することであって、ＴＣＲ処理経路が、第３の埋め込みブロック、及び少なくとも１つの自己注意層を含む第３の注意ブロックを含む、ＴＣＲ配列を処理することを更に含む、実施形態８７に記載の方法。

実施形態８９．免疫学的活性が免疫応答を含み、情報が、変異ペプチドが免疫応答を誘発する能力に関する予測を含む、実施形態８６～８８のいずれか一項に記載の方法。

実施形態９０．処理することが、ペプチド処理経路を介してペプチド配列の変換ペプチド表現を生成することと、ＭＨＣ処理経路を介してＭＨＣ配列の変換ＭＨＣ表現を生成することと、変換ペプチド表現及び変換ＭＨＣ表現を使用して複合表現を生成することと、複合表現を処理して、出力を生成することとを含む、実施形態８６～８９のいずれか一項に記載の方法。

実施形態９１．免疫学的活性が、ＭＨＣへの変異ペプチドの結合を含み、出力が、変異ペプチドがＭＨＣに結合するかどうかに対応する第１の予測、又は結合に関連する親和性に対応する第２の予測のうちの少なくとも１つを含む、実施形態８６～９０のいずれか一項に記載の方法。

実施形態９２．レポートに基づいて、変異ペプチドを免疫療法の標的として含めることを決定することを更に含む、実施形態８６～９１のいずれか一項に記載の方法。

実施形態９３．免疫療法が、Ｔ細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー（ＮＫ）細胞療法からなる群から選択される、実施形態９２に記載の方法。

実施形態９４．レポートに基づいて、変異ペプチドを免疫療法の標的として含めることを決定することの少なくとも１つを更に含む、実施形態８６～９３のいずれか一項に記載の方法。

実施形態９５．免疫療法が、Ｔ細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー（ＮＫ）細胞療法からなる群から選択される、実施形態９４に記載の方法。

実施形態９６．レポートに基づいて、処置において、変異ペプチド、変異ペプチドの前駆体、変異ペプチドをコードする核酸、又は変異ペプチドを発現する複数の細胞のうちの少なくとも１つを含むと決定することと、処置を作成することと、更に含む、実施形態８６～９５のいずれか一項に記載の方法。

実施形態９７．対象を処置で処置することを更に含む、実施形態９６に記載の方法。

実施形態９８．変異ペプチドを特徴付けるペプチド配列が、対象からの疾患試料を配列決定することによって同定されたものであり、ペプチド配列が、対応する参照配列と比較して少なくとも１つの配列変化を有し、処置が、レポートに基づいて対象に対して設計される、実施形態８６～９７のいずれか一項に記載の方法。

実施形態９９．方法は、変異ペプチドを特徴付けるペプチド配列を受信することであって、ペプチド配列が、対応する参照配列に対するバリアントを含む、変異ペプチドを特徴付けるペプチド配列を受信することと、Ｔ細胞受容体（ＴＣＲ）について同定されたＴＣＲ配列を受信することと、注意ベースの機械学習モデル内の異なる処理経路を使用してペプチド配列及びＴＣＲ配列を処理して、出力を生成することであって、出力が変異ペプチドとＴＣＲの両方に関連する免疫学的活性に関する情報を提供する、処理して、出力を生成することと、出力に基づいてレポートを生成することとを含む。

実施形態１００．処理することが、注意ベースの機械学習モデル内のペプチド処理経路を介してペプチド配列を処理することであって、ペプチド処理経路が、第１の埋め込みブロックと、少なくとも１つの自己注意層を含む第１の注意ブロックとを含む、ペプチド配列を処理することと、注意ベースの機械学習モデル内のＴＣＲ処理経路を介してＴＣＲ配列を処理することであって、ＴＣＲ処理経路が、第１の埋め込みブロック及び第２の注意ブロックを含む、ＴＣＲ配列を処理することとを含む、実施形態９９に記載の方法。

実施形態１０１．主要組織適合遺伝子複合体（ＭＨＣ）について同定されたＭＨＣ配列を受信することを更に含み、処理することが、注意ベースの機械学習モデル内のＭＨＣ処理経路を介してＭＨＣ配列を処理することであって、ＭＨＣ処理経路が、第３の埋め込みブロック及びＭＨＣ第３ブロックを含む、ＭＨＣ配列を処理することを更に含む、実施形態１００に記載の方法。

実施形態１０２．免疫学的活性が免疫応答を含み、情報が、変異ペプチドが免疫応答を誘発する能力に関する予測を含む、実施形態９９～１０１のいずれか一項に記載の方法。

実施形態１０３．処理することが、ペプチド処理経路を介してペプチド配列の変換ペプチド表現を生成することと、ＴＣＲ処理経路を介してＴＣＲ配列の変換ＴＣＲ表現を生成することと、変換ペプチド表現及び変換ＴＣＲ表現を使用して複合表現を生成することと、複合表現を処理して、出力を生成することとを含む、実施形態９９～１０２のいずれか一項に記載の方法。

実施形態１０４．免疫学的活性が、ＭＨＣへの変異ペプチドの結合を含み、出力が、変異ペプチドがＭＨＣに結合するかどうかに対応する第１の予測、又は結合に関連する親和性に対応する第２の予測のうちの少なくとも１つを含む、実施形態９９～１０３のいずれか一項に記載の方法。

実施形態１０５．レポートに基づいて、変異ペプチドを免疫療法の標的として含めることを決定することを更に含む、実施形態９９～１０４のいずれか一項に記載の方法。

実施形態１０６．免疫療法が、Ｔ細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー（ＮＫ）細胞療法からなる群から選択される、実施形態１０５に記載の方法。

実施形態１０７．レポートに基づいて、変異ペプチドを免疫療法の標的として含めることを決定することの少なくとも１つを更に含む、実施形態９９～１０６のいずれか一項に記載の方法。

実施形態１０８．免疫療法が、Ｔ細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー（ＮＫ）細胞療法からなる群から選択される、実施形態１０７に記載の方法。

実施形態１０９．レポートに基づいて、処置において、変異ペプチド、変異ペプチドの前駆体、変異ペプチドをコードする核酸、又は変異ペプチドを発現する複数の細胞のうちの少なくとも１つを含むと決定することと、処置を作成することと、更に含む、実施形態９９～１０８のいずれか一項に記載の方法。

実施形態１１０．対象を処置で処置することを更に含む、実施形態１０９に記載の方法。

実施形態１１１．変異ペプチドを特徴付けるペプチド配列が、対象からの疾患試料を配列決定することによって同定されたものであり、ペプチド配列が、対応する参照配列と比較して少なくとも１つの配列変化を有し、処置が、レポートに基づいて対象に対して設計される、実施形態９９～１１０のいずれか一項に記載の方法。

実施形態１１２．１つ以上のデータプロセッサと、命令を含む非一時的コンピュータ可読記憶媒体が提供され、該命令が１つ以上のデータプロセッサ上で実行されると、１つ以上のデータプロセッサに、実施形態１～４９、７７～８１、８３、８５～９５、及び９９～１０８のいずれか一項を実行させる、命令を含む非一時的コンピュータ可読記憶媒体と、を備える、システムが提供される。

実施形態１１３．１つ以上のデータプロセッサに、実施形態１～４９、７７～８１、８３、８５～９５及び９９～１０８のいずれか一項を実行させるように構成された命令を含む非一時的機械可読記憶媒体に有形に具現化されたコンピュータプログラム製品が提供される。

ＩＸ．追加の検討
本開示のいくつかの実施形態は、１つ以上のデータプロセッサを備えるシステムを含む。いくつかの実施形態において、システムは、命令を含む非一時的コンピュータ可読記憶媒体であって、該命令が、１つ以上のデータプロセッサ上で実行されると、１つ以上のデータプロセッサに、本明細書に開示される１つ以上の方法の一部又は全部及び／又は１つ以上のプロセスの一部又は全部を実行させる、命令を含む非一時的コンピュータ可読記憶媒体を含む。本開示のいくつかの実施形態は、１つ以上のデータプロセッサに、本明細書に開示される１つ以上の方法の一部又は全部、及び／又は１つ以上のプロセスの一部又は全部を実行させるように構成された命令を含む、非一時的機械可読記憶媒体において有形に具現化されたコンピュータプログラム製品を含む。

説明は、好ましい例示的な実施形態のみを提供し、本開示の範囲、適用可能性又は構成を限定することを意図しない。むしろ、好ましい例示的な実施形態の説明は、様々な実施形態を実装するための可能な説明を当業者に提供する。添付の特許請求の範囲に記載の趣旨及び範囲から逸脱することなく、要素の機能及び配置に様々な変更を加えることができることが理解される。

実施形態の完全な理解を提供するために、以下の説明において具体的な詳細が与えられる。しかしながら、これらの具体的な詳細なしで実施形態が実施され得ることが理解されよう。例えば、回路、システム、ネットワーク、プロセス、及び他の構成要素は、実施形態を不必要に詳細に不明瞭にしないために、ブロック図形式の構成要素として示されてもよい。他の例では、実施形態を不明瞭にすることを避けるために、周知の回路、プロセス、アルゴリズム、構造、及び技術が不必要な詳細なしに示されてもよい。

Claims

ペプチドのセットを特徴付けるペプチド配列のセットにアクセスすることであって、前記ペプチド配列のセットの各ペプチド配列が、対象からの疾患試料を処理することによって同定されている、ペプチド配列のセットにアクセスすることと、
前記対象の免疫タンパク質複合体（ＩＰＣ）について同定された免疫タンパク質複合体（ＩＰＣ）配列にアクセスすることと、
注意ベースの機械学習モデルの初期注意サブシステム内の第１の注意ブロックを用いて前記ペプチド配列のセットを表すペプチド表現のセットと、前記初期注意サブシステム内の第２の注意ブロックを用いて前記ＩＰＣ配列を表す免疫タンパク質複合体（ＩＰＣ）表現とを処理して、出力を生成することであって、前記出力が、対応するペプチド－ＩＰＣ組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも１つを含む、処理して、出力を生成することと、
前記出力に基づいてレポートを生成することと
を含む、方法。
前記ペプチド配列のセットの少なくとも１つのペプチド配列が、対応する参照配列に関するバリアントを含むバリアントコード配列を含む、請求項１に記載の方法。
前記処理することが、
前記ペプチド配列のセットの対応するペプチド配列に対する前記ペプチド表現のセットのペプチド表現を受信することと、
前記第１の注意ブロックを介して前記ペプチド表現を変換ペプチド表現に変換することであって、前記第１の注意ブロックが注意サブブロックのセットを含み、前記注意サブブロックのセットの各注意サブブロックが自己注意層を含む、前記ペプチド表現を変換ペプチド表現に変換することと
を含む、請求項１又は２に記載の方法。
前記処理することが、
前記ＩＰＣ表現を受信することと、
前記第２の注意ブロックを介して前記ＩＰＣ表現を変換ＩＰＣ表現に変換することであって、前記第２の注意ブロックが注意サブブロックのセットを含み、前記注意サブブロックのセットの各注意サブブロックが自己注意層を含む、前記ＩＰＣ表現を変換ＩＰＣ表現に変換することと
を含む、請求項１～３のいずれか一項に記載の方法。
前記ペプチド表現の少なくとも一部が前記ペプチド配列中のモノマーに対応し、前記ＩＰＣ表現の少なくとも一部が前記ＩＰＣ配列中のモノマーに対応し、前記処理することが、
前記第１の注意ブロック及び第１の重みのセットを使用して、前記ペプチド表現に基づいて変換ペプチド表現を生成することと、
前記第２の注意ブロック及び第２の重みのセットを使用して、前記ＩＰＣ表現に基づいて変換ＩＰＣ表現を生成することと、
前記変換ペプチド表現及び前記変換ＭＨＣ表現を使用して、複合表現を生成することと
を含む、請求項１～４のいずれか一項に記載の方法。
前記ペプチド配列のセットのペプチド配列を埋め込んで、前記ペプチド配列についての埋め込みペプチド表現を生成することと、
前記ペプチド配列についての前記埋め込みペプチド表現を位置的にコードして、前記ペプチド配列を表現する前記ペプチド表現のセットのペプチド表現を生成することと
を更に含む、請求項１～５のいずれか一項に記載の方法。
前記第１の注意ブロックが注意サブブロックのセットを備え、
前記注意サブブロックのセットの各注意サブブロックが、少なくとも１つの自己注意層を備えるニューラルネットワークを含む、請求項１～６のいずれか一項に記載の方法。
前記第２の注意ブロックが注意サブブロックのセットを備え、
前記注意サブブロックのセットの各注意サブブロックが、少なくとも１つの自己注意層を備えるニューラルネットワークを含む、請求項１～７のいずれか一項に記載の方法。
前記第１の注意ブロックが第１の複数の注意サブブロックを備え、
前記第２の注意ブロックが第１の複数の注意サブブロックを備え、
前記第１の注意サブブロックのセット及び前記第２の注意サブブロックのセットの各注意サブブロックが、少なくとも１つの自己注意層を備えるニューラルネットワークを含む、請求項１～８のいずれか一項に記載の方法。
前記ペプチド表現のセットのペプチド表現が、前記第１の注意ブロックを使用して処理された集約表現の第１の部分を形成し、
前記集約表現の第２の部分が、Ｎ－隣接配列又はＣ－隣接配列のうちの少なくとも１つを表す、請求項１～９のいずれか一項に記載の方法。
前記ペプチド配列のセットのペプチド配列が、集約配列の第１の部分を形成し、
前記集約配列の第２の部分が、Ｎ－隣接配列又はＣ－隣接配列のうちの少なくとも１つを含み、
前記注意ベースの機械学習モデルが、前記集約配列を受信し、処理して、前記ペプチド配列に対応する前記ペプチド表現のセットのペプチド表現を含む集約表現を形成する表現ブロックを含み、前記集約表現が、前記第１の注意ブロックによって処理される、請求項１～１０のいずれか一項に記載の方法。
前記ＩＰＣ配列を埋め込んで、前記ＩＰＣ配列の埋め込みＩＰＣ表現を生成することと、
前記ＩＰＣ配列の前記埋め込みＩＰＣ表現を位置的にコードして、前記ＩＰＣ表現を生成することと
を更に含む、請求項１～１１のいずれか一項に記載の方法。
前記注意ベースの機械学習モデルが、複数の自己注意層と、前記複数の自己注意層の各々について、対応する下流フィードフォワードニューラルネットワークとを含む、請求項１～１２のいずれか一項に記載の方法。
前記第１の注意ブロックが、前記ペプチド表現のセットのペプチド表現を受信し、処理して、変換ペプチド表現を生成するように構成された第１のニューラルネットワークを含み、
前記第２の注意ブロックが、前記ＩＰＣ表現を受信し、処理して変換ＩＰＣ表現を生成するように構成された第２のニューラルネットワークを含み、
前記第１のニューラルネットワーク及び前記第２のニューラルネットワークのそれぞれが、少なくとも１つの自己注意層を含み、
前記注意ベースの機械学習モデルが、前記変換ペプチド表現及び前記変換ＩＰＣ表現を使用して複合表現を生成するように構成される、請求項１～１３のいずれか一項に記載の方法。
前記注意ベースの機械学習モデルが、
前記複合表現を受信し、処理するように構成されたニューラルネットワークを含む複合注意ブロックを更に含み、前記ニューラルネットワークが、自己注意層を備える、請求項１～１４のいずれか一項に記載の方法。
前記注意ベースの機械学習モデルが、
注意サブブロックのセットを含む複合注意ブロックを更に含み、前記注意サブブロックのセットの各注意サブブロックが、少なくとも１つの自己注意層を備えるニューラルネットワークを含む、請求項１～１５のいずれか一項に記載の方法。
前記ＩＰＣが主要組織適合遺伝子複合体（ＭＨＣ）を含み、前記対応するペプチド－ＩＰＣ組み合わせが前記ペプチドのセットのペプチドと前記ＭＨＣとを含み、
前記対応するペプチド－ＩＰＣ組み合わせについての前記相互作用親和性予測が、前記ペプチドと前記ＭＨＣとの間の結合親和性を予測し、
前記対応するペプチド－ＩＰＣ組み合わせについての前記相互作用予測が、前記ＭＨＣが細胞表面に前記ペプチドを提示するかどうかを予測する、請求項１～１６のいずれか一項に記載の方法。
前記注意ベースの機械学習モデルが、複数の訓練ペプチド配列及び訓練ＭＨＣ配列のセットについての実験的相互作用親和性データ又は実験的相互作用データのうちの少なくとも１つを含む訓練データセットを使用して訓練される、請求項１～１７のいずれか一項に記載の方法。
前記ＩＰＣがＴ細胞受容体（ＴＣＲ）であり、対応する前記ペプチド－ＩＰＣの対が、前記ペプチドのセットのペプチドと、前記ＴＣＲ又は前記ＴＣＲと主要組織適合遺伝子複合体（ＭＨＣ）のいずれかとを含み、
対応するペプチド－ＩＰＣ組み合わせの前記免疫原性予測が、前記ＴＣＲに関する前記ペプチドの免疫原性を予測し、
前記注意ベースの機械学習モデルが、複数の訓練ペプチド配列及び訓練ＴＣＲ配列のセットについての実験的免疫原性データを含む訓練データセットを使用して訓練される、請求項１～１８のいずれか一項に記載の方法。
前記訓練データセットが複数の訓練データ要素を含み、前記複数の訓練データ要素のうちの少なくとも１つの訓練データ要素が、
前記ペプチドのセットに含まれない訓練ペプチドを特徴付ける訓練ペプチド配列、
前記ＩＰＣとは異なる訓練ＩＰＣを特徴付ける訓練ＩＰＣ配列、及び
前記訓練ペプチドと前記訓練ＩＰＣとの間の相互作用親和性指標を特定する実験ベースの結果であって、前記相互作用親和性指標が、アッセイ又はバイオセンサベースの方法論を使用して検出された、実験ベースの結果
のうちの少なくとも１つを含む、請求項１～１９のいずれか一項に記載の方法。
前記訓練データセットが複数の訓練データ要素を含み、前記複数の訓練データ要素のうちの少なくとも１つの訓練データ要素が、
前記ペプチドのセットに含まれない訓練ペプチドを特徴付ける訓練ペプチド配列、
前記ＩＰＣとは異なる訓練ＭＨＣを特徴付ける訓練ＭＨＣ配列、及び
前記訓練ペプチドが前記訓練ＭＨＣによって細胞表面に提示されたかどうかを特定する相互作用指標を含む実験ベースの結果であって、免疫沈降又は質量分析の少なくとも１つが前記相互作用指標を決定するために使用された、実験ベースの結果
のうちの少なくとも１つを含む、請求項１～２０のいずれか一項に記載の方法。
前記処理工程の前に、複数のペプチド－ＩＰＣ組み合わせについての結合親和性、相互作用指標、又は免疫原性指標のうちの少なくとも１つを含む訓練データセットを使用して、前記注意ベースの機械学習モデルを訓練することを更に含み、
前記訓練データセットが、複数の訓練ペプチド配列と、複数の訓練主要組織適合遺伝子複合体（ＭＨＣ）配列又は複数の訓練Ｔ細胞受容体（ＴＣＲ）配列のうちの少なくとも１つとを含む、請求項１～２１のいずれか一項に記載の方法。
前記処理することが、
前記第１の注意ブロックを使用して前記ペプチド表現のセットを処理し、前記第２の注意ブロックを使用して前記ＩＰＣ表現を処理して、ペプチド－ＩＰＣ組み合わせのセットについての複合表現のセットを生成することと、
前記複合表現のセットを処理して、結果のセットを生成することと、
ペプチド－ＩＰＣ組み合わせのセットのサブセットを選択することであって、前記ペプチド－ＩＰＣ組み合わせのセットの残りのサブセットと比較して、選択された相互作用のセットが生じる可能性が前記サブセットの各ペプチド－ＩＰＣ組み合わせでより高い、ペプチド－ＩＰＣ組み合わせのセットのサブセットを選択することと
を含み、
前記レポートが、前記サブセット内の各ペプチドを同定する、請求項１～２２のいずれか一項に記載の方法。
前記ペプチドのセットの各ペプチドが、ペプチド－ＩＰＣ組み合わせのセットを形成するために使用され、
前記注意ベースの機械学習モデルが、前記ペプチド－ＩＰＣ組み合わせのセットの各ペプチド－ＩＰＣ組み合わせについての前記免疫原性予測を生成するように構成され、前記ペプチド－ＩＰＣ組み合わせのセットのペプチド－ＩＰＣ組み合わせについての前記免疫原性予測が、前記ペプチド－ＩＰＣ組み合わせにおけるペプチドの腫瘍特異的免疫原性の予測である、請求項１～２３のいずれか一項に記載の方法。
前記レポートが、前記ペプチドのセットの残りの部分と比較して、腫瘍特異的免疫原性が増加した前記ペプチドのセットからペプチドのサブセットを同定する、請求項１～２４のいずれか一項に記載の方法。
前記ＩＰＣが主要組織適合遺伝子複合体（ＭＨＣ）であり、
前記ペプチドのセットの各ペプチドが、ペプチド－ＭＨＣ組み合わせのセットを形成するために使用され、
前記注意ベースの機械学習モデルが、前記ペプチド－ＭＨＣ組み合わせのセットの各ペプチド－ＭＨＣ組み合わせについての前記相互作用予測を生成するように構成され、前記ペプチド－ＭＨＣ組み合わせのセットのペプチド－ＭＨＣ組み合わせについての前記相互作用予測が、前記ペプチド－ＭＨＣ組み合わせ中のペプチドが細胞表面に前記ＭＨＣによって提示されるかどうかの予測である、請求項１～２５のいずれか一項に記載の方法。
前記レポートが、前記ペプチドのセットの残りの部分と比較して、前記ＭＨＣによる提示の可能性が高い前記ペプチドのセットからペプチドのサブセットを同定する、請求項２６に記載の方法。
前記ペプチド配列のセットのペプチド配列が、変異ペプチドを特徴付けるバリアントコード配列であり、前記バリアントコード配列が、
前記変異ペプチドのＮ末端の配列を同定する第１の部分と、
前記変異ペプチドのエピトープの配列を同定する第２の部分と
を含み、
前記処理することが、
前記初期注意サブシステムの第１の自己注意層を使用して、前記バリアントコード配列の前記第１の部分の第１の表現を処理することと、
前記初期注意サブシステムの第２の自己注意層を使用して、前記バリアントコード配列の前記第２の部分の第２の表現を処理することと
を含む、請求項１～２７のいずれか一項に記載の方法。
前記第１の表現及び前記第２の表現が、前記第１の注意ブロック内で処理される、請求項２８に記載の方法。
前記注意ベースの機械学習モデルが、１つ以上の変換器エンコーダを含み、前記１つ以上の変換器エンコーダの各々が、自己注意層を含む、請求項１～２９のいずれか一項に記載の方法。
前記ＩＰＣ配列及び前記ペプチド配列のセットのそれぞれが、アミノ酸識別子の順序付きセットを含む、請求項１～３０のいずれか一項に記載の方法。
前記ＩＰＣ配列が、前記疾患試料を使用して同定される、請求項１～３１のいずれか一項に記載の方法。
前記ＩＰＣ配列が、前記対象からの生物学的試料を使用して同定される、請求項１～３２のいずれか一項に記載の方法。
前記疾患試料ががん細胞を含む、請求項１～３３のいずれか一項に記載の方法。
前記対象の前記ＩＰＣが主要組織適合遺伝子複合体（ＭＨＣ）を含み、
前記ＩＰＣ配列がＭＨＣ配列を含み、
前記ＩＰＣ表現がＭＨＣ表現を含む、請求項１～３４のいずれか一項に記載の方法。
前記ＭＨＣがＭＨＣクラスＩ分子を含む、請求項３５に記載の方法。
前記ＭＨＣがＭＨＣクラスＩＩ分子を含む、請求項３５に記載の方法。
前記対象の前記ＩＰＣがＴ細胞受容体（ＴＣＲ）を含み
前記ＩＰＣ配列がＴＣＲ配列を含み、
前記ＩＰＣ表現がＴＣＲ表現を含む、請求項１～３５のいずれか一項に記載の方法。
前記疾患試料が組織を含む、請求項１～３８のいずれか一項に記載の方法。
前記ペプチドのセットの少なくとも１つのペプチドがネオ抗原である、請求項１～３９のいずれか一項に記載の方法。
前記ペプチド配列のセットの少なくとも１つのペプチド配列が、前記疾患試料に由来するゲノム配列である、請求項１～４０のいずれか一項に記載の方法。
少なくとも１つの前記バリアントコード配列のセットのそれぞれが、前記疾患試料のＲＮＡ配列に基づく、請求項１～４１のいずれか一項に記載の方法。
前記対応するペプチド－ＩＰＣ組み合わせが、前記ペプチドのセットからのペプチド及び前記ＩＰＣを含み、
前記ＩＰＣが主要組織適合遺伝子複合体（ＭＨＣ）であり、
前記相互作用親和性予測が、前記ペプチドと前記ＭＨＣとの間の結合に対する結合親和性の予測であり、
前記相互作用予測が、細胞表面における前記ＭＨＣによる前記ペプチドの提示の予測である、請求項１～４２のいずれか一項に記載の方法。
ユーザによって入力された入力データを受信することであって、前記入力データが前記対象に対応する、入力データを受信することを更に含み、
前記ペプチド配列のセット及び前記ＩＰＣ配列が、前記入力データの受信に応答して、データストアからの検索を介してアクセスされ、
前記レポートが、前記対象の医学的症状を処置するための個別化ワクチンに含めるため、前記ペプチドのセットからペプチドのサブセットを同定する、請求項１～４３のいずれか一項に記載の方法。
前記個別化ワクチンを含む前記対象への処置勧告を生成することを更に含む、請求項４４に記載の方法。
ユーザによって入力された入力データを受信することであって、前記入力データが前記対象に対応し、
前記ペプチド配列のセット及び前記ＩＰＣ配列が、前記入力データの受信に応答して、データストアからの検索を介してアクセスされる、入力データを受信することと、
前記レポートに基づいて、個別化ワクチンに含めるための処置ペプチドのセットを決定することと、
前記処置ペプチドのセットを含む前記個別化ワクチンの製造を容易にする動作を開始することと
を更に含む、請求項１～４５のいずれか一項に記載の方法。
前記動作を開始することが、
前記個別化ワクチンの製造に関与するコンピュータ化されたプロセスをトリガする警告を生成することを含む、請求項４６に記載の方法。
前記処理することが、
前記注意ベースの機械学習モデル内の埋め込みブロックから、複数の要素を含む表現を受信することであって、
前記表現が、前記ペプチド配列のセット中のペプチド配列を表す前記ペプチド表現のセットのペプチド表現、又は前記ＩＰＣ配列を表す前記ＩＰＣ表現のいずれかであり、
前記複数の要素のデータセット内の各要素が、前記ペプチド配列又は前記ＩＰＣ配列のいずれかにおけるモノマーに対応する、複数の要素を含む表現を受信することと、
前記複数の要素の各要素について、前記注意ベースの機械学習モデルの自己注意層に関連付けられたキー重みのセット、値重みのセット、及びクエリ重みのセットに基づいて、それぞれキーベクトル、値ベクトル、及びクエリベクトルを決定することと、
前記複数の要素の変換を実行して複数の修正要素を形成することであって、前記変換が、前記複数の要素について生成された注意スコアと、前記複数の要素のそれぞれについて決定された前記値ベクトルとを使用して実行される、複数の修正要素を形成することと、
前記複数の修正要素に基づいて前記出力を生成することと
を含む、請求項１～４７のいずれか一項に記載の方法。
前記複数の要素のうちの選択された要素に対して前記変換を実行することが、
前記要素の前記キーベクトル及び前記クエリベクトルを使用して前記選択された要素の注意スコアを決定することであって、前記選択された要素以外の前記複数の要素の残りの部分が残りの要素のセットを形成する、前記選択された要素の注意スコアを決定することと、
前記残りの要素のキーベクトル及び前記選択された要素の前記クエリベクトルを使用して、前記残りの要素のセットの残りの要素のそれぞれについて追加の注意スコアを決定して、追加の注意スコアのセットを形成することと、
前記注意スコアと、前記追加の注意スコアのセットと、前記複数の要素の各要素についての前記値ベクトルとを使用して、修正要素を生成することと
を含む、請求項４８に記載の方法。
ディスプレイシステム上のグラフィカルユーザインターフェース上に前記レポートを表示することを更に含む、請求項１～４９のいずれか一項に記載の方法。
前記処理することが、第１のコンピューティングプラットフォーム上で実行され、
有線通信リンク又は無線通信リンクのうちの少なくとも１つを含む通信リンクのセットにより第２のコンピューティングプラットフォームに前記レポートを送ることを更に含む、請求項１～５０のいずれか一項に記載の方法。
前記レポートに基づいて、前記ペプチドのセットの少なくとも１つのペプチドを免疫療法の標的として含むことを決定することを更に含む、請求項１～５１のいずれか一項に記載の方法。
前記免疫療法が、Ｔ細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー（ＮＫ）細胞療法からなる群から選択される、請求項５２に記載の方法。
前記レポートに基づいて、前記ペプチドのセットの少なくとも１つのペプチドを免疫療法の標的として排除することを決定することを更に含む、請求項１～５３のいずれか一項に記載の方法。
前記免疫療法が、Ｔ細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー（ＮＫ）細胞療法からなる群から選択される、請求項５４に記載の方法。
前記ＩＰＣがヒト白血球抗原（ＨＬＡ）分子である、請求項１～５５のいずれか一項に記載の方法。
前記対象からの前記疾患試料を配列決定することと、
前記対象からの前記疾患試料の前記配列決定に基づいて前記ペプチド配列のセットを定義することと、
前記レポートに基づいて、前記ペプチド配列のセットのサブセットを同定することと、
前記ペプチドのセットの前記サブセットに含まれる少なくとも１つのペプチドをコードするｍＲＮＡを合成することと、
前記ｍＲＮＡを脂質と複合体化してｍＲＮＡ－リポプレックス処置を生成することと、
前記ｍＲＮＡ－リポプレックス処置を前記対象に投与することと
を含む、請求項１～５６のいずれか一項に記載の方法。
ワクチンであって、
１つ以上のペプチド、
前記１つ以上のペプチドをコードする複数の核酸、又は
前記１つ以上のペプチドを発現する複数の細胞
を含み、
前記１つ以上のペプチドが請求項１～４９のいずれか一項に記載の方法によって生成された前記レポートに基づいて前記ペプチドのセットの中から選択され、前記１つ以上のペプチドが前記ペプチドのセットの不完全なサブセットである、ワクチン。
前記ワクチンが、前記複数の核酸を含むＤＮＡ又は前記複数の核酸を含むＲＮＡのいずれかを含む、請求項５８に記載のワクチン。
前記ワクチンが、前記複数の核酸を含むｍＲＮＡを含む、請求項５８又は請求項５９に記載のワクチン。
前記ワクチンが腫瘍ワクチンである、請求項５８～６０のいずれか一項に記載のワクチン。
ワクチンを製造する方法であって、
１つ以上のペプチド、
前記１つ以上のペプチドをコードする複数の核酸、又は
前記１つ以上のペプチドを発現する複数の細胞を含むワクチンを生成することを含み、
前記１つ以上のペプチドが請求項１～４９のいずれか一項記載の方法によって生成された前記レポートに基づいて前記ペプチドのセットの中から選択され、前記１つ以上のペプチドが前記ペプチドのセットの不完全なサブセットである、方法。
前記ワクチンが、前記複数の核酸を含むＤＮＡ、前記複数の核酸を含むＲＮＡ、又は前記複数の核酸を含むｍＲＮＡを含む、請求項６２に記載の方法。
前記１つ以上のペプチド内のアミノ酸に基づいて、前記１つ以上のペプチドをコードする前記複数の核酸を同定することを更に含み、前記ワクチンが前記複数の核酸を含む、請求項６２又は請求項６３に記載の方法。
前記ワクチンが腫瘍ワクチンである、請求項６２～６４のいずれか一項に記載の方法。
前記１つ以上のペプチドの各ペプチドについて、前記腫瘍ワクチンが、各ペプチドをコードするヌクレオチド配列、各ペプチドに対応するアミノ酸配列、各ペプチドに対応するＲＮＡ、各ペプチドに対応するＤＮＡ、各ペプチドに対応する細胞、各ペプチドに対応するプラスミド、又は各ペプチドに対応するベクターのうちの少なくとも１つを含む、請求項６５に記載の方法。
前記ワクチンが、賦形剤又はアジュバントの少なくとも１つを更に含む、請求項６２～６６のいずれか一項に記載の方法。
前記ワクチンが、ＲＮＡ分子であって、５’→３’方向に、
５’キャップと、
５’非翻訳領域（ＵＴＲ）と、
分泌シグナルペプチドをコードするポリヌクレオチド配列と、
前記１つ以上のペプチドをコードするポリヌクレオチド配列と、
主要組織適合遺伝子複合体（ＭＨＣ）分子の膜貫通ドメイン及び細胞質ドメインの少なくとも一部をコードするポリヌクレオチド配列と、
３’ＵＴＲであって、
Ａｍｉｎｏ－ＴｅｒｍｉｎａｌＥｎｈａｎｃｅｒｏｆＳｐｌｉｔ（ＡＥＳ）ｍＲＮＡの３’非翻訳領域又はその断片、及び
ミトコンドリアにコードされた１２ＳＲＮＡの非コードＲＮＡ又はその断片を含む、３’ＵＴＲと、
ポリ（Ａ）配列と
を含むＲＮＡ分子を含む、請求項６２～６７のいずれか一項に記載の方法。
請求項１～４９のいずれか一項記載の方法によって生成された前記レポートに基づいて前記ペプチドのセットの中から選択される１つ以上のペプチドを含み、前記１つ以上のペプチドが前記ペプチドのセットの不完全なサブセットである、医薬組成物。
請求項１～４９のいずれか一項記載の方法によって生成された前記レポートに基づいて前記ペプチドのセットの中から選択された１つ以上のペプチドをコードする核酸配列を含み、前記１つ以上のペプチドが前記ペプチドのセットの不完全なサブセットである、医薬組成物。
請求項１～４９のいずれか一項に記載の方法によって生成された前記レポートに基づいて同定された、免疫原性ペプチド。
請求項１～４９のいずれか一項に記載の方法によって生成された前記レポートに基づいて同定された、核酸配列。
前記核酸配列がＤＮＡ配列を含む、請求項７２に記載の核酸配列。
前記核酸配列がＲＮＡ配列を含む、請求項７２又は請求項７３に記載の核酸配列。
前記核酸配列がｍＲＮＡ配列を含む、請求項７２～７４のいずれか一項に記載の核酸配列。
対象を処置する方法であって、請求項１～４９のいずれか一項に記載の方法によって生成された前記レポートに基づいて同定された１つ以上のペプチド、１つ以上の医薬組成物、又は１つ以上の核酸配列の少なくとも１つを投与することを含む、方法。
対象から得られた生物学的試料のセットを処理して、ペプチドのセットを特徴付けるペプチド配列のセットを生成することと、
前記対象から得られた前記生物学的試料のセットを処理して、前記対象の免疫タンパク質複合体（ＩＰＣ）について同定された免疫タンパク質複合体（ＩＰＣ）配列を生成することと、
注意ベースの機械学習モデルの初期注意サブシステム内の第１の注意ブロックを使用して、前記ペプチド配列のセットを表すペプチド表現のセットを生成することと、
前記初期注意サブシステム内の第２の注意ブロックを使用して、前記ＩＰＣ配列を表す免疫タンパク質複合体（ＩＰＣ）表現を生成することと、
前記ペプチド表現のセット及び前記ＩＰＣ表現を処理して、出力を生成することであって、前記出力が、対応するペプチド－ＩＰＣ組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも１つを含み、前記対応するペプチド－ＩＰＣ組み合わせが、前記ペプチドのセットのペプチドを含む、処理して、出力を生成することと
を含む、方法。
前記対象から得られた生物学的試料のセットを処理して、ペプチド配列のセットを生成することが、
前記対象から得られた前記生物学的試料のセット中の疾患試料を処理して、前記ペプチド配列のセットを生成することを含む、請求項７７に記載の方法。
前記対象から前記生物学的試料のセットを得ることを更に含み、前記生物学的試料のセットが疾患試料を含む、請求項７７又は請求項７８に記載の方法。
前記出力に基づいてレポートを生成することを更に含む、請求項７７～７９のいずれか一項に記載の方法。
ユーザ装置において、対象のための個別化ワクチンを設計する要求を受信することと、
前記ユーザ装置から、遠隔システムに通信を送信することであって、前記通信が前記対象の識別子を含み、前記遠隔システムが、
ペプチドのセットを特徴付けるペプチド配列のセットにアクセスすることであって、前記ペプチド配列のセットの各ペプチド配列が、対象からの疾患試料を処理することによって同定されている、ペプチド配列のセットにアクセスするように構成され、かつ
前記対象の免疫タンパク質複合体（ＩＰＣ）について同定された免疫タンパク質複合体（ＩＰＣ）配列にアクセスするように構成され；
注意ベースの機械学習モデルの初期注意サブシステム内の第１の注意ブロックを用いて前記ペプチド配列のセットを表すペプチド表現のセットと、前記初期注意サブシステム内の第２の注意ブロックを用いて前記ＩＰＣ配列を表す免疫タンパク質複合体（ＩＰＣ）表現とを処理して出力を生成することであって、前記出力が、対応するペプチド－ＩＰＣ組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも１つを含む、処理して出力を生成するように構成され；かつ
前記出力に基づいてレポートを生成するように構成され；かつ
前記レポートを前記ユーザ装置に送信するように構成される、遠隔システムに通信を送信することと、
前記ユーザ装置において、前記レポートを受信することと
を含む、方法。
前記対象から疾患試料を収集することと、
クロマトグラフィー又は質量分析の少なくとも１つを使用して、前記疾患試料中のＭＨＣ分子から前記ペプチドのセットを含む複数のペプチドを溶出させることと、
前記ペプチドのセットを配列決定して、初期配列のセットを生成することと、
前記初期配列のセットの各初期配列を参照配列と比較することと、
前記比較に基づいて、前記ペプチド配列のセットを定義することであって、前記ペプチド配列のセット内の各ペプチド配列が、前記参照配列に対するバリアントを含むバリアントコード配列である、前記ペプチド配列のセットを定義することと
を更に含む、請求項８１に記載の方法。
対象に対する処置を作成するための方法であって、前記方法が、
コンピューティングデバイスからレポートを受信することであって、前記コンピューティングデバイスが、
ペプチドのセットを特徴付けるペプチド配列のセットにアクセスすることであって、前記ペプチド配列のセットの各ペプチド配列が、対象からの疾患試料を処理することによって同定されている、ペプチド配列のセットにアクセスするように構成され、かつ
前記対象の免疫タンパク質複合体（ＩＰＣ）について同定された免疫タンパク質複合体（ＩＰＣ）配列にアクセスするように構成され；
注意ベースの機械学習モデルの初期注意サブシステム内の第１の注意ブロックを用いて前記ペプチド配列のセットを表すペプチド表現のセットと、前記初期注意サブシステム内の第２の注意ブロックを用いて前記ＩＰＣ配列を表す免疫タンパク質複合体（ＩＰＣ）表現とを処理して出力を生成することであって、前記出力が、対応するペプチド－ＩＰＣ組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも１つを含む、処理して出力を生成するように構成され；かつ
前記出力に基づいてレポートを生成するように構成される、レポートを受信することと、
前記レポートに基づいて、前記処置を作成するための処置作成計画を生成することと、を含む、方法。
前記処置作成計画に基づいて前記処置を作成することを更に含む、請求項８３に記載の方法。
複数の変異ペプチドを特徴付ける複数のバリアントコード配列を注意ベースの機械学習モデルに入力することであって、前記複数のバリアントコード配列の各バリアントコード配列が、対象からの疾患試料を処理することによって同定されている、複数のバリアントコード配列を注意ベースの機械学習モデルに入力することと、
前記対象の免疫タンパク質複合体（ＩＰＣ）について同定された免疫タンパク質複合体（ＩＰＣ）配列を前記注意ベースの機械学習モデルに入力することであって、
前記注意ベースの機械学習モデルが、注意ベースの機械学習モデルの初期注意サブシステム内の第１の注意ブロックを使用して前記複数のバリアントコード配列を表す複数のバリアント表現と、前記初期注意サブシステム内の第２の注意ブロックを使用して前記ＩＰＣ配列を表す免疫タンパク質複合体（ＩＰＣ）表現とを処理して、出力を生成するように構成され、
前記出力が、対応する変異ペプチド－ＩＰＣ組み合わせについての相互作用予測、相互作用親和性予測、又は免疫原性予測のうちの少なくとも１つを含む、免疫タンパク質複合体（ＩＰＣ）配列を前記注意ベースの機械学習モデルに入力することと、
前記出力に基づいて生成されたレポートを受信することと、
前記レポートに基づいて、前記対象の処置に使用するために前記複数の変異ペプチドのサブセットを選択することと
を含む、方法。
変異ペプチドを特徴付けるペプチド配列を受信することであって、前記ペプチド配列が、対応する参照配列に関するバリアントを含む、ペプチド配列を受信することと、
主要組織適合遺伝子複合体（ＭＨＣ）について同定されたＭＨＣ配列を受信することと、
前記ペプチド配列及び前記ＭＨＣ配列を、注意ベースの機械学習モデル内の異なる処理経路を用いて処理して、出力を生成することであって、
前記出力が、前記変異ペプチド及び前記ＭＨＣの両方に関連する免疫学的活性に関する情報を提供する、処理して、出力を生成することと、
前記出力に基づいてレポートを生成することと
を含む、方法。
前記処理することが、
前記注意ベースの機械学習モデル内のペプチド処理経路を介して前記ペプチド配列を処理することであって、前記ペプチド処理経路が、第１の埋め込みブロック、及び少なくとも１つの自己注意層を含む第１の注意ブロックを含む、前記ペプチド配列を処理することと、
前記注意ベースの機械学習モデル内のＭＨＣ処理経路を介して前記ＭＨＣ配列を処理することであって、前記ＭＨＣ処理経路が、第２の埋め込みブロック、及び少なくとも１つの自己注意層を含む第２の注意ブロックを含む、前記ＭＨＣ配列を処理することと
を含む、請求項８６に記載の方法。
Ｔ細胞受容体（ＴＣＲ）について同定されたＴＣＲ配列を受信することを更に含み、
前記処理することが、
前記注意ベースの機械学習モデル内のＴＣＲ処理経路を介して前記ＴＣＲ配列を処理することであって、前記ＴＣＲ処理経路が、第３の埋め込みブロック、及び少なくとも１つの自己注意層を含む第３の注意ブロックを含む、前記ＴＣＲ配列を処理することを更に含む、請求項８７に記載の方法。
前記免疫学的活性が免疫応答を含み、前記情報が、前記変異ペプチドが前記免疫応答を誘発する能力に関する予測を含む、請求項８６～８８のいずれか一項に記載の方法。
前記処理することが、
前記ペプチド処理経路を介して前記ペプチド配列の変換ペプチド表現を生成することと、
前記ＭＨＣ処理経路を介して前記ＭＨＣ配列の変換ＭＨＣ表現を生成することと、
前記変換ペプチド表現及び前記変換ＭＨＣ表現を使用して複合表現を生成することと、
前記複合表現を処理して、前記出力を生成することと
を含む、請求項８６～８９のいずれか一項に記載の方法。
前記免疫学的活性が、前記ＭＨＣへの前記変異ペプチドの結合を含み、前記出力が、前記変異ペプチドが前記ＭＨＣに結合するかどうかに対応する第１の予測、又は前記結合に関連する親和性に対応する第２の予測のうちの少なくとも１つを含む、請求項８６～９０のいずれか一項に記載の方法。
前記レポートに基づいて、前記変異ペプチドを免疫療法の標的として含めることを決定することを更に含む、請求項８６～９１のいずれか一項に記載の方法。
前記免疫療法が、Ｔ細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー（ＮＫ）細胞療法からなる群から選択される、請求項９２に記載の方法。
前記レポートに基づいて、前記変異ペプチドを免疫療法の標的として排除することを決定することの少なくとも１つを更に含む、請求項８６～９３のいずれか一項に記載の方法。
前記免疫療法が、Ｔ細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー（ＮＫ）細胞療法からなる群から選択される、請求項９４に記載の方法。
前記レポートに基づいて、処置において、前記変異ペプチド、前記変異ペプチドの前駆体、前記変異ペプチドをコードする核酸、又は前記変異ペプチドを発現する複数の細胞のうちの少なくとも１つを含むと決定することと、
前記処置を作成することと
を更に含む、請求項８６～９５のいずれか一項に記載の方法。
前記処置で対象を処置することを更に含む、請求項９６に記載の方法。
前記変異ペプチドを特徴付ける前記ペプチド配列が、対象からの疾患試料を配列決定することによって同定されたものであり、前記ペプチド配列が、対応する参照配列と比較して少なくとも１つの配列変化を有し、処置が、前記レポートに基づいて前記対象に対して設計される、請求項８６～９７のいずれか一項に記載の方法。
変異ペプチドを特徴付けるペプチド配列を受信することであって、前記ペプチド配列が、対応する参照配列に関するバリアントを含む、ペプチド配列を受信することと、
Ｔ細胞受容体（ＴＣＲ）について同定されたＴＣＲ配列を受信することと、
前記ペプチド配列及び前記ＴＣＲ配列を、注意ベースの機械学習モデル内の異なる処理経路を用いて処理して、出力を生成することであって、
前記出力が、前記変異ペプチドと前記ＴＣＲの両方に関連する免疫学的活性に関する情報を提供する、処理して、出力を生成することと、
前記出力に基づいてレポートを生成することと
を含む、方法。
前記処理することが、
前記注意ベースの機械学習モデル内のペプチド処理経路を介して前記ペプチド配列を処理することであって、前記ペプチド処理経路が、第１の埋め込みブロック及び第１の注意ブロックを含む、前記ペプチド配列を処理することと、
前記注意ベースの機械学習モデル内のＴＣＲ処理経路を介して前記ＴＣＲ配列を処理することであって、前記ＴＣＲ処理経路が、第２の埋め込みブロック及び第２の注意ブロックを含む、前記ＴＣＲ配列を処理することと
を含む、請求項９９に記載の方法。
主要組織適合遺伝子複合体（ＭＨＣ）について同定されたＭＨＣ配列を受信することを更に含み、
前記処理することが、
前記注意ベースの機械学習モデル内のＭＨＣ処理経路を介して前記ＭＨＣ配列を処理することであって、前記ＭＨＣ処理経路が、第３の埋め込みブロック及びＭＨＣ第３ブロックを含む、前記ＭＨＣ配列を処理することを更に含む、請求項１００に記載の方法。
前記免疫学的活性が免疫応答を含み、前記情報が、前記変異ペプチドが前記免疫応答を誘発する能力に関する予測を含む、請求項９９～１０１のいずれか一項に記載の方法。
前記処理することが、
前記ペプチド処理経路を介して前記ペプチド配列の変換ペプチド表現を生成することと、
前記ＴＣＲ処理経路を介して前記ＴＣＲ配列の変換ＴＣＲ表現を生成することと、
前記変換ペプチド表現及び前記変換ＴＣＲ表現を使用して複合表現を生成することと、
前記複合表現を処理して、前記出力を生成することと
を含む、請求項９９～１０２のいずれか一項に記載の方法。
前記免疫学的活性が、前記ＭＨＣへの前記変異ペプチドの結合を含み、前記出力が、前記変異ペプチドが前記ＭＨＣに結合するかどうかに対応する第１の予測、又は前記結合に関連する親和性に対応する第２の予測のうちの少なくとも１つを含む、請求項９９～１０３のいずれか一項に記載の方法。
前記レポートに基づいて、前記変異ペプチドを免疫療法の標的として含めることを決定することを更に含む、請求項９９～１０４のいずれか一項に記載の方法。
前記免疫療法が、Ｔ細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー（ＮＫ）細胞療法からなる群から選択される、請求項１０５に記載の方法。
前記レポートに基づいて、前記変異ペプチドを免疫療法の標的として排除することを決定することの少なくとも１つを更に含む、請求項９９～１０６のいずれか一項に記載の方法。
前記免疫療法が、Ｔ細胞療法、個別化がん療法、抗原特異的免疫療法、抗原依存性免疫療法、ワクチン、及びナチュラルキラー（ＮＫ）細胞療法からなる群から選択される、請求項１０７に記載の方法。
前記レポートに基づいて、処置において、前記変異ペプチド、前記変異ペプチドの前駆体、前記変異ペプチドをコードする核酸、又は前記変異ペプチドを発現する複数の細胞のうちの少なくとも１つを含むと決定することと、
前記処置を作成することと
を更に含む、請求項９９～１０８のいずれか一項に記載の方法。
前記処置で対象を処置することを更に含む、請求項１０９に記載の方法。
前記変異ペプチドを特徴付ける前記ペプチド配列が、対象からの疾患試料を配列決定することによって同定されたものであり、前記ペプチド配列が、対応する参照配列と比較して少なくとも１つの配列変化を有し、処置が、前記レポートに基づいて前記対象に対して設計される、請求項９９～１１０のいずれか一項に記載の方法。
システムであって、
１つ以上のデータプロセッサと、
命令を含む非一時的コンピュータ可読記憶媒体であって、前記命令が前記１つ以上のデータプロセッサ上で実行されると、前記１つ以上のデータプロセッサに、請求項１～４９、７７～８１、８３、８５～９５、及び９９～１０８のいずれか一項を実行させる、命令を含む非一時的コンピュータ可読記憶媒体と
を備える、システム。
１つ以上のデータプロセッサに、請求項１～４９、７７～８１、８３、８５～９５、及び９９～１０８のいずれか一項を実行させるように構成された命令を含む非一時的機械可読記憶媒体に有形に具現化されたコンピュータプログラム製品。