JP2021514086A

JP2021514086A - Ｍｈｃペプチド結合予測のためのｇａｎ−ｃｎｎ

Info

Publication number: JP2021514086A
Application number: JP2020543800A
Authority: JP
Inventors: ワン、シンジャン; ファン、イン; ワン、ウェイ; チャオ、チー
Original assignee: Regeneron Pharmaceuticals Inc
Current assignee: Regeneron Pharmaceuticals Inc
Priority date: 2018-02-17
Filing date: 2019-02-18
Publication date: 2021-06-03
Anticipated expiration: 2039-02-18
Also published as: EP3753022A1; CA3091480A1; MX2020008597A; IL276730B2; RU2020130420A3; WO2019161342A1; RU2020130420A; KR20200125948A; AU2022221568A1; KR102607567B1; US20190259474A1; IL311528A; JP2022101551A; AU2019221793B2; KR20230164757A; AU2022221568B2; JP7047115B2; SG11202007854QA; IL276730A; CN112119464A

Abstract

畳み込みニューラルネットワーク（ＣＮＮ）と併せて敵対的生成ネットワーク（ＧＡＮ）を訓練するための方法が開示されている。ＧＡＮおよびＣＮＮは、タンパク質相互作用データなどの生物学的データを使用して、訓練されうる。ＣＮＮは、新しいデータをポジティブまたはネガティブとして識別するために使用されうる。ポジティブとして識別された新しいタンパク質相互作用データと関連付けられたポリペプチドを合成するための方法が開示されている。

Description

本発明は、ＭＨＣペプチド結合予測のためのＧＡＮ−ＣＮＮに関する。

関連出願の相互参照
本出願は、２０１８年２月１７日に出願された米国仮特許出願第６２／６３１，７１０号の利益を主張するものであり、その全体が参照により本明細書に援用される。

機械学習の使用が直面している最大の問題のうちの１つは、注釈付きの大規模なデータセットの利用可能性の欠如である。データの注釈は高価で時間がかかるだけでなく、専門のオブザーバの利用可能性に大きく依存している。訓練データの量が制限されていると、過剰適合を避けるために、訓練する非常に大量のデータが必要になることが多い監視付き機械学習アルゴリズムの性能が阻害される可能性がある。これまでのところ、利用可能なデータから可能な限り多くの情報を抽出することに多くの努力が向けられてきた。特に、注釈付きの大規模なデータセットが不足している１つの領域は、タンパク質相互作用データなどの生物学的データの分析である。タンパク質がどのように相互作用するかを予測する能力は、新しい治療薬の特定に非常に重要である。

免疫療法の進歩は急速に進展しており、患者の免疫系を調節して、がん、自己免疫疾患、および感染症を含む疾患と闘うのに役立つ患者の免疫系を調節する新薬が提供されている。例えば、ＰＤ−１およびＰＤ−１のリガンドなどのチェックポイント阻害剤分子は、ＰＤ−１を介したシグナル伝達を阻害または刺激し、それによって患者の免疫系を調節する薬物の開発に使用されることが確認されている。これらの新薬は、すべてではないが一部の場合では非常に効果的であった。がん患者の約８０％の１つの理由は、腫瘍にＴ細胞を引き付けるのに十分ながん抗原がないことである。

個別の腫瘍特異的変異を標的とすることは、これらの特定の変異が、免疫系にとって新しく、かつ正常組織には見られない、新生抗原と呼ばれる腫瘍特異的ペプチドを生成するため、魅力的である。腫瘍関連自己抗原と比較して、新生抗原は、胸腺における宿主中心寛容の対象ではないＴ細胞応答を誘発し、また非悪性細胞に対する自己免疫反応から生じる毒性も少ない（非特許文献１）。

ネオエピトープの発見の重要な問題は、どの変異タンパク質が、プロテアソームによって８〜１１残基のペプチドに処理され、抗原ペプチド輸送体（ＴＡＰ）によって小胞体に送られ、かつＣＤ８＋Ｔ細胞による認識のために、新たに合成された主要組織適合複合体クラスＩ（ＭＨＣ−Ｉ）にロードされるかである（非特許文献１）。

ＭＨＣ−Ｉとのペプチド相互作用を予測するための計算方法は、当技術分野で知られている。いくつかの計算方法は、抗原処理（例えば、ＮｅｔＣｈｏｐ）およびペプチド輸送（例えば、ＮｅｔＣＴＬ）中に何が起こるかを予測することに重点を置いているが、ほとんどの取り組みは、どのペプチドがＭＨＣ−Ｉ分子に結合するかのモデリングに重点を置いている。ＮｅｔＭＨＣなどのニューラルネットワークベースの方法は、患者のＭＨＣ−Ｉ分子の溝に適合するエピトープを生成する抗原配列を予測するために使用される。その他のフィルタを適用して、仮想タンパク質の優先順位を下げ、かつ変異したアミノ酸が、ＭＨＣの外側を向いている（Ｔ細胞受容体に向いている）か、またはＭＨＣ−Ｉ分子自体に対するエピトープの親和性を低下させるかどうかを判断することができる（非特許文献１）。

これらの予測が不正確でありうる理由は多くある。シーケンシングは、ペプチドの出発材料として使用されるリードに増幅バイアスと技術的エラーをすでにもたらしている。エピトープ処理およびプレゼンテーションのモデリングでは、ＭＨＣ−Ｉ分子をコードする〜５，０００の対立遺伝子がヒトに存在し、個々の患者が６つものそれらを発現し、すべてが異なるエピトープ親和性を持つという事実も考慮する必要がある。ＮｅｔＭＨＣなどの方法は、十分な精度でモデルを構築するために、特定の対立遺伝子に対する実験的に決定されたペプチド結合測定値が通常５０〜１００必要である。しかしながら、数多くのＭＨＣ対立遺伝子がこのようなデータを欠いているため、「パン特異的な」方法（同様の接触環境を持つＭＨＣ対立遺伝子が同様の結合特異性を有しているかどうかに基づいて結合を予測することができる）がますます目立ってきている。

ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ３５，９７（２０１７）

したがって、機械学習アプリケーションで使用するためのデータセット、特に生物学的データセットを生成するための改善されたシステムおよび方法に対するニーズがある。ペプチド結合予測技術は、こうした改善されたシステムおよび方法から利益を得る可能性がある。したがって、本発明の目的は、ＭＨＣ−Ｉへのペプチド結合の予測を含む予測を行うために機械学習アプリケーションを訓練するための改善された能力生成データセットを有するコンピュータ実装システムおよび方法を提供することである。

以下の概説および以下の発明を実施するための形態は両方とも、あくまで例示的かつ説明的なものであって、限定的なものではないことを理解されたい。
敵対的生成ネットワーク（ＧＡＮ）を訓練するための方法およびシステムであって、ＧＡＮ発生装置によって、増加的に正確なポジティブシミュレーションデータを、ＧＡＮ弁別装置がポジティブシミュレーションデータをポジティブとして分類するまで生成することと、ポジティブシミュレーションデータ、ポジティブ実データ、およびネガティブ実データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮが各タイプのデータをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実データおよびネガティブ実データをＣＮＮに提示して、予測スコアを生成することと、予測スコアに基づいて、ＧＡＮが訓練をされているか、または訓練をされていないかどうかを決定することと、ＧＡＮおよびＣＮＮを出力することと、を含む、方法およびシステムが開示される。方法は、ＧＡＮが十分に訓練されるまで繰り返されうる。ポジティブシミュレーションデータ、ポジティブ実データ、およびネガティブ実データは、生物学的データを含む。生物学的データは、タンパク質間の相互作用データを含みうる。生物学的データは、ポリペプチド−ＭＨＣ−Ｉ相互作用データを含みうる。ポジティブシミュレーションデータは、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを含むことができ、ポジティブ実データは、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを含み、ネガティブ実データは、ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを含む。

更なる利点は、その一部が下記説明に記載されているか、または実践によって知ることができるであろう。これらの利点は、添付の特許請求の範囲において特に指摘されている要素および組み合わせによって実現され、達成されるであろう。

図１は、例示的な方法のフローチャートである。図２は、ＧＡＮモデルの生成および訓練を含む、ペプチド結合を予測するプロセスの一部分を示す例示的なフロー図である。図３は、訓練されたＧＡＮモデルおよび訓練ＣＮＮモデルを使用してデータを生成することを含む、ペプチド結合を予測するプロセスの一部分を示す例示的なフロー図である。図４は、訓練ＣＮＮモデルの完了および訓練されたＣＮＮモデルを使用したペプチド結合の予測の生成を含む、ペプチド結合を予測するプロセスの一部分を示す例示的なフロー図である。図５Ａは、典型的なＧＡＮの例示的なデータフロー図である。図５Ｂは、ＧＡＮ発生装置の例示的なデータフロー図である。図６は、ＧＡＮで使用される発生装置に含まれる処理段階の一部分の例示的なブロック図である。図７は、ＧＡＮで使用される発生装置に含まれる処理段階の一部分の例示的なブロック図である。図８は、ＧＡＮで使用される弁別装置に含まれる処理段階の一部分の例示的なブロック図である。図９は、ＧＡＮで使用される弁別装置に含まれる処理段階の一部分の例示的なブロック図である。図１０は、例示的な方法のフローチャートである。図１１は、ペプチド結合の予測に関与するプロセスおよび構造が実装されうる、コンピュータシステムの例示的なブロック図である。図１２は、示されたＨＬＡ対立遺伝子のＭＨＣ−１タンパク質複合体へのタンパク質結合を予測するための特定の予測モデルの結果を示す表である。図１３Ａは、予測モデルを比較するために使用されるデータを示す表である。図１３Ｂは、我々の同じＣＮＮアーキテクチャの実装形態のＡＵＣを、Ｖａｎｇ’ｓｐａｐｅｒのＡＵＣと比較した棒グラフである。図１３Ｃは、記載された実装形態を既存のシステムと比較する棒グラフである。図１４は、バイアスされたテストセットを選択することによって得られたバイアスを示す表である。図１５は、テストサイズが小さいほどＳＲＲＣが優れていることを示す、ＳＲＣＣ対テストサイズの折れ線グラフである。図１６Ａは、ＡｄａｍとＲＭＳｐｒｏｐニューラルネットワークを比較するために使用されるデータを示す表である。図１６Ｂは、ＡｄａｍおよびＲＭＳｐｒｏｐオプティマイザによって訓練されたニューラルネットワーク間のＡＵＣを比較する棒グラフである。図１６Ｃは、ＡｄａｍおよびＲＭＳｐｒｏｐオプティマイザによって訓練されたニューラルネットワーク間のＳＲＣＣを比較する棒グラフである。図１７は、フェイクデータと実データの混合が、フェイクデータのみの場合よりも優れた予測が得られることを示す表である。

本明細書に組み込まれ、かつ本明細書の一部をなす添付の図面は、実施形態を例証し、この説明とともに、本方法およびシステムの原理を説明する役割を果たすものである。
本方法およびシステムに関する開示および説明に先立って、本方法およびシステムが特定の方法、特定の構成要素または特定の実装形態に限定されないことを理解すべきである。本明細書中で使用されている用語は、もっぱら特定の実施形態の説明を目的としたものであって、限定することを意図するものではないこともまた、理解すべきである。

本明細書および添付の特許請求の範囲で使用される場合、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈から他の意味に解釈されることが明白な場合を除き、複数の指示対象を含む。本明細書では、範囲は、「約」１つの特定の値から、かつ／または「約」別の特定の値までとして表現される場合がある。そのような範囲を表現する場合、別の実施形態では、ある特定の値からかつ／または別の特定の値までが包含される。同様に、値が近似値として表現されている場合には、先行する「約」を使用することにより、特定の値が別の実施形態を形成することが理解されるであろう。これらの範囲の各々の終点は、他の終点と関連して、かつ他の終点とは独立して有意であることがさらに理解されるであろう。

「任意選択的な」または「任意選択的に」は、後述されている事象または状況が起こる場合もあれば起こらない場合もあることを意味すると共に、この記載には、前述の事象または状況が起こる場合の例および起こらない場合の例が包含されることを意味する。

この明細書の記載および特許請求の範囲を通じて、語「含む（ｃｏｍｐｒｉｓｅ）」およびこの語の変形、例えば「含む（ｃｏｍｐｒｉｓｉｎｇ）」および「含む（ｃｏｍｐｒｉｓｅｓ）」などは、「〜を含むがこれに限定されない」を意味し、例えば、他の構成要素、整数、または工程を除外することを意図するものではない。「例示的」とは、「の一例（ａｎｅｘａｍｐｌｅｏｆ）」を意味するものであって、好ましい実施形態または理想的な実施形態の指標を伝達することを意図するものではない。「など」は、限定的な意味で使用されるものではなく、説明を目的に使用される。

当然のことながら、方法およびシステムは、記載されている特定の方法論、プロトコルおよび試薬に限定されるものではない。理由はこれらが、変更される可能性があるからである。本明細書中に使用されている用語は、あくまで特定の実施形態を説明することを目的としたものであって、もっぱら添付の特許請求の範囲により限定される本方法およびシステムの範囲を限定するものではないことも、理解すべきである。

別途定義されていない限り、本明細書中に使用されているすべての技術用語および科学用語の意味は、方法およびシステムが属する当業者に遍く理解されている意味と同じである。本明細書中に記載されている方法および材料と類似もしくは等価な何らかの方法および材料が、本方法および組成物の実施またはテストの際に使用される場合もあるが、特に有用な方法、デバイスおよび材料は、記載されている通りである。本明細書中に引用されている刊行物およびそれらの刊行物が引用されている資料は、本明細書において参照により具体的に援用されている。本明細書中のいかなる記載も、本方法およびシステムが、先願発明が存在することから、そのような開示に先行しえないことを認めるものとして解釈すべきではない。いかなる参考文献も先行技術を構成するものであるとは認められない。参考文献の論説には、その参考文献の著者の主張内容が言明されている。引用されている文献の正確さおよび適切性に対する異議申し立ての権利は、出願人が留保している。本明細書中には多数の刊行物が参照されているが、そのような参照が、これらのいかなる文献も当該技術分野における共通の一般的知識の一部を構成することを認めるものではないことは、明確に理解されるであろう。

方法およびシステムを実施する目的に使用可能な構成要素が、開示されている。これらおよび他の構成要素が本明細書に開示されるものであって、これらの構成要素の組み合わせ、サブセット、相互作用、群などが開示されているとき、これらの多様な個別および集合的な組み合わせならびにこれらの並べ替え（ｐｅｒｍｕｔａｔｉｏｎ）の各々の具体的な言及が、明示的には開示されていない場合があるが、それぞれは、すべての方法およびシステムに関して本明細書中で具体的に考慮され、かつ説明されているということが理解される。これは、方法におけるステップを含むがこれらに限定されない、本出願の全ての実施形態に適用される。したがって、実施可能である種々の付加的工程が存在する場合には、当然のことながら、これらの付加的工程の各々を、方法の任意の特定の実施形態または実施形態の組み合わせを用いて実施できる。

下記の好ましい実施形態およびそれに含まれる実施例についての発明を実施するための形態、ならびに図面およびその前後の説明を参照することによって、本方法およびシステムについての理解を容易にすることができる。

本方法およびシステムは、完全にハードウェアの実施形態、完全にソフトウェアの実施形態、またはソフトウェアおよびハードウェアの実施形態を組み合わせた実施形態の形態を取ることが可能である。さらに、本方法およびシステムは、ストレージ媒体に具体化されるコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体上のコンピュータプログラム製品（例えば、コンピュータソフトウェア）の形態を取ることができる。より具体的には、本方法およびシステムは、ウェブで実行されるコンピュータソフトウェアの形態を取ることができる。ハードディスク、ＣＤ−ＲＯＭ、光学式ストレージデバイス、または磁気ストレージデバイスを含めた、あらゆる適切なコンピュータ可読ストレージ媒体を利用してよい。

本方法およびシステムの実施形態については、方法、システム、装置およびコンピュータプログラム製品のブロック図およびフローチャート図を参照しながら、以下に説明する。ブロック図およびフローチャート図の各ブロック、ならびにブロック図およびフローチャート図中のブロックの組み合わせはそれぞれ、コンピュータプログラム命令によって実施できることが理解されるであろう。これらのコンピュータプログラム命令は、汎用コンピュータ、特殊用途向けコンピュータ、または他のプログラム可能データ処理装置にロードして、マシンを生成することが可能であり、それによって、コンピュータまたは他のプログラム可能データ処理装置上で実行される命令によって、フローチャートのブロック内に特定されている機能を実行する手段が作り出される。

これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能データ処理装置に対し特定の方法で機能するように指示可能なコンピュータ可読メモリに格納されて、それによって、コンピュータ可読メモリ内に格納された命令によって、フローチャートブロック内に特定された機能を実行するためのコンピュータ可読命令を含む、製造品が生産されるようにすることもできる。コンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能データ処理装置にロードし、コンピュータまたは他のプログラム可能装置上で一連の動作工程を実行させて、コンピュータに実行される処理を生成して、それによって、コンピュータまたは他のプログラム可能装置上で実行される命令によって、フローチャートブロック内に特定された機能を実行するための工程が提供されるようにすることもできる。

したがって、ブロック図およびフローチャート図のブロックは、特定された機能を実行するための手段の組み合わせ、特定された機能を実行するための工程の組み合わせ、および特定された機能を実行するためのプログラム命令手段を支持している。また、ブロック図およびフローチャート図中の各ブロック、ならびにブロック図およびフローチャート図中のブロック同士の組み合わせは、特定された機能または工程を実行する特殊用途向けハードウェアベースのコンピュータシステムまたは特殊用途向けハードウェアとコンピュータ命令との組み合わせによって実行することが可能であるということもまた理解されたい。

Ｉ．定義
「ＳＲＣＣ」という略語は、スピアマンの順位相関係数（Ｓｐｅａｒｍａｎ’ｓＲａｎｋＣｏｒｒｅｌａｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔ）（ＳＲＣＣ）計算を指す。

「ＲＯＣ曲線」という用語は、受信機動作特性曲線を指す。
「ＣＮＮ」という略語は、畳み込みニューラルネットワークを指す。
「ＧＡＮ」という略語は、敵対的生成ネットワークを指す。

「ＨＬＡ」という用語は、ヒト白血球抗原を指す。ＨＬＡシステムまたは複合体は、ヒトにおける主要組織適合複合体（ＭＨＣ）タンパク質をコードする遺伝子複合体である。主要なＨＬＡクラスＩ遺伝子は、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、およびＨＬＡ−Ｃであり、一方で、ＨＬＡ−Ｅ、ＨＬＡ−Ｆ、およびＨＬＡ−Ｇは、微働遺伝子である。

「ＭＨＣＩ」または「主要組織適合複合体Ｉ」という用語は、α１、α２、およびα３の３つのドメインを有するα鎖で構成される細胞表面タンパク質のセットを指す。α３ドメインは、膜貫通ドメインであるが、α１およびα２ドメインは、ペプチド結合溝の形成に関与している。

「ポリペプチド−ＭＨＣＩ相互作用」は、ＭＨＣＩのペプチド結合溝におけるポリペプチドの結合を指す。
本明細書において、「生物学的データ」は、ヒト、動物または他の生物学的な生物（微生物、ウイルス、植物および他の生存生物を含む）の生物学的状態を測定することに由来する任意のデータを意味する。医師、科学者、診断医などに知られている任意のテスト、アッセイまたは観察によって測定を行うことができる。生物学的データとしては、限定されるものではないが、ＤＮＡ配列、ＲＮＡ配列、タンパク質配列、タンパク質相互作用、臨床テストおよび観察、物理および化学測定、ゲノム配列決定、プロテオーム決定、薬物レベル、ホルモンおよび免疫学的テスト、神経化学的または神経生理学的測定、ミネラルおよびビタミンのレベルの定量、遺伝的既往歴、および家族歴、ならびにテストを受けている個人（１人または複数人）の状態を洞察することの可能な他の定量を挙げることができる。本明細書では、「データ」という用語の使用は、「生物学的データ」と同義に使用することができる。

ＩＩ．ペプチド結合を予測するためのシステム
本発明の一実施形態は、深層畳み込み敵対的生成ネットワークとも称される敵対的生成ネットワーク（ＧＡＮ）−畳み込みニューラルネットワーク（ＣＮＮ）フレームワークを有する、ＭＨＣ−１へのペプチド結合を予測するためのシステムを提供する。ＧＡＮは、ＣＮＮ弁別装置およびＣＮＮ発生装置を含んでおり、既存のペプチドＭＨＣ−Ｉ結合データで訓練されうる。開示されるＧＡＮ−ＣＮＮシステムは、限定されないが、無制限の対立遺伝子およびより優れた予測性能で訓練される能力を含む、ペプチド−ＭＨＣ−Ｉ結合を予測するための既存のシステムに比べていくつかの利点を有する。本方法およびシステムは、ＭＨＣ−１へのペプチド結合の予測に関して本明細書において記載されているが、方法およびシステムの適用は、そのように限定されない。本明細書に記載される改良されたＧＡＮ−ＣＮＮシステムの適用例として、ＭＨＣ−１へのペプチド結合の予測が提供される。改善されたＧＡＮ−ＣＮＮシステムは、様々な予測を生成するために、幅広い様々な生物学的データに適用可能である。

Ａ．例示的なニューラルネットワークシステムおよび方法
図１は、例示的な方法のフローチャート１００である。ステップ１１０から始めて、ＧＡＮの発生装置（図５Ａの５０４を参照）によって、増加的に正確なポジティブシミュレーションデータを生成することができる。ポジティブシミュレーションデータは、タンパク質相互作用データ（例えば、結合親和性）などの生物学的データを含みうる。結合親和性は、生体分子（タンパク質、ＤＮＡ、薬物など）と生体分子（タンパク質、ＤＮＡ、薬物など）との間の結合相互作用の強さの尺度の一例である。結合親和性は、最大阻害濃度の半分（ＩＣ_５０）の値として数値的に表すことができる。数値が小さいほど、親和性が高いことを示す。ＩＣ５０値が５０ｎＭ未満のペプチドは、高い親和性とみなされ、５００ｎＭ未満は、中程度の親和性とみなされ、５０００ｎＭ未満は、低い親和性とみなされる。ＩＣ_５０は、結合（１）または非結合（−１）として結合カテゴリーに変換されうる。

ポジティブシミュレーションデータは、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを含みうる。ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを生成することは、実ポリペプチド−ＭＨＣ−Ｉ相互作用データに少なくとも部分的に基づくことができる。タンパク質相互作用データは、２つのタンパク質が結合する可能性を表す結合親和性スコア（例えば、ＩＣ_５０、結合カテゴリー）を含みうる。ポリペプチド−ＭＨＣ−Ｉ相互作用データなどのタンパク質相互作用データは、例えば、ＰｅｐＢＤＢ、ＰｅｐＢｉｎｄ、タンパク質データバンク、生体分子相互作用ネットワークデータベース（ＢＩＮＤ）、Ｃｅｌｌｚｏｍｅ（ハイデルベルク、ドイツ）、相互作用するタンパク質のデータベース（ＤＩＰ）、ＤａｎａＦａｒｂｅｒＣａｎｃｅｒＩｎｓｔｉｔｕｔｅ（ボストン、マサチューセッツ、米国）、ＨｕｍａｎＰｒｏｔｅｉｎＲｅｆｅｒｅｎｃｅＤａｔａｂａｓｅ（ＨＰＲＤ）、Ｈｙｂｒｉｇｅｎｉｃｓ（パリ、フランス）、ＥｕｒｏｐｅａｎＢｉｏｉｎｆｏｒｍａｔｉｃｓＩｎｓｔｉｔｕｔｅ’ｓ（ＥＭＢＬ−ＥＢＩ、Ｈｉｎｘｔｏｎ、英国）ＩｎｔＡｃｔ、分子相互作用（ＭＩＮＴ、ローマ、イタリア）データベース、タンパク質間相互作用データベース（ＰＰＩＤ、エジンバラ、英国）、および相互作用する遺伝子／タンパク質の検索用検索ツール（ＳＴＲＩＮＧ、ＥＭＢＬ、ハイデルベルク、ドイツ）などの任意の数のデータベースから受信されうる。タンパク質相互作用データは、特定のポリペプチド配列、ならびにポリペプチドの相互作用（例えば、ポリペプチド配列とＭＨＣ−Ｉとの間の相互作用）に関する指標のうちの１つ以上を含むデータ構造に記憶されうる。一実施形態では、データ構造は、ＨＵＰＯＰＳＩ分子相互作用（ＰＳＩＭＩ）フォーマットに準拠することができ、これは、１つ以上のエントリを含んでもよく、ここにおいて、エントリは、１つ以上のタンパク質相互作用を説明する。データ構造は、例えば、データプロバイダなどのエントリ源を示してもよい。データプロバイダによって割り当てられたリリース番号およびリリース日が、示されてもよい。利用可能性リストは、データの利用可能性に関する記述を提供しうる。実験リストは、通常１つの刊行物と関連付けられた、少なくとも１セットの実験パラメータを含む実験の説明を示しうる。大規模な実験では、通常、１つのパラメータ（多くの場合、ベイト（対象のタンパク質））のみが、一連の実験にわたって変化する。ＰＳＩＭＩフォーマットは、一定のパラメータ（例えば、実験技術）および可変のパラメータ（例えば、ベイト）の両方を示しうる。インタラクタリストは、相互作用に関与しているインタラクタ（例えば、タンパク質、小分子など）のセットを示してもよい。タンパク質インタラクタ要素は、Ｓｗｉｓｓ−ＰｒｏｔおよびＴｒＥＭＢＬなどのデータベースで一般的に見られるタンパク質の「通常の」形態を示すことができ、それは、名称、相互参照、生物、アミノ酸配列などのデータを含みうる。相互作用リストは、１つ以上の相互作用要素を示してもよい。各相互作用は、利用可能性説明（データ入手可能性の説明）、およびそれが決定された実験条件の説明を示す場合がある。相互作用はまた、信頼性属性を示してもよい。パラロガス検証法およびタンパク質相互作用マップ（ＰＩＭ）の生物学的スコアなどの、相互作用に対する信頼度の様々な尺度が開発されている。各相互作用は、２つ以上のタンパク質関与要素（つまり、相互作用に関与するタンパク質）を含む関与リストを示す場合がある。各タンパク質関与要素は、その天然型における分子および／または相互作用に関与した特定の型の分子の説明を含みうる。特徴リストは、タンパク質、例えば、結合ドメインまたは相互作用に関連する翻訳後修飾の配列特徴を示しうる。例えば、タンパク質がベイトであったか、またはプレイであったかなどの、実験におけるタンパク質の特定の役割を説明する役割が示される場合がある。前述の要素の一部またはすべては、データ構造に記憶されてもよい。例示のデータ構造は、例えば、以下のようなＸＭＬファイルでありうる。

ＧＡＮは、例えば、深層畳み込みＧＡＮ（ＤＣＧＡＮ）を含むことができる。図５Ａを参照すると、ＧＡＮの基本構造の一例が示されている。ＧＡＮは、本質的にニューラルネットワークを訓練する方法である。ＧＡＮは、通常、独立して動作し、かつ敵対的に機能する可能性のある、２つの独立したニューラルネットワーク弁別装置５０２および発生装置５０４を含んでいる。弁別装置５０２は、発生装置５０４によって生成された訓練データを使用して訓練される、ニューラルネットワークでありうる。弁別装置５０２は、データサンプルを弁別するタスクを実施するように訓練されてもよい、分類子５０６を含みうる。発生装置５０４は、実際のサンプルに似ているが、フェイクサンプルもしくは人工サンプルとしてそれらをレンダリングする機能を含んで生成されてもよく、またはその機能を含むように変更されてもよい、ランダムなデータサンプルを生成しうる。弁別装置５０２および発生装置５０４を含むニューラルネットワークは、通常、高密度処理、バッチ正規化処理、アクティブ化処理、入力再成形処理、ガウスドロップアウト処理、ガウスノイズ処理、２次元畳み込み、および２次元アップサンプリングなどの、複数の処理層で構成される多層ネットワークによって実装されうる。これは、図６〜図９により詳細に示されている。

例えば、分類子５０６は、様々な特徴を示すデータサンプルを識別するように設計されてもよい。発生装置５０４は、ほぼ正しいが完全ではないデータサンプルを使用して、弁別装置５０２をだますことを目的としたデータを生成しうる、敵対機能５０８を含みうる。例えば、これは、訓練セット５１０（潜伏スペース）からランダムに正当なサンプルを選ぶことによって、およびランダムノイズ５１２を追加することなどのその機能をランダムに変更することによってデータサンプル（データスペース）を合成することによって行われうる。発生装置ネットワーク、Ｇは、一部の潜伏スペースからデータスペースへのマッピングとみなされうる。これは、以下のようにＧとして正式に表されうる。Ｇ（ｚ）→Ｒ^｜ｘ｜、式中、ｚ∈Ｒ^｜ｘ｜は、潜伏スペースからのサンプルであり、ｘ∈Ｒ^｜ｘ｜は、データスペースからのサンプルであり、｜・｜は、次元数を示す。

弁別装置ネットワーク、Ｄは、データ（例えば、ペプチド）が、生成された（フェイクまたは人工の）データセットではなく、実データセットからのものである確率へのデータスペースからのマッピングとみなすことができる。これは、以下のようにＤとして正式に表されうる。Ｄ（ｘ）→（０；１）。訓練中、弁別装置５０２は、実訓練データからの正当なデータサンプル５１６、ならびに発生装置５０４によって生成されたフェイクまたは人工の（例えば、シミュレーションされた）データサンプルのランダムな混合を伴うランダマイザ５１４によって提示されうる。各データサンプルについて、弁別装置５０２は、正当な入力、およびフェイクまたは人工の入力を識別して、結果５１８を出そうと試みることができる。例えば、固定発生装置、Ｇについて、弁別装置Ｄは、訓練データ（実数、１に近い）または固定発生装置（シミュレーション、０に近い）からのいずれかのものとしてデータ（ペプチドなど）を分類するように訓練されうる。各データサンプルについて、弁別装置５０２は、（入力が、シミュレートされたものか、または実数のものかに関わらず）ポジティブまたはネガティブの入力を識別して、結果５１８を出そうとさらに試みることができる。

一連の結果５１８に基づいて、弁別装置５０２および発生装置５０４の両方は、それらの操作を改善するためにパラメータを微調整しようと試みることができる。例えば、弁別装置５０２が正しい予測をした場合、発生装置５０４は、よりよいシミュレーションサンプルを生成して、弁別装置５０２をだますために、そのパラメータを更新することができる。弁別装置５０２が誤った予測をした場合、弁別装置５０２は、その間違いから学んで、同様の間違いを避けることができる。したがって、弁別装置５０２および発生装置５０４の更新は、フィードバックプロセスを含みうる。このフィードバックプロセスは、連続的または増分的でありうる。発生装置５０４および弁別装置５０２は、データ生成およびデータ分類を最適化するために、繰り返し実行されてもよい。増分フィードバックプロセスでは、発生装置５０４の状態は、凍結され、弁別装置５０２は、平衡が確立されて、弁別装置５０２の訓練が最適化されるまで、訓練される。例えば、発生装置５０４の所定の凍結状態の間、弁別装置５０２は、発生装置５０４の状態に関して最適化されるように訓練されうる。次に、弁別装置５０２のこの最適化された状態は、凍結されてもよく、発生装置５０４は、弁別装置の精度をある所定の閾値まで下げるように訓練されてもよい。次に、発生装置５０４の状態は、凍結されてもよく、弁別装置５０２は、訓練されてもよく、以下同じように続く。

連続的なフィードバックプロセスでは、弁別装置は、その状態が最適化されるまで訓練されない可能性があるが、むしろ１回または少数の反復でのみ訓練されてもよく、発生装置は、弁別装置と同時に更新されてもよい。

生成されたシミュレーションデータセットの分布が実データセットの分布と完全に一致することができる場合、弁別装置は、最大限に混同されており、実サンプルをフェイクサンプルと区別することができない（すべての入力で０．５を予測する）。

図１の１１０に戻って、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮの弁別装置５０２がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成することが、実施されうる（例えば、発生装置５０４によって）。別の態様では、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮの弁別装置５０２がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを実ポジティブとして分類するまで生成することが、実施されうる（例えば、発生装置５０４によって）。例えば、発生装置５０４は、ＭＨＣ対立遺伝子のポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用を含む第１のシミュレーションデータセットを生成することによって、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを生成することができる。第１のシミュレーションデータセットは、１つ以上のＧＡＮパラメータに従って生成されうる。ＧＡＮパラメータは、例えば、対立遺伝子タイプ（例えば、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、またはそのサブタイプ）、対立遺伝子長さ（例えば、約８〜１２アミノ酸、約９〜１１アミノ酸）、生成カテゴリー、モデル複雑さ、学習速度、バッチサイズ、または別のパラメータのうちの１つ以上を含むことができる。

図５Ｂは、ＭＨＣ対立遺伝子のポジティブシミュレーションポリペプチド−ＭＨＣ−１相互作用データを生成するように構成されたＧＡＮ発生装置の例示的なデータフロー図である。図５Ｂに示されるように、ガウスノイズベクトルは、分布行列を出力する発生装置に入力されうる。ガウスからサンプリングされた入力ノイズは、様々な結合パターンを模倣する変動性を提供する。出力分布マトリクスは、ペプチド配列の各位置に対する各アミノ酸を選択する確率分布を表す。分布マトリクスを正規化して、結合シグナルを提供する可能性が低い選択を取り除くことができ、特定のペプチド配列を、正規化された分布マトリクスからサンプリングすることができる。

次に、第１のシミュレーションデータセットを、ＭＨＣ対立遺伝子のポジティブ実ポリペプチド相互作用データ、および／またはネガティブ実ポリペプチド相互作用データ（またはそれらの組み合わせ）と組み合わせて、ＧＡＮ訓練セットを作成することができる。弁別装置５０２は、次に、（例えば、決定境界に従って）ＧＡＮ訓練データセットにおけるＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用が、ポジティブもしくはネガティブであるかどうか、および／またはシミュレーションされたもの、もしくは実際のものであるかどうかを決定することができる。弁別装置５０２によって実施される決定（例えば、弁別装置５０２が、ポリペプチド−ＭＨＣ−Ｉ相互作用をポジティブもしくはネガティブ、および／またはシミュレーションされたもの、もしくは実際のものとして正しく識別したかどうか）の正確さに基づいて、ＧＡＮパラメータまたは決定境界のうちの１つ以上を調節することができる。例えば、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データに高い確率を、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を、および／またはネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を与える可能性を高めるために、決定境界のＧＡＮパラメータのうちの１つ以上を調節して、弁別装置５０２を最適化することができる。ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データが高くレート付けされる確率を高めるために、決定境界のＧＡＮパラメータのうちの１つ以上を調節して、発生装置５０４を最適化することができる。

第１のシミュレーションデータセットを生成するプロセス、第１のデータセットを、ポジティブ実ポリペプチド相互作用データおよび／またはネガティブ実ポリペプチド相互作用データと組み合わせて、ＧＡＮ訓練データセットを生成するプロセス、弁別装置によって決定するプロセス、ならびにＧＡＮパラメータおよび／または決定境界を調節するプロセスは、第１の停止基準が満たされるまで、繰り返されうる。例えば、発生装置５０４の勾配降下発現を評価することによって、第１の停止基準が満たされているかどうかを決定することができる。別の実施例として、平均二乗誤差（ＭＳＥ）関数を評価することによって、第１の停止基準が満たされているかどうかを決定することができる。

別の実施例として、勾配が有意義な訓練を続けるために十分な大きさであるかどうかを評価することによって、第１の停止基準が満たされているかどうかを決定することができる。発生装置５０４が逆伝播アルゴリズムによって更新されるので、発生装置の各層は、例えば、２つの層を持つグラフがあり、かつ各層に３つのノードがある場合に、グラフ１の出力は１次元（スカラー）であり、データは２次元であるような、１つ以上の勾配を有する。このグラフでは、第１の層は、データに接続される２＊３＝６のエッジ（ｗ１１１、ｗ１１２、ｗ１２１、ｗ１２２、ｗ１３１、ｗ１３２）を有し、ｗ１１１＊ｄａｔａ１＋ｗ１１２＊ｄａｔａ２＝ｎｅｔ１１であり、シグモイドアクティベーション関数を使用して、出力ｏ１１＝ｓｉｇｍｏｉｄ（ｎｅｔ１１）を取得することができ、同様に、第１の層の出力を形成するｏ１２、ｏ１３を取得することができ、第２の層は、第１の層出力に接続される３＊３＝９のエッジ（ｗ２１１、ｗ２１２、ｗ２１３、ｗ２２１、ｗ２２２、ｗ２２３、ｗ２３１、ｗ２３２、ｗ２３３）を有し、第２の層出力は、ｏ２１、ｏ２２、ｏ２３であり、ｗ３１１、ｗ３１２、ｗ３１３である３のエッジを持つ最終出力に接続する。

このグラフの各ｗは、勾配（ｗの更新方法の指示、基本的には追加する数値）を有し、数値は、損失（ＭＳＥ）が減少する方向にパラメータを変更するという考えに従って、バックプロパゲーションと呼ばれるアルゴリズムによって計算されてもよく、これは、

ＥがＭＳＥエラーである場合、ｗ_ｉｊは、ｊ番目の層上のｉ番目のパラメータである。Ｏ_ｊは、ｊ番目の層上の出力であり、ｎｅｔ_ｊは、アクティベーション前のｊ番目の層上の乗算結果である。そして、ｗ_ｉｊについての値ｄｅ／ｄｗ_ｉｊが十分に大きいものではない場合、その結果は、訓練が発生装置５０４のｗ_ｉｊに変更をもたらしていないことを示しており、訓練は中止する必要がある。

次に、ＧＡＮ弁別装置５０２が、ポジティブシミュレーションデータ（例えば、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ）を、ポジティブおよび／または実際のものとして分類した後、ステップ１２０で、ポジティブシミュレーションデータ、ポジティブ実データ、および／またはネガティブ実データ（またはそれらの組み合わせ）は、ＣＮＮが各タイプのデータをポジティブまたはネガティブとして分類するまで、ＣＮＮに提示されうる。ポジティブシミュレーションデータ、ポジティブ実データ、および／またはネガティブ実データは、生物学的データを含みうる。ポジティブシミュレーションデータは、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを含みうる。ポジティブ実データは、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを含みうる。ネガティブ実データは、ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを含みうる。分類されるデータは、ポリペプチド−ＭＨＣ−Ｉ相互作用データを含みうる。ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データの各々は、選択された対立遺伝子と関連付けられてもよい。例えば、選択された対立遺伝子は、Ａ０２０１、Ａ２０２、Ａ２０３、Ｂ２７０３、Ｂ２７０５、およびそれらの組み合わせからなる群から選択されうる。

ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＣＮＮに提示することは、例えば、ＧＡＮパラメータのセットに従って発生装置５０４によって、ＭＨＣ対立遺伝子のポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用を含む第２のシミュレーションデータセットを生成することを含みうる。第２のシミュレーションデータセットを、ＭＨＣ対立遺伝子のポジティブ実ポリペプチド相互作用データ、および／またはネガティブ実ポリペプチド相互作用データ（またはそれらの組み合わせ）と組み合わせて、ＣＮＮ訓練データセットを作成することができる。

次に、ＣＮＮを訓練するために、ＣＮＮ訓練データセットをＣＮＮに提示することができる。次いで、ＣＮＮは、１つ以上のＣＮＮパラメータに従って、ポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することができる。これには、ＣＮＮによる畳み込み手順の実施、非線形性（例えば、ＲｅＬｕ）手順の実施、プーリングまたはサブサンプリング手順の実施、および／または分類（例えば、完全接続層）手順の実施が含まれうる。

ＣＮＮによる分類の正確さに基づいて、ＣＮＮパラメータのうちの１つ以上を調節することができる。第２のシミュレーションデータセットを生成するプロセス、ＣＮＮ訓練データセットを生成するプロセス、ポリペプチド−ＭＨＣ−Ｉ相互作用を分類するプロセス、および１つ以上のＣＮＮパラメータを調節するプロセスは、第２の停止基準が満たされるまで、繰り返されてもよい。例えば、平均二乗誤差（ＭＳＥ）関数を評価することによって、第２の停止基準が満たされているかどうかを決定することができる。

次に、ステップ１３０で、ポジティブ実データおよびネガティブ実データをＣＮＮに提示して、予測スコアを生成することができる。ポジティブ実データおよび／またはネガティブ実データは、例えば、結合親和性データを含むタンパク質相互作用データなどの生物学的データを含んでもよい。ポジティブ実データは、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを含みうる。ネガティブ実データは、ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを含みうる。予測スコアは、結合親和性スコアであってもよい。予測スコアは、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用データとして分類されるポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データの確率を含むことができる。これには、実データセットをＣＮＮに提示すること、およびＣＮＮパラメータのセットに従ってＣＮＮによって、ＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することが含まれうる。

ステップ１４０で、ＧＡＮが予測スコアに基づいて訓練されているかどうかを決定することができる。これは、ＧＡＮが予測スコアに基づいてＣＮＮの正確さを決定することによって訓練されているかどうかを決定することを含みうる。例えば、ＧＡＮは、第３の停止基準が満たされている場合には、訓練されているものとして決定されうる。第３の停止基準が満たされているかどうかを決定することは、曲線下面積（ＡＵＣ）関数が満たされているかどうかを決定することを含みうる。ＧＡＮが訓練されているかどうかを決定することは、予測スコアのうちの１つ以上を閾値と比較することを含みうる。ステップ１４０で決定されるように、ＧＡＮが訓練されている場合、次に、ＧＡＮは、任意選択的にステップ１５０で出力されうる。ＧＡＮが訓練されていないと決定された場合、ＧＡＮは、ステップ１１０に戻りうる。

ＣＮＮおよびＧＡＮを訓練した後、データセット（例えば、未分類のデータセット）は、ＣＮＮに提示されうる。データセットは、未分類のタンパク質相互作用データなどの未分類の生物学的データを含むことができる。生物学的データは、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用を含むことができる。ＣＮＮは、予測結合親和性を生成することができ、および／または候補ポリペプチド−ＭＨＣ−Ｉ相互作用の各々を、ポジティブもしくはネガティブとして分類することができる。次いで、ポジティブと分類された候補ポリペプチド−ＭＨＣ−Ｉ相互作用のものを使用して、ポリペプチドを合成することができる。例えば、ポリペプチドは、腫瘍特異的抗原を含むことができる。別の実施例として、ポリペプチドが、選択されたＭＨＣ対立遺伝子によってコードされるＭＨＣ−Ｉタンパク質に特異的に結合するアミノ酸配列を含むことができる。

敵対的生成ネットワーク（ＧＡＮ）を使用する予測のプロセス２００のより詳細な例示的なフロー図が、図２〜図４に示されており、２０２〜２１４は、図１に示した１１０に一般的に対応している。プロセス２００は、２０２で始めることができ、ここにおいて、ＧＡＮ訓練は、例えば、ＧＡＮ訓練２１６を制御するために、いくつかのパラメータ２０４〜２１４を設定することによって、セットアップされる。設定されうるパラメータの実施例には、対立遺伝子タイプ２０４、対立遺伝子長さ２０６、生成カテゴリー２０８、モデル複雑さ２１０、学習速度２１２、およびバッチサイズ２１４が含まれうる。対立遺伝子タイプのパラメータ２０４は、ＧＡＮプロセスに含まれる１つ以上の対立遺伝子タイプを指定する能力を提供しうる。このような対立遺伝子タイプの実施例は、図１２に示されている。例えば、指定された対立遺伝子は、図１２に示されているＡ０２０１、Ａ０２０２、Ａ０２０３、Ｂ２７０３、Ｂ２７０５などを含みうる。対立遺伝子長さのパラメータ２０６は、指定された各対立遺伝子タイプ２０４に結合しうる、ペプチドの長さを指定する能力を提供しうる。このような長さの実施例は、図１３に示されている。例えば、Ａ０２０１については、指定された長さは、９または１０として示され、Ａ０２０２については、指定された長さは、９として示され、Ａ０２０３については、指定された長さは、９または１０として示され、Ｂ２７０５については、指定された長さは、９として示されるなどである。カテゴリーパラメータを生成すること２０８は、ＧＡＮ訓練２１６中に生成されるデータのカテゴリーを指定する能力を提供しうる。例えば、結合／非結合カテゴリーを指定してもよい。モデル複雑さ２１０に対応するパラメータの収集は、ＧＡＮ訓練２１６中で使用されるモデルの複雑さの態様を指定する能力を提供しうる。このような態様の実施例としては、層の数、層あたりのノード数、各畳み込み層のウィンドウサイズなどが含まれうる。学習速度パラメータ２１２は、ＧＡＮ訓練２１６で実施される学習プロセスが収束する１つ以上の速度を指定するための能力を提供しうる。このような学習速度パラメータの実施例には、０．００１５、０．０１５、０．０１が含まれてもよく、これは、相対的な学習の速度を指定する単位のない値である。バッチサイズパラメータ２１４は、ＧＡＮ訓練２１６中に処理される訓練データ２１８のバッチのサイズを指定する能力を提供しうる。こうしたバッチサイズの実施例には、６４個または１２８個のデータサンプルを有するバッチが含まれうる。ＧＡＮ訓練セットアップ処理２０２は、訓練パラメータ２０４〜２１４を収集し、それらがＧＡＮ訓練２１６と互換性を持つように処理し、かつ処理されたパラメータをＧＡＮ訓練２１６に入力するか、または処理されたパラメータを、ＧＡＮ訓練２１６で使用する適切なファイルもしくは場所に記憶することができる。

２１６で、ＧＡＮ訓練が開始されうる。２１６〜２２８はまた、図１に示される１１０に一般的に対応する。ＧＡＮ訓練２１６は、例えば、バッチサイズパラメータ２１４で指定されるようなバッチで、訓練データ２１８を取り込むことができる。訓練データ２１８は、例えば、ＨＬＡ対立遺伝子タイプなどの異なる対立遺伝子タイプによってコードされたＭＨＣ−Ｉタンパク質複合体の異なる結合親和性指定（結合または非結合）を有するペプチドを表すデータを含むことができる。例えば、このような訓練データは、ポジティブ／ネガティブのＭＨＣペプチド相互作用のビニングおよび選択に関連する情報を含みうる。訓練データは、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、および／またはネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データのうちの１つ以上を含むことができる。

２２０で、勾配降下プロセスは、取り込まれた訓練データ２１８に適用されうる。勾配降下は、関数の最小値または局所最小値を見つけるなど、機械学習を実施するための反復プロセスである。例えば、勾配降下法を使用して関数の最小値または局所最小値を見つけるために、変数値は、現在のポイントでの関数の勾配（または近似勾配）の負の値に比例するステップで更新される。機械学習の場合、パラメータスペースは、勾配降下を使用して検索されうる。予測誤差を許容できる程度に制限するために、異なる勾配降下法では、パラメータ空間で異なる「宛先」が見つかる場合がある。実施形態において、勾配降下プロセスは、学習速度を入力パラメータに適合させることができ、例えば、頻度の低いパラメータには多くの更新を、および頻度の高いパラメータには少ない更新を実施する。こうした実施形態は、スパースデータの取り扱いに適している場合がある。例えば、ＲＭＳｐｒｏｐとして知られる勾配降下法では、ペプチド結合データセットの改善された性能を提供しうる。

２２１で、損失測定は、処理の損失または「コスト」を測定するために適用されうる。こうした損失測定の実施例には、平均二乗誤差、またはクロスエントロピーが含まれうる。

２２２で、勾配降下の終了基準がトリガーされたかどうかを決定することができる。勾配降下は反復プロセスであるため、基準を指定して、発生装置２２８が弁別装置２２６によってポジティブおよび／または実際のものとして分類されたポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを生成することができることを示す、反復プロセスを停止するときを決定することができる。２２２で、勾配降下の終了基準がトリガーされていないと決定された場合、プロセスは、２２０にループバックし、勾配降下プロセスを続けることができる。２２２で、勾配降下の終了基準がトリガーされていると決定された場合、プロセスは、２２４に続くことができ、弁別装置２２６および発生装置２２８は、例えば、図５Ａを参照して説明されるように、訓練されうる。２２４で、弁別装置２２６および発生装置２２８の訓練モデルが記憶されうる。これらの記憶されたモデルには、弁別装置２２６および発生装置２２８のモデルを構成する構造および係数を定義するデータが含まれうる。記憶されたモデルは、人工データを生成するために発生装置２２８を使用する、およびデータを識別するために弁別装置２２６を使用する能力を提供し、適切に訓練されている場合に、弁別装置２２６および発生装置２２８からの正確で有用な結果を提供する。

プロセスは、次に、２３０〜２３８に続くことができ、これらは、図１に示した１２０に一般的に対応する。２３０〜２３８で、生成されたデータサンプル（例えば、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ）は、訓練された発生装置２２８を使用して作製されうる。例えば、２３０で、ＧＡＮ生成プロセスは、例えば、ＧＡＮ生成２３６を制御するために、多くのパラメータ２３２、２３４を設定することによって、セットアップされうる。設定されうるパラメータの実施例は、生成サイズ２３２およびサンプリングサイズ２３４を含みうる。サイズパラメータ２３２を生成することは、生成されるデータセットのサイズを指定する能力を提供しうる。例えば、生成された（ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ）データセットサイズは、実データ（ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよび／またはネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ）のサイズの２．５倍に設定されうる。この実施例では、バッチ内の元の実データが６４の場合、対応するバッチ内の生成されたシミュレーションデータは、１６０である。サイズパラメータ２３４をサンプリングすることは、データセットを生成するために使用されるサンプリングのサイズを指定する能力を提供しうる。例えば、このパラメータは、発生装置の最終層での２０のアミノ酸選択のカットオフパーセンタイルとして指定されうる。一実施例として、９０パーセンタイルの指定は、９０パーセンタイル未満のすべてのポイントが０に設定され、その残りが、正規化された指数（ｓｏｆｔｍａｘ）関数などの正規化関数を使用して正規化されうることを意味する。２３６で、訓練された発生装置２２８は、ＣＮＮモデルを訓練するために使用されうる、データセット２３６を生成するために使用されうる。

２４０で、訓練された発生装置２２８によって作製されるシミュレーションデータサンプル２３８と元のデータセットからの実データサンプルを混合して、図１に示した１２０に一般的に対応するような、訓練データ２４０の新しいセットを形成することができる。訓練データ２４０は、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、および／またはネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データのうちの１つ以上を含むことができる。２４２〜２６２で、畳み込みニューラルネットワーク（ＣＮＮ）分類子モデル２６２は、混合された訓練データ２４０を使用して訓練されうる。２４２で、ＣＮＮ訓練は、例えば、ＣＮＮ訓練２５４を制御するために、いくつかのパラメータ２４４〜２５２を設定することによって、セットアップされうる。設定されうるパラメータの実施例には、対立遺伝子タイプ２４４、対立遺伝子長さ２４６、モデル複雑さ２４８、学習速度２５０、およびバッチサイズ２５２が含まれうる。対立遺伝子タイプのパラメータ２４４は、ＣＮＮプロセスに含まれる１つ以上の対立遺伝子タイプを指定する能力を提供しうる。このような対立遺伝子タイプの実施例は、図１２に示されている。例えば、指定された対立遺伝子は、図１２に示されているＡ０２０１、Ａ０２０２、Ｂ２７０３、Ｂ２７０５などを含みうる。対立遺伝子長さのパラメータ２４６は、指定された各対立遺伝子タイプ２４４に結合しうる、ペプチドの長さを指定する能力を提供しうる。このような長さの実施例は、図１３Ａに示されている。例えば、Ａ０２０１については、指定された長さは、９または１０として示され、Ａ０２０２については、指定された長さは、９として示され、Ｂ２７０５については、指定された長さは、９として示されるなどである。モデル複雑さ２４８に対応するパラメータの収集は、ＣＮＮ訓練２５４中で使用されるモデルの複雑さの態様を指定する能力を提供しうる。このような態様の実施例としては、層の数、層あたりのノード数、各畳み込み層のウィンドウサイズなどが含まれうる。学習速度パラメータ２５０は、ＣＮＮ訓練２５４で実施される学習プロセスが収束する１つ以上の速度を指定するための能力を提供しうる。このような学習速度パラメータの実施例には、０．００１が含まれてもよく、これは、相対的な学習速度を指定する単位のないパラメータである。バッチサイズパラメータ２５２は、ＣＮＮ訓練２５４中に処理される訓練データ２４０のバッチのサイズを指定する能力を提供しうる。例えば、訓練データセットが１００等分された場合、バッチサイズは、訓練データサイズの整数形式（ｔｒａｉｎ＿ｄａｔａ＿ｓｉｚｅ）／１００であってもよい。ＣＮＮ訓練セットアップ処理２４２は、訓練パラメータ２４４〜２５２を収集し、それらがＣＮＮ訓練２５４と互換性を持つように処理し、かつ処理されたパラメータをＣＮＮ訓練２５４に入力するか、または処理されたパラメータを、ＣＮＮ訓練２５４で使用する適切なファイルもしくは場所に記憶することができる。

２５４で、ＣＮＮ訓練を開始することができる。ＣＮＮ訓練２５４は、例えば、バッチサイズパラメータ２５２で指定されるようなバッチで、訓練データ２４０を取り込むことができる。２５６で、勾配降下プロセスは、取り込まれた訓練データ２４０に適用されうる。上記で説明されたように、勾配降下は、関数の最小値または局所最小値を見つけるなど、機械学習を実施するための反復プロセスである。例えば、ＲＭＳｐｒｏｐとして知られる勾配降下法では、ペプチド結合データセットの改善された性能を提供しうる。

２５７で、損失測定は、処理の損失または「コスト」を測定するために適用されうる。こうした損失測定の実施例には、平均二乗誤差、またはクロスエントロピーが含まれうる。

２５８で、勾配降下の終了基準がトリガーされたかどうかを決定することができる。勾配降下は反復プロセスであるため、基準を指定して、反復プロセスをいつ停止するかを決定することができる。２５８で、勾配降下の終了基準がトリガーされていないと決定された場合、プロセスは、２５６にループバックし、勾配降下プロセスを続けることができる。２５８で、勾配降下の終了基準がトリガーされている（ｇＣＮＮが、ポジティブ（実またはシミュレーション）ポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして、および／またはネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データをネガティブとして分類することができることを示している）と決定された場合、次に、プロセスは、２６０で続けられてもよく、ここにおいて、ＣＮＮ分類子モデル２６２は、ＣＮＮ分類子モデル２６２として記憶されうる。これらの記憶されたモデルには、ＣＮＮ分類子モデル２６２を構成する構造および係数を定義するデータが含まれうる。記憶されたモデルは、入力データサンプルのペプチド結合を分類するために、ＣＮＮ分類子モデル２６２を使用する能力を提供し、適切に訓練された場合に、ＣＮＮ分類子モデル２６２から正確で有用な結果を提供する。２６４で、ＣＮＮ訓練が終了する。

２６６〜２８０で、訓練された畳み込みニューラルネットワーク（ＣＮＮ）分類子モデル２６２は、図１に示した１３０に一般的に対応するように、ＧＡＮモデル全体の性能を測定するために、テストデータ（テストデータは、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよび／またはネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データのうちの１つ以上を含むことができる）に基づいて予測を提供および評価するために使用されてもよい。２７０で、ＧＡＮ終了基準は、例えば、評価プロセス２６６を制御するために、いくつかのパラメータ２７２〜２７６を設定することによってセットアップされうる。設定されうるパラメータの実施例には、予測パラメータの正確さ２７２、信頼パラメータの予測２７４、および損失パラメータ２７６が含まれうる。予測パラメータの正確さ２７２は、評価２６６によって提供される予測の正確さを指定するための能力を提供しうる。例えば、実ポジティブカテゴリーを予測するための正確さ閾値は、０．９以上にすることができる。信頼パラメータを予測すること２７４は、評価２６６によって提供される予測の信頼レベル（例えば、ｓｏｆｔｍａｘ正規化）を指定するための能力を提供しうる。例えば、フェイクまたは人工カテゴリーを予測する信頼度の閾値は、実ネガティブカテゴリーに対して、０．４以上および０．６以上などの値に設定されうる。ＧＡＮ終了基準セットアップ処理２７０は、訓練パラメータ２７２〜２７６を収集し、それらがＧＡＮ予測評価２６６と互換性を持つように処理し、かつ処理されたパラメータをＧＡＮ予測評価２６６に入力するか、または処理されたパラメータを、ＧＡＮ予測評価２６６で使用する適切なファイルもしくは場所に記憶することができる。２６６で、ＧＡＮ予測評価を開始することができる。ＧＡＮ予測評価２６６は、テストデータ２６８を取り込みうる。

２６７で、受信者操作特性（ＲＯＣ）曲線下面積（ＡＵＣ）の測定を実施することができる。ＡＵＣは、分類性能の正規化された測定値である。ＡＵＣは、２つのランダムなポイント−１つはポジティブクラスからのものであり、もう１つはネガティブクラスからのものである−が与えられる可能性を測定し、分類子は、ポジティブクラスからのポイントをネガティブクラスからのポイントよりも高くランク付けする。実際には、ランキングの性能を測定する。ＡＵＣは、（分類子の出力スペースで）すべて一緒に混合される予測クラスが多いほど、分類子が悪くなるという考えを採用している。ＲＯＣは、移動境界で分類子出力スペースをスキャンする。スキャンする各ポイントで、偽陽性率（ＦＰＲ）および真陽性率（ＴＰＲ）が、（正規化された測定値として）記録される。２つの値の差が大きいほど、ポイントの混合が少なくなり、それらはより適切に分類される。すべてのＦＰＲとＴＰＲのペアを取得した後、それらを並べ替えて、ＲＯＣ曲線がプロットされうる。ＡＵＣは、その曲線下の面積である。

２７８で、図１の１４０に一般的に対応するように、勾配降下の終了基準がトリガーされたかどうかを決定することができる。勾配降下は反復プロセスであるため、基準を指定して、反復プロセスをいつ停止するかを決定することができる。２７８で、評価プロセス２６６の終了基準がトリガーされていないと決定された場合、プロセスは、２２０にループバックし、ＧＡＮ２２０〜２６４の訓練プロセスおよび評価プロセス２６６を続けることができる。したがって、終了基準がトリガーされていない場合、プロセスは、ＧＡＮ訓練に戻って（図１の１１０に戻ることに一般的に対応している）、よりよい発生装置を作製するようにする。２７８で、評価プロセス２６６の終了基準がトリガーされている（ＣＮＮが、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして、および／またはネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データをネガティブとして分類したことを示す）と決定された場合に、プロセスは、２８０に続くことができ、ここで、図１の１５０に一般的に対応するように、予測評価処理およびプロセス２００は終了する。

発生装置２２８の内部処理構造の一実施形態の実施例が、図６〜図７に示されている。この実施例では、各処理ブロックは、示されたタイプの処理を実施することができ、かつ示されている順序で実施されてもよい。これは単なる一実施例であることに留意されたい。実施形態において、実施される処理のタイプ、ならびに処理が実施される順序は、変更されうる。

図６から図７に戻って、発生装置２２８の例示的な処理フローが説明される。処理フローは、一例にすぎず、限定することを意図したものではない。発生装置２２８に含まれる処理は、高密度処理６０２から始めることができ、ここにおいて、入力データは、入力データの密度の空間変動を推定するために、フィードフォワードニューラル層に入力される。６０４で、バッチ正規化処理を実施することができる。例えば、正規化処理は、異なるスケールで測定された値を共通のスケールに調節して、データ値の確率分布全体を整列するように調節することを含むことができる。元の（深層）ニューラルネットワークは最初の層の変更に敏感であるため、このような正規化により、改善された収束速度を提供する場合があり、最初のデータの外れ値のエラーを下げようとすると、方向パラメータが最適化されて、散乱される場合がある。バッチ正規化は、これらの散乱からの勾配を正規化するため、より高速である。６０６で、アクティベーション処理を実施することができる。例えば、アクティベーション処理には、ｔａｎｈ、シグモイド関数、ＲｅＬＵ（正規化線形ユニット）、またはステップ関数などが含まれうる。例えば、ＲｅＬＵは、入力が０未満の場合は出力０であり、それ以外の場合は未加工の入力である。それは、他のアクティベーション関数に比べてシンプルであり（計算量が少ない）、したがって、加速された訓練を提供することができる。６０８で、入力再成形処理を実施することができる。例えば、こうした処理は、入力の形状（次元）を、次のステップで正当な入力として受け入れることができるターゲット形状に変換するのに役立ちうる。６１０で、ガウスドロップアウト処理を実施することができる。ドロップアウトは、特定の訓練データに基づくニューラルネットワークの過剰適合を低減するための正規化技術である。ドロップアウトは、過剰適合を引き起こしている、または悪化させている可能性のあるニューラルネットワークノードを削除することによって実施されてもよい。ガウスドロップアウト処理は、ガウス分布を使用して、削除するノードを決定することができる。こうした処理は、ドロップアウトの形態でノイズを提供する場合があるが、ドロップアウト後も自己正規化特性を確保するために、ガウス分布に基づいて入力の平均および分散を元の値に保つことができる。

６１２で、ガウスノイズ処理を実施することができる。ガウスノイズは、正規またはガウス分布の確率密度関数（ＰＤＦ）に等しいＰＤＦを有する統計的ノイズである。ガウスノイズ処理は、モデルがデータの小さな（多くの場合は取るに足らない）変更を学習しないようにデータにノイズを追加すること、したがって、モデルの過剰適合に対する堅牢性を追加することを含むことができる。このプロセスは、予測の正確さを改善することができる。６１４で、２次元（２Ｄ）畳み込み処理を実施することができる。２Ｄ畳み込みは、２次元空間領域で水平方向および垂直方向の両方を畳み込むことによる１Ｄ畳み込みの拡張であり、データの平滑化を提供しうる。こうした処理は、複数の移動フィルタですべての部分入力をスキャンすることができる。各フィルタは、機能マップ上のすべての場所での特定の機能（フィルタパラメータ値と一致する）の発生をカウントする、パラメータ共有ニューラル層とみなすことができる。６１６で、第２のバッチ正規化処理を実施することができる。６１８で、第２のアクティベーション処理を実施することができ、６２０で、第２のガウスドロップアウト処理を実施することができ、６２２で、２Ｄアップサンプリング処理を実施することができる。アップサンプリング処理は、入力を元の形状から望ましい（大部分は大きい）形状に変換しうる。例えば、そのために、再サンプリングまたは補間を使用することができる。例えば、入力を所望のサイズに再スケーリングすることができ、各ポイントの値をバイリニア補間などの補間を使用して、計算することができる。６２４で、第２のガウスノイズ処理を実施することができ、６２６で、２次元（２Ｄ）畳み込み処理を実施することができる。

図７に続いて、６２８で、第３のバッチ正規化処理を実施することができ、６３０で、第３のアクティベーション処理を実施することができ、６３２で、第３のガウスドロップアウト処理を実施することができ、６３４で、第３のガウスノイズ処理を実施することができる。６３６で、第２の２次元（２Ｄ）畳み込み処理を実施することができ、６３８で、第４のバッチ正規化処理を実施することができる。アクティベーション処理は、６３８の後および６４０の前に実施されてもよい。６４０で、第４のガウスドロップアウト処理を実施することができる。

６４２で、第４のガウスノイズ処理を実施することができ、６４４で、第３の２次元（２Ｄ）畳み込み処理を実施することができ、６４６で、第５のバッチ正規化処理を実施することができる。６４８で、第５のガウスドロップアウト処理を実施することができ、６５０で、第５のガウスノイズ処理を実施することができ、６５２で、第４のアクティベーション処理を実施することができる。このアクティベーション処理では、［−ｉｎｆｉｎｉｔｙ，ｉｎｆｉｎｉｔｙ］からの入力を［０，１］の出力にマッピングするシグモイドアクティベーション関数を使用することができる。典型的なデータ認識システムは、最後の層でアクティベーション関数をより多く使用する場合がある。しかしながら、現在の技術のカテゴリカルな性質のため、シグモイド関数は、改善されたＭＨＣ結合予測を提供する可能性がある。シグモイド関数は、ＲｅＬＵよりも強力であり、適切な確率出力を提供しうる。例えば、本分類の問題において、確率としての出力が望ましい場合がある。しかしながら、シグモイド関数はＲｅＬＵまたはｔａｎｈよりもはるかに遅い可能性があるため、性能上の理由から、以前のアクティベーション層にシグモイド関数を使用することは望ましくない場合がある。しかしながら、最後の高密度層は最終出力により直接関連しているため、このアクティベーション層でシグモイド関数を使用すると、ＲｅＬＵと比較して収束が大幅に改善される可能性がある。

６５４で、第２の入力再成形処理を実施して、出力をデータ次元（後で弁別装置に入力できるようにする必要がある）に成形することができる。
弁別装置２２６の処理フローの一実施形態の一実施例が、図８〜図９に示されている。処理フローは、一例にすぎず、限定することを意図したものではない。この実施例では、各処理ブロックは、示されたタイプの処理を実施することができ、かつ示されている順序で実施されてもよい。これは単なる一実施例であることに留意されたい。実施形態において、実施される処理のタイプ、ならびに処理が実施される順序は、変更されうる。

図８に戻って、弁別装置２２６に含まれる処理は、１次元（１Ｄ）畳み込み処理８０２で始まることができ、この処理は、入力信号を取り、入力に１Ｄ畳み込みフィルタを適用し、出力を作製しうる。８０４で、バッチ正規化処理を実施することができ、８０６で、アクティベーション処理を実施することができる。例えば、漏出性正規化線形ユニット（ＲＥＬＵ）処理を使用して、アクティベーション処理を実施することができる。ＲＥＬＵは、ニューラルネットワークのノードまたはニューロンのアクティベーション関数の１つのタイプである。漏出性ＲＥＬＵは、ノードがアクティブでない場合（入力が０より小さい）、ゼロ以外の小さな勾配を許容しうる。ＲｅＬＵには「ｄｙｉｎｇ」と呼ばれる問題があり、ここにおいて、アクティベーション関数の入力に大きなネガティブバイアスがある場合に、０が出力され続ける。これが起こると、モデルは学習を停止する。漏出性ＲｅＬＵは、アクティブでない場合でも、ゼロ以外の勾配を提供することによってこの問題を解決する。例えば、ｆ（ｘ）＝ａｌｐｈａ＊ｘｆｏｒｘ＜０，ｆ（ｘ）＝ｘｆｏｒｘ＞＝０。８０８で、入力再成形処理を実施することができ、８１０で、２Ｄアップサンプリング処理を実施することができる。

任意選択的に、８１２で、ガウスノイズ処理を実施することができ、８１４で、２次元（２Ｄ）畳み込み処理を実施することができ、８１６で、第２のバッチ正規化処理を実施することができ、８１８で、第２のアクティベーション処理を実施することができ、８２０で、第２の２Ｄアップサンプリング処理を実施することができ、８２２で、第２の２Ｄ畳み込み処理を実施することができ、８２４で、第３のバッチ正規化処理を実施することができ、８２６で、第３のアクティベーション処理を実施することができる。

図９に続いて、８２８で、第３の２次元（２Ｄ）畳み込み処理を実施することができ、８３０で、第４のバッチ正規化処理を実施することができ、８３２で、第４のアクティベーション処理を実施することができ、８３４で、第４の２Ｄ畳み込み処理を実施することができ、８３６で、第５のバッチ正規化処理を実施することができ、８３８で、第５のアクティベーション処理を実施することができ、８４０で、データ平坦化処理を実施することができる。例えば、データ平坦化処理は、異なるテーブルまたはデータセットからのデータを組み合わせて、単一または少数のテーブルまたはデータセットを形成することを含みうる。８４２で、高密度処理を実施することができる。８４４で、第６のアクティベーション処理を実施することができ、８４６で、第２の高密度処理を実施することができ、８４８で、第６のバッチ正規化処理を実施することができ、８５０で、第７のアクティベーション処理を実施することができる。

最後の２つの高密度層のアクティベーション関数として、漏出性ＲｅＬＵの代わりにシグモイド関数を使用することができる。シグモイドは、漏出性ＲｅＬＵよりも強力であり、妥当な確率の出力（例えば、分類問題では、確率としての出力が望ましい）を提供しうる。しかしながら、シグモイド関数は、漏出性ＲｅＬＵよりも遅いため、すべての層でシグモイドを使用することは望ましくない場合がある。しかしながら、最後の２つの高密度層は最終出力により直接関連しているため、シグモイドａｙは、漏出性ＲｅＬＵと比較して収束を大幅に改善する。実施形態において、２つの高密度層（または完全に接続されたニューラルネットワーク層）８４２および８４６を使用して、それらの入力を変換するのに十分な複雑さを得ることができる。特に、１つの高密度層は、畳み込み結果を弁別装置出力スペースに変換するのに十分に複雑でない場合があるが、発生装置２２８での使用には十分である場合がある。

実施形態において、ニューラルネットワーク（ＣＮＮなど）を使用して、以前の訓練プロセスに基づいて入力を分類する方法が開示されている。ニューラルネットワークは予測スコアを生成することができるため、予測スコアを含む成功した生物学的データと成功していない生物学的データのセットで以前に訓練されたニューラルネットワークに基づいて、入力生物学的データを成功または失敗のいずれかに分類することができる。予測スコアは、結合親和性スコアであってもよい。ネットワークは、予測結合親和性スコアを生成するために使用されうる。結合親和性スコアは、単一の生体分子（タンパク質、ＤＮＡ、薬物など）が別の生体分子（タンパク質、ＤＮＡ、薬物など）に結合する可能性を数値的に表すことができる。予測結合親和性スコアは、ペプチド（ＭＨＣなど）が別のペプチドに結合する可能性を数値的に表すことができる。しかしながら、これまで、少なくともニューラルネットワークが少量のデータで訓練されている場合、機械学習技術は、少なくとも予測を確実に行うことができないため、実現することができなかった。

説明されている方法およびシステムは、機能の組み合わせを使用して、より確実に予測を行うことにより、この問題に対処する。第１の機能は、生物学的データの拡張訓練セットを使用して、ニューラルネットワークを訓練することである。この拡張訓練セットは、ＧＡＮを訓練して、シミュレーション生物学的データを作成することによって開発される。その際、ニューラルネットワークは、この拡張訓練セットで（例えば、ネットワークの重みを調節するために数学的な損失関数の勾配を使用する、機械学習アルゴリズムの一種である逆伝播を伴う確率学習を使用して）訓練される。残念ながら、拡張訓練セットの導入は、生物学的データを分類するときに誤検知を増加させる場合がある。したがって、説明されている方法およびシステムの第２の機能は、必要に応じて反復訓練アルゴリズムを実施することにより、これらの誤検知を最小限に抑えることであり、ここで、ＧＡＮは、より高品質のシミュレーションデータを含む更新されたシミュレーション訓練セットを生成することにさらに取り組み、ニューラルネットワークは、更新された訓練セットで再訓練される。この機能の組み合わせは、誤検知の数を制限しながら、特定の生物学的データの成功（結合親和性スコアなど）を予測することができる堅牢な予測モデルを提供する。

データセットは、未分類のタンパク質相互作用データなどの未分類の生物学的データを含むことができる。未分類の生物学的データは、別のタンパク質と関連付けられた結合親和性スコアが利用できないタンパク質に関するデータを含むことができる。生物学的データは、複数の候補タンパク質間相互作用、例えば、候補タンパク質−ＭＨＣ−Ｉ相互作用データを含むことができる。ＣＮＮは、結合親和性を示す予測スコアを生成することができ、および／または候補ポリペプチド−ＭＨＣ−Ｉ相互作用の各々を、ポジティブもしくはネガティブとして分類することができる。

図１０に示される一実施形態では、結合親和性予測に対するニューラルネットワークを訓練するコンピュータ実装方法１０００は、１０１０で、データベースからポジティブ生物学的データおよびネガティブ生物学的データのセットを収集することを含みうる。生物学的データは、タンパク質間の相互作用データを含みうる。タンパク質間相互作用データは、第１のタンパク質の配列、第２のタンパク質の配列、第１のタンパク質の識別子、第２のタンパク質の識別子、および／または結合親和性スコアなどのうちの１つ以上を含みうる。一実施形態では、結合親和性スコアは、１、すなわち、結合が成功したこと（例えば、ポジティブ生物学的データ）を示してもよく、または−１、すなわち、結合が失敗したこと（例えば、ネガティブ生物学的データ）を示してもよい。

コンピュータ実装方法１０００は、１０２０で、敵対的生成ネットワーク（ＧＡＮ）をポジティブ生物学的データのセットに適用して、シミュレーションポジティブ生物学的データのセットを作成することを含むことができる。ポジティブ生物学的データのセットにＧＡＮを適用して、シミュレーションポジティブ生物学的データのセットを作成することは、ＧＡＮ発生装置によって、増加的に正確なポジティブシミュレーション生物学的データを、ＧＡＮ弁別装置がポジティブシミュレーション生物学的データをポジティブとして分類するまで生成することを含むことができる。

コンピュータ実装方法１０００は、１０３０で、収集されたポジティブ生物学的データのセット、シミュレートされたポジティブ生物学的データのセット、およびネガティブ生物学的データのセットを含む第１の訓練セットを作成することを含むことができる。

コンピュータ実装方法１０００は、１０４０で、第１の訓練セットを使用して、第１の段階でニューラルネットワークを訓練することを含むことができる。第１の訓練セットを使用して、第１の段階でニューラルネットワークを訓練することは、ポジティブシミュレーション生物学的データ、ポジティブ生物学的データ、およびネガティブ生物学的データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮが生物学的データをポジティブまたはネガティブとして分類するように構成されるまで提示することを含むことができる。

コンピュータ実装方法１０００は、１０５０で、追加のシミュレーションポジティブ生物学的データを生成するために、ＧＡＮを再適用することによって、訓練の第２の段階の第２の訓練セットを作成することを含むことができる。第２の訓練セットを作成することは、ポジティブ生物学的データおよびネガティブ生物学的データをＣＮＮに提示して、予測スコアを生成し、予測スコアが不正確であると決定することに基づいていてもよい。予測スコアは、結合親和性スコアであってもよい。不正確な予測スコアは、ＣＮＮが完全に訓練されていないことを示しており、これは、ＧＡＮが完全に訓練されていないことが原因である。したがって、ＧＡＮ発生装置のうちの１つ以上の反復が、増加的に正確なポジティブシミュレーション生物学的データを、ＧＡＮ弁別装置がポジティブシミュレーション生物学的データをポジティブとして分類するまで生成することは、追加のシミュレーションポジティブ生物学的データを生成するために実施されうる。第２の訓練セットは、ポジティブ生物学的データ、シミュレーションポジティブ生物学的データ、およびネガティブ生物学的データを含むことができる。

コンピュータ実装方法１０００は、１０６０で、第２の訓練セットを使用して、第２の段階でニューラルネットワークを訓練することを含むことができる。第２の訓練セットを使用して、第２の段階でニューラルネットワークを訓練することは、ポジティブ生物学的データ、シミュレーションポジティブ生物学的データ、およびネガティブ生物学的データを、ＣＮＮに、ＣＮＮが生物学的データをポジティブまたはネガティブとして分類するように構成されるまで提示することを含むことができる。

ＣＮＮが完全に訓練されると、新しい生物学的データが、ＣＮＮに提示されうる。新しい生物学的データは、タンパク質間の相互作用データを含みうる。タンパク質間相互作用データは、第１のタンパク質の配列、第２のタンパク質の配列、第１のタンパク質の識別子、および／または第２のタンパク質の識別子などのうちの１つ以上を含みうる。ＣＮＮは、新しい生物学的データを分析し、予測された成功または失敗した結合を示す予測スコア（例えば、予測された結合親和性）を生成することができる。

例示的な態様において、方法およびシステムは、図１１に図示され以下に説明されているように、コンピュータ１１０１上で実施できる。同様に、開示する方法およびシステムは、１つ以上のコンピュータを利用して、１つ以上の場所で１つ以上の機能を実行できる。図１１は、本開示の方法を実行するための例示的な運用環境を図示したブロック図である。この例示的な運用環境は、あくまで運用環境の一例にすぎず、運用環境アーキテクチャの使用または機能の範囲に関する何らかの制限を示唆することを意図したものではない。また、いかなる運用環境も、例示的な運用環境において図示される構成要素のいずれか１つもしくは組み合わせに関連する何らかの依存性または要件を有するものとして解釈すべきではない。

本方法およびシステムは、多数の他の汎用もしくは特殊用途向けコンピューティングシステム環境または構成で動作可能でありうる。このシステムおよび方法を用いた使用に適するものとしうる周知のコンピューティングシステム、環境、および／または構成の例としては、以下に限定されないが、パーソナルコンピュータ、サーバコンピュータ、ラップトップデバイス、およびマルチプロセッサシステムが挙げられる。追加的な例には、セットトップボックス、プログラマブル大衆消費電子製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、上記のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれる。

本開示の方法およびシステムの処理は、ソフトウェアコンポーネントを介して実行できる。本開示のシステムおよび方法は、１つ以上のコンピュータまたは他のデバイスを介して実行されるプログラムモジュールなどの、コンピュータ実行可能命令の一般的なコンテキストで記述できる。概して、プログラムモジュールは、コンピュータコード、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含み、それらによって特定のタスクが実行されるかまたは特定の抽象データ型が実施される。また、本開示の方法は、通信ネットワーク経由でリンクされたリモートプロセシングデバイスを介してタスクが実行されるグリッドベースおよび分散コンピューティング環境においても実施することができる。分散コンピューティング環境において、プログラムモジュールは、メモリ記憶デバイスを含むローカルおよびリモートコンピュータストレージ媒体の両方に配置できる。

さらに、当業者は、本明細書に開示されるシステムおよび方法を、コンピュータ１１０１の形態の汎用コンピューティングデバイスを介して実施できることを認識することになる。コンピュータ１１０１の構成要素には、限定されるものではないが、１つ以上のプロセッサ１１０３と、システムメモリ１１１２と、１つ以上のプロセッサ１１０３を含む様々なシステムコンポーネントをシステムメモリ１１１２に連結するシステムバス１１１３と、を含めることができる。システムは並列計算を利用できる。

システムバス１１１３は、多様なバスアーキテクチャのいずれかを用いた、メモリバスもしくはメモリコントローラ、周辺機器用バス、アクセラレーテッドグラフィックスポート、またはローカルバスを含む、いくつかの可能なタイプのバス構造のうちの１つ以上を表す。一例として、こうした構造は、産業標準アーキテクチャ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＣＡ）バス、ＥｎｈａｎｃｅｄＩＳＡ（ＥＩＳＡ）バス、ＶＥＳＡ（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）ローカルバス、アクセラレーテッドグラフィックスポート（ＡＧＰ）バス、およびペリフェラルコンポーネントインターコネクト（ＰＣＩ）、ＰＣＩ−Ｅｘｐｒｅｓｓバス、ＰＣＭＣＩＡ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒＭｅｍｏｒｙＣａｒｄＩｎｄｕｓｔｒｙＡｓｓｏｃｉａｔｉｏｎ）、ユニバーサルシリアルバス（ＵＳＢ）などを含むことができる。バス１１１３およびこの説明で指定されているすべてのバスはまた、有線または無線のネットワーク接続ならびに、１つ以上のプロセッサ１１０３、大容量記憶装置１１０４、オペレーティングシステム１１０５、分類ソフトウェア１１０６（例えば、ＧＡＮ、ＣＮＮ）、分類データ１１０７（例えば、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、および／またはネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを含む、「実際の」または「シミュレートされた」データ）、ネットワークアダプタ１１０８、システムメモリ１１１２、入力／出力インターフェース１１１０、ディスプレイアダプタ１１０９、表示デバイス１１１１、およびヒューマンマシンインターフェース１１０２を含む、サブシステムの各々を介して実装されてもよく、物理的に離れた場所にある１つ以上のリモートコンピューティングデバイス１１１４ａ、ｂ、ｃ内に含まれ、この形式のバスを介して接続されて、実質的に完全分散システムを実装することができる。

コンピュータ１１０１は、典型的には、様々なコンピュータ可読媒体を含む。例示的な可読媒体は、コンピュータ１１０１によりアクセスできる任意の利用可能な媒体であってよく、例えば、揮発性および不揮発性媒体であり、リムーバブルおよび非リムーバブル媒体の両方が挙げられるが、これらに限定されるものではない。システムメモリ１１１２は、ランダムアクセスメモリ（ＲＡＭ）などの揮発性メモリ、および／またはリードオンリメモリ（ＲＯＭ）などの不揮発性メモリの形態のコンピュータ可読媒体を含む。システムメモリ１１１２は、典型的には、分類データ１１０７のようなデータ、および／または１つ以上のプロセッサ１１０３によって直ちにアクセス可能であり、かつ／または現在操作されているオペレーティングシステム１１０５および分類ソフトウェア１１０６などのプログラムモジュールを含む。

別の態様では、コンピュータ１１０１はまた、他のリムーバブル／非リムーバブルな、揮発性／不揮発性コンピュータストレージ媒体を含むこともできる。一例として、図１１は、コンピュータ１１０１用のコンピュータコード、コンピュータ可読命令、データ構造、プログラムモジュール、および他のデータの不揮発性ストレージを提供することができる、大容量ストレージデバイス１１０４が図示されている。例えば、限定されるものではないが、大容量記憶デバイス１１０４は、ハードディスク、リムーバブル磁気ディスク、リムーバブル光学式ディスク、磁気カセットまたは他の磁気ストレージデバイス、フラッシュメモリカード、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）または他の光学式ストレージ、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）などでありうる。

任意選択的に、オペレーティングシステム１１０５および分類ソフトウェア１１０６を含む、任意の数のプログラムモジュールを大容量記憶装置１１０４に記憶することができる。オペレーティングシステム１１０５および分類ソフトウェア１１０６（またはそれらのいくつかの組み合わせ）の各々には、プログラミングおよび分類ソフトウェア１１０６の要素を含めることができる。分類データ１１０７はまた、大容量記憶装置１１０４に記憶されうる。分類データ１１０７を、当技術分野において知られている１つ以上のデータベースのうちのいずれかに記憶させることができる。そのようなデータベースの例としては、ＤＢ２（登録商標）、Ｍｉｃｒｏｓｏｆｔ（登録商標）Ａｃｃｅｓｓ、Ｍｉｃｒｏｓｏｆｔ（登録商標）ＳＱＬＳｅｒｖｅｒ、Ｏｒａｃｌｅ（登録商標）、ｍｙＳＱＬ、ＰｏｓｔｇｒｅＳＱＬなどが挙げられる。データベースは、集中型とすることができ、または複数のシステムにわたって分散することができる。

別の態様では、ユーザは、入力デバイス（図示せず）を介して、コンピュータ１１０１内にコマンドおよび情報を入力することができる。そのような入力デバイスの例としては、限定されるものではないが、キーボード、ポインティングデバイス（例えば、「マウス」）、マイクロフォン、ジョイスティック、スキャナー、グローブなどの触覚入力デバイス、および他のボディカバーなどが含まれる。上記および他の入力デバイスは、システムバス１１１３に接続されているヒューマンマシンインターフェース１１０２を介して１つ以上のプロセッサ１１０３に接続できるが、他のインターフェースおよびバス構造、例えば、パラレルポート、ゲームポート、ＩＥＥＥ１３９４ポート（別称：ファイヤーワイヤー（ＦｉｒｅＷｉｒｅ（登録商標））ポート）、シリアルポートまたはユニバーサルシリアルバス（ＵＳＢ）を介して接続できる。

更に別の態様において、ディスプレイデバイス１１１１はまた、ディスプレイアダプタ１１０９などのインターフェースを介してシステムバス１１１３に接続できる。コンピュータ１１０１に複数のディスプレイアダプタ１１０９を設けることができ、コンピュータ１１０１に複数のディスプレイデバイス１１１１を設けることもできることが予期される。例えば、ディスプレイデバイス１１１１は、モニター、液晶ディスプレイ（ＬＣＤ）、またはプロジェクターとすることができる。ディスプレイデバイス１１１１に加えて、他の出力周辺デバイスには、入出力インターフェース１１１０を介してコンピュータ１１０１に接続できるスピーカ（図示せず）およびプリンタ（図示せず）などの構成要素を含めることができる。本方法の任意の工程および／または結果は、任意のフォーマットで出力デバイスに出力できる。そのような出力は、テキスト、グラフィカル、アニメーション、オーディオ、触覚（ｔａｃｔｉｌｅ）などを含むが、これらに限定されない任意のフォーマットの視覚的表象でありうる。ディスプレイ１１１１およびコンピュータ１１０１は、１つのデバイスの一部である場合もあれば、別々のデバイスである場合もある。

コンピュータ１１０１は、１つ以上のリモートコンピューティングデバイス１１１４ａ、ｂ、ｃへの論理的接続を使用してネットワーク環境で動作することができる。一例として、リモートコンピューティングデバイスは、パーソナルコンピュータ、ポータブルコンピュータ、スマートフォン、サーバー、ルーター、ネットワークコンピュータ、ピアデバイスまたは他の共通ネットワークノードなどでありうる。コンピュータ１１０１とリモートコンピューティングデバイス１１１４ａ、ｂ、ｃとの間の論理的接続は、ローカルエリアネットワーク（ＬＡＮ）および／または一般的なワイドエリアネットワーク（ＷＡＮ）などのネットワーク１１１５を介して行うことができる。そのようなネットワーク接続は、ネットワークアダプタ１１０８経由でありうる。ネットワークアダプタ１１０８は、有線および無線の両方の環境で実装できる。そのようなネットワーキング環境は、住宅、職場、企業全体のコンピュータネットワーク、イントラネット、およびインターネットでは、従来からあるありふれたものである。

そのようなプログラムおよびコンポーネントは、コンピューティングデバイス１１０１の異なるストレージコンポーネント内に様々な時間に存在し、コンピュータの１つ以上のプロセッサ１１０３を介して実行されることが認識されるが、例証の便宜上、本明細書においてアプリケーションプログラムおよびオペレーティングシステム１１０５などの他の実行可能プログラムコンポーネントは、離散的ブロックとして図示されている。分類ソフトウェア１１０６の実装形態は、何らかの形態のコンピュータ可読媒体上に格納される場合もあれば、またはそのコンピュータ可読媒体を介して伝送される場合もある。本開示の方法のいずれも、コンピュータ可読媒体上に具現化されたコンピュータ可読命令によって実行することができる。コンピュータ可読媒体は、コンピュータによってアクセス可能な任意の利用可能媒体とすることができる。例として、かつ限定を意図するものではないが、コンピュータ可読媒体は、「コンピュータストレージ媒体」および「通信媒体」を含みうる。「コンピュータストレージ媒体」は、コンピュータ可読命令、データ構造、プログラムモジュールもしくは他のデータなどの情報を記憶するための任意の方法または技術で実装される揮発性および不揮発性のリムーバブル媒体および非リムーバブル媒体を具備する。例示的なコンピュータストレージ媒体は、限定されるものではないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリもしくは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）、または他の光学式ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージデバイスもしくは他の磁気ストレージデバイス、または、所望の情報を格納する目的に使用でき、かつコンピュータがアクセスできる任意の他の媒体を具備する。

方法およびシステムは、機械学習および反復学習などの人工知能手法を採用することができる。そのような手法の例としては、以下に限定されないが、エキスパートシステム、事例に基づく推論、ベイジアンネットワーク、ビヘイビアベースＡＩ、ニューラルネットワーク、ファジーシステム、進化的計算法（例えば遺伝的アルゴリズム）、群知能（例えばアントアルゴリズム）、およびハイブリッド知能システム（例えば、ニューラルネットワークを通じて生成されるエキスパート推論ルール、または統計的学習から得られるプロダクションルール）が挙げられる。

以下の実施例は、本明細書に請求される化合物、組成物、物品、デバイス、および／または方法がどのようになされて評価されるのかに関して、当業者に完全な開示および説明を提供するように示されており、単に例示的であることを意図しており、この方法およびシステムの範囲を限定することを意図していない。数字（例えば量、温度など）に関する正確性を確保するために取り組みがなされているが、いくらかの誤差および偏差が考慮されるべきである。特に明示がない限り、部分は重量部であり、温度は℃単位であるか、または周囲温度であり、圧力は大気圧またはその近傍である。

Ｂ．ＨＬＡ対立遺伝子
開示されたシステムは、無制限の数のＨＬＡ対立遺伝子で訓練されうる。ＨＬＡ対立遺伝子によってコードされるＭＨＣ−Ｉタンパク質複合体へのペプチド結合のデータは、当技術分野で知られており、ＩＥＤＢ、ＡｎｔｉＪｅｎ、ＭＨＣＢＮ、ＳＹＦＰＥＩＴＨＩなどを含むが、これらに限定されないデータベースから入手可能である。

一実施形態では、開示されたシステムおよび方法は、以下のＨＬＡ対立遺伝子によってコードされるＭＨＣ−Ｉタンパク質複合体へのペプチド結合の予測可能性を改善する。Ａ０２０１、Ａ０２０２、Ｂ０７０２、Ｂ２７０３、Ｂ２７０５、Ｂ５７０１、Ａ０２０３、Ａ０２０６、Ａ６８０２、およびそれらの組み合わせ。例として、１０２８７９０は、Ａ０２０１、Ａ０２０２、Ａ０２０３、Ａ０２０６、Ａ６８０２のテストセットである。

予測可能性は、ＮｅｔＭＨＣｐａｎ、ＭＨＣｆｌｕｒｒｙ、ｓＮｅｕｂｕｌａ、およびＰＳＳＭを含むが、これらに限定されない既存のニューラルシステムと比較して改善されうる。

ＩＩＩ．治療薬
開示されたシステムおよび方法は、Ｔ細胞および標的細胞のＭＨＣ−Ｉに結合するペプチドを識別するために有用である。一実施形態では、ペプチドは、腫瘍特異的ペプチド、ウイルスペプチド、または標的細胞のＭＨＣ−Ｉに表示されるペプチドである。標的細胞は、腫瘍細胞、がん細胞、またはウイルス感染細胞でありうる。ペプチドは典型的には抗原提示細胞上に表示され、その後、ペプチド抗原を、ＣＤ８＋細胞、例えば、細胞毒性Ｔ細胞に提示する。ペプチド抗原のＴ細胞への結合は、Ｔ細胞を活性化または刺激する。したがって、一実施形態は、ワクチン、例えば、開示されたシステムおよび方法で識別された１つ以上のペプチドを含むがんワクチンを提供する。

別の実施形態は、ペプチド、ペプチド抗原−ＭＨＣ−Ｉ複合体、またはその両方に結合する抗体またはその抗原結合断片を提供する。
本発明の具体的な実施形態が記述されているが、記述された実施形態と同等な他の実施形態があることが当業者によって理解されるであろう。したがって、本発明は、特定の例示された実施形態によってではなく、添付の特許請求の範囲によってのみ限定されることを理解されたい。

実施例１：既存の予測モデルの評価
予測モデルＮｅｔＭＨＣｐａｎ、ｓＮｅｂｕｌａ、ＭＨＣｆｌｕｒｒｙ、ＣＮＮ、ＰＳＳＭを評価した。ＲＯＣ曲線下面積を、パフォーマンス測定として使用した。値１は良好なパフォーマンスであり、０は悪いパフォーマンスであり、そして０．５はランダムな推測と同等である。表１は、使用されるモデルおよびデータを示している。

図１２は、本明細書に記載されているように訓練されたＣＮＮが、現在の最新のＮｅｔＭＨＣｐａｎを含むほとんどのテストケースで他のモデルよりも優れていることを示す評価データを示している。図１２は、最新のモデルおよび本記述の方法（「ＣＮＮ＿ｏｕｒｓ」）を同じ１５個のテストデータセットに適用した結果を示すＡＵＣヒートマップを示している。図１２では、左下から右上への対角線は、一般的に高い値を示しており、線が細いほど値が高くなり、線が太くなるほど値が低くなる。右下から左上への対角線は、一般的に低い値を示しており、線が細いほど値が低くなり、線が太くなるほど値が高くなる。

実施例２：ＣＮＮモデルに関する問題
ＣＮＮ訓練には多くのランダムプロセス（例えば、ミニバッチデータフィード、ドロップアウトによる勾配に関与する確率性、ノイズなど）が含まれているため、訓練プロセスの再現性に問題がある可能性がある。例えば、図１２は、まったく同じデータにまったく同じアルゴリズムを実装すると、Ｖａｎｇ’ｓ（「Ｙｅｅｌｉｎｇ」）ＡＵＣを完全に再現できないことを示している。Ｖａｎｇ，ｅｔａｌ．，ＨＬＡｃｌａｓｓＩｂｉｎｄｉｎｇｐｒｅｄｉｃｔｉｏｎｖｉａｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，Ｓｅｐ１；３３（１７）：２６５８−２６６５（２０１７）。

一般的に言えば、ＣＮＮは、そのパラメータ共有の性質上、深層ニューラルネットワークのような他の深層学習フレームワークほど複雑ではないが、それでも依然として複雑なアルゴリズムである。

標準のＣＮＮは固定サイズのウィンドウでデータから機能を抽出するが、ペプチドの結合情報は、同じ長さでコードされない可能性がある。本開示では、生物学の研究が、１つのタイプの結合メカニズムがペプチド鎖に７アミノ酸のスケールで発生することを指摘しているため、７のウィンドウサイズを使用することができ、一方でウィンドウサイズは十分に機能するが、すべてのＨＬＡ結合問題における他のタイプの結合因子を説明するだけでは不十分な場合がある。

図１３Ａ〜図１３Ｃは、様々なモデル間の差異を示している。図１３Ａは、ＩＥＤＢの毎週リリースされるＨＬＡ結合データからの１５のテストデータセットを示している。ｔｅｓｔ＿ｉｄには、１５のテストデータセットすべての一意のＩＤとしてラベルが付けられている。ＩＥＤＢはＩＥＤＢデータリリースＩＤであり、１つのＩＥＤＢリリースの異なるＨＬＡカテゴリーに関連する複数の異なるサブデータセットがありうる。ＨＬＡは、ペプチドに結合するＨＬＡのタイプである。長さは、ＨＬＡに結合するペプチドの長さである。テストサイズは、このテストセットにある記録の数である。訓練サイズは、この訓練セットにある記録の数である。ｂｉｎｄ＿ｐｒｏｐは、訓練データセット内の結合と非結合の合計に対する結合の割合であり、訓練データの歪度を測定するためにここに列挙されている。ｂｉｎｄ＿ｓｉｚｅは、訓練データセット内の結合の数であり、ｂｉｎｄ＿ｐｒｏｐを計算するために使用される。

図１３Ｂ〜図１３Ｃは、ＣＮＮ実装の再現の困難さを示している。モデル間の差異に関して、図１３Ｂ〜図１３Ｃにおけるモデルの差異は０である。図１３Ｂ〜図１３Ｃは、Ａｄａｍの実装が公開された結果と一致しないことを示している。

実施例３：データセットのバイアス
訓練／テストセットの分割を実施した。訓練／テストセットの分割は、過剰適合を回避するように設計された測定であるが、測定が有効かどうかは、選択したデータに依存する場合がある。同じＭＨＣ遺伝子対立遺伝子（Ａ＊０２：０１）でどのようにテストしても、モデル間の性能は大きく異なる。このことは、図１４でバイアスされたテストセットを選択することによって得られたＡＵＣバイアスで示される。バイアスされた訓練／テストセットで説明されている方法を使用した結果は、カラム「ＣＮＮ＊１」に示されており、これは、図１２に示されているものよりも低い性能を示している。図１４では、左下から右上への対角線は、一般的に高い値を示しており、線が細いほど値が高くなり、線が太くなるほど値が低くなる。右下から左上への対角線は、一般的に低い値を示しており、線が細いほど値が低くなり、線が太くなるほど値が高くなる。

実施例４：ＳＲＣＣバイアス
テストされた５つのモデルから、最良のスピアマンの順位相関係数（ＳＲＣＣ）を選択し、正規化されたデータサイズと比較した。図１５は、テストサイズが小さいほど、ＳＲＲＣが優れていることを示している。ＳＲＣＣは、予測ランクとラベルランクとの間の無秩序を測定する。テストサイズが大きいほど、順位の順序が崩れる確率が高くなる。

実施例５：勾配降下比較
ＡｄａｍとＲＭＳｐｒｏｐの比較を実施した。Ａｄａｍは、低次モーメントの適応推定に基づく、確率的目的関数の１次勾配ベースを最適化するためのアルゴリズムである。ＲＭＳｐｒｏｐ（二乗平均平方根伝搬）はまた、学習速度をパラメータの各々に適合させる方法である。

図１６Ａ〜図１６Ｃは、ＲＭＳｐｒｏｐがＡｄａｍと比較してほとんどのデータセットよりも改善されていることを示している。Ａｄａｍは、運動量ベースのオプティマイザであり、ＲＭＳｐｒｏｐと比較して、最初にパラメータを積極的に変更する。この改善は以下に関連しうる。１）弁別装置がＧＡＮ訓練プロセス全体を主導するため、それが運動量に追随して、そのパラメータを積極的に更新する場合に、発生装置は最適以下の状態で終了すること、２）ペプチドデータは画像とは異なり、生成時の障害を許容しないこと。９〜３０の位置の微妙な違いにより、結合結果が大幅に変わる可能性がある一方で、写真のピクセル全体は、変更されうるが、写真の同じカテゴリーに残る。Ａｄａｍは、パラメータゾーンでさらに探索する傾向があるが、それはゾーン内の各位置のライターを意味し、一方で、ＲＭＳｐｒｏｐは、各ポイントでより長く停止し、弁別装置の最終出力の大幅な改善を示すパラメータの微妙な変化を見つけて、この知識を発生装置に転送して、より良くシミュレートされたペプチドを作成することができる。

実施例５：ペプチド訓練の形式
表２は、例示のＭＨＣ−Ｉ相互作用データの例を示している。示されたＨＬＡ対立遺伝子に対する異なる結合親和性を有するペプチドが、示されている。ペプチドは、結合性（１）または非結合性（−１）と指定された。結合カテゴリーは、半分の最大阻害濃度（ＩＣ_５０）から変換された。予測される出力は、ＩＣ_５０ｎＭの単位で与えられる。数値が小さいほど、親和性が高いことを示す。ＩＣ_５０が５０ｎＭ未満のペプチドは、高親和性とみなされ、５００ｎＭ未満のペプチドは、中程度の親和性とみなされ、５０００ｎＭ未満のペプチドは、低親和性とみなされる。ほとんどの既知のエピトープは、高いまたは中程度の親和性を有している。低い親和性を有しているものもある。既知のＴ細胞エピトープのＩＣ_５０値が、５０００ｎＭを超えるものはない。

実施例６：ＧＡＮ比較
図１７は、シミュレーション（例えば、人工の、フェイク）ポジティブデータ、実ポジティブデータ、および実ネガティブデータの混合が、実ポジティブデータおよび実ネガティブデータのみ、またはシミュレーションポジティブデータおよび実ネガティブデータよりも優れた予測をもたらすことを示している。説明される方法の結果は、カラム「ＣＮＮ」および２つのカラム「ＧＡＮ−ＣＮＮ」に示されている。図１７では、左下から右上への対角線は、一般的に高い値を示しており、線が細いほど値が高くなり、線が太くなるほど値が低くなる。右下から左上への対角線は、一般的に低い値を示しており、線が細いほど値が低くなり、線が太くなるほど値が高くなる。ＧＡＮは、すべてのテストセットでＡ０２０１の性能を改善する。結合情報が空間的にコードされているため、情報抽出器（ＣＮＮ＋スキップグラムの埋め込みなど）の使用は、ペプチドデータに対して良好に機能する。開示されたＧＡＮから生成されたデータは、「補完」の１つの方法とみなすことができ、これにより、データの分布がスムーズになり、モデルが学習しやすくなる。また、ＧＡＮの損失機能により、ＧＡＮは青平均ではなく鋭いサンプルを作成し、これは、変分オートエンコーダなどの従来の方法とは異なる。潜在的な化学結合パターンは多数あるため、中間点までの異なるパターンの平均は最適ではない。したがって、ＧＡＮは過剰適合して、モード崩壊の問題に直面する可能性があるが、パターンをより良くシミュレートする。

開示された方法は、部分的には、異なる訓練データの使用により、最新のシステムよりも性能が優れている。開示された方法は、発生装置がいくつかの弱い結合信号の周波数を高めることができるため、実ポジティブおよび実ネガティブデータのみを使用した場合よりも性能が優れており、このことは、いくつかの結合パターンの頻度を拡大し、かつ訓練データセット内の異なる結合パターンの重みのバランスをとることにより、モデルの学習を容易にする。

開示された方法は、フェイクポジティブクラスがモード崩壊の問題を有するため、フェイクポジティブおよび実ネガティブデータのみの使用よりも性能が優れており、このことは、実ポジティブデータおよび実ネガティブデータを、訓練データとしてモデルに入力するのと同様に、母集団全体の結合パターンを表すことはできないが、訓練サンプルの数が減るため、モデルの学習に使用するデータが少なくなることをもたらすことを意味する。

図１７では、以下のカラムが使用される。ｔｅｓｔ＿ｉｄ：テストセットを区別するために使用される、１つのテストセットの一意のＩＤ、ＩＥＤＢ：ＩＥＤＢデータベース上のデータセットのＩＤ、ＨＬＡ：ペプチドに結合する複合体の対立遺伝子タイプ、長さ：ペプチドのアミノ酸の数、Ｔｅｓｔ＿ｓｉｚｅ：このテストデータセットで見つかった観測の数、Ｔｒａｉｎ＿ｓｉｚｅ：この訓練データセットにおける観測の数、Ｂｉｎｄ＿ｐｒｏｐ：訓練データセットにおける結合の比率、Ｂｉｎｄ＿ｓｉｚｅ：訓練データセットにおける結合の数。

別途明記しない限り、本明細書中に記載のいかなる方法も、そのステップを特定の順序で実行することを必須としていると解釈するべきであることを意図するものでは決してない。したがって、方法についてのある請求項が、実際にその工程に従うべき順序を列挙していない場合、または、特許請求の範囲もしくは明細書において特定の順序に限定されることが別途明記されていない場合には、いかなる点においても、順序を推定することは決して意図されない。これは、工程の配置または操作の流れの配列に関するロジックの問題、文法的な編成または句読法から導き出される明白な意味、本明細書中に記載されている実施形態の数またはタイプを含む、解釈するための、あらゆる可能な非明示的基礎に対して成り立つ。

前述の記載において、本発明はその特定の実施形態に関連付けて記載され、解説を目的として多くの詳細が提示されているが、当業者であれば、本発明はさらなる実施形態を受け入れることができること、および本明細書に記載される詳細の特定部分は、本発明の基礎となる主旨から逸脱することなく大きく変化しうることが明白であろう。

本明細書に引用されるすべての参照文献は、その全体を参照することにより組み込まれる。本発明は、その主旨および本質的な特質から逸脱することなく、他の具体的な形態で具現化されてもよく、したがって、前述の記載ではなく、本発明範囲を示す添付の請求の範囲に対して参照がなされるべきである。

例示の実施形態
実施形態１．敵対的生成ネットワーク（ＧＡＮ）を訓練するための方法であって、ＧＡＮ発生装置によって、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成することと、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮがポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データをＣＮＮに提示して、予測スコアを生成することと、予測スコアに基づいて、ＧＡＮが訓練されていることを決定することと、ＧＡＮおよびＣＮＮを出力することと、を含む、方法。

実施形態２．増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを実際のものとして分類するまで生成することは、ＧＡＮパラメータのセットに従ってＧＡＮ発生装置によって、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む第１のシミュレーションデータセットを生成することと、ＭＨＣ対立遺伝子のポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用を有する第１のシミュレーションデータセットを、ＭＨＣ対立遺伝子のネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用と組み合わせて、ＧＡＮ訓練データセットを作成することと、決定境界に従って弁別装置によって、ＧＡＮ訓練データセットにおけるＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用が、シミュレーションポジティブ、実ポジティブ、または実ネガティブであるかどうかを決定することと、弁別装置による決定の正確さに基づいて、ＧＡＮパラメータのセットまたは決定境界のうちの１つ以上を調節することと、第１の停止基準が満たされるまで、ａ〜ｄを繰り返すことと、を含む、実施形態１に記載の方法。

実施形態３．ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮがポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示することは、ＧＡＮパラメータのセットに従ってＧＡＮ発生装置によって、ＨＬＡ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む、第２のシミュレーションデータセットを生成することと、第２のシミュレーションデータセットを、ＭＨＣ対立遺伝子のポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用およびＭＨＣ対立遺伝子のネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用と組み合わせて、ＣＮＮ訓練データセットを作成することと、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮ訓練データセットを提示することと、ＣＮＮパラメータのセットに従ってＣＮＮによって、ＣＮＮ訓練データセットにおけるＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することと、ＣＮＮによる分類の正確さに基づいて、ＣＮＮパラメータのセットのうちの１つ以上を調節することと、第２の停止基準が満たされるまで、ｈ〜ｊを繰り返すことと、を含む、実施形態２に記載の方法。

実施形態４．ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＣＮＮに提示して、予測スコアを生成することは、ＣＮＮパラメータのセットに従ってＣＮＮによって、ＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することを含む、実施形態３に記載の方法。

実施形態５．予測スコアに基づいて、ＧＡＮが訓練されていることを決定することは、ＣＮＮによる分類の正確さを決定することを含み、（場合によっては）分類の正確さが第３の停止基準を満たしている場合に、ＧＡＮおよびＣＮＮが出力される、実施形態４に記載の方法。

実施形態６．予測スコアに基づいて、ＧＡＮが訓練されていることを決定することは、ＣＮＮによる分類の正確さを決定することを含み、（場合によっては）分類の正確さが第３の停止基準を満たしていない場合に、ステップａに戻る、実施形態４に記載の方法。

実施形態７．ＧＡＮパラメータは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの１つ以上を含む、実施形態２に記載の方法。

実施形態８．ＭＨＣ対立遺伝子は、ＨＬＡ対立遺伝子である、実施形態２に記載の方法。
実施形態９．ＨＬＡ対立遺伝子タイプは、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、またはそのサブタイプのうちの１つ以上を含む、実施形態８に記載の方法。

実施形態１０．ＨＬＡ対立遺伝子長さは、約８〜約１２アミノ酸である、実施形態８に記載の方法。
実施形態１１．ＨＬＡ対立遺伝子長さは、約９〜約１１アミノ酸である、実施形態８に記載の方法。

実施形態１２．データセットをＣＮＮに提示することであって、データセットが複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用を含む、提示することと、ＣＮＮによって、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用の各々を、ポジティブまたはネガティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類することと、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類された候補ポリペプチド−ＭＨＣ−Ｉ相互作用から、ポリペプチドを合成することと、をさらに含む、実施形態１に記載の方法。

実施形態１３．実施形態１２に記載の方法によって作製されたポリペプチド。
実施形態１４．ポリペプチドは、腫瘍特異的抗原である、実施形態１２に記載の方法。
実施形態１５．ポリペプチドは、選択されたＭＨＣ対立遺伝子によってコードされるＭＨＣ−Ｉタンパク質に特異的に結合するアミノ酸配列を含む、実施形態１２に記載の方法。

実施形態１６．ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データは、選択された対立遺伝子と関連付けられている、実施形態１に記載の方法。

実施形態１７．選択された対立遺伝子は、Ａ０２０１、Ａ０２０２、Ａ０２０３、Ｂ２７０３、Ｂ２７０５、およびそれらの組み合わせからなる群から選択される、実施形態１６に記載の方法。

実施形態１８．増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成することは、ＧＡＮ発生装置の勾配降下発現を評価することを含む、実施形態１に記載の方法。

実施形態１９．増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成することは、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データに高い確率を、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を与える可能性を高めるために、ＧＡＮ弁別装置を繰り返し実行する（例えば、最適化する）ことと、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データが高くレート付けされる確率を高めるために、ＧＡＮ発生装置を繰り返し実行する（例えば、最適化する）ことと、を含む、実施形態１に記載の方法。

実施形態２０．ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮがポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示することは、畳み込み処置を実施することと、非線形性（ＲｅｌＵ）処置を実施することと、プーリングまたはサブサンプリング処置を実施することと、分類（完全接続層）処置を実施することと、を含む、実施形態１に記載の方法。

実施形態２１．ＧＡＮは、深層畳み込みＧＡＮ（ＤＣＧＡＮ）を含む、実施形態１に記載の方法。
実施形態２２．第１の停止基準は、平均二乗誤差（ＭＳＥ）関数を評価することを含む、実施形態２に記載の方法。

実施形態２３．第２の停止基準は、平均二乗誤差（ＭＳＥ）関数を評価することを含む、実施形態３に記載の方法。
実施形態２４．第３の停止基準は、曲線下面積（ＡＵＣ）関数を評価することを含む、実施形態５または６に記載の方法。

実施形態２５．予測スコアは、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用データとして分類されるポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データの確率である、実施形態１に記載の方法。

実施形態２６．予測スコアに基づいて、ＧＡＮが訓練されていることを決定することは、予測スコアのうちの１つ以上を閾値と比較することを含む、実施形態１に記載の方法。
実施形態２７．敵対的生成ネットワーク（ＧＡＮ）を訓練するための方法であって、ＧＡＮ発生装置によって、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成することと、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮがポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データをＣＮＮに提示して、予測スコアを生成することと、予測スコアに基づいて、ＧＡＮが訓練されいないと決定することと、予測スコアに基づいて、ＧＡＮが訓練されているとの決定がなされるまで、ａ〜ｃを繰り返すことと、ＧＡＮおよびＣＮＮを出力することと、を含む、方法。

実施形態２８．ＧＡＮ発生装置によって、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成することは、ＧＡＮパラメータのセットに従ってＧＡＮ発生装置によって、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む第１のシミュレーションデータセットを生成することと、ＭＨＣ対立遺伝子のポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用を有する第１のシミュレーションデータセットを、ＭＨＣ対立遺伝子のネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用と組み合わせて、ＧＡＮ訓練データセットを作成することと、決定境界に従って弁別装置によって、ＧＡＮ訓練データセットにおけるＭＨＣ対立遺伝子のポジティブポリペプチド−ＭＨＣ−Ｉ相互作用が、シミュレーションポジティブ、実ポジティブ、または実ネガティブであるかどうかを決定することと、弁別装置による決定の正確さに基づいて、ＧＡＮパラメータのセットまたは決定境界のうちの１つ以上を調節することと、第１の停止基準が満たされるまで、ｇ〜ｊを繰り返すことと、を含む、実施形態２７に記載の方法。

実施形態２９．ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮがポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示することは、ＧＡＮパラメータのセットに従ってＧＡＮ発生装置によって、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む、第２のシミュレーションデータセットを生成することと、第２のシミュレーションデータセットを、ＭＨＣ対立遺伝子の既知のポジティブポリペプチド−ＭＨＣ−Ｉ相互作用およびＭＨＣ対立遺伝子の既知のネガティブポリペプチド−ＭＨＣ−Ｉ相互作用と組み合わせて、ＣＮＮ訓練データセットを作成することと、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮ訓練データセットを提示することと、ＣＮＮパラメータのセットに従ってＣＮＮによって、ＣＮＮ訓練データセットにおけるＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することと、ＣＮＮによる分類の正確さに基づいて、ＣＮＮパラメータのセットのうちの１つ以上を調節することと、第２の停止基準が満たされるまで、ｎ〜ｐを繰り返すことと、を含む、実施形態２８に記載の方法。

実施形態３０．ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＣＮＮに提示して、予測スコアを生成することは、ＣＮＮパラメータのセットに従ってＣＮＮによって、ＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することを含む、実施形態２９に記載の方法。

実施形態３１．予測スコアに基づいて、ＧＡＮが訓練されていることを決定することは、ＣＮＮによる分類の正確さを決定することを含み、（場合によっては）分類の正確さが第３の停止基準を満たしている場合に、ＧＡＮおよびＣＮＮが出力される、実施形態３０に記載の方法。

実施形態３２．予測スコアに基づいて、ＧＡＮが訓練されていることを決定することは、ＣＮＮによる分類の正確さを決定することを含み、（場合によっては）分類の正確さが第３の停止基準を満たしていない場合に、ステップａに戻る、実施形態３１に記載の方法。

実施形態３３．ＧＡＮパラメータは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの１つ以上を含む、実施形態２８に記載の方法。

実施形態３４．ＨＬＡ対立遺伝子タイプは、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、またはそのサブタイプのうちの１つ以上を含む、実施形態３３に記載の方法。
実施形態３５．ＨＬＡ対立遺伝子長さは、約８〜約１２アミノ酸である、実施形態３３に記載の方法。

実施形態３６．ＨＬＡ対立遺伝子長さは、約９〜約１１アミノ酸である、実施形態３５に記載の方法。
実施形態３７．データセットをＣＮＮに提示することであって、データセットが複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用を含む、提示することと、ＣＮＮによって、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用の各々を、ポジティブまたはネガティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類することと、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類された候補ポリペプチド−ＭＨＣ−Ｉ相互作用から、ポリペプチドを合成することと、をさらに含む、実施形態２７に記載の方法。

実施形態３８．実施形態３７に記載の方法によって作製されたポリペプチド。
実施形態３９．ポリペプチドは、腫瘍特異的抗原である、実施形態３７に記載の方法。
実施形態４０．ポリペプチドは、選択されたＭＨＣ対立遺伝子によってコードされるＭＨＣ−Ｉタンパク質に特異的に結合するアミノ酸配列を含む、実施形態３７に記載の方法。

実施形態４１．ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データは、選択された対立遺伝子と関連付けられている、実施形態２７に記載の方法。

実施形態４２．選択された対立遺伝子は、Ａ０２０１、Ａ０２０２、Ａ０２０３、Ｂ２７０３、Ｂ２７０５、およびそれらの組み合わせからなる群から選択される、実施形態４１に記載の方法。

実施形態４３．ＧＡＮ発生装置によって、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成することは、ＧＡＮ発生装置の勾配降下発現を評価することを含む、実施形態２７に記載の方法。

実施形態４４．ＧＡＮ発生装置によって、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成することは、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データに高い確率を、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用に低い確率を、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を与える可能性を高めるために、ＧＡＮ弁別装置を繰り返し実行する（例えば、最適化する）ことと、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データが高くレート付けされる確率を高めるために、ＧＡＮ発生装置を繰り返し実行する（例えば、最適化する）ことと、を含む、実施形態２７に記載の方法。

実施形態４５．ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮがポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示することは、畳み込み処置を実施することと、非線形性（ＲｅｌＵ）処置を実施することと、プーリングまたはサブサンプリング処置を実施することと、分類（完全接続層）処置を実施することと、を含む、実施形態２７に記載の方法。

実施形態４６．ＧＡＮは、深層畳み込みＧＡＮ（ＤＣＧＡＮ）を含む、実施形態２７に記載の方法。
実施形態４７．第１の停止基準は、平均二乗誤差（ＭＳＥ）関数を評価することを含む、実施形態２８に記載の方法。

実施形態４８．第２の停止基準は、平均二乗誤差（ＭＳＥ）関数を評価することを含む、実施形態２７に記載の方法。
実施形態４９．第３の停止基準は、曲線下面積（ＡＵＣ）関数を評価することを含む、実施形態３１または３２に記載の方法。

実施形態５０．予測スコアは、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用データとして分類されるポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データの確率である、実施形態２７に記載の方法。

実施形態５１．予測スコアに基づいて、ＧＡＮが訓練されていることを決定することは、予測スコアのうちの１つ以上を閾値と比較することを含む、実施形態２７に記載の方法。

実施形態５２．敵対的生成ネットワーク（ＧＡＮ）を訓練するための方法であって、ＧＡＮパラメータのセットに従ってＧＡＮ発生装置によって、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む第１のシミュレーションデータセットを生成することと、ＭＨＣ対立遺伝子のポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用を有する第１のシミュレーションデータセットを、ＭＨＣ対立遺伝子のネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用と組み合わせることと、決定境界に従って弁別装置によって、ＧＡＮ訓練データセットにおけるＭＨＣ対立遺伝子のポジティブポリペプチド−ＭＨＣ−Ｉ相互作用が、ポジティブまたはネガティブであるかどうかを決定することと、弁別装置による決定の正確さに基づいて、ＧＡＮパラメータのセットまたは決定境界のうちの１つ以上を調節することと、第１の停止基準が満たされるまで、ａ〜ｄを繰り返すことと、ＧＡＮパラメータのセットに従ってＧＡＮ発生装置によって、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む、第２のシミュレーションデータセットを生成することと、第２のシミュレーションデータセットを、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用と組み合わせて、ＣＮＮ訓練データセットを作成することと、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮ訓練データセットを提示することと、ＣＮＮパラメータのセットに従ってＣＮＮによって、ＣＮＮ訓練データセットにおけるＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することと、ＣＮＮ訓練データセットにおけるＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用のＣＮＮによる分類の正確さに基づいて、ＣＮＮパラメータのセットのうちの１つ以上を調節することと、第２の停止基準が満たされるまで、ｈ〜ｊを繰り返すことと、ＣＮＮに、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを提示することと、ＣＮＮパラメータのセットに従ってＣＮＮによって、ＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することと、予測スコアに基づいて、ＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用のＣＮＮによる分類の正確さを決定することと、を含み、（場合によっては）分類の正確さが第３の停止基準を満たしている場合に、ＧＡＮおよびＣＮＮが出力され、（場合によっては）分類の正確さが第３の停止基準を満たしていない場合に、ステップａに戻る、方法。

実施形態５３．ＧＡＮパラメータは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの１つ以上を含む、実施形態５２に記載の方法。

実施形態５４．ＭＨＣ対立遺伝子は、ＨＬＡ対立遺伝子である、実施形態５２に記載の方法。
実施形態５５．ＨＬＡ対立遺伝子タイプは、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、またはそのサブタイプのうちの１つ以上を含む、実施形態５４に記載の方法。

実施形態５６．ＨＬＡ対立遺伝子長さは、約８〜約１２アミノ酸である、実施形態５４に記載の方法。
実施形態５７．ＨＬＡ対立遺伝子長さは、約９〜約１１アミノ酸である、実施形態５４に記載の方法。

実施形態５８．データセットをＣＮＮに提示することであって、データセットが複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用を含む、提示することと、ＣＮＮによって、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用の各々を、ポジティブまたはネガティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類することと、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類された候補ポリペプチド−ＭＨＣ−Ｉ相互作用から、ポリペプチドを合成することと、をさらに含む、実施形態５２に記載の方法。

実施形態５９．実施形態５８に記載の方法によって作製されたポリペプチド。
実施形態６０．ポリペプチドは、腫瘍特異的抗原である、実施形態５８に記載の方法。
実施形態６１．ポリペプチドは、選択されたヒト白血球抗原（ＨＬＡ）対立遺伝子によってコードされるＭＨＣ−Ｉタンパク質に特異的に結合するアミノ酸配列を含む、実施形態５８に記載の方法。

実施形態６２．ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データは、選択された対立遺伝子と関連付けられている、実施形態５２に記載の方法。

実施形態６３．選択された対立遺伝子は、Ａ０２０１、Ａ０２０２、Ａ０２０３、Ｂ２７０３、Ｂ２７０５、およびそれらの組み合わせからなる群から選択される、実施形態６２に記載の方法。

実施形態６４．第１の停止基準が満たされるまで、ａ〜ｄを繰り返すことは、ＧＡＮ発生装置の勾配降下発現を評価することを含む、実施形態５２に記載の方法。
実施形態６５．第１の停止基準が満たされるまで、ａ〜ｄを繰り返すことは、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データに高い確率を、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を与える可能性を高めるために、ＧＡＮ弁別装置を繰り返し実行する（例えば、最適化する）ことと、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データが高くレート付けされる確率を高めるために、ＧＡＮ発生装置を繰り返し実行する（例えば、最適化する）ことと、を含む、実施形態５２に記載の方法。

実施形態６６．ＣＮＮ訓練データセットをＣＮＮに提示することは、畳み込み処置を実施することと、非線形性（ＲｅｌＵ）処置を実施することと、プーリングまたはサブサンプリング処置を実施することと、分類（完全接続層）処置を実施することと、を含む、実施形態５２に記載の方法。

実施形態６７．ＧＡＮは、深層畳み込みＧＡＮ（ＤＣＧＡＮ）を含む、実施形態５２に記載の方法。
実施形態６８．第１の停止基準は、平均二乗誤差（ＭＳＥ）関数を評価することを含む、実施形態５２に記載の方法。

実施形態６９．第２の停止基準は、平均二乗誤差（ＭＳＥ）関数を評価することを含む、実施形態５２に記載の方法。
実施形態７０．第３の停止基準は、曲線下面積（ＡＵＣ）関数を評価することを含む、実施形態５２に記載の方法。

実施形態７１．実施形態１に記載の方法に従って畳み込みニューラルネットワーク（ＣＮＮ）を訓練することと、データセットをＣＮＮに提示することであって、データセットが複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用を含む、提示することと、ＣＮＮによって、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用の各々を、ポジティブまたはネガティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類することと、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類された候補ポリペプチド−ＭＨＣ−Ｉ相互作用と関連付けられたポリペプチドを合成することと、を含む、方法。

実施形態７２．ＣＮＮは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの１つ以上を含むＧＡＮパラメータに基づいて訓練される、実施形態７１に記載の方法。

実施形態７３．対立遺伝子タイプは、ＨＬＡ対立遺伝子タイプである、実施形態７２に記載の方法。
実施形態７４．ＨＬＡ対立遺伝子タイプは、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、またはそのサブタイプのうちの１つ以上を含む、実施形態７３に記載の方法。

実施形態７５．ＨＬＡ対立遺伝子長さは、約８〜約１２アミノ酸である、実施形態７３に記載の方法。
実施形態７６．ＨＬＡ対立遺伝子長さは、約９〜約１１アミノ酸である、実施形態７３に記載の方法。

実施形態７７．実施形態７１に記載の方法によって作製されたポリペプチド。
実施形態７８．ポリペプチドは、腫瘍特異的抗原である、実施形態７１に記載の方法。
実施形態７９．ポリペプチドは、選択されたヒト白血球抗原（ＨＬＡ）対立遺伝子によってコードされるＭＨＣ−Ｉタンパク質に特異的に結合するアミノ酸配列を含む、実施形態７１に記載の方法。

実施形態８０．ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データは、選択された対立遺伝子と関連付けられている、実施形態７１に記載の方法。

実施形態８１．選択された対立遺伝子は、Ａ０２０１、Ａ０２０２、Ａ０２０３、Ｂ２７０３、Ｂ２７０５、およびそれらの組み合わせからなる群から選択される、実施形態８０に記載の方法。

実施形態８２．ＧＡＮは、深層畳み込みＧＡＮ（ＤＣＧＡＮ）を含む、実施形態７１に記載の方法。
実施形態８３．敵対的生成ネットワーク（ＧＡＮ）を訓練するための装置であって、１つ以上のプロセッサと、１つ以上のプロセッサによって実行されると、装置に、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成することと、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮがポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データをＣＮＮに提示して、予測スコアを生成することと、予測スコアに基づいて、ＧＡＮが訓練されていることを決定することと、ＧＡＮおよびＣＮＮを出力することと、を行わせる、プロセッサ実行可能命令を記憶する、メモリと、を含む、装置。

実施形態８４．１つ以上のプロセッサによって実行されると、装置に、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、ＧＡＮパラメータのセットに従って、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む第１のシミュレーションデータセットを生成することと、ＭＨＣ対立遺伝子のポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用を有する第１のシミュレーションデータセットを、ＭＨＣ対立遺伝子のネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用と組み合わせて、ＧＡＮ訓練データセットを作成することと、弁別装置から情報を受信することであって、弁別装置が、決定境界に従って、ＧＡＮ訓練データセットにおけるＭＨＣ対立遺伝子のポジティブポリペプチド−ＭＨＣ−Ｉ相互作用がポジティブまたはネガティブであるかどうかを決定するように構成されている、受信することと、弁別装置からの情報の正確さに基づいて、ＧＡＮパラメータのセットまたは決定境界のうちの１つ以上を調節することと、第１の停止基準が満たされるまで、ａ〜ｄを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態８３に記載の装置。

実施形態８５．１つ以上のプロセッサによって実行されると、装置に、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮがポリペプチドＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、ＧＡＮパラメータのセットに従って、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む第２のシミュレーションデータセットを生成することと、第２のシミュレーションデータセットを、ＭＨＣ対立遺伝子のポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびＭＨＣ対立遺伝子のネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データと組み合わせて、ＣＮＮ訓練データセットを作成することと、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮ訓練データセットを提示することと、ＣＮＮから訓練情報を受信することであって、ＣＮＮが、ＣＮＮパラメータのセットに従って、ＣＮＮ訓練データセットにおけるＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することによって、訓練情報を決定するように構成されている、受信することと、訓練情報の正確さに基づいて、ＣＮＮパラメータのセットのうちの１つ以上を調節することと、第２の停止基準が満たされるまで、ｈ〜ｊを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態８４に記載の装置。

実施形態８６．１つ以上のプロセッサによって実行されると、装置に、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データをＣＮＮに提示させて、予測スコアを生成させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、ＣＮＮパラメータのセットに従って、ＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類させる、プロセッサ実行可能命令をさらに含む、実施形態８５に記載の装置。

実施形態８７．１つ以上のプロセッサによって実行されると、装置に、予測スコアに基づいて、ＧＡＮが訓練されていることを決定させるプロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、ＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用の分類の正確さを、ポジティブまたはネガティブとして決定させて、（場合によっては）分類の正確さが第３の停止基準を満たしている場合に、ＧＡＮおよびＣＮＮを出力させる、プロセッサ実行可能命令をさらに含む、実施形態８６に記載の装置。

実施形態８８．１つ以上のプロセッサによって実行されると、装置に、予測スコアに基づいて、ＧＡＮが訓練されていることを決定させるプロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、ＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用の分類の正確さを、ポジティブまたはネガティブとして決定させて、（場合によっては）分類の正確さが第３の停止基準を満たしていない場合に、ステップａに戻らせる、プロセッサ実行可能命令をさらに含む、実施形態８６に記載の装置。

実施形態８９．ＧＡＮパラメータは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの１つ以上を含む、実施形態８４に記載の装置。

実施形態９０．ＨＬＡ対立遺伝子タイプは、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、またはそのサブタイプのうちの１つ以上を含む、実施形態８９に記載の装置。
実施形態９１．ＨＬＡ対立遺伝子長さは、約８〜約１２アミノ酸である、実施形態８９に記載の装置。

実施形態９２．ＨＬＡ対立遺伝子長さは、約９〜約１１アミノ酸である、実施形態８９に記載の装置。
実施形態９３．プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、データセットをＣＮＮに提示することであって、データセットが、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用を含み、ＣＮＮが、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用の各々を、ポジティブまたはネガティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類するようにさらに構成されている、提示することと、ＣＮＮがポジティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類した候補ポリペプチド−ＭＨＣ−Ｉ相互作用から、ポリペプチドを合成することと、をさらに行わせる、実施形態８３に記載の装置。

実施形態９４．実施形態９３に記載の装置によって作製されたポリペプチド。
実施形態９５．ポリペプチドは、腫瘍特異的抗原である、実施形態９３に記載の装置。
実施形態９６．ポリペプチドは、選択されたヒト白血球抗原（ＨＬＡ）対立遺伝子によってコードされるＭＨＣ−Ｉタンパク質に特異的に結合するアミノ酸配列を含む、実施形態９３に記載の装置。

実施形態９７．ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データは、選択された対立遺伝子と関連付けられている、実施形態８３に記載の装置。

実施形態９８．選択された対立遺伝子は、Ａ０２０１、Ａ０２０２、Ａ０２０３、Ｂ２７０３、Ｂ２７０５、およびそれらの組み合わせからなる群から選択される、実施形態９７に記載の装置。

実施形態９９．１つ以上のプロセッサによって実行されると、装置に、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、ＧＡＮ発生装置の勾配降下発現を評価させるプロセッサ実行可能命令をさらに含む、実施形態８３に記載の装置。

実施形態１００．１つ以上のプロセッサによって実行されると、装置に、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データに高い確率を、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を、およびネガティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を与える可能性を高めるために、ＧＡＮ弁別装置を繰り返し実行する（例えば、最適化する）ことと、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データが高くレート付けされる確率を高めるために、ＧＡＮ発生装置を繰り返し実行する（例えば、最適化する）ことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態８３に記載の装置。

実施形態１０１．１つ以上のプロセッサによって実行されると、装置に、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮがポリペプチドＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブな実際のものとして分類するまで提示させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、畳み込み処置を実施することと、
非線形性（ＲｅｌＵ）処置を実施することと、プーリングまたはサブサンプリング処置を実施することと、分類（完全接続層）処置を実施することと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態８３に記載の装置。

実施形態１０２．ＧＡＮは、深層畳み込みＧＡＮ（ＤＣＧＡＮ）を含む、実施形態８３に記載の装置。
実施形態１０３．第１の停止基準は、平均二乗誤差（ＭＳＥ）関数の評価を含む、実施形態８４に記載の装置。

実施形態１０４．第２の停止基準は、平均二乗誤差（ＭＳＥ）関数の評価を含む、実施形態８５に記載の装置。
実施形態１０５．第３の停止基準は、曲線下面積（ＡＵＣ）関数の評価を含む、実施形態８７または８８に記載の装置。

実施形態１０６．予測スコアは、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用データとして分類されるポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データの確率である、実施形態８３に記載の装置。

実施形態１０７．１つ以上のプロセッサによって実行されると、装置に、予測スコアに基づいて、ＧＡＮが訓練されていることを決定させるプロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、予測スコアのうちの１つ以上を閾値と比較させる、プロセッサ実行可能命令をさらに含む、実施形態８３に記載の装置。

実施形態１０８．敵対的生成ネットワーク（ＧＡＮ）を訓練するための装置であって、
１つ以上のプロセッサと、
１つ以上のプロセッサによって実行されると、装置に、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成することと、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮがポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データをＣＮＮに提示して、予測スコアを生成することと、予測スコアに基づいて、ＧＡＮが訓練されていないことを決定することと、予測スコアに基づく、ＧＡＮが訓練されていることの決定がなされるまで、ａ〜ｃを繰り返すことと、ＧＡＮおよびＣＮＮを出力することと、を行わせる、プロセッサ実行可能命令を記憶する、メモリと、を含む、装置。

実施形態１０９．１つ以上のプロセッサによって実行されると、装置に、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、ＧＡＮパラメータのセットに従って、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む第１のシミュレーションデータセットを生成することと、ＭＨＣ対立遺伝子のポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用を有する第１のシミュレーションデータセットを、ＭＨＣ対立遺伝子のポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用と組み合わせて、ＧＡＮ訓練データセットを作成することと、弁別装置から情報を受信することであって、弁別装置が、ＧＡＮ訓練データセットにおけるＭＨＣ対立遺伝子のポジティブポリペプチド−ＭＨＣ−Ｉ相互作用がポジティブまたはネガティブであるかどうかを決定するように構成されている、受信することと、弁別装置からの情報の正確さに基づいて、ＧＡＮパラメータのセットまたは決定境界のうちの１つ以上を調節することと、第１の停止基準が満たされるまで、ｉ〜ｊを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態１０８に記載の装置。

実施形態１１０．１つ以上のプロセッサによって実行されると、装置に、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮがポリペプチドＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、ＧＡＮパラメータのセットに従って、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む第２のシミュレーションデータセットを生成することと、第２のシミュレーションデータセットを、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データと組み合わせて、ＣＮＮ訓練データセットを作成することと、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮ訓練データセットを提示することと、ＣＮＮから情報を受信することであって、ＣＮＮが、ＣＮＮパラメータのセットに従って、ＣＮＮ訓練データセットにおけるＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することによって、情報を決定するように構成されている、受信することと、ＣＮＮからの情報の正確さに基づいて、ＣＮＮパラメータのセットのうちの１つ以上を調節することと、第２の停止基準が満たされるまで、ｎ〜ｐを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態１０９に記載の装置。

実施形態１１１．１つ以上のプロセッサによって実行されると、装置に、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データをＣＮＮに提示させて、予測スコアを生成させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データをＣＮＮに提示させる、プロセッサ実行可能命令をさらに含み、ＣＮＮは、ＣＮＮパラメータのセットに従って、ＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類するようにさらに構成されている、実施形態１１０に記載の装置。

実施形態１１２．１つ以上のプロセッサによって実行されると、装置に、予測スコアに基づいて、ＧＡＮが訓練されていることを決定させるプロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、ＣＮＮによる分類の正確さを決定することと、分類の正確さが第３の停止基準を満たしていることを決定することと、分類の正確さが第３の停止基準を満たしているとの決定に応じて、ＧＡＮおよびＣＮＮを出力することと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態１１１に記載の装置。

実施形態１１３．１つ以上のプロセッサによって実行されると、装置に、予測スコアに基づいて、ＧＡＮが訓練されていることを決定させるプロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、ＣＮＮによる分類の正確さを決定することと、分類の正確さが第３の停止基準を満たしていないことを決定することと、分類の正確さが第３の停止基準を満たしていないとの決定に応じて、ステップａに戻ることと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態１１２に記載の装置。

実施形態１１４．ＧＡＮパラメータは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの１つ以上を含む、実施形態１０９に記載の装置。

実施形態１１５．ＭＨＣ対立遺伝子は、ＨＬＡ対立遺伝子である、実施形態１０９に記載の装置。
実施形態１１６．ＨＬＡ対立遺伝子タイプは、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、またはそのサブタイプのうちの１つ以上を含む、実施形態１１５に記載の装置。

実施形態１１７．ＨＬＡ対立遺伝子長さは、約８〜約１２アミノ酸である、実施形態１１５に記載の装置。
実施形態１１８．ＨＬＡ対立遺伝子長さは、約９〜約１１アミノ酸である、実施形態１１５に記載の装置。

実施形態１１９．プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、データセットをＣＮＮに提示することであって、データセットが、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用を含み、ＣＮＮが、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用の各々を、ポジティブまたはネガティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類するようにさらに構成されている、提示することと、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用として、ＣＮＮによって分類された候補ポリペプチド−ＭＨＣ−Ｉ相互作用から、ポリペプチドを合成することと、をさらに行わせる、実施形態１０８に記載の装置。

実施形態１２０．実施形態１１９に記載の装置によって作製されたポリペプチド。
実施形態１２１．ポリペプチドは、腫瘍特異的抗原である、実施形態１１９に記載の装置。

実施形態１２２．ポリペプチドは、選択されたヒト白血球抗原（ＨＬＡ）対立遺伝子によってコードされるＭＨＣ−Ｉタンパク質に特異的に結合するアミノ酸配列を含む、実施形態１１９に記載の装置。

実施形態１２３．ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データは、選択された対立遺伝子と関連付けられている、実施形態１０８に記載の装置。

実施形態１２４．選択された対立遺伝子は、Ａ０２０１、Ａ０２０２、Ａ０２０３、Ｂ２７０３、Ｂ２７０５、およびそれらの組み合わせからなる群から選択される、実施形態１２３に記載の装置。

実施形態１２５．１つ以上のプロセッサによって実行されると、装置に、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、ＧＡＮ発生装置の勾配降下発現を評価させるプロセッサ実行可能命令をさらに含む、実施形態１０８に記載の装置。

実施形態１２６．１つ以上のプロセッサによって実行されると、装置に、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データに高い確率を、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を、およびネガティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を与える可能性を高めるために、ＧＡＮ弁別装置を繰り返し実行する（例えば、最適化する）ことと、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データが高くレート付けされる確率を高めるために、ＧＡＮ発生装置を繰り返し実行する（例えば、最適化する）ことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態１０８に記載の装置。

実施形態１２７．１つ以上のプロセッサによって実行されると、装置に、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮがポリペプチドＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、畳み込み処置を実施することと、非線形性（ＲｅｌＵ）処置を実施することと、プーリングまたはサブサンプリング処置を実施することと、分類（完全接続層）処置を実施することと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態１０８に記載の装置。

実施形態１２８．ＧＡＮは、深層畳み込みＧＡＮ（ＤＣＧＡＮ）を含む、実施形態１０８に記載の装置。
実施形態１２９．第１の停止基準は、平均二乗誤差（ＭＳＥ）関数の評価を含む、実施形態１０９に記載の装置。

実施形態１３０．第２の停止基準は、平均二乗誤差（ＭＳＥ）関数の評価を含む、実施形態１０８に記載の装置。
実施形態１３１．第３の停止基準は、曲線下面積（ＡＵＣ）関数の評価を含む、実施形態１１２または１１３に記載の装置。

実施形態１３２．予測スコアは、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用データとして分類されるポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データの確率である、実施形態１０８に記載の装置。

実施形態１３３．１つ以上のプロセッサによって実行されると、装置に、予測スコアに基づいて、ＧＡＮが訓練されていることを決定させるプロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、予測スコアのうちの１つ以上を閾値と比較させる、プロセッサ実行可能命令をさらに含む、実施形態１０８に記載の装置。

実施形態１３４．敵対的生成ネットワーク（ＧＡＮ）を訓練するための装置であって、１つ以上のプロセッサと、１つ以上のプロセッサによって実行されると、装置に、ＧＡＮパラメータのセットに従って、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む第１のシミュレーションデータセットを生成することと、ＭＨＣ対立遺伝子のポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用を有する第１のシミュレーションデータセットを、ＭＨＣ対立遺伝子のネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用と組み合わせて、ＧＡＮ訓練データセットを作成することと、弁別装置から情報を受信することであって、弁別装置が、決定境界に従って、ＧＡＮ訓練データセットにおけるＭＨＣ対立遺伝子のポジティブポリペプチド−ＭＨＣ−Ｉ相互作用がポジティブまたはネガティブであるかどうかを決定するように構成されている、受信することと、弁別装置からの情報の正確さに基づいて、ＧＡＮパラメータのセットまたは決定境界のうちの１つ以上を調節することと、
第１の停止基準が満たされるまで、ａ〜ｄを繰り返すことと、ＧＡＮパラメータのセットに従って、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む第２のシミュレーションデータセットを生成することと、第２のシミュレーションデータセットを、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびＭＨＣ対立遺伝子のネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データと組み合わせて、ＣＮＮ訓練データセットを作成することと、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮ訓練データセットを提示することと、ＣＮＮから訓練情報を受信することであって、ＣＮＮが、ＣＮＮパラメータのセットに従って、ＣＮＮ訓練データセットにおけるＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することによって、訓練情報を決定するように構成されている、受信することと、訓練情報の正確さに基づいて、ＣＮＮパラメータのセットのうちの１つ以上を調節することと、第２の停止基準が満たされるまで、ｈ〜ｊを繰り返すことと、ＭＨＣ対立遺伝子のポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびＭＨＣ対立遺伝子のネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＣＮＮに提示することと、ＣＮＮから訓練情報を受信することであって、ＣＮＮが、ＣＮＮパラメータのセットに従って、ＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することによって、訓練情報を決定するように構成されている、受信することと、訓練情報の正確さを決定することであって、（場合によっては）訓練情報の正確さが第３の停止基準を満たしている場合に、ＧＡＮおよびＣＮＮを出力させ、（場合によっては）訓練情報の正確さが第３の停止基準を満たしていない場合に、ステップａに戻らせる、決定することと、を行わせる、プロセッサ実行可能命令を記憶する、メモリと、を含む、装置。

実施形態１３５．ＧＡＮパラメータは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの１つ以上を含む、実施形態１３４に記載の装置。

実施形態１３６．ＭＨＣ対立遺伝子は、ＨＬＡ対立遺伝子である、実施形態１３４に記載の装置。
実施形態１３７．ＨＬＡ対立遺伝子タイプは、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、またはそのサブタイプのうちの１つ以上を含む、実施形態１３６に記載の装置。

実施形態１３８．ＨＬＡ対立遺伝子長さは、約８〜約１２アミノ酸である、実施形態１３６に記載の装置。
実施形態１３９．ＨＬＡ対立遺伝子長さは、約９〜約１１アミノ酸である、実施形態１３６に記載の装置。

実施形態１４０．プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、データセットをＣＮＮに提示することであって、データセットが、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用を含み、ＣＮＮが、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用の各々を、ポジティブまたはネガティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類するようにさらに構成されている、提示することと、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用として、ＣＮＮによって分類された候補ポリペプチド−ＭＨＣ−Ｉ相互作用から、ポリペプチドを合成することと、をさらに行わせる、実施形態１３４に記載の装置。

実施形態１４１．実施形態１４０に記載の装置によって作製されたポリペプチド。
実施形態１４２．ポリペプチドは、腫瘍特異的抗原である、実施形態１４０に記載の装置。

実施形態１４３．ポリペプチドは、ＭＨＣ対立遺伝子によってコードされるＭＨＣ−Ｉタンパク質に特異的に結合するアミノ酸配列を含む、実施形態１４０に記載の装置。
実施形態１４４．ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データは、選択された対立遺伝子と関連付けられている、実施形態１３４に記載の装置。

実施形態１４５．選択された対立遺伝子は、Ａ０２０１、Ａ０２０２、Ａ０２０３、Ｂ２７０３、Ｂ２７０５、およびそれらの組み合わせからなる群から選択される、実施形態１４４に記載の装置。

実施形態１４６．１つ以上のプロセッサによって実行されると、装置に、第１の停止基準が満たされるまで、ａ〜ｄを繰り返させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、ＧＡＮ発生装置の勾配降下発現を評価させるプロセッサ実行可能命令をさらに含む、実施形態１３４に記載の装置。

実施形態１４７．１つ以上のプロセッサによって実行されると、装置に、第１の停止基準が満たされるまで、ａ〜ｄを繰り返させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データに高い確率を、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を、およびネガティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を与える可能性を高めるために、ＧＡＮ弁別装置を繰り返し実行する（例えば、最適化する）ことと、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データが高くレート付けされる確率を高めるために、ＧＡＮ発生装置を繰り返し実行する（例えば、最適化する）ことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態１３４に記載の装置。

実施形態１４８．１つ以上のプロセッサによって実行されると、装置に、ＣＮＮ訓練データセットをＣＮＮに提示させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、畳み込み処置を実施することと、非線形性（ＲｅＬＵ）処置を実施することと、プーリングまたはサブサンプリング処置を実施することと、分類（完全接続層）処置を実施することと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態１３４に記載の装置。

実施形態１４９．ＧＡＮは、深層畳み込みＧＡＮ（ＤＣＧＡＮ）を含む、実施形態１３４に記載の装置。
実施形態１５０．第１の停止基準は、平均二乗誤差（ＭＳＥ）関数の評価を含む、実施形態１３４に記載の装置。

実施形態１５１．第２の停止基準は、平均二乗誤差（ＭＳＥ）関数の評価を含む、実施形態１３４に記載の装置。
実施形態１５２．第３の停止基準は、曲線下面積（ＡＵＣ）関数の評価を含む、実施形態１３４に記載の装置。

実施形態１５３．１つ以上のプロセッサと、１つ以上のプロセッサによって実行されると、装置に、実施形態８３に記載の装置と同じ手段によって畳み込みニューラルネットワーク（ＣＮＮ）を訓練することと、データセットをＣＮＮに提示することであって、データセットが、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用を含み、ＣＮＮが、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用の各々を、ポジティブまたはネガティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類するように構成されている、提示することと、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用として、ＣＮＮによって分類された候補ポリペプチド−ＭＨＣ−Ｉ相互作用と関連付けられたポリペプチドを合成することと、を行わせる、プロセッサ実行可能命令を記憶する、メモリと、を含む、装置。

実施形態１５４．ＣＮＮは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの１つ以上を含むＧＡＮパラメータに基づいて訓練される、実施形態１５３に記載の装置。

実施形態１５５．ＨＬＡ対立遺伝子タイプは、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、またはそのサブタイプのうちの１つ以上を含む、実施形態１５４に記載の装置。
実施形態１５６．ＨＬＡ対立遺伝子長さは、約８〜約１２アミノ酸である、実施形態１５４に記載の装置。

実施形態１５７．ＨＬＡ対立遺伝子長さは、約９〜約１１アミノ酸である、実施形態１５５に記載の装置。
実施形態１５８．実施形態１５３に記載の装置によって作製されたポリペプチド。

実施形態１５９．ポリペプチドは、腫瘍特異的抗原である、実施形態１５３に記載の装置。
実施形態１６０．ポリペプチドは、選択されたＭＨＣ対立遺伝子によってコードされるＭＨＣ−Ｉタンパク質に特異的に結合するアミノ酸配列を含む、実施形態１５３に記載の装置。

実施形態１６１．ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データは、選択された対立遺伝子と関連付けられている、実施形態１５３に記載の装置。

実施形態１６２．選択された対立遺伝子は、Ａ０２０１、Ａ０２０２、Ａ０２０３、Ｂ２７０３、Ｂ２７０５、およびそれらの組み合わせからなる群から選択される、実施形態１６１に記載の装置。

実施形態１６３．ＧＡＮは、深層畳み込みＧＡＮ（ＤＣＧＡＮ）を含む、実施形態１５３に記載の装置。
実施形態１６４．敵対的生成ネットワーク（ＧＡＮ）を訓練するための非一時的コンピュータ可読媒体であって、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成することと、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮがポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データをＣＮＮに提示して、予測スコアを生成することと、予測スコアに基づいて、ＧＡＮが訓練されていることを決定することと、ＧＡＮおよびＣＮＮを出力することと、を行わせる、プロセッサ実行可能命令を記憶している、非一時的コンピュータ可読媒体。

実施形態１６５．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、１つ以上のプロセッサに、ＧＡＮパラメータのセットに従って、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む第１のシミュレーションデータセットを生成することと、ＭＨＣ対立遺伝子のポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用を有する第１のシミュレーションデータセットを、ＭＨＣ対立遺伝子のネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用と組み合わせて、ＧＡＮ訓練データセットを作成することと、弁別装置から情報を受信することであって、弁別装置が、決定境界に従って、ＧＡＮ訓練データセットにおけるＭＨＣ対立遺伝子のポジティブポリペプチド−ＭＨＣ−Ｉ相互作用がポジティブまたはネガティブであるかどうかを決定するように構成されている、受信することと、弁別装置からの情報の正確さに基づいて、ＧＡＮパラメータのセットまたは決定境界のうちの１つ以上を調節することと、第１の停止基準が満たされるまで、ａ〜ｄを繰り返すことと、をさらに行わせる、実施形態１６４に記載の非一時的コンピュータ可読媒体。

実施形態１６６．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮがポリペプチドＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ＧＡＮパラメータのセットに従って、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む第２のシミュレーションデータセットを生成することと、第２のシミュレーションデータセットを、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびＭＨＣ対立遺伝子のネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データと組み合わせて、ＣＮＮ訓練データセットを作成することと、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮ訓練データセットを提示することと、ＣＮＮから訓練情報を受信することであって、ＣＮＮが、ＣＮＮパラメータのセットに従って、ＣＮＮ訓練データセットにおけるＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することによって、訓練情報を決定するように構成されている、受信することと、訓練情報の正確さに基づいて、ＣＮＮパラメータのセットのうちの１つ以上を調節することと、第２の停止基準が満たされるまで、ｈ〜ｊを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態１６５に記載の非一時的コンピュータ可読媒体。

実施形態１６７．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データをＣＮＮに提示させて、予測スコアを生成させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データをＣＮＮに提示させる、プロセッサ実行可能命令をさらに含み、ＣＮＮは、ＣＮＮパラメータのセットに従って、ＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類するようにさらに構成されている、実施形態１６６に記載の非一時的コンピュータ可読媒体。

実施形態１６８．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、予測スコアに基づいて、ＧＡＮが訓練されていることを決定させるプロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用の分類の正確さを、ポジティブまたはネガティブとして決定させて、（場合によっては）分類の正確さが第３の停止基準を満たしている場合に、ＧＡＮおよびＣＮＮを出力させる、プロセッサ実行可能命令をさらに含む、実施形態１６７に記載の非一時的コンピュータ可読媒体。

実施形態１６９．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、予測スコアに基づいて、ＧＡＮが訓練されていることを決定させるプロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用の分類の正確さを、ポジティブまたはネガティブとして決定させて、（場合によっては）分類の正確さが第３の停止基準を満たしていない場合に、ステップａに戻らせる、プロセッサ実行可能命令をさらに含む、実施形態１６７に記載の非一時的コンピュータ可読媒体。

実施形態１７０．ＧＡＮパラメータは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの１つ以上を含む、実施形態１６５に記載の非一時的コンピュータ可読媒体。

実施形態１７１．ＭＨＣ対立遺伝子は、ＨＬＡ対立遺伝子である、実施形態１６５に記載の非一時的コンピュータ可読媒体。
実施形態１７２．ＨＬＡ対立遺伝子タイプは、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、またはそのサブタイプのうちの１つ以上を含む、実施形態１７１に記載の非一時的コンピュータ可読媒体。

実施形態１７３．ＨＬＡ対立遺伝子長さは、約８〜約１２アミノ酸である、実施形態１７１に記載の非一時的コンピュータ可読媒体。
実施形態１７４．ＨＬＡ対立遺伝子長さは、約９〜約１１アミノ酸である、実施形態１７１に記載の非一時的コンピュータ可読媒体。

実施形態１７５．プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、データセットをＣＮＮに提示することであって、データセットが、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用を含み、ＣＮＮが、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用の各々を、ポジティブまたはネガティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類するようにさらに構成されている、提示することと、ＣＮＮがポジティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類した候補ポリペプチド−ＭＨＣ−Ｉ相互作用から、ポリペプチドを合成することと、をさらに行わせる、実施形態１６４に記載の非一時的コンピュータ可読媒体。

実施形態１７６．実施形態１７５に記載の非一時的コンピュータ可読媒体によって作製されたポリペプチド。
実施形態１７７．ポリペプチドは、腫瘍特異的抗原である、実施形態１７５に記載の非一時的コンピュータ可読媒体。

実施形態１７８．ポリペプチドは、選択されたＭＨＣ対立遺伝子によってコードされるＭＨＣ−Ｉタンパク質に特異的に結合するアミノ酸配列を含む、実施形態１７５に記載の非一時的コンピュータ可読媒体。

実施形態１７９．ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データは、選択された対立遺伝子と関連付けられている、実施形態１６４に記載の非一時的コンピュータ可読媒体。

実施形態１８０．選択された対立遺伝子は、Ａ０２０１、Ａ０２０２、Ａ０２０３、Ｂ２７０３、Ｂ２７０５、およびそれらの組み合わせからなる群から選択される、実施形態１７９に記載の非一時的コンピュータ可読媒体。

実施形態１８１．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ＧＡＮ発生装置の勾配降下発現を評価させる、プロセッサ実行可能命令をさらに含む、実施形態１６４に記載の非一時的コンピュータ可読媒体。

実施形態１８２．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データに高い確率を、およびポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を与える可能性を高めるために、ＧＡＮ弁別装置を繰り返し実行する（例えば、最適化する）ことと、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データが高くレート付けされる確率を高めるために、ＧＡＮ発生装置を繰り返し実行する（例えば、最適化する）ことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態１６４に記載の非一時的コンピュータ可読媒体。

実施形態１８３．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮがポリペプチドＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブな実際のものとして分類するまで提示させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、畳み込み処置を実施することと、非線形性（ＲｅｌＵ）処置を実施することと、プーリングまたはサブサンプリング処置を実施することと、分類（完全接続層）処置を実施することと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態１６４に記載の非一時的コンピュータ可読媒体。

実施形態１８４．ＧＡＮは、深層畳み込みＧＡＮ（ＤＣＧＡＮ）を含む、実施形態１６４に記載の非一時的コンピュータ可読媒体。
実施形態１８５．第１の停止基準は、平均二乗誤差（ＭＳＥ）関数の評価を含む、実施形態１６５に記載の非一時的コンピュータ可読媒体。

実施形態１８６．第２の停止基準は、平均二乗誤差（ＭＳＥ）関数の評価を含む、実施形態１６６に記載の非一時的コンピュータ可読媒体。
実施形態１８７．第３の停止基準は、曲線下面積（ＡＵＣ）関数の評価を含む、実施形態１６８または１６９に記載の非一時的コンピュータ可読媒体。

実施形態１８８．予測スコアは、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用データとして分類されるポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データの確率である、実施形態１６４に記載の非一時的コンピュータ可読媒体。

実施形態１８９．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、予測スコアに基づいて、ＧＡＮが訓練されていることを決定させるプロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、予測スコアのうちの１つ以上を閾値と比較させる、プロセッサ実行可能命令をさらに含む、実施形態１６４に記載の非一時的コンピュータ可読媒体。

実施形態１９０．敵対的生成ネットワーク（ＧＡＮ）を訓練するための非一時的コンピュータ可読媒体であって、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成することと、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮがポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データをＣＮＮに提示して、予測スコアを生成することと、予測スコアに基づいて、ＧＡＮが訓練されていないことを決定することと、予測スコアに基づく、ＧＡＮが訓練されていることの決定がなされるまで、ａ〜ｃを繰り返すことと、ＧＡＮおよびＣＮＮを出力することと、を行わせる、プロセッサ実行可能命令を記憶している、非一時的コンピュータ可読媒体。

実施形態１９１．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ＧＡＮパラメータのセットに従って、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む第１のシミュレーションデータセットを生成することと、ＭＨＣ対立遺伝子のポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用を有する第１のシミュレーションデータセットを、ＭＨＣ対立遺伝子のネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用と組み合わせて、ＧＡＮ訓練データセットを作成することと、弁別装置から情報を受信することであって、弁別装置が、ＧＡＮ訓練データセットにおけるＭＨＣ対立遺伝子のポジティブポリペプチド−ＭＨＣ−Ｉ相互作用がポジティブまたはネガティブであるかどうかを決定するように構成されている、受信することと、弁別装置からの情報の正確さに基づいて、ＧＡＮパラメータのセットまたは決定境界のうちの１つ以上を調節することと、第１の停止基準が満たされるまで、ｇ〜ｊを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態１９０に記載の非一時的コンピュータ可読媒体。

実施形態１９２．１つ以上のプロセッサによって実行されると、装置に、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮがポリペプチドＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ＧＡＮパラメータのセットに従って、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む第２のシミュレーションデータセットを生成することと、第２のシミュレーションデータセットを、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびＭＨＣ対立遺伝子のネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データと組み合わせて、ＣＮＮ訓練データセットを作成することと、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮ訓練データセットを提示することと、ＣＮＮから情報を受信することであって、ＣＮＮが、ＣＮＮパラメータのセットに従って、ＣＮＮ訓練データセットにおけるＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することによって、情報を決定するように構成されている、受信することと、ＣＮＮからの情報の正確さに基づいて、ＣＮＮパラメータのセットのうちの１つ以上を調節することと、第２の停止基準が満たされるまで、ｌ〜ｐを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態１９１に記載の非一時的コンピュータ可読媒体。

実施形態１９３．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データをＣＮＮに提示させて、予測スコアを生成させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データをＣＮＮに提示させる、プロセッサ実行可能命令をさらに含み、ＣＮＮは、ＣＮＮパラメータのセットに従って、ＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類するようにさらに構成されている、実施形態１９２に記載の非一時的コンピュータ可読媒体。

実施形態１９４．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、予測スコアに基づいて、ＧＡＮが訓練されていることを決定させるプロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ＣＮＮによる分類の正確さを決定することと、分類の正確さが第３の停止基準を満たしていることを決定することと、分類の正確さが第３の停止基準を満たしているとの決定に応じて、ＧＡＮおよびＣＮＮを出力することと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態１９３に記載の非一時的コンピュータ可読媒体。

実施形態１９５．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、予測スコアに基づいて、ＧＡＮが訓練されていることを決定させるプロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ＣＮＮによる分類の正確さを決定することと、分類の正確さが第３の停止基準を満たしていないことを決定することと、分類の正確さが第３の停止基準を満たしていないとの決定に応じて、ステップａに戻ることと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態１９４に記載の非一時的コンピュータ可読媒体。

実施形態１９６．ＧＡＮパラメータは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの１つ以上を含む、実施形態１９１に記載の非一時的コンピュータ可読媒体。

実施形態１９７．ＭＨＣ対立遺伝子は、ＨＬＡ対立遺伝子である、実施形態１９１に記載の非一時的コンピュータ可読媒体。
実施形態１９８．ＨＬＡ対立遺伝子タイプは、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、またはそのサブタイプのうちの１つ以上を含む、実施形態１９７に記載の非一時的コンピュータ可読媒体。

実施形態１９９．ＨＬＡ対立遺伝子長さは、約８〜約１２アミノ酸である、実施形態１９７に記載の非一時的コンピュータ可読媒体。
実施形態２００．ＨＬＡ対立遺伝子長さは、約９〜約１１アミノ酸である、実施形態１９７に記載の非一時的コンピュータ可読媒体。

実施形態２０１．プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、データセットをＣＮＮに提示することであって、データセットが、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用を含み、ＣＮＮが、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用の各々を、ポジティブまたはネガティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類するようにさらに構成されている、提示することと、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用として、ＣＮＮによって分類された候補ポリペプチド−ＭＨＣ−Ｉ相互作用から、ポリペプチドを合成することと、をさらに行わせる、実施形態１９０に記載の非一時的コンピュータ可読媒体。

実施形態２０２．実施形態２０１に記載の非一時的コンピュータ可読媒体によって作製されたポリペプチド。
実施形態２０３．ポリペプチドは、腫瘍特異的抗原である、実施形態２０１に記載の非一時的コンピュータ可読媒体。

実施形態２０４．ポリペプチドは、選択されたＭＨＣ対立遺伝子によってコードされるＭＨＣ−Ｉタンパク質に特異的に結合するアミノ酸配列を含む、実施形態２０１に記載の非一時的コンピュータ可読媒体。

実施形態２０５．ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データは、選択された対立遺伝子と関連付けられている、実施形態１９０に記載の非一時的コンピュータ可読媒体。

実施形態２０６．選択された対立遺伝子は、Ａ０２０１、Ａ０２０２、Ａ０２０３、Ｂ２７０３、Ｂ２７０５、およびそれらの組み合わせからなる群から選択される、実施形態２０５に記載の非一時的コンピュータ可読媒体。

実施形態２０７．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ＧＡＮ発生装置の勾配降下発現を評価させる、プロセッサ実行可能命令をさらに含む、実施形態１９０に記載の非一時的コンピュータ可読媒体。

実施形態２０８．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、ＧＡＮ弁別装置がポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データに高い確率を、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を、およびネガティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を与える可能性を高めるために、ＧＡＮ弁別装置を繰り返し実行する（例えば、最適化する）ことと、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データが高くレート付けされる確率を高めるために、ＧＡＮ発生装置を繰り返し実行する（例えば、最適化する）ことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態１９０に記載の非一時的コンピュータ可読媒体。

実施形態２０９．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮがポリペプチドＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、畳み込み処置を実施することと、非線形性（ＲｅｌＵ）処置を実施することと、プーリングまたはサブサンプリング処置を実施することと、分類（完全接続層）処置を実施することと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態１９０に記載の非一時的コンピュータ可読媒体。

実施形態２１０．ＧＡＮは、深層畳み込みＧＡＮ（ＤＣＧＡＮ）を含む、実施形態１９０に記載の非一時的コンピュータ可読媒体。
実施形態２１１．第１の停止基準は、平均二乗誤差（ＭＳＥ）関数の評価を含む、実施形態１９１に記載の非一時的コンピュータ可読媒体。

実施形態２１２．第２の停止基準は、平均二乗誤差（ＭＳＥ）関数の評価を含む、実施形態１９０に記載の非一時的コンピュータ可読媒体。
実施形態２１３．第３の停止基準は、曲線下面積（ＡＵＣ）関数の評価を含む、実施形態１９４または１９５に記載の非一時的コンピュータ可読媒体。

実施形態２１４．予測スコアは、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用データとして分類されるポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データの確率である、実施形態１９０に記載の非一時的コンピュータ可読媒体。

実施形態２１５．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、予測スコアに基づいて、ＧＡＮが訓練されていることを決定させるプロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、予測スコアのうちの１つ以上を閾値と比較させる、プロセッサ実行可能命令をさらに含む、実施形態１９０に記載の非一時的コンピュータ可読媒体。

実施形態２１６．敵対的生成ネットワーク（ＧＡＮ）を訓練するための非一時的コンピュータ可読媒体であって、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ＧＡＮパラメータのセットに従って、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む第１のシミュレーションデータセットを生成することと、ＭＨＣ対立遺伝子のポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用を有する第１のシミュレーションデータセットを、ＭＨＣ対立遺伝子のネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用と組み合わせて、ＧＡＮ訓練データセットを作成することと、弁別装置から情報を受信することであって、弁別装置が、決定境界に従って、ＧＡＮ訓練データセットにおけるＭＨＣ対立遺伝子のポジティブポリペプチド−ＭＨＣ−Ｉ相互作用がポジティブまたはネガティブであるかどうかを決定するように構成されている、受信することと、弁別装置からの情報の正確さに基づいて、ＧＡＮパラメータのセットまたは決定境界のうちの１つ以上を調節することと、第１の停止基準が満たされるまで、ａ〜ｄを繰り返すことと、ＧＡＮパラメータのセットに従ってＧＡＮ発生装置によって、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む、第２のシミュレーションデータセットを生成することと、第２のシミュレーションデータセットを、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびＭＨＣ対立遺伝子のネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用と組み合わせて、ＣＮＮ訓練データセットを作成することと、畳み込みニューラルネットワーク（ＣＮＮ）に、ＣＮＮ訓練データセットを提示することと、ＣＮＮから訓練情報を受信することであって、ＣＮＮが、ＣＮＮパラメータのセットに従って、ＣＮＮ訓練データセットにおけるＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することによって、訓練情報を決定するように構成されている、受信することと、訓練情報の正確さに基づいて、ＣＮＮパラメータのセットのうちの１つ以上を調節することと、第２の停止基準が満たされるまで、ｈ〜ｊを繰り返すことと、ＣＮＮに、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを提示することと、ＣＮＮから訓練情報を受信することであって、ＣＮＮが、ＣＮＮパラメータのセットに従って、ＭＨＣ対立遺伝子のポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することによって、訓練情報を決定するように構成されている、受信することと、訓練情報の正確さを決定することであって、（場合によっては）訓練情報の正確さが第３の停止基準を満たしている場合に、ＧＡＮおよびＣＮＮを出力させ、
（場合によっては）訓練情報の正確さが第３の停止基準を満たしていない場合に、ステップａに戻らせる、を行わせる、プロセッサ実行可能命令を記憶している、非一時的コンピュータ可読媒体。

実施形態２１７．ＧＡＮパラメータは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの１つ以上を含む、実施形態２１６に記載の非一時的コンピュータ可読媒体。

実施形態２１８．ＭＨＣ対立遺伝子は、ＨＬＡ対立遺伝子である、実施形態２１６に記載の非一時的コンピュータ可読媒体。
実施形態２１９．ＨＬＡ対立遺伝子タイプは、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、またはそのサブタイプのうちの１つ以上を含む、実施形態２１８に記載の非一時的コンピュータ可読媒体。

実施形態２２０．ＨＬＡ対立遺伝子長さは、約８〜約１２アミノ酸である、実施形態２１８に記載の非一時的コンピュータ可読媒体。
実施形態２２１．ＨＬＡ対立遺伝子長さは、約９〜約１１アミノ酸である、実施形態２１８に記載の非一時的コンピュータ可読媒体。

実施形態２２２．プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、データセットをＣＮＮに提示することであって、データセットが、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用を含み、ＣＮＮが、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用の各々を、ポジティブまたはネガティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類するようにさらに構成されている、提示することと、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用として、ＣＮＮによって分類された候補ポリペプチド−ＭＨＣ−Ｉ相互作用から、ポリペプチドを合成することと、をさらに行わせる、実施形態２１６に記載の非一時的コンピュータ可読媒体。

実施形態２２３．実施形態２２２に記載の非一時的コンピュータ可読媒体によって作製されたポリペプチド。
実施形態２２４．ポリペプチドは、腫瘍特異的抗原である、実施形態２２２に記載の非一時的コンピュータ可読媒体。

実施形態２２５．ポリペプチドは、選択されたＭＨＣ対立遺伝子によってコードされるＭＨＣ−Ｉタンパク質に特異的に結合するアミノ酸配列を含む、実施形態２２２に記載の非一時的コンピュータ可読媒体。

実施形態２２６．ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データは、選択された対立遺伝子と関連付けられている、実施形態２１６に記載の非一時的コンピュータ可読媒体。

実施形態２２７．選択された対立遺伝子は、Ａ０２０１、Ａ０２０２、Ａ０２０３、Ｂ２７０３、Ｂ２７０５、およびそれらの組み合わせからなる群から選択される、実施形態２２６に記載の非一時的コンピュータ可読媒体。

実施形態２２８．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、第１の停止基準が満たされるまで、ａ〜ｄを繰り返させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ＧＡＮ発生装置の勾配降下発現を評価させるプロセッサ実行可能命令をさらに含む、実施形態２１６に記載の非一時的コンピュータ可読媒体。

実施形態２２９．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、第１の停止基準が満たされるまで、ａ〜ｄを繰り返させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データに高い確率を、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を、およびネガティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を与える可能性を高めるために、ＧＡＮ弁別装置を繰り返し実行する（例えば、最適化する）ことと、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データが高くレート付けされる確率を高めるために、ＧＡＮ発生装置を繰り返し実行する（例えば、最適化する）ことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態２１６に記載の非一時的コンピュータ可読媒体。

実施形態２３０．１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、ＣＮＮ訓練データセットをＣＮＮに提示させる、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、畳み込み処置を実施することと、非線形性（ＲｅＬＵ）処置を実施することと、プーリングまたはサブサンプリング処置を実施することと、分類（完全接続層）処置を実施することと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態２１６に記載の非一時的コンピュータ可読媒体。

実施形態２３１．ＧＡＮは、深層畳み込みＧＡＮ（ＤＣＧＡＮ）を含む、実施形態２１６に記載の非一時的コンピュータ可読媒体。
実施形態２３２．第１の停止基準は、平均二乗誤差（ＭＳＥ）関数の評価を含む、実施形態２１６に記載の非一時的コンピュータ可読媒体。

実施形態２３３．第２の停止基準は、平均二乗誤差（ＭＳＥ）関数の評価を含む、実施形態２１６に記載の非一時的コンピュータ可読媒体。
実施形態２３４．第３の停止基準は、曲線下面積（ＡＵＣ）関数の評価を含む、実施形態２１６に記載の非一時的コンピュータ可読媒体。

実施形態２３５．敵対的生成ネットワーク（ＧＡＮ）を訓練するための非一時的コンピュータ可読媒体であって、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、実施形態８３に記載の装置と同じ手段によって畳み込みニューラルネットワーク（ＣＮＮ）を訓練することと、データセットをＣＮＮに提示することであって、データセットが、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用を含み、ＣＮＮが、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用の各々を、ポジティブまたはネガティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類するように構成されている、提示することと、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用として、ＣＮＮによって分類された候補ポリペプチド−ＭＨＣ−Ｉ相互作用と関連付けられたポリペプチドを合成することと、を行わせる、プロセッサ実行可能命令を記憶している、非一時的コンピュータ可読媒体。

実施形態２３６．ＣＮＮは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの１つ以上を含むＧＡＮパラメータに基づいて訓練される、実施形態２３５に記載の非一時的コンピュータ可読媒体。

実施形態２３７．ＨＬＡ対立遺伝子タイプは、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、またはそのサブタイプのうちの１つ以上を含む、実施形態２３６に記載の非一時的コンピュータ可読媒体。

実施形態２３８．ＨＬＡ対立遺伝子長さは、約８〜約１２アミノ酸である、実施形態２３６に記載の非一時的コンピュータ可読媒体。
実施形態２３９．ＨＬＡ対立遺伝子長さは、約９〜約１１アミノ酸である、実施形態２３６に記載の非一時的コンピュータ可読媒体。

実施形態２４０．実施形態２３５に記載の非一時的コンピュータ可読媒体によって作製されたポリペプチド。
実施形態２４１．ポリペプチドは、腫瘍特異的抗原である、実施形態２３５に記載の非一時的コンピュータ可読媒体。

実施形態２４２．ポリペプチドは、選択されたヒト白血球抗原（ＨＬＡ）対立遺伝子によってコードされるＭＨＣ−Ｉタンパク質に特異的に結合するアミノ酸配列を含む、実施形態２３５に記載の非一時的コンピュータ可読媒体。

実施形態２４３．ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、およびネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データは、選択された対立遺伝子と関連付けられている、実施形態２３５に記載の非一時的コンピュータ可読媒体。

実施形態２４４．選択された対立遺伝子は、Ａ０２０１、Ａ０２０２、Ａ０２０３、Ｂ２７０３、Ｂ２７０５、およびそれらの組み合わせからなる群から選択される、実施形態２４３に記載の非一時的コンピュータ可読媒体。

実施形態２４５．ＧＡＮは、深層畳み込みＧＡＮ（ＤＣＧＡＮ）を含む、実施形態２３５に記載の非一時的コンピュータ可読媒体。

Claims

敵対的生成ネットワーク（ＧＡＮ）を訓練するための方法であって、
ａ．ＧＡＮ発生装置によって、増加的に正確なポジティブシミュレーションデータを、ＧＡＮ弁別装置が前記ポジティブシミュレーションデータをポジティブとして分類するまで生成することと、
ｂ．前記ポジティブシミュレーションデータ、ポジティブ実データ、およびネガティブ実データを、畳み込みニューラルネットワーク（ＣＮＮ）に、前記ＣＮＮが各タイプのデータをポジティブまたはネガティブとして分類するまで提示することと、
ｃ．前記ポジティブ実データおよび前記ネガティブ実データを前記ＣＮＮに提示して、予測スコアを生成することと、
ｄ．前記予測スコアに基づいて、前記ＧＡＮが訓練されているか、または訓練されていないかを決定し、前記ＧＡＮが訓練されていない場合、前記予測スコアに基づいて、前記ＧＡＮが訓練されているとの決定がなされるまで、ステップａ〜ｃを繰り返すことと、を含む、方法。
前記ポジティブシミュレーションデータ、前記ポジティブ実データ、および前記ネガティブ実データが、生物学的データを含む、請求項１に記載の方法。
前記ポジティブシミュレーションデータが、ポジティブシミュレーションポリペプチド−主要組織適合複合体クラスＩ（ＭＨＣ−Ｉ）相互作用データを含み、前記ポジティブ実データが、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを含み、前記ネガティブ実データが、ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを含む、請求項１に記載の方法。
前記増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、前記ＧＡＮ弁別装置が前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを実際のものとして分類するまで生成することは、
ｅ．ＧＡＮパラメータのセットに従って前記ＧＡＮ発生装置によって、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む第１のシミュレーションデータセットを生成することと、
ｆ．前記ＭＨＣ対立遺伝子の前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用を有する前記第１のシミュレーションデータセットを、前記ＭＨＣ対立遺伝子の前記ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用と組み合わせて、ＧＡＮ訓練データセットを作成することと、
ｇ．決定境界に従って弁別装置によって、前記ＧＡＮ訓練データセットにおける前記ＭＨＣ対立遺伝子のそれぞれのポリペプチド−ＭＨＣ−Ｉ相互作用が、シミュレーションポジティブ、実ポジティブ、または実ネガティブであるかどうかを決定することと、
ｈ．前記弁別装置による前記決定の正確さに基づいて、前記ＧＡＮパラメータのセットまたは前記決定境界のうちの１つ以上を調節することと、
ｉ．第１の停止基準が満たされるまで、ステップｅ〜ｈを繰り返すことと、を含む、請求項３に記載の方法。
前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、および前記ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、前記畳み込みニューラルネットワーク（ＣＮＮ）に、前記ＣＮＮがそれぞれのポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示することは、
ｊ．前記ＧＡＮパラメータのセットに従って前記ＧＡＮ発生装置によって、前記ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む、第２のシミュレーションデータセットを生成することと、
ｋ．前記第２のシミュレーションデータセットを、前記ＭＨＣ対立遺伝子の前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用および前記ＭＨＣ対立遺伝子の前記ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用と組み合わせて、ＣＮＮ訓練データセットを作成することと、
ｌ．前記畳み込みニューラルネットワーク（ＣＮＮ）に、前記ＣＮＮ訓練データセットを提示することと、
ｍ．ＣＮＮパラメータのセットに従って前記ＣＮＮによって、前記ＣＮＮ訓練データセットにおける前記ＭＨＣ対立遺伝子のそれぞれのポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することと、
ｎ．前記ＣＮＮによる前記分類の正確さに基づいて、前記ＣＮＮパラメータのセットのうちの１つ以上を調節することと、
ｏ．第２の停止基準が満たされるまで、ステップｌ〜ｎを繰り返すことと、を含む、請求項４に記載の方法。
前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよび前記ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、前記ＣＮＮに提示して、予測スコアを生成することが、
前記ＣＮＮパラメータのセットに従って前記ＣＮＮによって、前記ＭＨＣ対立遺伝子のそれぞれのポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することを含む、請求項５に記載の方法。
前記予測スコアに基づいて、前記ＧＡＮが訓練されているかどうかを決定することが、前記ＣＮＮによる前記分類の正確さを決定することを含み、前記分類の前記正確さが第３の停止基準を満たしている場合に、前記ＧＡＮおよび前記ＣＮＮが出力される、請求項６に記載の方法。
前記予測スコアに基づいて、前記ＧＡＮが訓練されているかどうかを決定することが、前記ＣＮＮによる前記分類の正確さを決定することを含み、前記分類の前記正確さが第３の停止基準を満たしていない場合に、ステップａに戻る、請求項６に記載の方法。
前記ＧＡＮパラメータが、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの１つ以上を含む、請求項４に記載の方法。
前記対立遺伝子タイプが、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、またはそのサブタイプのうちの１つ以上を含む、請求項９に記載の方法。
前記対立遺伝子長さが、約８〜約１２アミノ酸である、請求項９に記載の方法。
前記対立遺伝子長さが、約９〜約１１アミノ酸である、請求項１１に記載の方法。
データセットを前記ＣＮＮに提示することであって、前記データセットが、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用を含む、提示することと、
前記ＣＮＮによって、前記複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用の各々を、ポジティブまたはネガティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類することと、
ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類された前記候補ポリペプチド−ＭＨＣ−Ｉ相互作用から、前記ポリペプチドを合成することと、をさらに含む、請求項３に記載の方法。
請求項１３に記載の方法によって作製されたポリペプチド。
前記ポリペプチドが、腫瘍特異的抗原である、請求項１３に記載の方法。
前記ポリペプチドが、選択されたＭＨＣ対立遺伝子によってコードされるＭＨＣ−Ｉタンパク質に特異的に結合するアミノ酸配列を含む、請求項１３に記載の方法。
前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、および前記ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データが、選択された対立遺伝子と関連付けられている、請求項３に記載の方法。
前記選択された対立遺伝子が、Ａ０２０１、Ａ０２０２、Ａ０２０３、Ｂ２７０３、Ｂ２７０５、およびそれらの組み合わせからなる群から選択される、請求項１７に記載の方法。
前記増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、前記ＧＡＮ弁別装置が前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成することが、前記ＧＡＮ発生装置の勾配降下発現を評価することを含む、請求項３に記載の方法。
前記増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、前記ＧＡＮ弁別装置が前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成することは、
ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データに高い確率を、前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を、および前記ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を与える可能性を高めるために、前記ＧＡＮ弁別装置を繰り返し実行することと、
前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データが高くレート付けされる確率を高めるために、前記ＧＡＮ発生装置を繰り返し実行することと、を含む、請求項３に記載の方法。
前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、および前記ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、前記畳み込みニューラルネットワーク（ＣＮＮ）に、前記ＣＮＮが前記それぞれのポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示することは、
畳み込み処置を実施することと、
非線形性（ＲｅｌＵ）処置を実施することと、
プーリングまたはサブサンプリング処置を実施することと、
分類（完全接続層）処置を実施することと、を含む、請求項３に記載の方法。
前記ＧＡＮが、深層畳み込みＧＡＮ（ＤＣＧＡＮ）を含む、請求項１に記載の方法。
前記第１の停止基準が、平均二乗誤差（ＭＳＥ）関数を評価することを含み、前記第２の停止基準が、平均二乗誤差（ＭＳＥ）関数を評価することを含み、前記第３の停止基準が、曲線下面積（ＡＵＣ）関数を評価することを含む、請求項８に記載の方法。
前記予測スコアが、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用データとして分類される前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データの確率である、請求項３に記載の方法。
前記予測スコアに基づいて、前記ＧＡＮが訓練されているかどうかを決定することは、前記予測スコアのうちの１つ以上を閾値と比較することを含む、請求項１に記載の方法。
前記ＧＡＮおよび前記ＣＮＮを出力することをさらに含む、請求項１に記載の方法。
敵対的生成ネットワーク（ＧＡＮ）を訓練するための装置であって、
１つ以上のプロセッサと、
前記１つ以上のプロセッサによって実行されると、前記装置に、
ａ．ＧＡＮ発生装置によって、増加的に正確なポジティブシミュレーションデータを、ＧＡＮ弁別装置が前記ポジティブシミュレーションデータをポジティブとして分類するまで生成することと、
ｂ．前記ポジティブシミュレーションデータ、ポジティブ実データ、およびネガティブ実データを、畳み込みニューラルネットワーク（ＣＮＮ）に、前記ＣＮＮがそれぞれのデータをポジティブまたはネガティブとして分類するまで提示することと、
ｃ．前記ポジティブ実データおよび前記ネガティブ実データを前記ＣＮＮに提示して、予測スコアを生成することと、
ｄ．前記予測スコアに基づいて、前記ＧＡＮが訓練されているかどうかを決定し、前記ＧＡＮが訓練されていない場合、前記予測スコアに基づいて、前記ＧＡＮが訓練されているとの決定がなされるまで、ａ〜ｃを繰り返すことと、を行わせる、プロセッサ実行可能命令を記憶する、メモリと、を含む、装置。
前記ポジティブシミュレーションデータ、前記ポジティブ実データ、および前記ネガティブ実データが、生物学的データを含む、請求項２７に記載の装置。
前記ポジティブシミュレーションデータが、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを含み、前記ポジティブ実データが、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを含み、前記ネガティブ実データが、ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを含む、請求項２７に記載の装置。
前記１つ以上のプロセッサによって実行されると、前記装置に、前記増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、前記ＧＡＮ弁別装置が前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成させる、前記プロセッサ実行可能命令は、前記１つ以上のプロセッサによって実行されると、前記装置に、
ｅ．ＧＡＮパラメータのセットに従って、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む第１のシミュレーションデータセットを生成することと、
ｆ．前記ＭＨＣ対立遺伝子の前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用を有する前記第１のシミュレーションデータセットを、前記ＭＨＣ対立遺伝子の前記ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用と組み合わせて、ＧＡＮ訓練データセットを作成することと、
ｇ．弁別装置から情報を受信することであって、前記弁別装置が、決定境界に従って、前記ＧＡＮ訓練データセットにおける前記ＭＨＣ対立遺伝子のそれぞれのポジティブポリペプチド−ＭＨＣ−Ｉ相互作用がポジティブまたはネガティブであるかどうかを決定するように構成されている、受信することと、
ｈ．前記弁別装置からの前記情報の正確さに基づいて、前記ＧＡＮパラメータのセットまたは前記決定境界のうちの１つ以上を調節することと、
ｉ．第１の停止基準が満たされるまで、ｅ〜ｈを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、請求項２９に記載の装置。
前記１つ以上のプロセッサによって実行されると、前記装置に、前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、および前記ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、前記ＣＮＮがそれぞれのポリペプチドＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示させる、前記プロセッサ実行可能命令は、前記１つ以上のプロセッサによって実行されると、前記装置に、
ｊ．ＧＡＮパラメータの前記セットに従って、前記ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む第２のシミュレーションデータセットを生成することと、
ｋ．前記第２のシミュレーションデータセットを、前記ＭＨＣ対立遺伝子の前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよび前記ＭＨＣ対立遺伝子の前記ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データと組み合わせて、ＣＮＮ訓練データセットを作成することと、
ｌ．畳み込みニューラルネットワーク（ＣＮＮ）に、前記ＣＮＮ訓練データセットを提示することと、
ｍ．前記ＣＮＮから訓練情報を受信することであって、前記ＣＮＮが、ＣＮＮパラメータのセットに従って、前記ＣＮＮ訓練データセットにおける前記ＭＨＣ対立遺伝子のそれぞれのポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することによって、前記訓練情報を決定するように構成されている、受信することと、
ｎ．訓練情報の正確さに基づいて、前記ＣＮＮパラメータのセットのうちの１つ以上を調節することと、
ｏ．第２の停止基準が満たされるまで、ｌ〜ｏを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、請求項３０に記載の装置。
前記１つ以上のプロセッサによって実行されると、前記装置に、前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよび前記ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを前記ＣＮＮに提示させて、予測スコアを生成させる、前記プロセッサ実行可能命令が、前記１つ以上のプロセッサによって実行されると、前記装置に、
前記ＣＮＮパラメータのセットに従って、前記ＭＨＣ対立遺伝子のそれぞれのポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類させる、プロセッサ実行可能命令をさらに含む、請求項３１に記載の装置。
前記１つ以上のプロセッサによって実行されると、前記装置に、前記予測スコアに基づいて、前記ＧＡＮが訓練されているかどうかを決定させる前記プロセッサ実行可能命令は、前記１つ以上のプロセッサによって実行されると、前記装置に、前記ＭＨＣ対立遺伝子の前記それぞれのポリペプチド−ＭＨＣ−Ｉ相互作用の前記分類の正確さを、ポジティブまたはネガティブとして決定させて、前記分類の前記正確さが第３の停止基準を満たしている場合に、前記ＧＡＮおよび前記ＣＮＮを出力させる、プロセッサ実行可能命令をさらに含む、請求項３２に記載の装置。
前記１つ以上のプロセッサによって実行されると、前記装置に、前記予測スコアに基づいて、前記ＧＡＮが訓練されているかどうかを決定させる前記プロセッサ実行可能命令は、前記１つ以上のプロセッサによって実行されると、前記装置に、前記ＭＨＣ対立遺伝子の前記それぞれのポリペプチド−ＭＨＣ−Ｉ相互作用の前記分類の正確さを、ポジティブまたはネガティブとして決定させて、前記分類の前記正確さが第３の停止基準を満たしていない場合に、ステップａに戻らせる、プロセッサ実行可能命令をさらに含む、請求項３２に記載の装置。
前記ＧＡＮパラメータが、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの１つ以上を含む、請求項３０に記載の装置。
前記プロセッサ実行可能命令は、前記１つ以上のプロセッサによって実行されると、前記装置に、
データセットを前記ＣＮＮに提示することであって、前記データセットが、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用を含み、前記ＣＮＮが、前記複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用の各々を、ポジティブまたはネガティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類するようにさらに構成されている、提示することと、
前記ＣＮＮがポジティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類した前記候補ポリペプチド−ＭＨＣ−Ｉ相互作用から、前記ポリペプチドを合成することと、をさらに行わせる、請求項２９に記載の装置。
前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、および前記ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データが、選択された対立遺伝子と関連付けられている、請求項２９に記載の装置。
前記１つ以上のプロセッサによって実行されると、前記装置に、前記増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、前記ＧＡＮ弁別装置が前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成させる、前記プロセッサ実行可能命令は、前記１つ以上のプロセッサによって実行されると、前記装置に、
ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データに高い確率を、前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を、および前記ネガティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を与える可能性を高めるために、前記ＧＡＮ弁別装置を繰り返し実行することと、
前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データが高くレート付けされる確率を高めるために、前記ＧＡＮ発生装置を繰り返し実行することと、を行わせる、プロセッサ実行可能命令をさらに含む、請求項２９に記載の装置。
前記ＧＡＮが、深層畳み込みＧＡＮ（ＤＣＧＡＮ）を含む、請求項２７に記載の装置。
前記第１の停止基準が、平均二乗誤差（ＭＳＥ）関数の評価を含み、前記第２の停止基準が、平均二乗誤差（ＭＳＥ）関数の評価を含み、前記第３の停止基準が、曲線下面積（ＡＵＣ）関数の評価を含む、請求項３３に記載の装置。
前記予測スコアが、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用データとして分類される前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データの確率である、請求項２９に記載の装置。
前記１つ以上のプロセッサによって実行されると、前記装置に、前記予測スコアに基づいて、前記ＧＡＮが訓練されているかどうかを決定させるプロセッサ実行可能命令は、前記１つ以上のプロセッサによって実行されると、前記装置に、前記予測スコアのうちの１つ以上を閾値と比較させる、プロセッサ実行可能命令をさらに含む、請求項２７に記載の装置。
敵対的生成ネットワーク（ＧＡＮ）を訓練するための非一時的コンピュータ可読媒体であって、１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに、
ａ．ＧＡＮ発生装置によって、増加的に正確なポジティブシミュレーションデータを、ＧＡＮ弁別装置が前記ポジティブシミュレーションデータをポジティブとして分類するまで生成することと、
ｂ．前記ポジティブシミュレーションデータ、ポジティブ実データ、およびネガティブ実データを、畳み込みニューラルネットワーク（ＣＮＮ）に、前記ＣＮＮがそれぞれのデータをポジティブまたはネガティブとして分類するまで提示することと、
ｃ．前記ポジティブ実データおよび前記ネガティブ実データを前記ＣＮＮに提示して、予測スコアを生成することと、
ｄ．前記予測スコアに基づいて、前記ＧＡＮが訓練されているかどうかを決定し、前記ＧＡＮが訓練されていない場合、前記予測スコアに基づいて、前記ＧＡＮが訓練されているとの決定がなされるまで、ａ〜ｃを繰り返すことと、を行わせる、プロセッサ実行可能命令を記憶している、非一時的コンピュータ可読媒体。
前記ポジティブシミュレーションデータ、前記ポジティブ実データ、および前記ネガティブ実データが、生物学的データを含む、請求項４３に記載の非一時的コンピュータ可読媒体。
前記ポジティブシミュレーションデータが、ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを含み、前記ポジティブ実データが、ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを含み、前記ネガティブ実データが、ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを含む、請求項４３に記載の非一時的コンピュータ可読媒体。
前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに、前記増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、前記ＧＡＮ弁別装置が前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成させる、前記プロセッサ実行可能命令は、前記１つ以上のプロセッサに、
ｅ．ＧＡＮパラメータのセットに従って、ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む第１のシミュレーションデータセットを生成することと、
ｆ．前記ＭＨＣ対立遺伝子の前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用を有する前記第１のシミュレーションデータセットを、前記ＭＨＣ対立遺伝子の前記ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用と組み合わせて、ＧＡＮ訓練データセットを作成することと、
ｇ．弁別装置から情報を受信することであって、前記弁別装置が、決定境界に従って、前記ＧＡＮ訓練データセットにおける前記ＭＨＣ対立遺伝子のそれぞれのポジティブポリペプチド−ＭＨＣ−Ｉ相互作用がポジティブまたはネガティブであるかどうかを決定するように構成されている、受信することと、
ｈ．前記弁別装置からの前記情報の正確さに基づいて、前記ＧＡＮパラメータのセットまたは前記決定境界のうちの１つ以上を調節することと、
ｉ．第１の停止基準が満たされるまで、ｅ〜ｈを繰り返すことと、をさらに行わせる、請求項４５に記載の非一時的コンピュータ可読媒体。
前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに、前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、および前記ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、畳み込みニューラルネットワーク（ＣＮＮ）に、前記ＣＮＮがそれぞれのポリペプチドＭＨＣ−Ｉ相互作用データをポジティブまたはネガティブとして分類するまで提示させる、前記プロセッサ実行可能命令は、前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに、
ｊ．ＧＡＮパラメータの前記セットに従って、前記ＭＨＣ対立遺伝子のシミュレーションポジティブポリペプチド−ＭＨＣ−Ｉ相互作用を含む第２のシミュレーションデータセットを生成することと、
ｋ．前記第２のシミュレーションデータセットを、前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよび前記ＭＨＣ対立遺伝子の前記ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データと組み合わせて、ＣＮＮ訓練データセットを作成することと、
ｌ．畳み込みニューラルネットワーク（ＣＮＮ）に、前記ＣＮＮ訓練データセットを提示することと、
ｍ．前記ＣＮＮから訓練情報を受信することであって、前記ＣＮＮが、ＣＮＮパラメータのセットに従って、前記ＣＮＮ訓練データセットにおける前記ＭＨＣ対立遺伝子のそれぞれのポリペプチド−ＭＨＣ−Ｉ相互作用を、ポジティブまたはネガティブとして分類することによって、前記訓練情報を決定するように構成されている、受信することと、
ｎ．訓練情報の正確さに基づいて、前記ＣＮＮパラメータのセットのうちの１つ以上を調節することと、
ｏ．第２の停止基準が満たされるまで、ｌ〜ｏを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、請求項４６に記載の非一時的コンピュータ可読媒体。
前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに、前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよび前記ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを前記ＣＮＮに提示させて、予測スコアを生成させる、前記プロセッサ実行可能命令が、前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに、
ｐ．前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データおよび前記ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データを、前記ＣＮＮに提示することであって、前記ＣＮＮが、前記ＣＮＮパラメータのセットに従って、前記ＭＨＣ対立遺伝子のそれぞれのポリペプチド−ＭＨＣ−１相互作用をポジティブまたはネガティブとして分類するようにさらに構成されている、提示することを行わせる、プロセッサ実行可能命令をさらに含む、請求項４７に記載の非一時的コンピュータ可読媒体。
前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに、前記予測スコアに基づいて、前記ＧＡＮが訓練されているかどうかを決定させる前記プロセッサ実行可能命令は、前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに、前記ＭＨＣ対立遺伝子の前記それぞれのポリペプチド−ＭＨＣ−Ｉ相互作用の前記分類の正確さを、ポジティブまたはネガティブとして決定させて、前記分類の前記正確さが第３の停止基準を満たしている場合に、前記ＧＡＮおよび前記ＣＮＮを出力させる、プロセッサ実行可能命令をさらに含む、請求項４８に記載の非一時的コンピュータ可読媒体。
前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに、前記予測スコアに基づいて、前記ＧＡＮが訓練されているかどうかを決定させる前記プロセッサ実行可能命令は、前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに、前記ＭＨＣ対立遺伝子の前記それぞれのポリペプチド−ＭＨＣ−Ｉ相互作用の前記分類の正確さを、ポジティブまたはネガティブとして決定させて、前記分類の前記正確さが第３の停止基準を満たしていない場合に、ステップａに戻らせる、プロセッサ実行可能命令をさらに含む、請求項４８に記載の非一時的コンピュータ可読媒体。
前記ＧＡＮパラメータが、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの１つ以上を含む、請求項４６に記載の非一時的コンピュータ可読媒体。
前記１つ以上のプロセッサによって実行されると、前記プロセッサ実行可能命令は、前記１つ以上のプロセッサに、
データセットを前記ＣＮＮに提示することであって、前記データセットが、複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用を含み、前記ＣＮＮが、前記複数の候補ポリペプチド−ＭＨＣ−Ｉ相互作用の各々を、ポジティブまたはネガティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類するようにさらに構成されている、提示することと、
前記ＣＮＮがポジティブポリペプチド−ＭＨＣ−Ｉ相互作用として分類した前記候補ポリペプチド−ＭＨＣ−Ｉ相互作用から、前記ポリペプチドを合成することと、をさらに行わせる、請求項４５に記載の非一時的コンピュータ可読媒体。
前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データ、前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データ、および前記ネガティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データが、選択された対立遺伝子と関連付けられている、請求項４５に記載の非一時的コンピュータ可読媒体。
前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに、前記増加的に正確なポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データを、前記ＧＡＮ弁別装置が前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データをポジティブとして分類するまで生成させる、前記プロセッサ実行可能命令は、前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに、
ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データに高い確率を、および前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データに低い確率を与える可能性を高めるために、前記ＧＡＮ弁別装置を繰り返し実行することと、
前記ポジティブシミュレーションポリペプチド−ＭＨＣ−Ｉ相互作用データが高くレート付けされる確率を高めるために、前記ＧＡＮ発生装置を繰り返し実行することと、を行わせる、プロセッサ実行可能命令をさらに含む、請求項４５に記載の非一時的コンピュータ可読媒体。
前記ＧＡＮが、深層畳み込みＧＡＮ（ＤＣＧＡＮ）を含む、請求項４５に記載の非一時的コンピュータ可読媒体。
前記第１の停止基準が、平均二乗誤差（ＭＳＥ）関数の評価を含み、前記第２の停止基準が、平均二乗誤差（ＭＳＥ）関数の評価を含み、前記第３の停止基準が、曲線下面積（ＡＵＣ）関数の評価を含む、請求項４９に記載の非一時的コンピュータ可読媒体。
前記予測スコアが、ポジティブポリペプチド−ＭＨＣ−Ｉ相互作用データとして分類される前記ポジティブ実ポリペプチド−ＭＨＣ−Ｉ相互作用データの確率である、請求項４５に記載の非一時的コンピュータ可読媒体。
前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに、前記予測スコアに基づいて、前記ＧＡＮが訓練されているかどうかを決定させるプロセッサ実行可能命令は、前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに、前記予測スコアのうちの１つ以上を閾値と比較させる、プロセッサ実行可能命令をさらに含む、請求項４５に記載の非一時的コンピュータ可読媒体。