JP2021514086A - Mhcペプチド結合予測のためのgan−cnn - Google Patents

Mhcペプチド結合予測のためのgan−cnn Download PDF

Info

Publication number
JP2021514086A
JP2021514086A JP2020543800A JP2020543800A JP2021514086A JP 2021514086 A JP2021514086 A JP 2021514086A JP 2020543800 A JP2020543800 A JP 2020543800A JP 2020543800 A JP2020543800 A JP 2020543800A JP 2021514086 A JP2021514086 A JP 2021514086A
Authority
JP
Japan
Prior art keywords
mhc
polypeptide
positive
data
gan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020543800A
Other languages
English (en)
Other versions
JP7047115B2 (ja
Inventor
ワン、シンジャン
ファン、イン
ワン、ウェイ
チャオ、チー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Regeneron Pharmaceuticals Inc
Original Assignee
Regeneron Pharmaceuticals Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Regeneron Pharmaceuticals Inc filed Critical Regeneron Pharmaceuticals Inc
Publication of JP2021514086A publication Critical patent/JP2021514086A/ja
Priority to JP2022046973A priority Critical patent/JP7459159B2/ja
Application granted granted Critical
Publication of JP7047115B2 publication Critical patent/JP7047115B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C60/00Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C99/00Subject matter not provided for in other groups of this subclass

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

畳み込みニューラルネットワーク(CNN)と併せて敵対的生成ネットワーク(GAN)を訓練するための方法が開示されている。GANおよびCNNは、タンパク質相互作用データなどの生物学的データを使用して、訓練されうる。CNNは、新しいデータをポジティブまたはネガティブとして識別するために使用されうる。ポジティブとして識別された新しいタンパク質相互作用データと関連付けられたポリペプチドを合成するための方法が開示されている。

Description

本発明は、MHCペプチド結合予測のためのGAN−CNNに関する。
関連出願の相互参照
本出願は、2018年2月17日に出願された米国仮特許出願第62/631,710号の利益を主張するものであり、その全体が参照により本明細書に援用される。
機械学習の使用が直面している最大の問題のうちの1つは、注釈付きの大規模なデータセットの利用可能性の欠如である。データの注釈は高価で時間がかかるだけでなく、専門のオブザーバの利用可能性に大きく依存している。訓練データの量が制限されていると、過剰適合を避けるために、訓練する非常に大量のデータが必要になることが多い監視付き機械学習アルゴリズムの性能が阻害される可能性がある。これまでのところ、利用可能なデータから可能な限り多くの情報を抽出することに多くの努力が向けられてきた。特に、注釈付きの大規模なデータセットが不足している1つの領域は、タンパク質相互作用データなどの生物学的データの分析である。タンパク質がどのように相互作用するかを予測する能力は、新しい治療薬の特定に非常に重要である。
免疫療法の進歩は急速に進展しており、患者の免疫系を調節して、がん、自己免疫疾患、および感染症を含む疾患と闘うのに役立つ患者の免疫系を調節する新薬が提供されている。例えば、PD−1およびPD−1のリガンドなどのチェックポイント阻害剤分子は、PD−1を介したシグナル伝達を阻害または刺激し、それによって患者の免疫系を調節する薬物の開発に使用されることが確認されている。これらの新薬は、すべてではないが一部の場合では非常に効果的であった。がん患者の約80%の1つの理由は、腫瘍にT細胞を引き付けるのに十分ながん抗原がないことである。
個別の腫瘍特異的変異を標的とすることは、これらの特定の変異が、免疫系にとって新しく、かつ正常組織には見られない、新生抗原と呼ばれる腫瘍特異的ペプチドを生成するため、魅力的である。腫瘍関連自己抗原と比較して、新生抗原は、胸腺における宿主中心寛容の対象ではないT細胞応答を誘発し、また非悪性細胞に対する自己免疫反応から生じる毒性も少ない(非特許文献1)。
ネオエピトープの発見の重要な問題は、どの変異タンパク質が、プロテアソームによって8〜11残基のペプチドに処理され、抗原ペプチド輸送体(TAP)によって小胞体に送られ、かつCD8+T細胞による認識のために、新たに合成された主要組織適合複合体クラスI(MHC−I)にロードされるかである(非特許文献1)。
MHC−Iとのペプチド相互作用を予測するための計算方法は、当技術分野で知られている。いくつかの計算方法は、抗原処理(例えば、NetChop)およびペプチド輸送(例えば、NetCTL)中に何が起こるかを予測することに重点を置いているが、ほとんどの取り組みは、どのペプチドがMHC−I分子に結合するかのモデリングに重点を置いている。NetMHCなどのニューラルネットワークベースの方法は、患者のMHC−I分子の溝に適合するエピトープを生成する抗原配列を予測するために使用される。その他のフィルタを適用して、仮想タンパク質の優先順位を下げ、かつ変異したアミノ酸が、MHCの外側を向いている(T細胞受容体に向いている)か、またはMHC−I分子自体に対するエピトープの親和性を低下させるかどうかを判断することができる(非特許文献1)。
これらの予測が不正確でありうる理由は多くある。シーケンシングは、ペプチドの出発材料として使用されるリードに増幅バイアスと技術的エラーをすでにもたらしている。エピトープ処理およびプレゼンテーションのモデリングでは、MHC−I分子をコードする〜5,000の対立遺伝子がヒトに存在し、個々の患者が6つものそれらを発現し、すべてが異なるエピトープ親和性を持つという事実も考慮する必要がある。NetMHCなどの方法は、十分な精度でモデルを構築するために、特定の対立遺伝子に対する実験的に決定されたペプチド結合測定値が通常50〜100必要である。しかしながら、数多くのMHC対立遺伝子がこのようなデータを欠いているため、「パン特異的な」方法(同様の接触環境を持つMHC対立遺伝子が同様の結合特異性を有しているかどうかに基づいて結合を予測することができる)がますます目立ってきている。
Nature Biotechnology 35,97(2017)
したがって、機械学習アプリケーションで使用するためのデータセット、特に生物学的データセットを生成するための改善されたシステムおよび方法に対するニーズがある。ペプチド結合予測技術は、こうした改善されたシステムおよび方法から利益を得る可能性がある。したがって、本発明の目的は、MHC−Iへのペプチド結合の予測を含む予測を行うために機械学習アプリケーションを訓練するための改善された能力生成データセットを有するコンピュータ実装システムおよび方法を提供することである。
以下の概説および以下の発明を実施するための形態は両方とも、あくまで例示的かつ説明的なものであって、限定的なものではないことを理解されたい。
敵対的生成ネットワーク(GAN)を訓練するための方法およびシステムであって、GAN発生装置によって、増加的に正確なポジティブシミュレーションデータを、GAN弁別装置がポジティブシミュレーションデータをポジティブとして分類するまで生成することと、ポジティブシミュレーションデータ、ポジティブ実データ、およびネガティブ実データを、畳み込みニューラルネットワーク(CNN)に、CNNが各タイプのデータをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実データおよびネガティブ実データをCNNに提示して、予測スコアを生成することと、予測スコアに基づいて、GANが訓練をされているか、または訓練をされていないかどうかを決定することと、GANおよびCNNを出力することと、を含む、方法およびシステムが開示される。方法は、GANが十分に訓練されるまで繰り返されうる。ポジティブシミュレーションデータ、ポジティブ実データ、およびネガティブ実データは、生物学的データを含む。生物学的データは、タンパク質間の相互作用データを含みうる。生物学的データは、ポリペプチド−MHC−I相互作用データを含みうる。ポジティブシミュレーションデータは、ポジティブシミュレーションポリペプチド−MHC−I相互作用データを含むことができ、ポジティブ実データは、ポジティブ実ポリペプチド−MHC−I相互作用データを含み、ネガティブ実データは、ネガティブ実ポリペプチド−MHC−I相互作用データを含む。
更なる利点は、その一部が下記説明に記載されているか、または実践によって知ることができるであろう。これらの利点は、添付の特許請求の範囲において特に指摘されている要素および組み合わせによって実現され、達成されるであろう。
図1は、例示的な方法のフローチャートである。 図2は、GANモデルの生成および訓練を含む、ペプチド結合を予測するプロセスの一部分を示す例示的なフロー図である。 図3は、訓練されたGANモデルおよび訓練CNNモデルを使用してデータを生成することを含む、ペプチド結合を予測するプロセスの一部分を示す例示的なフロー図である。 図4は、訓練CNNモデルの完了および訓練されたCNNモデルを使用したペプチド結合の予測の生成を含む、ペプチド結合を予測するプロセスの一部分を示す例示的なフロー図である。 図5Aは、典型的なGANの例示的なデータフロー図である。 図5Bは、GAN発生装置の例示的なデータフロー図である。 図6は、GANで使用される発生装置に含まれる処理段階の一部分の例示的なブロック図である。 図7は、GANで使用される発生装置に含まれる処理段階の一部分の例示的なブロック図である。 図8は、GANで使用される弁別装置に含まれる処理段階の一部分の例示的なブロック図である。 図9は、GANで使用される弁別装置に含まれる処理段階の一部分の例示的なブロック図である。 図10は、例示的な方法のフローチャートである。 図11は、ペプチド結合の予測に関与するプロセスおよび構造が実装されうる、コンピュータシステムの例示的なブロック図である。 図12は、示されたHLA対立遺伝子のMHC−1タンパク質複合体へのタンパク質結合を予測するための特定の予測モデルの結果を示す表である。 図13Aは、予測モデルを比較するために使用されるデータを示す表である。 図13Bは、我々の同じCNNアーキテクチャの実装形態のAUCを、Vang’s paperのAUCと比較した棒グラフである。 図13Cは、記載された実装形態を既存のシステムと比較する棒グラフである。 図14は、バイアスされたテストセットを選択することによって得られたバイアスを示す表である。 図15は、テストサイズが小さいほどSRRCが優れていることを示す、SRCC対テストサイズの折れ線グラフである。 図16Aは、AdamとRMSpropニューラルネットワークを比較するために使用されるデータを示す表である。 図16Bは、AdamおよびRMSpropオプティマイザによって訓練されたニューラルネットワーク間のAUCを比較する棒グラフである。 図16Cは、AdamおよびRMSpropオプティマイザによって訓練されたニューラルネットワーク間のSRCCを比較する棒グラフである。 図17は、フェイクデータと実データの混合が、フェイクデータのみの場合よりも優れた予測が得られることを示す表である。
本明細書に組み込まれ、かつ本明細書の一部をなす添付の図面は、実施形態を例証し、この説明とともに、本方法およびシステムの原理を説明する役割を果たすものである。
本方法およびシステムに関する開示および説明に先立って、本方法およびシステムが特定の方法、特定の構成要素または特定の実装形態に限定されないことを理解すべきである。本明細書中で使用されている用語は、もっぱら特定の実施形態の説明を目的としたものであって、限定することを意図するものではないこともまた、理解すべきである。
本明細書および添付の特許請求の範囲で使用される場合、単数形「a」、「an」、および「the」は、文脈から他の意味に解釈されることが明白な場合を除き、複数の指示対象を含む。本明細書では、範囲は、「約」1つの特定の値から、かつ/または「約」別の特定の値までとして表現される場合がある。そのような範囲を表現する場合、別の実施形態では、ある特定の値からかつ/または別の特定の値までが包含される。同様に、値が近似値として表現されている場合には、先行する「約」を使用することにより、特定の値が別の実施形態を形成することが理解されるであろう。これらの範囲の各々の終点は、他の終点と関連して、かつ他の終点とは独立して有意であることがさらに理解されるであろう。
「任意選択的な」または「任意選択的に」は、後述されている事象または状況が起こる場合もあれば起こらない場合もあることを意味すると共に、この記載には、前述の事象または状況が起こる場合の例および起こらない場合の例が包含されることを意味する。
この明細書の記載および特許請求の範囲を通じて、語「含む(comprise)」およびこの語の変形、例えば「含む(comprising)」および「含む(comprises)」などは、「〜を含むがこれに限定されない」を意味し、例えば、他の構成要素、整数、または工程を除外することを意図するものではない。「例示的」とは、「の一例(an example of)」を意味するものであって、好ましい実施形態または理想的な実施形態の指標を伝達することを意図するものではない。「など」は、限定的な意味で使用されるものではなく、説明を目的に使用される。
当然のことながら、方法およびシステムは、記載されている特定の方法論、プロトコルおよび試薬に限定されるものではない。理由はこれらが、変更される可能性があるからである。本明細書中に使用されている用語は、あくまで特定の実施形態を説明することを目的としたものであって、もっぱら添付の特許請求の範囲により限定される本方法およびシステムの範囲を限定するものではないことも、理解すべきである。
別途定義されていない限り、本明細書中に使用されているすべての技術用語および科学用語の意味は、方法およびシステムが属する当業者に遍く理解されている意味と同じである。本明細書中に記載されている方法および材料と類似もしくは等価な何らかの方法および材料が、本方法および組成物の実施またはテストの際に使用される場合もあるが、特に有用な方法、デバイスおよび材料は、記載されている通りである。本明細書中に引用されている刊行物およびそれらの刊行物が引用されている資料は、本明細書において参照により具体的に援用されている。本明細書中のいかなる記載も、本方法およびシステムが、先願発明が存在することから、そのような開示に先行しえないことを認めるものとして解釈すべきではない。いかなる参考文献も先行技術を構成するものであるとは認められない。参考文献の論説には、その参考文献の著者の主張内容が言明されている。引用されている文献の正確さおよび適切性に対する異議申し立ての権利は、出願人が留保している。本明細書中には多数の刊行物が参照されているが、そのような参照が、これらのいかなる文献も当該技術分野における共通の一般的知識の一部を構成することを認めるものではないことは、明確に理解されるであろう。
方法およびシステムを実施する目的に使用可能な構成要素が、開示されている。これらおよび他の構成要素が本明細書に開示されるものであって、これらの構成要素の組み合わせ、サブセット、相互作用、群などが開示されているとき、これらの多様な個別および集合的な組み合わせならびにこれらの並べ替え(permutation)の各々の具体的な言及が、明示的には開示されていない場合があるが、それぞれは、すべての方法およびシステムに関して本明細書中で具体的に考慮され、かつ説明されているということが理解される。これは、方法におけるステップを含むがこれらに限定されない、本出願の全ての実施形態に適用される。したがって、実施可能である種々の付加的工程が存在する場合には、当然のことながら、これらの付加的工程の各々を、方法の任意の特定の実施形態または実施形態の組み合わせを用いて実施できる。
下記の好ましい実施形態およびそれに含まれる実施例についての発明を実施するための形態、ならびに図面およびその前後の説明を参照することによって、本方法およびシステムについての理解を容易にすることができる。
本方法およびシステムは、完全にハードウェアの実施形態、完全にソフトウェアの実施形態、またはソフトウェアおよびハードウェアの実施形態を組み合わせた実施形態の形態を取ることが可能である。さらに、本方法およびシステムは、ストレージ媒体に具体化されるコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体上のコンピュータプログラム製品(例えば、コンピュータソフトウェア)の形態を取ることができる。より具体的には、本方法およびシステムは、ウェブで実行されるコンピュータソフトウェアの形態を取ることができる。ハードディスク、CD−ROM、光学式ストレージデバイス、または磁気ストレージデバイスを含めた、あらゆる適切なコンピュータ可読ストレージ媒体を利用してよい。
本方法およびシステムの実施形態については、方法、システム、装置およびコンピュータプログラム製品のブロック図およびフローチャート図を参照しながら、以下に説明する。ブロック図およびフローチャート図の各ブロック、ならびにブロック図およびフローチャート図中のブロックの組み合わせはそれぞれ、コンピュータプログラム命令によって実施できることが理解されるであろう。これらのコンピュータプログラム命令は、汎用コンピュータ、特殊用途向けコンピュータ、または他のプログラム可能データ処理装置にロードして、マシンを生成することが可能であり、それによって、コンピュータまたは他のプログラム可能データ処理装置上で実行される命令によって、フローチャートのブロック内に特定されている機能を実行する手段が作り出される。
これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能データ処理装置に対し特定の方法で機能するように指示可能なコンピュータ可読メモリに格納されて、それによって、コンピュータ可読メモリ内に格納された命令によって、フローチャートブロック内に特定された機能を実行するためのコンピュータ可読命令を含む、製造品が生産されるようにすることもできる。コンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能データ処理装置にロードし、コンピュータまたは他のプログラム可能装置上で一連の動作工程を実行させて、コンピュータに実行される処理を生成して、それによって、コンピュータまたは他のプログラム可能装置上で実行される命令によって、フローチャートブロック内に特定された機能を実行するための工程が提供されるようにすることもできる。
したがって、ブロック図およびフローチャート図のブロックは、特定された機能を実行するための手段の組み合わせ、特定された機能を実行するための工程の組み合わせ、および特定された機能を実行するためのプログラム命令手段を支持している。また、ブロック図およびフローチャート図中の各ブロック、ならびにブロック図およびフローチャート図中のブロック同士の組み合わせは、特定された機能または工程を実行する特殊用途向けハードウェアベースのコンピュータシステムまたは特殊用途向けハードウェアとコンピュータ命令との組み合わせによって実行することが可能であるということもまた理解されたい。
I.定義
「SRCC」という略語は、スピアマンの順位相関係数(Spearman’s Rank Correlation Coefficient)(SRCC)計算を指す。
「ROC曲線」という用語は、受信機動作特性曲線を指す。
「CNN」という略語は、畳み込みニューラルネットワークを指す。
「GAN」という略語は、敵対的生成ネットワークを指す。
「HLA」という用語は、ヒト白血球抗原を指す。HLAシステムまたは複合体は、ヒトにおける主要組織適合複合体(MHC)タンパク質をコードする遺伝子複合体である。主要なHLAクラスI遺伝子は、HLA−A、HLA−B、およびHLA−Cであり、一方で、HLA−E、HLA−F、およびHLA−Gは、微働遺伝子である。
「MHC I」または「主要組織適合複合体I」という用語は、α1、α2、およびα3の3つのドメインを有するα鎖で構成される細胞表面タンパク質のセットを指す。α3ドメインは、膜貫通ドメインであるが、α1およびα2ドメインは、ペプチド結合溝の形成に関与している。
「ポリペプチド−MHC I相互作用」は、MHC Iのペプチド結合溝におけるポリペプチドの結合を指す。
本明細書において、「生物学的データ」は、ヒト、動物または他の生物学的な生物(微生物、ウイルス、植物および他の生存生物を含む)の生物学的状態を測定することに由来する任意のデータを意味する。医師、科学者、診断医などに知られている任意のテスト、アッセイまたは観察によって測定を行うことができる。生物学的データとしては、限定されるものではないが、DNA配列、RNA配列、タンパク質配列、タンパク質相互作用、臨床テストおよび観察、物理および化学測定、ゲノム配列決定、プロテオーム決定、薬物レベル、ホルモンおよび免疫学的テスト、神経化学的または神経生理学的測定、ミネラルおよびビタミンのレベルの定量、遺伝的既往歴、および家族歴、ならびにテストを受けている個人(1人または複数人)の状態を洞察することの可能な他の定量を挙げることができる。本明細書では、「データ」という用語の使用は、「生物学的データ」と同義に使用することができる。
II.ペプチド結合を予測するためのシステム
本発明の一実施形態は、深層畳み込み敵対的生成ネットワークとも称される敵対的生成ネットワーク(GAN)−畳み込みニューラルネットワーク(CNN)フレームワークを有する、MHC−1へのペプチド結合を予測するためのシステムを提供する。GANは、CNN弁別装置およびCNN発生装置を含んでおり、既存のペプチドMHC−I結合データで訓練されうる。開示されるGAN−CNNシステムは、限定されないが、無制限の対立遺伝子およびより優れた予測性能で訓練される能力を含む、ペプチド−MHC−I結合を予測するための既存のシステムに比べていくつかの利点を有する。本方法およびシステムは、MHC−1へのペプチド結合の予測に関して本明細書において記載されているが、方法およびシステムの適用は、そのように限定されない。本明細書に記載される改良されたGAN−CNNシステムの適用例として、MHC−1へのペプチド結合の予測が提供される。改善されたGAN−CNNシステムは、様々な予測を生成するために、幅広い様々な生物学的データに適用可能である。
A.例示的なニューラルネットワークシステムおよび方法
図1は、例示的な方法のフローチャート100である。ステップ110から始めて、GANの発生装置(図5Aの504を参照)によって、増加的に正確なポジティブシミュレーションデータを生成することができる。ポジティブシミュレーションデータは、タンパク質相互作用データ(例えば、結合親和性)などの生物学的データを含みうる。結合親和性は、生体分子(タンパク質、DNA、薬物など)と生体分子(タンパク質、DNA、薬物など)との間の結合相互作用の強さの尺度の一例である。結合親和性は、最大阻害濃度の半分(IC50)の値として数値的に表すことができる。数値が小さいほど、親和性が高いことを示す。IC50値が50nM未満のペプチドは、高い親和性とみなされ、500nM未満は、中程度の親和性とみなされ、5000nM未満は、低い親和性とみなされる。IC50は、結合(1)または非結合(−1)として結合カテゴリーに変換されうる。
ポジティブシミュレーションデータは、ポジティブシミュレーションポリペプチド−MHC−I相互作用データを含みうる。ポジティブシミュレーションポリペプチド−MHC−I相互作用データを生成することは、実ポリペプチド−MHC−I相互作用データに少なくとも部分的に基づくことができる。タンパク質相互作用データは、2つのタンパク質が結合する可能性を表す結合親和性スコア(例えば、IC50、結合カテゴリー)を含みうる。ポリペプチド−MHC−I相互作用データなどのタンパク質相互作用データは、例えば、PepBDB、PepBind、タンパク質データバンク、生体分子相互作用ネットワークデータベース(BIND)、Cellzome(ハイデルベルク、ドイツ)、相互作用するタンパク質のデータベース(DIP)、Dana Farber Cancer Institute(ボストン、マサチューセッツ、米国)、Human Protein Reference Database(HPRD)、Hybrigenics(パリ、フランス)、European Bioinformatics Institute’s(EMBL−EBI、Hinxton、英国)IntAct、分子相互作用(MINT、ローマ、イタリア)データベース、タンパク質間相互作用データベース(PPID、エジンバラ、英国)、および相互作用する遺伝子/タンパク質の検索用検索ツール(STRING、EMBL、ハイデルベルク、ドイツ)などの任意の数のデータベースから受信されうる。タンパク質相互作用データは、特定のポリペプチド配列、ならびにポリペプチドの相互作用(例えば、ポリペプチド配列とMHC−Iとの間の相互作用)に関する指標のうちの1つ以上を含むデータ構造に記憶されうる。一実施形態では、データ構造は、HUPO PSI分子相互作用(PSI MI)フォーマットに準拠することができ、これは、1つ以上のエントリを含んでもよく、ここにおいて、エントリは、1つ以上のタンパク質相互作用を説明する。データ構造は、例えば、データプロバイダなどのエントリ源を示してもよい。データプロバイダによって割り当てられたリリース番号およびリリース日が、示されてもよい。利用可能性リストは、データの利用可能性に関する記述を提供しうる。実験リストは、通常1つの刊行物と関連付けられた、少なくとも1セットの実験パラメータを含む実験の説明を示しうる。大規模な実験では、通常、1つのパラメータ(多くの場合、ベイト(対象のタンパク質))のみが、一連の実験にわたって変化する。PSI MIフォーマットは、一定のパラメータ(例えば、実験技術)および可変のパラメータ(例えば、ベイト)の両方を示しうる。インタラクタリストは、相互作用に関与しているインタラクタ(例えば、タンパク質、小分子など)のセットを示してもよい。タンパク質インタラクタ要素は、Swiss−ProtおよびTrEMBLなどのデータベースで一般的に見られるタンパク質の「通常の」形態を示すことができ、それは、名称、相互参照、生物、アミノ酸配列などのデータを含みうる。相互作用リストは、1つ以上の相互作用要素を示してもよい。各相互作用は、利用可能性説明(データ入手可能性の説明)、およびそれが決定された実験条件の説明を示す場合がある。相互作用はまた、信頼性属性を示してもよい。パラロガス検証法およびタンパク質相互作用マップ(PIM)の生物学的スコアなどの、相互作用に対する信頼度の様々な尺度が開発されている。各相互作用は、2つ以上のタンパク質関与要素(つまり、相互作用に関与するタンパク質)を含む関与リストを示す場合がある。各タンパク質関与要素は、その天然型における分子および/または相互作用に関与した特定の型の分子の説明を含みうる。特徴リストは、タンパク質、例えば、結合ドメインまたは相互作用に関連する翻訳後修飾の配列特徴を示しうる。例えば、タンパク質がベイトであったか、またはプレイであったかなどの、実験におけるタンパク質の特定の役割を説明する役割が示される場合がある。前述の要素の一部またはすべては、データ構造に記憶されてもよい。例示のデータ構造は、例えば、以下のようなXMLファイルでありうる。
Figure 2021514086
GANは、例えば、深層畳み込みGAN(DCGAN)を含むことができる。図5Aを参照すると、GANの基本構造の一例が示されている。GANは、本質的にニューラルネットワークを訓練する方法である。GANは、通常、独立して動作し、かつ敵対的に機能する可能性のある、2つの独立したニューラルネットワーク弁別装置502および発生装置504を含んでいる。弁別装置502は、発生装置504によって生成された訓練データを使用して訓練される、ニューラルネットワークでありうる。弁別装置502は、データサンプルを弁別するタスクを実施するように訓練されてもよい、分類子506を含みうる。発生装置504は、実際のサンプルに似ているが、フェイクサンプルもしくは人工サンプルとしてそれらをレンダリングする機能を含んで生成されてもよく、またはその機能を含むように変更されてもよい、ランダムなデータサンプルを生成しうる。弁別装置502および発生装置504を含むニューラルネットワークは、通常、高密度処理、バッチ正規化処理、アクティブ化処理、入力再成形処理、ガウスドロップアウト処理、ガウスノイズ処理、2次元畳み込み、および2次元アップサンプリングなどの、複数の処理層で構成される多層ネットワークによって実装されうる。これは、図6〜図9により詳細に示されている。
例えば、分類子506は、様々な特徴を示すデータサンプルを識別するように設計されてもよい。発生装置504は、ほぼ正しいが完全ではないデータサンプルを使用して、弁別装置502をだますことを目的としたデータを生成しうる、敵対機能508を含みうる。例えば、これは、訓練セット510(潜伏スペース)からランダムに正当なサンプルを選ぶことによって、およびランダムノイズ512を追加することなどのその機能をランダムに変更することによってデータサンプル(データスペース)を合成することによって行われうる。発生装置ネットワーク、Gは、一部の潜伏スペースからデータスペースへのマッピングとみなされうる。これは、以下のようにGとして正式に表されうる。G(z)→R|x|、式中、z∈R|x|は、潜伏スペースからのサンプルであり、x∈R|x|は、データスペースからのサンプルであり、|・|は、次元数を示す。
弁別装置ネットワーク、Dは、データ(例えば、ペプチド)が、生成された(フェイクまたは人工の)データセットではなく、実データセットからのものである確率へのデータスペースからのマッピングとみなすことができる。これは、以下のようにDとして正式に表されうる。D(x)→(0;1)。訓練中、弁別装置502は、実訓練データからの正当なデータサンプル516、ならびに発生装置504によって生成されたフェイクまたは人工の(例えば、シミュレーションされた)データサンプルのランダムな混合を伴うランダマイザ514によって提示されうる。各データサンプルについて、弁別装置502は、正当な入力、およびフェイクまたは人工の入力を識別して、結果518を出そうと試みることができる。例えば、固定発生装置、Gについて、弁別装置Dは、訓練データ(実数、1に近い)または固定発生装置(シミュレーション、0に近い)からのいずれかのものとしてデータ(ペプチドなど)を分類するように訓練されうる。各データサンプルについて、弁別装置502は、(入力が、シミュレートされたものか、または実数のものかに関わらず)ポジティブまたはネガティブの入力を識別して、結果518を出そうとさらに試みることができる。
一連の結果518に基づいて、弁別装置502および発生装置504の両方は、それらの操作を改善するためにパラメータを微調整しようと試みることができる。例えば、弁別装置502が正しい予測をした場合、発生装置504は、よりよいシミュレーションサンプルを生成して、弁別装置502をだますために、そのパラメータを更新することができる。弁別装置502が誤った予測をした場合、弁別装置502は、その間違いから学んで、同様の間違いを避けることができる。したがって、弁別装置502および発生装置504の更新は、フィードバックプロセスを含みうる。このフィードバックプロセスは、連続的または増分的でありうる。発生装置504および弁別装置502は、データ生成およびデータ分類を最適化するために、繰り返し実行されてもよい。増分フィードバックプロセスでは、発生装置504の状態は、凍結され、弁別装置502は、平衡が確立されて、弁別装置502の訓練が最適化されるまで、訓練される。例えば、発生装置504の所定の凍結状態の間、弁別装置502は、発生装置504の状態に関して最適化されるように訓練されうる。次に、弁別装置502のこの最適化された状態は、凍結されてもよく、発生装置504は、弁別装置の精度をある所定の閾値まで下げるように訓練されてもよい。次に、発生装置504の状態は、凍結されてもよく、弁別装置502は、訓練されてもよく、以下同じように続く。
連続的なフィードバックプロセスでは、弁別装置は、その状態が最適化されるまで訓練されない可能性があるが、むしろ1回または少数の反復でのみ訓練されてもよく、発生装置は、弁別装置と同時に更新されてもよい。
生成されたシミュレーションデータセットの分布が実データセットの分布と完全に一致することができる場合、弁別装置は、最大限に混同されており、実サンプルをフェイクサンプルと区別することができない(すべての入力で0.5を予測する)。
図1の110に戻って、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GANの弁別装置502がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することが、実施されうる(例えば、発生装置504によって)。別の態様では、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GANの弁別装置502がポジティブシミュレーションポリペプチド−MHC−I相互作用データを実ポジティブとして分類するまで生成することが、実施されうる(例えば、発生装置504によって)。例えば、発生装置504は、MHC対立遺伝子のポジティブシミュレーションポリペプチド−MHC−I相互作用を含む第1のシミュレーションデータセットを生成することによって、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを生成することができる。第1のシミュレーションデータセットは、1つ以上のGANパラメータに従って生成されうる。GANパラメータは、例えば、対立遺伝子タイプ(例えば、HLA−A、HLA−B、HLA−C、またはそのサブタイプ)、対立遺伝子長さ(例えば、約8〜12アミノ酸、約9〜11アミノ酸)、生成カテゴリー、モデル複雑さ、学習速度、バッチサイズ、または別のパラメータのうちの1つ以上を含むことができる。
図5Bは、MHC対立遺伝子のポジティブシミュレーションポリペプチド−MHC−1相互作用データを生成するように構成されたGAN発生装置の例示的なデータフロー図である。図5Bに示されるように、ガウスノイズベクトルは、分布行列を出力する発生装置に入力されうる。ガウスからサンプリングされた入力ノイズは、様々な結合パターンを模倣する変動性を提供する。出力分布マトリクスは、ペプチド配列の各位置に対する各アミノ酸を選択する確率分布を表す。分布マトリクスを正規化して、結合シグナルを提供する可能性が低い選択を取り除くことができ、特定のペプチド配列を、正規化された分布マトリクスからサンプリングすることができる。
次に、第1のシミュレーションデータセットを、MHC対立遺伝子のポジティブ実ポリペプチド相互作用データ、および/またはネガティブ実ポリペプチド相互作用データ(またはそれらの組み合わせ)と組み合わせて、GAN訓練セットを作成することができる。弁別装置502は、次に、(例えば、決定境界に従って)GAN訓練データセットにおけるMHC対立遺伝子のポリペプチド−MHC−I相互作用が、ポジティブもしくはネガティブであるかどうか、および/またはシミュレーションされたもの、もしくは実際のものであるかどうかを決定することができる。弁別装置502によって実施される決定(例えば、弁別装置502が、ポリペプチド−MHC−I相互作用をポジティブもしくはネガティブ、および/またはシミュレーションされたもの、もしくは実際のものとして正しく識別したかどうか)の正確さに基づいて、GANパラメータまたは決定境界のうちの1つ以上を調節することができる。例えば、ポジティブ実ポリペプチド−MHC−I相互作用データに高い確率を、ポジティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を、および/またはネガティブ実ポリペプチド−MHC−I相互作用データに低い確率を与える可能性を高めるために、決定境界のGANパラメータのうちの1つ以上を調節して、弁別装置502を最適化することができる。ポジティブシミュレーションポリペプチド−MHC−I相互作用データが高くレート付けされる確率を高めるために、決定境界のGANパラメータのうちの1つ以上を調節して、発生装置504を最適化することができる。
第1のシミュレーションデータセットを生成するプロセス、第1のデータセットを、ポジティブ実ポリペプチド相互作用データおよび/またはネガティブ実ポリペプチド相互作用データと組み合わせて、GAN訓練データセットを生成するプロセス、弁別装置によって決定するプロセス、ならびにGANパラメータおよび/または決定境界を調節するプロセスは、第1の停止基準が満たされるまで、繰り返されうる。例えば、発生装置504の勾配降下発現を評価することによって、第1の停止基準が満たされているかどうかを決定することができる。別の実施例として、平均二乗誤差(MSE)関数を評価することによって、第1の停止基準が満たされているかどうかを決定することができる。
Figure 2021514086
別の実施例として、勾配が有意義な訓練を続けるために十分な大きさであるかどうかを評価することによって、第1の停止基準が満たされているかどうかを決定することができる。発生装置504が逆伝播アルゴリズムによって更新されるので、発生装置の各層は、例えば、2つの層を持つグラフがあり、かつ各層に3つのノードがある場合に、グラフ1の出力は1次元(スカラー)であり、データは2次元であるような、1つ以上の勾配を有する。このグラフでは、第1の層は、データに接続される2*3=6のエッジ(w111、w112、w121、w122、w131、w132)を有し、w111*data1+w112*data2=net11であり、シグモイドアクティベーション関数を使用して、出力o11=sigmoid(net11)を取得することができ、同様に、第1の層の出力を形成するo12、o13を取得することができ、第2の層は、第1の層出力に接続される3*3=9のエッジ(w211、w212、w213、w221、w222、w223、w231、w232、w233)を有し、第2の層出力は、o21、o22、o23であり、w311、w312、w313である3のエッジを持つ最終出力に接続する。
このグラフの各wは、勾配(wの更新方法の指示、基本的には追加する数値)を有し、数値は、損失(MSE)が減少する方向にパラメータを変更するという考えに従って、バックプロパゲーションと呼ばれるアルゴリズムによって計算されてもよく、これは、
Figure 2021514086
EがMSEエラーである場合、wijは、j番目の層上のi番目のパラメータである。Oは、j番目の層上の出力であり、netは、アクティベーション前のj番目の層上の乗算結果である。そして、wijについての値de/dwijが十分に大きいものではない場合、その結果は、訓練が発生装置504のwijに変更をもたらしていないことを示しており、訓練は中止する必要がある。
次に、GAN弁別装置502が、ポジティブシミュレーションデータ(例えば、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ)を、ポジティブおよび/または実際のものとして分類した後、ステップ120で、ポジティブシミュレーションデータ、ポジティブ実データ、および/またはネガティブ実データ(またはそれらの組み合わせ)は、CNNが各タイプのデータをポジティブまたはネガティブとして分類するまで、CNNに提示されうる。ポジティブシミュレーションデータ、ポジティブ実データ、および/またはネガティブ実データは、生物学的データを含みうる。ポジティブシミュレーションデータは、ポジティブシミュレーションポリペプチド−MHC−I相互作用データを含みうる。ポジティブ実データは、ポジティブ実ポリペプチド−MHC−I相互作用データを含みうる。ネガティブ実データは、ネガティブ実ポリペプチド−MHC−I相互作用データを含みうる。分類されるデータは、ポリペプチド−MHC−I相互作用データを含みうる。ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データの各々は、選択された対立遺伝子と関連付けられてもよい。例えば、選択された対立遺伝子は、A0201、A202、A203、B2703、B2705、およびそれらの組み合わせからなる群から選択されうる。
ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、CNNに提示することは、例えば、GANパラメータのセットに従って発生装置504によって、MHC対立遺伝子のポジティブシミュレーションポリペプチド−MHC−I相互作用を含む第2のシミュレーションデータセットを生成することを含みうる。第2のシミュレーションデータセットを、MHC対立遺伝子のポジティブ実ポリペプチド相互作用データ、および/またはネガティブ実ポリペプチド相互作用データ(またはそれらの組み合わせ)と組み合わせて、CNN訓練データセットを作成することができる。
次に、CNNを訓練するために、CNN訓練データセットをCNNに提示することができる。次いで、CNNは、1つ以上のCNNパラメータに従って、ポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することができる。これには、CNNによる畳み込み手順の実施、非線形性(例えば、ReLu)手順の実施、プーリングまたはサブサンプリング手順の実施、および/または分類(例えば、完全接続層)手順の実施が含まれうる。
CNNによる分類の正確さに基づいて、CNNパラメータのうちの1つ以上を調節することができる。第2のシミュレーションデータセットを生成するプロセス、CNN訓練データセットを生成するプロセス、ポリペプチド−MHC−I相互作用を分類するプロセス、および1つ以上のCNNパラメータを調節するプロセスは、第2の停止基準が満たされるまで、繰り返されてもよい。例えば、平均二乗誤差(MSE)関数を評価することによって、第2の停止基準が満たされているかどうかを決定することができる。
次に、ステップ130で、ポジティブ実データおよびネガティブ実データをCNNに提示して、予測スコアを生成することができる。ポジティブ実データおよび/またはネガティブ実データは、例えば、結合親和性データを含むタンパク質相互作用データなどの生物学的データを含んでもよい。ポジティブ実データは、ポジティブ実ポリペプチド−MHC−I相互作用データを含みうる。ネガティブ実データは、ネガティブ実ポリペプチド−MHC−I相互作用データを含みうる。予測スコアは、結合親和性スコアであってもよい。予測スコアは、ポジティブポリペプチド−MHC−I相互作用データとして分類されるポジティブ実ポリペプチド−MHC−I相互作用データの確率を含むことができる。これには、実データセットをCNNに提示すること、およびCNNパラメータのセットに従ってCNNによって、MHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することが含まれうる。
ステップ140で、GANが予測スコアに基づいて訓練されているかどうかを決定することができる。これは、GANが予測スコアに基づいてCNNの正確さを決定することによって訓練されているかどうかを決定することを含みうる。例えば、GANは、第3の停止基準が満たされている場合には、訓練されているものとして決定されうる。第3の停止基準が満たされているかどうかを決定することは、曲線下面積(AUC)関数が満たされているかどうかを決定することを含みうる。GANが訓練されているかどうかを決定することは、予測スコアのうちの1つ以上を閾値と比較することを含みうる。ステップ140で決定されるように、GANが訓練されている場合、次に、GANは、任意選択的にステップ150で出力されうる。GANが訓練されていないと決定された場合、GANは、ステップ110に戻りうる。
CNNおよびGANを訓練した後、データセット(例えば、未分類のデータセット)は、CNNに提示されうる。データセットは、未分類のタンパク質相互作用データなどの未分類の生物学的データを含むことができる。生物学的データは、複数の候補ポリペプチド−MHC−I相互作用を含むことができる。CNNは、予測結合親和性を生成することができ、および/または候補ポリペプチド−MHC−I相互作用の各々を、ポジティブもしくはネガティブとして分類することができる。次いで、ポジティブと分類された候補ポリペプチド−MHC−I相互作用のものを使用して、ポリペプチドを合成することができる。例えば、ポリペプチドは、腫瘍特異的抗原を含むことができる。別の実施例として、ポリペプチドが、選択されたMHC対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含むことができる。
敵対的生成ネットワーク(GAN)を使用する予測のプロセス200のより詳細な例示的なフロー図が、図2〜図4に示されており、202〜214は、図1に示した110に一般的に対応している。プロセス200は、202で始めることができ、ここにおいて、GAN訓練は、例えば、GAN訓練216を制御するために、いくつかのパラメータ204〜214を設定することによって、セットアップされる。設定されうるパラメータの実施例には、対立遺伝子タイプ204、対立遺伝子長さ206、生成カテゴリー208、モデル複雑さ210、学習速度212、およびバッチサイズ214が含まれうる。対立遺伝子タイプのパラメータ204は、GANプロセスに含まれる1つ以上の対立遺伝子タイプを指定する能力を提供しうる。このような対立遺伝子タイプの実施例は、図12に示されている。例えば、指定された対立遺伝子は、図12に示されているA0201、A0202、A0203、B2703、B2705などを含みうる。対立遺伝子長さのパラメータ206は、指定された各対立遺伝子タイプ204に結合しうる、ペプチドの長さを指定する能力を提供しうる。このような長さの実施例は、図13に示されている。例えば、A0201については、指定された長さは、9または10として示され、A0202については、指定された長さは、9として示され、A0203については、指定された長さは、9または10として示され、B2705については、指定された長さは、9として示されるなどである。カテゴリーパラメータを生成すること208は、GAN訓練216中に生成されるデータのカテゴリーを指定する能力を提供しうる。例えば、結合/非結合カテゴリーを指定してもよい。モデル複雑さ210に対応するパラメータの収集は、GAN訓練216中で使用されるモデルの複雑さの態様を指定する能力を提供しうる。このような態様の実施例としては、層の数、層あたりのノード数、各畳み込み層のウィンドウサイズなどが含まれうる。学習速度パラメータ212は、GAN訓練216で実施される学習プロセスが収束する1つ以上の速度を指定するための能力を提供しうる。このような学習速度パラメータの実施例には、0.0015、0.015、0.01が含まれてもよく、これは、相対的な学習の速度を指定する単位のない値である。バッチサイズパラメータ214は、GAN訓練216中に処理される訓練データ218のバッチのサイズを指定する能力を提供しうる。こうしたバッチサイズの実施例には、64個または128個のデータサンプルを有するバッチが含まれうる。GAN訓練セットアップ処理202は、訓練パラメータ204〜214を収集し、それらがGAN訓練216と互換性を持つように処理し、かつ処理されたパラメータをGAN訓練216に入力するか、または処理されたパラメータを、GAN訓練216で使用する適切なファイルもしくは場所に記憶することができる。
216で、GAN訓練が開始されうる。216〜228はまた、図1に示される110に一般的に対応する。GAN訓練216は、例えば、バッチサイズパラメータ214で指定されるようなバッチで、訓練データ218を取り込むことができる。訓練データ218は、例えば、HLA対立遺伝子タイプなどの異なる対立遺伝子タイプによってコードされたMHC−Iタンパク質複合体の異なる結合親和性指定(結合または非結合)を有するペプチドを表すデータを含むことができる。例えば、このような訓練データは、ポジティブ/ネガティブのMHCペプチド相互作用のビニングおよび選択に関連する情報を含みうる。訓練データは、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、および/またはネガティブ実ポリペプチド−MHC−I相互作用データのうちの1つ以上を含むことができる。
220で、勾配降下プロセスは、取り込まれた訓練データ218に適用されうる。勾配降下は、関数の最小値または局所最小値を見つけるなど、機械学習を実施するための反復プロセスである。例えば、勾配降下法を使用して関数の最小値または局所最小値を見つけるために、変数値は、現在のポイントでの関数の勾配(または近似勾配)の負の値に比例するステップで更新される。機械学習の場合、パラメータスペースは、勾配降下を使用して検索されうる。予測誤差を許容できる程度に制限するために、異なる勾配降下法では、パラメータ空間で異なる「宛先」が見つかる場合がある。実施形態において、勾配降下プロセスは、学習速度を入力パラメータに適合させることができ、例えば、頻度の低いパラメータには多くの更新を、および頻度の高いパラメータには少ない更新を実施する。こうした実施形態は、スパースデータの取り扱いに適している場合がある。例えば、RMSpropとして知られる勾配降下法では、ペプチド結合データセットの改善された性能を提供しうる。
221で、損失測定は、処理の損失または「コスト」を測定するために適用されうる。こうした損失測定の実施例には、平均二乗誤差、またはクロスエントロピーが含まれうる。
222で、勾配降下の終了基準がトリガーされたかどうかを決定することができる。勾配降下は反復プロセスであるため、基準を指定して、発生装置228が弁別装置226によってポジティブおよび/または実際のものとして分類されたポジティブシミュレーションポリペプチド−MHC−I相互作用データを生成することができることを示す、反復プロセスを停止するときを決定することができる。222で、勾配降下の終了基準がトリガーされていないと決定された場合、プロセスは、220にループバックし、勾配降下プロセスを続けることができる。222で、勾配降下の終了基準がトリガーされていると決定された場合、プロセスは、224に続くことができ、弁別装置226および発生装置228は、例えば、図5Aを参照して説明されるように、訓練されうる。224で、弁別装置226および発生装置228の訓練モデルが記憶されうる。これらの記憶されたモデルには、弁別装置226および発生装置228のモデルを構成する構造および係数を定義するデータが含まれうる。記憶されたモデルは、人工データを生成するために発生装置228を使用する、およびデータを識別するために弁別装置226を使用する能力を提供し、適切に訓練されている場合に、弁別装置226および発生装置228からの正確で有用な結果を提供する。
プロセスは、次に、230〜238に続くことができ、これらは、図1に示した120に一般的に対応する。230〜238で、生成されたデータサンプル(例えば、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ)は、訓練された発生装置228を使用して作製されうる。例えば、230で、GAN生成プロセスは、例えば、GAN生成236を制御するために、多くのパラメータ232、234を設定することによって、セットアップされうる。設定されうるパラメータの実施例は、生成サイズ232およびサンプリングサイズ234を含みうる。サイズパラメータ232を生成することは、生成されるデータセットのサイズを指定する能力を提供しうる。例えば、生成された(ポジティブシミュレーションポリペプチド−MHC−I相互作用データ)データセットサイズは、実データ(ポジティブ実ポリペプチド−MHC−I相互作用データおよび/またはネガティブ実ポリペプチド−MHC−I相互作用データ)のサイズの2.5倍に設定されうる。この実施例では、バッチ内の元の実データが64の場合、対応するバッチ内の生成されたシミュレーションデータは、160である。サイズパラメータ234をサンプリングすることは、データセットを生成するために使用されるサンプリングのサイズを指定する能力を提供しうる。例えば、このパラメータは、発生装置の最終層での20のアミノ酸選択のカットオフパーセンタイルとして指定されうる。一実施例として、90パーセンタイルの指定は、90パーセンタイル未満のすべてのポイントが0に設定され、その残りが、正規化された指数(softmax)関数などの正規化関数を使用して正規化されうることを意味する。236で、訓練された発生装置228は、CNNモデルを訓練するために使用されうる、データセット236を生成するために使用されうる。
240で、訓練された発生装置228によって作製されるシミュレーションデータサンプル238と元のデータセットからの実データサンプルを混合して、図1に示した120に一般的に対応するような、訓練データ240の新しいセットを形成することができる。訓練データ240は、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、および/またはネガティブ実ポリペプチド−MHC−I相互作用データのうちの1つ以上を含むことができる。242〜262で、畳み込みニューラルネットワーク(CNN)分類子モデル262は、混合された訓練データ240を使用して訓練されうる。242で、CNN訓練は、例えば、CNN訓練254を制御するために、いくつかのパラメータ244〜252を設定することによって、セットアップされうる。設定されうるパラメータの実施例には、対立遺伝子タイプ244、対立遺伝子長さ246、モデル複雑さ248、学習速度250、およびバッチサイズ252が含まれうる。対立遺伝子タイプのパラメータ244は、CNNプロセスに含まれる1つ以上の対立遺伝子タイプを指定する能力を提供しうる。このような対立遺伝子タイプの実施例は、図12に示されている。例えば、指定された対立遺伝子は、図12に示されているA0201、A0202、B2703、B2705などを含みうる。対立遺伝子長さのパラメータ246は、指定された各対立遺伝子タイプ244に結合しうる、ペプチドの長さを指定する能力を提供しうる。このような長さの実施例は、図13Aに示されている。例えば、A0201については、指定された長さは、9または10として示され、A0202については、指定された長さは、9として示され、B2705については、指定された長さは、9として示されるなどである。モデル複雑さ248に対応するパラメータの収集は、CNN訓練254中で使用されるモデルの複雑さの態様を指定する能力を提供しうる。このような態様の実施例としては、層の数、層あたりのノード数、各畳み込み層のウィンドウサイズなどが含まれうる。学習速度パラメータ250は、CNN訓練254で実施される学習プロセスが収束する1つ以上の速度を指定するための能力を提供しうる。このような学習速度パラメータの実施例には、0.001が含まれてもよく、これは、相対的な学習速度を指定する単位のないパラメータである。バッチサイズパラメータ252は、CNN訓練254中に処理される訓練データ240のバッチのサイズを指定する能力を提供しうる。例えば、訓練データセットが100等分された場合、バッチサイズは、訓練データサイズの整数形式(train_data_size)/100であってもよい。CNN訓練セットアップ処理242は、訓練パラメータ244〜252を収集し、それらがCNN訓練254と互換性を持つように処理し、かつ処理されたパラメータをCNN訓練254に入力するか、または処理されたパラメータを、CNN訓練254で使用する適切なファイルもしくは場所に記憶することができる。
254で、CNN訓練を開始することができる。CNN訓練254は、例えば、バッチサイズパラメータ252で指定されるようなバッチで、訓練データ240を取り込むことができる。256で、勾配降下プロセスは、取り込まれた訓練データ240に適用されうる。上記で説明されたように、勾配降下は、関数の最小値または局所最小値を見つけるなど、機械学習を実施するための反復プロセスである。例えば、RMSpropとして知られる勾配降下法では、ペプチド結合データセットの改善された性能を提供しうる。
257で、損失測定は、処理の損失または「コスト」を測定するために適用されうる。こうした損失測定の実施例には、平均二乗誤差、またはクロスエントロピーが含まれうる。
258で、勾配降下の終了基準がトリガーされたかどうかを決定することができる。勾配降下は反復プロセスであるため、基準を指定して、反復プロセスをいつ停止するかを決定することができる。258で、勾配降下の終了基準がトリガーされていないと決定された場合、プロセスは、256にループバックし、勾配降下プロセスを続けることができる。258で、勾配降下の終了基準がトリガーされている(gCNNが、ポジティブ(実またはシミュレーション)ポリペプチド−MHC−I相互作用データをポジティブとして、および/またはネガティブ実ポリペプチド−MHC−I相互作用データをネガティブとして分類することができることを示している)と決定された場合、次に、プロセスは、260で続けられてもよく、ここにおいて、CNN分類子モデル262は、CNN分類子モデル262として記憶されうる。これらの記憶されたモデルには、CNN分類子モデル262を構成する構造および係数を定義するデータが含まれうる。記憶されたモデルは、入力データサンプルのペプチド結合を分類するために、CNN分類子モデル262を使用する能力を提供し、適切に訓練された場合に、CNN分類子モデル262から正確で有用な結果を提供する。264で、CNN訓練が終了する。
266〜280で、訓練された畳み込みニューラルネットワーク(CNN)分類子モデル262は、図1に示した130に一般的に対応するように、GANモデル全体の性能を測定するために、テストデータ(テストデータは、ポジティブ実ポリペプチド−MHC−I相互作用データおよび/またはネガティブ実ポリペプチド−MHC−I相互作用データのうちの1つ以上を含むことができる)に基づいて予測を提供および評価するために使用されてもよい。270で、GAN終了基準は、例えば、評価プロセス266を制御するために、いくつかのパラメータ272〜276を設定することによってセットアップされうる。設定されうるパラメータの実施例には、予測パラメータの正確さ272、信頼パラメータの予測274、および損失パラメータ276が含まれうる。予測パラメータの正確さ272は、評価266によって提供される予測の正確さを指定するための能力を提供しうる。例えば、実ポジティブカテゴリーを予測するための正確さ閾値は、0.9以上にすることができる。信頼パラメータを予測すること274は、評価266によって提供される予測の信頼レベル(例えば、softmax正規化)を指定するための能力を提供しうる。例えば、フェイクまたは人工カテゴリーを予測する信頼度の閾値は、実ネガティブカテゴリーに対して、0.4以上および0.6以上などの値に設定されうる。GAN終了基準セットアップ処理270は、訓練パラメータ272〜276を収集し、それらがGAN予測評価266と互換性を持つように処理し、かつ処理されたパラメータをGAN予測評価266に入力するか、または処理されたパラメータを、GAN予測評価266で使用する適切なファイルもしくは場所に記憶することができる。266で、GAN予測評価を開始することができる。GAN予測評価266は、テストデータ268を取り込みうる。
267で、受信者操作特性(ROC)曲線下面積(AUC)の測定を実施することができる。AUCは、分類性能の正規化された測定値である。AUCは、2つのランダムなポイント−1つはポジティブクラスからのものであり、もう1つはネガティブクラスからのものである−が与えられる可能性を測定し、分類子は、ポジティブクラスからのポイントをネガティブクラスからのポイントよりも高くランク付けする。実際には、ランキングの性能を測定する。AUCは、(分類子の出力スペースで)すべて一緒に混合される予測クラスが多いほど、分類子が悪くなるという考えを採用している。ROCは、移動境界で分類子出力スペースをスキャンする。スキャンする各ポイントで、偽陽性率(FPR)および真陽性率(TPR)が、(正規化された測定値として)記録される。2つの値の差が大きいほど、ポイントの混合が少なくなり、それらはより適切に分類される。すべてのFPRとTPRのペアを取得した後、それらを並べ替えて、ROC曲線がプロットされうる。AUCは、その曲線下の面積である。
278で、図1の140に一般的に対応するように、勾配降下の終了基準がトリガーされたかどうかを決定することができる。勾配降下は反復プロセスであるため、基準を指定して、反復プロセスをいつ停止するかを決定することができる。278で、評価プロセス266の終了基準がトリガーされていないと決定された場合、プロセスは、220にループバックし、GAN220〜264の訓練プロセスおよび評価プロセス266を続けることができる。したがって、終了基準がトリガーされていない場合、プロセスは、GAN訓練に戻って(図1の110に戻ることに一般的に対応している)、よりよい発生装置を作製するようにする。278で、評価プロセス266の終了基準がトリガーされている(CNNが、ポジティブ実ポリペプチド−MHC−I相互作用データをポジティブとして、および/またはネガティブ実ポリペプチド−MHC−I相互作用データをネガティブとして分類したことを示す)と決定された場合に、プロセスは、280に続くことができ、ここで、図1の150に一般的に対応するように、予測評価処理およびプロセス200は終了する。
発生装置228の内部処理構造の一実施形態の実施例が、図6〜図7に示されている。この実施例では、各処理ブロックは、示されたタイプの処理を実施することができ、かつ示されている順序で実施されてもよい。これは単なる一実施例であることに留意されたい。実施形態において、実施される処理のタイプ、ならびに処理が実施される順序は、変更されうる。
図6から図7に戻って、発生装置228の例示的な処理フローが説明される。処理フローは、一例にすぎず、限定することを意図したものではない。発生装置228に含まれる処理は、高密度処理602から始めることができ、ここにおいて、入力データは、入力データの密度の空間変動を推定するために、フィードフォワードニューラル層に入力される。604で、バッチ正規化処理を実施することができる。例えば、正規化処理は、異なるスケールで測定された値を共通のスケールに調節して、データ値の確率分布全体を整列するように調節することを含むことができる。元の(深層)ニューラルネットワークは最初の層の変更に敏感であるため、このような正規化により、改善された収束速度を提供する場合があり、最初のデータの外れ値のエラーを下げようとすると、方向パラメータが最適化されて、散乱される場合がある。バッチ正規化は、これらの散乱からの勾配を正規化するため、より高速である。606で、アクティベーション処理を実施することができる。例えば、アクティベーション処理には、tanh、シグモイド関数、ReLU(正規化線形ユニット)、またはステップ関数などが含まれうる。例えば、ReLUは、入力が0未満の場合は出力0であり、それ以外の場合は未加工の入力である。それは、他のアクティベーション関数に比べてシンプルであり(計算量が少ない)、したがって、加速された訓練を提供することができる。608で、入力再成形処理を実施することができる。例えば、こうした処理は、入力の形状(次元)を、次のステップで正当な入力として受け入れることができるターゲット形状に変換するのに役立ちうる。610で、ガウスドロップアウト処理を実施することができる。ドロップアウトは、特定の訓練データに基づくニューラルネットワークの過剰適合を低減するための正規化技術である。ドロップアウトは、過剰適合を引き起こしている、または悪化させている可能性のあるニューラルネットワークノードを削除することによって実施されてもよい。ガウスドロップアウト処理は、ガウス分布を使用して、削除するノードを決定することができる。こうした処理は、ドロップアウトの形態でノイズを提供する場合があるが、ドロップアウト後も自己正規化特性を確保するために、ガウス分布に基づいて入力の平均および分散を元の値に保つことができる。
612で、ガウスノイズ処理を実施することができる。ガウスノイズは、正規またはガウス分布の確率密度関数(PDF)に等しいPDFを有する統計的ノイズである。ガウスノイズ処理は、モデルがデータの小さな(多くの場合は取るに足らない)変更を学習しないようにデータにノイズを追加すること、したがって、モデルの過剰適合に対する堅牢性を追加することを含むことができる。このプロセスは、予測の正確さを改善することができる。614で、2次元(2D)畳み込み処理を実施することができる。2D畳み込みは、2次元空間領域で水平方向および垂直方向の両方を畳み込むことによる1D畳み込みの拡張であり、データの平滑化を提供しうる。こうした処理は、複数の移動フィルタですべての部分入力をスキャンすることができる。各フィルタは、機能マップ上のすべての場所での特定の機能(フィルタパラメータ値と一致する)の発生をカウントする、パラメータ共有ニューラル層とみなすことができる。616で、第2のバッチ正規化処理を実施することができる。618で、第2のアクティベーション処理を実施することができ、620で、第2のガウスドロップアウト処理を実施することができ、622で、2Dアップサンプリング処理を実施することができる。アップサンプリング処理は、入力を元の形状から望ましい(大部分は大きい)形状に変換しうる。例えば、そのために、再サンプリングまたは補間を使用することができる。例えば、入力を所望のサイズに再スケーリングすることができ、各ポイントの値をバイリニア補間などの補間を使用して、計算することができる。624で、第2のガウスノイズ処理を実施することができ、626で、2次元(2D)畳み込み処理を実施することができる。
図7に続いて、628で、第3のバッチ正規化処理を実施することができ、630で、第3のアクティベーション処理を実施することができ、632で、第3のガウスドロップアウト処理を実施することができ、634で、第3のガウスノイズ処理を実施することができる。636で、第2の2次元(2D)畳み込み処理を実施することができ、638で、第4のバッチ正規化処理を実施することができる。アクティベーション処理は、638の後および640の前に実施されてもよい。640で、第4のガウスドロップアウト処理を実施することができる。
642で、第4のガウスノイズ処理を実施することができ、644で、第3の2次元(2D)畳み込み処理を実施することができ、646で、第5のバッチ正規化処理を実施することができる。648で、第5のガウスドロップアウト処理を実施することができ、650で、第5のガウスノイズ処理を実施することができ、652で、第4のアクティベーション処理を実施することができる。このアクティベーション処理では、[−infinity,infinity]からの入力を[0,1]の出力にマッピングするシグモイドアクティベーション関数を使用することができる。典型的なデータ認識システムは、最後の層でアクティベーション関数をより多く使用する場合がある。しかしながら、現在の技術のカテゴリカルな性質のため、シグモイド関数は、改善されたMHC結合予測を提供する可能性がある。シグモイド関数は、ReLUよりも強力であり、適切な確率出力を提供しうる。例えば、本分類の問題において、確率としての出力が望ましい場合がある。しかしながら、シグモイド関数はReLUまたはtanhよりもはるかに遅い可能性があるため、性能上の理由から、以前のアクティベーション層にシグモイド関数を使用することは望ましくない場合がある。しかしながら、最後の高密度層は最終出力により直接関連しているため、このアクティベーション層でシグモイド関数を使用すると、ReLUと比較して収束が大幅に改善される可能性がある。
654で、第2の入力再成形処理を実施して、出力をデータ次元(後で弁別装置に入力できるようにする必要がある)に成形することができる。
弁別装置226の処理フローの一実施形態の一実施例が、図8〜図9に示されている。処理フローは、一例にすぎず、限定することを意図したものではない。この実施例では、各処理ブロックは、示されたタイプの処理を実施することができ、かつ示されている順序で実施されてもよい。これは単なる一実施例であることに留意されたい。実施形態において、実施される処理のタイプ、ならびに処理が実施される順序は、変更されうる。
図8に戻って、弁別装置226に含まれる処理は、1次元(1D)畳み込み処理802で始まることができ、この処理は、入力信号を取り、入力に1D畳み込みフィルタを適用し、出力を作製しうる。804で、バッチ正規化処理を実施することができ、806で、アクティベーション処理を実施することができる。例えば、漏出性正規化線形ユニット(RELU)処理を使用して、アクティベーション処理を実施することができる。RELUは、ニューラルネットワークのノードまたはニューロンのアクティベーション関数の1つのタイプである。漏出性RELUは、ノードがアクティブでない場合(入力が0より小さい)、ゼロ以外の小さな勾配を許容しうる。ReLUには「dying」と呼ばれる問題があり、ここにおいて、アクティベーション関数の入力に大きなネガティブバイアスがある場合に、0が出力され続ける。これが起こると、モデルは学習を停止する。漏出性ReLUは、アクティブでない場合でも、ゼロ以外の勾配を提供することによってこの問題を解決する。例えば、f(x)=alpha*x for x<0,f(x)=x for x>=0。808で、入力再成形処理を実施することができ、810で、2Dアップサンプリング処理を実施することができる。
任意選択的に、812で、ガウスノイズ処理を実施することができ、814で、2次元(2D)畳み込み処理を実施することができ、816で、第2のバッチ正規化処理を実施することができ、818で、第2のアクティベーション処理を実施することができ、820で、第2の2Dアップサンプリング処理を実施することができ、822で、第2の2D畳み込み処理を実施することができ、824で、第3のバッチ正規化処理を実施することができ、826で、第3のアクティベーション処理を実施することができる。
図9に続いて、828で、第3の2次元(2D)畳み込み処理を実施することができ、830で、第4のバッチ正規化処理を実施することができ、832で、第4のアクティベーション処理を実施することができ、834で、第4の2D畳み込み処理を実施することができ、836で、第5のバッチ正規化処理を実施することができ、838で、第5のアクティベーション処理を実施することができ、840で、データ平坦化処理を実施することができる。例えば、データ平坦化処理は、異なるテーブルまたはデータセットからのデータを組み合わせて、単一または少数のテーブルまたはデータセットを形成することを含みうる。842で、高密度処理を実施することができる。844で、第6のアクティベーション処理を実施することができ、846で、第2の高密度処理を実施することができ、848で、第6のバッチ正規化処理を実施することができ、850で、第7のアクティベーション処理を実施することができる。
最後の2つの高密度層のアクティベーション関数として、漏出性ReLUの代わりにシグモイド関数を使用することができる。シグモイドは、漏出性ReLUよりも強力であり、妥当な確率の出力(例えば、分類問題では、確率としての出力が望ましい)を提供しうる。しかしながら、シグモイド関数は、漏出性ReLUよりも遅いため、すべての層でシグモイドを使用することは望ましくない場合がある。しかしながら、最後の2つの高密度層は最終出力により直接関連しているため、シグモイドayは、漏出性ReLUと比較して収束を大幅に改善する。実施形態において、2つの高密度層(または完全に接続されたニューラルネットワーク層)842および846を使用して、それらの入力を変換するのに十分な複雑さを得ることができる。特に、1つの高密度層は、畳み込み結果を弁別装置出力スペースに変換するのに十分に複雑でない場合があるが、発生装置228での使用には十分である場合がある。
実施形態において、ニューラルネットワーク(CNNなど)を使用して、以前の訓練プロセスに基づいて入力を分類する方法が開示されている。ニューラルネットワークは予測スコアを生成することができるため、予測スコアを含む成功した生物学的データと成功していない生物学的データのセットで以前に訓練されたニューラルネットワークに基づいて、入力生物学的データを成功または失敗のいずれかに分類することができる。予測スコアは、結合親和性スコアであってもよい。ネットワークは、予測結合親和性スコアを生成するために使用されうる。結合親和性スコアは、単一の生体分子(タンパク質、DNA、薬物など)が別の生体分子(タンパク質、DNA、薬物など)に結合する可能性を数値的に表すことができる。予測結合親和性スコアは、ペプチド(MHCなど)が別のペプチドに結合する可能性を数値的に表すことができる。しかしながら、これまで、少なくともニューラルネットワークが少量のデータで訓練されている場合、機械学習技術は、少なくとも予測を確実に行うことができないため、実現することができなかった。
説明されている方法およびシステムは、機能の組み合わせを使用して、より確実に予測を行うことにより、この問題に対処する。第1の機能は、生物学的データの拡張訓練セットを使用して、ニューラルネットワークを訓練することである。この拡張訓練セットは、GANを訓練して、シミュレーション生物学的データを作成することによって開発される。その際、ニューラルネットワークは、この拡張訓練セットで(例えば、ネットワークの重みを調節するために数学的な損失関数の勾配を使用する、機械学習アルゴリズムの一種である逆伝播を伴う確率学習を使用して)訓練される。残念ながら、拡張訓練セットの導入は、生物学的データを分類するときに誤検知を増加させる場合がある。したがって、説明されている方法およびシステムの第2の機能は、必要に応じて反復訓練アルゴリズムを実施することにより、これらの誤検知を最小限に抑えることであり、ここで、GANは、より高品質のシミュレーションデータを含む更新されたシミュレーション訓練セットを生成することにさらに取り組み、ニューラルネットワークは、更新された訓練セットで再訓練される。この機能の組み合わせは、誤検知の数を制限しながら、特定の生物学的データの成功(結合親和性スコアなど)を予測することができる堅牢な予測モデルを提供する。
データセットは、未分類のタンパク質相互作用データなどの未分類の生物学的データを含むことができる。未分類の生物学的データは、別のタンパク質と関連付けられた結合親和性スコアが利用できないタンパク質に関するデータを含むことができる。生物学的データは、複数の候補タンパク質間相互作用、例えば、候補タンパク質−MHC−I相互作用データを含むことができる。CNNは、結合親和性を示す予測スコアを生成することができ、および/または候補ポリペプチド−MHC−I相互作用の各々を、ポジティブもしくはネガティブとして分類することができる。
図10に示される一実施形態では、結合親和性予測に対するニューラルネットワークを訓練するコンピュータ実装方法1000は、1010で、データベースからポジティブ生物学的データおよびネガティブ生物学的データのセットを収集することを含みうる。生物学的データは、タンパク質間の相互作用データを含みうる。タンパク質間相互作用データは、第1のタンパク質の配列、第2のタンパク質の配列、第1のタンパク質の識別子、第2のタンパク質の識別子、および/または結合親和性スコアなどのうちの1つ以上を含みうる。一実施形態では、結合親和性スコアは、1、すなわち、結合が成功したこと(例えば、ポジティブ生物学的データ)を示してもよく、または−1、すなわち、結合が失敗したこと(例えば、ネガティブ生物学的データ)を示してもよい。
コンピュータ実装方法1000は、1020で、敵対的生成ネットワーク(GAN)をポジティブ生物学的データのセットに適用して、シミュレーションポジティブ生物学的データのセットを作成することを含むことができる。ポジティブ生物学的データのセットにGANを適用して、シミュレーションポジティブ生物学的データのセットを作成することは、GAN発生装置によって、増加的に正確なポジティブシミュレーション生物学的データを、GAN弁別装置がポジティブシミュレーション生物学的データをポジティブとして分類するまで生成することを含むことができる。
コンピュータ実装方法1000は、1030で、収集されたポジティブ生物学的データのセット、シミュレートされたポジティブ生物学的データのセット、およびネガティブ生物学的データのセットを含む第1の訓練セットを作成することを含むことができる。
コンピュータ実装方法1000は、1040で、第1の訓練セットを使用して、第1の段階でニューラルネットワークを訓練することを含むことができる。第1の訓練セットを使用して、第1の段階でニューラルネットワークを訓練することは、ポジティブシミュレーション生物学的データ、ポジティブ生物学的データ、およびネガティブ生物学的データを、畳み込みニューラルネットワーク(CNN)に、CNNが生物学的データをポジティブまたはネガティブとして分類するように構成されるまで提示することを含むことができる。
コンピュータ実装方法1000は、1050で、追加のシミュレーションポジティブ生物学的データを生成するために、GANを再適用することによって、訓練の第2の段階の第2の訓練セットを作成することを含むことができる。第2の訓練セットを作成することは、ポジティブ生物学的データおよびネガティブ生物学的データをCNNに提示して、予測スコアを生成し、予測スコアが不正確であると決定することに基づいていてもよい。予測スコアは、結合親和性スコアであってもよい。不正確な予測スコアは、CNNが完全に訓練されていないことを示しており、これは、GANが完全に訓練されていないことが原因である。したがって、GAN発生装置のうちの1つ以上の反復が、増加的に正確なポジティブシミュレーション生物学的データを、GAN弁別装置がポジティブシミュレーション生物学的データをポジティブとして分類するまで生成することは、追加のシミュレーションポジティブ生物学的データを生成するために実施されうる。第2の訓練セットは、ポジティブ生物学的データ、シミュレーションポジティブ生物学的データ、およびネガティブ生物学的データを含むことができる。
コンピュータ実装方法1000は、1060で、第2の訓練セットを使用して、第2の段階でニューラルネットワークを訓練することを含むことができる。第2の訓練セットを使用して、第2の段階でニューラルネットワークを訓練することは、ポジティブ生物学的データ、シミュレーションポジティブ生物学的データ、およびネガティブ生物学的データを、CNNに、CNNが生物学的データをポジティブまたはネガティブとして分類するように構成されるまで提示することを含むことができる。
CNNが完全に訓練されると、新しい生物学的データが、CNNに提示されうる。新しい生物学的データは、タンパク質間の相互作用データを含みうる。タンパク質間相互作用データは、第1のタンパク質の配列、第2のタンパク質の配列、第1のタンパク質の識別子、および/または第2のタンパク質の識別子などのうちの1つ以上を含みうる。CNNは、新しい生物学的データを分析し、予測された成功または失敗した結合を示す予測スコア(例えば、予測された結合親和性)を生成することができる。
例示的な態様において、方法およびシステムは、図11に図示され以下に説明されているように、コンピュータ1101上で実施できる。同様に、開示する方法およびシステムは、1つ以上のコンピュータを利用して、1つ以上の場所で1つ以上の機能を実行できる。図11は、本開示の方法を実行するための例示的な運用環境を図示したブロック図である。この例示的な運用環境は、あくまで運用環境の一例にすぎず、運用環境アーキテクチャの使用または機能の範囲に関する何らかの制限を示唆することを意図したものではない。また、いかなる運用環境も、例示的な運用環境において図示される構成要素のいずれか1つもしくは組み合わせに関連する何らかの依存性または要件を有するものとして解釈すべきではない。
本方法およびシステムは、多数の他の汎用もしくは特殊用途向けコンピューティングシステム環境または構成で動作可能でありうる。このシステムおよび方法を用いた使用に適するものとしうる周知のコンピューティングシステム、環境、および/または構成の例としては、以下に限定されないが、パーソナルコンピュータ、サーバコンピュータ、ラップトップデバイス、およびマルチプロセッサシステムが挙げられる。追加的な例には、セットトップボックス、プログラマブル大衆消費電子製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれる。
本開示の方法およびシステムの処理は、ソフトウェアコンポーネントを介して実行できる。本開示のシステムおよび方法は、1つ以上のコンピュータまたは他のデバイスを介して実行されるプログラムモジュールなどの、コンピュータ実行可能命令の一般的なコンテキストで記述できる。概して、プログラムモジュールは、コンピュータコード、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含み、それらによって特定のタスクが実行されるかまたは特定の抽象データ型が実施される。また、本開示の方法は、通信ネットワーク経由でリンクされたリモートプロセシングデバイスを介してタスクが実行されるグリッドベースおよび分散コンピューティング環境においても実施することができる。分散コンピューティング環境において、プログラムモジュールは、メモリ記憶デバイスを含むローカルおよびリモートコンピュータストレージ媒体の両方に配置できる。
さらに、当業者は、本明細書に開示されるシステムおよび方法を、コンピュータ1101の形態の汎用コンピューティングデバイスを介して実施できることを認識することになる。コンピュータ1101の構成要素には、限定されるものではないが、1つ以上のプロセッサ1103と、システムメモリ1112と、1つ以上のプロセッサ1103を含む様々なシステムコンポーネントをシステムメモリ1112に連結するシステムバス1113と、を含めることができる。システムは並列計算を利用できる。
システムバス1113は、多様なバスアーキテクチャのいずれかを用いた、メモリバスもしくはメモリコントローラ、周辺機器用バス、アクセラレーテッドグラフィックスポート、またはローカルバスを含む、いくつかの可能なタイプのバス構造のうちの1つ以上を表す。一例として、こうした構造は、産業標準アーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、Enhanced ISA(EISA)バス、VESA(Video Electronics Standards Association)ローカルバス、アクセラレーテッドグラフィックスポート(AGP)バス、およびペリフェラルコンポーネントインターコネクト(PCI)、PCI−Expressバス、PCMCIA(Personal Computer Memory Card Industry Association)、ユニバーサルシリアルバス(USB)などを含むことができる。バス1113およびこの説明で指定されているすべてのバスはまた、有線または無線のネットワーク接続ならびに、1つ以上のプロセッサ1103、大容量記憶装置1104、オペレーティングシステム1105、分類ソフトウェア1106(例えば、GAN、CNN)、分類データ1107(例えば、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、および/またはネガティブ実ポリペプチド−MHC−I相互作用データを含む、「実際の」または「シミュレートされた」データ)、ネットワークアダプタ1108、システムメモリ1112、入力/出力インターフェース1110、ディスプレイアダプタ1109、表示デバイス1111、およびヒューマンマシンインターフェース1102を含む、サブシステムの各々を介して実装されてもよく、物理的に離れた場所にある1つ以上のリモートコンピューティングデバイス1114a、b、c内に含まれ、この形式のバスを介して接続されて、実質的に完全分散システムを実装することができる。
コンピュータ1101は、典型的には、様々なコンピュータ可読媒体を含む。例示的な可読媒体は、コンピュータ1101によりアクセスできる任意の利用可能な媒体であってよく、例えば、揮発性および不揮発性媒体であり、リムーバブルおよび非リムーバブル媒体の両方が挙げられるが、これらに限定されるものではない。システムメモリ1112は、ランダムアクセスメモリ(RAM)などの揮発性メモリ、および/またはリードオンリメモリ(ROM)などの不揮発性メモリの形態のコンピュータ可読媒体を含む。システムメモリ1112は、典型的には、分類データ1107のようなデータ、および/または1つ以上のプロセッサ1103によって直ちにアクセス可能であり、かつ/または現在操作されているオペレーティングシステム1105および分類ソフトウェア1106などのプログラムモジュールを含む。
別の態様では、コンピュータ1101はまた、他のリムーバブル/非リムーバブルな、揮発性/不揮発性コンピュータストレージ媒体を含むこともできる。一例として、図11は、コンピュータ1101用のコンピュータコード、コンピュータ可読命令、データ構造、プログラムモジュール、および他のデータの不揮発性ストレージを提供することができる、大容量ストレージデバイス1104が図示されている。例えば、限定されるものではないが、大容量記憶デバイス1104は、ハードディスク、リムーバブル磁気ディスク、リムーバブル光学式ディスク、磁気カセットまたは他の磁気ストレージデバイス、フラッシュメモリカード、CD−ROM、デジタル多用途ディスク(DVD)または他の光学式ストレージ、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)などでありうる。
任意選択的に、オペレーティングシステム1105および分類ソフトウェア1106を含む、任意の数のプログラムモジュールを大容量記憶装置1104に記憶することができる。オペレーティングシステム1105および分類ソフトウェア1106(またはそれらのいくつかの組み合わせ)の各々には、プログラミングおよび分類ソフトウェア1106の要素を含めることができる。分類データ1107はまた、大容量記憶装置1104に記憶されうる。分類データ1107を、当技術分野において知られている1つ以上のデータベースのうちのいずれかに記憶させることができる。そのようなデータベースの例としては、DB2(登録商標)、Microsoft(登録商標)Access、Microsoft(登録商標)SQL Server、Oracle(登録商標)、mySQL、PostgreSQLなどが挙げられる。データベースは、集中型とすることができ、または複数のシステムにわたって分散することができる。
別の態様では、ユーザは、入力デバイス(図示せず)を介して、コンピュータ1101内にコマンドおよび情報を入力することができる。そのような入力デバイスの例としては、限定されるものではないが、キーボード、ポインティングデバイス(例えば、「マウス」)、マイクロフォン、ジョイスティック、スキャナー、グローブなどの触覚入力デバイス、および他のボディカバーなどが含まれる。上記および他の入力デバイスは、システムバス1113に接続されているヒューマンマシンインターフェース1102を介して1つ以上のプロセッサ1103に接続できるが、他のインターフェースおよびバス構造、例えば、パラレルポート、ゲームポート、IEEE1394ポート(別称:ファイヤーワイヤー(FireWire(登録商標))ポート)、シリアルポートまたはユニバーサルシリアルバス(USB)を介して接続できる。
更に別の態様において、ディスプレイデバイス1111はまた、ディスプレイアダプタ1109などのインターフェースを介してシステムバス1113に接続できる。コンピュータ1101に複数のディスプレイアダプタ1109を設けることができ、コンピュータ1101に複数のディスプレイデバイス1111を設けることもできることが予期される。例えば、ディスプレイデバイス1111は、モニター、液晶ディスプレイ(LCD)、またはプロジェクターとすることができる。ディスプレイデバイス1111に加えて、他の出力周辺デバイスには、入出力インターフェース1110を介してコンピュータ1101に接続できるスピーカ(図示せず)およびプリンタ(図示せず)などの構成要素を含めることができる。本方法の任意の工程および/または結果は、任意のフォーマットで出力デバイスに出力できる。そのような出力は、テキスト、グラフィカル、アニメーション、オーディオ、触覚(tactile)などを含むが、これらに限定されない任意のフォーマットの視覚的表象でありうる。ディスプレイ1111およびコンピュータ1101は、1つのデバイスの一部である場合もあれば、別々のデバイスである場合もある。
コンピュータ1101は、1つ以上のリモートコンピューティングデバイス1114a、b、cへの論理的接続を使用してネットワーク環境で動作することができる。一例として、リモートコンピューティングデバイスは、パーソナルコンピュータ、ポータブルコンピュータ、スマートフォン、サーバー、ルーター、ネットワークコンピュータ、ピアデバイスまたは他の共通ネットワークノードなどでありうる。コンピュータ1101とリモートコンピューティングデバイス1114a、b、cとの間の論理的接続は、ローカルエリアネットワーク(LAN)および/または一般的なワイドエリアネットワーク(WAN)などのネットワーク1115を介して行うことができる。そのようなネットワーク接続は、ネットワークアダプタ1108経由でありうる。ネットワークアダプタ1108は、有線および無線の両方の環境で実装できる。そのようなネットワーキング環境は、住宅、職場、企業全体のコンピュータネットワーク、イントラネット、およびインターネットでは、従来からあるありふれたものである。
そのようなプログラムおよびコンポーネントは、コンピューティングデバイス1101の異なるストレージコンポーネント内に様々な時間に存在し、コンピュータの1つ以上のプロセッサ1103を介して実行されることが認識されるが、例証の便宜上、本明細書においてアプリケーションプログラムおよびオペレーティングシステム1105などの他の実行可能プログラムコンポーネントは、離散的ブロックとして図示されている。分類ソフトウェア1106の実装形態は、何らかの形態のコンピュータ可読媒体上に格納される場合もあれば、またはそのコンピュータ可読媒体を介して伝送される場合もある。本開示の方法のいずれも、コンピュータ可読媒体上に具現化されたコンピュータ可読命令によって実行することができる。コンピュータ可読媒体は、コンピュータによってアクセス可能な任意の利用可能媒体とすることができる。例として、かつ限定を意図するものではないが、コンピュータ可読媒体は、「コンピュータストレージ媒体」および「通信媒体」を含みうる。「コンピュータストレージ媒体」は、コンピュータ可読命令、データ構造、プログラムモジュールもしくは他のデータなどの情報を記憶するための任意の方法または技術で実装される揮発性および不揮発性のリムーバブル媒体および非リムーバブル媒体を具備する。例示的なコンピュータストレージ媒体は、限定されるものではないが、RAM、ROM、EEPROM、フラッシュメモリもしくは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)、または他の光学式ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージデバイスもしくは他の磁気ストレージデバイス、または、所望の情報を格納する目的に使用でき、かつコンピュータがアクセスできる任意の他の媒体を具備する。
方法およびシステムは、機械学習および反復学習などの人工知能手法を採用することができる。そのような手法の例としては、以下に限定されないが、エキスパートシステム、事例に基づく推論、ベイジアンネットワーク、ビヘイビアベースAI、ニューラルネットワーク、ファジーシステム、進化的計算法(例えば遺伝的アルゴリズム)、群知能(例えばアントアルゴリズム)、およびハイブリッド知能システム(例えば、ニューラルネットワークを通じて生成されるエキスパート推論ルール、または統計的学習から得られるプロダクションルール)が挙げられる。
以下の実施例は、本明細書に請求される化合物、組成物、物品、デバイス、および/または方法がどのようになされて評価されるのかに関して、当業者に完全な開示および説明を提供するように示されており、単に例示的であることを意図しており、この方法およびシステムの範囲を限定することを意図していない。数字(例えば量、温度など)に関する正確性を確保するために取り組みがなされているが、いくらかの誤差および偏差が考慮されるべきである。特に明示がない限り、部分は重量部であり、温度は℃単位であるか、または周囲温度であり、圧力は大気圧またはその近傍である。
B.HLA対立遺伝子
開示されたシステムは、無制限の数のHLA対立遺伝子で訓練されうる。HLA対立遺伝子によってコードされるMHC−Iタンパク質複合体へのペプチド結合のデータは、当技術分野で知られており、IEDB、AntiJen、MHCBN、SYFPEITHIなどを含むが、これらに限定されないデータベースから入手可能である。
一実施形態では、開示されたシステムおよび方法は、以下のHLA対立遺伝子によってコードされるMHC−Iタンパク質複合体へのペプチド結合の予測可能性を改善する。A0201、A0202、B0702、B2703、B2705、B5701、A0203、A0206、A6802、およびそれらの組み合わせ。例として、1028790は、A0201、A0202、A0203、A0206、A6802のテストセットである。
Figure 2021514086
予測可能性は、NetMHCpan、MHCflurry、sNeubula、およびPSSMを含むが、これらに限定されない既存のニューラルシステムと比較して改善されうる。
III.治療薬
開示されたシステムおよび方法は、T細胞および標的細胞のMHC−Iに結合するペプチドを識別するために有用である。一実施形態では、ペプチドは、腫瘍特異的ペプチド、ウイルスペプチド、または標的細胞のMHC−Iに表示されるペプチドである。標的細胞は、腫瘍細胞、がん細胞、またはウイルス感染細胞でありうる。ペプチドは典型的には抗原提示細胞上に表示され、その後、ペプチド抗原を、CD8+細胞、例えば、細胞毒性T細胞に提示する。ペプチド抗原のT細胞への結合は、T細胞を活性化または刺激する。したがって、一実施形態は、ワクチン、例えば、開示されたシステムおよび方法で識別された1つ以上のペプチドを含むがんワクチンを提供する。
別の実施形態は、ペプチド、ペプチド抗原−MHC−I複合体、またはその両方に結合する抗体またはその抗原結合断片を提供する。
本発明の具体的な実施形態が記述されているが、記述された実施形態と同等な他の実施形態があることが当業者によって理解されるであろう。したがって、本発明は、特定の例示された実施形態によってではなく、添付の特許請求の範囲によってのみ限定されることを理解されたい。
実施例1:既存の予測モデルの評価
予測モデルNetMHCpan、sNebula、MHCflurry、CNN、PSSMを評価した。ROC曲線下面積を、パフォーマンス測定として使用した。値1は良好なパフォーマンスであり、0は悪いパフォーマンスであり、そして0.5はランダムな推測と同等である。表1は、使用されるモデルおよびデータを示している。
Figure 2021514086
図12は、本明細書に記載されているように訓練されたCNNが、現在の最新のNetMHCpanを含むほとんどのテストケースで他のモデルよりも優れていることを示す評価データを示している。図12は、最新のモデルおよび本記述の方法(「CNN_ours」)を同じ15個のテストデータセットに適用した結果を示すAUCヒートマップを示している。図12では、左下から右上への対角線は、一般的に高い値を示しており、線が細いほど値が高くなり、線が太くなるほど値が低くなる。右下から左上への対角線は、一般的に低い値を示しており、線が細いほど値が低くなり、線が太くなるほど値が高くなる。
実施例2:CNNモデルに関する問題
CNN訓練には多くのランダムプロセス(例えば、ミニバッチデータフィード、ドロップアウトによる勾配に関与する確率性、ノイズなど)が含まれているため、訓練プロセスの再現性に問題がある可能性がある。例えば、図12は、まったく同じデータにまったく同じアルゴリズムを実装すると、Vang’s(「Yeeling」)AUCを完全に再現できないことを示している。Vang,et al.,HLA class I binding prediction via convolutional neural networks,Bioinformatics,Sep 1;33(17):2658−2665(2017)。
一般的に言えば、CNNは、そのパラメータ共有の性質上、深層ニューラルネットワークのような他の深層学習フレームワークほど複雑ではないが、それでも依然として複雑なアルゴリズムである。
標準のCNNは固定サイズのウィンドウでデータから機能を抽出するが、ペプチドの結合情報は、同じ長さでコードされない可能性がある。本開示では、生物学の研究が、1つのタイプの結合メカニズムがペプチド鎖に7アミノ酸のスケールで発生することを指摘しているため、7のウィンドウサイズを使用することができ、一方でウィンドウサイズは十分に機能するが、すべてのHLA結合問題における他のタイプの結合因子を説明するだけでは不十分な場合がある。
図13A〜図13Cは、様々なモデル間の差異を示している。図13Aは、IEDBの毎週リリースされるHLA結合データからの15のテストデータセットを示している。test_idには、15のテストデータセットすべての一意のIDとしてラベルが付けられている。IEDBはIEDBデータリリースIDであり、1つのIEDBリリースの異なるHLAカテゴリーに関連する複数の異なるサブデータセットがありうる。HLAは、ペプチドに結合するHLAのタイプである。長さは、HLAに結合するペプチドの長さである。テストサイズは、このテストセットにある記録の数である。訓練サイズは、この訓練セットにある記録の数である。bind_propは、訓練データセット内の結合と非結合の合計に対する結合の割合であり、訓練データの歪度を測定するためにここに列挙されている。bind_sizeは、訓練データセット内の結合の数であり、bind_propを計算するために使用される。
図13B〜図13Cは、CNN実装の再現の困難さを示している。モデル間の差異に関して、図13B〜図13Cにおけるモデルの差異は0である。図13B〜図13Cは、Adamの実装が公開された結果と一致しないことを示している。
実施例3:データセットのバイアス
訓練/テストセットの分割を実施した。訓練/テストセットの分割は、過剰適合を回避するように設計された測定であるが、測定が有効かどうかは、選択したデータに依存する場合がある。同じMHC遺伝子対立遺伝子(A*02:01)でどのようにテストしても、モデル間の性能は大きく異なる。このことは、図14でバイアスされたテストセットを選択することによって得られたAUCバイアスで示される。バイアスされた訓練/テストセットで説明されている方法を使用した結果は、カラム「CNN*1」に示されており、これは、図12に示されているものよりも低い性能を示している。図14では、左下から右上への対角線は、一般的に高い値を示しており、線が細いほど値が高くなり、線が太くなるほど値が低くなる。右下から左上への対角線は、一般的に低い値を示しており、線が細いほど値が低くなり、線が太くなるほど値が高くなる。
実施例4:SRCCバイアス
テストされた5つのモデルから、最良のスピアマンの順位相関係数(SRCC)を選択し、正規化されたデータサイズと比較した。図15は、テストサイズが小さいほど、SRRCが優れていることを示している。SRCCは、予測ランクとラベルランクとの間の無秩序を測定する。テストサイズが大きいほど、順位の順序が崩れる確率が高くなる。
実施例5:勾配降下比較
AdamとRMSpropの比較を実施した。Adamは、低次モーメントの適応推定に基づく、確率的目的関数の1次勾配ベースを最適化するためのアルゴリズムである。RMSprop(二乗平均平方根伝搬)はまた、学習速度をパラメータの各々に適合させる方法である。
図16A〜図16Cは、RMSpropがAdamと比較してほとんどのデータセットよりも改善されていることを示している。Adamは、運動量ベースのオプティマイザであり、RMSpropと比較して、最初にパラメータを積極的に変更する。この改善は以下に関連しうる。1)弁別装置がGAN訓練プロセス全体を主導するため、それが運動量に追随して、そのパラメータを積極的に更新する場合に、発生装置は最適以下の状態で終了すること、2)ペプチドデータは画像とは異なり、生成時の障害を許容しないこと。9〜30の位置の微妙な違いにより、結合結果が大幅に変わる可能性がある一方で、写真のピクセル全体は、変更されうるが、写真の同じカテゴリーに残る。Adamは、パラメータゾーンでさらに探索する傾向があるが、それはゾーン内の各位置のライターを意味し、一方で、RMSpropは、各ポイントでより長く停止し、弁別装置の最終出力の大幅な改善を示すパラメータの微妙な変化を見つけて、この知識を発生装置に転送して、より良くシミュレートされたペプチドを作成することができる。
実施例5:ペプチド訓練の形式
表2は、例示のMHC−I相互作用データの例を示している。示されたHLA対立遺伝子に対する異なる結合親和性を有するペプチドが、示されている。ペプチドは、結合性(1)または非結合性(−1)と指定された。結合カテゴリーは、半分の最大阻害濃度(IC50)から変換された。予測される出力は、IC50nMの単位で与えられる。数値が小さいほど、親和性が高いことを示す。IC50が50nM未満のペプチドは、高親和性とみなされ、500nM未満のペプチドは、中程度の親和性とみなされ、5000nM未満のペプチドは、低親和性とみなされる。ほとんどの既知のエピトープは、高いまたは中程度の親和性を有している。低い親和性を有しているものもある。既知のT細胞エピトープのIC50値が、5000nMを超えるものはない。
Figure 2021514086
実施例6:GAN比較
図17は、シミュレーション(例えば、人工の、フェイク)ポジティブデータ、実ポジティブデータ、および実ネガティブデータの混合が、実ポジティブデータおよび実ネガティブデータのみ、またはシミュレーションポジティブデータおよび実ネガティブデータよりも優れた予測をもたらすことを示している。説明される方法の結果は、カラム「CNN」および2つのカラム「GAN−CNN」に示されている。図17では、左下から右上への対角線は、一般的に高い値を示しており、線が細いほど値が高くなり、線が太くなるほど値が低くなる。右下から左上への対角線は、一般的に低い値を示しており、線が細いほど値が低くなり、線が太くなるほど値が高くなる。GANは、すべてのテストセットでA0201の性能を改善する。結合情報が空間的にコードされているため、情報抽出器(CNN+スキップグラムの埋め込みなど)の使用は、ペプチドデータに対して良好に機能する。開示されたGANから生成されたデータは、「補完」の1つの方法とみなすことができ、これにより、データの分布がスムーズになり、モデルが学習しやすくなる。また、GANの損失機能により、GANは青平均ではなく鋭いサンプルを作成し、これは、変分オートエンコーダなどの従来の方法とは異なる。潜在的な化学結合パターンは多数あるため、中間点までの異なるパターンの平均は最適ではない。したがって、GANは過剰適合して、モード崩壊の問題に直面する可能性があるが、パターンをより良くシミュレートする。
開示された方法は、部分的には、異なる訓練データの使用により、最新のシステムよりも性能が優れている。開示された方法は、発生装置がいくつかの弱い結合信号の周波数を高めることができるため、実ポジティブおよび実ネガティブデータのみを使用した場合よりも性能が優れており、このことは、いくつかの結合パターンの頻度を拡大し、かつ訓練データセット内の異なる結合パターンの重みのバランスをとることにより、モデルの学習を容易にする。
開示された方法は、フェイクポジティブクラスがモード崩壊の問題を有するため、フェイクポジティブおよび実ネガティブデータのみの使用よりも性能が優れており、このことは、実ポジティブデータおよび実ネガティブデータを、訓練データとしてモデルに入力するのと同様に、母集団全体の結合パターンを表すことはできないが、訓練サンプルの数が減るため、モデルの学習に使用するデータが少なくなることをもたらすことを意味する。
図17では、以下のカラムが使用される。test_id:テストセットを区別するために使用される、1つのテストセットの一意のID、IEDB:IEDBデータベース上のデータセットのID、HLA:ペプチドに結合する複合体の対立遺伝子タイプ、長さ:ペプチドのアミノ酸の数、Test_size:このテストデータセットで見つかった観測の数、Train_size:この訓練データセットにおける観測の数、Bind_prop:訓練データセットにおける結合の比率、Bind_size:訓練データセットにおける結合の数。
別途明記しない限り、本明細書中に記載のいかなる方法も、そのステップを特定の順序で実行することを必須としていると解釈するべきであることを意図するものでは決してない。したがって、方法についてのある請求項が、実際にその工程に従うべき順序を列挙していない場合、または、特許請求の範囲もしくは明細書において特定の順序に限定されることが別途明記されていない場合には、いかなる点においても、順序を推定することは決して意図されない。これは、工程の配置または操作の流れの配列に関するロジックの問題、文法的な編成または句読法から導き出される明白な意味、本明細書中に記載されている実施形態の数またはタイプを含む、解釈するための、あらゆる可能な非明示的基礎に対して成り立つ。
前述の記載において、本発明はその特定の実施形態に関連付けて記載され、解説を目的として多くの詳細が提示されているが、当業者であれば、本発明はさらなる実施形態を受け入れることができること、および本明細書に記載される詳細の特定部分は、本発明の基礎となる主旨から逸脱することなく大きく変化しうることが明白であろう。
本明細書に引用されるすべての参照文献は、その全体を参照することにより組み込まれる。本発明は、その主旨および本質的な特質から逸脱することなく、他の具体的な形態で具現化されてもよく、したがって、前述の記載ではなく、本発明範囲を示す添付の請求の範囲に対して参照がなされるべきである。
例示の実施形態
実施形態1.敵対的生成ネットワーク(GAN)を訓練するための方法であって、GAN発生装置によって、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチド−MHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データをCNNに提示して、予測スコアを生成することと、予測スコアに基づいて、GANが訓練されていることを決定することと、GANおよびCNNを出力することと、を含む、方法。
実施形態2.増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データを実際のものとして分類するまで生成することは、GANパラメータのセットに従ってGAN発生装置によって、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第1のシミュレーションデータセットを生成することと、MHC対立遺伝子のポジティブ実ポリペプチド−MHC−I相互作用を有する第1のシミュレーションデータセットを、MHC対立遺伝子のネガティブ実ポリペプチド−MHC−I相互作用と組み合わせて、GAN訓練データセットを作成することと、決定境界に従って弁別装置によって、GAN訓練データセットにおけるMHC対立遺伝子のポリペプチド−MHC−I相互作用が、シミュレーションポジティブ、実ポジティブ、または実ネガティブであるかどうかを決定することと、弁別装置による決定の正確さに基づいて、GANパラメータのセットまたは決定境界のうちの1つ以上を調節することと、第1の停止基準が満たされるまで、a〜dを繰り返すことと、を含む、実施形態1に記載の方法。
実施形態3.ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチド−MHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示することは、GANパラメータのセットに従ってGAN発生装置によって、HLA対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む、第2のシミュレーションデータセットを生成することと、第2のシミュレーションデータセットを、MHC対立遺伝子のポジティブ実ポリペプチド−MHC−I相互作用およびMHC対立遺伝子のネガティブ実ポリペプチド−MHC−I相互作用と組み合わせて、CNN訓練データセットを作成することと、畳み込みニューラルネットワーク(CNN)に、CNN訓練データセットを提示することと、CNNパラメータのセットに従ってCNNによって、CNN訓練データセットにおけるMHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することと、CNNによる分類の正確さに基づいて、CNNパラメータのセットのうちの1つ以上を調節することと、第2の停止基準が満たされるまで、h〜jを繰り返すことと、を含む、実施形態2に記載の方法。
実施形態4.ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、CNNに提示して、予測スコアを生成することは、CNNパラメータのセットに従ってCNNによって、MHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することを含む、実施形態3に記載の方法。
実施形態5.予測スコアに基づいて、GANが訓練されていることを決定することは、CNNによる分類の正確さを決定することを含み、(場合によっては)分類の正確さが第3の停止基準を満たしている場合に、GANおよびCNNが出力される、実施形態4に記載の方法。
実施形態6.予測スコアに基づいて、GANが訓練されていることを決定することは、CNNによる分類の正確さを決定することを含み、(場合によっては)分類の正確さが第3の停止基準を満たしていない場合に、ステップaに戻る、実施形態4に記載の方法。
実施形態7.GANパラメータは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの1つ以上を含む、実施形態2に記載の方法。
実施形態8.MHC対立遺伝子は、HLA対立遺伝子である、実施形態2に記載の方法。
実施形態9.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態8に記載の方法。
実施形態10.HLA対立遺伝子長さは、約8〜約12アミノ酸である、実施形態8に記載の方法。
実施形態11.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態8に記載の方法。
実施形態12.データセットをCNNに提示することであって、データセットが複数の候補ポリペプチド−MHC−I相互作用を含む、提示することと、CNNによって、複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類することと、ポジティブポリペプチド−MHC−I相互作用として分類された候補ポリペプチド−MHC−I相互作用から、ポリペプチドを合成することと、をさらに含む、実施形態1に記載の方法。
実施形態13.実施形態12に記載の方法によって作製されたポリペプチド。
実施形態14.ポリペプチドは、腫瘍特異的抗原である、実施形態12に記載の方法。
実施形態15.ポリペプチドは、選択されたMHC対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、実施形態12に記載の方法。
実施形態16.ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データは、選択された対立遺伝子と関連付けられている、実施形態1に記載の方法。
実施形態17.選択された対立遺伝子は、A0201、A0202、A0203、B2703、B2705、およびそれらの組み合わせからなる群から選択される、実施形態16に記載の方法。
実施形態18.増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することは、GAN発生装置の勾配降下発現を評価することを含む、実施形態1に記載の方法。
実施形態19.増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することは、ポジティブ実ポリペプチド−MHC−I相互作用データに高い確率を、ポジティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を、およびネガティブ実ポリペプチド−MHC−I相互作用データに低い確率を与える可能性を高めるために、GAN弁別装置を繰り返し実行する(例えば、最適化する)ことと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データが高くレート付けされる確率を高めるために、GAN発生装置を繰り返し実行する(例えば、最適化する)ことと、を含む、実施形態1に記載の方法。
実施形態20.ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチド−MHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示することは、畳み込み処置を実施することと、非線形性(RelU)処置を実施することと、プーリングまたはサブサンプリング処置を実施することと、分類(完全接続層)処置を実施することと、を含む、実施形態1に記載の方法。
実施形態21.GANは、深層畳み込みGAN(DCGAN)を含む、実施形態1に記載の方法。
実施形態22.第1の停止基準は、平均二乗誤差(MSE)関数を評価することを含む、実施形態2に記載の方法。
実施形態23.第2の停止基準は、平均二乗誤差(MSE)関数を評価することを含む、実施形態3に記載の方法。
実施形態24.第3の停止基準は、曲線下面積(AUC)関数を評価することを含む、実施形態5または6に記載の方法。
実施形態25.予測スコアは、ポジティブポリペプチド−MHC−I相互作用データとして分類されるポジティブ実ポリペプチド−MHC−I相互作用データの確率である、実施形態1に記載の方法。
実施形態26.予測スコアに基づいて、GANが訓練されていることを決定することは、予測スコアのうちの1つ以上を閾値と比較することを含む、実施形態1に記載の方法。
実施形態27.敵対的生成ネットワーク(GAN)を訓練するための方法であって、GAN発生装置によって、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチド−MHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データをCNNに提示して、予測スコアを生成することと、予測スコアに基づいて、GANが訓練されいないと決定することと、予測スコアに基づいて、GANが訓練されているとの決定がなされるまで、a〜cを繰り返すことと、GANおよびCNNを出力することと、を含む、方法。
実施形態28.GAN発生装置によって、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することは、GANパラメータのセットに従ってGAN発生装置によって、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第1のシミュレーションデータセットを生成することと、MHC対立遺伝子のポジティブ実ポリペプチド−MHC−I相互作用を有する第1のシミュレーションデータセットを、MHC対立遺伝子のネガティブ実ポリペプチド−MHC−I相互作用と組み合わせて、GAN訓練データセットを作成することと、決定境界に従って弁別装置によって、GAN訓練データセットにおけるMHC対立遺伝子のポジティブポリペプチド−MHC−I相互作用が、シミュレーションポジティブ、実ポジティブ、または実ネガティブであるかどうかを決定することと、弁別装置による決定の正確さに基づいて、GANパラメータのセットまたは決定境界のうちの1つ以上を調節することと、第1の停止基準が満たされるまで、g〜jを繰り返すことと、を含む、実施形態27に記載の方法。
実施形態29.ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチド−MHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示することは、GANパラメータのセットに従ってGAN発生装置によって、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む、第2のシミュレーションデータセットを生成することと、第2のシミュレーションデータセットを、MHC対立遺伝子の既知のポジティブポリペプチド−MHC−I相互作用およびMHC対立遺伝子の既知のネガティブポリペプチド−MHC−I相互作用と組み合わせて、CNN訓練データセットを作成することと、畳み込みニューラルネットワーク(CNN)に、CNN訓練データセットを提示することと、CNNパラメータのセットに従ってCNNによって、CNN訓練データセットにおけるMHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することと、CNNによる分類の正確さに基づいて、CNNパラメータのセットのうちの1つ以上を調節することと、第2の停止基準が満たされるまで、n〜pを繰り返すことと、を含む、実施形態28に記載の方法。
実施形態30.ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、CNNに提示して、予測スコアを生成することは、CNNパラメータのセットに従ってCNNによって、MHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することを含む、実施形態29に記載の方法。
実施形態31.予測スコアに基づいて、GANが訓練されていることを決定することは、CNNによる分類の正確さを決定することを含み、(場合によっては)分類の正確さが第3の停止基準を満たしている場合に、GANおよびCNNが出力される、実施形態30に記載の方法。
実施形態32.予測スコアに基づいて、GANが訓練されていることを決定することは、CNNによる分類の正確さを決定することを含み、(場合によっては)分類の正確さが第3の停止基準を満たしていない場合に、ステップaに戻る、実施形態31に記載の方法。
実施形態33.GANパラメータは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの1つ以上を含む、実施形態28に記載の方法。
実施形態34.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態33に記載の方法。
実施形態35.HLA対立遺伝子長さは、約8〜約12アミノ酸である、実施形態33に記載の方法。
実施形態36.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態35に記載の方法。
実施形態37.データセットをCNNに提示することであって、データセットが複数の候補ポリペプチド−MHC−I相互作用を含む、提示することと、CNNによって、複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類することと、ポジティブポリペプチド−MHC−I相互作用として分類された候補ポリペプチド−MHC−I相互作用から、ポリペプチドを合成することと、をさらに含む、実施形態27に記載の方法。
実施形態38.実施形態37に記載の方法によって作製されたポリペプチド。
実施形態39.ポリペプチドは、腫瘍特異的抗原である、実施形態37に記載の方法。
実施形態40.ポリペプチドは、選択されたMHC対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、実施形態37に記載の方法。
実施形態41.ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データは、選択された対立遺伝子と関連付けられている、実施形態27に記載の方法。
実施形態42.選択された対立遺伝子は、A0201、A0202、A0203、B2703、B2705、およびそれらの組み合わせからなる群から選択される、実施形態41に記載の方法。
実施形態43.GAN発生装置によって、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することは、GAN発生装置の勾配降下発現を評価することを含む、実施形態27に記載の方法。
実施形態44.GAN発生装置によって、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することは、ポジティブ実ポリペプチド−MHC−I相互作用データに高い確率を、ポジティブシミュレーションポリペプチド−MHC−I相互作用に低い確率を、およびネガティブ実ポリペプチド−MHC−I相互作用データに低い確率を与える可能性を高めるために、GAN弁別装置を繰り返し実行する(例えば、最適化する)ことと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データが高くレート付けされる確率を高めるために、GAN発生装置を繰り返し実行する(例えば、最適化する)ことと、を含む、実施形態27に記載の方法。
実施形態45.ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチド−MHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示することは、畳み込み処置を実施することと、非線形性(RelU)処置を実施することと、プーリングまたはサブサンプリング処置を実施することと、分類(完全接続層)処置を実施することと、を含む、実施形態27に記載の方法。
実施形態46.GANは、深層畳み込みGAN(DCGAN)を含む、実施形態27に記載の方法。
実施形態47.第1の停止基準は、平均二乗誤差(MSE)関数を評価することを含む、実施形態28に記載の方法。
実施形態48.第2の停止基準は、平均二乗誤差(MSE)関数を評価することを含む、実施形態27に記載の方法。
実施形態49.第3の停止基準は、曲線下面積(AUC)関数を評価することを含む、実施形態31または32に記載の方法。
実施形態50.予測スコアは、ポジティブポリペプチド−MHC−I相互作用データとして分類されるポジティブ実ポリペプチド−MHC−I相互作用データの確率である、実施形態27に記載の方法。
実施形態51.予測スコアに基づいて、GANが訓練されていることを決定することは、予測スコアのうちの1つ以上を閾値と比較することを含む、実施形態27に記載の方法。
実施形態52.敵対的生成ネットワーク(GAN)を訓練するための方法であって、GANパラメータのセットに従ってGAN発生装置によって、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第1のシミュレーションデータセットを生成することと、MHC対立遺伝子のポジティブ実ポリペプチド−MHC−I相互作用を有する第1のシミュレーションデータセットを、MHC対立遺伝子のネガティブ実ポリペプチド−MHC−I相互作用と組み合わせることと、決定境界に従って弁別装置によって、GAN訓練データセットにおけるMHC対立遺伝子のポジティブポリペプチド−MHC−I相互作用が、ポジティブまたはネガティブであるかどうかを決定することと、弁別装置による決定の正確さに基づいて、GANパラメータのセットまたは決定境界のうちの1つ以上を調節することと、第1の停止基準が満たされるまで、a〜dを繰り返すことと、GANパラメータのセットに従ってGAN発生装置によって、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む、第2のシミュレーションデータセットを生成することと、第2のシミュレーションデータセットを、ポジティブ実ポリペプチド−MHC−I相互作用およびネガティブ実ポリペプチド−MHC−I相互作用と組み合わせて、CNN訓練データセットを作成することと、畳み込みニューラルネットワーク(CNN)に、CNN訓練データセットを提示することと、CNNパラメータのセットに従ってCNNによって、CNN訓練データセットにおけるMHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することと、CNN訓練データセットにおけるMHC対立遺伝子のポリペプチド−MHC−I相互作用のCNNによる分類の正確さに基づいて、CNNパラメータのセットのうちの1つ以上を調節することと、第2の停止基準が満たされるまで、h〜jを繰り返すことと、CNNに、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データを提示することと、CNNパラメータのセットに従ってCNNによって、MHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することと、予測スコアに基づいて、MHC対立遺伝子のポリペプチド−MHC−I相互作用のCNNによる分類の正確さを決定することと、を含み、(場合によっては)分類の正確さが第3の停止基準を満たしている場合に、GANおよびCNNが出力され、(場合によっては)分類の正確さが第3の停止基準を満たしていない場合に、ステップaに戻る、方法。
実施形態53.GANパラメータは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの1つ以上を含む、実施形態52に記載の方法。
実施形態54.MHC対立遺伝子は、HLA対立遺伝子である、実施形態52に記載の方法。
実施形態55.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態54に記載の方法。
実施形態56.HLA対立遺伝子長さは、約8〜約12アミノ酸である、実施形態54に記載の方法。
実施形態57.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態54に記載の方法。
実施形態58.データセットをCNNに提示することであって、データセットが複数の候補ポリペプチド−MHC−I相互作用を含む、提示することと、CNNによって、複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類することと、ポジティブポリペプチド−MHC−I相互作用として分類された候補ポリペプチド−MHC−I相互作用から、ポリペプチドを合成することと、をさらに含む、実施形態52に記載の方法。
実施形態59.実施形態58に記載の方法によって作製されたポリペプチド。
実施形態60.ポリペプチドは、腫瘍特異的抗原である、実施形態58に記載の方法。
実施形態61.ポリペプチドは、選択されたヒト白血球抗原(HLA)対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、実施形態58に記載の方法。
実施形態62.ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データは、選択された対立遺伝子と関連付けられている、実施形態52に記載の方法。
実施形態63.選択された対立遺伝子は、A0201、A0202、A0203、B2703、B2705、およびそれらの組み合わせからなる群から選択される、実施形態62に記載の方法。
実施形態64.第1の停止基準が満たされるまで、a〜dを繰り返すことは、GAN発生装置の勾配降下発現を評価することを含む、実施形態52に記載の方法。
実施形態65.第1の停止基準が満たされるまで、a〜dを繰り返すことは、ポジティブ実ポリペプチド−MHC−I相互作用データに高い確率を、ポジティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を、およびネガティブ実ポリペプチド−MHC−I相互作用データに低い確率を与える可能性を高めるために、GAN弁別装置を繰り返し実行する(例えば、最適化する)ことと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データが高くレート付けされる確率を高めるために、GAN発生装置を繰り返し実行する(例えば、最適化する)ことと、を含む、実施形態52に記載の方法。
実施形態66.CNN訓練データセットをCNNに提示することは、畳み込み処置を実施することと、非線形性(RelU)処置を実施することと、プーリングまたはサブサンプリング処置を実施することと、分類(完全接続層)処置を実施することと、を含む、実施形態52に記載の方法。
実施形態67.GANは、深層畳み込みGAN(DCGAN)を含む、実施形態52に記載の方法。
実施形態68.第1の停止基準は、平均二乗誤差(MSE)関数を評価することを含む、実施形態52に記載の方法。
実施形態69.第2の停止基準は、平均二乗誤差(MSE)関数を評価することを含む、実施形態52に記載の方法。
実施形態70.第3の停止基準は、曲線下面積(AUC)関数を評価することを含む、実施形態52に記載の方法。
実施形態71.実施形態1に記載の方法に従って畳み込みニューラルネットワーク(CNN)を訓練することと、データセットをCNNに提示することであって、データセットが複数の候補ポリペプチド−MHC−I相互作用を含む、提示することと、CNNによって、複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類することと、ポジティブポリペプチド−MHC−I相互作用として分類された候補ポリペプチド−MHC−I相互作用と関連付けられたポリペプチドを合成することと、を含む、方法。
実施形態72.CNNは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの1つ以上を含むGANパラメータに基づいて訓練される、実施形態71に記載の方法。
実施形態73.対立遺伝子タイプは、HLA対立遺伝子タイプである、実施形態72に記載の方法。
実施形態74.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態73に記載の方法。
実施形態75.HLA対立遺伝子長さは、約8〜約12アミノ酸である、実施形態73に記載の方法。
実施形態76.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態73に記載の方法。
実施形態77.実施形態71に記載の方法によって作製されたポリペプチド。
実施形態78.ポリペプチドは、腫瘍特異的抗原である、実施形態71に記載の方法。
実施形態79.ポリペプチドは、選択されたヒト白血球抗原(HLA)対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、実施形態71に記載の方法。
実施形態80.ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データは、選択された対立遺伝子と関連付けられている、実施形態71に記載の方法。
実施形態81.選択された対立遺伝子は、A0201、A0202、A0203、B2703、B2705、およびそれらの組み合わせからなる群から選択される、実施形態80に記載の方法。
実施形態82.GANは、深層畳み込みGAN(DCGAN)を含む、実施形態71に記載の方法。
実施形態83.敵対的生成ネットワーク(GAN)を訓練するための装置であって、1つ以上のプロセッサと、1つ以上のプロセッサによって実行されると、装置に、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチド−MHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データをCNNに提示して、予測スコアを生成することと、予測スコアに基づいて、GANが訓練されていることを決定することと、GANおよびCNNを出力することと、を行わせる、プロセッサ実行可能命令を記憶する、メモリと、を含む、装置。
実施形態84.1つ以上のプロセッサによって実行されると、装置に、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、GANパラメータのセットに従って、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第1のシミュレーションデータセットを生成することと、MHC対立遺伝子のポジティブ実ポリペプチド−MHC−I相互作用を有する第1のシミュレーションデータセットを、MHC対立遺伝子のネガティブ実ポリペプチド−MHC−I相互作用と組み合わせて、GAN訓練データセットを作成することと、弁別装置から情報を受信することであって、弁別装置が、決定境界に従って、GAN訓練データセットにおけるMHC対立遺伝子のポジティブポリペプチド−MHC−I相互作用がポジティブまたはネガティブであるかどうかを決定するように構成されている、受信することと、弁別装置からの情報の正確さに基づいて、GANパラメータのセットまたは決定境界のうちの1つ以上を調節することと、第1の停止基準が満たされるまで、a〜dを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態83に記載の装置。
実施形態85.1つ以上のプロセッサによって実行されると、装置に、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチドMHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、GANパラメータのセットに従って、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第2のシミュレーションデータセットを生成することと、第2のシミュレーションデータセットを、MHC対立遺伝子のポジティブ実ポリペプチド−MHC−I相互作用データおよびMHC対立遺伝子のネガティブ実ポリペプチド−MHC−I相互作用データと組み合わせて、CNN訓練データセットを作成することと、畳み込みニューラルネットワーク(CNN)に、CNN訓練データセットを提示することと、CNNから訓練情報を受信することであって、CNNが、CNNパラメータのセットに従って、CNN訓練データセットにおけるMHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することによって、訓練情報を決定するように構成されている、受信することと、訓練情報の正確さに基づいて、CNNパラメータのセットのうちの1つ以上を調節することと、第2の停止基準が満たされるまで、h〜jを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態84に記載の装置。
実施形態86.1つ以上のプロセッサによって実行されると、装置に、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データをCNNに提示させて、予測スコアを生成させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、CNNパラメータのセットに従って、MHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類させる、プロセッサ実行可能命令をさらに含む、実施形態85に記載の装置。
実施形態87.1つ以上のプロセッサによって実行されると、装置に、予測スコアに基づいて、GANが訓練されていることを決定させるプロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、MHC対立遺伝子のポリペプチド−MHC−I相互作用の分類の正確さを、ポジティブまたはネガティブとして決定させて、(場合によっては)分類の正確さが第3の停止基準を満たしている場合に、GANおよびCNNを出力させる、プロセッサ実行可能命令をさらに含む、実施形態86に記載の装置。
実施形態88.1つ以上のプロセッサによって実行されると、装置に、予測スコアに基づいて、GANが訓練されていることを決定させるプロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、MHC対立遺伝子のポリペプチド−MHC−I相互作用の分類の正確さを、ポジティブまたはネガティブとして決定させて、(場合によっては)分類の正確さが第3の停止基準を満たしていない場合に、ステップaに戻らせる、プロセッサ実行可能命令をさらに含む、実施形態86に記載の装置。
実施形態89.GANパラメータは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの1つ以上を含む、実施形態84に記載の装置。
実施形態90.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態89に記載の装置。
実施形態91.HLA対立遺伝子長さは、約8〜約12アミノ酸である、実施形態89に記載の装置。
実施形態92.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態89に記載の装置。
実施形態93.プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、データセットをCNNに提示することであって、データセットが、複数の候補ポリペプチド−MHC−I相互作用を含み、CNNが、複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類するようにさらに構成されている、提示することと、CNNがポジティブポリペプチド−MHC−I相互作用として分類した候補ポリペプチド−MHC−I相互作用から、ポリペプチドを合成することと、をさらに行わせる、実施形態83に記載の装置。
実施形態94.実施形態93に記載の装置によって作製されたポリペプチド。
実施形態95.ポリペプチドは、腫瘍特異的抗原である、実施形態93に記載の装置。
実施形態96.ポリペプチドは、選択されたヒト白血球抗原(HLA)対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、実施形態93に記載の装置。
実施形態97.ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データは、選択された対立遺伝子と関連付けられている、実施形態83に記載の装置。
実施形態98.選択された対立遺伝子は、A0201、A0202、A0203、B2703、B2705、およびそれらの組み合わせからなる群から選択される、実施形態97に記載の装置。
実施形態99.1つ以上のプロセッサによって実行されると、装置に、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、GAN発生装置の勾配降下発現を評価させるプロセッサ実行可能命令をさらに含む、実施形態83に記載の装置。
実施形態100.1つ以上のプロセッサによって実行されると、装置に、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、ポジティブ実ポリペプチド−MHC−I相互作用データに高い確率を、ポジティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を、およびネガティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を与える可能性を高めるために、GAN弁別装置を繰り返し実行する(例えば、最適化する)ことと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データが高くレート付けされる確率を高めるために、GAN発生装置を繰り返し実行する(例えば、最適化する)ことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態83に記載の装置。
実施形態101.1つ以上のプロセッサによって実行されると、装置に、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチドMHC−I相互作用データをポジティブまたはネガティブな実際のものとして分類するまで提示させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、畳み込み処置を実施することと、
非線形性(RelU)処置を実施することと、プーリングまたはサブサンプリング処置を実施することと、分類(完全接続層)処置を実施することと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態83に記載の装置。
実施形態102.GANは、深層畳み込みGAN(DCGAN)を含む、実施形態83に記載の装置。
実施形態103.第1の停止基準は、平均二乗誤差(MSE)関数の評価を含む、実施形態84に記載の装置。
実施形態104.第2の停止基準は、平均二乗誤差(MSE)関数の評価を含む、実施形態85に記載の装置。
実施形態105.第3の停止基準は、曲線下面積(AUC)関数の評価を含む、実施形態87または88に記載の装置。
実施形態106.予測スコアは、ポジティブポリペプチド−MHC−I相互作用データとして分類されるポジティブ実ポリペプチド−MHC−I相互作用データの確率である、実施形態83に記載の装置。
実施形態107.1つ以上のプロセッサによって実行されると、装置に、予測スコアに基づいて、GANが訓練されていることを決定させるプロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、予測スコアのうちの1つ以上を閾値と比較させる、プロセッサ実行可能命令をさらに含む、実施形態83に記載の装置。
実施形態108.敵対的生成ネットワーク(GAN)を訓練するための装置であって、
1つ以上のプロセッサと、
1つ以上のプロセッサによって実行されると、装置に、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチド−MHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データをCNNに提示して、予測スコアを生成することと、予測スコアに基づいて、GANが訓練されていないことを決定することと、予測スコアに基づく、GANが訓練されていることの決定がなされるまで、a〜cを繰り返すことと、GANおよびCNNを出力することと、を行わせる、プロセッサ実行可能命令を記憶する、メモリと、を含む、装置。
実施形態109.1つ以上のプロセッサによって実行されると、装置に、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、GANパラメータのセットに従って、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第1のシミュレーションデータセットを生成することと、MHC対立遺伝子のポジティブ実ポリペプチド−MHC−I相互作用を有する第1のシミュレーションデータセットを、MHC対立遺伝子のポジティブ実ポリペプチド−MHC−I相互作用と組み合わせて、GAN訓練データセットを作成することと、弁別装置から情報を受信することであって、弁別装置が、GAN訓練データセットにおけるMHC対立遺伝子のポジティブポリペプチド−MHC−I相互作用がポジティブまたはネガティブであるかどうかを決定するように構成されている、受信することと、弁別装置からの情報の正確さに基づいて、GANパラメータのセットまたは決定境界のうちの1つ以上を調節することと、第1の停止基準が満たされるまで、i〜jを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態108に記載の装置。
実施形態110.1つ以上のプロセッサによって実行されると、装置に、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチドMHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、GANパラメータのセットに従って、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第2のシミュレーションデータセットを生成することと、第2のシミュレーションデータセットを、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データと組み合わせて、CNN訓練データセットを作成することと、畳み込みニューラルネットワーク(CNN)に、CNN訓練データセットを提示することと、CNNから情報を受信することであって、CNNが、CNNパラメータのセットに従って、CNN訓練データセットにおけるMHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することによって、情報を決定するように構成されている、受信することと、CNNからの情報の正確さに基づいて、CNNパラメータのセットのうちの1つ以上を調節することと、第2の停止基準が満たされるまで、n〜pを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態109に記載の装置。
実施形態111.1つ以上のプロセッサによって実行されると、装置に、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データをCNNに提示させて、予測スコアを生成させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データをCNNに提示させる、プロセッサ実行可能命令をさらに含み、CNNは、CNNパラメータのセットに従って、MHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類するようにさらに構成されている、実施形態110に記載の装置。
実施形態112.1つ以上のプロセッサによって実行されると、装置に、予測スコアに基づいて、GANが訓練されていることを決定させるプロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、CNNによる分類の正確さを決定することと、分類の正確さが第3の停止基準を満たしていることを決定することと、分類の正確さが第3の停止基準を満たしているとの決定に応じて、GANおよびCNNを出力することと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態111に記載の装置。
実施形態113.1つ以上のプロセッサによって実行されると、装置に、予測スコアに基づいて、GANが訓練されていることを決定させるプロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、CNNによる分類の正確さを決定することと、分類の正確さが第3の停止基準を満たしていないことを決定することと、分類の正確さが第3の停止基準を満たしていないとの決定に応じて、ステップaに戻ることと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態112に記載の装置。
実施形態114.GANパラメータは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの1つ以上を含む、実施形態109に記載の装置。
実施形態115.MHC対立遺伝子は、HLA対立遺伝子である、実施形態109に記載の装置。
実施形態116.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態115に記載の装置。
実施形態117.HLA対立遺伝子長さは、約8〜約12アミノ酸である、実施形態115に記載の装置。
実施形態118.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態115に記載の装置。
実施形態119.プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、データセットをCNNに提示することであって、データセットが、複数の候補ポリペプチド−MHC−I相互作用を含み、CNNが、複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類するようにさらに構成されている、提示することと、ポジティブポリペプチド−MHC−I相互作用として、CNNによって分類された候補ポリペプチド−MHC−I相互作用から、ポリペプチドを合成することと、をさらに行わせる、実施形態108に記載の装置。
実施形態120.実施形態119に記載の装置によって作製されたポリペプチド。
実施形態121.ポリペプチドは、腫瘍特異的抗原である、実施形態119に記載の装置。
実施形態122.ポリペプチドは、選択されたヒト白血球抗原(HLA)対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、実施形態119に記載の装置。
実施形態123.ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データは、選択された対立遺伝子と関連付けられている、実施形態108に記載の装置。
実施形態124.選択された対立遺伝子は、A0201、A0202、A0203、B2703、B2705、およびそれらの組み合わせからなる群から選択される、実施形態123に記載の装置。
実施形態125.1つ以上のプロセッサによって実行されると、装置に、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、GAN発生装置の勾配降下発現を評価させるプロセッサ実行可能命令をさらに含む、実施形態108に記載の装置。
実施形態126.1つ以上のプロセッサによって実行されると、装置に、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、ポジティブ実ポリペプチド−MHC−I相互作用データに高い確率を、ポジティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を、およびネガティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を与える可能性を高めるために、GAN弁別装置を繰り返し実行する(例えば、最適化する)ことと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データが高くレート付けされる確率を高めるために、GAN発生装置を繰り返し実行する(例えば、最適化する)ことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態108に記載の装置。
実施形態127.1つ以上のプロセッサによって実行されると、装置に、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチドMHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、畳み込み処置を実施することと、非線形性(RelU)処置を実施することと、プーリングまたはサブサンプリング処置を実施することと、分類(完全接続層)処置を実施することと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態108に記載の装置。
実施形態128.GANは、深層畳み込みGAN(DCGAN)を含む、実施形態108に記載の装置。
実施形態129.第1の停止基準は、平均二乗誤差(MSE)関数の評価を含む、実施形態109に記載の装置。
実施形態130.第2の停止基準は、平均二乗誤差(MSE)関数の評価を含む、実施形態108に記載の装置。
実施形態131.第3の停止基準は、曲線下面積(AUC)関数の評価を含む、実施形態112または113に記載の装置。
実施形態132.予測スコアは、ポジティブポリペプチド−MHC−I相互作用データとして分類されるポジティブ実ポリペプチド−MHC−I相互作用データの確率である、実施形態108に記載の装置。
実施形態133.1つ以上のプロセッサによって実行されると、装置に、予測スコアに基づいて、GANが訓練されていることを決定させるプロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、予測スコアのうちの1つ以上を閾値と比較させる、プロセッサ実行可能命令をさらに含む、実施形態108に記載の装置。
実施形態134.敵対的生成ネットワーク(GAN)を訓練するための装置であって、1つ以上のプロセッサと、1つ以上のプロセッサによって実行されると、装置に、GANパラメータのセットに従って、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第1のシミュレーションデータセットを生成することと、MHC対立遺伝子のポジティブ実ポリペプチド−MHC−I相互作用を有する第1のシミュレーションデータセットを、MHC対立遺伝子のネガティブ実ポリペプチド−MHC−I相互作用と組み合わせて、GAN訓練データセットを作成することと、弁別装置から情報を受信することであって、弁別装置が、決定境界に従って、GAN訓練データセットにおけるMHC対立遺伝子のポジティブポリペプチド−MHC−I相互作用がポジティブまたはネガティブであるかどうかを決定するように構成されている、受信することと、弁別装置からの情報の正確さに基づいて、GANパラメータのセットまたは決定境界のうちの1つ以上を調節することと、
第1の停止基準が満たされるまで、a〜dを繰り返すことと、GANパラメータのセットに従って、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第2のシミュレーションデータセットを生成することと、第2のシミュレーションデータセットを、ポジティブ実ポリペプチド−MHC−I相互作用データおよびMHC対立遺伝子のネガティブ実ポリペプチド−MHC−I相互作用データと組み合わせて、CNN訓練データセットを作成することと、畳み込みニューラルネットワーク(CNN)に、CNN訓練データセットを提示することと、CNNから訓練情報を受信することであって、CNNが、CNNパラメータのセットに従って、CNN訓練データセットにおけるMHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することによって、訓練情報を決定するように構成されている、受信することと、訓練情報の正確さに基づいて、CNNパラメータのセットのうちの1つ以上を調節することと、第2の停止基準が満たされるまで、h〜jを繰り返すことと、MHC対立遺伝子のポジティブ実ポリペプチド−MHC−I相互作用データおよびMHC対立遺伝子のネガティブ実ポリペプチド−MHC−I相互作用データを、CNNに提示することと、CNNから訓練情報を受信することであって、CNNが、CNNパラメータのセットに従って、MHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することによって、訓練情報を決定するように構成されている、受信することと、訓練情報の正確さを決定することであって、(場合によっては)訓練情報の正確さが第3の停止基準を満たしている場合に、GANおよびCNNを出力させ、(場合によっては)訓練情報の正確さが第3の停止基準を満たしていない場合に、ステップaに戻らせる、決定することと、を行わせる、プロセッサ実行可能命令を記憶する、メモリと、を含む、装置。
実施形態135.GANパラメータは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの1つ以上を含む、実施形態134に記載の装置。
実施形態136.MHC対立遺伝子は、HLA対立遺伝子である、実施形態134に記載の装置。
実施形態137.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態136に記載の装置。
実施形態138.HLA対立遺伝子長さは、約8〜約12アミノ酸である、実施形態136に記載の装置。
実施形態139.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態136に記載の装置。
実施形態140.プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、データセットをCNNに提示することであって、データセットが、複数の候補ポリペプチド−MHC−I相互作用を含み、CNNが、複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類するようにさらに構成されている、提示することと、ポジティブポリペプチド−MHC−I相互作用として、CNNによって分類された候補ポリペプチド−MHC−I相互作用から、ポリペプチドを合成することと、をさらに行わせる、実施形態134に記載の装置。
実施形態141.実施形態140に記載の装置によって作製されたポリペプチド。
実施形態142.ポリペプチドは、腫瘍特異的抗原である、実施形態140に記載の装置。
実施形態143.ポリペプチドは、MHC対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、実施形態140に記載の装置。
実施形態144.ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データは、選択された対立遺伝子と関連付けられている、実施形態134に記載の装置。
実施形態145.選択された対立遺伝子は、A0201、A0202、A0203、B2703、B2705、およびそれらの組み合わせからなる群から選択される、実施形態144に記載の装置。
実施形態146.1つ以上のプロセッサによって実行されると、装置に、第1の停止基準が満たされるまで、a〜dを繰り返させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、GAN発生装置の勾配降下発現を評価させるプロセッサ実行可能命令をさらに含む、実施形態134に記載の装置。
実施形態147.1つ以上のプロセッサによって実行されると、装置に、第1の停止基準が満たされるまで、a〜dを繰り返させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、ポジティブ実ポリペプチド−MHC−I相互作用データに高い確率を、ポジティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を、およびネガティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を与える可能性を高めるために、GAN弁別装置を繰り返し実行する(例えば、最適化する)ことと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データが高くレート付けされる確率を高めるために、GAN発生装置を繰り返し実行する(例えば、最適化する)ことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態134に記載の装置。
実施形態148.1つ以上のプロセッサによって実行されると、装置に、CNN訓練データセットをCNNに提示させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、畳み込み処置を実施することと、非線形性(ReLU)処置を実施することと、プーリングまたはサブサンプリング処置を実施することと、分類(完全接続層)処置を実施することと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態134に記載の装置。
実施形態149.GANは、深層畳み込みGAN(DCGAN)を含む、実施形態134に記載の装置。
実施形態150.第1の停止基準は、平均二乗誤差(MSE)関数の評価を含む、実施形態134に記載の装置。
実施形態151.第2の停止基準は、平均二乗誤差(MSE)関数の評価を含む、実施形態134に記載の装置。
実施形態152.第3の停止基準は、曲線下面積(AUC)関数の評価を含む、実施形態134に記載の装置。
実施形態153.1つ以上のプロセッサと、1つ以上のプロセッサによって実行されると、装置に、実施形態83に記載の装置と同じ手段によって畳み込みニューラルネットワーク(CNN)を訓練することと、データセットをCNNに提示することであって、データセットが、複数の候補ポリペプチド−MHC−I相互作用を含み、CNNが、複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類するように構成されている、提示することと、ポジティブポリペプチド−MHC−I相互作用として、CNNによって分類された候補ポリペプチド−MHC−I相互作用と関連付けられたポリペプチドを合成することと、を行わせる、プロセッサ実行可能命令を記憶する、メモリと、を含む、装置。
実施形態154.CNNは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの1つ以上を含むGANパラメータに基づいて訓練される、実施形態153に記載の装置。
実施形態155.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態154に記載の装置。
実施形態156.HLA対立遺伝子長さは、約8〜約12アミノ酸である、実施形態154に記載の装置。
実施形態157.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態155に記載の装置。
実施形態158.実施形態153に記載の装置によって作製されたポリペプチド。
実施形態159.ポリペプチドは、腫瘍特異的抗原である、実施形態153に記載の装置。
実施形態160.ポリペプチドは、選択されたMHC対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、実施形態153に記載の装置。
実施形態161.ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データは、選択された対立遺伝子と関連付けられている、実施形態153に記載の装置。
実施形態162.選択された対立遺伝子は、A0201、A0202、A0203、B2703、B2705、およびそれらの組み合わせからなる群から選択される、実施形態161に記載の装置。
実施形態163.GANは、深層畳み込みGAN(DCGAN)を含む、実施形態153に記載の装置。
実施形態164.敵対的生成ネットワーク(GAN)を訓練するための非一時的コンピュータ可読媒体であって、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチド−MHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データをCNNに提示して、予測スコアを生成することと、予測スコアに基づいて、GANが訓練されていることを決定することと、GANおよびCNNを出力することと、を行わせる、プロセッサ実行可能命令を記憶している、非一時的コンピュータ可読媒体。
実施形態165.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、1つ以上のプロセッサに、GANパラメータのセットに従って、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第1のシミュレーションデータセットを生成することと、MHC対立遺伝子のポジティブ実ポリペプチド−MHC−I相互作用を有する第1のシミュレーションデータセットを、MHC対立遺伝子のネガティブ実ポリペプチド−MHC−I相互作用と組み合わせて、GAN訓練データセットを作成することと、弁別装置から情報を受信することであって、弁別装置が、決定境界に従って、GAN訓練データセットにおけるMHC対立遺伝子のポジティブポリペプチド−MHC−I相互作用がポジティブまたはネガティブであるかどうかを決定するように構成されている、受信することと、弁別装置からの情報の正確さに基づいて、GANパラメータのセットまたは決定境界のうちの1つ以上を調節することと、第1の停止基準が満たされるまで、a〜dを繰り返すことと、をさらに行わせる、実施形態164に記載の非一時的コンピュータ可読媒体。
実施形態166.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチドMHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、GANパラメータのセットに従って、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第2のシミュレーションデータセットを生成することと、第2のシミュレーションデータセットを、ポジティブ実ポリペプチド−MHC−I相互作用データおよびMHC対立遺伝子のネガティブ実ポリペプチド−MHC−I相互作用データと組み合わせて、CNN訓練データセットを作成することと、畳み込みニューラルネットワーク(CNN)に、CNN訓練データセットを提示することと、CNNから訓練情報を受信することであって、CNNが、CNNパラメータのセットに従って、CNN訓練データセットにおけるMHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することによって、訓練情報を決定するように構成されている、受信することと、訓練情報の正確さに基づいて、CNNパラメータのセットのうちの1つ以上を調節することと、第2の停止基準が満たされるまで、h〜jを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態165に記載の非一時的コンピュータ可読媒体。
実施形態167.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データをCNNに提示させて、予測スコアを生成させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データをCNNに提示させる、プロセッサ実行可能命令をさらに含み、CNNは、CNNパラメータのセットに従って、MHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類するようにさらに構成されている、実施形態166に記載の非一時的コンピュータ可読媒体。
実施形態168.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、予測スコアに基づいて、GANが訓練されていることを決定させるプロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、MHC対立遺伝子のポリペプチド−MHC−I相互作用の分類の正確さを、ポジティブまたはネガティブとして決定させて、(場合によっては)分類の正確さが第3の停止基準を満たしている場合に、GANおよびCNNを出力させる、プロセッサ実行可能命令をさらに含む、実施形態167に記載の非一時的コンピュータ可読媒体。
実施形態169.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、予測スコアに基づいて、GANが訓練されていることを決定させるプロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、MHC対立遺伝子のポリペプチド−MHC−I相互作用の分類の正確さを、ポジティブまたはネガティブとして決定させて、(場合によっては)分類の正確さが第3の停止基準を満たしていない場合に、ステップaに戻らせる、プロセッサ実行可能命令をさらに含む、実施形態167に記載の非一時的コンピュータ可読媒体。
実施形態170.GANパラメータは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの1つ以上を含む、実施形態165に記載の非一時的コンピュータ可読媒体。
実施形態171.MHC対立遺伝子は、HLA対立遺伝子である、実施形態165に記載の非一時的コンピュータ可読媒体。
実施形態172.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態171に記載の非一時的コンピュータ可読媒体。
実施形態173.HLA対立遺伝子長さは、約8〜約12アミノ酸である、実施形態171に記載の非一時的コンピュータ可読媒体。
実施形態174.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態171に記載の非一時的コンピュータ可読媒体。
実施形態175.プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、データセットをCNNに提示することであって、データセットが、複数の候補ポリペプチド−MHC−I相互作用を含み、CNNが、複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類するようにさらに構成されている、提示することと、CNNがポジティブポリペプチド−MHC−I相互作用として分類した候補ポリペプチド−MHC−I相互作用から、ポリペプチドを合成することと、をさらに行わせる、実施形態164に記載の非一時的コンピュータ可読媒体。
実施形態176.実施形態175に記載の非一時的コンピュータ可読媒体によって作製されたポリペプチド。
実施形態177.ポリペプチドは、腫瘍特異的抗原である、実施形態175に記載の非一時的コンピュータ可読媒体。
実施形態178.ポリペプチドは、選択されたMHC対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、実施形態175に記載の非一時的コンピュータ可読媒体。
実施形態179.ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データは、選択された対立遺伝子と関連付けられている、実施形態164に記載の非一時的コンピュータ可読媒体。
実施形態180.選択された対立遺伝子は、A0201、A0202、A0203、B2703、B2705、およびそれらの組み合わせからなる群から選択される、実施形態179に記載の非一時的コンピュータ可読媒体。
実施形態181.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、GAN発生装置の勾配降下発現を評価させる、プロセッサ実行可能命令をさらに含む、実施形態164に記載の非一時的コンピュータ可読媒体。
実施形態182.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、ポジティブ実ポリペプチド−MHC−I相互作用データに高い確率を、およびポジティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を与える可能性を高めるために、GAN弁別装置を繰り返し実行する(例えば、最適化する)ことと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データが高くレート付けされる確率を高めるために、GAN発生装置を繰り返し実行する(例えば、最適化する)ことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態164に記載の非一時的コンピュータ可読媒体。
実施形態183.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチドMHC−I相互作用データをポジティブまたはネガティブな実際のものとして分類するまで提示させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、畳み込み処置を実施することと、非線形性(RelU)処置を実施することと、プーリングまたはサブサンプリング処置を実施することと、分類(完全接続層)処置を実施することと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態164に記載の非一時的コンピュータ可読媒体。
実施形態184.GANは、深層畳み込みGAN(DCGAN)を含む、実施形態164に記載の非一時的コンピュータ可読媒体。
実施形態185.第1の停止基準は、平均二乗誤差(MSE)関数の評価を含む、実施形態165に記載の非一時的コンピュータ可読媒体。
実施形態186.第2の停止基準は、平均二乗誤差(MSE)関数の評価を含む、実施形態166に記載の非一時的コンピュータ可読媒体。
実施形態187.第3の停止基準は、曲線下面積(AUC)関数の評価を含む、実施形態168または169に記載の非一時的コンピュータ可読媒体。
実施形態188.予測スコアは、ポジティブポリペプチド−MHC−I相互作用データとして分類されるポジティブ実ポリペプチド−MHC−I相互作用データの確率である、実施形態164に記載の非一時的コンピュータ可読媒体。
実施形態189.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、予測スコアに基づいて、GANが訓練されていることを決定させるプロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、予測スコアのうちの1つ以上を閾値と比較させる、プロセッサ実行可能命令をさらに含む、実施形態164に記載の非一時的コンピュータ可読媒体。
実施形態190.敵対的生成ネットワーク(GAN)を訓練するための非一時的コンピュータ可読媒体であって、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチド−MHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データをCNNに提示して、予測スコアを生成することと、予測スコアに基づいて、GANが訓練されていないことを決定することと、予測スコアに基づく、GANが訓練されていることの決定がなされるまで、a〜cを繰り返すことと、GANおよびCNNを出力することと、を行わせる、プロセッサ実行可能命令を記憶している、非一時的コンピュータ可読媒体。
実施形態191.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、GANパラメータのセットに従って、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第1のシミュレーションデータセットを生成することと、MHC対立遺伝子のポジティブ実ポリペプチド−MHC−I相互作用を有する第1のシミュレーションデータセットを、MHC対立遺伝子のネガティブ実ポリペプチド−MHC−I相互作用と組み合わせて、GAN訓練データセットを作成することと、弁別装置から情報を受信することであって、弁別装置が、GAN訓練データセットにおけるMHC対立遺伝子のポジティブポリペプチド−MHC−I相互作用がポジティブまたはネガティブであるかどうかを決定するように構成されている、受信することと、弁別装置からの情報の正確さに基づいて、GANパラメータのセットまたは決定境界のうちの1つ以上を調節することと、第1の停止基準が満たされるまで、g〜jを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態190に記載の非一時的コンピュータ可読媒体。
実施形態192.1つ以上のプロセッサによって実行されると、装置に、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチドMHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、GANパラメータのセットに従って、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第2のシミュレーションデータセットを生成することと、第2のシミュレーションデータセットを、ポジティブ実ポリペプチド−MHC−I相互作用データおよびMHC対立遺伝子のネガティブ実ポリペプチド−MHC−I相互作用データと組み合わせて、CNN訓練データセットを作成することと、畳み込みニューラルネットワーク(CNN)に、CNN訓練データセットを提示することと、CNNから情報を受信することであって、CNNが、CNNパラメータのセットに従って、CNN訓練データセットにおけるMHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することによって、情報を決定するように構成されている、受信することと、CNNからの情報の正確さに基づいて、CNNパラメータのセットのうちの1つ以上を調節することと、第2の停止基準が満たされるまで、l〜pを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態191に記載の非一時的コンピュータ可読媒体。
実施形態193.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データをCNNに提示させて、予測スコアを生成させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データをCNNに提示させる、プロセッサ実行可能命令をさらに含み、CNNは、CNNパラメータのセットに従って、MHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類するようにさらに構成されている、実施形態192に記載の非一時的コンピュータ可読媒体。
実施形態194.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、予測スコアに基づいて、GANが訓練されていることを決定させるプロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、CNNによる分類の正確さを決定することと、分類の正確さが第3の停止基準を満たしていることを決定することと、分類の正確さが第3の停止基準を満たしているとの決定に応じて、GANおよびCNNを出力することと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態193に記載の非一時的コンピュータ可読媒体。
実施形態195.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、予測スコアに基づいて、GANが訓練されていることを決定させるプロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、CNNによる分類の正確さを決定することと、分類の正確さが第3の停止基準を満たしていないことを決定することと、分類の正確さが第3の停止基準を満たしていないとの決定に応じて、ステップaに戻ることと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態194に記載の非一時的コンピュータ可読媒体。
実施形態196.GANパラメータは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの1つ以上を含む、実施形態191に記載の非一時的コンピュータ可読媒体。
実施形態197.MHC対立遺伝子は、HLA対立遺伝子である、実施形態191に記載の非一時的コンピュータ可読媒体。
実施形態198.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態197に記載の非一時的コンピュータ可読媒体。
実施形態199.HLA対立遺伝子長さは、約8〜約12アミノ酸である、実施形態197に記載の非一時的コンピュータ可読媒体。
実施形態200.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態197に記載の非一時的コンピュータ可読媒体。
実施形態201.プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、データセットをCNNに提示することであって、データセットが、複数の候補ポリペプチド−MHC−I相互作用を含み、CNNが、複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類するようにさらに構成されている、提示することと、ポジティブポリペプチド−MHC−I相互作用として、CNNによって分類された候補ポリペプチド−MHC−I相互作用から、ポリペプチドを合成することと、をさらに行わせる、実施形態190に記載の非一時的コンピュータ可読媒体。
実施形態202.実施形態201に記載の非一時的コンピュータ可読媒体によって作製されたポリペプチド。
実施形態203.ポリペプチドは、腫瘍特異的抗原である、実施形態201に記載の非一時的コンピュータ可読媒体。
実施形態204.ポリペプチドは、選択されたMHC対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、実施形態201に記載の非一時的コンピュータ可読媒体。
実施形態205.ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データは、選択された対立遺伝子と関連付けられている、実施形態190に記載の非一時的コンピュータ可読媒体。
実施形態206.選択された対立遺伝子は、A0201、A0202、A0203、B2703、B2705、およびそれらの組み合わせからなる群から選択される、実施形態205に記載の非一時的コンピュータ可読媒体。
実施形態207.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、GAN発生装置の勾配降下発現を評価させる、プロセッサ実行可能命令をさらに含む、実施形態190に記載の非一時的コンピュータ可読媒体。
実施形態208.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、ポジティブ実ポリペプチド−MHC−I相互作用データに高い確率を、ポジティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を、およびネガティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を与える可能性を高めるために、GAN弁別装置を繰り返し実行する(例えば、最適化する)ことと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データが高くレート付けされる確率を高めるために、GAN発生装置を繰り返し実行する(例えば、最適化する)ことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態190に記載の非一時的コンピュータ可読媒体。
実施形態209.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチドMHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、畳み込み処置を実施することと、非線形性(RelU)処置を実施することと、プーリングまたはサブサンプリング処置を実施することと、分類(完全接続層)処置を実施することと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態190に記載の非一時的コンピュータ可読媒体。
実施形態210.GANは、深層畳み込みGAN(DCGAN)を含む、実施形態190に記載の非一時的コンピュータ可読媒体。
実施形態211.第1の停止基準は、平均二乗誤差(MSE)関数の評価を含む、実施形態191に記載の非一時的コンピュータ可読媒体。
実施形態212.第2の停止基準は、平均二乗誤差(MSE)関数の評価を含む、実施形態190に記載の非一時的コンピュータ可読媒体。
実施形態213.第3の停止基準は、曲線下面積(AUC)関数の評価を含む、実施形態194または195に記載の非一時的コンピュータ可読媒体。
実施形態214.予測スコアは、ポジティブポリペプチド−MHC−I相互作用データとして分類されるポジティブ実ポリペプチド−MHC−I相互作用データの確率である、実施形態190に記載の非一時的コンピュータ可読媒体。
実施形態215.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、予測スコアに基づいて、GANが訓練されていることを決定させるプロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、予測スコアのうちの1つ以上を閾値と比較させる、プロセッサ実行可能命令をさらに含む、実施形態190に記載の非一時的コンピュータ可読媒体。
実施形態216.敵対的生成ネットワーク(GAN)を訓練するための非一時的コンピュータ可読媒体であって、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、GANパラメータのセットに従って、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第1のシミュレーションデータセットを生成することと、MHC対立遺伝子のポジティブ実ポリペプチド−MHC−I相互作用を有する第1のシミュレーションデータセットを、MHC対立遺伝子のネガティブ実ポリペプチド−MHC−I相互作用と組み合わせて、GAN訓練データセットを作成することと、弁別装置から情報を受信することであって、弁別装置が、決定境界に従って、GAN訓練データセットにおけるMHC対立遺伝子のポジティブポリペプチド−MHC−I相互作用がポジティブまたはネガティブであるかどうかを決定するように構成されている、受信することと、弁別装置からの情報の正確さに基づいて、GANパラメータのセットまたは決定境界のうちの1つ以上を調節することと、第1の停止基準が満たされるまで、a〜dを繰り返すことと、GANパラメータのセットに従ってGAN発生装置によって、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む、第2のシミュレーションデータセットを生成することと、第2のシミュレーションデータセットを、ポジティブ実ポリペプチド−MHC−I相互作用データおよびMHC対立遺伝子のネガティブ実ポリペプチド−MHC−I相互作用と組み合わせて、CNN訓練データセットを作成することと、畳み込みニューラルネットワーク(CNN)に、CNN訓練データセットを提示することと、CNNから訓練情報を受信することであって、CNNが、CNNパラメータのセットに従って、CNN訓練データセットにおけるMHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することによって、訓練情報を決定するように構成されている、受信することと、訓練情報の正確さに基づいて、CNNパラメータのセットのうちの1つ以上を調節することと、第2の停止基準が満たされるまで、h〜jを繰り返すことと、CNNに、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データを提示することと、CNNから訓練情報を受信することであって、CNNが、CNNパラメータのセットに従って、MHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することによって、訓練情報を決定するように構成されている、受信することと、訓練情報の正確さを決定することであって、(場合によっては)訓練情報の正確さが第3の停止基準を満たしている場合に、GANおよびCNNを出力させ、
(場合によっては)訓練情報の正確さが第3の停止基準を満たしていない場合に、ステップaに戻らせる、を行わせる、プロセッサ実行可能命令を記憶している、非一時的コンピュータ可読媒体。
実施形態217.GANパラメータは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの1つ以上を含む、実施形態216に記載の非一時的コンピュータ可読媒体。
実施形態218.MHC対立遺伝子は、HLA対立遺伝子である、実施形態216に記載の非一時的コンピュータ可読媒体。
実施形態219.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態218に記載の非一時的コンピュータ可読媒体。
実施形態220.HLA対立遺伝子長さは、約8〜約12アミノ酸である、実施形態218に記載の非一時的コンピュータ可読媒体。
実施形態221.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態218に記載の非一時的コンピュータ可読媒体。
実施形態222.プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、データセットをCNNに提示することであって、データセットが、複数の候補ポリペプチド−MHC−I相互作用を含み、CNNが、複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類するようにさらに構成されている、提示することと、ポジティブポリペプチド−MHC−I相互作用として、CNNによって分類された候補ポリペプチド−MHC−I相互作用から、ポリペプチドを合成することと、をさらに行わせる、実施形態216に記載の非一時的コンピュータ可読媒体。
実施形態223.実施形態222に記載の非一時的コンピュータ可読媒体によって作製されたポリペプチド。
実施形態224.ポリペプチドは、腫瘍特異的抗原である、実施形態222に記載の非一時的コンピュータ可読媒体。
実施形態225.ポリペプチドは、選択されたMHC対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、実施形態222に記載の非一時的コンピュータ可読媒体。
実施形態226.ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データは、選択された対立遺伝子と関連付けられている、実施形態216に記載の非一時的コンピュータ可読媒体。
実施形態227.選択された対立遺伝子は、A0201、A0202、A0203、B2703、B2705、およびそれらの組み合わせからなる群から選択される、実施形態226に記載の非一時的コンピュータ可読媒体。
実施形態228.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、第1の停止基準が満たされるまで、a〜dを繰り返させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、GAN発生装置の勾配降下発現を評価させるプロセッサ実行可能命令をさらに含む、実施形態216に記載の非一時的コンピュータ可読媒体。
実施形態229.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、第1の停止基準が満たされるまで、a〜dを繰り返させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、ポジティブ実ポリペプチド−MHC−I相互作用データに高い確率を、ポジティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を、およびネガティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を与える可能性を高めるために、GAN弁別装置を繰り返し実行する(例えば、最適化する)ことと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データが高くレート付けされる確率を高めるために、GAN発生装置を繰り返し実行する(例えば、最適化する)ことと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態216に記載の非一時的コンピュータ可読媒体。
実施形態230.1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、CNN訓練データセットをCNNに提示させる、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、畳み込み処置を実施することと、非線形性(ReLU)処置を実施することと、プーリングまたはサブサンプリング処置を実施することと、分類(完全接続層)処置を実施することと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態216に記載の非一時的コンピュータ可読媒体。
実施形態231.GANは、深層畳み込みGAN(DCGAN)を含む、実施形態216に記載の非一時的コンピュータ可読媒体。
実施形態232.第1の停止基準は、平均二乗誤差(MSE)関数の評価を含む、実施形態216に記載の非一時的コンピュータ可読媒体。
実施形態233.第2の停止基準は、平均二乗誤差(MSE)関数の評価を含む、実施形態216に記載の非一時的コンピュータ可読媒体。
実施形態234.第3の停止基準は、曲線下面積(AUC)関数の評価を含む、実施形態216に記載の非一時的コンピュータ可読媒体。
実施形態235.敵対的生成ネットワーク(GAN)を訓練するための非一時的コンピュータ可読媒体であって、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、実施形態83に記載の装置と同じ手段によって畳み込みニューラルネットワーク(CNN)を訓練することと、データセットをCNNに提示することであって、データセットが、複数の候補ポリペプチド−MHC−I相互作用を含み、CNNが、複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類するように構成されている、提示することと、ポジティブポリペプチド−MHC−I相互作用として、CNNによって分類された候補ポリペプチド−MHC−I相互作用と関連付けられたポリペプチドを合成することと、を行わせる、プロセッサ実行可能命令を記憶している、非一時的コンピュータ可読媒体。
実施形態236.CNNは、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの1つ以上を含むGANパラメータに基づいて訓練される、実施形態235に記載の非一時的コンピュータ可読媒体。
実施形態237.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態236に記載の非一時的コンピュータ可読媒体。
実施形態238.HLA対立遺伝子長さは、約8〜約12アミノ酸である、実施形態236に記載の非一時的コンピュータ可読媒体。
実施形態239.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態236に記載の非一時的コンピュータ可読媒体。
実施形態240.実施形態235に記載の非一時的コンピュータ可読媒体によって作製されたポリペプチド。
実施形態241.ポリペプチドは、腫瘍特異的抗原である、実施形態235に記載の非一時的コンピュータ可読媒体。
実施形態242.ポリペプチドは、選択されたヒト白血球抗原(HLA)対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、実施形態235に記載の非一時的コンピュータ可読媒体。
実施形態243.ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データは、選択された対立遺伝子と関連付けられている、実施形態235に記載の非一時的コンピュータ可読媒体。
実施形態244.選択された対立遺伝子は、A0201、A0202、A0203、B2703、B2705、およびそれらの組み合わせからなる群から選択される、実施形態243に記載の非一時的コンピュータ可読媒体。
実施形態245.GANは、深層畳み込みGAN(DCGAN)を含む、実施形態235に記載の非一時的コンピュータ可読媒体。

Claims (58)

  1. 敵対的生成ネットワーク(GAN)を訓練するための方法であって、
    a.GAN発生装置によって、増加的に正確なポジティブシミュレーションデータを、GAN弁別装置が前記ポジティブシミュレーションデータをポジティブとして分類するまで生成することと、
    b.前記ポジティブシミュレーションデータ、ポジティブ実データ、およびネガティブ実データを、畳み込みニューラルネットワーク(CNN)に、前記CNNが各タイプのデータをポジティブまたはネガティブとして分類するまで提示することと、
    c.前記ポジティブ実データおよび前記ネガティブ実データを前記CNNに提示して、予測スコアを生成することと、
    d.前記予測スコアに基づいて、前記GANが訓練されているか、または訓練されていないかを決定し、前記GANが訓練されていない場合、前記予測スコアに基づいて、前記GANが訓練されているとの決定がなされるまで、ステップa〜cを繰り返すことと、を含む、方法。
  2. 前記ポジティブシミュレーションデータ、前記ポジティブ実データ、および前記ネガティブ実データが、生物学的データを含む、請求項1に記載の方法。
  3. 前記ポジティブシミュレーションデータが、ポジティブシミュレーションポリペプチド−主要組織適合複合体クラスI(MHC−I)相互作用データを含み、前記ポジティブ実データが、ポジティブ実ポリペプチド−MHC−I相互作用データを含み、前記ネガティブ実データが、ネガティブ実ポリペプチド−MHC−I相互作用データを含む、請求項1に記載の方法。
  4. 前記増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、前記GAN弁別装置が前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データを実際のものとして分類するまで生成することは、
    e.GANパラメータのセットに従って前記GAN発生装置によって、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第1のシミュレーションデータセットを生成することと、
    f.前記MHC対立遺伝子の前記ポジティブ実ポリペプチド−MHC−I相互作用を有する前記第1のシミュレーションデータセットを、前記MHC対立遺伝子の前記ネガティブ実ポリペプチド−MHC−I相互作用と組み合わせて、GAN訓練データセットを作成することと、
    g.決定境界に従って弁別装置によって、前記GAN訓練データセットにおける前記MHC対立遺伝子のそれぞれのポリペプチド−MHC−I相互作用が、シミュレーションポジティブ、実ポジティブ、または実ネガティブであるかどうかを決定することと、
    h.前記弁別装置による前記決定の正確さに基づいて、前記GANパラメータのセットまたは前記決定境界のうちの1つ以上を調節することと、
    i.第1の停止基準が満たされるまで、ステップe〜hを繰り返すことと、を含む、請求項3に記載の方法。
  5. 前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、前記ポジティブ実ポリペプチド−MHC−I相互作用データ、および前記ネガティブ実ポリペプチド−MHC−I相互作用データを、前記畳み込みニューラルネットワーク(CNN)に、前記CNNがそれぞれのポリペプチド−MHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示することは、
    j.前記GANパラメータのセットに従って前記GAN発生装置によって、前記MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む、第2のシミュレーションデータセットを生成することと、
    k.前記第2のシミュレーションデータセットを、前記MHC対立遺伝子の前記ポジティブ実ポリペプチド−MHC−I相互作用および前記MHC対立遺伝子の前記ネガティブ実ポリペプチド−MHC−I相互作用と組み合わせて、CNN訓練データセットを作成することと、
    l.前記畳み込みニューラルネットワーク(CNN)に、前記CNN訓練データセットを提示することと、
    m.CNNパラメータのセットに従って前記CNNによって、前記CNN訓練データセットにおける前記MHC対立遺伝子のそれぞれのポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することと、
    n.前記CNNによる前記分類の正確さに基づいて、前記CNNパラメータのセットのうちの1つ以上を調節することと、
    o.第2の停止基準が満たされるまで、ステップl〜nを繰り返すことと、を含む、請求項4に記載の方法。
  6. 前記ポジティブ実ポリペプチド−MHC−I相互作用データおよび前記ネガティブ実ポリペプチド−MHC−I相互作用データを、前記CNNに提示して、予測スコアを生成することが、
    前記CNNパラメータのセットに従って前記CNNによって、前記MHC対立遺伝子のそれぞれのポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することを含む、請求項5に記載の方法。
  7. 前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定することが、前記CNNによる前記分類の正確さを決定することを含み、前記分類の前記正確さが第3の停止基準を満たしている場合に、前記GANおよび前記CNNが出力される、請求項6に記載の方法。
  8. 前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定することが、前記CNNによる前記分類の正確さを決定することを含み、前記分類の前記正確さが第3の停止基準を満たしていない場合に、ステップaに戻る、請求項6に記載の方法。
  9. 前記GANパラメータが、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの1つ以上を含む、請求項4に記載の方法。
  10. 前記対立遺伝子タイプが、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、請求項9に記載の方法。
  11. 前記対立遺伝子長さが、約8〜約12アミノ酸である、請求項9に記載の方法。
  12. 前記対立遺伝子長さが、約9〜約11アミノ酸である、請求項11に記載の方法。
  13. データセットを前記CNNに提示することであって、前記データセットが、複数の候補ポリペプチド−MHC−I相互作用を含む、提示することと、
    前記CNNによって、前記複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類することと、
    ポジティブポリペプチド−MHC−I相互作用として分類された前記候補ポリペプチド−MHC−I相互作用から、前記ポリペプチドを合成することと、をさらに含む、請求項3に記載の方法。
  14. 請求項13に記載の方法によって作製されたポリペプチド。
  15. 前記ポリペプチドが、腫瘍特異的抗原である、請求項13に記載の方法。
  16. 前記ポリペプチドが、選択されたMHC対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、請求項13に記載の方法。
  17. 前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、前記ポジティブ実ポリペプチド−MHC−I相互作用データ、および前記ネガティブ実ポリペプチド−MHC−I相互作用データが、選択された対立遺伝子と関連付けられている、請求項3に記載の方法。
  18. 前記選択された対立遺伝子が、A0201、A0202、A0203、B2703、B2705、およびそれらの組み合わせからなる群から選択される、請求項17に記載の方法。
  19. 前記増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、前記GAN弁別装置が前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することが、前記GAN発生装置の勾配降下発現を評価することを含む、請求項3に記載の方法。
  20. 前記増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、前記GAN弁別装置が前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することは、
    ポジティブ実ポリペプチド−MHC−I相互作用データに高い確率を、前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を、および前記ネガティブ実ポリペプチド−MHC−I相互作用データに低い確率を与える可能性を高めるために、前記GAN弁別装置を繰り返し実行することと、
    前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データが高くレート付けされる確率を高めるために、前記GAN発生装置を繰り返し実行することと、を含む、請求項3に記載の方法。
  21. 前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、前記ポジティブ実ポリペプチド−MHC−I相互作用データ、および前記ネガティブ実ポリペプチド−MHC−I相互作用データを、前記畳み込みニューラルネットワーク(CNN)に、前記CNNが前記それぞれのポリペプチド−MHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示することは、
    畳み込み処置を実施することと、
    非線形性(RelU)処置を実施することと、
    プーリングまたはサブサンプリング処置を実施することと、
    分類(完全接続層)処置を実施することと、を含む、請求項3に記載の方法。
  22. 前記GANが、深層畳み込みGAN(DCGAN)を含む、請求項1に記載の方法。
  23. 前記第1の停止基準が、平均二乗誤差(MSE)関数を評価することを含み、前記第2の停止基準が、平均二乗誤差(MSE)関数を評価することを含み、前記第3の停止基準が、曲線下面積(AUC)関数を評価することを含む、請求項8に記載の方法。
  24. 前記予測スコアが、ポジティブポリペプチド−MHC−I相互作用データとして分類される前記ポジティブ実ポリペプチド−MHC−I相互作用データの確率である、請求項3に記載の方法。
  25. 前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定することは、前記予測スコアのうちの1つ以上を閾値と比較することを含む、請求項1に記載の方法。
  26. 前記GANおよび前記CNNを出力することをさらに含む、請求項1に記載の方法。
  27. 敵対的生成ネットワーク(GAN)を訓練するための装置であって、
    1つ以上のプロセッサと、
    前記1つ以上のプロセッサによって実行されると、前記装置に、
    a.GAN発生装置によって、増加的に正確なポジティブシミュレーションデータを、GAN弁別装置が前記ポジティブシミュレーションデータをポジティブとして分類するまで生成することと、
    b.前記ポジティブシミュレーションデータ、ポジティブ実データ、およびネガティブ実データを、畳み込みニューラルネットワーク(CNN)に、前記CNNがそれぞれのデータをポジティブまたはネガティブとして分類するまで提示することと、
    c.前記ポジティブ実データおよび前記ネガティブ実データを前記CNNに提示して、予測スコアを生成することと、
    d.前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定し、前記GANが訓練されていない場合、前記予測スコアに基づいて、前記GANが訓練されているとの決定がなされるまで、a〜cを繰り返すことと、を行わせる、プロセッサ実行可能命令を記憶する、メモリと、を含む、装置。
  28. 前記ポジティブシミュレーションデータ、前記ポジティブ実データ、および前記ネガティブ実データが、生物学的データを含む、請求項27に記載の装置。
  29. 前記ポジティブシミュレーションデータが、ポジティブシミュレーションポリペプチド−MHC−I相互作用データを含み、前記ポジティブ実データが、ポジティブ実ポリペプチド−MHC−I相互作用データを含み、前記ネガティブ実データが、ネガティブ実ポリペプチド−MHC−I相互作用データを含む、請求項27に記載の装置。
  30. 前記1つ以上のプロセッサによって実行されると、前記装置に、前記増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、前記GAN弁別装置が前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記装置に、
    e.GANパラメータのセットに従って、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第1のシミュレーションデータセットを生成することと、
    f.前記MHC対立遺伝子の前記ポジティブ実ポリペプチド−MHC−I相互作用を有する前記第1のシミュレーションデータセットを、前記MHC対立遺伝子の前記ネガティブ実ポリペプチド−MHC−I相互作用と組み合わせて、GAN訓練データセットを作成することと、
    g.弁別装置から情報を受信することであって、前記弁別装置が、決定境界に従って、前記GAN訓練データセットにおける前記MHC対立遺伝子のそれぞれのポジティブポリペプチド−MHC−I相互作用がポジティブまたはネガティブであるかどうかを決定するように構成されている、受信することと、
    h.前記弁別装置からの前記情報の正確さに基づいて、前記GANパラメータのセットまたは前記決定境界のうちの1つ以上を調節することと、
    i.第1の停止基準が満たされるまで、e〜hを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、請求項29に記載の装置。
  31. 前記1つ以上のプロセッサによって実行されると、前記装置に、前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、前記ポジティブ実ポリペプチド−MHC−I相互作用データ、および前記ネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、前記CNNがそれぞれのポリペプチドMHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示させる、前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記装置に、
    j.GANパラメータの前記セットに従って、前記MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第2のシミュレーションデータセットを生成することと、
    k.前記第2のシミュレーションデータセットを、前記MHC対立遺伝子の前記ポジティブ実ポリペプチド−MHC−I相互作用データおよび前記MHC対立遺伝子の前記ネガティブ実ポリペプチド−MHC−I相互作用データと組み合わせて、CNN訓練データセットを作成することと、
    l.畳み込みニューラルネットワーク(CNN)に、前記CNN訓練データセットを提示することと、
    m.前記CNNから訓練情報を受信することであって、前記CNNが、CNNパラメータのセットに従って、前記CNN訓練データセットにおける前記MHC対立遺伝子のそれぞれのポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することによって、前記訓練情報を決定するように構成されている、受信することと、
    n.訓練情報の正確さに基づいて、前記CNNパラメータのセットのうちの1つ以上を調節することと、
    o.第2の停止基準が満たされるまで、l〜oを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、請求項30に記載の装置。
  32. 前記1つ以上のプロセッサによって実行されると、前記装置に、前記ポジティブ実ポリペプチド−MHC−I相互作用データおよび前記ネガティブ実ポリペプチド−MHC−I相互作用データを前記CNNに提示させて、予測スコアを生成させる、前記プロセッサ実行可能命令が、前記1つ以上のプロセッサによって実行されると、前記装置に、
    前記CNNパラメータのセットに従って、前記MHC対立遺伝子のそれぞれのポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類させる、プロセッサ実行可能命令をさらに含む、請求項31に記載の装置。
  33. 前記1つ以上のプロセッサによって実行されると、前記装置に、前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定させる前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記装置に、前記MHC対立遺伝子の前記それぞれのポリペプチド−MHC−I相互作用の前記分類の正確さを、ポジティブまたはネガティブとして決定させて、前記分類の前記正確さが第3の停止基準を満たしている場合に、前記GANおよび前記CNNを出力させる、プロセッサ実行可能命令をさらに含む、請求項32に記載の装置。
  34. 前記1つ以上のプロセッサによって実行されると、前記装置に、前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定させる前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記装置に、前記MHC対立遺伝子の前記それぞれのポリペプチド−MHC−I相互作用の前記分類の正確さを、ポジティブまたはネガティブとして決定させて、前記分類の前記正確さが第3の停止基準を満たしていない場合に、ステップaに戻らせる、プロセッサ実行可能命令をさらに含む、請求項32に記載の装置。
  35. 前記GANパラメータが、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの1つ以上を含む、請求項30に記載の装置。
  36. 前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記装置に、
    データセットを前記CNNに提示することであって、前記データセットが、複数の候補ポリペプチド−MHC−I相互作用を含み、前記CNNが、前記複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類するようにさらに構成されている、提示することと、
    前記CNNがポジティブポリペプチド−MHC−I相互作用として分類した前記候補ポリペプチド−MHC−I相互作用から、前記ポリペプチドを合成することと、をさらに行わせる、請求項29に記載の装置。
  37. 前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、前記ポジティブ実ポリペプチド−MHC−I相互作用データ、および前記ネガティブ実ポリペプチド−MHC−I相互作用データが、選択された対立遺伝子と関連付けられている、請求項29に記載の装置。
  38. 前記1つ以上のプロセッサによって実行されると、前記装置に、前記増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、前記GAN弁別装置が前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記装置に、
    ポジティブ実ポリペプチド−MHC−I相互作用データに高い確率を、前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を、および前記ネガティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を与える可能性を高めるために、前記GAN弁別装置を繰り返し実行することと、
    前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データが高くレート付けされる確率を高めるために、前記GAN発生装置を繰り返し実行することと、を行わせる、プロセッサ実行可能命令をさらに含む、請求項29に記載の装置。
  39. 前記GANが、深層畳み込みGAN(DCGAN)を含む、請求項27に記載の装置。
  40. 前記第1の停止基準が、平均二乗誤差(MSE)関数の評価を含み、前記第2の停止基準が、平均二乗誤差(MSE)関数の評価を含み、前記第3の停止基準が、曲線下面積(AUC)関数の評価を含む、請求項33に記載の装置。
  41. 前記予測スコアが、ポジティブポリペプチド−MHC−I相互作用データとして分類される前記ポジティブ実ポリペプチド−MHC−I相互作用データの確率である、請求項29に記載の装置。
  42. 前記1つ以上のプロセッサによって実行されると、前記装置に、前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定させるプロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記装置に、前記予測スコアのうちの1つ以上を閾値と比較させる、プロセッサ実行可能命令をさらに含む、請求項27に記載の装置。
  43. 敵対的生成ネットワーク(GAN)を訓練するための非一時的コンピュータ可読媒体であって、1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、
    a.GAN発生装置によって、増加的に正確なポジティブシミュレーションデータを、GAN弁別装置が前記ポジティブシミュレーションデータをポジティブとして分類するまで生成することと、
    b.前記ポジティブシミュレーションデータ、ポジティブ実データ、およびネガティブ実データを、畳み込みニューラルネットワーク(CNN)に、前記CNNがそれぞれのデータをポジティブまたはネガティブとして分類するまで提示することと、
    c.前記ポジティブ実データおよび前記ネガティブ実データを前記CNNに提示して、予測スコアを生成することと、
    d.前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定し、前記GANが訓練されていない場合、前記予測スコアに基づいて、前記GANが訓練されているとの決定がなされるまで、a〜cを繰り返すことと、を行わせる、プロセッサ実行可能命令を記憶している、非一時的コンピュータ可読媒体。
  44. 前記ポジティブシミュレーションデータ、前記ポジティブ実データ、および前記ネガティブ実データが、生物学的データを含む、請求項43に記載の非一時的コンピュータ可読媒体。
  45. 前記ポジティブシミュレーションデータが、ポジティブシミュレーションポリペプチド−MHC−I相互作用データを含み、前記ポジティブ実データが、ポジティブ実ポリペプチド−MHC−I相互作用データを含み、前記ネガティブ実データが、ネガティブ実ポリペプチド−MHC−I相互作用データを含む、請求項43に記載の非一時的コンピュータ可読媒体。
  46. 前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、前記GAN弁別装置が前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、前記プロセッサ実行可能命令は、前記1つ以上のプロセッサに、
    e.GANパラメータのセットに従って、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第1のシミュレーションデータセットを生成することと、
    f.前記MHC対立遺伝子の前記ポジティブ実ポリペプチド−MHC−I相互作用を有する前記第1のシミュレーションデータセットを、前記MHC対立遺伝子の前記ネガティブ実ポリペプチド−MHC−I相互作用と組み合わせて、GAN訓練データセットを作成することと、
    g.弁別装置から情報を受信することであって、前記弁別装置が、決定境界に従って、前記GAN訓練データセットにおける前記MHC対立遺伝子のそれぞれのポジティブポリペプチド−MHC−I相互作用がポジティブまたはネガティブであるかどうかを決定するように構成されている、受信することと、
    h.前記弁別装置からの前記情報の正確さに基づいて、前記GANパラメータのセットまたは前記決定境界のうちの1つ以上を調節することと、
    i.第1の停止基準が満たされるまで、e〜hを繰り返すことと、をさらに行わせる、請求項45に記載の非一時的コンピュータ可読媒体。
  47. 前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、前記ポジティブ実ポリペプチド−MHC−I相互作用データ、および前記ネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、前記CNNがそれぞれのポリペプチドMHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示させる、前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、
    j.GANパラメータの前記セットに従って、前記MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第2のシミュレーションデータセットを生成することと、
    k.前記第2のシミュレーションデータセットを、前記ポジティブ実ポリペプチド−MHC−I相互作用データおよび前記MHC対立遺伝子の前記ネガティブ実ポリペプチド−MHC−I相互作用データと組み合わせて、CNN訓練データセットを作成することと、
    l.畳み込みニューラルネットワーク(CNN)に、前記CNN訓練データセットを提示することと、
    m.前記CNNから訓練情報を受信することであって、前記CNNが、CNNパラメータのセットに従って、前記CNN訓練データセットにおける前記MHC対立遺伝子のそれぞれのポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することによって、前記訓練情報を決定するように構成されている、受信することと、
    n.訓練情報の正確さに基づいて、前記CNNパラメータのセットのうちの1つ以上を調節することと、
    o.第2の停止基準が満たされるまで、l〜oを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、請求項46に記載の非一時的コンピュータ可読媒体。
  48. 前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記ポジティブ実ポリペプチド−MHC−I相互作用データおよび前記ネガティブ実ポリペプチド−MHC−I相互作用データを前記CNNに提示させて、予測スコアを生成させる、前記プロセッサ実行可能命令が、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、
    p.前記ポジティブ実ポリペプチド−MHC−I相互作用データおよび前記ネガティブ実ポリペプチド−MHC−I相互作用データを、前記CNNに提示することであって、前記CNNが、前記CNNパラメータのセットに従って、前記MHC対立遺伝子のそれぞれのポリペプチド−MHC−1相互作用をポジティブまたはネガティブとして分類するようにさらに構成されている、提示することを行わせる、プロセッサ実行可能命令をさらに含む、請求項47に記載の非一時的コンピュータ可読媒体。
  49. 前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定させる前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記MHC対立遺伝子の前記それぞれのポリペプチド−MHC−I相互作用の前記分類の正確さを、ポジティブまたはネガティブとして決定させて、前記分類の前記正確さが第3の停止基準を満たしている場合に、前記GANおよび前記CNNを出力させる、プロセッサ実行可能命令をさらに含む、請求項48に記載の非一時的コンピュータ可読媒体。
  50. 前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定させる前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記MHC対立遺伝子の前記それぞれのポリペプチド−MHC−I相互作用の前記分類の正確さを、ポジティブまたはネガティブとして決定させて、前記分類の前記正確さが第3の停止基準を満たしていない場合に、ステップaに戻らせる、プロセッサ実行可能命令をさらに含む、請求項48に記載の非一時的コンピュータ可読媒体。
  51. 前記GANパラメータが、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの1つ以上を含む、請求項46に記載の非一時的コンピュータ可読媒体。
  52. 前記1つ以上のプロセッサによって実行されると、前記プロセッサ実行可能命令は、前記1つ以上のプロセッサに、
    データセットを前記CNNに提示することであって、前記データセットが、複数の候補ポリペプチド−MHC−I相互作用を含み、前記CNNが、前記複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類するようにさらに構成されている、提示することと、
    前記CNNがポジティブポリペプチド−MHC−I相互作用として分類した前記候補ポリペプチド−MHC−I相互作用から、前記ポリペプチドを合成することと、をさらに行わせる、請求項45に記載の非一時的コンピュータ可読媒体。
  53. 前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、前記ポジティブ実ポリペプチド−MHC−I相互作用データ、および前記ネガティブ実ポリペプチド−MHC−I相互作用データが、選択された対立遺伝子と関連付けられている、請求項45に記載の非一時的コンピュータ可読媒体。
  54. 前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、前記GAN弁別装置が前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、
    ポジティブ実ポリペプチド−MHC−I相互作用データに高い確率を、および前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を与える可能性を高めるために、前記GAN弁別装置を繰り返し実行することと、
    前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データが高くレート付けされる確率を高めるために、前記GAN発生装置を繰り返し実行することと、を行わせる、プロセッサ実行可能命令をさらに含む、請求項45に記載の非一時的コンピュータ可読媒体。
  55. 前記GANが、深層畳み込みGAN(DCGAN)を含む、請求項45に記載の非一時的コンピュータ可読媒体。
  56. 前記第1の停止基準が、平均二乗誤差(MSE)関数の評価を含み、前記第2の停止基準が、平均二乗誤差(MSE)関数の評価を含み、前記第3の停止基準が、曲線下面積(AUC)関数の評価を含む、請求項49に記載の非一時的コンピュータ可読媒体。
  57. 前記予測スコアが、ポジティブポリペプチド−MHC−I相互作用データとして分類される前記ポジティブ実ポリペプチド−MHC−I相互作用データの確率である、請求項45に記載の非一時的コンピュータ可読媒体。
  58. 前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定させるプロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記予測スコアのうちの1つ以上を閾値と比較させる、プロセッサ実行可能命令をさらに含む、請求項45に記載の非一時的コンピュータ可読媒体。
JP2020543800A 2018-02-17 2019-02-18 Mhcペプチド結合予測のためのgan-cnn Active JP7047115B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022046973A JP7459159B2 (ja) 2018-02-17 2022-03-23 Mhcペプチド結合予測のためのgan-cnn

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862631710P 2018-02-17 2018-02-17
US62/631,710 2018-02-17
PCT/US2019/018434 WO2019161342A1 (en) 2018-02-17 2019-02-18 Gan-cnn for mhc peptide binding prediction

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022046973A Division JP7459159B2 (ja) 2018-02-17 2022-03-23 Mhcペプチド結合予測のためのgan-cnn

Publications (2)

Publication Number Publication Date
JP2021514086A true JP2021514086A (ja) 2021-06-03
JP7047115B2 JP7047115B2 (ja) 2022-04-04

Family

ID=65686006

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020543800A Active JP7047115B2 (ja) 2018-02-17 2019-02-18 Mhcペプチド結合予測のためのgan-cnn
JP2022046973A Active JP7459159B2 (ja) 2018-02-17 2022-03-23 Mhcペプチド結合予測のためのgan-cnn

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022046973A Active JP7459159B2 (ja) 2018-02-17 2022-03-23 Mhcペプチド結合予測のためのgan-cnn

Country Status (11)

Country Link
US (1) US20190259474A1 (ja)
EP (1) EP3753022A1 (ja)
JP (2) JP7047115B2 (ja)
KR (2) KR20230164757A (ja)
CN (1) CN112119464A (ja)
AU (2) AU2019221793B2 (ja)
CA (1) CA3091480A1 (ja)
IL (2) IL311528A (ja)
MX (1) MX2020008597A (ja)
SG (1) SG11202007854QA (ja)
WO (1) WO2019161342A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102507111B1 (ko) * 2022-03-29 2023-03-07 주식회사 네오젠티씨 데이터베이스에 저장된 면역 펩티돔 정보의 신뢰도를 결정하기 위한 방법 및 장치

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201718756D0 (en) * 2017-11-13 2017-12-27 Cambridge Bio-Augmentation Systems Ltd Neural interface
US10706534B2 (en) * 2017-07-26 2020-07-07 Scott Anderson Middlebrooks Method and apparatus for classifying a data point in imaging data
US11704573B2 (en) * 2019-03-25 2023-07-18 Here Global B.V. Method, apparatus, and computer program product for identifying and compensating content contributors
US20200379814A1 (en) * 2019-05-29 2020-12-03 Advanced Micro Devices, Inc. Computer resource scheduling using generative adversarial networks
WO2020252345A1 (en) * 2019-06-12 2020-12-17 Quantum-Si Incorporated Techniques for protein identification using machine learning and related systems and methods
CN110598786B (zh) 2019-09-09 2022-01-07 京东方科技集团股份有限公司 神经网络的训练方法、语义分类方法、语义分类装置
US20210150270A1 (en) * 2019-11-19 2021-05-20 International Business Machines Corporation Mathematical function defined natural language annotation
CN110875790A (zh) * 2019-11-19 2020-03-10 上海大学 基于生成对抗网络的无线信道建模实现方法
JP2023501126A (ja) * 2019-11-22 2023-01-18 エフ.ホフマン-ラ ロシュ アーゲー 組織画像分類用のマルチインスタンス学習器
CN115280417A (zh) * 2019-12-12 2022-11-01 贾斯特-埃沃泰克生物制品有限公司 使用机器学习技术基于模板蛋白质序列来生成蛋白质序列
CN111063391B (zh) * 2019-12-20 2023-04-25 海南大学 一种基于生成式对抗网络原理的不可培养微生物筛选系统
CN111402113B (zh) * 2020-03-09 2021-10-15 北京字节跳动网络技术有限公司 图像处理方法、装置、电子设备及计算机可读介质
US20210295173A1 (en) * 2020-03-23 2021-09-23 Samsung Electronics Co., Ltd. Method and apparatus for data-free network quantization and compression with adversarial knowledge distillation
CN115398550A (zh) * 2020-03-23 2022-11-25 基因泰克公司 使用深度学习估计药代动力学参数
US10885387B1 (en) * 2020-08-04 2021-01-05 SUPERB Al CO., LTD. Methods for training auto-labeling device and performing auto-labeling by using hybrid classification and devices using the same
US10902291B1 (en) * 2020-08-04 2021-01-26 Superb Ai Co., Ltd. Methods for training auto labeling device and performing auto labeling related to segmentation while performing automatic verification by using uncertainty scores and devices using the same
JP7519232B2 (ja) 2020-08-25 2024-07-19 株式会社Ye Digital 異常検知方法、異常検知装置および異常検知プログラム
US12080380B2 (en) 2020-08-28 2024-09-03 Just-Evotec Biologics, Inc. Implementing a generative machine learning architecture to produce training data for a classification model
CN112597705B (zh) * 2020-12-28 2022-05-24 哈尔滨工业大学 一种基于scvnn的多特征健康因子融合方法
CN112309497B (zh) * 2020-12-28 2021-04-02 武汉金开瑞生物工程有限公司 一种基于Cycle-GAN的蛋白质结构预测方法及装置
KR102519341B1 (ko) * 2021-03-18 2023-04-06 재단법인한국조선해양기자재연구원 소음분석을 통한 타이어 편마모 조기 감지 시스템 및 그 방법
US20220328127A1 (en) * 2021-04-05 2022-10-13 Nec Laboratories America, Inc. Peptide based vaccine generation system with dual projection generative adversarial networks
US20220319635A1 (en) * 2021-04-05 2022-10-06 Nec Laboratories America, Inc. Generating minority-class examples for training data
US20230083313A1 (en) * 2021-09-13 2023-03-16 Nec Laboratories America, Inc. Peptide search system for immunotherapy

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180028294A1 (en) * 2016-07-27 2018-02-01 James R. Glidewell Dental Ceramics, Inc. Dental cad automation using deep learning

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4608184B2 (ja) * 2001-03-14 2011-01-05 ダコ デンマーク アクティーゼルスカブ 新規なmhc分子構築物、ならびに診断および処置のためにこれらの構築物を用いる方法、ならびにmhc分子の使用
US8121797B2 (en) * 2007-01-12 2012-02-21 Microsoft Corporation T-cell epitope prediction
US9805305B2 (en) * 2015-08-07 2017-10-31 Yahoo Holdings, Inc. Boosted deep convolutional neural networks (CNNs)
CN106845471A (zh) * 2017-02-20 2017-06-13 深圳市唯特视科技有限公司 一种基于生成对抗网络的视觉显著性预测方法
CN107480788A (zh) * 2017-08-11 2017-12-15 广东工业大学 一种深度卷积对抗生成网络的训练方法及训练系统
CN107590518A (zh) 2017-08-14 2018-01-16 华南理工大学 一种多特征学习的对抗网络训练方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180028294A1 (en) * 2016-07-27 2018-02-01 James R. Glidewell Dental Ceramics, Inc. Dental cad automation using deep learning

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102507111B1 (ko) * 2022-03-29 2023-03-07 주식회사 네오젠티씨 데이터베이스에 저장된 면역 펩티돔 정보의 신뢰도를 결정하기 위한 방법 및 장치

Also Published As

Publication number Publication date
EP3753022A1 (en) 2020-12-23
CA3091480A1 (en) 2019-08-22
MX2020008597A (es) 2020-12-11
IL276730B2 (en) 2024-08-01
RU2020130420A3 (ja) 2022-03-17
WO2019161342A1 (en) 2019-08-22
RU2020130420A (ru) 2022-03-17
KR20200125948A (ko) 2020-11-05
AU2022221568A1 (en) 2022-09-22
KR102607567B1 (ko) 2023-12-01
US20190259474A1 (en) 2019-08-22
IL311528A (en) 2024-05-01
JP2022101551A (ja) 2022-07-06
AU2019221793B2 (en) 2022-09-15
KR20230164757A (ko) 2023-12-04
AU2022221568B2 (en) 2024-06-13
JP7047115B2 (ja) 2022-04-04
SG11202007854QA (en) 2020-09-29
IL276730A (en) 2020-09-30
CN112119464A (zh) 2020-12-22
IL276730B1 (en) 2024-04-01
JP7459159B2 (ja) 2024-04-01
AU2019221793A1 (en) 2020-09-17

Similar Documents

Publication Publication Date Title
JP7047115B2 (ja) Mhcペプチド結合予測のためのgan-cnn
US20210335447A1 (en) Methods and systems for analysis of receptor interaction
JP2022532681A (ja) 結合親和性予測方法及びシステム並びに候補タンパク質結合ペプチド発生方法
KR102184720B1 (ko) 암 세포 표면의 mhc-펩타이드 결합도 예측 방법 및 분석 장치
CN113762417B (zh) 基于深度迁移的对hla抗原呈递预测系统的增强方法
Pertseva et al. Applications of machine and deep learning in adaptive immunity
Albert et al. Deep neural networks predict class I major histocompatibility complex epitope presentation and transfer learn neoepitope immunogenicity
CN111933213A (zh) 利用深度学习进行序列变异检测
Deng et al. Massive single-cell RNA-seq analysis and imputation via deep learning
Bravi Development and use of machine learning algorithms in vaccine target selection
Attique et al. DeepBCE: evaluation of deep learning models for identification of immunogenic B-cell epitopes
WO2022013154A1 (en) Method, system and computer program product for determining presentation likelihoods of neoantigens
Dorigatti et al. Predicting t cell receptor functionality against mutant epitopes
RU2777926C2 (ru) Gan-cnn для прогнозирования связывания мнс-пептид
Al-Ghafer et al. NMF-guided feature selection and genetic algorithm-driven framework for tumor mutational burden classification in bladder cancer using multi-omics data
Ambroise et al. Identification of relevant properties for epitopes detection using a regression model
US20240371463A1 (en) Methods for predicting epitope specificity of t cell receptors
Zeng Machine learning models for functional genomics and therapeutic design
Jacobs et al. In silico Antibody-Peptide Epitope prediction for Personalized cancer therapy
Montemurro Improved Immunoinformatic Methods for Rationale T Cell Epitope Discovery
WO2023031207A1 (en) Methods for predicting epitope specificity of t cell receptors
Albert et al. Deep Neural Networks Predict MHC-I Epitope Presentation and Transfer Learn Neoepitope Immunogenicity
Mi et al. Pan-specific Multi Allelic pHLA Presenting Prediction through Resnet-based and LSTM-based Neural Networks
WO2024123699A1 (en) Methods and systems for prediction of peptide presentation by major histocompatibility complex molecules
Sidhom Applications of Artificial Intelligence & Machine Learning in Cancer Immunology

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201008

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201008

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210928

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220323

R150 Certificate of patent or registration of utility model

Ref document number: 7047115

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150