JP6953515B2

JP6953515B2 - 天然の内因性又は外因性細胞プロセシング、輸送及び主要組織適合遺伝子複合体（ｍｈｃ）提示と正の関連性がある特徴量を含むペプチドを同定するための機械学習アルゴリズム

Info

Publication number: JP6953515B2
Application number: JP2019508297A
Authority: JP
Inventors: ストラットフォード，リチャード; クランシー，トレヴァー
Original assignee: エヌイーシーオンコイミュニティエーエス
Priority date: 2016-04-29
Filing date: 2017-04-28
Publication date: 2021-10-27
Anticipated expiration: 2037-04-28
Also published as: WO2017186959A1; CN109416929B; CN109416929A; CA3022390A1; EP3449405A1; GB201607521D0; JP2019518295A; US20190311781A1

Description

発明の分野
本発明は、機械学習アルゴリズム又は統計的推論モデルを用いて、細胞プロセシング、輸送及び主要組織適合遺伝子複合体提示の成功と関連性がある特徴量を含むペプチドを同定する方法に関する。

発明の背景
何十年も前から、病原体及び腫瘍の免疫原性抗原の同定はワクチン開発の中心的な役割を果たしている。ここ１５〜２０年でこのプロセスは、試験する必要のある抗原の数を減らす計算論的アプローチの採用によって簡易化及び強化を遂げた。免疫原性を決定する重要特徴量は十分に解明されていないが、多くの免疫原性クラスＩペプチド（抗原）は古典経路でサイトゾル内でのその親ポリペプチド／タンパク質のプロテアソーム切断を通じて生成され、続いてＴＡＰトランスポーターによって小胞体に輸送された後、空のＨＬＡ／ＭＨＣ分子にパッケージングされて表面に輸送され、循環ＣＤ８＋Ｔ細胞に提示されることが分かっている。

循環Ｔ細胞と結合してそれを活性化することができるのはＨＬＡ／ＭＨＣに結合したペプチドのみであるため、ペプチドがＨＬＡ／ＭＨＣに結合する能力は免疫原性の決定において最も重要なステップに相当し、この研究領域は極めて活発となっている。現在、ＩＥＤＢ（http://www.iedb.org/；２０１６年４月時点でアクセスしたもの）など、最も一般的なＨＬＡ／ＭＨＣアレルについて多数のバリデートされたＨＬＡ／ＭＨＣリガンドを収載した十分なデータ数を有する公的に利用可能なデータベースがある。これらのデータベースを用いて、デノボの試験されていないペプチドが所与のアレルに結合できるかどうかを信頼性をもって予測することが可能な種々のタイプの予測アルゴリズムが訓練され、結合親和性の予測が試みられており、成否は様々である。しかしながら、これらのデータベースに挙げられるＨＬＡ／ＭＨＣ結合データのかなりの割合はインビトロ結合試験によるものであり、従ってインビボで天然のプロセシングを受けないペプチドの例を多く含む。

興味深いことに、最近の研究では、バリデート済みのＭＨＣ結合体のうち天然でプロセシングを受ける、従って実際に細胞の表面に観察されるのは１５％未満であることが示されている（Giguere et al. 2013）。更に、予測されるＭＨＣ結合体のうち免疫原性である、即ち循環Ｔ細胞に結合してそれを活性化するのは５％未満であり（Paul F Robbins et al. 2013）、免疫原性の決定においてプロセシング及び提示が果たす重要な役割を実証している。従って、効率的なプロセシング及び提示と同義のペプチドの重要特徴量を認識するように訓練された追加的なアルゴリズムでＨＬＡ／ＭＨＣ予測アルゴリズムを補足することが明らかに必要である。

プロセシング及び提示の計算論的予測方法を開発する試みは、当初、サイトゾルでのプロテアソーム切断など、古典経路内の特定のステップの予測に重点が置かれた。例えば、FragPredict、ProteaSMM、PAProC及びPepCleaveが、β−カゼイン及びエノラーゼからのインビトロプロテアソーム消化データで訓練されている（Holzhutter and Kloetzel 2000；Tenzer et al. 2005；Nussbaum et al. 2001；Ginodi et al. 2008；Emmerich et al. 2000；及びToes et al. 2001）。一方でNetChop及び最新バージョンのProteaSMMは、β−カゼイン、エノラーゼ、及びプリオンタンパク質からのインビトロプロテアソーム消化データで訓練される（Kesmir et al. 2002；Nielsen et al. 2005；Emmerich et al. 2000；Toes et al. 2001；Tenzer et al. 2004）。しかしながら、これらの方法は、新規インビトロプロテアソーム消化実験で観察される切断パターンの予測において妥当な精度であることが判明しているが、ペプチド溶出試験から同定されるＭＨＣ−Ｉリガンドの予測は不得手である。この性能の低さは、恐らく、インビトロでのプロテアソームのタンパク質分解活性がそのインビボ活性を反映しない可能性があること、及びプロテアソーム消化が複雑なプロセシング及び提示経路における一つのステップに相当するに過ぎないことを反映している。

インビボタンパク質分解に寄与する他のプロテアーゼの活性を（プロテアソームに加えて）捉える代替の、潜在的により全体論的な手法がKesmir et al, 2002によって記載されており、これは非重複ＭＨＣＩリガンドからインビボ切断部位を推論する。この方法の著者らは、ポジティブペプチド（ＭＨＣＩリガンド）のＣ末端を切断部位として割り当て、同じリガンド内の残り位置をネガティブ部位（それらはサイトゾル及び小胞体においてタンパク質分解活性を生き残ったはずであるため）として割り当て、そのデータを用いてNetChop-Ctermと呼ばれるニューラルネットワークベースの機械学習アルゴリズムを訓練した。NetChop-Ctermは、同じ原理を用いて生成された切断／非切断データセットで比較的良好に動くが、免疫原性エピトープの同定においては特に成功しているわけではない。例えば、以前のバージョンのNetChop（NetChop-2）とＨＬＡ／ＭＨＣ結合予測とを組み合わせた研究は、ＨＬＡ／ＭＨＣ結合予測単独を用いるのと比較して、エピトープ予測を大幅に改善することはなかった（Nielsen et al, 2005）。このようにＨＬＡ／ＭＨＣ結合予測器との相乗作用が欠けていることの一つの可能な説明は、デフォルトでのネガティブ切断部位の選択手法はポジティブデータセットとネガティブデータセットとの間に大きい結合親和性の差を生じるというものである。訓練セットのこの不均衡が、プロセシング特徴量それ自体よりむしろ、プロテアーゼ切断及びＨＬＡ／ＭＨＣ結合の両方の特徴量を学習したアルゴリズム性能を生み出すものと思われる。従ってこれらの２つの予測器は全般的に見て重複したタスクを実行するもので、従って相乗的でない。

最近では、プロセシング及び提示の予測について、MHC-NP及びNIEluterなど、個別のステップに重点を置くのでなく、代わりに内因性のプロセシング及び提示経路に関係する全ての特徴量を学習しようとする、より全体論的な計算手法が幾つも開発されている（Sebastien Giguere et al. 2013及びQiang Tang et al. 2014）。これらの手法は両方とも、Dana-Farber Cancer InstituteのBrusicチームが主催した２０１２年第２回免疫学機械学習コンペティション（completion）の一部として提供された６つのヒトＨＬＡ／ＭＨＣアレル（ＨＬＡ−Ａ＊０２：０１、ＨＬＡ−Ｂ＊０７：０２、ＨＬＡ−Ｂ＊３５：０１、ＨＬＡ−Ｂ＊４４：０３、ＨＬＡ−Ｂ＊５３：０１及びＨＬＡ−Ｂ＊５７：０１）についての訓練及び試験データセットを使用した。このコンペティションの目標は、天然でプロセシングを受けるペプチドを天然でプロセシングを受けないペプチドと区別することであった。MHC-NP及びNIEluterの両方が、ペプチド溶出アッセイで同定された真正な（bone-fide）ＨＬＡ／ＭＨＣ溶出ペプチド（ポジティブデータセット）、及びバリデートされたＨＬＡ／ＭＨＣ結合ペプチド（天然でプロセシングを受けるのはそのうちの少数であろう）及び／又はインビトロ結合試験でＨＬＡ／ＭＨＣ分子に結合しないことが示されているペプチドのいずれかで訓練されるサポートベクターマシンベースの分類器を使用する。

MHC-NP及びNIEluterは両方ともに、提供された試験セットに対して試験したとき良好な性能を報告するが、訓練セット及び試験セットの両方を詳しく調べると、ポジティブデータセットとネガティブデータセットとの間に大きい結合親和性の差が同定される。この結合の差が、プロセシング特徴量それ自体よりむしろ、プロセシング及びＨＬＡ／ＭＨＣ結合の両方の特徴量を学習したアルゴリズムを生み出すものと思われ、加えてこれらのツールのＨＬＡ／ＭＨＣ拘束的性質が、抗原の発見におけるその有用性を限られたものにしている。

従って、当該技術分野では、プロセシング及び提示を決定する重要特徴量だけを同定する手法が必要とされている。更に、そのＭＨＣ拘束に関わらず任意のペプチドについて正確な予測を提供可能であることが極めて望ましい。

発明の概要
本発明は、細胞の天然の内因性及び／又は外因性プロセシング、輸送及び提示経路のナビゲーションの成功と正の関連性がある特徴量を含むペプチドの同定方法を提供する。従ってこれらのペプチドは、それが特定のＭＨＣ分子への結合能を有する場合、ＭＨＣ−ペプチド（ＭＨＣ−ｐ）複合体として細胞の表面上に検出可能であるものと思われる。

これは、本明細書で定義される方法で構築されたポジティブ及びネガティブデータセットを含む訓練データセットに機械学習アルゴリズム又は統計的推論モデルを適用することにより実現する。ポジティブデータセットは、表面結合型又は分泌型ＭＨＣ−ｐ複合体から、特に文献に報告されるペプチド溶出アッセイを通じて同定又は推論されるペプチド配列のエントリを含む。ネガティブデータセットは、前記同定又は推論が報告されていない配列のエントリを含む。

訓練データは、ポジティブ及びネガティブデータセットのエントリ間の多重ペアリングを更に含む。各ペアの両方の配列が等しい又は同様の長さであり、及び同じソースタンパク質（又はその断片）に由来するか、及び／又はペアのポジティブメンバーを拘束する（それと複合体を形成する）と報告されているＨＬＡ／ＭＨＣ分子に対して同等の推定結合親和性を有するかのいずれかである。

この方法は、複数のＨＬＡ／ＭＨＣアレルによってコードされる表面結合型又は分泌型ＨＬＡ／ＭＨＣ分子から好ましくは同定又は推論される配列を訓練データとして使用し、及びそのポジティブカウンターパートと同等のＨＬＡ／ＭＨＣ結合親和性を有するネガティブペアを作成する、及び／又は重要なＨＬＡ／ＭＨＣ結合アンカー位置にあるアミノ酸を除去することにより、プロセシング及び提示経路の効率に対するＨＬＡ／ＭＨＣ結合の影響を制御し、そのアルゴリズムがＨＬＡ／ＭＨＣ結合よりむしろ、効率的なプロセシング及び提示と関連性がある特徴量を学習することを確実にする。従って、ヒト白血球抗原（ＨＬＡ）分子によるプロセシング及び提示の例について、本発明は「ＨＬＡ非依存性」であると見なされる。従って、本方法で訓練されるアルゴリズムを用いると、任意の公知の又は予測されているＨＬＡ−ｐ複合体について正確な予測を行うことができ、特定のＨＬＡアレル又は特定のＨＬＡ遺伝子座によってコードされるものに限定されず、しかしながら本方法は、単一のアレルによってコードされるＨＬＡ分子から同定又は推論される訓練データでの機械学習アルゴリズム又は統計的推論モデルの訓練に適用することができる。従って、かかる訓練された機械学習アルゴリズム又は統計的推論モデルを用いてＨＬＡ／ＭＨＣアレル特異的予測を行うことができる。更に、本方法は、ポジティブカウンターパートと同じソースタンパク質からペアのネガティブ配列を選択することにより、親タンパク質の発現及び安定性の差を制御し、偽陰性、即ち、優れたプロセシング特徴量を含むが、親タンパク質が呈するＭＨＣ／ＨＬＡ提示に必要な発現及び／又は安定性特性が準最適であるためＨＬＡ／ＭＨＣと複合体化した細胞の表面に観察されないペプチドが取り込まれるリスクを低減する。これは訓練データの改善及びより正確な予測につながる。

従って、第１の態様において、本発明は、天然の内因性又は外因性細胞プロセシング、輸送及びＨＬＡ／ＭＨＣ提示と正の関連性がある特徴量を含むペプチドを同定するための；ＨＬＡ／ＭＨＣ結合の影響を打ち消す、且つそのＨＬＡ／ＭＨＣ拘束に関わらず任意のペプチドに適用することができる機械学習アルゴリズム又は統計的推論モデルの訓練方法であって、
（ａ）ポジティブデータセットとネガティブデータセットとを含む１つ以上の訓練データセットを構築することであって、
ポジティブデータセットは、１つ又は複数の異なるＨＬＡ／ＭＨＣアレルによってコードされる表面結合型又は分泌型ＨＬＡ／ＭＨＣ−ｐ複合体から同定又は推論されるペプチド配列のエントリを含み、及びネガティブデータセットは、表面結合型又は分泌型ＨＬＡ／ＭＨＣ−ｐ複合体から同定又は推論されないペプチド配列のエントリを含み；
訓練データが、ポジティブ及びネガティブデータセットのエントリ間の多重ペアリングを更に含み；及び前記多重ペアリングの各ペアが、
（ｉ）等しい又は同様の長さである、
及び
（ｉｉ）同じソースタンパク質（又はその断片）に由来する、及び／又は
（ｉｉｉ）ポジティブデータセットのペプチドを拘束するＨＬＡ／ＭＨＣ分子に対して、同様の結合親和性を有する
ペプチド配列を含む、構築すること；
及び（ｂ）前記訓練データセットに機械学習アルゴリズム又は統計的推論モデルを適用すること
を含む方法を提供する。

第２の態様によれば、本発明は、第１の態様の方法を実装するコンピュータ実行可能命令が格納されているコンピュータ可読媒体を提供する。

第３の態様によれば、本発明は、
１つ以上のプロセッサ；及び
プロセッサのうちの１つ以上によって実行されると第１の態様の方法を装置に遂行させる命令を含むメモリ
を含む装置を提供する。

更なる態様については発明の詳細な説明に定義する。

図面の簡単な説明
訓練データの構築時にネガティブペプチドをランダムなタンパク質から選択するのと比べてポジティブペプチドと同じタンパク質から選択するとアルゴリズムの予測性能が改善されることを示す。訓練データの作成に用いるポジティブ及びネガティブ対応付けペア間の結合差の変化がアルゴリズムの性能にどのように影響するかを示す。強い結合体（ＩＣ５０≦５００）及び弱い結合体（ＩＣ５０＜５００）の両方についてネガティブペプチドを選択する際の最適基準を示す。本明細書に記載される方法を用いて訓練されるアルゴリズムのＨＬＡ／ＭＨＣ非依存的性質を示し、即ちこのアルゴリズムは、元の訓練データに出現しなかったＨＬＡ／ＭＨＣアレルから単離された新規ペプチドを正しく分類することができる。 NetChop-Cterm-3.0と呼ばれる文献に既発表の最良の性能のＨＬＡ／ＭＨＣ非依存性分類器と比べた、本明細書に記載される方法を用いて訓練されるＳＶＭアルゴリズムの優れた性能を示す。２０１２年第２回免疫学機械学習コンペティション（completion）の一部としてDana-Farber Cancer InstituteのBrusicチームによって提供されたデータセットで訓練した最良の性能のアレル特異的に訓練されるＳＶＭベースの分類器「MHC-NP」のうちの１つと比べた、本明細書に記載される方法を用いて訓練されるＳＶＭアルゴリズムの優れた性能を示す。

発明の詳細な説明
本明細書で使用される用語は全て、特に指示されない限り、当該技術分野で用いられる標準的な定義を有する。

第１の態様によれば、本発明は、天然の内因性又は外因性細胞プロセシング、輸送及びＨＬＡ／ＭＨＣ提示と正の関連性がある特徴量を含むペプチドを同定するための；ＨＬＡ／ＭＨＣ結合の影響を打ち消す、且つそのＨＬＡ／ＭＨＣ拘束に関わらず任意のペプチドに適用することができる機械学習アルゴリズム又は統計的推論モデルの訓練方法であって、
（ａ）ポジティブデータセットとネガティブデータセットとを含む１つ以上の訓練データセットを構築することであって、
ポジティブデータセットは、１つ又は複数の異なるＨＬＡ／ＭＨＣアレルによってコードされる表面結合型又は分泌型ＨＬＡ／ＭＨＣ−ｐ複合体から同定又は推論されるペプチド配列のエントリを含み、及びネガティブデータセットは、表面結合型又は分泌型ＨＬＡ／ＭＨＣ−ｐ複合体から同定又は推論されないペプチド配列のエントリを含み；
訓練データが、ポジティブ及びネガティブデータセットのエントリ間の多重ペアリングを更に含み；及び前記多重ペアリングの各ペアが、
（ｉ）等しい又は同様の長さである、
及び
（ｉｉ）同じソースタンパク質（又はその断片）に由来する、及び／又は
（ｉｉｉ）ポジティブデータセットのペプチドを拘束するＨＬＡ／ＭＨＣ分子に対して、同様の結合親和性を有する
ペプチド配列を含む、構築すること；
及び（ｂ）前記訓練データに機械学習アルゴリズム又は統計的推論モデルを適用すること
を含む方法を提供する。

機械学習システムは既存のデータセットに対してパターン認識及び学習手法を実行して予測モデルを構築することができるため、あるプロセスについて正確な機構が完全には解明されていない分野で特に有益である。ある種の入力が所望の結果をもたらし、他の入力が望ましくない結果をもたらすことが分かっていれば、機械学習システムはそれらの入力のどのパラメータが望ましい結果及び望ましくない結果につながり得るかを同定して、それにより関与する機構に関していかなる基本的理解もなしに予測モデルを提供することができる。

機械学習モデルを構築するためには、機械学習システムを訓練データとして知られる既存のデータで訓練する必要がある。訓練データの選択が、訓練された機械学習アルゴリズムの有効性に大きい影響を及ぼすこともあり、特許請求される解決法は、改良された機械学習モデルの開発にどのような訓練データを使用すべきかについて特に有効な教示を提供する。

提案される解決法の例示的実施形態においては、機械学習システムへの訓練データとして対応付けペアが提供され得る。各ペアリングは、所望の結果を伴うペプチド配列（ポジティブデータ）と、望ましくない結果を伴うペプチド配列（ネガティブデータ）とであり得る。ポジティブ及びネガティブデータの各々は、ペプチド配列の特性を定義付ける１つ以上のパラメータを含むことができ、種々の条件下でどのパラメータの組み合わせが所望の結果をもたらし得るかを決定するように機械学習アルゴリズムを訓練することができる。

例えば、各ペプチド配列が特徴量ベクトルとして表されてもよく、これは当該のペプチド配列を表す数値パラメータのｎ次元ベクトルである。ポジティブデータの特徴量ベクトルが一つのデータ構造に格納されてもよく、且つネガティブデータの特徴量ベクトルがもう一つのデータ構造に格納されてもよく、及び別個のデータ構造がポジティブ及びネガティブデータの特徴量ベクトルの対応するペア間に連結関係を付与し得る。或いは、ポジティブ及びネガティブデータの対応付けペアは単一のデータ構造に格納されてもよく、例えば２タプルのセットであってもよい（２タプルのうちの第１の要素がポジティブペプチド配列のｎ次元特徴量ベクトルであり、且つ２タプルのうちの第２の要素がネガティブペプチド配列のｎ次元特徴量ベクトルである）。一部の実施形態において、ペプチド配列は連結ベクトルとして表され、ここでは各アミノ酸が、各可能なアミノ酸につき１つの要素のバイナリベクトルとして符号化され、各アミノ酸の存在が１で表され、各アミノ酸の非存在が０で表される。本明細書に定義するとおり、「バイナリベクトル」又は「ビットアレイ」は、ビット又はバイナリ値をコンパクトに格納するデータ構造を指し、ここでベクトルの各要素、即ちビットはバイナリ値、例えば０又は１のみによって表され得る。

幾つかの異なる機械学習実装が利用可能であり、当業者であれば、利用可能なデータセット、利用可能な処理能力、及び所望の精度などの特徴に応じて用いる実装を適合させることが可能であろう。当業者は、データモデルの精度を向上させるため、各特徴量ベクトルに可能な限り多くのパラメータを含めることを選択してもよい。或いは、当業者は、タスクの計算の複雑性を低減するため、より少ないパラメータを選択してもよい。

機械学習システムは、好ましくは、大規模データセットに対する機械学習の実行に求められる高い計算要求量を満たすため、幾つかの論理的に結合したコンピュータシステムにわたって分散されるが、機械学習システムは単一のコンピュータシステムに実装されてもよい。

第１の態様において、表面結合型又は分泌型ＨＬＡ／ＭＨＣ−ペプチド複合体から同定又は推論されるペプチド配列のエントリを使用してポジティブデータセットを作成する必要がある。典型的には、文献中で実験的に同定されているポジティブペプチドの組み合わせセット、例えば特定の細胞型について報告されているＨＬＡ／ＭＨＣ「ペプチドーム」が使用され得る（例えば、Espinosa et al. (2013)及びJarmalavicius et al. (2012)に教示されるとおり−本実施例を参照）。ポジティブデータセットは、単一のアレルによってコードされるＨＬＡ／ＭＨＣ分子で表面結合型又は分泌型であると同定又は推論されるペプチド配列のエントリを使用して作成されてもよい。好ましくは、ポジティブデータセット（及び／又は相補的なネガティブデータセット）は、様々な異なるＨＬＡ／ＭＨＣアレルを発現する複数の異なる細胞株又は初代細胞から同定されるペプチド配列を含む。この実施形態において、前記ポジティブ及び／又はネガティブデータセットは、「複数」の異なるＨＬＡ／ＭＨＣアレルによってコードされる表面結合型又は分泌型ＭＨＣ／ＨＬＡ−ｐ複合体から同定又は推論されるペプチド配列を含み、ここで「複数」とは、２つ以上のＨＬＡ／ＭＨＣアレルを指す。各「ペプチドーム」（又はポジティブペプチドのセット）は、恐らくは当該技術分野で利用可能な標準プロトコルを用いて同定されたものとなるであろう。プロトコルには、典型的には、細胞溶解、アフィニティークロマトグラフィーによる精製（ＨＬＡ／ＭＨＣの特定のアレル変異体に特異的な抗体、又は複数のアレル変異体若しくはＨＬＡ／ＭＨＣクラス全体に共通する決定基を認識する抗体のいずれかを使用する）及び限外ろ過、任意選択でＨＰＬＣ分離、及び続く質量分析法によるペプチド同定（例えば、マトリックス支援レーザー脱離イオン化飛行時間型質量分析法（ＭＡＬＤＩ−ＴＯＦＭＳ））が含まれる。例示的プロトコルについては、Espinosa et al. (2013), page 25 “2. Materials and methods”、又はJarmalavicius et al. (2012), page 33402 “Experimental Procedures”を参照されたい。

第１の態様において、特徴量（ｉ）、（ｉｉ）及び（ｉｉｉ）は、特徴量（ｉ）が、特徴量（ｉｉ）及び（ｉｉｉ）のいずれか一方又は両方に加えて必要であると解釈されるべきである。好ましくは、前記多重ペアリングの各ペアは、（上記に解釈したとおりの）前記特徴量を有する２つの配列からなる。より好ましくは、前記多重ペアリングの各ペアは、特徴量（ｉ）、（ｉｉ）及び（ｉｉｉ）の全てを有する２つの配列を含み、より好ましくはそれらからなる。

特徴量（ｉ）に関して、配列は好ましくは８、９、１０、１１アミノ酸長又はそれ以上である。好ましくは、クラスＩペプチドは８〜１４アミノ酸長であり、クラスＩＩペプチドは９〜３２アミノ酸長である。これに関連して、「同様の」長さとは、これらの限界の範囲内であり、即ちクラスＩペプチドについては、同様の長さは８〜１４アミノ酸（差が６アミノ酸以下）であり、クラスＩＩペプチドについては、同様の長さは９〜３２アミノ酸（差が２３アミノ酸以下）である。更に、ポジティブ及びネガティブデータセットの両方の各ペプチド配列が等しい長さである（即ち、等しい長さがペアのポジティブエントリとネガティブエントリとの間に存在するのみならず、両方のデータセットの全てのエントリにもまた存在する）ことが好ましい。

特徴量（ｉｉ）に関して、これは、当業者が当該技術分野で利用可能なデータベース及び検索機能を使用して決定し得る。例として、Uniprotデータベース（The UniProt Consortium; 2014. http://www.uniprot.org/；２０１６年４月時点でアクセスしたもの）のエントリを参照することによりペアを作成してもよい。

特徴量（ｉｉｉ）に関して、これは好ましくは、当該技術分野で利用可能な公知のＨＬＡ／ＭＨＣ結合予測アルゴリズムを用いてインシリコで決定される。インビトロＨＬＡ／ＭＨＣ結合競合アッセイが（恐らくはインシリコ方法と組み合わせて）用いられてもよい。結合親和性は、多くの場合に、ｎＭ単位で測定されるＩＣ_５０値として表され、これは、特定のＨＬＡ／ＭＨＣ変異体に高親和性で結合することが分かっている標準ペプチドの結合の５０％の阻害を生じさせることが予測されるクエリペプチドの濃度である。しかしながら、結合パーセンタイル等、対応するネガティブペプチドの選択には代替的な結合親和性の測定又は比較もまた利用することができる。

誤解を避けるため、結合予測は、対応ペアのポジティブメンバーがそれと複合体を形成する（別名「拘束される」として知られる）と同定又は推論されたのと同じＨＬＡ／ＭＨＣ分子に対して行われる。ＩＣ_５０メトリックを用いて対応ペアのネガティブメンバーが選択される場合、ネガティブペプチドのＩＣ_５０値がそのポジティブカウンターパートの結合親和性と比較して（好ましさが高くなる順に）５００％、２００％、及び１００％より大きく異なってはならない。

更に前記第１の態様によれば、本発明のＨＬＡ／ＭＨＣ非依存的性質にとって（実施例４を参照）、複数の異なるＨＬＡ／ＭＨＣアレルから同定又は推論されるペプチド配列がポジティブデータセットに含まれることが好ましい。上記に詳述したとおり、前記配列は、異なるＨＬＡ／ＭＨＣアレルを発現する複数の異なる組織試料、細胞株又は初代細胞から同定又は推論されることが好ましい。従って、典型的には、種々の異なるＨＬＡ／ＭＨＣアレルを発現する複数の異なるヒト（又は動物）対象から同定又は推論されるペプチド配列を含むポジティブデータセットを作成することが必要である。

更に、前記ペプチド配列（ポジティブデータセットの）は、（ａ）ＨＬＡ−Ａ、−Ｂ又は−Ｃのいずれかの遺伝子座（又は非ヒト種におけるその等価な遺伝子座）のＨＬＡ／ＭＨＣクラスＩアレル、又はこれらの任意の組み合わせ；又は（ｂ）ＨＬＡ−ＤＱ、−ＤＰ又はＤＲのいずれかの遺伝子座（又は非ヒト種におけるその等価な遺伝子座）のＨＬＡ／ＭＨＣクラスＩＩアレル、又はこれらの任意の組み合わせによってコードされる表面結合型又は分泌型ＨＬＡ／ＭＨＣ分子から同定又は推論されることが好ましく；ここでポジティブデータセットは同じ種に由来する。一部の実施形態において、前記ポジティブデータセットは、（ａ）に係る前記遺伝子座の全て、又は（ｂ）に係る前記遺伝子座の全てから同定又は推論されるペプチド配列を含む。一部の実施形態において、非ヒト種は動物である。

更に前記第１の態様によれば、機械学習アルゴリズム又は統計的推論モデルの特徴量として、ポジティブ及びネガティブデータセットのペプチド配列内の重要なＨＬＡ／ＭＨＣ結合アンカー位置を除外することができる。好ましくは、前記重要なＨＬＡ／ＭＨＣ結合アンカー位置はペプチド配列の位置２及び９（クラスＩＨＬＡ／ＭＨＣアレルについて）及びアンカー位置１、４、６及び９（クラスＩＩアレルについて）である。

更に前記第１の態様によれば、機械学習アルゴリズム又は統計的推論モデルの特徴量として好ましくは以下が使用される：
（１）ポジティブ及びネガティブデータセットの配列中のいずれか所与の位置におけるアミノ酸アイデンティティ、サイズ、電荷、極性、疎水性及び／又は他の物理化学的特性。
（２）ソースタンパク質においてポジティブ及びネガティブデータセットの配列の末端から１０、好ましくは５、より好ましくは３位置以内にある位置（ペプチドフランキング領域として知られる）におけるアミノ酸アイデンティティ、サイズ、電荷、極性、疎水性及び／又は他の物理化学的特性。
（３）ポジティブ及びネガティブデータセットの配列のアミノ酸についての疎水性、立体及び電子特性（ＶＨＳＥ）記述子（Mei et al. 2005）の主成分スコアベクトル。
（４）ポジティブ及びネガティブデータセットの配列のアミノ酸についてのトポロジー及び構造特性（ＶＴＳＡ）記述子（ZhiLiang et al. 2008による）の主成分スコアベクトル。
（５）ポジティブ及びネガティブデータセットのペプチド配列のいずれか所与の位置におけるアミノ酸配列のｋ−ｍｅｒ頻度；ここでｋは２又は３に等しい。

上記のいずれか１つ、組み合わせ、又は全てを、機械学習アルゴリズム又は統計的推論モデルの特徴量として使用し得る。

更に前記第１の態様によれば、更なる実施形態において本方法は、ペプチド、全タンパク質又はその断片の配列を含む入力データをインテロゲートすることを更に含む。ここで入力データは全タンパク質又はその断片を含み、かかる配列は、試験前に上記に定義するとおりの長さのペプチド、好ましくはノナマーペプチドに分割されてもよい。出力は２つのカテゴリ：プロセシングを受けて細胞表面上に提示される、又はプロセシングを受けない若しくは細胞表面上に提示されない、のうちの一方に分類されるか、又はプラット（Platt）スケーリングなどの数学的テクニックを用いて確率スケールに変換されることになる。

本発明の第３の態様によれば、電子デバイスの１つ以上のプロセッサによって実行されると本発明の第１の態様の方法において定義されるとおりの方法に従い電子デバイスを動作させる命令を含むコンピュータ可読媒体が提供される。

本発明の第４の態様によれば、１つ以上のプロセッサと；プロセッサのうちの１つ以上によって実行されると本発明の第１の態様の方法に従い電子デバイスを動作させる命令を含むメモリとを含む電子デバイスが提供される。

本発明の第５の態様によれば、本発明の第１の態様の方法に定義されるとおりの訓練データの構築用モジュールが提供される。

本発明の第６の態様によれば、本発明の第１の態様の方法に係る機械学習モジュールが提供される。

材料及び方法−タンパク質存在量、安定性及びＨＬＡ／ＭＨＣ（ＨＬＡ／ＭＨＣ）結合の影響を取り除くためのポジティブ及びネガティブ訓練データセットの作成
科学文献に報告される多数のＨＬＡ／ＭＨＣ／ペプチド溶出試験から、天然でプロセシングを受けるノナマー（nonomeric）ペプチドを同定した。続いてUniProtKBデータベース（The UniProt Consortium, 2014）を参照することにより、これらのペプチドを単一のソースタンパク質に対応付けし得るかどうかに基づきフィルタリングした。次にＨＬＡ／ＭＨＣ結合予測アルゴリズムを用いてこれらの単一のソースタンパク質を詳しく調べ、同様の結合親和性（範囲は実験に応じて異なった）を有するが、しかしいずれのペプチド溶出アッセイにも観察されなかった他のノナマー（nonomeric）ペプチドを同定した。このようにして、ポジティブペプチド（溶出アッセイで同定されたもの）とネガティブペプチド（ポジティブと同じ親タンパク質に存在した、同様の予測結合親和性を有するが、いずれの溶出アッセイにも観察されなかったペプチド）との対応付けペアが生成された。同じソースタンパク質からの対応付けペアを使用すると、タンパク質発現及び安定性の違いが配列非依存的にペプチドのプロセシング及び提示効率に影響し得る点、即ち、優れたプロセシング特徴量を含むペプチドが、その親タンパク質の発現及び安定性特性が不良であるため決してＨＬＡ／ＭＨＣと複合体化した細胞の表面に観察されないことがあり得る点が制御される。従って同じタンパク質からの対応付けペアを使用すると、各ポジティブ及びネガティブペプチドがプロセシングを受ける機会が確実に等しくなり、従ってプロセシング及び効率のいかなる差も、各ペプチドの生理化学的特徴量の差を反映するはずである。第２に、対応付けペアの両方のメンバーが同等の予測結合親和性を有することが確実となるため、プロセシング及び提示経路の効率に対するＨＬＡ／ＭＨＣ結合の影響が制御され、ＨＬＡ／ＭＨＣ結合を決定付けるペプチドの特徴量をアルゴリズムが誤って学習することが確実になくなる。

最終的な訓練セットは、１２個の異なるＨＬＡ／ＭＨＣ−Ａアレル、１４個の異なるＨＬＡ／ＭＨＣ−Ｂアレル及び５個の異なるＨＬＡ／ＭＨＣ−Ｃアレルから単離された３７，６４８個のペプチド（１８，８２４個のポジティブペプチド及び１８，８２４個のネガティブペプチド）からなった。

訓練特徴量
特に指定されない限り、全てのアルゴリズムは、ＶＨＳＥ及び頻度ベクトル（ダイマー）を訓練特徴量として使用して訓練した。

試験
幾つもの独立した試験セットを使用してＳＶＭモデルの予測力を検証し、その性能を代替的方法を用いて訓練した他の分類器と比較した：試験セットは全て、そのそれぞれのＨＬＡ／ＭＨＣアレルに対する予測結合親和性が５００ｎｍ以下の、ペプチド溶出アッセイから同定されたノナマー（nonomer）を含む（サンプル１０補完的試験セットを除く−後述する）。次に対応するネガティブ試験セットを上記の方法に基づき作成し、但しネガティブペプチドは、対応付けられるポジティブペプチドの１０％範囲内の予測ＩＣ_５０スコアを有することに基づき選択した（下記参照）。加えて交差検証及び従来の検証を行った。

独立試験セット
メラノーマ試験セット
予測ＩＣ_５０値が５００ｎｍ以下の４つの異なるメラノーマ細胞株から溶出したノナマー（nonomeric）クラスＩペプチド（Jarmalavicius et al, 2012によって記載される）を使用してポジティブ試験セットを生成した。次に対応付けられるネガティブを上記に記載したとおり同じ親タンパク質から同定した。最終的な試験セットには合計２０６個のペプチド；５つの異なるクラスＩＨＬＡ／ＭＨＣアレルから単離された１０３個及びその１０３個の対応付けられるネガティブパートナーが含まれた。

胸腺試験セット
予測ＩＣ５０値が５００ｎｍ以下のヒト胸腺組織から溶出したノナマー（nonomeric）クラスＩペプチド（Espinasa et al, 2013に記載されるとおり）を使用してポジティブ試験セットを生成した。次に対応付けられるネガティブを上記に記載したとおり同定した。試験セットには合計１５８個のペプチド；１０の異なるクラスＩＨＬＡ／ＭＨＣアレルから単離された７８個及びその７８個の対応付けられるネガティブパートナーが含まれた。

サンプル１０試験セット
各アレルにつき１０個のポジティブペプチド及び１０個のネガティブペプチドを無作為に選択して訓練データから取り出し、続く試験に使用した。注記：利用可能なポジティブ及びネガティブペプチドが１０個未満であるアレルについては、利用可能な最大数を選択して取り出した。最終的な試験セットには合計６０８個のペプチド；３１の異なるクラスＩアレルから単離された３０４個及びその３０４個の対応付けられるネガティブパートナーが含まれた。

サンプル１０補完的試験セット
５００ｎｍより高い予測ＩＣ_５０値を有したことに伴い訓練データから除外されたノナマー（nonomeric）クラスＩペプチドを使用してポジティブ「弱結合」試験セットを形成した。次に対応付けられるネガティブを上記に記載したとおり同定した。最終的な試験セットには合計５２００個のペプチド；３０の異なるクラスＩＨＬＡ／ＭＨＣアレルから単離された２６００個及びその２６００個の対応付けられるネガティブパートナーが含まれた。

訓練データ検証試験
３分割交差検証
３分割交差検証を常法どおり実施して、異なる訓練セット組成及び異なる訓練特徴量を評価した。かかる実験では、訓練データを３つの異なる補完的サブセットに無作為に分割した。これらの３つのサブセットのうち２つを訓練に使用し、一方、残りのサブセットを続く試験に使用した。次に交差検証プロセスを繰り返し、試験に各サブセットを１回使用した。３ラウンドの試験の各々の結果全てをまとめて平均することにより単一の性能メトリックを求めた。

従来の検証
加えて、従来の検証を行い、ここでは訓練データを２セットに分割した；一方は７０％のペプチドを含み、訓練に使用し、他方は３０％のペプチドを含み、試験に使用した。

ＳＶＭモデル性能の評価
ＳＶＭモデルの予測精度を評価するため、本発明者らは、別名ＡＵＣとして知られるＲＯＣ曲線下面積（受診者動作特性曲線）を使用した。これは、再現率（真陽性）及び１−特異度（真陰性）をこの閾値の関数としてプロットすることにより分類器再現率及び特異度を提供する（Bradley et al, 1997）。ＡＵＣは、ＲＯＣ曲線下面積によって得られる閾値非依存性のメトリックである。ＡＵＣスコアは０〜１の範囲をとり、前者は全く逆の予測を示し、後者は完全な予測を表し、及び０．５はランダムな予測を意味する。

結果
実施例１−同じソースタンパク質からの対応付けペアを使用することの利点、及び続く対応付けペア訓練セットの最適化
対応するネガティブをポジティブと同じタンパク質から選択することの利益を調べるため、各ペアの対応するネガティブメンバーを同じタンパク質又はランダムなタンパク質から選択した種々の訓練セットを生成した。ネガティブペプチドは、それがそのそれぞれのポジティブパートナーの１０％、１００％又は１０〜１００％の範囲内の予測結合親和性を共有することを基準として選択した。次に種々の訓練セットを使用することにより、親タンパク質から抽出した全ペプチド長及び３アミノ酸長ペプチドのフランキング領域にわたってＶＨＳＥ及びベクトル頻度（ダイマー）を訓練特徴量として使用して（以降「Wide」コンフィギュレーションと称する）、ＳＶＭアルゴリズムを訓練した。

次に、メラノーマ、胸腺及びサンプル１０試験セットと称される３つの異なる独立した試験セットを使用して各アルゴリズムを試験した。これらの異なる試験セットの結果（ＡＵＣを用いて測定した）は図１に示す（それぞれパネルＡ、Ｂ及びＣ）。この図は、ネガティブペプチドを（ランダムなタンパク質でなく）ポジティブと同じタンパク質から選択すると、１〜９％の範囲の性能の大幅な向上が生じることを明らかに示している。興味深いことに、ネガティブペプチドの選択に最適な結合範囲は、０〜１００％の範囲にあるように見える。

これらの実験を繰り返し、但しアルゴリズム訓練の訓練特徴量としてアンカー領域（ノナマー（nonomer）の位置２及び９）を除外した（Excluded）。３つのデータセット（メラノーマ、胸腺及びサンプル１０）の結果はそれぞれパネルＤ、Ｅ及びＦに示す。後者の実験のＡＵＣ測定値は、Wide特徴量セットを使用した前出の報告と比べてやや低かったが、アンカーを取り除いても性能は損なわれなかったことから、アルゴリズムがＨＬＡ／ＭＨＣ結合よりむしろ、効率的な提示と関連性がある特徴量を「学習」し、従ってＨＬＡ／ＭＨＣ非依存的に動作するものであることが示唆される。

実施例２−訓練セットのポジティブ及びネガティブメンバー間の予測結合親和性の差が性能に及ぼす影響を調べる
訓練に使用する対応付けペアのポジティブ及びネガティブメンバー間の関係を調べるため、以下の表に概説する基準で対応するネガティブメンバーを選択した種々の訓練セットを生成した；ポジティブ及びネガティブメンバー間の結合差が徐々に広がる訓練セットを作成した。

訓練セットは、生成後、全ての異なるグループにポジティブが共通する対応ペアのみを選択することによりサイズに関して均一にした。続いて均一化した訓練セットを使用して８つの異なるＳＶＭアルゴリズムを（上記に記載した訓練特徴量を用いて）訓練した。次にメラノーマ、胸腺及びサンプル１０試験セットを使用して各アルゴリズムを試験した。結果は図２に示す（それぞれパネルＡ、Ｂ及びＣ）。これらの結果は、結合差が３より大きく増加すると、恐らくはアルゴリズムが結合並びにプロセシングと関連性のある特徴量を「学習」し始めることに伴い、アルゴリズムの性能が下落し始めることを示している。傾向線を黒色で示す。興味深いことに、独立した均衡試験セットに関する性能は結合差が増加するに従い悪化したが、交差検証スコアは０．７２から０．９８５に増加した。この相互関係は、結合差の増加に伴いアルゴリズムがプロセシング及び提示よりむしろＨＬＡ／ＭＨＣ結合と関連性がある特徴量を学習し始め、差が４００に達する頃には、分類器は結合と関連性がある特徴量のみを認識することを（独立した試験セットの性能が交差検証のＡＵＣ０．９８５に対して０．５２まで下落しているとおり）強く示唆している。

上記に記載したExcluded特徴量セットを使用してこれらの実験を繰り返した。次にメラノーマ、胸腺及びサンプル１０試験セットを使用して各アルゴリズムを試験した。結果は図２に示す（それぞれパネルＤ、Ｅ及びＦ）。興味深いことに、「excluded」で訓練したアルゴリズムの曲線はWide特徴量セットを使用して訓練したものと同じ全体的傾向に従うが、アンカー領域の除外が結合差の増加効果を相殺する助けとなるように見えるとおり、性能の降下は減速し、即ちアルゴリズムが結合並びにプロセシングと関連性がある特徴量を学習し始める時点が後ろにずれる。この仮説は、Wide特徴量セットと比較してExcluded特徴量セットを訓練に使用したとき交差検証スコアがより緩徐に増加し、０．９８５に対して０．９２３でピークに達したという観察によって裏付けられる。この観察は、本明細書に記載される方法で（Wide及びExcluded特徴量セットの両方を使用して）訓練される機械学習アルゴリズムが、ＨＬＡ／ＭＨＣ結合よりむしろ、効率的な提示と関連性がある特徴量を「学習」し、ＨＬＡ／ＭＨＣ非依存的に動作できることの更なる証拠を提供する。

実施例３−性能向上のためのネガティブ訓練セットの組成の最適化
ネガティブ訓練セットの選択に関する最適基準を見出すため、本発明者らは、一連のネガティブデータセットを作成し、ここでネガティブペプチドは、以下の表２に定義するとおりの、そのそれぞれの対応するポジティブパートナーの所定範囲内の予測結合親和性を共有することを基準として選択された。

次に２８の異なる訓練セットを使用してＳＶＭアルゴリズムを訓練した。次に各アルゴリズムを、それぞれ６０８個及び５２００個のペプチドを含むサンプル１０試験セット（全てのポジティブペプチドが５００ｎｍ未満の予測結合ＩＣ_５０値を有した）及びサンプル１０補完的試験セット（全てのポジティブペプチドが５００ｎｍを上回る予測結合ＩＣ_５０値を有した）を使用して試験した。

図３のパネルＡ〜Ｄに示すとおり（赤色の線）、ネガティブペプチドの選択に関する最適結合閾値はサンプル１０試験セットについて０〜１００％の範囲にあるように見え（ここでネガティブペプチドは、それがそのパートナーよりも高い結合親和性又は低い結合親和性のいずれかを有することを基準として選択される）、ＡＵＣ測定値が０．８２であり、これは訓練した他のアルゴリズムと比較して３〜６％の範囲の性能向上に相当した（パネルＢ〜Ｄの赤色の線を参照）。サンプル１０補完的試験セットでも同様の傾向が観察されたが、性能の差は小さめであった（パネルＡ〜Ｄの青色の線を参照）。

上記の実験を繰り返し、但し一連のネガティブデータセットは、以下の表３に示すとおり、「スライディングスケール」閾値よりむしろ相互排他的範囲の親和性対応付けネガティブ（ビン）を用いて作成した：

図３パネルＥ（青色の線）に示すとおり、パネルＦ〜Ｈと比較して、ネガティブペプチドの選択に関する最適結合閾値は、両方の試験セットについて１０〜１００％の範囲であった（ここでネガティブペプチドはそのポジティブパートナーよりも高い又は低い結合親和性を有し得る）。しかしながら、サンプル１０試験セットの最適性能は、１〜１００の結合スケール閾値を使用して報告されたものよりも低かったが（０．８２対０．７９）、サンプル１０補完的試験セットの性能は事実上高かった（０．７４対０．７２）。これは、プロセシングを受けるペプチドで、そのそれぞれのＨＬＡ／ＭＨＣ分子に対する結合親和性がより弱いもの（ＩＣ_５０が５００ｎｍを上回るペプチド）を分類するには、機械学習アルゴリズムの訓練にスライディングスケール範囲を用いるよりも相互排他的結合範囲を用いる方が良い可能性があることを示唆している。

実施例４−対応付けペア手法のアレル非依存的性質の実証
本明細書に記載される対応付けペア方法を用いて機械学習アルゴリズムを訓練することによりＨＬＡ／ＭＨＣ結合ではなくプロセシング及び提示と関連性がある特徴量を含むペプチドを同定することができ、ひいてはそのＭＨＣ拘束に関わらず任意のペプチドに適用することができる、即ちアルゴリズムがＨＬＡ／ＭＨＣ非依存性であることを実証するため、本発明者らは、以下の表に概説するとおり、我々の訓練セットに出現する各個別のアレルについてＳＶＭアルゴリズムを訓練して試験した：

図４に示されるとおり、これらの結果は、対応付けペアで訓練したＳＶＭ分類器が、非ＨＬＡ／ＭＨＣアレル特異的に訓練したとき（試験２及び３）、それをアレル特異的に訓練したとき（試験１）と比較して同等又はより良好な予測を常時行うことを明らかに実証している。この傾向は、Wide及びExcludedのいずれの特徴量セットを用いて訓練したアルゴリズムについても観察される。

実施例５−NetChop3（一般的に使用される他の唯一のＨＬＡ／ＭＨＣ非依存性処理ツール）に対するベンチマーキング
最適化した訓練セットを使用してＳＶＭアルゴリズムを訓練した：この訓練セットではネガティブペプチドがそのポジティブカウンターパートと同じ親タンパク質から同定され、対応するポジティブの１００％範囲内の推定ＩＣ_５０結合親和性を有することを基準として選択された。アルゴリズムはまた、全ペプチド長及び３アミノ酸長フランキング領域にわたってＶＨＳＥ及び頻度ベクトル（ダイマー）を訓練特徴量として訓練し（Wide）、得られたアルゴリズムをPanPro（Wide）と命名した。訓練特徴量としてアンカー領域を除外したことを除き、同じ訓練特徴量を用いて全く同じ訓練セットで第２のアルゴリズムを訓練し（Excluded）、得られたアルゴリズムをPanPro（Excluded）と命名した。

次にメラノーマ、胸腺及びサンプル１０試験セットを使用して各アルゴリズムをNetChop-termC 3.0に対してベンチマーキングした。図５に示すとおり（パネルＡ〜Ｃ）、いずれのバージョンのPanProも、３つ全ての試験セットでNetChop-termC3.0より優れていた。最も大きい性能の違いはPanProがネガティブを正しくコールする能力であり、これが低い偽陽性率につながった（データは示さず）。

実施例６−ＨＬＡ／ＭＨＣ特異的分類器MHC-NPに対するPanProのベンチマーキング（本発明者らのパニング手法が現在のゴールドスタンダードであるＨＬＡ／ＭＨＣ特異的訓練方法と競合し得ることを実証する）
サンプル１０試験セットから抽出した関連性のあるアレル特異的試験データを使用して、前述の「Excluded」及び「Wide」特徴量セットを使用して訓練したPanProをMHC-NP（Giguere et al. 2013）と比較した。図６に示すとおり、いずれのバージョンのPanProも、試験した６個中５個のアレルについてMHC-NPより優れていた。

考察
バリデートされているＨＬＡ／ＭＨＣ結合ペプチドのうち天然でプロセシングを受け、Ｔ細胞と相互作用する機会を有するのは１５％未満であり（Giguere et al. 2013）、免疫応答の誘発能を有するのは５％未満である（Robbins et al, 2013）。従って、天然でプロセシングを受けるであろうペプチドを同定するための、ＨＬＡ／ＭＨＣ結合予測器と組み合わせて免疫原性抗原を適時且つ費用対効果良く同定する能力を向上させることのできるインシリコ方法の開発が明らかに必要とされている。残念ながらプロセシング及び提示の特徴量を学習するように訓練したアルゴリズムの性能はＨＬＡ／ＭＨＣ結合予測器に遅れを取っている（Giguere et al. 2013）。インシリコ方法の開発に際しての課題の一つは、複数のステップ及び複数のプロテアーゼ、シャペロン及び輸送タンパク質等が関与するプロセシング及び提示経路の複雑さである（Neefjes et al. 2011）。別の課題は、ペプチドが天然でプロセシングを受けると見込まれるかどうかに対して、ソースタンパク質の存在量及び安定性を含め、複数の「配列非依存的」要因が影響を及ぼすことである。従って、ソースタンパク質が必要な特性を欠いているため、効率的にプロセシングを受けて提示されるだけの正当な生理化学的特性を含むペプチドが決して細胞表面のＨＬＡ／ＭＨＣに結合して観察されないということがあり得る。最後に、天然でプロセシングを受けるペプチドについて、ＨＬＡ／ＭＨＣ結合よりむしろ、効率的なプロセシング及び提示に必要な特徴量を解き明かすのは難題であることが分かっている；結合に寄与する特徴量、特にアンカー領域が情報ランドスケープを支配する傾向があるためであり、これらのプロセスが共進化したもので、関連性のある生理化学的特徴量が恐らく重複していることによって悪化する問題である（Kesmir et al. 2003）。本特許では、本発明者らは、タンパク質存在量、安定性及びＨＬＡ／ＭＨＣ結合の影響を制御する機械学習アルゴリズム又は統計的推論モデルの訓練方法であって、アルゴリズム又はモデルがＨＬＡ／ＭＨＣ結合よりむしろ、効率的なプロセシング及び提示と同義の特徴量を学習することを可能にする方法について記載する。ＨＬＡ／ＭＨＣ結合の影響が無効になるため、このアルゴリズム又はモデルは、そのＨＬＡ／ＭＨＣ拘束に関わらず任意のペプチドに適用することができる。

これらの結果が明らかに示しているところによれば、ペアを成すネガティブデータセットを構築し、そのポジティブカウンターパートと同じソースタンパク質に由来すること（タンパク質存在量及び安定性の差の制御）（図１を参照）、及び同じＨＬＡ／ＭＨＣアレルに対して同様のＨＬＡ／ＭＨＣ結合親和性を共有すること（ＨＬＡ／ＭＨＣ結合の影響の制御）（図２及び図３を参照）を基準としてネガティブメンバーを選択することが有利である。加えて、本発明者らは、ＨＬＡ／ＭＨＣ結合の任意の影響を更に最小限に抑えるため、機械学習の特徴量としてアンカー位置２及び９を除外して実験した。興味深いことに、この部分的ペプチド配列（Excluded）で訓練したアルゴリズムは完全なペプチド（Wide）で訓練したものと比べて性能がやや劣ったが、性能の低下は比較的小さい−アンカー領域を取り除くとＨＬＡ／ＭＨＣ結合予測器の性能が損なわれるため、アルゴリズムがＨＬＡ／ＭＨＣ結合よりむしろプロセシングと関連性がある特徴量を学習したという本発明者らの仮説を更に裏付けるものである。

更に、訓練データをこのように構造化すると、機械学習アルゴリズムは、効率的なプロセシング及び提示と関連性がある真の普遍的な特徴量を学習することが可能になるため、それをそのＨＬＡ／ＭＨＣ拘束に関わらず任意のペプチドに適用することができ、即ちこのアルゴリズム又はモデルはＨＬＡ／ＭＨＣ非依存的に動作する（図４を参照）。

最後に、本発明者らは、Wide及びExcluded特徴量セットを利用して、且つＶＨＳＥ及び頻度ベクトル（ダイマー）を訓練特徴量として使用して、本明細書に記載される方法を用いて２つのＳＶＭアルゴリズムを訓練し、アルゴリズムPanPro（Wide）及びPanPro（Excuded）と呼んで、NetChop-termC-3に対する性能をベンチマーキングした。興味深いことに、いずれのバージョンのPanProも、NetChop-termC-3より大幅に優れていた。本発明者らはまた、アレル特異的プロセシング予測ツールMHC-NPに対するPanProの性能もベンチマーキングした。いずれのバージョンのPanProも、試験した６個中５個のアレルに関してMHC-NPより優れており、PanPro（Excuded）の性能が最強であった。

結論として、本発明者らは、効率的なプロセシング及び提示を決定する真の生理化学的特徴量を学習した初めての機械学習ベースの分類器を我々が開発したと考える。本発明者らは、このアルゴリズムがそのＭＨＣ拘束に関わらず任意のペプチドの評価に使用することができ、従ってＨＬＡ／ＭＨＣ非依存性であることを示した。この分類器はＨＬＡ／ＭＨＣ結合アルゴリズムと相乗的に動作して、免疫原性抗原のインシリコ同定能力を向上させる助けとなるはずである。

参考文献
Ｂｒａｄｌｙｅｔａｌ．（１９９７）．ＴｈｅｕｓｅｏｆｔｈｅａｒｅａｕｎｄｅｒｔｈｅＲＯＣｃｕｒｖｅｉｎｔｈｅｅｖａｌｕａｔｉｏｎｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｓ．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，３０（７）：１１４９−１１５５
Ｅｍｍｅｒｉｃｈｅｔａｌ．（２０００）．ＴｈｅＨｕｍａｎ２６Ｓａｎｄ２０Ｓｐｒｏｔｅａｓｏｍｅｓｇｅｎｅｒａｔｅｏｖｅｒｌａｐｐｉｎｇｂｕｔｄｉｆｆｅｒｅｎｔｓｅｔｓｏｆｐｅｐｔｉｄｅｆｒａｇｍｅｎｔｓｆｒｏｍａｍｏｄｅｌｐｒｏｔｅｉｎｓｕｂｓｔｒａｔｅ．ＪＢｉｏｌＣｈｅｍ．２０００Ｊｕｌ１４；２７５（２８）：２１１４０−８．
Ｅｓｐｉｎｏｓａｅｔａｌ．（２０１３）．ＰｅｐｔｉｄｅｓｐｒｅｓｅｎｔｅｄｂｙＨＬＡｃｌａｓｓＩｍｏｌｅｃｕｌｅｓｉｎｔｈｅＨｕｍａｎｔｈｙｍｕｓ．ＪＰｒｏｔｅｏｍｉｃｓ．９４：２３−３６
Ｇｉｇｕｅｒｅｅｔａｌ．（２０１３）．ＭＨＣ−ＮＰ：ｐｒｅｄｉｃｔｉｎｇｐｅｐｔｉｄｅｓｎａｔｕｒａｌｌｙｐｒｏｃｅｓｓｅｄｂｙｔｈｅＭＨＣ．ＪＩｍｍｕｎｏｌＭｅｔｈｏｄｓ．２０１３Ｄｅｃ３１；４００−４０１：３０−６
Ｇｉｎｏｄｉｅｔａｌ．（２００８）．Ｐｒｅｃｉｓｅｓｃｏｒｅｆｏｒｔｈｅｐｒｅｄｉｃｔｉｏｎｏｆｐｅｐｔｉｄｅｓｃｌｅａｖｅｄｂｙｔｈｅｐｒｏｔｅａｓｏｍｅ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００８Ｆｅｂ１５；２４（４）：４７７−８３．
Ｈｏｌｚｈｕｔｔｅｒ＆Ｋｌｏｅｔｚｅｌ（２０００）．Ａｋｉｎｅｔｉｃｍｏｄｅｌｏｆｖｅｒｔｅｂｒａｔｅ２０Ｓｐｒｏｔｅａｓｏｍｅａｃｃｏｕｎｔｉｎｇｆｏｒｔｈｅｇｅｎｅｒａｔｉｏｎｏｆｍａｊｏｒｐｒｏｔｅｏｌｙｔｉｃｆｒａｇｍｅｎｔｓｆｒｏｍｏｌｉｇｏｍｅｒｉｃｐｅｐｔｉｄｅｓｕｂｓｔｒａｔｅｓ．ＢｉｏｐｈｙｓＪ．２０００Ｓｅｐ；７９（３）：１１９６−２０５
Ｊａｒｍａｌａｖｉｃｉｕｓｅｔａｌ．（２０１２）．ＨｉｇｈＩｍｍｕｎｏｇｅｎｉｃｉｔｙｆｏｔｈｅＨｕｍａｎＬｅｕｋｏｃｙｔｅＡｎｔｉｇｅｎＰｅｐｉｄｏｍｅｓｏｆＭｅｌａｎｏｍａＴｕｍｏｒＣｅｌｌｓ．ＪＢｉｏｌＣｈｅｍ．２８７，４０：３３４０１−３３４１１．
Ｍｅｉｅｔａｌ．（２００５）．ＡｎｅｗｓｅｔｏｆａｍｉｎｏａｃｉｄｄｅｓｃｒｉｐｔｏｒｓａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｉｎｐｅｐｔｉｄｅＱＳＡＲｓ．Ｂｉｏｐｏｌｙｍｅｒｓ．８０，６：７７５−８６．
Ｋｅｓｍｉｒｅｔａｌ．（２００２）．Ｐｒｅｄｉｃｔｉｏｎｏｆｐｒｏｔｅａｓｏｍｅｃｌｅａｖａｇｅｍｏｔｉｆｓｂｙｎｅｕｒａｌｎｅｔｗｏｒｋｓ．ＰｒｏｔｅｉｎＥｎｇ．２００２Ａｐｒ；１５（４）：２８７−９６．

Ｋｅｓｍｉｒｅｔａｌ．（２００３）．Ｂｉｏｉｎｆｏｒｍａｔｉｃａｎａｌｙｓｉｓｏｆｆｕｎｃｔｉｏｎａｌｄｉｆｆｅｒｅｎｃｅｓｂｅｔｗｅｅｎｔｈｅｉｍｍｕｎｏｐｒｏｔｅａｓｏｍｅａｎｄｔｈｅｃｏｎｓｔｉｔｕｔｉｖｅｐｒｏｔｅａｓｏｍｅ．Ｉｍｍｕｎｏｇｅｎｅｔｉｃｓ５５：４３７−４４９．
ＺｈｉＬｉａｎｇｅｔａｌ．（２００８）．ＡｎｏｖｅｌｄｅｓｃｒｉｐｔｏｒｏｆａｍｉｎｏａｃｉｄｓａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｉｎｐｅｐｔｉｄｅＱＳＡＲ．ＪｏｕｒｎａｌｏｆＴｈｅｏｒｅｔｉｃａｌＢｉｏｌｏｇｙ２５３（１）：９０−７Ａｕｇｕｓｔ２００８
Ｍｅｉｅｔａｌ．（２００５）．ＡｎｅｗｓｅｔｏｆａｍｉｎｏａｃｉｄｄｅｓｃｒｉｐｔｏｒｓａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｉｎｐｅｐｔｉｄｅＱＳＡＲｓ．Ｂｉｏｐｏｌｙｍｅｒｓ．２００５；８０（６）：７７５−８６．
Ｎｅｅｆｊｅｓｅｔａｌ．（２０１１）．ＴｏｗａｒｄｓａｓｙｓｔｅｍｓｕｎｄｅｒｓｔａｎｄｉｎｇｏｆＭＨＣｃｌａｓｓＩａｎｄＭＨＣｃｌａｓｓＩＩａｎｔｉｇｅｎｐｒｅｓｅｎｔａｔｉｏｎ．ＮａｔＲｅｖＩｍｍｕｎｏｌ．２０１１Ｎｏｖ１１；１１（１２）：８２３−３６．
Ｎｉｅｌｓｅｎｅｔａｌ．（２００５）．ＴｈｅｒｏｌｅｏｆｔｈｅｐｒｏｔｅａｓｏｍｅｉｎｇｅｎｅｒａｔｉｎｇｃｙｔｏｔｏｘｉｃＴ−ｃｅｌｌｅｐｉｔｏｐｅｓ：ｉｎｓｉｇｈｔｓｏｂｔａｉｎｅｄｆｒｏｍｉｍｐｒｏｖｅｄｐｒｅｄｉｃｔｉｏｎｓｏｆｐｒｏｔｅａｓｏｍａｌｃｌｅａｖａｇｅ．Ｉｍｍｕｎｏｇｅｎｅｔｉｃｓ．２００５Ａｐｒ；５７（１−２）：３３−４１．
Ｎｕｓｓｂａｕｍｅｔａｌ．（２００１）．ＰＡＰｒｏＣ：ａｐｒｅｄｉｃｔｉｏｎａｌｇｏｒｉｔｈｍｆｏｒｐｒｏｔｅａｓｏｍａｌｃｌｅａｖａｇｅｓａｖａｉｌａｂｌｅｏｎｔｈｅＷＷＷ．Ｉｍｍｕｎｏｇｅｎｅｔｉｃｓ．２００１Ｍａｒ；５３（２）：８７−９４．
Ｒｏｂｉｎｓｅｔａｌ．（２０１３）．Ｍｉｎｉｎｇｅｘｏｍｉｃｓｅｑｕｅｎｃｉｎｇｄａｔａｔｏｉｄｅｎｔｉｆｙｍｕｔａｔｅｄａｎｔｉｇｅｎｓｒｅｃｏｇｎｉｚｅｄｂｙａｄｏｐｔｉｖｅｌｙｔｒａｎｓｆｅｒｒｅｄｔｕｍｏｒ−ｒｅａｃｔｉｖｅＴｃｅｌｌｓ．ＮａｔＭｅｄ．２０１３Ｊｕｎ；１９（６）：７４７−５２
Ｔａｎｇｅｔａｌ．（２０１４）．ＮＩＥｌｕｔｅｒ：ＰｒｅｄｉｃｔｉｎｇｐｅｐｔｉｄｅｓｅｌｕｔｅｄｆｒｏｍＨＬＡｃｌａｓｓＩｍｏｌｅｃｕｌｅｓ．ＪＩｍｍｕｎｏｌＭｅｔｈｏｄｓ．２０１５Ｊｕｌ；４２２：２２−７．
Ｔｅｎｚｅｒｅｔａｌ．（２００４）．Ｑｕａｎｔｉｔａｔｉｖｅａｎａｌｙｓｉｓｏｆｐｒｉｏｎ−ｐｒｏｔｅｉｎｄｅｇｒａｄａｔｉｏｎｂｙｃｏｎｓｔｉｔｕｔｉｖｅａｎｄｉｍｍｕｎｏ−２０Ｓｐｒｏｔｅａｓｏｍｅｓｉｎｄｉｃａｔｅｓｄｉｆｆｅｒｅｎｃｅｓｃｏｒｒｅｌａｔｅｄｗｉｔｈｄｉｓｅａｓｅｓｕｓｃｅｐｔｉｂｉｌｉｔｙ．ＪＩｍｍｕｎｏｌ．２００４Ｊａｎ１５；１７２（２）：１０８３−９１
Ｔｅｎｚｅｒ＆Ｓｃｈｉｌｄ（２００５）．Ａｓｓａｙｓｏｆｐｒｏｔｅａｓｏｍｅ−ｄｅｐｅｎｄｅｎｔｃｌｅａｖａｇｅｐｒｏｄｕｃｔｓ．ＭｅｔｈｏｄｓＭｏｌＢｉｏｌ．２００５；３０１：９７−１１５．
ＴｈｅＵｎｉＰｒｏｔＣｏｎｓｏｒｔｉｕｍ（２０１４）．ＡｃｔｉｖｉｔｉｅｓａｔｔｈｅＵｎｉｖｅｒｓａｌＰｒｏｔｅｉｎＲｅｓｏｕｒｃｅ（ＵｎｉＰｒｏｔ）ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．４２：Ｄ１９１−Ｄ１９８（２０１４）．
Ｔｏｅｓｅｔａｌ．（２００１）．Ｄｉｓｃｒｅｔｅｃｌｅａｖａｇｅｍｏｔｉｆｓｏｆｃｏｎｓｔｉｔｕｔｉｖｅａｎｄｉｍｍｕｎｏｐｒｏｔｅａｓｏｍｅｓｒｅｖｅａｌｅｄｂｙｑｕａｎｔｉｔａｔｉｖｅａｎａｌｙｓｉｓｏｆｃｌｅａｖａｇｅｐｒｏｄｕｃｔｓ．ＪＥｘｐＭｅｄ．２００１Ｊｕｌ２；１９４（１）：１−１２．

Claims

天然の内因性又は外因性細胞プロセシング、輸送及び主要組織適合遺伝子複合体（ＭＨＣ）提示と正の関連性がある特徴量を含むペプチドを同定するための、ＨＬＡ／ＭＨＣ結合の影響を打ち消す、且つそのＭＨＣ拘束に関わらず任意のペプチドに適用することのできる機械学習アルゴリズム又は統計的推論モデルの訓練方法であって、
（ａ）ポジティブデータセットとネガティブデータセットとを含む１つ以上の訓練データセットを構築することであって、
前記ポジティブデータセットは、１つ又は複数の異なるＨＬＡ／ＭＨＣアレルによってコードされる表面結合型又は分泌型ＨＬＡ／ＭＨＣ／ペプチド複合体から同定又は推論されるペプチド配列のエントリを含み、及び前記ネガティブデータセットは、表面結合型又は分泌型ＨＬＡ／ＭＨＣ／ペプチド複合体から同定又は推論されないペプチド配列のエントリを含み；
前記１つ以上の訓練データセットが、前記ポジティブ及びネガティブデータセットのエントリ間の多重ペアリングを更に含み；及び前記多重ペアリングの各ペアが、
（ｉ）等しい又は同様の長さである、
及び
（ｉｉ）同じソースタンパク質又はその断片に由来する、
及び／又は
（ｉｉｉ）前記ポジティブカウンターパートを拘束するＨＬＡ／ＭＨＣ分子に対して、同様の結合親和性を有する
ペプチド配列を含む、構築すること；
及び（ｂ）前記１つ以上の訓練データセットに機械学習アルゴリズム又は統計的推論モデルを適用することを含む方法。
前記多重ペアリングの各ペアが、基準（ｉ）、（ｉｉ）及び（ｉｉｉ）を満たすペプチド配列を含む、請求項１に記載の方法。
機械学習アルゴリズム又は統計的推論モデルの特徴量として、前記ポジティブ及びネガティブデータセットの前記ペプチド配列内の重要なＨＬＡ／ＭＨＣ結合アンカー位置にあるアミノ酸が取り除かれる、請求項１又は２に記載の方法。
ステップ（ｂ）が、前記１つ以上の訓練データセットに機械学習アルゴリズムを適用することを含む、請求項１〜３のいずれか一項に記載の方法。
前記機械学習アルゴリズムが教師あり（ｓｕｐｅｒｖｉｓｅｄ）である、請求項４に記載の方法。
前記機械学習アルゴリズムが教師なし（ｕｎｓｕｐｅｒｖｉｓｅｄ）である、請求項４に記載の方法。
前記ポジティブデータセットが、複数の異なるＨＬＡ／ＭＨＣアレルによってコードされる表面結合型又は分泌型ＨＬＡ／ＭＨＣ／ペプチド複合体から同定又は推論されるペプチド配列のエントリを含む、請求項１〜６のいずれか一項に記載の方法。
前記ポジティブデータセットが、異なるＨＬＡ／ＭＨＣアレルによってコードされる少なくとも２、好ましくは少なくとも２０、より好ましくは少なくとも５０の異なる表面結合型又は分泌型ＨＬＡ／ＭＨＣ変異体から同定又は推論されるペプチド配列を含む、請求項１〜７のいずれか一項に記載の方法。
前記ポジティブデータセットが、（ａ）ＨＬＡ−Ａ、−Ｂ、又は−Ｃ遺伝子座のいずれかのＨＬＡ／ＭＨＣクラスＩアレル、又は非ヒト種におけるその等価な遺伝子座、又はこれらの任意の組み合わせ、又は（ｂ）ＨＬＡ−ＤＱ、−ＤＰ、又は−ＤＲ遺伝子座のいずれかのＭＨＣクラスＩＩアレル、又は非ヒト種におけるその等価な遺伝子座、又はこれらの任意の組み合わせによってコードされる表面結合型又は分泌型ＨＬＡ／ＭＨＣ変異体から同定又は推論されるペプチド配列を含み；前記ポジティブデータセットが同じ種に由来する、請求項１〜８のいずれか一項に記載の方法。
前記ポジティブデータセットが、（ａ）に係る前記遺伝子座の全て、又は（ｂ）に係る前記遺伝子座の全てから同定又は推論されるペプチド配列を含む、請求項９に記載の方法。
前記ポジティブ及びネガティブデータセットの両方の各ペプチド配列が等しい長さであり；好ましくは前記長さが８、９、１０、１１アミノ酸、又はそれ以上である、請求項１〜１０のいずれか一項に記載の方法。
各対応するネガティブペプチドの前記結合親和性が、ＩＣ_５０ｎｍメトリックを用いて測定したとき、そのポジティブカウンターパートの前記結合親和性と比較して（好ましさが高くなる順に）５００％、２００％、及び１００％より大きく異ならない、請求項１〜１１のいずれか一項に記載の方法。
前記結合親和性がＭＨＣ結合予測アルゴリズム、実験的測定又はこれらの組み合わせによって得られたものである、請求項１〜１２のいずれか一項に記載の方法。
前記機械学習アルゴリズム又は統計的推論モデルの特徴量として、前記ポジティブ及びネガティブデータセットのペプチド配列の所与の位置におけるアミノ酸アイデンティティ、サイズ、電荷、極性、疎水性及び／又は他の関連性のある物理化学的特性が使用される、請求項１〜１３のいずれか一項に記載の方法。
前記ペプチド配列が連結ベクトルとして表され、及び各アミノ酸が、各可能なアミノ酸につき１つの要素のバイナリベクトルとして符号化され、各アミノ酸の存在が１で表され、各アミノ酸の非存在が０で表される、請求項１〜１４のいずれか一項に記載の方法。
前記機械学習アルゴリズム又は統計的推論モデルの特徴量として、前記ソースタンパク質において前記ポジティブ及びネガティブデータセットの前記ペプチド配列の末端から１０、好ましくは５又はより好ましくは３位置以内にある位置におけるアミノ酸アイデンティティ、電荷、サイズ、極性、疎水性及び／又は他の関連性のある物理化学的特性が使用される、請求項１〜１５のいずれか一項に記載の方法。
前記ポジティブ及びネガティブデータセットが、前記ポジティブ及びネガティブデータセットのペプチド配列のアミノ酸についての疎水性、立体及び電子特性（ＶＨＳＥ）記述子の主成分スコアベクトルを更に含み；及び前記記述子が前記機械学習アルゴリズム又は統計的推論モデルの特徴量として使用される、請求項１〜１６のいずれか一項に記載の方法。
前記ポジティブ及びネガティブデータセットが、前記ポジティブ及びネガティブデータセットのペプチド配列のアミノ酸についてのトポロジー及び構造特性（ＶＴＳＡ）記述子の主成分スコアベクトルを更に含み；及び前記記述子が前記機械学習アルゴリズム又は統計的推論モデルの特徴量として使用される、請求項１〜１７のいずれか一項に記載の方法。
前記ポジティブ及びネガティブデータセットの前記ペプチド配列の所与の位置におけるアミノ酸配列のｋ−ｍｅｒ頻度が前記機械学習アルゴリズム又は統計的推論モデルの特徴量として使用され；ｋが１、２又は３に等しい、請求項１〜１８のいずれか一項に記載の方法。
ステップ（ｂ）の後、天然の内因性又は外因性細胞プロセシング、輸送及びＨＬＡ／ＭＨＣ提示と正の関連性がある特徴量を有するペプチド、又はタンパク質のペプチド断片を同定するため、ペプチド及び／又は前記タンパク質のアミノ酸配列を含む入力データを前記機械学習アルゴリズムでインテロゲートすることを更に含む、請求項１〜１９のいずれか一項に記載の方法。
請求項１〜２０のいずれか一項に記載の方法を実装するコンピュータ実行可能命令が格納されているコンピュータ可読媒体。
装置であって、
１つ以上のプロセッサ；及び
前記プロセッサのうちの１つ以上によって実行されると、請求項１〜２０のいずれか一項に記載の方法を前記装置に遂行させる命令を含むメモリを含む装置。