JP6953515B2 - 天然の内因性又は外因性細胞プロセシング、輸送及び主要組織適合遺伝子複合体(mhc)提示と正の関連性がある特徴量を含むペプチドを同定するための機械学習アルゴリズム - Google Patents

天然の内因性又は外因性細胞プロセシング、輸送及び主要組織適合遺伝子複合体(mhc)提示と正の関連性がある特徴量を含むペプチドを同定するための機械学習アルゴリズム Download PDF

Info

Publication number
JP6953515B2
JP6953515B2 JP2019508297A JP2019508297A JP6953515B2 JP 6953515 B2 JP6953515 B2 JP 6953515B2 JP 2019508297 A JP2019508297 A JP 2019508297A JP 2019508297 A JP2019508297 A JP 2019508297A JP 6953515 B2 JP6953515 B2 JP 6953515B2
Authority
JP
Japan
Prior art keywords
mhc
hla
positive
peptide
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019508297A
Other languages
English (en)
Other versions
JP2019518295A (ja
Inventor
ストラットフォード,リチャード
クランシー,トレヴァー
Original Assignee
エヌイーシー オンコイミュニティ エーエス
エヌイーシー オンコイミュニティ エーエス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エヌイーシー オンコイミュニティ エーエス, エヌイーシー オンコイミュニティ エーエス filed Critical エヌイーシー オンコイミュニティ エーエス
Publication of JP2019518295A publication Critical patent/JP2019518295A/ja
Application granted granted Critical
Publication of JP6953515B2 publication Critical patent/JP6953515B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Peptides Or Proteins (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)

Description

発明の分野
本発明は、機械学習アルゴリズム又は統計的推論モデルを用いて、細胞プロセシング、輸送及び主要組織適合遺伝子複合体提示の成功と関連性がある特徴量を含むペプチドを同定する方法に関する。
発明の背景
何十年も前から、病原体及び腫瘍の免疫原性抗原の同定はワクチン開発の中心的な役割を果たしている。ここ15〜20年でこのプロセスは、試験する必要のある抗原の数を減らす計算論的アプローチの採用によって簡易化及び強化を遂げた。免疫原性を決定する重要特徴量は十分に解明されていないが、多くの免疫原性クラスIペプチド(抗原)は古典経路でサイトゾル内でのその親ポリペプチド/タンパク質のプロテアソーム切断を通じて生成され、続いてTAPトランスポーターによって小胞体に輸送された後、空のHLA/MHC分子にパッケージングされて表面に輸送され、循環CD8+ T細胞に提示されることが分かっている。
循環T細胞と結合してそれを活性化することができるのはHLA/MHCに結合したペプチドのみであるため、ペプチドがHLA/MHCに結合する能力は免疫原性の決定において最も重要なステップに相当し、この研究領域は極めて活発となっている。現在、IEDB(http://www.iedb.org/;2016年4月時点でアクセスしたもの)など、最も一般的なHLA/MHCアレルについて多数のバリデートされたHLA/MHCリガンドを収載した十分なデータ数を有する公的に利用可能なデータベースがある。これらのデータベースを用いて、デノボの試験されていないペプチドが所与のアレルに結合できるかどうかを信頼性をもって予測することが可能な種々のタイプの予測アルゴリズムが訓練され、結合親和性の予測が試みられており、成否は様々である。しかしながら、これらのデータベースに挙げられるHLA/MHC結合データのかなりの割合はインビトロ結合試験によるものであり、従ってインビボで天然のプロセシングを受けないペプチドの例を多く含む。
興味深いことに、最近の研究では、バリデート済みのMHC結合体のうち天然でプロセシングを受ける、従って実際に細胞の表面に観察されるのは15%未満であることが示されている(Giguere et al. 2013)。更に、予測されるMHC結合体のうち免疫原性である、即ち循環T細胞に結合してそれを活性化するのは5%未満であり(Paul F Robbins et al. 2013)、免疫原性の決定においてプロセシング及び提示が果たす重要な役割を実証している。従って、効率的なプロセシング及び提示と同義のペプチドの重要特徴量を認識するように訓練された追加的なアルゴリズムでHLA/MHC予測アルゴリズムを補足することが明らかに必要である。
プロセシング及び提示の計算論的予測方法を開発する試みは、当初、サイトゾルでのプロテアソーム切断など、古典経路内の特定のステップの予測に重点が置かれた。例えば、FragPredict、ProteaSMM、PAProC及びPepCleaveが、β−カゼイン及びエノラーゼからのインビトロプロテアソーム消化データで訓練されている(Holzhutter and Kloetzel 2000;Tenzer et al. 2005;Nussbaum et al. 2001;Ginodi et al. 2008;Emmerich et al. 2000;及びToes et al. 2001)。一方でNetChop及び最新バージョンのProteaSMMは、β−カゼイン、エノラーゼ、及びプリオンタンパク質からのインビトロプロテアソーム消化データで訓練される(Kesmir et al. 2002;Nielsen et al. 2005;Emmerich et al. 2000;Toes et al. 2001;Tenzer et al. 2004)。しかしながら、これらの方法は、新規インビトロプロテアソーム消化実験で観察される切断パターンの予測において妥当な精度であることが判明しているが、ペプチド溶出試験から同定されるMHC−Iリガンドの予測は不得手である。この性能の低さは、恐らく、インビトロでのプロテアソームのタンパク質分解活性がそのインビボ活性を反映しない可能性があること、及びプロテアソーム消化が複雑なプロセシング及び提示経路における一つのステップに相当するに過ぎないことを反映している。
インビボタンパク質分解に寄与する他のプロテアーゼの活性を(プロテアソームに加えて)捉える代替の、潜在的により全体論的な手法がKesmir et al, 2002によって記載されており、これは非重複MHC Iリガンドからインビボ切断部位を推論する。この方法の著者らは、ポジティブペプチド(MHC Iリガンド)のC末端を切断部位として割り当て、同じリガンド内の残り位置をネガティブ部位(それらはサイトゾル及び小胞体においてタンパク質分解活性を生き残ったはずであるため)として割り当て、そのデータを用いてNetChop-Ctermと呼ばれるニューラルネットワークベースの機械学習アルゴリズムを訓練した。NetChop-Ctermは、同じ原理を用いて生成された切断/非切断データセットで比較的良好に動くが、免疫原性エピトープの同定においては特に成功しているわけではない。例えば、以前のバージョンのNetChop(NetChop-2)とHLA/MHC結合予測とを組み合わせた研究は、HLA/MHC結合予測単独を用いるのと比較して、エピトープ予測を大幅に改善することはなかった(Nielsen et al, 2005)。このようにHLA/MHC結合予測器との相乗作用が欠けていることの一つの可能な説明は、デフォルトでのネガティブ切断部位の選択手法はポジティブデータセットとネガティブデータセットとの間に大きい結合親和性の差を生じるというものである。訓練セットのこの不均衡が、プロセシング特徴量それ自体よりむしろ、プロテアーゼ切断及びHLA/MHC結合の両方の特徴量を学習したアルゴリズム性能を生み出すものと思われる。従ってこれらの2つの予測器は全般的に見て重複したタスクを実行するもので、従って相乗的でない。
最近では、プロセシング及び提示の予測について、MHC-NP及びNIEluterなど、個別のステップに重点を置くのでなく、代わりに内因性のプロセシング及び提示経路に関係する全ての特徴量を学習しようとする、より全体論的な計算手法が幾つも開発されている(Sebastien Giguere et al. 2013及びQiang Tang et al. 2014)。これらの手法は両方とも、Dana-Farber Cancer InstituteのBrusicチームが主催した2012年第2回免疫学機械学習コンペティション(completion)の一部として提供された6つのヒトHLA/MHCアレル(HLA−A*02:01、HLA−B*07:02、HLA−B*35:01、HLA−B*44:03、HLA−B*53:01及びHLA−B*57:01)についての訓練及び試験データセットを使用した。このコンペティションの目標は、天然でプロセシングを受けるペプチドを天然でプロセシングを受けないペプチドと区別することであった。MHC-NP及びNIEluterの両方が、ペプチド溶出アッセイで同定された真正な(bone-fide)HLA/MHC溶出ペプチド(ポジティブデータセット)、及びバリデートされたHLA/MHC結合ペプチド(天然でプロセシングを受けるのはそのうちの少数であろう)及び/又はインビトロ結合試験でHLA/MHC分子に結合しないことが示されているペプチドのいずれかで訓練されるサポートベクターマシンベースの分類器を使用する。
MHC-NP及びNIEluterは両方ともに、提供された試験セットに対して試験したとき良好な性能を報告するが、訓練セット及び試験セットの両方を詳しく調べると、ポジティブデータセットとネガティブデータセットとの間に大きい結合親和性の差が同定される。この結合の差が、プロセシング特徴量それ自体よりむしろ、プロセシング及びHLA/MHC結合の両方の特徴量を学習したアルゴリズムを生み出すものと思われ、加えてこれらのツールのHLA/MHC拘束的性質が、抗原の発見におけるその有用性を限られたものにしている。
従って、当該技術分野では、プロセシング及び提示を決定する重要特徴量だけを同定する手法が必要とされている。更に、そのMHC拘束に関わらず任意のペプチドについて正確な予測を提供可能であることが極めて望ましい。
発明の概要
本発明は、細胞の天然の内因性及び/又は外因性プロセシング、輸送及び提示経路のナビゲーションの成功と正の関連性がある特徴量を含むペプチドの同定方法を提供する。従ってこれらのペプチドは、それが特定のMHC分子への結合能を有する場合、MHC−ペプチド(MHC−p)複合体として細胞の表面上に検出可能であるものと思われる。
これは、本明細書で定義される方法で構築されたポジティブ及びネガティブデータセットを含む訓練データセットに機械学習アルゴリズム又は統計的推論モデルを適用することにより実現する。ポジティブデータセットは、表面結合型又は分泌型MHC−p複合体から、特に文献に報告されるペプチド溶出アッセイを通じて同定又は推論されるペプチド配列のエントリを含む。ネガティブデータセットは、前記同定又は推論が報告されていない配列のエントリを含む。
訓練データは、ポジティブ及びネガティブデータセットのエントリ間の多重ペアリングを更に含む。各ペアの両方の配列が等しい又は同様の長さであり、及び同じソースタンパク質(又はその断片)に由来するか、及び/又はペアのポジティブメンバーを拘束する(それと複合体を形成する)と報告されているHLA/MHC分子に対して同等の推定結合親和性を有するかのいずれかである。
この方法は、複数のHLA/MHCアレルによってコードされる表面結合型又は分泌型HLA/MHC分子から好ましくは同定又は推論される配列を訓練データとして使用し、及びそのポジティブカウンターパートと同等のHLA/MHC結合親和性を有するネガティブペアを作成する、及び/又は重要なHLA/MHC結合アンカー位置にあるアミノ酸を除去することにより、プロセシング及び提示経路の効率に対するHLA/MHC結合の影響を制御し、そのアルゴリズムがHLA/MHC結合よりむしろ、効率的なプロセシング及び提示と関連性がある特徴量を学習することを確実にする。従って、ヒト白血球抗原(HLA)分子によるプロセシング及び提示の例について、本発明は「HLA非依存性」であると見なされる。従って、本方法で訓練されるアルゴリズムを用いると、任意の公知の又は予測されているHLA−p複合体について正確な予測を行うことができ、特定のHLAアレル又は特定のHLA遺伝子座によってコードされるものに限定されず、しかしながら本方法は、単一のアレルによってコードされるHLA分子から同定又は推論される訓練データでの機械学習アルゴリズム又は統計的推論モデルの訓練に適用することができる。従って、かかる訓練された機械学習アルゴリズム又は統計的推論モデルを用いてHLA/MHCアレル特異的予測を行うことができる。更に、本方法は、ポジティブカウンターパートと同じソースタンパク質からペアのネガティブ配列を選択することにより、親タンパク質の発現及び安定性の差を制御し、偽陰性、即ち、優れたプロセシング特徴量を含むが、親タンパク質が呈するMHC/HLA提示に必要な発現及び/又は安定性特性が準最適であるためHLA/MHCと複合体化した細胞の表面に観察されないペプチドが取り込まれるリスクを低減する。これは訓練データの改善及びより正確な予測につながる。
従って、第1の態様において、本発明は、天然の内因性又は外因性細胞プロセシング、輸送及びHLA/MHC提示と正の関連性がある特徴量を含むペプチドを同定するための;HLA/MHC結合の影響を打ち消す、且つそのHLA/MHC拘束に関わらず任意のペプチドに適用することができる機械学習アルゴリズム又は統計的推論モデルの訓練方法であって、
(a)ポジティブデータセットとネガティブデータセットとを含む1つ以上の訓練データセットを構築することであって、
ポジティブデータセットは、1つ又は複数の異なるHLA/MHCアレルによってコードされる表面結合型又は分泌型HLA/MHC−p複合体から同定又は推論されるペプチド配列のエントリを含み、及びネガティブデータセットは、表面結合型又は分泌型HLA/MHC−p複合体から同定又は推論されないペプチド配列のエントリを含み;
訓練データが、ポジティブ及びネガティブデータセットのエントリ間の多重ペアリングを更に含み;及び前記多重ペアリングの各ペアが、
(i)等しい又は同様の長さである、
及び
(ii)同じソースタンパク質(又はその断片)に由来する、及び/又は
(iii)ポジティブデータセットのペプチドを拘束するHLA/MHC分子に対して、同様の結合親和性を有する
ペプチド配列を含む、構築すること;
及び(b)前記訓練データセットに機械学習アルゴリズム又は統計的推論モデルを適用すること
を含む方法を提供する。
第2の態様によれば、本発明は、第1の態様の方法を実装するコンピュータ実行可能命令が格納されているコンピュータ可読媒体を提供する。
第3の態様によれば、本発明は、
1つ以上のプロセッサ;及び
プロセッサのうちの1つ以上によって実行されると第1の態様の方法を装置に遂行させる命令を含むメモリ
を含む装置を提供する。
更なる態様については発明の詳細な説明に定義する。
図面の簡単な説明
訓練データの構築時にネガティブペプチドをランダムなタンパク質から選択するのと比べてポジティブペプチドと同じタンパク質から選択するとアルゴリズムの予測性能が改善されることを示す。 訓練データの作成に用いるポジティブ及びネガティブ対応付けペア間の結合差の変化がアルゴリズムの性能にどのように影響するかを示す。 強い結合体(IC50≦500)及び弱い結合体(IC50<500)の両方についてネガティブペプチドを選択する際の最適基準を示す。 本明細書に記載される方法を用いて訓練されるアルゴリズムのHLA/MHC非依存的性質を示し、即ちこのアルゴリズムは、元の訓練データに出現しなかったHLA/MHCアレルから単離された新規ペプチドを正しく分類することができる。 NetChop-Cterm-3.0と呼ばれる文献に既発表の最良の性能のHLA/MHC非依存性分類器と比べた、本明細書に記載される方法を用いて訓練されるSVMアルゴリズムの優れた性能を示す。 2012年第2回免疫学機械学習コンペティション(completion)の一部としてDana-Farber Cancer InstituteのBrusicチームによって提供されたデータセットで訓練した最良の性能のアレル特異的に訓練されるSVMベースの分類器「MHC-NP」のうちの1つと比べた、本明細書に記載される方法を用いて訓練されるSVMアルゴリズムの優れた性能を示す。
発明の詳細な説明
本明細書で使用される用語は全て、特に指示されない限り、当該技術分野で用いられる標準的な定義を有する。
第1の態様によれば、本発明は、天然の内因性又は外因性細胞プロセシング、輸送及びHLA/MHC提示と正の関連性がある特徴量を含むペプチドを同定するための;HLA/MHC結合の影響を打ち消す、且つそのHLA/MHC拘束に関わらず任意のペプチドに適用することができる機械学習アルゴリズム又は統計的推論モデルの訓練方法であって、
(a)ポジティブデータセットとネガティブデータセットとを含む1つ以上の訓練データセットを構築することであって、
ポジティブデータセットは、1つ又は複数の異なるHLA/MHCアレルによってコードされる表面結合型又は分泌型HLA/MHC−p複合体から同定又は推論されるペプチド配列のエントリを含み、及びネガティブデータセットは、表面結合型又は分泌型HLA/MHC−p複合体から同定又は推論されないペプチド配列のエントリを含み;
訓練データが、ポジティブ及びネガティブデータセットのエントリ間の多重ペアリングを更に含み;及び前記多重ペアリングの各ペアが、
(i)等しい又は同様の長さである、
及び
(ii)同じソースタンパク質(又はその断片)に由来する、及び/又は
(iii)ポジティブデータセットのペプチドを拘束するHLA/MHC分子に対して、同様の結合親和性を有する
ペプチド配列を含む、構築すること;
及び(b)前記訓練データに機械学習アルゴリズム又は統計的推論モデルを適用すること
を含む方法を提供する。
機械学習システムは既存のデータセットに対してパターン認識及び学習手法を実行して予測モデルを構築することができるため、あるプロセスについて正確な機構が完全には解明されていない分野で特に有益である。ある種の入力が所望の結果をもたらし、他の入力が望ましくない結果をもたらすことが分かっていれば、機械学習システムはそれらの入力のどのパラメータが望ましい結果及び望ましくない結果につながり得るかを同定して、それにより関与する機構に関していかなる基本的理解もなしに予測モデルを提供することができる。
機械学習モデルを構築するためには、機械学習システムを訓練データとして知られる既存のデータで訓練する必要がある。訓練データの選択が、訓練された機械学習アルゴリズムの有効性に大きい影響を及ぼすこともあり、特許請求される解決法は、改良された機械学習モデルの開発にどのような訓練データを使用すべきかについて特に有効な教示を提供する。
提案される解決法の例示的実施形態においては、機械学習システムへの訓練データとして対応付けペアが提供され得る。各ペアリングは、所望の結果を伴うペプチド配列(ポジティブデータ)と、望ましくない結果を伴うペプチド配列(ネガティブデータ)とであり得る。ポジティブ及びネガティブデータの各々は、ペプチド配列の特性を定義付ける1つ以上のパラメータを含むことができ、種々の条件下でどのパラメータの組み合わせが所望の結果をもたらし得るかを決定するように機械学習アルゴリズムを訓練することができる。
例えば、各ペプチド配列が特徴量ベクトルとして表されてもよく、これは当該のペプチド配列を表す数値パラメータのn次元ベクトルである。ポジティブデータの特徴量ベクトルが一つのデータ構造に格納されてもよく、且つネガティブデータの特徴量ベクトルがもう一つのデータ構造に格納されてもよく、及び別個のデータ構造がポジティブ及びネガティブデータの特徴量ベクトルの対応するペア間に連結関係を付与し得る。或いは、ポジティブ及びネガティブデータの対応付けペアは単一のデータ構造に格納されてもよく、例えば2タプルのセットであってもよい(2タプルのうちの第1の要素がポジティブペプチド配列のn次元特徴量ベクトルであり、且つ2タプルのうちの第2の要素がネガティブペプチド配列のn次元特徴量ベクトルである)。一部の実施形態において、ペプチド配列は連結ベクトルとして表され、ここでは各アミノ酸が、各可能なアミノ酸につき1つの要素のバイナリベクトルとして符号化され、各アミノ酸の存在が1で表され、各アミノ酸の非存在が0で表される。本明細書に定義するとおり、「バイナリベクトル」又は「ビットアレイ」は、ビット又はバイナリ値をコンパクトに格納するデータ構造を指し、ここでベクトルの各要素、即ちビットはバイナリ値、例えば0又は1のみによって表され得る。
幾つかの異なる機械学習実装が利用可能であり、当業者であれば、利用可能なデータセット、利用可能な処理能力、及び所望の精度などの特徴に応じて用いる実装を適合させることが可能であろう。当業者は、データモデルの精度を向上させるため、各特徴量ベクトルに可能な限り多くのパラメータを含めることを選択してもよい。或いは、当業者は、タスクの計算の複雑性を低減するため、より少ないパラメータを選択してもよい。
機械学習システムは、好ましくは、大規模データセットに対する機械学習の実行に求められる高い計算要求量を満たすため、幾つかの論理的に結合したコンピュータシステムにわたって分散されるが、機械学習システムは単一のコンピュータシステムに実装されてもよい。
第1の態様において、表面結合型又は分泌型HLA/MHC−ペプチド複合体から同定又は推論されるペプチド配列のエントリを使用してポジティブデータセットを作成する必要がある。典型的には、文献中で実験的に同定されているポジティブペプチドの組み合わせセット、例えば特定の細胞型について報告されているHLA/MHC「ペプチドーム」が使用され得る(例えば、Espinosa et al. (2013)及びJarmalavicius et al. (2012)に教示されるとおり−本実施例を参照)。ポジティブデータセットは、単一のアレルによってコードされるHLA/MHC分子で表面結合型又は分泌型であると同定又は推論されるペプチド配列のエントリを使用して作成されてもよい。好ましくは、ポジティブデータセット(及び/又は相補的なネガティブデータセット)は、様々な異なるHLA/MHCアレルを発現する複数の異なる細胞株又は初代細胞から同定されるペプチド配列を含む。この実施形態において、前記ポジティブ及び/又はネガティブデータセットは、「複数」の異なるHLA/MHCアレルによってコードされる表面結合型又は分泌型MHC/HLA−p複合体から同定又は推論されるペプチド配列を含み、ここで「複数」とは、2つ以上のHLA/MHCアレルを指す。各「ペプチドーム」(又はポジティブペプチドのセット)は、恐らくは当該技術分野で利用可能な標準プロトコルを用いて同定されたものとなるであろう。プロトコルには、典型的には、細胞溶解、アフィニティークロマトグラフィーによる精製(HLA/MHCの特定のアレル変異体に特異的な抗体、又は複数のアレル変異体若しくはHLA/MHCクラス全体に共通する決定基を認識する抗体のいずれかを使用する)及び限外ろ過、任意選択でHPLC分離、及び続く質量分析法によるペプチド同定(例えば、マトリックス支援レーザー脱離イオン化飛行時間型質量分析法(MALDI−TOF MS))が含まれる。例示的プロトコルについては、Espinosa et al. (2013), page 25 “2. Materials and methods”、又はJarmalavicius et al. (2012), page 33402 “Experimental Procedures”を参照されたい。
第1の態様において、特徴量(i)、(ii)及び(iii)は、特徴量(i)が、特徴量(ii)及び(iii)のいずれか一方又は両方に加えて必要であると解釈されるべきである。好ましくは、前記多重ペアリングの各ペアは、(上記に解釈したとおりの)前記特徴量を有する2つの配列からなる。より好ましくは、前記多重ペアリングの各ペアは、特徴量(i)、(ii)及び(iii)の全てを有する2つの配列を含み、より好ましくはそれらからなる。
特徴量(i)に関して、配列は好ましくは8、9、10、11アミノ酸長又はそれ以上である。好ましくは、クラスIペプチドは8〜14アミノ酸長であり、クラスIIペプチドは9〜32アミノ酸長である。これに関連して、「同様の」長さとは、これらの限界の範囲内であり、即ちクラスIペプチドについては、同様の長さは8〜14アミノ酸(差が6アミノ酸以下)であり、クラスIIペプチドについては、同様の長さは9〜32アミノ酸(差が23アミノ酸以下)である。更に、ポジティブ及びネガティブデータセットの両方の各ペプチド配列が等しい長さである(即ち、等しい長さがペアのポジティブエントリとネガティブエントリとの間に存在するのみならず、両方のデータセットの全てのエントリにもまた存在する)ことが好ましい。
特徴量(ii)に関して、これは、当業者が当該技術分野で利用可能なデータベース及び検索機能を使用して決定し得る。例として、Uniprotデータベース(The UniProt Consortium; 2014. http://www.uniprot.org/;2016年4月時点でアクセスしたもの)のエントリを参照することによりペアを作成してもよい。
特徴量(iii)に関して、これは好ましくは、当該技術分野で利用可能な公知のHLA/MHC結合予測アルゴリズムを用いてインシリコで決定される。インビトロHLA/MHC結合競合アッセイが(恐らくはインシリコ方法と組み合わせて)用いられてもよい。結合親和性は、多くの場合に、nM単位で測定されるIC50値として表され、これは、特定のHLA/MHC変異体に高親和性で結合することが分かっている標準ペプチドの結合の50%の阻害を生じさせることが予測されるクエリペプチドの濃度である。しかしながら、結合パーセンタイル等、対応するネガティブペプチドの選択には代替的な結合親和性の測定又は比較もまた利用することができる。
誤解を避けるため、結合予測は、対応ペアのポジティブメンバーがそれと複合体を形成する(別名「拘束される」として知られる)と同定又は推論されたのと同じHLA/MHC分子に対して行われる。IC50メトリックを用いて対応ペアのネガティブメンバーが選択される場合、ネガティブペプチドのIC50値がそのポジティブカウンターパートの結合親和性と比較して(好ましさが高くなる順に)500%、200%、及び100%より大きく異なってはならない。
更に前記第1の態様によれば、本発明のHLA/MHC非依存的性質にとって(実施例4を参照)、複数の異なるHLA/MHCアレルから同定又は推論されるペプチド配列がポジティブデータセットに含まれることが好ましい。上記に詳述したとおり、前記配列は、異なるHLA/MHCアレルを発現する複数の異なる組織試料、細胞株又は初代細胞から同定又は推論されることが好ましい。従って、典型的には、種々の異なるHLA/MHCアレルを発現する複数の異なるヒト(又は動物)対象から同定又は推論されるペプチド配列を含むポジティブデータセットを作成することが必要である。
更に、前記ペプチド配列(ポジティブデータセットの)は、(a)HLA−A、−B又は−Cのいずれかの遺伝子座(又は非ヒト種におけるその等価な遺伝子座)のHLA/MHCクラスIアレル、又はこれらの任意の組み合わせ;又は(b)HLA−DQ、−DP又はDRのいずれかの遺伝子座(又は非ヒト種におけるその等価な遺伝子座)のHLA/MHCクラスIIアレル、又はこれらの任意の組み合わせによってコードされる表面結合型又は分泌型HLA/MHC分子から同定又は推論されることが好ましく;ここでポジティブデータセットは同じ種に由来する。一部の実施形態において、前記ポジティブデータセットは、(a)に係る前記遺伝子座の全て、又は(b)に係る前記遺伝子座の全てから同定又は推論されるペプチド配列を含む。一部の実施形態において、非ヒト種は動物である。
更に前記第1の態様によれば、機械学習アルゴリズム又は統計的推論モデルの特徴量として、ポジティブ及びネガティブデータセットのペプチド配列内の重要なHLA/MHC結合アンカー位置を除外することができる。好ましくは、前記重要なHLA/MHC結合アンカー位置はペプチド配列の位置2及び9(クラスI HLA/MHCアレルについて)及びアンカー位置1、4、6及び9(クラスIIアレルについて)である。
更に前記第1の態様によれば、機械学習アルゴリズム又は統計的推論モデルの特徴量として好ましくは以下が使用される:
(1)ポジティブ及びネガティブデータセットの配列中のいずれか所与の位置におけるアミノ酸アイデンティティ、サイズ、電荷、極性、疎水性及び/又は他の物理化学的特性。
(2)ソースタンパク質においてポジティブ及びネガティブデータセットの配列の末端から10、好ましくは5、より好ましくは3位置以内にある位置(ペプチドフランキング領域として知られる)におけるアミノ酸アイデンティティ、サイズ、電荷、極性、疎水性及び/又は他の物理化学的特性。
(3)ポジティブ及びネガティブデータセットの配列のアミノ酸についての疎水性、立体及び電子特性(VHSE)記述子(Mei et al. 2005)の主成分スコアベクトル。
(4)ポジティブ及びネガティブデータセットの配列のアミノ酸についてのトポロジー及び構造特性(VTSA)記述子(ZhiLiang et al. 2008による)の主成分スコアベクトル。
(5)ポジティブ及びネガティブデータセットのペプチド配列のいずれか所与の位置におけるアミノ酸配列のk−mer頻度;ここでkは2又は3に等しい。
上記のいずれか1つ、組み合わせ、又は全てを、機械学習アルゴリズム又は統計的推論モデルの特徴量として使用し得る。
更に前記第1の態様によれば、更なる実施形態において本方法は、ペプチド、全タンパク質又はその断片の配列を含む入力データをインテロゲートすることを更に含む。ここで入力データは全タンパク質又はその断片を含み、かかる配列は、試験前に上記に定義するとおりの長さのペプチド、好ましくはノナマーペプチドに分割されてもよい。出力は2つのカテゴリ:プロセシングを受けて細胞表面上に提示される、又はプロセシングを受けない若しくは細胞表面上に提示されない、のうちの一方に分類されるか、又はプラット(Platt)スケーリングなどの数学的テクニックを用いて確率スケールに変換されることになる。
本発明の第3の態様によれば、電子デバイスの1つ以上のプロセッサによって実行されると本発明の第1の態様の方法において定義されるとおりの方法に従い電子デバイスを動作させる命令を含むコンピュータ可読媒体が提供される。
本発明の第4の態様によれば、1つ以上のプロセッサと;プロセッサのうちの1つ以上によって実行されると本発明の第1の態様の方法に従い電子デバイスを動作させる命令を含むメモリとを含む電子デバイスが提供される。
本発明の第5の態様によれば、本発明の第1の態様の方法に定義されるとおりの訓練データの構築用モジュールが提供される。
本発明の第6の態様によれば、本発明の第1の態様の方法に係る機械学習モジュールが提供される。
材料及び方法−タンパク質存在量、安定性及びHLA/MHC(HLA/MHC)結合の影響を取り除くためのポジティブ及びネガティブ訓練データセットの作成
科学文献に報告される多数のHLA/MHC/ペプチド溶出試験から、天然でプロセシングを受けるノナマー(nonomeric)ペプチドを同定した。続いてUniProtKBデータベース(The UniProt Consortium, 2014)を参照することにより、これらのペプチドを単一のソースタンパク質に対応付けし得るかどうかに基づきフィルタリングした。次にHLA/MHC結合予測アルゴリズムを用いてこれらの単一のソースタンパク質を詳しく調べ、同様の結合親和性(範囲は実験に応じて異なった)を有するが、しかしいずれのペプチド溶出アッセイにも観察されなかった他のノナマー(nonomeric)ペプチドを同定した。このようにして、ポジティブペプチド(溶出アッセイで同定されたもの)とネガティブペプチド(ポジティブと同じ親タンパク質に存在した、同様の予測結合親和性を有するが、いずれの溶出アッセイにも観察されなかったペプチド)との対応付けペアが生成された。同じソースタンパク質からの対応付けペアを使用すると、タンパク質発現及び安定性の違いが配列非依存的にペプチドのプロセシング及び提示効率に影響し得る点、即ち、優れたプロセシング特徴量を含むペプチドが、その親タンパク質の発現及び安定性特性が不良であるため決してHLA/MHCと複合体化した細胞の表面に観察されないことがあり得る点が制御される。従って同じタンパク質からの対応付けペアを使用すると、各ポジティブ及びネガティブペプチドがプロセシングを受ける機会が確実に等しくなり、従ってプロセシング及び効率のいかなる差も、各ペプチドの生理化学的特徴量の差を反映するはずである。第2に、対応付けペアの両方のメンバーが同等の予測結合親和性を有することが確実となるため、プロセシング及び提示経路の効率に対するHLA/MHC結合の影響が制御され、HLA/MHC結合を決定付けるペプチドの特徴量をアルゴリズムが誤って学習することが確実になくなる。
最終的な訓練セットは、12個の異なるHLA/MHC−Aアレル、14個の異なるHLA/MHC−Bアレル及び5個の異なるHLA/MHC−Cアレルから単離された37,648個のペプチド(18,824個のポジティブペプチド及び18,824個のネガティブペプチド)からなった。
訓練特徴量
特に指定されない限り、全てのアルゴリズムは、VHSE及び頻度ベクトル(ダイマー)を訓練特徴量として使用して訓練した。
試験
幾つもの独立した試験セットを使用してSVMモデルの予測力を検証し、その性能を代替的方法を用いて訓練した他の分類器と比較した:試験セットは全て、そのそれぞれのHLA/MHCアレルに対する予測結合親和性が500nm以下の、ペプチド溶出アッセイから同定されたノナマー(nonomer)を含む(サンプル10補完的試験セットを除く−後述する)。次に対応するネガティブ試験セットを上記の方法に基づき作成し、但しネガティブペプチドは、対応付けられるポジティブペプチドの10%範囲内の予測IC50スコアを有することに基づき選択した(下記参照)。加えて交差検証及び従来の検証を行った。
独立試験セット
メラノーマ試験セット
予測IC50値が500nm以下の4つの異なるメラノーマ細胞株から溶出したノナマー(nonomeric)クラスIペプチド(Jarmalavicius et al, 2012によって記載される)を使用してポジティブ試験セットを生成した。次に対応付けられるネガティブを上記に記載したとおり同じ親タンパク質から同定した。最終的な試験セットには合計206個のペプチド;5つの異なるクラスI HLA/MHCアレルから単離された103個及びその103個の対応付けられるネガティブパートナーが含まれた。
胸腺試験セット
予測IC50値が500nm以下のヒト胸腺組織から溶出したノナマー(nonomeric)クラスIペプチド(Espinasa et al, 2013に記載されるとおり)を使用してポジティブ試験セットを生成した。次に対応付けられるネガティブを上記に記載したとおり同定した。試験セットには合計158個のペプチド;10の異なるクラスI HLA/MHCアレルから単離された78個及びその78個の対応付けられるネガティブパートナーが含まれた。
サンプル10試験セット
各アレルにつき10個のポジティブペプチド及び10個のネガティブペプチドを無作為に選択して訓練データから取り出し、続く試験に使用した。注記:利用可能なポジティブ及びネガティブペプチドが10個未満であるアレルについては、利用可能な最大数を選択して取り出した。最終的な試験セットには合計608個のペプチド;31の異なるクラスIアレルから単離された304個及びその304個の対応付けられるネガティブパートナーが含まれた。
サンプル10補完的試験セット
500nmより高い予測IC50値を有したことに伴い訓練データから除外されたノナマー(nonomeric)クラスIペプチドを使用してポジティブ「弱結合」試験セットを形成した。次に対応付けられるネガティブを上記に記載したとおり同定した。最終的な試験セットには合計5200個のペプチド;30の異なるクラスI HLA/MHCアレルから単離された2600個及びその2600個の対応付けられるネガティブパートナーが含まれた。
訓練データ検証試験
3分割交差検証
3分割交差検証を常法どおり実施して、異なる訓練セット組成及び異なる訓練特徴量を評価した。かかる実験では、訓練データを3つの異なる補完的サブセットに無作為に分割した。これらの3つのサブセットのうち2つを訓練に使用し、一方、残りのサブセットを続く試験に使用した。次に交差検証プロセスを繰り返し、試験に各サブセットを1回使用した。3ラウンドの試験の各々の結果全てをまとめて平均することにより単一の性能メトリックを求めた。
従来の検証
加えて、従来の検証を行い、ここでは訓練データを2セットに分割した;一方は70%のペプチドを含み、訓練に使用し、他方は30%のペプチドを含み、試験に使用した。
SVMモデル性能の評価
SVMモデルの予測精度を評価するため、本発明者らは、別名AUCとして知られるROC曲線下面積(受診者動作特性曲線)を使用した。これは、再現率(真陽性)及び1−特異度(真陰性)をこの閾値の関数としてプロットすることにより分類器再現率及び特異度を提供する(Bradley et al, 1997)。AUCは、ROC曲線下面積によって得られる閾値非依存性のメトリックである。AUCスコアは0〜1の範囲をとり、前者は全く逆の予測を示し、後者は完全な予測を表し、及び0.5はランダムな予測を意味する。
結果
実施例1−同じソースタンパク質からの対応付けペアを使用することの利点、及び続く対応付けペア訓練セットの最適化
対応するネガティブをポジティブと同じタンパク質から選択することの利益を調べるため、各ペアの対応するネガティブメンバーを同じタンパク質又はランダムなタンパク質から選択した種々の訓練セットを生成した。ネガティブペプチドは、それがそのそれぞれのポジティブパートナーの10%、100%又は10〜100%の範囲内の予測結合親和性を共有することを基準として選択した。次に種々の訓練セットを使用することにより、親タンパク質から抽出した全ペプチド長及び3アミノ酸長ペプチドのフランキング領域にわたってVHSE及びベクトル頻度(ダイマー)を訓練特徴量として使用して(以降「Wide」コンフィギュレーションと称する)、SVMアルゴリズムを訓練した。
次に、メラノーマ、胸腺及びサンプル10試験セットと称される3つの異なる独立した試験セットを使用して各アルゴリズムを試験した。これらの異なる試験セットの結果(AUCを用いて測定した)は図1に示す(それぞれパネルA、B及びC)。この図は、ネガティブペプチドを(ランダムなタンパク質でなく)ポジティブと同じタンパク質から選択すると、1〜9%の範囲の性能の大幅な向上が生じることを明らかに示している。興味深いことに、ネガティブペプチドの選択に最適な結合範囲は、0〜100%の範囲にあるように見える。
これらの実験を繰り返し、但しアルゴリズム訓練の訓練特徴量としてアンカー領域(ノナマー(nonomer)の位置2及び9)を除外した(Excluded)。3つのデータセット(メラノーマ、胸腺及びサンプル10)の結果はそれぞれパネルD、E及びFに示す。後者の実験のAUC測定値は、Wide特徴量セットを使用した前出の報告と比べてやや低かったが、アンカーを取り除いても性能は損なわれなかったことから、アルゴリズムがHLA/MHC結合よりむしろ、効率的な提示と関連性がある特徴量を「学習」し、従ってHLA/MHC非依存的に動作するものであることが示唆される。
実施例2−訓練セットのポジティブ及びネガティブメンバー間の予測結合親和性の差が性能に及ぼす影響を調べる
訓練に使用する対応付けペアのポジティブ及びネガティブメンバー間の関係を調べるため、以下の表に概説する基準で対応するネガティブメンバーを選択した種々の訓練セットを生成した;ポジティブ及びネガティブメンバー間の結合差が徐々に広がる訓練セットを作成した。
Figure 0006953515
訓練セットは、生成後、全ての異なるグループにポジティブが共通する対応ペアのみを選択することによりサイズに関して均一にした。続いて均一化した訓練セットを使用して8つの異なるSVMアルゴリズムを(上記に記載した訓練特徴量を用いて)訓練した。次にメラノーマ、胸腺及びサンプル10試験セットを使用して各アルゴリズムを試験した。結果は図2に示す(それぞれパネルA、B及びC)。これらの結果は、結合差が3より大きく増加すると、恐らくはアルゴリズムが結合並びにプロセシングと関連性のある特徴量を「学習」し始めることに伴い、アルゴリズムの性能が下落し始めることを示している。傾向線を黒色で示す。興味深いことに、独立した均衡試験セットに関する性能は結合差が増加するに従い悪化したが、交差検証スコアは0.72から0.985に増加した。この相互関係は、結合差の増加に伴いアルゴリズムがプロセシング及び提示よりむしろHLA/MHC結合と関連性がある特徴量を学習し始め、差が400に達する頃には、分類器は結合と関連性がある特徴量のみを認識することを(独立した試験セットの性能が交差検証のAUC0.985に対して0.52まで下落しているとおり)強く示唆している。
上記に記載したExcluded特徴量セットを使用してこれらの実験を繰り返した。次にメラノーマ、胸腺及びサンプル10試験セットを使用して各アルゴリズムを試験した。結果は図2に示す(それぞれパネルD、E及びF)。興味深いことに、「excluded」で訓練したアルゴリズムの曲線はWide特徴量セットを使用して訓練したものと同じ全体的傾向に従うが、アンカー領域の除外が結合差の増加効果を相殺する助けとなるように見えるとおり、性能の降下は減速し、即ちアルゴリズムが結合並びにプロセシングと関連性がある特徴量を学習し始める時点が後ろにずれる。この仮説は、Wide特徴量セットと比較してExcluded特徴量セットを訓練に使用したとき交差検証スコアがより緩徐に増加し、0.985に対して0.923でピークに達したという観察によって裏付けられる。この観察は、本明細書に記載される方法で(Wide及びExcluded特徴量セットの両方を使用して)訓練される機械学習アルゴリズムが、HLA/MHC結合よりむしろ、効率的な提示と関連性がある特徴量を「学習」し、HLA/MHC非依存的に動作できることの更なる証拠を提供する。
実施例3−性能向上のためのネガティブ訓練セットの組成の最適化
ネガティブ訓練セットの選択に関する最適基準を見出すため、本発明者らは、一連のネガティブデータセットを作成し、ここでネガティブペプチドは、以下の表2に定義するとおりの、そのそれぞれの対応するポジティブパートナーの所定範囲内の予測結合親和性を共有することを基準として選択された。
Figure 0006953515
次に28の異なる訓練セットを使用してSVMアルゴリズムを訓練した。次に各アルゴリズムを、それぞれ608個及び5200個のペプチドを含むサンプル10試験セット(全てのポジティブペプチドが500nm未満の予測結合IC50値を有した)及びサンプル10補完的試験セット(全てのポジティブペプチドが500nmを上回る予測結合IC50値を有した)を使用して試験した。
図3のパネルA〜Dに示すとおり(赤色の線)、ネガティブペプチドの選択に関する最適結合閾値はサンプル10試験セットについて0〜100%の範囲にあるように見え(ここでネガティブペプチドは、それがそのパートナーよりも高い結合親和性又は低い結合親和性のいずれかを有することを基準として選択される)、AUC測定値が0.82であり、これは訓練した他のアルゴリズムと比較して3〜6%の範囲の性能向上に相当した(パネルB〜Dの赤色の線を参照)。サンプル10補完的試験セットでも同様の傾向が観察されたが、性能の差は小さめであった(パネルA〜Dの青色の線を参照)。
上記の実験を繰り返し、但し一連のネガティブデータセットは、以下の表3に示すとおり、「スライディングスケール」閾値よりむしろ相互排他的範囲の親和性対応付けネガティブ(ビン)を用いて作成した:
Figure 0006953515
図3パネルE(青色の線)に示すとおり、パネルF〜Hと比較して、ネガティブペプチドの選択に関する最適結合閾値は、両方の試験セットについて10〜100%の範囲であった(ここでネガティブペプチドはそのポジティブパートナーよりも高い又は低い結合親和性を有し得る)。しかしながら、サンプル10試験セットの最適性能は、1〜100の結合スケール閾値を使用して報告されたものよりも低かったが(0.82対0.79)、サンプル10補完的試験セットの性能は事実上高かった(0.74対0.72)。これは、プロセシングを受けるペプチドで、そのそれぞれのHLA/MHC分子に対する結合親和性がより弱いもの(IC50が500nmを上回るペプチド)を分類するには、機械学習アルゴリズムの訓練にスライディングスケール範囲を用いるよりも相互排他的結合範囲を用いる方が良い可能性があることを示唆している。
実施例4−対応付けペア手法のアレル非依存的性質の実証
本明細書に記載される対応付けペア方法を用いて機械学習アルゴリズムを訓練することによりHLA/MHC結合ではなくプロセシング及び提示と関連性がある特徴量を含むペプチドを同定することができ、ひいてはそのMHC拘束に関わらず任意のペプチドに適用することができる、即ちアルゴリズムがHLA/MHC非依存性であることを実証するため、本発明者らは、以下の表に概説するとおり、我々の訓練セットに出現する各個別のアレルについてSVMアルゴリズムを訓練して試験した:
Figure 0006953515
図4に示されるとおり、これらの結果は、対応付けペアで訓練したSVM分類器が、非HLA/MHCアレル特異的に訓練したとき(試験2及び3)、それをアレル特異的に訓練したとき(試験1)と比較して同等又はより良好な予測を常時行うことを明らかに実証している。この傾向は、Wide及びExcludedのいずれの特徴量セットを用いて訓練したアルゴリズムについても観察される。
実施例5−NetChop3(一般的に使用される他の唯一のHLA/MHC非依存性処理ツール)に対するベンチマーキング
最適化した訓練セットを使用してSVMアルゴリズムを訓練した:この訓練セットではネガティブペプチドがそのポジティブカウンターパートと同じ親タンパク質から同定され、対応するポジティブの100%範囲内の推定IC50結合親和性を有することを基準として選択された。アルゴリズムはまた、全ペプチド長及び3アミノ酸長フランキング領域にわたってVHSE及び頻度ベクトル(ダイマー)を訓練特徴量として訓練し(Wide)、得られたアルゴリズムをPanPro(Wide)と命名した。訓練特徴量としてアンカー領域を除外したことを除き、同じ訓練特徴量を用いて全く同じ訓練セットで第2のアルゴリズムを訓練し(Excluded)、得られたアルゴリズムをPanPro(Excluded)と命名した。
次にメラノーマ、胸腺及びサンプル10試験セットを使用して各アルゴリズムをNetChop-termC 3.0に対してベンチマーキングした。図5に示すとおり(パネルA〜C)、いずれのバージョンのPanProも、3つ全ての試験セットでNetChop-termC3.0より優れていた。最も大きい性能の違いはPanProがネガティブを正しくコールする能力であり、これが低い偽陽性率につながった(データは示さず)。
実施例6−HLA/MHC特異的分類器MHC-NPに対するPanProのベンチマーキング(本発明者らのパニング手法が現在のゴールドスタンダードであるHLA/MHC特異的訓練方法と競合し得ることを実証する)
サンプル10試験セットから抽出した関連性のあるアレル特異的試験データを使用して、前述の「Excluded」及び「Wide」特徴量セットを使用して訓練したPanProをMHC-NP(Giguere et al. 2013)と比較した。図6に示すとおり、いずれのバージョンのPanProも、試験した6個中5個のアレルについてMHC-NPより優れていた。
考察
バリデートされているHLA/MHC結合ペプチドのうち天然でプロセシングを受け、T細胞と相互作用する機会を有するのは15%未満であり(Giguere et al. 2013)、免疫応答の誘発能を有するのは5%未満である(Robbins et al, 2013)。従って、天然でプロセシングを受けるであろうペプチドを同定するための、HLA/MHC結合予測器と組み合わせて免疫原性抗原を適時且つ費用対効果良く同定する能力を向上させることのできるインシリコ方法の開発が明らかに必要とされている。残念ながらプロセシング及び提示の特徴量を学習するように訓練したアルゴリズムの性能はHLA/MHC結合予測器に遅れを取っている(Giguere et al. 2013)。インシリコ方法の開発に際しての課題の一つは、複数のステップ及び複数のプロテアーゼ、シャペロン及び輸送タンパク質等が関与するプロセシング及び提示経路の複雑さである(Neefjes et al. 2011)。別の課題は、ペプチドが天然でプロセシングを受けると見込まれるかどうかに対して、ソースタンパク質の存在量及び安定性を含め、複数の「配列非依存的」要因が影響を及ぼすことである。従って、ソースタンパク質が必要な特性を欠いているため、効率的にプロセシングを受けて提示されるだけの正当な生理化学的特性を含むペプチドが決して細胞表面のHLA/MHCに結合して観察されないということがあり得る。最後に、天然でプロセシングを受けるペプチドについて、HLA/MHC結合よりむしろ、効率的なプロセシング及び提示に必要な特徴量を解き明かすのは難題であることが分かっている;結合に寄与する特徴量、特にアンカー領域が情報ランドスケープを支配する傾向があるためであり、これらのプロセスが共進化したもので、関連性のある生理化学的特徴量が恐らく重複していることによって悪化する問題である(Kesmir et al. 2003)。本特許では、本発明者らは、タンパク質存在量、安定性及びHLA/MHC結合の影響を制御する機械学習アルゴリズム又は統計的推論モデルの訓練方法であって、アルゴリズム又はモデルがHLA/MHC結合よりむしろ、効率的なプロセシング及び提示と同義の特徴量を学習することを可能にする方法について記載する。HLA/MHC結合の影響が無効になるため、このアルゴリズム又はモデルは、そのHLA/MHC拘束に関わらず任意のペプチドに適用することができる。
これらの結果が明らかに示しているところによれば、ペアを成すネガティブデータセットを構築し、そのポジティブカウンターパートと同じソースタンパク質に由来すること(タンパク質存在量及び安定性の差の制御)(図1を参照)、及び同じHLA/MHCアレルに対して同様のHLA/MHC結合親和性を共有すること(HLA/MHC結合の影響の制御)(図2及び図3を参照)を基準としてネガティブメンバーを選択することが有利である。加えて、本発明者らは、HLA/MHC結合の任意の影響を更に最小限に抑えるため、機械学習の特徴量としてアンカー位置2及び9を除外して実験した。興味深いことに、この部分的ペプチド配列(Excluded)で訓練したアルゴリズムは完全なペプチド(Wide)で訓練したものと比べて性能がやや劣ったが、性能の低下は比較的小さい−アンカー領域を取り除くとHLA/MHC結合予測器の性能が損なわれるため、アルゴリズムがHLA/MHC結合よりむしろプロセシングと関連性がある特徴量を学習したという本発明者らの仮説を更に裏付けるものである。
更に、訓練データをこのように構造化すると、機械学習アルゴリズムは、効率的なプロセシング及び提示と関連性がある真の普遍的な特徴量を学習することが可能になるため、それをそのHLA/MHC拘束に関わらず任意のペプチドに適用することができ、即ちこのアルゴリズム又はモデルはHLA/MHC非依存的に動作する(図4を参照)。
最後に、本発明者らは、Wide及びExcluded特徴量セットを利用して、且つVHSE及び頻度ベクトル(ダイマー)を訓練特徴量として使用して、本明細書に記載される方法を用いて2つのSVMアルゴリズムを訓練し、アルゴリズムPanPro(Wide)及びPanPro(Excuded)と呼んで、NetChop-termC-3に対する性能をベンチマーキングした。興味深いことに、いずれのバージョンのPanProも、NetChop-termC-3より大幅に優れていた。本発明者らはまた、アレル特異的プロセシング予測ツールMHC-NPに対するPanProの性能もベンチマーキングした。いずれのバージョンのPanProも、試験した6個中5個のアレルに関してMHC-NPより優れており、PanPro(Excuded)の性能が最強であった。
結論として、本発明者らは、効率的なプロセシング及び提示を決定する真の生理化学的特徴量を学習した初めての機械学習ベースの分類器を我々が開発したと考える。本発明者らは、このアルゴリズムがそのMHC拘束に関わらず任意のペプチドの評価に使用することができ、従ってHLA/MHC非依存性であることを示した。この分類器はHLA/MHC結合アルゴリズムと相乗的に動作して、免疫原性抗原のインシリコ同定能力を向上させる助けとなるはずである。
参考文献
Bradly et al.(1997).The use of the area under the ROC curve in the evaluation of machine learning algorithms.Pattern Recognition,30(7):1149−1155
Emmerich et al.(2000).TheHuman 26 S and 20 S proteasomes generate overlapping but different sets of peptide fragments from a model protein substrate.J Biol Chem.2000 Jul 14;275(28):21140−8.
Espinosa et al.(2013). Peptides presented byHLA class I molecules in theHuman thymus. J Proteomics.94:23−36
Giguere et al.(2013).MHC−NP:predicting peptides naturally processed by the MHC.J Immunol Methods.2013 Dec 31;400−401:30−6
Ginodi et al.(2008).Precise score for the prediction of peptides cleaved by the proteasome.Bioinformatics.2008 Feb 15;24(4):477−83.
Holzhutter & Kloetzel(2000).A kinetic model of vertebrate 20S proteasome accounting for the generation of major proteolytic fragments from oligomeric peptide substrates.Biophys J.2000 Sep;79(3):1196−205
Jarmalavicius et al.(2012).High Immunogenicity fo theHuman Leukocyte Antigen Pepidomes of Melanoma Tumor Cells.J Biol Chem.287,40:33401−33411.
Mei et al.(2005). A new set of amino acid descriptors and its application in peptide QSARs.Biopolymers.80,6:775−86.
Kesmir et al.(2002).Prediction of proteasome cleavage motifs by neural networks.Protein Eng.2002 Apr;15(4):287−96.

Kesmir et al.(2003).Bioinformatic analysis of functional differences between the immunoproteasome and the constitutive proteasome.Immunogenetics 55:437−449.
ZhiLiang et al.(2008).A novel descriptor of amino acids and its application in peptide QSAR.Journal of Theoretical Biology 253(1):90−7 August 2008
Mei et al.(2005).A new set of amino acid descriptors and its application in peptide QSARs.Biopolymers.2005;80(6):775−86.
Neefjes et al.(2011).Towards a systems understanding of MHC class I and MHC class II antigen presentation.Nat Rev Immunol.2011 Nov 11;11(12):823−36.
Nielsen et al.(2005).The role of the proteasome in generating cytotoxic T−cell epitopes:insights obtained from improved predictions of proteasomal cleavage.Immunogenetics.2005 Apr;57(1−2):33−41.
Nussbaum et al.(2001).PAProC:a prediction algorithm for proteasomal cleavages available on the WWW.Immunogenetics.2001 Mar;53(2):87−94.
Robins et al.(2013).Mining exomic sequencing data to identify mutated antigens recognized by adoptively transferred tumor−reactive T cells.Nat Med.2013 Jun;19(6):747−52
Tang et al.(2014).NIEluter:Predicting peptides eluted fromHLA class I molecules.J Immunol Methods.2015 Jul;422:22−7.
Tenzer et al.(2004).Quantitative analysis of prion−protein degradation by constitutive and immuno−20S proteasomes indicates differences correlated with disease susceptibility.J Immunol.2004 Jan 15;172(2):1083−91
Tenzer & Schild(2005).Assays of proteasome−dependent cleavage products.Methods Mol Biol.2005;301:97−115.
The UniProt Consortium(2014).Activities at the Universal Protein Resource(UniProt)Nucleic Acids Res.42:D191−D198(2014).
Toes et al.(2001).Discrete cleavage motifs of constitutive and immunoproteasomes revealed by quantitative analysis of cleavage products.J Exp Med.2001 Jul 2;194(1):1−12.

Claims (22)

  1. 天然の内因性又は外因性細胞プロセシング、輸送及び主要組織適合遺伝子複合体(MHC)提示と正の関連性がある特徴量を含むペプチドを同定するための、HLA/MHC結合の影響を打ち消す、且つそのMHC拘束に関わらず任意のペプチドに適用することのできる機械学習アルゴリズム又は統計的推論モデルの訓練方法であって、
    (a)ポジティブデータセットとネガティブデータセットとを含む1つ以上の訓練データセットを構築することであって、
    前記ポジティブデータセットは、1つ又は複数の異なるHLA/MHCアレルによってコードされる表面結合型又は分泌型HLA/MHC/ペプチド複合体から同定又は推論されるペプチド配列のエントリを含み、及び前記ネガティブデータセットは、表面結合型又は分泌型HLA/MHC/ペプチド複合体から同定又は推論されないペプチド配列のエントリを含み;
    前記1つ以上の訓練データセットが、前記ポジティブ及びネガティブデータセットのエントリ間の多重ペアリングを更に含み;及び前記多重ペアリングの各ペアが、
    (i)等しい又は同様の長さである、
    及び
    (ii)同じソースタンパク質又はその断片に由来する、
    及び/又は
    (iii)前記ポジティブカウンターパートを拘束するHLA/MHC分子に対して、同様の結合親和性を有する
    ペプチド配列を含む、構築すること;
    及び(b)前記1つ以上の訓練データセットに機械学習アルゴリズム又は統計的推論モデルを適用することを含む方法。
  2. 前記多重ペアリングの各ペアが、基準(i)、(ii)及び(iii)を満たすペプチド配列を含む、請求項1に記載の方法。
  3. 機械学習アルゴリズム又は統計的推論モデルの特徴量として、前記ポジティブ及びネガティブデータセットの前記ペプチド配列内の重要なHLA/MHC結合アンカー位置にあるアミノ酸が取り除かれる、請求項1又は2に記載の方法。
  4. ステップ(b)が、前記1つ以上の訓練データセットに機械学習アルゴリズムを適用することを含む、請求項1〜3のいずれか一項に記載の方法。
  5. 前記機械学習アルゴリズムが教師あり(supervised)である、請求項4に記載の方法。
  6. 前記機械学習アルゴリズムが教師なし(unsupervised)である、請求項4に記載の方法。
  7. 前記ポジティブデータセットが、複数の異なるHLA/MHCアレルによってコードされる表面結合型又は分泌型HLA/MHC/ペプチド複合体から同定又は推論されるペプチド配列のエントリを含む、請求項1〜6のいずれか一項に記載の方法。
  8. 前記ポジティブデータセットが、異なるHLA/MHCアレルによってコードされる少なくとも2、好ましくは少なくとも20、より好ましくは少なくとも50の異なる表面結合型又は分泌型HLA/MHC変異体から同定又は推論されるペプチド配列を含む、請求項1〜7のいずれか一項に記載の方法。
  9. 前記ポジティブデータセットが、(a)HLA−A、−B、又は−C遺伝子座のいずれかのHLA/MHCクラスIアレル、又は非ヒト種におけるその等価な遺伝子座、又はこれらの任意の組み合わせ、又は(b)HLA−DQ、−DP、又は−DR遺伝子座のいずれかのMHCクラスIIアレル、又は非ヒト種におけるその等価な遺伝子座、又はこれらの任意の組み合わせによってコードされる表面結合型又は分泌型HLA/MHC変異体から同定又は推論されるペプチド配列を含み;前記ポジティブデータセットが同じ種に由来する、請求項1〜8のいずれか一項に記載の方法。
  10. 前記ポジティブデータセットが、(a)に係る前記遺伝子座の全て、又は(b)に係る前記遺伝子座の全てから同定又は推論されるペプチド配列を含む、請求項に記載の方法。
  11. 前記ポジティブ及びネガティブデータセットの両方の各ペプチド配列が等しい長さであり;好ましくは前記長さが8、9、10、11アミノ酸、又はそれ以上である、請求項1〜10のいずれか一項に記載の方法。
  12. 各対応するネガティブペプチドの前記結合親和性が、IC50nmメトリックを用いて測定したとき、そのポジティブカウンターパートの前記結合親和性と比較して(好ましさが高くなる順に)500%、200%、及び100%より大きく異ならない、請求項1〜11のいずれか一項に記載の方法。
  13. 記結合親和性がMHC結合予測アルゴリズム、実験的測定又はこれらの組み合わせによって得られたものである、請求項1〜12のいずれか一項に記載の方法。
  14. 前記機械学習アルゴリズム又は統計的推論モデルの特徴量として、前記ポジティブ及びネガティブデータセットのペプチド配列の所与の位置におけるアミノ酸アイデンティティ、サイズ、電荷、極性、疎水性及び/又は他の関連性のある物理化学的特性が使用される、請求項1〜13のいずれか一項に記載の方法。
  15. 前記ペプチド配列が連結ベクトルとして表され、及び各アミノ酸が、各可能なアミノ酸につき1つの要素のバイナリベクトルとして符号化され、各アミノ酸の存在が1で表され、各アミノ酸の非存在が0で表される、請求項1〜14のいずれか一項に記載の方法。
  16. 前記機械学習アルゴリズム又は統計的推論モデルの特徴量として、前記ソースタンパク質において前記ポジティブ及びネガティブデータセットの前記ペプチド配列の末端から10、好ましくは5又はより好ましくは3位置以内にある位置におけるアミノ酸アイデンティティ、電荷、サイズ、極性、疎水性及び/又は他の関連性のある物理化学的特性が使用される、請求項1〜15のいずれか一項に記載の方法。
  17. 前記ポジティブ及びネガティブデータセットが、前記ポジティブ及びネガティブデータセットのペプチド配列のアミノ酸についての疎水性、立体及び電子特性(VHSE)記述子の主成分スコアベクトルを更に含み;及び前記記述子が前記機械学習アルゴリズム又は統計的推論モデルの特徴量として使用される、請求項1〜16のいずれか一項に記載の方法。
  18. 前記ポジティブ及びネガティブデータセットが、前記ポジティブ及びネガティブデータセットのペプチド配列のアミノ酸についてのトポロジー及び構造特性(VTSA)記述子の主成分スコアベクトルを更に含み;及び前記記述子が前記機械学習アルゴリズム又は統計的推論モデルの特徴量として使用される、請求項1〜17のいずれか一項に記載の方法。
  19. 前記ポジティブ及びネガティブデータセットの前記ペプチド配列の所与の位置におけるアミノ酸配列のk−mer頻度が前記機械学習アルゴリズム又は統計的推論モデルの特徴量として使用され;kが1、2又は3に等しい、請求項1〜18のいずれか一項に記載の方法。
  20. ステップ(b)の後、天然の内因性又は外因性細胞プロセシング、輸送及びHLA/MHC提示と正の関連性がある特徴量を有するペプチド、又はタンパク質のペプチド断片を同定するため、ペプチド及び/又は前記タンパク質のアミノ酸配列を含む入力データを前記機械学習アルゴリズムでインテロゲートすることを更に含む、請求項1〜19のいずれか一項に記載の方法。
  21. 請求項1〜20のいずれか一項に記載の方法を実装するコンピュータ実行可能命令が格納されているコンピュータ可読媒体。
  22. 装置であって、
    1つ以上のプロセッサ;及び
    前記プロセッサのうちの1つ以上によって実行されると、請求項1〜20のいずれか一項に記載の方法を前記装置に遂行させる命令を含むメモリを含む装置。
JP2019508297A 2016-04-29 2017-04-28 天然の内因性又は外因性細胞プロセシング、輸送及び主要組織適合遺伝子複合体(mhc)提示と正の関連性がある特徴量を含むペプチドを同定するための機械学習アルゴリズム Active JP6953515B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GBGB1607521.0A GB201607521D0 (en) 2016-04-29 2016-04-29 Method
GB1607521.0 2016-04-29
PCT/EP2017/060299 WO2017186959A1 (en) 2016-04-29 2017-04-28 Machine learning algorithm for identifying peptides that contain features positively associated with natural endogenous or exogenous cellular processing, transportation and major histocompatibility complex (mhc) presentation

Publications (2)

Publication Number Publication Date
JP2019518295A JP2019518295A (ja) 2019-06-27
JP6953515B2 true JP6953515B2 (ja) 2021-10-27

Family

ID=56234141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019508297A Active JP6953515B2 (ja) 2016-04-29 2017-04-28 天然の内因性又は外因性細胞プロセシング、輸送及び主要組織適合遺伝子複合体(mhc)提示と正の関連性がある特徴量を含むペプチドを同定するための機械学習アルゴリズム

Country Status (7)

Country Link
US (1) US20190311781A1 (ja)
EP (1) EP3449405A1 (ja)
JP (1) JP6953515B2 (ja)
CN (1) CN109416929B (ja)
CA (1) CA3022390A1 (ja)
GB (1) GB201607521D0 (ja)
WO (1) WO2017186959A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11416129B2 (en) * 2017-06-02 2022-08-16 The Research Foundation For The State University Of New York Data access interface
US11885815B2 (en) 2017-11-22 2024-01-30 Gritstone Bio, Inc. Reducing junction epitope presentation for neoantigens
US20220157403A1 (en) * 2019-04-09 2022-05-19 Eth Zurich Systems and methods to classify antibodies
CN111105843B (zh) * 2019-12-31 2023-07-21 杭州纽安津生物科技有限公司 一种hlai型分子与多肽的亲和力预测方法
BR112022012316A2 (pt) 2020-04-20 2022-11-16 NEC Laboratories Europe GmbH Método implementado por computador de selecionar uma ou mais sequências de aminoácidos para inclusão em uma vacina a partir de um conjunto de sequências de aminoácidos candidatas imunogênicas previstas; método de criação de uma vacina; sistema para selecionar uma ou mais sequências de aminoácidos para inclusão em uma vacina a partir de um conjunto de sequências de aminoácidos candidatas imunogênicas previstas; e; meio legível por computador
WO2021214071A1 (en) 2020-04-20 2021-10-28 Nec Oncoimmunity As Method and system for identifying one or more candidate regions of one or more source proteins that are predicted to instigate an immunogenic response, and method for creating a vaccine
EP3901954A1 (en) 2020-04-20 2021-10-27 NEC OncoImmunity AS Method and system for identifying one or more candidate regions of one or more source proteins that are predicted to instigate an immunogenic response, and method for creating a vaccine
AU2021258419A1 (en) 2020-04-20 2022-11-17 NEC Laboratories Europe GmbH SARS-CoV-2 vaccines
EP4162417A1 (en) * 2020-06-03 2023-04-12 Xenotherapeutics, Inc. Selection and monitoring methods for xenotransplantation
EP4182928A1 (en) 2020-07-14 2023-05-24 Myneo Nv Method, system and computer program product for determining presentation likelihoods of neoantigens
US20220130490A1 (en) * 2020-10-27 2022-04-28 Nec Laboratories America, Inc. Peptide-based vaccine generation
TW202228153A (zh) * 2020-12-09 2022-07-16 大陸商江蘇恆瑞醫藥股份有限公司 基於機器學習的肽免疫原性預測、鑑別系統及方法
US20220327425A1 (en) * 2021-04-05 2022-10-13 Nec Laboratories America, Inc. Peptide mutation policies for targeted immunotherapy
CN113837293A (zh) * 2021-09-27 2021-12-24 电子科技大学长三角研究院(衢州) mRNA亚细胞定位模型训练方法、定位方法及可读存储介质
WO2023129750A1 (en) * 2021-12-31 2023-07-06 Benson Hill Holdings, Inc. Multiple-valued label learning for target nomination
US20230304189A1 (en) * 2022-03-25 2023-09-28 Nec Laboratories America, Inc. Tcr engineering with deep reinforcement learning for increasing efficacy and safety of tcr-t immunotherapy
CN117037902A (zh) * 2023-07-18 2023-11-10 哈尔滨工业大学 基于蛋白质物理化学特征嵌入的肽与mhc i类蛋白结合基序预测方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10009410A1 (de) * 2000-02-28 2001-08-30 Bayer Ag Verfahren zum Auffinden hepatoprotiktiver Substanzen
PL362324A1 (en) * 2001-02-19 2004-10-18 Merck Patent Gmbh Artificial fusion proteins with reduced immunogenicity
SE0201863D0 (en) * 2002-06-18 2002-06-18 Cepep Ab Cell penetrating peptides
DE602004029391D1 (de) * 2003-12-05 2010-11-11 Council Scient Ind Res Ein auf computerverwendung basiertes verfahren zur identifizierung von dna-sequenzen, die für als "drug targets" nutzbare proteine codieren
EP1782318A2 (en) * 2004-07-09 2007-05-09 Wyeth a Corporation of the State of Delaware Methods and systems for predicting protein-ligand coupling specificities
JP2008545180A (ja) * 2005-05-12 2008-12-11 メルク エンド カムパニー インコーポレーテッド T細胞エピトープの全自動選択システムおよび方法
JPWO2007119515A1 (ja) * 2006-03-28 2009-08-27 昇志 佐藤 新規腫瘍抗原ペプチド
WO2010017559A1 (en) * 2008-08-08 2010-02-11 University Of Georgia Research Foundation, Inc. Methods and systems for predicting proteins that can be secreted into bodily fluids
CN102346817B (zh) * 2011-10-09 2015-03-25 广州医学院第二附属医院 一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法
CN104487979A (zh) * 2012-05-25 2015-04-01 拜尔健康护理有限责任公司 用于预测肽的免疫原性的系统和方法
WO2014180490A1 (en) * 2013-05-10 2014-11-13 Biontech Ag Predicting immunogenicity of t cell epitopes
US20150278441A1 (en) * 2014-03-25 2015-10-01 Nec Laboratories America, Inc. High-order semi-Restricted Boltzmann Machines and Deep Models for accurate peptide-MHC binding prediction
WO2015175361A1 (en) * 2014-05-13 2015-11-19 Immunotope, Inc. Dengue virus specific multiple hla binding t cell epitopes for the use of universal vaccine development

Also Published As

Publication number Publication date
WO2017186959A1 (en) 2017-11-02
CN109416929B (zh) 2022-03-18
CN109416929A (zh) 2019-03-01
CA3022390A1 (en) 2017-11-02
EP3449405A1 (en) 2019-03-06
GB201607521D0 (en) 2016-06-15
JP2019518295A (ja) 2019-06-27
US20190311781A1 (en) 2019-10-10

Similar Documents

Publication Publication Date Title
JP6953515B2 (ja) 天然の内因性又は外因性細胞プロセシング、輸送及び主要組織適合遺伝子複合体(mhc)提示と正の関連性がある特徴量を含むペプチドを同定するための機械学習アルゴリズム
Mohabatkar et al. Prediction of allergenic proteins by means of the concept of Chou's pseudo amino acid composition and a machine learning approach
Stranzl et al. NetCTLpan: pan-specific MHC class I pathway epitope predictions
Sanchez-Trincado et al. Fundamentals and methods for T‐and B‐cell epitope prediction
Jurtz et al. NetTCR: sequence-based prediction of TCR binding to peptide-MHC complexes using convolutional neural networks
Wang et al. Prediction of B‐cell linear epitopes with a combination of support vector machine classification and amino acid propensity identification
Yao et al. SVMTriP: a method to predict antigenic epitopes using support vector machine to integrate tri-peptide similarity and propensity
Hoof et al. NetMHCpan, a method for MHC class I binding prediction beyond humans
Larsen et al. An integrative approach to CTL epitope prediction: a combined algorithm integrating MHC class I binding, TAP transport efficiency, and proteasomal cleavage predictions
Andreatta et al. NNAlign: a web-based prediction method allowing non-expert end-user discovery of sequence motifs in quantitative peptide data
Gartner et al. A machine learning model for ranking candidate HLA class I neoantigens based on known neoepitopes from multiple human tumor types
Giguère et al. MHC-NP: predicting peptides naturally processed by the MHC
Trolle et al. NetTepi: an integrated method for the prediction of T cell epitopes
Zhang et al. Accurate prediction of immunogenic T-cell epitopes from epitope sequences using the genetic algorithm-based ensemble learning
Juhász et al. The epitopes in wheat proteins for defining toxic units relevant to human health
Saethang et al. PAAQD: Predicting immunogenicity of MHC class I binding peptides using amino acid pairwise contact potentials and quantum topological molecular similarity descriptors
Pedersen et al. A combined prediction strategy increases identification of peptides bound with high affinity and stability to porcine MHC class I molecules SLA-1* 04: 01, SLA-2* 04: 01, and SLA-3* 04: 01
Laht et al. Identification and classification of conopeptides using profile Hidden Markov Models
Knapp et al. 3-Layer-based analysis of peptide–MHC interaction: In silico prediction, peptide binding affinity and T cell activation in a relevant allergen-specific model
El-Manzalawy et al. Building classifier ensembles for B-cell epitope prediction
Hu et al. Ensemble approaches for improving HLA class I-peptide binding prediction
Khatun et al. SIPMA: A systematic identification of protein-protein interactions in Zea mays using autocorrelation features in a machine-learning framework
Zhang et al. An improved profile-level domain linker propensity index for protein domain boundary prediction.
Huang et al. A support vector machine approach for prediction of T cell epitopes
Li et al. A Novel Peptide Binding Prediction Approach for HLA‐DR Molecule Based on Sequence and Structural Information

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190906

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210907

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210929

R150 Certificate of patent or registration of utility model

Ref document number: 6953515

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150