JP6953515B2 - 天然の内因性又は外因性細胞プロセシング、輸送及び主要組織適合遺伝子複合体(mhc)提示と正の関連性がある特徴量を含むペプチドを同定するための機械学習アルゴリズム - Google Patents
天然の内因性又は外因性細胞プロセシング、輸送及び主要組織適合遺伝子複合体(mhc)提示と正の関連性がある特徴量を含むペプチドを同定するための機械学習アルゴリズム Download PDFInfo
- Publication number
- JP6953515B2 JP6953515B2 JP2019508297A JP2019508297A JP6953515B2 JP 6953515 B2 JP6953515 B2 JP 6953515B2 JP 2019508297 A JP2019508297 A JP 2019508297A JP 2019508297 A JP2019508297 A JP 2019508297A JP 6953515 B2 JP6953515 B2 JP 6953515B2
- Authority
- JP
- Japan
- Prior art keywords
- mhc
- hla
- positive
- peptide
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Peptides Or Proteins (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
Description
本発明は、機械学習アルゴリズム又は統計的推論モデルを用いて、細胞プロセシング、輸送及び主要組織適合遺伝子複合体提示の成功と関連性がある特徴量を含むペプチドを同定する方法に関する。
何十年も前から、病原体及び腫瘍の免疫原性抗原の同定はワクチン開発の中心的な役割を果たしている。ここ15〜20年でこのプロセスは、試験する必要のある抗原の数を減らす計算論的アプローチの採用によって簡易化及び強化を遂げた。免疫原性を決定する重要特徴量は十分に解明されていないが、多くの免疫原性クラスIペプチド(抗原)は古典経路でサイトゾル内でのその親ポリペプチド/タンパク質のプロテアソーム切断を通じて生成され、続いてTAPトランスポーターによって小胞体に輸送された後、空のHLA/MHC分子にパッケージングされて表面に輸送され、循環CD8+ T細胞に提示されることが分かっている。
本発明は、細胞の天然の内因性及び/又は外因性プロセシング、輸送及び提示経路のナビゲーションの成功と正の関連性がある特徴量を含むペプチドの同定方法を提供する。従ってこれらのペプチドは、それが特定のMHC分子への結合能を有する場合、MHC−ペプチド(MHC−p)複合体として細胞の表面上に検出可能であるものと思われる。
(a)ポジティブデータセットとネガティブデータセットとを含む1つ以上の訓練データセットを構築することであって、
ポジティブデータセットは、1つ又は複数の異なるHLA/MHCアレルによってコードされる表面結合型又は分泌型HLA/MHC−p複合体から同定又は推論されるペプチド配列のエントリを含み、及びネガティブデータセットは、表面結合型又は分泌型HLA/MHC−p複合体から同定又は推論されないペプチド配列のエントリを含み;
訓練データが、ポジティブ及びネガティブデータセットのエントリ間の多重ペアリングを更に含み;及び前記多重ペアリングの各ペアが、
(i)等しい又は同様の長さである、
及び
(ii)同じソースタンパク質(又はその断片)に由来する、及び/又は
(iii)ポジティブデータセットのペプチドを拘束するHLA/MHC分子に対して、同様の結合親和性を有する
ペプチド配列を含む、構築すること;
及び(b)前記訓練データセットに機械学習アルゴリズム又は統計的推論モデルを適用すること
を含む方法を提供する。
1つ以上のプロセッサ;及び
プロセッサのうちの1つ以上によって実行されると第1の態様の方法を装置に遂行させる命令を含むメモリ
を含む装置を提供する。
本明細書で使用される用語は全て、特に指示されない限り、当該技術分野で用いられる標準的な定義を有する。
(a)ポジティブデータセットとネガティブデータセットとを含む1つ以上の訓練データセットを構築することであって、
ポジティブデータセットは、1つ又は複数の異なるHLA/MHCアレルによってコードされる表面結合型又は分泌型HLA/MHC−p複合体から同定又は推論されるペプチド配列のエントリを含み、及びネガティブデータセットは、表面結合型又は分泌型HLA/MHC−p複合体から同定又は推論されないペプチド配列のエントリを含み;
訓練データが、ポジティブ及びネガティブデータセットのエントリ間の多重ペアリングを更に含み;及び前記多重ペアリングの各ペアが、
(i)等しい又は同様の長さである、
及び
(ii)同じソースタンパク質(又はその断片)に由来する、及び/又は
(iii)ポジティブデータセットのペプチドを拘束するHLA/MHC分子に対して、同様の結合親和性を有する
ペプチド配列を含む、構築すること;
及び(b)前記訓練データに機械学習アルゴリズム又は統計的推論モデルを適用すること
を含む方法を提供する。
(1)ポジティブ及びネガティブデータセットの配列中のいずれか所与の位置におけるアミノ酸アイデンティティ、サイズ、電荷、極性、疎水性及び/又は他の物理化学的特性。
(2)ソースタンパク質においてポジティブ及びネガティブデータセットの配列の末端から10、好ましくは5、より好ましくは3位置以内にある位置(ペプチドフランキング領域として知られる)におけるアミノ酸アイデンティティ、サイズ、電荷、極性、疎水性及び/又は他の物理化学的特性。
(3)ポジティブ及びネガティブデータセットの配列のアミノ酸についての疎水性、立体及び電子特性(VHSE)記述子(Mei et al. 2005)の主成分スコアベクトル。
(4)ポジティブ及びネガティブデータセットの配列のアミノ酸についてのトポロジー及び構造特性(VTSA)記述子(ZhiLiang et al. 2008による)の主成分スコアベクトル。
(5)ポジティブ及びネガティブデータセットのペプチド配列のいずれか所与の位置におけるアミノ酸配列のk−mer頻度;ここでkは2又は3に等しい。
科学文献に報告される多数のHLA/MHC/ペプチド溶出試験から、天然でプロセシングを受けるノナマー(nonomeric)ペプチドを同定した。続いてUniProtKBデータベース(The UniProt Consortium, 2014)を参照することにより、これらのペプチドを単一のソースタンパク質に対応付けし得るかどうかに基づきフィルタリングした。次にHLA/MHC結合予測アルゴリズムを用いてこれらの単一のソースタンパク質を詳しく調べ、同様の結合親和性(範囲は実験に応じて異なった)を有するが、しかしいずれのペプチド溶出アッセイにも観察されなかった他のノナマー(nonomeric)ペプチドを同定した。このようにして、ポジティブペプチド(溶出アッセイで同定されたもの)とネガティブペプチド(ポジティブと同じ親タンパク質に存在した、同様の予測結合親和性を有するが、いずれの溶出アッセイにも観察されなかったペプチド)との対応付けペアが生成された。同じソースタンパク質からの対応付けペアを使用すると、タンパク質発現及び安定性の違いが配列非依存的にペプチドのプロセシング及び提示効率に影響し得る点、即ち、優れたプロセシング特徴量を含むペプチドが、その親タンパク質の発現及び安定性特性が不良であるため決してHLA/MHCと複合体化した細胞の表面に観察されないことがあり得る点が制御される。従って同じタンパク質からの対応付けペアを使用すると、各ポジティブ及びネガティブペプチドがプロセシングを受ける機会が確実に等しくなり、従ってプロセシング及び効率のいかなる差も、各ペプチドの生理化学的特徴量の差を反映するはずである。第2に、対応付けペアの両方のメンバーが同等の予測結合親和性を有することが確実となるため、プロセシング及び提示経路の効率に対するHLA/MHC結合の影響が制御され、HLA/MHC結合を決定付けるペプチドの特徴量をアルゴリズムが誤って学習することが確実になくなる。
特に指定されない限り、全てのアルゴリズムは、VHSE及び頻度ベクトル(ダイマー)を訓練特徴量として使用して訓練した。
幾つもの独立した試験セットを使用してSVMモデルの予測力を検証し、その性能を代替的方法を用いて訓練した他の分類器と比較した:試験セットは全て、そのそれぞれのHLA/MHCアレルに対する予測結合親和性が500nm以下の、ペプチド溶出アッセイから同定されたノナマー(nonomer)を含む(サンプル10補完的試験セットを除く−後述する)。次に対応するネガティブ試験セットを上記の方法に基づき作成し、但しネガティブペプチドは、対応付けられるポジティブペプチドの10%範囲内の予測IC50スコアを有することに基づき選択した(下記参照)。加えて交差検証及び従来の検証を行った。
メラノーマ試験セット
予測IC50値が500nm以下の4つの異なるメラノーマ細胞株から溶出したノナマー(nonomeric)クラスIペプチド(Jarmalavicius et al, 2012によって記載される)を使用してポジティブ試験セットを生成した。次に対応付けられるネガティブを上記に記載したとおり同じ親タンパク質から同定した。最終的な試験セットには合計206個のペプチド;5つの異なるクラスI HLA/MHCアレルから単離された103個及びその103個の対応付けられるネガティブパートナーが含まれた。
予測IC50値が500nm以下のヒト胸腺組織から溶出したノナマー(nonomeric)クラスIペプチド(Espinasa et al, 2013に記載されるとおり)を使用してポジティブ試験セットを生成した。次に対応付けられるネガティブを上記に記載したとおり同定した。試験セットには合計158個のペプチド;10の異なるクラスI HLA/MHCアレルから単離された78個及びその78個の対応付けられるネガティブパートナーが含まれた。
各アレルにつき10個のポジティブペプチド及び10個のネガティブペプチドを無作為に選択して訓練データから取り出し、続く試験に使用した。注記:利用可能なポジティブ及びネガティブペプチドが10個未満であるアレルについては、利用可能な最大数を選択して取り出した。最終的な試験セットには合計608個のペプチド;31の異なるクラスIアレルから単離された304個及びその304個の対応付けられるネガティブパートナーが含まれた。
500nmより高い予測IC50値を有したことに伴い訓練データから除外されたノナマー(nonomeric)クラスIペプチドを使用してポジティブ「弱結合」試験セットを形成した。次に対応付けられるネガティブを上記に記載したとおり同定した。最終的な試験セットには合計5200個のペプチド;30の異なるクラスI HLA/MHCアレルから単離された2600個及びその2600個の対応付けられるネガティブパートナーが含まれた。
3分割交差検証
3分割交差検証を常法どおり実施して、異なる訓練セット組成及び異なる訓練特徴量を評価した。かかる実験では、訓練データを3つの異なる補完的サブセットに無作為に分割した。これらの3つのサブセットのうち2つを訓練に使用し、一方、残りのサブセットを続く試験に使用した。次に交差検証プロセスを繰り返し、試験に各サブセットを1回使用した。3ラウンドの試験の各々の結果全てをまとめて平均することにより単一の性能メトリックを求めた。
加えて、従来の検証を行い、ここでは訓練データを2セットに分割した;一方は70%のペプチドを含み、訓練に使用し、他方は30%のペプチドを含み、試験に使用した。
SVMモデルの予測精度を評価するため、本発明者らは、別名AUCとして知られるROC曲線下面積(受診者動作特性曲線)を使用した。これは、再現率(真陽性)及び1−特異度(真陰性)をこの閾値の関数としてプロットすることにより分類器再現率及び特異度を提供する(Bradley et al, 1997)。AUCは、ROC曲線下面積によって得られる閾値非依存性のメトリックである。AUCスコアは0〜1の範囲をとり、前者は全く逆の予測を示し、後者は完全な予測を表し、及び0.5はランダムな予測を意味する。
実施例1−同じソースタンパク質からの対応付けペアを使用することの利点、及び続く対応付けペア訓練セットの最適化
対応するネガティブをポジティブと同じタンパク質から選択することの利益を調べるため、各ペアの対応するネガティブメンバーを同じタンパク質又はランダムなタンパク質から選択した種々の訓練セットを生成した。ネガティブペプチドは、それがそのそれぞれのポジティブパートナーの10%、100%又は10〜100%の範囲内の予測結合親和性を共有することを基準として選択した。次に種々の訓練セットを使用することにより、親タンパク質から抽出した全ペプチド長及び3アミノ酸長ペプチドのフランキング領域にわたってVHSE及びベクトル頻度(ダイマー)を訓練特徴量として使用して(以降「Wide」コンフィギュレーションと称する)、SVMアルゴリズムを訓練した。
訓練に使用する対応付けペアのポジティブ及びネガティブメンバー間の関係を調べるため、以下の表に概説する基準で対応するネガティブメンバーを選択した種々の訓練セットを生成した;ポジティブ及びネガティブメンバー間の結合差が徐々に広がる訓練セットを作成した。
ネガティブ訓練セットの選択に関する最適基準を見出すため、本発明者らは、一連のネガティブデータセットを作成し、ここでネガティブペプチドは、以下の表2に定義するとおりの、そのそれぞれの対応するポジティブパートナーの所定範囲内の予測結合親和性を共有することを基準として選択された。
本明細書に記載される対応付けペア方法を用いて機械学習アルゴリズムを訓練することによりHLA/MHC結合ではなくプロセシング及び提示と関連性がある特徴量を含むペプチドを同定することができ、ひいてはそのMHC拘束に関わらず任意のペプチドに適用することができる、即ちアルゴリズムがHLA/MHC非依存性であることを実証するため、本発明者らは、以下の表に概説するとおり、我々の訓練セットに出現する各個別のアレルについてSVMアルゴリズムを訓練して試験した:
最適化した訓練セットを使用してSVMアルゴリズムを訓練した:この訓練セットではネガティブペプチドがそのポジティブカウンターパートと同じ親タンパク質から同定され、対応するポジティブの100%範囲内の推定IC50結合親和性を有することを基準として選択された。アルゴリズムはまた、全ペプチド長及び3アミノ酸長フランキング領域にわたってVHSE及び頻度ベクトル(ダイマー)を訓練特徴量として訓練し(Wide)、得られたアルゴリズムをPanPro(Wide)と命名した。訓練特徴量としてアンカー領域を除外したことを除き、同じ訓練特徴量を用いて全く同じ訓練セットで第2のアルゴリズムを訓練し(Excluded)、得られたアルゴリズムをPanPro(Excluded)と命名した。
サンプル10試験セットから抽出した関連性のあるアレル特異的試験データを使用して、前述の「Excluded」及び「Wide」特徴量セットを使用して訓練したPanProをMHC-NP(Giguere et al. 2013)と比較した。図6に示すとおり、いずれのバージョンのPanProも、試験した6個中5個のアレルについてMHC-NPより優れていた。
バリデートされているHLA/MHC結合ペプチドのうち天然でプロセシングを受け、T細胞と相互作用する機会を有するのは15%未満であり(Giguere et al. 2013)、免疫応答の誘発能を有するのは5%未満である(Robbins et al, 2013)。従って、天然でプロセシングを受けるであろうペプチドを同定するための、HLA/MHC結合予測器と組み合わせて免疫原性抗原を適時且つ費用対効果良く同定する能力を向上させることのできるインシリコ方法の開発が明らかに必要とされている。残念ながらプロセシング及び提示の特徴量を学習するように訓練したアルゴリズムの性能はHLA/MHC結合予測器に遅れを取っている(Giguere et al. 2013)。インシリコ方法の開発に際しての課題の一つは、複数のステップ及び複数のプロテアーゼ、シャペロン及び輸送タンパク質等が関与するプロセシング及び提示経路の複雑さである(Neefjes et al. 2011)。別の課題は、ペプチドが天然でプロセシングを受けると見込まれるかどうかに対して、ソースタンパク質の存在量及び安定性を含め、複数の「配列非依存的」要因が影響を及ぼすことである。従って、ソースタンパク質が必要な特性を欠いているため、効率的にプロセシングを受けて提示されるだけの正当な生理化学的特性を含むペプチドが決して細胞表面のHLA/MHCに結合して観察されないということがあり得る。最後に、天然でプロセシングを受けるペプチドについて、HLA/MHC結合よりむしろ、効率的なプロセシング及び提示に必要な特徴量を解き明かすのは難題であることが分かっている;結合に寄与する特徴量、特にアンカー領域が情報ランドスケープを支配する傾向があるためであり、これらのプロセスが共進化したもので、関連性のある生理化学的特徴量が恐らく重複していることによって悪化する問題である(Kesmir et al. 2003)。本特許では、本発明者らは、タンパク質存在量、安定性及びHLA/MHC結合の影響を制御する機械学習アルゴリズム又は統計的推論モデルの訓練方法であって、アルゴリズム又はモデルがHLA/MHC結合よりむしろ、効率的なプロセシング及び提示と同義の特徴量を学習することを可能にする方法について記載する。HLA/MHC結合の影響が無効になるため、このアルゴリズム又はモデルは、そのHLA/MHC拘束に関わらず任意のペプチドに適用することができる。
Bradly et al.(1997).The use of the area under the ROC curve in the evaluation of machine learning algorithms.Pattern Recognition,30(7):1149−1155
Emmerich et al.(2000).TheHuman 26 S and 20 S proteasomes generate overlapping but different sets of peptide fragments from a model protein substrate.J Biol Chem.2000 Jul 14;275(28):21140−8.
Espinosa et al.(2013). Peptides presented byHLA class I molecules in theHuman thymus. J Proteomics.94:23−36
Giguere et al.(2013).MHC−NP:predicting peptides naturally processed by the MHC.J Immunol Methods.2013 Dec 31;400−401:30−6
Ginodi et al.(2008).Precise score for the prediction of peptides cleaved by the proteasome.Bioinformatics.2008 Feb 15;24(4):477−83.
Holzhutter & Kloetzel(2000).A kinetic model of vertebrate 20S proteasome accounting for the generation of major proteolytic fragments from oligomeric peptide substrates.Biophys J.2000 Sep;79(3):1196−205
Jarmalavicius et al.(2012).High Immunogenicity fo theHuman Leukocyte Antigen Pepidomes of Melanoma Tumor Cells.J Biol Chem.287,40:33401−33411.
Mei et al.(2005). A new set of amino acid descriptors and its application in peptide QSARs.Biopolymers.80,6:775−86.
Kesmir et al.(2002).Prediction of proteasome cleavage motifs by neural networks.Protein Eng.2002 Apr;15(4):287−96.
Kesmir et al.(2003).Bioinformatic analysis of functional differences between the immunoproteasome and the constitutive proteasome.Immunogenetics 55:437−449.
ZhiLiang et al.(2008).A novel descriptor of amino acids and its application in peptide QSAR.Journal of Theoretical Biology 253(1):90−7 August 2008
Mei et al.(2005).A new set of amino acid descriptors and its application in peptide QSARs.Biopolymers.2005;80(6):775−86.
Neefjes et al.(2011).Towards a systems understanding of MHC class I and MHC class II antigen presentation.Nat Rev Immunol.2011 Nov 11;11(12):823−36.
Nielsen et al.(2005).The role of the proteasome in generating cytotoxic T−cell epitopes:insights obtained from improved predictions of proteasomal cleavage.Immunogenetics.2005 Apr;57(1−2):33−41.
Nussbaum et al.(2001).PAProC:a prediction algorithm for proteasomal cleavages available on the WWW.Immunogenetics.2001 Mar;53(2):87−94.
Robins et al.(2013).Mining exomic sequencing data to identify mutated antigens recognized by adoptively transferred tumor−reactive T cells.Nat Med.2013 Jun;19(6):747−52
Tang et al.(2014).NIEluter:Predicting peptides eluted fromHLA class I molecules.J Immunol Methods.2015 Jul;422:22−7.
Tenzer et al.(2004).Quantitative analysis of prion−protein degradation by constitutive and immuno−20S proteasomes indicates differences correlated with disease susceptibility.J Immunol.2004 Jan 15;172(2):1083−91
Tenzer & Schild(2005).Assays of proteasome−dependent cleavage products.Methods Mol Biol.2005;301:97−115.
The UniProt Consortium(2014).Activities at the Universal Protein Resource(UniProt)Nucleic Acids Res.42:D191−D198(2014).
Toes et al.(2001).Discrete cleavage motifs of constitutive and immunoproteasomes revealed by quantitative analysis of cleavage products.J Exp Med.2001 Jul 2;194(1):1−12.
Claims (22)
- 天然の内因性又は外因性細胞プロセシング、輸送及び主要組織適合遺伝子複合体(MHC)提示と正の関連性がある特徴量を含むペプチドを同定するための、HLA/MHC結合の影響を打ち消す、且つそのMHC拘束に関わらず任意のペプチドに適用することのできる機械学習アルゴリズム又は統計的推論モデルの訓練方法であって、
(a)ポジティブデータセットとネガティブデータセットとを含む1つ以上の訓練データセットを構築することであって、
前記ポジティブデータセットは、1つ又は複数の異なるHLA/MHCアレルによってコードされる表面結合型又は分泌型HLA/MHC/ペプチド複合体から同定又は推論されるペプチド配列のエントリを含み、及び前記ネガティブデータセットは、表面結合型又は分泌型HLA/MHC/ペプチド複合体から同定又は推論されないペプチド配列のエントリを含み;
前記1つ以上の訓練データセットが、前記ポジティブ及びネガティブデータセットのエントリ間の多重ペアリングを更に含み;及び前記多重ペアリングの各ペアが、
(i)等しい又は同様の長さである、
及び
(ii)同じソースタンパク質又はその断片に由来する、
及び/又は
(iii)前記ポジティブカウンターパートを拘束するHLA/MHC分子に対して、同様の結合親和性を有する
ペプチド配列を含む、構築すること;
及び(b)前記1つ以上の訓練データセットに機械学習アルゴリズム又は統計的推論モデルを適用することを含む方法。 - 前記多重ペアリングの各ペアが、基準(i)、(ii)及び(iii)を満たすペプチド配列を含む、請求項1に記載の方法。
- 機械学習アルゴリズム又は統計的推論モデルの特徴量として、前記ポジティブ及びネガティブデータセットの前記ペプチド配列内の重要なHLA/MHC結合アンカー位置にあるアミノ酸が取り除かれる、請求項1又は2に記載の方法。
- ステップ(b)が、前記1つ以上の訓練データセットに機械学習アルゴリズムを適用することを含む、請求項1〜3のいずれか一項に記載の方法。
- 前記機械学習アルゴリズムが教師あり(supervised)である、請求項4に記載の方法。
- 前記機械学習アルゴリズムが教師なし(unsupervised)である、請求項4に記載の方法。
- 前記ポジティブデータセットが、複数の異なるHLA/MHCアレルによってコードされる表面結合型又は分泌型HLA/MHC/ペプチド複合体から同定又は推論されるペプチド配列のエントリを含む、請求項1〜6のいずれか一項に記載の方法。
- 前記ポジティブデータセットが、異なるHLA/MHCアレルによってコードされる少なくとも2、好ましくは少なくとも20、より好ましくは少なくとも50の異なる表面結合型又は分泌型HLA/MHC変異体から同定又は推論されるペプチド配列を含む、請求項1〜7のいずれか一項に記載の方法。
- 前記ポジティブデータセットが、(a)HLA−A、−B、又は−C遺伝子座のいずれかのHLA/MHCクラスIアレル、又は非ヒト種におけるその等価な遺伝子座、又はこれらの任意の組み合わせ、又は(b)HLA−DQ、−DP、又は−DR遺伝子座のいずれかのMHCクラスIIアレル、又は非ヒト種におけるその等価な遺伝子座、又はこれらの任意の組み合わせによってコードされる表面結合型又は分泌型HLA/MHC変異体から同定又は推論されるペプチド配列を含み;前記ポジティブデータセットが同じ種に由来する、請求項1〜8のいずれか一項に記載の方法。
- 前記ポジティブデータセットが、(a)に係る前記遺伝子座の全て、又は(b)に係る前記遺伝子座の全てから同定又は推論されるペプチド配列を含む、請求項9に記載の方法。
- 前記ポジティブ及びネガティブデータセットの両方の各ペプチド配列が等しい長さであり;好ましくは前記長さが8、9、10、11アミノ酸、又はそれ以上である、請求項1〜10のいずれか一項に記載の方法。
- 各対応するネガティブペプチドの前記結合親和性が、IC50nmメトリックを用いて測定したとき、そのポジティブカウンターパートの前記結合親和性と比較して(好ましさが高くなる順に)500%、200%、及び100%より大きく異ならない、請求項1〜11のいずれか一項に記載の方法。
- 前記結合親和性がMHC結合予測アルゴリズム、実験的測定又はこれらの組み合わせによって得られたものである、請求項1〜12のいずれか一項に記載の方法。
- 前記機械学習アルゴリズム又は統計的推論モデルの特徴量として、前記ポジティブ及びネガティブデータセットのペプチド配列の所与の位置におけるアミノ酸アイデンティティ、サイズ、電荷、極性、疎水性及び/又は他の関連性のある物理化学的特性が使用される、請求項1〜13のいずれか一項に記載の方法。
- 前記ペプチド配列が連結ベクトルとして表され、及び各アミノ酸が、各可能なアミノ酸につき1つの要素のバイナリベクトルとして符号化され、各アミノ酸の存在が1で表され、各アミノ酸の非存在が0で表される、請求項1〜14のいずれか一項に記載の方法。
- 前記機械学習アルゴリズム又は統計的推論モデルの特徴量として、前記ソースタンパク質において前記ポジティブ及びネガティブデータセットの前記ペプチド配列の末端から10、好ましくは5又はより好ましくは3位置以内にある位置におけるアミノ酸アイデンティティ、電荷、サイズ、極性、疎水性及び/又は他の関連性のある物理化学的特性が使用される、請求項1〜15のいずれか一項に記載の方法。
- 前記ポジティブ及びネガティブデータセットが、前記ポジティブ及びネガティブデータセットのペプチド配列のアミノ酸についての疎水性、立体及び電子特性(VHSE)記述子の主成分スコアベクトルを更に含み;及び前記記述子が前記機械学習アルゴリズム又は統計的推論モデルの特徴量として使用される、請求項1〜16のいずれか一項に記載の方法。
- 前記ポジティブ及びネガティブデータセットが、前記ポジティブ及びネガティブデータセットのペプチド配列のアミノ酸についてのトポロジー及び構造特性(VTSA)記述子の主成分スコアベクトルを更に含み;及び前記記述子が前記機械学習アルゴリズム又は統計的推論モデルの特徴量として使用される、請求項1〜17のいずれか一項に記載の方法。
- 前記ポジティブ及びネガティブデータセットの前記ペプチド配列の所与の位置におけるアミノ酸配列のk−mer頻度が前記機械学習アルゴリズム又は統計的推論モデルの特徴量として使用され;kが1、2又は3に等しい、請求項1〜18のいずれか一項に記載の方法。
- ステップ(b)の後、天然の内因性又は外因性細胞プロセシング、輸送及びHLA/MHC提示と正の関連性がある特徴量を有するペプチド、又はタンパク質のペプチド断片を同定するため、ペプチド及び/又は前記タンパク質のアミノ酸配列を含む入力データを前記機械学習アルゴリズムでインテロゲートすることを更に含む、請求項1〜19のいずれか一項に記載の方法。
- 請求項1〜20のいずれか一項に記載の方法を実装するコンピュータ実行可能命令が格納されているコンピュータ可読媒体。
- 装置であって、
1つ以上のプロセッサ;及び
前記プロセッサのうちの1つ以上によって実行されると、請求項1〜20のいずれか一項に記載の方法を前記装置に遂行させる命令を含むメモリを含む装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GBGB1607521.0A GB201607521D0 (en) | 2016-04-29 | 2016-04-29 | Method |
GB1607521.0 | 2016-04-29 | ||
PCT/EP2017/060299 WO2017186959A1 (en) | 2016-04-29 | 2017-04-28 | Machine learning algorithm for identifying peptides that contain features positively associated with natural endogenous or exogenous cellular processing, transportation and major histocompatibility complex (mhc) presentation |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019518295A JP2019518295A (ja) | 2019-06-27 |
JP6953515B2 true JP6953515B2 (ja) | 2021-10-27 |
Family
ID=56234141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019508297A Active JP6953515B2 (ja) | 2016-04-29 | 2017-04-28 | 天然の内因性又は外因性細胞プロセシング、輸送及び主要組織適合遺伝子複合体(mhc)提示と正の関連性がある特徴量を含むペプチドを同定するための機械学習アルゴリズム |
Country Status (7)
Country | Link |
---|---|
US (1) | US20190311781A1 (ja) |
EP (1) | EP3449405A1 (ja) |
JP (1) | JP6953515B2 (ja) |
CN (1) | CN109416929B (ja) |
CA (1) | CA3022390A1 (ja) |
GB (1) | GB201607521D0 (ja) |
WO (1) | WO2017186959A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11416129B2 (en) * | 2017-06-02 | 2022-08-16 | The Research Foundation For The State University Of New York | Data access interface |
US11885815B2 (en) | 2017-11-22 | 2024-01-30 | Gritstone Bio, Inc. | Reducing junction epitope presentation for neoantigens |
US20220157403A1 (en) * | 2019-04-09 | 2022-05-19 | Eth Zurich | Systems and methods to classify antibodies |
CN111105843B (zh) * | 2019-12-31 | 2023-07-21 | 杭州纽安津生物科技有限公司 | 一种hlai型分子与多肽的亲和力预测方法 |
BR112022012316A2 (pt) | 2020-04-20 | 2022-11-16 | NEC Laboratories Europe GmbH | Método implementado por computador de selecionar uma ou mais sequências de aminoácidos para inclusão em uma vacina a partir de um conjunto de sequências de aminoácidos candidatas imunogênicas previstas; método de criação de uma vacina; sistema para selecionar uma ou mais sequências de aminoácidos para inclusão em uma vacina a partir de um conjunto de sequências de aminoácidos candidatas imunogênicas previstas; e; meio legível por computador |
WO2021214071A1 (en) | 2020-04-20 | 2021-10-28 | Nec Oncoimmunity As | Method and system for identifying one or more candidate regions of one or more source proteins that are predicted to instigate an immunogenic response, and method for creating a vaccine |
EP3901954A1 (en) | 2020-04-20 | 2021-10-27 | NEC OncoImmunity AS | Method and system for identifying one or more candidate regions of one or more source proteins that are predicted to instigate an immunogenic response, and method for creating a vaccine |
AU2021258419A1 (en) | 2020-04-20 | 2022-11-17 | NEC Laboratories Europe GmbH | SARS-CoV-2 vaccines |
EP4162417A1 (en) * | 2020-06-03 | 2023-04-12 | Xenotherapeutics, Inc. | Selection and monitoring methods for xenotransplantation |
EP4182928A1 (en) | 2020-07-14 | 2023-05-24 | Myneo Nv | Method, system and computer program product for determining presentation likelihoods of neoantigens |
US20220130490A1 (en) * | 2020-10-27 | 2022-04-28 | Nec Laboratories America, Inc. | Peptide-based vaccine generation |
TW202228153A (zh) * | 2020-12-09 | 2022-07-16 | 大陸商江蘇恆瑞醫藥股份有限公司 | 基於機器學習的肽免疫原性預測、鑑別系統及方法 |
US20220327425A1 (en) * | 2021-04-05 | 2022-10-13 | Nec Laboratories America, Inc. | Peptide mutation policies for targeted immunotherapy |
CN113837293A (zh) * | 2021-09-27 | 2021-12-24 | 电子科技大学长三角研究院(衢州) | mRNA亚细胞定位模型训练方法、定位方法及可读存储介质 |
WO2023129750A1 (en) * | 2021-12-31 | 2023-07-06 | Benson Hill Holdings, Inc. | Multiple-valued label learning for target nomination |
US20230304189A1 (en) * | 2022-03-25 | 2023-09-28 | Nec Laboratories America, Inc. | Tcr engineering with deep reinforcement learning for increasing efficacy and safety of tcr-t immunotherapy |
CN117037902A (zh) * | 2023-07-18 | 2023-11-10 | 哈尔滨工业大学 | 基于蛋白质物理化学特征嵌入的肽与mhc i类蛋白结合基序预测方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10009410A1 (de) * | 2000-02-28 | 2001-08-30 | Bayer Ag | Verfahren zum Auffinden hepatoprotiktiver Substanzen |
PL362324A1 (en) * | 2001-02-19 | 2004-10-18 | Merck Patent Gmbh | Artificial fusion proteins with reduced immunogenicity |
SE0201863D0 (en) * | 2002-06-18 | 2002-06-18 | Cepep Ab | Cell penetrating peptides |
DE602004029391D1 (de) * | 2003-12-05 | 2010-11-11 | Council Scient Ind Res | Ein auf computerverwendung basiertes verfahren zur identifizierung von dna-sequenzen, die für als "drug targets" nutzbare proteine codieren |
EP1782318A2 (en) * | 2004-07-09 | 2007-05-09 | Wyeth a Corporation of the State of Delaware | Methods and systems for predicting protein-ligand coupling specificities |
JP2008545180A (ja) * | 2005-05-12 | 2008-12-11 | メルク エンド カムパニー インコーポレーテッド | T細胞エピトープの全自動選択システムおよび方法 |
JPWO2007119515A1 (ja) * | 2006-03-28 | 2009-08-27 | 昇志 佐藤 | 新規腫瘍抗原ペプチド |
WO2010017559A1 (en) * | 2008-08-08 | 2010-02-11 | University Of Georgia Research Foundation, Inc. | Methods and systems for predicting proteins that can be secreted into bodily fluids |
CN102346817B (zh) * | 2011-10-09 | 2015-03-25 | 广州医学院第二附属医院 | 一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法 |
CN104487979A (zh) * | 2012-05-25 | 2015-04-01 | 拜尔健康护理有限责任公司 | 用于预测肽的免疫原性的系统和方法 |
WO2014180490A1 (en) * | 2013-05-10 | 2014-11-13 | Biontech Ag | Predicting immunogenicity of t cell epitopes |
US20150278441A1 (en) * | 2014-03-25 | 2015-10-01 | Nec Laboratories America, Inc. | High-order semi-Restricted Boltzmann Machines and Deep Models for accurate peptide-MHC binding prediction |
WO2015175361A1 (en) * | 2014-05-13 | 2015-11-19 | Immunotope, Inc. | Dengue virus specific multiple hla binding t cell epitopes for the use of universal vaccine development |
-
2016
- 2016-04-29 GB GBGB1607521.0A patent/GB201607521D0/en not_active Ceased
-
2017
- 2017-04-28 CN CN201780037227.5A patent/CN109416929B/zh active Active
- 2017-04-28 WO PCT/EP2017/060299 patent/WO2017186959A1/en unknown
- 2017-04-28 EP EP17726197.1A patent/EP3449405A1/en active Pending
- 2017-04-28 JP JP2019508297A patent/JP6953515B2/ja active Active
- 2017-04-28 CA CA3022390A patent/CA3022390A1/en active Pending
- 2017-04-28 US US16/096,997 patent/US20190311781A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2017186959A1 (en) | 2017-11-02 |
CN109416929B (zh) | 2022-03-18 |
CN109416929A (zh) | 2019-03-01 |
CA3022390A1 (en) | 2017-11-02 |
EP3449405A1 (en) | 2019-03-06 |
GB201607521D0 (en) | 2016-06-15 |
JP2019518295A (ja) | 2019-06-27 |
US20190311781A1 (en) | 2019-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6953515B2 (ja) | 天然の内因性又は外因性細胞プロセシング、輸送及び主要組織適合遺伝子複合体(mhc)提示と正の関連性がある特徴量を含むペプチドを同定するための機械学習アルゴリズム | |
Mohabatkar et al. | Prediction of allergenic proteins by means of the concept of Chou's pseudo amino acid composition and a machine learning approach | |
Stranzl et al. | NetCTLpan: pan-specific MHC class I pathway epitope predictions | |
Sanchez-Trincado et al. | Fundamentals and methods for T‐and B‐cell epitope prediction | |
Jurtz et al. | NetTCR: sequence-based prediction of TCR binding to peptide-MHC complexes using convolutional neural networks | |
Wang et al. | Prediction of B‐cell linear epitopes with a combination of support vector machine classification and amino acid propensity identification | |
Yao et al. | SVMTriP: a method to predict antigenic epitopes using support vector machine to integrate tri-peptide similarity and propensity | |
Hoof et al. | NetMHCpan, a method for MHC class I binding prediction beyond humans | |
Larsen et al. | An integrative approach to CTL epitope prediction: a combined algorithm integrating MHC class I binding, TAP transport efficiency, and proteasomal cleavage predictions | |
Andreatta et al. | NNAlign: a web-based prediction method allowing non-expert end-user discovery of sequence motifs in quantitative peptide data | |
Gartner et al. | A machine learning model for ranking candidate HLA class I neoantigens based on known neoepitopes from multiple human tumor types | |
Giguère et al. | MHC-NP: predicting peptides naturally processed by the MHC | |
Trolle et al. | NetTepi: an integrated method for the prediction of T cell epitopes | |
Zhang et al. | Accurate prediction of immunogenic T-cell epitopes from epitope sequences using the genetic algorithm-based ensemble learning | |
Juhász et al. | The epitopes in wheat proteins for defining toxic units relevant to human health | |
Saethang et al. | PAAQD: Predicting immunogenicity of MHC class I binding peptides using amino acid pairwise contact potentials and quantum topological molecular similarity descriptors | |
Pedersen et al. | A combined prediction strategy increases identification of peptides bound with high affinity and stability to porcine MHC class I molecules SLA-1* 04: 01, SLA-2* 04: 01, and SLA-3* 04: 01 | |
Laht et al. | Identification and classification of conopeptides using profile Hidden Markov Models | |
Knapp et al. | 3-Layer-based analysis of peptide–MHC interaction: In silico prediction, peptide binding affinity and T cell activation in a relevant allergen-specific model | |
El-Manzalawy et al. | Building classifier ensembles for B-cell epitope prediction | |
Hu et al. | Ensemble approaches for improving HLA class I-peptide binding prediction | |
Khatun et al. | SIPMA: A systematic identification of protein-protein interactions in Zea mays using autocorrelation features in a machine-learning framework | |
Zhang et al. | An improved profile-level domain linker propensity index for protein domain boundary prediction. | |
Huang et al. | A support vector machine approach for prediction of T cell epitopes | |
Li et al. | A Novel Peptide Binding Prediction Approach for HLA‐DR Molecule Based on Sequence and Structural Information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190906 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210524 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210907 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210929 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6953515 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |