JP2022512612A - 結合親和性予測のための方法及びシステム並びに候補タンパク質結合ペプチドを生成する方法 - Google Patents

結合親和性予測のための方法及びシステム並びに候補タンパク質結合ペプチドを生成する方法 Download PDF

Info

Publication number
JP2022512612A
JP2022512612A JP2021518717A JP2021518717A JP2022512612A JP 2022512612 A JP2022512612 A JP 2022512612A JP 2021518717 A JP2021518717 A JP 2021518717A JP 2021518717 A JP2021518717 A JP 2021518717A JP 2022512612 A JP2022512612 A JP 2022512612A
Authority
JP
Japan
Prior art keywords
query
binder
sequence
target
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021518717A
Other languages
English (en)
Other versions
JP7410138B2 (ja
JPWO2020070307A5 (ja
Inventor
エイドサー,マリウス
ストラトフォード,リチャード
クランシー,トレヴァー
Original Assignee
エヌイーシー オンコイミュニティ エーエス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エヌイーシー オンコイミュニティ エーエス filed Critical エヌイーシー オンコイミュニティ エーエス
Publication of JP2022512612A publication Critical patent/JP2022512612A/ja
Publication of JPWO2020070307A5 publication Critical patent/JPWO2020070307A5/ja
Application granted granted Critical
Publication of JP7410138B2 publication Critical patent/JP7410138B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Peptides Or Proteins (AREA)

Abstract

【課題】結合親和性予測のための方法及びシステム並びに候補タンパク質結合ペプチドを生成する方法に関する。【解決手段】本開示の第1の態様において、クエリ標的分子に対するクエリバインダー分子の結合親和性を予測するコンピュータ実装方法であって、クエリバインダー分子は、第1のアミノ酸配列を有し、及びクエリ標的分子は、第2のアミノ酸配列を有し、方法は、少なくとも1つのプロセッサを用いて、クエリ標的分子に対するクエリバインダー分子の結合親和性を参照バインダー-標的部分配列ペアの参照結合値の重み付き組み合わせとして計算することであって、重み付き組み合わせの重みは、類似度スコアに基づく、計算すること、を含む方法が提供される。【選択図】図2

Description

背景
本開示は、バインダー分子と標的分子との間、例えばペプチドとタンパク質との間又はタンパク質のペア間の結合親和性の計算予測に関する。
分子結合の理解は、多くの生物学的状況において重要である。例えば、薬物又は生物療法の開発において、どのように且つどの程度強力に候補治療分子がその目的標的に結合するか、又は病原性ペプチドが細胞表面タンパク質に結合するかを理解することが重要である。
脊椎動物において、主要組織適合性複合体(MHC)分子は、病原性又は自己ペプチドに結合し、続いて細胞機構により細胞表面に輸送されるMHC-ペプチド複合体を形成するように進化してきた。MHC分子は、典型的には、MHCクラスI又はMHCクラスIIと命名されている。機能において類似するが、MHCクラスI分子は、細胞内から内因的に誘導されたペプチドを細胞表面に送達する一方、MHCクラスII分子は、細胞表面への外因性又は細胞外ペプチドの送達を担い、そこでCD8+(細胞傷害性)又はCD4+(ヘルパー)T細胞によるペプチドの後続の認識が生じる。次いで、この認識は、免疫応答を開始又は伝播する。クラスI抗原提示経路、例としてプロテアソーム及びTAP輸送による抗原プロセシング並びにクラスII経路、例として外因性抗原の内在化、エンドソーム中の捕捉及び後続のプロテアーゼ媒介加水分解において、いくつかの重要な相互依存のステップが存在する。しかしながら、MHC結合ステップは、内因性及び外因性抗原プロセシング経路の両方についての最も重要な選択機序であり、病原性ペプチドの良好な提示及び癌における突然変異ネオアンチゲンに必要である(ただし、十分でない)。適応免疫応答の中心的理念としてのMHC結合の重要性は、いくつかの研究分野、例として感染性疾患、ワクチン開発、移植、自己免疫疾患及び癌免疫療法内のMHC-ペプチド結合親和性の正確な同定及び測定における広範な研究をもたらしてきた。
ヒトにおいて、MHCクラスI分子は、HLA-A、HLA-B及びHLA-Cと称されるクラスIヒト白血球抗原(HLA)ゲノム領域中の3つの多型遺伝子によりコードされる。3つ全ての遺伝子は、極めて多型であり、10,000個超の特徴付けされたアレルを有する。クラスIと同様に、MHCクラスII分子は、HLA-DR、HLA-DQ及びHLA-DPと称される3つの多型遺伝子によりコードされる。MHC分子における高程度の多型及び抗原性ペプチド配列中のアミノ酸の固有の変異性は、MHC-ペプチド結合親和性を正確に予測し得る計算ツールの開発の必要性を推進しており、多数の良好なアプローチをもたらした。しかしながら、良好な予測モデルを訓練するには、大量の実験データの利用可能性が要求される。数年間、最も一般的なMHCアレルの一部についてのMHC-ペプチド結合親和性測定値を蓄積するためにかなりの実験的労力がなされてきた。それにもかかわらず、明確な過半数のアレルは、MHC-ペプチド結合親和性測定値の現在利用可能なデータベース中に依然として適切にカバーされていない。これらのアレルのいくつかについて、最良に機能する予測子は、「アレル特異的」モデルであることが多く、それらが1つの特異的MHCアレルに対してのみ訓練され、したがってまたそれについてのみ予測し得ることを意味する。アレル特異的モデルは、一般に、かなりの量の結合親和性データを要求し、それにより、それらのモデルは、少数の十分に研究されたアレルについてのみ好適となる。いくつかのアルゴリズムアプローチは、十分な訓練データの利用可能性を利用して、ニューラルネットワークからサポートベクターマシン(SVM)までの範囲の良好なアレル特異的アプローチを構築しているが、さらにより機序的に解釈可能なアプローチ、例えば位置特異的スコア行列(PSSM)又は分子モデリングベースアプローチも構築している。
異なるMHCアレルにわたる結合親和性の予測を作成し得る「汎アレル(pan-allele)」モデルを実装する計算ツールを作出するためのいくつかの試行がなされてきた。これらは、主に、ニューラルネットワークベースアプローチを使用して訓練され、一般に2つのカテゴリーの一方に収められてきた。「汎特異的」モデルは、それが訓練したアレル間の予測に制限される一方、「汎」モデルは、MHC配列に基づいて予測を作製し、したがって任意又は新規MHCアレルについての予測を作製し得る。
汎アレルモデルの包括的な目的は、全てのアレルにわたり適用可能である一般的な結合パターンを予測し、訓練データをほとんど又は全く有さないアレルについても予測を可能とすることである。これを行うため、一般に、モデルについては、例えば、MHC-ペプチド複合体について得られた結晶構造データを使用することにより、MHC分子とペプチドとの間の物理的相互作用を反映することが望ましいと考えられている。
構造データから、MHC分子のペプチド相互作用構成成分は、2つのほぼ並行のヘリックスを形成する2つのアミノ酸鎖から作製される高度に多型の結合溝からなることが公知である。MHCクラスIについて、MHCクラスI分子を形成する182個という少数のアミノ酸のみが結合ペプチドアミノ酸の直近(例えば、結合ペプチドの任意のアミノ酸の4.0オングストロームの距離内)に存在することが観察されている。結合溝をアウトラインするこれらのペプチド近接MHCアミノ酸は、「偽配列」と称することができる(例えば、内容が参照により全体として本明細書に組み込まれるNielsen et al, PLoS One 2007, 2: e796を参照されたい)。
ペプチドをMHCタンパク質に結合させる手法は、文献中で「接触点マップ」、「接触位置マップ」又は単に「接触マップ」(それらのそれぞれは、以下に互換的に使用される)と称されているものを使用してまとめることができる。一般に、接触点マップは、バインダー分子(例えば、ペプチド)のアミノ酸残基と、それが結合される標的分子(例えば、MHCタンパク質)の対応するアミノ酸残基との間のマッピングを定義し、対応するアミノ酸残基は、バインダー分子中のアミノ酸残基からの閾値距離内に存在する標的分子の残基であり、その結果、それらは、バインダー分子残基との十分な物理的相互作用を有してバインダー-標的複合体の形成に寄与する。例えば、バインダー分子残基の4オングストローム内に存在する残基は、接触点マップの一部を形成し得る。
接触点マップは、行が標的分子偽配列のアミノ酸を表し、列がバインダー分子のアミノ酸を表す表又は行列として表すことができる。バインダー分子アミノ酸bが偽配列アミノ酸tの所定距離内に存在する場合、表の成分(t,b)は、1に等しい。MHCクラスI分子についての接触点マップの具体例は、Nielsen et al.に見出すことができる。MHCクラスII分子についてのさらなる例は、内容が参照により全体として本明細書に組み込まれるKarosiene et al, Immunogenetics 2013, 65: 711-724に見出すことができる。
接触点マップは、ペプチドのそれぞれのアミノ酸(単量体)を接触点マップに従って単量体に近接すると想定されるMHC偽配列の1つ以上のアミノ酸に結合される別個の結合単位として処理する、ペプチド-MHC結合のいわゆる「ポケット」ベースモデルを構築するために使用されている。MHC偽配列の近接アミノ酸は、「結合ポケット」と称することができる。これは、結合ポケットを訓練データ中の構造サブユニットの類似出現に一致させ、次いで一致サブユニットから全ての結合親和性寄与を一緒に加算することにより、訓練データがほとんど又は全く利用可能でないアレルについてのMHC結合パターンの予測を可能とする。
上記アプローチを改善するか又は少なくとも有用な代替手段を提供する、結合親和性を予測する方法を提供することが望ましい。
概要
一般に、本開示は、従来技術のポケットアプローチを、単量体の使用を超えて拡張させる、結合親和性を予測する方法及びシステムを提案する。したがって、ある実施形態において、ペプチド及びMHC分子の両方におけるコンテキストアミノ酸のn量体長さの残基(nは、2からペプチドの長さである)の影響を捕捉することが可能である。
本開示の第1の態様において、クエリ標的分子に対するクエリバインダー分子の結合親和性を予測するコンピュータ実装方法であって、クエリバインダー分子は、第1のアミノ酸配列を有し、及びクエリ標的分子は、第2のアミノ酸配列を有し、方法は、少なくとも1つのプロセッサを用いて、それぞれのペアになった参照バインダー配列及び参照標的配列を含む参照バインダー-標的ペアの参照データストアにアクセスすることであって、それぞれの参照バインダー-標的ペアは、関連する既知の結合値を有する、アクセスすること;少なくとも1つのプロセッサを用いて、第1のアミノ酸配列にわたって集合的にスパンする1つ以上のクエリバインダー部分配列(subsequence)の集合(set)としての第1のアミノ酸配列の表示を生成することであって、それぞれのクエリバインダー部分配列は、第1のアミノ酸配列に沿ったそれぞれの位置における1つ以上のアミノ酸残基を含む、生成すること;クエリバインダー部分配列の集合のそれぞれのクエリバインダー部分配列について、第2のアミノ酸配列中の接触アミノ酸残基の接触位置を決定し、且つ接触アミノ酸残基から対応するクエリ標的部分配列をアセンブルして、それによりクエリバインダー-標的部分配列ペアを生成すること;少なくとも1つのプロセッサを用いて、参照バインダー-標的ペアから、複数の参照バインダー-標的部分配列ペアを含む参照データセットを生成することであって、それぞれの参照バインダー-標的部分配列ペアは、それぞれのクエリバインダー部分配列のものに対応する位置におけるそれぞれの参照バインダー配列のアミノ酸残基を含む参照バインダー部分配列及び接触位置におけるそれぞれの参照標的配列のアミノ酸残基を含む参照標的部分配列を含み;それぞれの参照バインダー-標的部分配列ペアは、それが生成された参照バインダー-標的ペアの既知の結合値に基づいて参照結合値を割り当てられる、生成すること;少なくとも1つのプロセッサを用いて、それぞれのクエリバインダー-標的部分配列ペア及び参照バインダー-標的部分配列ペアに対して少なくとも1回の類似度演算を実行することであって、それぞれのクエリバインダー-標的部分配列ペアについて複数の類似度スコアを生成する、こと;及び少なくとも1つのプロセッサを用いて、クエリ標的分子に対するクエリバインダー分子の結合親和性を参照バインダー-標的部分配列ペアの参照結合値の重み付き組み合わせとして計算することであって、重み付き組み合わせの重みは、類似度スコアに基づく、計算することを含む、コンピュータ実装方法が提供される。
好ましくは、少なくとも1つのクエリバインダー部分配列は、少なくとも2つのアミノ酸残基を含み得る。
予測結合親和性は、MHC結合ポケットのコンテキスト関係を考慮することにより、当技術分野の技術よりも高い信頼性で決定され、MHC-ペプチド結合の生物学的複雑性をより良好に表す手法において結合親和性予測の精度を改善する。本技術は、既存の技術と比較してモデリングの組み合わせの複雑性を有効に低減させる。
類似度演算は、クエリバインダー部分配列と参照バインダー部分配列との間の比較のための第1の類似度スコアと、クエリ標的部分配列と参照標的部分配列との間の比較のための第2の類似度スコアとを生成することにより、それぞれの類似度スコアを生成し得、且つ第1の類似度スコア及び第2の類似度スコアを組み合わせる。
好ましくは、第1の類似度スコアは、完全一致の場合に非ゼロ値を与えられ、且つそうでなければゼロ値を与えられ得る。
より好ましくは、第2の類似度スコアは、完全一致の場合に非ゼロ値を与えられ、且つそうでなければゼロ値を与えられ得る。
ある実施形態において、類似度演算は、クエリバインダー部分配列と参照バインダー部分配列との間の配列アラインメント及び/又はクエリ標的部分配列と参照標的部分配列との間の配列アラインメントを含み得る。好ましくは、類似度演算は、BLOSUM80行列を使用する。
ある実施形態において、類似度演算は、第1のノードの集合及び第2のノードの集合を含む2部グラフ(bipartite graph)を生成することであって、第1のノードの集合は、バインダー部分配列のみを含み、及び第2のノードの集合は、標的部分配列のみを含み、2部グラフのエッジ重みは、関連する既知の結合値に等しい、生成すること;及び第1のノードの集合及び/又は第2のノードの集合について2部グラフの1部射影(monopartite projection)を決定することであって、類似度スコアは、1部射影のエッジ重みである、決定することを含み得る。
これらの実施形態において、第1の集合のノードのペアについての類似度スコアは、第1の集合のノードのペアの両方のノードが連結されている第2の集合の共通ノードの集合を決定すること;及び2部グラフの対応するエッジ重み間の線形相関を計算すること、によって計算され得る。第2の集合のノードのペアについての類似度スコアは、第2の集合のノードのペアの両方のノードが連結されている第1の集合の共通ノードの集合を決定すること;及び2部グラフの対応するエッジ重み間の線形相関を計算すること、によって計算され得る。
接触アミノ酸残基の位置は、接触点マップに従って決定され得る。
接触位置を決定するステップは、クエリバインダー部分配列に基づいて、接触点マップにおける使用のための仮想クエリバインダー部分配列をシミュレートすることであって、仮想クエリバインダー部分配列は、クエリバインダー部分配列と異なる長さを有する、シミュレートすること及び/又は接触点マップにおける使用のための接触点の集合をシミュレートすることをさらに含み得る。接触点の集合における接触点の量は、クエリバインダー部分配列及び/又は参照バインダー部分配列の長さと異なり得る。このように、本方法は、例えば、9量体接触点マップについてk<9又はk>9の異なる長さに適応可能であり得る。好ましくは、接触点マップは、異なる長さ情報を含むように定義することができる。ある実施形態において、本方法は、より大きい若しくはより小さいクエリバインダー部分配列を低減若しくは拡張させて接触点マップにフィットさせること、又は接触点マップの物理的効果がポケットの集合数をもたらすように、複数のアミノ酸残基を接触点に対してマッピングすることを含み得る。
ある実施形態において、クエリバインダー部分配列の最大長さは、Lであり得、L>1であり、及び1つ以上のクエリバインダー部分配列の集合は、1からLの間の長さの第1のアミノ酸配列の全ての可能な部分配列を含み得る。
類似度演算は、それぞれの参照バインダー-標的部分配列ペアを、それぞれの参照バインダー部分配列のアミノ酸位置に従って重み付けすることを含み得る。
好ましくは、第2のアミノ酸配列は、MHCタンパク質配列であり得る。より好ましくは、MHCタンパク質配列は、HLAタンパク質配列であり得る。
結合親和性を計算することは、参照データ行列、クエリデータ転置(transpose)行列及び参照結合値のベクトルの積を計算することを含み得、参照データ行列の成分は、それぞれの参照バインダー配列及び/又は参照標的配列中の参照部分配列の存在又は不存在を示し、及びクエリデータ転置行列の成分は、それぞれのクエリバインダー配列及び/又はクエリ標的配列中の参照部分配列の存在又は不存在を示し;参照データ行列の成分及びクエリデータ行列の成分は、類似度スコアに従って重み付けされる。この実施形態において、積は、スパース行列計算技術を介して計算することができる。
本発明は、MHCクラスI分子及びMHCクラスII分子の両方に適用可能である。
本発明のさらなる態様によれば、少なくとも1つの候補タンパク質結合ペプチドを生成する方法であって、複数のペプチドのアミノ酸配列及びタンパク質のアミノ酸配列を得ること;それぞれのペプチドについて、本発明の上記態様のいずれか1つに記載の方法により、タンパク質に対する予測結合親和性を決定すること;及びそれぞれの予測結合親和性に基づいて複数のペプチドの1つ以上の候補ペプチドを選択することを含む方法が提供され得る。
タンパク質のアミノ酸配列は、血清学的抗体検査、オリゴヌクレオチドハイブリダイゼーション法、核酸増幅ベース法(例として、限定されるものではないが、ポリメラーゼ連鎖反応ベース法)、DNA若しくはRNAシーケンシングに基づく自動予測、新規ペプチドシーケンシング、エドマンシーケンシング又は質量分析の1つにより得ることができる。
本方法は、1つ以上の候補ペプチドを合成することをさらに含み得る。
さらに、本方法は、候補ペプチドを対応するDNA又はRNA配列にコードすることをさらに含み得る。さらに、本方法は、配列を細菌のゲノム又はウイルス送達系中に取り込んで、ワクチンを作出することを含み得る。
したがって、ペプチド、DNA又はRNAベースワクチンは、個々の患者についてより高い信頼性で構築される。なぜなら、特にアレルについて参照データがほとんど又は全く利用可能でない場合、結合親和性をより有効に予測することができるためである。本発明は、交差検証評価において当技術分野のツールのものと競合する性能及び利用可能な参照データ中でカバレッジをほとんど又は全く有さないアレルの任意の部分集合について優れた性能を実証した。
本発明のさらなる態様によれば、クエリ標的分子に対するクエリバインダー分子の結合親和性を予測するための結合親和性予測システムであって、クエリバインダー分子は、第1のアミノ酸配列を有し、及びクエリ標的分子は、第2のアミノ酸配列を有し、システムは、少なくとも1つの記憶装置と通信する少なくとも1つのプロセッサを含み、少なくとも1つの記憶装置は、それに保存された命令であって、少なくとも1つのプロセッサに、本発明の上記態様のいずれか1つに記載の方法を実行させるための命令を有する、結合親和性予測システムが提供され得る。
実施形態は、単なる例として添付の図面を参照してここで詳細に記載される。
標的に対するバインダーの結合親和性を予測する方法の一実施形態を示す。 標的に対するバインダーの結合親和性を予測する方法の一実施形態を示す。 部分配列の集合としてのアミノ酸配列の表示を生成することを概略的に示す。 図1A及び1Bの方法における使用のための接触マップの一例を示す。 本方法における使用のために生成された標的(MHC)部分配列の例を示す。 本方法における使用のための参照データの生成の段階を示す。 本方法における使用のための参照データの生成の段階を示す。 本方法における使用のための参照データの生成の段階を示す。 参照アミノ酸配列と不一致のクエリアミノ酸配列を適合させる種々の方法を示す。 参照アミノ酸配列と不一致のクエリアミノ酸配列を適合させる種々の方法を示す。 参照アミノ酸配列と不一致のクエリアミノ酸配列を適合させる種々の方法を示す。 本方法の実施形態の実装に好適なシステムの一例が示される。 好適なサーバ1110の一例を示す。
詳細な説明
ある実施形態による方法は、クエリ標的分子、例えばタンパク質に対するクエリバインダー分子、例えばペプチドの結合親和性の計算予測を可能とする。クエリバインダー分子及びクエリ標的分子は、それぞれのアミノ酸配列をそれぞれ有する。予測は、参照バインダー-標的ペアを含む参照データに基づいて作製され、それぞれのペアは、既知(実測)結合値を有し、それは、例えば、nMで測定されたIC50値又はIC50に基づく他の値であり得る。参照データは、本明細書において訓練データと称することもできる。
結合値は、それがバインダーと標的との間の相対結合強度(すなわち他のバインダー-標的ペアに対する)を反映する限り、結合親和性の直接的尺度である必要はない。典型的には、参照データは、公的データベース、例えばImmune Epitope Database(IEDB)(www.iedb.org)、GPCRdb.(www.gpcrdb.org)又はBRENDA(http://www.brenda-enzymes.org)から少なくとも部分的に得ることができる。
図1を参照すると、ある実施形態による方法100は、参照バインダー-標的ペアの参照データストアにアクセスするステップ105を含む。それぞれの参照バインダー-標的ペアは、参照バインダーアミノ酸配列、例えばペプチド配列及び参照標的アミノ酸配列、例えばMHCタンパク質配列を含む。以下の考察は、ペプチド-MHC結合に焦点を当てるが、以下に考察される本方法及びシステムは、ペアになったバインダー配列及び標的配列並びに対応する結合値が利用可能な他のデータセットに容易に適合され得ることが理解される。
参照データに存在しないクエリペプチド-MHCペアについての予測を生成するため、実施形態による方法は、最初に、クエリペプチド配列にわたって集合的にスパンする1つ以上のクエリペプチド部分配列の集合としてのクエリペプチド配列の表示を生成し(ステップ110)、それらの部分配列の少なくとも1つは、2つ以上のアミノ酸長さである。例えば、1つの可能な表示は、図2(b)に示されるとおり、ペプチド配列を全ての可能な連続2量体に分解することにより生成され、それにおいて2量体を1残基間隔において重複してペプチド配列にわたりタイリングし(tiled across)、したがって集合的にスパンする。別の可能な表示は、3量体に関するものであり、図2(g)に示されるとおり、3量体部分配列の少なくとも一部が連続的でない。ここでも、9量体ペプチドの全長は、3量体により集合的にスパンされる(すなわち、それぞれのペプチド残基は、3量体の少なくとも1つに含有される)。
次に、それぞれのクエリペプチド部分配列について、本方法は、クエリMHC配列中の接触アミノ酸残基の接触位置を決定する(ステップ115)。典型的には、これは、適切な接触マップを使用することにより行われる。例えば、MHCクラスI配列について、図3に再現されるNielsen et al.の接触マップを使用することができる。しかしながら、一般に、予測又は実験的な任意の接触点マップを使用することができる。Nielsen et alの接触マップを使用すると、位置(1,2)を有する図2(b)の最初の2量体は、クエリMHC配列中の対応する接触位置c=(7、9、24、45、59、62、63、66、67、70、99、159、163、167、171)を有する。
従来技術の結合ポケットの用語と同様に、本実施形態の非単量体結合単位は、「高次ポケット」又はHOPと記載することができる。ペプチド-MHC結合に関して、個々のクエリペプチド部分配列は、クエリペプチドHOPと称することができ、対応する接触位置(例えば、接触マップから導出されるもの)におけるMHC残基からアセンブルされる対応するクエリMHC部分配列は、クエリMHC HOPと称することができる。したがって、それぞれのHOPは、適宜、ペプチド又はMHC配列のいずれかの部分配列である。配列のアミノ酸位置の1つ以上の集合を使用してペプチド又はMHC配列からHOPを生成するプロセスは、HOP分解と称することができる。
それぞれのクエリペプチドHOPについてクエリMHC HOPが決定されたら、HOPペアをクエリペプチド-MHC部分配列(HOP)ペアとして(例えば、RAM中又はデータベース中に)保存することができる。
次に、本方法は、参照バインダー-標的(ペプチド-MHC)ペアを使用して、参照データセットを生成する(ステップ120)。参照データセットは、複数の行を含み得、それぞれの行は、参照ペプチド部分配列、参照MHC部分配列及び参照結合値を含む。参照ペプチド部分配列は、クエリペプチドHOPを生成するために使用されるものと同じアミノ酸位置を使用して生成される参照ペプチドHOPである。同様に、参照MHC部分配列は、クエリMHC HOPを生成するために使用されるものと同じ接触位置を使用して生成されるMHC参照HOPである。参照ペプチド-MHC HOPペアを、HOPが導出されたペプチド-MHCペアの結合値に等しい参照結合値と関連付ける。
ここで、HOP分解及び参照データセットの生成の特定例を、図4から図7を参照して記載する。配列は、リアルMHC配列でもペプチド配列でもなく、単に説明目的のために選択される。図5に示されるとおり、結合値は、多数の異なるペプチドの1つに結合しているアレルHLA-X及びHLA-Yについて利用可能であるが、本例において、参照データ中に表示されない新たなペプチドABYDEFGHIの、及び参照データに表示されるが、アレルHLA-Zに対する結合が不明であるペプチドABCDEFGHIの、アレルHLA-Xに対する結合を予測することが望ましい。HOP分解は、ペプチドの位置(1,2)及び(1,3)についてのみ例示されるが、必要に応じて同じ手順をペプチドの他の位置に使用して、上記考察の様式でペプチド配列全体を集合的にスパンすることが理解される。
3つのアレルの完全配列を示さないが、3つの位置(1,2,3)について、上記のとおり適切な接触マップを使用することにより、対応するMHC HOPを生成することができる。図4に説明される例において、それぞれのペプチド残基は、使用される特定の接触マップに従って3つのMHC残基と近接する。一般に、異なるペプチド残基は、接触マップの完全形態又は接触位置を決定するために使用される他の手段に応じて、これよりも少ない又は多いMHC残基と近接し得ることが理解される。
クエリペプチドABYDEFGHIについて、位置(1,2)におけるペプチドHOPは、その配列に沿ったそれらの位置におけるアミノ酸、すなわちABを決定することにより生成される。同様に、位置(1,3)におけるペプチドHOPは、AYである。アレルHLA-Xについての位置の2つの集合について、対応するMHC HOPは、図4に示されるHOPのコンカチネーションにより与えられる。したがって、位置(1,2)について、HLA-XのMHC HOPは、ABCDEFであり、位置(1,3)について、MHC HOPは、ABCABDである。
同じプロセスを、図5に示されるとおり参照データについて実施することができる。例えば、第1行に示されるとおり、ペプチドABCDEFGHIは、位置(1,2)におけるHOP分解AB及び位置(1,3)におけるHOP分解ACを有する。HLA-XについてのMHC HOPは、再生する必要はない。なぜなら、この場合の参照MHC配列は、クエリMHC配列と同じであるためである。
図5に示されるとおり、それぞれのペプチドHOP-MHC HOPペアは、それが生成されたペプチド-MHCペアの結合値に等しい関連する結合値を有する。異なる配列ペアについてのHOP分解は、必ずしも固有でないため、本方法は、例えば、結合値の平均値又は中央値を取ることにより、反復HOPペアについての異なる結合値の要約を計算するさらなるステップを含み得る。これは、図5に例示され、例えば、ペアリングABCDEF-ABの結合値は、個々の値(0.9、0.8、0.8、0.9、0.5)の平均値として計算される。
参照ペプチド及びMHC配列について全てのHOP分解が実行され、反復HOPペアについて適切な要約が計算されたら、結果は、この場合、2つの表:接触位置(1,2)についての第1の表510及び接触位置(1,3)についての第2の表520を含む参照データセットである。ペプチド配列全体にわたってスパンする接触位置の完全な集合の場合、参照データのさらなる表を生成して参照データセットを作出することが認識される。
図1Bに戻ると、本方法の次のステップ125において、少なくとも1回の配列類似度演算をそれぞれのクエリペプチド-MHC HOPペア及び参照ペプチド-MHC HOPペアに対して実行して、それぞれのクエリペプチド-MHC HOPペアについての複数の類似度スコアを生成する。
一例において、類似度スコアは、クエリHOPペアと参照HOPペアとの間の完全一致の場合に1の値を与えられ、且つそうでなければ0の値を与えられ得る。したがって、例えば、ペプチドの位置(1,2)におけるクエリHOPペアAB-ABCDEFは、これが図5の参照データ表の第1行のAB-ABCDEFと完全に一致するため、1の類似度スコアを割り当てられるが、位置(1,3)におけるAY-ABCABDは、図5の参照データ表中の一致が存在しないため、0のスコアを割り当てられる。
別の例において、類似度スコアは、アミノ酸置換行列、例えば図4に示されるものを使用して計算することができる。これは、クエリ配列と(生物学的に有意義に)類似するが、同一でない配列からの結合親和性予測に対する寄与の包含を可能とする。類似度スコアは、ペプチドHOP及びMHC HOPについて別個に計算することができる。したがって、例えば、ペプチドHOPについて完全一致を実施することができるが、MHC HOPについて置換行列を使用することができる。
例えば、クエリMHCアレルHLA-Zは、図5の参照データ中に表示されないが、位置(1,2)におけるMHC HOPのABCDEX及び位置(1,3)におけるABCXYDを有することが決定された。ABCDEXは、位置(1,2)についての参照データ中のいかなる完全一致も有さないため、図4の置換行列を使用する場合、0.79の(正規化)類似度スコアを計算することができ、これを使用して全体的な結合親和性予測に対するABCDEXの寄与を重み付けすることができ、これは、以下に詳細に説明されるとおりである。
別の例において、類似度スコアは、ネットワーク近傍類似度演算を使用して計算することができ、それにおいて2部ネットワークをMHC HOP及びペプチドHOPから生成し、ネットワークのエッジ重みは、それぞれのペプチド-MHCペアの結合値であり、ネットワークの1部射影を実行し、これは、以下にさらに詳細に説明されるとおりである。
図1Bに戻ると、本方法の次のステップ130は、クエリMHCタンパク質に対するクエリペプチドについての結合親和性を参照ペプチド-MHC HOP値の(参照データからの)結合値の重み付き組み合わせ、典型的には和として計算することを含む。重み付き組み合わせの重みは、類似度スコアに基づいて、2回以上の類似度演算からの寄与を含み得る。例えば、配列類似度及びネットワーク近傍類似度の両方を適用することができる。
実施形態は、結合ポケットの概念を、単量体プローチを超えて拡張させ、k量体ペプチド-MHC複合体内の全ての可能なn量体ポケットに基づいて、k≧n≧1について推論を実行してMHC-ペプチド結合予測を改善する。高次MHC-ペプチドポケットを包含することにより、ペプチド及びMHC分子の両方の中のコンテキストアミノ酸n量体長さの残基の影響が含まれ、それによりMHC-ペプチド結合の生物学的複雑性をより良好に表す手法において結合親和性予測の精度を改善する。
配列及び近傍類似度を単独で又は一緒に取り込むことにより、利用可能な参照データ中に十分に表示されない(又は全く表示されない)MHCアレルについての予測を作製することが可能である。本方法は、改善され、物理的に解釈可能であり、高度に一般化可能なMHC-ペプチド結合予測子を提供する。
上記実施形態のさらなる態様をここでより詳細に記載する。
HOP分解
一例において、MHC結合溝に対するk量体ペプチド、例えば9量体の結合は、n量体相互作用の(k-n+1)の数として8つの2量体MHC-ペプチド結合ポケット相互作用、7つの3量体結合ポケット相互作用などとしてモデリングすることができる。本発明者らは、連続n量体セグメントのみを使用するこのアプローチを「連結」アプローチとして示す。図2(b)及び2(c)は、2量体及び3量体ペプチドHOPについての連結アプローチを説明する。
別の例において、線状ペプチドを閉ループとみなすことができる。9量体ペプチドから生成された3量体HOPについて、これは、ペプチド位置(8,9,1)及び(9,1,2)からなる「ループ連結」3量体を加算することを伴う。このような実施形態は、このようなMHC-ペプチド相互作用のモデリングにより物理的解釈可能性の一部の態様を失う一方、それらは、それらが連結アプローチにおける中央ペプチド残基に向かう可能なバイアスを修正する点で有利である。例えば、3量体の場合、連結アプローチにおける末端ペプチドアミノ酸位置1及び9は、1つの3量体のそれぞれ(1,2,3)及び(7,8,9)によってのみそれぞれカバーされる。残基位置2及び8は、2つの3量体によりカバーされ、残りの位置は、3つの3量体によりカバーされる。閉ループ分解アプローチを使用すると、9量体から分解された9つのn量体が常に存在する。本発明者らは、これを「ループ」アプローチと呼ぶ。ループアプローチを図2(e)に3量体について説明する。
さらなる例において、本発明者らは、対象のMHC-ペプチド結合ポケット相互作用についての全ての可能なn個の組み合わせを考慮することができ、n量体の数は、二項係数
Figure 2022512612000002

(式中、kは、完全ペプチドの長さである)により与えられる。例えば、2量体及び3量体について、
Figure 2022512612000003

、及び
Figure 2022512612000004

個の可能なn量体組み合わせがそれぞれ存在する。物理的解釈可能性から一層さらに外れる一方、ほとんどのn量体は、ここで、非連続的であるため、この分解アプローチは、クエリデータと参照データとの間で一致するMHC-ペプチド結合ポケット相互作用を見出す機会を大幅に増加させる。さらに、位置バイアスは、存在しない。本発明者らは、これを「完全」アプローチと呼ぶ。これを図2(g)に3量体について説明する。
接触点マップにより9つの結合ポケットが与えられる、MHC分子に結合している長さk=9のペプチドについて、本発明者らは、n量体MHC-ペプチド結合ポケット相互作用について以下を定義する:
- 接触位置は、kの非反復数(9量体について1から9)からなり、これは、ペプチド残基及び対応するMHC結合ポケット(例えば、接触マップに従って導出)の位置を示す。
- 高次ポケット(HOP)は、MHC-ペプチド結合複合体の実現、すなわち所与の接触位置におけるk結合ペプチド残基及び対応するMHC結合ポケットである。
- ペプチドHOPは、HOPのペプチド構成成分である。例えば、接触位置(1,3,4)及びペプチド「ABCDEFGHI」は、ペプチドHOP「ACD」をもたらす。
- MHC HOPは、図1に照らして上記考察のとおりHOPのMHC構成成分である。
本方法の実施形態は、単一のn値及び単一アプローチ(「完全」、「ループ」又は「連結」)を使用することにより、又はいくつかのn値及びアプローチを組み合わせることにより適用することができる。「完全」アプローチは、一般に、優れた性能を与えることが見出された。
以下の考察の目的のため、以下のHOP関数Hを定義することができる:
H:(c,I,X)→(i,x) (1)
(式中、Iは、MHC分子であり、Xは、ペプチドであり、c∈C(n)は、アプローチについての接触位置の集合C及び対象のn値のうちの単一接触位置である)。(i,x)は、接触位置cにおけるI及びXのHOP実現を示し、iは、MHC HOPであり、xは、ペプチドHOPである。本発明者らは、MHC分子をI及びJにより、MHC HOPを対応する小文字i及びjにより、完全ペプチドをX及びYにより、ペプチドHOPを対応するx及びyにより示す。同じ接触位置cに属するHOPのみを直接比較できること並びに上記考察のとおりMHC及びペプチドアミノ酸配列中の好適な重複が存在する限り、不等のMHC-ペプチドペア(I,X)についていくつかの同一HOP(i,x)に分解することが可能であることに留意すべきである。
不明の結合親和性及びHOP構成成分H(c,I,X)→(i,x)を有するクエリMHC-ペプチドペア(I,X)を考慮する。対応する結合親和性wJY及びHOP構成成分H:(c,J,Y)→(j,y)を有するMHC-ペプチドペア(J,Y)の参照データセットを考慮すると、以下の式を使用して、IとXとの間の結合親和性に対する単一HOP構成成分(i,x)からの結合親和性寄与を予測することができる:
Figure 2022512612000005

(式中、{(j,y)}は、c∈C(k)を有する全ての固有HOPの集合である)。さらに、Sim(i,j;x,y)は、任意の2つのHOP(i,x)と(j,y)との間の定量的類似度スコアを提供する一般的な類似度メトリックである。重みは、一般式
Figure 2022512612000006

(式中、{H(c,J,Y)=(j,y)}は、MHC-ペプチドペア(J,Y)がHOP(j,y)に分解する参照データ中の全ての成分の集合であり、wJYは、MHC-ペプチドペア(J,Y)と関連する変換結合親和性値である)により表すことができる。類似度演算子GlobalSim(I,J;X,Y)は、HOP非依存的であり、すなわちフレームワーク内で「グローバル」であり、任意の2つのMHC-ペプチドペア(I,X)と(J,Y)との間の定量的類似度スコアを提供する。ある実施形態において、GlobalSim(I,J;X,Y)≡1であり、それは、式(3)を、単に、HOP(j,y)を含む全てのMHC-ペプチドペアについての結合親和性値の平均とするものに相当する。典型的には、全ての類似度メトリックは、0から1の範囲内であることが定義され、1は、完全な類似度を意味する一方、0は、類似度なし又は最小の類似度を意味する。
式(2)は、MHC-ペプチドペア(I,X)の総結合親和性予測に対する単一接触位置からの寄与を表現する。対象のn量体アプローチについての全ての接触位置を合計することにより、以下:
Figure 2022512612000007

(式中、A(c)は、MHC-ペプチド結合相互作用においてある位置に他のものよりも大きい重要度を与えることを可能とするアンカー値重みである)により、クエリMHC-ペプチドペア(I,X)についての結合親和性予測を算出することが可能である。ペプチド位置2及び9は、HLA結合についてのそのような位置の例である。
ある実施形態において、複数の関連する類似度メトリック選択を伴う複数のn値を有する可能性を含めることが望ましいことがある。したがって、このような実施形態において、結合親和性予測は、以下のとおり、n及びSimの異なる組み合わせからの寄与を合計することにより得ることができる:
Figure 2022512612000008

(式中、N(n,Sim)は、対象のn及びSimについての固有HOP一致の数、すなわち式(4)中の全ての接触位置cにわたる式(2)中の非ゼロ和要素の数である)。残りの量、f(n,Sim)は、例えば、3量体に2量体の2倍の重要度が与えられるものとすることにより、いくつかの個々のアプローチを組み合わせる場合にフレキシビリティを可能とする重要度重み値である。式(5)は、複数のアプローチをアンサンブルする手法とみなすことができ、種々の類似度メトリック及びn値に基づくいくつかのモデルがそれぞれの結合親和性予測に寄与することを可能とする。
上記式(2、4、5)から、HOP類似度メトリックSim(i,j;x,y)の多くの異なる選択が可能である点で本方法がフレキシビリティを提供することが明らかである。
ある実施形態において、ペプチドHOP及びMHC HOPに対する類似度演算は、別個に実行される。したがって、一般の類似度メトリックは、以下のとおり表現することができる:
Sim(i,j;x,y)=MHCSim(i,j)・PepSim(x,y) (6)
(式中、MHCSim(i,j)は、MHC HOPのiとjとの間の類似度スコアを提供し、PepSim(x,y)は、ペプチドHOPのxとyとの間の類似度スコアを提供する)。
ある実施形態において、クエリペプチドの長さは、参照データ及び/又は接触点マップ中のペプチドの長さkと異なり得る。この場合、クエリペプチドを1つ以上の「仮想」k量体に変換することができる。これを行う様々な手法を図8から10に説明する。同様に、接触点の集合は、「仮想」MHC結合溝又は「仮想」ポケットを作出するようにシミュレートすることができ、それらは、以下の実施例から明確になる。
例えば、参照データが9量体を含み、クエリペプチドが11量体である場合、この問題に対する「連結」アプローチにおいて、ペプチド全体にわたり2つのアミノ酸のバルジ800を通過させることができ、図8(a)に示されるとおり、結合溝のいずれかの末端に吊るして2つの最も外側のアミノ酸から開始し、そこで終了させる。物理的11量体当たり10個(9量体ペプチド中に2つの末端及び8つの「中間物」が存在するため、9つではない)のそのような仮想ペプチドが存在する。図8(b)に説明される「完全」アプローチと称される別のアプローチは、長さ1のバルジ及びハングオフ(802a、802b)を可能とし、したがって、合計
Figure 2022512612000009

個のさらに多くの仮想ペプチドをもたらす。「完全」アプローチは、k>9の場合、
Figure 2022512612000010

のため、大きいkについて仮想ペプチドの数の組み合わせによる急増をもたらすことに留意すべきである。「移動窓」アプローチと呼ばれる別のアプローチは、図9に説明され、それぞれの物理的11量体900についての3つの仮想ペプチド902をもたらす。
「移動窓」、「連結」及び「完全」アプローチは、k<9にも適用可能であるが、バルジ及びハングオフは、ギャップ挿入により置換される。仮想ペプチドの数も、物理的ペプチドがより小さいため、k>9と比較して少ない。
k<9の場合、図10(a)に示されるとおり、ペプチド「伸張」フレームワークを実装することもでき、その場合、単一アミノ酸1000は、2つ以上のポケット、例えば隣接ポケットペア(1002,1004)又は(1004,1006)を占有し得る。すなわち、ギャップの挿入に代えて、隣接アミノ酸の2つ組を挿入して、ポケットにわたり伸張される単一アミノ酸をシミュレートすることができる。
k>9の場合、ペプチド「圧迫」アプローチをさらに実装することができ、その場合、図10(b)に示されるとおり、1つ以上のペプチド位置を2つ組とし、2つのアミノ酸を2つ組にされた単一MHCポケットに圧迫する。例えば、アミノ酸1050及び1052をポケット1060又はポケット1062中に「圧迫」することなどができる。
一部の実施形態において、上記方法は、例えば、最適化又は他の学習法を使用して、全てのk>9アプローチの組み合わせ及び全てのk<9アプローチの組み合わせを可能とすることにより組み合わせて、いずれの仮想ペプチド/MHC立体構造がデータにわたり最も意味をなすかを見出すことができる。例えば、異なる方法の種々の組み合わせは、1つ以上の訓練データセットに適用することができ、テストデータセットに適用した場合に最良の性能を与える組み合わせを最適な組み合わせとして選択することができる。したがって、組み合わせのアプローチを使用して作製される結合親和性予測は、あらゆる仮想ペプチド-MHCペアからの結合親和性予測寄与の重み付き和を含み得、1つの物理的ペプチド-MHCペア当たり1つの結合親和性予測をもたらす。
留意されてきたとおり、「仮想」k量体又は結合溝は、接触点マップを用いる複数の長さのクエリの利用を可能とするシミュレーションとみなすことができる。慣用の接触点マップにおいて、線状固定長さのペプチドをMHC残基の固定長さの集合にマッピングする。異なる長さについて、ペプチドは、k量体の組み合わせに分解することができ、それぞれの組み合わせを処理する。
提案されるシミュレートk量体技術の一例において、k量体クエリペプチドの部分集合は、接触点の部分集合にマッピングすることができる。クエリk量体を、接触点にマッピングすることができる異なる配列に変換する(又はコード変換する)ことにより、複数のペプチドアミノ酸を任意数のポケットにマッピングすることができ、したがって残基を任意のポケットにマッピングすることができる。
上記例は、より大きい(又はより小さい)クエリペプチドを低減(又は拡張)させて接触点マップにフィットさせること又は物理的効果がポケットの集合数をもたらすように複数のアミノ酸を接触点に対してマッピングすることを含む。
このように、接触点マップ技術は、異なるペプチド長さに適用可能であり、例えば9量体接触点マップをk<9又はk>9に適用可能である。接触点マップは、異なる長さ情報を含むように定義することができる。実際、本技術は、接触点マップが「設計」されるものと異なる長さのk量体に適用することができる。標的アミノ酸部分配列とバインダー-アミノ酸部分配列との間(多対多の非連続アミノ酸部分配列についても)の接触点を表現する手法が存在する限り、2つの三次元タンパク質/分子間の複合体相互作用に対処する手法が提案される。
類似度メトリックSim(i,j;x,y)の例
ベーシック類似度
1つの形態において、式(6)中の類似度メトリックSim(i,j;x,y)構成成分は、
Figure 2022512612000011

と表現することができる。
これは、クエリHOPがそのための参照データセット中の少なくとも1つの成分に完全に一致して結合親和性予測に寄与する要求と均等である。これらのメトリックを適用することにより、式(2)は、
Figure 2022512612000012

(式中、Nは、参照データ中に見出される完全HOP一致の数である)と記述することができる。
配列類似度
一部の実施形態において、類似度演算は、クエリペプチドHOPと参照ペプチドHOPとの間の配列類似度及び/又はクエリMHC HOPと参照MHC HOPとの間の配列類似度を決定することを含み得る。
式(6)中の個々のMHC類似度因子は、
Figure 2022512612000013

と記述することができ、ペプチド配列類似度PepSeqSim(x,y)についても均等に記述することができる。パラメータαは、理解されるとおり、ソフト閾値を提供するために適用することができるチューニングパラメータである。なぜなら、それは、データを明確に除外せずに弱い類似度と比較して強力な類似度の影響を調節するためである(他方、ハード閾値は、閾値未満からゼロの類似度スコアを設定する)。このようなパラメータを訓練中にチューニングすることを可能とすることは、α=1の場合よりもかなり良好なモデル性能をもたらし得る。モデル性能は、観測及び予測結合値間のピアソン相関係数並びに訓練データ点により生成される受信者動作特性(ROC)曲線下面積(AUC)を使用して評価することができ、≦500nMのIC50値を結合クラスにあるとし、その閾値を超える値を有するものを非結合クラスにあるとする。これらのメトリックは、全体にわたりそれぞれPCC及びAUCと称される。
ある実施形態において、配列類似度は、BLOSUMアラインメントを使用して決定することができる。有利には、BLOSUM80行列の使用は、本発明者らによりテストされたBLOSUM行列のうち、最良の性能(ここでも、PCC及びAUCにより測定)をもたらすことが見出された。しかしながら、他のスコア行列も、進化的考察、物理化学的考察(例えば、コード及び非コードアミノ酸についてのトポロジー及び構造情報のベクトル-VTSA及び/又は疎水性、立体的及び電子的特性の主成分スコアベクトル-VHSE)又はその両方に基づくかどうかにかかわらず使用できることが認識される。
2部ネットワーク近傍類似度
一部の実施形態において、類似度演算は、ネットワーク近傍類似度を決定することを含み得る。このような実施形態において、所与の接触位置cについて、MHC及びペプチドHOP構成成分i及びxがそれぞれ上位及び下位ノードである2部ネットワーク(グラフ)を生成することができる。任意の2つのMHC HOP間にも任意の2つのペプチドHOP間にも、直接的な連結もエッジ(リンク)も存在しない。全ての直接的なエッジは、MHC HOPとペプチドHOPとの間に存在し、関連するエッジ重みとしての結合親和性値を伴う。2部ネットワーク中の上位又は下位ノード(MHC又はペプチドHOP)にわたりこれらのエッジ重みの共分散を使用して、参照データ中に存在しないHOPについての予測を作製することが可能である。MHC HOP近傍類似度の場合、例えば、MHC-ペプチドHOPネットワークの重み付き1部射影は、MHC HOPの任意のペアにより共有される全てのペプチドHOPを、どのように同様にMHC HOPペアが共有ペプチドHOPの集合と相互作用したかを示す単一重み値により置き換えることにより決定される。重み値を決定するための複数の手法が存在するが、結合親和性のペア間の線形相関がPCC及びAUCに関して最良の性能を提供することが見出された。次いで、式(genSim)中のMHC HOP因子は、
Figure 2022512612000014

(式中、Nは、MHC HOP(上位ノード)iとjとの間の共有近傍ペプチドHOP(下位ノード)yの数であり、w’は、対象の下付きMHC HOPペアについての有効結合親和性重み値である)と表現することができる(一般化フレームワークにおいて、式(3)をそれらの重み値にも適用することができる)。均等な式は、ペプチド近傍類似度PepNbrSim(x,y)について使用される。
近傍類似度演算は、新規HOP構成成分についての推論を可能とし得ないが、類似度スコアを算出するためにテストデータが必要とされない点で有利である。換言すると、モデルをテストデータのいかなる先行知識もなしで訓練することができる。これは、より短い予測時間を可能とし得、それは、少なくとも一部の状況における短い訓練時間よりも好まれることがある。これは、他の技術、例えばブートストラッピングの実行も簡易化する。
一部の実施形態において、式(10)の代替手段が考えられる。1部ネットワークについて、重み付きトポロジーオーバーラップ(wTO)メトリックが種々の生物学的系に既に良好に適用されている。例えば、全内容が参照により本明細書に組み込まれるK. Nowick, T. Gernat, E. Almaas, and L. Stubbs,“Differences in human and chimpanzee gene expression patterns define an evolving network of transcription factors in brain,”Proceedings of the National Academy of Sciences, vol. 106, no. 52, pp. 22358-22363, 2009を参照されたい。
ノード/頂点iとjとの間のwTOは、
Figure 2022512612000015

(式中、aijは、ネットワークの重み付き隣接行列中の要素であり、kは、ノードiの重み付き/非重み付き連結度(ノード強度/次数)である)により算出することができる。したがって、このメトリックの2部バージョンは、HOP近傍類似度メトリックとして使用することができ、すなわち式(10)の右辺を置き換えることができる。これは、
Figure 2022512612000016

(式中、bwTOは、「2部重み付きトポロジー差」を意味し、i、jは、上位ノードであり、xは、下位ノードであり、kは、wTO式中の連結度と均等な2部(下位近傍ノードの和)である)と表現することができる。分母がゼロである場合、bwTO値もゼロである。同様の「2部重み付きトポロジー差」(bwTD)メトリックを、式(10b)に代えて代替的に使用することができる。
Figure 2022512612000017
bwTO及びbwTDの両方は、一部の状況で十分に機能することが見出されたが、式(10)は、予測性能(PCC及びAUC)に基づく全体的最良近傍類似度選択として浮上した。
類似度パラメータ
配列及び近傍類似度の両方並びに他の可能な類似度アプローチについて、式(9)及び(10)において行われるとおり、チューニングパラメータαを適用して、非類似HOPと比較して類似のHOPに適切な結合親和性寄与が与えられるように類似度スコアを調整することが有利であり得る。類似度値が1(同一)から0(非類似)の範囲である実施形態において、αを適用して類似度値間の比を調整する一方、それらのオーダリングを保存することができる。最小類似度スコアの形態又は固定最大数mの類似スコアの形態のいずれかで類似度カットオフを適用することも有利であり得る。MHC配列類似度の場合、例えばMHCSim=MHCSeqSimであり、PepSimが2元類似度メトリックのベーシックである場合、式(2)は、
Figure 2022512612000018

(式中、jからmの和は、単に、MHC HOPのiと最も類似するm個のMHC HOPのjを合計することを意味する)と記述することができる。
パラメータ最適化
一般フレームワークにおいて、類似度メトリック特異的パラメータ、例えばチューニングパラメータ及びカットオフ値から、より一般的に適用可能なパラメータ、例えばアンカー位置重み及びアプローチ重要度重みf(n,Sim)までの範囲のいくつかのフリーパラメータが存在する。種々の最適化戦略、例としてローカル及びグローバル法の両方をそれらのパラメータを見出すために使用することができる。
一部の実施形態において、以下に詳述される段階的パラメータ最適化アプローチを使用することができる。しかし、当業者に公知の種々の方法を使用して多くの他のパラメータ最適化プロセスを実行できることが認識される。
1.アンカー重みA(c)は、それらが汎アレル設定において評価される限り、実験設定の変化により広く影響を受けないことが見出されている。したがって、これらは、本発明者らが見出す第1のパラメータクラスである。いくつかの最適化スキームが好適であるが、本発明者らは、差分進化(DE)を適用するように選択する。なぜなら、最良のAUC値について最適化することが可能であるためであり、それは、DEのグローバル性質と一緒に、オーバーフィットする傾向が少ないパラメータを提供することが考えられる。1、2及び3量体についての完全基本HOPペアをこのステップのための予測子として選択することができる。DEアルゴリズムは、一般化パラメータを確保するためにいくつかの訓練/テスト分割について数回ランされ、平均アンカー値が次のステップに移される。9単量体アンカー重みのみが変数とみなされることに留意すべきである。なぜなら、残りの高次アンカー重みは、それらの単量体寄与の平均として算出されるためである。
2.このステップは、n値(アプローチにおけるポケットの数)及び類似度メトリック、すなわち式中の(n,Sim)により定義されるそれぞれの類似度アプローチに特異的である。ここで、前のステップにおいて見出されたアンカーパラメータを有する1、2、3量体についての完全基本HOPペアを、最適化のための予測子としての(n,Sim)により定義される特異的(近傍又は配列)類似度と組み合わせる。同様のDE最適化アルゴリズムをステップ1と同様に使用すると、それぞれの特異的最適化について最適化するための2つの変数、すなわち和カットオフパラメータm及びべき乗パラメータαのみが存在する。DEは、ローカル法(最小二乗法など)と異なり、mが整数であるため、このステップに良好に適合する。ここでも、最適化は、一般化パラメータを確保するためにいくつかの訓練/テスト分割について数回ランされ、平均m及びα値(それぞれの特異的(n,Sim)アプローチについて)が次のステップに移される。
3.ステップ1及び2後、アンカー重みA(c)及び種々の類似度アプローチに必要とされる全てのm及びα値が生成された。残部は、全体的合計予測性能が最適になるように、それぞれの(n,Sim)アプローチからの予測寄与パラメータfをチューニングすることである。カーブフィッティングパラメータ(y=ax+bにおけるa及びb)を最適化変数に加算して、訓練データにおける実測IC50測定値と類似するIC50予測を得ることもできる。変数空間は、滑らかであり、完全に正常に作動するため、最小二乗法最適化を使用し、観測及び予測値間の全体的二乗距離を最小化することができる。これは、回帰法についての望ましい特質である大きいPCC値の最適化とほぼ均等である。ここでも、最適化は、パラメータセット(それぞれそれらの訓練/テストセット及び初期条件に最適であると見出されたもの)のリストを生成するために異なる初期条件を用いて、いくつかの訓練/テスト分割について数回ランされる。最終パラメータセットは、一部の統計法をこのリストに平均(平均値、中央値)、最大全体的相関又は他の方法を介して適用することにより見出される。最大全体的相関により、最大平均相関を有するパラメータセットを有する全ての他のパラメータセットに対して平均し、したがって、それは、「コンセンサスパラメータ」と呼ぶことができる。
一例において、IEDBからのデータを2つの部分集合に分割することができ、第1の部分集合を訓練に使用し、第2の部分集合をテストに使用する。例えば、第1及び第2の部分集合は、(1)2009年までにIEDBに追加された全ての結合親和性データ(本明細書においてKim09と称される)、及び(2)2010年から2013年に追加された全ての結合親和性データ(本明細書においてKim13と称される)であり得る。結合親和性測定値(IC50/EC50)は、対数変換:1-log(IC50)/log(500)を使用して変換することができ、対数の底は、MHC-ペプチドペアが結合すると言われるデフォルト閾値を反映する(バインダーは、IC50≦500nMを有する)。さらに、データの一部を省略して、例えば上記結合データの0.5%を再現可能に偽無作為に省略することにより、データブラインディングと称される手順においてオーバーフィッティングについてのテストを支援することができる。
本方法の評価は、いくつかの数値実験を介して実行した:(1)Kim09データに対する訓練及びKim13データに対するテスト、(2)Kim09データ中の所定の5分割を使用する5分割交差検証の実行(本明細書において使用される「分割」は、いかなる他の部分集合とも重複しないデータの部分集合を指す)、(3)0.5%ブラインド化データセットに含まれない全てのデータに対する訓練及びブラインドセットに対するテスト、及び(4)テストのために1つのアレルを抜く一方、全ての残りのアレルに対して訓練する、Kim09及びKim13データセットの組み合わせ。4つの実験タイプを以下のとおり称する:(1)Kim09-Kim13、(2)Kim09 5分割、(3)ブラインド、及び(4)LOAO(リーブワンアレルアウト(leave-one-allele-out))。2つの評価メトリックをそれぞれの実験に使用した:結合についての閾値としてのIC50≦500nMの標準(すなわち、バインダー及び標的は、IC50が閾値以下である場合に結合と分類され、そうでなければ非結合と分類される)を使用する観測及び予測結合値間のピアソン相関係数(PCC)及び受信者動作特性(ROC)曲線下面積(AUC)。ROC曲線は、当技術分野において公知の任意の方法により生成することができる。例えば、PythonパッケージNumPy及びSciPyにおいて利用可能な関数を使用してROC曲線を生成することができる。
汎アレルアンカー位置重みは、無作為部分集合にわたり高度に安定的であることが見出され、それを選択して、簡易化のためのKim09の5分割交差検証についての最適な解決策として固定した。アレル特異的アンカーを配列類似度アレル特異的予測フレームワークについて実装したが、汎アレルフレームワークにおいて試行しなかった。類似度メトリック特異的パラメータは、5つのアレル及びデータの5%を訓練から抜き、テストに使用する20分割偽無作為訓練スキームにおける差分進化を使用して見出された。より慣習的な5分割交差検証も試行し、妥当なLOAO実験を除いて全てについて十分に機能するモデルをもたらした。なぜなら、それらのモデルは、次いで、訓練中に不明MHCアレルについて予測を「強制」されなかったためである。類似度パラメータは、十分数の反復後に種々の部分集合について安定的であることも見出され、したがってまた以下に考察される結果において全ての汎アプローチについて静的のままであった。アプローチ重要度重みを決定するため、本発明者らは、二重訓練フレームワークを選択し:(1)上記と同じ20分割交差検証スキームを使用してLOAO実験についてのモデルを訓練した一方、(2)それぞれの分割についての1000個の無作為パラメータ初期化を用いる標準的な交差検証を使用して他の実験についてのモデルを訓練し、最終コンセンサスパラメータを全ての他の数千個のパラメータセットに対する最大平均相関を有するセットとして選択した。
結合親和性予測の計算
1つの実装において、式(2)、(4)及び(5)における結合親和性予測は、参照データに対する適切なHOP分解を実行し、1つ以上の辞書又はハッシュ表中にその結果を保存し、次いでそれぞれのクエリHOPについて、保存された結果のルックアップを実行することにより決定することができる。重み付き和は、異なるHOP分解、類似度メトリックなどをループさせることにより計算することができる。
代わりに、一部の実装は、結合親和性を計算するためにスパース行列符号化を使用し得る。例えば、SciPyのスパース行列ライブラリーをNumPy機能と同時に使用して、より単純な反復辞書実装をはるかに凌ぐ記憶実効性及び速度の両方を達成することができる。
本発明者らは、(#データ行×#HOP ID)行列である行列Hを定義することにより開始する。HOP IDは、任意のMHC-ペプチド(バインダー-標的)HOPを固有に特定する整数である。全てのデータ行について、MHC配列(偽配列及びペプチドが存在し、それらは、N個のHOPに分解することができる(単量体HOPのみが含まれる場合、N=9)。データ行pについて、全てのHOPは、関連するHOP IDのqを有する。ベーシックフレームワークから開始して、これらの全ての(p,q)ペアに行列中で1.0の値を与える。参照のため、このベーシック行列中のそれぞれの行の和は、Nである。
行列は、2つの特色「訓練」及び「テスト」の形式があり、Htrainは、訓練(参照)データを使用して構築される一方、Htestは、テスト(クエリ)データを使用して構築される。この最も単純な形態(アンカーなし、2つ組HOP平均化なし)において、次いで、ベーシック予測は、
Figure 2022512612000019

(式中、yは、訓練データと関連する結合親和性値を含む形状の列ベクトル(#訓練データ行×1)であり、IIは、yと同じ形状を有する単位ベクトルであり、Pは、予測を含む形状の予測ベクトル(#テストデータ行×1)である)により見出すことができる。
Figure 2022512612000020

演算子は、要素毎の除算を示し、したがって、最も右側の括弧は、正規化を含むとみなすことができる。
2つ組のHOPを平均するため、Htrainの列の和を実行し、形状の行ベクトル(1×#HOP ID)を残す。この和ベクトルをHtrainの形状まで列に沿って拡張して、Mにより示される行列の和を用いて要素毎の除算演算を実行することができる。
Figure 2022512612000021
同様に、アンカー重みを適用することを望む場合、Hと同じ形状を有するアンカー重み行列Aと、Htest又はHtrainのいずれかとの間の要素毎の乗算(注記:
Figure 2022512612000022

)を単に実行する。参照のため、Aは、最大N個の固有値を有し、全ての列は、等しい要素からなる(これは、同じHOPであるため)。実装の点で、これは、見かけほど煩雑ではない。なぜなら、密H型行列の作製を回避するAのこの予測可能な構造を利用することができるためである。同じことは、Mを用いる上記演算に当てはまる。アンカーを適用する。
Figure 2022512612000023
これまでのところ、本発明者らは、類似度を考慮していない。フレームワークへの類似度の加算は、一般に、プロセス全体、例としてアンカー重み及び正規化に影響し、任意の他の演算前に適用しなければならない。近傍類似度又は配列類似度又はその両方を使用する場合、それぞれの行についてもはやN個のHOPは存在しない。むしろ、1行当たりのHOPの数は、n、Sim、m及びαにより影響を受け、一般にそれぞれの行について不等である。しかしながら、全ての行についての共通の特徴は、1.0に等しい行当たりN個の要素が常に存在することである(非ゼロαの場合)。他の要素に類似度値∈[0,1)を与える。これらの類似度要素を有する行列を追加するプロセスは、以下のとおりであり得る。
1.(データ行pから分解された)それぞれのHOPについて、データ中に存在するm個の最も類似するHOPを見出す。
2.それぞれのHOPについて、1において見出されたm個のヒットに一致するHOP IDのqを見出す。
3.要素(p,q)を、Sim及びαにより与えられる原点HOPと類似HOPとの間の類似度スコアと等しいものとする。
上記において、HOPは、選択されるアプローチに応じてMHC-ペプチド(完全)HOP、MHC HOP又はペプチドHOPであり得る。これを、類似度間に重複する要素が存在しない限り(存在する場合、一部の規則を適用して要素が0から1であることを確保しなければならない)、
H=HBasic+HSimA+HSimB+...(15)
になるように複数の類似度について行うことができる。
典型的には、配列類似度は、「テスト」行列にのみ適用される。なぜなら、クエリ配列は、予測を算出するために必要とする類似度を決定するためである。近傍類似度は、典型的には、「訓練」行列にのみ適用される。なぜなら、NbrSimは、訓練データ中に既に存在するMHC及びペプチドHOPについての予測の作製に限定されるためである。
配列及び近傍類似度は、以下のとおり予測中に取り込むことができる(自己類似度は、ベーシック行列中に既に含まれるため、NbrSim及びSeqSimから除去される)。
train=Htrain Basic+Htrain NbrSim(16)
Mは、上記考察の行列の和Mと類似の様式でHtrainから見出される。この場合、
Figure 2022512612000024

である。
さらに、アンカーを加算する。
Figure 2022512612000025
クエリ行列は、
test=Htest Basic+Htest SeqSim
であり、予測は、
Figure 2022512612000026

により上記と同様に見出される。
上記のとおり、クエリペプチドが参照ペプチドと異なる長さkである場合、単一k量体についての結合親和性の予測は、これらのステップを使用して行うことができる:
- 上記の分解法の1つ又は組み合わせを使用してk量体を仮想ペプチド-MHCペアに変換する。
- 結合親和性値をそれぞれの仮想ペプチド-MHCペアについて予測する(以下では「仮想予測」と呼ぶ)。
- k量体の結合親和性を以下の1つにより見出す:
〇最良(最小IC50値)仮想予測の値を選択すること。
〇全ての仮想予測の平均(平均値、中央値など)を算出すること。
〇仮想予測の部分集合、例えば上位10%又は上位3%の最良の値を平均すること。
〇仮想ペプチド-MHCペア重要度重みの集合を取得することができる場合、全ての仮想予測の重み付き平均を実行すること。
評価結果
ベーシック汎アレル法
図2(h)に概略的に示され、「完全1、2、3量体」と表示されたHOP分解を使用してベーシック汎アレル法(式(7)及び(8))を適用した。本発明者らは、式(4)及び(5)中のアンカー及びアプローチ重み値A(c)及びf(n)にわたる最適化もそれぞれ可能とした。上記概説の検証実験を使用して、本発明者らは、1、2及び3量体ベーシック汎アレル法について表1に示される性能を得た。ここで、表のそれぞれは、記載の技術を実証するための9量体についてのものである。本方法は、Kim09-Kim13実験について0.920のAUC値及び0.752のPCC値を提供し、Kim09 5分割交差検証と同等の値である。これらの値は、方法論的に同等のツール、例えばPickPocket、Nebula及びsNebulaについての報告値を上回る。したがって、有利には、本方法のベーシック汎アレルバージョンは、アレル特異的アプローチと競合する予測を達成し得るが、大量の訓練データを要求せずに達成し得る。
LOAO予測は、AUC=0.849及びPCC=0.608の全重み付き平均を有した。一部の場合、訓練セット中のMHCアレルとMHC HOPをほとんど共有しない(HLA-A-01-01及びHLA-A-29-02)又は全く共有しない(HLA-B-46-01)アレルについての予測は、平均よりも劣った。
配列類似度推論を用いる汎アレル法
式(9)の使用による配列類似度推論の加算は、訓練データのサイズを有効に増加させ、クエリHOPと十分に類似する配列を有するMHC-ペプチドペアから生じるデータ点も加算する。配列類似度アプローチは、上記概説のとおりMHC HOP、ペプチドHOP又はその両方に関して同時に適用することができる。以下の結果を生成するため、本発明者らは、単一因子類似度メトリック、すなわちMHC及びペプチド配列類似度のみを考慮し、上記類似度因子の両方を組み合わせる高次配列類似度メトリックを考慮しなかった。
配列類似度法性能は、ベーシック法性能を全体的にわずかに上回り、例えばKim09-Kim13実験についてAUC=0.926及びPCC=0.765であった。表2に示されるとおり、LOAO実験の結果は、訓練データ中の完全MHC HOP一致をほとんど又は全く有さないアレル、例えばHLA-A-01-01、HLA-A-29-02及びHLA-B-46-01についてのかなりの改善を示す。有利には、本方法に、クエリアレル/ペプチドと類似する配列セグメントを有するMHCアレル/ペプチドからのデータを利用させることにより、これらのアレルについての性能の大幅な増加を確認する。AUCは、HLA-A-01-01について0.551から0.795に、HLA-B-46-01について0.5(すなわち無作為)から0.930に増加し、対応してPCC値が増加する。配列類似度LOAO性能の総重み付き平均は、AUC=0.900及びPCC=0.683をもたらし、それは、予測子の訓練データ中に含まれないアレルについて全ての予測が作製されたことを考慮すると優れている。これらの結果は、配列類似度法が訓練データ中の新規又は少数のみ存在するアレルについて十分に一般化し得ることを示す。
近傍類似度データインピュテーションを用いる汎アレル法
近傍類似度法は、配列類似度法と同様に、参照データにわたる結合特徴を共有するMHC及びペプチドHOPからの寄与を上記のとおり含めるベーシック法への拡張である。
汎アレルネットワーク近傍類似度法は、配列類似度アプローチと同様にMHC及びペプチドHOP近傍類似度をベーシック汎アレル1、2及び3量体法に加算する。近傍類似度法の性能を表3に示す。ベーシック法と比べて、AUC及びPCCスコアの両方の中等度の増加が観察された。スコアは、配列類似度法のものとほぼ同一である。Kim09-Kim13テストは、AUC=0.928及びPCC=0.766を生じさせた。これらの包括的アレル実験は、クエリHOP構成成分が一般に訓練データ中に十分にカバーされる状況における近傍アプローチの強度を見せる。
LOAO実験は、ベーシック法結果の全体的傾向に従い(表1)、一部の個々のアレルについてのかなりの変動にかかわらず、平均AUC=0.850及びPCC=0.616であった。
組み合わせ類似度戦略を用いる汎アレル法
配列類似度及び近傍類似度アプローチを組み合わせることは、訓練データインピュテーションと配列類似度推論との組み合わせを活用することにより、配列及びネットワーク近傍類似度戦略の両方の利点を本方法が取り込むことを可能とする。組み合わせ戦略について、本発明者らは、3よりも長い長さのn量体HOPを許容し、それは、大部分、テストデータが訓練データに密接に類似した場合、わずかな性能増加をもたらし、そうでなければオーバーフィッティング傾向に起因して有意な減少を伴った。したがって、LOAO実験は、上記のとおり1、2及び3量体に制限された。組み合わせLOAO結果は、配列類似度アプローチのものと密接に類似するが、ほぼ全てのアレルについてわずかからかなりの改善があり、平均AUC=0.921及びPCC=0.731をもたらした。
表4に示されるとおり、組み合わせアプローチは、全ての実験について従来のアプローチを改善し、図5に示されるとおり、Kim09-Kim13テストについてAUC=0.930及びPCC=0.770であり、他の実験について同様に増加する。モデルは、ブラインドデータセットの開封後に変更も改造もされず、それは、良好な一般化可能性を明確に示唆する一方、他のアプローチと比べて優れた性能も提供する。
上記考察から、本方法の実施形態は、訓練データベース中でカバレッジをほとんど又は全く有さないアレルについてのMHC-ペプチド結合親和性の予測において、従来技術の単量体中心ポケットベースアプローチと比較して改善された性能を提供することが認識される。従来技術の方法の少なくとも一部の限定は、n量体HOP2部ネットワーク近傍及び/又は配列アラインメントからの類似度推論の統合を介して克服することができる。統合された一般的フレームワーク及びネットワーク推論の性能は、方法論的に同等の汎アレルアプローチのものを超過し、標準的IEDBデータ性能テストについてクラス最高のニューラルネットワークアプローチに接近する全体的性能に到達する。0.93から0.95の平均AUCスコア及び0.77から0.81のPCCスコアは、記載のアプローチの優れた分類及び回帰特性の両方を実証する。本方法の実施形態の強力な有用性を実証する最も説得力のある結果は、LOAO実験において確認することができ、それは、AUC=0.92及びPCC=0.73の平均性能を実証する。したがって、本方法は、希少でほとんど研究されていないMHCアレルについての有用な結合親和性予測を作製し得る。
本文献において、本発明者らは、ワクチンの設計における本方法の明確な使用を提供する。しかしながら、本明細書に記載の技術を、特定の標的を認識するテーラーメイドT細胞の設計に同等に適用できることが理解される。同様に、本技術は、腫瘍中のネオアンチゲン負荷を同定し、それをバイオマーカーとして使用する場合、すなわち治療法に対する応答を予測するために使用することもできる。
ここで、図11に戻ると、本方法の実施形態の実装に好適なシステムの一例が示される。システム1100は、参照データストア1120と通信する少なくとも1つのサーバ1110を含む。サーバは、例えば、通信ネットワーク1140上で自動ペプチド合成装置1130とも通信し得る。
ある実施形態において、サーバは、複数のペプチドのアミノ酸配列及びタンパク質のアミノ酸配列を得、それぞれのペプチドについて、上記ステップを使用してタンパク質に対する予測結合親和性を決定し得る。それぞれの予測結合親和性に基づいて、サーバは、複数のペプチドの1つ以上の候補ペプチドを選択し得る。
候補ペプチドは、自動ペプチド合成装置1130に送信してペプチドを合成することができる。自動ペプチド合成装置1130は、標的エピトープ、すなわちこの例において標的ペプチドを合成により生成する。自動ペプチド合成についての技術は、当技術分野において周知であり、任意の公知の技術を使用できることが理解される。典型的には、標的ペプチドは、標準的な固相合成ペプチド化学反応を使用して合成し、逆相高速液体クロマトグラフィーを使用して精製してから水溶液に配合する。ワクチン接種に使用される場合、投与前にペプチド溶液を通常アジュバントと混合してから患者に投与する。
ペプチド合成技術は、20年超にわたり存在しているが、近年、急速な改善を受けている。簡潔性のため、そのような機器を詳細に記載しないが、それらの操作は、当業者に理解され、そのような慣用の機器は、サーバから候補タンパク質を受信するように適合させることができる。
サーバは、クエリ標的分子に対するクエリバインダー分子の結合親和性を予測するための上記の機能を含み得る。それぞれの結合親和性は、さらなる処理モジュールに送信してワクチンの作出に好適な結合親和性に基づいて標的エピトープを同定することができる。しかしながら、サーバは、ワクチン設計のための標的エピトープを同定するようにも操作可能である。当然のことながら、これらの機能は、コンピュータネットワークの異なる処理実体及び互いに通信する異なる処理モジュールにわたり下位分類できることが理解される。例えば、サーバは、コンピュータネットワーク上で1つ以上のクエリ分子を受信し、好適な結合親和性又は候補エピトープの集合を返し得る。クエリは、コンピュータネットワークから電子的に受信されるか、又はグラフィカルユーザインタフェースに入力され得る。
結合親和性を予測し、その結合親和性に基づいて候補ペプチドを同定するための技術は、カスタマイズされたワクチン開発のためのより広いエコシステム中に統合し得る。ワクチン開発エコシステムの例は、当技術分野において周知であり、コンテキストについて高いレベルで記載されているが、簡潔性のためにエコシステムを詳細に記載しない。
エコシステムの一例において、第1のサンプルステップは、腫瘍生検物及び適合健常組織対照からDNAを単離することであり得る。第2の配列ステップにおいて、データをシーケンシングし、バリアント、すなわち突然変異を同定する。免疫プロファイラーステップにおいて、(インシリコで)関連する突然変異ペプチドを生成することができる。
関連する突然変異ペプチド及び本明細書に記載の技術を使用して、ネオアンチゲンを予測及び選択し、ワクチン設計のために標的エピトープを同定することができる。すなわち、予測結合親和性に基づいて選択された候補ペプチド配列を、本明細書に記載の技術を使用して決定する。
次いで、上記の慣用の技術を使用して標的エピトープを合成により生成する。投与前、ペプチド溶液を通常アジュバントと混合してから患者に投与する(ワクチン接種)。
本明細書に記載の方法により予測される好適な標的エピトープは、ペプチドベースワクチン以外の他のタイプのワクチンを作出するために使用することもできる。例えば、ペプチド標的を対応するDNA又はRNA配列にコードし、それを使用して患者にワクチン接種することができる。DNAは、通常、プラスミド構築物中に挿入されることに留意されたい。代わりに、DNAは、細菌のゲノム又はウイルス送達系(ウイルス送達系に応じてRNAでもあり得る)中に取り込むことができ、それを使用して患者にワクチン接種することができ、すなわち患者における免疫後、すなわちインビボで標的を製造する遺伝子操作ウイルス又は細菌中で製造されるワクチンである。
好適なサーバ1110の一例を図12に示す。この例において、サーバは、少なくとも1つのマイクロプロセッサ1200、メモリ1201、任意選択の入力/出力装置1202、例えばキーボード及び/又はディスプレイ並びにバス1204を介して相互接続された外部インターフェース1203を示されるとおり含む。この例において、外部インターフェース1203は、サーバ1110を周辺装置、例えば通信ネットワーク1140、参照データストア1120、他のストレージ装置などに接続するために利用することができる。単一外部インターフェース1203を示すが、これは、例の目的にすぎず、実際、種々の方法(例えば、イーサネット、シリアル、USB、ワイヤレスなど)を使用する複数のインターフェースを提供することができる。
使用において、マイクロプロセッサ1200は、メモリ1201に保存されたアプリケーションソフトウェアの形態の命令を実行して要求される処理、例として参照データストア1120との通信を実行させて入力データを受信し、処理し、及び/又はクライアント装置を用いてクエリバインダー分子及びクエリ標的分子についての配列データを受信し、上記方法に従って結合親和性予測を生成する。アプリケーションソフトウェアは、1つ以上のソフトウェアモジュールを含み得、好適な実行環境、例えばオペレーティングシステム環境などにおいて実行させることができる。
したがって、サーバ1200は、任意の好適な処理システム、例えば好適にプログラムされたクライアント装置、PC、ウェブサーバ、ネットワークサーバなどから形成できることが認識される。1つの特定の例において、サーバ1200は、標準的な処理システム、例えばIntel Architectureベース処理システムであり、それは、不揮発性(例えば、ハードディスク)ストレージ上に保存されたソフトウェアアプリケーションを実行するが、これは、必須でない。しかしながら、処理システムは、任意の電子処理装置、例えばマイクロプロセッサ、マイクロチッププロセッサ、論理ゲート構成、場合により論理実装と関連するファームウェア、例えばFPGA(フィールドプログラマブルゲートアレイ)又は任意の他の電子装置、システム若しくは構成であり得ることも理解される。したがって、サーバという用語が使用される一方、これは、例の目的のためにすぎず、限定を意図するものではない。
サーバ1200を単一実体として示す一方、サーバ1200は、例えば、クラウドベース環境の一部として提供される処理システム及び/又はデータベース1201を使用することにより、多数の地理的に離隔した位置に分散させ得ることが認識される。したがって、上記構成は、必須でなく、他の好適な構成を使用することができる。
Figure 2022512612000027
Figure 2022512612000028
Figure 2022512612000029
Figure 2022512612000030

Claims (17)

  1. クエリ標的分子に対するクエリバインダー分子の結合親和性を予測するコンピュータ実装方法であって、前記クエリバインダー分子は、第1のアミノ酸配列を有し、及び前記クエリ標的分子は、第2のアミノ酸配列を有し、前記方法は、
    少なくとも1つのプロセッサを用いて、それぞれのペアになった参照バインダー配列及び参照標的配列を含む参照バインダー-標的ペアの参照データストアにアクセスすることであって、それぞれの参照バインダー-標的ペアは、関連する既知の結合値を有する、アクセスすること;
    前記少なくとも1つのプロセッサを用いて、前記第1のアミノ酸配列にわたって集合的にスパンする1つ以上のクエリバインダー部分配列の集合としての前記第1のアミノ酸配列の表示を生成することであって、それぞれのクエリバインダー部分配列は、前記第1のアミノ酸配列に沿ったそれぞれの位置における1つ以上のアミノ酸残基を含む、生成すること;
    前記クエリバインダー部分配列の集合のそれぞれのクエリバインダー部分配列について、前記第2のアミノ酸配列中の接触アミノ酸残基の接触位置を決定し、且つ前記接触アミノ酸残基から対応するクエリ標的部分配列をアセンブルして、それによりクエリバインダー-標的部分配列ペアを生成すること;
    前記少なくとも1つのプロセッサを用いて、前記参照バインダー-標的ペアから、複数の参照バインダー-標的部分配列ペアを含む参照データセットを生成することであって、それぞれの参照バインダー-標的部分配列ペアは、それぞれのクエリバインダー部分配列のものに対応する位置における前記それぞれの参照バインダー配列のアミノ酸残基を含む参照バインダー部分配列、及び前記接触位置におけるそれぞれの参照標的配列のアミノ酸残基を含む参照標的部分配列を含み;それぞれの参照バインダー-標的部分配列ペアは、それが生成された前記参照バインダー-標的ペアの前記既知の結合値に基づいて参照結合値を割り当てられる、生成すること;
    前記少なくとも1つのプロセッサを用いて、前記それぞれのクエリバインダー-標的部分配列ペア及び前記参照バインダー-標的部分配列ペアに対して少なくとも1回の類似度演算を実行することであって、それぞれのクエリバインダー-標的部分配列ペアについて複数の類似度スコアを生成する、こと;及び
    前記少なくとも1つのプロセッサを用いて、前記クエリ標的分子に対する前記クエリバインダー分子の前記結合親和性を前記参照バインダー-標的部分配列ペアの前記参照結合値の重み付き組み合わせとして計算することであって、前記重み付き組み合わせの重みは、前記類似度スコアに基づく、計算すること
    を含む、コンピュータ実装方法。
  2. 少なくとも1つのクエリバインダー部分配列は、少なくとも2つのアミノ酸残基を含む、請求項1に記載のコンピュータ実装方法。
  3. 前記類似度演算は、クエリバインダー部分配列と参照バインダー部分配列との間の比較のための第1の類似度スコアと、クエリ標的部分配列と参照標的部分配列との間の比較のための第2の類似度スコアとを生成することにより、それぞれの類似度スコアを生成し、且つ前記第1の類似度スコア及び第2の類似度スコアを組み合わせる、請求項1又は2に記載のコンピュータ実装方法。
  4. 前記第1の類似度スコアは、完全一致の場合に非ゼロ値を与えられ、且つそうでなければゼロ値を与えられ、及び/又は前記第2の類似度スコアは、完全一致の場合に非ゼロ値を与えられ、且つそうでなければゼロ値を与えられる、請求項3に記載のコンピュータ実装方法。
  5. 前記類似度演算は、クエリバインダー部分配列と参照バインダー部分配列との間の配列アラインメント及び/又はクエリ標的部分配列と参照標的部分配列との間の配列アラインメントを含む、請求項1から3のいずれか一項に記載のコンピュータ実装方法。
  6. 前記類似度演算は、第1のノードの集合及び第2のノードの集合を含む2部グラフを生成することであって、前記第1のノードの集合は、バインダー部分配列のみを含み、及び前記第2のノードの集合は、標的部分配列のみを含み、前記2部グラフのエッジ重みは、前記関連する既知の結合値に等しい、生成すること;及び前記第1のノードの集合及び/又は前記第2のノードの集合について前記2部グラフの1部射影を決定することであって、前記類似度スコアは、前記1部射影のエッジ重みである、決定することを含む、請求項1から3のいずれか一項又は請求項5に記載のコンピュータ実装方法。
  7. 前記第1の集合のノードのペアについての類似度スコアは、前記第1の集合のノードの前記ペアの両方のノードが連結されている前記第2の集合の共通ノードの集合を決定すること;及び前記2部グラフの前記対応するエッジ重み間の線形相関を計算すること、によって計算される、請求項6に記載のコンピュータ実装方法。
  8. 前記第2の集合のノードのペアについての類似度スコアは、前記第2の集合のノードの前記ペアの両方のノードが連結されている前記第1の集合の共通ノードの集合を決定すること;及び前記2部グラフの前記対応するエッジ重み間の線形相関を計算すること、によって計算される、請求項6又は7に記載のコンピュータ実装方法。
  9. 接触アミノ酸残基の前記位置は、接触点マップに従って決定される、請求項1から8のいずれか一項に記載のコンピュータ実装方法。
  10. 接触位置を決定する前記ステップは、前記クエリバインダー部分配列に基づいて、前記接触点マップにおける使用のための仮想クエリバインダー部分配列をシミュレートすることであって、前記仮想クエリバインダー部分配列は、前記クエリバインダー部分配列と異なる長さを有する、シミュレートすること及び/又は前記接触点マップにおける使用のための接触点の集合をシミュレートすることをさらに含む、請求項9に記載のコンピュータ実装方法。
  11. クエリバインダー部分配列の最大長さは、Lであり、L>1であり、及び前記1つ以上のクエリバインダー部分配列の集合は、1からLの間の長さの前記第1のアミノ酸配列の全ての可能な部分配列を含む、請求項2から10のいずれか一項に記載のコンピュータ実装方法。
  12. 前記類似度演算は、それぞれの参照バインダー-標的部分配列ペアを、前記それぞれの参照バインダー部分配列の前記アミノ酸位置に従って重み付けすることを含む、請求項1から11のいずれか一項に記載のコンピュータ実装方法。
  13. 前記第2のアミノ酸配列は、MHCタンパク質配列又はHLAタンパク質配列である、請求項1から12のいずれか一項に記載のコンピュータ実装方法。
  14. 前記結合親和性を計算することは、参照データ行列、クエリデータ転置行列及び前記参照結合値のベクトルの積を計算することを含み、前記参照データ行列の成分は、それぞれの参照バインダー配列及び/又は参照標的配列中の参照部分配列の存在又は不存在を示し、及び前記クエリデータ転置行列の成分は、それぞれのクエリバインダー配列及び/又はクエリ標的配列中の参照部分配列の存在又は不存在を示し;前記参照データ行列の前記成分及び前記クエリデータ行列の前記成分は、前記類似度スコアに従って重み付けされる、請求項1から13のいずれか一項に記載のコンピュータ実装方法。
  15. 少なくとも1つの候補タンパク質結合ペプチドを生成する方法であって、
    複数のペプチドのアミノ酸配列及びタンパク質のアミノ酸配列を得ること;
    それぞれのペプチドについて、請求項1から14のいずれか一項に記載の方法により、前記タンパク質に対する予測結合親和性を決定すること;及び
    前記それぞれの予測結合親和性に基づいて前記複数のペプチドの1つ以上の候補ペプチドを選択すること
    を含む方法。
  16. 前記1つ以上の候補ペプチドを合成することか、又は前記候補ペプチドを対応するDNA若しくはRNA配列にコードすること、及び/又は前記配列を細菌のゲノム若しくはウイルス送達系中に取り込むことであって、ワクチンを作出する、ことをさらに含む、請求項15に記載の方法。
  17. クエリ標的分子に対するクエリバインダー分子の結合親和性を予測するための結合親和性予測システムであって、前記クエリバインダー分子は、第1のアミノ酸配列を有し、及び前記クエリ標的分子は、第2のアミノ酸配列を有し、前記システムは、少なくとも1つの記憶装置と通信する少なくとも1つのプロセッサを含み、前記少なくとも1つの記憶装置は、それに保存された命令であって、前記少なくとも1つのプロセッサに、請求項1から14のいずれか一項に記載の方法を実行させるための命令を有する、結合親和性予測システム。
JP2021518717A 2018-10-05 2019-10-04 結合親和性予測のための方法及びシステム並びに候補タンパク質結合ペプチドを生成する方法 Active JP7410138B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18198984.9A EP3633681B1 (en) 2018-10-05 2018-10-05 Method and system for binding affinity prediction and method of generating a candidate protein-binding peptide
EP18198984.9 2018-10-05
PCT/EP2019/076954 WO2020070307A1 (en) 2018-10-05 2019-10-04 Method and system for binding affinity prediction and method of generating a candidate protein-binding peptide

Publications (3)

Publication Number Publication Date
JP2022512612A true JP2022512612A (ja) 2022-02-07
JPWO2020070307A5 JPWO2020070307A5 (ja) 2023-11-17
JP7410138B2 JP7410138B2 (ja) 2024-01-09

Family

ID=63787867

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021518717A Active JP7410138B2 (ja) 2018-10-05 2019-10-04 結合親和性予測のための方法及びシステム並びに候補タンパク質結合ペプチドを生成する方法

Country Status (8)

Country Link
US (1) US20210391032A1 (ja)
EP (1) EP3633681B1 (ja)
JP (1) JP7410138B2 (ja)
CN (1) CN113168887B (ja)
CA (1) CA3115180A1 (ja)
ES (1) ES2970582T3 (ja)
PL (1) PL3633681T3 (ja)
WO (1) WO2020070307A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2020443560B2 (en) 2020-04-20 2024-03-21 Nec Corporation A method and a system for optimal vaccine design
CA3176320A1 (en) 2020-04-20 2021-10-28 Richard STRATFORD Sars-cov-2 vaccines
EP3901954A1 (en) 2020-04-20 2021-10-27 NEC OncoImmunity AS Method and system for identifying one or more candidate regions of one or more source proteins that are predicted to instigate an immunogenic response, and method for creating a vaccine
CA3176326A1 (en) 2020-04-20 2021-10-28 Boris SIMOVSKI Method and system for identifying one or more candidate regions of one or more source proteins that are predicted to instigate an immunogenic response, and method for creating a vaccine
CN111951887B (zh) * 2020-07-27 2024-06-28 深圳市新合生物医疗科技有限公司 基于深度学习的白细胞抗原与多肽结合亲和力预测方法
CN114120006B (zh) * 2020-08-28 2024-02-06 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备和计算机可读存储介质
WO2023230077A1 (en) * 2022-05-23 2023-11-30 Palepu Kalyan Contrastive learning for peptide based degrader design and uses thereof
CN115798595B (zh) * 2023-01-30 2023-05-09 深圳新合睿恩生物医疗科技有限公司 蛋白质序列的水解位点预测方法及装置、设备、存储介质
CN116844637B (zh) * 2023-07-07 2024-02-09 北京分子之心科技有限公司 一种获取第一源抗体序列对应的第二源蛋白质序列的方法与设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004003221A2 (en) * 2002-06-28 2004-01-08 Applera Corporation Methods for peptide-protein binding prediction
JP2008222574A (ja) * 2007-03-08 2008-09-25 Chiba Univ 分子設計装置、分子設計方法及びプログラム
US20130330335A1 (en) * 2010-03-23 2013-12-12 Iogenetics, Llc Bioinformatic processes for determination of peptide binding

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8145437B2 (en) * 2005-06-24 2012-03-27 Jan Biro System and method to obtain oligo-peptides with specific high affinity to query proteins
CA2775159A1 (en) * 2009-09-25 2011-03-31 Shanghai National Engineering Research Center Of Antibody Medicine Co., Ltd. Method of acquiring proteins with high affinity by computer aided design
CN102509029A (zh) * 2011-10-26 2012-06-20 重庆教育学院 人类1型双载蛋白Src同源结构域3结合肽的亲和力预测及分析方法
US20160132631A1 (en) * 2013-06-10 2016-05-12 Iogenetics, Llc Bioinformatic processes for determination of peptide binding
CN107038348B (zh) * 2017-05-04 2020-03-10 四川大学 基于蛋白-配体相互作用指纹图谱的药物靶标预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004003221A2 (en) * 2002-06-28 2004-01-08 Applera Corporation Methods for peptide-protein binding prediction
JP2008222574A (ja) * 2007-03-08 2008-09-25 Chiba Univ 分子設計装置、分子設計方法及びプログラム
US20130330335A1 (en) * 2010-03-23 2013-12-12 Iogenetics, Llc Bioinformatic processes for determination of peptide binding

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MORTEN NIELSEN, ET AL.: "NetMHCpan-3.0; improved prediction of binding to MHC class I molecules integrating information from", GENOME MEDICINE [ONLINE], vol. 8, no. 33, JPN6023019106, 30 March 2016 (2016-03-30), pages 1 - 9, ISSN: 0005056705 *

Also Published As

Publication number Publication date
JP7410138B2 (ja) 2024-01-09
WO2020070307A1 (en) 2020-04-09
EP3633681A1 (en) 2020-04-08
CA3115180A1 (en) 2020-04-09
ES2970582T3 (es) 2024-05-29
CN113168887B (zh) 2024-03-19
PL3633681T3 (pl) 2024-04-22
CN113168887A (zh) 2021-07-23
US20210391032A1 (en) 2021-12-16
EP3633681C0 (en) 2024-01-03
EP3633681B1 (en) 2024-01-03

Similar Documents

Publication Publication Date Title
JP7410138B2 (ja) 結合親和性予測のための方法及びシステム並びに候補タンパク質結合ペプチドを生成する方法
Manavalan et al. iBCE-EL: a new ensemble learning framework for improved linear B-cell epitope prediction
Jendrusch et al. AlphaDesign: A de novo protein design framework based on AlphaFold
Andrusier et al. FireDock: fast interaction refinement in molecular docking
Custódio et al. A multiple minima genetic algorithm for protein structure prediction
KR20230164757A (ko) Mhc 펩티드 결합 예측을 위한 gan-cnn
Zhang et al. Pred TAP: a system for prediction of peptide binding to the human transporter associated with antigen processing
US20220076783A1 (en) Methods and Systems for the Precise Identification of Immunogenic Tumor Neoantigens
Pappalardo et al. Computational modelling approaches to vaccinology
US20150205911A1 (en) System and Method for Predicting the Immunogenicity of a Peptide
Knapp et al. PeptX: using genetic algorithms to optimize peptides for MHC binding
AU2016247474B2 (en) Method and electronic system for predicting at least one fitness value of a protein, related computer program product
Fu et al. An overview of bioinformatics tools and resources in allergy
Han et al. Quality assessment of protein docking models based on graph neural network
Charoenkwan et al. StackTTCA: a stacking ensemble learning-based framework for accurate and high-throughput identification of tumor T cell antigens
Habibi et al. LRC: A new algorithm for prediction of conformational B-cell epitopes using statistical approach and clustering method
Toussaint et al. Towards in silico design of epitope-based vaccines
Sung et al. Candidate epitope identification using peptide property models: application to cancer immunotherapy
Ambroise et al. Identification of relevant properties for epitopes detection using a regression model
Roggen B-cell epitope engineering: A matter of recognizing protein features and motives
US20120232856A1 (en) Method of calculating areas
Varela et al. Combination of differential evolution and fragment-based replacements for protein structure prediction
Widmer et al. Novel machine learning methods for MHC class I binding prediction
Mumtaz et al. Scrutinizing human MHC polymorphism: Supertype analysis using Poisson-Boltzmann electrostatics and clustering
Jalilvand et al. Disease gene prioritization using network topological analysis from a sequence based human functional linkage network

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230512

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230810

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231011

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20231109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231221

R150 Certificate of patent or registration of utility model

Ref document number: 7410138

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150