JP2022532681A

JP2022532681A - 結合親和性予測方法及びシステム並びに候補タンパク質結合ペプチド発生方法

Info

Publication number: JP2022532681A
Application number: JP2021568775A
Authority: JP
Inventors: ローズ，クリス; エイドサー，マリウス; ストラットフォード，リチャード; クランシー，トレヴァー
Original assignee: エヌイーシーオンコイミュニティエーエス
Priority date: 2019-05-17
Filing date: 2020-05-15
Publication date: 2022-07-15
Also published as: US20220208301A1; WO2020234188A1; EP3739589A1

Abstract

本発明の第１の態様によれば、クエリー標的分子へのクエリー結合剤分子の結合親和性値を予測するコンピューター実装方法が提供される。クエリー結合剤分子は第１のアミノ酸配列を有し、且つクエリー標的分子は第２のアミノ酸配列を有し、本方法は、第１及び第２のアミノ酸配列を複数のデータ要素として一緒にコード化してコード化されたアミノ酸ペアを発生させることであって、コード化されたペアの各データ要素が、第１のアミノ酸配列と第２のアミノ酸配列とのそれぞれのコンタクトポイントで第１及び第２のアミノ酸配列のどのアミノ酸がペアになってコンタクトポイントペアを形成するかを表し、コンタクトポイントペアが、互いに近接して結合に影響を及ぼす結合剤分子及び標的分子のアミノ酸のペア形成である、発生させることと、コード化されたアミノ酸ペアに機械学習又は統計モデルを適用して結合親和性値を予測することであって、機械学習モデル又は統計モデルが、少なくとも１つのプロセッサーを用いて、それぞれのペアになった参照結合剤配列及び参照標的配列を含む参照結合剤－標的ペアの参照データストアにアクセスすることであって、各参照結合剤－標的ペアが、関連付けられた測定結合値を有する、アクセスすることと、各参照結合剤－標的ペアを複数のデータ要素としてコード化することであって、予測された結合親和性値がクエリー結合剤分子とクエリー標的分子との各コンタクトポイントペアの結合への寄与を表すように、コード化された参照結合剤－標的ペアの各データ要素が、それぞれのペアになった参照結合剤配列及び参照標的配列のどのアミノ酸がそれぞれのコンタクトポイントでペアになってコンタクトポイントペアを形成するかを表す、コード化することと、によりトレーニングされる、予測することと、を含む。

Description

発明の背景
生物学的分子の結合は、バイオインフォマティクス、ゲノミクス、プロテオミクス、医学、及び薬理学を含むバイオメディカルサイエンス全体にわたる関心事である。分子結合を理解することは、健常な及び疾患のある組織、器官、及び被験者における、診断、予後、及び予測タスクにおける、並びに医薬の開発、評価、及び選択における、生物学的プロセスの特徴付けに役立つ。一般性を損なうことなく、一例は、ワクチン開発のための免疫原性抗原の同定における結合の役割である。

このシナリオでは、候補ペプチドは、ワクチンに使用するために標的分子へのペプチドの結合の結合親和性値に基づいて選ばれうる。候補ペプチドは、予想された結合に基づいて候補セットから選ばれうるので、個別化ワクチン開発が加速されるとともに抗原又は新生抗原の確度及び効率が確保される。

病原体及び腫瘍からの免疫原性抗原の同定は、何十年にもわたりワクチン開発において中心的役割を果たしてきた。過去１５～２０年にわたり、このプロセスは、試験の必要な抗原の数を低減する計算アプローチの採用により単純化且つ強化されてきた。免疫原性を決定する主要な特徴は十分に理解されていないが、ほとんどの免疫原性クラスＩペプチド（抗原）は、サイトゾル中でのその親ポリペプチド／タンパク質のプロテアソーム切断による典型的経路で発生し、続いて、ＴＡＰトランスポーターにより小胞体内に輸送され、その後、空のＭＨＣ分子（ヒトではヒト白血球抗原［ＨＬＡ］とも呼ばれる主要組織適合性複合体）にパッケージされ、次いで、細胞表面に輸送されて循環ＣＤ８＋Ｔ細胞に提示されることが知られている。

ＭＨＣ結合ペプチドのみが循環Ｔ細胞に結合してそれを活性化することが可能であるので、ＭＨＣ分子に結合するペプチドの能力は、免疫原性を決定するうえで最も重要な工程に対応する。結合親和性予測器をベンチマークして比較するために科学文献で使用されてきた標準的な事前定義の交差検証データセットと共に、最も一般的なＭＨＣ対立遺伝子に関して結合親和性の実験的に検証された測定を提供する免疫エピトープデータベース及び分析リソース（Immune Epitope Database and Analysis Resource）（IEDB、http://www.iedb.org/、２０１７年６月にアクセス）など、データの充実した一般公開データベースが現在存在する。また、多くのクラスＩ及びＩＩＨＬＡ対立遺伝子のＤＮＡ配列を提供する免疫多型データベース（Immuno Polymorphism Database）ImMunoGeneTics HLAデータベース（IPD-IMGT/HLA、https://www.ebi.ac.uk/ipd/imgt/hla/、２０１７年６月にアクセス）など、ある特定のクラスの生物学的分子の組成に関するデータの充実した一般公開データベースも存在する。かかるデータベースは、ｄｅｎｏｖｏの未試験の生物学的分子間の結合の予測を試みる各種タイプのモデルをトレーニングするために使用されてきた。測定データのソースは拡大の一途をたどっているが、データに示されない多く対立遺伝子が残されている。

ペプチド－ＭＨＣ結合問題への取組みは、位置特異的スコアリング行列（ＰＳＳＭ）、機械学習法、及び構造法の３つのカテゴリーに分類されてきた（Luo, et al., 2015）。ＰＳＳＭアプローチでは、結合予測は、各ペプチド残基位置に対して定義された１つ以上の行列から取り出された値を組み合わせることにより計算される。より大きなデータベースが利用可能になったとき、ＰＳＳＭアプローチは、潜在的に複雑で任意にフレキシブルな関数が潜在的に大きなデータベースからの例に当てはめられる機械学習法によりほぼ取って代わった。構造法は、結晶構造データベースからのデータ及び基礎物理学に合った近似を用いて分子の３次元構造により結合をモデル化する。ＰＳＳＭ法は、比較的単純な機構モデルに基づくので解釈されうるが、機械学習法と比較してより不十分な予測を行う傾向がある。機械学習法は、一般に結合の機構的理解に基づかないので容易に解釈できないが、最先端の予測品質を達成する。構造法は、明確な機構的解釈を有するが、予測は、一般に機械学習法のときほど高速でも正確でもない。

比較的単純な機構的解釈も有しつつ結合親和性の高品質予測を提供することが、産業の重要課題として残っている。結合親和性を予測するために統計モデル及び機械学習モデルを使用する最初期の試みは、個別のＭＨＣ対立遺伝子に焦点を当てて、ペプチドにおけるアミノ酸の役割のみが考慮される現在のいわゆる対立遺伝子特異的モデルをもたらした。ＭＨＣクラスＩに対する現在の先導的な対立遺伝子特異的方法は、おそらくNetMHC4.0（Andreatta & Nielsen, 2015）及びmhcflurry（https://github.com/hammerlab/mhcflurry、２０１７年７月にアクセス）であり、これらは、人工ニューラルネットワークを用いて任意関数をデータ例に当てはめてその当てはめ関数を用いて予測を行う機械学習モデルである。また、ＭＨＣクラスＩＩに対する対立遺伝子特異的方法も公開されている。

その後、より広範にわたる通常の対立遺伝子の利用可能な実験データが増加したため、それぞれ単一モデルを用いて任意の対立遺伝子又はいずれかの特定の対立遺伝子セットに関する結合親和性の予測を試みる汎対立遺伝子モデル及び汎特異的モデルの開発が促進された。対立遺伝子特異的モデルとは異なり、「汎」モデルは、ＭＨＣ分子及びペプチドを形成するアミノ酸を黙示的又は明示的に考慮する。汎対立遺伝子モデル及び汎特異的モデルは、一般に対立遺伝子特異的モデルよりも結合又は結合親和性の不十分な予測を行うが、対立遺伝子特異的モデルをトレーニングするにはデータが不十分な対立遺伝子及び突然変異に起因して生じうる新規の対立遺伝子（たとえば癌の場合）に適用可能である。現在の先導的なＭＨＣクラスＩ汎モデルは、おそらくNetMHCpan4.0（Jurtz, et al., 2017）であり、これはそれと等価な対立遺伝子特異的モデルと同様に人工ニューラルネットワークに基づく。また、ＭＨＣクラスＩＩに対する汎方法も公開されている。

十分に大きなトレーニングセットが与えられれば、機械学習法は、ＰＳＳＭ又は構造モデルよりも良好な結合予測を行う傾向にあるが、結合の解釈可能な機構モデルの欠如は、学術研究以外のそれらの差し迫った商業バイオメディカル用途を限定するおそれがある。良好な予測を行うことに加えて自動予測システムで実証することが必要とされうる性質、たとえば、守秘性、透明性、責任追跡性、及び公平性に関する文献は、多数存在し増加の一途をたどっている（NIPS Symposium Organising Committee, 2016）。また、自動システムのかかる性質を必要とする法的状況も変化し続けている。たとえば、自然人の健康に有意な影響を及ぼす自動決定に関して、欧州連合（General Data Protection Regulation）（ＥＵ）一般データ保護規則（General Data Protection Regulation）は、そうした決定への人的介入及びそれに関する説明を得る権利をＥＵ国民に与えている（European Parliament & Council, 2016）。より多くの解釈可能なモデルが使用されれば、かかる要件を満たすことはより容易になりうる。

とくに免疫療法の自動開発における、生物学的分子ペア間の結合及び結合親和性を理解及び予測する生物科学の重要性を考慮すれば、人的解釈及び介入を促進する妥当な機構モデルに基づいて読取り検索データで高品質予測を提供することが可能な、且つ予測の下流のコンシューマーがそうした予測に基づいて合理的に行動できるように予測に関する不確実性の推定を提供することが可能な、方法の必要性が当技術分野に存在する。同様に、予測の人的解釈可能な尺度及びその推定がどのように導出されたかの人的解釈可能な尺度を提供しつつ、ワクチンに使用するために標的分子への結合に好適な候補ペプチドをペプチドセットから同定する必要性が存在する。

発明の概要
一般論として、本開示は、ペプチドとＭＨＣ分子とのコンタクトポイントに対応するアミノ酸ペアによりＭＨＣクラスＩ及びＩＩに関する汎対立遺伝子結合親和性を予測する概念を提示する。コンタクトポイントアミノ酸ペアの線形モデルは、パラメーターの解釈が可能なモデルをもたらす。

本発明の第１の態様によれば、クエリー標的分子へのクエリー結合剤分子の結合親和性値を予測するコンピューター実装方法が提供される。クエリー結合剤分子は第１のアミノ酸配列を有し、且つクエリー標的分子は第２のアミノ酸配列を有し、本方法は、第１及び第２のアミノ酸配列を複数のデータ要素として一緒にコード化してコード化されたアミノ酸ペアを発生させることであって、コード化されたペアの各データ要素が、第１のアミノ酸配列と第２のアミノ酸配列とのそれぞれのコンタクトポイントで第１及び第２のアミノ酸配列のどのアミノ酸がペアになってコンタクトポイントペアを形成するかを表し、コンタクトポイントペアが、互いに近接して結合に影響を及ぼす結合剤分子及び標的分子のアミノ酸のペア形成である、発生させることと、コード化されたアミノ酸ペアに機械学習又は統計モデルを適用して結合親和性値を予測することであって、機械学習モデル又は統計モデルが、少なくとも１つのプロセッサーを用いて、それぞれのペアになった参照結合剤配列及び参照標的配列を含む参照結合剤－標的ペアの参照データストアにアクセスすることであって、各参照結合剤－標的ペアが、関連付けられた測定結合値を有する、アクセスすることと、各参照結合剤－標的ペアを複数のデータ要素としてコード化することであって、予測された結合親和性値がクエリー結合剤分子とクエリー標的分子との各コンタクトポイントペアの結合への寄与を表すように、コード化された参照結合剤－標的ペアの各データ要素が、それぞれのペアになった参照結合剤配列及び参照標的配列のどのアミノ酸がそれぞれのコンタクトポイントでペアになってコンタクトポイントペアを形成するかを表す、コード化することと、によりトレーニングされる、予測することと、を含む。互いに近接するとは、互いに十分に近接することを意味する。

こうして、結合親和性の予測を決定することが可能であり、予測を実施するために使用されるモデルを解釈することが可能である。結合親和性又は結合の高品質ポイント推定を提供することに加えて、本発明はまた、そうしたポイント推定に関する厳密な不確実性推定も提供しうる。予測に関する不確実性の厳密な推定は、下流のコンシューマーによる予測の合理的使用を促進しうるとともに、自動決定の解釈又はそれへの介入を支援しうる。たとえば、分子ペアは確かに結合するがその可能性は低く懐疑的な専門家により覆されうる予測もあれば、分子ペアは確かに結合しその可能性は高いが同専門家により異なる処理がなされうる予測もある。結合予測の自動化された下流のコンシューマーは、入力の不確実性を厳密に考慮した予測又は決定を行うことが可能でありうる。

本発明にかかる予測器は、人的解釈及び介入を促進する、且つ予測の下流のコンシューマーが予測に基づいて合理的に行動できるように予測に関する不確実性の推定を提供可能である、妥当な機構モデルに基づいて、高品質予測を提供することが可能である。

測定結合親和性値は、たとえば、実験室実験から決定された厳密なもの、近似値、又は実験により決定された値よりも大きい若しくは小さい値でありうる。ある特定の例では、測定結合親和性値は、検閲されうるとともに検閲情報が提供されうる。

本発明は、予測された結合親和性値の確度の確率の推定値を出力することをさらに提供しうる。

好ましくは、コード化されたアミノ酸ペアは、データ要素のベクトルとしてコード化される。このようにしてデータ要素をコード化すると、各々が結合親和性値にどのように寄与するかを同定するためのコンタクトポイントペアの各々の関数の適用が促進される。より好ましくは、各データ要素は、各コンタクトポイントでのアミノ酸ペア形成の存在の指標となる値である。おそらく、値は、アミノ酸ペア形成がコンタクトポイントに存在してベクトル中の各コンタクトポイントに対して正のバイナリー値が１つのみ存在するかの指標となるバイナリー値である。代替的に、データ要素は、アミノ酸ペア又は可能なアミノ酸ペアの行列を表す記号でありうる。

トレーニングされた機械学習モデル又は統計モデルを適用することは、データストアからモデル係数セットを検索することを含みうる。データストアは、方法が実施される場所から離れていてもその近くにあってもよく、秘密にしたり暗号化したりしうる。係数は、アミノ酸の各可能なペア形成の結合親和性への寄与の大きさ及び方向を表しうる。好ましくは、係数は、総平均結合親和性からの偏差を表しうる。

ある特定の実施形態では、トレーニングされた機械学習モデル又は統計モデルを適用することは、検索された係数とコード化されたアミノ酸ペアとの線形結合を含みうる。かかる線形結合は、計算効率がよくクエリーデータに対して規則性をもって迅速且つ容易に各予測を実施できるので、ワクチン開発経路に組み込まれたとき、クエリー分子を、結合する可能性の高い候補ペプチドに迅速且つ容易に変換することが可能である。

係数は、コード化された参照結合剤－標的ペア及びそれぞれの関連付けられた測定結合値にベイジアン推定アルゴリズムを適用することにより導出されうる。統計分布は、パラメーター化されうる。ベイジアン推定アルゴリズムは、ユーザーが結合親和性値の正確性の尤度を解釈して使用に関して情報に基づく決断を行うことができるように、結合親和性の正確性の解釈可能な確率及び明確な尤度値をもって正確な予測を提供する。同様に、結合親和性が閾値未満の尤度値を有する場合、その使用は拒絶されうる。

各参照結合剤－標的ペアは、疎行列としてコード化されうる。この場合、各行は、参照結合剤－標的ペアを表すとともに、各行は、測定結合値に関連付けられる。トレーニングプロセスにおけるかかるコード化は、計算効率及びデータ保存、たとえば圧縮疎行保存構造での保存を促進する。データに対してトレーニングするとき、疎行列コード化は、空間及び時間の複雑性を改善する。

行列の各行は、一連のビットを含みうるとともに、各ビットは、各コンタクトポイントのアミノ酸の可能なペア形成に対応し、且つコンタクトポイントペア中に存在する特異的アミノ酸の指標となる。そのため、各コンタクトポイントに正値が１つ存在しうるとともに、これは、たとえば、各結合剤－標的ペアに対して４４１次元バイナリーベクトルをもたらす。かかるコード化は、たとえば、モデル当てはめの実行時間及び予測手順を低減するように次元を低減する
ことにより、保存効率及び計算効率を有意に低減する。

行列の行の分割により、参照結合剤配列のアミノ酸と標的結合剤配列のアミノ酸とのペア形成を記述する特徴ベクトルとしてアミノ酸ペアをコード化しうる。そのため、トレーニングデータはすべて、効率的保存及び所要のデータを行列に分割する計算のために１つの行列により表されうる。

機械学習モデル又は統計モデルは、コード化された参照結合剤－標的ペア及びそれぞれの関連付けられた測定結合親和性値に当てはまる係数セットを推定することによりトレーニングされうる。当てはめ技術は、たとえば最尤推定又は正則化推定又は階層的ベイジアン推定を含みうる。

本方法は、既知の分子及び既知の分子の結合親和性値を用いてモデルが適切であるかをユーザーが解釈しうるように、モデルに関連付けられたパラメーターセットを出力することさらに含みうる。こうした出力は、プロセスへの介入タスクを提供しうる。

参照データストアは、結合又は非結合の関連指標を有する参照結合剤－標的ペアをさらに含みうるとともに、機械学習モデル又は統計モデルは、結合又は非結合の指標に関連付けられた各参照結合剤－標的ペアと推定検閲ＩＣ_５０値とを関連付けることにより、トレーニングされうる。値は、たとえば、閾値未満でありうる。そのため、推定結合ペプチドは、モデル及びその関連予測の確度を向上させるために使用可能である。トレーニングデータは、結合又は非結合は推測されうるが結合親和性は測定不能であるアッセイからの例を含有しうる。

非常に多数の識別可能なＭＨＣ－ペプチド複合体に関する結合／非結合結果を提供するアッセイからのデータに対してトレーニングが実施されるこの例は、サンプルサイズを劇的に増加させる方法を提供可能であるので、より良好な予測を行うモデルをもたらしうる。検閲アプローチは、原理的には、かかるデータと従来の結合アッセイデータとを組み合わせて、結合／非結合だけでなく結合親和性（ＩＣ_５０値）の予測も可能にする。

機械学習モデル又は統計モデルは、結合又は非結合の指標を有する各参照結合剤－標的ペアと推定検閲ＩＣ_５０値とを関連付けることと、推定検閲ＩＣ_５０値に関連付けられた各参照結合剤－標的ペアに対して、可能な結合親和性値セットにわたり関連統計分布を積分することにより結合への寄与を計算することと、によりトレーニングされうる。計算は、モデル当てはめ時に提案されたモデルパラメーターの候補値に基づいて実施されうる。

こうして、結合予測器は、参照結合剤－標的ペアを含有しうるトレーニングデータを用いてトレーニングされうる。この場合、結合親和性は、ある特定の値を下回る又は上回ることが知られているか又はそのように推定される。ある特定の例では、結合親和性が測定されているトレーニングデータを用いてトレーニングされたモデルは、検閲結合親和性値のみが利用可能なおおよそ等しい数の追加の参照結合剤－標的ペアで同一のデータセットを補充することによりトレーニングされたモデルと比較して、より不十分な予測を行うことが観測された。

さらなる例では、機械学習モデル又は統計モデルは、測定結合親和性値サブセットを検閲することと、可能な結合親和性値セットにわたり関連統計分布を積分することにより、検閲結合親和性値に対応する可能性の高い結合親和性値を計算することと、検閲測定結合親和性値に関連付けられた各参照結合剤－標的ペアと、計算された可能性の高い結合親和性値と、を関連付けることと、によりトレーニングされうる。

クエリー結合剤分子はペプチドでありうる、及び／又は第２のアミノ酸配列は、ＭＨＣタンパク質配列若しくはＨＬＡタンパク質配列でありうる。そのため、本発明は、免疫原性の決定にとくに有用である

ある特定の実施形態では、本方法は、予測された結合親和性値と閾値とを比較することをさらに含みうるとともに、クエリー結合剤分子の結論は、閾値により拘束され、及び／又はクエリー結合剤分子の結論は、標的と共に使用されうるとともに、適切な候補である。

本発明は、ＭＨＣクラスＩ分子及びＭＨＣクラスＩＩ分子の両方に適用可能である。

本発明のさらなる態様によれば、少なくとも１種の候補タンパク質結合ペプチドの発生方法が提供されうる。本方法は、複数のペプチドのアミノ酸配列及びタンパク質のアミノ酸配列を得ることと、各ペプチドに対して、本発明の以上の態様のいずれか一つに係る方法によりタンパク質への予測された結合親和性を決定することと、それぞれの予測された結合親和性に基づいて複数のペプチドのうち１種以上の候補ペプチドを選択することと、を含む。

タンパク質のアミノ酸配列は、血清学的抗体試験、オリゴヌクレオチドハイブリダイゼーション法、核酸増幅ベース法（限定されるものではないがポリメラーゼ連鎖反応ベース法）、ＤＮＡ又はＲＮＡシーケンシングベース自動予測、ｄｅｎｏｖｏペプチドシーケンシング、エドマンケンシングベース、又は質量分析の１つにより得られうる。

本方法は、１種以上の候補ペプチドを合成することをさらに含みうる。

そのほか、本方法は、候補ペプチドを対応するＤＮＡ又はＲＮＡ配列にコード化することをさらに含みうる。さらに、本方法は、配列を細菌又はウイルス送達システムのゲノムに取り込んでワクチンを生成することを含みうる。

そのため、ペプチド、ＤＮＡ、又はＲＮＡベースワクチンは、結合親和性を効果的に予測してデータを解釈することが可能であるので、個別患者用としてより確実に構築される。

本発明のさらなる態様によれば、クエリー標的分子へのクエリー結合剤分子の結合親和性を予測するための結合親和性予測システムが提供されうる。クエリー結合剤分子は第１のアミノ酸配列を有し、且つクエリー標的分子は第２のアミノ酸配列を有し、システムは、少なくとも１つのメモリーデバイスと通信する少なくとも１つのプロセッサーを含み、少なくとも１つメモリーデバイスは、少なくとも１つのプロセッサーに本発明の以上の態様のいずれか一つに係る方法を実施させるための命令を保存する。

本発明のさらなる態様によれば、クエリー標的分子へのクエリー結合剤分子の結合親和性値の予測に使用するための、機械学習モデルをトレーニングするコンピューター実装方法が提供されうる。本方法は、少なくとも１つのプロセッサーを用いて、それぞれのペアになった参照結合剤配列及び参照標的配列を含む参照結合剤－標的ペアの参照データストアにアクセスすることであって、各参照結合剤－標的ペアが、関連付けられた測定結合値を有する、アクセスすることと、各参照結合剤－標的ペアを複数のデータ要素としてコード化することであって、コード化された参照結合剤－標的ペアの各データ要素が、それぞれのペアになった参照結合剤配列及び参照標的配列のどのアミノ酸がそれぞれのコンタクトポイントでペアになってコンタクトポイントペアを形成するかを表し、コンタクトポイントペアが、互いに近接して結合に影響を及ぼす結合剤分子及び標的分子のアミノ酸のペア形成である、コード化することと、コード化された参照結合剤－標的ペア及び各参照結合剤－標的ペアに関連付けられた測定結合値に対して機械学習モデル又は統計モデルをトレーニングすることと、を含む。好ましくは、本方法は、クエリー結合剤分子及びクエリー標的分子の結合親和性値の予測に使用するためのモデル係数セットを出力することをさらに含む。好ましくは、機械学習モデル又は統計モデルは、アミノ酸の各ペア形成がどのように結合親和性に寄与するかをモデルする平均結合親和性関数である。好ましくは、統計モデルは、コード化された参照結合剤－標的ペアを関連付けられた測定結合親和性値に当てはめる。

プロセッサーにより実行されるとき、以上の態様のいずれかの方法をプロセッサーに実施させるコンピューター可読媒体が提供されうる。

図面の簡単な説明
次に、単なる例にすぎないが、添付図を参照しながら実施形態を詳細に説明する。

標的分子に結合するペプチドを示す。トレーニングデータセットを構築する実施形態を示す。標的への結合剤の結合親和性を予測する方法の実施形態を示す。結合剤－標的ペアのコンタクトポイントペアをコード化する例で実装される疎行列の例を示す。概念的行列可視化図を例示する。概念的行列可視化図を例示する。ペプチド合成システムの模式図を例示する。サーバーの模式図を例示する。モデルがIEDB2009データに対してトレーニングされ且つIEDB2013データに対して試験された実験での散布プロット及びＲＯＣプロットを示す。 IEDB2009及び2013データを用いた５重交差検証実験での散布プロット及びＲＯＣプロットを示す。各ヒートマップが６２コンタクトポイントの１つに対応するモデルパラメーターβの推定を提示するヒートマップのアレイを示す。図１０Ａのサブセットを示す予測された結合親和性（「ｙ＿ｈａｔ」）の関数として推定された結合確率（「ｐ＿ｂｉｎｄ」）及びそれらの量の周辺ヒストグラムを示す。可変長配列に関する結合親和性のモデリング及び予測の結果を示す（無検閲データ及び検閲データ）。

発明の詳細な説明
本明細書に記載のある特定の実施形態に係る方法は、タンパク質などのクエリー標的分子へのペプチドなどのクエリー結合剤分子の結合親和性値の計算予測を可能にする。予測は、個別化ワクチンの同定、すなわち、癌免疫療法のための、ＭＨＣ主要組織適合性複合体（ＭＨＣ）分子に結合可能な候補セットからの候補ペプチドの同定にとくに有用である。

例として、結合親和性は、ペプチドとＭＨＣ分子との間でありうる。ＭＨＣクラスＩ及びＩＩ分子への結合は、それぞれ、ＣＤ８＋及びＣＤ４＋Ｔ細胞の活性化に必要である。このシナリオは、ＨＬＡ－Ａ^＊０２ＭＨＣクラスＩ分子１０２（１、２、３）に結合されたノナマーペプチド１０１ＳＬＹＮＴＩＡＴＬのリボン図を示す図１により例示される。

結合親和性はｉｎｖｉｔｒｏで測定可能であるが（たとえば競合アッセイを用いて）、かかる方法は、労力、費用、及び時間を要する。それにより、いずれの所与のプロテオームでも生じる多くの候補の中からすべての可能な抗原を実現可能に同定することはできない。この問題は、感染疾患用ワクチン又は個別化新生抗原ベー癌ワクチンの迅速製造ではとくに深刻である。こうしたシナリオでは、高スループット、ほぼ自動、且つ高信頼性の予測が必要とされ、ｉｎｓｉｌｉｃｏアプローチでの動機付けとなる。

提案された技術のクエリー結合剤分子及びクエリー標的分子は、各々それぞれのアミノ酸配列を有する。予測は、参照結合剤－標的ペアを含む参照データに基づいて行われ、各ペアは、既知の（測定された）結合値を有し、値は、たとえば、ｎＭ単位で測定されたＩＣ_５０値又はＩＣ_５０に基づく他の値でありうる。参照データは、本明細書ではトレーニングデータともいいうる。

測定結合親和性値は、結合剤と標的との相対結合強度（すなわち、他の結合剤－標的ペアと対比して）を反映する限り、結合親和性の直接的尺度である必要はない。典型的には、参照データは、少なくとも部分的には、免疫エピトープデータベース（Immune Epitope Database）（IEDB）（www.iedb.org）、GPCRdb（www.gpcrdb.org）、BRENDA（http://www.brenda-enzymes.org）などの公開データベースから得られうる。

参照データ例では、各観測は、対立遺伝子名（ＭＨＣクラスＩ）又は名称ペア（ＭＨＣクラスＩＩ）、種、ペプチド配列、ペプチド長さ、ｎＭ単位のＩＣ_５０値として表されるＭＨＣとペプチド分子との結合親和性、及びＩＣ_５０値に関する不等式（検閲）情報により記載される。

この参照データから、本明細書で提案された技術では、機械学習モデルをトレーニングし、続いて、後続のワクチン合成用、とくに癌免疫療法用の候補ペプチドを同定するために、入力データセットすなわちクエリーペプチド及び以上に記載の標的モジュールに適用することが可能である。

提案された技術は、各特異的コンタクトポイントペアを考慮して結合親和性とこれらのペアの結合寄与の和とを同一視する原理に基づく。コンタクトポイントペアは、互いに近接して結合に影響を及ぼす結合剤分子及び標的分子のアミノ酸のペア形成であると考えられうる。以前に提案された技術では、ペプチド及びＭＨＣアミノ酸の特異的ペア形成は考慮されない。それを行ったとしても、公知の技術では、計算費用がかさむであろう。当技術分野において、ニューラルネットワークを正確にトレーニングするために、公知の技術では、各ペプチド－ＭＨＣ複合体を偽配列としてコード化する。すなわち、ペプチドアミノ酸配列及びペプチドに接触すると考えられるＭＨＣアミノ酸配列のコード化を行う。

バックグラウンドでは、分子ペアは、分子の電子配置により生じる電磁界内での複合動的相互作用に起因して結合するこが知られている。２つの生物学的分子間の結合の通常のモデルは、コンタクトポイントの存在を仮定する。コンタクトポイントは、ヌクレオチド又はアミノ酸のペアを含み、ペアの一方のメンバーは、第１の分子に由来し、ペアの他方のメンバーは、第２の分子に由来する。コンタクトポイントにおけるヌクレオチド又はアミノ酸の各ペアは、空間的に近接していると考えられるので、ヌクレオチド間又はアミノ酸間に十分に強い電磁力が存在し、２つの分子間の結合に影響を及ぼしうる。２つの分子の既知の配列間のコンタクトポイントは、配列位置ペアセットにより記載することが可能である。

ペプチド－ＭＨＣ結合問題におけるコンタクトポイントの役割は、ＮｅｔＭＨＣｐａｎ（Nielsen, et al., 2007）の開発で考慮された。汎対立遺伝子モデルでは、ペプチド間の変動（対立遺伝子特異的モデルの場合）及びＭＨＣ分子中の多型を考慮しなければならない。ＮｅｔＭＨＣｐａｎでは、ペプチドアミノ酸配列及びペプチドに接触すると考えられるＭＨＣアミノ酸配列を含む偽配列としてペプチド及びＭＨＣ分子のペアをコード化する。重要なこととして、このコード化では、コンタクトポイントでのペプチド及びＭＨＣアミノ酸の特異的ペア形成を明示的にモデル化することはなくが、人工ニューラルネットワークに利用可能な関連する変動を単に加えるにすぎず、結合親和性に及ぼす各特異的コンタクトポイントの影響は推測されることもされないこともありうる。

文献では、分子は、多くの場合、結合親和性のある尺度が特定の値を下回る又は上回る場合に結合として分類される。しかしながら、最良の結合予測器でさえも、必ずしも結合を適正に予測するとは限らないことが知られており、結合親和性又は結合の高品質ポイント推定を提供することに加えて、そうしたポイント推定に関する厳密な不確実性推定も提供する公知の方法は存在しない。予測に関する不確実性の厳密な推定は、下流のコンシューマーによる予測の合理的使用を促進しうるとともに、自動決定の解釈又はそれへの介入を支援しうる。たとえば、分子ペアは結合するがその確率は低く懐疑的な専門家により覆されうる予測もあれば、分子ペアは結合しその確率は高いが同一専門家により異なる処理がなされうる予測もある。結合予測の自動化された下流のコンシューマーは、入力の不確実性を厳密に考慮した予測又は決定を行うことが可能でありうる。

次に、図２及び３を参照しながら、本発明の具体例を説明する。提案された技術は、２段階とみなされうる。第１はモデルを構築することであり、第２はそのモデルから予測を行うことである。方法は、最初に参照結合剤－標的ペアの参照データストアにアクセスする工程を含む（工程２０１）。各参照結合剤－標的ペアは、ペプチド配列などの参照結合剤アミノ酸配列と、ＭＨＣタンパク質配列などの参照標的アミノ酸配列と、を含む。下記の考察では、ペプチド－ＭＨＣ結合に焦点を当てるが、ペアになった結合剤配列及び標的配列並びに対応する測定結合値が利用可能な他のデータセットに、以下で考察された方法及びシステムを簡単に適応しうることは理解されよう。

参照データでは、各参照結合剤－標的ペアは、測定結合値に関連付けられうる。以上のように、この値は、たとえば、ｎＭ単位のＩＣ_５０値として公開されうる。

しかしながら、測定結合値とは、実験室実験により決定された厳密な値、結合値の近似値、結合若しくは非結合の指標、又は実験により決定された値よりも大きい若しくは小さい値を意味することは理解されよう。指示されるように、結合親和性は、典型的には、競合アッセイを用いてＩＣ_５０値（ｎＭ単位）として測定され、このときのクエリーペプチドの濃度は、クエリーＭＨＣ分子に結合された参照ペプチドの５０％を置き換える濃度として求められる（又はその逆）。ＩＣ_５０値は、広範にわたる値をとり、モデリング目的では、典型的には、変換ｙ＝１－ｌｏｇｂＩＣ_５０（式中、ｂは、十分に大きな対数の底である）を用いて対数スケールに変換される（Nielsen, et al., Reliable prediction of T-cell epitopes using neural networks with novel sequence representations, 2003）。我々は、この変換スケールでＩＣ_５０をモデル化し、このスケールへの及びからの転換は、典型的には、本開示全体を通して黙示的である。

一例として、データストアは、ＨＬＡ分子からデコンボリュートされて質量分析を用いて同定されたペプチドの表現を含みうる。これは結合することが確認されているが、絶対結合親和性はまったく知られていない。

工程２０２では、参照データストアを用いて、各参照結合剤－標的ペアをコンタクトポイントアミノ酸ペアセットとしてコード化しうる。コンタクトポイントは、互いに近接して結合に影響を及ぼすさまざまな配列のアミノ酸のペア形成である。各コード化されたペアは、測定結合親和性値や結合親和性の不等式表現（たとえば、＜５００ｎＭ又は＞５００ｎＭ）などの結合親和性値に関連付けられる。

実際には、このコード化は、２１記号（以下に記載されるようにＸを含む）のアミノ酸アルファベットから２１×２１記号（すなわち４４１記号）のアルファベットへの変換として機能する。所与の記号は、コンタクトポイントでのペプチド－ＭＨＣアミノ酸ペアを記載し、たとえば、記号ＧＡはグリシン－アラニンペアを表す。各結合親和性値は、コード化されたコンタクトポイントペアに関連付けられる。

以下に詳細に記載される実装では、各参照結合剤－標的ペアは、さらなる解析のためにデータをまとめるべく記号の行列としてコード化されうる。好ましくは、この行列は、実装を容易にするために多次元疎行列でありうる。

トレーニングデータから、工程２０３では、本技術は、工程２０２からのコード化されたペア及び関連付けられた結合親和性に基づいて機械学習モデル又は統計モデルをトレーニングする。すなわち、コード化されたコンタクトポイントペアを関連付けられた結合親和性値にモデル化する関数を構築する。たとえば、以下に記載の具体的実装では、この関数は線形和でありうる。この場合、結合親和性値は、コード化された行列の平均から外れる偏差として計算されうる（具体的に記載された実装では行ベクトルとして）。そのため、関数は、結合親和性への各コンタクトポイントペアの推定寄与を表すモデル係数セットを生成する。次いで、このモデル係数セットは、工程２０４で出力される。この場合も、結合親和性値は、測定値又は不等式などの結合親和性の指標でありうる。

図３は、結合親和性値がどのように予測されうるかの高レベルプロセスを例示する。工程３０１では、クエリー結合剤分子の表現が検索される。工程３０２では、クエリー標的分子の表現が検索される。理解されるであろうが、提示は、分子中の配列のアミノ酸の指標でありうるとともに、アミノ酸配列といいうる。工程３０３では、参照データからトレーニングデータを作成するために使用される類似のプロセスに従って、クエリー結合剤分子及びクエリー標的分子のアミノ酸配列は、コンタクトポイントペアセットとして一緒にコード化される。これは、コンタクトポイントペアを表すベクトルの形態をとりうる。実際には、このベクトルは、コード化された参照データの行列の行ベクトルに類似する。

工程３０４では、トレーニングされた機械学習モデル又は統計モデルは、コード化されたコンタクトポイントペアに適用される。たとえば、モデル係数セットを作成するために線形モデルを使用する場合、このモデル係数セットが検索され（図示せず）、次いで、コード化されたコンタクトポイントペアベクトルは、クエリー結合剤分子及びクエリー標的分子の推定結合親和性値を予測するためにモデル係数ベクトルが乗算される。次いで、予測された結合親和性値は、工程３０５で出力されうる。出力はまた、追加的又は代替的に、厳密な値ではなく、結合若しくは非結合の分類、結合の確率、又は結合親和性の指標でありうる。

本明細書の他の部分で考察されているように、出力は、ワクチン開発プロセスに利用されうるが、本技術を用いて選ばれた候補ペプチドの利用は、多元的選択の一部でありうるので、結合親和性の予測のみで選ばないでもよい。しかしながら、実用上、予測された結合親和性値の出力は、閾値と比較されうるとともに、比較に基づいて、結合するか又は結合しないかが考えられうる。同様に、予測された最良の結合親和性に基づいて、出力により、クエリーペプチドセットからペプチド又はペプチドサブセットを選びうる。

実際には、たとえば、閾値が５００ｎＭの場合且つ予測値がこの閾値を上回る場合、クエリーペプチドは、結合するといいうるが、本技術を利用しうるより複雑なシステムで、プロセシングなどの他の因子を取り込みうる。５００ｎＭは、ここでは、例示を目的として任意閾値として選ばれる。実際には、閾値は、あらゆる対立遺伝子で異なりうるので、５００ｎＭは、単なる潜在閾値にすぎない。

本開示の残りの部分では、図２及び３に例示される高レベルプロセスの実装例を記載し、本技術の実装を可能にすべく提案されたコード化プロセスのより詳細な実例を提供するとともに、その後、記載の概念の効能を実証する実験データと一緒に、試験された技術の詳細な考察を記載する。

最初に、ＭＨＣ分子、標的／クエリーペプチド、及び参照ペプチドの間の競合アッセイを誰かが実験室で実施した実験研究に基づくトレーニングセットを検索する。トレーニングセットは、ＭＨＣ分子の配列及びペプチドの配列からなる。各ペア形成に対して、結合親和性の指標は経験的に測定されたものである。ペプチドがＭＨＣ分子に結合する理由は、それらの間になんらかの引力が存在することである。ペプチドアミノ酸と分子アミノ酸との近接によりこの引力又は斥力が説明されると、当該分野の研究で理論付けされている。分子は、コンタクトポイント（すなわち、ペプチドのアミノ酸がＭＨＣ側のアミノ酸の近くにある位置）の原理に基づき、したがって、各コンタクトポイントでは、一方のアミノ酸がペプチドに由来し、一方のアミノ酸が分子に由来して、アミノ酸のペア形成が見られる。

トレーニングデータから、トレーニングデータ中のペプチド及びＭＨＣ分子のペアの各コンタクトポイントペアを表す疎行列が生成される。行列中の所与の行は、各コンタクトポイントの各アミノ酸のペア形成を記述しうる。行列中の各行に関連付けられるのは、トレーニングセットの測定結合親和性値である。好ましい実装では、コード化されたトレーニングセット全体で１つの行列が存在するが、これに限定されるものではなく、記号は、実装で他の方法でコード化されうる。単一疎行列実装では、コード化及びトレーニングの段階での計算効率が考慮される。

疎性とは、行列中の多くの値がゼロ又はゼロ近くにあるという概念を意味する。典型的定義では、ｎ次の行列は、ｎ^２よりもはるかに少ない非ゼロ要素を含有する場合、疎であるとみなされる。疎行列には多くの代替定義が存在する。本技術の目的では、行列が疎あるという事実は関係しない。しかしながら、行列は、コンタクトポイントペアのコード化及び関連付けられた測定結合親和性値との記号ベクトルの関連付けを可能にする特定のコード化を有すべきである。これは、以下の説明から事実上明らかになるであろう。行列が不可避的に疎であることは、コード化法の直接的結果であり、疎であるので、このことから周知の疎行列保存及び計算（すなわち乗算及び和）の技術で疎行列の効率的保存が可能である。

他の代替案では、たとえば、単一行列は、各行列がコンタクトポイントペアを表す一連の行列でありうる。しかしながら、簡潔さを期して、当業者が本発明の原理を理解できるように、ここでは単一行列表現のみを記載する。

疎行列の実装は、本開示の原理を実装するために疎行列がどのように設計可能であるか図４に例示される。疎行列例では、行は、特定のＭＨＣ分子及び特定のペプチドに対応する。各行は、各コンタクトポイント及びアミノ酸がそのコンタクトポイントの各ペアに含まれるかの指標を含む。

次いで、このコード化法により、各行は、そのコンタクトポイントに分割することが可能である。すなわち、行ベクトルは、より小さな行ベクトルに細断されうる。分割とは、概念的には行列を分ける方法である。行列は、一連のベクトル（行又は列）、すなわち、数の１次元リスト又はより小さな行列に分割することが可能である。

ＭＨＣクラスＩには、６２コンタクトポイントが存在する。そのため、各行は、各コンタクトポイントに１つずつ６２ベクトルに分割されうる。各分割は、コンタクトポイントに特有である。例として第１のコンタクトポイントを挙げると、この分割は、そのコンタクトポイントでペプチドのどのアミノ酸がＭＨＣ分子中のどのアミノ酸の近くにあるかを表す。この情報は、このベクトル中になんらかの方法でコード化する必要がある。

２０アミノ酸は、ヒトＤＮＡによりコード化される。したがって、各ペアにおいて、ＭＨＣ分子側には２０アミノ酸の１つ及びペプチド側には２０アミノ酸の１つが存在可能である。模範的コード化では、Ｘアミノ酸は、どのアミノ酸が存在するか分からない場合を表し、Ｘは、並外れた属性を表しうる。そのため、各コンタクトポイントペア、すなわち、行列のコンタクトポイント分割では、各側には、２１アミノ酸の１つが存在する。ペア形成は、２１×２１の可能なペア形成の１つである。そのため、各コンタクトポイント分割は、４４１の可能な値を有する。

我々が記述している疎行列実装では、１つの値のみがコード化される。この１つの値は、ペプチドのどのアミノ酸及び分子のどのアミノ酸が互いに近接しているかを表す。

行列の列分割は、列がどのコンタクトポイントに属するか並びにペプチドアミノ酸及び分子アミノ酸のペア形成が近接しうるかを同定する。そのため、列の値が「０」である場合、これは列のアミノ酸が近接してないことを示唆する。列の値が「１」ある場合、これはペプチド及び分子のアミノ酸が近接していることを示唆する。

図４は、アミノ酸配列を用いてコード化された数のコンタクトポイントとして各コンタクトポイントを例示するが、各コンタクトポイントペアのコード化には、企図される膨大な数の代替手段が存在する。すなわち、各位置の物質は必須ではない。例として、簡略アミノ酸辞書（又はアルファベット）は、各当技術分野で公知の特定のシナリオに有益であることが示されているペアに使用されうる。他の例では、各ペアは、バイナリーグループ化又は生理化学的性質（たとえば電荷）により表されうるとともに、各性質の表現のために浮動小数点数（バイナリーコード化ではなく）を用いてコード化されうる。同様に、我々は６２コンタクトポイントを示すが、この数は変動しうるとともに、各ペアは２０（又は他の箇所に記載の未知値を含む２１）アミノ酸すべてにより表さないでもよい。

さらに、バイナリー表現は、示されたものと逆であってもよく、「０」はペアの存在の指標となり、「１」は不在の指標となる。

そのうえ、列の順序は並べ替えてもよく、可視化のためにのみこの順序で示されている。好ましくは、次元は、トレーニングと予測との間でマッチさせる。どの順序でペプチド及びＭＨＣをソートするかは重要ではない。たとえば、第１の「Ａ」はペプチドに由来し、第２の「Ａ」はＭＨＣ分子に由来しうるが、実用上、これはいずれの順序でインデックス付けしてもよい。

図４は生物学的例ではなく、単にコード化の例にすぎないことが、強調されるべきである。

各行に関連付けられた各測定結合親和性値は、厳密な値として又は＜５００ｎＭや＞５００ｎＭなどの不等式として表されうることが、図４から示唆される。これについては本明細書の他の箇所でより詳細に説明する。

図５Ａに概念的に例示される代替実装では、各コンタクトポイントは、行列が実際には埋込み行列の行列となるような行列としてコード化されうる。行列の各要素がコンタクトポイントペアである場合、行列の各列は実際には他の行列に対応するであろう。図５Ｂは、可能な実装のさらなる代替概念的可視化図を例示する。この場合、各コンタクトポイントは、他のコンタクトポイントと組み合わされて各ペプチド分子ペアを表す多次元行列を生成する行列である。

図５Ａに戻って行列設計をまとめると、行列の左上から始めて、４４１列ごとにコンタクトポイントを表し、その後、その次のコンタクトポイントに移動する。各コンタクトポイントは、一緒になって１つのコンタクトポイントの情報を形成する行中の２１×２１アイテムである。４４１要素ごとの１つの長い疎エントリーのみ及び１行当たり６２非疎エントリーのみが存在可能である。非疎エントリーは、どのアミノ酸ペア形成が近接しているかを示し、この１つからアミノ酸配列を導出可能である。

結合親和性値は、各ペアセットに個別に関連付けられうるとともに、行列の一部を形成してもしなくてもよい。好ましくは、それを形成せずにデータストアが行列の各行に関連付けられる。すなわち、結合親和性の測定ごとに行列中の１つの行を有する。

代替実装では、行列は、コンタクトポイントの各可能なアミノ酸ペア形成を表すバイナリー値ではなく、ペアに対応する記号、たとえば、ＧＡ、ＡＢなどを含みうる。

以上の例の各々は、提案された技術の概念的可視化である。しかしながら、重要なことは、コンタクトポイントペアを取り出すこと、なんらかの形でこの寄与をコード化すること、及びそれを測定結合親和性値に関連付けることである。

図５Ａ及び５Ｂの可視化は、生物学的配列のモチーフをキャプチャーするために使用される位置特異的スコアリング行列（ＰＳＳＭ）などの当分野の以前の研究に類似しているが、本文書の他の個所で述べたように、かかる方法は、ここで提案されたものと同様に相互作用をモデル化しないことに、この段階で留意すべきである。かかる方法は、コンタクトポイントのペア形成（コードコンタクトポイントペア）を考慮しておらず、ほとんどは汎対立遺伝子ではない。すなわち、提案された方法は、個別のＭＨＣ分子を考慮するだけでなく、すべてのＭＨＣ分子に対する結合予測を可能にする。

この段階の技術では、メモリーに永久的又は一時的に保存されうる参照データからデータ表現を生成した。

具体的実装のこの次の工程は、関数、この例では、線形和又は線形回帰モデルを生成することである。関数では、２つのベクトルの積が実施される。第１のベクトルは、行列の行であり、第２は、トレーニングデータから推定されたモデル係数のベクトルである。結合親和性への寄与の和は、提案された技術の一例にすぎず、単にコンタクトポイントペアを結合親和性にマッピングする関数の例にすぎない。概念的には、いずれの関数も提供されうる。簡潔さを期して、トレーニングデータが検閲情報を含みうることについては説明してこなかった。これらの例は、単に重要な概念を例示するために与えられているにすぎない。

そのため、行列及びトレーニングデータから推定される一連の未知数があるはずである。以下で考察されるベイジアン推定を用いて、行ベクトルの積として使用したときに結合親和性の近似値をもたらす又はそれにできる限り近い係数セットを決定することが可能である。近似値であることから、厳密な結合親和性を知る必要がなくてもよい。

そのため、トレーニングプロセスのアウトカムは係数のベクトルであり、好ましくはデータストアに保存される。

係数のベクトルから分かれば、係数を用いてクエリー結合剤及び標的の結合親和性値を予測することが可能である。最初に、クエリーペプチド及びＭＨＣ分子を受け取る。次いで、以上と同様にコンタクトポイントペアを表すベクトルを生成するように、ペプチド及びＭＨＣ分子をコード化する。ベクトル中の各ビットがコンタクトポイントでのアミノ酸ペア形成の存在を表す場合、それは疎ベクトルである。ベクトル中に６２非疎ビット及び４４０×６２疎ビットが存在することが想起されよう。次いで、このベクトルに係数ベクトルを乗算して予測される結合親和性値を生成する。

理解されるであろうが、係数のこの列ベクトルは、単に１回構築する必要があるにすぎず、実用上、保存された列ベクトル値は、新しいペプチドクエリーに利用されうる。列ベクトルは、係数セキュリティーのために暗号化又は保存されうるとともに、秘密にして要求－応答又はクエリーベースパラダイムを用いて解釈されうる。

ペアの存在が「０」又は「１」により表されるので、各係数は、加重と考えることが可能であり、結合親和性は、クエリーされた組み合わせ中に存在するコンタクトポイントペアの加重和である。すなわち、各ペアは、値を導出するために「１」に係数が加重される。

ＭＨＣ分子からのアミノ酸の可能なペア形成ごとに、ペプチドからの可能なアミノ酸ごとに、コンタクトポイントごとに、数を有する。その数は、そのコンタクトポイントでの各ペア形成に対する結合の寄与を表す。実際には、線形モデル又は線形回帰では、総平均が存在しうる。各係数は、総平均から外れる偏差を表しうる。そのため、すべて「１」を表すトレーニング行列にさらなる列が導入されうる。係数中の追加の単一要素は総平均を表しうる。こうして平均からの偏差を用いると計算効率に役立つ。当業者には周知であろうが、線形回帰、線形モデリングの周知の技術又はコンタクトポイントペアと結合親和性と間の関数を提供するように提案された他の技術を用いて、この計算課題に対処する他の代替案が可能である。

要するに、本発明は、分子の３次元構造のモデルを取り込んで統計モデリング及び機械学習の最近の進歩を活用するように構築されたＰＳＳＭ様方法としてみなすことが可能であり、それは、比較的単純な機構的解釈も有しつつ高品質予測を行うことが可能である。

各コンタクトポイントでアミノ酸ペアの提案されたコード化を用いて、いずれかの機械学習アルゴリズムが使用されうる。コード化の背景にある主要な概念は、統計モデル又は機械学習法の適用を促進するように、結合機構の真実味のあるモデルに従ってデータを表すことである。

しかしながら、コード化は、かなり高次元の疎設計行列をもたらす。いくつかの統計モデル及び機械学習法は、かかる設計行列に「取り組む」ことを意味する性質を備える。一例は、周知の最小二乗法を用いて当てはめられる線形モデルである。採用される馬蹄推定器は、その問題に対処する１つの（ベイジアン）方法である。他にも存在するが、馬蹄は、いくつかの満足な性質を備える。

たとえば、馬蹄に代わる他の選択肢はリッジ回帰である。しかしながら、これは、モデル当てはめの側面を制御するパラメーターの値を研究者が特定することを必要とする。そのパラメーターについて論じることは困難であり、実用上、それは試行錯誤により選ばれる。馬蹄は、予測される量（この例で結合親和性）の「ノイズレベル」にこのパラメーターのそのバージョンを結び付けることによりこの問題に対処する。本方法ではそれをトレーニングデータから推定するので、研究者は、この量の値を選ぶ必要はない。

一般に、モデル当てはめは、典型的には、１回限りのタスクとみなされるので、係数の生成に要する時間は重要でない。実際には、クラウドコンピューティングを介してパラレルに実行する多くのコンピューティングデバイスを用いてモデルを当てはめることが公知である。しかしながら、本明細書の技術に使用される記載のものなどの線形モデル（ベイジアン又は他のもの）は、典型的には予測の段階では非常に高速である（典型的には、積に使用されるときは多数回実施される）。状況に応じて、本技術を利用して患者特異的免疫療法を開発するとき、本プロセスは、保存係数を用いて複数の候補ペプチドを評価するために容易に繰返し可能でありある。

プロセスの根底にある厳密な機構が十分に理解されないか又は（たとえば、経済的、時間的、若しくは他の制約に起因して）所要の忠実度でこうしたプロセスをシミュレートすることが困難である分野では、トレーニングデータを用いてプロセスへの有用な近似を学習できることから、統計法及び機械学習法は有益である（Hastie, Tibshirani, & Friedman, 2009）。機械学習法と統計モデルとの間には大した違いはないが、プロセスに関与する機構についての基本的理解が欠如している場合には、プロセスをモデル化するために機械学習法が使用されることが多く、一方、機構への近似が仮定でき、且つモデルの解釈及び予測が望まれる場合には、統計モデルが使用されることが多い。

ある特定の入力がある特定のアウトカムをもたらすことが知られており且つ機構を仮定できる場合、統計モデルを策定できることが多く、そのモデル及び入力されるそのパラメーター値の下でアウトカムを説明できるように、モデルのパラメーター値を推定しうる。機械学習法及び統計モデルのいずれでも、ｄｅｎｏｖｏ入力に対するアウトカムを予測するために、推定されたモデルパラメーター値をモデルで使用可能である。統計モデルの推定パラメーター値は、仮定された機構に関して解釈可能であることが多く、モデル及び仮定された機構又は実際の機構の理解を助ける。解釈する能力は、モデルの改善を可能にしうる又は他の即時適用を有しうる反証可能な仮説の開発を促進する。たとえば、ワクチン開発の状況では、推定されたパラメーター値は、その効能を改善するためにワクチンをどのように改変するかの決定に使用されうる。他の例では、不確実性を見積もるモデルパラメーターの推定値は、トレーニングセット又は試験セットを改善するために多数の潜在的に費用のかかる測定のどれを取得するかを合理的に選ぶために使用されうる。介在する能力は、いくつかの適用を促進する。たとえば、個別化医療の状況では、命にかかわる疾患を有する患者は、特異療法が奏効する見込みのない自動決定を議論しうる。当業者であれば、自動計算の検証に介在したり、又は疾患、療法、若しくはモデルについての自らの専門知識を使用して自動決定を覆したりすることが可能であろう。

統計モデルは、モデル化されるプロセスの多くの代表例を含むデータセットに当てはめられうる（これはモデルパラメーターの推定又はモデルのトレーニングとして知られる）。コード工程は、典型的には、代表的サンプルを統計モデル内での使用に適した構造化形式に変換するために必要とされる。統計モデル及びコード化の選ばれる数学的形式は、通常、トレーニングデータへの当てはめ、ｄｅｎｏｖｏ例に対する予測、解釈、及び介入の促進へのモデルの能力に実質的影響を及ぼす。本明細書に記載の解決策は、どのコード化及びどの統計モデルを生物学的分子ペア間の結合の予測に使用すべきであるかについてとくに効果的な教示を提供する。

以上に記載のように、コード化されたヌクレオチドペア又はアミノ酸ペア、それらの対応する結合親和性値、及び対応する検閲情報は、統計モデルに対するトレーニングデータとして提供されうる。とくに優先的実装では、各コード化されたヌクレオチドペア又はアミノ酸ペアは、２つの分子間の多数のコンタクトポイントの１つでのヌクレオチドペア又はアミノ酸ペアを表し、ペアの第１の要素は、第１のタイプの分子に由来し、ペアの第２の要素は、第２のタイプの分子に由来する。コンタクトポイントは、結合分子ペアの構造に関する研究を起源としうるか又は統計モデル若しくは機械学習モデルを用いて推測されうる。

コード化されたヌクレオチドペア又はアミノ酸ペアは、設計行列として表されうる。設計行列の各行は、結合しうる生物学的分子ペアに対するコード化されたヌクレオチドペア又はアミノ酸ペアを含む一例を表しうる。設計行列は、行の各分割がその行により表される例に対する特定のヌクレオチドペア又はアミノ酸ペアを表すように、列単位で分割されうる。所与の行の分割は、対応する第１の分子に由来する特定のヌクレオチド又はアミノ酸と、対応する第２の分子に由来する特定のヌクレオチド又はアミノ酸と、のペア形成をユニーク又は非ユニークに記述する特徴ベクトルとして、ヌクレオチドペア又はアミノ酸ペアをコード化しうる。非ユニークコード化は、２つの識別可能なヌクレオチド又はアミノ酸がアルファベットの共通の記号により表される簡略ヌクレオチド又はアミノ酸アルファベット（Peterson, Kondev, Theriot, & Phillips, 2009）の使用を許容する。簡略アルファベットのコード化は、全アルファベットよりも低次元でありうる。当業者であれば気付くであろうが、次元低減は、保存要件及びモデル当てはめの実行時間及び予測手順の低減を含めて、多くの理由で有利でありうる。

優先的コード化は、指標がペアに存在する特定のヌクレオチド又はアミノ酸を表す単一要素を除いてベクトルのすべての要素がゼロであるバイナリーベクトルとしてペア形成をユニークに記載する（かかるコード化は、多くの場合、「ワンホット」又は「ダミー」コード化と呼ばれる）。当業者の熟知するところであろうが、参照カテゴリーを有するワンホットコード化、ＢＬＯＳＵＭコード化（Nielsen，2003）、並びにＶＴＳＡ及びＶＨＳＥコード化（Li，Li，＆Shu，2008）を含めて、多くの他のコード化が存在する。アミノ酸ペアのさらにより優先的コード化では、２０アミノ酸のアルファベット（アラニン［Ａ］、アルギニン［Ｒ］、…バリン［Ｖ］）を用いて、ペアの各々の一方又は両方のアミノ酸のアイデンティティーが未知でありうる場合（通常はＸとしてコード化）、アミノ酸ペアは、（２０＋１）×（２０＋１）＝２１×２１＝４４１次元バイナリーベクトルとしてコード化されうる。

バイナリーコード化が使用される優先的場合では、設計行列は疎であろう。本方法の空間及び時間の複雑性を改善するために、設計行列は、圧縮疎行（ＣＳＲ）保存データ構造（圧縮行保存［ＣＲＳ］としても知られる）などの疎データ構造で保存されうる。当業者の熟知するところであろうが、圧縮疎列保存（ＣＳＣ）データ構造（圧縮列保存［ＣＣＳ］としても知られる）やキーの辞書（ＤＯＫ）などの他の疎データ構造が存在する。

結合親和性値は、ベクトルのｉ番目の要素が設計行列のｉ番目の行により表される例に関する結合親和性を与えるベクトルとして表されうる。検閲情報は、Ｌ、Ｒ、及びＵのセットとして表されうるとともに、それらの要素は、それぞれ、左検閲、右検閲、及び無検閲の結合親和性の結合親和性ベクトルへの指標を表す。しかしながら、当業者であれば、結合親和性値及び検閲情報を表す多数の方法が存在することに気付くであろう。

結合親和性測定は、多くの場合、ｉｎｖｉｔｒｏ競合アッセイを用いて行われる、ｎＭ単位で測定されるＩＣ_５０値として表される。ＩＣ_５０は、第２のタイプの分子に結合された参照分子の５０％を置き換えるのに必要とされる第１のタイプの分子の濃度を表す。結合親和性値は、リンク関数を用いて変換されうる。好ましい実施形態では、リンク関数は、ｙ＝１－ｌｏｇ_ｂＩＣ_５０（Nielsen, 2003）であり、式中、ｌｏｇ_ｂは、底ｂの対数であり、ｂは、トレーニングセット中の任意の大きさの結合親和性値が区間［０，１］に変換される十分な大きさである。対数の底ｂは、優先的には２５０，０００ｎＭであるが、当業者であれば、他の値も好適でありうることを認めるであろう。他の好ましい実施形態では、リンク関数は、ｙ＝ｌｎＩＣ_５０であり、式中、ｌｎは自然対数である。さらに他の好ましい実施形態では、リンク関数は、恒等関数ｙ＝ＩＣ_５０である。

逆リンク関数は、変換された結合親和性に対応する結合親和性を計算するように定義されうる。たとえば、リンク関数がｙ＝１－ｌｏｇ_ｂＩＣ_５０である場合、逆リンク関数はＩＣ_５０＝ｂ^１－ｙである。リンク関数がｙ＝ｌｎＩＣ_５０である場合、逆リンク関数はＩＣ_５０＝ｅ^ｙであり、式中、ｅはオイラー数であり、リンク関数が恒等関数である場合、逆リンク関数も恒等関数である。リンク関数及び逆リンク関数は、変換された結合親和性が区間［０，１］に拘束されるとともに結合親和性が０を超えて拘束されるようにクランプされうる。

クリティカルなこととして、リンク関数がＩＣ_５０に対して減少する場合（ｙ＝１－ｌｏｇｂＩＣ_５０の場合のように）、各検閲方向は逆転させなければならない。なぜなら、たとえば、ＩＣ_５０＜１０００ｎＭは、ｙ＞１－ｌｏｇ_ｂ１０００ｎＭを意味するからである。検閲情報は、Ｌ及びＲのセットの指標の切替えにより逆転されうる。下記では、使用される特定のリンク関数（つまりＩＣ_５０が表現されるスケール）及び検閲方向の逆転は、とくに明記されていない限り、黙示的である。

コード化されたヌクレオチドペア又はアミノ酸ペアがどのように結合親和性に寄与するかをモデル化する平均結合親和性関数が記載される。この関数は、統計分布をパラメーター化するために、ｄｅｎｏｖｏ分子ペアに関する結合親和性を予測するために、及びｄｅｎｏｖｏ分子ペアが結合する確率の評価に、他の情報と共に統計モデルで使用される。

平均結合関数は、「総平均」結合親和性と、各コード化されたヌクレオチドペア又はアミノ酸ペアに対して、コード化されたヌクレオチドペア又はアミノ酸ペアに関連付けられた総平均結合親和性からの偏差の大きさ及び方向をモデル化する係数と、によりパラメーター化されうる。

平均結合親和性関数は

であり（式中

は総平均結合親和性である）、ｘ^Ｔは、結合が対象となる生物学的分子ペアのコード化されたヌクレオチドペア又はアミノ酸ペアの行ベクトル（すなわち、設計行列の行）であり、Ｔは転置演算子であり、βは係数の列ベクトルであり、且つｘ^Ｔβはｘ^Ｔとβのドット積である。ｘ及びβの自明な再定義を介して総平均項をｘ^Ｔβに組み込みうることは、当業者であれば認識されよう。

ベクトルβは、ｘ^Ｔの等価分割に対してヌクレオチド又はアミノ酸の各可能なペア形成に関する結合親和性への追加の寄与の大きさ及び方向を所与の分割がモデル化するように、設計行列（つまりｘ^Ｔ）の列の分割と同様にして分割されうる。とくに優先的実装例では、ｘ^Ｔ及びβの分割は、第１のタイプの分子と第２のタイプの分子とのコンタクトポイントに対応する。

β及び他のパラメーターθは、モデルをトレーニングデータに当てはめることにより推定されうる。モデルをトレーニングデータに当てはめる明白な方法は、最大尤度である。しかしながら、ｘ及びβの各分割を４４１要素程度に大きくしうること及びコンタクトポイント（分割）の数がおおよそ１００でありうることを考慮して、βは多くの要素（この例では４４，１００）を含みうる。θの次元はβのものに匹敵しうる。トレーニング例の数が（β，θ）の次元と比べて小さい場合、最大尤度などの従来の推定法は成功しないおそれがある。明示的又は黙示的正則化に基づく方法は、β及び他のパラメーターθの推定に使用されうる。正則化法は、大きさが無視しうる程度に十分に小さい多くの値を含むβなどのパラメーターを介して観測データを良好にモデル化可能であるという仮定を課すこととして理解可能である（すなわち、実用的にはβは疎である）。正則化法は、本質的に扱いにくい多くの解法を有する推定問題を解法がｄｅｎｏｖｏ例に十分に一般化される扱いやすい問題に変換し、現在、このトピックに関する多くの一連の文献が存在する（Jin, Maas, & Scherzer, 2017）。当業者であれば、リッジ回帰、ラッソ、エラスティックネット、圧縮センシング、マッチング追跡アルゴリズムなどの数多くの正則化推定法に気付くであろう。好ましい実装例では、β及び他のパラメーターθは、以下に記載の階層的ベイジアン推定を介して推定されうる。

高次元モデルの階層的ベイジアン推定は、β及び他のパラメーターの最大事後（ＭＡＰ）ポイント推定値を計算するために、限定メモリーブロイデン・フレッチャー・ゴールドファーブ・シャンノ（Ｌ－ＢＦＧＳ）（Byrd, Hansen, Nocedal, & Singer, 2016）や確率的勾配上昇（Robbins & Monro, 1951）などの最適化法を用いて実施されうる。代替的に、β、θの同時事後分布からの近似サンプルは、自動微分変分推論（ＡＤＶＩ）（Kucukelbir, Tran, Ranganath, Gelman, & Blei, 2017）又はマルコフ連鎖モンテカルロ（ＭＣＭＣ）法たとえばノーＵターン（ＮＵＴＳ）サンプラー（Hoffman & Gelman, 2014）を用いて取り出される。

これらの方法の各々は、トレーニングデータ及びβ、θの提案された値が与えられたとして、事後尤度値又はｌｏｇ尤度値（任意に定数項を除く）を計算する能力を必要とする。以下は尤度又はｌｏｇ尤度により定式化されうるが、当業者であれば、計算上の理由により対数スケールで確率質量及び密度と連携することが有利でありうることを認めるであろう。設計行列Ｘ、結合親和性ｙ、及び検閲情報Ｌ、Ｒ、Ｕが与えられたとして、パラメーターβ、θの事後ｌｏｇ尤度は、
ｌｏｇｆ（β，θ｜Ｘ，ｙ，Ｌ，Ｒ，Ｕ）＝ｌｏｇｆ（ｙ｜Ｘ，Ｌ，Ｒ，Ｕ，β，θ）＋ｌｏｇｆ（β，θ）－ｌｏｇｆ（Ｘ，ｙ，Ｌ，Ｒ，Ｕ）
としてモデル化されうる。式中、ｆ（ｙ｜Ｘ，Ｌ，Ｒ，Ｕ，β，θ）は、尤度関数（Ｘ、Ｌ、Ｒ、Ｕ、β、θを条件とするｙの確率質量又は確率密度）であり、ｆ（β，θ）は、β、θの事前確率質量又は密度関数であり、且つｆ（Ｘ，ｙ，Ｌ，Ｒ，Ｕ）は、Ｘ、ｙ、Ｌ、Ｒ、Ｕの確率質量又は密度である。所与のトレーニングセットに対してＸ、ｙ、Ｌ、Ｒ、Ｕは一定であるので、ｌｏｇｆ（Ｘ，ｙ，Ｌ，Ｒ，Ｕ）項は、ｌｏｇｆ（β，θ｜Ｘ，ｙ，Ｌ，Ｒ，Ｕ）が定数付加項まで計算されうるように削除されうる。

尤度関数は、予測された平均μが与えられたとして、ｙを観測する確率をモデル化する確率質量又は密度関数を介して計算されうる。尤度関数は、確率的変動に従わない予測値からアッセイにより測定された量の確率的変動（たとえば測定誤差）をモデル化する。

トレーニングセット中の結合親和性値が検閲される場合（たとえば、結合親和性の上限又は下限のみが知られる場合）、検閲結合親和性に対応する尤度は、検閲により許可された可能な結合親和性値にわたりその関連統計分布を積分することにより計算されうる。こうして、結合予測器は、結合親和性がある特定の値を下回る若しくは上回ることが知られている又はそのように推定される例を含有しうるトレーニングデータを用いてトレーニングされうる。そのうえ、トレーニングデータは、結合又は非結合は推測可能であるが結合親和性は測定不能であるアッセイからの例を含有しうる。トレーニングデータの例としては、質量分析データが挙げられる。ＭＨＣクラスＩペプチド結合例では、結合親和性の測定を可能にする競合アッセイからのデータは、結合する、される、ペプチドが単に結合するか又は結合しないかが知られるにすぎないペプチド溶出液試験からのデータにより補充可能であるであろう。一例として、結合親和性は測定不能であるが、結合が起こると仮定可能である場合、結合ペプチドは、５００ｎＭ未満の検閲ＩＣ_５０値を有すると仮定されうるとともに、代替的に、対立遺伝子特異的検閲値は、識別可能なＭＨＣ対立遺伝子が異なる結合特性を有しうる観測をモデル化するために使用されうる。

機械学習モデル又は統計モデルは、結合又は非結合の指標を有する各参照結合剤－標的ペアと推定検閲ＩＣ５０値とを関連付けることと、モデル当てはめ時に提案されたモデルパラメーターの候補値が与えられたとして、かかる各ペアに対して、可能な結合親和性値セットにわたり関連統計分布を積分することにより尤度への寄与を計算することと、によりトレーニングされうる。

したがって、ｌｏｇ尤度関数ｌｏｇｆ（ｙ｜Ｘ，Ｌ，Ｒ，Ｕ，β，θ）は、

としてモデル化されうる。式中、ｙ_ｉは、ｉ番目の結合親和性であり、

は、設計行列Ｘの_ｉ番目の行であり、θ_ｉは、確率質量又は密度関数ｆ及びその対応する累積確率質量又は密度関数Ｆのｉ番目のトレーニング例のパラメーターである。

当業者には公知であろうが、ｆに対して選ばれうる確率質量又は密度関数は多数存在する。好ましい実施形態では、ｆは、正規分布の密度関数であり、且つリンク関数は、ｙ＝１－ｌｏｇ_ｂＩＣ_５０であるか、又はｆは、ポアソン分布の確率質量関数であり、且つリンク関数は、ｙ＝ｌｎＩＣ_５０であるか、又はｆは、負の二項分布の確率質量関数であり、且つリンク関数は、ｙ＝ｌｎＩＣ_５０である。ｆに対して選ばれる関数の支持に依存して、ｙのドメインは、たとえば、ｙの真値を整数に丸めることにより調整されうる。

すべてのｉ（Ｘの行及びｙの要素の指標）に対する

の計算は、行列ベクトル積Ｘβを介して実施されうるとともに、当業者には公知であろうが、積は、疎線形代数ルーチンを用いて効率的に計算されうる。

事後ｌｏｇ尤度は、パラメーター

、β、及びθの不確実性をモデル化する事前分布の階層により特定されうる。

の不確実性は、

としてモデル化されうる。式中、平均ｍ_１及び標準偏差ｓ_２は、あらかじめ定義された定数である。ｌｏｇ尤度関数が、平均

及び標準偏差σを有する正規分布（Ｎ，（μ_ｉ，σ））を用いてモデル化され、且つリンク関数が、ｙ＝１－ｌｏｇ_ｂＩＣ_５０である、実施形態では、階層
σ^２～ＨＣ（０，ｓ_２）
β_ｉ～Ｎ（０，λ_ｉ）
λ_ｉ～ＨＣ（０，τ）
τ～ＨＣ（０，σ）
（式中、ＨＣは、半コーシー分布を表し、且つｓ_２は、あらかじめ定義された定数である）
は、β、θに対する馬蹄推定器（Carvalho, Polson, & Scott, 2010）を定義する。ただし、θは（σ，λ，τ）である。好ましい実施形態では、ｍ_１＝１／２、ｓ_１＝１、及びｓ_２＝１。

ｌｏｇ尤度関数が、平均

及び変動

を有する負の二項分布ＮＢ（μ_ｉ，φ）を用いてモデル化され、過分散パラメーターφの不確実性が、［０，∞］の不適正一様事前分布としてモデル化され、且つリンク関数が、ｙ＝ｌｎＩＣ_５０である、例では、階層
β_ｉ～Ｎ（０，λ_ｉ）
λ_ｉ～ＨＣ（０，τ）
（式中、τは、あらかじめ定義された定数である）
は、β、θに対する推定器を定義する。ただし、θは、（λ、τ）である。好ましい実施形態では、ｍ_１＝１／２、ｓ_１＝５、及びτ＝５／２。

トレーニングセットが十分に大きい場合、ｍ_１、ｓ_１、ｓ_２、τなどの定数の厳密な値は、比較的重要ではなく、φ→∞とすると、負の二項分布は、ポアソン分布に向かう傾向があり、これは、過分散がトレーニングデータにより支持されなければ、負の二項分布の代わりに使用されうることを、当業者は観測するであろう。

下記の例では、出力媒体を用いてモデルパラメーターの推定を提示することにより、当てはめられたモデルを解釈したりかかるモデルの使用に介入したりする方法が存在する。提案された解決策の例によれば、β又はθの推定値は、コンピュータースクリーンなどの出力媒体上にヒートマップのアレイとして提示されうる。かかる提示では、各ヒートマップは、βの分割（すなわちコンタクトポイント）に対応し、各ヒートマップ内では、行は、第１の種類の分子からのヌクレオチド又はアミノ酸に、且つ列は、第２の種類の分子からのヌクレオチド又はアミノ酸に対応しうるとともに、ヒートマップの各要素の色相又は強度は、対応するコンタクトポイントにおけるヌクレオチド又はアミノ酸の対応するペア形成によりなされる寄与の推定値に対応しうる。かかる提示は、モデルの当てはめに使用されたコンタクトポイント指標及び推定された総平均結合親和性が与えられたとして、既知の配列の分子ペアに関する結合親和性の予測などの介入タスクを適切な資格者が実施することを可能にしうる。かかる情報を提示する方法が多数存在すること（たとえば、表又はノモグラムとして）及び出力媒体が多数存在すること（たとえば、ペーパープリントアウト又はコンピューターユーザーインターフェース）ことは、当業者であれば認めるであろう。

平均結合親和性関数及びモデルの同時事後パラメーターの推定値を用いて、ｄｅｎｏｖｏ分子ペアに関する結合親和性を予測する方法が提供される。トレーニングデータと同様に設計行列を形成することにより、ｄｅｎｏｖｏ分子ペアに関する結合親和性を予測することが可能である。測定又は推定された結合親和性値及び検閲情報は、ｄｅｎｏｖｏ予測に必要とされない。モデルの同時事後パラメーターの推定値は、最大事後（ＭＡＰ）ポイント推定値、統計モデルのパラメーターの同時事後分布からのサンプル、又はかかるサンプルから計算される要約統計でありうる。好ましい例として、要約統計は、同時事後分布からのサンプルの平均である。推定パラメーターβが与えられたとして、設計行列Ｘにより表される分子に関する結合親和性は、平均結合親和性関数

を用いて計算されうる。

分子ペアが結合する確率の推定値を計算することにより、各ｄｅｎｏｖｏ分子ペアに関する予測された結合親和性の不確実性を定量する方法が提供される。一例では、これは、多数の結合親和性予測をまとめることにより推定されうる。この場合、各予測は、モデルのパラメーターの同時事後分布のサンプルから取り出された統計モデルのパラメーターの推定値を用いて行われうる。要約は、特定の値未満である予測など、基準を満たす多数の予測の割合でありうる。ＭＨＣクラスＩペプチド結合例では、この割合は、５００ｎＭ未満のＩＣ_５０の多数の予測の割合でありうる。

他の例では、

は、対応するβ_ｉの変動を推定することが観測される。本実施形態では、設計行列Ｘにより記述された分子ペアに関する結合親和性測定の変動は、η^２＝σ^２＋λ^ＴＸλにより推定されうる。次いで、η_ｉによりパラメーター化された統計分布は、予測された結合親和性の不確実性をモデル化するために使用されうる。一実施形態では、分子のｉ番目のペアに関する測定結合親和性の変動は、分布Ｎ（μ_ｉ，η_ｉ）によりモデル化されうる。ただし、μ_ｉは、ｉ番目の分子ペアに関する予測された平均結合親和性である。したがって、分子のｉ番目のペアに関する測定結合親和性がｋ未満である確率は、おおよそ、Ｆ（κ｜，μ_ｉ，η_ｉ）である。ただし、Ｆは、正規分布の累積分布関数である。

本文書では、我々は、ワクチンの設計における本方法の明らかな使用を提供する。しかしながら、本明細書に記載の技術は、同定された標的を認識する調節されたＴ細胞を設計することに同じように適用可能であることは理解されよう。同様に、本技術はまた、腫瘍における新生抗原負荷を同定するためにも使用可能であり、これはバイオマーカーとして、すなわち、療法に対する反応を予測するものとして使用される。

次に図６に目を向けると、本方法の実施形態の実装に好適なシステムの一例が示されている。システム６００は、参照データストア６２０と通信するサーバー６１０を少なくとも１つ含む。サーバーはまた、たとえば通信ネットワーク６４０を介して自動ペプチド合成デバイス６３０と通信しうる。

ある特定の実施形態では、サーバーは、複数のペプチドのアミノ酸配列及びタンパク質のアミノ酸配列を得るとともに、各ペプチドに対して、以上に記載の工程を用いてタンパク質への予測される結合親和性を決定しうる。それぞれの予測された結合親和性に基づいて、サーバーは、複数のペプチドのうち１種以上の候補ペプチドを選択しうる。

候補ペプチドは、ペプチドを合成する自動ペプチド合成デバイス６３０に送られうる。自動ペプチド合成デバイス６３０は、標的エピトープ、すなわちこの例では標的ペプチドを合成的に生成する。自動ペプチド合成の技術は、当技術分野で周知であり、いずれの公知技術も使用されうることが理解されよう。典型的には、標的ペプチドは、標準的固相合成ペプチド化学を用いて合成され、逆相高性能液体クロマトグラフィーを用いて精製され、その後、水性溶液として製剤化される。使用する場合、投与前に、ペプチド溶液は、通常、アジュバントと混合され、その後、患者に投与される。同様に、ペプチドは、ＤＮＡ又はＲＮＡにコード化され、他の箇所に記載のようにワクチンとして使用されうる。

ペプチド合成技術は、２０年超にわたり存在しているが、近年、急速な改善がなされてきた。簡潔さを期して、我々は、かかる機械を詳細に記載しないが、それらの操作は、当業者であれば理解されよう。また、かかる従来の機械は、サーバーから候補タンパク質を受け取るように適合化されうる。

サーバーは、クエリー標的分子へのクエリー結合剤分子の結合親和性を予測する以上に記載の機能を含みうる。それぞれの結合親和性は、ワクチンの生成に好適な結合親和性に基づいて標的エピトープを同定するために、さらなる処理モジュールに送られうる。しかしながら、サーバーはまた、ワクチン設計のために標的エピトープを同定するようにも操作可能でありうる。それは、当然ながら、これら機能は、コンピューターネットワークのさまざまな処理エンティティー及び互いに通信するさまざまな処理モジュール全体にわたり細分されうると理解される。たとえば、サーバーは、コンピューターネットワークを介して１つ以上のクエリー分子を受け取って、好適な結合親和性又は候補エピトープセットを戻しうる。クエリーは、コンピューターネットワーク又はグラフィックユーザーインターフェースへの入力から電子的で受け取られうる。

結合親和性を予測して結合親和性に基づいて候補ペプチドを同定する技術は、カスタム化ワクチン開発のために広範なエコシステムにインテグレートされうる。ワクチン開発エコシステム例は、当技術分野で周知であり、状況が高レベルで記載されているが、簡潔さを期して、我々はエコシステムについて詳細に記載しない。

エコシステム例では、第１のサンプル工程は、腫瘍生検物及び対応する健全組織対照からＤＮＡを単離することでありうる。第２のシーケンス工程では、データがシーケンスされ、変異体すなわち突然変異が同定される。免疫プロファイラー工程では、関連付けられた突然変異ペプチドが≪ｉｎｓｉｌｉｃｏ≫で生成されうる。

関連付けられた突然変異ペプチド及び本明細書に記載の技術を用いて、新生抗原が予測され、選択され、そしてワクチン設計のために標的エピトープが同定される。すなわち、本明細書に記載の技術を用いて決定されたその予測された結合親和性に基づいて、候補ペプチド配列が選ばれる。

次いで、以上に記載の従来の技術を用いて、標的エピトープが合成的に生成される。投与前に、ペプチド溶液は、通常、アジュバントと混合され、その後、患者に投与される（ワクチン接種）。

本明細書に記載の方法により予測された好適な標的エピトープは、ペプチドベースワクチン以外の他のタイプのワクチンを生成するためにも使用されうる。たとえば、ペプチド標的は、対応するＤＮＡ又はＲＮＡ配列中にコード化され、直接的にネイキッドＤＮＡ／ＲＮＡを用いるか又は代替的にマイクロ粒子、ナノ粒子、細菌送達系などの送達媒体を用いるかのどちらかで、患者にワクチン接種するために使用可能である。ＤＮＡは、通常、プラスミド構築物に挿入されることに留意されたい。代替的に、ＤＮＡは、細菌又はウイルス送達システムのゲノムに組込み可能であり（ウイルス送達システムに依存して、同様にＲＮＡも可能である）、これは、患者にワクチン接種するために使用可能であり、したがって、作製されたワクチンは、免疫化後に患者において、すなわちインビボで標的を生成する遺伝子工学操作ウイルス又は細菌である。

好適なサーバー６１０の例は、図７に示される。この例では、サーバーは、少なくとも１つのマイクロプロセッサー７００、メモリー７０１、任意の入出力デバイス７０２、たとえばキーボード、及び／又はディスプレイ、並びに外部インターフェース７０３を含み、示されるようにバス７０４を介して相互接続される。この例では、外部インターフェース７０３は、サーバー６１０を周辺デバイスに、たとえば、通信ネットワーク６４０、参照データストア６２０、他の保存デバイスに接続するために利用可能である。単一外部インターフェース７０３が示されているが、これは単なる例示を目的としており、実用上、各種方法（たとえば、Ｅｔｈｅｒｎｅｔ、シリアル、ＵＳＢ、ワイヤレスなど）を用いて複数のインターフェースが提供されうる。

使用時、マイクロプロセッサー７００は、メモリー７０１に保存されたアプリケーションソフトウェアの形態の命令を実行することにより、入力データを受け取って処理するために参照データストア６２０及び／又はクエリー結合剤分子及びクエリー標的分子の配列データを受け取るためにクライアントデバイスと通信したり、以上に記載の方法に従って結合親和性予測を行ったりすることを含めて、所要のプロセスの実施を可能にする。アプリケーションソフトウェアは、１つ以上のソフトウェアモジュールを含みうるとともに、オペレーティングシステム環境などの好適な実行環境で実行されうる。

それゆえ、サーバー７００は、好適にプログラムされたクライアントデバイス、ＰＣ、ウェブサーバー、ネットワークサーバーなどのいずれかの好適な処理システムから形成されうることが、分かるであろう。特定の一例で、サーバー６１０は、非揮発（たとえばハードディスク）ストレッジ（ただし、これは必須ではない）に保存されたソフトウェアアプリケーションを実行するインテルアーキテクチャーベースの処理システムなどの標準的処理システムである。しかしながら、処理システムは、いずれかの電子処理デバイス、たとえば、マイクロプロセッサー、マイクロチッププロセッサー、論理ゲート構成体、任意にＦＰＧＡ（フィールドプログラマブルゲートアレイ）などのロジックの実装に関連するファームウェア、又はいずれかの他の電子デバイス、システム、又はアレンジメントでありうることもまた、理解されよう。それゆえ、サーバーという用語が用いられているが、これは単に例示を目的としたものにすぎず、限定を意図するものでない。

サーバー６１０は単一エンティティーとして示されているが、サーバー６１０は、たとえば、クラウドベースの環境の一部として提供される処理システム及び／又はデータベースを用いることにより、いくつかの地理的に離れた場所にわたり分散可能であることは、分かるであろう。そのため、以上に記載の配置は必須ではなく、他の好適な構成を使用すること可能である。

材料及び方法
トレーニングセットの形成
下記のセットは、実用上、本発明の有用性を実証するこの例から得られる結果のセットと合わせた本発明の態様の実装の詳細な例である。

（Kim, et al., 2014）に記載のデータセットBD2009及びBD2013は、免疫エピトープデータベース及び分析リソース（Immune Epitope Database and Analysis Resource）（IEDB）ウェブサイト（http://tools.iedb.org/main/datasets/、２０１６年８月にアクセス）からダウンロードされた。これらのデータセットは、これ以降ではIEDB2009及びIEDB2013という。IEDB2009及び2013データの１／２～１パーセントのリピート可能な一様擬似ランダムのサブセットは、難読化（弱く暗号化）され、将来的な使用のために確保された。データセットは、ＭＨＣクラスＩ対立遺伝子名、ヒト又は動物種名、ペプチド配列、ペプチド長さ、対立遺伝子とペプチド分子との測定結合親和性（ｎＭ単位のＩＣ_５０値として表される）、及びＩＣ_５０に関する不等式（検閲）情報の例を含む。そのほか、データセットは、cv_rnd、cv_sr、及びcv_gsと称される３つの異なるタイプの５分割交差検証パーティション（分割）を特定する。（Kim, et al., Dataset size and composition impact the reliability of performance benchmarks for peptide-MHC binding predictions, 2014）の結果に基づいて、cv_rnd分割は後続の実験のために採用された。

ヒトＭＨＣのＤＮＡ配列のIPD-IMGT/HLAデータベースのリリース3.25.0は、Anthony Nolan HLA Informatics Group’s GitHubリポジトリー（https://github.com/ANHIG/IMGTHLA/、２０１６年８月にアクセス）から拡張mark-upフォーマット（XML）でダウンロードされた。XMLファイルは、ヒトＭＨＣ対立遺伝子名から、それらのドメインをコード化するＤＮＡ配列から翻訳されたＭＨＣクラスＩ対立遺伝子のα１及びα２ドメインの品質管理アミノ酸配列へ、のマッピングを表すように形成された構文解析中間データ構造であった。類似のデータ構造は、IEDB2009及び2013データセットに存在する動物種（チンパンジー、ゴリラ、ウマ、マカク、及びマウス）のＭＨＣ対立遺伝子名称から、それらの対立遺伝子のα１及びα２のドメインの品質管理アミノ酸配列へ、のマッピングを表すために構築された。動物アミノ酸配列は、２０１６年の下半期にアクセスして、Research Collaboratory for Structural Bioinformatics Protein Data Bank（RCSB PDB、http://www.rcsb.org/pdb/home/home.do）を含むソースから得られた。

IEDB2009及び2013データセットは、IEDB2009及び2013データセット中のデータに加えて、各ペプチドに対するＭＨＣクラスＩ対立遺伝子分子のα１及びα２ドメインの配列も含むであるデータセットを形成するように、ＭＨＣクラスＩアミノ酸配列データと組み合わされた。９アミノ酸（ノナマー）で構成されたペプチドは、ペプチドに結合するＭＨＣ分子の結合溝がノナマーに優先的に結合するように構造化されるので、ＭＨＣクラスＩが関与する用途で対象となる。他の長さのペプチドに対応する組み合わせデータセット中のエントリーは除去され、ノナマーのみに対するエントリーを残した。

（Nielsen, et al., 2007）により公開されたデータを用いて、ノナマーペプチド並びにα１及びα２ドメインアミノ酸配列へのコンタクトポイント指標の６２ペアを記述するデータ構造を形成した。６２ペア形成の各々は、結合しうるＭＨＣクラスＩ分子のα１及びα２ドメインの１８２アミノ酸の１つから４Å以内にあると考えられるノナマー中のアミノ酸を表すので、その２つのアミノ酸は、相互作用してＭＨＣ分子へのペプチドの結合に影響を及ぼしうる。ＤＮＡによりコード化される２０標準アミノ酸と未知アミノ酸を表すＸ記号とを含む２１記号のアミノ酸アルファベットが使用された。６２コンタクトポイントのアミノ酸ペアは、ワンホットコード化及び圧縮疎行保存を用いて疎バイナリー設計行列としてコード化された。計算の便宜上、検閲情報は、インジケーター値のベクトルとして表され、ｉ番目のインジケーター値は、ｉ番目の結合親和性の検閲情報を特定し、左検閲を－１としてコード化し、無検閲を０としてコード化し、そして右検閲を１としてコード化した。したがって、セットＬは、ベクトルが値－１を有するすべての指標からなり、セットＲは、ベクトルが値１を有するすべての指標からなり、セットＵは、ベクトルが値０を有するすべての指標からなる。続く実験の各々では、結合親和性値は、ベクトルとして表され、以上に記載のようにリンク関数を用いて変換された。対応する逆リンク関数を用いてＩＣ５０スケールに戻す予測された結合親和性の変換は、とくに明記されていない限り黙示的である。減少するリンク関数（ＩＣ_５０に対して）が使用された場合、検閲方向は逆転された。

これらの工程の結果は、各々が、コード化されたヌクレオチド又はアミノ酸配列のペアの多数の例と、それらの対応する結合親和性値と、対応する検閲情報と、を含むトレーニングセットを形成するのに、及び検証目的に使用される対応する試験セットを形成するのに好適なデータセットである。下記のトレーニングセット及び試験セットが形成された。
ｉ）IEDB2009データに対応するトレーニングセット及びIEDB2013データに対応する試験セット、
ｉｉ）cv_rnd分割により定義された５分割の各々に対して、分割に対応するものを除くすべての例を含むトレーニングセットと、分割に対応するすべての例を含む試験セットと、を含む５分割交差検証トレーニングセット及び試験セット、及び
ｉｉｉ）各抜かれた対立遺伝子に対応する例を除くIEDB2009及び2013データに対応するすべてのデータを含む１対立遺伝子抜きトレーニングセット、及び抜かれた対立遺伝子のデータを含む対応する試験セット。
いずれの場合も、トレーニングセット及び試験セットは、トレーニングされたデータを用いてモデルを評価できないように、互いに交わらない。

IEDB2009データに対するトレーニング及びIEDB2013データに対する試験
提案された方法がＭＨＣクラスＩとノナマーとペアのｄｅｎｏｖｏペアに関する結合親和性及び結合をどの程度良好に予測しうるかを評価するために、統計モデルを本発明の第２及び第３の態様に従って以上に記載のIEDB2009データ（ｉ）に対するトレーニングセットに当てはめた。ｘ及びβの分割がノナマーペプチドとＭＨＣクラスＩ分子のα１及びα２ドメインとの６２コンタクトポイントペアに対応するように、平均結合親和性関数

を構築した。正規分布を用いてｌｏｇ尤度関数をモデル化した。リンク関数ｙ＝１－ｌｏｇ_ｂＩＣ_５０及びＬ－ＢＦＧＳを用いるＭＡＰ馬蹄推定を使用した。したがって、得られたモデルは、ノナマーとＭＨＣクラスＩ分子との結合親和性の汎対立遺伝子モデルであった。

上記のIEDB2013データ（ｉ）に対して試験セットの各ノナマー－ＭＨＣクラスＩ分子ペアの結合親和性を予測した。対数スケールの測定及び予測ＩＣ_５０値間の散布プロットを用いて及びそれらの間のピアソン相関係数を計算することにより、結合親和性予測の品質を評価した。受診者動作特性（ＲＯＣ）曲線をプロットすることにより及びＲＯＣ曲線下面積（ＡＵＣ）を計算することにより、結合予測の品質を評価し、真の結合剤は、５００ｎＭ未満の測定ＩＣ_５０値を有するものとして定義された。

５分割交差検証
予測品質の要約統計に及ぼすサンプリング誤差の影響を推定するために、上記のcv_rnd分割（ｉｉ）のデータセットを用いて、５分割交差検証を実施した。

本発明の第２及び第３の態様に従って、統計モデルを各残った分割に当てはめた。平均結合親和性関数、ｌｏｇ尤度関数、リンク関数、及び推定アルゴリズムは、前の実験の通りであった。

各抜かれた分割中の各ノナマー－ＭＨＣクラスＩ分子ペアに関して結合親和性を予測した。各抜かれた分割に対して、対数スケールの測定及び予測ＩＣ_５０値間の散布プロットを用いて及びそれらの間のピアソン相関係数を計算することにより、結合親和性予測の品質を評価した。各抜かれた分割に対して、受診者動作特性（ＲＯＣ）曲線をプロットすることにより及びＲＯＣ曲線下面積（ＡＵＣ）を計算することにより、結合予測の品質を評価した。真の結合剤は、５００ｎＭ未満の測定ＩＣ_５０値を有するものとして定義された。相関係数及びＡＵＣ値に及ぼすサンプリング誤差の影響は、ｔ分布を用いて平均及び９５％信頼区間によりまとめられた。

１対立遺伝子抜き交差検証
本方法の能力を推定してトレーニングデータ中に存在しない対立遺伝子に関する結合親和性を予測するように一般化するために、上記のデータセット（ｉｉｉ）を用いて１対立遺伝子抜き交差検証を実施した。

各抜かれた分割中の各ノナマー－ＭＨＣクラスＩ分子ペアに関して結合親和性を予測した。各抜かれた分割に対して、対数スケールの測定及び予測ＩＣ_５０値間のピアソン相関係数を計算することにより、一般化を評価した。ＲＯＣ曲線下面積（ＡＵＣ）を計算することにより、結合予測品質を評価した。真の結合剤は、５００ｎＭ未満の測定ＩＣ_５０値を有するものとして定義された。２０未満のＩＣ_５０測定を有する抜かれた分割の結果は、相関係数及びＡＵＣ値の推定値がかかる場合には信頼性がないおそれがあるので、廃棄した。モデルに使用される（ヒト）コンタクトポイントがこのモデルでヒトから動物の対立遺伝子への一般化を可能にするかを試験するために、平均及び９５％信頼区間により、各種に対して対立遺伝子別に相関係数及びＡＵＣ値をまとめた。

モデルの解釈
本発明の第２及び第３の態様に従って、統計モデルをIEDB2009及び2013データの全体に当てはめた。平均結合親和性関数、ｌｏｇ尤度関数、リンク関数、及び推定アルゴリズムは、前の実験の通りであった。本発明の第４の態様に従って、ヒートマップのアレイを生成してβの推定値を可視化した。アレイの各ヒートマップが（Nielsen, et al., 2007）で定義されたコンタクトポイントの１つに対応するように、アレイを構築した。ヒートマップの行はペプチドアミノ酸に対応し、その列はＭＨＣ分子アミノ酸に対応し、そして各要素の色相は、対応するコンタクトポイントで推定された結合親和性寄与に対応した。

結合確率の推定
実装例では、データセット（ｉ）（IEDB2013データ）に対する試験セットの各ノナマー－ＭＨＣクラスＩ分子ペアに関する結合親和性予測について、結合確率を推定した。予測η^２の変動を推定するために、σ^２と共にβの各成分の変動の推定値を使用した。予測及び変動によりパラメーター化された正規分布を用いて、測定ＩＣ_５０が５００ｎＭ未満である確率を推定した。これらの確率を予測されたＩＣ_５０の関数としてプロットした。

結果
IEDB2009データに対するトレーニング及びIEDB2013データに対する試験
図８は、本実験の散布プロット及びＲＯＣプロットを示す。表１は、本実験のピアソン相関係数及びＲＯＣ曲線下面積（ＡＵＣ）を示す。

５分割交差検証
表２は、本実験の結果を示す。平均ピアソン相関係数は、０．７８２（９５％信頼区間［０．７７７，０．７８７］）であった。平均ＡＵＣは、０．９３３（９５％信頼区間［０．９３０，０．９３６］）であった。図９は、散布プロット及びＲＯＣプロットを示す。

１対立遺伝子抜き交差検証
表３は、本実験の結果を示す。

モデルの解釈
図１０Ａは、推定パラメーター値を提示するヒートマップのアレイを示す。図１０Ｂは、明確さを期してアレイのサブセットを示す。

結合確率の推定
図１１は、予測された結合親和性（「ｙ＿ｈａｔ」）の関数として推定された結合予測（「ｐ＿ｂｉｎｄ」）のプロットを示す。量の周辺ヒストグラムも示される。図１１ａは、推定された結合確率［０．３１２，０．５５８］が予測された結合親和性の範囲［０，２５０，０００］ｎＭにわたり位置することを示す。２５０，０００ｎＭの近くの予測された結合親和性の結合確率の突然の減少は、リンク関数におけるクリッピングに基づく。図１１ｂは、予測された結合親和性の範囲［０，５００］ｎＭの同一データを示す。

IEDB2009データに対するトレーニング及びIEDB2013データに対する試験
図１２は、図８に類似の画像を示し、９－ｍｅｒの代わりにｋ－ｍｅｒについてＭＨＣクラスＩ予測の評価を示す。

考察
IEDB2009データに対するトレーニング及びIEDB2013データに対する試験
EIDB2009データに対するトレーニング及びIEDB2013データに対する試験は、ピアソン相関係数及び受診者動作特性（ＲＯＣ）曲線下面積（ＡＵＣ）のポイント推定値の計算を促進し、それぞれ、モデルがトレーニングされなかったｄｅｎｏｖｏ例を用いて、測定ＩＣ_５０と予測ＩＣ_５０との一致及び「真の」結合剤と予測結合との一致を特徴付ける。０．８０１のピアソン相関係数は、測定及び予測のＩＣ_５０値が完全ではないが強く相関することを示す。

結合親和性予測器は、「結合剤」又は「非結合剤」のラベルを結合親和性閾値に基づく予測に割り当てることにより、結合予測器（すなわち分類器）として使用されうる。ＭＨＣクラスＩペプチド結合問題では、多くの場合、５００ｎＭの閾値が使用されるが、偽陽性及び偽陰性の誤差のリスクのバランスを調整するように任意の閾値が選ばれうる。０．９３６のＡＵＣ値は、期待値が結合親和性閾値の一様分布に対してとられる場合、モデルがランダム選択非結合ペアよりもランダム選択結合ペプチド－ＭＨＣペアに低い予測結合親和性を割り当てる予想確率の推定値として解釈されうる。実際には、本方法に基づいた結合予測器は、通常、単一のあらかじめ特定された閾値を用いて操作されるであろうから、ＡＵＣ統計は、有用であるが、いくらか人工的である。ＲＯＣ曲線はそれ自体、合理的閾値選択を促進する。ＲＯＣ曲線は、たとえば、０．２の偽陽性率が許容されうる場合、おおよそ０．９の真陽性率で結合予測器が操作されうるように、結合親和性閾値を選びうることを示す。

５分割交差検証
予測品質の要約統計に及ぼすサンプリング誤差の影響は、IEDBデータのcv_rnd分割を用いて５分割交差検証により推定された。平均ピアソン相関係数は、９５％信頼区間［０．７７７，０．７８７］で０．７８２であると推定された。平均ＡＵＣは、９５％信頼区間［０．９３０，０．９３６］で０．９３３であると推定された。これらの値は、前の実験のIEDB2013データに対するポイント推定値と一致している。５分割のＲＯＣ曲線の形状は、互いに非常に類似しているとともに、０．２の偽陽性率が許容される場合、おおよそ０．９の真陽性率で操作可能であることと一致する。

１対立遺伝子抜き交差検証
本方法の能力を推定するために、トレーニングデータに存在しない対立遺伝子に一般化するように１対立遺伝子抜き交差検証を実施した。モデルは、多くのヒト対立遺伝子に一般化する能力を実証した。十分に特徴付けられたヒト対立遺伝子ＨＬＡ－Ａ０２－０１への一般化は、優れており（０．８３０の相関係数及び０．９５０のＡＵＣ）、対立遺伝子ＨＬＡ－Ａ０２－１９９及びＨＬＡ－Ａ０２－５０９ではさらには良好であった（たとえば０．９７３～０．９８１のＡＵＣ値）。しかしながら、ＨＬＡ－Ａ－０１－０１、ＨＬＡ－Ｂ－２７－０３、ＨＬＡ－Ｂ－２７－０５、ＨＬＡ－Ｂ－４６－０１などのいくつかのヒト対立遺伝子への一般化は、不十分であった（それぞれ、０．５９４、０．５、及び０．５４２のＡＵＣ値）。

モデルは、動物対立遺伝子でもヒト対立遺伝子よりも一般化されなかった。平均で、ピアソン相関係数及びＡＵＣは、Ｈ－２－Ｌｄを除いてすべてのマウス対立遺伝子でランダム性能に統計的に等しかった。平均で、ヒト対立遺伝子への一般化は、すべての他の動物種よりも統計的に有意であった（多重比較補正せず）。モデルに使用されたコンタクトポイントが、動物対立遺伝子とは異なることが知られるヒト対立遺伝子で決定されたことを考慮すると、これは驚くべきことではない。その差は、進化的に互いにより異なる種では、より大きくなると予想されよう。たとえば、マウス対立遺伝子は、「アンカーポイント」（結合親和性の予測にとくに重要であることが見いだされている特定のペプチド配列位置）に関してヒト対立遺伝子と異なることが知られている。アンカーポイントモデルは、本発明により仮定されたコンタクトポイントモデルを単純化したものとみなしうる。一般化は、試験種では、ヒト（０．８３０の平均ＡＵＣ）からチンパンジー（０．６４３の平均ＡＵＣ）へ、マカク（０．６４０の平均ＡＵＣ）へ、マウス（０．５７５の平均ＡＵＣ）への進化距離の関数として劣化する。ヒト対立遺伝子と比較して動物対立遺伝子への一般化が劣っていることは、コンタクトポイントでの結合寄与をモデル化することが機構的に真実味があることを示す証拠である。

モデルの解釈
推定モデルパラメーターの提示は、当業者が当てはめモデルを解釈するのに役立ちうる。図１０Ａ及びＢは、ＩＣ_５０に対して減少するリンク関数を使用したモデルのパラメーター推定値を示す。大きさの大きい正の推定値は、ＩＣ_５０の小さな値（すなわちより強い結合剤）に関連付けられるペプチド及びＭＨＣアミノ酸のペア形成に対応し、大きさの大きい負の推定値は、ＩＣ_５０の大きな値（すなわちより弱い結合剤）に関連付けられる。図はまた、馬蹄推定を用いて得られたβの推定値が数値的にきわめて疎であるが（すなわち、パラメーターの多くの値がゼロに近い）、きわめて大きい大きさを有するものもあることを例示する。

かかる提示を用いて、当業者であれば、優先的には結合に関与することが期待されるアミノ酸のペア形成を推測することが可能である。次いで、かかる推測に基づく仮説をｉｎｓｉｌｉｃｏ、ｉｎｖｉｔｒｏ、又はｉｎｖｉｖｏ試験しうる。

また、当業者であれば、法律による必要に応じて、ペプチド及びＭＨＣのペアの配列が与えられたとして、結合親和性の予測に介入しうる。各コンタクトポイントに対応するアミノ酸ペアを同定しうるとともに、各ペアに対して、対応するヒートマップからの結合親和性寄与を読み取りうる。次いで、これらの値の和及び切片項の推定値を適切な逆リンク関数を介してＩＣ_５０スケールに変換し、結合親和性予測を提供しうる。自動予測が適正に計算されたことを検証可能であり、代替シナリオで、たとえば、ペプチド配列を改変した場合に結合親和性がどのように変化するかを調べるために、実験を行いうる。

結合確率の推定
予測される強い結合剤は、５５％を少し超える関連結合確率を有するが、それにもかかわらず、予測の不確実性の推定値を得る能力は有用である。なぜなら、予測の下流のコンシューマーが、そうした予測に基づいて合理的に行動しうるようになるからである。

結論
生物学的分子ペア間の結合の新規な機構的に真実味のあるモデルを開発した。これにより、結合及び結合親和性の高品質予測が可能になり、人的解釈及び介入が促進され、予測の下流のコンシューマーがそうした予測に基づいて合理的に行動できるように、それらの予測に関する不確実性の推定が提供される。

以前に提案された技術では、ペプチド及びＭＨＣアミノ酸の特異的ペア形成は考慮されない。それを行ったとしても、公知の技術では、計算費用がかさむであろう。ニューラルネットワークを正確にトレーニングするために、公知の技術では、各ペプチド－ＭＨＣ複合体を偽配列としてコード化する。すなわち、ペプチドアミノ酸配列及びペプチドに接触すると考えられるＭＨＣアミノ酸配列のコード化を行う。

本発明の概念は、各特異的コンタクトポイントペアを考慮して結合親和性とこれらのペアの結合寄与の和とを同一視する原理に基づく。

これをコード化するために、各組み合わせはユニーク記号（２１２の記号）と等価である。ペアは、ペア中に存在する特異的アミノ酸を表す単一非疎要素を有する疎行列を用いてコード化される。各ペアがどのように結合親和性に寄与するかを算出するために及びトレーニングデータを作成するために、結合親和性をベクトルに変換し、（ベクトルのドット積を用いて）平均結合親和性からの偏差を決定する。

既知のベイジアン推定器機械学習技術（確率分布関数など）を用いて、新しいコンタクトポイントペアセットに対して平均からの偏差を推定し、次いで、それに応じて最も確からしい結合親和性を決定する。

使用するための候補ペプチドは、一連の候補ペプチドに対して最も確からしい結合親和性から選ぶことが可能である。

次に、各例が本開示のある特定の態様を記述する一連の例を説明する。

第１の例によれば、コード化されたヌクレオチド配列ペア又はアミノ酸配列ペアの多数の例、それらの対応する結合親和性値、及び対応する検閲情報を含むトレーニングセットを形成する方法が提供されうる。この場合、ヌクレオチドペア又はアミノ酸ペアは、１つ以上のエンコーダーによりコード化され、且つ各例中のコード化されたヌクレオチドペア又はアミノ酸ペアの数及びそれらの解釈は、トレーニングセット全体にわたり不変であり、且つ対応する結合親和性値及び検閲情報は、アッセイから生成されるか、又は結合を推測可能なアッセイの結果に基づいて推定され、且つ各結合親和性に対して、検閲情報は、測定結合親和性値が、特定の結合親和性未満（＜）、又は特定の結合親和性以下（≦）、又は特定の結合親和性に等しい（＝）、又は特定の結合親和性以上（≧）、又は特定の結合親和性超（＞）と予想されるかを特定する。

この例によれば、コード化されたヌクレオチドペア又はアミノ酸ペア、それらの対応する結合親和性値、及び対応する検閲情報は、統計モデルに対するトレーニングデータとして提供されうる。とくに優先的例では、各コード化されたヌクレオチドペア又はアミノ酸ペアは、２つの分子間の多数のコンタクトポイントの１つでのヌクレオチドペア又はアミノ酸ペアを表し、ペアの第１の要素は、第１のタイプの分子に由来し、ペアの第２の要素は、第２のタイプの分子に由来する。コンタクトポイントは、結合分子ペアの構造に関する研究を起源としうるか又は統計モデル若しくは機械学習モデルを用いて推測されうる。

コード化されたヌクレオチドペア又はアミノ酸ペアは、設計行列として表されうる。設計行列の各行は、結合しうる生物学的分子ペアに対するコード化されたヌクレオチドペア又はアミノ酸ペアを含む一例を表しうる。設計行列は、行の各分割がその行により表される例に対する特定のヌクレオチドペア又はアミノ酸ペア（たとえば、その行により表される）を表すように、列単位で分割されうる。所与の行の分割は、対応する第１の分子に由来する特定のヌクレオチド又はアミノ酸と、対応する第２の分子に由来する特定のヌクレオチド又はアミノ酸と、のペア形成をユニーク又は非ユニークに記述する特徴ベクトルとして、ヌクレオチドペア又はアミノ酸ペアをコード化しうる。

優先的コード化は、指標がペアに存在する特定のヌクレオチド又はアミノ酸を表す単一要素を除いてベクトルのすべての要素がゼロであるバイナリーベクトルとしてペア形成をユニークに記載する（かかるコード化は、多くの場合、「ワンホット」又は「ダミー」コード化と呼ばれる）。アミノ酸ペアのさらにより優先的コード化では、２０アミノ酸のアルファベット（アラニン［Ａ］、アルギニン［Ｒ］、…バリン［Ｖ］）を用いて、ペアの各々の一方又は両方のアミノ酸のアイデンティティーが未知でありうる場合（通常はＸとしてコード化）、アミノ酸ペアは、（２０＋１）×（２０＋１）＝２１×２１＝４４１次元バイナリーベクトルとしてコード化されうる。

バイナリーコード化が使用される優先的場合では、設計行列は疎であろう。本方法の空間及び時間の複雑性を改善するために、設計行列は、圧縮疎行（ＣＳＲ）保存データ構造（圧縮行保存［ＣＲＳ］としても知られる）などの疎データ構造で保存されうる。

結合親和性値は、ベクトルのｉ番目の要素が設計行列のｉ番目の行により表される例に関する結合親和性を与えるベクトルとして表されうる。検閲情報は、Ｌ、Ｒ、及びＵのセットとして表されうるとともに、それらの要素は、それぞれ、左検閲、右検閲、及び無検閲の結合親和性の結合親和性ベクトルへの指標を表す。

結合親和性値は、リンク関数を用いて変換されうる。好ましい実施形態では、リンク関数は、ｙ＝１－ｌｏｇ_ｂＩＣ_５０である（Nielsen M. L., 2003）。対数の底ｂは、優先的には２５０，０００ｎＭである。他の好ましい実施形態では、リンク関数は、ｙ＝ｌｎＩＣ_５０であり、式中、ｌｎは自然対数である。さらに他の好ましい例では、リンク関数は、恒等関数ｙ＝ＩＣ_５０である。

逆リンク関数は、変換された結合親和性に対応する結合親和性を計算するように定義されうる。たとえば、リンク関数がｙ＝１－ｌｏｇ_ｂＩＣ_５０である場合、逆リンク関数はＩＣ_５０＝ｂ^１－ｙである。リンク関数がｙ＝ｌｎＩＣ_５０である場合、逆リンク関数はＩＣ_５０＝ｅ^ｙであり、式中、ｅはオイラー数であり、且つリンク関数が恒等関数である場合、逆リンク関数も恒等関数である。リンク関数及び逆リンク関数は、変換された結合親和性が区間［０，１］に拘束されるとともに結合親和性が０を超えて拘束されるようにクランプされうる。

クリティカルなこととして、リンク関数がＩＣ_５０に対して減少する場合（ｙ＝１－ｌｏｇ_ｂＩＣ_５０の場合のように）、各検閲方向は逆転させなければならない。なぜなら、たとえば、ＩＣ_５０＜１０００ｎＭは、ｙ＞１－ｌｏｇ_ｂ１０００ｎＭを意味するからである。検閲情報は、Ｌ及びＲのセットの指標の切替えにより逆転されうる。下記では、使用される特定のリンク関数（つまりＩＣ_５０が表現されるスケール）及び検閲方向の逆転は、とくに明記されていない限り、黙示的である。

さらなる例では、コード化されたヌクレオチドペア又はアミノ酸ペアがどのように結合親和性に寄与するかをモデル化する平均結合親和性関数が提供されうる。この関数は、統計分布をパラメーター化するために、ｄｅｎｏｖｏ分子ペアに関する結合親和性を予測するために、及びｄｅｎｏｖｏ分子ペアが結合する確率の評価に、他の情報と共に統計モデルで使用される。

平均結合親和性関数は、たとえば、

でありうる。式中、

は総平均結合親和性であり、ｘ^Ｔは、結合が対象となる生物学的分子ペアのコード化されたヌクレオチドペア又はアミノ酸ペアの行ベクトル（すなわち、設計行列の行）であり、Ｔは転置演算子であり、βは係数の列ベクトルであり、且つｘ^Ｔβはｘ^Ｔとβのドット積である。

ベクトルβは、ｘ^Ｔの等価分割に対してヌクレオチド又はアミノ酸の各可能なペア形成に関する結合親和性への追加の寄与の大きさ及び方向を所与の分割がモデル化するように、設計行列（つまりｘ^Ｔ）の列の分割と同様にして分割されうる。とくに優先的実施形態では、ｘ^Ｔ及びβの分割は、第１のタイプの分子と第２のタイプの分子とのコンタクトポイントに対応する。

さらなる例では、トレーニングデータにモデルを当てはめることにより、β及び他のパラメーターθを推定する方法が提供されうる。β及び他のパラメーターθは、階層的ベイジアン推定により推定されうる。

高次元モデルの階層的ベイジアン推定は、β及び他のパラメーターの最大事後（ＭＡＰ）ポイント推定値を計算するために、限定メモリーブロイデン・フレッチャー・ゴールドファーブ・シャンノ（Ｌ－ＢＦＧＳ）（Byrd, Hansen, Nocedal, & Singer, 2016）や確率的勾配上昇（Robbins & Monro, 1951）などの最適化法を用いて実施されうる。代替的に、β、θの同時事後分布からの近似サンプルは、自動微分変分推論（ＡＤＶＩ）（Kucukelbir, Tran, Ranganath, Gelman, & Blei, 2017）又はマルコフ連鎖モンテカルロ（ＭＣＭＣ）法たとえばノーＵターン（ＮＵＴＳ）サンプラー（Hoffman & Gelman, 2014）を用いて取り出されうる。

これらの方法の各々は、トレーニングデータ及びβ、θの提案された値が与えられたとして、事後尤度値又はｌｏｇ尤度値（任意に定数項を除く）を計算する能力を必要とする。設計行列Ｘ、結合親和性ｙ、及び検閲情報Ｌ、Ｒ、Ｕが与えられたとして、パラメーターβ、θの事後ｌｏｇ尤度は、
ｌｏｇｆ（β，θ｜Ｘ，ｙ，Ｌ，Ｒ，Ｕ）＝ｌｏｇｆ（ｙ｜Ｘ，Ｌ，Ｒ，Ｕ，β，θ）＋ｌｏｇｆ（β，θ）－ｌｏｇｆ（Ｘ，ｙ，Ｌ，Ｒ，Ｕ）
としてモデル化されうる。式中、ｆ（ｙ｜Ｘ，Ｌ，Ｒ，Ｕ，β，θ）は、尤度関数（Ｘ、Ｌ、Ｒ、Ｕ、β、θを条件とするｙの確率質量又は確率密度）であり、ｆ（β，θ）は、β、θの事前確率質量又は密度関数であり、且つｆ（Ｘ，ｙ，Ｌ，Ｒ，Ｕ）は、Ｘ、ｙ、Ｌ、Ｒ、Ｕの確率質量又は密度である。所与のトレーニングセットに対してＸ、ｙ、Ｌ、Ｒ、Ｕは一定であるので、ｌｏｇｆ（Ｘ，ｙ，Ｌ，Ｒ，Ｕ）項は、ｌｏｇｆ（β，θ｜Ｘ，ｙ，Ｌ，Ｒ，Ｕ）が定数付加項まで計算されうるように削除されうる。

トレーニングセット中の結合親和性値が検閲される場合（すなわち、結合親和性の上限又は下限のみが知られる場合）、検閲結合親和性に対応する尤度は、検閲により許可された可能な結合親和性値にわたりその関連統計分布を積分することにより計算されうる。こうして、結合予測器は、結合親和性がある特定の値を下回る若しくは上回ることが知られている又はそのように推定される例を含有しうるトレーニングデータを用いてトレーニングされうる。

は、設計行列Ｘのｉ番目の行であり、θ_ｉは、確率質量又は密度関数ｆ及びその対応する累積確率質量又は密度関数Ｆのｉ番目のトレーニング例のパラメーターである。

ｆは、正規分布の密度関数であり、且つリンク関数は、ｙ＝１－ｌｏｇ_ｂＩＣ_５０であるか、又はｆは、ポアソン分布の確率質量関数であり、且つリンク関数は、ｙ＝ｌｎＩＣ_５０であるか、又はｆは、負の二項分布の確率質量関数であり、且つリンク関数は、ｙ＝ｌｎＩＣ_５０である。

すべてのｉ（Ｘの行及びｙの要素の指標）に対する

の計算は、行列ベクトル積Ｘβを介して実施されうるとともに、積は、疎線形代数ルーチンを用いて効率的に計算されうる。

事後ｌｏｇ尤度は、パラメーター

そのほか、出力媒体を用いてモデルパラメーターの推定を提示することにより、当てはめられたモデルを解釈したりかかるモデルの使用に介入したりする方法が提供されうる。提案された解決策の実施形態例によれば、β又はθの推定値は、コンピュータースクリーンなどの出力媒体上にヒートマップのアレイとして提示されうる。かかる提示は、モデルの当てはめに使用されたコンタクトポイント指標及び推定された総平均結合親和性が与えられたとして、既知の配列の分子ペアに関する結合親和性の予測などの介入タスクを適切な資格者が実施することを可能にしうる。

さらに、平均結合親和性関数及びモデルの同時事後パラメーターの推定値を用いて、ｄｅｎｏｖｏ分子ペアに関する結合親和性を予測する方法が提供されうる。トレーニングデータと同様に設計行列を形成することにより、ｄｅｎｏｖｏ分子ペアに関する結合親和性を予測することが可能である。測定又は推定された結合親和性値及び検閲情報は、ｄｅｎｏｖｏ予測に必要とされない。モデルの同時事後パラメーターの推定値は、最大事後（ＭＡＰ）ポイント推定値、統計モデルのパラメーターの同時事後分布からのサンプル、又はかかるサンプルから計算される要約統計でありうる。好ましい実施形態として、要約統計は、同時事後分布からのサンプルの平均である。推定パラメーターβが与えられたとして、設計行列Ｘにより表される分子に関する結合親和性は、平均結合親和性関数

を用いて計算されうる。

また、分子ペアが結合する確率の推定値を計算することにより、各ｄｅｎｏｖｏ分子ペアに関する予測された結合親和性の不確実性を定量する方法も提供されうる。一実施形態では、これは、多数の結合親和性予測をまとめることにより推定されうる。この場合、各予測は、モデルのパラメーターの同時事後分布のサンプルから取り出された統計モデルのパラメーターの推定値を用いて行われうる。要約は、特定の値未満である予測など、基準を満たす多数の予測の割合でありうる。他の実施形態では、βの不確実性をモデル化するパラメーターの推定値に基づいて、正規近似を使用しうる。

ペプチド－ＭＨＣ結合は、適応免疫系の研究の中心である。ｉｎｖｉｔｒｏ結合親和性（ＩＣ５０）アッセイは、大規模エピトープ予測用途（たとえば、個別化新生抗原ワクチン）にスケーリングできないので、正確なｉｎｓｉｌｉｃｏアプローチが動機付けられる。先導的機械学習法は、良好な予測を行うが、典型的には機構的解釈が欠如し、予測不確実性推定値を提供しない。本発明者らは、ペプチド－ＭＨＣコンタクトポイントのアミノ酸ペアの関数としてＩＣ５０が予測されるＭＨＣクラスＩ及びＩＩをカバーする機構的汎対立遺伝子モデルを開発した。ＩＣ５０値のおおよそ４０％は、一般公開結合データセットで検閲されうる。本発明者らは、検閲値を測定として処理して、ピアソン相関係数（ＰＣＣ）などの共通予測品質メトリックでバイアスを試験したところ、この実施では、ＰＣＣを１２％（シミュレーション）及び１８％（クラスＩデータでの実験）を過大評価する可能性があることが判明した。検閲データを除外してモデルのメトリックからかかるバイアスを除去すると、ＰＣＣ及び受診者動作特性曲線下面積（ＡＵＣ）の交差検証推定値は、０．６５８±０．０１及び０．８３４±０．００７（ノナマー、クラスＩ）、０．６６８±０．００９及び０．８４４±０．００５（ｋ－ｍｅｒ、クラスＩ）、及び０．５７１±０．０２及び０．７７９±０．０１（クラスＩＩ）であった。検閲データを含めると、ＰＣＣ及びＡＵＣは、０．７６１±０．００９及び０．９２３±０．００５（ノナマー、クラスＩ）、０．７５５±０．００６及び０．９１５±０．００４（ｋ－ｍｅｒ、クラスＩ）、また０．５９８±０．０２及び０．７９３±０．０１（クラスＩＩ）と推定された。本発明者らは、厳密なデータ盲検化を使用して過適合のなしの帰無仮説を試験したところ、かかる証拠は観測されなかった（Ｐ＞０．０５）。ｋ－ｍｅｒを容認するモデルは、より長いペプチド内のノナマー結合コアを同定することが多い。一般公開Ｘ線構造データを使用して、クラスＩＩモデルは、偶然確率よりも有意に良好に結合コアを同定可能であることが実証された（Ｐ＝０．０３９）。最終的に、本発明者らは、ノナマーペプチドとＭＨＣクラスＩ分子とのコンタクトポイントを推測するようにモデルを拡張した。推測されたコンタクトポイントを用いてトレーニングされたクラスＩモデルは、実験的に検証されたコンタクトポイントを用いてトレーニングされたものと、ほとんど同じ性能を示したことから、Ｘ線構造データに依拠するためにする必要はないことが実証される。本開示は、現状技術と競合する結合の機構モデルを提示し、検閲データを注意深く処理することの重要性を浮き彫りにし、予測不確実性の推定をどのように合理的ワクチン設計の促進に活用できるかを提案した。

記述
下記は、本明細書に記載の実施例の記述であり、特定の利点を提供しうる。

１．コード化されたヌクレオチド配列ペア又はアミノ酸配列ペアの多数の例、それらの対応する結合親和性値、及び対応する検閲情報を含むトレーニングセットを形成する方法であって、且つヌクレオチドペア又はアミノ酸ペアが、１つ以上のエンコーダーによりコード化され、且つ各例中のコード化されたヌクレオチドペア又はアミノ酸ペアの数及びそれらの解釈が、トレーニングセット全体にわたり不変であり、且つ対応する結合親和性値及び検閲情報が、アッセイから生成されるか、又は結合を推測可能なアッセイの結果に基づいて推定され、且つ各結合親和性に対して、測定結合親和性値が、特定の結合親和性未満（＜）、又は特定の結合親和性以下（≦）、又は特定の結合親和性に等しい（＝）、又は特定の結合親和性以上（≧）、又は特定の結合親和性超の（＞）と予想されるかを、検閲情報が特定する、方法。

２．各コード化されたヌクレオチドペア又はアミノ酸ペアが、２つの分子間の多数のコンタクトポイントの１つでのヌクレオチドペア又はアミノ酸ペアを表し、ペアの第１の要素が、第１のタイプの分子に由来し、且つペアの第２の要素が、第２のタイプの分子に由来する、記述１に記載の方法。

３．コード化されたヌクレオチドペア又はアミノ酸ペアが、設計行列として表され、設計行列の各行が、結合しうる生物学的分子ペアのコード化されたヌクレオチドペア又はアミノ酸ペアを含む１つの例を表す、記述２に記載の方法。

４．設計行列の列単位の分割が、ヌクレオチド又はアミノ酸のペア形成を表し、且つ所与の行の分割が、対応する第１の分子に由来する特定のヌクレオチド又はアミノ酸と、対応する第２の分子に由来する特定のヌクレオチド又はアミノ酸と、のペア形成をユニーク又は非ユニークに記述する特徴ベクトルとして、ヌクレオチドペア又はアミノ酸ペアをコード化しうる、記述２又は３に記載の方法。

５．設計行列が疎データ構造で保存されうる、記述４に記載の方法。

６．平均結合親和性関数を計算する方法であって、コード化されたヌクレオチドペア又はアミノ酸ペアがどのように結合親和性に寄与するかを関数がモデル化し、結合親和性がリンク関数を用いて変換されうるものであり、リンク関数が、優先的には恒等関数、又はより優先的にはｙ＝ｌｎｘ、又はさらにより優先的にはｙ＝１－ｌｏｇ_ｂｘでありうるものであり、結合親和性の任意に大きい部分が区間に確実にマッピングされるように、ｂが十分に大きい定数であり、区間が優先的には［０，１］であり、且つすべての結合親和性が区間に確実にマッピングされるようにリンク関数がクランプされうるものであり、ｘがｎＭ単位で測定される場合、ｂが、優先的には１００，０００ｎＭ、又は２５０，０００ｎＭ、又は５００，０００ｎＭである、方法。

７．平均結合関数が総平均結合親和性によりパラメーター化される、記述６に記載の方法。

８．コード化されたヌクレオチドペア又はアミノ酸ペアに関連付けられた総平均結合親和性からの偏差の大きさ及び方向をモデル化する係数により平均結合関数がパラメーター化される、記述６に記載の方法。

９．平均結合親和性関数が

であり、

が総平均結合親和性であり、ｘ^Ｔが、結合が対象となる生物学的分子ペアのコード化されたヌクレオチドペア又はアミノ酸ペアの行ベクトルであり、^Ｔが転置演算子であり、βが係数の列ベクトルであり、且つｘ^Ｔβがｘ^Ｔとβのドット積である、記述６～８のいずれか一つに記載の方法。

１０．ｘＴ及びβの分割が、第１のタイプの分子と第２のタイプの分子とのコンタクトポイントに対応する、記述９に記載の方法。

１１．モデルをトレーニングデータに当てはめることによりβ及び他のパラメーターθを推定するための、先行する記述のいずれか一項に記載の方法。

１２． β及び他のパラメーターθを推定するために明示的又は黙示的な正則化が使用される、記述１１に記載の方法。

１３． β及び他のパラメーターθが階層的ベイジアン推定により推定される、記述１２に記載の方法。

１４． β及び他のパラメーターの最大事後（ＭＡＰ）ポイント推定値を計算するために、限定メモリーブロイデン・フレッチャー・ゴールドファーブ・シャンノ（Ｌ－ＢＦＧＳ）や確率的勾配上昇などの最適化法が使用される、記述１３に記載の方法。

１５． β、θの同時事後分布からの近似サンプルが、自動微分変分推論（ＡＤＶＩ）又はマルコフ連鎖モンテカルロ（ＭＣＭＣ）法たとえばノーＵターン（ＮＵＴＳ）サンプラーを用いて取り出される、記述１３に記載の方法。

１６．トレーニングデータ及びβ、θの提案された値が与えられたとして、事後尤度値又はｌｏｇ尤度値（任意に定数項を除く）が計算される、記述１３に記載の方法。

１７．検閲情報により許可された可能な結合親和性値にわたり１つ以上の統計分布を積分することにより、１つ以上の検閲結合親和性に対応する１つ以上の尤度又はｌｏｇ尤度が計算されるか、又は積分が累積確率質量若しくは密度関を用いて黙示的に実施される、先行する記述のいずれか一項に記載の方法。

１８．結合親和性の測定を可能にする１つ以上のアッセイからのデータが、分子の結合が起こるか起こらないかが知られているか、推測されるか、又は仮定されるデータにより補充される、先行する記述のいずれか一項に記載の方法。

１９．分子の結合が起こるか起こらないかが知られているか、推測されるか、又は仮定されることが、１つ以上の特定の値を下回る又は上回る検閲結合親和性に割り当てられる、記述１８に記載の方法。

２０．分子がノナマーペプチド及びＭＨＣ分子である、先行する記述のいずれか一項に記載の方法。

２１．検閲結合親和性値が５００ｎＭ又は１０００ｎＭを下回ると仮定される、記述１９又は２０に記載の方法。

２２．検閲結合親和性値が、トレーニングデータで提示されたＭＨＣ対立遺伝子に基づいて割り当てられる、記述１９又は２０に記載の方法。

２３．ｌｏｇ尤度関数が、

（式中、ｙ_ｉは、ｉ番目の結合親和性であり、

は、設計行列Ｘのｉ番目の行であり、θｉは、確率質量又は密度関数ｆ及びその対応する累積確率質量又は密度関数Ｆのｉ番目のトレーニング例のパラメーターである）であるか、又は等価尤度関数が使用される、以上の記述のいずれかに記載の方法。

２４．ｆが正規分布の密度関数であり、且つリンク関数がｙ＝１－ｌｏｇ_ｂＩＣ_５０である、記述６又は２３に記載の方法。

２５．ｆがポアソン分布の確率質量関数であり、且つリンク関数がｙ＝ｌｎＩＣ_５０であるか、記述６又は２３に記載の方法。

２６．ｆが負の二項分布の確率質量関数であり、且つリンク関数がｙ＝ｌｎＩＣ_５０である、記述６又は２３に記載の方法。

２７．変換又は非変換結合親和性のドメインが、記述２３に従って使用される統計分布の支援にマッチするように調整される、先行する記述のいずれか一項に記載の方法。

２８．すべてのｉに対する平均結合親和性関数

の計算が、行列ベクトル積Ｘβにより実施される、先行する記述のいずれか一項に記載の方法。

２９．行列ベクトル積Ｘβが疎線形代数ルーチンを用いて計算される、記述２８に記載の方法。

３０．事後尤度又はｌｏｇ尤度が事前分布の階層により特定される、記述２３に記載の方法。

３１．

の不確実性が、

としてモデル化されうるものであり、平均ｍ_１及び標準偏差ｓ_２があらかじめ定義された定数である、記述３０に記載の方法。

３２．１つ以上の尤度又はｌｏｇ尤度関数が、平均

及び標準偏差σを有する１つ以上の正規分布Ｎ（μ_ｉ，σ）を用いてモデル化され、リンク関数がｙ＝１－ｌｏｇ_ｂＩＣ_５０であり、階層σ^２～ＨＣ（０，ｓ_２）、β_ｉ～Ｎ（０，λ_ｉ）、λ_ｉ～ＨＣ（０，τ）、及びτ～ＨＣ（０，σ）が、β、θを推定するために使用され、θが（σ，λ，τ）であり、ＨＣが半コーシー分布を表し、且つｓ_２があらかじめ定義された定数である、記述３０又は３１に記載の方法。

３３．ｍ_１が優先的には１／２であり、ｓ_１が優先的には１であり、且つｓ_２が優先的には１である、記述３２に記載の方法。

３４．１つ以上の尤度又はｌｏｇ尤度関数が、平均

及び変動

を有する１つ以上の負の二項分布ＮＢ（μｉ、φ）を用いてモデル化され、過分散パラメーターφの不確実性が不適正一様事前分布［０，∞］としてモデル化され、リンク関数がｙ＝ｌｎＩＣ_５０であり、階層β_ｉ～Ｎ（０、λ_ｉ）及びλｉ～ＨＣ（０、τ）が、β、θを推定するために使用され、θが（λ、τ）であり、ＨＣが半コーシー分布を表し、τがあらかじめ定義された定数である、記述３０又は３１に記載の方法。

３５．ｍ_１が優先的には１／２であり、ｓ１が優先的には５であり、且つτが優先的には５／２である、記述３４に記載の方法。

３６．出力媒体を用いてモデルパラメーターの推定値を提示することにより当てはめモデルを解釈するための、先行する記述のいずれか一項に記載の方法。

３７． β又はθの１つ以上の推定値が出力媒体を用いて提示される、記述３６に記載の方法。

３８． β及びθの一方又は両方の１つ以上の推定値が１つ以上の図又は表として提示され、好ましい実施形態では図が１つ以上のヒートマップ又はノモグラムでありうる、記述３７に記載の方法。

３９．前記出力媒体がペーパー又はコンピュータースクリーン又はオーディオデバイスである、記述３７に記載の方法。

４０．平均結合親和性関数及びモデルの同時事後パラメーターの推定値を用いてｄｅｎｏｖｏ分子ペアに関する結合親和性を予測するための、先行する記述のいずれか一項に記載の方法。

４１．モデルのトレーニングに使用されたトレーニングデータのときと同様に設計行列が形成される、記述４０に記載の方法。

４２．前記モデルの同時事後パラメーターの推定値が、最大事後（ＭＡＰ）ポイント推定値、統計モデルのパラメーターの同時事後分布からのサンプル、又はかかるサンプルから計算される要約統計の１つ以上である、記述４０に記載の方法。

４３．前記要約統計が同時事後分布から取り出されるサンプルの平均である、記述４２に記載の方法。

４４．推定パラメーターβが与えられたとして、設計行列Ｘにより表される分子に関する結合親和性が、

として平均結合親和性関数を用いて計算されうる、記述４０に記載の方法。

４５．１つ以上の分子ペアが結合する確率の推定値を計算することにより、１つ以上のｄｅｎｏｖｏ分子ペアに関する予測された結合親和性の不確実性を見積もる方法。

４６．多数の結合親和性予測をまとめることにより確率が推定される、記述４５に記載の方法。

４７．モデルのパラメーターの同時事後分布からのサンプルから取り出された統計モデルのパラメーターの推定値を用いて各予測が行われる、記述４６に記載の方法。

４８．要約が、基準を満たす多数の予測の割合でありうる、記述４５、４６、及び４７のいずれかに記載の方法。

４９．予測された結合親和性が特定の範囲の値を下回る又は上回る又はその範囲内にあることが基準である、記述４８に記載の方法。

５０．対象の分子がノナマーペプチド及びＭＨＣ対立遺伝子分子であり、且つ所与の閾値を下回る又は上回る又は特定の閾値範囲内にある結合親和性の多数の予測の割合が基準である、記述４９に記載の方法。

５１．対立遺伝子がＭＨＣクラスＩ対立遺伝子であり、且つ５００ｎＭを下回るＩＣ５０値の多数の予測の割合でことが基準があるか、又は５００ｎＭを上回るＩＣ５０値の多数の予測の割合であることが基準である、記述５０に記載の方法。

５２．結合確率がＦ（κ｜μ_ｉ，η_ｉ）により推定され、Ｆが正規分布Ｎ（μ_ｉ，η_ｉ）の累積分布関数であり、μ_ｉが分子のｉ番目のペアの平均予測結合親和性であり、η_ｉがη^２＝σ^２＋λ^ＴＸλのｉ番目の要素であり、σが標準偏差であり、λがμ_ｉのベクトルであり、Ｘが設計行列であり、且つκが結合親和性閾値である、記述４５に記載の方法。

５３．対象の分子がノナマーペプチド及びＭＨＣ対立遺伝子分子である、記述５２に記載の方法。

５４．対立遺伝子がＭＨＣクラスＩ対立遺伝子であり、κが５００ｎＭである、記述５２又は５３に記載の方法。

５５．１つ以上のプロセッサーと、
１つ以上のプロセッサーにより実行されるとき、以上の記述のいずれかの方法を装置に実施させる命令を含むメモリーと、
１つ以上のプロセッサーにより実行されうる命令、又はトレーニング、又は試験、又はｄｅｎｏｖｏデータ、又は結果を保存するために使用されうるゼロ又はそれ以上の保存デバイスと、
以上の記述のいずれかに記載の方法を開始するために又は１つ以上の結果を１つ以上の他の装置に伝送するために使用されうるゼロ又はそれ以上の接続と、
を含む、装置。

参照文献
Byrd, R. H., Hansen, S. L., Nocedal, J., & Singer, Y. (2016). A Stochastic Quasi-Newton Method for Large-Scale Optimization. SIAM Journal on Optimization, 26(2), 1008-1031.
Carvalho, C. M., Polson, N. G., & Scott, J. G. (2010). The horseshoe estimator for sparse signals. Biometrika, 97(2), 465-480.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd Edition ed.). Springer.
Hoffman, M. D., & Gelman, A. (2014). The No-U-turn sampler: adaptively setting path lengths in Hamiltonian Monte Carlo. Journal of Machine Learning Research, 15(1), 1593-1623.
Jin, B., Maas, P., & Scherzer, O. (2017, June). Special issue on sparsity regularization in inverse problems. Inverse Problems, 33(6).
Kim, Y., Sidney, J., Buus, S., Sette, A., Nielsen, M., & B., P. (2014). Dataset size and composition impact the reliability of performance benchmarks for peptide-MHC binding predictions. BMC Bioinformatics, 15(214).
Kim, Y., Sidney, J., Buus, S., Sette, A., Nielsen, M., & Peters, B. (2014). Dataset size and composition impact the reliability of performance benchmarks for peptide-MHC binding predictions. BMC Bioinformatics, 15(241).
Kucukelbir, A., Tran, D., Ranganath, R., Gelman, A., & Blei, D. M. (2017). Automatic Differentiation Variational Inference. Journal of Machine Learning Research, 18(14), 1-45.
Li, Z., Li, G., & Shu, M. e. (2008). A novel vector of topological and structural information for amino acids and its QSAR applications for peptides and analogues. Science in China Series B: Chemistry, 51(10), 946-957.
Nielsen, M. L. (2003). Reliable prediction of T-cell epitopes using neural networks with novel sequence representations. Protein Science, 12, 1007-1017.
Nielsen, M., Lundegaard, C., Blicher, T., Lamberth, K., Harndahl, M., Justesen, S., . . . Buus, S. (2007). NetMHCpan, a method for quantitative predictions of peptide binding to any HLA-A and-B locus protein of known sequence. PLOS ONE, 2(8), e796.
Peterson, E. L., Kondev, J., Theriot, J. A., & Phillips, R. (2009). Reduced amino acid alphabets exhibit an improved sensitivity and selectivity in fold assignment. Bioinformatics, 25(11), 1356-1362.
Robbins, H., & Monro, S. (1951). A Stochastic Approximation Method. Annals of Mathematical Statistics, 22(3), 400-407.

表

Claims

クエリー標的分子へのクエリー結合剤分子の結合親和性値を予測するコンピューター実装方法であって、前記クエリー結合剤分子が第１のアミノ酸配列を有し、且つ前記クエリー標的分子が第２のアミノ酸配列を有し、前記方法が、
前記第１及び第２のアミノ酸配列を複数のデータ要素として一緒にコード化してコード化されたアミノ酸ペアを発生させることであって、前記コード化されたペアの各データ要素が、前記第１のアミノ酸配列と前記第２のアミノ酸配列とのそれぞれのコンタクトポイントで前記第１及び第２のアミノ酸配列のどのアミノ酸がペアになってコンタクトポイントペアを形成するかを表し、コンタクトポイントペアが、互いに近接して結合に影響を及ぼす結合剤分子及び標的分子のアミノ酸のペア形成である、発生させることと、
前記コード化されたアミノ酸ペアにトレーニングされた機械学習モデル又は統計モデルを適用して結合親和性値を予測することであって、前記機械学習モデル又は統計モデルが、
少なくとも１つのプロセッサーを用いて、それぞれのペアになった参照結合剤配列及び参照標的配列を含む参照結合剤－標的ペアの参照データストアにアクセスすることであって、各参照結合剤－標的ペアが、関連付けられた測定結合値を有する、アクセスすることと、
各参照結合剤－標的ペアを複数のデータ要素としてコード化することであって、前記コード化された参照結合剤－標的ペアの各データ要素が、それぞれのペアになった参照結合剤配列及び参照標的配列のどのアミノ酸がそれぞれのコンタクトポイントでペアになってコンタクトポイントペアを形成するかを表す、コード化することと、
によりトレーニングされる、予測することと、
を含み、
前記予測された結合親和性値が前記クエリー結合剤分子と前記クエリー標的分子との各コンタクトポイントペアの結合への寄与を表すようにする、コンピューター実装方法。
前記コード化されたアミノ酸ペアが、データ要素のベクトルとしてコード化される、請求項１に記載のコンピューター実装方法。
各データ要素が、各コンタクトポイントでのアミノ酸ペア形成の存在の指標となる値である、請求項１又は２に記載のコンピューター実装方法。
トレーニングされた機械学習モデル又は統計モデルを適用することが、データストアからモデル係数セットを検索することを含み、前記機械学習モデル又は統計モデルが、前記コード化された参照結合剤－標的ペア及びそれぞれの関連付けられた測定結合親和性値に当てはまる係数セットを推定することによりトレーニングされる、請求項１～３のいずれか一項に記載のコンピューター実装方法。
トレーニングされた機械学習モデル又は統計モデルを適用することが、前記検索された係数と前記コード化されたアミノ酸ペアとの線形結合を含む、請求項４に記載のコンピューター実装方法。
前記係数が、前記コード化された参照結合剤－標的ペア及び前記関連付けられた測定結合値にベイジアン推定アルゴリズムを適用することにより導出される、請求項４又は５に記載のコンピューター実装方法。
各参照結合剤－標的ペアが疎行列としてコード化され、各行が参照結合剤－標的ペアを表し、且つ各行が測定結合値に関連付けられる、請求項１～６のいずれか一項に記載のコンピューター実装方法。
前記行列の各行が一連のビットを含み、各ビットが各コンタクトポイントのアミノ酸の可能なペア形成に対応し且つ前記コンタクトポイントペア中に存在する特異的アミノ酸の指標となり、前記行列の行の分割が、前記参照結合剤配列のアミノ酸と前記標的結合剤配列のアミノ酸とのペア形成を記述する特徴ベクトルとしてアミノ酸ペアをコード化する、請求項７に記載のコンピューター実装方法。
前記参照データストアが、結合又は非結合の関連指標を有する参照結合剤－標的ペアをさらに含むとともに、前記機械学習モデル又は統計モデルが、結合又は非結合の指標に関連付けられた各参照結合剤－標的ペアと推定検閲ＩＣ_５０値とを関連付けることにより、トレーニングされうる、請求項１～８のいずれか一項に記載のコンピューター実装方法。
推定検閲ＩＣ_５０値に関連付けられた各参照結合剤－標的ペアに対して、可能な結合親和性値セットにわたり関連統計分布を積分することにより結合への寄与を計算することとをさらに含む、請求項９に記載のコンピューター実装方法。
既知の分子及び既知の分子の結合親和性値を用いて前記モデルが適切であるかをユーザーが解釈しうるように、前記モデルに関連付けられたパラメーターセットを出力することさらに含む、請求項１～１０のいずれか一項に記載のコンピューター実装方法。
前記クエリー結合剤分子がペプチドであり、及び／又は前記第２のアミノ酸配列がＭＨＣタンパク質配列又はＨＬＡタンパク質配列である、請求項１～１１のいずれか一項に記載のコンピューター実装方法。
少なくとも１種の候補タンパク質結合ペプチドを生成する方法であって、
複数のペプチドのアミノ酸配列及びタンパク質のアミノ酸配列を得ることと、
各ペプチドに対して、請求項１～１２のいずれか一項に記載の方法により前記タンパク質への予測された結合親和性を決定することと、
それぞれの予測された結合親和性に基づいて複数のペプチドのうち１種以上の候補ペプチドを選択することと、
を含む方法。
前記１種以上の候補ペプチドを合成すること、又は前記候補ペプチドを対応するＤＮＡ又はＲＮＡ配列にコード化すること、及び／又は前記配列を細菌又はウイルス送達システムのゲノムに取り込んでワクチンを作製することさらに含む、請求項１３に記載の方法。
クエリー標的分子へのクエリー結合剤分子の結合親和性を予測するための結合親和性予測システムであって、前記クエリー結合剤分子が第１のアミノ酸配列を有し、前記クエリー標的分子が第２のアミノ酸配列を有し、前記システムが、少なくとも１つのメモリーデバイスと通信する少なくとも１つのプロセッサーを含み、前記少なくとも１つのメモリーデバイスが、請求項１～１２のいずれか一項に記載の方法を少なくとも１つのプロセッサーに実行させるための命令を保存している、結合親和性予測システム。