JP2023522358A

JP2023522358A - 免疫原性応答を誘発すると予測される１つ又は複数のソースタンパク質の１つ又は複数の候補領域を識別する方法及びシステム並びにワクチンを作製する方法

Info

Publication number: JP2023522358A
Application number: JP2022563454A
Authority: JP
Inventors: シモフスキー，ボリス; モリーン，クレメント; ストラットフォード，リチャード; クランシー，トレヴァー
Original assignee: エヌイーシーオンコイミュニティエーエス
Priority date: 2020-04-20
Filing date: 2021-04-20
Publication date: 2023-05-30
Also published as: WO2021214071A1; EP4139921A1; CA3176326A1; US20230178174A1; CN116406472A

Abstract

複数のヒト白血球抗原ＨＬＡ型にわたり適応免疫原性応答を誘発すると予測される１つ又は複数のソースタンパク質の１つ又は複数の候補領域を識別するコンピュータ実施方法であって、１つ又は複数のソースタンパク質はアミノ酸配列を有する、方法が開示される。方法は、（ａ）１つ又は複数のソースタンパク質のアミノ酸配列にアクセスすることと、（ｂ）ＨＬＡ型のセットにアクセスすることと、（ｃ）ＨＬＡ型のセットの各々について、アミノ酸配列内の複数の候補エピトープの免疫ポテンシャルを予測することと、（ｄ）アミノ酸配列を複数のアミノ酸部分配列に分割することと、（ｅ）複数のアミノ酸部分配列の各々について、ＨＬＡ型のセットにわたって免疫原性応答を誘発するアミノ酸部分配列の予測される能力を示す領域メトリックを生成することであって、領域メトリックは、ＨＬＡ型のセットの各々について、複数の候補エピトープの予測免疫原性ポテンシャルに基づくものであることと、（ｆ）生成された領域メトリックのいずれかが統計的に有意であるか否かを識別ために、統計モデルを適用することであって、それにより、統計的に有意である領域メトリックを有すると識別されたアミノ酸部分配列は、ＨＬＡ型のセットの少なくともサブセットにわたって免疫原性応答を誘発すると予測されるアミノ酸配列の候補領域に対応するものであることとを含む。対応するシステム及びワクチンを作製する方法も開示される。

Description

導入
ワクチンは、有効な形態の疫学的コントロールとして確立されており、感染の低下並びに天然痘及びポリオ等のウイルス感染と関連する致死率の低下を支援するに当たり大きな成功を収めてきた。しかしながら、他の感染、例えば重症性急性呼吸器症候群コロナウイルス（ＳＡＲＳ－ＣｏＶ）、ＳＡＲＳ－ＣｏＶ－２、及び中東呼吸器症候群コロナウイルス（ＭＥＲＳ－ＣｏＶ）等のコロナウイルス科によって生じる感染は、ワクチン接種での予防がより難しいことが証明されている。

今日までのコロナウイルスワクチンを開発する世界中の努力の多くは、ウイルス上の最も露出した構造タンパク質として機能する、露出したスパイク糖タンパク質（Ｓタンパク質）に対する抗体応答を刺激することに主にフォーカスされてきた。しかしながら、ＳＡＲＳ－ＣｏＶのＳタンパク質に対する応答は、マウスでの短期保護を授けることが示された（Yang et al.2004,Nature 428(6982):561-4）が、回復期患者の同構造に対する中和抗体応答は典型的には、低力価で短命である（Channappanavar et al.2014,Immunol Res 88(19):11034-44）（Yang et al.2006,Clin Immunol 120(2)171-8）。さらに、ＳＡＲＳ－ＣｏＶのＳタンパク質への抗体応答の誘導は、幾つかの動物モデルでは悪影響と関連しており、安全性への懸念を生じさせる恐れがある。例えばマカクモデルでは、抗Ｓタンパク質抗体が重症急性肺損傷と関連することが観測され（Liu et al.2019 JCI Insight 4(4)）、一方、ＳＡＲＳ－ＣｏＶ患者からの血清も、抗Ｓタンパク質抗体の上昇が、この疾患で死亡した患者で観測されたことを明らかにした。

抗体依存性感染増強（ＡＤＥ）、即ち抗体が宿主細胞へのウイルスの侵入を促進し、ウイルスの感染性を増強する生物現象（Tirado&Yoon 2003,Viral Immunol 16(1)69-86）の可能性を考える場合、Ｓタンパク質中心の手法にわたる更なる懸念が生じる。中和抗体がコロナウイルスのＳタンパク質に結合し、ウイルスの侵入を促進する立体構造変化をトリガーし得ることが実証されている（Wan et al.J Virol 2020,94(5)）。

したがって、これらの問題に起因して、接種者に幅広いＴ細胞免疫応答を誘発するように設計されたＴ細胞抗原の使用等のワクチン設計の追加戦略を開発することが望ましい。

しかしながら、幅広いＴ細胞応答を誘発するように設計されたワクチンを考える場合、個人及びより広い集団内へのヒト白血球抗原（ＨＬＡ）拘束性という更なる問題が存在する。ＨＬＡ系は、個人の免疫系の調節及び感染細胞の表面にエピトープを特異的に提示し、細胞内病原体からのエピトープ及びワクチンの形態で上記個人に送達されたエピトープに対する免疫応答を引き出す能力を受け持つ、ヒトの主要組織適合複合体（ＭＨＣ）タンパク質をコードする遺伝子複合体である（Marsh et al.2010 Tissue Antigens 75(4):291-455）。

ＨＬＡアレルの高多型性及び続く免疫系の個人間の多様性により、集団にわたって多様な範囲の「ＨＬＡ型」が生じる。複雑性の更なる増大として、そのようなＨＬＡ型は、異なる個人間での予防の潜在性があるウイルスワクチン組成の有効性に大きな影響を有することができる。したがって、ＨＬＡ型の特定のサブセットと互換性があるエピトープベースのワクチンの設計及び生成は、ＨＬＡ型の異なる個人を含む世界中の人口のかなりの割合で効果的ではないと証明され得る。

したがって、世界中の人口の大きな割合にわたって幅広い適応免疫応答を刺激する潜在性を有するワクチンを設計し作製する方法を開発する必要がある。

発明の概要
本発明の第１の態様によれば、複数のヒト白血球抗原ＨＬＡ型にわたり適応免疫原性応答を誘発すると予測される１つ又は複数のソースタンパク質の１つ又は複数の候補領域を識別するコンピュータ実施方法であって、１つ又は複数のソースタンパク質はアミノ酸配列を有し、本方法は、（ａ）１つ又は複数のソースタンパク質のアミノ酸配列にアクセスすることと、（ｂ）ＨＬＡ型のセットにアクセスすることと、（ｃ）ＨＬＡ型のセットの各々について、アミノ酸配列内の複数の候補エピトープの免疫ポテンシャルを予測することと、（ｄ）アミノ酸配列を複数のアミノ酸部分配列に分割することと、（ｅ）複数のアミノ酸部分配列の各々について、ＨＬＡ型のセットにわたって免疫原性応答を誘発するアミノ酸部分配列の予測される能力を示す領域メトリックを生成することであって、領域メトリックは、ＨＬＡ型のセットの各々について、複数の候補エピトープの予測免疫原性ポテンシャルに基づくものであることと、（ｆ）生成された領域メトリックのいずれかが統計的に有意であるか否かを識別するために統計モデルを適用することであって、それにより、統計的に有意である領域メトリックを有すると識別されたアミノ酸部分配列は、ＨＬＡ型のセットの少なくともサブセットにわたって免疫原性応答を誘発すると予測されるアミノ酸配列の候補領域に対応するものであることとを含む。

本発明の方法は有利なことには、統計モデルを使用して、異なるＨＬＡ型のセットにわたるアミノ酸部分配列内の１つ又は複数の候補エピトープの予測される免疫原性ポテンシャル－換言すれば、免疫原性応答を誘発する１つ又は複数の候補エピトープの予測される能力－を定量的解析する。定量的統計解析によって識別されたアミノ酸配列の候補領域（又は「ホットスポット」）は、有望なワクチン標的である可能性が最も高い１つ又は複数のソースタンパク質の領域（例えば、エリア）を表し得、ワクチンの設計及び作製に使用し得る。特に、識別された候補領域は、異なるＨＬＡ型のセットを有する集団にわたり幅広いＴ細胞免疫応答を誘発し得る１つ又は複数の有望なＴ細胞エピトープ（「予測エピトープ」）を含む可能性が高い。

本発明で使用される場合、「エピトープ」という用語は、任意の抗体、Ｂ細胞、又はＴ細胞によって認識される抗原の任意の部分を指す。「抗原」とは、抗体、Ｂ細胞、又はＴ細胞によって結合することが可能な分子を指し、１つ又は複数のエピトープで構成し得る。したがって、エピトープ及び抗原という用語は本明細書では同義で使用し得る。エピトープは、「Ｔ細胞エピトープ」、より具体的には「ＭＨＣクラスＩエピトープ」又は「ＭＨＣクラスＩＩエピトープ」等のエピトープが結合する分子によって参照されることもある。

ヒト白血球抗原（ＨＬＡ）系は、ヒトのＭＨＣタンパク質をコードする遺伝子の複合体である。「多型」という用語が異なるアレルの高多様性を指すＨＬＡ遺伝子の高多型性により、様々なＨＬＡ遺伝子によってコードされる各ヒト個人の精密なＭＨＣタンパク質は、適応免疫系を微調整するのに異なり得る。数百もの異なるアレルが、ＨＬＡ分子に認識されている。ＨＬＡ型及びＨＬＡアレルという用語は、本明細書では同義で使用し得る。

アミノ酸部分配列の領域メトリックは、ＨＬＡ型の試験セットにわたるアミノ酸部分配列内の１つ又は複数の候補エピトープの予測される免疫原性ポテンシャルを示す。したがって、「相対的に良好な」領域メトリックは、そのアミノ酸部分配列内の１つ又は複数の候補エピトープがＨＬＡ型の大きな集団にわたり免疫原性応答を誘発すると集合的に予測されることを示す。「相対的に悪い」領域メトリックは、そのアミノ酸部分配列内の１つ又は複数の候補エピトープが解析においてＨＬＡ型の大きな集団にわたって免疫原性応答を誘発すると集合的に予測されないことを示す。

統計モデルが適用されて、統計学的に有意な領域メトリックを有するアミノ酸部分配列を識別する。特に、統計モデルが適用されて、偶然に予期されるよりも良好な任意の領域メトリックを識別する。当業者には理解されるように、統計モデリングの有意閾値はそれに従って、例えば候補エピトープの予測免疫原性ポテンシャルの認識される正確性に基づいて選ばれ得る。

候補領域は、複数のＨＬＡ型にわたって免疫原性応答を誘発すると予測される単一の候補エピトープ（「生きた」又は「予測された」エピトープ）を含み得る。そのようなエピトープは、幾つかのＨＬＡ型と「重なっている」と呼ばれ得る。しかしながら、より典型的には、候補領域は、免疫原性応答を誘発すると予測され、集合的に、解析されるＨＬＡ型の大きな集団と重なる複数の候補エピトープを含む。例えば、候補領域内の１つの有望なエピトープはｎ個のＨＬＡ型と重なり得、その候補領域内の異なる有望なエピトープは、ｍ個のＨＬＡ型と重なり得、それにより、その候補領域は（ｍ＋ｎ）個のＨＬＡ型にわたって免疫原性応答を誘発すると予測される。

予測エピトープは、長さが互いと異なり得、互いと重なり得ると考えられる。例えば、候補領域は、アミノ酸８個分の長さの予測エピトープに加えて、アミノ酸２５個分の長さの更なる予測エピトープを含み得、アミノ酸２５個分の長さの上記予測エピトープは、アミノ酸８個分の長さの予測エピトープの一部と重なり得、又はアミノ酸８個分の長さの予測エピトープの全体を完全に含み得る。

典型的には、本方法は、ＨＬＡ型のセットの各々について、エピトープスコアを各アミノ酸に割り当てるステップをさらに含み得、エピトープスコアは、そのＨＬＡ型について、そのアミノ酸を含む候補エピトープの１つ又は複数の予測免疫原性ポテンシャルに基づき、領域メトリックの各々は、ＨＬＡ型のセットにわたり、アミノ酸部分配列のそれぞれ内のアミノ酸のエピトープスコアに基づいて生成される。

したがって、各アミノ酸部分配列内のアミノ酸のエピトープスコア（対応する候補エピトープの免疫原性ポテンシャルを示す）に基づいて領域メトリックを生成することにより、各領域メトリックは、ＨＬＡ型のセットにわたる免疫原性応答を誘発するアミノ酸部分配列の能力を示す。

領域メトリックは、ＨＬＡ型のセットにわたる各アミノ酸部分配列内のアミノ酸エピトープスコアの平均であり得る。

実施形態において、エピトープスコアの少なくともサブセットは、（ｉ）アミノ酸配列にわたって第１の（典型的には固定された）長さを有する第１の複数の候補エピトープを識別することと、（ｉｉ）ＨＬＡ型のセットの各々について、そのＨＬＡ型の各候補エピトープの予測免疫原性ポテンシャルを示す第１の複数の候補エピトープの各々のエピトープスコアを生成することと、（ｉｉｉ）アミノ酸配列にわたり第２の（典型的には固定された）長さを有する第２の複数の候補エピトープを識別することと、（ｉｖ）ＨＬＡ型のセットの各々について、そのＨＬＡ型の各候補エピトープの予測免疫原性ポテンシャルを示す第２の複数の候補エピトープの各々のエピトープスコアを生成することと、（ｖ）ＨＬＡ型のセットの各々について、アミノ酸配列の各アミノ酸について、そのＨＬＡ型でそのアミノ酸を含む第１及び第２の候補エピトープの全てのうちで最良の免疫原性ポテンシャルを有すると予測される候補エピトープのエピトープスコアを割り当てることとを行うことと、によって割り当てられ得る。

第１の複数の候補エピトープがまず、好ましくは固定長のアミノ酸の「移動窓」においてアミノ酸配列にわたって識別される。そのような「移動窓」手法において、連続した候補エピトープ間のステップサイズは、連続した候補エピトープが重なるように、候補エピトープの長さ未満である。典型的には、ステップサイズはアミノ酸１個分である。これは各ＨＬＡ型で実行される。第１の複数の候補エピトープの各々について、各ＨＬＡ型でのその候補エピトープの免疫原性ポテンシャルを示すエピトープスコアが生成される。これらのエピトープスコアがいかに生成されるかについてより詳細に後に検討する。

第２の複数の候補エピトープが続けて、各ＨＬＡ型についてアミノ酸配列にわたって識別される。ここでも、これは好ましくは「移動窓手法」を使用して実行される。第２のエピトープの各々にも、各ＨＬＡ型でのそのエピトープの免疫原性ポテンシャルを示すエピトープスコアが割り当てられる。

次いで各アミノ酸に、各ＨＬＡ型で、そのアミノ酸を含む全ての候補エピトープのうち、最良の免疫原性ポテンシャルを有すると予測される候補エピトープのエピトープスコアが割り当てられる。したがって、特定のＨＬＡ型について、候補エピトープ「Ａ」及び候補エピトープ「Ｂ」が両方とも特定のアミノ酸「Ｘ」を含んだ場合、アミノ酸「Ｘ」には、候補エピトープ「Ａ」又は「Ｂ」のエピトープスコアのうち、最良の免疫原性ポテンシャルを有すると予測されるほうが割り当てられる。換言すれば、所与のＨＬＡ型で、アミノ酸に割り振られるエピトープスコアは、このアミノ酸と重なる候補エピトープによって得られる最良のスコアに対応する。

第１の複数の候補エピトープ及び第２の複数の候補エピトープは異なる長さを有する。

本方法は典型的には、第３以上の複数の候補エピトープを同様にして識別することに拡張される。例えば、クラスＩＨＬＡ型を検討する場合、アミノ酸８、９、１０、１１、及び１２個分の長さの候補エピトープが識別され、関連する予測免疫原性ポテンシャルに基づいてスコア付けられ得る。したがって、実施形態において、アミノ酸配列にわたる複数の８ｍｅｒ候補エピトープが識別されスコア付けられ得、次いで複数の９ｍｅｒ、複数の１０ｍｅｒ、複数の１１ｍｅｒ及び１２ｍｅｒが識別されスコア付けられる。次いで各アミノ酸に、そのアミノ酸を含む識別された候補エピトープの１つによって得られる最良のスコアに対応するエピトープスコアが割り振られ得る。

好ましくは、候補エピトープは、少なくともアミノ酸８個分の長さを有し、好ましくは、候補エピトープはアミノ酸８、９、１０、１１、１２、又は１５個分の長さを有する。典型的には、クラスＩＨＬＡ型では、アミノ酸８個分から１２個分の長さの候補エピトープが識別され、クラスＩＩＨＬＡ型では、アミノ酸１５個分の長さの候補エピトープが識別されるが、他の長さを使用してもよい。

好ましい実施形態において、特定のＨＬＡ型の候補エピトープの予測免疫原性ポテンシャルは、識別された候補エピトープの、１つ又は複数の予測結合親和性及び予測処理に基づく。

好ましくは、候補エピトープの予測免疫原性ポテンシャル（又は「免疫原性」）は、候補エピトープの予測結合親和性及び処理の両方に基づく。予測結合親和性と予測処理との組合せは、候補エピトープの予測提示と呼ぶことができる。しかしながら、予測免疫原性ポテンシャルがこれらのメトリックの１つに基づく場合、それでもなお良好な結果を得ることができ得る（例えばクラスＩＩＨＬＡ型では、候補エピトープがパーセンタイルランク結合親和性スコアについて予測される場合、良好な結果が得られてきている）。

そのような予測は、抗原提示又は結合親和性予測アルゴリズム、実験データ、又は両方を使用して実行し得る。そのような予測に使用し得る、公開されているデータベース及びツールの例には、免疫エピトープデータベース（ＩＥＤＢ）（https://www.iedb.org/）、NetMHC予測ツール（http://www.cbs.dtu.dk/services/NetMHC/）、TepiTool予測ツール（http://tools.iedb.org/tepitool/）、MHCflurry予測ツール、NetChop予測ツール（http://www.cbs.dtu.dk/services/NetChop/）、及びMHC-NP予測ツール（http://tools.immuneepitope.org/mhcnp/）がある。他の技法が国際公開第２０２０／０７０３０７号及び同第２０１７／１８６９５９号に開示されている。

特に好ましい実施形態において、抗原提示は、幾つかのＨＬＡ結合予測子（例えばｉｃ５０ｎｍ結合親和性データでトレーニングされる）及び抗原処理の複数の異なる予測子（例えば質量分析データでトレーニングされる）からのアンサンブル機械学習層情報に統合される機械学習モデルから予測される。

免疫原性ポテンシャルは、異質性又は候補エピトープの免疫応答を刺激する能力を測定する代替の手段に基づき得る。そのような例は、候補エピトープを病原体データベースと比較して、類似の程度を特定すること又は免疫原性エピトープと非免疫原性エピトープの間の物理化学的差を学習使用とする予測モデルを含み得る。

実施形態において、候補エピトープの免疫原性ポテンシャルは、ヒトタンパク質への候補エピトープの類似性にさらに基づき得る。したがって、候補エピトープは、ヒトタンパク質に類似する場合、ペナルティが科され得る（例えばより低いスコアが割り当てられ得る）。

本発明の有利な特徴は、本方法が、ＨＬＡ分子に結合し得るエピトープを含む候補領域を識別するのみならず、細胞の抗原処理機構によって自然に処理され、感染した宿主細胞の表面上に提示されるＣＤ８エピトープも識別することである。

本方法は、割り当てられたエピトープスコアをデジタル化（「バイナリ化」）することをさらに含み得、所定の基準を満たす各エピトープスコアは「１」に変換され、所定の基準を満たさない各エピトープスコアは「０」に変換される。次いでアミノ酸部分配列の領域メトリックが典型的には、値「１」が割り当てられた部分配列内のアミノ酸数の、ＨＬＡ型のセットにわたる平均として計算し得る。

デジタル化プロセス後、エピトープスコア「１」が割り当てられたアミノ酸は、免疫原性応答を誘発すると予測される有望なエピトープの構成部分として見なされ得る。したがって、割り当てられたスコアが「１」であるアミノ酸の領域は、複数のＨＬＡ型に結合すると予測される１つ又は複数の（恐らくは重なった）候補エピトープを含み得る。

好ましくは、ＨＬＡ型のセットは、主要組織適合複合体ＭＨＣクラスＩのＨＬＡ型及びＭＨＣクラスＩＩのＨＬＡ型を含む。このようにして、本方法は有利なことには、ＣＤ８＋及びＣＤ４＋Ｔ細胞型にわたり幅広いＴ細胞応答を誘発すると予測される候補領域を予測することが可能である。しかしながら、ＨＬＡ型のセットがＭＨＣクラスＩのＨＬＡ型のみ又はＭＨＣクラスＩＩのＨＬＡ型のみを含む場合、有用な結果を得ることができる。

ＨＬＡ型のセットは、厳密に１つのヒト集団群を表すＨＬＡ型を含み得る。集団群は、人種集団群（例えば白色人種、アフリカ人、アジア人）又は地理的集団群（例えばロンバルディーア、武漢）であり得る。したがって、本発明は、特定の集団群の候補領域を識別するのに使用し得る。したがって、幾つかの異なる集団群に共通する、識別された候補領域は、ワクチンの作製への使用に特に有利である。

実施形態において、ＨＬＡ型のセットは、異なるヒト集団群を表すＨＬＡ型を含み得る。このようにして、本発明の方法は有益に、ヒト集団の大きな集団にわたり免疫原性応答を提供すると予測される候補領域を識別するのに使用し得る。

好ましい実施形態において、ＨＬＡ型のセットは、ヒト集団を表すＨＬＡ型を含む。このようにして、ＨＬＡ型のそのようなセット内のＨＬＡ型の大半（又は全て）にわたり免疫原性応答を誘発すると予測される候補領域は、「普遍的」ワクチンの有望な候補であり得る。

ＨＬＡ型のセットは、ヒト集団又はヒト集団群内の上位Ｎ個の最も高頻度のＨＬＡ型を含み得、好ましくは、Ｎは少なくとも５であり、より好ましくは少なくとも５０であり、さらに好ましくはＮ＝１００である。本発明の統計モデルは、多数（例えば１００）のＨＬＡ型の候補領域を識別できるようにするため、特に有利である。このようにして、本発明は、世界中の人口の大きな集団にわたって幅広い適応免疫応答を刺激する潜在性を有するワクチンを設計し作製するのに使用し得る。

本発明は特に、ヒト集団の大きな集団にわたり免疫原性応答を提供すると予測される候補領域を識別するのに有益であるが、個人に向けて個人化されたワクチンを生成するために使用することもできる（例えば新生抗原分野における癌治療ワクチン）。したがって、実施形態において、ＨＬＡ型のセットは所与の個人を表し得る。

本発明の方法により、使用されるＨＬＡ型のセットに基づいて異なる候補領域を識別し得ることが理解されよう。

統計モデルは一般に、統計学的に有意なアミノ酸部分配列を識別するために、１つ又は複数のパラメトリック分布（例えば二項分布、ポアソン分布、又は超幾何分布）又はサンプリング方法に基づき得る。特に好ましい実施形態において、統計モデルを適用することは、生成された各領域メトリックのｐ値を推定するためにモンテカルロシミュレーションを適用することを含む。次いで推定されたｐ値を使用して、統計学的に有意なアミノ酸部分配列を識別し、ひいては候補領域を識別する。モンテカルロアルゴリズムの使用は、エピトープスコアを生成する際の複雑性を帰無モデル（null model）で反映できるようにするため、特に有利である。

統計学的モデリングの帰無モデル（null model）は典型的には、仮に偶然生成される場合、各ＨＬＡ型でのエピトープスコアのセットの生成モデルとして定義される。特定のＨＬＡ型のエピトープスコアのセットは、「ＨＬＡトラック」と呼ぶことができる。モンテカルロシミュレーションを使用して、無作為化されたＨＬＡトラックのセット及び複数の関連するシミュレーション領域メトリックを繰り返し生成し得、そこから、領域メトリックのｐ値、ひいては統計学的有意性を推定し得る。

帰無モデル（null model）が、エピトープスコアの背後にある複雑性を反映することが好ましい。したがって、好ましくは、モンテカルロシミュレーションを適用することは、（ｉ）ＨＬＡ型の各々について、エピトープスコアの分布に基づいてエピトープスコアを複数のエピトープセグメント及びエピトープギャップに配置することと、（ｉｉ）各ＨＬＡ型について、エピトープセグメント及びエピトープギャップのランダム配置を繰り返し生成することとを含む。

複数のエピトープセグメント及びエピトープギャップへの各ＨＬＡ型のエピトープスコアの配置（各ＨＬＡトラックの配置）は、割り当てられたスコアに基づいて、そのアミノ酸が良好な免疫原性ポテンシャルを有すると予測された候補エピトープの一部であったか否かを反映する。したがって、エピトープセグメントは、良好な免疫原性ポテンシャルを有すると予測されたエピトープ内のアミノ酸に割り当てられた（典型的には少なくとも８個の）エピトープの連続シーケンスである。「エピトープアミノ酸」のシーケンスで構成されたそのようなエピトープセグメントは、互いと重なってもよく、又は重ならなくてもよい１つ又は複数の予測エピトープを含むアミノ酸領域として見なすことができる。エピトープギャップは、そのような予測エピトープの一部ではないアミノ酸に割り当てられた１つ又は複数の連続スコアである。個々のアミノ酸エピトープスコアではなくエピトープセグメント及びエピトープギャップを繰り返し無作為化することにより、帰無モデル（null model）は領域メトリックの背後にある方法論をより忠実に反映し、それにより、より信頼性の高い結果を提供する。

本方法は、偽発見率（ＦＤＲ）手順を統計モデルの結果に適用することをさらに含み得、好ましくは、ＦＤＲ手順はベンジャミニ－ホッホベルク手順又はベンジャミニ－イェクティエリ手順である。

実施形態において、エピトープスコアは、ＨＬＡ型のセット内の各ＨＬＡ型のヒト集団頻度に応じてエピトープスコアを重み付けされ得る。したがって、最も高頻度でＨＬＡ型にわたり免疫原性応答を誘発すると予測される候補エピトープには、アミノ酸のエピトープスコアに反映される優先重みが与えられ得る。

統計的に有意なアミノ酸部分配列は、有望なワクチン標的である可能性が高い候補領域として識別される。したがって、アミノ酸部分配列のサイズは典型的には、意図されるワクチンプラットフォームに基づいて選ばれる。好ましくは、各アミノ酸部分配列は同じ長さを有する。例えば、本方法のステップ（ｂ）において、アミノ酸配列は、識別された候補領域を合成し得るペプチドワクチンプラットフォームに向けてアミノ酸２０個から５０個の長さの複数のアミノ酸部分配列に分割し得る。より長いアミノ酸部分配列（例えばアミノ酸５０～１５０個分）は、候補領域を対応するＤＮＡ又はＲＮＡ配列にコードすることに基づくワクチンプラットフォームに使用し得る。大きなＴ細胞エピトープ集団を有すると識別されたタンパク質ドメインをワクチンに使用し得ることも考えられる。そのようなドメインは、立体構造抗体応答を提供し得る。

特に好ましいアミノ酸部分配列サイズは、アミノ酸２７個分、アミノ酸５０個分、又はアミノ酸１００個分である。

アミノ酸部分配列は典型的には同じ長さを有するように選ばれるが、異なる長さを有するように選ぶこともできる。アミノ酸部分配列は、上述したように「移動窓」手法でアミノ酸部分配列に広がるように互いに重なり得る。しかしながら、統計モデルの実行に必要な計算リソースを低減するために、アミノ酸部分配列は重ならないように選ぶこともでき、例えば、アミノ酸配列にわたって連続して配置し得る。

これまで説明した方法において識別された候補領域は、異なるＨＬＡ型のセットを有する集団にわたり幅広いＴ細胞免疫応答を誘発し得る有望なＴ細胞エピトープを含むと予測される。好ましい実施形態において、各領域メトリックは、各アミノ酸部分配列の予測Ｂ細胞応答ポテンシャルをさらに示し得る。換言すれば、領域メトリックは、アミノ酸部分配列内の任意のＢ細胞エピトープの存在を示し得る。幾つかの実施形態において、割り当てられた各エピトープスコアは、各アミノ酸（例えば予測Ｂ細胞エピトープ内）の予測Ｂ細胞応答ポテンシャルにさらに基づき得る。

追加又は代替として、本方法は、Ｂ細胞エピトープの存在について１つ又は複数のソースタンパク質の各候補領域を解析することをさらに含み得る。

Ｂ細胞応答予測は、Ｂ細胞結合予測アルゴリズム、実験データ、又は両方に基づき得る。そのような実施形態で使用し得る予測ツールの一例はBepiPred予測ツール（http://www.cbs.dtu.dk/services/BepiPred/）である。

実施形態において、本方法は、類似度を決定するために、識別された各候補領域を少なくとも１つのヒトタンパク質配列と比較することと、ヒトタンパク質の少なくとも１つとの類似度が所定の閾値よりも大きいことに基づいて、候補領域をランク付けし、抽出し、又は破棄することとをさらに含み得る。

これらの技法は有利に、識別された候補領域の、異なる主要臓器で発現されるタンパク質の発現プロファイルとの類似性を比較して、そのような候補領域に基づくワクチンへの有害反応を回避する。異なる所定の閾値を使用し得る。例えば、候補領域がヒトタンパク質に厳密に一致する１つ又は複数のエピトープを含む場合、その候補領域は破棄し得る。

本方法は、１つ又は複数の隣接するアミノ酸部分配列に基づいて候補領域を調節することを含み得る。例えば、候補領域が識別されるが、隣接するアミノ酸部分配列が、２つの部分配列間の境界に近い予測Ｔ細胞エピトープを有することが分かっている場合、その候補領域のアミノ酸配列は、更なるエピトープを含むように拡張し得る。識別された候補領域を一緒に結合してもよいことも理解されよう。例えば、２つのアミノ酸５０個分の候補領域を結合して、ワクチンで使用されるアミノ酸１００個分の候補領域を形成し得る。

１つ又は複数のソースタンパク質は好ましくは、ウイルス、細菌、寄生虫、腫瘍、又はそれらの断片の１つ又は複数のタンパク質である。１つ又は複数のソースタンパク質は新生抗原を含み得る。例えば、１つ又は複数のソースタンパク質はスパイク（Ｓ）タンパク質、核タンパク質（Ｎ）、膜（Ｍ）タンパク質、エンベロープ（Ｅ）タンパク質、及びＯＲＦ１０、ＯＲＦ１ＡＢ、ＯＲＦ３Ａ、ＯＲＦ６、ＯＲＦ７Ａ、ＯＲＦ８等のオープンリーディングフレームの１つ又は複数であり得る。したがって、本発明の方法はウイルスプロテオーム全体に適用し得る。これは特に、ワクチン設計の候補領域の識別に有益である。実施形態において、ソースタンパク質は、コロナウイルス、好ましくはＳＡＲＳ－ＣｏＶ－２ウイルスの１つ又は複数のタンパク質であり得る。

１つ又は複数のソースタンパク質は、１つ又は複数のソースタンパク質の複数の変動であってもよく又は複数の変動を含み得る（及び／又は本方法は１つ又は複数のソースタンパク質の複数の変動に適用し得る）。各変動は例えば、ウイルスタンパク質の変異であり得る。このようにして、本発明の方法は有利なことに、複数の異なるタンパク質配列（例えばウイルスの）にわたる全ての非同義変動（non-synonymous variation）の免疫原性を解析するのに使用し得る。本方法は有利なことには、１つ又は複数のタンパク質の保存エリア（即ち変異を提示する可能性の低いエリア）における１つ又は複数の候補領域を選択するために、１つ又は複数の候補領域をフィルタリングすることを含み得る。保存領域は、当技術分野で既知の技法を使用して識別し得る。

１つ又は複数のソースタンパク質のアミノ酸配列は、オリゴヌクレオチドハイブリダイゼーション法、核酸増幅ベースの方法（限定されないが、ポリメラーゼ連鎖反応ベースの方法を含む）、ＤＮＡ若しくはＲＮＡシーケンシングに基づく自動予測、デノボペプチドシーケンシング、エドマンシーケンシング、又は質量分析法の１つによって取得し得る。アミノ酸配列は、UniProt（http://www.uniprot.org）等の生物情報学デポジトリからダウンロードし得る。

本方法は、１つ又は複数の識別された候補領域及び／又は１つ又は複数の識別された候補領域内の１つ又は複数の予測（「有望な」）エピトープを合成することをさらに含み得る。

本方法は、１つ又は複数の識別された候補領域及び／又は１つ又は複数の識別された候補領域内の１つ又は複数の予測（「実行可能」）エピトープを対応するＤＮＡ又はＲＮＡ配列にコードすることをさらに含み得る。そのようなＤＮＡ又はＲＮＡ配列は、ワクチンで使用される送達系に組み込まれ得る（例えば裸の又はカプセル化されたＤＮＡ又はカプセル化されたＲＮＡを使用して）。本方法は、ＤＮＡ又はＲＮＡ配列を細菌又はウイルス送達系のゲノムに組み込んでワクチンを作製することを含み得る。

したがって、本発明の第２の態様によれば、ワクチンを作製する方法が提供され、本方法は、先に開示した第１の態様の方法のいずれかにより少なくとも１つのソースタンパク質の少なくとも１つの候補領域を識別することと、少なくとも１つの候補領域及び／又は少なくとも１つの候補領域内の少なくとも１つの予測エピトープを合成するか、又は、少なくとも１つの候補領域及び／又は少なくとも１つの候補領域内の少なくとも１つの予測エピトープ対応するＤＮＡ若しくはＲＮＡ配列にコードすることとを含む。そのようなＤＮＡ又はＲＮＡ配列は、裸の形態若しくはカプセル化された形態で送達し得、又は細菌若しくはウイルス送達系のゲノムに組み込んでワクチンを作製し得る。加えて、細菌ベクターを使用してＤＮＡをワクチン化された宿主細胞に送達することができる。ペプチドワクチンの場合、候補領域及び／又はエピトープは典型的には、アミノ酸配列又は「ストリング」として合成し得る。

本発明の第３の態様によれば、複数のヒト白血球ＨＬＡアレル型にわたり免疫原性応答を誘発すると予測される１つ又は複数のソースタンパク質の１つ又は複数の候補領域を識別するシステムが提供され、１つ又は複数のソースタンパク質はアミノ酸配列を有し、本システムは、少なくとも１つのメモリデバイスと通信する少なくとも１つのプロセッサを備え、少なくとも１つのメモリデバイスは、少なくとも１つのプロセッサに、先に開示された第１の態様の方法のいずれかを実行させる命令を記憶している。

本発明の第４の態様によれば、先に開示された第１の態様の方法のいずれかを実施するコンピュータ実行可能命令を記憶したコンピュータ可読媒体が提供される。

本発明の更なる態様において、患者が病原体に感染しているか、又は前に感染していたか（及び例えば防御免疫応答を発達させたか）否かを判断するための診断アッセイを作製する方法が提供され、本診断アッセイは、対象者から得られた生体試料に対して実行され、先に開示された第１の態様の方法のいずれかを使用して病原体の少なくとも１つのソースタンパク質の少なくとも１つの候補領域を識別することを含み、本診断アッセイは、少なくとも１つの識別された候補領域及び／又は少なくとも１つの候補領域内の少なくとも１つの予測されたエピトープを生体試料内で利用又は識別することを含む。

このようにして、本発明は有利なことに、高速診断テスト又はアッセイの作製に使用し得る。候補領域及び候補領域内のエピトープは、研究所テストでさらに解析されて、そのような診断テスト又はアッセイを作成し得、それにより、従来の研究所方法と比較してテスト開発にかかる時間を大幅に短縮し得る。

利用という用語は本明細書で使用される場合、少なくとも１つの識別された領域及び／又は少なくとも１つの識別された領域内の少なくとも１つの予測エピトープが、アッセイにおいて、患者の（例えば防御）免疫応答を識別するのに使用されることを意味することが意図される。この文脈において、識別された領域及び／又は識別された領域内のエピトープは、アッセイの標的ではなく、上記アッセイの構成要素である。

ｉｎｖｉｔｒｏ診断アッセイは、上記少なくとも１つの識別された候補領域及び／又は少なくとも１つの候補領域内の少なくとも１つの予測エピトープを認識する、生体試料内の免疫系成分の識別を含み得る。このようにして、本診断アッセイは、少なくとも１つの識別された候補領域及び／又は少なくとも１つの予測エピトープを利用し得る。典型的には、本診断アッセイは、少なくとも１つの識別された候補領域及び／又は予測エピトープ（例えば合成された）を含み得る。好ましい実施形態において、免疫系成分はＴ細胞であり得、したがって、本診断アッセイはＴ細胞アッセイを含み得る。別の好ましい実施形態において、免疫系成分はＢ細胞であり得る。例えば、本アッセイは、少なくとも１つの候補領域内の予測Ｂ細胞エピトープを認識する抗体又はＢ細胞の識別を含み得る。

そのような診断的使用の一例として、患者から採取された試料、好ましくは血液試料は、本発明の一環として識別され、アッセイ内に含まれる候補領域内のエピトープを認識して結合する生体試料内のＴ細胞、Ｂ細胞、又は抗体の存在について解析し得る。本発明の一環として識別されるＴ細胞エピトープは、ＨＬＡ分子によって提示されると予測され、したがって、Ｔ細胞によって認識可能である。そのような（例えばＴ細胞）診断応答は、患者が病原菌による感染に暴露されたことがあるか否か及び防御免疫応答を発達させたか否かを当業者に対して示し、上記感染は、観測可能なレベルの細胞免疫及び／又は免疫記憶を生じさせる。

適した診断アッセイは当業者によって理解されるが、酵素結合免疫吸着スポット(ELISPOT)アッセイ、酵素結合免疫吸着測定法(ELISA)、サイトカイン捕捉アッセイ、細胞内染色アッセイ、四量体染色アッセイ、又は限界希釈培養アッセイを含み得る。

診断テストを作成する方法において、１つ又は複数のソースタンパク質のアミノ酸配列（そこから少なくとも１つの候補領域が識別される）は、テストされる所望の応答に基づいて選ばれ得る。例えば、１つ又は複数のソースタンパク質は、ＳＡＲＳ－ＣｏＶ－２ウイルス等のコロナウイルス（又はその断片）の１つ又は複数のソースタンパク質であり得る。そのような場合、本発明を使用して、患者がＳＡＲＳ－ＣｏＶ－２ウイルスに感染しているか否か又は前に感染していたか否かを判断する診断テストを作成し得る。しかしながら、当業者には理解されるように、１つ又は複数のソースタンパク質は任意の病原体（例えばウイルス又は細菌）からのものであり得る。

本明細書にさらに開示されるのは、患者が病原体に感染しているか、又は前に感染していたか否かを判断するための診断アッセイであり、本診断アッセイは、対象者から得られた生体試料に対して実行され、先に論じた第１の態様の方法のいずれかを使用して識別された病原体の少なくとも１つのソースタンパク質の少なくとも１つの候補領域及び／又は前記少なくとも１つの候補領域内の少なくとも１つの予測されたエピトープを生体試料内で利用又は識別することを含む。本診断アッセイは、少なくとも１つの識別された候補領域及び／又は少なくとも１つの候補領域内の少なくとも１つの予測されたエピトープを認識する、生体試料内の免疫系成分（例えばＴ細胞又はＢ細胞）を識別することを含み得る。

図面の簡単な説明
実施形態について単なる例として添付図を参照してこれより詳細に説明する。

ヒト集団における最も高頻度のＨＬＡ－Ａ、ＨＬＡ－Ｂ、及びＨＬＡ－ＤＲＢアレルにわたるＳＡＲＳ－ＣｏＶ－２ウイルスのＳタンパク質のエピトープマップを示し、これらのエピトープマップでは、データは、ＣＤ８の陽性結果が０．７以上に関連し、１０％（図中、０．１で表される）以下がクラスＩＩに関するように変換されており、Ｂ細胞抗体担体が重なった状態でＣＤ８及びＣＤ４の幅広いカバレッジが実証される。ヒト集団における最も高頻度のＨＬＡ－Ａ、ＨＬＡ－Ｂ、及びＨＬＡ－ＤＲＢアレルにわたるＳＡＲＳ－ＣｏＶ－２ウイルスのＳタンパク質のエピトープマップを示し、これらのエピトープマップでは、データは、ＣＤ８の陽性結果が０．７以上に関連し、１０％（図中、０．１で表される）以下がクラスＩＩに関するように変換されており、Ｂ細胞抗体担体が重なった状態でＣＤ８及びＣＤ４の幅広いカバレッジが実証される。ＳＡＲＳ－ＣｏＶ－２ウイルスのＳタンパク質のＨＬＡ－Ａアレル及びＨＬＡ－ＢアレルにおけるクラスＩＣＤ８エピトープのエピトープマップのバイナリ変換の階層クラスタリングを示す。保存及びヒト自己ペプチドのフィルタリング手順を使用して、ＳＡＲＳ－ＣｏＶ－２ウイルスのウイルスプロテオーム全体にわたって捕捉された、モンテカルロ解析からのエピトープホットスポットを示す。野生型ＡＰスコアタンパク質多様体と突き合わせた変異型ＡＰスコアを示す散布図である。異なる地理的位置における１０の変異ウイルス配列へのモンテカルロエピトープホットスポット予測の適用を示す。ウイルスゲノムにおけるタンパク質のホットスポット保存スコアの分布を示す散布図を示す。方法の好ましい実施形態のステップを示す流れ図である。方法の実施形態の実施に適したシステムの一例である。適したサーバの一例である。

図面の詳細な説明
本明細書に記載される特定の実施形態によれば、複数のＨＬＡ型にわたる適応免疫原性応答を誘発すると予測される１つ又は複数のソースタンパク質の１つ又は複数の候補領域を識別する方法及びシステムが提案される。そのような候補領域は「ホットスポット」と呼ぶことができ、「候補領域」及び「ホットスポット」という用語は本明細書では同義で使用することができる。実施形態において、識別されたホットスポット及び／又はホットスポット内で識別されたエピトープは、ワクチンの設計及び作製で使用することができる。

これより、そのようなホットスポットを識別するために好ましい実施形態について説明する。以下の説明はＳＡＲＳ－ＣｏＶ－２ウイルスのプロテオーム全体の解析を参照するが、本発明が、異なるウイルス、腫瘍、細菌、寄生虫、又は新生抗原等のそれらの断片の解析に利用可能なことが理解されよう。

グローバルエピトープマップ及びアミノ酸スコアの生成
所与のＨＬＡアレルの場合、アミノ酸に割り振られるスコアは、このアミノ酸と重なるエピトープ予測によって得られる最良スコアに対応する。クラスＩＨＬＡアレルの場合、エピトープ長は好ましくは８、９、１０、１１、及び１２であり、感染した宿主細胞表面へのウイルスペプチドの抗原提示（ＡＰ）又は免疫提示（ＩＰ）が予測される。ＡＰの予測に種々の方法及びツールが使用可能であり、例えば、公開されているNETCHop及びNETMHC予測ツール並びに本明細書の概要セクションで論じられているものが使用可能である。これらのクラスＩスコアは０から１の範囲であり、１は最良スコア（即ち細胞表面に自然に提示される可能性がより高い）である。この実施形態において、クラスＩＩＨＬＡアレルの場合、１５ｍｅｒで予測を行った。クラスＩＩ予測は、パーセンタイルランク結合親和性スコアであり（抗原提示ではない）、したがって、スコアが低いほど良好である（スコアの範囲は０から１００であり、０が最良スコアである）。

異なるＨＬＡ集団におけるエピトープホットスポットエピトープ領域を検出するための統計学的枠組み
入力データ
統計学的枠組みに入力されるデータセットは、研究された全て（例えば１００ＨＬＡアレル）について、１つ又は複数のソースタンパク質（例えばＳＡＲＳ－ＣｏＶ－２プロテオーム中の全てのタンパク質）中の各アミノ酸位置について生成されるエピトープマップである。任意の所与のアミノ酸のスコアは、そのアミノ酸に重なるペプチド（候補エピトープ）がエピトープマップにおいて保持する最大ＡＰ又はＩＰスコアとして決定された。クラスＩではアミノ酸８～１１個分のサイズの全てのペプチド長及びクラスＩＩではアミノ酸１５個分のサイズの全てのペプチド長が処理され、ウイルスタンパク質１個当たり１つのＨＬＡデータセットを生成した。データセット中の各行は、１つのＨＬＡ型に予測されたアミノ酸エピトープスコアを表す。

統計学的枠組み
統計学的枠組みが答えようとする中心的質問は、「ＨＬＡ型の所与のセットと比較して高免疫原性スコアが多い所与のウイルスタンパク質中の特定の領域は、偶然によって予期されるよりも高いか？」である。

ＨＬＡトラック
生の入力データセット（例えばＡＰ又はパーセンタイルランク結合親和性スコア）はまず、バイナリトラックに変換される。各クラスＩＨＬＡデータセットについて、エピトープスコアは、０．７よりも大きい（ＡＰの場合）及び０．５よりも大きい（ＩＰの場合）予測エピトープスコアを有するアミノ酸位置に値１（陽性予測エピトープ）が割り当てられ、残りには値０が割り当てられるように、バイナリ（０又は１）値に変換される。同様に、クラスＩＩＨＬＡデータセットについても、１０未満の予測エピトープスコアを有するアミノ酸位置には値１が割り当てられ、その他の場合、０が割り当てられる。これらの閾値は比較的保守的であり、生データの生成における技法及び信頼度に基づいて他の閾値が選ばれてもよいことが理解されよう。各バイナリトラックは、１が連続する間隔－セグメント－と、セグメント間又はギャップを形成する、間の０が連続する間隔のリストとして効率的に提示することができる。

検定統計量
ｋ個のＨＬＡバイナリトラックの群について、検定統計量（「領域メトリック」）Ｓｉが、所与のサイズｍの各ビンｂｉに計算され、タンパク質をｎ個のビンに分割する（例えばより大きなタンパク質の場合、ｍ＝アミノ酸１００個）。単一のＨＬＡトラックの場合、検定統計量ｓ_ｉは各ビンｂｉについて計算され：

式中、重みはデフォルトでは１であるが、解析中の集団中のＨＬＡトラックの頻度を表すこともできる。その場合ｉ＝１，・・・，ｎで、

であり、これは、選択されたＨＬＡ型にわたるビンｂｉのエピトープ（エピトープ濃縮）であると予測されるアミノ酸の平均数である。

帰無モデル（null model）
観測されたＨＬＡトラックの統計学的有意性を推定する効率的な手法は、モンテカルロベースのシミュレーションである。仮にＨＬＡトラックが偶然に生成される場合、ＨＬＡトラックの生成モデルとして帰無モデル（null model）が定義される。帰無モデル（null model）から、サンプリングを通して、帰無分布の検定統計量Ｓｉが生じる。帰無モデル（null model）は、ＨＬＡトラックの性質の背後による複雑性を反映しなければならない。１つのＨＬＡトラック中のエピトープアミノ酸は常に、少なくとも８（予測枠組みで使用される最小ペプチドサイズ）の長さの連続群を生成する。同様に、低エピトープスコアを有するアミノ酸も一緒にクラスタリングされる。

ｐ値推定
帰無モデル（null model）からサンプリングするために、ｋ個のＨＬＡトラックの各々はセグメント及びギャップに分割され、これらは次いでシャッフルされて無作為化ＨＬＡトラックを生成する。この実施形態において、これは１００００回繰り返されて、各ビンで１００００サンプルのＳｉ統計量を生成する。各ビンについて、ｐ値は、真に観測される環境以上のサンプルの割合として推定される。さらに、生成されたｐ値は、ベンジャミニ－イェクティエリ手順を用いて多重検定のために、偽発見率（ＦＤＲ）０．０５に調節される。他の多重検定手順（例えばベンジャミニ－ホッホベルク）を使用してもよいことが理解されよう。異なる偽発見率が実施されてもよい。

エピトープホットスポット保存スコア
保存の尺度を生成する一例についてこれより説明する。ウイルスゲノム内の各タンパク質について、ユニークアミノ酸配列のセットは、２０２０年３月２９日現在でＧＩＳＡＩＤデータベースにおいて利用可能な全ての系統から編成された（Shu,Y.and J.McCauley,GISAID:Global initiative on sharing all influenza data-from vision to reality.Euro Surveill,2017.22(13)）。デフォルトパラメータ設定を用いてコマンドラインインターフェースを介して、Clustal Omega（ｖ１．２．４）（Sievers,F.and D.G.Higgins,Clustal Omega for making accurate alignments of many protein sequences.Protein Sci,2018.27(1):p.135-145.)ソフトウェアを使用してこれらのセットを個々に処理した。ソフトウェアは、タンパク質配列内の各アミノ酸についての保存情報を含むコンセンサス配列を出力する。したがって、コンセンサス配列内の位置ｉにおいて「^＊」として示されるアミノ酸は、そのアミノ酸が全ての入力配列の中で位置ｉに保存されていることと言い換えられる（Sievers,F.and D.G.Higgins,Clustal Omega for making accurate alignments of many protein sequences.Protein Sci,2018.27(1):p.135-145.）。

次いでホットスポットオフセットを使用して、各コンセンサス配列を抽出した。各ホットスポットについて、部分配列の全長に対するコンセンサス部分配列内の「^＊」の比率として保存スコアを計算した。したがって、各ホットスポットに０から１の保存スコアを割り当て、１は利用可能な全ての系統にわたる完璧な保存を表す。

タンパク質のコンセンサス配列全体からのホットスポットサイズに等しい１，０００個の部分配列をサンプリングすることにより、中央値保存スコアを計算した。各サンプルに保存スコアが割り当てられ、１，０００個の全ての保存スコアからの中央値を計算した。窓サイズがホットスポットサイズに等しいスライド窓手法を使用して、最小保存スコアを計算した。各インクリメントについて、保存スコアを計算し、生成された最小保存スコアを保持した。

これより、本発明の方法をＳＡＲＳ－ＣｏＶ－２ウイルスプロテオームに適用する一例について説明する。しかしながら、先に論じたように、方法は、異なるウイルス、細菌、腫瘍、又は寄生虫等の幾つかの異なるソースタンパク質に適用し得る。方法は新生抗原に適用することもできる。

ＳＡＲＳ－ＣｏＶ－２の免疫原性ランドスケープは、ヒト集団における異なるＨＬＡ群間の多様性を明らかにする
ＳＡＲＳ－ＣｏＶ－２ウイルスプロテオーム全体のエピトープマッピングを実行した。幾つかのＨＬＡ結合予測子（この場合、ｉｃ５０ｎｍ結合親和性データでトレーニングされた３つの別個のＨＬＡ結合予測子）及び抗原処理の１３の異なる予測子（全て質量分析データでトレーニングされる）からアンサンブル機械学習層情報に統合される機械学習モデルから、抗原提示（ＡＰ）を予測した。出力されたＡＰスコアは０から１の範囲であり、エピトープマップにわたる免疫提示（ＩＰ）を計算するための入力として使用した。ＩＰスコアは、ヒトタンパク質と比較した場合、「ヒトへの類似」度を有する提示ペプチドにペナルティを科し、類似度が低いペプチドに報奨（award）を与える。その結果生成されるＩＰスコアは、Ｔ細胞、即ち、欠損せず又はアネルギー化されないＴ細胞を末梢に循環させることによって認識される可能性が高く、したがって免疫原性である可能性が最も高いＨＬＡ提示ペプチドを表す。

ＡＰ及びＩＰエピトープ予測は両方とも、「ｐａｎ」ＨＬＡ又はＨＬＡ非依存であり、ヒト集団における任意のアレルに対して実行することができるが、この研究の目的では、解析をヒト集団における最も高頻度の１００個のＨＬＡ－Ａ、ＨＬＡ－Ｂ、及びＨＬＡ－ＤＲアレルに制限した。クラスＩＩＨＬＡ結合予測も、ツールのＩＥＤＢコンセンサスからの大規模エピトープスクリーニングに組み込み（Dhanda,S.K.,et al.,IEDB-AR:immune epitope database-analysis resource in 2019.Nucleic Acids Res,2019.47(W1):p.W502-W506.）、BepiPredを使用してＢ細胞エピトープ予測を実行した（Dhanda,S.K.,et al.,IEDB-AR:immune epitope database-analysis resource in 2019.Nucleic Acids Res,2019.47(W1):p.W502-W506.）。その結果生成されたエピトープマップにより、世界中のヒト集団において最も高頻度のＨＬＡ－Ａ、ＨＬＡ－Ｂ、及びＨＬＡ－ＤＲアレルを使用して感染宿主細胞によって提示される可能性が最も高いウイルスプロテオームにおける領域を識別することができた。

ウイルスタンパク質の全てのエピトープマップを作成し、Ｓタンパク質のＩＰスコアに基づく一例が図１Ａに示され、ＡＰの場合の一例が図１Ｂに示され、１００個の最も高頻度のヒトＨＬＡ－Ａ、ＨＬＡ－Ｂ、及びＨＬＡ－ＤＲアレルについての候補ＣＤ８及びＣＤ４エピトープを含むＳタンパク質の別個の領域を示す。ＨＬＡ型のこのセットは、図１Ａの１００に示されている。興味深いことに、予測されたＢ細胞エピトープは多くの場合、高密度の予測Ｔ細胞エピトープを含むタンパク質の領域にマッピングされ、したがって、ヒートマップは、ワクチン開発に使用することができるＳＡＲＳ－ＣｏＶ－２ウイルスの最も関連深い領域の全体像を提供する。図１から、異なるＨＬＡアレルが異なるクラスＩＡＰ及びクラスＩＩ結合性を有することが明らかである。これは、予期し得るように、ＳＡＲＳ－ＣｏＶ－２抗原提示ランドスケープが、異なるヒトＨＬＡアレルの範囲にわたって別個の集団群にクラスタリングされることを強く示唆する。この傾向は、ＡＰスコアがバイナリ化された後、図２に提示される階層クラスタリングマップにさらに示される。図２は、アレルクラスタによっては、ヒト免疫系に対して多くのウイルス標的を提示すものもあれば、その一方で少数の標的しか提示しないもの及びいずれも提示することが不可能であるものもあることを明確に示している。図２は、モンテカルロシミュレーションにおける、各ＨＬＡ型でのシャッフルし得るエピトープセグメント及びエピトープギャップを示す。これは、異なるＨＬＡを有するヒト集団中の異なる群が、ウイルスペプチドで構成されたＴ細胞駆動ワクチンに別様に応答することを示唆している。したがって、幅広いヒト集団にわたるＴ細胞免疫性の恩益を利用する最適なワクチンを設計するためには、ウイルスプロテオームにおける「エピトープホットスポット」を予測することが望ましい。これらのホットスポットは、ヒト集団にわたる複数のＨＬＡ型によって認識することができる重なったエピトープ及び／又は空間的に近いエピトープが豊富なウイルスの領域である。

ヒト集団において最も広いカバレッジを有するそのようなエピトープホットスポットの発見に先立って、限られた数の検証済みのＳＡＲＳ－ＣｏＶウイルスエピトープから可能な程度まで、Ｔ細胞ベースのＡＰスコア及びＩＰスコアが有望な標的を予測していることを確認した。現在のＳＡＲＳ－ＣｏＶ－２と９０％以上の配列同一性を共有した元のＳＡＲＳ－ＣｏＶウイルス（２００２年に中国の広東省で初めて出現した）からのクラスＩエピトープを識別した。不都合なことに、公開されているエピトープの多くは、回復期の患者及び／又は健康なドナー（又はヒト化マウスモデル）からのＰＢＭＣに対してＥＬＩＳＰＯＴを使用して識別され、ここで、制限ＨＬＡは明示的にデコンボリュートされなかった。この問題を軽減するために、四量体を使用して最小エピトープ及びＨＬＡ制限が識別された５つのエピトープのサブセットを識別した（Grifoni,A.,et al.,A Sequence Homology and Bioinformatic Approach Can Predict Candidate Targets for Immune Responses to SARS-CoV-2.Cell Host Microbe,2020）。

テストした５つのエピトープのうちの４つは、陽性として識別され、即ち０．５を超えるＩＰスコアを有し（表１参照）、正確度８０％を示した。これは非常に小さなテストデータセットであったが、NEC Immune Profiler予測パイプラインが良好な免疫原性候補を正確に識別することができ、この解析及び続く解析によって識別されたエピトープホットスポットがワクチン開発にとって興味深い標的を表すことに対して、ある程度の信頼性を提供する。

ロバストな統計学的解析が、幅広いＴ細胞応答のエピトープホットスポットを識別する
ヒト集団の大多数の有望な免疫原性標的である潜在性を有するエピトープホットスポットを識別するために、まず、先に生成されたエピトープマップ（Ｓタンパク質について図１に例示した武漢参照配列の）に対してモンテカルロランダムサンプリング手順を実行して、上述した方法を使用してエピトープホットスポットである最高確率を有するＳＡＲＳ－ＣｏＶ－２プロテオームの特定のエリアを識別した。潜在的なエピトープホットスポットについて３つのビンサイズを調べた：２７、５０、及び１００。１００個のＨＬＡのセットからのタンパク質の定義された各サブセット領域（ビン）の統計量を計算した。次いでモンテカルロシミュレーション法を使用して、各ビンのｐ値を推定し、それにより、各ビンが候補エピトープホットスポットを表した。シミュレーションから現れた統計学的に有意なビンは、解析された各タンパク質での関心のあるエピトープホットスポット又は領域を表した。

エピトープホットスポットは、個々のエピトープスコア、エピトープ長、及びエピトープホットスポットが含む各アミノ酸について構築される。これらのスコアは、ヒト集団において最も高頻度の１００の全てのＨＬＡアレルのホットスポット中の各アミノ酸について生成される。モンテカルロ解析に基づいて、有意なホットスポットは、偽発見率（ＦＤＲ）が５％未満のものであり、ヒト集団にわたる複数のＨＬＡ型によって認識することができる有望なＴ細胞駆動ワクチン標的を含む可能性が最も高い領域を表す。ウイルスの全範囲にわたって識別されたエピトープホットスポットの概要は図３に示され、世界中の人口における最も高頻度のヒトＨＬＡアレルを標的とするウイルスの大半の免疫原性領域が、Ｓタンパク質等の抗体暴露構造タンパク質の他に、ウイルスタンパク質の幾つかで発見されることを明らかにしている。

保存解析が、ＳＡＲＳ－ＣｏＶ－２におけるロバストエピトープホットスポットを識別する
普遍的なワクチンの青写真は理想的には、ＳＡＲＳ－ＣｏＶ－２ウイルスの出現する異なる分岐群から集団を保護することも可能であるべきであり、したがって、ＧＩＳＡＩＤデータベース中の３４００個のウイルス配列のＡＰポテンシャルを武漢Ｇｅｎｂａｎｋ参照配列のＡＰポテンシャルと比較した。その比較の結果は図４に示され、傾向を示唆しており、それにより、ＳＡＲＳ－ＣｏＶ－２変異は、提示され、したがって、宿主免疫系によって検出される潜在性を下げるように見える。同様の傾向が、ＨＰＶ及びＨＩＶ等の慢性感染症で観測されている。

これらのエピトープホットスポットが、ＳＡＲＳ－ＣｏＶ－２の全てのシーケンシングされた系統及び変異系統にわたって十分にロバストであるか否かを評価するために、次に、エピトープホットスポットモンテカルロ統計学的枠組みを使用し、異なる地理的領域からの１０の最も変異したウイルス配列の中から１０のウイルス配列を解析した（Shu,Y.and J.McCauley,GISAID:Global initiative on sharing all influenza data-from vision to reality.Euro Surveill,2017.22(13)）。ホットスポットの圧倒的多数は、シーケンシングされた全てのウイルスに存在したが、時折、これらの多様な系統においてホットスポットが消え、及び／又は新たなホットスポットが出現した。これを図５に示す。図５は、モンテカルロエピトープホットスポット予測法の異なる地理的場所の１０の変異ウイルス配列への適用を示す。武漢参照配列と比較した１０の変異配列のホットスポットはｘ軸上にあり、エピトープホットスポットの頻度はｙ軸上にある。頻度は３つの異なるホットスポットビン長について示されている：２７（左）、５０（中央）、及び１００（右）。エピトープホットスポットが変異配列にわたってロバストである一方、時折、異なる地理的場所での幾つかの配列に新たなエピトープホットスポットが出現することが明らかである。

識別されたホットスポットは異なるウイルス系統にわたってロバストであるように見えるが、願わくはＳＡＲＳ－ＣｏＶ－２ウイルスの新たに出現した分岐群からの幅広い保護を提供することになる最もロバストなワクチン青写真を設計するために、エピトープホットスポットを配列保存解析に付した。この解析の目標は、数千のウイルス配列にわたり変異を受けにくいように見えるホットスポットを識別することであった。先に論じた技法を使用してタンパク質のコンセンサス配列に基づいて各ホットスポットの保存スコアを計算した。図６は、異なるビンサイズを使用してＩＰに基づいて識別されたホットスポットの保存スコアを示す。中央値保存スコアよりも高い保存スコアを提示するエピトープホットスポットのみが、更なる解析に保持された。これにより、アミノ酸５０及び１００個分のビンサイズではホットスポットの概ね半分並びにアミノ酸２７個分のビンサイズでは７０％超をフィルタリングして除去することができる。加えて、宿主組織に対する非標的の自己免疫応答の潜在性を低減するために、ヒトプロテオーム中のタンパク質と厳密な配列一致を含むビンを除去した。

ＳＡＲＳ－ＣｏＶ－２の変異配列にわたる多様体免疫原性ポテンシャル
２０２０年３月３１日現在でＧＩＳＡＩＤデータベースにおいて利用可能な全ての系統をダウンロードし（Shu,Y.and J.McCauley,GISAID:Global initiative on sharing all influenza data-from vision to reality.Euro Surveill,2017.22(13)）、デフォルトパラメータを用いてNexstrain/Augurソフトウェアスイートを通して実行した（Hadfield,J.,et al.,Nextstrain:real-time tracking of pathogen evolution.Bioinformatics,2018.34(23):p.4121-4123）。生成された系統樹を解析して、全てのタンパク質多様体を取得した。各々について、ＨＬＡ－Ａ^＊０２：０１の野生型スコア及び変異抗原提示（ＡＰ）スコアを計算した。変異スコアは、多様体を含む９つの可能な９ｍｅｒペプチドの中で最大のＡＰスコアである。野生型スコアは、参照（武漢）系統における同じ位置における９ｍｅｒの最大ＡＰスコアである。

図７は、ステップについてより詳細に上述された本発明の好ましい実施形態のステップを要約したフローチャートである。

ステップＳ２０１において、１つ又は複数のソースタンパク質のアミノ酸配列が取得される。これらは、例えばウイルス、細菌、帰省中、又は腫瘍の１つ又は複数のソースタンパク質であり得る。

ステップＳ２０３において、複数の候補エピトープがアミノ酸配列内で識別される。これらの候補エピトープは、アミノ酸８、９、１０、１１、１２、又は１５個分の長さを有し得、例えば「移動窓」手法で識別し得る。

ステップＳ２０５において、ＨＬＡ型の各セット（例えばヒト集団を表す）で、各候補エピトープの免疫応答ポテンシャルが予測される。免疫応答ポテンシャルは、先に論じたように抗原提示（ＡＰ）スコア又は免疫提示（ＩＰ）スコアであり得る。

ステップＳ２０７において、ＨＬＡ型で最良の予測免疫原性ポテンシャルを有する重複候補エピトープに基づいて、各ＨＬＡ型の各アミノ酸にエピトープスコアが割り当てられる。エピトープスコアは例えばＡＰ値又はＩＰ値であり得る。

ステップＳ２０８において、エピトープスコアは、所定の閾値に基づいてエピトープセグメント及びエピトープギャップにデジタル化される。エピトープセグメントは、ＨＬＡ型の有望なエピトープを示す。

ステップＳ２０９において、アミノ酸配列は複数のアミノ酸部分配列又は「ビン」に分割される。これらは、例えば意図されるワクチンプラットフォームに応じて様々な長さを有し得る。

ステップＳ２１１において、アミノ酸部分配列内の割り当てられたエピトープスコアに基づいて、各アミノ酸部分配列の領域メトリックが計算される。

ステップＳ２１３において、統計モデル（モンテカルロシミュレーション等）を使用して、統計学的に有意な領域メトリックを有する候補領域（又は「ホットスポット」）を識別する。

ステップＳ２１５において、識別された候補領域をフィルタリングして、保存領域で発生するものを優先し得る。例えば、異なる配列のウイルス配列を解析し得、異なる解析にわたり保存領域で識別される候補領域を優先し得る。

本文書において、ワクチン設計における本方法の明確な使用法を提供している。しかしながら、本明細書に記載された技法が、識別された候補領域（「ホットスポット」）におけるエピトープを認識するＴ細胞の設計にも等しく適用することができることが理解されよう。同様に、本技法は、これがバイオマーカとして使用される、腫瘍における新生抗原負荷の識別、即ち治療への反応予測に使用することもできる。

これより図８を参照して、本方法の実施形態の実施に適したシステムの一例を示す。システム１１００は、リファレンスデータストア１１２０と通信する少なくとも１つのサーバ１１１０を備える。サーバは、例えば通信ネットワーク１１４０を経由して、自動ペプチド合成デバイス１１３０と通信することもできる。

特定の実施形態において、サーバは、例えばリファレンスデータストアから、１つ又は複数のソースタンパク質のアミノ酸配列をＨＬＡ型のセットに関連するデータと一緒に取得し得る。サーバは次いで、上述したステップを使用してアミノ酸配列の１つ又は複数の候補ホットスポットを識別し得る。

候補領域（又は候補領域内の１つ若しくは複数の予測エピトープ）は自動ペプチド合成デバイス１１３０に送信されて、候補領域又はエピトープを合成する。そのようなペプチド合成は、アミノ酸３０個分までの長さの候補領域又は候補エピトープに対して特に適切である。自動ペプチド合成の技法は当技術分野で周知であり、任意の既知の技法が使用可能なことが理解されよう。典型的には、候補領域又は候補エピトープは、標準固相合成ペプチド化学を使用して合成され、逆相高性能液体クロマトグラフィを使用して精製されてから、水溶液に配合される。ワクチン接種に使用される場合、投与に先立ち、ペプチド溶液は通常、アジュバントと混合されてから患者に投与される。

ペプチド合成技術は２０年以上存在しているが、近年、合成が今では商用機でわずか数分しかかからないポイントまで急速な改良を経てきた。簡潔にするために、そのような機械について詳述しないが、それらの動作は当業者には理解され得、そのような従来の機械は、サーバから候補領域又は候補エピトープを受信するように適合され得る。

サーバは、上述した機能を含み、アミノ酸配列上の候補領域を識別し得る。当然ながら、これらの機能は、コンピュータネットワークの異なる処理エンティティ及び互いと通信する異なる処理モジュールにわたって細分されてもよいことが理解されよう。

候補領域を識別する技法は、カスタマイズされたワクチンの開発用のより広いエコシステムに統合し得る（例えば個人のＨＬＡ型に対して本発明の方法を使用して）。ワクチン開発エコシステム例は当技術分野で周知であり、状況に関して高レベルで説明されるが、簡潔にするために、エコシステムについて詳述しない。

エコシステムの一例において、第１のサンプルステップは、ＤＮＡを腫瘍生検及びマッチする健康組織コントロールからＤＮＡを分離することであり得る。第２のシーケンスステップにおいて、データはシーケンシングされ、多様体、例えば変異が識別される。免疫プロファイラステップにおいて、関連する変異ペプチドを＜＜ｉｎｓｉｌｉｃｏ＞＞で生成し得る。

関連する変異ペプチド及び本明細書に記載される技法を使用して、候補領域を予測して選択し得、ワクチン設計に向けて標的エピトープを識別し得る。即ち、本明細書に記載される技法を使用して、その予測された結合親和性に基づいて選ばれた候補ペプチド配列を決定した。

上述したように従来の技法を使用して、標的エピトープを次いで合成して生成する。投与に先立ち、ペプチド溶液は通常、アジュバントと混合されてから、患者に投与される（ワクチン接種される）。代替において、任意の従来のワクチンと同様に、標的エピトープをＤＮＡ若しくはＲＮＡに組み込むことができ、又は細菌若しくはウイルスのゲノムに組み込むことができる。

本明細書に記載された方法によって予測される候補領域は、ペプチドベースのワクチン以外の他のタイプのワクチンの作製に使用することもできる。例えば、候補領域（又は候補領域内の予測エピトープ）は、対応するＤＮＡ又はＲＮＡ配列にコードし、患者のワクチン接種に使用することができる。ＤＮＡは通常、プラスミドコンストラクトに挿入されることを留意されたい。代替的には、ＤＮＡは細菌又はウイルス送達系－患者のワクチン接種に使用することができる－のゲノムに組み込むことができる（ＲＮＡであることもできる－ウイルス送達系に応じて）－したがって、患者において、即ちｉｎｖｉｖｏで予防接種後に標的を製造する遺伝子組み換えウイルス又は細菌において製造されるワクチン。

適したサーバ１１１０の一例を図９に示す。この例では、サーバは、示されるようにバス１２０４を介して相互接続された少なくとも１つのマイクロプロセッサ１２００、メモリ１２０１、キーボード及び／又はディスプレイ等の任意選択的な入力／出力デバイス１２０２、及び外部インターフェース１２０３を含む。この例では、外部インターフェース１２０３は、サーバ１１１０を通信ネットワーク１１４０、リファレンスデータストア１１２０、他の記憶装置等の周辺機器に接続するのに利用することができる。単一の外部インターフェース１２０３が示されているが、これは単なる例を目的としており、実際には、種々の方法を使用した複数のインターフェース（例えばイーサネット、シリアル、ＵＳＢ、ワイヤレス等）を提供し得る。

使用に際して、マイクロプロセッサ１２００は、メモリ１２０１に記憶されたアプリケーションソフトウェアの形態の命令を実行して、上述した方法により、入力データを受信して処理するためのリファレンスデータストア１１２０との通信及び／又は１つ又は複数のソースタンパク質の配列データを受信し、ポテンシャル予測（例えば予測される結合性及び処理を含め）を生成するためのクライアントデバイスとの通信を含め、必要とされるプロセスを実行できるようにする。アプリケーションソフトウェアは、１つ又は複数のソフトウェアモジュールを含み得、オペレーティングシステム環境等の適した実行環境で実行し得る。

したがって、サーバ１２００が、適宜プログラムされたクライアントデバイス、ＰＣ、ウェブサーバ、ネットワークサーバ等の任意の適した処理システムから形成し得ることが理解されよう。特定の一例では、サーバ１２００は、不揮発性（例えばハードディスク）ストレージに記憶されたソフトウェアアプリケーションを実行するIntelアーキテクチャベースの処理システム等の標準処理システムであるが、これは必須ではない。しかしながら、処理システムがマイクロプロセッサ、マイクロチッププロセッサ、論理ゲート構成、任意選択的にＦＰＧＡ（フィールドプログラマブルゲートアレイ）等の論理の実施と関連するファームウェア、又は任意の他の電子デバイス、システム、若しくは機構等の任意の処理デバイスであることができることも理解されよう。したがって、サーバという用語が使用されるが、これは例のみを目的とし、限定を意図しない。

サーバ１２００は単一のエンティティとして示されているが、サーバ１２００が例えば、クラウドベースの環境の一環として提供される処理システム及び／又はデータベース１２０１を使用することによって幾つかの地理的に別個の場所にわたって分散することができることが理解されよう。したがって、上述した配置は必須ではなく、他の適した構成を使用することも可能である。

先に論じたように、本方法はワクチンの設計において使用される。方法は、ｉｎｖｉｔｒｏ診断テスト又はアッセイの設計及び作成に使用することもできる。例えば、そのような診断アッセイは、本発明の技法を使用して識別された、アッセイ内に含まれる「ホットスポット」及び／又はエピトープを認識し、それに結合する生体試料内のＴ細胞又はＢ細胞を識別するのに使用し得る。そのような診断アッセイへの診断応答は、当業者に対して、患者が、関心のある病原体（例えばＳＡＲＳ－ＣｏＶ－２ウイルス）による感染に暴露されたことがあるか否か及びその患者が防御免疫を発達させたことがあるか否かを示し得る。

Claims

複数のヒト白血球抗原ＨＬＡ型にわたり適応免疫原性応答を誘発すると予測される１つ又は複数のソースタンパク質の１つ又は複数の候補領域を識別するコンピュータ実施方法であって、前記１つ又は複数のソースタンパク質はアミノ酸配列を有し、前記方法は、
（ａ）前記１つ又は複数のソースタンパク質の前記アミノ酸配列にアクセスすることと、
（ｂ）ＨＬＡ型のセットにアクセスすることと、
（ｃ）前記ＨＬＡ型のセットの各々について、前記アミノ酸配列内の複数の候補エピトープの免疫ポテンシャルを予測することと、
（ｄ）前記アミノ酸配列を複数のアミノ酸部分配列に分割することと、
（ｅ）前記複数のアミノ酸部分配列の各々について、前記ＨＬＡ型のセットにわたって免疫原性応答を誘発する前記アミノ酸部分配列の予測される能力を示す領域メトリックを生成することであって、前記領域メトリックは、前記ＨＬＡ型のセットの各々について、前記複数の候補エピトープの前記予測免疫原性ポテンシャルに基づくものであることと、
（ｆ）前記生成された領域メトリックのいずれかが統計的に有意であるか否かを識別するために統計モデルを適用することであって、それにより、統計的に有意である領域メトリックを有すると識別されたアミノ酸部分配列は、前記ＨＬＡ型のセットの少なくともサブセットにわたって免疫原性応答を誘発すると予測される前記アミノ酸配列の候補領域に対応するものであることと、
を含む、コンピュータ実施方法。
前記ＨＬＡ型のセットの各々について、エピトープスコアを各アミノ酸に割り当てるステップをさらに含み、前記エピトープスコアは、そのＨＬＡ型について、そのアミノ酸を含む前記候補エピトープの１つ又は複数の前記予測免疫原性ポテンシャルに基づき、
前記領域メトリックの各々は、前記ＨＬＡ型のセットにわたり、前記アミノ酸部分配列のそれぞれ内の前記アミノ酸の前記エピトープスコアに基づいて生成される、請求項１に記載のコンピュータ実施方法。
前記エピトープスコアの少なくともサブセットは、
（ｉ）前記アミノ酸配列にわたって第１の長さを有する第１の複数の候補エピトープを識別することと、
（ｉｉ）前記ＨＬＡ型のセットの各々について、そのＨＬＡ型の各候補エピトープの前記予測免疫原性ポテンシャルを示す前記第１の複数の候補エピトープの各々のエピトープスコアを生成することと、
（ｉｉｉ）前記アミノ酸配列にわたり第２の長さを有する第２の複数の候補エピトープを識別することと、
（ｉｖ）前記ＨＬＡ型のセットの各々について、そのＨＬＡ型の各候補エピトープの前記予測免疫原性ポテンシャルを示す前記第２の複数の候補エピトープの各々のエピトープスコアを生成することと、
（ｖ）前記ＨＬＡ型のセットの各々について、前記アミノ酸配列の各アミノ酸について、そのＨＬＡ型でそのアミノ酸を含む前記第１及び第２の候補エピトープの全てのうちで最良の免疫原性ポテンシャルを有すると予測される前記候補エピトープの前記エピトープスコアを割り当てることと、
を行うことによって割り当てられる、請求項１又は２に記載のコンピュータ実施方法。
前記候補エピトープは、少なくともアミノ酸８個分の長さを有し、好ましくは、前記候補エピトープはアミノ酸８、９、１０、１１、１２、又は１５個分の長さを有する、請求項１～３のいずれか一項に記載のコンピュータ実施方法。
特定のＨＬＡ型の候補エピトープの前記予測免疫原性ポテンシャルは、前記識別された候補エピトープの、１つ又は複数の予測結合親和性及び予測処理に基づく、請求項１～４のいずれか一項に記載のコンピュータ実施方法。
候補エピトープの前記免疫原性ポテンシャルは、ヒトタンパク質への前記候補エピトープの類似性にさらに基づく、請求項１～５のいずれか一項に記載のコンピュータ実施方法。
前記割り当てられたエピトープスコアをデジタル化することをさらに含み、所定の基準を満たす各エピトープスコアは「１」に変換され、前記所定の基準を満たさない各エピトープスコアは「０」に変換される、請求項２～６のいずれか一項に記載のコンピュータ実施方法。
前記ＨＬＡ型のセットは、主要組織適合複合体ＭＨＣクラスＩのＨＬＡ型及びＭＨＣクラスＩＩのＨＬＡ型を含む、請求項１～７のいずれか一項に記載のコンピュータ実施方法。
前記ＨＬＡ型のセットは、少なくとも１つのヒト集団群を表すＨＬＡ型を含み、好ましくは、前記ＨＬＡ型のセットは前記ヒト集団を表す、請求項１～８のいずれか一項に記載のコンピュータ実施方法。
前記ＨＬＡ型のセットは、前記ヒト集団又はヒト集団群内の上位Ｎ個の最も高頻度のＨＬＡ型を含み、好ましくは、Ｎは少なくとも５であり、より好ましくは少なくとも５０であり、より好ましくは少なくとも１００である、請求項１～９のいずれか一項に記載のコンピュータ実施方法。
前記ＨＬＡ型のセットは所与の個人を表す、請求項１～８のいずれか一項に記載のコンピュータ実施方法。
前記統計モデルを適用することは、前記生成された領域メトリックの各々のｐ値を推定するためにモンテカルロシミュレーションを適用することを含む、請求項１～１１のいずれか一項に記載のコンピュータ実施方法。
少なくとも請求項２に従属する場合、前記モンテカルロシミュレーションを適用することは、
（ｉ）ＨＬＡ型の各々について、前記エピトープスコアの分布に基づいて前記エピトープスコアを複数のエピトープセグメント及びエピトープギャップに配置することと、
（ｉｉ）各ＨＬＡ型について、前記エピトープセグメント及び前記エピトープギャップのランダム配置を繰り返し生成することと、
を含む、請求項１２に記載のコンピュータ実施方法。
偽発見率手順であるＦＤＲ手順を前記統計モデルの結果に適用することをさらに含み、好ましくは、前記ＦＤＲ手順はベンジャミニ－ホッホベルク手順又はベンジャミニ－イェクティエリ手順である、請求項１～１３のいずれか一項に記載のコンピュータ実施方法。
前記ＨＬＡ型のセット内の各ＨＬＡ型の前記ヒト集団頻度に応じて前記エピトープスコアを重み付けすることをさらに含む請求項２～１４のいずれか一項に記載のコンピュータ実施方法。
各アミノ酸部分配列は少なくとも８個のアミノ酸、好ましくは２０から５０個のアミノ酸、より好ましくは５０から１５０個のアミノ酸を含む、請求項１～１５のいずれか一項に記載のコンピュータ実施方法。
前記領域メトリックの各々は、前記アミノ酸部分配列のそれぞれの予測されたＢ細胞応答ポテンシャルをさらに示す、請求項１～１６のいずれか一項に記載のコンピュータ実施方法。
請求項２に従属する場合、割り当てられた各エピトープスコアは、前記アミノ酸のそれぞれの前記予測されたＢ細胞応答ポテンシャルにさらに基づく、請求項１７に記載のコンピュータ実施方法。
Ｂ細胞エピトープの存在について前記１つ又は複数のソースタンパク質の各候補領域を解析することをさらに含む請求項１～１８のいずれか一項に記載のコンピュータ実施方法。
類似度を決定するために、識別された各候補領域を少なくとも１つのヒトタンパク質配列と比較することと、
前記ヒトタンパク質の少なくとも１つとの前記類似度が所定の閾値よりも大きいことに基づいて、前記候補領域をランク付け又は破棄することと、
をさらに含む請求項１～１９のいずれか一項に記載のコンピュータ実施方法。
１つ又は複数の隣接するアミノ酸部分配列に基づいて候補領域を調節することをさらに含む請求項１～２０のいずれか一項に記載のコンピュータ実施方法。
前記１つ又は複数のソースタンパク質は、ウイルス、腫瘍、細菌、寄生虫、又は新生抗原を含むそれらの断片の１つ又は複数のタンパク質である、請求項１～２１のいずれか一項に記載のコンピュータ実施方法。
前記１つ又は複数のソースタンパク質は、コロナウイルス、好ましくはＳＡＲＳ－ＣｏＶ－２ウイルスの１つ又は複数のタンパク質である、請求項１～２２のいずれか一項に記載のコンピュータ実施方法。
前記１つ又は複数のソースタンパク質は、１つ又は複数のタンパク質の複数の変動を含む、請求項１～２３のいずれか一項に記載のコンピュータ実施方法。
保存エリアにおける１つ又は複数の候補領域を選択するために、前記１つ又は複数の候補領域をフィルタリングすることをさらに含む請求項２４に記載のコンピュータ実施方法。
ワクチンを作製する方法であって、
請求項１～２５のいずれか一項に記載の方法により、少なくとも１つのソースタンパク質の少なくとも１つの候補領域を識別することと、
前記少なくとも１つの候補領域及び／又は前記少なくとも１つの候補領域内の少なくとも１つの予測されるエピトープを合成するか、又は、前記少なくとも１つの候補領域及び／又は前記少なくとも１つの候補領域内の少なくとも１つの予測されるエピトープをコードして、対応するＤＮＡ配列又はＲＮＡ配列にすることと、
を含む、方法。
複数のヒト白血球抗原ＨＬＡアレル型にわたり免疫原性応答を誘発すると予測される１つ又は複数のソースタンパク質の１つ又は複数の候補領域を識別するシステムであって、前記１つ又は複数のソースタンパク質はアミノ酸配列を有し、前記システムは、少なくとも１つのメモリデバイスと通信する少なくとも１つのプロセッサを備え、前記少なくとも１つのメモリデバイスは、請求項１～２５のいずれか一項に記載の方法を前記少なくとも１つのプロセッサに実行させる命令を記憶する、システム。
請求項１～２５のいずれか一項に記載の方法を実施するコンピュータ実行可能命令を記憶したコンピュータ可読媒体。
患者が病原体に感染しているか、又は前に感染していたか否かを判断するための診断アッセイを作製する方法であって、前記診断アッセイは、対象者から得られた生体試料に対して実行され、請求項１～２５のいずれか一項に記載の方法を使用して前記病原体の少なくとも１つのソースタンパク質の少なくとも１つの候補領域を識別することを含み、
前記診断アッセイは、前記少なくとも１つの識別された候補領域及び／又は前記少なくとも１つの候補領域内の少なくとも１つの予測されたエピトープを前記生体試料内で利用又は識別することを含む、方法。
患者が病原体に感染しているか、又は前に感染していたか否かを判断するための診断アッセイであって、前記診断アッセイは、対象者から得られた生体試料に対して実行され、請求項１～２５のいずれか一項に記載の方法を使用して識別された前記病原体の少なくとも１つのソースタンパク質の少なくとも１つの候補領域及び／又は前記少なくとも１つの候補領域内の少なくとも１つの予測されたエピトープを前記生体試料内で利用又は識別することを含む、診断アッセイ。
前記診断アッセイは、前記少なくとも１つの識別された候補領域及び／又は前記少なくとも１つの候補領域内の少なくとも１つの予測されたエピトープを認識する、前記生体試料内の免疫系成分を識別することを含む、請求項２９に記載の方法。
前記診断アッセイは、前記少なくとも１つの識別された候補領域及び／又は前記少なくとも１つの候補領域内の少なくとも１つの予測されたエピトープを認識する、前記生体試料内の免疫系成分を識別することを含む、請求項３０に記載の診断アッセイ。