JP2023522358A - 免疫原性応答を誘発すると予測される1つ又は複数のソースタンパク質の1つ又は複数の候補領域を識別する方法及びシステム並びにワクチンを作製する方法 - Google Patents

免疫原性応答を誘発すると予測される1つ又は複数のソースタンパク質の1つ又は複数の候補領域を識別する方法及びシステム並びにワクチンを作製する方法 Download PDF

Info

Publication number
JP2023522358A
JP2023522358A JP2022563454A JP2022563454A JP2023522358A JP 2023522358 A JP2023522358 A JP 2023522358A JP 2022563454 A JP2022563454 A JP 2022563454A JP 2022563454 A JP2022563454 A JP 2022563454A JP 2023522358 A JP2023522358 A JP 2023522358A
Authority
JP
Japan
Prior art keywords
epitope
candidate
amino acid
predicted
hla
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022563454A
Other languages
English (en)
Inventor
シモフスキー,ボリス
モリーン,クレメント
ストラットフォード,リチャード
クランシー,トレヴァー
Original Assignee
エヌイーシー オンコイミュニティ エーエス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP20170484.8A external-priority patent/EP3901954A1/en
Application filed by エヌイーシー オンコイミュニティ エーエス filed Critical エヌイーシー オンコイミュニティ エーエス
Publication of JP2023522358A publication Critical patent/JP2023522358A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K39/00Medicinal preparations containing antigens or antibodies
    • A61K39/12Viral antigens
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K39/00Medicinal preparations containing antigens or antibodies
    • A61K39/12Viral antigens
    • A61K39/215Coronaviridae, e.g. avian infectious bronchitis virus
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P31/00Antiinfectives, i.e. antibiotics, antiseptics, chemotherapeutics
    • A61P31/12Antivirals
    • A61P31/14Antivirals for RNA viruses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N7/00Viruses; Bacteriophages; Compositions thereof; Preparation or purification thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2770/00MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssRNA viruses positive-sense
    • C12N2770/00011Details
    • C12N2770/20011Coronaviridae
    • C12N2770/20022New viral proteins or individual genes, new structural or functional aspects of known viral proteins or genes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2770/00MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssRNA viruses positive-sense
    • C12N2770/00011Details
    • C12N2770/20011Coronaviridae
    • C12N2770/20034Use of virus or viral component as vaccine, e.g. live-attenuated or inactivated virus, VLP, viral protein
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A50/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
    • Y02A50/30Against vector-borne diseases, e.g. mosquito-borne, fly-borne, tick-borne or waterborne diseases whose impact is exacerbated by climate change
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

複数のヒト白血球抗原HLA型にわたり適応免疫原性応答を誘発すると予測される1つ又は複数のソースタンパク質の1つ又は複数の候補領域を識別するコンピュータ実施方法であって、1つ又は複数のソースタンパク質はアミノ酸配列を有する、方法が開示される。方法は、(a)1つ又は複数のソースタンパク質のアミノ酸配列にアクセスすることと、(b)HLA型のセットにアクセスすることと、(c)HLA型のセットの各々について、アミノ酸配列内の複数の候補エピトープの免疫ポテンシャルを予測することと、(d)アミノ酸配列を複数のアミノ酸部分配列に分割することと、(e)複数のアミノ酸部分配列の各々について、HLA型のセットにわたって免疫原性応答を誘発するアミノ酸部分配列の予測される能力を示す領域メトリックを生成することであって、領域メトリックは、HLA型のセットの各々について、複数の候補エピトープの予測免疫原性ポテンシャルに基づくものであることと、(f)生成された領域メトリックのいずれかが統計的に有意であるか否かを識別ために、統計モデルを適用することであって、それにより、統計的に有意である領域メトリックを有すると識別されたアミノ酸部分配列は、HLA型のセットの少なくともサブセットにわたって免疫原性応答を誘発すると予測されるアミノ酸配列の候補領域に対応するものであることとを含む。対応するシステム及びワクチンを作製する方法も開示される。

Description

導入
ワクチンは、有効な形態の疫学的コントロールとして確立されており、感染の低下並びに天然痘及びポリオ等のウイルス感染と関連する致死率の低下を支援するに当たり大きな成功を収めてきた。しかしながら、他の感染、例えば重症性急性呼吸器症候群コロナウイルス(SARS-CoV)、SARS-CoV-2、及び中東呼吸器症候群コロナウイルス(MERS-CoV)等のコロナウイルス科によって生じる感染は、ワクチン接種での予防がより難しいことが証明されている。
今日までのコロナウイルスワクチンを開発する世界中の努力の多くは、ウイルス上の最も露出した構造タンパク質として機能する、露出したスパイク糖タンパク質(Sタンパク質)に対する抗体応答を刺激することに主にフォーカスされてきた。しかしながら、SARS-CoVのSタンパク質に対する応答は、マウスでの短期保護を授けることが示された(Yang et al.2004,Nature 428(6982):561-4)が、回復期患者の同構造に対する中和抗体応答は典型的には、低力価で短命である(Channappanavar et al.2014,Immunol Res 88(19):11034-44)(Yang et al.2006,Clin Immunol 120(2)171-8)。さらに、SARS-CoVのSタンパク質への抗体応答の誘導は、幾つかの動物モデルでは悪影響と関連しており、安全性への懸念を生じさせる恐れがある。例えばマカクモデルでは、抗Sタンパク質抗体が重症急性肺損傷と関連することが観測され(Liu et al.2019 JCI Insight 4(4))、一方、SARS-CoV患者からの血清も、抗Sタンパク質抗体の上昇が、この疾患で死亡した患者で観測されたことを明らかにした。
抗体依存性感染増強(ADE)、即ち抗体が宿主細胞へのウイルスの侵入を促進し、ウイルスの感染性を増強する生物現象(Tirado&Yoon 2003,Viral Immunol 16(1)69-86)の可能性を考える場合、Sタンパク質中心の手法にわたる更なる懸念が生じる。中和抗体がコロナウイルスのSタンパク質に結合し、ウイルスの侵入を促進する立体構造変化をトリガーし得ることが実証されている(Wan et al.J Virol 2020,94(5))。
したがって、これらの問題に起因して、接種者に幅広いT細胞免疫応答を誘発するように設計されたT細胞抗原の使用等のワクチン設計の追加戦略を開発することが望ましい。
しかしながら、幅広いT細胞応答を誘発するように設計されたワクチンを考える場合、個人及びより広い集団内へのヒト白血球抗原(HLA)拘束性という更なる問題が存在する。HLA系は、個人の免疫系の調節及び感染細胞の表面にエピトープを特異的に提示し、細胞内病原体からのエピトープ及びワクチンの形態で上記個人に送達されたエピトープに対する免疫応答を引き出す能力を受け持つ、ヒトの主要組織適合複合体(MHC)タンパク質をコードする遺伝子複合体である(Marsh et al.2010 Tissue Antigens 75(4):291-455)。
HLAアレルの高多型性及び続く免疫系の個人間の多様性により、集団にわたって多様な範囲の「HLA型」が生じる。複雑性の更なる増大として、そのようなHLA型は、異なる個人間での予防の潜在性があるウイルスワクチン組成の有効性に大きな影響を有することができる。したがって、HLA型の特定のサブセットと互換性があるエピトープベースのワクチンの設計及び生成は、HLA型の異なる個人を含む世界中の人口のかなりの割合で効果的ではないと証明され得る。
したがって、世界中の人口の大きな割合にわたって幅広い適応免疫応答を刺激する潜在性を有するワクチンを設計し作製する方法を開発する必要がある。
発明の概要
本発明の第1の態様によれば、複数のヒト白血球抗原HLA型にわたり適応免疫原性応答を誘発すると予測される1つ又は複数のソースタンパク質の1つ又は複数の候補領域を識別するコンピュータ実施方法であって、1つ又は複数のソースタンパク質はアミノ酸配列を有し、本方法は、(a)1つ又は複数のソースタンパク質のアミノ酸配列にアクセスすることと、(b)HLA型のセットにアクセスすることと、(c)HLA型のセットの各々について、アミノ酸配列内の複数の候補エピトープの免疫ポテンシャルを予測することと、(d)アミノ酸配列を複数のアミノ酸部分配列に分割することと、(e)複数のアミノ酸部分配列の各々について、HLA型のセットにわたって免疫原性応答を誘発するアミノ酸部分配列の予測される能力を示す領域メトリックを生成することであって、領域メトリックは、HLA型のセットの各々について、複数の候補エピトープの予測免疫原性ポテンシャルに基づくものであることと、(f)生成された領域メトリックのいずれかが統計的に有意であるか否かを識別するために統計モデルを適用することであって、それにより、統計的に有意である領域メトリックを有すると識別されたアミノ酸部分配列は、HLA型のセットの少なくともサブセットにわたって免疫原性応答を誘発すると予測されるアミノ酸配列の候補領域に対応するものであることとを含む。
本発明の方法は有利なことには、統計モデルを使用して、異なるHLA型のセットにわたるアミノ酸部分配列内の1つ又は複数の候補エピトープの予測される免疫原性ポテンシャル-換言すれば、免疫原性応答を誘発する1つ又は複数の候補エピトープの予測される能力-を定量的解析する。定量的統計解析によって識別されたアミノ酸配列の候補領域(又は「ホットスポット」)は、有望なワクチン標的である可能性が最も高い1つ又は複数のソースタンパク質の領域(例えば、エリア)を表し得、ワクチンの設計及び作製に使用し得る。特に、識別された候補領域は、異なるHLA型のセットを有する集団にわたり幅広いT細胞免疫応答を誘発し得る1つ又は複数の有望なT細胞エピトープ(「予測エピトープ」)を含む可能性が高い。
本発明で使用される場合、「エピトープ」という用語は、任意の抗体、B細胞、又はT細胞によって認識される抗原の任意の部分を指す。「抗原」とは、抗体、B細胞、又はT細胞によって結合することが可能な分子を指し、1つ又は複数のエピトープで構成し得る。したがって、エピトープ及び抗原という用語は本明細書では同義で使用し得る。エピトープは、「T細胞エピトープ」、より具体的には「MHCクラスIエピトープ」又は「MHCクラスIIエピトープ」等のエピトープが結合する分子によって参照されることもある。
ヒト白血球抗原(HLA)系は、ヒトのMHCタンパク質をコードする遺伝子の複合体である。「多型」という用語が異なるアレルの高多様性を指すHLA遺伝子の高多型性により、様々なHLA遺伝子によってコードされる各ヒト個人の精密なMHCタンパク質は、適応免疫系を微調整するのに異なり得る。数百もの異なるアレルが、HLA分子に認識されている。HLA型及びHLAアレルという用語は、本明細書では同義で使用し得る。
アミノ酸部分配列の領域メトリックは、HLA型の試験セットにわたるアミノ酸部分配列内の1つ又は複数の候補エピトープの予測される免疫原性ポテンシャルを示す。したがって、「相対的に良好な」領域メトリックは、そのアミノ酸部分配列内の1つ又は複数の候補エピトープがHLA型の大きな集団にわたり免疫原性応答を誘発すると集合的に予測されることを示す。「相対的に悪い」領域メトリックは、そのアミノ酸部分配列内の1つ又は複数の候補エピトープが解析においてHLA型の大きな集団にわたって免疫原性応答を誘発すると集合的に予測されないことを示す。
統計モデルが適用されて、統計学的に有意な領域メトリックを有するアミノ酸部分配列を識別する。特に、統計モデルが適用されて、偶然に予期されるよりも良好な任意の領域メトリックを識別する。当業者には理解されるように、統計モデリングの有意閾値はそれに従って、例えば候補エピトープの予測免疫原性ポテンシャルの認識される正確性に基づいて選ばれ得る。
候補領域は、複数のHLA型にわたって免疫原性応答を誘発すると予測される単一の候補エピトープ(「生きた」又は「予測された」エピトープ)を含み得る。そのようなエピトープは、幾つかのHLA型と「重なっている」と呼ばれ得る。しかしながら、より典型的には、候補領域は、免疫原性応答を誘発すると予測され、集合的に、解析されるHLA型の大きな集団と重なる複数の候補エピトープを含む。例えば、候補領域内の1つの有望なエピトープはn個のHLA型と重なり得、その候補領域内の異なる有望なエピトープは、m個のHLA型と重なり得、それにより、その候補領域は(m+n)個のHLA型にわたって免疫原性応答を誘発すると予測される。
予測エピトープは、長さが互いと異なり得、互いと重なり得ると考えられる。例えば、候補領域は、アミノ酸8個分の長さの予測エピトープに加えて、アミノ酸25個分の長さの更なる予測エピトープを含み得、アミノ酸25個分の長さの上記予測エピトープは、アミノ酸8個分の長さの予測エピトープの一部と重なり得、又はアミノ酸8個分の長さの予測エピトープの全体を完全に含み得る。
典型的には、本方法は、HLA型のセットの各々について、エピトープスコアを各アミノ酸に割り当てるステップをさらに含み得、エピトープスコアは、そのHLA型について、そのアミノ酸を含む候補エピトープの1つ又は複数の予測免疫原性ポテンシャルに基づき、領域メトリックの各々は、HLA型のセットにわたり、アミノ酸部分配列のそれぞれ内のアミノ酸のエピトープスコアに基づいて生成される。
したがって、各アミノ酸部分配列内のアミノ酸のエピトープスコア(対応する候補エピトープの免疫原性ポテンシャルを示す)に基づいて領域メトリックを生成することにより、各領域メトリックは、HLA型のセットにわたる免疫原性応答を誘発するアミノ酸部分配列の能力を示す。
領域メトリックは、HLA型のセットにわたる各アミノ酸部分配列内のアミノ酸エピトープスコアの平均であり得る。
実施形態において、エピトープスコアの少なくともサブセットは、(i)アミノ酸配列にわたって第1の(典型的には固定された)長さを有する第1の複数の候補エピトープを識別することと、(ii)HLA型のセットの各々について、そのHLA型の各候補エピトープの予測免疫原性ポテンシャルを示す第1の複数の候補エピトープの各々のエピトープスコアを生成することと、(iii)アミノ酸配列にわたり第2の(典型的には固定された)長さを有する第2の複数の候補エピトープを識別することと、(iv)HLA型のセットの各々について、そのHLA型の各候補エピトープの予測免疫原性ポテンシャルを示す第2の複数の候補エピトープの各々のエピトープスコアを生成することと、(v)HLA型のセットの各々について、アミノ酸配列の各アミノ酸について、そのHLA型でそのアミノ酸を含む第1及び第2の候補エピトープの全てのうちで最良の免疫原性ポテンシャルを有すると予測される候補エピトープのエピトープスコアを割り当てることとを行うことと、によって割り当てられ得る。
第1の複数の候補エピトープがまず、好ましくは固定長のアミノ酸の「移動窓」においてアミノ酸配列にわたって識別される。そのような「移動窓」手法において、連続した候補エピトープ間のステップサイズは、連続した候補エピトープが重なるように、候補エピトープの長さ未満である。典型的には、ステップサイズはアミノ酸1個分である。これは各HLA型で実行される。第1の複数の候補エピトープの各々について、各HLA型でのその候補エピトープの免疫原性ポテンシャルを示すエピトープスコアが生成される。これらのエピトープスコアがいかに生成されるかについてより詳細に後に検討する。
第2の複数の候補エピトープが続けて、各HLA型についてアミノ酸配列にわたって識別される。ここでも、これは好ましくは「移動窓手法」を使用して実行される。第2のエピトープの各々にも、各HLA型でのそのエピトープの免疫原性ポテンシャルを示すエピトープスコアが割り当てられる。
次いで各アミノ酸に、各HLA型で、そのアミノ酸を含む全ての候補エピトープのうち、最良の免疫原性ポテンシャルを有すると予測される候補エピトープのエピトープスコアが割り当てられる。したがって、特定のHLA型について、候補エピトープ「A」及び候補エピトープ「B」が両方とも特定のアミノ酸「X」を含んだ場合、アミノ酸「X」には、候補エピトープ「A」又は「B」のエピトープスコアのうち、最良の免疫原性ポテンシャルを有すると予測されるほうが割り当てられる。換言すれば、所与のHLA型で、アミノ酸に割り振られるエピトープスコアは、このアミノ酸と重なる候補エピトープによって得られる最良のスコアに対応する。
第1の複数の候補エピトープ及び第2の複数の候補エピトープは異なる長さを有する。
本方法は典型的には、第3以上の複数の候補エピトープを同様にして識別することに拡張される。例えば、クラスIHLA型を検討する場合、アミノ酸8、9、10、11、及び12個分の長さの候補エピトープが識別され、関連する予測免疫原性ポテンシャルに基づいてスコア付けられ得る。したがって、実施形態において、アミノ酸配列にわたる複数の8mer候補エピトープが識別されスコア付けられ得、次いで複数の9mer、複数の10mer、複数の11mer及び12merが識別されスコア付けられる。次いで各アミノ酸に、そのアミノ酸を含む識別された候補エピトープの1つによって得られる最良のスコアに対応するエピトープスコアが割り振られ得る。
好ましくは、候補エピトープは、少なくともアミノ酸8個分の長さを有し、好ましくは、候補エピトープはアミノ酸8、9、10、11、12、又は15個分の長さを有する。典型的には、クラスIHLA型では、アミノ酸8個分から12個分の長さの候補エピトープが識別され、クラスIIHLA型では、アミノ酸15個分の長さの候補エピトープが識別されるが、他の長さを使用してもよい。
好ましい実施形態において、特定のHLA型の候補エピトープの予測免疫原性ポテンシャルは、識別された候補エピトープの、1つ又は複数の予測結合親和性及び予測処理に基づく。
好ましくは、候補エピトープの予測免疫原性ポテンシャル(又は「免疫原性」)は、候補エピトープの予測結合親和性及び処理の両方に基づく。予測結合親和性と予測処理との組合せは、候補エピトープの予測提示と呼ぶことができる。しかしながら、予測免疫原性ポテンシャルがこれらのメトリックの1つに基づく場合、それでもなお良好な結果を得ることができ得る(例えばクラスIIHLA型では、候補エピトープがパーセンタイルランク結合親和性スコアについて予測される場合、良好な結果が得られてきている)。
そのような予測は、抗原提示又は結合親和性予測アルゴリズム、実験データ、又は両方を使用して実行し得る。そのような予測に使用し得る、公開されているデータベース及びツールの例には、免疫エピトープデータベース(IEDB)(https://www.iedb.org/)、NetMHC予測ツール(http://www.cbs.dtu.dk/services/NetMHC/)、TepiTool予測ツール(http://tools.iedb.org/tepitool/)、MHCflurry予測ツール、NetChop予測ツール(http://www.cbs.dtu.dk/services/NetChop/)、及びMHC-NP予測ツール(http://tools.immuneepitope.org/mhcnp/)がある。他の技法が国際公開第2020/070307号及び同第2017/186959号に開示されている。
特に好ましい実施形態において、抗原提示は、幾つかのHLA結合予測子(例えばic50nm結合親和性データでトレーニングされる)及び抗原処理の複数の異なる予測子(例えば質量分析データでトレーニングされる)からのアンサンブル機械学習層情報に統合される機械学習モデルから予測される。
免疫原性ポテンシャルは、異質性又は候補エピトープの免疫応答を刺激する能力を測定する代替の手段に基づき得る。そのような例は、候補エピトープを病原体データベースと比較して、類似の程度を特定すること又は免疫原性エピトープと非免疫原性エピトープの間の物理化学的差を学習使用とする予測モデルを含み得る。
実施形態において、候補エピトープの免疫原性ポテンシャルは、ヒトタンパク質への候補エピトープの類似性にさらに基づき得る。したがって、候補エピトープは、ヒトタンパク質に類似する場合、ペナルティが科され得る(例えばより低いスコアが割り当てられ得る)。
本発明の有利な特徴は、本方法が、HLA分子に結合し得るエピトープを含む候補領域を識別するのみならず、細胞の抗原処理機構によって自然に処理され、感染した宿主細胞の表面上に提示されるCD8エピトープも識別することである。
本方法は、割り当てられたエピトープスコアをデジタル化(「バイナリ化」)することをさらに含み得、所定の基準を満たす各エピトープスコアは「1」に変換され、所定の基準を満たさない各エピトープスコアは「0」に変換される。次いでアミノ酸部分配列の領域メトリックが典型的には、値「1」が割り当てられた部分配列内のアミノ酸数の、HLA型のセットにわたる平均として計算し得る。
デジタル化プロセス後、エピトープスコア「1」が割り当てられたアミノ酸は、免疫原性応答を誘発すると予測される有望なエピトープの構成部分として見なされ得る。したがって、割り当てられたスコアが「1」であるアミノ酸の領域は、複数のHLA型に結合すると予測される1つ又は複数の(恐らくは重なった)候補エピトープを含み得る。
好ましくは、HLA型のセットは、主要組織適合複合体MHCクラスIのHLA型及びMHCクラスIIのHLA型を含む。このようにして、本方法は有利なことには、CD8+及びCD4+T細胞型にわたり幅広いT細胞応答を誘発すると予測される候補領域を予測することが可能である。しかしながら、HLA型のセットがMHCクラスIのHLA型のみ又はMHCクラスIIのHLA型のみを含む場合、有用な結果を得ることができる。
HLA型のセットは、厳密に1つのヒト集団群を表すHLA型を含み得る。集団群は、人種集団群(例えば白色人種、アフリカ人、アジア人)又は地理的集団群(例えばロンバルディーア、武漢)であり得る。したがって、本発明は、特定の集団群の候補領域を識別するのに使用し得る。したがって、幾つかの異なる集団群に共通する、識別された候補領域は、ワクチンの作製への使用に特に有利である。
実施形態において、HLA型のセットは、異なるヒト集団群を表すHLA型を含み得る。このようにして、本発明の方法は有益に、ヒト集団の大きな集団にわたり免疫原性応答を提供すると予測される候補領域を識別するのに使用し得る。
好ましい実施形態において、HLA型のセットは、ヒト集団を表すHLA型を含む。このようにして、HLA型のそのようなセット内のHLA型の大半(又は全て)にわたり免疫原性応答を誘発すると予測される候補領域は、「普遍的」ワクチンの有望な候補であり得る。
HLA型のセットは、ヒト集団又はヒト集団群内の上位N個の最も高頻度のHLA型を含み得、好ましくは、Nは少なくとも5であり、より好ましくは少なくとも50であり、さらに好ましくはN=100である。本発明の統計モデルは、多数(例えば100)のHLA型の候補領域を識別できるようにするため、特に有利である。このようにして、本発明は、世界中の人口の大きな集団にわたって幅広い適応免疫応答を刺激する潜在性を有するワクチンを設計し作製するのに使用し得る。
本発明は特に、ヒト集団の大きな集団にわたり免疫原性応答を提供すると予測される候補領域を識別するのに有益であるが、個人に向けて個人化されたワクチンを生成するために使用することもできる(例えば新生抗原分野における癌治療ワクチン)。したがって、実施形態において、HLA型のセットは所与の個人を表し得る。
本発明の方法により、使用されるHLA型のセットに基づいて異なる候補領域を識別し得ることが理解されよう。
統計モデルは一般に、統計学的に有意なアミノ酸部分配列を識別するために、1つ又は複数のパラメトリック分布(例えば二項分布、ポアソン分布、又は超幾何分布)又はサンプリング方法に基づき得る。特に好ましい実施形態において、統計モデルを適用することは、生成された各領域メトリックのp値を推定するためにモンテカルロシミュレーションを適用することを含む。次いで推定されたp値を使用して、統計学的に有意なアミノ酸部分配列を識別し、ひいては候補領域を識別する。モンテカルロアルゴリズムの使用は、エピトープスコアを生成する際の複雑性を帰無モデル(null model)で反映できるようにするため、特に有利である。
統計学的モデリングの帰無モデル(null model)は典型的には、仮に偶然生成される場合、各HLA型でのエピトープスコアのセットの生成モデルとして定義される。特定のHLA型のエピトープスコアのセットは、「HLAトラック」と呼ぶことができる。モンテカルロシミュレーションを使用して、無作為化されたHLAトラックのセット及び複数の関連するシミュレーション領域メトリックを繰り返し生成し得、そこから、領域メトリックのp値、ひいては統計学的有意性を推定し得る。
帰無モデル(null model)が、エピトープスコアの背後にある複雑性を反映することが好ましい。したがって、好ましくは、モンテカルロシミュレーションを適用することは、(i)HLA型の各々について、エピトープスコアの分布に基づいてエピトープスコアを複数のエピトープセグメント及びエピトープギャップに配置することと、(ii)各HLA型について、エピトープセグメント及びエピトープギャップのランダム配置を繰り返し生成することとを含む。
複数のエピトープセグメント及びエピトープギャップへの各HLA型のエピトープスコアの配置(各HLAトラックの配置)は、割り当てられたスコアに基づいて、そのアミノ酸が良好な免疫原性ポテンシャルを有すると予測された候補エピトープの一部であったか否かを反映する。したがって、エピトープセグメントは、良好な免疫原性ポテンシャルを有すると予測されたエピトープ内のアミノ酸に割り当てられた(典型的には少なくとも8個の)エピトープの連続シーケンスである。「エピトープアミノ酸」のシーケンスで構成されたそのようなエピトープセグメントは、互いと重なってもよく、又は重ならなくてもよい1つ又は複数の予測エピトープを含むアミノ酸領域として見なすことができる。エピトープギャップは、そのような予測エピトープの一部ではないアミノ酸に割り当てられた1つ又は複数の連続スコアである。個々のアミノ酸エピトープスコアではなくエピトープセグメント及びエピトープギャップを繰り返し無作為化することにより、帰無モデル(null model)は領域メトリックの背後にある方法論をより忠実に反映し、それにより、より信頼性の高い結果を提供する。
本方法は、偽発見率(FDR)手順を統計モデルの結果に適用することをさらに含み得、好ましくは、FDR手順はベンジャミニ-ホッホベルク手順又はベンジャミニ-イェクティエリ手順である。
実施形態において、エピトープスコアは、HLA型のセット内の各HLA型のヒト集団頻度に応じてエピトープスコアを重み付けされ得る。したがって、最も高頻度でHLA型にわたり免疫原性応答を誘発すると予測される候補エピトープには、アミノ酸のエピトープスコアに反映される優先重みが与えられ得る。
統計的に有意なアミノ酸部分配列は、有望なワクチン標的である可能性が高い候補領域として識別される。したがって、アミノ酸部分配列のサイズは典型的には、意図されるワクチンプラットフォームに基づいて選ばれる。好ましくは、各アミノ酸部分配列は同じ長さを有する。例えば、本方法のステップ(b)において、アミノ酸配列は、識別された候補領域を合成し得るペプチドワクチンプラットフォームに向けてアミノ酸20個から50個の長さの複数のアミノ酸部分配列に分割し得る。より長いアミノ酸部分配列(例えばアミノ酸50~150個分)は、候補領域を対応するDNA又はRNA配列にコードすることに基づくワクチンプラットフォームに使用し得る。大きなT細胞エピトープ集団を有すると識別されたタンパク質ドメインをワクチンに使用し得ることも考えられる。そのようなドメインは、立体構造抗体応答を提供し得る。
特に好ましいアミノ酸部分配列サイズは、アミノ酸27個分、アミノ酸50個分、又はアミノ酸100個分である。
アミノ酸部分配列は典型的には同じ長さを有するように選ばれるが、異なる長さを有するように選ぶこともできる。アミノ酸部分配列は、上述したように「移動窓」手法でアミノ酸部分配列に広がるように互いに重なり得る。しかしながら、統計モデルの実行に必要な計算リソースを低減するために、アミノ酸部分配列は重ならないように選ぶこともでき、例えば、アミノ酸配列にわたって連続して配置し得る。
これまで説明した方法において識別された候補領域は、異なるHLA型のセットを有する集団にわたり幅広いT細胞免疫応答を誘発し得る有望なT細胞エピトープを含むと予測される。好ましい実施形態において、各領域メトリックは、各アミノ酸部分配列の予測B細胞応答ポテンシャルをさらに示し得る。換言すれば、領域メトリックは、アミノ酸部分配列内の任意のB細胞エピトープの存在を示し得る。幾つかの実施形態において、割り当てられた各エピトープスコアは、各アミノ酸(例えば予測B細胞エピトープ内)の予測B細胞応答ポテンシャルにさらに基づき得る。
追加又は代替として、本方法は、B細胞エピトープの存在について1つ又は複数のソースタンパク質の各候補領域を解析することをさらに含み得る。
B細胞応答予測は、B細胞結合予測アルゴリズム、実験データ、又は両方に基づき得る。そのような実施形態で使用し得る予測ツールの一例はBepiPred予測ツール(http://www.cbs.dtu.dk/services/BepiPred/)である。
実施形態において、本方法は、類似度を決定するために、識別された各候補領域を少なくとも1つのヒトタンパク質配列と比較することと、ヒトタンパク質の少なくとも1つとの類似度が所定の閾値よりも大きいことに基づいて、候補領域をランク付けし、抽出し、又は破棄することとをさらに含み得る。
これらの技法は有利に、識別された候補領域の、異なる主要臓器で発現されるタンパク質の発現プロファイルとの類似性を比較して、そのような候補領域に基づくワクチンへの有害反応を回避する。異なる所定の閾値を使用し得る。例えば、候補領域がヒトタンパク質に厳密に一致する1つ又は複数のエピトープを含む場合、その候補領域は破棄し得る。
本方法は、1つ又は複数の隣接するアミノ酸部分配列に基づいて候補領域を調節することを含み得る。例えば、候補領域が識別されるが、隣接するアミノ酸部分配列が、2つの部分配列間の境界に近い予測T細胞エピトープを有することが分かっている場合、その候補領域のアミノ酸配列は、更なるエピトープを含むように拡張し得る。識別された候補領域を一緒に結合してもよいことも理解されよう。例えば、2つのアミノ酸50個分の候補領域を結合して、ワクチンで使用されるアミノ酸100個分の候補領域を形成し得る。
1つ又は複数のソースタンパク質は好ましくは、ウイルス、細菌、寄生虫、腫瘍、又はそれらの断片の1つ又は複数のタンパク質である。1つ又は複数のソースタンパク質は新生抗原を含み得る。例えば、1つ又は複数のソースタンパク質はスパイク(S)タンパク質、核タンパク質(N)、膜(M)タンパク質、エンベロープ(E)タンパク質、及びORF10、ORF1AB、ORF3A、ORF6、ORF7A、ORF8等のオープンリーディングフレームの1つ又は複数であり得る。したがって、本発明の方法はウイルスプロテオーム全体に適用し得る。これは特に、ワクチン設計の候補領域の識別に有益である。実施形態において、ソースタンパク質は、コロナウイルス、好ましくはSARS-CoV-2ウイルスの1つ又は複数のタンパク質であり得る。
1つ又は複数のソースタンパク質は、1つ又は複数のソースタンパク質の複数の変動であってもよく又は複数の変動を含み得る(及び/又は本方法は1つ又は複数のソースタンパク質の複数の変動に適用し得る)。各変動は例えば、ウイルスタンパク質の変異であり得る。このようにして、本発明の方法は有利なことに、複数の異なるタンパク質配列(例えばウイルスの)にわたる全ての非同義変動(non-synonymous variation)の免疫原性を解析するのに使用し得る。本方法は有利なことには、1つ又は複数のタンパク質の保存エリア(即ち変異を提示する可能性の低いエリア)における1つ又は複数の候補領域を選択するために、1つ又は複数の候補領域をフィルタリングすることを含み得る。保存領域は、当技術分野で既知の技法を使用して識別し得る。
1つ又は複数のソースタンパク質のアミノ酸配列は、オリゴヌクレオチドハイブリダイゼーション法、核酸増幅ベースの方法(限定されないが、ポリメラーゼ連鎖反応ベースの方法を含む)、DNA若しくはRNAシーケンシングに基づく自動予測、デノボペプチドシーケンシング、エドマンシーケンシング、又は質量分析法の1つによって取得し得る。アミノ酸配列は、UniProt(http://www.uniprot.org)等の生物情報学デポジトリからダウンロードし得る。
本方法は、1つ又は複数の識別された候補領域及び/又は1つ又は複数の識別された候補領域内の1つ又は複数の予測(「有望な」)エピトープを合成することをさらに含み得る。
本方法は、1つ又は複数の識別された候補領域及び/又は1つ又は複数の識別された候補領域内の1つ又は複数の予測(「実行可能」)エピトープを対応するDNA又はRNA配列にコードすることをさらに含み得る。そのようなDNA又はRNA配列は、ワクチンで使用される送達系に組み込まれ得る(例えば裸の又はカプセル化されたDNA又はカプセル化されたRNAを使用して)。本方法は、DNA又はRNA配列を細菌又はウイルス送達系のゲノムに組み込んでワクチンを作製することを含み得る。
したがって、本発明の第2の態様によれば、ワクチンを作製する方法が提供され、本方法は、先に開示した第1の態様の方法のいずれかにより少なくとも1つのソースタンパク質の少なくとも1つの候補領域を識別することと、少なくとも1つの候補領域及び/又は少なくとも1つの候補領域内の少なくとも1つの予測エピトープを合成するか、又は、少なくとも1つの候補領域及び/又は少なくとも1つの候補領域内の少なくとも1つの予測エピトープ対応するDNA若しくはRNA配列にコードすることとを含む。そのようなDNA又はRNA配列は、裸の形態若しくはカプセル化された形態で送達し得、又は細菌若しくはウイルス送達系のゲノムに組み込んでワクチンを作製し得る。加えて、細菌ベクターを使用してDNAをワクチン化された宿主細胞に送達することができる。ペプチドワクチンの場合、候補領域及び/又はエピトープは典型的には、アミノ酸配列又は「ストリング」として合成し得る。
本発明の第3の態様によれば、複数のヒト白血球HLAアレル型にわたり免疫原性応答を誘発すると予測される1つ又は複数のソースタンパク質の1つ又は複数の候補領域を識別するシステムが提供され、1つ又は複数のソースタンパク質はアミノ酸配列を有し、本システムは、少なくとも1つのメモリデバイスと通信する少なくとも1つのプロセッサを備え、少なくとも1つのメモリデバイスは、少なくとも1つのプロセッサに、先に開示された第1の態様の方法のいずれかを実行させる命令を記憶している。
本発明の第4の態様によれば、先に開示された第1の態様の方法のいずれかを実施するコンピュータ実行可能命令を記憶したコンピュータ可読媒体が提供される。
本発明の更なる態様において、患者が病原体に感染しているか、又は前に感染していたか(及び例えば防御免疫応答を発達させたか)否かを判断するための診断アッセイを作製する方法が提供され、本診断アッセイは、対象者から得られた生体試料に対して実行され、先に開示された第1の態様の方法のいずれかを使用して病原体の少なくとも1つのソースタンパク質の少なくとも1つの候補領域を識別することを含み、本診断アッセイは、少なくとも1つの識別された候補領域及び/又は少なくとも1つの候補領域内の少なくとも1つの予測されたエピトープを生体試料内で利用又は識別することを含む。
このようにして、本発明は有利なことに、高速診断テスト又はアッセイの作製に使用し得る。候補領域及び候補領域内のエピトープは、研究所テストでさらに解析されて、そのような診断テスト又はアッセイを作成し得、それにより、従来の研究所方法と比較してテスト開発にかかる時間を大幅に短縮し得る。
利用という用語は本明細書で使用される場合、少なくとも1つの識別された領域及び/又は少なくとも1つの識別された領域内の少なくとも1つの予測エピトープが、アッセイにおいて、患者の(例えば防御)免疫応答を識別するのに使用されることを意味することが意図される。この文脈において、識別された領域及び/又は識別された領域内のエピトープは、アッセイの標的ではなく、上記アッセイの構成要素である。
in vitro診断アッセイは、上記少なくとも1つの識別された候補領域及び/又は少なくとも1つの候補領域内の少なくとも1つの予測エピトープを認識する、生体試料内の免疫系成分の識別を含み得る。このようにして、本診断アッセイは、少なくとも1つの識別された候補領域及び/又は少なくとも1つの予測エピトープを利用し得る。典型的には、本診断アッセイは、少なくとも1つの識別された候補領域及び/又は予測エピトープ(例えば合成された)を含み得る。好ましい実施形態において、免疫系成分はT細胞であり得、したがって、本診断アッセイはT細胞アッセイを含み得る。別の好ましい実施形態において、免疫系成分はB細胞であり得る。例えば、本アッセイは、少なくとも1つの候補領域内の予測B細胞エピトープを認識する抗体又はB細胞の識別を含み得る。
そのような診断的使用の一例として、患者から採取された試料、好ましくは血液試料は、本発明の一環として識別され、アッセイ内に含まれる候補領域内のエピトープを認識して結合する生体試料内のT細胞、B細胞、又は抗体の存在について解析し得る。本発明の一環として識別されるT細胞エピトープは、HLA分子によって提示されると予測され、したがって、T細胞によって認識可能である。そのような(例えばT細胞)診断応答は、患者が病原菌による感染に暴露されたことがあるか否か及び防御免疫応答を発達させたか否かを当業者に対して示し、上記感染は、観測可能なレベルの細胞免疫及び/又は免疫記憶を生じさせる。
適した診断アッセイは当業者によって理解されるが、酵素結合免疫吸着スポット(ELISPOT)アッセイ、酵素結合免疫吸着測定法(ELISA)、サイトカイン捕捉アッセイ、細胞内染色アッセイ、四量体染色アッセイ、又は限界希釈培養アッセイを含み得る。
診断テストを作成する方法において、1つ又は複数のソースタンパク質のアミノ酸配列(そこから少なくとも1つの候補領域が識別される)は、テストされる所望の応答に基づいて選ばれ得る。例えば、1つ又は複数のソースタンパク質は、SARS-CoV-2ウイルス等のコロナウイルス(又はその断片)の1つ又は複数のソースタンパク質であり得る。そのような場合、本発明を使用して、患者がSARS-CoV-2ウイルスに感染しているか否か又は前に感染していたか否かを判断する診断テストを作成し得る。しかしながら、当業者には理解されるように、1つ又は複数のソースタンパク質は任意の病原体(例えばウイルス又は細菌)からのものであり得る。
本明細書にさらに開示されるのは、患者が病原体に感染しているか、又は前に感染していたか否かを判断するための診断アッセイであり、本診断アッセイは、対象者から得られた生体試料に対して実行され、先に論じた第1の態様の方法のいずれかを使用して識別された病原体の少なくとも1つのソースタンパク質の少なくとも1つの候補領域及び/又は前記少なくとも1つの候補領域内の少なくとも1つの予測されたエピトープを生体試料内で利用又は識別することを含む。本診断アッセイは、少なくとも1つの識別された候補領域及び/又は少なくとも1つの候補領域内の少なくとも1つの予測されたエピトープを認識する、生体試料内の免疫系成分(例えばT細胞又はB細胞)を識別することを含み得る。
図面の簡単な説明
実施形態について単なる例として添付図を参照してこれより詳細に説明する。
ヒト集団における最も高頻度のHLA-A、HLA-B、及びHLA-DRBアレルにわたるSARS-CoV-2ウイルスのSタンパク質のエピトープマップを示し、これらのエピトープマップでは、データは、CD8の陽性結果が0.7以上に関連し、10%(図中、0.1で表される)以下がクラスIIに関するように変換されており、B細胞抗体担体が重なった状態でCD8及びCD4の幅広いカバレッジが実証される。 ヒト集団における最も高頻度のHLA-A、HLA-B、及びHLA-DRBアレルにわたるSARS-CoV-2ウイルスのSタンパク質のエピトープマップを示し、これらのエピトープマップでは、データは、CD8の陽性結果が0.7以上に関連し、10%(図中、0.1で表される)以下がクラスIIに関するように変換されており、B細胞抗体担体が重なった状態でCD8及びCD4の幅広いカバレッジが実証される。 SARS-CoV-2ウイルスのSタンパク質のHLA-Aアレル及びHLA-BアレルにおけるクラスICD8エピトープのエピトープマップのバイナリ変換の階層クラスタリングを示す。 保存及びヒト自己ペプチドのフィルタリング手順を使用して、SARS-CoV-2ウイルスのウイルスプロテオーム全体にわたって捕捉された、モンテカルロ解析からのエピトープホットスポットを示す。 野生型APスコアタンパク質多様体と突き合わせた変異型APスコアを示す散布図である。 異なる地理的位置における10の変異ウイルス配列へのモンテカルロエピトープホットスポット予測の適用を示す。 ウイルスゲノムにおけるタンパク質のホットスポット保存スコアの分布を示す散布図を示す。 方法の好ましい実施形態のステップを示す流れ図である。 方法の実施形態の実施に適したシステムの一例である。 適したサーバの一例である。
図面の詳細な説明
本明細書に記載される特定の実施形態によれば、複数のHLA型にわたる適応免疫原性応答を誘発すると予測される1つ又は複数のソースタンパク質の1つ又は複数の候補領域を識別する方法及びシステムが提案される。そのような候補領域は「ホットスポット」と呼ぶことができ、「候補領域」及び「ホットスポット」という用語は本明細書では同義で使用することができる。実施形態において、識別されたホットスポット及び/又はホットスポット内で識別されたエピトープは、ワクチンの設計及び作製で使用することができる。
これより、そのようなホットスポットを識別するために好ましい実施形態について説明する。以下の説明はSARS-CoV-2ウイルスのプロテオーム全体の解析を参照するが、本発明が、異なるウイルス、腫瘍、細菌、寄生虫、又は新生抗原等のそれらの断片の解析に利用可能なことが理解されよう。
グローバルエピトープマップ及びアミノ酸スコアの生成
所与のHLAアレルの場合、アミノ酸に割り振られるスコアは、このアミノ酸と重なるエピトープ予測によって得られる最良スコアに対応する。クラスIHLAアレルの場合、エピトープ長は好ましくは8、9、10、11、及び12であり、感染した宿主細胞表面へのウイルスペプチドの抗原提示(AP)又は免疫提示(IP)が予測される。APの予測に種々の方法及びツールが使用可能であり、例えば、公開されているNETCHop及びNETMHC予測ツール並びに本明細書の概要セクションで論じられているものが使用可能である。これらのクラスIスコアは0から1の範囲であり、1は最良スコア(即ち細胞表面に自然に提示される可能性がより高い)である。この実施形態において、クラスIIHLAアレルの場合、15merで予測を行った。クラスII予測は、パーセンタイルランク結合親和性スコアであり(抗原提示ではない)、したがって、スコアが低いほど良好である(スコアの範囲は0から100であり、0が最良スコアである)。
異なるHLA集団におけるエピトープホットスポットエピトープ領域を検出するための統計学的枠組み
入力データ
統計学的枠組みに入力されるデータセットは、研究された全て(例えば100HLAアレル)について、1つ又は複数のソースタンパク質(例えばSARS-CoV-2プロテオーム中の全てのタンパク質)中の各アミノ酸位置について生成されるエピトープマップである。任意の所与のアミノ酸のスコアは、そのアミノ酸に重なるペプチド(候補エピトープ)がエピトープマップにおいて保持する最大AP又はIPスコアとして決定された。クラスIではアミノ酸8~11個分のサイズの全てのペプチド長及びクラスIIではアミノ酸15個分のサイズの全てのペプチド長が処理され、ウイルスタンパク質1個当たり1つのHLAデータセットを生成した。データセット中の各行は、1つのHLA型に予測されたアミノ酸エピトープスコアを表す。
統計学的枠組み
統計学的枠組みが答えようとする中心的質問は、「HLA型の所与のセットと比較して高免疫原性スコアが多い所与のウイルスタンパク質中の特定の領域は、偶然によって予期されるよりも高いか?」である。
HLAトラック
生の入力データセット(例えばAP又はパーセンタイルランク結合親和性スコア)はまず、バイナリトラックに変換される。各クラスIHLAデータセットについて、エピトープスコアは、0.7よりも大きい(APの場合)及び0.5よりも大きい(IPの場合)予測エピトープスコアを有するアミノ酸位置に値1(陽性予測エピトープ)が割り当てられ、残りには値0が割り当てられるように、バイナリ(0又は1)値に変換される。同様に、クラスIIHLAデータセットについても、10未満の予測エピトープスコアを有するアミノ酸位置には値1が割り当てられ、その他の場合、0が割り当てられる。これらの閾値は比較的保守的であり、生データの生成における技法及び信頼度に基づいて他の閾値が選ばれてもよいことが理解されよう。各バイナリトラックは、1が連続する間隔-セグメント-と、セグメント間又はギャップを形成する、間の0が連続する間隔のリストとして効率的に提示することができる。
検定統計量
k個のHLAバイナリトラックの群について、検定統計量(「領域メトリック」)Siが、所与のサイズmの各ビンbiに計算され、タンパク質をn個のビンに分割する(例えばより大きなタンパク質の場合、m=アミノ酸100個)。単一のHLAトラックの場合、検定統計量sは各ビンbiについて計算され:
Figure 2023522358000002

式中、重みはデフォルトでは1であるが、解析中の集団中のHLAトラックの頻度を表すこともできる。その場合i=1,・・・,nで、
Figure 2023522358000003

であり、これは、選択されたHLA型にわたるビンbiのエピトープ(エピトープ濃縮)であると予測されるアミノ酸の平均数である。
帰無モデル(null model)
観測されたHLAトラックの統計学的有意性を推定する効率的な手法は、モンテカルロベースのシミュレーションである。仮にHLAトラックが偶然に生成される場合、HLAトラックの生成モデルとして帰無モデル(null model)が定義される。帰無モデル(null model)から、サンプリングを通して、帰無分布の検定統計量Siが生じる。帰無モデル(null model)は、HLAトラックの性質の背後による複雑性を反映しなければならない。1つのHLAトラック中のエピトープアミノ酸は常に、少なくとも8(予測枠組みで使用される最小ペプチドサイズ)の長さの連続群を生成する。同様に、低エピトープスコアを有するアミノ酸も一緒にクラスタリングされる。
p値推定
帰無モデル(null model)からサンプリングするために、k個のHLAトラックの各々はセグメント及びギャップに分割され、これらは次いでシャッフルされて無作為化HLAトラックを生成する。この実施形態において、これは10000回繰り返されて、各ビンで10000サンプルのSi統計量を生成する。各ビンについて、p値は、真に観測される環境以上のサンプルの割合として推定される。さらに、生成されたp値は、ベンジャミニ-イェクティエリ手順を用いて多重検定のために、偽発見率(FDR)0.05に調節される。他の多重検定手順(例えばベンジャミニ-ホッホベルク)を使用してもよいことが理解されよう。異なる偽発見率が実施されてもよい。
エピトープホットスポット保存スコア
保存の尺度を生成する一例についてこれより説明する。ウイルスゲノム内の各タンパク質について、ユニークアミノ酸配列のセットは、2020年3月29日現在でGISAIDデータベースにおいて利用可能な全ての系統から編成された(Shu,Y.and J.McCauley,GISAID:Global initiative on sharing all influenza data-from vision to reality.Euro Surveill,2017.22(13))。デフォルトパラメータ設定を用いてコマンドラインインターフェースを介して、Clustal Omega(v1.2.4)(Sievers,F.and D.G.Higgins,Clustal Omega for making accurate alignments of many protein sequences.Protein Sci,2018.27(1):p.135-145.)ソフトウェアを使用してこれらのセットを個々に処理した。ソフトウェアは、タンパク質配列内の各アミノ酸についての保存情報を含むコンセンサス配列を出力する。したがって、コンセンサス配列内の位置iにおいて「」として示されるアミノ酸は、そのアミノ酸が全ての入力配列の中で位置iに保存されていることと言い換えられる(Sievers,F.and D.G.Higgins,Clustal Omega for making accurate alignments of many protein sequences.Protein Sci,2018.27(1):p.135-145.)。
次いでホットスポットオフセットを使用して、各コンセンサス配列を抽出した。各ホットスポットについて、部分配列の全長に対するコンセンサス部分配列内の「」の比率として保存スコアを計算した。したがって、各ホットスポットに0から1の保存スコアを割り当て、1は利用可能な全ての系統にわたる完璧な保存を表す。
タンパク質のコンセンサス配列全体からのホットスポットサイズに等しい1,000個の部分配列をサンプリングすることにより、中央値保存スコアを計算した。各サンプルに保存スコアが割り当てられ、1,000個の全ての保存スコアからの中央値を計算した。窓サイズがホットスポットサイズに等しいスライド窓手法を使用して、最小保存スコアを計算した。各インクリメントについて、保存スコアを計算し、生成された最小保存スコアを保持した。
これより、本発明の方法をSARS-CoV-2ウイルスプロテオームに適用する一例について説明する。しかしながら、先に論じたように、方法は、異なるウイルス、細菌、腫瘍、又は寄生虫等の幾つかの異なるソースタンパク質に適用し得る。方法は新生抗原に適用することもできる。
SARS-CoV-2の免疫原性ランドスケープは、ヒト集団における異なるHLA群間の多様性を明らかにする
SARS-CoV-2ウイルスプロテオーム全体のエピトープマッピングを実行した。幾つかのHLA結合予測子(この場合、ic50nm結合親和性データでトレーニングされた3つの別個のHLA結合予測子)及び抗原処理の13の異なる予測子(全て質量分析データでトレーニングされる)からアンサンブル機械学習層情報に統合される機械学習モデルから、抗原提示(AP)を予測した。出力されたAPスコアは0から1の範囲であり、エピトープマップにわたる免疫提示(IP)を計算するための入力として使用した。IPスコアは、ヒトタンパク質と比較した場合、「ヒトへの類似」度を有する提示ペプチドにペナルティを科し、類似度が低いペプチドに報奨(award)を与える。その結果生成されるIPスコアは、T細胞、即ち、欠損せず又はアネルギー化されないT細胞を末梢に循環させることによって認識される可能性が高く、したがって免疫原性である可能性が最も高いHLA提示ペプチドを表す。
AP及びIPエピトープ予測は両方とも、「pan」HLA又はHLA非依存であり、ヒト集団における任意のアレルに対して実行することができるが、この研究の目的では、解析をヒト集団における最も高頻度の100個のHLA-A、HLA-B、及びHLA-DRアレルに制限した。クラスIIHLA結合予測も、ツールのIEDBコンセンサスからの大規模エピトープスクリーニングに組み込み(Dhanda,S.K.,et al.,IEDB-AR:immune epitope database-analysis resource in 2019.Nucleic Acids Res,2019.47(W1):p.W502-W506.)、BepiPredを使用してB細胞エピトープ予測を実行した(Dhanda,S.K.,et al.,IEDB-AR:immune epitope database-analysis resource in 2019.Nucleic Acids Res,2019.47(W1):p.W502-W506.)。その結果生成されたエピトープマップにより、世界中のヒト集団において最も高頻度のHLA-A、HLA-B、及びHLA-DRアレルを使用して感染宿主細胞によって提示される可能性が最も高いウイルスプロテオームにおける領域を識別することができた。
ウイルスタンパク質の全てのエピトープマップを作成し、Sタンパク質のIPスコアに基づく一例が図1Aに示され、APの場合の一例が図1Bに示され、100個の最も高頻度のヒトHLA-A、HLA-B、及びHLA-DRアレルについての候補CD8及びCD4エピトープを含むSタンパク質の別個の領域を示す。HLA型のこのセットは、図1Aの100に示されている。興味深いことに、予測されたB細胞エピトープは多くの場合、高密度の予測T細胞エピトープを含むタンパク質の領域にマッピングされ、したがって、ヒートマップは、ワクチン開発に使用することができるSARS-CoV-2ウイルスの最も関連深い領域の全体像を提供する。図1から、異なるHLAアレルが異なるクラスIAP及びクラスII結合性を有することが明らかである。これは、予期し得るように、SARS-CoV-2抗原提示ランドスケープが、異なるヒトHLAアレルの範囲にわたって別個の集団群にクラスタリングされることを強く示唆する。この傾向は、APスコアがバイナリ化された後、図2に提示される階層クラスタリングマップにさらに示される。図2は、アレルクラスタによっては、ヒト免疫系に対して多くのウイルス標的を提示すものもあれば、その一方で少数の標的しか提示しないもの及びいずれも提示することが不可能であるものもあることを明確に示している。図2は、モンテカルロシミュレーションにおける、各HLA型でのシャッフルし得るエピトープセグメント及びエピトープギャップを示す。これは、異なるHLAを有するヒト集団中の異なる群が、ウイルスペプチドで構成されたT細胞駆動ワクチンに別様に応答することを示唆している。したがって、幅広いヒト集団にわたるT細胞免疫性の恩益を利用する最適なワクチンを設計するためには、ウイルスプロテオームにおける「エピトープホットスポット」を予測することが望ましい。これらのホットスポットは、ヒト集団にわたる複数のHLA型によって認識することができる重なったエピトープ及び/又は空間的に近いエピトープが豊富なウイルスの領域である。
ヒト集団において最も広いカバレッジを有するそのようなエピトープホットスポットの発見に先立って、限られた数の検証済みのSARS-CoVウイルスエピトープから可能な程度まで、T細胞ベースのAPスコア及びIPスコアが有望な標的を予測していることを確認した。現在のSARS-CoV-2と90%以上の配列同一性を共有した元のSARS-CoVウイルス(2002年に中国の広東省で初めて出現した)からのクラスIエピトープを識別した。不都合なことに、公開されているエピトープの多くは、回復期の患者及び/又は健康なドナー(又はヒト化マウスモデル)からのPBMCに対してELISPOTを使用して識別され、ここで、制限HLAは明示的にデコンボリュートされなかった。この問題を軽減するために、四量体を使用して最小エピトープ及びHLA制限が識別された5つのエピトープのサブセットを識別した(Grifoni,A.,et al.,A Sequence Homology and Bioinformatic Approach Can Predict Candidate Targets for Immune Responses to SARS-CoV-2.Cell Host Microbe,2020)。
テストした5つのエピトープのうちの4つは、陽性として識別され、即ち0.5を超えるIPスコアを有し(表1参照)、正確度80%を示した。これは非常に小さなテストデータセットであったが、NEC Immune Profiler予測パイプラインが良好な免疫原性候補を正確に識別することができ、この解析及び続く解析によって識別されたエピトープホットスポットがワクチン開発にとって興味深い標的を表すことに対して、ある程度の信頼性を提供する。
Figure 2023522358000004
ロバストな統計学的解析が、幅広いT細胞応答のエピトープホットスポットを識別する
ヒト集団の大多数の有望な免疫原性標的である潜在性を有するエピトープホットスポットを識別するために、まず、先に生成されたエピトープマップ(Sタンパク質について図1に例示した武漢参照配列の)に対してモンテカルロランダムサンプリング手順を実行して、上述した方法を使用してエピトープホットスポットである最高確率を有するSARS-CoV-2プロテオームの特定のエリアを識別した。潜在的なエピトープホットスポットについて3つのビンサイズを調べた:27、50、及び100。100個のHLAのセットからのタンパク質の定義された各サブセット領域(ビン)の統計量を計算した。次いでモンテカルロシミュレーション法を使用して、各ビンのp値を推定し、それにより、各ビンが候補エピトープホットスポットを表した。シミュレーションから現れた統計学的に有意なビンは、解析された各タンパク質での関心のあるエピトープホットスポット又は領域を表した。
エピトープホットスポットは、個々のエピトープスコア、エピトープ長、及びエピトープホットスポットが含む各アミノ酸について構築される。これらのスコアは、ヒト集団において最も高頻度の100の全てのHLAアレルのホットスポット中の各アミノ酸について生成される。モンテカルロ解析に基づいて、有意なホットスポットは、偽発見率(FDR)が5%未満のものであり、ヒト集団にわたる複数のHLA型によって認識することができる有望なT細胞駆動ワクチン標的を含む可能性が最も高い領域を表す。ウイルスの全範囲にわたって識別されたエピトープホットスポットの概要は図3に示され、世界中の人口における最も高頻度のヒトHLAアレルを標的とするウイルスの大半の免疫原性領域が、Sタンパク質等の抗体暴露構造タンパク質の他に、ウイルスタンパク質の幾つかで発見されることを明らかにしている。
保存解析が、SARS-CoV-2におけるロバストエピトープホットスポットを識別する
普遍的なワクチンの青写真は理想的には、SARS-CoV-2ウイルスの出現する異なる分岐群から集団を保護することも可能であるべきであり、したがって、GISAIDデータベース中の3400個のウイルス配列のAPポテンシャルを武漢Genbank参照配列のAPポテンシャルと比較した。その比較の結果は図4に示され、傾向を示唆しており、それにより、SARS-CoV-2変異は、提示され、したがって、宿主免疫系によって検出される潜在性を下げるように見える。同様の傾向が、HPV及びHIV等の慢性感染症で観測されている。
これらのエピトープホットスポットが、SARS-CoV-2の全てのシーケンシングされた系統及び変異系統にわたって十分にロバストであるか否かを評価するために、次に、エピトープホットスポットモンテカルロ統計学的枠組みを使用し、異なる地理的領域からの10の最も変異したウイルス配列の中から10のウイルス配列を解析した(Shu,Y.and J.McCauley,GISAID:Global initiative on sharing all influenza data-from vision to reality.Euro Surveill,2017.22(13))。ホットスポットの圧倒的多数は、シーケンシングされた全てのウイルスに存在したが、時折、これらの多様な系統においてホットスポットが消え、及び/又は新たなホットスポットが出現した。これを図5に示す。図5は、モンテカルロエピトープホットスポット予測法の異なる地理的場所の10の変異ウイルス配列への適用を示す。武漢参照配列と比較した10の変異配列のホットスポットはx軸上にあり、エピトープホットスポットの頻度はy軸上にある。頻度は3つの異なるホットスポットビン長について示されている:27(左)、50(中央)、及び100(右)。エピトープホットスポットが変異配列にわたってロバストである一方、時折、異なる地理的場所での幾つかの配列に新たなエピトープホットスポットが出現することが明らかである。
識別されたホットスポットは異なるウイルス系統にわたってロバストであるように見えるが、願わくはSARS-CoV-2ウイルスの新たに出現した分岐群からの幅広い保護を提供することになる最もロバストなワクチン青写真を設計するために、エピトープホットスポットを配列保存解析に付した。この解析の目標は、数千のウイルス配列にわたり変異を受けにくいように見えるホットスポットを識別することであった。先に論じた技法を使用してタンパク質のコンセンサス配列に基づいて各ホットスポットの保存スコアを計算した。図6は、異なるビンサイズを使用してIPに基づいて識別されたホットスポットの保存スコアを示す。中央値保存スコアよりも高い保存スコアを提示するエピトープホットスポットのみが、更なる解析に保持された。これにより、アミノ酸50及び100個分のビンサイズではホットスポットの概ね半分並びにアミノ酸27個分のビンサイズでは70%超をフィルタリングして除去することができる。加えて、宿主組織に対する非標的の自己免疫応答の潜在性を低減するために、ヒトプロテオーム中のタンパク質と厳密な配列一致を含むビンを除去した。
SARS-CoV-2の変異配列にわたる多様体免疫原性ポテンシャル
2020年3月31日現在でGISAIDデータベースにおいて利用可能な全ての系統をダウンロードし(Shu,Y.and J.McCauley,GISAID:Global initiative on sharing all influenza data-from vision to reality.Euro Surveill,2017.22(13))、デフォルトパラメータを用いてNexstrain/Augurソフトウェアスイートを通して実行した(Hadfield,J.,et al.,Nextstrain:real-time tracking of pathogen evolution.Bioinformatics,2018.34(23):p.4121-4123)。生成された系統樹を解析して、全てのタンパク質多様体を取得した。各々について、HLA-A02:01の野生型スコア及び変異抗原提示(AP)スコアを計算した。変異スコアは、多様体を含む9つの可能な9merペプチドの中で最大のAPスコアである。野生型スコアは、参照(武漢)系統における同じ位置における9merの最大APスコアである。
図7は、ステップについてより詳細に上述された本発明の好ましい実施形態のステップを要約したフローチャートである。
ステップS201において、1つ又は複数のソースタンパク質のアミノ酸配列が取得される。これらは、例えばウイルス、細菌、帰省中、又は腫瘍の1つ又は複数のソースタンパク質であり得る。
ステップS203において、複数の候補エピトープがアミノ酸配列内で識別される。これらの候補エピトープは、アミノ酸8、9、10、11、12、又は15個分の長さを有し得、例えば「移動窓」手法で識別し得る。
ステップS205において、HLA型の各セット(例えばヒト集団を表す)で、各候補エピトープの免疫応答ポテンシャルが予測される。免疫応答ポテンシャルは、先に論じたように抗原提示(AP)スコア又は免疫提示(IP)スコアであり得る。
ステップS207において、HLA型で最良の予測免疫原性ポテンシャルを有する重複候補エピトープに基づいて、各HLA型の各アミノ酸にエピトープスコアが割り当てられる。エピトープスコアは例えばAP値又はIP値であり得る。
ステップS208において、エピトープスコアは、所定の閾値に基づいてエピトープセグメント及びエピトープギャップにデジタル化される。エピトープセグメントは、HLA型の有望なエピトープを示す。
ステップS209において、アミノ酸配列は複数のアミノ酸部分配列又は「ビン」に分割される。これらは、例えば意図されるワクチンプラットフォームに応じて様々な長さを有し得る。
ステップS211において、アミノ酸部分配列内の割り当てられたエピトープスコアに基づいて、各アミノ酸部分配列の領域メトリックが計算される。
ステップS213において、統計モデル(モンテカルロシミュレーション等)を使用して、統計学的に有意な領域メトリックを有する候補領域(又は「ホットスポット」)を識別する。
ステップS215において、識別された候補領域をフィルタリングして、保存領域で発生するものを優先し得る。例えば、異なる配列のウイルス配列を解析し得、異なる解析にわたり保存領域で識別される候補領域を優先し得る。
本文書において、ワクチン設計における本方法の明確な使用法を提供している。しかしながら、本明細書に記載された技法が、識別された候補領域(「ホットスポット」)におけるエピトープを認識するT細胞の設計にも等しく適用することができることが理解されよう。同様に、本技法は、これがバイオマーカとして使用される、腫瘍における新生抗原負荷の識別、即ち治療への反応予測に使用することもできる。
これより図8を参照して、本方法の実施形態の実施に適したシステムの一例を示す。システム1100は、リファレンスデータストア1120と通信する少なくとも1つのサーバ1110を備える。サーバは、例えば通信ネットワーク1140を経由して、自動ペプチド合成デバイス1130と通信することもできる。
特定の実施形態において、サーバは、例えばリファレンスデータストアから、1つ又は複数のソースタンパク質のアミノ酸配列をHLA型のセットに関連するデータと一緒に取得し得る。サーバは次いで、上述したステップを使用してアミノ酸配列の1つ又は複数の候補ホットスポットを識別し得る。
候補領域(又は候補領域内の1つ若しくは複数の予測エピトープ)は自動ペプチド合成デバイス1130に送信されて、候補領域又はエピトープを合成する。そのようなペプチド合成は、アミノ酸30個分までの長さの候補領域又は候補エピトープに対して特に適切である。自動ペプチド合成の技法は当技術分野で周知であり、任意の既知の技法が使用可能なことが理解されよう。典型的には、候補領域又は候補エピトープは、標準固相合成ペプチド化学を使用して合成され、逆相高性能液体クロマトグラフィを使用して精製されてから、水溶液に配合される。ワクチン接種に使用される場合、投与に先立ち、ペプチド溶液は通常、アジュバントと混合されてから患者に投与される。
ペプチド合成技術は20年以上存在しているが、近年、合成が今では商用機でわずか数分しかかからないポイントまで急速な改良を経てきた。簡潔にするために、そのような機械について詳述しないが、それらの動作は当業者には理解され得、そのような従来の機械は、サーバから候補領域又は候補エピトープを受信するように適合され得る。
サーバは、上述した機能を含み、アミノ酸配列上の候補領域を識別し得る。当然ながら、これらの機能は、コンピュータネットワークの異なる処理エンティティ及び互いと通信する異なる処理モジュールにわたって細分されてもよいことが理解されよう。
候補領域を識別する技法は、カスタマイズされたワクチンの開発用のより広いエコシステムに統合し得る(例えば個人のHLA型に対して本発明の方法を使用して)。ワクチン開発エコシステム例は当技術分野で周知であり、状況に関して高レベルで説明されるが、簡潔にするために、エコシステムについて詳述しない。
エコシステムの一例において、第1のサンプルステップは、DNAを腫瘍生検及びマッチする健康組織コントロールからDNAを分離することであり得る。第2のシーケンスステップにおいて、データはシーケンシングされ、多様体、例えば変異が識別される。免疫プロファイラステップにおいて、関連する変異ペプチドを<<in silico>>で生成し得る。
関連する変異ペプチド及び本明細書に記載される技法を使用して、候補領域を予測して選択し得、ワクチン設計に向けて標的エピトープを識別し得る。即ち、本明細書に記載される技法を使用して、その予測された結合親和性に基づいて選ばれた候補ペプチド配列を決定した。
上述したように従来の技法を使用して、標的エピトープを次いで合成して生成する。投与に先立ち、ペプチド溶液は通常、アジュバントと混合されてから、患者に投与される(ワクチン接種される)。代替において、任意の従来のワクチンと同様に、標的エピトープをDNA若しくはRNAに組み込むことができ、又は細菌若しくはウイルスのゲノムに組み込むことができる。
本明細書に記載された方法によって予測される候補領域は、ペプチドベースのワクチン以外の他のタイプのワクチンの作製に使用することもできる。例えば、候補領域(又は候補領域内の予測エピトープ)は、対応するDNA又はRNA配列にコードし、患者のワクチン接種に使用することができる。DNAは通常、プラスミドコンストラクトに挿入されることを留意されたい。代替的には、DNAは細菌又はウイルス送達系-患者のワクチン接種に使用することができる-のゲノムに組み込むことができる(RNAであることもできる-ウイルス送達系に応じて)-したがって、患者において、即ちin vivoで予防接種後に標的を製造する遺伝子組み換えウイルス又は細菌において製造されるワクチン。
適したサーバ1110の一例を図9に示す。この例では、サーバは、示されるようにバス1204を介して相互接続された少なくとも1つのマイクロプロセッサ1200、メモリ1201、キーボード及び/又はディスプレイ等の任意選択的な入力/出力デバイス1202、及び外部インターフェース1203を含む。この例では、外部インターフェース1203は、サーバ1110を通信ネットワーク1140、リファレンスデータストア1120、他の記憶装置等の周辺機器に接続するのに利用することができる。単一の外部インターフェース1203が示されているが、これは単なる例を目的としており、実際には、種々の方法を使用した複数のインターフェース(例えばイーサネット、シリアル、USB、ワイヤレス等)を提供し得る。
使用に際して、マイクロプロセッサ1200は、メモリ1201に記憶されたアプリケーションソフトウェアの形態の命令を実行して、上述した方法により、入力データを受信して処理するためのリファレンスデータストア1120との通信及び/又は1つ又は複数のソースタンパク質の配列データを受信し、ポテンシャル予測(例えば予測される結合性及び処理を含め)を生成するためのクライアントデバイスとの通信を含め、必要とされるプロセスを実行できるようにする。アプリケーションソフトウェアは、1つ又は複数のソフトウェアモジュールを含み得、オペレーティングシステム環境等の適した実行環境で実行し得る。
したがって、サーバ1200が、適宜プログラムされたクライアントデバイス、PC、ウェブサーバ、ネットワークサーバ等の任意の適した処理システムから形成し得ることが理解されよう。特定の一例では、サーバ1200は、不揮発性(例えばハードディスク)ストレージに記憶されたソフトウェアアプリケーションを実行するIntelアーキテクチャベースの処理システム等の標準処理システムであるが、これは必須ではない。しかしながら、処理システムがマイクロプロセッサ、マイクロチッププロセッサ、論理ゲート構成、任意選択的にFPGA(フィールドプログラマブルゲートアレイ)等の論理の実施と関連するファームウェア、又は任意の他の電子デバイス、システム、若しくは機構等の任意の処理デバイスであることができることも理解されよう。したがって、サーバという用語が使用されるが、これは例のみを目的とし、限定を意図しない。
サーバ1200は単一のエンティティとして示されているが、サーバ1200が例えば、クラウドベースの環境の一環として提供される処理システム及び/又はデータベース1201を使用することによって幾つかの地理的に別個の場所にわたって分散することができることが理解されよう。したがって、上述した配置は必須ではなく、他の適した構成を使用することも可能である。
先に論じたように、本方法はワクチンの設計において使用される。方法は、in vitro診断テスト又はアッセイの設計及び作成に使用することもできる。例えば、そのような診断アッセイは、本発明の技法を使用して識別された、アッセイ内に含まれる「ホットスポット」及び/又はエピトープを認識し、それに結合する生体試料内のT細胞又はB細胞を識別するのに使用し得る。そのような診断アッセイへの診断応答は、当業者に対して、患者が、関心のある病原体(例えばSARS-CoV-2ウイルス)による感染に暴露されたことがあるか否か及びその患者が防御免疫を発達させたことがあるか否かを示し得る。

Claims (32)

  1. 複数のヒト白血球抗原HLA型にわたり適応免疫原性応答を誘発すると予測される1つ又は複数のソースタンパク質の1つ又は複数の候補領域を識別するコンピュータ実施方法であって、前記1つ又は複数のソースタンパク質はアミノ酸配列を有し、前記方法は、
    (a)前記1つ又は複数のソースタンパク質の前記アミノ酸配列にアクセスすることと、
    (b)HLA型のセットにアクセスすることと、
    (c)前記HLA型のセットの各々について、前記アミノ酸配列内の複数の候補エピトープの免疫ポテンシャルを予測することと、
    (d)前記アミノ酸配列を複数のアミノ酸部分配列に分割することと、
    (e)前記複数のアミノ酸部分配列の各々について、前記HLA型のセットにわたって免疫原性応答を誘発する前記アミノ酸部分配列の予測される能力を示す領域メトリックを生成することであって、前記領域メトリックは、前記HLA型のセットの各々について、前記複数の候補エピトープの前記予測免疫原性ポテンシャルに基づくものであることと、
    (f)前記生成された領域メトリックのいずれかが統計的に有意であるか否かを識別するために統計モデルを適用することであって、それにより、統計的に有意である領域メトリックを有すると識別されたアミノ酸部分配列は、前記HLA型のセットの少なくともサブセットにわたって免疫原性応答を誘発すると予測される前記アミノ酸配列の候補領域に対応するものであることと、
    を含む、コンピュータ実施方法。
  2. 前記HLA型のセットの各々について、エピトープスコアを各アミノ酸に割り当てるステップをさらに含み、前記エピトープスコアは、そのHLA型について、そのアミノ酸を含む前記候補エピトープの1つ又は複数の前記予測免疫原性ポテンシャルに基づき、
    前記領域メトリックの各々は、前記HLA型のセットにわたり、前記アミノ酸部分配列のそれぞれ内の前記アミノ酸の前記エピトープスコアに基づいて生成される、請求項1に記載のコンピュータ実施方法。
  3. 前記エピトープスコアの少なくともサブセットは、
    (i)前記アミノ酸配列にわたって第1の長さを有する第1の複数の候補エピトープを識別することと、
    (ii)前記HLA型のセットの各々について、そのHLA型の各候補エピトープの前記予測免疫原性ポテンシャルを示す前記第1の複数の候補エピトープの各々のエピトープスコアを生成することと、
    (iii)前記アミノ酸配列にわたり第2の長さを有する第2の複数の候補エピトープを識別することと、
    (iv)前記HLA型のセットの各々について、そのHLA型の各候補エピトープの前記予測免疫原性ポテンシャルを示す前記第2の複数の候補エピトープの各々のエピトープスコアを生成することと、
    (v)前記HLA型のセットの各々について、前記アミノ酸配列の各アミノ酸について、そのHLA型でそのアミノ酸を含む前記第1及び第2の候補エピトープの全てのうちで最良の免疫原性ポテンシャルを有すると予測される前記候補エピトープの前記エピトープスコアを割り当てることと、
    を行うことによって割り当てられる、請求項1又は2に記載のコンピュータ実施方法。
  4. 前記候補エピトープは、少なくともアミノ酸8個分の長さを有し、好ましくは、前記候補エピトープはアミノ酸8、9、10、11、12、又は15個分の長さを有する、請求項1~3のいずれか一項に記載のコンピュータ実施方法。
  5. 特定のHLA型の候補エピトープの前記予測免疫原性ポテンシャルは、前記識別された候補エピトープの、1つ又は複数の予測結合親和性及び予測処理に基づく、請求項1~4のいずれか一項に記載のコンピュータ実施方法。
  6. 候補エピトープの前記免疫原性ポテンシャルは、ヒトタンパク質への前記候補エピトープの類似性にさらに基づく、請求項1~5のいずれか一項に記載のコンピュータ実施方法。
  7. 前記割り当てられたエピトープスコアをデジタル化することをさらに含み、所定の基準を満たす各エピトープスコアは「1」に変換され、前記所定の基準を満たさない各エピトープスコアは「0」に変換される、請求項2~6のいずれか一項に記載のコンピュータ実施方法。
  8. 前記HLA型のセットは、主要組織適合複合体MHCクラスIのHLA型及びMHCクラスIIのHLA型を含む、請求項1~7のいずれか一項に記載のコンピュータ実施方法。
  9. 前記HLA型のセットは、少なくとも1つのヒト集団群を表すHLA型を含み、好ましくは、前記HLA型のセットは前記ヒト集団を表す、請求項1~8のいずれか一項に記載のコンピュータ実施方法。
  10. 前記HLA型のセットは、前記ヒト集団又はヒト集団群内の上位N個の最も高頻度のHLA型を含み、好ましくは、Nは少なくとも5であり、より好ましくは少なくとも50であり、より好ましくは少なくとも100である、請求項1~9のいずれか一項に記載のコンピュータ実施方法。
  11. 前記HLA型のセットは所与の個人を表す、請求項1~8のいずれか一項に記載のコンピュータ実施方法。
  12. 前記統計モデルを適用することは、前記生成された領域メトリックの各々のp値を推定するためにモンテカルロシミュレーションを適用することを含む、請求項1~11のいずれか一項に記載のコンピュータ実施方法。
  13. 少なくとも請求項2に従属する場合、前記モンテカルロシミュレーションを適用することは、
    (i)HLA型の各々について、前記エピトープスコアの分布に基づいて前記エピトープスコアを複数のエピトープセグメント及びエピトープギャップに配置することと、
    (ii)各HLA型について、前記エピトープセグメント及び前記エピトープギャップのランダム配置を繰り返し生成することと、
    を含む、請求項12に記載のコンピュータ実施方法。
  14. 偽発見率手順であるFDR手順を前記統計モデルの結果に適用することをさらに含み、好ましくは、前記FDR手順はベンジャミニ-ホッホベルク手順又はベンジャミニ-イェクティエリ手順である、請求項1~13のいずれか一項に記載のコンピュータ実施方法。
  15. 前記HLA型のセット内の各HLA型の前記ヒト集団頻度に応じて前記エピトープスコアを重み付けすることをさらに含む請求項2~14のいずれか一項に記載のコンピュータ実施方法。
  16. 各アミノ酸部分配列は少なくとも8個のアミノ酸、好ましくは20から50個のアミノ酸、より好ましくは50から150個のアミノ酸を含む、請求項1~15のいずれか一項に記載のコンピュータ実施方法。
  17. 前記領域メトリックの各々は、前記アミノ酸部分配列のそれぞれの予測されたB細胞応答ポテンシャルをさらに示す、請求項1~16のいずれか一項に記載のコンピュータ実施方法。
  18. 請求項2に従属する場合、割り当てられた各エピトープスコアは、前記アミノ酸のそれぞれの前記予測されたB細胞応答ポテンシャルにさらに基づく、請求項17に記載のコンピュータ実施方法。
  19. B細胞エピトープの存在について前記1つ又は複数のソースタンパク質の各候補領域を解析することをさらに含む請求項1~18のいずれか一項に記載のコンピュータ実施方法。
  20. 類似度を決定するために、識別された各候補領域を少なくとも1つのヒトタンパク質配列と比較することと、
    前記ヒトタンパク質の少なくとも1つとの前記類似度が所定の閾値よりも大きいことに基づいて、前記候補領域をランク付け又は破棄することと、
    をさらに含む請求項1~19のいずれか一項に記載のコンピュータ実施方法。
  21. 1つ又は複数の隣接するアミノ酸部分配列に基づいて候補領域を調節することをさらに含む請求項1~20のいずれか一項に記載のコンピュータ実施方法。
  22. 前記1つ又は複数のソースタンパク質は、ウイルス、腫瘍、細菌、寄生虫、又は新生抗原を含むそれらの断片の1つ又は複数のタンパク質である、請求項1~21のいずれか一項に記載のコンピュータ実施方法。
  23. 前記1つ又は複数のソースタンパク質は、コロナウイルス、好ましくはSARS-CoV-2ウイルスの1つ又は複数のタンパク質である、請求項1~22のいずれか一項に記載のコンピュータ実施方法。
  24. 前記1つ又は複数のソースタンパク質は、1つ又は複数のタンパク質の複数の変動を含む、請求項1~23のいずれか一項に記載のコンピュータ実施方法。
  25. 保存エリアにおける1つ又は複数の候補領域を選択するために、前記1つ又は複数の候補領域をフィルタリングすることをさらに含む請求項24に記載のコンピュータ実施方法。
  26. ワクチンを作製する方法であって、
    請求項1~25のいずれか一項に記載の方法により、少なくとも1つのソースタンパク質の少なくとも1つの候補領域を識別することと、
    前記少なくとも1つの候補領域及び/又は前記少なくとも1つの候補領域内の少なくとも1つの予測されるエピトープを合成するか、又は、前記少なくとも1つの候補領域及び/又は前記少なくとも1つの候補領域内の少なくとも1つの予測されるエピトープをコードして、対応するDNA配列又はRNA配列にすることと、
    を含む、方法。
  27. 複数のヒト白血球抗原HLAアレル型にわたり免疫原性応答を誘発すると予測される1つ又は複数のソースタンパク質の1つ又は複数の候補領域を識別するシステムであって、前記1つ又は複数のソースタンパク質はアミノ酸配列を有し、前記システムは、少なくとも1つのメモリデバイスと通信する少なくとも1つのプロセッサを備え、前記少なくとも1つのメモリデバイスは、請求項1~25のいずれか一項に記載の方法を前記少なくとも1つのプロセッサに実行させる命令を記憶する、システム。
  28. 請求項1~25のいずれか一項に記載の方法を実施するコンピュータ実行可能命令を記憶したコンピュータ可読媒体。
  29. 患者が病原体に感染しているか、又は前に感染していたか否かを判断するための診断アッセイを作製する方法であって、前記診断アッセイは、対象者から得られた生体試料に対して実行され、請求項1~25のいずれか一項に記載の方法を使用して前記病原体の少なくとも1つのソースタンパク質の少なくとも1つの候補領域を識別することを含み、
    前記診断アッセイは、前記少なくとも1つの識別された候補領域及び/又は前記少なくとも1つの候補領域内の少なくとも1つの予測されたエピトープを前記生体試料内で利用又は識別することを含む、方法。
  30. 患者が病原体に感染しているか、又は前に感染していたか否かを判断するための診断アッセイであって、前記診断アッセイは、対象者から得られた生体試料に対して実行され、請求項1~25のいずれか一項に記載の方法を使用して識別された前記病原体の少なくとも1つのソースタンパク質の少なくとも1つの候補領域及び/又は前記少なくとも1つの候補領域内の少なくとも1つの予測されたエピトープを前記生体試料内で利用又は識別することを含む、診断アッセイ。
  31. 前記診断アッセイは、前記少なくとも1つの識別された候補領域及び/又は前記少なくとも1つの候補領域内の少なくとも1つの予測されたエピトープを認識する、前記生体試料内の免疫系成分を識別することを含む、請求項29に記載の方法。
  32. 前記診断アッセイは、前記少なくとも1つの識別された候補領域及び/又は前記少なくとも1つの候補領域内の少なくとも1つの予測されたエピトープを認識する、前記生体試料内の免疫系成分を識別することを含む、請求項30に記載の診断アッセイ。
JP2022563454A 2020-04-20 2021-04-20 免疫原性応答を誘発すると予測される1つ又は複数のソースタンパク質の1つ又は複数の候補領域を識別する方法及びシステム並びにワクチンを作製する方法 Pending JP2023522358A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP20170484.8A EP3901954A1 (en) 2020-04-20 2020-04-20 Method and system for identifying one or more candidate regions of one or more source proteins that are predicted to instigate an immunogenic response, and method for creating a vaccine
EP20170484.8 2020-04-20
EP20187765.1 2020-07-24
EP20187765 2020-07-24
PCT/EP2021/060259 WO2021214071A1 (en) 2020-04-20 2021-04-20 Method and system for identifying one or more candidate regions of one or more source proteins that are predicted to instigate an immunogenic response, and method for creating a vaccine

Publications (1)

Publication Number Publication Date
JP2023522358A true JP2023522358A (ja) 2023-05-30

Family

ID=75530050

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022563454A Pending JP2023522358A (ja) 2020-04-20 2021-04-20 免疫原性応答を誘発すると予測される1つ又は複数のソースタンパク質の1つ又は複数の候補領域を識別する方法及びシステム並びにワクチンを作製する方法

Country Status (6)

Country Link
US (1) US20230178174A1 (ja)
EP (1) EP4139921A1 (ja)
JP (1) JP2023522358A (ja)
CN (1) CN116406472A (ja)
CA (1) CA3176326A1 (ja)
WO (1) WO2021214071A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114333987B (zh) * 2021-12-30 2023-05-12 天津金匙医学科技有限公司 一种基于宏基因组测序的预测耐药表型的数据分析方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2512693A1 (en) * 2003-01-08 2004-07-29 Xencor, Inc. Novel proteins with altered immunogenicity
EP2550529B1 (en) * 2010-03-23 2021-11-17 Iogenetics, LLC. Bioinformatic processes for determination of peptide binding
WO2016007870A2 (en) * 2014-07-11 2016-01-14 Iogenetics, Llc Immune recognition motifs
GB201607521D0 (en) 2016-04-29 2016-06-15 Oncolmmunity As Method
EP3633681B1 (en) 2018-10-05 2024-01-03 NEC OncoImmunity AS Method and system for binding affinity prediction and method of generating a candidate protein-binding peptide

Also Published As

Publication number Publication date
WO2021214071A1 (en) 2021-10-28
EP4139921A1 (en) 2023-03-01
CA3176326A1 (en) 2021-10-28
US20230178174A1 (en) 2023-06-08
CN116406472A (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
Paul et al. HLA class I alleles are associated with peptide-binding repertoires of different size, affinity, and immunogenicity
Capella-Gutiérrez et al. Phylogenomics supports microsporidia as the earliest diverging clade of sequenced fungi
Paul et al. Evaluating the immunogenicity of protein drugs by applying in vitro MHC binding data and the immune epitope database and analysis resource
Kim et al. Applications for T-cell epitope queries and tools in the Immune Epitope Database and Analysis Resource
US20070065832A1 (en) Computer-implemented biological sequence identifier system and method
JP6710004B2 (ja) 免疫療法のためのモニタリングまたは診断ならびに治療剤の設計
Woolthuis et al. Long-term adaptation of the influenza A virus by escaping cytotoxic T-cell recognition
Chakraborty et al. A computational approach for identification of epitopes in dengue virus envelope protein: a step towards designing a universal dengue vaccine targeting endemic regions
Gupta et al. Identification of immunogenic consensus T-cell epitopes in globally distributed influenza-A H1N1 neuraminidase
Fischer et al. Defining objective clusters for rabies virus sequences using affinity propagation clustering
CN114929899A (zh) 一种新抗原的筛选方法、系统及其用途
Tilocca et al. Computational immune proteomics approach to target COVID-19
Singh et al. Genome-wide prediction of vaccine candidates for Leishmania major: an integrated approach
JP2023522358A (ja) 免疫原性応答を誘発すると予測される1つ又は複数のソースタンパク質の1つ又は複数の候補領域を識別する方法及びシステム並びにワクチンを作製する方法
Aranha et al. Combining three-dimensional modeling with artificial intelligence to increase specificity and precision in peptide–MHC binding predictions
Li et al. Improved integration of single-cell transcriptome and surface protein expression by LinQ-View
Palatnik-de-Sousa et al. A novel vaccine based on SARS-CoV-2 CD4+ and CD8+ T cell conserved epitopes from variants Alpha to Omicron
EP3901954A1 (en) Method and system for identifying one or more candidate regions of one or more source proteins that are predicted to instigate an immunogenic response, and method for creating a vaccine
US20230024150A1 (en) Method and system for optimal vaccine design
Gupta et al. Molecular evolution of PvMSP3α block II in Plasmodium vivax from diverse geographic origins
Malone et al. Artificial intelligence predicts the immunogenic landscape of SARS-CoV-2: toward universal blueprints for vaccine designs
Flanagan et al. Transcriptional profiling technology for studying vaccine responses: an untapped goldmine
CN114882951A (zh) 基于二代测序数据检测mhc ii型肿瘤新生抗原的方法和装置
Subrahmanyam et al. Mass cytometry defines virus-specific CD4+ T cells in influenza vaccination
Mazumder et al. Identification of B and T Cell Epitopes to Design an Epitope-Based Peptide Vaccine against the Cell Surface Binding Protein of Monkeypox Virus: An Immunoinformatics Study

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240318