JP2023530790A

JP2023530790A - 最適なワクチン設計のための方法およびシステム

Info

Publication number: JP2023530790A
Application number: JP2022525858A
Authority: JP
Inventors: ブランドン・マローン; ジュン・チェン
Original assignee: エヌイーシーラボラトリーズヨーロッパゲーエムベーハー
Priority date: 2020-04-20
Filing date: 2020-06-26
Publication date: 2023-07-20
Also published as: US20240161872A1; US20240170097A1; CA3155533A1; AU2020443560B2; US20240161871A1; WO2021213687A1; EP4139923A1; AU2020443560A1; BR112022012316A2; KR20220123276A; US20230024150A1; CN115104156A

Abstract

本発明の一態様によれば、予測される免疫原性候補アミノ酸配列のセットからワクチンに含める1つまたは複数のアミノ酸配列を選択する、コンピュータによって実施される方法であって、方法は、免疫プロファイルの複数のサンプル成分の各サンプル成分に関する各候補アミノ酸配列についての免疫プロファイル反応値を特定するステップであって、免疫プロファイル反応値が、候補アミノ酸配列が免疫プロファイルのサンプル成分についての免疫反応を生じさせるかどうかを表す、ステップと、集団についての複数の免疫プロファイルを取り込むステップと、集団についての複数の代表的な免疫プロファイルを生成するステップであって、代表的な免疫プロファイルが、免疫プロファイルのサンプル成分と重複する、ステップと、免疫プロファイル反応値に基づいて、各々の代表的な免疫プロファイルについての免疫反応なしの尤度を最低限に抑えるワクチンに含める1つまたは複数のアミノ酸配列を選択するステップとを含む、コンピュータによって実施される方法。ワクチンを作製する方法とともにコンピュータ可読媒体も提供される。

Description

本発明は、最適なワクチン設計のための方法およびシステムに関する。

エピトープベースワクチン(EV)は、防御性の体液性および/または細胞性免疫反応をトリガするために投与される免疫エピトープに相当する短鎖抗原由来のペプチドを利用する。EVは場合によっては、最も重要な、免疫原性を有し保存される抗原領域を対象とすることによって免疫反応活性化を介した厳密な制御を可能にする。ペプチドの大規模なセットの実験的なスクリーニングは時間およびコストがかかる。したがって、タンパク質抗原のT細胞エピトープマッピングを容易にするインシリコ方法は、EVの開発にとって最重要である。T細胞エピトープの予測では、主要組織適合遺伝子複合体(MHC)によってコード化されたタンパク質によるペプチド抗原提示プロセスが対象とされる。様々なMHCはそれぞれに異なる特異性およびT細胞エピトープレパートリを有するので、遺伝的に異種の人間集団において、各個人は所与の病原体から得たペプチドのそれぞれに異なるセットに反応する可能性が高い。さらに、防御性免疫反応は、目標集団において高頻度で発現するMHCタンパク質によってT細胞エピトープが制限される場合にのみ予期される。したがって、MHCタンパク質の特異性および有病率を慎重に考慮しないと、EVは目標集団に適切に対処することができない。

遺伝的に異種の人間集団の文脈におけるワクチン設計は2つの主要な問題に直面する。第1に、場合によりそれぞれに異なる結合特異性を有する、アレルのそれぞれに異なるセットを発現する各個人は、所与の病原体から得たペプチドのそれぞれに異なるセットに反応する可能性が高い。第2に、アレルは、それぞれに異なる民族において大幅に異なる頻度で発現する。

ワクチン設計におけるこれらの問題に対処するうえで計算ツールが重要になる場合がある。T細胞エピトープワクチン設計のための利用可能な計算方法は主として、MHCに結合するペプチドのエピトープ予測の段階を対象とする。これよりも数は少ないが、目標集団における対象範囲および/または病原体多様性に関しての対象範囲を最大化することによって、推定エピトープの選択を導き、ポリペプチドワクチン構造の設計を最適化するためのツールおよびアルゴリズムが開発されている。

従来技術の現状はエピトープベースワクチン設計に向かっており、具体的には推定エピトープの選択の問題は、広義にはHLAスーパータイプベースおよびアレルベースに分類される(Oyarzun, P.およびKobe, B. Computer-aided design of T-cell epitope-based vaccines: addressing population coverage. International Journal of Immunogenetics, 2015, 42, 313～321)。

スーパータイプベース方法は、最も一般的なHLAアレルのみを優先することにより、多様なHLAバックグラウンドを有する集団には不十分であることがわかっている(Schubert, B.; Lund, O.およびNielsen, M. Evaluation of peptide selection approaches for epitope-based vaccine design. Tissue Antigens, 2013, 82, 243～251)。

従来のアレルベース手法は、ワクチンに含める要素を選択する際に個々の市民を考慮しておらず、むしろ、それらはすべての個人についての反応の平均尤度を最大化することを目的としている。このことには問題があり、というのも、提案された手法は、各市民が確実にワクチンによって保護されるようにするのではなく可能な限り強い(または最も見込みのある)反応を誘発させることを重視しているからである(Vider-Shalit, T.; Raffaeli, S.およびLouzoun, Y. Virus-epitope vaccine design: Informatic matching the HLA-I polymorphism to the virus genome. Molecular Immunology, 2007, 44, 1253～1261; Toussaint, N. C.; Donnes, P.およびKohlbacher, O. A Mathematical Framework for the Selection of an Optimal Set of Peptides for Epitope-Based Vaccines. PLOS Computational Biology, 2008, 4, e1000246; Lundegaard, C.; Buggert, M.; Karlsson, A. C.; Lund, O.; Perez, C.およびNielsen, M. PopCover: A Method for Selecting of Peptides with Optimal Population and Pathogen Coverage. Proceedings of the 1^st ACM International Conference on Bioinformatics and Computational Biology, 2010)。

他の公知の手法は、エピトープワクチンを設計するためにグラフベース手法を使用しているが、これらの手法のうちで、最適なワクチン設計を生成することが示されている手法はない(Theiler, J.およびKorber, B. Graph-based optimization of epitope coverage for vaccine antigen design. Statistics in Medicine, 2018, 37, 181～194)。

したがって、ワクチンに含める候補要素を選択するための既存の方法を向上させる必要がある。

WO2020/070307 WO2017/186959

Oyarzun, P.およびKobe, B. Computer-aided design of T-cell epitope-based vaccines: addressing population coverage. International Journal of Immunogenetics, 2015, 42, 313～321 Schubert, B.; Lund, O.およびNielsen, M. Evaluation of peptide selection approaches for epitope-based vaccine design. Tissue Antigens, 2013, 82, 243～251 Vider-Shalit, T.; Raffaeli, S.およびLouzoun, Y. Virus-epitope vaccine design: Informatic matching the HLA-I polymorphism to the virus genome. Molecular Immunology, 2007, 44, 1253～1261 Toussaint, N. C.; Donnes, P.およびKohlbacher, O. A Mathematical Framework for the Selection of an Optimal Set of Peptides for Epitope-Based Vaccines. PLOS Computational Biology, 2008, 4, e1000246 Lundegaard, C.; Buggert, M.; Karlsson, A. C.; Lund,O.; Perez, C.およびNielsen, M. PopCover: A Method for Selecting of Peptides with Optimal Population and Pathogen Coverage. Proceedings of the 1^st ACM International Conference on Bioinformatics and Computational Biology, 2010 Theiler, J.およびKorber, B. Graph-based optimization of epitope coverage for vaccine antigen design. Statistics in Medicine, 2018, 37, 181～194 Patronov, A.およびDoytchinova, I. T-cell epitope vaccine design by immunoinformatics. Open Biology, 2013, 3, 120139 Caoili, S. E. C. Benchmarking B-Cell Epitope Prediction for the Design of Peptide-Based Vaccines: Problems and Prospects. Journal of Biomedicine and Biotechnology, 2010 Shiina, T.; Hosomichi, K.; Inoko, H.およびKulski, J. K. The HLA genomic loci map: expression, interaction, diversity and disease. Journal of Human Genetics, 2009, 54, 15～39 Cao, K.; JillHollenbach; Shi, X.; Shi, W.; Chopek, M.およびFernandez-Vina, M. A. Analysis of the frequencies of HLA-A, B, and C alleles and haplotypes in the five major ethnic groups of the United States reveals high levels of diversity in these loci and contrasting distribution patterns in these populations. Human Immunology, 2001, 62, 1009～1030 Jensen, K. K.; Andreatta, M.; Marcatili, P.;Buus, S.; Greenbaum, J. A.; Yan, Z.; Sette, A.; Peters, B.およびNielsen, M. Improved methods for predicting peptide binding affinity to MHC class II molecules. Immunology, 2018, 154, 394～406 Dawood, R. M.; Moustafa, R. I.; Abdelhafez,T. H.; El-Shenawy, R.; El-Abd, Y.; Bader El Din, N. G.; Dubuisson, J.; El Awady, M. K. A multiepitope peptide vaccine against HCV stimulates neutralizing humoral and persistent cellular responses in mice. BMC Infectious Diseases, 2019, 19 Woo, W.-P.; Doan, T.; Herd, K. A.; Netter, H.-J.およびTindle, R. W. Hepatitis B Surface Antigen Vector Delivers Protective Cytotoxic T-Lymphocyte Responses to Disease-Relevant Foreign Epitopes. Journal of Virology, 2006, 80, 3975～3984 Trovato, M.およびDe Berardinis, P. Novel antigen delivery systems. World Journal of Virology, 2015, 4, 156～168

本発明の態様は、集団のあらゆるメンバーがワクチンに対して陽性反応を有する尤度が最大化されるようにワクチンに含める候補要素のセットを選択するための方法およびシステムを提供する。

本発明の態様によれば、予測される免疫原性候補アミノ酸配列のセットからワクチンに含める1つまたは複数のアミノ酸配列を選択するコンピュータによって実施される方法であって、免疫プロファイルの複数のサンプル成分の各サンプル成分に関する各候補アミノ酸配列についての免疫プロファイル反応値を特定するステップであって、免疫プロファイル反応値が、候補アミノ酸配列が免疫プロファイルのサンプル成分についての免疫反応を生じさせるかどうかを表す、ステップと、集団についての複数の免疫プロファイルを取り込むステップと、集団についての複数の代表的な免疫プロファイルを生成するステップであって、代表的な免疫プロファイルが、免疫プロファイルのサンプル成分と重複する、ステップと、免疫プロファイル反応値に基づいて、各々の代表的な免疫プロファイルについての免疫反応なしの尤度を最低限に抑えるワクチンに含める1つまたは複数のアミノ酸配列を選択するステップとを含むコンピュータによって実施される方法が提供される。

有利には、提案する手法は、従来の手法とは対照的に、免疫プロファイルを構成する様々な成分を明示的に考慮し、これらの成分に関して最適化され、ワクチンが所与の集団全体にわたって成功する可能性を最大化する。集団が世界人口を表す場合、この手法は、最適な汎用ワクチンを目指すものと見なすことができ、すなわち、ワクチンに含めるワクチン要素の組合せによって免疫反応が生じる可能性を最大化することを目指すものと見なすことができる。たとえば、サンプル成分が複数のサンプルHLAアレルである場合、提案する手法は、すべてのアレルを明示的に考慮し、すべてのアレルに関して最適化される。

要するに、本発明の上記の態様の方法は、特定の集団に関するワクチン設計を、目標が各市民の反応の尤度を最大化することである最適化問題として体系化する。

本技法は、アレルベース手法と見なされてもよいが、従来の方法とは異なり、本手法では、集団において最も頻繁に生じるアレルを考慮し、そのセットの平均を得ることを求めるのではなく個々の市民について考慮する。当技術分野において、集団の範囲が、ある集団におけるエピトープベースワクチンが理論的に有効である部分に相当することに留意されたい。

予測される免疫原性候補アミノ酸配列は、短鎖ペプチド配列または長鎖ペプチド配列であってもよく、長鎖ペプチド配列は、複数の短鎖ペプチド配列を含んでもよい。予測される免疫原性候補アミノ酸配列のセットは一般に、ペプチドが何らかの免疫反応(たとえば、結合、抗原提示、サイトカイン放出など)を生じさせるある種のスコアを算出する予測エンジンから取り込まれる。そのような予測に使用される場合がある公的に利用可能なデータベースおよびツールの例には、Immune Epitope Database (IEDB) (https://www.iedb.org/)、NetMHC予測ツール(http://www.cbs.dtu.dk/services/NetMHC/)、およびNetChop予測ツール(http://www.cbs.dtu.dk/services/NetChop/)が含まれる。他の技法はWO2020/070307およびWO2017/186959で開示されている。

各配列に関連する予測エンジンによるスコアは、免疫反応値を特定するために使用されてもよい。代替的に、免疫反応値は、たとえば、単変量反応統計を抽出することによって、前述の文献におけるデータを使用して実装されたデータベースから取り込まれてもよい。

1つまたは複数の予測される候補アミノ酸配列は、固定長を有してもよく、または可変長を有してもよい。たとえば、MHC Class I HLAアレルを検討する際、8、9、10、11、および12アミノ酸のエピトープ長が候補であってもよく、MHC Class II HLAアレルを検討する際、各エピトープは一般に、長さが15アミノ酸である。代替的に、候補アミノ酸配列は配列のグループであってもよい。たとえば、候補アミノ酸配列には、(1)9-merのアミノ酸配列などの短鎖ペプチド配列、(2)短鎖ペプチド配列をベースとし、隣接領域を含むことがある27-merのアミノ酸配列などの長鎖ペプチド配列、(3)複数の短鎖ペプチド配列ならびに介在する自然発生配列を含むことがある、より長いアミノ酸配列、ならびに(4)タンパク質配列全体が含まれる。

ワクチンに含める1つまたは複数のアミノ酸配列を選択するステップは、免疫プロファイルのサンプル成分とそれぞれの代表的な免疫プロファイルに存在する免疫プロファイルの成分との対応に基づいてもよい。

いくつかの実施形態では、免疫プロファイルは、HLAアレルのセット、腫瘍浸潤リンパ球の存在(または非存在)、PD1、PD-L1、またはCTLA4などの免疫チェックポイントマーカの存在(または非存在)、HIF-1aまたはBNIP3などの低酸素マーカの存在(または非存在)、CXCR4、CXCR3、およびCX3CR1などのケモカイン受容体の存在(または非存在)、ならびにヒトパピローマウイルスによる以前の感染を含む群から選択される1つまたは複数の免疫プロファイルを含んでもよい。これらの特徴の各々が、特定のエピトープまたは候補ワクチン要素の免疫反応に肯定的または否定的な寄与を示すことがわかっている。したがって、各候補アミノ酸配列に関連する免疫反応値は、候補配列が当該の特定の変数に対してどの程度免疫反応を生じるかの寄与を表すことがある。

特定の実施形態では、免疫プロファイルのサンプル成分は、サンプルHLAアレルを含み、それによって、免疫プロファイル反応値は、複数のサンプルHLAアレルの各サンプルHLAアレルに関する各候補アミノ酸配列についてのHLAアレル免疫反応値を含む。集団についての免疫プロファイルは、集団についての複数のHLA遺伝子型を含んでもよい。複数の代表的な免疫プロファイルを生成するステップは、集団についてのHLAアレルの複数の代表的なセットを生成するステップを含んでもよい。代表的なセットのHLAアレルは、サンプルHLAアレルと重複することがある。

免疫プロファイルのサンプルHLAアレルは、集団において最も頻繁に生じるアレルのセットであってもよく、または集団のすべてのアレルであってもよい。サンプルHLAアレルと代表的な免疫プロファイルとの間の重複の程度には、(1)少なくとも1つの代表的な免疫プロファイル内ですべてのサンプルHLAアレルが生じること、および/または(2)サンプルHLAアレル内で代表的な免疫プロファイルのすべてのHLAアレルが生じることが含まれてもよい。好ましくは、各々の代表的な免疫プロファイルについての少なくとも1つのアレルが、サンプルHLAアレルのセットに存在する必要がある。好ましくは、サンプルHLAアレルの各々が代表的なセットのうちの少なくとも1つに存在するべきである。重複の程度における同様のばらつきが、免疫プロファイルの成分と代表的な免疫プロファイルとの間でも考えられる。

実装形態では、候補アミノ酸配列はワクチン要素であり、各々の代表的なセットは所与の集団のシミュレートされた市民である。

この方法は、予測される免疫原性候補アミノ酸配列のセットを取り込むステップをさらに含んでもよい。取り込みは、ローカルメモリから行われても、データベースから行われても、またはリモートデータレポジトリから行われてもよい。

好ましい実施形態では、生成するステップは、(i)複数の免疫プロファイルに関する第1の分布を作成するステップと、(ii)複数の代表的な免疫プロファイルを作成するために第1の分布をサンプリングするステップとを含む。実施例では、免疫プロファイルはHLA遺伝子型を含んでもよい。

より好ましくは、第1の分布は、集団の各領域についての複数の免疫プロファイルに関する分布である。

各領域は、民族集団グループ(たとえば、コーカサス、アフリカ、アジア)または地理的集団グループ(たとえば、ロンバルディ、武漢)を有する集団グループであってもよい。

さらに好ましくは、第1の分布は、事前分布と、集団の各領域における複数の免疫プロファイルにおける観測される遺伝子型とに基づく各領域における遺伝子型に関する事後分布である。

いくつかの特定の実装形態では、第1の分布は、対称ディリクレ(Dirichlet)分布であり、この場合、この方法は、すべての領域にわたって少なくとも1回観測されるすべての遺伝子型を収集するステップをさらに含み、サンプリングするステップは、サンプルにおける各遺伝子型のカウントに基づいて各領域から所望の数の遺伝子型をサンプリングするステップを含む。ディリクレの代替例は、多変量ガウス分布に対してロジスティック関数変換が行われたものであってよい。

有利には、本手法は、入力データが不十分であることを考慮し、入力データベースを実装するのに使用されたデータサンプルの制限を適正に考慮することができる。そうするために、この方法は好ましくは、集団についての取り込まれた複数の免疫プロファイルに基づいてデジタル集団をシミュレートするステップを含み、第1の分布を作成するステップは、サンプリングするステップが、シミュレートされた集団に対して実施されるようにシミュレートされた集団に基づく。

そのようなシミュレーションは、データベースに存在する集団における市民の「デジタルツイン」を作成することと見なされてもよく、この場合、「デジタルツイン」は免疫プロファイルであり、たとえば、HLAアレルのセットと、ヒトパピローマウイルスによる以前の感染などの免疫反応の他の指標とを含んでもよい。このように、この方法は、合成集団がシミュレートされる「デジタルツイン」フレームワークを採用し、そのシミュレーションに関してワクチン要素の最適な選択が行われる。

たとえば、入力データベースが特定の領域における400人の人を含む場合、利用可能なデータを増やすことが望ましい場合がある。提案する統計モデルは、10000人などのより多くの数の市民を作成するためにこの領域における実際の人と一致する人を作成またはシミュレートすることができる。

提案するモデルは分散度を含む。遺伝子型に関する事後分布を作成することによって、分散がデータベース内の遺伝子型の量に比例してもよい。

具体的には、デジタル集団をシミュレートするステップは、集団サイズを定義するステップと、各領域に関する第2の分布を作成するステップとを含む。

特定の実装形態では、第2の分布はディリクレ分布である。ディリクレ分布の考えられる代替例は、多変量ガウス分布であり、多変量ガウス分布が得られた後にロジスティック関数変換が行われる。

提案するモデルは、集団の範囲が最大化されるように希少な遺伝子型を重視する。このことは、既存の手法と対照的であり、既存の手法は、ワクチンの対象を最大化しようとするために最も頻繁に生じるアレルを考慮する。このような手法は、基本的に希少な遺伝子型を無視し、したがって、集団の大部分には有用であるが、ワクチンが少数派に利益をもたらさないので、汎用ワクチンには不適切である。さらに、このような手法は、頻繁に生じるアレルを考慮することによって、入力データベースの固有の欠点への偏りが生じる。たとえば、ある領域についてのデータが不十分である場合、その領域において頻繁に生じるアレルは重視されず、選択されるワクチン要素には、入力データベースにおいて十分なデータ範囲を有する領域への固有の偏りが生じる。

一般に、代表的な免疫プロファイルは、代表的な免疫プロファイルが集団における免疫プロファイルの組合せの範囲を最大化するように生成される。

選択するステップは一般に、最も可能性の高いワクチンをもたらすアミノ酸配列を選択するように実施される。好ましい実装形態では、選択するステップは、各々の代表的な免疫プロファイルについての免疫反応なしの最大尤度を最小化するために数理最適化アルゴリズムを適用するステップを含む。

要するに、この手法は、所与の代表的な免疫プロファイルおよびアミノ酸配列の所与のセットについての反応なしの尤度を算出することを目的とする。これは、代表的な免疫プロファイルにおける成分に対応する免疫プロファイルのサンプル成分についての免疫反応値の和と見なされてもよい。

数理最適化アルゴリズムは、1つまたは複数の所定のしきい値によって制約を受けることがある。実施形態では、アミノ酸配列は特定のワクチン送給プラットフォームに基づいて選択されてもよい。

一般的なアルゴリズムでは、そのような計算の複雑さに対処するのが困難な場合があり、この方法は、効率および向上を実現するために、数理最適化アルゴリズムについての1つまたは複数の代理変数を与えるように構成されてもよい。代理変数は、代表的なセットについての反応なしの対数尤度を含んでもよい。特定の好ましい実装形態では、数理最適化アルゴリズムの変数は、(a)ワクチンに各候補アミノ酸配列を含めるかどうかを示すこの候補アミノ酸配列についての2値標識変数と、(b)免疫反応なしの対数尤度を与える各々の代表的な免疫プロファイルについての連続型変数と、(c)反応なしの対数尤度を与える各サンプル成分についての連続型変数と、(d)どの代表的な免疫プロファイルも選択された1つまたは複数のアミノ酸配列に反応しない最大対数尤度を与える連続型変数とを含み、数理最適化アルゴリズムは、どの代表的な免疫プロファイルも選択された1つまたは複数のアミノ酸配列に反応しない最大対数尤度を与える連続型変数を最小化する。

したがって、いくつかの実装形態では、免疫プロファイルは、HLAアレルのセットを含んでもよく、免疫プロファイルのサンプル成分は、サンプルHLAアレルを含んでもよい。これらの実施形態では、場合によっては、数理最適化アルゴリズムは、(a)ワクチンに各候補アミノ酸配列を含めるかどうかを示すこの候補アミノ酸配列についての2値標識変数と、(b)免疫反応なしの対数尤度を与える各々の代表的な免疫プロファイルについての連続型変数と、(c)反応なしの対数尤度を与える免疫プロファイルの各サンプル成分についての連続型変数と、(d)どの代表的な免疫プロファイルも選択された1つまたは複数のアミノ酸配列に反応しない最大対数尤度を与える連続型変数とを含み、数理最適化アルゴリズムは、どの代表的な免疫プロファイルも選択された1つまたは複数のアミノ酸配列に反応しない最大対数尤度を与える連続型変数を最小化する。

数理最適化アルゴリズムの目的は、変数(d)を最小化することである。実施形態では、2値変数の設定は所与の集団についてのアミノ酸配列の最適な選択に対応する。有利には、数理最適化アルゴリズムは混合整数線形プログラムである。

このように、決定が2値であり、すなわち、ワクチンにアミノ酸配列を含めるかどうかが決定されるので、最適化では上記のようなプログラミングの利点を利用することができる。

ワクチンに含めるアミノ酸配列の選択は無制限の行為ではなく、選択は何らかの点で制約されることが好ましい。好ましくは、この方法は、各候補アミノ酸配列にコストを割り当てるステップをさらに含み、選択するステップは、各候補アミノ酸配列に割り当てられるコストに基づいて制約され、それによって、選択される1つまたは複数のアミノ酸配列は、総コストが所定のしきい値予算よりも低い。

したがって、ワクチンに含めるべきアミノ酸配列の量は、選択されるワクチンプラットフォームおよびワクチン給送方法の現状に基づいて選択することができる。追加または代替として、選択するステップは、ワクチン給送プラットフォームにおいて許可されるアミノ酸配列の最大量に基づいて制約される。

場合によっては、このことは、ワクチンに含めることのできるアミノ酸配列の数に応じて各アミノ酸配列および予算にコスト1を割り当てることによって実行されてもよい。

提案する実施形態は、アレルベース手法と見なされることに加えて、グラフベース手法と見なされてもよく、この場合、この方法は、三部グラフを作成するステップであって、第1のノードのセットが候補アミノ酸配列に相当し、第2のノードのセットが免疫プロファイルのサンプル成分に相当し、第3のノードのセットが集団についての代表的な免疫プロファイルに相当し、第1のノードのセットと第2のノードのセットとの間のエッジの重みが免疫反応値であり、第2のノードのセットと第3のノードのセットとの間のエッジの重みが、サンプル成分と各々の代表的な免疫プロファイルとの対応を表す、ステップをさらに含む。

したがって、この実装形態は、ミニマックス問題が、各々の仮説的な市民についての反応なしの対数尤度を最小化するワクチン要素のセットを選択することを目標として対処されるグラフにおけるネットワークフロー問題と見なされてもよい。従来のグラフベース手法は、集団HLAバックグラウンドを考慮しない。

好ましい実施形態では、免疫反応値は、候補アミノ酸配列のアミノ酸部分配列に基づく対数尤度である。

ワクチン設計手法は、対数尤度の値を割り当てる任意の手法に適用可能である。大部分の短鎖ペプチド予測エンジンは、ペプチドが何らかの免疫反応(たとえば、結合、抗原提示、サイトカイン放出など)を生じさせるある種のスコアを算出し、このスコアは一般に、特定のHLAアレルを考慮する。いくつかの場合には、これはすでに確率であり、他の場合には、ロジスティック関数などの変換関数を使用して確率に変換することができる。追加として、特定するステップは、各アミノ酸部分配列についての尤度値から最良尤度値を免疫反応値として選択するステップを含む。

したがって、候補アミノ酸配列が複数のペプチド配列を含む場合、尤度値は、長鎖ペプチド配列またはより長いペプチド配列に入る各々の短鎖ペプチド配列についてのスコアに基づいて決定することができる。

特に好ましい実施形態では、1つまたは複数の候補アミノ酸配列は、コロナウイルス、好ましくはSARS-CoV-2ウイルスの1つまたは複数のタンパク質に含まれる。

このように、この手法は、SARS-CoV-2ウイルスについての対象の集団に対する最適化された汎用ワクチン設計を提供するのに適している。実施例では、1つまたは複数の候補アミノ酸配列は、ウイルスのスパイク(S)タンパク質、核タンパク質(N)、膜(M)タンパク質、およびエンベロープ(E)タンパク質、ならびにorflabなどのオープンリーディングフレームのうちの1つもしくは複数であってもよい。したがって、本発明の方法は、ウイルスプロテオーム全体に適用されてもよい。このことは、ワクチン設計のための候補要素の特定に特に有利である。

この方法は、1つまたは複数の選択されたアミノ酸配列を合成するステップをさらに含んでもよい。

この方法は、1つまたは複数の選択されたアミノ酸配列を対応するDNAまたはRNA配列としてコード化するステップをさらに含んでもよい。さらに、この方法は、ワクチンを作製するためにDNAまたはRNA配列を細菌またはウイルス給送システムのゲノムに組み込むステップを含んでもよい。

したがって、本発明の一態様によれば、ワクチンを作製する方法であって、上記の態様のいずれかによる方法によって予測される免疫原性候補アミノ酸配列のセットからワクチンに含める1つまたは複数のアミノ酸配列を選択するステップと、ワクチンを作製するために、1つもしくは複数のアミノ酸配列を合成するか、あるいは1つもしくは複数のアミノ酸配列を対応するDNAもしくはRNA配列としてコード化しならびに/またはDNAもしくはRNA配列を細菌もしくはウイルス給送システムのゲノムに組み込むステップとを含む方法が提供される。

本発明のさらなる態様によれば、予測される免疫原性候補アミノ酸配列のセットからワクチンに含める1つまたは複数のアミノ酸配列を選択する、コンピュータによって実施される方法であって、予測される免疫原性候補アミノ酸配列のセットを取り込むステップと、複数のサンプルHLAアレルの各サンプルHLAアレルに関する各候補アミノ酸配列についてのHLAアレル免疫反応値を特定するステップであって、HLAアレル免疫反応値が、候補アミノ酸配列がサンプルHLAアレルについての免疫反応を生じさせるかどうかを表す、ステップと、集団についての複数のHLA遺伝子型を取り込むステップと、集団についてのHLAアレルの複数の代表的なセットを生成するステップであって、代表的なセットのHLAアレルがサンプルHLAアレルと重複する、ステップと、HLAアレル免疫反応値、およびサンプルHLAアレルとHLAアレルのそれぞれの代表的なセットに存在するHLAアレルとの対応とに基づいて、HLAアレルの各々の代表的なセットについて免疫反応なしの尤度を最小化するワクチンに含める1つまたは複数のアミノ酸配列を選択するステップとを含む方法が提供される。

本発明のさらなる態様によれば、予測される免疫原性候補アミノ酸配列のセットからワクチンに含める1つまたは複数のアミノ酸配列を選択するためのシステムであって、少なくとも1つのメモリデバイスと通信する少なくとも1つのプロセッサを含み、少なくとも1つのメモリデバイスが、少なくとも1つのプロセッサに上記の態様のいずれかによる方法を実施させるための命令を記憶するシステムが提供される。

本発明のさらなる態様によれば、上記の態様のいずれかの方法を実施するためにコンピュータ実行可能命令が記憶されたコンピュータ可読媒体が提供される。

次に、一例としてのみ、添付の図面を参照しながら、実施形態について詳しく説明する。

本発明の実施例による三部グラフの概略図である。提案する手法の高レベルフローチャートである。本発明の実施例による三部グラフの代替概略図である。例示的な出力を示す図である。本発明の一実施形態による方法を示す図である。

本明細書で説明するいくつかの実施形態によれば、集団のあらゆるメンバーがワクチンに対して陽性反応を有する尤度が最大化されるようにワクチンに含める候補要素の小規模なセットを選択するための方法およびシステムが提案される。具体的には、エピトープベースワクチンを対象とする。「デジタルツイン」フレームワークが採用され、この場合、合成集団がシミュレートされ、そのシミュレーションに対してワクチン要素の最適な選択が行われる。

この文献では、SARS-CoV-2およびその他の感染に対して有効なワクチンを設計するための方法およびシステムが提案される。エピトープまたは短鎖アミノ酸配列のセットからなるエピトープベースワクチンを対象とする(Patronov, A.およびDoytchinova, I. T-cell epitope vaccine design by immunoinformatics. Open Biology, 2013, 3, 120139ならびにCaoili, S. E. C. Benchmarking B-Cell Epitope Prediction for the Design of Peptide-Based Vaccines: Problems and Prospects. Journal of Biomedicine and Biotechnology, 2010)。詳細には、本システムは、「デジタルツイン」市民の集団をシミュレートすることによって、ワクチンに含める候補要素のセットから選択を行うことが好ましく、この文脈では、デジタルツインは市民のヒト白血球抗原(HLA)プロファイルを含んでもよい。HLAプロファイルは、特定の市民が感染に反応して開始することができる免疫反応における重要な決定因子であり(Shiina, T.; Hosomichi, K.; Inoko, H.;およびKulski, J. K. The HLA genomic loci map: expression, interaction, diversity and disease. Journal of Human Genetics, 2009, 54, 15～39)、ワクチンが特定の個人について免疫を確立するうえで有効であるかどうかを判定するための重要な因子でもある。

この方法は、デジタルツインがHLAプロファイルを含む集団の免疫プロファイルの考慮および/または特定のワクチンについての免疫反応に寄与することがあるさらなる態様に適用可能である。たとえば、そのような免疫プロファイルの構成要素は、腫瘍浸潤リンパ球の存在(または非存在)、PD1、PD-L1、またはCTLA4などの免疫チェックポイントマーカの存在(または非存在)、HIF-1aまたはBNIP3などの低酸素マーカの存在(または非存在)、CXCR4、CXCR3、およびCX3CR1などのケモカイン受容体の存在(または非存在)、ならびにヒトパピローマウイルスによる以前の感染を含んでもよい。

以下では、ワクチンについての候補要素の選択の特定の実施例について説明する。後述の提案する実装形態では、本明細書で示すあらゆる参照符号が参照により組み込まれていることに留意されたい。集団における市民のHLAプロファイルに基づいて、(ワクチンに含めることができるものの予算に配慮しつつ)ワクチンに含めるワクチン要素のセットを選択することを提案する。

集団は、「デジタルツイン」市民cのセットCと見なされ、ワクチンは、ワクチン要素vのセットVと見なされてもよい。すべての市民がワクチンに対して陽性反応を有する尤度を、本明細書ではP(R = +|C, V)と示す。目標は、ワクチンを設計することであり、すなわち、この確率を最大化するようにワクチン要素のセットを選択することである。

この設定では、陽性反応の確率を最大化することは、反応なしの確率を最小化することと同じである。したがって、反応なしの最高確率P(R = -|V, c)を有する市民について、反応なしの確率を最小化することによってワクチン設計に取り組むことができる。

ワクチンは、その要素のうちの少なくとも1つが陽性反応を生じさせる場合に、反応を生じさせると見なされてもよい。すなわち、反応なしの確率は、すべての要素が失敗する結合尤度である。特定の市民c_jについて、確率は以下のように与えられる。

尤度の条件付けセットがVを含むことに留意されたい。

最初の最適化問題は次式のように表すことができる。

対数関数は単調であるので、関数の対数を最小化するVの値はまた、最初の関数を最小化する。

さらに、各市民が免疫プロファイルと見なされてもよい。免疫プロファイルは、以下で説明するように、HLAアレルのセットおよび/またはさらなる成分を含んでもよい。各ワクチン要素v_iは各アレルまたは免疫プロファイルの各構成要素に対して独立に反応を生じさせることがあると仮定することができる。市民c_jについてのアレルまたは構成要素をA(c_j)と呼ぶことができる。したがって、最終目標は次式のようになる。

この実装形態では、このミニマックス問題にネットワークフロー問題の一種として取り組み、ノードの1つのセットがワクチン要素に対応し、1つのセットが免疫プロファイルの構成要素(たとえば、HLAアレル)に対応し、1つのセットが市民に対応する。目標は、各市民について反応なしの尤度が最小化されるようにワクチン要素のセットを選択することである。図1は、問題設定の概要を示す。

ワクチン設計プロセス
具体的には、図2に示すようにワクチン設計プロセスに4つのステップで取り組む。
1. ワクチンに含める候補ワクチン要素のセットを選択する(S201)。
2. 対象の集団について「デジタルツイン」市民のセットを作成する。デジタルツインは代表的な免疫プロファイルである(たとえば、HLAアレルのセット、S202)。
3. ノードがワクチン要素、免疫プロファイルの構成要素(たとえば、HLAアレル)、および市民に対応し、エッジが後述の関連する生物学的用語に対応する三部グラフを作成する(S203)。
4. 各市民が陽性反応を有する尤度が最大化される(または同様に、各市民についての反応なしの対数尤度が最小化される、S204)ように(所与の予算を配慮した)ワクチン要素のセットを選択する。

次に、これらのステップについて詳細に説明する。

ステップ1. 候補ワクチン要素のセットを選択する。

これらの候補ワクチン要素のうちのいくつかがワクチンに含める要素として選択される。ワクチン要素の4つの例として、(1)9-merのアミノ酸配列などの短鎖ペプチド配列、(2)短鎖ペプチド配列をベースとし、隣接領域を含むことがある27-merのアミノ酸配列などの長鎖ペプチド配列、(3)複数の短鎖ペプチド配列ならびに介在する自然発生配列を含むことがある、より長いアミノ酸配列、ならびに(4)タンパク質配列全体がある。

各ワクチン要素v_iはコストC_i ^vに関連付けられ、一方、ワクチンに要素を含めるのに総予算bが利用可能である。予算およびコストについての説明はワクチンプラットフォームに依存する。

いくつかのワクチンプラットフォームは主として、固定数のワクチン要素に制限され、この場合、各コストC_i ^vは1になり、予算は、含めることのできる要素の総数を示す。

いくつかの他のワクチンプラットフォームは、含まれる要素の最大長に制限される。この場合、各コストC_i ^vはワクチン要素の長さになり、予算は、含めることができる要素の最大長になる。

ステップ2. 「デジタルツイン」市民のセットを作成する。

本発明の手法は、「デジタルツイン」市民のセットのシミュレーションに基づく。この例示的な実装形態では、効果が部分的に各市民のHLAによって決定されるワクチン要素を対象とする。したがって、各デジタルツインはHLAアレルのセット(または以下でさらに説明する免疫プロファイル)に対応してもよい。

世界の様々な領域における市民がHLAアレルのそれぞれに異なるセットを有する傾向があり、さらに、HLAアレルのいくつかの組合せが他の組合せよりも一般的であることがわかっている(Cao, K.; JillHollenbach; Shi, X.; Shi, W.; Chopek, M.およびFernandez-Vina, M. A. Analysis of the frequencies of HLA-A, B, and C alleles and haplotypes in the five major ethnic groups of the United States reveals high levels of diversity in these loci and contrasting distribution patterns in these populations. Human Immunology, 2001, 62, 1009～1030)。いくつかの実装形態では、実際の市民から得た完全なHLA遺伝子型を使用してこれらの関係を正確にモデル化することができ、遺伝子型は、Allele Frequency Net Database (AFND, http://www.allelefrequencies.net/)における高品質サンプルから利用可能である。

各領域について遺伝子型に関する分布を作成する。

詳細には、AFNDは、サンプルがどこから得られたかに基づいて(たとえば、「ヨーロッパ」または「サブサハラアフリカ」)、各サンプルをある領域に割り当てる。第1のステップでは、観測および無情報 (Jeffreys)事前分布に基づいて、各領域における遺伝子型に関する事後分布が作成されてもよい。

具体的には、すべての領域にわたって少なくとも一度観測されたすべての遺伝子型を収集することができ、各遺伝子型に指数gを割り当てることができる。一意の遺伝子型の総数はGと呼ばれることがある。第2に、遺伝子型に関する事前分布が指定されてもよい。いくつかの実装形態では、対称ディリクレ分布は、この分布が情報理論的な意味では無情報であり、任意の特定の遺伝子型が任意の特定の領域に出現する可能性がより高いという強い従来の考えを反映しないことに起因して、集中度パラメータ0.5とともに使用されてもよい。次いで、各領域について、遺伝子型に関する事後分布をディリクレ分布として以下のように算出する。
θ₁,…,θ_G|x₁,…,x_G～Dirichlet(α₁ + x₁,…α_G + x_G)
ここで、α_gは第gの遺伝子型についての(従来の)集中度パラメータ(この場合、常に0.5)であり、x_gはこの領域において第gの遺伝子型が観測された回数である。

次に、2ステッププロセスを使用して領域から遺伝子型をサンプリングするためにこの分布を使用することができる。
θ₁,…,θ_G～Dirichlet(α₁ + x₁,…,α_G + x_G)
y₁,…,y_G～Multinomial(θ₁,…,θ_G;n)
ここで、nは領域からサンプリングする遺伝子型の所望の数であり、y₁,…y_Gはサンプルにおける各遺伝子型のカウントである。

「デジタルツイン」市民のセットの作成

例示的な実装形態では引き続き、2ステップ手法を使用してデジタルツイン市民のセットを作成する。この方法では好ましくは、集団サイズpならび各領域にわたる分布が与えられる。具体的には、入力は各領域にわたるディリクレ分布ならびにpである(このディリクレは、前節で説明した遺伝子型に関するディリクレから完全に独立している)。

各領域にわたるディリクレ分布は、各領域についての1つの「集中度」パラメータを有し、各パラメータは、その領域から得られる集団についてのデジタルツインの割合を反映する。一実施例として、パラメータは、各領域の実際の集団に基づくことができる(たとえば、https://www.worldometers.info/world-population/population-by-region/)。ディリクレパラメータは正でなければならないが、合計で1である必要はない。ディリクレ分布から得られるサンプルはカテゴリー分布である。すなわち、このディリクレから得られるサンプル(と集団サイズ)は多項式分布を与える。その分布は次いで、各領域における市民の数を求めるためにサンプリングされてもよい。数学的には、以下の2ステップサンプリングプロセスを有する。
θ₁,…,θ_R～Dirichlet(α₁,…,α_R)
d₁,…,d_R～Multinomial(θ₁,…,θ_R;p)
ここで、Rは領域の数であり、pは所望の集団サイズであり、d₁,…d_Rは各領域から得たデジタルツインのカウントであり、α₁,…α_Rは(ユーザによって与えられる)ディリクレ集中度パラメータである。

第2に、上述の遺伝子型に関する事後分布を使用して各領域についての遺伝子型がサンプリングされる。領域rについてサンプリングされた遺伝子型の数はd_rによって与えられる。

要するに、2つのディリクレ分布がある。1つは免疫プロファイルまたはHLA遺伝子型にわたるものであり(かつ、観測される遺伝子型に基づくものであり)、一方、第2のディリクレ分布は、各領域にわたるものである(かつ、いくつかの実装形態では、シミュレーションを実行する際にユーザによって与えられてもよい)。

その場合、集団のシミュレーションは2つのステップである。
1. (第2の、ユーザ定義ディリクレを使用して)各領域からデジタルツインを何度取り込むかを選択する。
2. (観測されたデータに基づいて第1のディリクレを使用して)各デジタルツインについてその領域に基づいて遺伝子型を選択する。

ステップ3. 三部グラフを作成する。

この提示された実施例では、三部グラフが作成されてもよい。グラフは、特定の問題をどのように解き得るかを表すものであってもよいが、もちろん、グラフが作成されなくてもよく、単に代表的なグラフであってもよいことが理解されよう。したがって、例示的な実装形態の次のステップでは、ワクチン設計についての最適化問題の基礎を形成する三部グラフを構築するためにワクチン要素およびデジタルツインが使用されてもよい。グラフはノードの3つのセットを有する。
1. ステップ1で特定されたすべての候補ワクチン要素
2. 免疫プロファイルのすべての構成要素、たとえば、すべてのデジタルツイン遺伝子型におけるすべてのHLAアレル
3. すべてのデジタルツイン

グラフは、重み付きエッジの2つのセットを有してもよい。
1. 各ワクチン要素viから各構成要素、たとえば、HLAアレルa_kまでのエッジ。このエッジの重みはlogP(R = -|v_i,a_k)であり、すなわち、その特定のワクチン要素から得られる構成要素についての反応なしの尤度である。以下に、短鎖ペプチドについてのこの値を算出するための手法について説明することに留意されたい。さらに、以下に、免疫プロファイルの構成要素がHLAアレルではない場合の特定の手法について説明する。
2. 各構成要素またはHLAアレルから、遺伝子型にそのアレルを有する各市民(またはその免疫プロファイルにおける構成要素)までのエッジ。これらのエッジの重みは一般に1である。

直感的に、ワクチン要素が選択されたときにワクチン要素からアレルまで(およびその場合に、アレルからそのアレルを有する各患者まで)のエッジを「アクティブ」と呼ぶ。その場合、市民についての反応の対数尤度は、すべてのアクティブ入力エッジの和である。すなわち、選択されたワクチン要素から市民までの流れは、その市民についての反応なしの尤度を与える。

所与のデジタルツインおよびワクチン要素についての反応なしの尤度の算出

以下に、ワクチン要素の3つの種類についてのlogP(R = -|v_i,a_k)を算出するための例示的な手法について説明する。このワクチン設計手法は、logP(R = -|v_i,a_k)の値を割り当てる任意の手法に適用可能である。

1. 短鎖ペプチド配列。大部分の短鎖ペプチド予測エンジンは、ペプチドが何らかの免疫反応(たとえば、結合、抗原提示、サイトカイン放出など)を生じさせるある種のスコアを算出し、このスコアは一般に、特定のHLAアレルを考慮する(Jensen, K. K.; Andreatta, M.; Marcatili, P.; Buus, S.; Greenbaum, J. A.; Yan, Z.; Sette, A.; Peters, B.およびNielsen, M. Improved methods for predicting peptide binding affinity to MHC class II molecules. Immunology, 2018, 154, 394～406)。いくつかの場合には、これはすでに確率であり、他の場合には、ロジスティック関数などの変換関数を使用して確率に変換することができる。以下に、反応がHLAアレル以外の構成要素についての反応であるスコアである実施例について説明する。

一般に、当技術分野では、尤度および確率のような用語は、交換可能に使用され、本明細書でも交換可能に使用されることに留意されたい。

したがって、予測エンジンはP(R = +|v_i,a_k)を与える。ここで、v_iはペプチドであり、a_kはアレルである。次にlogP(R = -|v_i,a_k) = log[1 - P(R = +|v_i, a_k)]を求めることができる。

2. 長鎖ペプチド配列。より長いペプチド配列は、予測エンジンとは異なるスコアを有する複数の短鎖ペプチド配列を含んでもよい。vが長鎖ペプチド配列であるlogP(R = -|v_i,a_k)を算出するための例示的な手法では、最小の(すなわち、最良の)logP(R = -|p,a_k)を求める。ここで、pはv_iに含まれる任意の短鎖ペプチドである。

3. より長いアミノ酸配列。より長いアミノ酸配列は、ずっと多くの短鎖ペプチド配列を含んでもよく、ここでは、長鎖ペプチド配列に使用したのと同じ手法を使用することができる。

ステップ4. ワクチン要素の設計

最後に、ワクチン設計問題をステップ3において定義したグラフを介して一種のネットワークフロー問題として提示することができる。詳細には、最小化問題を整数線形計画法(ILP)として提示することができ、したがって、公知のILPソルバを使用して明らかにかつ最適に解くことができる。

ミニマックス問題の取り扱い

前述のように、目標は、各患者または個人について反応なしの対数尤度を最小化するワクチン要素のセットを選択することである。

ミニマックス問題は次式のように簡略化を行う。

したがって、総和の内側の各項は、まさにステップ3においてグラフ内のエッジに対する重みとして算出した項である。

標準的なILPソルバでは、このミニマックス問題を直接解くことはできないが、提案する例示的な実装形態における手法では、この問題に対処するために代理変数のセットを使用する。詳細には、define x_j ^cが市民c_jについての反応なしの対数尤度と定義される。すなわち、

が成立する。さらに、

が定義されてもよく、すなわち、zは任意の市民がワクチンに反応しない最大対数尤度(または、代替的に、任意の市民がワクチンに反応する最小対数尤度)である。最後に、その場合、目標はzを最小化することである。

ILP体系化

例示的なILP体系化は3種類の変数からなる。

x_i ^v: 各ワクチン要素を所与の集団用のワクチンに含めるかどうかを示す各ワクチン要素についてのある2値標識変数。一般に、ワクチン要素には指標iが付加されてもよい。

x_j ^c: 集団内の各市民についての反応なしの対数尤度を与えるその市民についてのある連続型変数。一般に、市民には指標jが付加されてもよい。

x_k ^α: 各HLAアレルについての反応なしの対数尤度を与えるそのHLAアレルについてのある連続型変数。一般に、アレルには指標kが付加されてもよい。

z: 任意の市民がワクチンに反応しない最大対数尤度を与えるある連続型変数(目標はこの値を最小化することである)。

追加として、ILPは以下の定数を使用する。

p_i,_k: ワクチン要素viがアレルkについて反応を生じさせない対数尤度。

c_i ^v: ワクチン要素v_iの「コスト」。

b: 選択することのできるワクチン要素の最大コスト。

最後に、ILPは以下の制約を使用する。

少なくとも1つの選択されたペプチドが各アレルについて陽性反応を生じさせる対数尤度を与えるそのアレルについてのある制約。

少なくとも1つの選択されたペプチドが各市民について少なくとも1つのアレルに対する陽性反応を生じさせる対数尤度(すなわち、これはこの市民についての陽性反応の尤度である)を与えるその市民についてのある制約。

選択するワクチン要素が予算を超えることはできない。

z≧x_j ^c: 上述のように、ミニマックス問題を解くための手法としてzを使用する。これらの制約は、zが、任意の個々の患者がワクチンに反応する最小対数尤度であることを意味する。

ILPの目的はzを最小化することである。

2値x_i ^v変数の設定は、所与の集団についてのワクチン要素の最適な選択に対応する。

最大フロー問題および明らかに効率的な解を有するその他の問題との関係

最大フロー問題および明らかに効率的な解を有するその他の問題との関係を提案する。このことは、効率的に解くことのできるいくつかのネットワークフロー問題と非常に関係がある。提案する最適化問題は、基本的に複数のシンク（各市民が１つのシンクとなる）を有する最小フロー問題であるが、目標は、すべてのシンクへのフローではなく各々の個々のシンクへのフローを最小化することである。詳細には、一般に多重シンクフロー問題を単一シンク問題に変換するために使用される「和」演算子ではなく、(非線形)"min"演算子が必要である。したがって、効率的な最小フロー体系化は、この設定では適用可能ではない。

ILPの目標は、この場合もzを最小化することである。

2値x_i ^v変数の設定はこの場合も、所与の集団についてのワクチン要素の最適な選択に対応する。

免疫プロファイル

上記で説明されるとともに集団についてのHLAアレルのセットを表す概念は、集団についての免疫プロファイルを表すために使用されてもよい。その場合、免疫プロファイルは、場合によっては設定されたHLAアレルならびに他の構成要素を含んでもよく、または単に、ワクチン要素がその代表的な集団においてどのように反応するかを表す他の構成要素のセットを含んでもよい。

以下に、上述の実装形態が、典型的には、どのようにHLAアレルのセットについて調整され、HLAアレルのセットの文脈で説明されるかの実施例について説明する。

これらの実施例では、様々な他の免疫プロファイルの構成要素がグラフにおける中央ノードとして表されてもよい。一実装形態では、各変数の離散化型のみが考慮されてもよい。たとえば、構成要素は、"TILs = 73.8"ではなく「腫瘍浸潤リンパ球(TILs)存在=高」または「CTLA4存在=低」を表す。同様に、ヒトパピローマウイルス(HPV)は、個別2値変数(「HPV =偽」)として表されると見なすことができる。したがって、これらは、すでに各免疫プロファイルについてHLAをサンプリングするために使用されているディリクレ分布を使用してなおもサンプリングすることができる。

中央ノードがHLAアレルに対する他の構成要素を表すことを上記で指摘したが、(グラフのエッジとして使用される)免疫反応のスコアまたは程度を異なるように判定してもよい。特定の実装形態では、前述の文献の一変量反応統計を抽出することによって、上記のマーカの各々について免疫反応値を算出することができる。この値は、この場合も反応なしの対数尤度と見なされてもよい。たとえば、公開された統計が、52人の患者が「高」TIL存在を有し、一方、110人が「低」TIL存在を有することを示すと仮定する。これによって、TIL存在についての分布を作成することが可能になる。したがって、集団についての各デジタルツインまたは代表的な免疫プロファイル(すなわち、グラフの右側のノード)は、HLAに加えてこれらのプロファイル要素の各々についての値を有する。

たとえば、反応の確率について「高」グループが80%であり、「低」グループが(約)45%である場合、TIL存在についての免疫反応値を与えるためにこれらの数を使用することができる。免疫プロファイルの他の要素のすべてに同様の手法を使用することができる。

グラフを作成する際、各免疫プロファイル要素および値(たとえば、「TILs存在=高」または「CTLA4存在=低」)を中央ノードとして表してもよく、これらのノードの各々は適切なデジタルツインノードに接続される(HLAの場合と同じ)。

いくつかの例示的な実装形態では、グラフ内の第1のノードのセットに新しいノードを付加してもよく(すなわち、候補アミノ酸配列)、これらの免疫プロファイル要素ノードのすべてがこのノードに接続され、上述のように、重みは算出される免疫反応値になる。そのようなグラフを図3に示す。

実際には、このグラフ構成は、選択されたアミノ酸配列が免疫プロファイル要素に「影響を与え」ないことを意味する。それにもかかわらず、この構成は、このワクチン設計が、予後が不十分なデジタルツインを助けるのを促進する(たとえば、「TILs存在=低」)。

特定のワクチンプラットフォームについてのワクチンの作製

ワクチン給送プラットフォームの選択は、場合によっては、ワクチン要素をいくつ選択できるかについての予算、各ワクチン要素のコスト、最終的には、実際のワクチンをどのように作製するかを、ワクチン要素に基づいて判定するうえで重要である。以下に、ワクチンプラットフォームおよび結果としての予算、コスト、および選択された要素の使用の2つの具体的な実施例を提示する。

第1の実施例では、HCVp6-MAPワクチン使用する。この「多抗原ペプチド」(MAP)ワクチンは、C型肝炎ウイルス(HCV)用の予防ワクチンとして設計される。最初の研究では、著者はいくつかの基準に基づいて短鎖ペプチドをワクチン要素として選択している。選択の後、9フルオレニルメトキシカルボニル方法を使用して短鎖ペプチドを合成した。次いで、ペプチドをDMSOに溶解させて濃度を10μg/μLとし、-20℃で貯蔵した。免疫付与の直前に、ペプチドを所望の濃度になるように希釈し(たとえば、DMSO 1μL当たりペプチド800 ng)、4℃に維持した。次いで、ワクチンを皮下に投与した(Dawood, R. M.; Moustafa, R. I.; Abdelhafez,T. H.; El-Shenawy, R.; El-Abd, Y.; Bader El Din, N. G.; Dubuisson, J.; El Awady, M. K. A multiepitope peptide vaccine against HCV stimulates neutralizing humoral and persistent cellular responses in mice. BMC Infectious Diseases, 2019, 19)。

HCVp6-MAPワクチンを本ワクチン設計問題上にマップすると、各ワクチン要素は短鎖ペプチドであり、総予算は6であり、各ワクチン要素のコストは1である。ワクチンを製造するために、選択したワクチン要素を前述のように処理することができる。

第2の例として、キメラB型肝炎表面抗原(HBsAg)DNAワクチンを検討する(Woo, W.-P.; Doan, T.; Herd, K. A.; Netter, H.-J.およびTindle, R. W. Hepatitis B Surface Antigen Vector Delivers Protective Cytotoxic T-Lymphocyte Responses to Disease-Relevant Foreign Epitopes. Journal of Virology, 2006, 80, 3975～3984)。大雑把に言って、このワクチンプラットフォームは、HBsAgスモールエンベロープタンパク質中の2つのペプチド配列をワクチン要素で置き換える。分子の免疫原性を確保するために、置換ワクチン要素の全長はアミノ酸約36個分でなければならない(Trovato, M.およびDe Berardinis, P. Novel antigen delivery systems. World Journal of Virology, 2015, 4, 156～168)。本ワクチン設計体系化の場合、総予算は36であり、各ワクチン要素のコストはその要素の長さ(アミノ酸単位)である。さらなる詳細は、当技術分野では、ワクチン要素が選択された後のDNAベースワクチンの合成に関する技術的詳細に関して公知である(Woo, W.-P.; Doan, T.; Herd, K. A.; Netter, H.-J.およびTindle, R. W. Hepatitis B Surface Antigen Vector Delivers Protective Cytotoxic T-Lymphocyte Responses to Disease-Relevant Foreign Epitopes. Journal of Virology, 2006, 80, 3975～3984)。

概要として、提案する手法は以下のステップを含む。
1. ワクチンに含める候補ワクチン要素のセットを選択する。
2. 対象の集団について「デジタルツイン」市民のセットを作成する。デジタルツインはHLAアレルのセットまたは免疫プロファイルである。
3. ノードがワクチン要素、HLAアレル(または免疫プロファイルの一部)、および市民に対応し、エッジが後述の関連する生物学的用語に対応する三部グラフを作成する。
4. 各市民が陽性反応を有する尤度が最大化される(または同様に、各市民の反応なしの対数尤度が最小化される)ように(所与の予算を配慮した)ワクチン要素のセットを選択する。

本発明の実施例の実装形態は、SARS-CoV-2に対する予防ワクチンで使用されるペプチド配列を選択するための特定の用途を有する。

次に、図5を参照しながら、特定の例示的な実装形態について説明する。ステップS501において、この方法では、免疫プロファイルの複数のサンプル成分のうちの各サンプル成分に関する各候補アミノ酸配列についての免疫プロファイル反応値を特定する。免疫プロファイル反応値は、候補アミノ酸配列が免疫プロファイルのサンプル成分について免疫反応を生じさせるかどうかを表す。ステップS502において、この方法では、集団についての複数の免疫プロファイルを取り込む。ステップS503において、この方法では、集団についての複数の代表的な免疫プロファイルを生成する。代表的な免疫プロファイルは、免疫プロファイルのサンプル成分と重複する。最後に、ステップS504において、この方法では、免疫プロファイル反応値に基づいて、各々の代表的な免疫プロファイルについての免疫反応なしの尤度を最小化するワクチンに含める1つまたは複数のアミノ酸配列を選択する。

実施例
以下に、上記のプロセスおよび概念の実施された実施例を提示する。

グラフベース「デジタルツイン」最適化では、ワクチン設計についての汎用ブループリントを選択するためにエピトープホットスポットを優先する。

SARS-CoV-2に対する実現可能な汎用ワクチンについてのブループリントを開発するには、1)人間集団のうちの広範な部分に所定の忠実度で対処し、2)ずっと少ない領域(厳密な数は、ビンのサイズおよび検討中のワクチンプラットフォームに依存してもよい)の選択を優先する必要がある。したがって、人間集団における広範な対象に、限られた目標とするワクチン「ペイロード」を与えることのできるホットスポットの最適なコンステレーションまたは関連する実現可能なセグメントを特定する必要がある。この目的を達成するために、本発明者らは「デジタルツイン」方法を開発し適用した。デジタルツイン方法では、それぞれに異なる地理的集団の特定のHLAバックグラウンドをモデル化する。グラフベース数理最適化手法は次に、広範な人間集団において免疫を誘導する免疫原性エピトープホットスポットの最適な組合せを選択するために使用される。解析によって出力された実施例を図3に示す。この出力は、世界人口における着実な免疫反応をシミュレートするために組み合わされることがある特定されたホットスポットのサブセットを示す。

エピトープホットスポットのデジタルツインシミュレーションにおけるグラフベース最適化

集団を「デジタルツイン」市民cのセットCと見なし、ワクチンをワクチン要素vのセットVと見なす。本発明では、すべての市民がワクチンに対して陽性反応を有する尤度をP(R = +|C, V)と示す。本発明の目標は、この確率を最大にするようにワクチンを設計し、すなわち、ワクチン要素のセットを選択することである。

この設定では、陽性反応の確率を最大化することは、反応なしの確率を最小化することと同じである。したがって、本発明では、反応なしの最高確率P(R = -|V, c_j)を有する市民についての反応なしの確率を最小化することによってワクチン設計に取り組む。

本発明では、ワクチンの要素のうちの少なくとも1つが陽性反応を生じさせる場合にワクチンが反応を生じさせると見なす。すなわち、反応なしの確率は、すべての要素が失敗する結合尤度である。特定の市民c_jについて、この確率は次式のように与えられる。

その場合、最初の最適化問題を次式のように表すことができる。

さらに、本発明では、各市民をHLAアレルのセットと見なし、各ワクチン要素v_iが各アレルに対して独立に反応を生じさせることがあると仮定し、市民c_jについてのアレルをA(c_j)と呼ぶ。したがって、本発明の最終的な目的は以下の通りである。

本発明では、このミニマックス問題に、ある種のネットワークフロー問題として取り組み、この場合、ノードの1つのセットがワクチン要素に対応し、1つのセットがHLAアレルに対応し、1つのセットが市民に対応する。目標は、反応なしの尤度が各市民について最小化されるようにワクチン要素のセットを選択することである。

ワクチン設計プロセス

具体的には、本発明では、ワクチン設計プロセスに4つのプロセスで取り組む。
1. ワクチンに含める候補ワクチン要素のセットを選択する。
2. 対象の集団について「デジタルツイン」市民のセットを作成する。デジタルツインはHLAアレルのセットである。
3. ノードがワクチン要素、HLAアレル、および市民に対応し、エッジが後述の関連する生物学的用語に対応する三部グラフを作成する。
4. 各市民が陽性反応を有する尤度が最大化される(または同様に、各市民についての反応なしの対数尤度が最小化される)ようにワクチン要素のセットを選択する。

a_k アレル
b 予算
c_j 市民
p 短鎖ペプチド
v_i ワクチン要素
z 最大対数尤度

Claims

予測される免疫原性候補アミノ酸配列のセットからワクチンに含める1つまたは複数のアミノ酸配列を選択するコンピュータによって実施される方法であって、
免疫プロファイルの複数のサンプル成分の各サンプル成分に関する各候補アミノ酸配列についての免疫プロファイル反応値を特定するステップであって、前記免疫プロファイル反応値が、前記候補アミノ酸配列が免疫プロファイルの前記サンプル成分についての免疫反応を生じさせるかどうかを表す、ステップと、
集団についての複数の免疫プロファイルを取り込むステップと、
前記集団についての複数の代表的な免疫プロファイルを生成するステップであって、前記代表的な免疫プロファイルが、免疫プロファイルの前記サンプル成分と重複する、ステップと、
前記免疫プロファイル反応値に基づいて、各々の代表的な免疫プロファイルについての免疫反応なしの尤度を最小化する、前記ワクチンに含める1つまたは複数のアミノ酸配列を選択するステップと
を含む、コンピュータによって実施される方法。
前記生成するステップが、
(i) 前記複数の免疫プロファイルに関する第1の分布を作成するステップと、
(ii) 前記複数の代表的な免疫プロファイルを作成するために第1の分布をサンプリングするステップと
を含む、請求項1に記載のコンピュータによって実施される方法。
前記第1の分布が前記集団の各領域についての前記複数の免疫プロファイルに関する分布である、請求項2に記載のコンピュータによって実施される方法。
前記第1の分布は、事前分布および前記集団の各領域における前記複数の免疫プロファイルにおける観測される遺伝子型に基づく各領域における遺伝子型に関する事後分布である、請求項3に記載のコンピュータによって実施される方法。
前記第1の分布が対称ディリクレ分布であり、前記方法は、すべての領域にわたって少なくとも1回観測されるすべての遺伝子型を収集するステップをさらに含み、前記サンプリングするステップは、前記サンプルにおける各遺伝子型のカウントに基づいて各領域から所望の数の遺伝子型をサンプリングするステップを含む、請求項4に記載のコンピュータによって実施される方法。
前記集団についての前記取り込まれた複数の免疫プロファイルに基づいてデジタル集団をシミュレートするステップをさらに含み、第1の分布を前記作成するステップが、前記サンプリングするステップが、前記シミュレートされた集団の前記分布に対して実施されるように前記シミュレートされた集団に基づく、請求項2から5のいずれか一項に記載のコンピュータによって実施される方法。
デジタル集団を前記シミュレートするステップが、
集団サイズを定義するステップと、
前記領域に関する第2の分布を作成するステップと
を含む、請求項6に記載のコンピュータによって実施される方法。
前記第2の分布がディリクレ分布である、請求項7に記載のコンピュータによって実施される方法。
前記代表的な免疫プロファイルが、前記代表的な免疫プロファイルが前記集団における免疫プロファイルの組合せの範囲を最大化するように生成される、請求項1から8のいずれか一項に記載のコンピュータによって実施される方法。
前記選択するステップが、前記代表的な免疫プロファイルの各々についての免疫反応なしの最大尤度を最小化するために数理最適化アルゴリズムを適用するステップを含む、請求項1から9のいずれか一項に記載のコンピュータによって実施される方法。
前記免疫プロファイルがHLAアレルのセットを含み、免疫プロファイルの前記サンプル成分がサンプルHLAアレルを含み、前記数理最適化アルゴリズムの変数が、
(a)ワクチンに各候補アミノ酸配列を含めるかどうかを示す前記候補アミノ酸配列についての2値標識変数と、
(b)免疫反応なしの対数尤度を与える各々の代表的な免疫プロファイルについての連続型変数と、
(c)反応なしの対数尤度を与える免疫プロファイルの各サンプル成分についての連続型変数と、
(d)どの代表的な免疫プロファイルも前記選択された1つまたは複数のアミノ酸配列に反応しない最大対数尤度を与える連続型変数と
を含み、
前記数理最適化アルゴリズムは、どの代表的な免疫プロファイルも前記選択された1つまたは複数のアミノ酸配列に反応しない最大対数尤度を与える前記連続型変数を最小化する、請求項10に記載のコンピュータによって実施される方法。
前記数理最適化アルゴリズムが混合整数線形プログラムである、請求項10または11に記載のコンピュータによって実施される方法。
各候補アミノ酸配列にコストを割り当てるステップをさらに含み、
前記選択するステップは、前記選択された1つまたは複数のアミノ酸配列が、総コストが所定のしきい値予算よりも低くなるように、各候補アミノ酸配列に割り当てられる前記コストに基づいて制約される、請求項1から12のいずれか一項に記載のコンピュータによって実施される方法。
前記選択するステップは、ワクチン給送プラットフォームにおいて許可されるアミノ酸配列の最大量に基づいて制約される、請求項1から13のいずれか一項に記載のコンピュータによって実施される方法。
三部グラフを作成するステップであって、
第1のノードのセットが前記候補アミノ酸配列に相当し、
第2のノードのセットが免疫プロファイルの前記サンプル成分に相当し、
第3のノードのセットが前記集団についての前記代表的な免疫プロファイルに相当し、
前記第1のノードのセットと前記第2のノードのセットとの間のエッジの重みが免疫反応値であり、
前記第2のノードのセットと前記第3のノードのセットとの間のエッジの重みが、前記サンプル成分と各々の代表的な免疫プロファイルとの対応を表す、ステップをさらに含む、請求項1から14のいずれか一項に記載のコンピュータによって実施される方法。
前記免疫反応値が前記候補アミノ酸配列のアミノ酸部分配列に基づく対数尤度である、請求項1から15のいずれか一項に記載のコンピュータによって実施される方法。
前記特定するステップが各アミノ酸部分配列についての尤度値から最良尤度値を前記免疫反応値として選択するステップを含む、請求項1から16のいずれか一項に記載のコンピュータによって実施される方法。
前記1つまたは複数の候補アミノ酸配列が、コロナウイルス、好ましくはSARS-CoV-2ウイルスの1つまたは複数のタンパク質に含まれる、請求項1から17のいずれか一項に記載のコンピュータによって実施される方法。
前記代表的な免疫プロファイルが、HLAアレルのセット、腫瘍浸潤リンパ球の存在、免疫チェックポイントマーカの存在、低酸素マーカの存在、ケモカイン受容体の存在、およびヒトパピローマウイルスによる以前の感染を含む群から選択される1つまたは複数の免疫プロファイルを含んでもよい、請求項1から18のいずれか一項に記載のコンピュータによって実施される方法。
前記ワクチンに含める前記1つまたは複数のアミノ酸配列を前記選択するステップが、免疫プロファイルの前記サンプル成分と前記それぞれの代表的な免疫プロファイルとの対応にさらに基づく、請求項1から19のいずれか一項に記載のコンピュータによって実施される方法。
ワクチンを作製する方法であって、
請求項1から20のいずれか一項に記載の方法によって、予測される免疫原性候補アミノ酸配列のセットからワクチンに含める1つまたは複数のアミノ酸配列を選択するステップと、
ワクチンを作製するために、前記1つもしくは複数のアミノ酸配列を合成するかあるいは前記1つもしくは複数のアミノ酸配列を対応するDNAもしくはRNA配列としてコード化しならびに/または前記DNAもしくはRNA配列を細菌もしくはウイルス給送システムのゲノムに組み込むステップと
を含む、方法。
予測される免疫原性候補アミノ酸配列のセットからワクチンに含める1つまたは複数のアミノ酸配列を選択するためのシステムであって、少なくとも1つのメモリデバイスと通信する少なくとも1つのプロセッサを備え、前記少なくとも1つのメモリデバイスが、前記少なくとも1つのプロセッサに請求項1から20のいずれか一項に記載の方法を実施させるための命令を記憶する、システム。
請求項1から20のいずれか一項に記載の方法を実施するためにコンピュータ実行可能命令が記憶されたコンピュータ可読媒体。