CN113424264B - 用于生成个性化癌症疫苗的癌症突变选择 - Google Patents

用于生成个性化癌症疫苗的癌症突变选择 Download PDF

Info

Publication number
CN113424264B
CN113424264B CN201980075581.6A CN201980075581A CN113424264B CN 113424264 B CN113424264 B CN 113424264B CN 201980075581 A CN201980075581 A CN 201980075581A CN 113424264 B CN113424264 B CN 113424264B
Authority
CN
China
Prior art keywords
neoantigens
neoantigen
mutation
amino acids
ranking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980075581.6A
Other languages
English (en)
Other versions
CN113424264A (zh
Inventor
阿尔弗雷多·尼科西亚
埃莉萨·斯卡尔塞利
阿明·拉姆
圭多·莱昂尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nouscom AG
Original Assignee
Nouscom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nouscom AG filed Critical Nouscom AG
Publication of CN113424264A publication Critical patent/CN113424264A/zh
Application granted granted Critical
Publication of CN113424264B publication Critical patent/CN113424264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K39/00Medicinal preparations containing antigens or antibodies
    • A61K39/0005Vertebrate antigens
    • A61K39/0011Cancer antigens
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P35/00Antineoplastic agents
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/46Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
    • C07K14/47Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals
    • C07K14/4701Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals not used
    • C07K14/4748Tumour specific antigens; Tumour rejection antigen precursors [TRAP], e.g. MAGE
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K39/00Medicinal preparations containing antigens or antibodies
    • A61K2039/51Medicinal preparations containing antigens or antibodies comprising whole cells, viruses or DNA/RNA
    • A61K2039/53DNA (RNA) vaccination
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K39/00Medicinal preparations containing antigens or antibodies
    • A61K2039/555Medicinal preparations containing antigens or antibodies characterised by a specific combination antigen/adjuvant
    • A61K2039/55511Organic adjuvants
    • A61K2039/55516Proteins; Peptides
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Medicinal Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Library & Information Science (AREA)
  • Biochemistry (AREA)
  • Public Health (AREA)
  • Animal Behavior & Ethology (AREA)
  • Microbiology (AREA)
  • Oncology (AREA)
  • Veterinary Medicine (AREA)
  • Epidemiology (AREA)
  • Mycology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Pathology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Toxicology (AREA)
  • General Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)

Abstract

本发明涉及选择用于个性化疫苗的癌症新生抗原的方法。本发明还涉及构建携带用于个性化疫苗的新生抗原的载体或载体集合的方法。本发明还涉及包含个性化基因疫苗的载体或载体集合及所述载体在癌症治疗中的应用。

Description

用于生成个性化癌症疫苗的癌症突变选择
本发明涉及选择用于个性化疫苗的癌症新生抗原的方法。本发明还涉及构建携带用于个性化疫苗的新生抗原的载体或载体集合的方法。本发明还涉及包含个性化疫苗的载体或载体集合及所述载体在癌症治疗中的应用。
背景技术
几种肿瘤抗原已被鉴定并分为不同的类别:癌细胞系、组织分化抗原和衍生自突变的自身蛋白的新生抗原(Anderson等人,2012)。对自身抗原的免疫反应是否对肿瘤生长有影响仍是一个有争议的问题(Anderson等人的综述,2012)。相反,最近令人信服的证据支持以下观点,即肿瘤中表达基因的编码序列中的突变而产生的新生抗原是一种很有希望的抗癌疫苗靶点(Fritsch等人,2014)。
癌症新生抗原指仅存在于癌细胞而不存在于正常细胞上的抗原。新生抗原由肿瘤细胞的DNA突变产生,并被证明在T细胞,主要是通过CD8+T细胞介导的免疫反应中识别和杀死肿瘤细胞方面发挥着重要作用(Yarchoan等人,2017)。通常称为下一代测序技术(NGS)的大规模并行测序法的出现揭示了人类肿瘤的突变谱,它能以及时和廉价的方式确定癌症基因组的完整序列(Kandoth等人,2013)。最常见的突变类型是单核苷酸变异,肿瘤中发现的单核苷酸变异的中位数根据其组织学差异很大。由于患者之间通常很少共享突变,因此鉴定产生新生抗原的突变需要个性化的方法。
许多突变确实无法被免疫系统发现,因为肿瘤细胞没有加工/呈递潜在表位,或者因为免疫耐受性导致与突变序列反应的T细胞的清除。因此,在所有潜在的新生抗原中选择免疫原性最强的抗原是有利的,以定义由疫苗编码的理想数量,最后确定优化免疫原性的优选疫苗布局。此外,由单核苷酸变异产生的新生抗原以及由产生移位肽的插入/缺失突变产生的新生抗原都很重要,预期后者是特别具有免疫原性的。最近,在I期临床研究中评估了两种基于RNA或肽的不同个性化疫苗接种方法。得到的数据表明疫苗接种确实既可以扩增已有的新生抗原特异性T细胞,也可以在癌症患者中诱导更广泛的新T细胞特异性库。这两种方法的主要局限性是疫苗所针对的新生抗原的最大数量。根据其公布的数据,基于肽的方法的上限是20种肽,并且因为肽在某些情况下不能合成,没有在所有患者中达到上限。所述基于RNA的方法的上限甚至更低,因为他们在每种疫苗中仅包含10种突变(Sahin等人,2017)。
癌症疫苗治疗癌症的挑战是一次诱导出能够识别并消灭尽可能多的癌细胞的免疫T细胞的不同群体,以减少癌细胞“逃逸”T细胞反应而不被免疫反应识别的机会。因此,希望疫苗能编码大量的癌症特异性抗原,例如新生抗原。这与基于个体癌症特异性新生抗原的个性化基因疫苗方法特别相关。以优化成功的概率,疫苗应靶向尽可能多的新生抗原。此外,实验数据支持以下观点:患者体内有效的免疫原性新生抗原涵盖了患者MHC等位基因的广泛的预测亲和力(例如Gros等人,2016)。相反,大多数当前的优先排序方法都应用了亲和力阈值,例如经常使用的500nM限制,这可能会限制免疫原性新生抗原的选择。因此需要能够避免现有方法局限性(例如由于低预测亲和性而产生的排斥)的优先排序方法,并且需要允许个性化疫苗的疫苗接种方法,所述个性化疫苗针对大量且因此更广泛和更完整的一组或多组新生抗原。
发明内容
在第一方面,本发明提供了选择用于个性化疫苗的癌症新生抗原的方法,包括以下步骤:
(a)在从个体获得的癌细胞样本中确定新生抗原,其中每种新生抗原
-包含在编码序列中,
-在编码序列中包含至少一种突变,所述突变导致经编码的氨基酸序列的改变并且不存在于所述个体的非癌细胞样本中,而且
-由癌细胞样本中的编码序列的9个至40个,优选19至31个,更优选23至25个,最优选25个连续氨基酸组成,
(b)在编码序列内确定每种新生抗原的步骤(a)的每个所述突变的突变等位基因频率,
(c)(i)在所述癌细胞样本中,或
(ii)在与所述癌细胞样本的癌症类型相同的表达数据库中,
确定含有至少一种所述突变的每种编码序列的表达水平,
(d)预测新生抗原的MHC I类结合亲和力,其中
(I)从所述个体的非癌细胞样本确定HLA I类等位基因,
(II)对于(I)中确定的每个HLA I类等位基因,预测新生抗原的由8至15个,优选9至10个,更优选9个连续氨基酸组成的每个片段的MHC I类结合亲和力,其中每个片段包含由步骤(a)的突变引起的至少一种氨基酸改变,和
(III)具有最高MHC I类结合亲和力的片段决定了新生抗原的MHC I类结合亲和力,
(e)根据步骤(b)至(d)中确定的值,对每种新生抗原从最高值到最低值进行排序,产生第一排位列表、第二排位列表和第三排位列表,
(f)根据所述第一排位列表、第二排位列表和第三排位列表计算排位总和,并通过排位总和升序来对新生抗原进行排序,得到新生抗原的排位列表,
(g)从(f)中获得的新生抗原排位列表中,从最低的排位开始,选择30至240个,优选40至80个,更优选60个新生抗原。
在第二方面,本发明提供了用于构建编码根据本发明第一方面的新生抗原的组合的个性化载体以用作疫苗的方法,所述方法包含以下步骤:
(i)以至少10^5种至10^8种,优选10^6种不同组合对新生抗原列表排序,
(ii)生成每种组合的新生抗原连接区段的所有可能的对,其中每个连接区段在连接的任一侧包含15个相邻连续氨基酸,
(iii)预测连接区段中所有表位的MHC I类和/或MHC II类结合亲和力,其中仅检测载体设计所针对的个体中存在的HLA等位基因,以及
(iv)选择具有最小连接表位数量且IC50≤1500nM的新生抗原的组合,其中如果多个组合的连接表位的最小数量相同,则选择第一次遇到的组合。
在第三方面,本发明提供了编码根据本发明第一方面的新生抗原的列表或根据本发明第二方面的新生抗原的组合的载体。
在第四方面,本发明提供了分别编码根据本发明第一方面的新生抗原的不同组或根据本发明第二方面的新生抗原的组合的载体的集合,其中集合包含2至4个,优选2个载体,并且优选地,其中这些编码列表的一部分的载体中的插入物在氨基酸的数量上具有大约相等的大小。
在第五方面,本发明提供了根据本发明第三方面的载体或根据本发明第四方面的载体的集合,其用于癌症疫苗接种。
附图说明
以下将描述本说明书中所包含附图的内容。在此上下文中,请同时参阅上述和/或以下对本发明的详细描述。
图1:衍生自SNV的新生抗原的形成:(A)25mer新生抗原的形成,其突变位于中心,在上游和下游的侧翼为12个氨基酸;(B)包含多于一个突变的25mer新生抗原的形成和(C)当突变接近蛋白质序列的末端或起点时,少于25mer的新生抗原的形成。
图2A和图2B:衍生自由移码肽(FSP)产生的得失位的新生抗原的形成。该过程包含将FSP拆分为更小的片段,优选为25mer。
图3:生成来自三个单独的排位得分的RSUM排位列表的示意图描述。
图4:优化衍生自FSP的重叠的新生抗原长度的步骤的示意图描述。
图5:将K个(优选为60)新生抗原分成两个总长度大致相同的小列表的步骤的示意图描述。
图6:FSP片段合并的实例:实例1涉及由2个核苷酸缺失chr11:1758971_AC生成的FSP。四个新生抗原序列(FSP片段)合并为一个30个氨基酸长的新生抗原。实例2涉及由一个核苷酸插入chr6:168310205_-_T生成的FSP。两个新生抗原序列(FSP片段)合并为一个31个氨基酸长的新生抗原。
图7A和图7B:优先排序方法的验证:应用实施例1的优先排序方法对14位癌症患者的突变进行排序。该图显示了已在实验上证明可诱导免疫反应的突变在排位列表中的位置。用圆圈(图7A)或正方形(图7B)表示排位,包含患者NGS-RNA数据的RSUM排位(图7A)或不包含患者NGS-RNA数据的RSUM排位(图7B)。
图8:编码62个新生抗原的单个GAd载体或两个GAd载体的免疫原性。与分别编码31个新生抗原的两个共施用GAd载体(GAd-CT26-1-31+GAd-CT26-32-62)相比或与在2个表达组件中分别编码31个新生抗原的一个GAd载体(GAd-CT261-31&32-62)相比,在单个表达组件中编码所有62个新生抗原的一个GAd载体(GAd-CT26-1-62)表达出较弱的免疫反应。使用(A)5×10^8vp的GAd-CT26-1-62或两种载体GAd-CT26-1-31+GAd-CT26-32-62(每种5×10^8vp)的共施用和(B)5×10^8vp的GAd-CT26-1-62或5×10^8vp的双组件载体GAd-CT26dual 1-31&32-62,通过肌肉注射免疫BalbC小鼠(6只/组)。用体外IFNγELISpot检测接种疫苗的小鼠脾细胞在免疫反应高峰时(疫苗接种后2周)的T细胞应答。应答通过使用2个肽库评估,每个肽库由由疫苗构建体编码的31个肽组成(库1-31由新生抗原1至31组成;库32-62由新生抗原32至62组成)。每个聚新抗原载体都包含被添加到已装配的聚新生抗原N端的T细胞增强子序列(TPA),并在C端带有流感HA标签,用于监测表达。
具体实施方式
在下文详细描述本发明之前,应该理解,本发明不限于本文所描述的特定方法、方案和试剂,因为这些可能有所改变。还应该理解的是,本文使用的术语仅仅是出于描述特定实施方式的目的,而不是为了限制本发明的范围,本发明的范围将仅由所附权利要求来限制。除非另外限定,本文所使用的所有技术和科学术语都具有与本发明所属技术领域普通技术人员通常理解的含义相同的含义。
优选地,这里使用的术语的定义见“生物技术术语的多语言词汇表:(IUPAC建议)”,Leuenberger,H.G.W,Nagel,B.and Klbl,H.eds.(1995),Helvetica Chimica Acta,CH-4010Basel,Switzerland)。
整个说明书及随后的权利要求书中,除非上下文需要否则单词“包含”和其变体,将被理解为意味着收录所陈述的整体或步骤或整体组或步骤组但不排除任何其他整数或步骤或整数组或步骤组。在下面的章节中,将更详细地定义本发明的不同方面。这些定义的每个方面可以与任何其他一个或多个方面组合,除非有相反的明确指示。特别地,任何表明为任选的、优选的或有利的特性,均可与表明为任选的、优选的或有利的任何其他特性相结合。
本说明书的文本中引用了几篇文献。这里引用的每一篇文献(包括所有专利、专利申请、科学出版物、制造商的技术规范、说明书等),无论是上文还是下文,通过引用整体并入本文。不会将本文内容解释为承认本发明由于在先发明而无权提前公开。本文引用的某些文献的特征在于“通过引用并入”。如果这种合并引用的定义或教导与本说明书所述的定义或教导之间存在冲突,则以本说明书的文本为准。
下面将描述本发明的元素。这些元素与具体实施方案一起列出;但是,应当理解它们可以以任何方式和任意数量组合以创建附加实施方案。各种描述的实施例和优选的实施方案不应解释为将本发明仅限于明确描述的实施方案。本说明书应理解为支持并涵盖将明确描述的实施方案与任意数量的公开和/或优选的元素相结合的实施方案。此外,除非上下文另有说明,本申请中所描述的所有元素的任何排列和组合都应被认为是由本申请的说明书公开的。
定义
下面提供了本说明书中常用术语的一些定义。在说明书的其余部分中,这些术语在其使用的每种情况下将分别具有定义的含义和优选的含义。
正如在说明书和所附的权利要求书中所使用的,元素前无数量词表示包括单数形式和复数形式,除非文中另有明确规定。
术语“大约”当与数值连用时,旨在将数值包含在一个范围内,该范围的下限比所指示的数值小5%,上限比所指示的数值大5%。
在本说明书的上下文中,术语“主要组织相容性复合体”(MHC)以其在细胞生物学和免疫学领域已知的含义使用;它是指显示蛋白质特定部分(肽)的细胞表面分子,也称为蛋白质的表位。主要有两类MHC分子:I类和II类。在MHC I类中,可以根据其多态性分成两组:a)具有相应多态性的HLA-A、HLA-B和HLA-C基因的典型(MHC-Ia),和b)具有相应较少多态性的HLA-E、HLA-F、HLA-G和HLA-H基因的非典型(MHC-Ib)。
MHC I类重链分子以与非MHC分子β2-微球蛋白的单元相连的α链的形式出现。α链从N端到C端方向包含一个信号肽、三个胞外域(α1-3,α1位于N端)、一个跨膜区和一个C端胞质尾区。被展示或呈递的肽被肽结合槽保持在α1/α2结构域的中心区域。
术语“β2-微球蛋白域”指MHC I类异质二聚体分子一部分的非MHC分子。换句话说,它构成了MHC I类异质二聚体的β链。
典型MHC-Ia分子的主要功能是提供肽作为适应性免疫反应的一部分。MHC-Ia分子是一种三聚体结构,包含具有三个胞外域(α1、α2和α3)的膜结合重链,所述胞外域与β2-微球蛋白(β2m)和衍生自自身蛋白质、病毒或细菌的小分子肽非共价结合。α1和α2域是高度多态的,并形成产生肽结合槽的平台。与保守的α3结构域并列的是跨膜域,其后是胞内的胞质尾区。
为了启动免疫反应,典型MHC-Ia分子呈递特定的肽,由CD8+细胞毒性T淋巴细胞(CTLs)上的TCR(T细胞受体)识别,而自然杀伤细胞(NK)上的NK细胞受体识别肽基序,而不是单个肽。在正常生理条件下,MHC-Ia分子以异源三聚体复合物的形式存在,负责向CD8和NK细胞呈递肽。
术语“人类白细胞抗原”(HLA)以其在细胞生物学和生物化学领域已知的含义使用;它是指编码人类MHC I类蛋白的基因位点。三种主要的典型MHC-Ia分子是HLA-A、HLA-B和HLA-C,所有这些基因都有不同数量的等位基因。密切相关的等位基因在某个等位基因的亚群中组合。所有已知的HLA基因及其相应等位基因的全部或部分序列对本领域技术人员是已知的,可在专业数据库例如IMGT/HLA(http://www.ebi.ac.uk/ipd/imgt/hla/)获得。
人类具有MHC I类分子,包括典型(MHC-Ia)HLA-A、HLA-B和HLA-C,以及非典型(MHC-Ib)HLA-E、HLA-F、HLA-G和HLA-H分子。这两类在肽结合、呈递和诱导T细胞反应的机制上是相似的。典型MHC-Ia最显著的特征是其高多态性,而非典型MHC-Ib通常是非多态性的,而且与它们的MHC-Ia对应物相比,趋于表现出更受限制的表达模式。
HLA命名法由基因座的特定名称(例如HLA-A),后跟等位基因家族血清学抗原(例如HLA-A*02)和按编号和DNA序列确定的顺序指定的等位基因亚型组成(例如HLA-A*02:01)。使用第三组数字(例如HLA-A*02:01:01)区分仅因编码序列中同义核苷酸替换(也称为沉默或非编码替换)而不同的等位基因。使用第四组数字(例如HLA-A*02:01:01:02L)区分仅因在内含子中或位于外显子和内含子侧翼的5'或3'非翻译区中的序列多态性不同而不同的等位基因。
MHC I类和II类结合亲和力预测;本领域已知的预测MHC I类或II类表位以及预测MHC I类和II类结合亲和力的方法的实例有Moutaftsi等人,2006;Lundegaard等人,2008;Hoof等人,2009;Andreatta和Nielsen,2016;Jurtz等人,2017。优选地使用Andreatta和Nielsen,2016所述的方法,如果该方法不覆盖患者的MHC等位基因之一,则使用Jurtz等人,2017所述的替代方法。
通过以下查询条件,可以在IEDB数据库(https://www.iedb.org)中识别与人类自身免疫反应相关的基因和表位和相关的MHC等位基因:表位类别为“线性表位”,宿主类别为“人类”,疾病类被为“自身免疫性疾病”。
术语“T细胞增强子”在遗传疫苗的背景下指多肽或多肽序列,当与抗原序列或肽融合时,增加T细胞对新抗原的诱导。T细胞增强子的实例是恒定链序列或其片段;组织型纤溶酶原激活物前导序列,其任选地包含六个额外的下游氨基酸残基;PEST序列;细胞周期蛋白破坏框;泛素化信号;类泛素化信号。T细胞增强子的具体实例是SEQ ID NO 173至182的那些。
术语“编码序列”是指被转录并翻译成蛋白质的核苷酸序列。编码蛋白质的基因是编码序列的一个特定实例。
术语“等位基因频率”指特定等位基因在例如种群或细胞种群的多个元素内特定基因座处的相对频率。等位基因频率用百分数或比率表示。例如编码序列中突变的等位基因频率将由突变位置上的突变读段与非突变读段的比率决定。其中在突变的位置突变的等位基因读段为2而未突变的等位基因读段为18的突变等位基因频率可以确定突变等位基因频率为10%。移码肽产生的新生抗原的突变等位基因频率是产生移码肽的插入或缺失突变的频率,例如FSP内所有突变的氨基酸拥有相同的突变等位基因频率,即引起插入/缺失突变的移码的频率。
术语“新生抗原”指在正常的非癌细胞中不存在的癌症特异性抗原。
术语“癌症疫苗”在本发明的上下文中指设计用来诱导对癌细胞免疫反应的疫苗。
术语“个性化疫苗”指包含针对特定个体的抗原序列的疫苗。所述个性化疫苗对使用新生抗原的癌症疫苗尤其感兴趣,因为许多聚新生抗原对于个体中的特定癌细胞具有特异性。
术语编码序列中的“突变”在本发明的上下文中指将癌细胞的核苷酸序列与非癌细胞的核苷酸序列进行比较时,编码序列的核苷酸序列发生的改变。不导致编码肽的氨基酸序列发生改变的核苷酸编码改变,例如“沉默”突变,在本发明的上下文中不认为是突变。可导致氨基酸序列改变的突变类型不仅限于非同义单核苷酸变异(SNV),其中编码三联体的单核苷酸发生改变导致翻译序列中出现不同的氨基酸。可导致氨基酸序列改变的突变的另一个例子是插入/缺失(得失位)突变,其中将一个或多于一个核苷酸插入编码序列或从编码序列中删除。特别相关的是插入缺失突变,其导致读框的移动,如果插入或删除了数量不能被三整除的多个核苷酸,则会发生这种变化。这种突变引起突变下游氨基酸序列的重大变化,称为移码肽(FSP)。
术语“香农熵”指与分子如蛋白质的构象数相关的熵。本领域已知的计算香农熵的方法有Strait和Dewey,1996和Shannon,1996。对于多肽,香农熵可以计算如下:SE=(-∑pc(aai)*log(pc(aai)))/N,其中pc(aai)是多肽中氨基酸i的频率,求和是计算所有20种不同氨基酸的和,N是多肽的长度。
术语“表达组件”用于本发明的上下文中指至少含有一种待表达的核酸序列的核酸分子,例如选择编码了本发明的新生抗原或其一部分的核酸,其与转录和翻译控制序列可操作地相连。优选地,表达组件包含用于有效表达给定基因的顺式调控元件,例如启动子、起始位点和/或聚腺苷酸位点。优选地,表达组件包含病人细胞中核酸表达所需的所有附加元素。典型的表达组件因此包含与要表达的核酸序列可操作连接的启动子、转录本中高效聚腺苷酸化所需的信号、核糖体结合位点和翻译终止点。所述组件的附加元素可能包括,例如增强子。表达组件优选地在结构基因的下游也包含一个转录终止区,以提供有效的终止。转录终止区可以从启动子序列相同的基因中获得,也可以从不同的基因中获得。
“IC50”值是指物质的半抑制浓度,因此是衡量物质抑制特定生物或生化功能的有效量度。所述值通常使用摩尔浓度表示。分子的IC50可以通过功能拮抗实验确定,即通过构建剂量-反应曲线和检测被检测分子在不同浓度下的抑制作用来测定分子的IC50。另外,也可以进行竞争结合分析以确定IC50值。通常,本发明的新生抗原片段的IC50值为1500nM至1pM,更优选地1000nM至10pM,甚至更优选地500nM至100pM。
术语“大规模并行测序”指高通量核酸测序方法。大规模并行测序方法也被称为是下一代测序技术(NGS)或第二代测序技术。本领域已知许多不同的大规模并行测序方法,其设置和使用的化学方法不同。然而,所有这些方法都有一个共同之处,即并行进行大量的测序反应以提高测序速度。
术语“每千碱基百万转录本”(Transcripts Per Kilobase Million,TPM)指在RNA样本的大规模并行测序中使用的以基因为中心的度量,可按测序深度和基因长度标准化。它的计算方法是将读段数除以每个基因的以千碱基为单位的长度,得到每千碱基读段(RPK)。将样本中的所有RPK值除以100万,得到“每百万比例系数”。用RPK值除以“每百万比例系数”,得到每个基因的TPM。
携带突变的基因的总体表达水平以TPM表示。优选地,然后根据突变位置处的突变和非突变的读段数量确定“突变特异性的”表达值(corrTPM)。
修正的表达值corrTPM通过以下公式计算:corrTPM=TPM*(M+c)/(M+W+c)。其中M是跨越产生新生抗原的突变位置的读段数量,W是不包含跨越产生新生抗原的突变位置的突变的读段数量。数值c是大于0,优选0.1的常数。如果M和/或W是0,则数值c特别重要。
实施方案
以下将更详细地定义本发明的不同方面。这些定义的每个方面可以与任何其他一个或多个方面组合,除非有相反的明确指示。特别地,任何表明为优选的或有利的特性,均可与表明为优选的或有利的任何其他特性相结合。
在第一方面,本发明提供了选择用于个性化疫苗的癌症新生抗原的方法,其包括以下步骤:
(a)在从个体获得的癌细胞样本中确定新生抗原,其中每种新生抗原
-包含在编码序列中,
-在编码序列中包含至少一种突变,所述突变导致经编码的氨基酸序列的改变并且不存在于所述个体的非癌细胞样本中,和
-由癌细胞样本中的编码序列的9个至40个,优选19至31个,更优选23至25个,最优选25个连续氨基酸组成,
(b)在编码序列内确定每种新生抗原的步骤(a)的每个所述突变的突变等位基因频率,
(c)(i)在所述的癌细胞样本中,或
(ii)在与所述癌细胞样本的癌症类型相同的表达数据库中,
确定含有至少一种所述突变的每种编码序列的表达水平,
(d)预测新生抗原的MHC I类结合亲和力,其中
(I)从所述个体的非癌细胞样本确定HLA I类等位基因,
(II)对于(I)中确定的每个HLA I类等位基因,预测新生抗原的由8至15个,优选9至10个,更优选9个连续氨基酸组成的每个片段的MHC I类结合亲和力,其中每个片段包含由步骤(a)的突变引起的至少一种氨基酸改变,和
(III)具有最高MHC I类结合亲和力的片段决定了新生抗原的MHC I类结合亲和力,
(e)根据步骤(b)至(d)中确定的值,对每种新生抗原从最高值到最低值进行排序,产生第一排位列表、第二排位列表和第三排位列表,
(f)根据所述第一排位列表、第二排位列表和第三排位列表计算排位总和,并通过排位总和升序来对新生抗原进行排序,得到新生抗原的排位列表,
(g)从(f)中获得的新生抗原排位列表中,从最低的排位开始,选择30至240个,优选40至80个,更优选60个新生抗原。
许多突变确实无法被免疫系统发现,因为肿瘤细胞没有加工/呈递潜在表位,或者因为免疫耐受性导致与突变序列反应的T细胞的清除。因此,在所有潜在的新生抗原中选择免疫原性最强的新生抗原是有利的。理想情况下,新抗原必须存在于大量的癌细胞中,以足够的数量表达,并有效地呈递给免疫细胞。
通过选择含有癌症特定突变的新生抗原,其中新生抗原有特定突变等位基因频率,大量表达并预测其与MHC分子有高结合亲和力,诱导免疫反应的机会显著增加。本发明出人意料地发现,使用考虑不同参数的优先排序方法,这些参数可以最有效地用于选择合适的新生抗原,引起增强的免疫反应。重要的是,本发明的方法还考虑了其中等位基因频率、表达水平或经预测的MHC结合亲和力不属于最高观测值的新生抗原。例如,具有高表达水平和高突变等位基因频率但是相对较低的经预测的MHC结合亲和力的新生抗原,仍然可以包括在选定的新生抗原列表中。
因此本发明的方法没有使用甄选过程中通常使用的截止条件,而是考虑到根据一个参数具有很高预测适合性的新生抗原不会因为其他参数的次优适合性而被简单地排除在列表之外。这与参数仅略低于特定的截止条件的新生抗原特别相关。
编码序列(例如被转录和翻译的基因组核酸序列)中的任何仅存在于个体的癌细胞而不存在于同一个体的健康细胞中的突变,都是作为免疫原性(例如能引起免疫反应的)新生抗原的潜在兴趣对象。编码序列的突变也必须导致翻译的氨基酸序列的改变,例如仅存在于核酸层面而不改变氨基酸序列的沉默突变因此是不合适的。重要的是,不管其确切类型是什么(单个核苷酸的改变、单个或多个核苷酸的插入或缺失等),突变会导致翻译蛋白质的氨基酸序列的改变。在本说明书的上下文中,认为每个仅存在于改变的氨基酸序列中而不存在于非癌细胞中存在的编码基因产生的氨基酸序列中的氨基酸是突变氨基酸。例如,编码序列中的突变例如导致移码肽的插入或缺失突变应被认为是突变的氨基酸,其会导致肽中的每个氨基酸被一个移位的读框编码。
编码序列中的突变原则上可由任何从个体获得样本的DNA测序方法识别。获得识别个体编码序列突变所需的DNA序列的优选方法是大规模并行测序方法。
编码序列中突变的等位基因频率(例如在突变位置的非突变序列与突变序列之比)也是用于疫苗的新生抗原的重要因素。具有高等位基因频率的新生抗原存在于大量的癌细胞中,导致含有这些突变的新生抗原成为一种有希望的疫苗目标。
同样,癌细胞内新生抗原的表达量也很重要。癌细胞中新生抗原的表达越高,该新生抗原就越合适,对该细胞产生充分免疫应答的机会就越大。本发明可以以不同的方法来评估新生抗原的表达水平。新生抗原的表达可以直接在癌细胞样本中评估。可以通过优选地代表整个转录物组的不同方法来测量表达水平,此类各种方法是本领域技术人员已知的。优选地,使用快速、可靠、低成本的方法来测量转录物组。此类的一种优选方法是大规模并行测序。
另外,如果没有直接的测量方法,例如由于技术或经济原因,可以使用表达数据库。技术人员已知含有不同癌症种类的基因表达数据的可用表达数据库。所述数据库的典型的非限制性实例是TCGA(https://portal.gdc.cancer.gov/)。可以在这些数据库中搜索包含在本方法的步骤(a)中识别的突变的基因在与设计疫苗的个体相同类型的肿瘤中的表达,并可用于确定表达值。
更重要的是选定的新生抗原能通过癌细胞的MHC分子有效地呈递给免疫细胞。本领域已知的有多种预测肽与MHC I类(和II类)分子结合亲和力的方法(Moutaftsi等人,2006;Lundegaard等人,2008;Hoof等人,2009;Andreatta和Nielsen,2016;Jurtz等人,2017)。由于MHC分子是高度多态的蛋白质组并在个体之间有显著差异,确定MHC结合亲和力对于个体细胞上存在的MHC分子类型是很重要的。MHC分子由高度多态的HLA基因组编码。因此本方法使用步骤(a)利用的DNA测序结果识别编码序列中的突变,以识别个体中存在的HLA等位基因。对于个体中被识别的HLA等位基因中的每个MHC分子,确定其与新生抗原的MHC结合亲和力。对于这些目标,新生抗原的氨基酸序列通过编码序列的电脑模拟翻译来确定。得到的新生抗原氨基酸序列进一步被分为由8个至15个,优选地9个至10个,更优选地9个连续氨基酸组成的片段,其中这些片段必须含有至少一个新生抗原中的突变氨基酸。片段的尺寸受MHC分子所能呈递的肽尺寸的限制。预测每一个片段的MHC结合亲和力。MHC结合亲和力通常是以半抑制浓度(IC50,单位[nM])测量。因此,IC50值越低,则肽与MHC分子的结合亲和力越高。MHC结合亲和力最高的的片段决定了衍生自片段的新生抗原的MHC结合亲和力。
本发明的方法还使用步骤(b)至(d)中确定的参数,例如新生抗原的突变等位基因频率、表达水平和经预测的MHC I类结合亲和力,通过对这些参数应用优先排序方法来选择最合适的新生抗原。因此,所述参数在排位列表中分类排序。突变等位基因频率最高的新生抗原列为第一排位列表中的第一位,例如排位1。突变等位基因频率第二高的新生抗原列为第一排位列表中的第二位,以此类推,直到将所有已被识别的新生抗原列入第一排位列表中。
类似地每个编码序列的表达水平从最高到最低排序,表达水平最高的新生抗原列为排位1,表达水平第二高的新生抗原列为排位2,以此类推,直到所有已被识别的新生抗原列入第二排位列表中。
新生抗原的MHC I类结合亲和力从最高到最低排序,MHC I类结合亲和力最高的新生抗原列为排位1,MHC I类结合亲和力第二高的新生抗原列为排位2,以此类推,直到所有已被识别的新生抗原列入第三排位列表中。
如果任意新生抗原的等位基因频率、表达水平和/或MHC I类结合亲和力与另一个新生抗原相同,则这两个新生抗原在相应的排位列表中标记为相同的排位。
本方法进一步使用了优先排序方法,其中通过计算三个排位列表的排位总和来考虑所有三种排序。例如,新生抗原在第一排位列表中为排位3,在第二排位列表中为排位13,在第三排位列表中为排位2,则其排位总和为18(3+13+2)。对每个新生抗原的排位总和计算完成之后,根据排位总和对他们进行排序,其中排位总和最小的列为排位1,以此类推,形成新生抗原的排位列表。具有相同排位总和的新生抗原在新生抗原的排位列表中列为相同的排位。
列表中新生抗原的最终数量取决于每个患者中检测到的突变数量。疫苗中使用的新生抗原的数量受到递送疫苗的载体的限制。例如,如果将单个病毒载体用作递送载体,如基因疫苗的情况,则该载体的最大插入片段大小将限制每个载体中可以使用的新生抗原的数量。
因此,本发明的方法在排序后的新生抗原列表中从具有最低排位(例如最小的排位号,排位1)的新生抗原开始,选择25至250、30至240、30至150、35至80,优选55至65,更优选地60个新生抗原。如果选择的新生抗原存在于一组中(例如单价疫苗的单个载体),则选择25至80、30至70、35至70、40至70、55至65,优选60个新生抗原。然而,不包括在第一组中的新生抗原可以由其他病毒载体编码,用于基于至多4种病毒载体的多价疫苗接种。
在本发明第一方面的优选的实施方案中,使用样本的大规模并行DNA测序进行步骤(a)和(d)(I)。
在本发明第一方面的优选的实施方案中,使用样本的大规模并行DNA测序进行步骤(a)和(d)(I),并且在经识别的突变的染色体位置处的读段的数量为:
-癌细胞样本中至少2个,优选地至少3个、4个、5个或6个,
-非癌细胞样本中2个或少于2个,例如为2个、1个或0个,优选0个。
在本发明第一方面的优选的可选的实施方案中,癌细胞样本中在经识别的突变的染色体位置处的读段的数量高于非癌细胞样本,其中样本间的差异是统计学显著的。可以通过本领域技术人员已知的许多统计测试来确定两组之间的统计学显著差异。一个合适的这种统计测试的实例是费希尔精确检验(Fisher's exact test)。对于本发明的目的,如果p值小于0.05,则认为两组是彼此不同的。
这些标准适用于进一步选择新生抗原,其中经识别的突变以极高的技术可靠性检测得出。
在本发明第一方面的优选的实施方案中,本方法还包括作为步骤(d)的附加步骤或替换步骤的步骤(d'),其中步骤(d')包括:
·在所述个体的非癌细胞样本中确定HLA II类等位基因,
·预测新生抗原的MHC II类结合亲和力,其中
-对每个确定的HLA II类等位基因,预测针对新生抗原的11至30个,优选15个连续氨基酸的每个片段的MHC II类结合亲和力,其中每个片段包含由步骤(a)中的突变产生的至少一种经突变的氨基酸,和
-具有最高MHC II类结合亲和力的片段决定了新生抗原的MHCII类结合亲和力;
其中MHC II类结合亲和力从最高到最低排位,得到第4个排位列表,包含在步骤(f)的排位总和中。
在该实施方案中,增加了一个可替换的或附加的选择参数。由于MHC II类分子呈递的肽在尺寸上大于MHC I类肽,预测MHC II类结合亲和力稍大。MHC II类结合亲和力也按照结合亲和力从最大到最小的顺序排序,其中MHC II类结合亲和力最大的新生抗原列为排位1,以此类推,直到所有已被识别的新生抗原列入第四排位列表中。
当将MHC II类结合亲和力用作一个附加的选择参数时,将第四列表额外包括在排位总和计算中。当将MHC II类结合亲和力用作步骤(d)MHC I类结合亲和力的替换,步骤(f)的排位总和只计算第一排位列表、第二排位列表和第四排位列表。
在本发明第一方面的优选的实施方案中,步骤(a)的至少一个突变是单核苷酸变异(SNV)或是产生移码肽(FSP)的插入/缺失突变。
在本发明第一方面的优选的实施方案中,其中突变是SNV,并且新生抗原具有步骤(a)中定义的总尺寸并且由突变产生的氨基酸组成,所述突变产生的氨基酸的两侧各有若干相邻连续氨基酸,其中除非编码序列在任一侧不包含足够数量的氨基酸,否则每一侧的数量相差不超过一个氨基酸,其中新生抗原具有步骤(a)中定义的总尺寸。优选地由SNV产生的突变氨基酸位于新生抗原的“中央”(例如两侧有相同数量的氨基酸)。这为突变出现在表位的起始端和末端提供了相等的可能性。因此新生抗原应选择大体相同(例如相差不超过一个)数量的周围氨基酸,所述周围氨基酸是由突变氨基酸每一侧的编码序列产生的。
在本发明第一方面的优选的实施方案中,其中突变产生了FSP,每个由突变引起的单个氨基酸改变产生了具有步骤(a)中定义的总尺寸的新生抗原并且所述新生抗原组成为:
(i)所述由突变引起的单个氨基酸改变和7个至14个,优选8个N端相邻连续氨基酸,和
(ii)在任一侧与步骤(i)的片段相邻的若干连续氨基酸,其中除非编码序列在任一侧不包含足够数量的氨基酸,否则每一侧的数量相差不超过一个氨基酸,
其中预测步骤(i)的片段的步骤(d)的MHC I类结合亲和力和/或步骤(d')的MHCII类结合亲和力。
FSP的每个突变氨基酸定义一个不同的新生抗原。每个新生抗原均由突变的氨基酸和比用于确定MHC I类结合亲和力的片段(例如7个至14个氨基酸)少一个氨基酸的若干氨基酸组成,这些片段位于突变氨基酸的N端。新生抗原进一步由衍生自以下编码序列的若干连续氨基酸组成,该编码序列由步骤(i)的新生抗原片段的序列和编码序列中的连续序列形成。步骤(i)的新生抗原片段周围的氨基酸数量在任一侧仅相差一个,其中新生抗原具有步骤(a)中定义的总尺寸。步骤(i)的新生抗原片段用于确定MHC I类/II类结合亲和力。
例如,在翻译的编码序列的相对位置20上的突变氨基酸将定义新生抗原片段,该新生抗原片段包含位置12至20的8个连续氨基酸的连续氨基酸序列(例如步骤(i)的片段)。根据步骤(ii),25个氨基酸的完整的新生抗原序列由4个至28个氨基酸组成。将由9个氨基酸组成的位置12至20的新生抗原片段用作确定MHC结合亲和力。
在本发明第一方面的优选的实施方案中,在癌细胞样本中由步骤(b)确定的新生抗原的突变等位基因频率为至少2%,优选为至少5%,更优选为至少10%。
在本发明第一方面的优选的实施方案中,步骤(g)还包括从新生抗原的排位列表中去除来自与自身免疫性疾病相关的基因的新生抗原。本领域技术人员可以从公共数据库中得知与自身免疫性疾病相关的新生抗原。所述数据库的一个实例是IEDB数据库(www.iedb.org)。如果携带突变的基因属于IEDB数据库中与自身免疫性疾病相关的基因之一,则可以在基因水平上排除新生抗原候选物,或者,以不太严格的方式,如果不仅患者的已知与自身免疫有关的基因发生突变,而且患者的MHC等位基因之一与IEDB数据库中收录的与所描述的自身免疫现象有关的人类自身免疫性疾病表位的等位基因相同,则可以在基因水平上排除新生抗原候选物。
在优选的实施方案中,如果数据库为新生抗原与自身免疫性疾病的关联指定了特定的MHC I类等位基因,且在步骤(d)(I)的个体中没有发现相应的HLA等位基因,则不将与自身免疫性疾病相关的新生抗原从排序的新生抗原列表中去除。
在本发明第一方面的优选的实施方案中,步骤(g)还包含从新生抗原的所述排位列表中去除其氨基酸序列的香农熵值低于0.1的新生抗原。
在本发明第一方面的优选的实施方案中,通过大规模并行转录组测序确定步骤(c)(i)中所述编码基因的表达水平。
在本发明第一方面的优选的实施方案中,步骤(c)(i)中确定的表达水平是以按下式计算得出的修正的每千碱基百万转录本(corrTPM)值确定的:
其中M是跨越步骤(a)的突变位置的包含突变的读段数量,W是跨越步骤(a)的突变位置的不包含突变的读段数量,TPM是包含突变的基因的每千碱基百万转录本值,c是大于0,优选0.1的常数。
在本发明第一方面的优选的实施方案中,步骤(f)中的排位总和是加权排位总和,其中将步骤(a)中确定的新生抗原的数量加至:
·第三排位列表中每个新生抗原的排位值上,其中步骤(d)的MHC I类结合亲和力的预测结果为IC50值高于1000nM,和/或
·在第四排位列表中每个新生抗原的排位值上,其中步骤(d')的MHC II类结合亲和力的预测结果为IC50值高于1000nM。
MHC结合亲和力的这种加权通过加入排位而惩罚非常低的MHC I类和/或II类结合亲和力。
在本发明第一方面的优选的实施方案中,步骤(f)中的排位总和是加权排位总和,其中当步骤(c)(i)采用大规模并行转录组测序时,步骤(f)中的排位总和乘以加权因子(WF),其中WF是:
·1,条件是突变的映射转录组读段的数量>0,
·2,条件是突变的映射转录组读段的数量是0,且未突变序列的映射读段的数量是0,且每百万转录本(TPM)值是至少0.5,
·3,条件是突变的映射转录组读段的数量是0,且未突变序列的映射读段的数量是>0,且每百万转录本(TPM)值是至少0.5,
·4,条件是突变的映射转录组读段的数量是0,且未突变序列的映射读段的数量是0,且每百万转录本(TPM)值是<0.5,或
·5,条件是突变的映射转录组读段的数量是0,且未突变序列的映射读段的数量>0,且每百万转录本(TPM)值是<0.5。
当测序结果质量较差(例如映射读段较低)和/或表达值(例如TPM值)低于某一阈值时,加权矩阵会惩罚某些新生抗原。与对单个参数使用截止值相比,这种对特定参数的加权(例如优先排序)提供了具有更好免疫原性的新生抗原,而对单个参数使用截止值的方法会因为某一个参数的低适合性而排除特定的新生抗原,即使其他参数表明新生抗原是合适的。
在本发明第一方面的优选的实施方案中,步骤(g)包含任选的选择过程,其中新生抗原从新生抗原的排位列表中选择,从最低排位开始,直到达到所有选择的新生抗原的总氨基酸长度的设定最大尺寸,其中每种载体的最大尺寸是1200个至1800个,优选1500个氨基酸。所述过程在多价疫苗方案中可以重复进行,其中将以上指定的最大尺寸应用于采用多价方案的每种载体。例如,基于4种载体的多价方案可以允许例如6000个氨基酸的总限制。本实施方案考虑了某一递送载体允许的新抗原的最大尺寸。因此,从排位列表中选择的新生抗原的数量不是由新生抗原的数量决定,而是考虑到了新生抗原的尺寸。抗原排位列表中的许多小的新生抗原将允许在所选抗原的列表中包括更多的抗原。
在本发明第一方面的优选的实施方案中,如果两个或多于两个新生抗原包含重叠氨基酸序列区段,则它们合并成一个新生抗原。在某些情况下,新生抗原可能包含重叠氨基酸序列。这在FSP衍生的新生抗原中尤其常见。为了避免冗余的重叠序列,新生抗原被合并成单个新的新生抗原,新的新生抗原由合并后的新生抗原的非冗余部分组成。合并的新的新生抗原可以比本发明第一方面的步骤(a)中定义的尺寸大,取决于合并的新生抗原的数量和重叠的程度。
在本发明第一方面的优选的实施方案中,所述个性化疫苗是个性化基因疫苗。术语“基因疫苗”是“DNA疫苗”的同义词,指的是使用遗传信息作为疫苗并且接种对象的细胞产生了疫苗直接针对的抗原。
在本发明第一方面的优选的实施方案中,个性化疫苗是个性化癌症疫苗。
在第二方面,本发明提供了用于构建编码根据本发明第一方面的新生抗原的组合的个性化载体以用作疫苗的方法,其包括以下步骤:
(i)以至少10^5种至10^8种,优选10^6种不同组合对新生抗原列表排序,
(ii)生成每种组合的新生抗原连接区段的所有可能的对,其中每个连接区段在连接的任一侧包含15个相邻连续氨基酸,
(iii)预测连接区段中所有表位的MHC I类和/或MHC II类结合亲和力,其中仅检测所设计的载体针对的个体中存在的HLA等位基因,和
(iv)选择具有最小连接表位数量最少且IC50≤1500nM的新生抗原的组合,其中如果多个组合的连接表位的最小数量相同,则选择第一次遇到的组合。
可以将根据本发明第一方面的所选新生抗原的列表排列为单个的组合的新生抗原。单个新生抗原连接的连接处可以产生新的表位,这会导致与癌细胞上存在的抗原表位无关的不需要的脱靶效应。因此,如果由单个新生抗原连接产生的表位具有较低的免疫原性,则其是有利的。为这些目的,新生抗原以不同的顺序排列以形成不同的连接表位,并预测这些连接表位的MHC I类和II类结合亲和力。选择具有连接表位数量最少且IC50值≤1500nM的组合。所选新生抗原的不同组合的数量主要受到可用计算能力的限制。使用的计算资源和所需精度之间的折衷方案是:使用10^5种至10^8种,优选10^6种不同的新生抗原的组合,其中预测每种新生抗原连接的连接表位的MHC I类和/或II类结合亲和力。
在可替代的第二方面,本发明提供了用于构建编码的新生抗原的组合的个性化载体以用作疫苗的方法,其包括以下步骤:
(i)以至少10^5种至10^8种,优选10^6种不同组合对新生抗原列表排序,
(ii)生成每种组合的新生抗原连接区段的所有可能的对,其中每个连接区段在连接的任一侧包含15个相邻连续氨基酸,
(iii)预测连接区段中所有表位的MHC I类和/或MHC II类结合亲和力,其中仅检测所设计的载体针对的个体中存在的HLA等位基因,和
(iv)选择具有最小连接表位数量且IC50≤1500nM的新生抗原的组合,其中如果多个组合的连接表位的最小数量相同,则选择第一次遇到的组合。
可以将新生抗原的列表排列为单个的组合的新生抗原。单个新生抗原连接的连接处可以产生新的表位,这会导致与癌细胞上存在的抗原表位无关的不需要的脱靶效应。因此,如果由单个新生抗原连接产生的表位具有较低的免疫原性,则其是有利的。为这些目的,新生抗原以不同的顺序排列以形成不同的连接表位,并预测这些连接表位的MHC I类和II类结合亲和力。选择具有连接表位数量最少且IC50值≤1500nM的组合。所选新生抗原的不同组合的数量主要受到可用计算能力的限制。使用的计算资源和所需精度之间的折衷方案是:使用10^5种至10^8种,优选10^6种不同的新生抗原的组合,其中预测每种新生抗原连接的连接表位的MHC I类和/或II类结合亲和力。
在第三方面,本发明提供了编码根据本发明第一方面的新生抗原的列表或根据本发明第二方面的新生抗原的组合的载体。
优选地,所述载体含有一种或多于一种增强表达载体的免疫原性的元素。优选地,这些元素以新生抗原或新生抗原组合多肽的融合形式表达,或由载体中包含的另一种核酸编码,优选由表达组件中中包含的另一种核酸编码。
在本发明第三方面的优选的实施方案中,载体额外包含T细胞增强子,优选(SEQID NO:173至182),更优选SEQ ID NO:175,其与列表中第一个新生抗原的N端融合。
第三方面的载体或第四方面的载体的集合,其中载体在每种情况下独立地选自由质粒;黏粒;脂质体颗粒、病毒载体或病毒样颗粒;优选为甲病毒载体、委内瑞拉马脑炎(VEE)病毒载体、辛德毕斯(SIN)病毒载体、塞姆利基森林病毒(SFV)病毒载体、猿猴或人巨细胞病毒(CMV)载体、淋巴细胞脉络丛脑膜炎病毒(LCMV)载体、逆转录病毒载体、慢病毒载体、腺病毒载体、腺相关病毒载体、痘病毒载体、牛痘病毒载体或修饰的安卡拉痘苗病毒(MVA)载体。优选地载体的集合,其中集合的每个成员都包含编码不同抗原或其片段的多核苷酸,因此通常使用相同的载体类型同时施用,例如使用腺病毒衍生的载体。
最优选的表达载体是腺病毒载体,特别是衍生自人类或非人类人猿的腺病毒载体。作为腺病毒来源的优选的类人猿是黑猩猩(Pan)、大猩猩(Gorilla)和猩猩(Pongo),优选倭黑猩猩(Pan paniscus)和普通黑猩猩(Pan troglodytes)。通常,天然存在的非人类人猿的腺病毒是从相应类人猿的粪便样本中分离出的、最优选的载体是基于hAd5、hAd11、hAd26、hAd35、hAd49、ChAd3、ChAd4、ChAd5、ChAd6、ChAd7、ChAd8、ChAd9、ChAd10、ChAd11、ChAd16、ChAd17、ChAd19、ChAd20、ChAd22、ChAd24、ChAd26、ChAd30、ChAd31、ChAd37、ChAd38、ChAd44、ChAd55、ChAd63、ChAd73、ChAd82、ChAd83、ChAd146、ChAd147、PanAd1、PanAd2和PanAd3载体的非复制型腺病毒载体或复制型Ad4和Ad7载体。人类腺病毒hAd4、hAd5、hAd7、hAd11、hAd26、hAd35和hAd49在本领域是周所周知的。基于天然存在的ChAd3、ChAd4、ChAd5、ChAd6、ChAd7、ChAd8、ChAd9、ChAd10、ChAd11、ChAd16、ChAd17、ChAd19、ChAd20、ChAd22、ChAd24、ChAd26、ChAd30、ChAd31、ChAd37、ChAd38、ChAd44、ChAd63和ChAd82的载体在WO2005/071093中有详细描述。基于天然存在的PanAd1、PanAd2、PanAd3、ChAd55、ChAd73、ChAd83、ChAd146和ChAd147的载体在WO 2010/086189中有详细描述。
在本发明第三方面的优选的实施方案中,载体包含两个独立的表达组件,其中每个表达组件编码根据本发明第一方面的新生抗原的列表或根据本发明第二方面的新生抗原的组合的一部分。优选地,由表达组件编码的列表的一部分在氨基酸的数量上具有大约相等的大小。
在本发明第三方面的优选的实施方案中,载体包含编码根据本发明第一方面的新生抗原排位列表的所选新生抗原的表达组件,其中所选新生抗原的列表分成两个长度大致相等的部分,其中两个部分由一个内部核糖体进入位点(IRES)元素或病毒2A区域(Luke等人,2008)分开,例如口疮病毒属口蹄疫病毒2A区域(SEQ ID NO:184APVKQTLNFDLLKLAGDVESNPGP),其通过被称为核糖体跳跃(Donnelly等人,J.Gen.Virology 2001)的翻译效应来调节多蛋白的加工。任选地在所述两个部分的每一个中有T细胞增强子,优选(SEQ ID NO:173至182),更优选SEQ ID NO:175,其与列表中第一个新生抗原的N端融合。
在第四方面,本发明提供了分别编码根据本发明第一方面的新生抗原的列表或根据本发明第二方面的新生抗原的组合的一部分的载体的集合,其中集合包含2至4个,优选2个载体,并且优选地,其中编码列表的一部分的载体的插入物在氨基酸的数量上具有大约相等的大小。
在第五方面,本发明提供了根据本发明第三方面的载体或根据本发明第四方面的载体的集合,其用于癌症疫苗接种。
根据本发明第三方面的载体或根据本发明第四方面的载体的集合,其用于癌症疫苗接种,其中癌症选自唇、口腔、咽、消化器官、呼吸器官、胸腔内器官、骨骼、关节软骨、皮肤、间皮组织、软组织、乳房、女性生殖器官、男性生殖器官、泌尿道、大脑和中枢神经系统的其他部位、甲状腺、内分泌腺、淋巴组织和造血组织的恶性肿瘤。
在本发明第五方面的优选的实施方案中,疫苗接种方案是用两种不同病毒载体进行异源初免加强免疫。优选的组合是用于初免的类人猿衍生腺病毒载体和用于加强的痘病毒载体、牛痘病毒载体或修饰的安卡拉痘苗病毒(MVA)载体。优选地,这些疫苗以至少1周,优选6周的间隔顺序施用。
实施例
本发明描述了一种对肿瘤突变产生免疫原性新生抗原的可能性进行评分的方法。本方法分析了下一代DNA测序(NGS-DNA)数据,任选地,肿瘤样本的下一代DNA测序(NGS-DNA)数据和从如下所述的同一患者获取的普通样本的下一代DNA测序(NGS-DNA)数据。
这种个性化方法依赖于分析从癌症患者身上收集的样本而获得的NGS数据。对于每位患者,将肿瘤DNA的NGS-DNA外显子组数据与正常DNA的进行对比,以识别确信存在于肿瘤中而不存在于正常样本中的体细胞突变,这种体细胞突变可使蛋白质的氨基酸系列发生改变。
对正常外显子组DNA进行进一步分析以确定患者的HLA I类和II类等位基因。如果可获得的话,分析肿瘤样本的NGS-RNA数据以确定携带突变的基因的表达。
下面的实施例是指本发明的以下方面:
实施例1:优先排序方法的描述
实施例2:优先排序方法在现有文献NGS数据集上的应用
实施例3:优先排序方法的验证
优先排序方法的验证是根据同时记载了NGS数据和免疫原性新生抗原的数据集(已发表的研究)进行性能测试。在本实施例中,使用了优先排序方法a和b。本实施例显示,采用方法a(有患者的NGS-RNA)或方法b(无患者的NGS-RNA),通过选择前60个新生抗原,疫苗中包含了非常高比例的已知免疫原性新生抗原。
实施例4:针对编码待由通过基因疫苗载体递送的新生抗原的合成基因的新生抗原布局优化
结果证明,与使用编码62种新生抗原的一个合成基因相比,将从小鼠模型中获得的62种所选新生抗原分成两个合成基因(一共31+31=62种新生抗原)会提高免疫原性。
实施例1:优先排序方法的描述:
步骤1:能产生新生抗原的突变的识别
定义为确信存在于肿瘤中的突变理想地但并非排他地满足以下条件:
·肿瘤DNA样本中的突变等位基因频率(MF)>=10%,
·肿瘤DNA样本与对照DNA样本的MF比值>=5,
·肿瘤DNA中体细胞变异的染色体位置上的突变读段数量>2,
·正常DNA中体细胞变异的染色体位置上的突变读段数量<2,
本发明的方法中考虑到两种类型的体细胞变异:单核苷酸变异(SNV),其产生非同义密码子变化并导致蛋白质中氨基酸突变;插入/缺失突变(得失位),其通过改变编码RNA的蛋白质的读框产生移码肽(FSP)。
步骤2:生成每个新生抗原的结构
步骤2.1:
对于每个突变,新生抗原肽序列通过下列方式产生:
a)SNV:
产生25个氨基酸长的序列,其中突变的氨基位于中心并在两边侧接优选A=12个非突变的氨基酸(图1)。在突变位于蛋白质的N端或C端的情况下,包含少于A=12个非突变的氨基酸。在突变的上游或下游添加至少8个非突变氨基酸。这保证了新生抗原可以包含至少含有1个突变氨基酸的9mer新生表位。例如在上游添加4个非突变氨基酸、在下游添加2个非突变氨基酸是不可行的,这将会对应特别短的蛋白质。
有时在蛋白质的一小段距离(小于或等于A个氨基酸的距离)内会出现2个突变、单核苷酸变异(SNV)和/或插入/缺失突变(得失位)。在这些情况下,添加在N端或C端的非突变氨基酸片段将被修饰,使得存在额外突变(图1)。
通过根据NGS-DNA外显子组数据识别的患者的HLA等位基因,进一步进行每个新生抗原的MHC I类9mer表位预测。然后,选择在包含至少1个突变氨基酸的所有预测表位中和患者所有的I类等位基因中的最低的IC50值作为与新生抗原相关的IC50值。
b)移码肽(FSP):
对于移码肽,FSP的N端最多添加N=12个非突变氨基酸(图2A);如果FSP上游的非突变氨基酸少于12个,则只添加这些氨基酸。如果在添加的非突变序列中存在导致氨基酸突变的SNV,则突变的氨基酸也包括在内。这就产生了扩展的FSP肽序列。
所述扩展的FSP肽序列随后拆分为9个氨基酸长的片段,并对所有含有至少1个突变氨基酸的片段进行MHC I类9mer表位预测(使用患者的HLA等位基因)。将所有检测的等位基因中IC50预测值的最低值选为与各个片段相关的IC50值。
随后通过将8个上游氨基酸和8个下游氨基酸分别添加到片段的N端和C端,将每个9个氨基酸片段扩展为25个氨基酸长的新生抗原序列(图2B)。对于靠近扩展的FSP的N端或C端的9个氨基酸片段,添加较少的氨基酸。
然后将得到的新生抗原序列及其相关的IC50添加到从SNV获得的新生抗原序列列表中。
步骤2.2(任选地)
对新生抗原的RSUM排位列表实行一个任选的安全筛选,以去除那些可能诱发自身免疫的新生抗原。这一筛选检测编码新生抗原的基因是否是基因黑名单(例如从IEDB数据库获得的)的一部分,所述基因黑名单包括已知的与自身免疫性疾病相关的MHC I类和II类表位。如果可获得的话,名单也包括HLA等位基因的表位。
如果新生抗原的起始突变是黑名单中的某一基因,同时患者的一个HLA等位基因和与自身免疫性疾病基因相关的HLA相对应,则将该新生抗原去除。
对于黑名单中没有可获得的关于表位的HLA等位基因信息的基因,则独立地将新生抗原从患者的HLA等位基因中去除。
步骤2.3(任选地)
随后筛选候选新生抗原的列表,以去除编码低复杂度氨基酸序列的新生抗原(在序列中存在一个或多于一个氨基酸重复多次的片段)。
一旦转化成核苷酸序列,这些片段可能代表G或C核苷酸含量高的区域。这些区域因而会在疫苗表达组件的初始构建/合成过程中产生问题,和/或还可能对编码的多肽的表达产生负面影响。
通过估算新生抗原序列的香农熵并除以其氨基酸长度来识别低复杂度氨基酸序列。香农熵是信息论中常用的度量指标,它根据字母大小和符号频率来测量编码符号串所需的平均最小比特数。
该方法已应用于新生抗原序列中的氨基酸序列。将香农熵值低于0.10的新生抗原从列表中去除。
步骤3:
对患者新生抗原的优先排序过程的描述
进行优先排序所需的数据是
-步骤2中的M个新生抗原(来自非同义SNV或移码肽)的列表
-步骤1中的每个新生抗原的突变等位基因频率
-每个新生抗原的表达数据:来自RNA序列数据(步骤1),或者,作为可替换的方法(B)(如果肿瘤样本中没有NGS-RNA数据),来自同一肿瘤类型的通用基因级表达数据库
-每个新生抗原(来自步骤3)的最佳突变9mer表位的预测的MHC I类结合亲和力
优先排序策略是基于三个独立的排序分数值(RFREQ、REXPR、RIC50)组合的总分。所述三个独立的排序分数值是根据以下参数之一将M个新生抗原的列表独立排序获得的(因此,结果将是三个不同的新生抗原排位列表,每个列表提供一个排位分数)。
步骤3.1:等位基因频率排位分数(RFREQ)
每种新生抗原与观察到的产生新生抗原的突变的肿瘤等位基因频率有关。将M个新生抗原的列表从等位基因频率最高到最低排序。等位基因频率最高的新生抗原的RFREQ排位分数是1,第二高的RFREQ排位分数是2,以此类推。如果存在具有相等等位基因频率的新生抗原,则赋予它们相同的RFREQ排位分数,例如最低的排位分数可能比M小(表1)。
表1具有相等等位基因频率的新生抗原得到相同的排位分数RFREQ
步骤3.2:RNA表达排位分数(REXPR)
通过计算考虑到所有映射读段的以基因为中心的每千碱基百万转录本(TPM)值(Li&Dewey,2011),根据肿瘤NGS-RNA数据确定每个新生抗原的表达水平。随后,根据NGS-RNA转录组数据中突变位置的突变读段数量和野生型读段数量,对TPM值进行修正(corrTPM):
分子和分母都添加了0.1的优选值,以便还包括突变位置处没有读段的情况。
如果没有患者肿瘤的NGS-RNA测序数据,将每个新生抗原的corrTPM替换为同类型肿瘤表达数据库中相应基因的TPM中位数。
随后通过由corrTPM值确定的表达水平对新生抗原进行排序。从表达最高(REXPR得分是1)到最低进行排序。对具有相等的corrTPM值的新生抗原赋予相同的REXPR排位分数(表2)。
表2:具有相等表达corrTPM值的新生抗原得到相同的排位分数REXPR
corrTPM REXPR
SNV11 47.53 1
SNV88 46.9 2
SNV34 37.64 3
SNV67 29.72 4
SNV23 26.12 5
SNV55 21.66 6
SNV63 21.37 7
SNV34 17.74 8
SNV93 17.74 8
SNV18 11.52 9
FSP4_5 10.41 10
步骤3.3:HLA I类结合预测(RIC50)
对于每个SNV或FAP衍生的新生抗原肽,MHC I类结合的可能性定义为在所有预测的9mer表位中的最佳(最低)IC50预测值,其中9mer表位包含突变氨基酸或包含一个来自FSP的突变氨基酸。通过正常DNA样本的分析,仅针对患者存在的MHC I类等位基因进行预测。
随后将新生抗原列表从IC50预测值最低(RIC50分数是1)到IC50预测值最高进行排序。对具有相等的corrTPM值的新生抗原赋予相同的REXPR排序分数(表3)。
表3:具有相等IC50值的新生抗原得到相同的排位分数RIC50
IC50 RIC50
SNV67 1 1
SNV11 1.3 2
SNV23 3.5 3
SNV61 3.8 4
SNV26 4.2 5
SNV62 4.2 5
SNV105 7.2 6
SNV69 8.4 7
SNV18 9.6 8
SNV34 12.7 9
FSP4_5 16.4 10
步骤3.4:
随后,通过计算三个独立排位分数的加权和(RSUM),并将新生抗原从RSUM最低值到RSUM最高值进行排序,完成新生抗原的最终优先排序(排位)(图3)。加权方式如下:
式(I):
RSUM=(RFREQ+REXPR+(k+RIC50))*WF
在式(I)中,k是一个常数,当预测表位的IC50值大于1000nM时加入到RIC50值中(这将惩罚具有较高RIC50值的新生抗原,例如具有较高IC50值的新生抗原)。
k的数值以下列方式确定。
/>
出于技术原因,有时NGS-RNA数据无法覆盖突变位置,也不能覆盖非突变氨基酸和其他表达基因中的突变氨基酸。考虑到在NGS-RNA转录组数据中未观察到突变读段的情况,WF是向下加权因子(向下加权是因为当得到的RSUM值增加,新生抗原在列表中的排位进一步下降)。
这生成了由新生抗原的RSUM排位列表。
根据其RIC50值对具有相等RSUM分数的新生抗原进一步进行优先排序(图3)。如果RSUM分数和RIC50分数均相同,则根据其REXPR分数对新生抗原进一步进行优先排序。如果RSUM分数、RIC50分数和REXPR分数均相同,则根据其RFREQ分数对新生抗原进一步进行优先排序。如果RSUM分数、RIC50分数、REXPR分数和RFREQ分数均相同,则根据未修正的基因水平TPM值对新生抗原进一步进行优先排序。
步骤4:
步骤4.1:
随后通过确定疫苗载体中可以包含哪些新生抗原和多少新生抗原的方法来分析M个新生抗原的最终排位列表。
所述方法使用迭代过程。在每次迭代中,产生达到L个氨基酸(优选为1500个氨基酸)的最大插入尺寸所需的N个最佳排位新生抗原的列表。如果在N个新生抗原的列表中含有来自相同FSP的多于一个部分重叠的新生抗原,则进行合并步骤以避免包含相同氨基酸序列的冗余延伸。(图4)。如果在合并步骤之后,包含的新生抗原的总长度仍不达到所需的最大插入尺寸,通过从排位列表中添加下一个新生抗原来执行新的迭代。
当把下一个新生抗原添加到已选定N个新生抗原会导致超出所需的最大插入尺寸L时,该过程结束。
因此,N的精确值可以由于存在合并的FSP衍生的新生抗原(长度比25mer长)而减少,也可以由于存在含有靠近蛋白质N端或C端的突变的新生抗原(这些新生抗原比25mer短)而增加。
输出物是总长度小于或等于L=1500aa的N个新生抗原的列表。
步骤4.2:
将排序的列表分成长度大致相等的两部分(图5)。技术人员知道若干不同的、可行的、可将列表分成两部分的方法。
步骤4.3:
随后根据一定方法对N个所选新生抗原序列的列表进行重新排序,所述方法最大限度地减少可能由两个相邻的新生抗原肽在一个组装的多聚新生抗原多肽中并置所产生的预测连接表位的形成。组装的多聚新生抗原会产生一百万种混乱布局,每种布局都有不同的新生抗原顺序。对每一种布局进行分析,以确定患者的一个HLA等位基因的IC50<=1500nM的预测连接表位数量。遍历所有100种布局后,记住在此之前遇到的预测连接表位数量最少的布局。如果后来发现具有相同数量的预测连接表位的第二种布局,则保留第一次遇到的布局。
实施例2:优先排序方法在现有文献数据集上的应用
将实施例1中描述的优先排序方法应用于胰腺癌样本的NGS数据集(Pat_3942;Tran等人,2015),其中报道了一种实验验证的免疫原性反应性。肿瘤/正常外显子组和肿瘤转录组的NGS原始数据下载自NCBI SRA数据库[SRA IDs:SRR2636946;SRR2636947;SRR4176783],并通过表征患者突变组的流程进行分析。
突变检测流程包括8个步骤:
a)读段的质量控制和优化:
使用FastQC 0.11.5(Andrews,https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)对原始序列数据进行初步质量控制,过滤掉长度小于50个碱基对(bp)的配对读段。在目视检查后,使用Trimmomatic-0.33(Bolger等人,2014)任选地修除剩余的读段,以除去低质量的测序的碱基,提高适于比对参考基因组的读段(QC-滤过的读段)的质量。
b)与参考基因组的读段比对:
然后,使用BWA-mem算法(Li&Durbin,2009)以默认参数对QC-滤过的DNA读段与人类参考基因组GRCh38/hg38版本进行比对。使用Hisat22.2.0.4(Kim等人,2015)软件对QC-滤过的RNA读段进行比对,其中保持所有参数为默认值。使用Samtools 1.4(Li等人,2009)过滤掉只有一个读段匹配的读段对,以及对多个具有相同映射分数的基因位点匹配的读段对。
c)比对优化:
通过优化小插入或缺失(得失位)周围的局部比对、标记重复读段和在重新调整的区域重新校准最终碱基质量得分的方案对DNA读段比对做进一步处理。使用来自GATK软件的3.7版本的RealignerTargetCreator工具和IndelRealigner工具(McKenna等人,2010)进行得失位的重新排列。使用来自Picard的2.12版本的MarkDuplicates(http://broadinstitute.github.io/picard)进行重复读段的检测和标记。使用来自GATK的3.7版本的BaseRecalibrator和PrintReads(McKenna等人,2010)进行碱基质量得分的再校准。使用在人类dbSNP138发布文件中注释的多态性(https://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138)作为已知网站的列表以生成基本的重新校准模型。
d)HLA测定:
通过将来自正常样本中编码人类I类单倍型的hg38基因组部分的QC-滤过的DNA读段与BWA-mem进行比对来对患者特异性HLAI类进行评估(Li&Durbin,2009)。使用Samtools1.4(Li等人,2009)过滤掉只有一个读段匹配的读段对,以及对多个具有相同映射分数的位点匹配的读段对。最后,使用optytipe软件(Szolek等人,2014)测定患者最可能的单倍型。通过将来自正常样本中编码人类II类单倍型的hg38基因组部分的QC-滤过的DNA读段与BWA-mem进行比对来对HLAII类进行评估(Li&Durbin,2009)。使用HLAminer软件(Warren等人,2012)测定患者最可能的II类单倍型。
e)变异调用:
使用GATK 3.7版本的mutect2(Cibulskis等人,2012)和Varscan2 2.3.9(Koboldt等人,2012),通过将肿瘤样本与正常对照样本明确地比较,根据重新校准的DNA读段数据进行单核苷酸变异(SNV)和小得失位的体细胞变异调用。所有参数保持默认值。使用默认参数的SCALPEL(Fang等人,2014)作为得失位变异调用的额外工具。使用Annovar软件(Wang等人,2010)将被至少一种算法检测到的显著体细胞变异映射到人类Refseq转录组上并被进一步滤除。只有在密码子上生成非同义(错义)改变的SNV或者在蛋白质编码基因的编码序列中产生读框改变得失位(移码得失位)可以保留。生成提前终止密码子的SNV应排除。随后对于每个检测到的变异,使用利用Samtools 1.4的mpileup的常用工具(Li等人,2009),测定在来自DNA和RNA样本的比对的NGS数据中观察到的突变读段数量和野生型读段数量。
f)新生抗原生成:
将各个体细胞变异翻译为含有突变氨基酸的肽。对于SNV,新生抗原肽是通过在突变氨基酸的上游和下游分别添加12个野生型氨基酸产生的。5个突变的长度发生异常,其突变的氨基酸映射在距N端或C端12个氨基酸以内的位置。3个情况下形成了多个25mer肽,其中SNV在不同蛋白质序列的多种可替代剪接异形体中诱导了氨基酸变化。对于产生FSP的得失位,在第一个新氨基酸的上游添加12个野生型氨基酸。将最终长度为至少9个氨基酸的经修饰的FSP保留。
g)新生抗原的HLA-I结合预测:
MHC I类结合的可能性定义为在所有预测的含有突变氨基酸的9mer表位中的最佳(最低)IC50预测值。使用IEDB软件的IEDB_推荐方法(Moutaftsi等人,2006)进行预测。如果IEDB_推荐方法(Moutaftsi等人,2006)没有涵盖MHC-I单体型,则使用netMHCpan方法(Hoof等人,2009)。
h)确信变异的最终选择:
通过只选择满足以下条件的突变,进一步减少了导致移码的SNV和得失位的初始列表:
·肿瘤DNA样本中的突变等位基因频率(MF)>=10%
·肿瘤DNA样本与对照DNA样本的MF比值>=5
·肿瘤DNA中体细胞变异的染色体位置上的突变读段>2
·正常DNA中体细胞变异的染色体位置上的突变读段<2
最终在患者Pat_3942中确信检测到的129种新生抗原编码突变的列表包含4种产生移码的得失位和125种SNV。这125种SNV生成128种新生抗原,其中的3种衍生自于映射在多个可替代剪接异形体上的突变。4种移码得失位生成4个全长307个氨基酸的FSP,共260个新生抗原序列。由SNV或移码得失位衍生的全部388种新生抗原的总长度是3942个氨基酸。
能被基因疫苗容纳的最大插入尺寸(包括表达调控元件)例如腺病毒载体受到限制,因此对编码的多聚新生抗原施加了L个氨基酸的最大尺寸。腺病毒载体的L典型值为1500个氨基酸,小于所有新生抗原的累积长度3942个氨基酸。因此,应用如实施例1中记载的优先排序策略,以选择与3942个氨基酸限制相容的排序的新生抗原的最优子集。
表4记录了累计长度为1485个氨基酸的所选的全部60个新生抗原。筛选过程包括来自FSP chr11:1758971_AC_-(2个核苷酸缺失)的6个新生抗原序列、来自FSP chr6:168310205_-_T(1个核苷酸插入)的2个新生抗原序列和来自FSP chr16_3757295_GATAGCTGTAGTAGGCAGCATC_-(22个核苷酸缺失;SEQ ID NO:185)的1个新生抗原序列。选择过程中,为了去除冗余的序列片段,将多个重叠的FSP衍生的新生抗原序列合并(表5)。合并的新生抗原序列详见图6。
表6列出了在Pat_3942中129个确信检测到的突变产生的所有新生抗原序列,包括相关的三个参数(突变等位基因频率MFREQ、修正的表达值corrTPM、MHC I类9mer表位IC50的最佳预测值MIC50)、三个独立的排位分数结果(RFREQ、REXPR、RIC50)、加权因子WF、加权的RSUM值和RSUM排位结果。
重要的是,通过优先排序策略,在前60个新生抗原中选择据报道可诱导患者T细胞反应性的所有三个新生抗原序列(Tran等,2015)。
表4:为Pat_3942选择的60个新生抗原列表。SNV衍生的新生抗原中的突变氨基酸已用粗体标出。对于FSP衍生的新生抗原,属于移码肽一部分的氨基酸也用粗体标出。经实验验证可诱导T细胞反应的新生抗原序列在“最终排位”栏中标记为TP。给出的基因组坐标是关于人类基因组组合GRch38/hg38。
/>
/>
/>
/>
表5:Pat_3492的合并的FSP衍生新生抗原。属于移码肽一部分的氨基酸(突变氨基酸)已用粗体标出。给出的基因组坐标是关于人类基因组组合GRch38/hg38。
/>
表6:Pat_3492的所有388种新生抗原按其RSUM排位排序。对于FSP衍生的新生抗原,属于移码肽一部分的氨基酸也用粗体标出。经实验验证可诱导T细胞反应的新生抗原序列在“最终排位”栏中标记为TP。给出的基因组坐标是关于人类基因组组合GRch38/hg38。
/>
/>
/>
/>
/>
/>
/>
/>
/>
实施例3:优先排序方法的验证为验证优先排序方法,我们分析了含有共计30个经实验验证具有CD8+T细胞活性的免疫原性新生抗原的数据集(表7)。该数据集包含来自13名癌症患者的5种不同肿瘤类型的活体组织检查,并获得其NGS原始数据(正常/肿瘤外显子组NGS-DNA和肿瘤NGS-RNA转录组)。
NGS数据从NCBI SRA网站下载,并使用与实施例1相同的NGS处理管线进行处理。在报告的30个经实验验证的新生抗原中,通过实施例2中公开的NGS处理流程识别了其中28个的突变(有2个突变由于其读段数量过低而未被识别)。对于每位患者的样本,根据实施例1步骤3所描述的方法对所有新生抗原的总列表进行排序,假设目标最大的多肽(多聚新生抗原)尺寸为1500个氨基酸。
表8显示了28个新生抗原的MHC I类IC50预测值,其中仅对9mer表位进行预测,或对包含8至11个氨基酸的表位进行预测。在这两种情况下都存在几种新生抗原,其最佳(最低)IC50值远超过(高于)500nM阈值,该阈值经常用于新生抗原候选疫苗的选择,因此将被排除在个性化疫苗之外。
图7A显示了28个经实验验证的新生抗原经优先排序方法得到的RSUM排位。虚线(图7A)表示插入容量(不包括表达调控元件)约为1500个氨基酸的腺病毒个性化疫苗载体可容纳的最大新生抗原25mer数量(60)。
在30个经过实验验证的新生抗原中有27个(占90%)存在于前60个新生抗原中,并因此纳入个性化疫苗载体。然后假设没有来自患者肿瘤的NGS-RNA表达数据,重新进行优先排序。每种新生抗原的corrTPM表达值的估计值是该特定肿瘤类型TCGA表达数据中相应基因TPM值的中位数[NCBI GEO登记号:GSE62944]。图7B显示,在这种情况下,实验验证的新生抗原也有很大一部分(25/30=83%)包含在疫苗载体中。重要的是,对于每个测试的数据集,至少有一个经验证的新生抗原将包括在个性化疫苗载体中。表7中列出了更详细的信息,包括28种经验证的新生抗原在有无NGS-RNA数据的情况下的RSUM排位结果。
因此,在有或没有患者肿瘤转录组数据的情况下,这两项结果都证实了优先排序方法能够选择包含最相关的新生抗原的新生抗原列表,例如,那些经实验验证具有免疫原性、应纳入个体化疫苗载体中的新生抗原。
表7:用作基准的文献数据集和新生抗原列表。对于每个数据集,列出了具有实验验证的T细胞反应性的新生抗原。突变的氨基酸用粗体和下划线标出。对于由于存在两种可替代剪接异形体而产生两种不同新生抗原的突变,只记录RSUM排位较低的新生抗原(用一个*标记)。给出的基因组坐标是关于人类基因组组合GRch38/hg38。
/>
/>
表8:28个新生抗原的MHC I类IC50预测值(nM)。给出的基因组坐标是关于人类基因组组合GRch38/hg38。
/>
实施例4:编码由通过基因疫苗载体递送的新生抗原的合成基因的新生抗原布局优化
含有60个新生抗原的多聚新生抗原将产生一个总长度约1500个氨基酸的人工蛋白,该人工蛋白需要通过插入基因疫苗载体的表达组件进行编码。这种长度的人工蛋白的表达可能是次优的,从而影响针对编码的新生抗原诱导的免疫原性水平。将多聚新生抗原分成两部分有助于获得更高水平的诱导免疫原性。
因此,使用腺病毒载体GAd20,以不同的布局(图8A和8B)测试了由衍生自小鼠肿瘤细胞株CT26的62个新生抗原(表9)组成的多聚新生抗原诱导体内免疫的能力:以具有由单一多聚新生抗原编码的所有62个新生抗原的单一载体布局(GAd20-CT26-62,SEQ ID NO:170)、以分别编码62个新生抗原的一半的两个载体布局(GAd-CT26-1-31+GAd-CT26-32-62,SEQ ID NO:171、172)、以及以具有存在于单一载体中的同样的两个单独表达组件的第三种布局(GAd-CT26双1-31&32-62)。在含有62个新生抗原的多聚新生抗原的N端存在一个TPA T细胞增强子(SEQ ID NO:173),在两种31个新抗原构建体的每一个N端均存在一个TPA T细胞增强子元件。在组装的新生抗原的C端加入HA肽序列(SEQ ID NO:183)以监测其表达情况。
通过以每次5×10^8病毒颗粒(vp)的剂量对新生BalbC小鼠组(n=6)进行肌内注射来进行体内免疫原性测定。在免疫后2周用INFγELISpot检测脾细胞的T细胞反应,以识别含有25mer新生抗原的肽库。
与共施用两个载体布局GAd-CT26-1-31/GAd-CT26-32-62相比,表达长多聚新生抗原的GAd20-CT26-62显示了新生抗原特异性T细胞反应的次优诱导(图8A)。因此,将长的多聚新生抗原分成两个长度大致相同的短多聚新生抗原可显著提高免疫原性应答。重要的是,双组件载体GAd-CT26双1-31&32-62(图8B)诱导的免疫原性水平也显著高于GAd-CT26-1-62,并与两种腺病毒载体GAd-CT26-1-31+GAd-CT26-31-62组合观察到的结果相当(图8A和8B)。
将长多抗原分为两个大小近似相等的短多聚新生抗原,从而提供了具有优越免疫原性的疫苗载体组合物(一个双组件载体或两个不同载体)。
表9:62个CT26新生抗原的列表。显示了由不同构建体编码的多聚新生抗原中独立新生抗原的序号
/>
/>
参考文献
Andersen RS,Kvistborg P,TM,Pedersen NW,Lyngaa R,Bakker AH,ShuCJ,Straten Pt,Schumacher TN,Hadrup SR.(2012).Parallel detection of antigen-specific T cell responses by combinatorial encoding of MHC multimers.NatProtoc,7(5),891-902.doi:10.1038/nprot.2012.037
Andreatta M&Nielsen M.(2016).Gapped sequence alignment usingartificial neural networks:application to the MHC class Isystem.Bioinformatics,32(4),511-517.doi:10.1093/bioinformatics/btv639
Andrews,S.FastQC AQuality Control tool for High Throughput SequenceData.Available online at:http://www.bioinformatics.babraham.ac.uk/projects/fastqc.Bolger AM,Lohse M,Usadel B.(2014).Trimmomatic:a flexible trimmer forIllumina sequence data.Bioinformatics,30(15),2114-2120.doi:10.1093/bioinformatics/btu170
Cibulskis K1,Lawrence MS,Carter SL,Sivachenko A,Jaffe D,Sougnez C,Gabriel S,Meyerson M,Lander ES,Getz G.(2013).Sensitive detection of somaticpoint mutations in impure and heterogeneous cancer samples.Nat Biotechnol,31(3),213-219.doi:10.1038/nbt.2514
Donnelly ML,Hughes LE,Luke G,Mendoza H,ten Dam E,Gani D,Ryan MD.(2001)The'cleavage'activities of foot-and-mouth disease virus 2A site-directed mutants and naturally occurring'2A-like'sequences.J Gen Virol.200182(Pt 5):1027-41.
Fang H,Wu Y,Narzisi G,O'Rawe JA,Barrón LT,Rosenbaum J,Ronemus M,Iossifov I,Schatz MC,Lyon GJ.(2014).Reducing INDEL calling errors in wholegenome and exome sequencing data.Genome Med,6(10),89.doi:10.1186/s13073-014-0089-z
Fritsch EF,Rajasagi M,Ott PA,Brusic V,Hacohen N,Wu CJ.(2014).HLA-binding properties of tumor neoepitopes in humans.Cancer Immunol Res,2(6),522-529.doi:10.1158/2326-6066.CIR-13-0227
Gros A,Parkhurst MR,Tran E,Pasetto A,Robbins PF,Ilyas S,Prickett TD,Gartner JJ,Crystal JS,Roberts IM,Trebska-McGowan K,Wunderlich JR,Yang JC1,Rosenberg SA.(2016).Prospective identification of neoantigen-specificlymphocytes in the peripheral blood of melanoma patients.Nat Med.22(4):433-8.doi:10.1038/nm.4051.
Hoof I,Peters B,Sidney J,Pedersen LE,Sette A,Lund O,Buus S,Nielsen M.(2009).NetMHCpan,a method for MHC class I binding prediction beyondhumans.Immunogenetics,61(1),1-13.doi:10.1007/s00251-008-0341-z
Jurtz V,Paul S,Andreatta M,Marcatili P,Peters B,Nielsen M.(2017).NetMHCpan-4.0:Improved Peptide-MHC Class I Interaction PredictionsIntegrating Eluted Ligand and Peptide Binding Affinity Data.J Immunol,199(9),3360-3368.doi:10.4049/jimmunol.1700893
Kandoth C,McLellan MD,Vandin F,Ye K,Niu B,Lu C,Xie M,Zhang Q,McMichael JF,Wyczalkowski MA,Leiserson MDM,Miller CA,Welch JS,Walter MJ,WendlMC,Ley TJ,Wilson RK,Raphael BJ,Ding L.(2013).Mutational landscape andsignificance across 12 major cancer types.Nature,502(7471),333-339.doi:10.1038/nature12634
Kim D,Langmead B,Salzberg SL.(2015).HISAT:a fast spliced aligner withlow memory requirements.Nat Methods,12(4),357-360.doi:10.1038/nmeth.3317
Koboldt DC,Zhang Q,Larson DE,Shen D,McLellan MD,Lin L,Miller CA,Mardis ER,Ding L,Wilson RK.(2012).VarScan 2:somatic mutation and copy numberalteration discovery in cancer by exome sequencing.Genome Res,22(3),568-576.doi:10.1101/gr.129684.111
Li B&Dewey CN.(2011).RSEM:accurate transcript quantification fromRNA-Seq data with or without a reference genome.BMC Bioinformatics,12,323.doi:10.1186/1471-2105-12-323
Li H&Durbin R.(2009).Fast and accurate short read alignment withBurrows-Wheeler transform.Bioinformatics,25(14),1754-1760.doi:10.1093/bioinformatics/btp324
Li H,Handsaker B,Wysoker A,Fennell T,Ruan J,Homer N,Marth G,AbecasisG,Durbin R;1000 Genome Project Data Processing Subgroup.Genome Project DataProcessing,S.(2009).The Sequence Alignment/Map format andSAMtools.Bioinformatics,25(16),2078-2079.doi:10.1093/bioinformatics/btp352Luke GA,de Felipe P,Lukashev A,Kallioinen SE,Bruno EA,Ryan MD.(2008)Occurrence,function and evolutionary origins of '2A-like'sequences in virusgenomes.J Gen Virol.2008 89(Pt 4):1036-42.doi:10.1099/vir.0.83428-0.
Lundegaard C,Lamberth K,Harndahl M,Buus S,Lund O,Nielsen M.(2008).NetMHC-3.0:accurate web accessible predictions of human,mouse and monkey MHCclass I affinities for peptides of length 8-11.Nucleic Acids Res,36(WebServer issue),W509-512.doi:10.1093/nar/gkn202
McKenna A,Hanna M,Banks E,Sivachenko A,Cibulskis K,Kernytsky A,Garimella K,Altshuler D,Gabriel S,Daly M,DePristo MA.(2010).The GenomeAnalysis Toolkit:a MapReduce framework for analyzing next-generation DNAsequencing data.Genome Res,20(9),1297-1303.doi:10.1101/gr.107524.110
Moutaftsi M,Peters B,Pasquetto V,Tscharke DC,Sidney J,Bui HH,Grey H,Sette A.(2006).Aconsensus epitope prediction approach identifies the breadthof murine T(CD8+)-cell responses to vaccinia virus.Nat Biotechnol,24(7),817-819.doi:10.1038/nbt1215
Sahin U,Derhovanessian E,Miller M,Kloke BP,Simon P,M,Bukur V,Tadmor AD,Luxemburger U,/> B,Omokoko T,Vormehr M,Albrecht C,ParuzynskiA,Kuhn AN,Buck J,Heesch S,Schreeb KH,Müller F,Ortseifer I,Vogler I,GodehardtE,Attig S,Rae R,Breitkreuz A,Tolliver C,Suchan M,Martic G,Hohberger A,Sorn P,Diekmann J,Ciesla J,Waksmann O,Brück AK,Witt M,Zillgen M,Rothermel A,KasemannB,Langer D,Bolte S,Diken M,Kreiter S,Nemecek R,Gebhardt C,Grabbe S,/> C,Utikal J,Huber C,Loquai C,/> .Personalized RNAmutanome vaccines mobilizepoly-specific therapeutic immunity against cancer.Nature,547(7662),222-226.doi:10.1038/nature23003
Shannon,C.E.(1997).The mathematical theory of communication.1963.MDComput,14(4),306-317.
Strait&Dewey.(1996).The Shannon information entropy of proteinsequences.Biophys.J.1996 Biophys J.71(1),148-55.
Szolek A,Schubert B,Mohr C,Sturm M,Feldhahn M,Kohlbacher O.(2014).OptiType:precision HLAtyping from next-generation sequencingdata.Bioinformatics,30(23),3310-3316.doi:10.1093/bioinformatics/btu548
Tran E,Ahmadzadeh M,Lu YC,Gros A,Turcotte S,Robbins PF,Gartner JJ,Zheng Z,Li YF,Ray S,Wunderlich JR,Somerville RP,Rosenberg SA.(2015).Immunogenicity of somatic mutations in human gastrointestinalcancers.Science,350(6266),1387-1390.doi:10.1126/science.aad1253
Wang K,Li M,Hakonarson H.(2010).ANNOVAR:functional annotation ofgenetic variants from high-throughput sequencing data.Nucleic Acids Res,38(16),e164.doi:10.1093/nar/gkq603
Warren RL,Choe G,Freeman DJ,Castellarin M,Munro S,Moore R,Holt RA.(2012).Derivation of HLA types from shotgun sequence datasets.Genome Med,4(12),95.doi:10.1186/gm396
Yarchoan M,Johnson BA3rd,Lutz ER,Laheru DA,Jaffee EM.(2017).Targetingneoantigens to augment antitumour immunity.Nat Rev Cancer,17(9),569.doi:10.1038/nrc.2017.74

Claims (17)

1.一种选择用于个性化疫苗的癌症新生抗原的方法,其包括以下步骤:
(a)在从个体获得的癌细胞样本中确定新生抗原,其中每种新生抗原
-包含在编码序列中,
-在编码序列中包含至少一种突变,所述突变导致经编码的氨基酸序列的改变并且不存在于所述个体的非癌细胞样本中,和
-由癌细胞样本中的编码序列的9个至40个连续氨基酸组成,
(b)在编码序列内确定每种新生抗原的步骤(a)的每个所述突变的突变等位基因频率,
(c)(i)在所述癌细胞样本中,或
(ii)在与所述癌细胞样本的癌症类型相同的表达数据库中,
确定含有至少一种所述突变的每种编码序列的表达水平,
(d)预测新生抗原的MHC I类结合亲和力,其中
(I)从所述个体的非癌细胞样本确定HLA I类等位基因,
(II)对于(I)中确定的每个HLA I类等位基因,预测新生抗原的由8个至15个连续氨基酸组成的每个片段的MHC I类结合亲和力,其中每个片段包含由步骤(a)的突变引起的至少一种氨基酸改变,和
(III)具有最高MHC I类结合亲和力的片段决定了新生抗原的MHC I类结合亲和力,
以及附加于或替换步骤(d)的,
(d'):
·在所述个体的非癌细胞样本中确定HLA II类等位基因,
·预测新生抗原的MHC II类结合亲和力,其中
-对每个确定的HLA II类等位基因,预测针对新生抗原的11个至30个连续氨基酸的每个片段的MHC II类结合亲和力,其中每个片段包含由步骤(a)中的突变产生的至少一种经突变的氨基酸,和
-具有最高MHC II类结合亲和力的片段决定了新生抗原的MHC II类结合亲和力;
(e)根据步骤(b)、(c)、(d)和/或(d')中确定的值,对每种新生抗原从最高值到最低值进行排序,产生第一排位列表、第二排位列表、第三排位列表和/或第四排位列表,
(f)根据所述第一排位列表、第二排位列表、第三排位列表和/或第四排位列表计算排位总和,并通过排位总和升序来对新生抗原进行排序,得到新生抗原的排位列表,
其中排位总和是加权排位总和,其中
-将步骤(a)中确定的新生抗原的数量加至:
·第三排位列表中每个新生抗原的排位值上,其中步骤(d)的MHC I类结合亲和力的预测结果为IC50值高于1000nM,和/或
·在第四排位列表中每个新生抗原的排位值上,其中步骤(d')的MHC II类结合亲和力的预测结果为IC50值高于1000nM;
和/或
-其中当步骤(c)(i)采用大规模并行转录组测序时,步骤(f)中的排位总和乘以加权因子(WF),其中WF是:
·1,条件是突变的映射转录组读段的数量>0,
·2,条件是突变的映射转录组读段的数量是0,且未突变序列的映射读段的数量是0,且每千碱基百万转录本值(TPM)是至少0.5,
·3,条件是突变的映射转录组读段的数量是0,且未突变序列的映射读段的数量>0,且每千碱基百万转录本值(TPM)是至少0.5,
·4,条件是突变的映射转录组读段的数量是0,且未突变序列的映射读段的数量是0,且每千碱基百万转录本值(TPM)<0.5,或
·5,条件是突变的映射转录组读段的数量是0,且未突变序列的映射读段的数量>0,且每千碱基百万转录本值(TPM)<0.5;
(g)从(f)中获得的新生抗原排位列表中,从最低的排位开始,选择一组30个至240个新生抗原。
2.根据权利要求1所述的方法,其中步骤(a)中的新生抗原由癌细胞样本中的编码序列的19个至31个连续氨基酸组成。
3.根据权利要求1或2所述的方法,其包括以下步骤(g):
(g)从(f)中获得的新生抗原排位列表中,从最低的排位开始,选择一组40个至80个新生抗原。
4.根据权利要求1所述的方法,其中使用样本的大规模并行DNA测序进行步骤(a)和(d)(I),并且其中在经识别的突变的染色体位置包含突变的读段的数量为:
-癌细胞样本中至少2个,
-非癌细胞样本中2个或少于2个。
5.根据权利要求1或2所述的方法,其中步骤(a)的至少一个突变是单核苷酸变异(SNV)或产生移码肽(FSP)的插入/缺失突变。
6.根据权利要求5所述的方法,其中突变是SNV,并且新生抗原具有步骤(a)中定义的总尺寸并且由突变产生的氨基酸组成,所述突变产生的氨基酸的两侧各有若干相邻连续氨基酸,其中除非编码序列在任一侧不包含足够数量的氨基酸,否则每一侧的数量相差不超过一个氨基酸,其中新生抗原具有步骤(a)中定义的总尺寸。
7.根据权利要求5所述的方法,其中突变产生了FSP,每个由突变引起的单个氨基酸改变产生了具有步骤(a)中定义的总尺寸的新生抗原并且所述新生抗原组成为:
(i)所述由突变引起的单个氨基酸改变和7个至14个N端相邻连续氨基酸,和
(ii)在任一侧与步骤(i)的片段相邻的若干连续氨基酸,其中除非编码序列在任一侧不包含足够数量的氨基酸,否则每一侧的氨基酸数量相差不超过一个氨基酸,
其中预测步骤(i)的片段的步骤(d)的MHC I类结合亲和力和/或步骤(d')的MHC II类结合亲和力。
8.根据权利要求1或2所述的方法,其中在癌细胞样本中由步骤(b)确定的新生抗原的突变等位基因频率为至少2%。
9.根据权利要求1或2所述的方法,其中步骤(g)还包括从新生抗原的所述排位列表中去除来自与自身免疫性疾病相关的基因的新生抗原、和/或其氨基酸序列的香农熵值低于0.1的新生抗原。
10.根据权利要求1或2所述的方法,其中通过大规模并行转录组测序确定步骤(c)(i)中所述编码序列的表达水平,并且其中步骤(c)(i)中确定的表达水平是以按下式计算得出的修正的每千碱基百万转录本(corrTPM)值确定的:
其中M是跨越步骤(a)的突变位置的包含突变的读段数量,W是跨越步骤(a)的突变位置的不包含突变的读段数量,TPM是包含突变的基因的每千碱基百万转录本值,c是大于0的常数。
11.根据权利要求1或2所述的方法,其中步骤(g)包含任选的选择过程,其中新生抗原从新生抗原的排位列表中选择,从最低排位开始,直到达到所有选择的新生抗原的总氨基酸长度的设定最大尺寸,其中单价或多价疫苗的每种载体的最大尺寸为1200个至1800个氨基酸;并且任选地,其中如果两个或多于两个新生抗原包含重叠的氨基酸序列区段,则将它们合并成一个新的新生抗原。
12.一种用于构建用于疫苗的编码新生抗原的组合的个性化载体的方法,其包括以下步骤:
(i)以至少10^5种至10^8种不同组合对一组新生抗原排序,其中该组新生抗原是根据权利要求1至11中任一项所述的方法选择的;
(ii)生成每种组合的新生抗原连接区段的所有可能的对,其中每个连接区段在连接的任一侧包含15个相邻连续氨基酸,
(iii)预测连接区段中所有表位的MHC I类和/或MHC II类结合亲和力,其中仅检测所设计的载体针对的个体中存在的HLA等位基因,和
(iv)选择具有最小连接表位数量且IC50≤1500nM的新生抗原的组合,其中如果多个组合的连接表位的最小数量相同,则选择第一次遇到的组合。
13.一种载体,所述载体编码根据权利要求1至11中任一项所述的方法选择的一组新生抗原或所述载体是根据权利要求12所述的方法获得的编码新生抗原的组合的载体,任选地其额外包含T细胞增强子,其与列表中第一个新生抗原的N端融合,以及任选地,其中载体包含两个独立的表达组件,其中每个表达组件编码该组新生抗原或新生抗原的组合的一部分,并且其中由多个表达组件编码的组的多个部分具有大约相等数量的氨基酸,其中大约表示:当与数值连用时,旨在将数值包含在一个范围内,该范围的下限比指示的数值小5%,上限比指示的数值大5%。
14.根据权利要求13所述的载体,其额外包含选自SEQ ID NO:173至182的T细胞增强子,其与列表中第一个新生抗原的N端融合。
15.一种载体的集合,集合中的载体分别编码根据权利要求1至11中任一项所述的方法选择的一组新生抗原的一部分或集合中的载体是根据权利要求12所述的方法获得的编码新生抗原的组合的载体,其中载体分别编码新生抗原的组合的一部分,其中集合包含2个至4个载体。
16.根据权利要求15所述的载体的集合,其中编码组的多个部分的这些载体中的插入物编码大约相等数量的氨基酸,其中大约表示:当与数值连用时,旨在将数值包含在一个范围内,该范围的下限比指示的数值小5%,上限比指示的数值大5%。
17.根据权利要求13或14所述的载体或根据权利要求15或16所述的载体的集合,其用于癌症疫苗接种。
CN201980075581.6A 2018-11-15 2019-11-15 用于生成个性化癌症疫苗的癌症突变选择 Active CN113424264B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18206599.5 2018-11-15
EP18206599 2018-11-15
PCT/EP2019/081428 WO2020099614A1 (en) 2018-11-15 2019-11-15 Selection of cancer mutations for generation of a personalized cancer vaccine

Publications (2)

Publication Number Publication Date
CN113424264A CN113424264A (zh) 2021-09-21
CN113424264B true CN113424264B (zh) 2024-04-12

Family

ID=64331838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980075581.6A Active CN113424264B (zh) 2018-11-15 2019-11-15 用于生成个性化癌症疫苗的癌症突变选择

Country Status (12)

Country Link
US (1) US20210379170A1 (zh)
EP (1) EP3881324A1 (zh)
JP (1) JP7477888B2 (zh)
KR (1) KR20210092723A (zh)
CN (1) CN113424264B (zh)
AU (1) AU2019379306A1 (zh)
BR (1) BR112021006149A2 (zh)
CA (1) CA3114265A1 (zh)
IL (1) IL283143A (zh)
MX (1) MX2021005656A (zh)
SG (1) SG11202103243PA (zh)
WO (1) WO2020099614A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW202043256A (zh) 2019-01-10 2020-12-01 美商健生生物科技公司 前列腺新抗原及其用途
CN117157713A (zh) * 2021-02-05 2023-12-01 亚马逊科技公司 对用于个性化癌症疫苗的新抗原进行排序
CA3221363A1 (en) 2021-06-21 2022-12-29 Nouscom Ag Vaccine composition comprising encoded adjuvant
CN114005489B (zh) * 2021-12-28 2022-03-22 成都齐碳科技有限公司 基于三代测序数据检测点突变的分析方法和装置
CN116564405B (zh) * 2023-04-19 2023-12-15 江苏先声医学诊断有限公司 一种基于平均无序度的基因组测序突变位点过滤方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003000894A1 (fr) * 2001-06-25 2003-01-03 Anges Mg, Inc. Vaccins polynucleotides
WO2009109855A2 (en) * 2008-03-06 2009-09-11 University Of Medicine And Dentistry Of New Jersey Immunotherapy for unresectable pancreatic cancer
WO2012159643A1 (en) * 2011-05-24 2012-11-29 Biontech Ag Individualized vaccines for cancer
WO2014012051A1 (en) * 2012-07-12 2014-01-16 Persimmune, Inc. Personalized cancer vaccines and adoptive immune cell therapies
EP2714071A2 (en) * 2011-05-24 2014-04-09 Biontech AG Individualized vaccines for cancer
CN105999250A (zh) * 2011-05-24 2016-10-12 生物技术公司 用于癌症的个体化疫苗
WO2017020026A1 (en) * 2015-07-30 2017-02-02 Modernatx, Inc. Concatemeric peptide epitopes rnas
CN107430132A (zh) * 2015-02-12 2017-12-01 生物技术Rna制药有限公司 预测可用于疫苗接种的t细胞表位
CN108351916A (zh) * 2015-07-14 2018-07-31 个人基因组诊断公司 新生抗原分析
CN108430456A (zh) * 2015-10-22 2018-08-21 摩登纳特斯有限公司 癌症疫苗
CN108601731A (zh) * 2015-12-16 2018-09-28 磨石肿瘤生物技术公司 新抗原的鉴别、制造及使用

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL2163260T3 (pl) 2004-01-23 2017-12-29 Msd Italia S.R.L. Szympansie adenowirusowe nośniki szczepionek
NZ594355A (en) 2009-02-02 2012-11-30 Okairos Ag Simian adenovirus nucleic acid- and amino acid-sequences, vectors containing same, and uses thereof

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003000894A1 (fr) * 2001-06-25 2003-01-03 Anges Mg, Inc. Vaccins polynucleotides
WO2009109855A2 (en) * 2008-03-06 2009-09-11 University Of Medicine And Dentistry Of New Jersey Immunotherapy for unresectable pancreatic cancer
CN105999250A (zh) * 2011-05-24 2016-10-12 生物技术公司 用于癌症的个体化疫苗
WO2012159643A1 (en) * 2011-05-24 2012-11-29 Biontech Ag Individualized vaccines for cancer
EP2714071A2 (en) * 2011-05-24 2014-04-09 Biontech AG Individualized vaccines for cancer
WO2014012051A1 (en) * 2012-07-12 2014-01-16 Persimmune, Inc. Personalized cancer vaccines and adoptive immune cell therapies
CN104662171A (zh) * 2012-07-12 2015-05-27 普瑟姆尼股份有限公司 个性化癌症疫苗和过继免疫细胞治疗
CN107430132A (zh) * 2015-02-12 2017-12-01 生物技术Rna制药有限公司 预测可用于疫苗接种的t细胞表位
CN108351916A (zh) * 2015-07-14 2018-07-31 个人基因组诊断公司 新生抗原分析
WO2017020026A1 (en) * 2015-07-30 2017-02-02 Modernatx, Inc. Concatemeric peptide epitopes rnas
CN108430456A (zh) * 2015-10-22 2018-08-21 摩登纳特斯有限公司 癌症疫苗
JP2018532777A (ja) * 2015-10-22 2018-11-08 モデルナティーエックス, インコーポレイテッド 癌ワクチン
CN108601731A (zh) * 2015-12-16 2018-09-28 磨石肿瘤生物技术公司 新抗原的鉴别、制造及使用

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
An immunogenic personal neoantigen vaccine for patients with melanoma;Ott, PA,等;NATURE;第547卷(第7662期);第217-221页 *
Neopepsee: accurate genome-level prediction of neoantigens by harnessing sequence and amino acid immunogenicity information;S. Kim,等;Annals of Oncology;第29卷(第04期);第1030-1036页 *
Prediction and prioritization of neoantigens: integration of RNA sequencing data with whole-exome sequencing;Karasaki, T,等;CANCER SCIENCE;第108卷(第02期);第170-177页 *
Prevalence and detection of low-allele-fraction variants in clinical cancer samples;Shin, HT,等;NATURE COMMUNICATIONS;第8卷;文献号 1377 *
The perfect personalized cancer therapy: cancer vaccines against neoantigens;Aurisicchio, L,等;JOURNAL OF EXPERIMENTAL & CLINICAL CANCER RESEARCH;第37卷;文献号 86 *
重组抗体工程及其在肿瘤靶向及癌症治疗中的应用;胡宝成;生物技术通讯(第03期);第226-232页 *

Also Published As

Publication number Publication date
WO2020099614A1 (en) 2020-05-22
EP3881324A1 (en) 2021-09-22
JP7477888B2 (ja) 2024-05-02
KR20210092723A (ko) 2021-07-26
AU2019379306A1 (en) 2021-04-29
MX2021005656A (es) 2021-07-07
CA3114265A1 (en) 2020-05-22
CN113424264A (zh) 2021-09-21
US20210379170A1 (en) 2021-12-09
SG11202103243PA (en) 2021-04-29
BR112021006149A2 (pt) 2021-06-29
JP2022513047A (ja) 2022-02-07
IL283143A (en) 2021-06-30

Similar Documents

Publication Publication Date Title
CN113424264B (zh) 用于生成个性化癌症疫苗的癌症突变选择
Hundal et al. pVAC-Seq: A genome-guided in silico approach to identifying tumor neoantigens
Ogishi et al. Quantitative prediction of the landscape of T cell epitope immunogenicity in sequence space
US11623001B2 (en) Compositions and methods for viral cancer neoepitopes
Daza-Vamenta et al. Genetic divergence of the rhesus macaque major histocompatibility complex
US11441160B2 (en) Compositions and methods for viral delivery of neoepitopes and uses thereof
Zhou et al. Toward in silico identification of tumor neoantigens in immunotherapy
CN110752041B (zh) 基于二代测序的新生抗原预测方法、装置和存储介质
CN112771214A (zh) 用于选择新表位的方法
Wang et al. Chromosome Y–encoded antigens associate with acute graft-versus-host disease in sex-mismatched stem cell transplant
CN114333999A (zh) 一种分子组学与计算结构联用的肿瘤新生抗原检测筛选方法及系统
CA3217623A1 (en) Compositions and method for optimized peptide vaccines using residue optimization
Aranha et al. Combining three-dimensional modeling with artificial intelligence to increase specificity and precision in peptide–MHC binding predictions
Jurtz et al. Computational methods for identification of T cell neoepitopes in tumors
RU2809620C2 (ru) Выбор раковых мутаций для создания персонализированной противораковой вакцины
Battaglia Neoantigen prediction from genomic and transcriptomic data
Hung et al. Genetic diversity and structural complexity of the killer-cell immunoglobulin-like receptor gene complex: A comprehensive analysis using human pangenome assemblies
Al Seesi et al. Geneo: a bioinformatics toolbox for genomics-guided neoepitope prediction
Sverchkova Integrative Approaches to Study the HLA Region in Humans: Applications in Cancer Genomics
Claeys Benchmark of NGS-based prediction algorithms for
Kovacevic et al. INAEME: Integral Neoantigen Analysis with Entirety of Mutational Events
Hundal Sequence analysis methods for the design of cancer vaccines that target tumor-specific mutant antigens (neoantigens)
WO2024036308A1 (en) Methods and systems for prediction of hla epitopes
Chuwdhury et al. ImmuneMirror: A machine learning-based integrative pipeline and web server for neoantigen prediction
Sivakumar High-Throughput computational methods in sequencing and immuno-oncology: Identifying immunogenic mutations and T-cell receptor repertoire dynamics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant