CN110799196A - 致免疫性的癌症特异抗原决定位的排名系统 - Google Patents

致免疫性的癌症特异抗原决定位的排名系统 Download PDF

Info

Publication number
CN110799196A
CN110799196A CN201880019637.1A CN201880019637A CN110799196A CN 110799196 A CN110799196 A CN 110799196A CN 201880019637 A CN201880019637 A CN 201880019637A CN 110799196 A CN110799196 A CN 110799196A
Authority
CN
China
Prior art keywords
peptide chain
histocompatibility complex
major histocompatibility
epitope
immune response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880019637.1A
Other languages
English (en)
Other versions
CN110799196B (zh
Inventor
杨沛佳
郑人豪
陈映嘉
陈淑贞
陈华键
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Action Gene Zhicai Co Ltd
Original Assignee
Action Gene Zhicai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Action Gene Zhicai Co Ltd filed Critical Action Gene Zhicai Co Ltd
Publication of CN110799196A publication Critical patent/CN110799196A/zh
Application granted granted Critical
Publication of CN110799196B publication Critical patent/CN110799196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K39/00Medicinal preparations containing antigens or antibodies
    • A61K39/0005Vertebrate antigens
    • A61K39/0011Cancer antigens
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K16/00Immunoglobulins [IGs], e.g. monoclonal or polyclonal antibodies
    • C07K16/18Immunoglobulins [IGs], e.g. monoclonal or polyclonal antibodies against material from animals or humans
    • C07K16/28Immunoglobulins [IGs], e.g. monoclonal or polyclonal antibodies against material from animals or humans against receptors, cell surface antigens or cell surface determinants
    • C07K16/2803Immunoglobulins [IGs], e.g. monoclonal or polyclonal antibodies against material from animals or humans against receptors, cell surface antigens or cell surface determinants against the immunoglobulin superfamily
    • C07K16/2833Immunoglobulins [IGs], e.g. monoclonal or polyclonal antibodies against material from animals or humans against receptors, cell surface antigens or cell surface determinants against the immunoglobulin superfamily against MHC-molecules, e.g. HLA-molecules
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/705Receptors; Cell surface antigens; Cell surface determinants
    • C07K14/70503Immunoglobulin superfamily
    • C07K14/70539MHC-molecules, e.g. HLA-molecules
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K38/00Medicinal preparations containing peptides
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2317/00Immunoglobulins specific features
    • C07K2317/90Immunoglobulins specific features characterized by (pharmaco)kinetic aspects or by stability of the immunoglobulin
    • C07K2317/92Affinity (KD), association rate (Ka), dissociation rate (Kd) or EC50 value

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Immunology (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Medical Informatics (AREA)
  • Medicinal Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Toxicology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Zoology (AREA)
  • Cell Biology (AREA)
  • Evolutionary Computation (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Oncology (AREA)
  • Microbiology (AREA)
  • Mycology (AREA)
  • Bioethics (AREA)
  • Animal Behavior & Ethology (AREA)

Abstract

本发明与能判断、预测及排名致免疫性T细胞抗原决定位的系统与方法有关,尤其是判断由疾病相关突变所产生的抗原决定位,且其中的抗原决定位被预测为能引起T细胞免疫反应。具体来说,本发明同时考虑了胜肽链级信息(包含胜肽链在主要组织兼容性复合体类型一及类型二的呈现和辅助性与胞杀性T细胞的免疫反应上的影响)以及样本级信息(包含突变群落性和主要组织兼容性复合体等位基因表现量)。在一些实施例中,上述系统与方法被使用在癌症个人化医疗上。

Description

致免疫性的癌症特异抗原决定位的排名系统
技术领域
本发明关于致免疫性的抗原决定位,尤其是一种判断、预测致免疫性癌症特异抗原决定位并将其排名的系统与方法。
背景技术
以肿瘤特异抗原(tumor-specific antigen)引起免疫反应对抗肿瘤细胞为抵抗癌症带来契机。这些抗原被认定为肿瘤基因体学及免疫疗法的临床效用之间的连结。大致上,带有致癌突变的基因会产生带有突变的胜肽链。这些胜肽链接下来会和主要组织兼容性复合体(MHC)类型一和二结合,并且呈现到肿瘤细胞表面而作为抗原。免疫系统中特别是胞杀性T细胞(cytotoxic T cell)及辅助性T细胞(helper T cell)会辨识这些抗原为异己物而引发免疫反应。许多这类的抗原为肿瘤所专属的,而不曾被免疫系统辨识过。因此,它们是作为免疫疗法合适的标的,因为能将治疗用于肿瘤细胞而不伤害正常细胞。
用肿瘤特异抗原来引起T细胞反应的方法展现出不同的结果。用这些抗原时,会面对两项障碍:第一项:免疫细胞必须辨识这些抗原为异己物,并在不攻击正常细胞的状况下引发免疫反应;第二项:即便是T细胞辨识到抗原为异己物,我们身体中的细胞(包括带有突变的肿瘤细胞)都有安全检查机制(称为免疫检查点(immune checkpoint))会防止T细胞进行长期高强度的攻击,而免疫疗法的成功需仰赖这些免疫检查点失去功能才有效。上述第二项障碍在近年来成为亮点。随着药物、临床试验、及目标癌种类的成长,免疫检查点抑制剂(immune checkpoint inhibitor)例如:抑制PD1、PDL1、及CTLA4等抗体被研发出来。但是,其中仍有很大的进步空间,因为免疫检查点抑制剂疗法的反应率只有大约20%或更低。因此在进行疗法前,事先筛选会对疗法敏感的病人较理想。带有高质或高量的肿瘤特异抗原,被认为和疗法的反应率及存活率有高度相关。为了加速对实施免疫检查点抑制剂的病人进行筛选,对于能准确地辨识这些抗原有了高度需求。
相较之下,开发直接选择T细胞能辨识的抗原的进展仍相对处于停滞状态。T细胞在辨识外部抗原后会引发攻击,但是,目前仍没有有效的方法可以让T细胞辨识肿瘤特异抗原。治疗方法可以大致分为癌症疫苗和细胞输入疗法。治疗型癌症疫苗的目标,是从初始T细胞组成库(
Figure GDA0002291392310000011
T cell repertoire)中扩增T细胞,并重新活化原有T细胞以延缓肿瘤成长并且让肿瘤缩小。此疫苗由肿瘤特异抗原组成,且这些抗原是由其可引起免疫反应的能力而筛选出来的。但是,欠佳的致免疫性抗原筛选使得疫苗的进展被阻碍而效果不佳。细胞输入疗法直接聚焦于训练免疫细胞来攻击肿瘤细胞。免疫细胞(通常是T细胞或是树突细胞(dendritic cell))是从病人中收集并且进一步在实验室中培养。然后,筛选能够透过辨认肿瘤特异抗原而成功去除肿瘤细胞的T细胞,且再输入回病人体内。但是,这个方法因为抗原选择方法效率欠佳而造成低成功率。由前述两种方法中可得知,筛选出最佳的致免疫性肿瘤特异抗原是免疫疗法要达到临床效用所必须的。
一种能可靠地判断致免疫性肿瘤特异抗原的方法具有广泛的应用并且对于多种免疫疗法策略皆有关键效用。目前判断肿瘤特异抗原的方法通常包含辨识突变以及预测抗原决定位(即为抗原当中决定抗原能够引起免疫反应的位置(epitope))和主要组织兼容性复合体的结合亲和力。用来预测抗原决定位的工具有数种,但是彼此间的预测结果并不相符合,且实验只能够验证大约55%被预测出的抗原决定位(Rajasagi M et al.,Blood.2014 Jul 17;124(3):453-62.)。典型的方法是基于胜肽链序列,而没有同时考虑主要组织兼容性复合体的两种类型及其相对应的免疫细胞。并且,每位病患或是样本都有其特殊性质会影响预测,而这些样本特异特性并未被目前癌症抗原(neoantigen)排名方法考虑到。这些特性可以概括以等位基因的量(allele dosage)来描述。当带有突变的等位基因及主要组织兼容性复合体的等位基因量较高时,免疫系统将有更高的机会可以辨识到肿瘤特异抗原,进而影响抗原决定位的预测。本发明所揭示判断、预测致免疫性T细胞抗原决定位并将其排序的系统与方法,其中运用到包含胜肽链级信息以及样本级信息。胜肽链级信息同时包含主要组织兼容性复合体类型一及二的呈现、CD4活化、及CD8活化,而样本级信息包含等位基因量,亦即带有突变的等位基因的群落性(clonality)、即主要组织兼容性复合体的等位基因数目。而且,此系统与方法整合了完整的因素清单,每样都是基于细胞生化反应过程、肿瘤特异性质、抗原呈现过程以及免疫活化过程。本发明所揭示用各个因素的权重来达到抗原决定位的最佳筛选方式。本发明还揭示一个抗原决定位的排名方法,可用于研发个人化治疗方法,如癌症疫苗、细胞输入疗法(adoptive cell transfer)、或是免疫检查点抑制剂等。
发明内容
本发明揭示一种系统和方法用来从病人的肿瘤组织中判断抗原决定位,并且预测和排名抗原决定位是否可诱发针对疾病的免疫反应。本系统和方法同时考量抗原决定位的胜肽链级(peptide-level)信息和肿瘤组织的样本级(sample-level)信息,胜肽链级特性为胜肽链序列与主要组织兼容性复合体(major histocompatibility complex,MHC)类型一及类型二、辅助型T细胞(helper T cell)的活化、胞杀性T细胞(cytotoxic T cell)的活化相关的特性;样本级信息为肿瘤特异信息,包含突变等位基因之群落性(clonality ofmutated allele)和主要组织兼容性复合体的数量。本系统和方法整合上述因素,并针对各种因素计算权重,代表可诱发免疫反应的程度。本系统和方法会给予每个抗原决定位一个致免疫性数值(immunogenicity score),并以该数值排列抗原决定位的优先级,以提供后续个人化医疗的参考依据。
本系统需要次世代定序分析所得到的突变位点和拷贝数变异信息、其他定序相关信息包含:原始测序片段、主要组织兼容性复合体型别进行运算。在一些实施例中,主要组织兼容性复合体型可以与包含突变位点的个体为同一个或是不同个体。本系统会输出一组与突变相关的抗原决定位,包含:(a)具有突变的胜肽链序列;(b)胜肽链级数值(peptide-level score),其代表胜肽链可被呈现和活化免疫反应的能力;(c)样本级数值(sample-level score),其代表异质肿瘤中的突变群落性;(d)抗原决定位的排名,其代表使用于免疫疗法时,其预测的疗效的优先级。
本案的系统和方法涵盖下述的部分或所有步骤:(1)辨识次世代定序分析所判断的突变,其包含:突变位点分析、突变位点标注、拷贝数分析、异质性丧失(loss ofheterozygosity)分析、肿瘤纯度(tumor purity)分析;(2)分析具有突变位点的基因特性;(3)从公开数据库中组织特异和疾病特异资料判断基因表现量;(4)从公开数据库中组织特异和疾病特异资料判断蛋白质量;(5)取得含有突变位点的胜肽链。与主要组织兼容性复合体类型一相关的胜肽链的长度为8~15个胺基酸,8~11个胺基酸长为首选。与主要组织兼容性复合体类型二相关的胜肽链的长度为9~23个胺基酸;(6)预测胜肽链与主要组织兼容性复合体类型一以及类型二的结合;(7)预测胜肽链能够活化CD8+T细胞和CD4+T细胞免疫反应的能力;(8)预测胜肽链是否会经由抗原呈现程序被呈现于细胞表面;(9)比较有突变的胜肽链和没突变的胜肽链之间的差异;(10)比较胜肽链和已知抗原的差异;(11)判断主要组织兼容性复合体类型一的等位基因量,并加入组织兼容性复合体类型一的分析;(12)结合和整合步骤1~11、计算胜肽链级因素的权重并预测胜肽链级的致免疫性;(13)计算群落突变位点的突变频率(clonal mutation frequency)并用于样本级数值;(14)整合胜肽链级数值和样本级数值为致免疫性数值;(15)判断基因拷贝缺失,当基因失去所有拷贝时致免疫性数值将设为零;(16)将致免疫性数值做排名。
判断抗原决定位致免疫性之因素包括下述一种、多种、或任何组合但不限于(i)突变的变异频率;(ii)拷贝数变异;(iii)异质性丧失;(iv)肿瘤纯度;(v)突变等位基因的群落性;(vi)与已知抗原序列的同源性(抗原同源性);(vii)在主要组织兼容性复合体类型一交互作用中与野生型的相似性(自体相似性);(viii)在主要组织兼容性复合体类型二交互作用中与野生型的相似性(自体相似性);(ix)基因表现量;(x)蛋白质量;(xi)蛋白酶体切割位倾向性(proteasome cleavage);(xii)TAP运输效率(TAP transport);(xiii)主要组织兼容性复合体类型一结合亲合力;(xiv)主要组织兼容性复合体类型二结合亲合力;(xv)主要组织兼容性复合体类型一结合稳定性;(xvi)主要组织兼容性复合体类型一的等位基因量(allele dosage);(xvii)胜肽链序列和致免疫性T细胞抗原决定位序列的一致序列矩阵(consensus sequence matrix)的相似性。
在一些实施例中,有些个体中含有较高的等位基因量,例如拥有纯和子对(homozygous pair)的主要组织兼容性复合体。较高的的等位基因量可能导致抗原呈现上的增加效果。本模型将等位基因量的增加效果加入主要组织兼容性复合体类型一的计算中。
在胜肽链级数值计算中,我们利用上述的因素vi至xv建构四套机器学习模型。模型一预测主要组织兼容性复合体类型一的呈现,包含基因表现、蛋白质量、蛋白酶体切割位倾向性、TAP运输效率、主要组织兼容性复合体类型一结合亲合力、主要组织兼容性复合体类型一结合稳定性、主要组织兼容性复合体的等位基因量。模型二预测主要组织兼容性复合体类型二的呈现,包含主要组织兼容性复合体类型二结合亲合力。模型三预测辅助型T细胞的活化,包含自体相似性和抗原同源性。模型四预测胞杀性T细胞(cytotoxic T cell)的活化,其包含:自体相似性、抗原同源性和主要组织兼容性复合体类型一的致免疫性。模型三和模型四的训练资料来自体外T细胞免疫反应实验的结果。我们利用机器学习回归器和数据分析方法整合这四个模型和其组合。最终模型包含加权后的因素、特征筛选和叠代调整后的最佳化机器学习模型。最后本模型利用已知俱备致免疫性之抗原决定位进行验证。
在样本级数值计算中,我们利用上述的因素(i)至(v)计算突变是否为群落突变。肿瘤可能包含数个群落,而每一个群落都拥有独特的基因组成。如一个突变出现于大多数群落中,该突变便被定义为群落突变,代表群落突变发生于癌症演化早期的「主干」(trunk)时间点中。群落突变衍生的肿瘤特异抗原存在于大多数肿瘤细胞中,因此极有可能遭受免疫攻击。相反的,从亚群落衍生的肿瘤特异抗原属于「分支」(leaf)突变,只存在于少数肿瘤细胞中,就算遭受攻击,其他群落并不会有影响。判断群落突变需要利用最大似然的期望变异频率(maximum likelihood of expected frequency)计算突变等位基因的数量,接着估算亚群落的纯度(subclonal purity)。求得亚群落的纯度和肿瘤纯度后便可计算样本级数值。
致免疫性数值包含胜肽链级数值和样本级数值。本系统将每一个抗原决定位依照致免疫性数值高低排名。本系统最终输出抗原决定位、致免疫性数值和排名。
附图说明
图1为系统流程图。呈现系统进行运算时的整体流程和主要步骤。
图2为输入和输出流程图。本系统需输入次世代定序分析所产出的变异和样本信息以及主要组织兼容性复合体信息。本系统会输出胜肽链序列、胜肽链级数值、样本级数值、致免疫性排名。
图3为依据T细胞特征比较免疫反应,即有免疫反应及无反应的胜肽链级数值分布;A)为实施例5的特征包含CD4+细胞相关的自体相似性和抗原同源性;B)为实施例6的特征包含CD8+免疫性。上述图中p值是由独立双样本中位数差异检定所计算出来。
图4为依据抗原表现特征和T细胞特征比较免疫反应,即有免疫反应及无反应的胜肽链级数值分布;A)为实施例7的特征包含CD4+细胞相关的自体相似性、抗原同源性和实施例4的特征;B)为实施例8的特征包含CD8+相关的CD8+免疫性和实施例1的特征。以上图中p值是由独立双样本中位数差异检定所计算出来。
图5为依据抗原预测数值和T细胞特征比较免疫反应。有免疫反应及无反应的胜肽链级数值分布;A)实施例9的特征包含CD4+细胞相关的自体相似性、抗原同源性和实施例4的模型所预测的数值;B)实施例10的特征包含CD8+相关的CD8+免疫性和实施例1的模型所预测的数值。图中p值是由独立双样本中位数差异检定所计算出来。
图6为依据抗原表现信息和两种T细胞特征比较免疫反应。有免疫反应及无反应的胜肽链级数值分布;A)为实施例11包含实施例5和实施例6;B)为实施例8包含实施例9和实施例10。
图7为前50名胜肽链级数值所包含的有反应的胜肽链。长条图表示实验证实有CD8+反应的胜肽链数量,胜肽链同时在前50名胜肽链级数值中。每一张图代表一位病人。虚线代表每位病人中有免疫反应的胜肽链的总数。
具体实施方式
在一些实施例,本发明揭示了在精准医疗的重大计划中,一个能够判断疾病特异抗原决定位(epitope),以及预测抗原决定位的致免疫性并将抗原决定位排名以更进一步用于病人个人化治疗的整合性系统及方法。该系统及方法整合了以定序为基础的突变位点分析(variant calling)、以定序为基础的拷贝数(copy number)判别、序列比对、相似性矩阵、机器学习、最佳化方法以及数学建模以用于致免疫性抗原决定位的准确且切实的判断(如图1所揭示)。该系统及方法考量了每个组成细胞生化反应过程(cellular process)、肿瘤特异性质、抗原呈现(antigen presentation)过程以及免疫活化过程的组成性质(component),在每个过程中的组成性质则依照其在细胞中的实际功能来计算为系统中的考量因素(factor),接着每个因素根据其对抗原决定位的致免疫性的贡献程度来给予其权重,而一个给予权重的因素可帮助探讨抗原决定位具致免疫性的成因并促进临床及研究上的进展。上述系统考虑了代表胜肽链级信息(peptide-level information)及样本级信息(sample-level information)的因素并利用该因素将抗原决定位的致免疫性进行评分,在本案中也会根据预测出的抗原决定位的致免疫性数值来将判断出的抗原决定位进行排名。
在本案中所使用的术语应被视为以描述实施例及申请专利范围为目的,任何术语的时态变化及字根改变不应被视为限制本案的效果,而任何术语的其他惯用同义词使用也不应被视为限制本案的效果。
当有其他可能不同的替代做法时,本发明并不受限于本文中所描述的特定方法或规程或程序,而在本发明中所描述的具体实施例仅为范例,不应被解释为用来限制本案的范畴。
在本发明中所使用的单数形式冠词:一个、所述等,具体来说也包含其字词所指内容的复数形式,除非内文中另有明定。
「组成性质(component)」这个字词意指为突变的特异性质或基因的特异性质或细胞生化反应过程中的特定步骤或样本的特异性质。
「因素(factor)」这个字词意指为组成性质在计算上的代表,其中因素可能以数学公式计算出来或以计算工具预测出来或做为一个类别被分类出来。
「胜肽链(peptide)」这个字词意指为各种不同长度的胺基酸序列,其可能具有或不具有致免疫性,也可能是或不是和肿瘤相关。「抗原(antigen)」这个字词意指为具免疫性而能被免疫系统所辨识的胜肽链。「抗原决定位(epitope)」这个字词意指为一个能被呈现在细胞表面上的短片段抗原,抗原决定位可能透过「蛋白酶体(proteasome)」切割长片段抗原所产生。
「癌症疫苗(cancer vaccine)」这个字词意指为以治疗癌症为目的并藉由增强人体免疫系统来对抗癌症的治疗性疫苗,其不应与在发生疾病之前以预防为目的而普遍施用的预防性疫苗有所混淆。
「主要组织兼容性复合体(major histocompatibility complex,MHC)」这个字词意指为其任何变异型态和名称,其中包括但不限于其类型、其替代名称如「人类白血球抗原(human leukocyte antigen,HLA)」、其种类如A、B、C、DRB1、DPA1、DPB1、DQA1及DQB1等等。
「突变(mutation)」这个字词除非另有明定,否则其意指为非同义体细胞突变(nonsynonymous somatic mutation),包含误义突变(missense mutation)、移码突变(frameshift mutation)及剪接位突变(splice site mutation)。「变异(variant)」这个字词包含突变但更进一步包含结构上的变异,包括拷贝数变异(copy number variation)、染色体的重组(rearrangement)、融合(fusion)、易位(translocation)及倒置(inversion)。体细胞变异(somatic variant)被定义为没有出现在生殖细胞中并出现在生命后期,特别是在癌症发展过程中的变异,变异可能导致肿瘤形成或为伴随癌症发生的变异。
「定序深度(total depth)」这个字词意指为在特定基因位置定序出的测序片段(read)总量。
在一些实施例中,本系统和方法可接收次世代定序资料(如图2所揭示)。次世代定序资料可以是(VCF)档案、(SAM)档案、(BAM)档案、FASTQ档案或任何其他未处理或处理过的档案。VCF档案包含所有突变在基因体上的信息,所述信息包含但不限于突变等位基因、参考等位基因(reference allele)、染色体、染色体上位置、突变的变异频率、和定序深度。在一些实施例中,使用者必须提供大片段变异的信息,包含:拷贝数变异、肿瘤纯度和异质性丧失。在一些实施例中,本系统可接收SAM档或是BAM档,上述的信息都可从SAM档或是BAM档求得。在一些实施例中,本系统可接收FASTQ档,上述的信息都可在与参考基因体(reference genome)进行序列比对后求得。
本系统可接收主要组织兼容性复合体的类型(如图2所揭示)。在一些实施例中,主要组织兼容性复合体包含类型一的各种亚型但不限于A型、B型和C型,且需要四位数的分辨率。在一些实施例中,主要组织兼容性复合体包含类型二的各种亚型但不限于DRB1型、DPA1型、DPB1型、DQA1型和DQB1型,且需要四位数的分辨率。在一些实施例中,主要组织兼容性复合体类型可从次世代定序资料求得。
本案描述判断抗原决定位和预测致免疫性的系统和方法,系统和方法包含下述一种、多种或任何组合的因素但不限于(i)突变位点分析所判定的突变的变异频率;(ii)拷贝数变异;(iii)突变的异质性丧失;(iv)肿瘤纯度;(v)突变等位基因的群落性;(vi)以序列比对判断与已知抗原序列的同源性(抗原同源性);(vii)计算突变胜肽链与主要组织兼容性复合体类型一的结合亲合力和野生型胜肽链与主要组织兼容性复合体类型一的结合亲合力,接着计算两种结合亲合力的比率决定突变胜肽链和野生型胜肽链的相似性;(viii)计算突变胜肽链与主要组织兼容性复合体类型二的结合亲合力和野生型胜肽链与主要组织兼容性复合体类型二的结合亲合力,接着计算两种结合亲合力的比率决定突变胜肽链和野生型胜肽链的相似性;(ix)由公开数据库中取得组织特异和疾病特异实验资料所判定的基因表现量;(x)由公开数据库中取得组织特异和疾病特异实验资料所判定的蛋白质量;(xi)以蛋白质降解资料所判定的蛋白酶体切割位倾向性;(xii)以TAP运输速率资料所判定的TAP运输效率;(xiii)以体外实验结果所判定的主要组织兼容性复合体类型一的结合亲合力;(xiv)以体外实验结果所判定的主要组织兼容性复合体类型二的结合亲合力;(xv)主要组织兼容性复合体类型一的结合稳定性;(xvi)主要组织兼容性复合体类型一的等位基因量;(xvii)以体外(in vitro)和离体(ex vivo)T细胞扩增实验结果所判定的胜肽链序列免疫性。
抗原决定位会经由抗原呈现程序表现在细胞表面上。癌症特异抗原决定位的呈现程序会先从基因突变所衍生的突变胜肽练开始,经由蛋白酶体切割成小片段胜肽链,接着透过TAP进入内质网。在内质网中,胜肽链会与主要组织兼容性复合体结合,再一起被呈现于细胞表面上以提供免疫细胞辨识。上述抗原呈现程序中的每一个步骤都会影响抗原决定位的致免疫性。
肿瘤中的突变并不见得会出现于所有肿瘤细胞中。如果一个突变所衍生的致免疫抗原决定位出现于大部分的肿瘤细胞中,免疫细胞更有机会辨识并攻击大部分肿瘤细胞,进而消灭肿瘤。因此,含有突变的细胞比例(以0~100%的变异频率作为代表)就成为一个判断抗原决定位致免疫性的重要依据。一个较高的变异频率代表一个突变存在于大部分肿瘤中,进而影响免疫攻击的效用。其他变异信息,包含拷贝数变异、异质性丧失、肿瘤纯度、突变等位基因的分群性等都同样反映肿瘤细胞是否会产出代有突变的抗原决定位,导致肿瘤细胞遭受免疫攻击。
产生出抗原决定位的一项先决条件是必须有基因表现。侦测肿瘤样本内的基因表现量可通过次世代定序(例如RNA定序)、微阵列(microarray)、实时聚合酶连锁反应(quantitative real-time PCR)或北方墨点法(Northern Blot)等实验测得。组织和癌症特异基因表现资料可从公开数据库取得。利用公开数据库中的资料可免除低表现基因所造成的噪声,得到真正有表现的基因的信息。虽然转录有一套复杂的调控机制,但目前已知基因体任何位置都可被转录,低表现量的基因仍然可被实验侦测到而造成过多噪声。因此,多数人在相同的疾病组织中都有表现的基因可以代表所述基因普遍会表现于疾病细胞中。基因表现后再经过转译才能产生抗原决定位。在一些资料集中,基因表现量可以是定性的表现方式,例如:低、中、高。在这些资料集中,定性资料可以被转成数值,例如:0、1、2、3。在其他资料集中,基因表现量可以是任何单位的数值,例如为一个比例或是自行判断的一个单位。在一些实施例中,本系统的机器学习模型可接收数值或转换而成的数值。一个没有被表现的基因会以低、0、或无表现表示。在其他实施例中,没有被表现的基因会被筛除。相反的,被上述实验资料所判定为表现量高的基因会有助于决定抗原决定位的量。一个高表现量的抗原决定位有较高的机会接触到主要组织兼容性复合体,也更容易被呈现于细胞表面。
蛋白质量信息可利用质谱分析、免疫荧光法、免疫组织化学法或是西方墨点法(Western Blot)侦测。蛋白质量可从公开数据库中取得。带有突变的抗原决定位的蛋白质量有助于判断抗原决定位和主要组织兼容性复合体的结合。一个抗原决定位虽然可能俱备非常高的致免疫性,但其含量可能非常少而因此无法引起免疫反应。在一些资料集中,蛋白质量可以是定性的表现方式例如:低、中、高。在这些资料集中,定性资料可以被转换成数值,例如:0、1、2、3。在其他资料集中,蛋白质量可以是各种单位的数值,例如为一个比例或是自行判断的一个单位。在一些实施例中,本系统的机器学习模型接收数值或转换而成的数值。一个没有被侦测到的蛋白质会以低、0、或无表现代表。在其他实施例中,没有被侦测到的蛋白质会被筛除。相反的,被上述实验资料所判定为量高的蛋白质会有助于判断抗原决定位的量。一个高蛋白质量的抗原决定位有较高的机会接触到主要组织兼容性复合体,也更容易被呈现于细胞表面。
本系统和方法会判断突变的胜肽链和没突变的野生型胜肽链之间的相似性。如果一个突变的胜肽链和野生型胜肽链非常相似,免疫细胞有可能会认为突变的胜肽链是自体的并且容忍它的存在。判断突变和野生型胜肽链的相似性可计算两者和主要组织兼容性复合体结合亲合力,并计算两个结合亲和力的比例。主要组织兼容性复合体类型一及类型二都会进行计算。
本系统和方法会判断突变胜肽链和已知抗原的同源性。已知抗原来自细菌、病毒、或其他病原体,并且在大部分情况会引起T细胞的免疫反应。如果一个突变胜肽链和已知抗原非常相似,便更有可能引起免疫反应。我们利用序列比对分析决定突变胜肽链和已知抗原两者序列的同一性(identity)和有同一性的序列长度来判断抗原同源性。同源性是指突变胜肽链中包含有同一性抗原序列的比例。
抗原决定位会在内质体接触到主要组织兼容性复合体。进入内质体前,突变胜肽链必须先被蛋白酶体切割成适合大小的抗原决定位。蛋白酶体切割位预测是一个0到1的数值。在最佳情况下,抗原决定位内不包含可能被蛋白酶体切割的位置,有较小可能性在被呈现前就被分解。接着抗原决定位需要透过TAP蛋白质运输进内质体。TAP运输效率可用IC50数值表示,其中数值越低的IC50代表运输越有效率。可被有效运输的抗原决定位便有较高可能性接触主要组织兼容性复合体。
抗原决定位必须和主要组织兼容性复合体结合才可以被呈现于细胞表面。主要组织兼容性复合体类型一可与8~15个胺基酸长度的抗原决定位结合,但8~11个胺基酸长度为首选。主要组织兼容性复合体类型二可与9~23个胺基酸长度的抗原决定位结合,但15和16个胺基酸长度为首选。抗原决定位和主要组织兼容性复合体的接合位(anchorposition)会随着不同主要组织兼容性复合体的类型而改变。抗原决定位上特定胺基酸与接合位的结合能力的对抗原呈现非常重要,对结合亲合力预测非常重要。IC50数值小于1500nM或是1000nM代表与主要组织兼容性复合体类型一及类型二有较好的结合亲合力,小于500nM更好,其代表抗原决定位极有可能与主要组织兼容性复合体结合和呈现于细胞表面上。
除了结合亲合力之外,结合稳定性也是抗原呈现程序上重要的因子。抗原决定位或许可和主要组织兼容性复合体形成非常强的结合力,但若是其与主要组织兼容性复合体的结合时间长度不足则可能无法使其被呈现。亦即如果抗原决定位在被呈现之前就与主要组织兼容性复合体分离,此抗原决定位也就无法被呈现于细胞表面上。主要组织兼容性复合体的结合稳定性(其半衰期数值为0到1)代表抗原决定位与主要组织兼容性复合体结合的时间。上述结合时间越长则抗原决定位越有机会被呈现于细胞表面上。
主要组织兼容性复合体类型一的免疫性代表抗原决定位的组成可引起免疫反应的能力。特定抗原决定位序列可能会对活化胞杀性T细胞的T细胞受体(T-cell receptor)有生化反应。触发T细胞受体是免疫攻击的第一步。主要组织兼容性复合体类型一免疫性是一个从-1到1的数值。较高的主要组织兼容性复合体类型一免疫性代表所述的抗原决定位较有可能引起T细胞扩增。
有些个体拥有同样类型的主要组织兼容性复合体,代表来自父母的主要组织兼容性复合体是同一种类型,称作纯和子对(homozygous pair)。纯和子主要组织兼容性复合体等位基因(homozygous MHC allele)可能因为等位基因量(allele dosage)的效应造成加成效果。纯和子主要组织兼容性复合体等位基因拥有较高量可与抗原决定位结合的等位基因,因此提高抗原决定位呈现于细胞表面上的可能性。此外,细胞表面上有较高量的主要组织兼容性复合体也会提高T细胞辨识抗原决定位的可能性。因此,此加乘效果也被纳入计算中。
依照上述任一有关于个体接受免疫疗法而得到的免疫反应资料的方法,没有免疫反应可能是因为负责抗原呈现机制的因子有缺陷。这些缺陷会令抗原呈现程序失去功能,因此就算抗原决定位具备致免疫性,他们还是无法呈现于细胞表面上。这些状况是决定免疫疗法疗效计算中的混乱因子(confounding factors),因此具有抗原呈现机制缺陷的个体将不纳入计算中。
依照上述任何一种方法,每个因素的权重是从本判断系统所决定。本判断系统包含特征选择(feature selection)、机器学习(machine learning),验证(validation)、叠代模型调整和最佳化(iterative model tuning for optimization)。特征挑选后所包含的特征如下:
胜肽链级特征
主要组织兼容性复合体类型一呈现:基因表现量、蛋白质量、蛋白酶体切割位倾向性、TAP运输、主要组织兼容性复合体类型一结合亲合力、主要组织兼容性复合体类型一稳定性。
主要组织兼容性复合体类型二呈现:主要组织兼容性复合体类型二结合亲合力。
辅助型T细胞活动:自体相似性、抗原同源性。
胞杀性T细胞活动:自体相似性、抗原同源性、主要组织兼容性复合体类型一免疫性
样本级特征
突变等位基因的群落性、主要组织兼容性复合体类型一的等位基因量。
利用上述对应的特征,可计算出四种模型的胜肽链级数值,其中模型包含:主要组织兼容性复合体类型一、主要组织兼容性复合体类型二、辅助型T细胞活化、胞杀性T细胞活化。此外,主要组织兼容性复合体类型一包含样本级特征主要组织兼容性复合体类型一的等位基因量。我们利用机器学习回归器的结果整合这四种模型和它们的组合。我们还运用叠代模型调整和最佳化方法计算胜肽链级数值,并利用已知致免疫性抗原决定位验证上述模型。我们接者以数学或分析方式(例如:乘积)整合任二或多个模型得到最终模型。
我们从突变等位基因的群落性之计算得到样本级数值。在癌症早期发展阶段所形成的突变是群落突变或是「主干」突变,其代表它们在癌症突变演化中发生于主干的时段而不在分支的时段。群落突变会出现于大部分癌细胞中。判断群落突变需要求得期望变异频率和观察变异频率的统计显著性,再计算突变等位基因的期望数量,接着用突变等位基因数量计算亚群落纯度。样本级数值便是亚群落纯度和肿瘤纯度的比例。
将胜肽链数值和样本级数值整合便可得到致免疫性数值。本模型利用叠代计算进行参数调整,每一代将会重新建构和训练模型。拥有最好效能的模型就是最终模型。每一个抗原决定位将会计算一个致免疫性数值,而致免疫性数值的大小代表本系统对每一个癌症特异抗原决定位的排名。
上述模型是利用机器学习方法所建构,其包含:主要组织兼容性复合体类型一、主要组织兼容性复合体类型二、辅助型T细胞活化、胞杀性T细胞活化,以及整合这些模型和样本级数值而求得的最终致免疫性数值。各种机器学型模型都可用于训练本模型上,例如:回归类模型(regression-based models)、树类模型(tree-based models)、贝氏类模型(Bayesian models)、支援矢量机(support vector machines)、提升类模型(boostingmodels)和神经网络类模型(neural network models)。
本案的系统和方法可有助于癌症免疫学。本系统提供一套可以帮助病患的疗法的做法。本系统所判断的致免疫性抗原决定位可用于各人化医疗和各种免疫疗法,例如:免疫检察点抑制剂(immune-checkpoint inhibitor)、癌症疫苗(cancer vaccine)、或是细胞输入疗法(adoptive cell transfer)。癌症疫苗和细胞输入疗法中,排名好的抗原决定位可以提供制作疫苗或是训练免疫细胞时较高潜力的胜肽链选择。在免疫检察点抑制剂疗法中,致免疫性抗原决定位的数量可用于预测用药后的药效。本系统适用于针对个人的精准医疗或是用于广大群众的疗法上。
实验示例
实施例1:以胜肽链和主要组织兼容性复合体类型一(MHC class I)的结合亲和力(binding affinity)及结合稳定性(binding stability)来预测胜肽链被主要组织兼容性复合体类型一呈现的情形。
一个胜肽链若要成为一个抗原则该胜肽链需要能被主要组织兼容性复合体呈现在细胞表面上且进而被免疫细胞所辨识。上述过程包含:胜肽链在抗原呈现细胞中由主要组织兼容性复合体类型二(MHC class II)呈现给CD4+T细胞、胜肽链在抗原呈现细胞中由主要组织兼容性复合体类型一呈现给CD8+T细胞以及胜肽链在肿瘤细胞中由主要组织兼容性复合体类型一呈现给CD8+T细胞。在本实施例中,我们以所选特征建构出一个模型来预测胜肽链被主要组织兼容性复合体类型一呈现的情形。
我们以胜肽链结合亲和力及胜肽链结合稳定性这两个能影响胜肽链和主要组织兼容性复合体类型一结合的特性来建构出一个用以预测胜肽链被主要组织兼容性复合体类型一呈现情形的模型。我们使用NetMHC4.0软件(Andreatta M and Nielsen M,Bioinformatics(2016)Feb 15;32(4):511-7;Nielsen M,et al.,Protein Sci.,(2003)12:1007-17)来计算胜肽链和主要组织兼容性复合体类型一的结合亲和力(IC50),若主要组织兼容性复合体类型一不适用NetMHC4.0软件则改用NetMHCpan3.0软件(Nielsen M andAndreatta M,Genome Medicine(2016):8:33;Hoof I,et al.,Immunogenetics 61.1(2009):1-13)。我们使用NetMHCstabpan1.0软件(Rasmussen M,et al.,J Immunol.2016Aug 15;197(4):1517-24)来计算胜肽链和主要组织兼容性复合体类型一的结合稳定性。我们从Bassani-Sternberg等人的研究(Bassani-Sternberg et al.,Molecular&CellularProteomics,2015 and Bassani-Sternberg et al.,Nature Communications,2016)中搜集训练资料来训练机器学习模型。而资料中的胜肽链只要是由不只一个基因所产生出来的胜肽链或是没有被标注为未修饰的胜肽链或是其胜肽链长度不介于9~11的胜肽链均会被从训练资料中移除。资料中若胜肽链及其对应的人类白血球抗原(HLA)类型被确认可形成胜肽链与人类白血球抗原类型的复合物且被呈现出来,则该资料则将被作为阳性(Positive)资料;若同一个胜肽链对应其他人类白血球抗原类型无法被确认可形成复合物且被呈现出来,则该资料则会被作为阴性(Negative)资料。每一个胜肽链与其对应的人类白血球抗原类型的结合亲和力及结合稳定性之计算方式则依上述进行计算。我们以胜肽链对主要组织兼容性复合体类型一的结合亲和力及结合稳定性作为特征来建构一个逻辑回归模型,并且利用Scikit-learn(Fabian Pedregosa et al.,JMLR(2011)Oct 12:2825-2830)中的LogisticRegression套件来预测主要组织兼容性复合体类型一的胜肽链呈现情形。在执行十次交叉验证(ten-fold cross-validation)后,训练资料中测试资料集的预测准确度(accuracy)及接收者操作特征曲线下面积(AUC ofROC)如表1中所揭示。在此模型中,我们发现特征中结合亲和力对于预测结果的影响力比结合稳定性还要强。
实施例2:以胜肽链和主要组织兼容性复合体类型一的结合亲和力及胜肽链其所属基因的表现程度来预测胜肽链被主要组织兼容性复合体类型一呈现的情形。
除了胜肽链和主要组织兼容性复合体类型一的结合能力之外,胜肽链被表现的程度对于胜肽链是否可被呈现也是很重要的。在本实施例中,我们以胜肽链其所属基因的表现情形以及胜肽链和主要组织兼容性复合体类型一的结合亲和力建构出一个模型来预测胜肽链被主要组织兼容性复合体类型一呈现的情形。
我们以实施例1中所揭示的方式来计算胜肽链和主要组织兼容性复合体类型一的结合亲和力,并通过计算胜肽链其所属基因的RNA表现量以作为所述胜肽链其所属基因的表现程度。而各个胜肽链其所属基因的表现程度则从Illumina Body Map数据库(Petryszak R et al.,Nucleic Acids Res.2016 Jan 4;44(D1):D746-52)中获得。如实施例1中所揭示,我们从Bassani-Sternberg等人的研究中搜集训练资料来训练机器学习模型,并且以同样的方式进行筛选。若胜肽链及其对应的人类白血球抗原类型被确认可行成所述复合物且可被呈现出来,则该资料将被作为阳性资料;若同一个胜肽链对应其他人类白血球抗原类型无法被确认可行成所述复合物且被呈现出,则该资料将被作为阴性资料。每一个胜肽链和其对应的人类白血球抗原类型的结合亲和力以及胜肽链其所属基因的表现程度的产生方式则如前述。进一步地,我们以胜肽链对主要组织兼容性复合体类型一的结合亲和力以及胜肽链其所属基因表现程度作为特征来建构逻辑回归模型,并且利用Scikit-learn中的LogisticRegression套件来预测主要组织兼容性复合体类型一的胜肽链呈现情形。在执行十次交叉验证后,训练资料中的测试资料集的预测准确度及接收者操作特征曲线下面积如表1中所揭示。在此模型中,我们发现结合亲和力对于预测结果的影响力比基因表现程度还要强。
实施例3:以胜肽链和主要组织兼容性复合体类型一的结合亲和力以及胜肽链其所属蛋白质表现量来预测胜肽链被主要组织兼容性复合体类型一呈现的情形。
除了胜肽链和主要组织兼容性复合体类型一的结合能力之外,胜肽链的表现量也会影响到胜肽链被主要组织兼容性复合体所呈现的量。在本实施例中,我们以胜肽链和主要组织兼容性复合体类型一的结合亲和力以及胜肽链的表现量作为所选特征来建构出一个用以预测所述胜肽链被主要组织兼容性复合体类型一呈现情形的模型。
我们以两种会影响到胜肽链和主要组织兼容性复合体类型一的结合能力及结合机率的特性(分别为胜肽链结合亲和力及胜肽链表现量)来建构出模型以预测胜肽链被主要组织兼容性复合体类型一呈现的情形。我们以实施例1中所揭露的方式来计算胜肽链和主要组织兼容性复合体类型一的结合亲和力。而在本实施例中,胜肽链其所属蛋白质表现量被用以作为代表胜肽链的表现量,且其更进一步被定义为一个基因所产生含有所述胜肽链的蛋白质表现量中最大的蛋白质表现量。我们从PaxDb蛋白质表现量数据库中的H.sapiens-Whole organism(Integrated)数据库(Wang,M.et al.,Proteomics 2015,10.1002/pmic.201400441)取得胜肽链其所属蛋白质的表现量。如实施例1中所揭示,我们从Bassani-Sternberg等人的研究中搜集训练资料来训练所述机器学习模型,并且以同样的方式进行筛选。若资料中的胜肽链及其对应的人类白血球抗原类型被确认可形成所述复合物且可被呈现出,则该资料将被作为阳性资料;若同一个胜肽链对应其他人类白血球抗原类型无法被确认可形成复合物且无法被呈现出所述胜肽链,则该资料则将被作为阴性资料。每一个胜肽链和其对应的人类白血球抗原类型的结合亲和力以及胜肽链其所属蛋白质的表现量的计算方式则如前所述。我们以胜肽链对主要组织兼容性复合体类型一的结合亲和力以及胜肽链其所属蛋白质表现量作为特征来建构逻辑回归模型,并且利用Scikit-learn中的LogisticRegression套件来预测主要组织兼容性复合体类型一的胜肽链呈现情形。在执行十次交叉验证后,训练资料中的测试资料集的预测准确度及接收者操作特征曲线下面积如表1中所揭示。在模型中,我们发现结合亲和力对于预测结果的影响力比蛋白质表现量还要强。
实施例4:以胜肽链和主要组织兼容性复合体类型二的结合亲和力来预测胜肽链被主要组织兼容性复合体类型二呈现的情形。
一个胜肽链若要成为一个抗原则所述胜肽链需能被主要组织兼容性复合体呈现在细胞表面上进而被免疫细胞所辨识。上述过程包含:胜肽链在抗原呈现细胞中由主要组织兼容性复合体类型二呈现给CD4+T细胞、胜肽链在抗原呈现细胞中由主要组织兼容性复合体类型一呈现给CD8+T细胞以及胜肽链在肿瘤细胞中由主要组织兼容性复合体类型一呈现给CD8+T细胞。在本实施例中,我们建构出一个模型来预测胜肽链被主要组织兼容性复合体类型二呈现的情形。
我们以胜肽链和主要组织兼容性复合体类型二的结合亲和力来建构出一个用以预测胜肽链被主要组织兼容性复合体类型二呈现情形的模型。我们使用NetMHCII2.2软件(Nielsen M,et al.,BMC Bioinformatics.2007 Jul 4;8:238)来计算胜肽链和主要组织兼容性复合体类型二的结合亲和力,若主要组织兼容性复合体类型二不适用NetMHCII2.2软件则改用NetMHCIIpan3.1软件(Andreatta M,et al.,Immunogenetics.2015 Nov;67(11-12):641-50)。我们从Chong等人的研究(Chong et al.,Molecular&CellularProteomics,2017)中搜集训练资料来训练机器学习模型,而资料中长度小于9的胜肽链则被从训练资料中移除。资料中若胜肽链及其对应的人类白血球抗原类型被确认可形成胜肽链与人类白血球抗原类型的复合物且被呈现出来,则资料则将被作为阳性资料;若同一个胜肽链对应其他人类白血球抗原类型无法被确认可形成所述复合物且被呈现出来,则资料则会被作为阴性资料。我们以胜肽链对主要组织兼容性复合体类型二的结合亲和力为特征来建构逻辑回归模型,并且利用Scikit-learn中的LogisticRegression套件来预测主要组织兼容性复合体类型二的胜肽链呈现情形。在执行十次交叉验证后,训练资料中测试资料集的预测准确度及接收者操作特征曲线下面积如表1中所揭示。
表1:实施例1~4的模型表现结果。
Figure GDA0002291392310000081
Figure GDA0002291392310000091
实施例5:以胜肽链在与主要组织兼容性复合体类型二结合上的自体相似性(self-similarity for MHC Class II)以及与已知抗原的同源性(homology)来预测胜肽链引起CD4+T细胞免疫反应的能力。
一个胜肽链若要成为一个具致免疫性的抗原,除了被主要组织兼容性复合体类型一及类型二呈现之外,胜肽链引起CD4+T细胞及CD8+T细胞免疫反应的能力也是很重要的。在本实施例中,我们以所选特征建构出一个模型来预测胜肽链引起CD4+T细胞免疫反应的能力。
我们以两个能影响胜肽链被CD4+T细胞辨识的特性来建构出一个用以预测胜肽链引起CD4+T细胞免疫反应能力的模型。两个特性为胜肽链和人类蛋白质序列在与主要组织兼容性复合体类型二结合上的相似性(简称为胜肽链在与主要组织兼容性复合体类型二结合上的自体相似性)以及胜肽链与已知抗原的同源性。我们以三个步骤来计算胜肽链在与主要组织兼容性复合体类型二结合上的自体相似性,首先,我们从ENSEMBL GRch37数据库中获取所有人类蛋白质序列并且裁剪出在9~23胺基酸长度中所有可能的胺基酸序列。由于可能有胜肽链并非由人类蛋白质序列突变而来,因此我们模仿了突变胜肽链和野生型胜肽链间的关系,将胜肽链和裁剪出来的人类蛋白质序列做比对并从裁剪出来的序列中挑选出具有相同长度且只有一个胺基酸差异的人类蛋白质序列作为自体胜肽链(self-peptide)。其次,我们以实施例4中所揭露的方式分别计算所述胜肽链以及其对应的自体胜肽链和主要组织兼容性复合体类型二的结合亲和力。最后,我们以前述两个计算出的结合亲和力中较小的数值除以较大的数值来定义胜肽链在与主要组织兼容性复合体类型二结合上的自体相似性。若有胜肽链只能从所述裁剪出来的序列中比对出具有两个或两个以上胺基酸差异的序列,则将胜肽链在与主要组织兼容性复合体类型二结合上的自体相似性定为0。我们利用BLAST(https://blast.ncbi.nlm.nih.gov/Blast.cgi)的方法将胜肽链和已知抗原序列做比对来计算胜肽链与已知抗原的同源性。我们从IEDB数据库(www.iedb.org)的抗原资料集中选择被标注为病毒或细菌的抗原序列作为已知抗原序列。若一个胜肽链其序列具有较高比例能比对上一个已知抗原序列,则胜肽链被视为和已知抗原序列有同源性。若有胜肽链无法比对上任何已知抗原,则将胜肽链与已知抗原的同源性定为0。我们从IEDB数据库档名为“tcell_full_v3.csv”的档案中,搜集主要组织兼容性复合体被标注为类型二且有标注CD4+T细胞免疫反应结果的资料作为训练资料来训练机器学习模型以预测胜肽链引起CD4+T细胞免疫反应的能力。而资料中若其胜肽链长度不介于9~30个胺基酸或是其细胞类型并非一个正常T细胞或是其试验类别组并不是被标注为侦测免疫讯号释放或T细胞活化或T细胞与抗原呈现细胞的结合,则前述资料均会被从训练资料中移除。我们以胜肽链在与主要组织兼容性复合体类型二结合上的自体相似性以及与已知抗原的同源性作为特征来建构逻辑回归模型,并且利用Scikit-learn中的LogisticRegression套件来预测胜肽链引起CD4+T细胞免疫反应的能力。在执行十次交叉验证后,训练资料中测试资料集的预测准确度及接收者操作特征曲线下面积如表2中所揭示。
在完成模型训练后,我们从OttP等人的研究(Ott P et al.,Nature,2017)中搜集经实验测试过T细胞免疫反应并有标注CD4+T细胞免疫反应结果的资料作为测试资料来测试所述模型。我们将测试资料中的每个胜肽链如前进行特征计算并且以所计算出的特征和所训练出的参数来计算所述模型的预测数值。其阳性反应和阴性反应资料各自的预测数值盒形图(boxplot)以及两笔资料的预测数值分布利用独立双样本中位数差异检定(Wilcoxon rank-sumtest)所计算出来的p值如图3A所揭示。
实施例6:以胜肽链的免疫性来预测胜肽链引起CD8+T细胞免疫反应的能力。
一个胜肽链若要成为一个具致免疫性的抗原,除了被主要组织兼容性复合体类型一及类型二呈现之外,所述胜肽链引起CD4+T细胞及CD8+T细胞免疫反应的能力也是很重要的。在本实施例中,我们以所选特征建构出一个模型来预测胜肽链引起CD8+T细胞免疫反应的能力。
我们以胜肽链的免疫性此能影响胜肽链被CD8+T细胞辨识的特性来建构出一个用以预测胜肽链引起CD8+T细胞免疫反应能力之模型。胜肽链的免疫性为利用IEDBimmunogenicity predictor软件(Calis JJ,PLoS Comput Biol.(2013)Oct 9(10):e1003266)所计算而来。我们从IEDB数据库档名为“tcell_full_v3.csv”的档案中,搜集主要组织兼容性复合体被标注为类型一且有标注CD8+T细胞免疫反应结果的资料作为训练资料来训练机器学习模型以预测胜肽链引起CD8+T细胞免疫反应的能力。而资料中若其胜肽链长度不介于8~11个胺基酸或是其细胞类型并非一个正常T细胞或是其试验类别组并不是被标注为侦测免疫讯号释放或T细胞活化或T细胞与抗原呈现细胞的结合,则前述资料均会被从训练资料中移除。我们以IEDB immunogenicity predictor软件预测出来的胜肽链的免疫性作为特征来建构逻辑回归模型,并且利用Scikit-learn中的LogisticRegression套件来预测胜肽链引起CD8+T细胞免疫反应的能力。在执行十次交叉验证后,训练资料中测试资料集的预测准确度及接收者操作特征曲线下面积如表2中所揭示。
在完成模型训练后,我们从OttP等人的研究(Ott P et al.,Nature,2017)中搜集经实验测试过T细胞免疫反应并有标注CD8+T细胞免疫反应结果的资料作为测试资料来测试模型。我们将测试资料中的每个胜肽链如前所述进行特征计算并且以所计算出的特征和所训练出的参数来计算所述模型的预测数值。其阳性反应和阴性反应资料各自的预测数值盒形图以及两笔资料的预测数值分布利用独立双样本中位数差异检定所计算出来的p值如图3B所揭示。
实施例7:以胜肽链在与主要组织兼容性复合体类型二结合上的自体相似性、与已知抗原的同源性以及实施例4中的特征来预测胜肽链引起CD4+T细胞免疫反应的能力。
一个抗原决定位要能引起CD4+T细胞的免疫反应需要能先被抗原呈现细胞呈现出来给CD4+T细胞辨识。在本实施例中,我们考虑了胜肽链引起免疫反应的能力以及胜肽链被主要组织兼容性复合体类型二呈现在抗原呈现细胞上的能力并且以所选特征建构出一个模型来预测胜肽链引起CD4+T细胞免疫反应的能力。
我们以影响胜肽链被CD4+T细胞辨识的特性以及影响胜肽链被主要组织兼容性复合体类型二呈现的特性来建构出一个用以预测胜肽链引起CD4+T细胞免疫反应能力的模型。该特性为胜肽链在与主要组织兼容性复合体类型二结合上的自体相似性、胜肽链与已知抗原的同源性以及胜肽链和主要组织兼容性复合体类型二的结合亲和力。我们以实施例5中所揭示的方式来计算胜肽链在与主要组织兼容性复合体类型二结合上的自体相似性以及胜肽链与已知抗原的同源性,并且以实施例4中所揭示的方式来计算胜肽链和主要组织兼容性复合体类型二的结合亲和力。如实施例5中所揭示,我们从IEDB数据库中,搜集有标注CD4+T细胞免疫反应结果的资料作为训练资料来训练机器学习模型以预测胜肽链引起CD4+T细胞免疫反应的能力。其资料筛选方式如实施例5中所揭示。我们以胜肽链在与主要组织兼容性复合体类型二结合上的自体相似性、与已知抗原的同源性以及和主要组织兼容性复合体类型二的结合亲和力作为特征来建构逻辑回归模型,并且利用Scikit-learn中的LogisticRegression套件来预测胜肽链引起CD4+T细胞免疫反应的能力。在执行十次交叉验证后,训练资料中测试资料集的预测准确度及接收者操作特征曲线下面积如表2中所揭示。在此模型中,我们发现胜肽链和主要组织兼容性复合体类型二的结合亲和力对于预测结果的影响力比胜肽链在与主要组织兼容性复合体类型二结合上的自体相似性以及与已知抗原的同源性还要强。
在完成模型训练后,如实施例5中所揭示,我们从Ott P等人的研究中搜集有标注CD4+T细胞免疫反应结果的资料作为测试资料来测试所述模型。我们将测试资料中的每个胜肽链如前所述进行特征计算并且以所计算出的特征和所训练出的参数来计算所述模型的预测数值。其阳性反应和阴性反应资料各自的预测数值盒形图以及两笔资料的预测数值分布利用独立双样本中位数差异检定所计算出来的p值如图4A所揭示。
实施例8:以胜肽链的免疫性以及实施例1中的特征来预测胜肽链引起CD8+T细胞免疫反应的能力。
一个抗原决定位要能引起CD8+T细胞的免疫反应需要能先被主要组织兼容性复合体类型一呈现出来给CD8+T细胞辨识。在本实施例中,我们考虑了胜肽链引起免疫反应的能力以及胜肽链被主要组织兼容性复合体类型一呈现的能力并且以所选特征建构出一个模型来预测胜肽链引起CD8+T细胞免疫反应的能力。
我们以影响胜肽链被CD8+T细胞辨识的特性以及影响胜肽链被主要组织兼容性复合体类型一呈现的特性来建构出一个用以预测胜肽链引起CD8+T细胞免疫反应能力之模型。该特性为胜肽链的免疫性、胜肽链和主要组织兼容性复合体类型一的结合亲和力以及结合稳定性。我们以实施例6中所揭示的方式来计算胜肽链的免疫性,并且以实施例1中所揭示的方式来计算胜肽链和主要组织兼容性复合体类型一的结合亲和力以及结合稳定性。如实施例6中所揭示,我们从IEDB数据库中,搜集有标注CD8+T细胞免疫反应结果的资料作为训练资料来训练机器学习模型以预测胜肽链引起CD8+T细胞免疫反应的能力。其资料筛选方式如实施例6中所揭示。我们以胜肽链之免疫性、胜肽链和主要组织兼容性复合体类型一的结合亲和力以及结合稳定性作为特征来建构逻辑回归模型,并且利用Scikit-learn中的LogisticRegression套件来预测胜肽链引起CD8+T细胞免疫反应的能力。在执行十次交叉验证后,训练资料中测试资料集的预测准确度及接收者操作特征曲线下面积如表2中所揭示。在此模型中,我们发现胜肽链和主要组织兼容性复合体类型一的结合稳定性对于预测结果的影响力最强,其次为胜肽链和主要组织兼容性复合体类型一的结合亲和力,最后则为胜肽链的免疫性。
在完成模型训练后,如实施例6中所揭示,我们从Ott P等人的研究中搜集有标注CD8+T细胞免疫反应结果的资料作为测试资料来测试模型。我们将测试资料中的每个胜肽链如前所述进行特征计算并且以所计算出的特征和所训练出的参数来计算模型的预测数值。其阳性反应和阴性反应资料各自的预测数值盒形图以及两笔资料的预测数值分布利用独立双样本中位数差异检定所计算出来的p值如图4B所揭示。
实施例9:以胜肽链在与主要组织兼容性复合体类型二结合上的自体相似性、与已知抗原的同源性以及实施例4中训练的模型所计算出的预测数值来预测胜肽链引起CD4+T细胞免疫反应的能力。
一个抗原决定位要能引起CD4+T细胞的免疫反应需要能先被抗原呈现细胞呈现出来给CD4+T细胞辨识。在本实施例中,我们考虑了胜肽链引起免疫反应的能力以及以实施例4中所建构的模型考虑胜肽链被主要组织兼容性复合体类型二呈现在抗原呈现细胞上的能力并且以所选特征建构出一个模型来预测胜肽链引起CD4+T细胞免疫反应的能力。
我们以影响胜肽链被CD4+T细胞辨识的特性以及影响胜肽链被主要组织兼容性复合体类型二呈现的特性来建构出一个用以预测胜肽链引起CD4+T细胞免疫反应能力的模型。该特性为胜肽链在与主要组织兼容性复合体类型二结合上的自体相似性、胜肽链与已知抗原的同源性以及实施例4中揭示的主要组织兼容性复合体类型二抗原呈现模型所计算出的预测数值。我们以实施例5中所揭示的方式来计算胜肽链在与主要组织兼容性复合体类型二结合上的自体相似性以及胜肽链与已知抗原的同源性。为了要计算主要组织兼容性复合体类型二抗原呈现模型的预测数值,我们以实施例4中所揭示的方式来计算胜肽链和主要组织兼容性复合体类型二的结合亲和力,并且我们以前述计算出的特征以及实施例4中所训练出的参数来计算主要组织兼容性复合体类型二抗原呈现模型的预测数值。如实施例5中所揭示,我们从IEDB数据库中,搜集有标注CD4+T细胞免疫反应结果的资料作为训练资料来训练机器学习模型以预测胜肽链引起CD4+T细胞免疫反应的能力。其资料筛选方式如实施例5中所揭示。我们以胜肽链在与主要组织兼容性复合体类型二结合上的自体相似性、与已知抗原的同源性以及主要组织兼容性复合体类型二抗原呈现模型的预测数值作为特征来建构逻辑回归模型,并且利用Scikit-learn中的Logistic Regression套件来预测胜肽链引起CD4+T细胞免疫反应的能力。在执行十次交叉验证后,训练资料中测试资料集的预测准确度及接收者操作特征曲线下面积如表2中所揭示。
在完成模型训练后,如实施例5中所揭示,我们从Ott P等人的研究中搜集有标注CD4+T细胞免疫反应结果的资料作为测试资料来测试所述模型。我们将测试资料中的每个胜肽链如前所述进行特征计算并且以所计算出的特征和所训练出的参数来计算所述模型的预测数值。其阳性反应和阴性反应资料各自的预测数值盒形图以及所述两笔资料的预测数值分布利用独立双样本中位数差异检定所计算出来的p值如图5A所揭示。
实施例10:以胜肽链的免疫性以及实施例1中训练的模型所计算出的预测数值来预测胜肽链引起CD8+T细胞免疫反应的能力。
一个抗原决定位要能引起CD8+T细胞的免疫反应需要能先被主要组织兼容性复合体类型一呈现出来给CD8+T细胞辨识。在本实施例中,我们考虑了胜肽链引起免疫反应的能力以及如实施例1中的模型所揭示的胜肽链被主要组织兼容性复合体类型一呈现的能力并且以所选特征建构出一个模型来预测胜肽链引起CD8+T细胞免疫反应的能力。
我们以影响胜肽链被CD8+T细胞辨识的特性以及影响胜肽链被主要组织兼容性复合体类型一呈现的特性来建构出一个用以预测胜肽链引起CD8+T细胞免疫反应能力的模型。该特性为胜肽链的免疫性以及实施例1中揭示的主要组织兼容性复合体类型一抗原呈现模型所计算出的预测数值。我们以实施例6中所揭示的方式来计算胜肽链的免疫性。为了要计算主要组织兼容性复合体类型一抗原呈现模型的预测数值,我们以实施例1中所揭示的方式来计算胜肽链和主要组织兼容性复合体类型一的结合亲和力以及结合稳定性,并且我们以前述计算出的特征以及实施例1中所训练出的参数来计算主要组织兼容性复合体类型一抗原呈现模型的预测数值。如实施例6中所揭示,我们从IEDB数据库中,搜集有标注CD8+T细胞免疫反应结果的资料作为训练资料来训练机器学习模型以预测胜肽链引起CD8+T细胞免疫反应的能力。其资料筛选方式如实施例6中所揭示。我们以胜肽链之免疫性以及主要组织兼容性复合体类型一抗原呈现模型的预测数值作为特征来建构逻辑回归模型,并且利用Scikit-learn中的LogisticRegression套件来预测胜肽链引起CD8+T细胞免疫反应的能力。在执行十次交叉验证后,训练资料中测试资料集的预测准确度及接收者操作特征曲线下面积如表2中所揭示。在此模型中,我们发现主要组织兼容性复合体类型一抗原呈现模型的预测数值对于预测结果的影响力比所述特征胜肽链之免疫性还要强。
在完成模型训练后,如实施例6中所揭示,我们从Ott P等人的研究中搜集有标注CD8+T细胞免疫反应结果的资料作为测试资料来测试所述模型。我们将测试资料中的每个胜肽链如前所述进行特征计算并且以所计算出的特征和所训练出的参数来计算模型的预测数值。其阳性反应和阴性反应资料各自的预测数值盒形图以及所述两笔资料的预测数值分布利用独立双样本中位数差异检定所计算出来的p值如图5B所揭示。
表2:实施例5~10的模型表现结果。
实施例5 实施例6 实施例7 实施例8 实施例9 实施例10
AUC of ROC 0.59 0.56 0.58 0.64 0.59 0.61
准确度 0.59 0.55 0.6 0.62 0.63 0.59
实施例11:以实施例1及实施例4~6中所揭示的抗原呈现能力以及引起免疫反应能力来预测一个胜肽链是否为一个免疫原(immunogen)。
一个胜肽链若要能成为一个免疫原而能引起免疫反应需要具备能被主要组织兼容性复合体类型一和主要组织兼容性复合体类型二呈现的能力以及能引起CD4+T细胞和CD8+T细胞免疫反应的能力。因此在本实施例中,我们整合实施例1及实施例4~6中所揭示的内容并计算胜肽链级数值(peptide-level score)来预测胜肽链是否为免疫原。
我们通过整合实施例1和实施例4中抗原呈现能力的信息以及实施例5和实施例6中引起CD4+T细胞和CD8+T细胞免疫反应能力的信息建构了一个整合模型组来计算胜肽链级数值。胜肽链级数值代表了一个胜肽链能被主要组织兼容性复合体类型一和主要组织兼容性复合体类型二呈现的能力以及能引起CD4+T细胞和CD8+T细胞免疫反应的能力。我们通过将实施例1及实施例4~6中每个所揭示模型的预测数值相乘来计算胜肽链级数值。需要注意的是,在执行主要组织兼容性复合体类型二呈现预测以及CD4+T细胞免疫反应预测时的胜肽链长度会长于执行主要组织兼容性复合体类型一呈现预测以及CD8+T细胞免疫反应预测时的胜肽链长度。为了解决这个问题,我们对每个可能的较长胜肽链且所述较长胜肽链须包含CD8+T细胞免疫反应预测中的较短胜肽链,去计算其在主要组织兼容性复合体类型二呈现预测以及在CD4+T细胞免疫反应预测中的特征,并从较长胜肽链及其特征中选出引起CD4+T细胞免疫反应能力最强的胜肽链及其特征来整合CD4+T细胞和CD8+T细胞间免疫反应预测的信息。我们从PatrickA.Ott等人的研究中搜集有标注CD8+T细胞免疫反应结果的资料作为测试资料来测试胜肽链级数值。我们计算测试资料中每个胜肽链的胜肽链级数值,而其阳性反应和阴性反应资料各自的预测数值盒形图以及两笔资料的预测数值分布利用独立双样本中位数差异检定所计算出来的p值如图6A所揭示。
实施例12:以实施例7~8中所揭示的抗原呈现能力以及引起免疫反应能力来预测一个胜肽链是否为一个免疫原。
同理实施例11,要预测一个胜肽链为一个免疫原,胜肽链需要具备能被主要组织兼容性复合体类型一和主要组织兼容性复合体类型二呈现的能力以及能引起CD4+T细胞和CD8+T细胞免疫反应的能力。在本实施例中,我们整合实施例7~8中所揭示的内容并计算胜肽链级数值来预测胜肽链是否为免疫原。
我们通过整合实施例7~8中抗原呈现能力的信息以及引起免疫反应能力的信息建构了一个整合模型组来计算胜肽链级数值。胜肽链级数值代表了一个胜肽链能被主要组织兼容性复合体类型一和主要组织兼容性复合体类型二呈现的能力以及能引起CD4+T细胞和CD8+T细胞免疫反应的能力。我们通过将实施例7~8中每个所揭示模型的预测数值相乘来计算胜肽链级数值。需要注意的是,在执行主要组织兼容性复合体类型二呈现预测以及CD4+T细胞免疫反应预测时的胜肽链长度会长于执行主要组织兼容性复合体类型一呈现预测以及CD8+T细胞免疫反应预测时的胜肽链长度。为了解决这个问题,我们对每个可能的较长胜肽链且所述较长胜肽链须包含CD8+T细胞免疫反应预测中的较短胜肽链,去计算其在主要组织兼容性复合体类型二呈现预测以及在CD4+T细胞免疫反应预测中的特征,并从较长胜肽链及其特征中选出引起CD4+T细胞免疫反应能力最强的胜肽链及其特征来整合CD4+T细胞和CD8+T细胞间免疫反应预测的信息。我们从PatrickA.Ott等人的研究中搜集有标注CD8+T细胞免疫反应结果的资料作为测试资料来测试所述胜肽链级数值。我们计算测试资料中每个胜肽链的胜肽链级数值,而其阳性反应和阴性反应资料各自的预测数值盒形图以及两笔资料的预测数值分布利用独立双样本中位数差异检定所计算出来的p值如图6B所揭示。
实施例13:以实施例9~10中所揭示的抗原呈现能力以及引起免疫反应能力来预测一个胜肽链是否为一个免疫原。
同理实施例11,要预测一个胜肽链为一个免疫原,胜肽链需要具备能被主要组织兼容性复合体类型一和主要组织兼容性复合体类型二呈现的能力以及能引起CD4+T细胞和CD8+T细胞免疫反应的能力。在本实施例中,我们整合实施例9~10中所揭示的内容并计算胜肽链级数值来预测胜肽链是否为免疫原。
我们通过整合实施例9~10中抗原呈现能力的信息以及引起免疫反应能力的信息建构了一个整合模型组来计算胜肽链级数值。胜肽链级数值代表了一个胜肽链能被主要组织兼容性复合体类型一和主要组织兼容性复合体类型二呈现的能力以及能引起CD4+T细胞和CD8+T细胞免疫反应的能力。我们通过将实施例9~10中每个所揭示模型的预测数值相乘来计算胜肽链级数值。需要注意的是,在执行主要组织兼容性复合体类型二呈现预测以及CD4+T细胞免疫反应预测时的胜肽链长度会长于执行主要组织兼容性复合体类型一呈现预测以及CD8+T细胞免疫反应预测时的胜肽链长度。为了解决这个问题,我们对每个可能的较长胜肽链且该较长胜肽链须包含CD8+T细胞免疫反应预测中的较短胜肽链,去计算其在主要组织兼容性复合体类型二呈现预测以及在CD4+T细胞免疫反应预测中的特征,并从较长胜肽链及其特征中选出引起CD4+T细胞免疫反应能力最强的胜肽链及其特征来整合CD4+T细胞和CD8+T细胞间免疫反应预测的信息。我们从PatrickA.Ott等人的研究中搜集有标注CD8+T细胞免疫反应结果的资料作为测试资料来测试所述胜肽链级数值。我们计算测试资料中每个胜肽链的胜肽链级数值,而其阳性反应和阴性反应资料各自的预测数值盒形图以及两笔资料的预测数值分布利用独立双样本中位数差异检定所计算出来的p值如图6C所揭示。
实施例14:以胜肽链级数值从病人检体中将胜肽链作为免疫原进行判断、评分、排名与评估。
为了将一个病人的胜肽链作为免疫原进行判断、评分、排名与评估,我们从OttP等人的研究中获取胜肽链资料并以我们的评分方法来比较所述胜肽链资料。OttP等人根据6个黑色素瘤病人的突变从中设计出免疫长胜肽链(immunizing long peptides,IMP),并以实验测试所述免疫长胜肽链在免疫细胞上的致免疫性。免疫长胜肽链其胺基酸长度介于15~30之间,用以测试CD8+T细胞免疫反应的胜肽链则较短,其胺基酸长度为9~10,而能引起免疫反应的胜肽链则在测试后被辨识出来。因此我们从免疫长胜肽链中获取胺基酸长度为9~10、带有突变的胺基酸位点、较短且重叠的胜肽链,并以实施例11~13中所揭示的方法来计算每个病人的较短胜肽链的胜肽链级数值。因为50为一个在疫苗胜肽链数量选择上常见的数字,所以我们挑选出了胜肽链级数值前50高的胜肽链。以实施例12中揭示的方法所计算出1号病人的资料如表3中所揭示,而每个病人以实施例11~13所揭示的方法来计算出的前50名胜肽链中,其能引起CD8+T细胞免疫反应的胜肽链数量如图7所揭示。
表3:以实施例12所揭示的方法计算出1号病人中胜肽链级数值前50高的资料。
Figure GDA0002291392310000131
Figure GDA0002291392310000141
Figure GDA0002291392310000151
实施例15:从突变等位基因(mutated allele)的群落性(clonality)来判断样本级数值(sample-level score)。
我们计算样本特异资料中突变等位基因的群落性。我们从每个病人身上取得福尔马林固定石蜡包埋(formalin-fixed paraffin-embedded,FFPE)组织样本及配对的周边血液单核细胞(peripheral blood mononuclear cell)样本,使用
Figure GDA0002291392310000152
DNA FFPE Tissue试剂组(QIAGENR,Hilden,Germany)从样本中抽取基因体DNA,将抽取出的DNA针对18,136组扩增子(amplicon)位置进行多重PCR放大,且其外显子组(exome)利用Ion ProtonTM(ThermoFisher Scientific,Waltham,MA)系统以及Ion PI芯片(Thermo Fisher Scientific,Waltham,MA)并接着以厂商推荐的规程进行定序。在定序之后,我们将原始测序片段透过厂商提供的Torrent Variant Caller v.4.4软件(TVC)进行处理并产生.bam和.vcf档案,TVC软件也计算出了每个变异的变异频率,而变异则利用Variant Effect Predictor v.74软件进行标注,我们接着利用dbSNP 138数据库、1000Genome数据库以及正常的配对血液样本过滤掉单核苷酸多型性(single nucleotide polymorphism,SNP)及生殖细胞突变(germline mutation),剩余的变异则以人工方式进行检查。我们利用ONCOCNV软件及ADTEx软件分别从.bam档案中判断出其拷贝数(copy number)及肿瘤纯度(tumor purity),而异质性丧失(loss of heterozygosity,LOH)的判断则定为福尔马林固定石蜡包埋样本及正常的配对血液样本中同一单核苷酸多型性位点其等位基因频率(allele frequency)差异大于8%。
突变等位基因其群落性的判断方式为先基于突变等位基因的期望等位基因频率值(expected allele frequency)和观察等位基因频率值(observed allele frequency)之间差异的统计显著性来给定突变等位基因数量的期望值,并接着估算其亚群落纯度(subclonal purity)。期望等位基因频率值的计算方式(McGranahan et al.,Science(2016)Mar 25;351(6280):1463-9)如下所揭示:
Figure GDA0002291392310000153
其中AFexpected表示期望等位基因频率值,t表示肿瘤变异之状况条件,p表示肿瘤纯度,C表示拷贝数,n表示正常状况条件,M表示突变等位基因数量。M值的给定为基于将期望等位基因频率值和观察等位基因频率值之间的差异以卡方检定(χ2test)进行统计显著性检定,并给定检定结果中和观察等位基因频率值最接近的期望等位基因频率值的情况下所对应的M值,其中期望等位基因频率值如表4中所揭示(由Sun等人的研究(Sun et al.,CancerRes(2014)74(19S):1893)中修改而来)。
表4:在不同拷贝数、异质性丧失及肿瘤纯度下突变等位基因数量及期望等位基因频率值之数值。
Figure GDA0002291392310000154
Figure GDA0002291392310000161
*虽然表4只揭示了1~4的拷贝数,但任意拷贝数皆可做计算
**虽然表4只以间距0.1揭示了肿瘤纯度,但任意肿瘤纯度皆可做计算
使用给定的M值,亚群落纯度s之计算方式如下所揭示:
Figure GDA0002291392310000162
我们以亚群落纯度除以肿瘤纯度来计算样本级数值,样本级数值即代表突变等位基因在肿瘤组织中实际的量,样本级数值之计算方式如下所揭示:
sample-level score=s/p
需要注意的是当观察等位基因频率值大于期望等位基因频率值时,我们假设此变异为一个群落突变(clonal mutation)而不进行卡方统计检定,此外在此情况下,亚群落纯度会大于肿瘤纯度,因而直接给定样本级数值为1。一个样本的样本级数值资料如表5中所揭示。
表5:一个样本的样本级数值资料
Figure GDA0002291392310000163
Figure GDA0002291392310000181
Figure GDA0002291392310000191
实施例16:以胜肽链级数值和样本级数值从癌症样本中将胜肽链作为免疫原进行判断、评分与排名。
为了将一个癌症样本的胜肽链作为免疫原进行判断、评分与排名,我们从癌症样本中获取胜肽链资料并将我们的评分方法应用在胜肽链资料上,样本的外显子组定序流程如实施例15所揭示。在确认了样本中的体细胞突变后,我们获取了胺基酸长度为8~23且带有突变胺基酸位点的胜肽链,接着将胜肽链以实施例12中所揭示的方法计算胜肽链级数值以及以实施例15中所揭示的方法计算样本级数值。为了整合胜肽链以及样本相关的信息来将胜肽链作为免疫原进行排名,我们将每个胜肽链的胜肽链级数值和样本级数值相乘来计算其致免疫性数值(immunogenic score)。在一个胃癌的样本中,所选致免疫性数值前50高的胜肽链资料如表6中所揭示。
表6:在一个胃癌的样本中致免疫性数值前50高的胜肽链资料。
Figure GDA0002291392310000192
Figure GDA0002291392310000201

Claims (24)

1.一种筛选至少一个致免疫性且具突变信息的胜肽链的方法,其步骤包括:
(a)取得复数个具突变信息的序列;
(b)从疾病相关的突变中判断出至少一个抗原决定位;
(c)将与所述至少一个抗原决定位的免疫性相关的复数个特征整合;
(d)决定所述复数个特征的重要性;
(e)以所述复数个特征的重要性决定所述至少一个抗原决定位的致免疫性数值;
(f)将所述至少一个抗原决定位排名;以及
(g)依所述(f)中的排名结果来选择所述致免疫性且具突变信息的胜肽链,其中,所述致免疫性且具突变信息的胜肽链包含至少一个抗原决定位且其可能可引起T细胞免疫反应。
2.如请求项1所述的方法,其特征在于:其中,所述步骤(c)~(e)为利用机器学习模型达成。
3.如请求项1所述的方法,其特征在于:其中,被选择所述抗原决定位的数量为≦100。
4.如请求项3所述的方法,其特征在于:其中,被选择所述抗原决定位的数量为≦50。
5.如请求项4所述的方法,其特征在于:其中,被选择所述抗原决定位的数量为≦30。
6.如请求项5所述的方法,其特征在于:其中,被选择所述抗原决定位的数量为≦10。
7.如请求项5所述的方法,其特征在于:其中,被选择所述抗原决定位的数量为10~30。
8.如请求项1所述的方法,其特征在于:其中,所述复数个特征与所述抗原决定位在主要组织兼容性复合体(major histocompatibility complex,MHC)类型一及类型二上的呈现有关。
9.如请求项8所述的方法,其特征在于:其中,被选择所述抗原决定位与所述主要组织兼容性复合体类型一的结合亲和力(binding affinity)的半数抑制浓度值(IC50)为<1500(nM)。
10.如请求项8或9所述的方法,其特征在于:其中,所述复数个特征包含所述抗原决定位和所述主要组织兼容性复合体类型一的结合稳定性(binding stability)。
11.如请求项8所述的方法,其特征在于:其中,所述复数个特征包含蛋白质量、基因表现量或上述两者的组合。
12.如请求项1所述的方法,其特征在于:其中,所述复数个特征与所述抗原决定位引起胞杀性T细胞(cytotoxic T cell)免疫反应的能力有关。
13.如请求项1所述的方法,其特征在于:其中,所述复数个特征与所述抗原决定位引起辅助性T细胞(helper T cell)免疫反应的能力有关。
14.如请求项12或13所述的方法,其特征在于:其中,所述复数个特征包含所述抗原决定位与其自体胜肽链的相似性。
15.如请求项12或13所述的方法,其特征在于:其中,所述复数个特征包含所述抗原决定位与已知抗原的同源性。
16.如请求项1所述的方法,其特征在于:其中,所述突变的变异频率(variantfrequency)为至少10%。
17.如请求项16所述的方法,其特征在于:其中,所述突变的变异频率(variantfrequency)为至少30%。
18.如请求项1所述的方法,其特征在于:其中,所述突变的拷贝数(copy number)为至少2。
19.如请求项1所述的方法,其特征在于:其中,所述复数个特征包含异质性丧失(lossof heterozygosity)。
20.如请求项1所述的方法,其特征在于:其中,所述复数个特征包含等位基因量(allele dosage)。
21.如请求项1所述的方法,其特征在于:其中,所述复数个特征包含所述疾病相关突变的群落性(clonality)。
22.如请求项1所述的方法,其特征在于:其中,所述致免疫性数值是由整合所述复数个特征计算而来,所述复数个特征包含可用来计算胜肽链级数值(peptide-level score)的特征以及可用来计算样本级数值(sample-level score)的特征。
23.如请求项1所述的方法,其特征在于:其中,所述致免疫性数值是由整合所述复数个特征计算而来,所述复数个特征包含所述抗原决定位在主要组织兼容性复合体类型一及类型二上的呈现能力、所述抗原决定位引起辅助性及胞杀性T细胞免疫反应的能力以及所述疾病相关突变的群落性。
24.一种筛选至少一个致免疫性且具突变信息的胜肽链的系统,其中,所述系统使用筛选步骤包括:
(a)取得复数个具突变信息的序列;
(b)从疾病相关的突变中决定出至少一个抗原决定位;
(c)将与所述至少一个抗原定位的免疫性相关的复数个特征整合;
(d)决定所述复数个特征的重要性;
(e)以所述复数个特征的重要性决定所述至少一个抗原决定位的致免疫性数值;
(f)将所述至少一个抗原决定位排名;以及
(g)依所述(f)中的排名结果来选择所述致免疫性且具突变信息的胜肽链,其中,所述至免疫性且具突变信息的胜肽链包含至少一个抗原决定位且其可能可引起T细胞免疫反应。
CN201880019637.1A 2017-03-31 2018-03-31 致免疫性的癌症特异抗原决定位的排名系统 Active CN110799196B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762479320P 2017-03-31 2017-03-31
US62/479,320 2017-03-31
PCT/US2018/025597 WO2018183980A2 (en) 2017-03-31 2018-03-31 Ranking system for immunogenic cancer-specific epitopes

Publications (2)

Publication Number Publication Date
CN110799196A true CN110799196A (zh) 2020-02-14
CN110799196B CN110799196B (zh) 2024-02-13

Family

ID=63676910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880019637.1A Active CN110799196B (zh) 2017-03-31 2018-03-31 致免疫性的癌症特异抗原决定位的排名系统

Country Status (7)

Country Link
US (1) US11485784B2 (zh)
EP (1) EP3600340A4 (zh)
JP (1) JP7155470B2 (zh)
CN (1) CN110799196B (zh)
SG (1) SG11201907738UA (zh)
TW (1) TWI672503B (zh)
WO (1) WO2018183980A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023052917A1 (en) * 2021-09-28 2023-04-06 Act Genomics (ip) Limited Methylation biomarker selection apparatuses and methods

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170199961A1 (en) * 2015-12-16 2017-07-13 Gritstone Oncology, Inc. Neoantigen Identification, Manufacture, and Use
US20210113673A1 (en) * 2017-04-19 2021-04-22 Gritstone Oncology, Inc. Neoantigen Identification, Manufacture, and Use
EP3714275A4 (en) 2017-11-22 2021-10-27 Gritstone bio, Inc. REDUCTION OF JUNCTION EPITOPIC PRESENTATION FOR NEOANTIGENS
BR112021005353A2 (pt) * 2018-11-21 2021-06-15 Nec Corporation método e sistema de direcionamento de epitopos para imunoterapia baseada em neoantígeno
CN113474840A (zh) * 2018-12-21 2021-10-01 百欧恩泰美国公司 用于预测hla ii类特异性表位及表征cd4+ t细胞的方法和系统
CA3130850A1 (en) 2019-02-28 2020-09-03 Universiteit Antwerpen Method for determining responsiveness to an epitope
WO2020223361A1 (en) * 2019-04-30 2020-11-05 Memorial Sloan Kettering Cancer Center System and methods for identification of non-immunogenic epitopes and determining efficacy of epitopes in therapeutic regimens

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160069895A1 (en) * 2014-09-10 2016-03-10 Genentech, Inc. Immunogenic mutant peptide screening platform
US20160101170A1 (en) * 2013-04-07 2016-04-14 The Broad Institute Inc. Compositions and methods for personalized neoplasia vaccines
WO2016174085A1 (en) * 2015-04-27 2016-11-03 Cancer Research Technology Limited Method for treating cancer

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005301523A (ja) * 2004-04-08 2005-10-27 Celestar Lexico-Sciences Inc ワクチン候補部分配列予測装置、ワクチン候補部分配列予測方法、mhc結合部分配列予測装置、mhc結合部分配列予測方法、プログラムおよび記録媒体
EP2771349B1 (en) 2011-09-16 2020-02-26 Iogenetics, LLC. Bioinformatic processes for determination of peptide binding
JP6486278B2 (ja) * 2013-01-15 2019-03-20 メモリアル スローン ケタリング キャンサー センター 免疫原性wt−1ペプチドおよびその使用法
WO2016128060A1 (en) * 2015-02-12 2016-08-18 Biontech Ag Predicting t cell epitopes useful for vaccination
MX2017013613A (es) * 2015-04-23 2018-09-12 Nantomics Llc Neoepitodos de cancer.
US10563266B2 (en) * 2015-07-14 2020-02-18 Personal Genome Diagnostics Inc. Neoantigen treatment prioritization using multivariate analysis based on: HLA genotype, self-similarity, similarity to known antigens, antigen expression levels and mutant allele frequency
GB201516047D0 (en) * 2015-09-10 2015-10-28 Cancer Rec Tech Ltd Method
CN107704727B (zh) * 2017-11-03 2020-01-31 杭州风起智能科技有限公司 基于肿瘤新抗原特征值的新抗原活性预测和排序方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160101170A1 (en) * 2013-04-07 2016-04-14 The Broad Institute Inc. Compositions and methods for personalized neoplasia vaccines
US20160069895A1 (en) * 2014-09-10 2016-03-10 Genentech, Inc. Immunogenic mutant peptide screening platform
WO2016174085A1 (en) * 2015-04-27 2016-11-03 Cancer Research Technology Limited Method for treating cancer

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023052917A1 (en) * 2021-09-28 2023-04-06 Act Genomics (ip) Limited Methylation biomarker selection apparatuses and methods

Also Published As

Publication number Publication date
US11485784B2 (en) 2022-11-01
SG11201907738UA (en) 2019-09-27
TW201903411A (zh) 2019-01-16
JP7155470B2 (ja) 2022-10-19
JP2020518083A (ja) 2020-06-18
WO2018183980A3 (en) 2018-12-20
EP3600340A2 (en) 2020-02-05
US20210284738A1 (en) 2021-09-16
EP3600340A4 (en) 2021-01-20
WO2018183980A2 (en) 2018-10-04
CN110799196B (zh) 2024-02-13
TWI672503B (zh) 2019-09-21

Similar Documents

Publication Publication Date Title
CN110799196A (zh) 致免疫性的癌症特异抗原决定位的排名系统
EP3576781B9 (en) Neoantigens and uses thereof for treating cancer
JP7307048B2 (ja) 腫瘍におけるhlaアレルの分析及びそれらの使用
US20210113673A1 (en) Neoantigen Identification, Manufacture, and Use
JP7034931B2 (ja) ネオエピトープのウイルス送達のための改善された組成物および方法ならびにその使用
CN112771214A (zh) 用于选择新表位的方法
CN110752041A (zh) 基于二代测序的新生抗原预测方法、装置和存储介质
US20230047716A1 (en) Method and system for screening neoantigens, and uses thereof
WO2020221783A1 (en) Methods for pre-selection of neoepitopes
Olsen et al. Bioinformatics for cancer immunotherapy target discovery
KR20230165259A (ko) 클론성 신항원의 동정 및 이의 용도
Pagadala et al. Germline modifiers of the tumor immune microenvironment implicate drivers of cancer risk and immunotherapy response
Borden et al. Neoantigen fitness model predicts lower immune recognition of cutaneous squamous cell carcinomas than actinic keratoses
WO2019036043A2 (en) METHOD FOR GENERATING A COCKTAIL OF PERSONALIZED ANTICANCER VACCINES FROM TUMOR DERIVED GENETIC MODIFICATIONS FOR THE TREATMENT OF CANCER
AU2019382854B2 (en) Method and system of targeting epitopes for neoantigen-based immunotherapy
Rosenthal Immune editing and surveillance in cancer evolution
EP3891271A1 (en) Methods of making therapeutic t lymphocytes
Shao High Throughput Computational Methods for Immuno-oncology: Precise Patient Stratification Based on Neoantigen Profile Analyses
Borch et al. Immune signatures and targets in human tumors
Slagter et al. Lack of detectable neoantigen depletion in treatment-naive cancers
CN113316818A (zh) 新生抗原的鉴定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40013532

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant