CN115210814A - 使用甲基化信息估计细胞来源分数的系统和方法 - Google Patents

使用甲基化信息估计细胞来源分数的系统和方法 Download PDF

Info

Publication number
CN115210814A
CN115210814A CN202080093998.8A CN202080093998A CN115210814A CN 115210814 A CN115210814 A CN 115210814A CN 202080093998 A CN202080093998 A CN 202080093998A CN 115210814 A CN115210814 A CN 115210814A
Authority
CN
China
Prior art keywords
cancer
free
subject
fragment
bins
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080093998.8A
Other languages
English (en)
Inventor
项晶
罗伯特·安倍·潘恩·卡列夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grail Inc
Original Assignee
Grail Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grail Inc filed Critical Grail Inc
Publication of CN115210814A publication Critical patent/CN115210814A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

提供了识别用于估计受试者细胞来源分数的多个特征的方法。对于多个训练受试者中的每个相应的训练受试者,获得了相应的训练的多个游离片段中的每个相应的游离片段中的相应甲基化模式和相应受试者癌症适应症。每个游离片段被映射到多个仓中的一个仓,每个仓代表人类参照基因组。在将相应的游离片段的相应甲基化模式输入分类器时,游离片段癌症状况被分配给每个游离片段,作为分类器的输出的一函数。对于每个仓,确定了受试者癌症状况和游离片段癌症状况之间的关联的度量。用于估计受试者细胞来源分数的多个特征被识别作为多个仓的子集。

Description

使用甲基化信息估计细胞来源分数的系统和方法
相关申请交叉引用
本申请要求2019年12月18日提交的序列号为62/950,071,发明名称为“使用甲基化信息估计细胞来源分数(fraction)的系统和方法”的美国临时专利申请的优先权,其全部内容通过引用并入本文。
技术领域
本说明书描述了使用受试者的核酸,特别是游离核酸样本来估计从受试者获得的生物样本中的细胞来源分数,例如肿瘤分数。
背景技术
癌症分子基础知识的不断增加和下一代测序技术的快速发展,推动了对体液中癌症发展所涉及的早期分子改变的研究。大规模测序技术,例如下一代测序(NGS),已经提供了以低于每百万个碱基一美元的成本实现测序的机会,实际上已经实现了低于每百万个碱基十美分的成本实现测序的机会。在血浆、血清和尿液细胞游离DNA(cfDNA)中发现了与这种癌症发展相关的特异性遗传和表观遗传改变。这种改变可能被用作几类癌症的诊断生物标志物(参见Salvi等人,2016,肿瘤指标与疗法(Onco Targets Ther.)9:6549-6559)。
游离DNA(cell-free DNA,cfDNA)可以在血清、血浆、尿液和其他体液中找到(Chan等人,2003,临床生化纪事(Ann Clin Biochem.)40(Pt 2):122–130),代表“液体活检(liquid biopsy)”,其是特定疾病的循环图像(参见De Mattos-Arruda和Caldas,2016,分子肿瘤学(Mol Oncol.)10(3):464–474)。这代表了筛查多种癌症的潜在的非侵入性方法。
Mandel和Metais在几十年前就证实了cfDNA的存在(Mandel和Metais,1948,C RSeances Soc Biol Fil.142(3-4):241-243)。cfDNA来源于坏死或凋亡细胞,通常由所有类型的细胞释放。Stroun等人进一步表明,在患者的cfDNA中可以发现特定的癌症改变(参见Stroun等人,1989,肿瘤学(Oncology)1989 46(5):318–322)。随后的许多文章证实了cfDNA包含特定的肿瘤相关改变,例如突变、甲基化和拷贝数变异(copy number variations,CNVs),因此证实了循环肿瘤DNA(ctDNA)的存在(参见Goessl等人,2000癌症研究(CancerRes.)60(21):5941-5945和Frenel等人,2015,临床癌症研究(Clin Cancer Res.)21(20):4586-4596)。
血浆或血清中的cfDNA得到了很好的表征,而尿液中的cfDNA(ucfDNA)传统上较少得到表征。然而,最近的研究表明,ucfDNA也可能是生物标志物的有前景的来源(例如,Casadio等人,2013,内分泌肿瘤学(Urol Oncol.)31(8):1744-1750)。
在血液中,细胞凋亡是确定cfDNA量的常见事件。然而,在癌症患者中,cfDNA的量似乎也受到坏死的影响(参见Hao等人,2014,英国癌症杂志(Br J Cancer)111(8):1482-1489和Zonta等人,2015临床化学进展(Adv Clin Chem.)70:197-246)。由于细胞凋亡似乎是主要的释放机制,循环cfDNA的大小分布显示了约167个碱基对的短片段富集(参见,Heitzer等人,2015,临床化学(Clin Chem.)61(1):112-123和Lo等人,2010,科学转化医学(Sci Transl Med.)2(61):61ra91),对应于凋亡细胞产生的核小体(nucleosomes)。
血清和血浆中循环cfDNA的量在肿瘤患者中似乎明显高于健康对照组,尤其是晚期肿瘤患者循环cfDNA的量明显高于早期肿瘤患者(参见Sozzi等人,2003年,临床肿瘤学(JClin Oncol.)21(21):3902-3908,Kim等人,2014,外科治疗与研究年鉴(Ann Surg TreatRes.)86(3):136-142;和Shao等人,2015,肿瘤学通讯(Oncol Lett.)10(6):3478-3482)。在癌症患者中,循环cfDNA的量的可变性高于健康个体(参见Heitzer等人,2013,国际癌症期刊(Int J Cancer.)133(2):346-356),并且循环cfDNA的量受几种生理和病理状况的影响,包括促炎性疾病(参见Raptis和Menard,1980,临床研究期刊(J Clin Invest.)66(6):1391-1399;和Shapiro等人,1983,癌症(Cancer)51(11):2116-2120)。
已知甲基化状态和其它表观遗传修饰与一些疾病状况(例如癌症)的存在相关(参见Jones,2002,致癌基因(Oncogene)21:5358-5360)。此外,甲基化的特定模式已被确定与特定癌症疾病相关(参见Paska和Hudler,2015,生物化学医学(Biochemia Medica)25(2):161-176)。Warton和Samimi已经证明,即使在游离DNA中也可以观察到甲基化模式(Warton和Samimi,2015,生物科学前沿:里程碑(Front Mol Biosci),2(13)doi:10.3389/fmolb.2015.00013)。
鉴于循环cfDNA以及其它形式的基因型数据作为诊断指标的前景,本领域需要用于估计这种数据以识别表观遗传模式的方法。
发明内容
本公开通过提供稳健技术,解决了背景技术中发现的缺点,该稳健技术用于使用cfDNA确定生物样本中的细胞来源分数,例如肿瘤分数,该生物样本从受试者获得。甲基化数据与全基因组或靶向基因组测序数据的结合提供了超越先前筛选方法的额外诊断能力。
本公开提供了用于解决上述与分析数据集有关的问题的技术解决方案(例如,计算系统、方法和非瞬时性计算机可读存储介质)。
下面给出本发明的概述,以提供对本发明的一些方面的基本理解。该概述不是本发明的广泛概述。它不旨在标识本发明的关键/重要元件或描述本发明的范围。其唯一目的是以简化的形式呈现本发明的一些概念,作为稍后给出的更详细描述的序言。
A.至少部分地基于由每个仓(bin)中癌症衍生片段的比率识别的仓的子集来估计细胞来源分数的实施例。
本公开的一个方面提供了一种识别用于估计受试者细胞来源分数的多个特征的方法。所述方法包括,在计算机系统中,所述计算机系统具有一个或多个处理器和存储器,所述存储器存储由所述一个或多个处理器执行的一个或多个程序,以电子形式获得训练数据集。对于多个训练受试者中的每个相应的训练受试者,所述训练数据集包括:a)相应的训练的多个游离片段中的每个相应的游离片段中的相应甲基化模式,和b)所述相应的训练受试者的受试者癌症适应症(cancer indication)。所述每个相应的游离片段中的相应甲基化模式(i)通过对一个或多个核酸样本的甲基化测序来确定,所述一个或多个核酸样本包含从相应的训练受试者获得的相应生物样本中的所述相应片段,并且(ii)包含所述相应片段中的相应的多个CpG位点中每个CpG位点的甲基化状态。所述受试者癌症状况是第一癌症状况和第二癌症状况中的一种。所述方法还包括将每个多游离片段中的每个游离片段映射到多个仓中的一个仓。这里,所述多个仓中的每个相应的仓代表人类参照基因组的相应部分,从而获得多个游离片段的多个训练集,多个游离片段的每个训练集被映射到所述多个仓中的一个不同仓。所述方法还包括:在将所述相应的游离片段的甲基化模式输入所述分类器时,将游离片段癌症状况分配给所述多个游离片段训练集中的每个游离片段训练集的每个相应的游离片段,作为分类器的输出的一函数。所述游离片段癌症状况是所述第一癌症状况和所述第二癌症状况中的一种。所述方法还包括:对于所述多个仓中的每个相应的仓,确定(a)所述多个训练受试者中的相应训练受试者的所述受试者癌症状况和(b)映射到所述相应仓的所述相应游离片段训练集中的多个相应游离片段的所述游离片段癌症状况之间的关联的相应度量。在一些实施例中,该关联方法是相关性。在一些实施例中,该关联方法是互信息(mutual information)计算。在一些实施例中,该关联方法是通过计算距离度量(distance metric)(例如,曼哈顿距离(Manhattan distance)、最大值(MaximumValue)、标准化欧式距离(normalized Euclidean distance)、标准化曼哈顿距离(normalized Manhattan distance)、戴斯相似性系数(dice coefficient)、余弦距离(cosine distance)或Jaccard系数(Jaccard coefficient)等)的方式实现的。所述方法通过将识别用于估计受试者细胞来源分数的所述多个特征,作为所述多个仓的子集而继续。所述多个仓的所述子集中的每个相应仓满足基于所述相应仓的关联的相应度量的选择标准。
在一些实施例中,所述方法还包括通过包括以下步骤的程序来估计测试受试者的细胞来源分数:以电子形式获得测试的多个游离片段中每个相应的游离片段的相应甲基化模式。每个相应的游离片段的所述相应甲基化模式(i)通过一个或多个核酸样本的甲基化测序来确定,所述一个或多个核酸样本包含从所述测试受试者获得的生物样本中的所述相应片段,并且(ii)包含所述相应片段中的相应的多个CpG位点中的每个CpG位点的甲基化状态。所述测试的多个游离片段中的每个游离片段被映射到所述多个仓中的一个仓,从而获得多个游离片段的多个测试集,多个游离片段的每个测试集被映射到所述多个仓中的一个不同仓。在将所述相应的游离片段的甲基化模式输入所述分类器时,所述多个游离片段的测试集中的每个游离片段的测试集中的每个相应的游离片段被分配游离片段癌症状况,作为所述分类器的输出的一函数的所述函数。计算了来自所述测试受试者的游离片段的数量的第一集中趋势度量,所述游离片段在跨越所述多个仓的所述子集中的多个游离片段的每个测试集中被分配为所述第一癌症状况。计算了来自所述测试受试者的游离片段的数量的第二集中趋势度量,所述游离片段在跨越所述多个仓的所述子集的多个游离片段的每个测试集中。然后使用所述第一集中趋势度量和所述第二集中趋势度量来估计所述测试受试者的细胞来源分数。
在一些实施例中,所述第二癌症状况是不存在癌症,并且所述测试受试者的所述细胞来源分数分包括所述测试受试者的肿瘤分数。
在一些实施例中,所述分类器具有以下形式:
Figure BDA0003755459740000051
在一些实施例中,
Figure BDA0003755459740000052
是用于所述第一癌症状况的第一模型,“片段”是指所述相应游离片段的所述甲基化模式,
Figure BDA0003755459740000053
是用于所述第二癌症状况的第二模型。在这样的实施例中,当R(片段)满足阈值时,所述相应游离片段的所述游离片段癌症状况被分配为所述第一癌状况。在一些实施例中,所述阈值介于1和10之间。在一些实施例中,所述阈值为1、2、3、4、5、6、7、8、9或10。
在一些实施例中,所述关联I的度量按下式计算:
Figure BDA0003755459740000054
在一些这样的实施例中,i和j是所述集的独立索引,xi是所述多个训练受试者中具有癌症状况i的训练受试者的数量,yj是所述多个训练受试者中具有映射到所述相应仓的一个或多个游离片段的训练受试者的数量,所述一个或多个游离片段被分配为癌症状况j,p(xi,yj)是
Figure BDA0003755459740000055
N(xi,yj)是所述多个训练受试者中具有所述癌症病状i的训练受试者的数量,并且所述训练受试者还具有映射到所述相应仓中的一个或多个游离片段,所述一个或多个游离片段被分配为所述癌症状况j,NT是所述多个训练受试者中的训练受试者的数量,p(xi)是xi/NT,以及p(yj)是yj/NT
在一些实施例中,所述关联的度量是相关性。在一些实施例中,所述关联的度量是皮尔逊相关系数(Pearson correlation coefficient)。在一些实施例中,所述相关性是使用调整后的相关系数、加权相关系数、反射相关系数或缩放相关系数进行的。
在一些实施例中,所述多个仓由1000个仓至100,000个仓组成。在一些实施例中,所述多个仓由15,000个仓至80,000个仓组成。在一些实施例中,所述多个仓中的每个相应的仓平均具有10至1200个残基。在一些实施例中,所述多个仓中的每个相应的仓平均具有10至10000个残基。
在一些实施例中,所述第一集中趋势度量是来自所述多个测试受试者的游离片段的数量的算术平均值、加权平均值、中间值、中铰链、三均值、缩尾均值、平均值或众数(mode),来自所述多个测试受试者的游离片段在跨越所述多个仓的所述子集的每个游离片段测试集中被分配为所述第一癌症状况。
在一些实施例中,所述第二集中趋势度量是游离片段的数量的算术平均值、加权平均值、中间值、中铰链、三均值、缩尾均值、平均值或众数,所述游离片段来自跨越所述多个仓的所述子集的每个游离片段的测试集中的所述多个测试受试者。
在一些实施例中,所述估计所述细胞来源分数包括将所述第一集中趋势度量除以所述第二集中趋势度量。
在一些实施例中,所述多个训练受试者由10个训练受试者至1000个训练受试者组成。
在一些实施例中,所述选择标准指定选择具有前N个关联的度量之一的仓,其中N是50或更大的正整数。在一些实施例中,N介于500和5000之间。在一些实施例中,N介于800和1500之间。
在一些实施例中,所述甲基化测序是双端测序。在一些实施例中,所述甲基化测序是单端测序。在一些实施方案中,所述相应的训练的多个游离片段的平均长度小于500个核苷酸。
在一些实施例中,所述第一癌症状况是癌症,所述第二癌症状况是不存在癌症。
在一些实施例中,所述第一癌症状况是以下中的一种:肾上腺癌、胆道癌、膀胱癌、骨/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌(gastric cancer)、头/颈癌、肝胆癌、肾癌(kidney cancer)、肝癌、肺癌、卵巢癌、胰腺癌、盆骨癌、胸膜癌、前列腺癌、肾肿瘤(renal cancer)、皮肤癌、胃肿瘤(stomach cancer)、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤或白血病,并且所述第二癌症状况是不存在癌症。
在一些实施例中,所述第一癌症状况是以下中的一种:肾上腺癌分期、胆道癌分期、膀胱癌分期、骨/骨髓癌分期、脑癌分期、乳腺癌分期、宫颈癌分期、结肠直肠癌分期、食道癌分期、胃癌分期(a stage of gastric cancer)、头/颈癌分期、肝胆癌分期、肾癌分期(a stage of kidney cancer)、肝癌分期、肺癌分期、卵巢癌分期、胰腺癌分期、盆骨癌分期、胸膜癌分期、前列腺癌分期、肾肿瘤分期(a stage of renal cancer)、皮肤癌分期、胃肿瘤分期(a stage of stomach cancer)、睾丸癌分期、胸腺癌分期、甲状腺癌分期、子宫癌分期、淋巴瘤分期、黑色素瘤分期、多发性骨髓瘤分期或白血病分期,并且所述第二种癌症状况是不存在癌症。
在一些实施例中,所述甲基化测序是全基因组甲基化测序。在一些实施例中,所述甲基化测序是使用多个核酸探针的靶向测序,并且所述多个仓中的每个仓与所述多个核酸探针中的至少一个核酸探针相关联。
在一些实施例中,所述多个核酸探针包括1000个或更多个核酸探针、2000个或更多个核酸探针、3000个或更多个核酸探针、5000个或更多个核酸探针、10,000个或更多个核酸探针,或1000个核酸至30,000个核酸探针。
在一些实施例中,所述多个仓中的每个仓包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个CpG位点。在一些实施例中,所述多个仓中的每个仓包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个连续的CpG位点。在一些实施例中,所述多个仓中的每个仓由人类参照基因组中的2至100个连续的CpG位点组成。
在一些实施例中,所述相应的生物样本是液体生物样本。在一些实施例中,所述相应的生物样本是血液样本。在一些实施例中,所述相应的生物样本包括所述训练受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液。在一些实施例中,所述相应的生物样本由所述训练受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液组成。
在一些实施例中,所述相应片段中的所述相应多个CpG位点中的一个相应CpG位点的甲基化状态是:当通过所述甲基化测序确定所述相应CpG位点被甲基化时,是甲基化的,当通过所述甲基化测序确定所述相应CpG位点未被甲基化时,是未甲基化的,并且当所述甲基化测序无法将所述相应CpG位点的所述甲基化状态称为甲基化或未甲基化时,标记为“其他”。
在一些实施例中,所述甲基化测序检测所述相应片段中的一种或多种5-甲基胞嘧啶(5mC)和/或5-羟甲基胞嘧啶(5mC)。
在一些实施例中,在所述相应片段的序列读数中,将一种或多种未甲基化的胞嘧啶或一种或多种甲基化的胞嘧啶转化为相应的一种或多种尿嘧啶。在一些实施例中,所述一种或多种尿嘧啶在所述甲基化测序期间被检测为一种或多种相应的胸腺嘧啶。在一些实施例中,所述一种或多种未甲基化的胞嘧啶或一种或多种甲基化的胞嘧啶的转化包括化学转化、酶转化或其组合。
在一些实施例中,所述第一模型是包含第一多子模型的第一混合模型。所述第二模型是包含第二多子模型的第二混合模型,并且所述第一和第二多子模型中的每个子模型代表相应生物样本中游离片段来源的独立的相应甲基化模型。
在一些实施例中,每个独立的相应甲基化模型是二项式模型、β-二项式模型、独立位点模型或马尔可夫模型(Markov model)中的一种。
在一些实施例中,所述第一多子模型中的两个或更多个子模型是独立的站点模型,并且所述第二多子模型中的两个或更多个子模型是独立的站点模型。
在一些实施例中,所述方法还包括将一个或多个过滤条件应用于所述多个游离片段。
在一些实施例中,所述一个或多个过滤条件中的一个过滤条件是将p值阈值应用于所述多个游离片段中每个相应游离片段的所述相应甲基化模式,其中所述p值阈值表示在非癌症受试者群组中观察到甲基化模式的频率。
在一些实施例中,所述p值阈值介于0.001和0.20之间。
在一些实施例中,所述群组包括至少20个受试者,并且所述多个游离片段包括至少10,000个不同的相应甲基化模式。
在一些实施例中,当所述多个游离片段中每个相应的游离片段的相应甲基化模式具有0.10或更小、0.05或更小、或0.01或更小的p值时,所述p值阈值满足来自所述受试者的甲基化模式。
在一些实施例中,所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段由从所述一个或多个核酸样本测量的相应的多个序列读数中的序列读数的阈值数表示,所述一个或多个核酸样本包含所述相应生物样本中的所述相应片段。
在一些实施例中,所述阈值数是2、3、4、5、6、7、8、9、10或介于100和100之间的整数。
在一些实施例中,所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段由所述一个或多个核酸样本的游离核酸的阈值数表示,所述一个或多个核酸样本包含所述相应生物样本中的所述相应片段。
在一些实施例中,所述阈值数是2、3、4、5、6、7、8、9、10或介于100和100之间的整数。
在一些实施例中,所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段具有CpG位点的阈值数。
在一些实施例中,所述CpG位点的阈值数为至少1、2、3、4、5、6、7、8、9、10个CpG位点。
在一些实施例中,所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段的长度小于碱基对的阈值数。
在一些实施例中,所述碱基对的阈值数的长度是一千个、两千个、三千个或四千个连续的碱基对。
在一些实施例中,该方法还包括重复所述获得、映射、分配、计算中心趋势的第一和第二集中趋势度量,并估计跨越一个时间段的多个时间点中的每个相应时间点上的所述测试受试者的所述细胞来源分数,从而在每个相应时间点获得所述测试受试者的多个细胞来源分数中的相应细胞来源分数;以及使用所述多个细胞来源分数以第一细胞来源分数在所述时间段内增加或减少的形式,确定所述时间段内所述测试受试者的疾病状况的状态或进展。
在一些实施例中,所述时间段是几个月的时间,所述多个时间点中的每个时间点是几个月的时间中的不同时间点。
在一些实施例中,所述几个月的时间少于4个月。
在一些实施例中,所述时间段是几年的时间,所述多个时间点中的每个时间点是几年的时间中的不同时间点。
在一些实施例中,所述几年的时间是2至10年。
在一些实施例中,所述时间段是几小时的时间,所述多个时间点中的每个时间点是几小时的时间中的不同时间点。
在一些实施例中,所述几小时的时间为1至6小时。
在一些实施例中,所述方法还包括,当观察到所述受试者的所述第一细胞来源分数在所述时间段内发生阈值量的变化时,改变所述测试受试者的诊断。
在一些实施例中,所述方法还包括,当观察到所述受试者的所述第一细胞来源分数在所述时间段内发生阈值量的变化时,改变所述测试受试者的预后。
在一些实施例中,所述方法还包括,当观察到所述受试者的所述第一细胞来源分数在所述时间段内发生阈值量的变化时,改变所述测试受试者的治疗。
在一些实施例中,所述阈值大于10%、大于20%、大于30%、大于40%、大于50%、大于两倍、大于三倍或大于五倍。
在一些实施例中,所述测试受试者的所述肿瘤分数介于0.003和1.0之间。
在一些实施例中,所述方法还包括:至少部分地基于所述测试受试者的细胞来源分数的值,对所述测试受试者施用治疗方案。
在一些实施例中,所述治疗方案包括向所述测试受试者施用癌症药剂。
在一些实施例中,所述癌症药剂是激素、免疫疗法、放射照相术或癌症药物。
在一些实施例中,所述癌症药剂是来那度胺、帕博利珠单抗、曲妥珠单抗、贝伐珠单抗、利妥昔单抗、伊布替尼、人乳头瘤病毒四价(6、11、16和18型)疫苗、帕妥珠单抗、培美曲塞、尼罗替尼(Nilotinib)、尼洛替尼(Nilotinib)、地诺单抗、醋酸阿比特龙、艾曲波帕、伊马替尼、依维莫司、帕博西尼、厄洛替尼、硼替佐米、硼替佐米或其通用等同物。
在一些实施例中,已经用癌症药剂对测试受试者进行了治疗,所述方法还包括:使用所述测试受试者的所述细胞来源分数来估计所述受试者对所述癌症药剂的响应。
在一些实施例中,所述癌症药剂是激素、免疫疗法、放射照相术或癌症药物。
在一些实施例中,所述癌症药剂是来那度胺、帕博利珠单抗、曲妥珠单抗、贝伐珠单抗、利妥昔单抗、伊布替尼、人乳头瘤病毒四价(6、11、16和18型)疫苗、帕妥珠单抗、培美曲塞、尼罗替尼(Nilotinib)、尼洛替尼(Nilotinib)、地诺单抗、醋酸阿比特龙、艾曲波帕、伊马替尼、依维莫司、帕博西尼、厄洛替尼、硼替佐米、硼替佐米或其通用等同物。
在一些实施例中,已经用癌症药剂对测试受试者进行了治疗,所述方法还包括:使用所述测试受试者的所述细胞来源分数来确定是强化还是中止所述测试受试者中的所述癌症药剂。
在一些实施例中,所述测试受试者已经经受了外科手术以治疗所述癌症,所述方法还包括:使用所述测试受试者的所述细胞来源分数,以估计所述测试受试者响应于所述外科手术的状况。
在一些实施例中,所述多个仓中的一个仓对应于如下一个或多个文献中列出的基因组区域:申请号为PCT/US2019/025358(公开为WO2019/195268A2)的国际专利申请的表1-24,申请号为PCT/US2019/053509(公开为WO2020/069350A1)的国际专利申请的列表1-8,和/或申请号为PCT/US2020/015082(公开为WO2020/154682A2)的国际专利申请的列表1-8,其每一个通过引用整体并入本文。
在一些实施例中,所述多个仓中的一个仓映射到如下一个或多个文献中列出的基因组区域的至少30%:申请号为PCT/US2019/025358(公开为WO2019/195268A2)的国际专利申请的表1-24,申请号为PCT/US2019/053509(公开为WO2020/069350A1)的国际专利申请的列表1-8,和/或申请号为PCT/US2020/015082(公开为WO2020/154682A2)的国际专利申请的列表1-8。
在一些实施例中,所述多个仓中的一个仓映射到如下一个或多个文献中列出的基因组区域的至少50%至95%:申请号为PCT/US2019/025358(公开为WO2019/195268A2)的国际专利申请的表1-24,申请号为PCT/US2019/053509(公开为WO2020/069350A1)的国际专利申请的列表1-8,和/或申请号为PCT/US2020/015082(公开为WO2020/154682A2)的国际专利申请的列表1-8。
在一些实施例中,所述多个仓中的一个仓映射到如下一个或多个文献中的1至10个独特的相应基因组区域:申请号为PCT/US2019/025358(公开为WO2019/195268A2)的国际专利申请的表1-24,申请号为PCT/US2019/053509(公开为WO2020/069350A1)的国际专利申请的列表1-8,和/或申请号为PCT/US2020/015082(公开为WO2020/154682A2)的国际专利申请的列表1-8。
在一些实施例中,所述多个仓中的每个仓映射到如下一个或多个文献中的单个独特的相应基因组区域:申请号为PCT/US2019/025358(公开为WO2019/195268A2)的国际专利申请的表1-24,申请号为PCT/US2019/053509(公开为WO2020/069350A1)的国际专利申请的列表1-8,和/或申请号为PCT/US2020/015082(公开为WO2020/154682A2)的国际专利申请的列表1-8。
在一些实施例中,对于所述多个训练受试者中的相应的训练受试者,所述训练的多个游离片段包括至少100,000个游离片段。
在一些实施例中,对于所述多个训练受试者中的每个相应的训练受试者,所述训练的多个游离片段包括至少100,000个游离片段。
在一些实施例中,对于所述多个训练受试者中的相应的训练受试者,所述训练的多个游离片段包括至少100万个游离片段。
在一些实施例中,所述多个仓中的每个仓由少于100个核酸残基、少于500个核酸残基、少于1000个核酸残基、少于2500个核酸残基、少于5000个核酸残基、少于10,000个核酸残基、少于25,000个核酸残基、少于50,000个核酸残基、少于100,000个核酸残基组成,少于250,000个核酸残基,或少于500,000个核酸残基组成。
本公开的另一方面提供了一种用于估计受试者细胞来源分数的多个特征的计算机系统。所述计算机系统包括:一个或多个处理器;和存储器,所述存储器存储由所述一个或多个处理器执行的一个或多个程序。所述一个或多个程序包括以电子形式获得训练数据集。对于多个训练受试者中的每个相应的训练受试者,所述训练数据集包括:a)相应的训练的多个游离片段中的每个相应的游离片段的相应甲基化模式,以及b)所述相应的训练受试者的受试者癌症适应症。所述每个相应的游离片段中的相应甲基化模式(i)通过对一个或多个核酸样本的甲基化测序来确定,所述一个或多个核酸样本包含从相应的训练受试者获得的相应生物样本中的所述相应片段,并且(ii)包含所述相应片段中的相应的多个CpG位点中每个CpG位点的甲基化状态。所述受试者癌症状况是第一癌症状况和第二癌症状况中的一种。所述一个或多个程序还包括如下指令:将每个多游离片段中的每个游离片段映射到多个仓中的一个仓。这里,所述多个仓中的每个相应的仓代表人类参照基因组的相应部分,从而获得多个游离片段的多个训练集,多个游离片段的每个训练集被映射到所述多个仓中的一个不同仓。所述一个或多个程序还包括如下指令:在将所述相应的游离片段的甲基化模式输入所述分类器时,将游离片段癌症状况分配给所述多个游离片段训练集中的每个游离片段训练集中的每个相应的游离片段,作为分类器的输出的函数,其中所述游离片段癌症状况是所述第一癌症状况和所述第二癌症状况中的一种。所述一个或多个程序还包括如下指令:对于所述多个仓中的每个相应的仓,确定(a)所述多个训练受试者中的相应训练受试者的所述受试者癌症状况和(b)映射到所述相应仓的所述相应游离片段训练集中的多个相应游离片段的所述游离片段癌症状况之间的关联I的相应度量。所述一个或多个程序还包括如下指令:识别用于估计受试者细胞来源分数的所述多个特征,作为所述多个仓的子集,其中所述多个仓的所述子集中的每个相应仓满足基于所述相应仓的关联的相应度量的选择标准。
本公开的另一方面提供了上述公开的计算系统,其中所述一个或多个程序还包括用于单独或组合执行本文公开的任何方法的指令。
本公开的另一方面提供了一种非暂时性计算机可读存储介质,其存储有一个或多个程序,用于估计受试者细胞来源分数。所述一个或多个程序被配置成由计算机执行。所述一个或多个程序包括以电子形式获得训练数据集的指令。对于多个训练受试者中的每个相应的训练受试者,所述训练数据集包括:a)相应的训练的多个游离片段中的每个相应的游离片段的相应甲基化模式,以及b)所述相应的训练受试者的受试者癌症适应症。所述每个相应的游离片段中的相应甲基化模式(i)通过对一个或多个核酸样本的甲基化测序来确定,所述一个或多个核酸样本包含从相应的训练受试者获得的相应生物样本中的所述相应片段,并且(ii)包含所述相应片段中的相应的多个CpG位点中每个CpG位点的甲基化状态。所述受试者癌症状况是第一癌症状况和第二癌症状况中的一种。所述一个或多个程序包括如下指令:将每个多游离片段中的每个游离片段映射到多个仓中的一个仓。这里,所述多个仓中的每个相应的仓代表人类参照基因组的相应部分,从而获得多个游离片段的多个训练集,多个游离片段的每个训练集被映射到所述多个仓中的一个不同仓。所述一个或多个程序包括如下指令:在将所述相应的游离片段的甲基化模式输入所述分类器时,将游离片段癌症状况分配给所述多个游离片段训练集中的每个游离片段训练集中的每个相应的游离片段,作为分类器的输出的函数。所述游离片段癌症状况是所述第一癌症状况和所述第二癌症状况中的一种。所述一个或多个程序包括如下指令:对于所述多个仓中的每个相应的仓,确定(a)所述多个训练受试者中的相应训练受试者的所述受试者癌症状况和(b)映射到所述相应仓的所述相应游离片段训练集中的多个相应游离片段的所述游离片段癌症状况之间的关联I的相应度量。所述一个或多个程序包括如下指令:识别用于估计受试者细胞来源分数的所述多个特征,作为所述多个仓的子集。所述多个仓的所述子集中的每个相应仓满足基于所述相应仓的关联的相应度量的选择标准。
本公开的另一方面提供了上述公开的非暂时性计算机可读存储介质,其中一个或多个程序还包括用于单独或组合执行本文公开的任何方法的指令。
B.涉及使用从游离DNA获得的甲基化数据来确定测试受试者的细胞来源分数的实施例。
本公开的另一个方面提供了一种估计受试者的细胞来源分数的方法。所述方法包括:在具有一个或多个处理器和存储由所述一个或多个处理器执行的一个或多个程序的存储器的计算机系统中:以电子形式获得多个游离片段中每个相应的游离片段的相应甲基化模式。这里,每个相应的游离片段的所述相应甲基化模式(i)通过一个或多个核酸样本的甲基化测序来确定,所述一个或多个核酸样本包含从所述受试者获得的生物样本中的所述相应片段,并且(ii)包括所述相应片段中的相应的多个CpG位点中的每个CpG位点的甲基化状态。所述方法包括将所述多个游离片段中的每个游离片段映射到多个仓中的一个仓,从而获得多个游离片段的多个集。多个游离片段的每个集被映射到所述多个仓中的一个不同仓。所述方法还包括在将所述相应游离段的甲基化模式输入所述分类器时,将游离片段癌症状况分配给所述多个游离片段的集的每个游离片段的集中的每个相应的游离片段,作为所述分类器的输出的一函数。所述游离片段癌症状况是所述第一癌症状况和所述第二癌症状况中的一种。所述方法继续计算来自所述测试受试者的游离片段的数量的第一集中趋势度量,所述游离片段在跨越所述多个仓的多个游离片段的每个集中被分配为所述第一癌症状况,并且计算来自所述测试受试者的游离片段的数量的第二集中趋势度量,所述游离片段在跨越所述多个仓的多个游离片段的每个集中。所述方法还包括使用所述第一集中趋势度量和所述第二集中趋势度量来估计所述受试者的细胞来源分数。
在一些实施例中,所述多个仓由1000个仓至100,000个仓组成。在一些实施例中,所述多个仓由15,000个仓至80,000个仓组成。
在一些实施例中,所述多个仓中的每个相应的仓平均具有10至1200个残基。在一些实施例中,所述多个仓中的每个相应的仓平均具有10至10000个残基。
在一些实施例中,所述第一集中趋势度量是来自所述受试者的游离片段的数量的算术平均值(arithmetic mean)、加权平均值(weighted mean)、中间值、中铰链(midhinge)、三均值(trimean)、缩尾均值(Winsorized mean)、平均值或众数,来自所述受试者的游离片段在跨越所述多个仓的每个游离片段集中被分配为所述第一癌症状况。在一些实施例中,所述第二集中趋势度量是游离片段的数量的算术平均值、加权平均值、中间值、中铰链、三均值、缩尾均值、平均值或众数,所述游离片段来自跨越所述多个仓的每个游离片段集中的所述受试者。
在一些实施例中,所述估计所述细胞来源分数包括将所述第一集中趋势度量除以所述第二集中趋势度量。
在一些实施例中,所述甲基化测序是双端测序。在一些实施例中,所述甲基化测序是单端测序。
在一些实施例中,所述多个游离片段中的每个游离片段的平均长度小于500个核苷酸。
在一些实施例中,所述第一癌症状况是癌症,所述第二癌症状况是不存在癌症。
在一些实施例中,所述第一癌症状况是以下中的一种:肾上腺癌、胆道癌、膀胱癌、骨/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头/颈癌、肝胆癌、肾癌、肝癌、肺癌、卵巢癌、胰腺癌、盆骨癌、胸膜癌、前列腺癌、肾肿瘤、皮肤癌、胃肿瘤、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤或白血病,并且所述第二癌症状况是不存在癌症。
在一些实施例中,所述第一癌症状况是以下中的一种:肾上腺癌分期、胆道癌分期、膀胱癌分期、骨/骨髓癌分期、脑癌分期、乳腺癌分期、宫颈癌分期、结肠直肠癌分期、食道癌分期、胃癌分期、头/颈癌分期、肝胆癌分期、肾癌分期、肝癌分期、肺癌分期、卵巢癌分期、胰腺癌分期、盆骨癌分期、胸膜癌分期、前列腺癌分期、肾肿瘤分期、皮肤癌分期、胃肿瘤分期、睾丸癌分期、胸腺癌分期、甲状腺癌分期、子宫癌分期、淋巴瘤分期、黑色素瘤分期、多发性骨髓瘤分期或白血病分期,并且所述第二种癌症状况是不存在癌症。
在一些实施例中,所述甲基化测序是全基因组甲基化测序。在一些实施例中,所述甲基化测序是使用多个核酸探针的靶向测序,并且所述多个仓中的每个相应的仓与所述多个核酸探针中的至少一个相应的核酸探针相关联。
在一些实施例中,所述多个核酸探针包括1000个或更多个核酸探针、2000个或更多个核酸探针、3000个或更多个核酸探针、5000个或更多个核酸探针、10,000个或更多个核酸探针,或1000个核酸至30,000个核酸探针。
在一些实施例中,所述多个仓中的每个仓包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个CpG位点。在一些实施例中,所述多个仓中的每个仓包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个连续的CpG位点。在一些实施例中,所述多个仓中的每个仓由人类参照基因组中的2至100个连续的CpG位点组成。
在一些实施例中,所述生物样本是液体生物样本。在一些实施例中,所述生物样本是血液样本。在一些实施例中,所述生物样本包括所述受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液。在一些实施例中,所述生物样本由所述受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液组成。
在一些实施例中,所述相应片段中的所述相应多个CpG位点中的一个相应CpG位点的甲基化状态是:当通过所述甲基化测序确定所述相应CpG位点被甲基化时,是甲基化的,当通过所述甲基化测序确定所述相应CpG位点未被甲基化时,是未甲基化的,并且当所述甲基化测序无法将所述相应CpG位点的所述甲基化状态称为甲基化或未甲基化时,标记为“其他”。
在一些实施例中,所述甲基化测序检测所述相应片段中的一种或多种5-甲基胞嘧啶(5mC)和/或5-羟甲基胞嘧啶(5mC)。
在一些实施例中,在所述相应片段的序列读数中,将一种或多种未甲基化的胞嘧啶或一种或多种甲基化的胞嘧啶转化为相应的一种或多种尿嘧啶。在一些实施例中,所述一种或多种尿嘧啶在所述甲基化测序期间被检测为一种或多种相应的胸腺嘧啶。在一些实施例中,所述一种或多种未甲基化的胞嘧啶或一种或多种甲基化的胞嘧啶的转化包括化学转化、酶转化或其组合。
在一些实施例中,所述第一模型是包含第一多子模型的第一混合模型,所述第二模型是包含第二多子模型的第二混合模型,并且所述第一和第二多子模型中的每个子模型代表相应生物样本中游离片段来源的独立的相应甲基化模型。
在一些实施例中,每个独立的相应甲基化模型是二项式模型、β-二项式模型、独立位点模型或马尔可夫模型中的一种。
在一些实施例中,所述第一多子模型中的两个或更多个子模型是独立的站点模型,并且所述第二多子模型中的两个或更多个子模型是独立的站点模型。
在一些实施例中,所述方法还包括将一个或多个过滤条件应用于所述多个游离片段。
在一些实施例中,所述一个或多个过滤条件中的一个过滤条件是将p值阈值应用于所述多个游离片段中每个相应游离片段的所述相应甲基化模式,其中所述p值阈值表示在非癌症受试者群组中观察到甲基化模式的频率。
在一些实施例中,所述p值阈值介于0.001和0.20之间。在一些实施例中,所述p值阈值介于0.01和0.10之间。在一些实施例中,所述p值阈值大于0.001、0.005、0.010、0.020、0.030、0.040、0.050、0.060、0.060、0.070、0.080、0.090或0.010。
在一些实施例中,所述群组包括至少20个、至少30个、至少50个、至少100个、至少500个或至少1000个受试者。在一些实施例中,所述多个游离片段包括至少300、至少500、至少1000、至少5000、至少8000或至少10,000个不同的相应甲基化模式。
在一些实施例中,当所述多个游离片段中每个相应的游离片段的相应甲基化模式具有0.10或更小、0.05或更小、或0.01或更小的p值时,所述p值阈值满足来自所述受试者的甲基化模式。
在一些实施例中,所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段由从所述一个或多个核酸样本测量的相应的多个序列读数中的序列读数的阈值数量表示,所述一个或多个核酸样本包含所述相应生物样本中的所述相应片段。在一些实施例中,所述阈值数是2、3、4、5、6、7、8、9、10或介于100和100之间的整数。
在一些实施例中,所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段由所述一个或多个核酸样本的游离核酸的阈值数表示,所述一个或多个核酸样本包含所述相应生物样本中的所述相应片段。在一些实施例中,所述阈值数是2、3、4、5、6、7、8、9、10或介于100和100之间的整数。
在一些实施例中,所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段具有CpG位点的阈值数。在一些实施例中,所述CpG位点的阈值数为至少1、2、3、4、5、6、7、8、9、10个CpG位点。
在一些实施例中,所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段的长度小于碱基对的阈值数。在一些实施例中,所述碱基对的阈值数的长度是一千个、两千个、三千个或四千个连续的碱基对。
在一些实施例中,应用了单个过滤条件(filter condition)。在一些实施例中,应用两个过滤条件。在一些实施例中,应用三个过滤条件。在一些实施例中,应用四个过滤条件。
在一些实施例中,所述方法还包括重复所述获得、映射、分配、计算中心趋势的第一和第二集中趋势度量,并估计跨越一个时间段的多个时间点中的每个相应时间点上的所述测试受试者的所述细胞来源分数,从而在每个相应时间点获得所述测试受试者的多个细胞来源分数中的相应细胞来源分数。在一些实施例中,所述多个细胞来源分数用于以第一细胞来源分数在所述时间段内增加或减少的形式,确定所述时间段内所述测试受试者的疾病状况的状态或进展。
在一些实施例中,所述时间段是几个月的时间,所述多个时间点中的每个时间点是几个月的时间中的不同时间点。在一些实施例中,所述几个月的时间少于4个月。在一些实施例中,每个时间段是一个月长。在一些实施例中,每个时间段是两个月长。在一些实施例中,每个时间段是三个月长。在一些实施例中,每个时间段是四个月长。在一些实施例中,每个时间段是五、六、七、八、九、十、十一、十二、十三、十四、十五、十六、十七、十八、十九、二十、二十一、二十二、二十三或二十四个月长。
在一些实施例中,所述时间段是几年的时间,所述多个时间点中的每个时间点是几年的时间中的不同时间点。在一些实施例中,几年的时间是一年至十年。在一些实施例中,几年的时间是一年、两年、三年、四年、五年、六年、七年、八年、九年或十年。在一些实施例中,所述时间段介于一至三十年之间。
在一些实施例中,所述时间段是几小时的时间,所述多个时间点中的每个时间点是几小时的时间中的不同时间点。在一些实施例中,小时的周期在1小时和24小时之间。在一些实施例中,几小时的时间是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24小时。
在一些实施例中,所述方法还包括,当观察到所述受试者的所述第一细胞来源分数在所述时间段内发生阈值量的变化时,改变所述测试受试者的诊断。例如,在一些实施例中,诊断从患有癌症变为处于缓解中。作为另一示例,在一些实施例中,诊断从不患有癌症变为患有癌症。作为另一示例,在一些实施例中,诊断从癌症一期变为癌症二期。作为另一示例,在一些实施例中,诊断从癌症二期变为癌症三期。作为又一示例,在一些实施例中,诊断从癌症三期变为癌症四期。作为又一示例,在一些实施例中,诊断从患有未转移的癌症变为患有转移的癌症。
在一些实施例中,所述方法还包括,当观察到所述受试者的所述第一细胞来源分数在所述时间段内发生阈值量的变化时,改变所述测试受试者的预后。例如,在一些实施例中,预后涉及预期寿命,并且预后从第一预期寿命变为第二预期寿命,其中第一预期寿命和第二预期寿命的持续时间不同。在一些实施例中,改变预后增加了受试者的预期寿命。在一些实施例中,改变预后降低了受试者的预期寿命。
在一些实施例中,所述方法还包括,当观察到所述受试者的所述第一细胞来源分数在所述时间段内发生阈值量的变化时,改变所述测试受试者的治疗。在一些实施例中,改变治疗包括开始癌症药物治疗、增加癌症药物药物的剂量、停止癌症药物治疗或减少癌症药物治疗的剂量。在一些实施例中,改变治疗包括开始或停止用来那度胺、帕博利珠单抗、曲妥珠单抗、贝伐珠单抗、利妥昔单抗、伊布替尼、人乳头瘤病毒四价(6、11、16和18型)疫苗、帕妥珠单抗、培美曲塞、尼罗替尼(Nilotinib)、尼洛替尼(Nilotinib)、地诺单抗、醋酸阿比特龙、艾曲波帕、伊马替尼、依维莫司、帕博西尼、厄洛替尼、硼替佐米、硼替佐米或其通用等同物对受试者的治疗。在一些实施例中,改变治疗包括增加或减少施用于受试者的来那度胺、帕博利珠单抗、曲妥珠单抗、贝伐珠单抗、利妥昔单抗、伊布替尼、人乳头瘤病毒四价(6、11、16和18型)疫苗、帕妥珠单抗、培美曲塞、尼罗替尼(Nilotinib)、尼洛替尼(Nilotinib)、地诺单抗、醋酸阿比特龙、艾曲波帕、伊马替尼、依维莫司、帕博西尼、厄洛替尼、硼替佐米、硼替佐米或其通用等同物的剂量。在一些实施例中,所述阈值大于10%、大于20%、大于30%、大于40%、大于50%、大于两倍、大于三倍或大于五倍。
在一些实施例中,所述测试受试者的所述肿瘤分数介于0.003和1.0之间。在一些实施例中,所述测试受试者的所述肿瘤分数介于0.005和0.80之间。在一些实施例中,所述测试受试者的所述肿瘤分数介于0.01和0.70之间。在一些实施例中,所述测试受试者的所述肿瘤分数介于0.05和0.60之间。
在一些实施例中,所述方法还包括:至少部分地基于所述测试受试者的细胞来源分数的值,对所述测试受试者施用治疗方案。在一些实施例中,所述治疗方案包括向所述测试受试者施用癌症药剂。在一些实施例中,所述癌症药剂是激素、免疫疗法、放射照相术或癌症药物。在一些实施例中,所述癌症药剂是来那度胺、帕博利珠单抗、曲妥珠单抗、贝伐珠单抗、利妥昔单抗、伊布替尼、人乳头瘤病毒四价(6、11、16和18型)疫苗、帕妥珠单抗、培美曲塞、尼罗替尼(Nilotinib)、尼洛替尼(Nilotinib)、地诺单抗、醋酸阿比特龙、艾曲波帕、伊马替尼、依维莫司、帕博西尼、厄洛替尼、硼替佐米、硼替佐米或其通用等同物。
在一些实施例中,已经用癌症药剂对测试受试者进行了治疗,所述方法还包括:使用所述测试受试者的所述细胞来源分数来估计所述受试者对所述癌症药剂的响应。在一些实施例中,所述癌症药剂是激素、免疫疗法、放射照相术或癌症药物。在一些实施例中,所述癌症药剂是来那度胺、帕博利珠单抗、曲妥珠单抗、贝伐珠单抗、利妥昔单抗、伊布替尼、人乳头瘤病毒四价(6、11、16和18型)疫苗、帕妥珠单抗、培美曲塞、尼罗替尼(Nilotinib)、尼洛替尼(Nilotinib)、地诺单抗、醋酸阿比特龙、艾曲波帕、伊马替尼、依维莫司、帕博西尼、厄洛替尼、硼替佐米、硼替佐米或其通用等同物。
在一些实施例中,已经用癌症药剂对测试受试者进行了治疗,所述方法还包括:使用所述测试受试者的所述细胞来源分数来确定是强化还是中止所述测试受试者中的所述癌症药剂。例如,在一些实施例中,观察到至少阈值细胞来源分数(例如,大于0.05、0.10、0.15、0.20、0.25或0.30等)被用作强化(例如,增加剂量,增加辐射治疗中的辐射水平)测试受试者中癌症药剂的基础。在一些实施例中,观察到低于阈值细胞来源分数(例如,小于0.05、0.10、0.15、0.20、0.25或0.30等)被用作在测试受试者中停止使用癌症药剂的基础。
在一些实施例中,所述测试受试者已经经受了外科手术以治疗所述癌症,所述方法还包括:使用所述测试受试者的所述细胞来源分数,以估计所述测试受试者响应于所述外科手术的状况。在一些实施例中,该条件是基于使用本公开中提供的方法计算的细胞来源分数的度量。
在一些实施例中,所述多个仓中的一个仓对应于如下一个或多个文献中列出的单个基因组区域:申请号为PCT/PCT/025358(公开为WO2019/195268A2)的国际专利申请的表1-24,申请号为PCT/PCT/053509(公开为WO2020/069350A1)的国际专利申请的列表1-8,和/或申请号为PCT/PCT/015082(公开为WO2020/154682A2)的国际专利申请的列表1-16,其每一个通过引用整体并入本文。
在一些实施例中,所述多个仓中的一个仓对应于如下一个或多个文献中列出的基因组区域的组合:申请号为PCT/PCT/025358(公开为WO2019/195268A2)的国际专利申请的表1-24,申请号为PCT/PCT/053509(公开为WO2020/069350A1)的国际专利申请的列表1-8,和/或申请号为PCT/PCT/015082(公开为WO2020/154682A2)的国际专利申请的列表1-16,其每一个通过引用整体并入本文。例如,在一些实施例中,所述多个仓中的一个仓包括一个、两个、三个、四个、五个或多于五个如下文献中列出的基因组区域:公开号为WO2019/195268A2的国际专利申请的表1-24,公开号为WO2020/069350A1的国际专利申请的列表1-8,和/或公开号为WO2020/154682A2的国际专利申请的列表1-16。
在一些实施例中,所述多个仓中的一个仓映射到如下一个或多个文献中列出的基因组区域的至少30%、40%、50%、60%、70%、80%、90%、95%、99%或100%:公开号为WO2019/195268A2的国际专利申请的表1-24,公开号为WO2020/069350A1的国际专利申请的列表1-8,和/或公开号为WO2020/154682A2的国际专利申请的列表1-16。
在一些实施例中,所述多个仓中的一个仓映射到如下一个或多个文献中列出的基因组区域的至少50%至95%:公开号为WO2019/195268A2的国际专利申请的表1-24,公开号为WO2020/069350A1的国际专利申请的列表1-8,和/或公开号为WO2020/154682A2的国际专利申请的列表1-16。
在一些实施例中,所述多个仓中的一个仓映射到如下一个或多个文献中的1至10个独特的相应基因组区域:公开号为WO2019/195268A2的国际专利申请的表1-24,公开号为WO2020/069350A1的国际专利申请的列表1-8,和/或公开号为WO2020/154682A2的国际专利申请的列表1-16。
在一些实施例中,所述多个仓中的每个仓映射到如下一个或多个文献中的单个独特的相应基因组区域:公开号为WO2019/195268A2的国际专利申请的表1-24,公开号为WO2020/069350A1的国际专利申请的列表1-8,和/或公开号为WO2020/154682A2的国际专利申请的列表1-16。
在一些实施例中,对于相应的受试者,所述多个游离片段包含至少10,000、15,000、20,000、25,000、50,000、100,000、200,000、300,000、500,000或100万个游离片段。在一些实施例中,对于相应的受试者,所述多个游离片段包括至少100万个游离片段。
在一些实施例中,所述多个仓中的每个仓包含少于100个核酸残基、少于500个核酸残基、少于1000个核酸残基、少于2500个核酸残基、少于5000个核酸残基、少于10,000个核酸残基、少于25,000个核酸残基、少于50,000个核酸残基、少于100,000个核酸残基组成,少于250,000个核酸残基,或少于500,000个核酸残基。
在一些实施例中,所述多个仓中的每个仓包含(i)100个核酸残基至(ii)500、1000、2500、5000、10,000、25,000、50,000、100,000、250,000或500,000个核酸残基。
本公开的另一方面提供了一种用于估计受试者细胞来源分数的计算机系统。所述计算机系统包括一个或多个处理器;以及存储器,所述存储器存储将由所述一个或多个处理器执行的一个或多个程序。所述一个或多个程序包括如下指令:用于以电子形式获得多个游离片段中的每个相应的游离片段的相应甲基化模式。这里,所述每个相应的游离片段中的相应甲基化模式(i)通过对一个或多个核酸样本的甲基化测序来确定,所述一个或多个核酸样本包含从受试者获得的生物样本中的所述相应片段,并且(ii)包含所述相应片段中的相应的多个CpG位点中每个CpG位点的甲基化状态。所述一个或多个程序还包括如下指令:将所述多游离片段中的每个游离片段映射到多个仓中的一个仓,从而获得多个游离片段的多个集。多个游离片段的每个集被映射到所述多个仓中的一个不同仓。所述一个或多个程序还包括如下指令:在将所述相应的游离片段的甲基化模式输入所述分类器时,将游离片段癌症状况分配给多个游离片段的所述多个集中的多个游离片段的每个集中的每个相应的游离片段,作为分类器的一输出的一函数。所述游离片段癌症状况是所述第一癌症状况和所述第二癌症状况中的一种。所述一个或多个程序还包括如下指令:计算来自所述测试受试者的游离片段的数量的第一集中趋势度量,所述游离片段在跨越所述多个仓的多个游离片段的每个集中被分配为所述第一癌症状况,以及计算来自所述测试受试者的游离片段的数量的第二集中趋势度量,所述游离片段在跨越所述多个仓的多个游离片段的每个集中。所述一个或多个程序还包括如下指令:使用所述第一集中趋势度量和所述第二集中趋势度量来估计所述受试者的细胞来源分数。
本公开的另一方面提供上述公开的计算系统,其中所述一个或多个程序还包括用于单独或组合执行以上公开的任何方法的指令。
本公开的另一方面提供了一种非暂时性计算机可读存储介质,其存储用于估计受试者细胞来源分数的一个或多个程序。所述一个或多个程序被配置成由计算机执行。所述一个或多个程序包括如下指令:多个游离片段中每个相应的游离片段的相应甲基化模式。每个相应的游离片段的所述相应甲基化模式(i)通过一个或多个核酸样本的甲基化测序来确定,所述一个或多个核酸样本包含从所述受试者获得的生物样本中的所述相应片段,并且(ii)包括所述相应片段中的相应的多个CpG位点中的每个CpG位点的甲基化状态。所述一个或多个程序包括如下指令:将所述多个游离片段中的每个游离片段映射到多个仓中的一个仓,从而获得多个游离片段的多个集。这里,多个游离片段的每个集被映射到所述多个仓中的一个不同仓。所述一个或多个程序还括如下指令:在将所述相应游离段的甲基化模式输入所述分类器时,将游离片段癌症状况分配给所述多个游离片段的集的每个游离片段的集中的每个相应的游离片段,作为一分类器的输出的一函数。所述受试者癌症状况是所述第一癌症状况和所述第二癌症状况中的一种。所述一个或多个程序还括如下指令:计算来自所述测试受试者的游离片段的数量的第一集中趋势度量,所述游离片段在跨越所述多个仓的多个游离片段的每个集中被分配为所述第一癌症状况;以及来自所述测试受试者的游离片段的数量的第二集中趋势度量,所述游离片段在跨越所述多个仓的多个游离片段的每个集中。所述一个或多个程序还括如下指令:使用所述第一集中趋势度量和所述第二集中趋势度量来估计所述受试者的细胞来源分数。
本公开的另一方面提供了上述非暂时性计算机可读存储介质,其中所述一个或多个程序还包括用于单独或组合执行上述方法中的任一个的指令。
在所附权利要求的范围内的系统、方法和装置的各个实施例各自具有几个方面,其中没有一个方面单独负责本文描述的期望属性。在不限制所附权利要求的范围的情况下,本文描述了一些突出的特征。在考虑该讨论之后,特别是在阅读了标题为“具体实施方式”的部分之后,将理解如何使用各个实施例的特征。
通过引用并入
本说明书中提及的所有出版物、专利和专利申请以引用的方式全文并入本文,其程度与每个单独的出版物、专利或专利申请被具体地和单独地指明以引用的方式并入本文一样。
附图说明
本文公开的实施方式以示例的方式而非以限制的方式在附图中示出。在附图的几个视图中,相同的附图标记表示相应的部分。
图1示出根据本公开的一些实施例的计算设备的示例框图。
图2A和2B共同示出了根据本公开的一些实施例的识别用于估计受试者细胞来源分数的多个特征的方法的示例流程图,其中虚线框表示可选步骤。
图3A和3B共同示出了根据本公开的一些实施例的估计受试者的细胞来源分数的方法的示例流程图,其中虚线框表示可选步骤。
图4示出了根据本公开的一些实施例的患有任何所列癌症的受试者的ctDNA分数作为癌症阶段的函数的图。
图5示出了根据本公开的一些实施例的用于制备用于测序的核酸样本的方法的流程图。
图6示出了根据本公开的一些实施例的用于获得序列读数的过程的图。
图7示出了根据本公开的一些实施例,基于全基因组重亚硫酸盐测序数据的肿瘤分数估计值与来自基于组织的全基因组测序数据的已知肿瘤分数的比较。特别地,WGB估计的肿瘤分数包括异常片段的平均数与片段的平均总数的比率(例如,其中每个片段被映射到参照基因组的特定仓或区域)。图7基于来自495名受试者的测序信息。在已知组织肿瘤分数>0.01时,WGBs肿瘤分数估计的Spearman相关性为0.86。在已知组织肿瘤分数>0.005时,WGBs肿瘤分数估计的Spearman相关性为0.90。在已知组织肿瘤分数>0.001时,WGBs肿瘤分数估计的Spearman相关性为0.89。在已知组织肿瘤分数>0.0001时,WGB肿瘤分数估计的Spearman相关性为0.74。这表明基于WGB的肿瘤分数的估计与已知的组织肿瘤分数相关。
图8示出了根据本公开的一些实施例用于特征识别的互信息的度量。
具体实施方式
现在将详细参照实施例,其示例在附图中示出。在以下的详细描述中,阐述了许多具体细节,以提供对本公开的透彻理解。然而,对于本领域普通技术人员而言,显而易见的是,可以在没有这些具体细节的情况下实施本公开。在其他情况下,没有详细描述众所周知的方法、过程、组件、电路和网络,以免不必要地模糊实施例的各个方面。
本文描述的实施方式提供了用于确定受试者的估计细胞来源分数的各种技术方案。在示例性实施例中,从受试者的生物样本中获得核酸片段。生物样本包含游离核酸(cell-free nucleic acid)。因此,核酸片段是游离核酸。估计核酸片段的预定义的一组甲基化位点的甲基化状态,并根据甲基化状态给每个片段打分。将多个甲基化状态得分(score)转换为多个计数,将其与预定义的甲基化位点集合中的每个甲基化位点的对应甲基化得分进行比较。相应的甲基化得分来自细胞来源中甲基化模式的分析。这种比较确定了受试者中甲基化的频率,然后将其用于相对于细胞来源估计细胞来源分数。
定义
如本文所使用,术语“约(about或approximately)”人员确定的特定值的可接受误差范围内,这部分地取决于如何测量或确定该值,例如测量系统的限制。例如,根据本领域的实践,在一些实施例中,“约”是指在1或大于1的标准偏差内。在一些实施例中,“约”是指给定值的±20%、±10%、±5%或±1%的范围。在一些实施例中,术语“约(about或approximately)”是指在一个数值的一个数量级内、5倍内或2倍内。在本申请和权利要求中描述特定值的情况下,除非另有说明,否则应假定术语“约(about)”的含义在该特定值的可接受误差范围内。术语“约(about)”可以具有本领域普通技术人员通常理解的含义。在一些实施例中,术语“约(about)”是指±10%。在一些实施例中,术语“约(about)”是指±5%。
如本文所使用,术语“测定(assay)”是指用于确定物质(例如核酸、蛋白质、细胞、组织或器官)性质的技术。测定(例如,第一测定或第二测定)可包括用于测定样本中核酸的拷贝数变化、样本中核酸的甲基化状态、样本中核酸的片段大小分布、样本中核酸的突变状态或样本中核酸的裂解(fragmentation)模式的技术。本领域普通技术人员已知的任何测定可用于检测本文提及的核酸的任何性质。核酸的性质可以包括序列、基因组同一性、拷贝数、一个或多个核苷酸位置处的甲基化状态、核酸的大小、在一个或多个核苷酸位置处核酸中存在或不存在突变、以及核酸的裂解模式(例如,核酸断裂所在的核苷酸位置)。测定或方法可以具有特定的灵敏度和/或特异性,并且它们作为诊断工具的相对有用性可以使用ROC-AUC统计来测量。
如本文所使用,术语“生物样本”、“患者样本”和“样本”可互换使用,是指取自受试者的任何样本,其可反映与受试者相关的生物状态。在一些实施方案中,此类样本含有游离核酸,例如游离DNA。在一些实施例中,此类样本包括除游离核酸之外的核酸。生物样本的示例包括但不限于受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液。在一些实施例中,生物样本由受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液组成。在这样的实施例中,生物样本限于受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液,并且不包括受试者的其他组分(例如固体组织等)。生物样本可包括来自活的或死的受试者的任何组织或材料。生物样本可以是游离(cell-free)样本。生物样本可包括核酸(例如,DNA或RNA)或其片段。样本可以是液体样本或固体样本(例如,细胞或组织样本)。生物样本可以是体液,例如血液、血浆、血清、尿液、阴道液、来自鞘膜积液(例如睾丸)的液体、阴道冲洗液体、胸膜液体、腹水、脑脊液、唾液、汗液、泪液、痰液、支气管肺泡灌洗液、来自乳头的排出液、身体不同部分(例如甲状腺、乳房)的抽吸液等。生物样本可以是粪便样本。在各种实施例中,富含游离DNA的生物样本(例如,通过离心方案获得的血浆样本)中的大部分DNA可以是游离的(例如,超过50%、60%、70%、80%、90%、95%或99%的DNA可以是游离的)。可对生物样本进行处理,以物理破坏组织或细胞结构(例如,离心和/或细胞裂解),从而将细胞内组分释放到溶液中,该溶液还可包含酶、缓冲液、盐、洗涤剂等,可用于制备分析样本。生物样本可以从受检者以侵入性(例如,手术手段)或非侵入性(例如,抽血、拭子或收集排出的样本)方式获得。
在一些实施例中,生物样本来源于一种组织类型(例如,来自单个器官,例如乳房、肺、前列腺、结肠直肠、肾、子宫、胰腺、食管、淋巴、卵巢、宫颈、表皮、甲状腺、膀胱或胃)。在一些实施例中,生物样本来源于两种或更多种组织类型(例如,来自两种或更多种器官的组织的组合)。在一些实施例中,生物样本来源于一种或多种细胞类型(例如,源自单个器官或来自预定器官集合的细胞)。
如本文公开,术语“核酸”和“核酸分子”可互换使用。该术语指任何组成形式的核酸,例如脱氧核糖核酸(DNA,例如互补DNA(cDNA)、基因组DNA(gDNA)等)、核糖核酸(RNA,例如信息RNA(mRNA)、短抑制性RNA(short inhibitory RNA,siRNA)、核糖体RNA(rRNA)、转移RNA(tRNA)、微型RNA、由胎儿或胎盘等高度表达的RNA等),和/或DNA或RNA类似物(例如,包含碱基类似物、糖类似物和/或非天然骨架等)、RNA/DNA杂合体和聚酰胺核酸(PNA),所有这些都可以是单链或双链形式。除非另有限制,核酸可以包含已知的天然核苷酸类似物,其中一些可以以与天然存在的核苷酸类似的方式起作用。核酸可以是可用于实施本文方法的任何形式(例如,线性、环形、超螺旋形、单链、双链等)。在一些实施例中,核酸可以来自单个染色体或其片段(例如,核酸样本可以来自从二倍体生物体获得的样本的一个染色体)。在一些实施例中,核酸包括核小体、核小体或核小体样结构的片段或部分。核酸有时包含蛋白质(例如组蛋白、DNA结合蛋白等)。通过本文描述的方法分析的核酸有时基本上是分离的,并且基本上不与蛋白质或其它分子结合。核酸还包括由单链(“正义(sense)”或“反义(antisense)”、“正链(plus strand)”或“负链(minus strand)”、“正向阅读框(forwardreading frame)”或“反向阅读框(reverse reading frame)”和双链多核苷酸合成、复制或扩增的RNA或DNA的衍生物、变体和类似物。脱氧核糖核苷酸包括脱氧腺苷、脱氧胞苷、脱氧鸟苷和脱氧胸苷。对于RNA,碱基胞嘧啶被尿嘧啶取代,糖2’位包括羟基部分。可以使用从受试者获得的核酸作为模板来制备核酸。。
如本文所使用,术语“游离核酸”是指可在细胞外、体液(例如受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、汗液、泪液、胸膜液、心包液或腹膜液)中发现的核酸分子。游离核酸源自一个或多个健康细胞和/或来自一个或多个癌细胞游离核酸,可互换地用作循环核酸。游离核酸的示例包括但不限于RNA、线粒体DNA或基因组DNA。如本文所使用,术语“游离核酸”、“游离DNA”和“cfDNA”可互换使用。如本文所使用,术语“循环肿瘤DNA”或“ctDNA”是指源自肿瘤细胞或其它类型癌细胞的核酸片段,其可由于生物过程(例如死亡细胞的凋亡或坏死)而从个体的身体(例如,血流)释放到流体中,或由活的肿瘤细胞主动释放。游离核酸的示例包括但不限于RNA、线粒体DNA或基因组DNA。
如本文所公开,术语“循环肿瘤DNA”或“ctDNA”是指源自异常组织的核酸片段,例如肿瘤或其它类型癌症的细胞,其可由于生物过程(例如死亡细胞的凋亡或坏死)而释放到受试者的血流中,或由活的肿瘤细胞主动释放。
如本文所公开,术语“参照基因组”是指任何生物体或病毒的已知的、测序的或表征的基因组,无论是部分或完全的,其可用于参照来自受试者的已鉴定序列。在由美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)或加州大学圣克鲁兹分校(University of California,Santa Cruz,UCSC)的在线基因组浏览器中提供了用于人类受试者以及许多其它生物体的示例性参照基因组。“基因组”是指在核酸序列中表达的生物体或病毒的完整遗传信息。如本文所使用,参照序列或参照基因组通常是来自一个或多个个体的组装的或部分组装的基因组序列。在一些实施例中,参照基因组是来自一个或多个人类个体的组装的或部分组装的基因组序列。参照基因组可被视为一个物种基因组的代表性示例。在一些实施例中,参照基因组包括分配给染色体的序列。示例性的人类参照基因组包括但不限于NCBI版本(build)34(UCSC等效物(equivalent):hg16)、NCBI版本35(UCSC等效物:hg17)、NCBI版本36.1(UCSC等效物:hg18)、GRCh37(UCSC等效物:hg19)和GRCh38(UCSC等效物:hg38)。
如本文公开,术语“参照基因组的区域”、“基因组区域(genomic region)”或“染色体区域”是指连续的或非连续的参照基因组的任何部分。例如,它也可以称为仓(bin)、分区(partition)、基因组部分(genomic portion)、参照基因组的部分、染色体的部分等。在一些实施例中,基因组段(genomic section)基于特定长度基因组序列。在一些实施例中,方法可包括分析多个映射(mapped)到多个基因组区域的核酸片段。基因组区域的长度可以大致相同,或者基因组切片的长度可以不同。在一些实施例中,基因组区域具有大约相等的长度。在一些实施例中,不同长度的基因组区域被调整或加权(weighted)。在一些实施例中,基因组区域为约10kb至约500kb、约20kb至约400kb、约30kb至约300kb、约40kb至约200kb,有时约50kb至约100kb。在一些实施例中,基因组区域为约100kb至约200kb。基因组区域不限于连续运行的序列(contiguous runs of sequence)。因此,基因组区域可以由连续的和/或非连续的序列组成。基因组区域不限于单个染色体。在一些实施例中,基因组区域包括一个染色体的全部或部分,或两个或更多染色体的全部或部分。在一些实施例中,基因组区域可以跨越一个、两个或更多完整染色体。此外,基因组区域可以跨越多条染色体的连接或不连接部分。
如本文所使用,术语“片段(fragment)”和“核酸片段”(例如,DNA片段)可互换使用,是指包含至少三个连续核苷酸的多核苷酸或多肽序列的一部分。在对生物样本中发现的游离核酸分子测序的上下文中,术语“片段”和“核酸片段”可互换地指生物样本或其代表(representation)中发现的游离核酸分子。在这样的上下文中,测序数据(例如,来自全基因组测序、靶向测序等序列读数)被用于获得这种核酸片段的全部或一部分的一个或多个拷贝。这种序列读数实际上可以从原始核酸片段的PCR重复(PCR duplicates)的测序中获得,因此“代表(represent)”或“支持(support)”核酸片段。可以存在多个序列读数,每个序列读数代表或支持生物样本中的特定核酸片段(例如,PCR重复)。在一些实施例中,核酸片段可以被认为是游离核酸。在一些实施例中,例如,当需要确定特定游离核酸分子的丰度水平时,来自PCR重复的序列读数可能会产生误导。在这样的实施例中,仅使用核酸片段的一个拷贝来代表原始的游离核酸分子(例如,在文库制备过程中,通过附着于游离核酸分子的分子标识符来去除重复)。在一些实施例中,甲基化测序数据可用于进一步区分这些核酸片段。例如,共享相同或接近相同序列的两个核酸片段如果各自具有不同的甲基化模式,则可能仍然对应于不同的原始游离核酸分子。
在一些实施例中,当每个片段序列彼此相差少于2个核苷酸、少于3个核苷酸、少于4个核苷酸、少于5个核苷酸、少于6个核苷酸、少于7个核苷酸、少于8个核苷酸、少于9个核苷酸时,少于10个核苷酸,少于15个核苷酸,少于20个核苷酸,少于25个核苷酸,少于30个核苷酸,少于35个核苷酸,少于40个核苷酸,少于45个核苷酸,或少于50个核苷酸时,认为这两个片段共享几乎相同的核酸序列。在一些实施例中,当每个片段序列彼此相差小于总核苷酸的1%、小于总核苷酸的2%、小于总核苷酸的3%、小于总核苷酸的4%或小于总核苷酸的5%时,认为这两个片段共享几乎相同的核酸序列。
在一些实施例中,将来自每个(例如,第一或第二)多个核酸片段的第一片段与参照基因组中的第一位置对准,将来自每个(例如,第一或第二)多个核酸片段的第二片段与参照基因组中的第二位置对准。在一些实施例中,第一位置和第二位置对应于参照基因组中的不同区域。在一些实施例中,第一和第二位置是相同的位置(例如,第一和第二位置对应于参照基因组的相同区域)。在一些实施例中,第一和第二位置在参照基因组中重叠至少1个残基、至少2个残基、至少3个残基、至少4个残基、至少5个残基、至少6个残基、至少7个残基、至少8个残基、至少9个残基、至少10个残基、至少11个残基、至少12个残基、至少13个残基,'-至少14个残基,至少15个残基,至少16个残基,至少17个残基,至少18个残基,至少19个残基,至少20个残基,至少30个残基,至少40个残基,至少50个残基,至少60个残基,至少70个残基,至少80个残基,至少90个残基,或至少100个残基。在一些实施例中,第一位置和第二位置在参照基因组中重叠1至50个残基。
在一些实施例中,将每个片段映射到参照基因组的至少第一位置和第二位置(例如,对应于每个片段的核酸序列存在于参照基因组中的至少两个不同位置)。在一些实施例中,将每个片段映射到参照基因组的至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19或至少20个位置。在一些实施例中,参照基因组的至少两个映射位置在参照基因组彼此隔开至少1个残基、至少5个残基、至少10个残基、至少25个残基、至少50个残基、至少100个残基、至少200个残基、至少300个残基、至少400个残基、至少500个残基、至少600个残基、至少700个残基,至少800个残基、至少900个残基或至少1000个残基。在一些实施例中,至少两个映射位置包括参照基因组中的不同基因。在一些实施例中,所述至少两个映射位置位于参照基因组的不同染色体上。
核酸片段可保留亲本多核苷酸的生物活性和/或一些特征。在一个实例中,鼻咽癌细胞可将EB病毒(Epstein-Barr virus,EBV)DNA的片段沉积到受试者(例如患者)的血流中。这些片段可包含一个或多个BamHI-W序列片段,其可用于检测血浆中肿瘤衍生DNA的水平。BamHI-W序列片段对应于可以使用Bam-HI限制酶识别和/或消化的序列。BamHI-W序列可以指序列5’-GGATCC-3’。
此外,例如多核苷酸可以通过自然过程,例如可以在生物样本中自然出现的cfDNA片段的情况下,或者通过体外操作,被断裂或片段化成多个片段。裂解核酸的各种方法是本领域公知的。这些方法性质上可以是,例如,化学的或物理的或酶促的。酶促裂解可包括用DNase部分降解;用酸部分嘌呤;限制酶的使用;内含子编码核酸内切酶;基于DNA的切割方法,例如三链体和杂交形成方法(triplex and hybrid formation method),其依赖于核酸片段的特异性杂交以将切割试剂定位到核酸分子中的特定位置;或在已知或未知位置切割多核苷酸的其它酶或化合物。物理裂解方法可包括使多核苷酸经受高剪切速率。例如,通过使DNA移动通过具有凹坑或尖峰的腔室或通道,或者迫使DNA样本通过受限尺寸的流动通道,例如具有微米或亚微米范围内的横截面尺寸的孔,可以产生高剪切速率。其它物理方法包括超声和雾化。同样可以使用物理和化学裂解方法的组合,例如通过热和离子介导的水解进行的裂解。例如,参见Sambrook等人,“分子克隆实验指南(Molecular Cloning:ALaboratory Manual)”,第3版。冷泉港实验室出版社(Cold Spring Harbor LaboratoryPress),冷泉港,纽约(2001)(Sambrook等人),出于所有目的通过引用被并入本文。这些方法可被优化以将核酸消化成选定大小范围的片段。
如本文所使用,术语“序列读数(sequence reads)”或“读数(reads)”是指通过本文所述或本领域已知的任何测序方法产生的核苷酸序列。读数可从核酸片段的一端产生(“单端测序(single-end reads)”),有时从核酸的两端产生(例如,双端测序(paired-endreads、double-end reads))。在一些实施例中,可从靶向核酸片段的一个或两个链产生序列读数(例如,单端或双端测序)。序列读数的长度通常与特定的测序技术相关。例如,高通量方法提供的序列读数的大小从数十个碱基对(bp)到数百个碱基对(bp)不等。在一些实施例中,序列读数的平均(mean、median或average)长度为约15bp至900bp长(例如,约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp,约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp,或约500bp)。在一些实施例中,序列读数的平均(mean、median或average)长度为约1000bp、2000bp、5000bp、10,000bp或50,000bp或更长。例如,纳米孔测序可以提供大小从几十到几百到几千个碱基对不等的序列读数。Illumina平行测序可以提供变化不大的序列读数,例如,大多数序列读数可以小于200bp。序列读数(sequence read或sequencing read)可以指对应于核酸分子(例如,一串核苷酸(a string of nucleotides))的序列信息。例如,序列读数可以对应于来自核酸片段的一部分的一串核苷酸(例如,约20至约150个),可以对应于核酸片段的一端或两端的一串核苷酸,或者可以对应于整个核酸片段的核苷酸。可以以各种方式获得序列读数,例如,使用测序技术或探针,例如,在杂交阵列或捕获探针中,或扩增技术,例如聚合酶链式反应(PCR)或使用单一引物线的线性扩增或等温扩增。
如本文所公开,如本文所使用的术语“测序(sequencing)”、“序列测定(sequencedetermination)”等通常是指可用于测定生物大分子如核酸或蛋白质的顺序的任何和所有生化过程。例如,测序数据可以包括核酸分子如DNA片段中的全部或部分核苷酸碱基。
如本文所公开,术语“单核苷酸变体”或“SNV”是指在核苷酸序列(例如,来自个体的序列读数)的位置处将一个核苷酸置换为不同的核苷酸。从第一核碱基X到第二核碱基Y的置换可表示为“X>Y”。例如,胞嘧啶到胸腺嘧啶SNV的置换可以表示为“C>T”。
如本文所使用,术语“甲基化谱(methylation profile)”(也称为甲基化状态)可包括与区域的DNA甲基化有关的信息。与DNA甲基化相关的信息可以包括CpG位点的甲基化指数、区域中CpG位点的甲基化密度、连续区域中CpG位点的分布、包含一个以上CpG位点的区域内的每个单独CpG位点的甲基化模式或水平、以及非CpG甲基化。基因组的大部分的甲基化谱可被认为等同于甲基化组(methylome)。哺乳动物基因组中的“DNA甲基化”可以指在CpG二核苷酸中胞嘧啶杂环的第5位添加甲基(例如,产生5-甲基胞嘧啶)。胞嘧啶的甲基化可以发生在其他序列环境中的胞嘧啶中,例如5’-CHG-3’和5’-CHH-3’,其中H是腺嘌呤、胞嘧啶或胸腺嘧啶。胞嘧啶甲基化也可以是5-羟甲基胞嘧啶的形式。DNA的甲基化可包括非胞嘧啶核苷酸(例如N6-甲基腺嘌呤)的甲基化。
如本文所使用,“甲基化组(methylome)”可以是基因组中的多个位点或基因座的DNA甲基化量的量度。甲基化组可以对应于整个基因、基因组的大部分或基因组的相对小的部分。“肿瘤甲基化组”可以是受试者(例如,人)的肿瘤的甲基化组。可以使用血浆中的肿瘤组织或游离肿瘤DNA来确定肿瘤甲基化组。肿瘤甲基化组可以是感兴趣的甲基化组的一个示例。感兴趣的甲基化组可以是能够将核酸(例如DNA)贡献到体液中的器官的甲基化组(例如,脑细胞、骨、肺、心脏、肌肉、肾等的甲基化组)。该器官可以是移植的器官。
如本文所使用,每个基因组位点的术语“甲基化指数”对于每个基因组位点(例如,CpG位点,DNA的一个区域,其中在沿着其5’→3’方向的线性碱基序列中,胞嘧啶核苷酸之后是鸟嘌呤核苷酸)可以指在该位点处显示甲基化的核酸片段与覆盖该位点的核酸片段的总数的比例。区域的“甲基化密度”可以是显示甲基化的区域内的位点处的读数数目除以覆盖该区域中的位点的读数总数。这些位点可以具有特定的特性,例如,位点可以是CpG位点。区域的“CpG甲基化密度”可以是显示CpG甲基化的读数数目除以覆盖该区域中的CpG位点(例如,特定的CpG位点、CpG岛内的CpG位点或更大的区域)的读数总数。例如,人类基因组中每100-kb仓的甲基化密度可以由,CpG位点处的未转化的胞嘧啶(其可以对应于甲基化胞嘧啶)的总数,作为映射到100-kb区域的核酸片段覆盖的所有CpG位点的比例来确定。在一些实施例中,分析了其它仓的大小(例如,50-kb或1-Mb等)。在一些实施例中,区域是整个基因组或染色体,或染色体的一部分(例如,染色体臂(chromosomal arm))。当区域仅包含CpG位点时,CpG位点的甲基化指数可以与区域的甲基化密度相同。“甲基化胞嘧啶的比例”可以指显示为甲基化(例如亚硫酸氢盐转化后未转化)的胞嘧啶位点“C's”的数目相对于区域中分析的胞嘧啶残基(例如包括CpG上下文之外的胞嘧啶)的总数。甲基化指数、甲基化密度和甲基化胞嘧啶的比例是“甲基化水平”的示例。
如本文所使用,“血浆甲基化组(plasma methylome)”可以是从动物(例如,人)的血浆或血清测定的甲基化组。血浆甲基化组可以是游离甲基化组的示例,这是因为血浆和血清可以包括游离DNA。血浆甲基化组可以是混合甲基化组的示例,这是因为它可以是肿瘤/患者甲基化组的混合物。“细胞甲基化组(cellular methylome)”可以是由受试者(例如,患者)的细胞(例如,血细胞或肿瘤细胞)确定的甲基化组。血细胞的甲基化组可以称为血细胞甲基化组(或血液甲基化组)。
如本文所使用,术语“异常甲基化模式(abnormal methylation pattern或anomalous methylation pattern)”是指甲基化状态向量(methylation state vector)、甲基化模式或具有甲基化状态向量的DNA分子的甲基化状态,预期其在样本中发现的频率低于阈值。在本文提供的具体实施例中,在包含健康个体的健康对照组中发现特定甲基化状态向量的预期性由p值表示。在一些实施例中,甲基化状态向量的p值按照如下文献的描述测定:于2020年5月22日提交的PCT/PCT/034317的实施例5(发明名称为“使用转移学习用于测定受试者是否患有癌症的系统和方法”),和于2019年3月13日提交的,序列号为16/352,602的美国专利申请(发明名称为“异常片段检测和分类”),现公布为US2019/0287652,其每一个通过引用整体并入本文。因此,与来自健康对照组中的健康个体的样本中的其他甲基化状态向量相比,低p值得分通常对应于相对出乎意料的甲基化状态向量。与来自健康对照组中的健康个体的样本中的其他甲基化状态向量相比,高p值得分通常对应于通常更受期待的甲基化状态向量。p值低于阈值(例如,0.1、0.01、0.001、0.0001等)的甲基化状态向量可以被定义为异常甲基化模式。本领域已知的各种方法可用于计算甲基化模式或甲基化状态向量的p值或期望值。本文提供的示例性方法涉及使用马尔可夫链(Markov chain)概率,该概率假定CpG位点的甲基化状态依赖于相邻CpG位点的甲基化状态。本文提供的替代方法通过利用包括多种混合组分的混合模型,来计算观察健康个体中特定甲基化状态向量的期望度,每个混合模型是独立位点模型,其中假定每个CpG位点处的甲基化独立于其它CpG位点处的甲基化状态。本文提供的方法使用具有异常甲基化模式的基因组区域。当对应于或源自于基因组区域的cfDNA片段具有在参照样本中出现频率低于阈值的甲基化状态向量时,可以确定该基因组区域具有异常甲基化模式。参照样本可以是来自对照受试者或健康受试者的样本。甲基化状态向量在参照样本中出现的频率可以表示为p值得分。当对应于或源自于基因组区域的cfDNA片段不具有单一、均匀的甲基化状态向量时,基因组区域可以具有多个甲基化状态向量的多个p值得分。在这种情况下,在与阈值比较之前,可以对多个p值得分求和或求平均值。可以采用本领域已知的各种方法来比较对应于基因组区域和阈值的p值得分,包括但不限于算术平均值、几何平均值、调和平均值、中值、众数等。
如本文所使用,术语“相对丰度(relative abundance)”可以指具有特定特征(例如,特定长度(specified length),终止于一个或多个特定坐标/终止位置,与基因组的特定区域对准,或具有特定甲基化状态)的第一数量的核酸片段与具有特定特征(例如,特定长度,终止于一个或多个特定坐标/终止位置,或与基因组的特定区域对准)的第二数量的核酸片段之比。在一个示例中,相对丰度可以指终止于第一组基因组位置的DNA片段的数量与终止于第二组基因组位置的DNA片段的数量之比。在一些方面,“相对丰度”可以是一种分离值,其将在基因组位置的一个窗口内终止的游离DNA分子的量(一个值)与在基因组位置的另一个窗口内终止的游离DNA分子的量(其他值)相关联。两个窗口可以重叠,但大小可以不同。在其它实施例中,两个窗口不能重叠。此外,在一些实施例中,窗口的宽度为一个核苷酸,因此相当于一个基因组位置。
如本文所使用,术语“甲基化(methylation)”是指脱氧核糖核酸(DNA)的修饰,其中胞嘧啶碱基的嘧啶环上的氢原子转化为甲基,形成5-甲基胞嘧啶。特别地,甲基化倾向于发生在胞嘧啶和鸟嘌呤的二核苷酸处,这里称为“CpG位点”。在其他情况下,甲基化可发生在不是CpG位点的一部分的胞嘧啶处或除胞嘧啶之外的另一核苷酸处;然而,这种情况很少发生。在本公开中,为了清楚起见,参照CpG位点讨论甲基化。异常cfDNA甲基化可被识别为高甲基化或低甲基化,这两者都可能是癌症状态的指示。如本领域公知的,DNA甲基化异常(与健康对照组相比)可引起不同的影响,这可能导致癌症。
在异常甲基化的cfDNA片段的识别中出现了各种挑战。首先,确定受试者的cfDNA被异常甲基化仅与一组对照组相比具有重要意义,因此,如果对照组数量较少,则确定对小对照组失去置信度(loses confidence)。另外,在一组对照受试者中,甲基化状态可能不同,这在确定受试者的cfDNA被异常甲基化时可能难以解释。另一方面,CpG位点的胞嘧啶的甲基化会影响随后CpG位点的甲基化。
本领域技术人员将理解,本文描述的原理同样适用于检测非CpG环境下的甲基化,包括非胞嘧啶甲基化。
如本文公开,术语“受试者(subject)”是指任何活的或非活的生物体,包括但不限于人类(例如,男性人类、女性人类、胎儿、怀孕女性、儿童等)、非人类动物、植物、细菌、真菌或原生生物。任何人类或非人动物可以作为受试者,包括但不限于哺乳动物、爬行动物、鸟类、两栖动物、鱼类、有蹄动物、反刍动物、牛(bovine(例如cattle))、马(equine(例如horse))、山羊和绵羊(caprine和and ovine(例如sheep、goat))、猪(swine(例如pig))、骆驼(camelid(例如camel、llama、alpaca))、猴子、猿(ape(例如,大猩猩(gorilla)、黑猩猩(chimpanzee)))、家禽、狗、猫、小鼠(mouse)、大鼠(rat)、鱼、海豚、鲸鱼和鲨鱼。术语“受试者”和“患者”在本文中可互换使用,是指已知患有或可能患有医学病症或失调(condition或disorder)(例如癌症)的人类或非人类动物。在一些实施例中,受试者是任何阶段的雄性(male)或雌性(female)(例如,男人(man)、女人(woman)或儿童)。
从中获取样本或通过本文所述的任何方法或组合物治疗的受试者可以是任何年龄的,可以是成人、婴儿或儿童。在一些情况下,受试者,例如患者年龄是0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98或99岁,或在其中的范围内(例如,约2至约20岁,约20至约40岁,或约40至约90岁)。可从本公开的方法中受益的一类特定受试者(例如,患者)是年龄超过40岁的受试者(例如,患者)。
可从本公开的方法中受益的另一类特定的受试者(例如患者)是儿科患者,他们可能处于慢性心脏症状的较高风险中。此外,从中获取样本或通过本文所述的任何方法或组合物治疗的受试者(例如患者)可以是雄性或雌性。
如本文所使用,术语“归一化(normalize)”是指为了比较目的而将一个值或一组值变换到公共参照系。例如,当用基线ctDNA水平“归一化”诊断ctDNA水平时,将诊断ctDNA水平与基线ctDNA水平进行比较,从而可以确定诊断ctDNA水平与基线ctDNA水平的差异量。
如本文所使用,术语“癌症(cancer)”或“肿瘤(tumor)”是指异常的组织肿块,其中该组织肿块的生长超过正常组织的生长,并且与正常组织的生长不协调。根据以下特征,癌症或肿瘤可被定义为“良性(benign)”或“恶性(malignant)”:包括形态和功能的细胞分化程度、生长速率、局部侵袭和转移。“良性”肿瘤可以被很好地分化,具有比恶性肿瘤更慢的特征性生长,并且仍然局限于原发部位(site of origin)。此外,在一些情况下,良性肿瘤不具备浸润、侵袭或转移至远处部位的能力。“恶性”肿瘤可以是低分化的(间变),具有特征性的快速生长,伴随周围组织的进行性浸润、侵袭和破坏。此外,恶性肿瘤可能具有转移至远处部位的能力。
如本文所使用,术语“癌症水平(level of cancer)”指的是癌症是否存在(例如,存在或不存在)、癌症的分期、肿瘤的大小、转移的存在或不存在、身体的总肿瘤负荷和/或癌症的严重程度的其他度量(例如,癌症的复发)。癌症水平可以是数字或其它标记,例如符号、字母和颜色。癌症水平可以为零。癌症水平还可包括与突变或许多突变相关的癌前或癌前状态(precancerous conditions(states))。癌症水平可以以各种方式使用。例如,筛查可以检查以前不知道患有癌症的人是否患有癌症。估计可以调查已被诊断患有癌症的人,以监测癌症随时间的进展,研究治疗的有效性或确定预后(prognosis)。在一个实施例中,预后可表示为受试者死于癌症的几率,或在特定持续时间或时间之后癌症发展的几率,或癌症转移的几率。检测可包括“筛查”或可包括检查具有暗示癌症的特征(例如,症状(symptoms)或其它阳性测试)的人是否患有癌症。
术语“癌症负荷(cancer load)”、“肿瘤负荷(tumor load)”、“癌症负担值(cancerburden)”和“肿瘤负担值(tumor burden)”在本文中可互换使用,是指测试样本中肿瘤衍生核酸的浓度或存在。因此,术语“癌症负荷”、“肿瘤负荷”、“癌症负担值”和“肿瘤负担值”是生物样本中细胞来源分数或肿瘤分数的非限制性示例。在一些实施例中,肿瘤分数是细胞来源分数的特定形式。
如本文所使用,术语“组织(tissue)”对应于作为功能单元聚集在一起的一组细胞。在单个组织中可发现不止一种类型的细胞。不同类型的组织可由不同类型的细胞(例如,肝细胞、肺泡细胞或血细胞)组成,但也可对应于来自不同生物体的组织(母亲与胎儿)或对应于健康细胞与肿瘤细胞。术语“组织(tissue)”通常可以指在人体中发现的任何细胞组(例如,心脏组织、肺组织、肾组织、鼻咽组织、口咽组织)。在一些方面,术语“组织”或“组织类型”可用于指游离核酸来源的组织。在一个示例中,病毒核酸片段可衍生自血液组织。在另一个示例中,病毒核酸片段可衍生自肿瘤组织。
如本文所使用,术语“未训练的分类器(untrained classifier)”是指尚未在目标数据集上训练的分类器。然而,未训练的分类器可能在主要数据集(例如,小数据集和/或参照数据集)上进行部分训练。应当理解,术语“未训练的分类器”并不排除在未训练的分类器的这种训练中使用迁移学习技术的可能性。例如,Fernandes等人“应用于宫颈癌筛查的具有部分可观察性的迁移学习(Transfer Learning with Partial Observability Appliedto Cervical Cancer Screening)”,模式识别和图像分析(Pattern Recognition andImage Analysis):第8届伊比利亚会议程序(8th Iberian Conference Proceedings),243-250,通过引用并入本文,提供了这种迁移学习的非限制性示例。在使用迁移学习的情况下,向未训练的分类器提供超出初级训练数据集(primary training dataset)或除了初级训练数据集之外的另外的数据。通常,另外的数据是从另一辅助训练数据集学习的系数(例如,回归系数)的形式。此外,虽然已经公开了对单个辅助训练数据集的描述,但是应当理解,在本公开中,在训练未训练的分类器时,可以用来补充初级训练数据集的辅助训练数据集的数量没有限制。例如,在一些实施例中,两个或更多辅助训练数据集、三个或更多辅助训练数据集、四个或更多辅助训练数据集,或五个或更多辅助训练数据集被用于通过迁移学习来补充初级训练数据集,其中每个这样的辅助数据集不同于初级训练数据集。在这样的实施例中可以使用任何方式的迁移学习。例如,考虑除了初级训练数据集之外,还存在第一辅助训练数据集和第二辅助训练数据集的情况。从第一辅助训练数据集(通过应用分类器,例如回归到第一辅助训练数据集)学习的系数可以使用迁移学习技术(例如,上述二维矩阵乘法)应用于第二辅助训练数据集,这反过来可以产生训练的中间分类器,其系数然后被应用于初级训练数据集,并且这与初级训练数据集本身一起被应用于未训练的分类器。可替代地,从第一辅助训练数据集(通过应用分类器,例如回归到第一辅助训练数据集)学习的第一组系数,和从第二辅助训练数据集(通过应用分类器,例如回归到第二辅助训练数据集)学习的第二组系数,可各自单独地应用于初级训练数据集的单独实例(例如,通过单独的独立矩阵乘法),然后这两种将系数应用于初级训练数据集的分离实例以及初级训练数据集本身(或一些初级训练数据集的简化形式,诸如从初级训练集学习的主成分或回归系数)的方法都可以应用于未训练的分类器,以便训练未训练的分类器。在任一示例中,使用源自第一和第二辅助训练数据集导出的关于细胞来源(例如,癌症类型等)的知识,连同标记为初级训练数据集的细胞来源,来训练未训练的分类器。
术语“分类(classification)”可以指与样本的特定性质相关联的任何数量或其他字符。例如,“+”符号(或单词“正(positive)”)可以表示样本被分类为具有缺失或扩增。在另一示例中,术语“分类”是指受试者和/或样本中的肿瘤组织的量、受试者和/或样本中肿瘤的大小、受试者中肿瘤的分期、受试者和/或样本中的肿瘤负荷以及受试者中的肿瘤转移的存在。在一些实施例中,分类是二元的(binary)(例如,正或负)或具有更多级的分类(例如,从1到10或从0到1级)。在一些实施例中,术语“截止(cutoff)”和“阈值(threshold)”是指在操作中使用的预定数字。在一个示例中,截止尺寸是指大于该尺寸的片段被排除在外的尺寸。在一些实施例中,阈值是高于或低于特定分类所应用的值。这些术语中的任一个可以在这些上下文中的任一个中使用。
如本文所使用,术语“癌症相关变化(cancer-associated changes)”或“癌症特异性变化(cancer-specific changes)”可包括癌症衍生的突变(包括单核苷酸突变、核苷酸的缺失或插入、基因或染色体片段的缺失、易位、倒位)、基因的扩增、病毒相关序列(例如,病毒附加体(viral episomes)、病毒插入、感染到细胞中并随后由细胞释放的病毒DNA、以及循环或游离病毒DNA)、异常甲基化谱或肿瘤特异性甲基化特征(tumor-specificmethylation signatures)、异常游离核酸(例如,DNA)大小谱、异常组蛋白修饰标记(aberrant histone modification marks)和其它表观遗传修饰,以及癌症相关或癌症特异性的游离DNA片段末端的位置。
如本文所使用,术语“对照(control)”、“对照样本(control sample)”、“参照(reference)”、“参照样本(reference sample)”、“正常(normal)”和“正常样本(normalsample)”描述了来自不具有特定病症或以其他方式健康的受试者的样本。在一个示例中,本文公开的方法可以在患有肿瘤的受试者上进行,其中参照样本是取自受试者健康组织的样本。可以从受试者或数据库中获得参照样本。参照可以是,例如,用于映射从受试者的样本获得的核酸片段的参照基因组。参照基因组可以指单倍体或二倍体基因组,来自生物样本和组成样本的核酸片段可以与其进行比对和比较。组成样本的例子可以是从受试者获得的白细胞的DNA。对于单倍体基因组,在每个基因座只能有一个核苷酸。对于二倍体基因组,可以识别异合子(heterozygous loci);每个杂合坐位(heterozygous locus)可具有两个等位基因,其中任一等位基因可允许匹配以与该位点对准。
下面参照示例性应用来描述几个方面。应当理解,阐述了许多具体细节、关系和方法以提供对本文中描述的特征的全面理解。然而,相关领域的普通技术人员将容易地认识到,可以在没有一个或多个具体细节的情况下或者使用其他方法来实践本文描述的特征。本文描述的特征不限于所示的动作或事件的顺序,因为一些动作可以以不同的顺序发生和/或与其它动作或事件同时发生。此外,并非所有示出的动作或事件都是实现根据本文描述的特征的方法所必需的。
示例性系统实施例
现在结合图1描述示例性系统的细节。图1是示出根据一些实施方式的系统100的框图。在一些实施方式中,装置100包括一个或多个处理单元CPU 102(也称为处理器或处理核心)、一个或多个网络接口104、用户接口106、非持久性存储器111、持久性存储器112,以及用于互连这些组件的一个或多个通信总线114。一个或多个通信总线114可选地包括互连和控制系统组件之间的通信的电路(有时称为芯片组)。非持久性存储器111通常包括高速随机存取存储器,例如DRAM、SRAM、DDRRAM、ROM、EEPROM、闪存,而持久性存储器112通常包括CD-ROM、数字多功能盘(DVD)或其它光存储器、磁带盒、磁带、磁盘存储器或其它磁存储设备、磁盘存储设备、光盘存储设备,闪存设备或其它非易失性固态存储设备。持久性存储器112可选地包括一个或多个远离CPU 102的存储设备。持久性存储器112和非持久性存储器111内的非易失性存储器设备包括非暂时性计算机可读存储介质。在一些实施方式中,非持久性存储器111或者可替代地,非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集,有时结合持久性存储器112:
·可选的操作系统116,包括用于处理各种基本系统服务和用于执行硬件相关任务的程序;
·可选的网络通信模块(或指令)118,用于将系统100与其它装置或通信网络连接;
·细胞来源分数估计模块120,用于确定测试受试者的生物样本中的测试受试者140的细胞来源分数158;
·训练数据集122,对于每个相应的训练受试者(training subject)124(例如,X-1、……、X-Z,其中Z是大于124的正整数),对于每个相应的训练受试者的每个相应的游离片段126(例如,X-1-X、……、X-1-Y,其中X和Y是任何正整数,Y大于X),训练数据集122至少包括:(i)相应的甲基化模式128(例如,128-1-X),其至少由相应游离片段中每个CpG位点130(例如,130-1-X-A、130-1-X-A、……、130-1-X-Q)的相应甲基化状态确定;以及(ii)相应训练受试者136的相应受试者癌症适应症;
·测试受试者数据集140,对于来自测试受试者的生物样本衍生的多个游离片段中的每个游离片段142(例如,142-G、……、142-H,其中G和H是任何正整数,H大于G),测试受试者数据集140包括:(i)相应的甲基化模式144(例如,144-G、……、144-H),其至少由相应的游离片段中的每个CpG位点148(例如,146-G-M、......、146-G-N、......、146-H-O、......146H-P,其中M、N、O和P是正整数)的相应甲基化状态确定,(ii)相应的仓映射(binmapping)148(例如,148-G、......、148H),以及(iii)相应预测的游离片段癌症状况150(例如,150-G、……、150-H),测试受试者数据集还包括第一集中趋势度量(first measure ofcentral tendency)152、第二集中趋势度量(second measure of central tendency)154,和估计的细胞来源分数156。
根据本公开,进行了每个相应的游离片段的相应的仓映射(bin mapping)132(例如,132-1-X)和每个相应的游离片段的游离片段癌症状况134(例如,134-1-X)的分配。为了方便和易于解释,这些数据结构被示为在训练数据集中。然而,在典型实施例中,这种数据结构是根据训练集中的游离片段的甲基化模式计算的,并且不是原始数据集的一部分。在其它实施例中,仓映射132和游离片段癌症状况是所获得的训练数据集122的一部分。
根据一些实施方式,一个或多个上述识别的元件被存储在一个或多个前述存储器设备中,并且对应于用于执行上述功能的指令集。上述识别的模块、数据或程序(例如指令集)不需要被实现为单独的软件程序、过程、数据集或模块,因此这些模块和数据的各种子集可以在各种实施方式中组合或以其它方式重新布置。在一些实施方式中,非持久性存储器111可选地存储上述模块和数据结构的子集。此外,在一些实施例中,存储器存储以上未描述的另外的模块和数据结构。在一些实施例中,一个或多个上述识别的元素被存储在除可视化系统100之外的计算机系统中,该计算机系统可由可视化系统100寻址(addressable),使得可视化系统100可以在需要时检索这些数据的全部或一部分。
尽管图1描绘了“系统100”,但是该图更倾向于作为可能存在于计算机系统中的各种特征的功能描述,而不是作为本文描述的实施方式的结构示意图。在实践中,如本领域普通技术人员所认识到的,单独示出的项目可以被组合,并且一些项目可以被分离。此外,尽管图1描述了非持久性存储器111中的某些数据和模块,但是这些数据集和/或模块中的一些或全部可以在持久性存储器112中。
尽管已经参照图1公开了本公开的系统,但是现在参照图2A和2B以及3A和3B详细描述本公开的方法。应当理解,任何公开的方法都可以使用或结合以下文献中公开的测定或算法:于2017年10月25日提交,序列号为15/793,830的美国专利申请,和/或于2017年10月24日提交,申请号为PCT/PCT/58099的国际专利申请,其中的每一个都通过引用并入本文,以便确定测试受试者的癌症状况或受试者患有癌症状况的可能性。
识别用于估计细胞来源分数的特征
框202本公开的一个方面提供了一种识别用于估计受试者的细胞来源分数的多个特征的方法,该方法在具有一个或多个处理器和存储器的计算机系统中执行,存储器存储由一个或多个处理器执行的一个或多个程序。
在一些实施例中,图2A的框202的细胞来源分数对应于共同的原发部位的第一癌症状况。在一些实施例中,细胞来源分数对应于某种癌症类型的肿瘤类型或其分数。在一些实施例中,细胞来源分数对应于第一癌症状况的预定期的肿瘤分数。在一些实施例中,细胞来源分数衍生自一种或多种类型的人细胞。
受试者和癌症状况
框204在图2A的框204中,该方法通过获得电子形式的训练数据集来进行。对于多个训练受试者中的每个训练受试者,所述训练数据集至少包括:a)相应的训练的多个游离片段中的每个相应的游离片段中的相应甲基化模式,和b)相应的训练受试者的受试者癌症适应症,其中所述受试者癌症状况是第一癌症状况和第二癌症状况中的一种。
根据框206,在一些实施例中,多个训练受试者包括10至1000个训练受试者。在一些实施例中,多个训练受试者包括至少10个训练受试者、至少25个训练受试者、至少50个训练受试者、至少100个训练受试者、至少250个训练受试者、至少500个训练受试者、至少750个训练受试者、至少1000个训练受试者,或至少1500个训练受试者。在一些实施例中,多个训练受试者包括10至100,000个训练受试者、100至50,000个训练受试者,或100至10,000个训练受试者。
在一些实施例中,在多个训练受试者中存在平衡数量的具有第一癌症状况和第二癌症状况的训练受试者(例如,多个训练受试者包括与各种受试者癌症状况基本相似数量的训练受试者)。例如,如果所述多个训练受试者包括至少500个患有第一癌症状况的训练受试者,则多个训练受试者还包括至少500个患有第二癌症状况的训练受试者,或者如果多个训练受试者包括至少500个患有第一癌症状况的训练受试者,则多个训练受试者还包括至少500个患有第二癌症状况的训练受试者。在一些实施例中,5%至95%的训练受试者患有第一癌症状况,而其余受试者患有第二癌症状况。在一些实施例中,20%至80%的训练受试者患有第一癌症状况,而其余受试者患有第二癌症状况。在一些实施例中,30%至70%的训练受试者患有第一癌症状况,而其余受试者患有第二癌症状况。在一些实施例中,40%至60%的训练受试者患有第一癌症状况,而其余受试者患有第二癌症状况。在一些实施例中,45%至55%的训练受试者患有第一癌症状况,而其余受试者患有第二癌症状况。
参照框208,在一些实施例中,第一癌症状况包括癌症,第二癌症状况是不存在癌症。在一些实施例中,第一癌症状况是以下中的一种:肾上腺癌、胆道癌、膀胱癌、骨/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌(gastric cancer)、头/颈癌、肝胆癌、肾癌(kidney cancer)、肝癌、肺癌、卵巢癌、胰腺癌、盆骨癌、胸膜癌、前列腺癌、肾肿瘤(renal cancer)、皮肤癌、胃肿瘤(stomach cancer)、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤或白血病,以及第二种癌症状况是不存在癌症。在一些实施例中,第一癌症状况是以下中的一种:肾上腺癌分期、胆道癌分期、膀胱癌分期、骨/骨髓癌分期、脑癌分期、乳腺癌分期、宫颈癌分期、结肠直肠癌分期、食道癌分期、胃癌分期(astage of gastric cancer)、头/颈癌分期、肝胆癌分期、肾癌分期(a stage of kidneycancer)、肝癌分期、肺癌分期、卵巢癌分期、胰腺癌分期、盆骨癌分期、胸膜癌分期、前列腺癌分期、肾肿瘤分期(a stage of renal cancer)、皮肤癌分期、胃肿瘤分期(a stage ofstomach cancer)、睾丸癌分期、胸腺癌分期、甲状腺癌分期、子宫癌分期、淋巴瘤分期、黑色素瘤分期、多发性骨髓瘤分期或白血病分期,以及第二癌症状况是不存在癌症。
在一些实施例中,第二癌症状况是以下中的一种:肾上腺癌、胆道癌、膀胱癌、骨/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌(gastric cancer)、头/颈癌、肝胆癌、肾癌(kidney cancer)、肝癌、肺癌、卵巢癌、胰腺癌、盆骨癌、胸膜癌、前列腺癌、肾肿瘤(renal cancer)、皮肤癌、胃肿瘤(stomach cancer)、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤或白血病。在一些实施例中,第二癌症状况是以下中的一种:肾上腺癌分期、胆道癌分期、膀胱癌分期、骨/骨髓癌分期、脑癌分期、乳腺癌分期、宫颈癌分期、结肠直肠癌分期、食道癌分期、胃癌分期(a stage of gastric cancer)、头/颈癌分期、肝胆癌分期、肾癌分期(a stage of kidney cancer)、肝癌分期、肺癌分期、卵巢癌分期、胰腺癌分期、盆骨癌分期、胸膜癌分期、前列腺癌分期、肾肿瘤分期(a stage of renalcancer)、皮肤癌分期、胃肿瘤分期(a stage of stomach cancer)、睾丸癌分期、胸腺癌分期、甲状腺癌分期、子宫癌分期、淋巴瘤分期、黑色素瘤分期、多发性骨髓瘤分期或白血病分期。
在一些实施例中,受试者癌症状况是第一癌症状况、第二癌症状况和第三癌症状况中的一种。在一些实施例中,多个训练受试者中的每个训练受试者的相应受试者癌症状况分别地选自多种癌症状况。在一些这样的实施例中,多个训练受试者包括至少患有多种癌症状况中的各种相应癌症状况的最小数量的训练受试者。在一些实施例中,患有各种相应癌症状况的训练受试者的最小数量为至少10、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少450、或者至少500个训练受试者。
在一些实施例中,多种癌症状况包括至少5种、至少10种或至少20种独特的癌症状况。在一些实施例中,多种癌症状况包括22个独特的癌症状况。
在一些实施例中,多种癌症状况中的每种癌症状况是以下中的一种:肾上腺癌症、胆道癌、膀胱癌、骨/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌(gastriccancer)、头/颈癌、肝胆癌、肾癌(kidney cancer)、肝癌、肺癌、卵巢癌、胰腺癌、盆骨癌、胸膜癌、前列腺癌、肾肿瘤(renal cancer)、皮肤癌、胃肿瘤(stomach cancer)、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤或白血病。在一些实施例中,多种癌症状况中的每种癌症状况是以下中的一种:肾上腺癌分期、胆道癌分期、膀胱癌分期、骨/骨髓癌分期、脑癌分期、乳腺癌分期、宫颈癌分期、结肠直肠癌分期、食道癌分期、胃癌分期(astage of gastric cancer)、头/颈癌分期、肝胆癌分期、肾癌分期、肝癌分期、肺癌分期、卵巢癌分期、胰腺癌分期、盆骨癌分期、胸膜癌分期、前列腺癌分期、肾肿瘤分期(a stage ofrenal cancer)、皮肤癌分期、胃肿瘤分期(a stage of stomach cancer)、睾丸癌分期、胸腺癌分期、甲状腺癌分期、子宫癌分期、淋巴瘤分期、黑色素瘤分期、多发性骨髓瘤分期或白血病分期。
获得游离片段和甲基化测序
再次参照框204,对于每个训练受试者,在每个相应的训练的多个游离片段中,每个相应的游离片段的相应甲基化模式(i)通过对一个或多个核酸样本的甲基化测序来确定,所述一个或多个核酸样本包含从相应的训练受试者获得的相应生物样本中的所述相应片段,并且(ii)包含所述相应片段中的相应的多个CpG位点中每个CpG位点的甲基化状态。
在一些实施例中,相应的生物样本是液体生物样本。在一些实施例中,相应的生物样本是血液样本。在一些实施例中,相应的生物样本包括训练受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液。在一些实施例中,相应的生物样本由训练受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液组成。
在一些实施例中,来自训练受试者的相应生物样本中的一个或多个核酸样本是游离核酸样本(例如,从液体生物样本中获得)。在一些实施例中,从生物样本获得的游离核酸是本公开中限定的任何形式的核酸或其组合。例如,在一些实施例中,从生物样本获得的游离核酸是RNA和DNA的混合物。
在一些实施例中,当相应训练受试者的相应多个训练游离片段来源于生物样本(例如液体生物样本)的游离核酸时,有利的是,游离核酸表现出可观的细胞来源分数。在一些实施例中,相对于第一或第二癌症状况,对应的训练受试者的细胞来源分数为至少2%、至少5%、至少10%、至少15%、至少20%、至少25%、至少50%、至少75%、至少90%、至少95%,或至少98%。
在一些实施例中,处理生物样本以提取游离核酸,为测序分析做准备。作为非限制性示例,在一些实施例中,从收集自K2 EDTA管的受试者的生物样本(例如,血液样本)提取游离核酸片段。在生物样本是血液的情况下,样本在采集的两个小时内通过生物样本的双旋转进行处理,首先在1000g下旋转10分钟,然后所得血浆在2000g下旋转10分钟。然后将血浆以1ml等分试样储存在-80℃下。以这种方式,从生物样本制备适量的血浆(例如1-5ml),用于游离核酸提取目的。在一些这样的实施例中,使用QIAamp循环核酸试剂盒(Qiagen)提取游离核酸,并洗脱到DNA悬浮缓冲液(Sigma)中。在一些实施例中,纯化的游离核酸在-20℃下储存直至使用。例如参见,Swanton等人,“系统发育ctDNA分析描述早期肺癌演变(Phylogenetic ctDNA analysis depicts early stage lung cancer evolution)”,自然(Nature),545(7655):446-451,通过引用并入本文。为了测序的目的,可以使用其他等效方法从生物学方法制备游离核酸,所有这些方法都在本公开的范围内。
在一些实施例中,处理游离核酸片段以将未甲基化的胞嘧啶转化为尿嘧啶。在一个实施例中,该方法使用亚硫酸氢盐处理DNA,将未甲基化的胞嘧啶转化为尿嘧啶,而不转化甲基化的胞嘧啶。例如,商业试剂盒,例如EZDNA MethylationTM-Gold、EZ DNAMethylationTM-Direct或EZ DNA MethylationTM-Lightning试剂盒(可从Zymo ResearchCorp(Irvine,CA)购得),用于亚硫酸氢盐转化。在另一个实施例中,未甲基化的胞嘧啶向尿嘧啶的转化是使用酶促反应完成的。例如,转化可以使用市售试剂盒将未甲基化的胞嘧啶转化为尿嘧啶,例如APOBEC-Seq(NEBiolabs,Ipswich,MA)。
从转化的游离核酸片段制备测序文库。任选地,使用多种杂交探针从测序文库中富集游离核酸片段或基因组区域,所述游离核酸片段或基因组区域提供细胞来源的信息。杂交探针是短寡核苷酸,其与特定的游离核酸片段或靶区域杂交,并富集这些片段或区域,以用于后续测序和分析。在一些实施例中,杂交探针用于对一组特定的CpG位点进行靶向的、高深度分析,这些位点可提供细胞来源的信息。一旦制备好,测序文库或其一部分被测序以获得多个序列读数。
在一些实施例中,从受试者的生物样本中获得的序列读数相对于参照集(例如,从多个参照受试者,例如健康受试者的对照组中获得)被标准化。于2019年9月19日提价的,发明名称为“用于选择、管理和分析高维数据的方法和系统”,公开号为2019-0287649的美国专利申请,公开了多种归一化方法,其通过引用并入本文。
在一些实施例中,多个序列读数包括至少100、至少500、至少1000、至少2000、至少3000、至少4000、至少5000、至少6000、至少7000、至少8000、至少9000、至少10,000、至少20,000、至少50,000、至少100,000或至少100万个序列读数。在一些实施例中,多个序列读数包括至少500万、至少1000万或至少1亿个序列读数。
在一些实施例中,对于多个训练受试者中的相应训练受试者,训练的多个游离片段包括至少100、至少500、至少1000、至少2000、至少3000、至少4000、至少5000、至少6000、至少7000、至少8000、至少9000、至少10,000、至少20,000、至少50,000、至少100,000、至少100万、至少500万或至少1000万个受试者片段。在一些实施例中,对于多个训练受试者的每个相应训练受试者,训练的多个游离片段包括至少100、至少500、至少1000、至少2000、至少3000、至少4000、至少5000、至少6000、至少7000、至少8000、至少9000、至少10,000、至少20,000、至少50,000、至少100,000、至少100万、至少500万或至少1000万个游离片段。
在一些实施例中,多个训练受试者中的第一训练受试者具有包含第一数量的游离片段的第一对应的多个游离片段,多个训练受试者中的第二训练受试者具有包含与第一数量不同的第二数量的游离片段的第二对应的多个游离片段(例如,在一些实施例中,每个训练受试者具有不同的训练的多个游离片段)。
在一些实施例中,每个相应的训练的多个游离片段的平均长度小于500个核苷酸。在一些实施例中,每个相应的训练的多个游离片段的平均长度小于100、200、300、400、500、600、700、800、900或1000个核苷酸。
在一些实施例中,测序包括甲基化测序。
在一些实施例中,甲基化测序检测相应片段中的一个或多个5-甲基胞嘧啶(5mC)和/或5-羟甲基细胞(5mC)。在一些这样的实施例中,甲基化测序还包括在所述相应片段的序列读数中,将一种或多种未甲基化的胞嘧啶或一种或多种甲基化的胞嘧啶转化为相应的一种或多种尿嘧啶。在一些实施例中,所述一种或多种尿嘧啶在所述甲基化测序期间被检测为一种或多种相应的胸腺嘧啶。在一些实施例中,所述一种或多种未甲基化的胞嘧啶或一种或多种甲基化的胞嘧啶的转化包括化学转化、酶转化或其组合。在一些实施例中,胞嘧啶转化按照如下文献描述的进行:于2019年7月23日提交,如发明名称为“用于测定肿瘤分数的系统和方法”,申请号为62/877,755的美国专利申请,其通过引用并入本文。
在一些实施例中,所述相应片段中的所述相应多个CpG位点中的一个相应CpG位点的甲基化状态是:当通过所述甲基化测序确定所述相应CpG位点被甲基化时,是甲基化的,当通过所述甲基化测序确定所述相应CpG位点未被甲基化时,是未甲基化的,并且当所述甲基化测序无法将所述相应CpG位点的所述甲基化状态称为甲基化或未甲基化时,标记为“其他”。
在一些实施例中,甲基化测序(例如,用于确定甲基化模式)是双端测序(paired-end sequencing)。在一些实施例中,甲基化测序是单端测序(single-read sequencing)。在一些实施例中,甲基化测序是全基因组甲基化测序(例如,全基因组亚硫酸氢盐测序)。
全基因组重测序分析(whole genome sequencing assay)是指产生全基因组或全基因组主要部分的序列读数的物理分析,其可用于确定大的变异,例如拷贝数变异(copynumber variations)或拷贝数畸变(copy number aberrations)。这种物理分析可采用全基因组测序技术或全外显子组测序技术。
在一些实施例中,全基因组甲基化测序识别一种或多种甲基化状态向量,例如如下文献描述的:于2019年3月13日提交,发明名称为“异常片段检测和分类(Anomalousfragment detection and classification)”,申请号为16/352,602的美国专利申请,现在公开为US2019/0287652,其全文通过引用并入本文。
在一些实施例中,测序包括可用于获得从核酸(例如,游离核酸)测量的多个序列读数的任何形式的测序,包括但不限于高通量测序系统,例如罗氏454测序平台(Roche454platform);应用生物系统固体平台(Applied Biosystems SOLID platform);HelicosTrue单分子DNA测序技术(Helicos True Single Molecule DNA sequencingtechnology);Affymetx Inc.公司的杂交测序平台(sequencing-by-hybridizationplatform);太平洋生物科学公司(Pacific Biosciences)的单分子、实时(SMRT)技术;454生命科学公司(454Life Sciences)、Illumina/Solexa公司和螺旋生物科学公司(HelicosBiosciences)的边合成边测序平台(sequencing-by-synthesis platforms);美国应用生物系统公司(Applied Biosystems)的连接法测序平台(sequencing-by-ligationplatform);生命技术公司(Life technologies)的ION TORRENT技术;和/或纳米孔测序。在一些实施例中,测序包括合成边测序(sequencing-by-synthesis)和基于可逆终止子的测序(reversible terminator-based sequencing)(例如,Illumina公司的基因组分析仪(Illumina’s Genome Analyzer);基因组分析仪II(Genome Analyzer II);HiSeq 2000;HiSeq2500)(Illumina公司,加利福尼亚州圣迭戈)。
在一些实施例中,全基因组甲基化测序用于对基因组的一部分进行测列。在一些实施例中,基因组的一部分是基因组(例如,人类参照基因组)的至少10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%或全部。在一些实施例中,全基因组甲基化测序产生多个序列读数,其中在多个序列读数中每个序列读数具有1000个碱基对或更少的序列长度。在一些实施例中,全基因组甲基化测序获得了基因组的部分的测序覆盖范围,其跨越基因组的部分的至少5倍、至少10倍、至少15倍、至少20倍、至少25倍、至少30倍、至少50倍、至少100倍或至少200倍。在一些实施例中,全基因组甲基化测序获得了测序覆盖范围,其跨越整个基因组的至少5倍、至少10倍、至少15倍、至少20倍、至少25倍、至少30倍、至少50倍、至少100倍或至少200倍。
在一些实施例中,所述甲基化测序是使用多个核酸探针的靶向测序,并且所述多个仓中的每个仓(例如,感兴趣的基因组区域)与所述多个核酸探针中的至少一个核酸探针相关联。
在一些实施例中,靶向测序使用多个核酸探针靶向基因组(例如,人类参照基因组)的部分,靶向测序获得了测序覆盖范围,其为基因组的靶向部分(例如,探针映射到的靶向部分)的至少5倍、至少10倍、至少15倍、至少20倍、至少25倍、至少30倍、至少50倍、至少100倍、至少250倍、至少500倍或至少1000倍。在一些实施例中,目标测序获得了测序覆盖范围,其跨越受试者基因组中的选定区域的至少100倍、至少200倍、至少500倍、至少1,000倍、至少2,000倍、至少3,000倍、至少4,000倍、至少5,000倍、至少10,000倍、至少15,000倍、至少20,000倍、至少25,000倍、至少30,000倍、至少40000倍,或至少50000倍。
在一些实施例中,靶向panel测序(targeted panel sequencing)是有益的,因为其获得了关于受试者的参照基因组中感兴趣的区域的重要信息,同时比例如全基因组测序更有效(例如,关于测序材料的使用、测序所需的时间长度等)。换句话说,在一些实施例中,靶向panel测序用于从基础数据(例如,在游离核酸水平和跨基因组区域)中获得尽可能多的信息,同时使确定受试者的肿瘤分数(和/或肿瘤来源)的问题在计算上易于处理。例如,参照基因组(例如,人类参照基因组)包括约2800万个CpG位点,而指向参照基因组的靶向甲基化组包含较少的CpG位点(例如,10,000至500万个CpG位点,100,000至300万个CpG位点等)。
在一些实施例中,多个探针中的至少一个探针被设计成结合并富集生物样本中包含至少一个预定CpG位点的核酸。在一些实施例中,多个探针中的每个探针被设计成结合并富集生物样本中包含至少一个预定CpG位点的核酸。
在一些实施例中,多个探针中的每个探针被设计用于靶向具有一定数量的预定CpG位点的核酸。例如,在一些实施例中,所述多个探针中的一个或多个探针被设计成结合并富集生物样本中的核酸,所述核酸包含50或更少的预定CpG位点、40或更少的预定CpG位点、30或更少的预定CpG位点、25或更少的预定CpG位点、22或更少的预定CpG位点、20或更少的预定CpG位点、18或更少的预定CpG位点、15或更少的预定CpG位点、12或更少的预定CpG位点、10或更少的预定CpG位点、5或更少的预定CpG位点、3或更少的预定CpG位点。
在一些实施例中,对于靶向甲基化测序,多个探针包括1000至2,000,000个探针。在一些实施例中,多个探针包括1000个或更多个探针、2000个或更多个探针、3000个或更多个探针、4000个或更多个探针、5000个或更多个探针、10,000个或更多个探针、20,000个或更多个探针或30,000个或更多个探针。在一些实施例中,多个探针是1000至30,000个探针。在一些实施例中,多个探针包括至少5000、至少10,000、至少20,000、至少30,000、至少40,000、至少50,000、至少100,000、至少200,000、至少300,000、至少400,000、至少500,000、至少600,000、至少700,000、至少800,000、至少900,000或至少1,000,000个探针。
应当理解,多个探针可以包括其它数量的探针,其非限制性示例包括1,500,000个探针或更少、1,400,000个探针或更少、1,300,000个探针或更少、1,200,000个探针或更少、1,100,000个探针或更少、1,000,000个探针或更少、900,000个探针或更少、800,000个探针或更少、700,000个探针或更少、600,000个探针或更少、500,000个探针或更少、400,000个探针或更少、300,000个探针或更少、200,000个探针或更少、100,000个探针或更少、90,000个探针或更少、80,000个探针或更少、70,000个探针或更少、60,000个探针或更少、50,000个探针或更少、40,000个探针或更少、30,000个探针或更少、20,000个探针或更少、10,000个探针或更少、9000个探针或更少,8,000个探针或更少、7,000个探针或更少、6,000个探针或更少、5,000个探针或更少、4,000个探针或更少、3,000个探针或更少、2,000个探针或更少,或1,000个探针或更少。
在一些实施例中,多个探针靶向多个遗传靶,这些遗传靶共同覆盖参照基因组的0.5至50兆碱基(例如,参照基因组的部分和/或一组基因靶)。在一些实施例中,多个探针的多个遗传靶共覆盖参照基因组的5至40兆碱基、参照基因组的10至30兆碱基、参照基因组的15至35兆碱基、参照基因组的20至30兆碱基、参照基因组的25至35兆碱基或参照基因组的30至40兆碱基。
在一些实施例中,多个探针是靶向癌症分析板(targeted cancer assay panel)。许多靶向癌症分析板在本领域中是已知的,例如如下文献中描述的:于2019年4月2日提交,发明名称为“甲基化标记和标靶甲基化探针板”,申请号为PCT/PCT/025358的国际专利申请,公开为WO2019/195268A2;于2019年9月27日提交,发明名称为“甲基化标记和标靶甲基化探针板”,申请号为PCT/PCT/053509的国际专利申请,公开为WO2020/069350A1;和于2020年1月24日提交,发明名称为“侦测癌症、癌症来源组织及/或癌症细胞类型”,申请号为PCT/US2020/015082的国际专利申请,公开为WO2020/154682A2,其每一个通过引用整体并入本文。例如,在一些实施例中,靶向癌症分析板包含可捕获片段(游离核酸)的多个探针(或探针对),这些片段可一起提供与确定肿瘤分数和/或癌症诊断相关的信息。在一些实施例中,靶向癌症分析板中的多个探针包括至少50、100、500、1000、2000、2500、5000、6000、7500、10,000、15,000、20,000、25,000或50,000对探针。在其它实施例中,靶向癌症分析板中的多个探针包括至少500、1000、2000、5000、10,000、12,000、15,000、20,000、30,000、40,000、50,000或100,000个探针。在一些实施例中,多个探针共同包含至少10万、20万、40万、60万、80万、100万、200万、300万、400万、500万、600万、700万、800万、900万或1000万个核苷酸。在一些实施方案中,探针(或探针对)被专门设计成靶向在癌症和非癌症样本中差异甲基化的一个或多个基因组区域。
例如,靶向癌症分析板中的多个探针可以包括能够选择性地结合和富集在癌样本中差异甲基化的cfDNA片段的探针。在这种情况下,富集片段的测序可提供与肿瘤部分的确定或癌症的诊断相关的信息。此外,探针可设计成靶向被确定为具有异常甲基化模式和/或高甲基化或低甲基化模式的基因组区域,以提供检测的额外选择性和特异性。
在一些实施例中,多个探针中的探针(或探针对)靶向包含至少25bp、30bp、35bp、40bp、45bp、50bp、60bp、70bp、80bp或90bp的基因组区域。在一些实施例中,多个探针中的一个探针靶向包含至少5个甲基化位点的基因组区域。在一些实施例中,多个探针中的一个探针靶向包含少于20、15、10、8或6个甲基化位点的基因组区域。在一些实施例中,多个探针中的一个探针靶向具有至少80,85,90,92,95或98%的甲基化(例如,CpG)位点基因组区域,这些甲基化位点在非癌性或癌性样本中是甲基化的或未甲基化的。
过滤游离片段
在一些实施例中,方法还包括将一个或多个过滤条件应用于多个游离片段。因此,在一些实施例中,不是所有从一个或多个核酸样本的甲基化测序获得的游离片段,都被用于识别用于估计受试者细胞来源分数和/或用于估计受试者细胞来源分数的多个特征。在一些实施例中,这是由于核酸片段(例如,游离核酸)在信息内容方面不同的事实,并且在一些实施例中,仅保留具有所需信息内容的那些核酸片段用于特征识别和/或细胞来源分数估计(cell source fraction estimation)(例如,不提供相关信息的片段被丢弃)。在一些实施例中,从满足多个过滤条件中的一个或多个过滤条件(例如,其中每个过滤条件估计片段的信息内容)的游离片段中确定特征。例如,以下文献详细描述了多种过滤方法:于2020年5月22日提交,发明名称为“使用迁移学习确定受试者是否患有癌症状况的系统和方法”,申请号为PCT/PCT/034317的国际专利申请;以及于2019年3月13日提交,发明名称为“异常片段检测和分类”,申请号为16/352,602的美国专利申请,现在公开为US2019/0287652,每一个都通过引用并入本文。下面提供了过滤条件的非限制性示例。
基于甲基化向量的p值滤波
在一些实施例中,多个过滤条件中的一个过滤条件是要求多个游离片段中的每个游离片段具有低于阈值的对应p值,其中p值通过如下文献描述的p值过滤来确定:于2020年5月22日提交,发明名称为“使用迁移学习确定受试者是否患有癌症状况的系统和方法”,申请号为PCT/PCT/034317的国际专利申请的实施例5;以及于2019年3月13日提交,发明名称为“异常片段检测和分类”,申请号为16/352,602的美国专利申请,现在公开为US2019/0287652,其每一个都通过引用整体并入本文。这种过滤条件的目的是基于相应的甲基化状态向量接受和使用异常甲基化的游离片段。例如,对于样本中的每个游离片段,使用对应于该片段的甲基化状态向量,相对于预期的甲基化状态向量,确定该片段是否异常甲基化(如,通过分析由此衍生的序列读)(例如,其中预期的甲基化状态向量是从一组(多个)健康受试者的序列分析中确定的)。这种游离片段的甲基化状态向量的产生公开于,例如公开号为2019/0287652的美国专利申请,其通过引用整体并入本文。
在一些实施例中,健康群组(healthy cohort)包含至少20个受试者,多个游离片段包括至少10,000个不同的对应甲基化模式。在一些实施例中,健康群组包括至少10、20、30、40、50、60、70、80、90,或至少100个受试者。在一些实施例中,健康群组包括1-10、10-50、50-50、100-500、500-1000,或多于1000个受试者。在一些实施例中,多个游离片段包含1000至1000、1000至2000、4000至2000、4000至6000、6000至8000、8000至10,000、10,000至20,000、20,000至50,000,或多于50,000个不同的相应甲基化模式。
在一些实施例中,p值阈值是0.001至0.20。在一些实施例中,阈值是0.01(例如,在这样的实施例中,p必须<0.01)。在一些实施例中,阈值是0.001、0.005、0.01、0.015、0.02、0.05或0.10。在一些实施例中,阈值是0001至0.20。在一些实施例中,当多个游离片段中每个相应的游离片段的对应甲基化模式具有0.10或更小、0.05或更小、或0.01或更小的p值时,满足来自受试者的甲基化模式的p值阈值。
在这样的实施例中,只有那些p值低于阈值的游离片段有助于特征识别和/或细胞来源分数估计。例如,在一些实施例中,通过从多个游离片段中去除每个相应的游离片段来过滤所述多个游离片段,每个相应的游离片段跨越相应片段中的相应多个CpG位点的相应甲基化模式(例如,甲基化状态向量)具有不满足p值阈值的p值。
在一些实施例中,异常片段被识别为具有超过阈值数量的CpG位点并且具有超过阈值百分比的CpG位点甲基化(高甲基化)或具有超过阈值百分比的CpG位点未甲基化(低甲基化)的片段。例如,参见下面描述的基于最小CpG位点和/或片段长度的过滤条件。在一些实施例中,甲基化和/或未甲基化CpG位点的阈值百分比为至少50%、至少60%、至少70%、至少80%、至少85%、至少90%或至少95%。在一些实施例中,甲基化和/或未甲基化CpG位点的阈值百分比为50%至100%。
在一些实施例中,马尔可夫模型(Markov model)(例如,隐马尔可夫模型(HiddenMarkov Model,HMM))用于确定对于每个相应的游离片段将观察到甲基化状态序列(包括例如,“M”用于甲基化和/或“U”用于未甲基化)的概率,该组概率确定对于相应片段的甲基化模式中的每个状态,观察序列中的下一状态的可能性。在一些实施例中,该组概率是通过训练HMM获得的。这种训练涉及在给定从一群非癌症受试者获得的观察到的甲基化状态序列(例如,甲基化模式)的初始训练数据集的情况下,计算统计参数(例如,对于相应的CpG位点,第一状态转变为第二状态的概率(转变概率),和/或对于相应的CpG位点,将观察到给定甲基化状态的概率(发射概率))。在一些实施例中,使用监督训练(例如,使用其中基础序列以及观察到的状态是已知的样本)来训练HMM。在一些替代实施例中,使用无监督训练(例如,维特比学习(Viterbi learning)、最大似然估计(maximum likelihood estimation)、期望最大化训练(expectation-maximization training)和/或Baum-Welch训练)来训练HMM。例如,期望最大化算法(expectation-maximization algorithm)(诸如Baum-Welch算法)估计来自观察到的样本序列的转变和发射概率,并且生成一个参数化概率模型,该模型最好地解释了观察到的序列。这样的算法迭代似然函数的计算,直到正确预测的状态的预期数量最大化。参见,例如,Yoon,2009,“隐藏马尔可夫模型及其在生物序列分析中的应用(Hidden Markov Models and their Applications in Biological SequenceAnalysis)”,当代基因组学(Curr.Genomics.),9月;10(6):402-415,doi:10.2174/138920209789177575。
最小袋尺寸(Minimum bag-size)
在一些实施例中,多个过滤条件中的一个过滤条件是要求每个游离片段具有大于阈值整数的袋尺寸。换句话说,在一些实施例中,所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段由从所述一个或多个核酸样本测量的相应的多个序列读数中的序列读数的阈值数表示,所述一个或多个核酸样本包含所述相应生物样本中的所述相应片段。例如,在阈值整数为1的情况下,过滤条件是应用这样的要求,即即每个游离片段由从生物样本测量的相应多个序列读数中的一个以上的序列读数表示。在一些实施例中,阈值整数是1、2、3、4、5、6、7、8、9、10,或介于10和100之间的整数。在一些实施例中,阈值整数介于1-10之间、10-20之间、20-30之间、30-40之间、40-50之间、50-60之间、60-70之间、70-80之间、80-90之间,或90-90之间。在一些实施例中,阈值整数介于100和500之间、500和1000之间,或大于1000。
在一些实施例中,多个过滤条件中的一个过滤条件是要求每个游离片段具有大于阈值整数的袋尺寸,其中每个相应袋中的序列读数(例如,代表相应的游离片段)是从多个游离核酸的测序中获得的。例如,在一些实施例中,所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段由所述一个或多个核酸样本的游离核酸的阈值数表示,所述一个或多个核酸样本包含所述相应生物样本中的所述相应片段。在一些实施例中,阈值整数是1、2、3、4、5、6、7、8、9、10,或介于10和100之间的整数。在一些实施例中,阈值整数介于1和10之间、10和20之间、20和30之间、30和40之间、40和50之间、50和60之间、60和70之间、70和80之间、80和90之间,或90和90之间。在一些实施例中,阈值整数介于100和500之间、500和1000之间,或大于1000。
CpG位点的最小数量
在一些实施例中,所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段具有CpG位点的阈值数。在一些实施例中,CpG位点的阈值数为至少1、2、3、4、5、6、7、8、9、10个CpG位点。在一些实施例中,CpG位点的阈值数介于1和10之间、10和20之间、20和30之间、30和40之间、40和50之间,或多于50个CpG位点。
在一些实施例中,所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段的长度小于碱基对的阈值数。在一些实施例中,碱基对的阈值数是一千个、两千个、三千个或四千个碱基对。在一些实施例中,碱基对的阈值数是100、200、300、400、500、600、700、800、900或1000个碱基对。在一些实施例中,碱基对的阈值数在长度上为一千个、两千个、三千个或四千个连续的碱基对。在一些实施例中,碱基对的阈值数在长度上为100、200、300、400、500、600、700、800、900或1000个连续的碱基对。
在一些实施例中,多个过滤条件中的一个过滤条件是要求每个游离片段覆盖CpG位点的第一阈值数,并且就碱基而言小于第二阈值长度。例如,在第一阈值是1个CpG位点和第二阈值是1000个碱基对的情况下,每个游离片段必须覆盖一个以上CpG位点,并且长度小于1000个碱基对。在一些实施例中,每个游离片段必须覆盖特定片段长度(例如,第二阈值长度)内的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个CpG位点。在一些实施例中,每个游离片段的长度必须小于500、1000、2000、3000或4000个连续的碱基对,同时跨越特定数量的CpG位点(例如,第一阈值数)。换句话说,例如,在一些实施例中,多个过滤条件中的过滤条件要求每个游离片段在参照基因组的少于500个连续核苷酸内包含:至少1个CpG位点、至少2个CpG位点、至少3个CpG位点、至少4个CpG位点、至少5个CpG位点、至少6个CpG位点、至少7个CpG位点、至少8个CpG位点、至少9个CpG位点、至少10个CpG位点、至少11个CpG位点、至少12个CpG位点、至少13个CpG位点、至少14个CpG位点或至少15个CpG位点。
高甲基化或低甲基化
在一些实施例中,多个过滤条件中的一个过滤条件是要求每个游离片段是高甲基化的。在一些实施例中,多个过滤条件中的一个过滤条件是要求每个游离片段是低甲基化的。在一些实施例中,过滤条件取决于基因组的区域(例如,仓)。例如,人类基因组的许多区域具有与一种或多种癌症状况相关的高甲基化状态,以及人类基因组的许多区域具有与一种或多种癌症状况相关的低甲基化状态,公开于以下文献:于提交于2019年4月2日,发明名称为“甲基化标记和标靶甲基化探针板”,申请号为PCT/PCT/025358的国际专利申请,公开为WO2019/195268A2;于2020年1月24日提交,发明名称为“检测癌症,癌组织或起源,或癌症类型”,申请号为PCT/PCT/015082的国际专利申请,公开为WO2020/154682A2;以及于2019年9月27日提交,发明名称为“甲基化标记和标靶甲基化探针板”,申请号为PCT/PCT/053509的国际专利申请,公开为WO2020/069350A1,其每一个通过引用整体并入本文。因此,在本公开的一些实施例中,多个基因组区域中的一个或多个仓分别代表公开号为WO2019/195268、WO2020/154682和/或WO2020/069350的国际专利中公开的区域中的对应基因组区域,多个过滤条件中的一个过滤条件(a)在选择映射到代表人类基因组区域的仓的游离片段时,需要选择高甲基化的游离片段,该区域具有与WO2019/195268、WO2020/154682和/或WO2020/069350中所示的CpG位点的一个或多个癌症状况的高甲基化状态相关,和(b)在选择映射到代表人类基因组区域的仓的片段时,需要选择低甲基化的游离核酸,该区域具有与WO2019/195268、WO2020/154682和/或WO2020/069350中所示的CpG位点的一个或多个癌症状况的低甲基化状态相关。
在一些实施例中,多个过滤条件要求满足p值阈值,并且游离片段是高甲基化的。在一些实施例中,多个过滤条件要求满足p值阈值,并且游离片段是低甲基化的。在一些实施例中,多个过滤条件对于每个仓是不同的。例如,对于多个仓中的一个仓,多个过滤条件要求满足p值阈值,并且游离片段是低甲基化的,而对于多个仓中的第二个仓,多个过滤条件要求满足p值阈值,并且游离片段是高甲基化的。
癌症状况
在一些实施例中,多个过滤条件中的一个过滤条件是要求每个游离片段满足癌症状况阈值(例如,每个游离片段具有高于与相应癌症状况相关联的预定阈值的概率)。在一些实施例中,每个癌症状况具有不同的相应预定阈值。例如,如于2020年3月31日提交,发明名称为“使用神经网络确定癌症状态的系统和方法(Systems and Methods for UsingNeural Networks to Determine a Cancer State)”,申请号为63/003,087的美国专利申请所述,其通过引用整体并入本文,训练的神经网络(例如,在多个参照受试者上训练的)用于确定每个基因组区域(例如,仓)的癌症概率。
在一些这样的实施例中,对于多个仓中的每个相应仓,对于映射到相应仓的多个游离片段中的每个相应的游离片段,相应的经训练的神经网络基于相应的游离片段的甲基化模式来计算预测值,该预测值是游离片段与癌症状况(例如,癌症的存在)相关的概率。因此,在一些这样的实施例中,使用经训练的神经网络对相应的游离片段的甲基化模式进行评分,其中由经训练的神经网络输出的得分包括游离片段具有癌症状况的概率和/或基于游离片段与癌症状况(例如,癌症的存在)相关的概率的计算。如果所得分数满足以上定义的条件(例如,高于固定值阈值的概率),则相应的游离片段通过过滤条件(例如,被选择用于识别用于估计细胞来源分数的特征,和/或被选择用于估计细胞来源分数)。如果所得分数不满足以上定义的条件(例如,低于固定值阈值的概率),则相应的游离片段不通过过滤条件(例如,被丢弃)。
在一些这样的实施例中,阈值是正的或负的。在一些实施例中,阈值介于0.1和1之间、1和5之间、5和10之间、10和50之间、50和100之间,或大于100。在一些实施例中,阈值介于-0.1和-1之间、-1和-5之间、-5和-10之间、-10和-50之间、-50和-100之间,或小于-100。在一些实施例中,阈值为零。在一些实施例中,每个仓具有用于每个相应癌症状况的相应阈值(例如,仓的相应子集与每个癌症状况相关联)。在一些实施例中,施加所公开的过滤条件的任何组合。在一些实施例中,多个游离片段包括一个或多个游离片段,其甲基化模式满足本文公开的一个或多个过滤条件。
映射片段和仓
框210在框210中,所述方法通过将多个游离片段中的每个游离片段映射到多个仓中的一个仓,从而获得多个游离片段的训练集。多个仓中的每个相应是仓代表人类参照基因组的相应部分。游离片段的每个训练集被映射到多个仓中的不同仓。
在一些实施例中,使用如在例如Arioc中实施的Smith-Waterman间隙对齐(Smith-Waterman gapped alignment)或如在例如Bowty中实施的Burrows-Wheeler变换(Burrows-Wheeler transform)来执行映射。其它合适的比对程序(alignment programs)包括但不限于BarraCUDA、BBMap、BFast、BigBWA、BLASTN、BLAT、BWA、BWA-PSSM、CASHX。例如参见Langmead和Salzberg,2012,自然方法(Nat Methods)9,357-359页;Li和Durbin,2009,“利用Burrows-Wheeler变换进行快速准确的短读数比对”,生物信息学(Bioinformatics)25(14),1754–1760;以及Smith和Yun,2017,“通过全基因组测序来估计用于秀丽隐杆线虫(C.elegans)中突变鉴定的比对和变体-调用软件”,公共科学图书馆期刊(PLOS ONE),doi.org/10.1371/journal.pone.0174446,其每一个通过引用并入本文。在一些实施例中,将每个游离片段映射到多个仓中的一个仓允许错配(mismatching)。在一些实施例中,映射包括至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10或多于10个错配。
在一些实施例中,参照框212,多个仓由1000至100,000个仓组成或包括1000至100,000个仓。在一些实施例中,多个仓由15,000至80,000个仓组成或包括15,000至80,000个仓。在一些实施例中,多个仓由25,000至65,000个仓组成或包括25,000至65,000个仓。在一些实施例中,多个仓由45,000至65,000个仓组成或包括45,000至65,000个仓。
在一些实施例中,多个仓包括至少1000个仓、至少2500个仓、至少5000个仓、至少10,000个仓、至少20,000个仓、至少30,000个仓、至少40,000个仓、至少50,000个仓、至少60,000个仓、至少70,000个仓、至少80,000个仓、至少90,000个仓,至少100,000个仓或至少110,000个仓。
此外,在一些实施例中,根据图2A的框214,多个仓中的每个相应的仓平均具有10至1200个残基(例如,每个仓对应于由10至1200个核苷酸组成的人类参照基因组的一部分)。在一些实施例中,多个仓中的每个相应的仓平均具有10至10,000个残基。在一些实施例中,多个仓中的每个相应的仓平均具有10至500个残基。在一些实施例中,多个仓中的每个相应的仓平均具有10至100个残基。在一些实施例中,多个仓中的每个相应的仓平均具有25至100个残基。在一些实施例中,多个仓中的每个相应的仓平均具有5000至10,000个残基。
在一些实施例中,多个仓中的每个相应的仓包含少于10个残基、少于20个残基、少于30个残基、少于40个残基、少于50个残基、少于60个残基、少于70个残基、少于80个残基、少于90个残基、少于100个残基、少于200个残基、少于300个残基、少于400个残基、少于500个残基,少于600个残基、少于700个残基、少于800个残基、少于900个残基、少于1000个残基、少于2000个残基、少于3000个残基、少于4000个残基、少于5000个残基、少于6000个残基、少于7000个残基、少于8000个残基或少于9000个残基。
参照框216,在一些实施例中,多个仓中的每个仓包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个CpG位点。在一些实施例中,多个仓中的每个仓包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个连续的CpG位点。在一些实施例中,多个仓中的每个仓由人类参照基因组中的2至100个连续的CpG位点组成。在一些实施例中,多个仓中的每个仓包含2至50个连续的CpG位点。在一些实施例中,多个仓中的每个仓包含包括50至100个连续的CpG位点。在一些实施例中,多个仓中的每个仓包含至少2个连续的CpG位点。
在一些实施例中,通过将参照基因组(例如,哺乳动物、人类等)的全部或一部分分成大小相等的仓来构建多个仓,其中每个仓代表参照基因组的唯一大小相等的部分。在一些实施例中,通过将参照基因组(例如,哺乳动物、人类等)的全部或一部分分成大小相等或不相等的仓来构建多个仓,其中每个仓代表参照基因组的唯一大小相等的部分。
在一些实施例中,通过将参照基因组(例如,哺乳动物、人类等)的全部或一部分分成大小相等或不相等的仓来构建多个仓,其中每个仓代表参照基因组的相应部分。在这样的实施例中,由多个仓中的一个仓代表的参照基因组的相应部分可以与由多个仓中的另一个仓代表的参照基因组的相应部分重叠。在一些这样的实施例中,通过将所有参照基因组(例如,哺乳动物、人类等)分成大小相等或不相等的仓来构建多个仓,其中每个仓代表参照基因组的相应重叠或非重叠部分。在一些实施例中,通过将参照基因组的一部分(例如,哺乳动物、人类等)分成大小相等或不相等的仓来构建多个仓,其中每个仓代表参照基因组的重叠或非重叠部分。
在一些实施例中,构建多个仓,使得在不存在或存在癌症的情况下涉及的人类基因组的至少一些区域由多个仓代表,而参照基因组的其他区域不由仓代表。无论采用何种方法,每个仓代表参照基因组的独特部分(unique part)。在一些实施例中,这种仓的大小范围为参照基因组的30bps至5000bps、30bps至4000bps、30bps至3000bps、30bps至2000bps、30bps至1000bps,或40bps至800bps。在替代实施例中,这种仓的大小范围为参照基因组的10,000bps至100,000bps、20,000bps至300,000bps、30,000bps至500,000bps、40,000bps至1,000,000bps、50,000bps至5,000,000bps,或100,000bps至25,000,000bps。
在一些实施例中,参照基因组的部分介于参照基因组的1至22条染色体之间,或参照基因组的至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%。在一些这样的实施例中,每个仓代表参照基因组的10,000个碱基至100,000个碱基、20,000个碱基至300,000个碱基、30,000个碱基至500,000个碱基、40,000个碱基至1,000,000个碱基、50,000个碱基至5,000,000个碱基、或100,000个碱基至25,000,000个碱基。
在一些实施例中,每个仓代表已被识别为与癌症相关的参照基因组的特定位点。
在一些实施例中,每个仓代表参照基因组的特定区域,通过cfDNA中相对于非癌症对照的癌症和/或组织特异性甲基化模式,该区域已经被识别为与癌症相关。
在一些实施例中,每个仓代表参照基因组中的增强子、启动子、5’UTR、外显子、外显子/抑制剂边界、内含子、内含子/外显子边界、3'UTR区域、CpG架(CpG shelf)、CpG岛岸(CpG shore)或CpG岛(CpG island)的全部或部分。参见,例如,Cavalcante和Santor,2017,“注释:上下文中的基因组区域(annotatr:genomic regions in context)”,生物信息学(Bioinformatics)33(15)2381-2383,用于这些区域的适当定义以及对许多不同物种记录此类注释。
在一些实施例中,具有高变异性或低可映射性的基因组区域被排除在多个仓中的仓代表之外,例如,使用Jensen等人,2013,PLoS One 8;e57381。还可以参见Li和Freudenberg,2014,遗传学前沿(Front.Genet.)5,318页,用于分析可映射性。
选择用于仓的人类基因组区域
在本公开的一些实施例中,多个仓中的每个仓取自一组基因组区域,该组基因组区域被设计用于靶向选择癌症特异性甲基化模式。在一些实施例中,每个此类基因组区域取自以下文献:于2020年1月24日提交,发明名称为“检测癌症,癌组织或起源,或癌症类型”,申请号为PCT/PCT/015082的国际专利申请,公开为WO2020/154682A2,其通过引用并入本文,包括其中引用的序列表。PCT/US2020/015082的序列号452、706-483、478提供了关于一些高甲基化或低甲基化的靶基因组区域的进一步信息。这些序列号记录识别在来自特定癌症类型对的样本中差异甲基化的靶基因组区域。PCT/PC/015082的序列号452、706-483、478的靶基因组区域取自PCT/PC/015082的列表6。在PCT/PCT/015082的列表1-5和7-16中也发现了许多相同的靶基因组区域。每个序列号的条目指示靶基因组区域相对于hg19的染色体位置,从该区域富集的cfDNA片段是高甲基化还是低甲基化的,靶基因组区域的一条DNA链的序列,以及在该基因组区域中差异甲基化的一对或多对癌症类型。由于一些靶基因组区域的甲基化状态区分了多于一对癌症类型,所以每个条目识别PCT/PCT/015082(包括其中所引用的序列表)的表3中所示的第一癌症类型,和一个或多个第二癌症类型。
在一些实施例中,本公开的多个仓包括PCT/US2020/015082的列表1-16、列表1-3、列表13-16、列表12、列表4或列表8-11中的任何一个中的至少200、500、1000、5000、10,000、15,000、20,000、30,000、40,000或50,000个靶基因组区域中的每一个单独的仓。在一些实施例中,本公开的多个仓包括PCT/PCT/015082的一个或多个列表1-16(例如,列表1-3、列表13-16、列表12、列表4或列表8-11)的任意组合中的至少200、500、1000、5000、10,000、15,000、20,000、30,000、40,000或50,000个靶基因组区域中的每一个单独的仓。
在一些实施例中,本公开的多个仓包括用于PCT/US2020/015082的列表1-16中的任何一个中的靶基因组区域的至少20%、30%、40%、50%、60%、70%、80%、90%或95%中的每一个单独的仓。在一些实施例中,本公开的多个仓包括用于PCT/US2020/015082的列表1-16(例如,列表1-3、列表13-16、列表12、列表4或列表8-11)中的任何一个中的靶基因组区域的至少20%、30%、40%、50%、60%、70%、80%、90%或95%中的每一个单独的仓。
用于仓的另外选择的人类基因组区域
在本公开的一些实施例中,多个仓中的每个仓取自一组基因组区域,该组基因组区域被设计用于靶向选择癌症特异性甲基化模式。在一些实施例中,每个这样的基因组区域取自以下文献:于2019年9月27日提交,发明名称为“甲基化标记和标靶甲基化探针板”,申请号为PCT/PCT/053509的国际专利申请,公开为WO2020/069350A1,其通过引用并入本文,包括其中引用的序列表。
WO2020/069350A1的序列表包括以下信息:(1)序列号;(2)序列标识符,识别(a)CpG位点所在的染色体或重叠群,和(b)该区域的起始和终止位置;(3)对应于(2)的序列;和(4)该区域是否基于其高甲基化或低甲基化得分被包括在内。提供了相对于已知人类参照基因组GRCh37/hgl9的染色体数目和起始及终止位置。可从美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)、基因组参照序列联盟(Genome Reference Consortium)和加州大学圣克鲁斯基因组研究所(Santa CruzGenomics Institute)提供的基因组浏览器(Genome Browser)获得GRCh37/hgl9的序列。
通常,仓可以包括WO2020/069350的列表1-8中包括的任何靶区域的起始/终止范围内的任何CpG位点。
在一些实施例中,本公开的多个仓包括用于WO2020/069350的列表1-8中的任何一个中的至少200、500、1000、5000、10,000、15,000、20,000、30,000、40,000或50,000个靶基因组区域中的每一个的单独的仓。在一些实施例中,本公开的多个仓包括用于WO2020/069350的列表1-8的任合组合中的至少200、500、1000、5000、10,000、15,000、20,000、30,000、40,000或50,000个靶基因组区域中的每一个的单独的仓。
在一些实施例中,本公开的多个仓包括用于WO2020/069350的列表1-8中的任何一个中的靶基因组区域的至少20%、30%、40%、50%、60%、70%、80%、90%或95%中的每一个的单独的仓。在一些实施例中,本公开的多个仓包括用于WO2020/069350的列表1-8中的任何一个中的靶基因组区域的至少20%、30%、40%、50%、60%、70%、80%、90%或95%的靶基因组区域中的每一个的单独的仓。
在本公开的一些实施例中,多个仓中的每个仓取自一组基因组区域,该组基因组区域被设计用于靶向选择癌症特异性甲基化模式。在一些实施例中,每个这样的仓对应于以下文献中的任何一个的基因组区域:于2019年4月2日提交,发明名称为“甲基化标记和标靶甲基化探针板”,申请号为PCT/PCT/025358,公开为WO2019/195268A2的国际专利申请的表1-24,其通过引用整体并入本文。
在一些实施例中,本公开的每个仓映射到WO2019/195268A2的表1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23和/或24中的一个或多个中列出的基因组区域。
在一些实施例中,本公开的多个仓的整体被配置成映射到WO2019/195268A2的表1-24中的一个或多个中的基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%。在一些这样的实施例中,多个仓中的每个仓映射到WO2019/195268A2的表1-24中的任何一个中的单个唯一对应的基因组区域。在一些这样的实施例中,本公开的多个仓中的一个仓映射到WO2019/195268A2的表1-24的任意组合中的一个、两个、三个、四个、五个、六个、七个、八个、九个或十个唯一对应的基因组区域。
在一些这样的实施例中,本公开的多个仓中的每个仓映射到WO2019/195268A2的表2-10或16-24中的任何一个中的单个唯一对应的基因组区域。在一些这样的实施例中,多个仓中的一个仓映射到WO2019/195268A2的表2-10或16-24的任意组合中的一个、两个、三个、四个、五个、六个、七个、八个、九个或十个唯一对应的基因组区域。
在一些实施例中,本公开的多个仓中的一个或多个仓被配置为映射到WO2019/195268A2的表1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23和/或24中基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%。
分配游离片段癌症状况
框218参照图2B的框218,在将所述相应的游离片段的甲基化模式输入所述分类器时,通过将游离片段癌症状况分配给所述多个游离片段训练集中的每个游离片段训练集的每个相应的游离片段,作为分类器的输出的一函数来进行所述方法,其中游离片段癌症状况是第一癌症状况和第二癌症状况中的一种。
在一些实施例中,分类器具有以下形式:
Figure BDA0003755459740000661
在一些这样的实施例中,
Figure BDA0003755459740000662
是用于第一癌症状况的第一模型。
在一些这样的实施例中,
Figure BDA0003755459740000663
是用于第二癌症状况的第二模型。在一些实施例中,关于第一和第二模型,“片段”是指相应游离片段的所述甲基化模式。在一些实施例中,当R(片段)满足阈值时,所述相应游离片段的所述游离片段癌症状况被分配为所述第一癌状况。在一些实施例中,阈值是介于1和10之间的任何值。在一些实施例中,阈值是1、2、3、4、5、6、7、8、9或10。
在一些实施例中,第一模型是包括第一多子模型的第一混合物模型,第二模型是包括第二多子模型的第二混合物模型,并且第一和第二多子模型中的每个子模型代表对应生物样本中游离片段来源的独立对应甲基化模型。
在一些实施例中,受试者癌症状况是多个癌症状况中的一种(例如,其中多个癌症状况包括N个癌症状况)。在一些这样的实施例中,分类器具有以下形式:
Figure BDA0003755459740000671
在一些这样的实施例中,
Figure BDA0003755459740000672
是用于多个癌症状况中的第三癌症状况的第三模型。在一些实施例中,
Figure BDA0003755459740000673
是用于多个癌症状况中的第N癌症状况的第N模型。
根据本文的实施例使用的混合模型的示例描述于如下文献:于2019年5月13日提交,发明名称为“基于模型的特征和分类”,申请号为62/847,223的美国专利申请,其通过引用整体并入本文。
在一些实施例中,每个独立的相应甲基化模型是二项式模型(binomial model)、β-二项式模型、独立位点模型或马尔可夫模型中的一种。在一些实施例中,第一多子模型中的两个或更多个子模型是独立的站点模型,第二多子模型中的两个或更多个子模型是独立的站点模型。
例如,于2020年2月28日提交、发明名称为“识别鉴别或指示癌症状况的甲基化模式”,申请号为62/983,443的美国专利申请(其通过引用整体并入本文)公开了多种识别甲基化模式的方法,这些甲基化模式可以鉴别受试者的特定癌症状况。具体地,在一些实施例中,癌症状况组中的每种癌症状况(例如,起源的癌症)对应于跨越参照基因组或跨越参照基因组的子集(例如,通过靶向组测序(targeted panel sequencing)估计)的异常甲基化(例如,合格的甲基化模式)的相应模式。为了确定特定受试者的癌症状况,该方法估计多个感兴趣的基因组区域,并且为多个基因组区域中的每个基因组区域生成对应的片段计数,该片段具有映射到相应基因组区域的甲基化模式(例如,存在用于在映射到相应基因组区域的片段中识别的每个可能的甲基化模式的相应的片段计数)。然后,该方法将受试者的多个基因组区域的片段计数与对应于不同癌症状况(例如,其中每个癌症状况对于多个基因组区域内的基因组区域的相应子集具有相应的片段计数)的甲基化模式的数据库(例如,文库)进行比较,以确定受试者可能的癌症状况,其中癌症状况对应于癌症与非癌症,癌症类型,和/或组织来源。在一些实施例中,该方法用于识别受试者的癌症状况,以输入到下游应用(例如,用于估计受试者的肿瘤分数和/或确定受试者的最小残留疾病)中。在一些实施例中,选择在本公开中使用的多个仓以代表申请号为62/983,443的美国专利申请中识别的基因组的部分,申请号为62/983,443的美国专利申请包含与申请号为62/983,443的美国专利申请中估计的癌症的任何单个或任何组合相关联的甲基化模式。
作为另一示例,于2020年5月13日提交,发明名称为“基于模型的特征化和分类”,申请号为15/931,022的美国专利申请(其通过引用整体并入本文),公开了使用基因组区域(例如,由映射到基因组区域的序列读数所代表的片段确定)的甲基化状态来识别对应于不同癌症状况的甲基化特征的概率模型的开发。在一些实施例中,选择本公开中使用的多个仓以代表申请号为15/931,022的美国专利申请中识别的基因组的部分,申请号为15/931,022的美国专利申请包含与申请号为15/931,022的美国专利申请中估计的癌症的任何单个或任何组合相关联的甲基化模式。
用于对核酸片段进行癌症分类的其它方法包括如下文献中公开的哪些方法:于2019年12月13日提交,发明名称为“使用Patch卷积神经网络的癌症分类”,申请号为62/948,129的美国专利申请;于2019年3月13日提交,发明名称为“用于选择、管理和分析高维度数据的方法和系统”,申请号为16/352,739的美国专利申请;于2019年5月31日提交,发明名称为“用于数据分类的卷积神经网络系统和方法”,申请号为16/428,575的美国专利申请;以及于2020年3月4日提交,发明名称为“使用自动编码器确定癌症状况的系统和方法”,申请号为62/985,258的美国专利申请,其每一个通过引用整体并入本文。
在一些实施例中,分类器是多变量逻辑回归、神经网络、卷积神经网络、支持向量机(SVM)、决策树、回归算法或监督聚类模型(supervised clustering model)。
逻辑回归算法,包括多变量逻辑回归,公开于Mapsti,类别数据分析导引(AnIntroduction to Categorical Data Analysis),1996,第5章,103-144页,约翰威立国际出版公司(John Wiley&Son),纽约,其通过引用并入本文。
神经网络算法,包括卷积神经网络算法,公开于,参见,Vincent等人,“堆叠去噪自动编码器:使用局部去噪标准在深度网络中学习有用的表示”,机器学习研究杂志(MachLearn Res)10,1-40页;Hassoun,1995,人工神经网络基础(Fundamentals of ArtificialNeural Networks),麻省理工学院,其每一个通过引用并入本文。
SVM算法描述于如下文献:Cristianini和Shawe-Taylor,2000,“支持向量机简介(An Introduction to Support Vector Machines)”,剑桥大学出版社,剑桥;Boser等人,1992,“最优间隔分类器的训练算法(A training algorithm for optimal marginclassifiers)”,见第五届ACM计算学习理论年度研讨会论文集(Proceedings of the 5thAnnual ACM Workshop on Computational Learning Theory),ACM出版社,匹兹堡,宾夕法尼亚州,142-152页;Vapnik,1998,统计学习理论(Statistical Learning Theory),Wiley,纽约;Mount,2001,生物信息学:序列和基因组分析(Bioinformatics:sequence andgenome analysis),冷泉港实验室出版社,冷泉港,纽约;Duda,模式分类(PatternClassification),第二版,2001,约翰威立国际出版公司,259,262-265页;Hasti,2001,统计学习要素(The Elements of Statistical Learning),Springer,纽约;以及Furey等人,2000,生物信息学(Bioinformatics),16,906-914,其每一个通过引用整体并入本文。当用于分类时,SVM用离标记数据最远的超平面来分离给定的一组二进制标记数据训练集(例如,通过肿瘤分数值)。对于不可能线性分离的情况,SVM可以与“内核(kernels)”技术结合使用,其自动实现到特征空间的非线性映射。SVM在特征空间中找到的超平面对应于输入空间中的非线性决策边界。
决策树一般描述于如下文献:Duda,2001,模式分类(Pattern Classification),约翰威立国际出版公司,395-396页,其通过引用并入本文。基于树的方法将特征空间划分为一组矩形,然后在每个矩形中拟合一个模型(如常量)。在一些实施例中,决策树是随机森林回归(random forest regression)。可以使用的一种特定算法是分类和回归树(CART)。其它特定决策树算法包括但不限于ID3、C4.5、MART和随机森林。CART、ID3和C4.5描述于如下文献:Duda,2001,模式分类(Pattern Classification),约翰威立国际出版公司,纽约,396-408和411-412页,其通过引用并入本文。CART、MART和C4.5,描述于如下文献:Hastie等人,2001,统计学习要素(The Elements of Statistical Learning),施普林格(Springer-Verlag),纽约,第9章,其通过引用整体并入本文。随机森林描述于如下文献:Breiman,1999年,“随机森林-随机特征(Random Forests--Random Features)”,技术报告567,统计部,美国柏克莱大学(U.C.Berkeley),1999年9月,其通过引用整体并入本文。
聚类描述于如下文献:Duda和Hart,模式分类和场景分析(PatternClassification and Scene Analysis),1973,约翰威立国际出版公司,纽约(以下称为“Duda 1973”)的第211-256页,其通过引用整体并入本文。如Duda 1973的第6.7节中所述,聚类问题被描述为在数据集中寻找自然分组的问题。为了识别自然分组,需要解决两个问题。首先,确定测量两个样本之间的相似性(或不相似性)的方式。该度量(相似性度量)用于确保一个聚类中的样本比其他聚类中的样本更相似。其次,确定了一种使用相似性度量将数据划分为集群的机制。
在Duda 1973的第6.7节中讨论了相似性度量,其中指出开始聚类研究的一种方式是定义距离函数,并计算训练集中所有样本对之间的距离矩阵。如果距离是相似性的良好度量,那么同一聚类中的参照实体之间的距离将明显小于不同聚类中的参照实体之间的距离。然而,如Duda 1973年的第215页所述,聚类不需要使用距离度量。例如,可以使用非度量相似性函数s(x,x')来比较两个向量x和x’。通常,s(x,x')是对称函数,当x和x’在某种程度上“相似”时,它的值很大。Duda 1973的第218页提供了一个非度量相似性函数s(x,x')的示例。
一旦选择了用于测量数据集中各点之间的“相似性”或“不相似性”的方法,聚类就需要测量数据的任何分区的聚类质量的标准函数。将标准函数极值化的数据集分区用于对数据进行聚类。参见Duda 1973的第217页。Duda 1973的第6.8节中讨论了标准函数。
最近,Duda等人,模式分类(Pattern Classification),第二版,约翰威立国际出版公司,纽约,已经出版。第537-563页详细描述了聚类。可以在如下文献中找到有关聚类技术的更多信息:Kaufman和Rousseuw,1990,数据中的查找群组:聚类分析简介(FindingGroups in Data:An Introduction to Cluster Analysis),Wiley,纽约州纽约市;Everitt,1993,聚类分析(Cluster analysis)(第3版),Wiley,纽约州纽约市;以及Backer,1995,聚类分析中的计算机辅助推理(Computer-Assisted Reasoning in ClusterAnalysis),普伦蒂斯霍尔出版社(Prentice Hall),新泽西州上马鞍河;其每一个通过引用并入本文。可以在本公开中使用的具体示例性聚类技术包括但不限于:层次聚类(使用最近邻算法、最远邻算法、平均链接算法、质心算法或平方和算法的凝聚聚类)、K-均值聚类、模糊K均值聚类算法和Jarvis-Patrick聚类。这种聚类可以在第一特征集{p1、.....、pN-K}(或者从第一特征集导出的主成分)上。在一些实施例中,聚类包括无监督聚类,其中,当训练集被聚类时,不存在应当形成什么聚类的先入为主的概念。
识别特征
框220参照图2B的框220,对于多个仓中的每个相应的仓,通过确定(a)所述多个训练受试者中的相应训练受试者的所述受试者癌症状况和(b)映射到所述相应仓的所述相应游离片段训练集中的多个相应游离片段的所述游离片段癌症状况之间的关联I的相应度量来进行所述方法。
在一些实施例中,关于框222,关联(association)的度量是相关性。参照框224,在一些实施例中,相关性是皮尔逊相关系数(Pearson correlation coefficient)。参照框226,在一些实施例中,使用经调整的相关系数、加权相关、反射相关系数或经缩放的相关系数来执行相关(correlation)。
在一些实施例中,关联的度量是互信息计算。例如参见,Song等人,2012,“共表达测量的比较:互信息、相关性和基于模型的指数(Comparison of co-expressionmeasures:mutual information,correlation,and model based indices)”,BMC生物信息学(BMC Bioinformatics),13,328。例如,在一些实施例中,根据图8计算互信息。如图8所述,训练受试者标签Y(在两种癌症类型的情况下为癌症类型A或B)与仓特征(bin feature)X之间的互信息是通过互信息来计算的。实际上,图8提供了一种在假设受试者患有癌症类型A或B的概率相同(P(Y=A)=(Y=B))的情况下计算互信息的方法。在一些特定实施例中,关联的度量是如下计算的互信息:
Figure BDA0003755459740000711
在一些这样的实施例中,i和j是癌症状况集(例如,第一和第二癌症状况)的独立索引(independent indices)。在一些实施例中,xi是具有癌症状况i(例如,其中i是第一癌症状况,或者可替代地,i是第二癌症状况等)的多个训练受试者中的训练受试者的数量。在一些实施例中,yj是多个训练受试者中具有映射到被分配为癌症状况j的所述相应仓的一个或多个游离片段的训练受试者的数量数量(例如,其中j是第一癌症状况,或者可替代地,j是第二癌症状况等)。在两种癌症状况的情况下,这种关联度量具有以下形式:
Figure BDA0003755459740000721
在一些这样的实施例中,关联的度量至少基于:a)具有第一癌症状况并且在被分配为第一癌症状况的相应仓中具有一个或多个游离片段的训练受试者的数量,b)具有第一癌症状况但是在被分配为第二癌症状况的相应仓中具有一个或多个游离片段的训练受试者的数量,c)具有第二癌症状况并且也在被分配为第二癌症状况的相应仓中具有一个或多个游离片段的训练受试者的数量,以及d)具有第二癌症状况但是在被分配为第一癌症状况的相应仓中具有一个或多个游离片段的训练受试者的数量。
在一些实施例中,函数p(xi,yj)包括
Figure BDA0003755459740000722
其中N(xi,yj)是多个训练受试者中具有癌症病状i并且还具有映射到被分配为癌症状况j的相应仓中的一个或多个游离片段,NT是多个训练受试者中的训练受试者的总数。在一些实施例中,函数p(xi)包括xi/NT(例如,在多个训练受试者中,患有第i种癌症状况的训练受试者的数量占训练受试者总数的比率),p(yj)包括yj/NT(例如,在多个训练受试者中,患有第j种癌症状况的训练受试者的数量占训练受试者总数的比率)。
在一些实施例中,存在两种可能的癌症状况,关联的度量是距离度量。表1提供了这种距离度量的示例。
表1-示例距离度量(Distance Metrics)
Figure BDA0003755459740000731
表1中,
Figure BDA0003755459740000732
是训练数据集状态向量,其中
Figure BDA0003755459740000733
中的每个相应元素代表多个训练受试者中相应的癌症受试者的训练受试者癌症适应症(indication),n代表训练群体的n个受试者。例如,在一些实施例中,当训练受试者具有第一癌症状况时,给定元素为
Figure BDA0003755459740000734
是“0”,当训练受试者具有第二癌症状况时,给定元素
Figure BDA0003755459740000735
是0(zero)。在表1中,
Figure BDA0003755459740000736
是计算距离度量的相应仓的向量。与Xp一样,Xp的每个元素代表相应的癌症状况。然而,对于
Figure BDA0003755459740000737
中的每一个相应的元素,Xq代表计算了距离度量的训练受试者的相应仓的测量方面。在一些实施例中,
Figure BDA0003755459740000738
中的每个元素是关于受试者仓中的任何片段是否已被归类为第一癌症状况(例如,被归类时为“0”,未被归类时为“1”)的二元指示(binary indication)。在一些实施例中,
Figure BDA0003755459740000741
中的每一元素是关于受试者仓中的任何片段是否已被归类为第二癌症状况(例如,被归类时为“0”,未被归类时为“1”)的二元指示。在一些实施例中,
Figure BDA0003755459740000742
中的每一元素是受试者仓中已被归类为第一癌症状况(被归类时为“0”,未被归类时为“1”)的片段的数量除以仓中的所有片段的比率。在一些实施例中,
Figure BDA0003755459740000743
中的每一个元素是受试者仓中已被归类为第二癌症状况(被归类时为“0”,未被归类时为“1”)的片段的数量除以仓中的所有片段的比率。在一些实施例中,
Figure BDA0003755459740000744
中的每个元素是受试者仓中已被归类为第一癌症状况(被归类时为“0”,未被归类时为“1”)的片段的数量除以受试者仓中已被归类为第二癌症状况的片段的数量的比率。在一些实施例中,
Figure BDA0003755459740000745
中的每个元素是关于受试者仓中已被分类为第一癌症状况的片段是否存在阈值的二进制指示(例如,满足阈值时为“0”,不满足阈值时为“1”)。该阈值可以是任何上述比率或片段计数的阈值。此外,在表1中,maxi和mini分别是第i个元素的最大值(例如,“1”)和最小值(例如,“0”)。关于基于距离的分类的其他细节和信息公开于如下文献:Yang等人,1999,“DistAI:一种基于模式间距离的构建性学习算法(DistAI:An Inter-pattern Distance-based Constructive LearningAlgorithm)”,智能数据分析(Intelligent Data Analysis),3(1),55-83,其通过引用并入本文。
在一些实施例中,关联的度量的计算确定多个仓中的每个仓的关联的度量,其中多个训练受试者中的每个训练受试者具有多种癌症状况中的一种。在一些这样的实施例中,关联的度量计算为:
Figure BDA0003755459740000746
在一些实施例中,该等式中的i、j和n是针对一组癌症状况(例如,针对多个癌症状况中的每个相应癌症状况)的独立索引(independent indices)。在一些实施例中,xi是具有癌症状况i的多个训练受试者中的训练受试者的数量。在一些实施例中,yj是多个训练受试者中具有映射到被分配为癌症状况j的相应仓的一个或多个游离片段的多个训练受试者的数量。在多个训练受试者中存在具有每个相应癌症状况的相应数量的训练受试者,最多包括zn。在一些实施例中,函数p(xi,yj,…,zn)包括比率
Figure BDA0003755459740000751
其中N(xi,yj,…,zn)是多个训练受试者中具有癌症状况i,并且还具有映射被分配为癌症状况j至n中的一种的相应仓的一个或多个游离片段的训练受试者的数量,NT是所述多个训练受试者中的训练受试者的总数。在一些实施例中,函数p(xi)包括xi/NT(例如,在多个训练受试者中,患有第i种癌症状况的训练受试者的数量占多个训练受试者中训练受试者总数的比率),p(yj)包括yj/NT(例如,在多个训练受试者中,患有第j种癌症状况的训练受试者的数量占多个训练受试者中训练受试者总数的比率)。在一些实施例中,多个癌症状况中的每一癌症状况具有相应癌症状况(例如,第n癌症状况)的训练受试者的数量的对应比率(例如,p(zn))。
框228参照图2B的框228,通过将用于估计受试者细胞来源分数的多个特征识别为多个仓的子集继续该方法,其中多个仓的子集中的每个相应仓满足基于相应仓的对应关联度量的选择标准。
在一些实施例中,选择标准指定选择具有前N个关联度量之一的仓,其中N是50或更大的正整数。在一些实施例中,N介于500和5000之间。在一些实施例中,N介于800和1500之间。在一些实施例中,N为至少100、至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1000、至少1100、至少1200、至少1300、至少1400或至少1500。
在一些实施例中,参照框230,选择标准指定选择具有前N个关联度量之一的仓,其中N是50或更大的正整数(例如,具有最高关联度量的至少50个仓被选择为特征)。
在一些实施例中,多个特征包括至少10、至少50、至少100、至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100、至少1200、至少1300、至少1400,或至少1500个特征。在一些实施例中,多个特征包括介于500和5000之间、介于800和1500之间或多于1500个的特征。
估计细胞来源分数
在一些实施例中,在识别用于估计受试者细胞来源分数的多个特征(例如,仓的子集)之后,该方法还包括至少基于多个特征来估计测试受试者的细胞来源分数。
在一些实施例中,该方法通过以下过程进行细胞来源或肿瘤分数估计,该过程包括以电子形式获得测试多个游离片段(例如,来自希望对其进行癌症分类的受试者)中每个相应的游离片段的相应甲基化模式,其中每个相应的游离片段中的相应甲基化模式(i)通过对一个或多个核酸样本的甲基化测序来确定,所述一个或多个核酸样本包含从相应的训练受试者获得的相应生物样本中的所述相应片段,并且(ii)包含所述相应片段中的相应的多个CpG位点中每个CpG位点的甲基化状态。该过程还包括将所述测试的多个游离片段中的每个游离片段映射到所述多个仓中的一个仓,从而获得多个游离片段的多个测试集,多个游离片段的每个测试集被映射到所述多个仓中的一个不同仓。在将所述相应的游离片段的甲基化模式输入所述分类器时,通过为所述多个游离片段的测试集中的每个游离片段的测试集中的每个相应的游离片段分配游离片段癌症状况,作为所述分类器的输出的一函数的所述函数来继续进行该过程。该过程包括计算来自所述测试受试者的游离片段的数量的第一集中趋势度量,所述游离片段在跨越所述多个仓的所述子集中的多个游离片段的每个测试集中被分配为所述第一癌症状况;以及计算来自所述测试受试者的游离片段的数量的第二集中趋势度量,所述游离片段在跨越所述多个仓的所述子集的多个游离片段的每个测试集中。该过程使用所述第一集中趋势度量和所述第二集中趋势度量来估计所述测试受试者的细胞来源分数。
在一些实施例中,第二癌症状况包括不存在癌症,并且为测试受试者估计的细胞来源分数包括为测试受试者的肿瘤分数。
例如,在一些实施例中,基于以下假设计算肿瘤分数估计值:测试受试者(例如,cfDNA和/或血浆)的生物样本中的一种或多种甲基化状态模式是肿瘤衍生的,以及这种肿瘤衍生的甲基化模式的频率与癌细胞对正常细胞的比例(例如,肿瘤分数)直接成比例。
有多种测定此类分数的方法,其中一些描述于如下文献:于2019年12月18日提交,发明名称为“使用甲基化信息估计细胞来源分数的系统和方法”,申请号为16/719,902的美国专利申请;以及于2020年4月16日提交,发明名称为“从小变异估计肿瘤分数的系统和方法”,申请号为16/850,634的美国专利申请,都通过引用整体并入本文。
在一些实施例中,第一集中趋势度量是来自所述多个测试受试者的游离片段的数量的算术平均值、加权平均值、中间值、中铰链、三均值、缩尾均值、平均值或众数,来自所述多个测试受试者的游离片段在跨越所述多个仓的所述子集的每个游离片段测试集中被分配为所述第一癌症状况。在一些实施例中,第二集中趋势度量是游离片段的数量的算术平均值、加权平均值、中间值、中铰链、三均值、缩尾均值、平均值或众数,所述游离片段来自跨越所述多个仓的所述子集的每个游离片段的测试集中的所述多个测试受试者。在一些实施例中,估计细胞来源分数包括将第一集中趋势度量除以第二集中趋势度量。在一些实施例中,多个训练受试者中的每一个训练受试者的相应受试者癌症状况选自多种癌症状况。在一些实施例中,为多种癌症状况中的每种相应癌症状况测定相应的集中趋势度量。在一些这样的实施例中,估计细胞来源分数包括将第一集中趋势度量除以每个其他集中趋势度量的总和。
在一些实施例中,测试受试者的肿瘤分数介于0.003和1.0之间。在一些实施例中,测试受试者的肿瘤分数介于0.001和1.0之间。在一些实施例中,测试受试者的肿瘤分数为至少0.001、至少0.005、至少0.01、至少0.05、至少0.1、至少0.2、至少0.3、至少0.4、至少0.5、至少0.6、至少0.7、至少0.8、至少0.9或至少1.0。
在一些实施例中,测定受试者的细胞来源(例如,肿瘤)分数进一步识别受试者的癌症来源。在一些实施例中,第一和/或第二癌症状况包括组织来源(例如,认为癌症来源的组织)。在一些实施例中,第一和/或第二癌症状况包括癌症分期(例如,第I、II、III或IV期)。
在一些实施例中,癌症来源包括第一癌症状况,其选自非癌症、乳腺癌、肺癌、前列腺癌、结肠直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头/颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌、鼻咽癌、肝癌或其组合。
在一些实施例中,癌症来源包括至少第一癌症状况和第二癌症状况,每一种选自:乳腺癌、肺癌、前列腺癌、结肠直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头/颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌、鼻咽癌、肝癌或其组合。
在一些实施例中,第一和/或第二癌症状况包括:乳腺癌分期、肺癌分期、前列腺癌分期、结肠直肠癌分期、肾癌分期、子宫癌分期、胰腺癌分期、食道癌分期、淋巴瘤分期、头/颈癌分期、卵巢癌分期、肝胆癌分期、黑色素瘤分期、宫颈癌分期、多发性骨髓瘤分期、白血病分期、甲状腺癌分期、膀胱癌分期、胃癌分期、鼻咽癌分期、肝癌分期或其组合。
在一些实施例中,测定测试受试者的细胞来源(例如,肿瘤)分数还包括向测试受试者提供治疗建议(例如,癌症治疗),其中治疗建议至少部分地基于细胞来源分数(例如,疾病进展程度)和癌症来源。
在一些实施例中,该方法还包括在一个或多个时间点(例如,在治疗之前或之后)确定测试受试者的细胞来源(例如,肿瘤)分数,以监测疾病进展或监测治疗有效性效果(treatment effectiveness)(例如,治疗功效(therapeutic efficacy))。例如,在一些实施例中,肿瘤分数随着时间(例如,在第二、稍后的时间点)而增加,表示疾病恶化,相反,在一些实施例中,肿瘤分数随着时间(例如,在第二、稍后的时间点)而减少,表示治疗成功。
例如,在一些实施例中,该方法还包括至少部分地基于所述测试受试者的细胞来源分数的值,对所述测试受试者施用治疗方案。在一些实施例中,治疗方案包括向所述测试受试者施用癌症药剂。在一些实施例中,癌症药剂是激素、免疫疗法、放射照相术或癌症药物。在一些实施例中,癌症药剂是来那度胺、帕博利珠单抗、曲妥珠单抗、贝伐珠单抗、利妥昔单抗、伊布替尼、人乳头瘤病毒四价(6、11、16和18型)疫苗、帕妥珠单抗、培美曲塞、尼罗替尼(Nilotinib)、尼洛替尼(Nilotinib)、地诺单抗、醋酸阿比特龙、艾曲波帕、伊马替尼、依维莫司、帕博西尼、厄洛替尼、硼替佐米、硼替佐米或其通用等同物。
在一些实施例中,已经用癌症药剂对测试受试者进行了治疗,所述方法还包括:使用所述测试受试者的所述细胞来源分数来估计所述受试者对所述癌症药剂的响应。在一些实施例中,所述癌症药剂是激素、免疫疗法、放射照相术或癌症药物。在一些实施例中,癌症药剂是来那度胺、帕博利珠单抗、曲妥珠单抗、贝伐珠单抗、利妥昔单抗、伊布替尼、人乳头瘤病毒四价(6、11、16和18型)疫苗、帕妥珠单抗、培美曲塞、尼罗替尼(Nilotinib)、尼洛替尼(Nilotinib)、地诺单抗、醋酸阿比特龙、艾曲波帕、伊马替尼、依维莫司、帕博西尼、厄洛替尼、硼替佐米、硼替佐米或其通用等同物。
在一些实施例中,已经用癌症药剂对测试受试者进行了治疗,所述方法还包括:使用所述测试受试者的所述细胞来源分数来确定是强化还是中止所述测试受试者中的所述癌症药剂。在一些实施例中,所述测试受试者已经经受了外科手术以治疗所述癌症,所述方法还包括:使用所述测试受试者的所述细胞来源分数,以估计所述测试受试者响应于所述外科手术的状况。
在一些实施例中,在跨越一个时间段(epoch)的多个时间点(例如,两个或更多个时间点,三个或更多个时间点,四个或更多个时间点)中的每个相应时间点重复该方法,从而在每个相应时间点获得所述测试受试者的多个细胞来源(例如,肿瘤)分数中的相应细胞来源(例如,肿瘤)分数,以及使用多个细胞来源(例如,肿瘤)分数,以第一细胞来源分数在所述时间段内增加或减少的形式,确定所述时间段内所述测试受试者的疾病状况的状态或进展。
在一些这样的实施例中,所述时间段是几个月的时间,所述多个时间点中的每个时间点是几个月的时间中的不同时间点。在一些实施例中,几个月的时间为1至4个月、4至8个月、8至12个月、12至18个月、18至24个月或超过24个月。在一些实施例中,几个月的时间少于四个月。
在一些实施例中,所述时间段是几年的时间,所述多个时间点中的每个时间点是几年的时间中的不同时间点。在一些实施例中,几年的时间为2至10年。在一些实施例中,几年的时间为1至5年、5至10年、10至15年、15至20年或超过20年。
在一些实施例中,所述时间段是几小时的时间,所述多个时间点中的每个时间点是几小时的时间中的不同时间点。在一些实施例中,几小时的时间为1小时至6小时。在一些实施例中,几小时的时间为1至3小时、3至6小时、6至9小时、9至12小时、12至18小时、18至24小时或超过24小时。
在一些实施例中,该方法还包括,当观察到所述受试者的所述第一细胞来源(例如,肿瘤)分数在所述时间段内发生阈值量的变化时,改变所述测试受试者的诊断。在一些实施例中,该方法还包括,当观察到受试者的第一细胞来源(例如,肿瘤)分数在所述时间段内发生阈值量的变化时,改变所述测试受试者的预后。在一些实施例中,该方法还包括,当观察到受试者的第一细胞来源(例如,肿瘤)分数在所述时间段内发生阈值量的变化时,改变所述测试受试者的治疗。在一些上述实施例中,阈值大于1%、大于5%、大于10%、大于20%、大于30%、大于40%或大于50%。在一些实施例中,阈值大于两倍、大于三倍、大于四倍或大于五倍。
在一些实施例中,该方法在癌症治疗之前(例如,在切除手术或治疗干预之前)的第一时间点以及在癌症治疗之后(例如,在切除手术或治疗干预之后)的第二时间点进行,并且所公开的方法通过比较在每个时间点由所公开的方法确定的细胞来源(例如,肿瘤)分数来监测治疗的有效性。例如,如果与第一时间点的肿瘤分数相比,第二时间点的肿瘤分数降低,则认为治疗成功。然而,如果与第一时间点的肿瘤分数相比,第二时间点的肿瘤分数增加,则认为治疗不成功。在其它实施例中,第一和第二时间点都在癌症治疗之前(例如,在切除手术或治疗干预之前)。而在其他实施例中,第一和第二时间点都在癌症治疗之后(例如,在切除手术或治疗干预之前),并且该方法被用于监测治疗的有效性或治疗的有效性损失。在其他实施例中,可以在第一和第二时间点从测试受试者获得生物样本(cfDNA样本),并对其进行分析,例如以监测癌症进展,以确定癌症是否处于缓解期(例如,治疗后),以监测或检测残留疾病或疾病复发,或监测治疗(例如,治疗)效果。
本领域技术人员将容易理解,可以在任何数量的时间点从测试受试者(例如,癌症患者)获得生物样本,并且根据本公开的方法进行分析,以监测患者中的癌症状况(例如,经由肿瘤分数)。在一些实施例中,第一时间点和第二时间点间隔约15分钟至约30年的时间量,例如约30分钟,例如约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或约24小时,例如约1、2、3、4、5、10、15、20、25或约30天,例如约1、2、3、4、5、6、7、8、9、10、11或12个月,或例如约1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8,、8.5、9、9.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5或约30年。在其它实施例中,可从至少每3个月一次、至少每6个月一次、至少每年一次、至少每2年一次、至少每3年一次、至少每4年一次或至少每5年一次,从患者获得生物样本。
确定测试受试者的估计的细胞来源分数
框302参照图3A的框302,提供了估计受试者(例如,测试受试者)的细胞来源分数的方法。在一些实施例中,受试者是人。在一些实施例中,受试者是任何阶段的雄性或雌性(例如,男性、女性或儿童)。在一些实施例中,受试者的细胞来源分数来源于单一细胞来源。在一些实施例中,受试者的细胞来源分数来源于两个或更多个细胞来源。在一些实施例中,细胞来源分数如上文关于框202所述。
框304参照框304,该方法继续以电子形式获得多个游离片段(例如,多个游离片段衍生自受试者的生物样本)中每个相应的游离片段的相应甲基化模式,其中每个相应的游离片段的所述相应甲基化模式(i)通过一个或多个核酸样本的甲基化测序来确定,所述一个或多个核酸样本包含从所述受试者获得的生物样本中的所述相应片段,并且(ii)包括所述相应片段中的相应的多个CpG位点中的每个CpG位点的甲基化状态。在一些实施例中,参照框306,多个游离片段的平均长度小于500个核苷酸。在一些实施例中,如上文关于框204所述,游离片段衍生自生物样本。
在一些实施例中,生物样本包括或由受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液组成。在这样的实施例中,生物样本可包括受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液以及受试者的其他组分(例如固体组织等)。
这种生物样本含有游离核酸片段(例如,cfDNA片段)。在一些实施例中,处理生物样本以提取游离核酸,为测序分析做准备。作为非限制性示例,在一些实施例中,从收集自K2 EDTA管的受试者的生物样本(例如,血液样本)提取游离核酸片段。在生物样本是血液的情况下,样本在采集的两个小时内通过生物样本的双旋转进行处理,首先在1000g下旋转10分钟,然后所得血浆在2000g下旋转10分钟。然后将血浆以1ml等分试样储存在-80℃下。以这种方式,从生物样本制备适量的血浆(例如1-5ml),用于游离核酸提取目的。在一些这样的实施例中,使用QIAamp循环核酸试剂盒(Qiagen)提取游离核酸,并洗脱到DNA悬浮缓冲液(Sigma)中。在一些实施例中,纯化的游离核酸在-20℃下储存直至使用。例如参见,Swanton等人,“系统发育ctDNA分析描述早期肺癌演变(Phylogenetic ctDNA analysis depictsearly stage lung cancer evolution)”,自然(Nature),545(7655):446-451,通过引用并入本文。为了测序的目的,可以使用其他等效方法从生物学方法制备游离核酸,所有这些方法都在本公开的范围内。
在一些实施例中,从生物样本获得的游离核酸片段是本公开中定义的任何形式的核酸或其组合。例如,在一些实施例中,从生物样本获得的游离核酸是RNA和DNA的混合物。
在一些实施例中,处理游离核酸片段以将未甲基化的胞嘧啶转化为尿嘧啶。在一个实施例中,该方法使用亚硫酸氢盐处理DNA,将未甲基化的胞嘧啶转化为尿嘧啶,而不转化甲基化的胞嘧啶。例如,商业试剂盒,例如EZDNA MethylationTM-Gold、EZ DNAMethylationTM-Direct或EZ DNA MethylationTM-Lightning试剂盒(可从Zymo ResearchCorp(Irvine,CA)购得),用于亚硫酸氢盐转化。在另一个实施例中,未甲基化的胞嘧啶向尿嘧啶的转化是使用酶促反应完成的。例如,转化可以使用市售试剂盒将未甲基化的胞嘧啶转化为尿嘧啶,例如APOBEC-Seq(NEBiolabs,Ipswich,MA)。
从转化的游离核酸片段制备测序文库。任选地,使用多种杂交探针从测序文库中富集游离核酸片段或基因组区域,所述游离核酸片段或基因组区域提供细胞来源的信息。杂交探针是短寡核苷酸,其与特定的游离核酸片段或靶区域杂交,并富集这些片段或区域,以用于后续测序和分析。在一些实施例中,杂交探针用于对一组特定的CpG位点进行靶向的、高深度分析,这些位点可提供细胞来源的信息。一旦制备好,测序文库或其一部分被测序以获得多个序列读数。
在一些实施例中,测序包括甲基化测序。在一些实施例中,甲基化测序是双端测序。在一些实施例中,甲基化测序是单端测序。在一些实施例中,甲基化测序是全基因组甲基化测序。在一些实施例中,甲基化测序是使用多个核酸探针的靶向测序,多个仓中的每个相应仓与多个核酸探针中的至少一个相应的核酸探针相关联。在一些实施例中,多个仓中的每个相应仓与多个核酸探针中的至少两个相应的核酸探针相关联。
在一些实施例中,多个核酸探针(例如,用于靶向测序的探针)包括1000个或更多个核酸探针、2000个或更多个核酸探针、3000个或更多个核酸探针、4000个或更多个核酸探针、5000个或更多个核酸探针、10,000个或更多个核酸探针、20,000个或更多个核酸探针或30,000个或更多个核酸探针。在一些实施例中,多个核酸探针介于1000个核酸探针和30,000个核酸探针之间。
在一些实施例中,其中甲基化测序(例如,根据本文所述或本领域已知的任何甲基化测序方法执行)检测相应片段中的一种或多种5-甲基胞嘧啶(5mC)和/或5-羟甲基胞嘧啶(5mC)。
在一些实施例中,甲基化测序包括在所述相应片段的序列读数中,将一种或多种未甲基化的胞嘧啶或一种或多种甲基化的胞嘧啶转化为相应的一种或多种尿嘧啶。在一些实施例中,所述一种或多种尿嘧啶在所述甲基化测序期间被检测为一种或多种相应的胸腺嘧啶。在一些实施例中,所述一种或多种未甲基化的胞嘧啶或一种或多种甲基化的胞嘧啶的转化包括化学转化、酶转化或其组合。
在一些实施例中,相应片段中的所述相应多个CpG位点中的一个相应CpG位点的甲基化状态是:当通过所述甲基化测序确定所述相应CpG位点被甲基化时,是甲基化的,当通过所述甲基化测序确定所述相应CpG位点未被甲基化时,是未甲基化的,并且当所述甲基化测序无法将所述相应CpG位点的所述甲基化状态称为甲基化或未甲基化时,标记为“其他”。
框308参照框308,该方法继续将所述多个游离片段中的每个游离片段映射到多个仓中的一个仓,从而获得多个游离片段的多个集,多个游离片段的每个集被映射到所述多个仓中的一个不同仓。
在一些实施例中,参照框310,多个仓由1000至100,000个仓组成。在一些实施例中,多个仓由15,000至80,000个仓组成。在一些实施例中,多个仓由任何数量的仓组成,如以上关于框210所述。
参照框312,在一些实施例中,多个仓中的每个相应的仓平均具有10至1200个残基。在一些实施例中,多个仓中的每个相应的仓平均具有10至10,000个残基。在一些实施例中,多个仓中的每个相应的仓平均具有10-500个残基。在一些实施例中,多个仓中的每个相应仓平均具有10至100个残基。在一些实施例中,多个仓中的每个相应的仓平均具有25至100个残基。在一些实施例中,多个仓中的每个相应的仓平均具有5000至10,000个残基。
另外,关于框314,在一些实施例中,多个仓中的每个仓包括或由2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个CpG位点组成。在一些实施例中,多个仓中的每个仓由人类参照基因组中的2至100个连续的CpG位点组成。在一些实施例中,多个仓中的每个仓由2至50个连续的CpG位点组成。在一些实施例中,多个仓中的每个仓由50至100个连续的CpG位点组成。在一些实施例中,多个仓中的每个仓由至少2个连续的CpG位点组成。
框316参照框316,在将所述相应的游离片段的甲基化模式输入所述分类器时,通过将游离片段癌症状况分配给所述多个游离片段训练集中的每个游离片段训练集中的每个相应的游离片段,作为分类器的输出的函数来继续该方法,其中游离片段癌症状况是第一癌症状况和第二癌症状况中的一种。参照框318,在一些实施例中,第一癌症状况是癌症,第二癌症状况是不存在癌症。在一些实施例中,第一癌症状况是癌症,第二癌症状况是不存在癌症。在一些实施例中,游离片段癌症状况是多种癌症状况中的一种(例如,如上文参照框206所述)。
在一些实施例中,用于分配游离片段状况的分类器包括用于第一癌症状况的第一模型和用于第二癌症状况的第二模型,其中第一模型是包括第一多子模型的第一混合模型,第二模型是包括第二多子模型的第二混合模型,第一和第二多子模型中的每个子模型代表相应生物样本中游离片段来源的独立相应甲基化模型。在一些实施例中,分类器具有等式(1)或等式(3)的形式。
框320参照图3B的框320,该方法还包括计算来自所述测试受试者的游离片段的数量的第一集中趋势度量,所述游离片段在跨越所述多个仓的多个游离片段的每个集中被分配为所述第一癌症状况。在一些实施例中,参照框322,第一集中趋势度量是来自所述受试者的游离片段的数量的算术平均值、加权平均值、中间值、中铰链、三均值、缩尾均值、平均值或众数,来自所述受试者的游离片段在跨越所述多个仓的每个游离片段集中被分配为所述第一癌症状况。
框324参照框324,该方法还包括计算来自测试受试者的游离片段的数量的第二集中趋势度量,所述游离片段在跨越所述多个仓的多个游离片段的每个集中被分配为所述第二癌症状况。在一些实施例中,参照框326,第二集中趋势度量是来自受试者的游离片段的数量的算术平均值、加权平均值、中值范围、中铰链、三均值、缩尾均值、平均值或众数,所述游离片段来自跨越所述多个仓的多个游离片段的每个集中被分配为第一癌症状况。
框328参照框328,该方法通过使用第一集中趋势度量和第二集中趋势度量估计受试者的细胞来源分数来进行。在一些实施例中,细胞来源分数包括肿瘤分数。关于框330,在一些实施例中,估计肿瘤分数包括将第一集中趋势度量除以第二集中趋势度量。
在一些实施例中,细胞来源分数被用作用于确定治疗选项的基础或部分基础,治疗选项用于治疗与测试受试者中的细胞来源相关的疾病(例如癌症)。在一些实施例中,细胞来源分数被用作治疗监测的基础。在一些实施例中,给定受试者的估计的细胞来源分数,有可能确定某些治疗选择对受试者无效或将无效。例如,如果细胞毒性T细胞功能失调并发生凋亡,则检查点免疫治疗(checkpoint immunotherapy)将无效。例如,当来自受试者的生物样本的多个片段被确定为来源于血液中的细胞毒性T细胞时,表明存在这种情况。在一些实施例中,估计的细胞来源分数有助于监测最小残留疾病量。
本领域技术人员将认识到,在前面的章节中公开的任何实施例(例如,参见“识别用于估计细胞来源分数的特征”)可以以任何组合应用于确定本文所述的测试受试者的估计细胞来源分数的方法和实施例。
实施例
实施例1-癌症分期的中位ctDNA分数的增加
参照图4,受试者按癌症分期I、II、III和IV分组,无论他们患有何种类型的癌症。在图4中,x轴表示每个受试者的癌症分期,而y轴表示每个受试者的观察到的ctDNA分数。用于计算每个受试者的cfDNA分数的方法包括从群组中的每个受试者的生物样本中获得第一多电子形式的核酸片段序列,其中生物样本包含游离核酸分子。
图4提供了在具有指示其潜在癌症的游离序列读数的受试者中,ctDNA分数如何随癌症分期而变化的分析而不考虑癌症类型。因此,图4示出,随着临床分期(1-4期)确定的疾病更严重,在cfDNA中发现了更多的细胞来源分数(更大的ctDNA分数)的证据。虽然图4示出这是整个CCGA群的一般情况(有关CCGA群的详细信息,请参见实施例3),但是存在对这种趋势的违例(violations)(异常值(outliers))。图4中的此类异常值是提示性的,最好通过临床误分类来解释。因此,图4示出了潜在疾病的基本组成部分,即cfDNA中一般预期的细胞来源分数率。图4还示出第4期具有一些具有非常低的脱落率的个体,这表明在第4期中存在不同的子状态。
图4说明了脱落率(shedding rates)(ctDNA分数)可以用作建立有意义和信息性阈值的基础。
实施例2-获得多个序列读取
图5是根据一个实施例制备用于测序的核酸样本的方法500的流程图。方法500包括但不限于以下步骤。例如,方法500的任何步骤可包括用于质量控制的定量子步骤或本领域技术人员已知的其它实验室测定程序。
在框502中,从受试者提取核酸样本(DNA或RNA)。样本可以是人类基因组的任何子集,包括全基因组。可以从已知患有或疑似患有癌症的受试者中提取样本。样本可包括血液、血浆、血清、尿液、粪便、唾液、其它类型的体液或其任何组合。在一些实施例中,用于抽取血液样本(例如,注射器或手指点刺(finger prick))的方法可能比用于获得组织活检的手术侵入性更小。提取的样本可以包括cfDNA和/或ctDNA。对于健康的个体,人体可以自然地清除cfDNA和其它细胞碎片。如果受试者患有癌症或疾病,提取的样本中的ctDNA可以以可检测的水平存在,以用于诊断。
在框504中,制备测序文库。在文库制备过程中,通过接头连接(adapterligation)将独特的分子标识符(UMI)添加到核酸分子(例如,DNA分子)。UMIS是在接头连接过程中添加到DNA片段的末端的短核酸序列(例如,4-10个碱基对)。在一些实施例中,UMIS是简并的碱基对,其用作可用于识别源自特定DNA片段的序列读取的独特标签。在接头连接后的PCR扩增过程中,UMIS与连接的DNA片段一起复制。这提供了一种在下游分析中识别来自相同原始片段的序列读取的方法。
在框506中,从文库富集靶向的DNA序列。在富集过程中,杂交探针(本文中也称为“探针”)被用于靶向和下拉核酸片段,这些核酸片段关于是否存在癌症(或疾病)、癌症状态或癌症分类(例如,癌症类别或来源组织)的信息。对于给定的工作流程,探针可被设计成与DNA的靶向(互补)链退火(或杂交)。靶向链可以是“正”链(例如,被转录成mRNA并随后被翻译成蛋白质的链)或互补的“负”链。探针的长度范围可以是10s、100s或1000s碱基对不等。在一个实施例中,探针是基于甲基化位点芯片(methylation site panel)设计的。在一个实施例中,探针是基于靶向基因的芯片,以分析疑似对应于某些癌症或其它类型疾病的基因组(例如,人类或另一生物体)的特定突变或靶向区域。此外,探针可以覆盖靶向区域的重叠部分。在框408中,这些探针用于核酸样本的一般序列读数。
图6是根据一个实施例获得序列读数的过程的图示。图6示出了来自样本的核酸片段800的一个示例。这里,核酸片段600可以是单链核酸片段,例如单链。在一些实施例中,核酸片段600是双链cfDNA片段。图示的实施例描述了可以被不同探针靶向的核酸片段的三个区域605A、605B和605C。具体地,三个区域605A、605B和605C中的每一个包括核酸片段600上的重叠位置。示例性重叠位置在图5中被描述为胞嘧啶(“C”)核苷酸碱基602。胞嘧啶核苷酸碱基602位于区域605A的第一边缘附近、区域605B的中心和区域605C的第二边缘附近。
在一些实施例中,基于基因芯片或甲基化位点芯片设计一个或多个(或全部)探针,以分析疑似对应于某些癌症或其它类型疾病的基因组(例如,人类或另一生物体)的特定突变或靶向区域。通过使用靶向基因芯片或甲基化位点芯片,而不是对基因组的所有表达的基因进行测序(也称为“全外显子组测序”),方法600可用于增加靶向区域的测序深度,其中深度是指样本中给定靶向序列已被测序的次数计数。增加测序深度减少了核酸样本的所需输入量。
使用一个或多个探针对核酸样本600的杂交导致对靶向序列670的理解。如图6所示,靶向序列670是杂交探针靶向的区域605的核苷酸碱基序列。靶向序列670也可称为杂交核酸片段。例如,靶向序列670A对应于由第一杂交探针靶向的区域605A,靶向序列670B对应于由第二杂交探针靶向的区域605B,靶序列670C对应于由第三杂交探针靶向的区域605C。假定胞嘧啶核苷酸碱基602位于由杂交探针靶向的每个区域605A-C内的不同位置,则每个靶向序列670包括与靶向序列670上的特定位置处的胞嘧啶核苷酸碱基602相对应的核苷酸碱基。
在杂交步骤之后,捕获杂交的核酸片段,也可以使用PCR扩增。例如,可以富集靶向序列670以获得可随后测序的富集序列680。在一些实施例中,每个富集序列680是从靶序列670复制的。分别从靶向序列670A和670C扩增的富集序列680A和680C还包括位于每个序列读数680A或680C边缘附近的胸腺嘧啶核苷酸碱基。如下文所使用,相对于参照等位基因(例如胞嘧啶核苷酸碱基602)突变的富集序列680中的突变核苷酸碱基(例如胸腺嘧啶核苷酸碱基)被认为是替代等位基因。此外,从靶向序列670B扩增的每个富集序列680B包括位于每个富集序列680B的附近或中心的胞嘧啶核苷酸碱基。
在图5的框508中,从富集的DNA序列,例如图6所示的富集序列680中产生序列读数。测序数据可以通过本领域已知的方法从富集的DNA序列中获得。例如,方法600可以包括下一代测序技术(next generation sequencing,NGS),包括:合成技术(Illumina)、焦磷酸测序(454生命科学公司(454Life Sciences))、离子半导体技术(离子激流测序公司(IonTorrent sequencing))、单分子实时测序(太平洋生物科学公司(Pacific Biosciences))、连接酶法测序(sequencing by ligation)(SOLiD测序)、纳米孔测序(牛津纳米孔技术公司(Oxford Nanopore Technologies)),或双端测序(paired-end sequencing)。在一些实施例中,使用具有可逆染料终止剂的合成测序来执行大规模平行测序。
在一些实施例中,可使用本领域已知的方法将序列读数与参照基因组进行比对,以确定比对位置信息。比对位置信息可以指示参照基因组中对应于给定序列读数的起始核苷酸碱基和终止核苷酸碱基的区域的起始位置和终止位置。比对位置信息还可以包括序列读数长度,其可以从起始位置和终止位置确定。参照基因组中的区域可以与基因或基因片段相关联。
在各个实施例中,序列读数由表示为R1和R2的读数对组成。例如,第一读数R1可以从核酸片段的第一端测序,而第二读数R2可从核酸片段的第二端测序。因此,第一读数R1和第二读数R2的核苷酸碱基对可以与参照基因组的核苷酸碱基一致地比对(例如,以相反的方向)。从读数对R1和R2得到的比对位置信息,可以包括在参照基因组中对应于第一读数(例如,R1)一端的起始位置,和在参照基因组中对应于第二读数(例如,R2)一端的终止位置。换句话说,参照基因组中的起始位置和终止位置代表参照基因组中核酸片段对应的可能位置。可以生成并输出具有SAM(序列比对图)格式或BAM(二进制)格式的输出文件,用于进一步的分析,例如甲基化状态的确定。
实施例3-游离基因组图谱研究(Cell-Free Genome Atlas Study,CCGA)群
来自CCGA[NCT02889978]的受试者用于本公开的实施例中。CCGA是一项基于cfDNA的前瞻性、多中心、观察性早期癌症检测研究,其在140多个地点招募了超过15,000名人口统计学平衡的参与者。
本实施例着眼于CCGA的子研究之一。血液采集于新诊断为未接受过治疗的癌症(C,病例)的受试者和在登记时未诊断为癌症(非癌症[NC],对照)的参与者。这项预先计划的子研究包括878个病例、580个对照和169个测定对照(n=20),跨越20种肿瘤类型和所有临床分期。
所有样本均通过以下方式进行分析:1)配对的cfDNA和白细胞(WBC)-靶向测序(60,000X,507基因检测组套(gene panel))分析;联合调用者(joint caller)去除了WBC衍生的体细胞变异(somatic variant)和残留的技术噪声(residual technical noise);成对的cfDNA和白细胞全基因组测序;2)配对cfDNA和WBC全基因组测序(WGS;35X);一种新的机器学习算法生成与癌症相关的信号分数;联合分析识别的共享事件;和3)cfDNA全基因组亚硫酸氢盐测序(WGBS;34X);使用异常甲基化片段生成标准化分数。在靶向测定中,非肿瘤白细胞(WBC)匹配的cfDNA体细胞变体(SNVs/indels)占NC中所有变体的76%,占C中所有变体的65%。与体细胞嵌合(例如,克隆性造血)一致,WBC匹配的变体随年龄增长而增加;一些是先前未报道的非典型功能丧失突变。去除WBC变体后,典型的驱动体细胞变体对C具有高度特异性(例如,在EGFR和PIK3CA中,0NC分别具有C的11,30个变体)。类似地,在用WGS检测到的8个具有体细胞拷贝数改变(SCNAs)的NC中,有4个来自白细胞。CCGA的WGBs数据揭示了信息丰富的高片段和低片段水平CpGs(1:2比率);其中一个子集用于计算甲基化分数。在所有测定中,在<1%的NC参与者中观察到一致的“癌症样”信号(代表潜在的未诊断癌症)。观察到NC与IIl期和IV期相比有增加的趋势(非同步化,SNVs/indels/Mb[平均值(Mean)±SD]NC:1.01±0.86,I-III期:2.43±3.98;IV期:6.45±6.79;WGS得分NC:0.00±0.08,I-III期:0.27±0.98;IV期:1.95±2.33;甲基化得分NC:0±0.50;I-III期:1.02±1.77;IV期:3.94±1.70)。这些数据证明了对浸润性癌症实现>99%特异性的可行性,并支持cfDNA测定对早期癌症检测的承诺。
实例4-细胞来源示例
在一些实施例中,本公开的任何实施例的细胞来源是共同原发部位(commonprimary site of origin)的第一癌症状况。在一些实施例中,第一癌症状况是乳腺癌、肺癌、前列腺癌、结肠直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头/颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌或其组合。
在一些实施例中,本公开的任何实施例的细胞来源是特定癌症类型的肿瘤或其部分。在一些实施例中,肿瘤是肾上腺皮质癌、儿童肾上腺皮质癌、AIDS相关癌症的肿瘤、卡波西氏肉瘤(kaposi sarcoma)、与肛门癌相关的肿瘤、与阑尾癌(appendix cancer)相关的肿瘤、星形细胞瘤、儿童(脑癌)肿瘤、非典型畸胎瘤(atypical teratoid)/横纹肌样肿瘤(rhabdoid tumor)、中枢神经系统(脑癌)肿瘤、皮肤基底细胞癌、与胆管癌(bile ductcancer)相关的肿瘤、膀胱癌肿瘤、儿童膀胱癌肿瘤、骨癌(例如,尤因肉瘤(ewing sarcoma)和骨肉瘤以及恶性纤维组织细胞瘤(malignant fibrous histiocytoma))组织、脑肿瘤、乳腺癌组织、儿童乳腺癌组织、儿童支气管肿瘤、伯基特氏淋巴瘤(burkitt lymphoma)组织、类癌(胃肠道)、儿童类癌、原发灶不明的转移癌(carcinoma of unknown primary)、原发灶不明的儿童癌(childhood carcinoma of unknown primary)、儿童心脏(cardiac或heart)肿瘤、中枢神经系统(例如,诸如儿童非典型畸胎瘤/横纹肌样的脑癌)肿瘤、儿童胚胎肿瘤、儿童生殖细胞肿瘤,宫颈癌组织、儿童宫颈癌组织、胆管癌组织、儿童脊索瘤组织、慢性骨髓增殖性肿瘤、结肠直肠癌肿瘤、儿童结肠直肠癌肿瘤、儿童颅咽管瘤组织、导管原位癌(ductal carcinoma in situ,DCIS)、儿童胚胎肿瘤、子宫内膜癌(子宫癌)组织、儿童食管癌组织(childhood ependymoma tissue)、食管癌组织(esophageal cancer tissue)、儿童食道癌组织(childhood esophageal cancer tissue)、嗅神经母细胞瘤(头颈癌)组织、儿童颅外生殖细胞肿瘤、性腺外生殖细胞瘤、眼癌组织、眼内黑色素瘤、视网膜母细胞瘤、输卵管癌组织、胆囊癌组织、胃(gastric或stomach)癌组织、儿童胃(gastric或stomach)癌组织、胃肠道类癌、胃肠道间质瘤(gastrointestinal stromal tumor,GIST)、儿童胃肠道间质瘤、生殖细胞肿瘤(例如,儿童中枢神经系统生殖细胞肿瘤、儿童颅外生殖细胞肿瘤、性腺外生殖细胞肿瘤、卵巢生殖细胞肿瘤或睾丸癌组织)、头颈癌组织、儿童心脏肿瘤、肝细胞癌(HCC)组织、胰岛细胞肿瘤(胰腺神经内分泌肿瘤)、肾细胞癌(kidney或renal cellcancer,RCC)组织、喉癌组织、白血病、肝癌组织、肺癌(非小细胞和小细胞)组织、儿童肺癌组织、男性乳腺癌组织、骨和骨肉瘤的恶性纤维组织细胞瘤、黑色素瘤、儿童黑色素瘤、眼内黑色素瘤、儿童眼内黑色素瘤、默克尔细胞癌、恶性间皮瘤、儿童间皮瘤、转移性癌组织、具有隐匿性原发组织的转移性鳞状癌(metastatic squamous neck cancer with occultprimary tissue)、具有NUT基因改变的中线束癌(a midline tract carcinoma with NUTgene changes)、口腔癌(头颈癌)组织、多发性内分泌肿瘤综合征组织、多发性骨髓瘤/浆细胞肿瘤、骨髓增生异常综合征组织、骨髓增生异常/骨髓增殖性肿瘤、慢性骨髓增殖性肿瘤、鼻腔和鼻窦癌组织、鼻咽癌(NPC)组织、神经母细胞瘤组织、非小细胞肺癌组织、口腔癌组织、唇口腔癌和口咽癌组织、骨组织的骨肉瘤和恶性纤维组织细胞瘤、卵巢癌组织、儿童卵巢癌组织、胰腺癌组织、儿童胰腺癌组织、乳头状瘤(儿童喉)组织、副神经节瘤组织、儿童副神经节瘤组织、副鼻窦和鼻腔癌组织、甲状旁腺癌组织、阴茎癌组织、咽癌组织、嗜铬细胞瘤组织、儿童嗜铬细胞瘤组织、垂体瘤、浆细胞瘤/多发性骨髓瘤、胸膜肺母细胞瘤、原发性中枢神经系统(CNS)淋巴瘤、原发性腹膜癌组织、前列腺癌组织、直肠癌组织、视网膜母细胞瘤、儿童横纹肌肉瘤、唾液腺癌组织、肉瘤(例如,儿童血管瘤、骨肉瘤、子宫肉瘤等)、塞泽里综合征(Sézary syndrome)(淋巴瘤)组织、皮肤癌组织、儿童皮肤癌组织、小细胞肺癌组织、小肠癌组织、皮肤鳞状细胞癌(squamous cell carcinoma of the skin)、具有隐匿性原发性的鳞状颈癌(squamous neck cancer with occult primary)、皮肤t细胞淋巴瘤、睾丸癌组织、儿童睾丸癌组织、喉癌(例如,鼻咽癌、口咽癌、下咽癌)组织、胸腺瘤或胸腺癌、甲状腺癌组织、肾盂和输尿管组织移行细胞癌(transitional cell cancer of the renalpelvis and ureter tissue)、未知的原发癌组织、输尿管或肾盂组织、移行细胞癌(肾(kidney或renal)细胞)癌组织、尿道癌组织、子宫内膜癌组织、子宫肉瘤组织、阴道癌组织、儿童阴道癌组织、血管瘤、外阴癌组织、肾母细胞瘤(Wilms tumor)或其它儿童肾肿瘤。
在一些实施例中,本公开的任何实施例的细胞来源是第一癌症状况。在一些这样的实施例中,第一癌症状况是乳腺癌分期、肺癌分期、前列腺癌分期、结肠直肠癌分期、肾癌分期、子宫癌分期、胰腺癌分期、食道癌分期、淋巴瘤分期、头/颈癌分期、卵巢癌分期、肝胆癌分期、黑色素瘤分期、宫颈癌分期、多发性骨髓瘤分期、白血病分期、甲状腺癌分期、膀胱癌分期或胃癌分期。
在一些实施例中,本公开的任何实施例的细胞来源是预定期(predeterminedstage)的乳腺癌、预定期的肺癌、预定期的前列腺癌、预定期的结直肠癌、预定期的肾癌、预定期的子宫癌、预定期的胰腺癌、预定期的食管癌、预定期的淋巴瘤、预定期的头/颈部癌症、预定期的卵巢癌、预定期的肝胆癌、预定期的黑色素瘤、预定期的宫颈癌、预定期的多发性骨髓瘤、预定期的白血病、预定期的甲状腺癌、预定期的膀胱癌,或预定期的胃癌。
在一些实施例中,本公开的任何实施例的细胞来源来自非癌组织。在一些实施例中,本公开的任何实施例的细胞来源来自健康组织衍生的细胞。在一些实施例中,本公开的任何实施例的细胞来源来自健康组织,例如乳房、肺、前列腺、结肠直肠、肾、子宫、胰腺、食管、淋巴、卵巢、宫颈、表皮、甲状腺、膀胱、胃或其组合。
在一些实施例中,本公开的任何实施例的细胞来源来自一种组织类型。在一些实施例中,本公开的任何实施例的细胞来源源自两种或更多种组织类型。在一些实施例中,组织类型包括一种或多种细胞类型(例如,健康的非癌细胞和癌细胞的组合)。在一些实施例中,组织类型包括一种细胞类型(例如,癌细胞或非癌细胞中的一种)。
在一些实施例中,本公开的任何实施例的细胞来源构成一种细胞类型、两种细胞类型、三种细胞类型、四种细胞类型、五种细胞类型、六种细胞类型、七种细胞类型、八种细胞类型、九种细胞类型、十种细胞类型或十种以上细胞类型。
在一些实施例中,本公开的任何实施例的细胞来源是肝细胞。在一些这样的实施例中,细胞来源是肝细胞、肝星状脂肪储存细胞(ITO细胞)、枯否细胞、窦状隙内皮细胞或其任何组合。
在一些实施例中,本公开的任何实施例的细胞来源是胃细胞。在一些这样的实施例中,细胞来源是壁细胞。
在一些实施例中,本公开的任何实施例的细胞来源是一种或多种类型的人类细胞。在一些这样的实施例中,细胞来源是适应性NK细胞、脂肪细胞、肺泡细胞、阿尔茨海默II型星形胶质细胞、无长突细胞(amacrine cells)、造釉细胞(ameloblasts)、星形胶质细胞、B细胞、嗜碱性粒细胞、嗜碱性粒细胞活化细胞、嗜碱性粒细胞、贝茨细胞(Betz cells)、双层细胞、伯特歇尔细胞(Boettcher cells)、心肌细胞、CD4+细胞、成齿骨质细胞、小脑颗粒细胞、胆管细胞、胆囊细胞、嗜铬细胞、雪茄细胞、棒状细胞(club cells)、促肾上腺皮质细胞、细胞毒性T细胞、树突状细胞、肠嗜铬细胞、肠嗜铬样细胞、嗜酸性粒细胞、肾小球外系膜细胞、柴捆细胞(faggot cells)、脂肪垫细胞、胃主细胞、杯状细胞、促性腺细胞、肝星状细胞、肝细胞、分叶过多中性粒细胞(hypersegmented neutrophils)、肾小球内系膜细胞、球旁细胞(juxtaglomerular cells)、角质形成细胞、肾近端小管刷状缘细胞(kidneyproximal tubule brush border cells)、枯否细胞(Kupffer cells)、催乳激素细胞(lactotropic cells)、间质细胞(Leydig cells)、巨噬细胞、致密斑细胞(macula densacells)、肥大细胞、巨核细胞、黑素细胞、微褶细胞(microfold cells)、单核细胞、自然杀伤细胞(natural killer cells)、自然杀伤T细胞、闪光细胞、中性粒细胞、成骨细胞、破骨细胞、骨细胞、嗜氧细胞(甲状旁腺)、潘氏细胞(paneth cells)、滤泡旁细胞、阳伞细胞(parasol cells)、甲状旁腺主细胞、壁细胞、小细胞性神经分泌细胞(parvocellularneurosecretory cells)、闰细胞(peg cells)、周细胞(pericytes)、管周肌样细胞(peritubular myoid cells)、血小板、足细胞、调节性T细胞、网织红细胞、视网膜双极细胞、视网膜水平细胞、视网膜神经节细胞、视网膜前体细胞、前哨细胞、塞尔托利氏细胞(sertoli cells)、生长促性腺细胞(somatomammotrophic cells)、促生长细胞(somatotropic cells)、星状细胞、支持细胞(sustentacular cells)、T细胞、辅助性T细胞、特络细胞(telocytes)、肌腱细胞(tendon cells)、促甲状腺素细胞(thyrotropiccells)、移行B细胞(transitional B cells)、毛细胞(人)、塔夫细胞(tuft cells)、单极刷细胞(unipolar brush cells)、白细胞、细胞球(zellballens)或其任何组合。在一些这样的实施例中,细胞来源的此类细胞是健康的。在替代实施例中,细胞来源的此类细胞患有癌症。
在一些实施例中,本公开的任何实施例的细胞来源是细胞类型的任何组合,只要此类细胞类型源自单个器官。在一些这样的实施例中,该单个器官是乳房、肺、前列腺、结肠/直肠、肾脏、子宫、胰腺、食道、血液、头/颈、卵巢、肝脏、子宫颈、甲状腺、膀胱或胃。在一些实施例中,该单个器官是健康的。在可替代的实施例中,该单个器官患有源自该单个器官的癌症。在另一些替代实施例中,该单个器官患有癌症,该癌症源自于单个器官以外的器官,并且转移到单个器官。
在一些实施例中,本公开的任何实施例的细胞来源是细胞类型的任何组合,只要此类细胞类型源自预定的器官集。在一些这样的实施例中,该预定器官集是乳房、肺、前列腺、结肠/直肠、肾脏、子宫、胰腺、食道、血液、头部/颈、卵巢、肝脏、子宫颈、甲状腺、膀胱和胃中的任何两个器官的集。在一些实施例中,该预定器官集是健康的。在替代实施例中,这一预定的器官集患有源自该预定器官集中的一个器官的癌症。在另一些替代实施例中,该预定的器官集患有癌症,该癌症源自于除了预定器官集之外的器官,并且转移到预定器官集。
在一些实施例中,本公开的任何实施例的细胞来源是细胞类型的任何组合,只要此类细胞类型源自预定的器官集。在一些这样的实施例中,该预定器官集是乳房、肺、前列腺、结肠/直肠、肾脏、子宫、胰腺、食道、血液、头/颈、卵巢、肝脏、宫颈、甲状腺、膀胱和胃中的任何三个器官的集。在一些实施例中,该预定器官集是健康的。在替代实施例中,该预定的器官集患有癌症,该癌症源自于预定器官集合中的一个器官。在另一些替代实施例中,该预定的器官集患有癌症,该癌症源自于除了预定器官集之外的器官,并且转移到预定器官集。
在一些实施例中,本公开的任何实施例的细胞来源是细胞类型的任何组合,只要此类细胞类型源自预定的器官集。在一些这样的实施例中,该预定器官集是乳房、肺、前列腺、结肠/直肠、肾脏、子宫、胰腺、食道、血液、头/颈、卵巢、肝脏、宫颈、甲状腺、膀胱和胃中的任何四个器官、五个器官、六个器官或七个器官的集。在一些实施例中,该预定器官组是健康的。在替代实施例中,该预定的器官集患有癌症,该癌症源自于预定器官集合中的一个器官。在另一些替代实施例中,该预定的器官集患有癌症,该癌症源自于除了预定器官集之外的器官,并且转移到预定器官集。
在一些具体实施例中,本公开的任何实施例的细胞来源是白细胞。在一些这样的实施例中,细胞来源是中性粒细胞(neutrophils)、嗜酸性粒细胞(eosinophils)、嗜碱性粒细胞(basophils)、淋巴细胞(lymphocytes)、B淋巴细胞、T淋巴细胞、细胞毒性T细胞、单核细胞(monocytes)或其任何组合。
结论
可以为本文描述的组件、操作或结构提供多个实例作为单个实例。最后,各种组件、操作和数据存储之间的边界在某种程度上是任意的,特定操作是在特定说明性配置的上下文中示出的。功能的其他分配是可预见的,并且可能落入实现的范围内。通常,在示例配置中作为单独组件呈现的结构和功能可以被实现为组合的结构或组件。类似地,呈现为单个组件的结构和功能可以实现为单独的组件。这些和其它变化、修改、添加和改进落入实现的范围内。
还应当理解,尽管术语“第一”、“第二”等在本申请中可用于描述各种元件,但是这些元件不应受这些术语的限制。这些术语仅用于区分一个元件和另一个元件。例如,在不脱离本公开的范围的情况下,第一受试者可以被称为第二受试者,类似地,第二受试者可以被称为第一受试者。第一受试者和第二受试者都是受试者,但它们不是同一受试者。
本公开中使用的术语仅用于描述特定实施例的目的,而不旨在限制本发明。如在本发明和所附权利要求书的描述中所使用的,单数形式“一个(a或an)”和“所述(the)”旨在包括复数形式,除非上下文另有明确说明。还应当理解,如本文所使用的术语“和/或”是指并包括一个或多个相关所列项目的任何和所有可能的组合。还应当理解,当在本说明书中使用时,术语“包括(comprises)”和/或“包括(comprising)”指定了特征、整体、步骤、操作、元件和/或组件的存在,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或它们的组。
如本文所使用,根据上下文,术语“如果(if)”可以被解释为表示“当(when)”或“当……时(upon)”或“响应于确定(“in response to determining)”或“响应于检测(inresponse to detecting)”。类似地,根据上下文,短语“如果确定(if it is determined)”或“如果检测到[所述条件或事件]”可被解释为表示“在确定……时(upon determining)”或“响应于确定(in response to determining)”或“在检测到(所述条件或事件)时”或“响应于检测到(所述条件或事件)(upon detecting(the stated condition or event)”or“in response to detecting(the stated condition or event))”。
前述描述包括体现说明性实施方式的示例系统、方法、技术、指令序列和计算机程序产品。出于解释的目的,阐述了许多具体细节,以便提供对本发明主题的各种实施方式的理解。然而,对于本领域技术人员来说,显而易见的是,可以在没有这些具体细节的情况下实践本发明主题的实施方式。通常,没有详细示出众所周知的指令实例、协议、结构和技术。
为了解释的目的,已经参照具体实施方式描述了前述描述。然而,上面的说明性讨论并非旨在穷举或将实施方式限制为所公开的精确形式。鉴于上述教导,许多修改和变化是可能的。选择和描述这些实施方式是为了最好地解释原理及其实际应用,从而使本领域的其他技术人员能够最好地利用这些实施方式以及具有各种修改的各种实施方式,以适合于所设想的特定用途。

Claims (168)

1.一种识别用于估计受试者细胞来源分数的多个特征的方法,其特征在于,所述方法包括:
在计算机系统中,所述计算机系统具有一个或多个处理器和存储器,所述存储器存储由所述一个或多个处理器执行的一个或多个程序:
A)以电子形式获得训练数据集,其中,对于多个训练受试者中的每个相应的训练受试者,所述训练数据集包括:
a)相应的训练的多个游离片段中的每个相应的游离片段中的相应甲基化模式,其中所述每个相应的游离片段中的相应甲基化模式(i)通过对一个或多个核酸样本的甲基化测序来确定,所述一个或多个核酸样本包含从相应的训练受试者获得的相应生物样本中的所述相应片段,并且(ii)包含所述相应片段中的相应的多个CpG位点中每个CpG位点的甲基化状态,以及
b)所述相应的训练受试者的受试者癌症适应症,其中所述受试者癌症状况是第一癌症状况和第二癌症状况中的一种;
B)将每个多游离片段中的每个游离片段映射到多个仓中的一个仓,其中,所述多个仓中的每个相应的仓代表人类参照基因组的相应部分,从而获得多个游离片段的多个训练集,多个游离片段的每个训练集被映射到所述多个仓中的一个不同仓;
C)在将所述相应的游离片段的甲基化模式输入所述分类器时,将游离片段癌症状况分配给所述多个游离片段训练集中的每个游离片段训练集的每个相应的游离片段,作为分类器的输出的一函数,其中所述游离片段癌症状况是所述第一癌症状况和所述第二癌症状况中的一种;
D)对于所述多个仓中的每个相应的仓,确定(a)所述多个训练受试者中的相应训练受试者的所述受试者癌症状况和(b)映射到所述相应仓的所述相应游离片段训练集中的多个相应游离片段的所述游离片段癌症状况之间的关联I的相应度量;以及
E)识别用于估计受试者细胞来源分数的所述多个特征,作为所述多个仓的子集,其中所述多个仓的所述子集中的每个相应仓满足基于所述相应仓的关联的相应度量的选择标准。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括通过包括以下步骤的程序来估计测试受试者的细胞来源分数:
以电子形式获得测试的多个游离片段中每个相应的游离片段的相应甲基化模式,其中每个相应的游离片段的所述相应甲基化模式(i)通过一个或多个核酸样本的甲基化测序来确定,所述一个或多个核酸样本包含从所述测试受试者获得的生物样本中的所述相应片段,并且(ii)包含所述相应片段中的相应的多个CpG位点中的每个CpG位点的甲基化状态;
将所述测试的多个游离片段中的每个游离片段映射到所述多个仓中的一个仓,从而获得多个游离片段的多个测试集,多个游离片段的每个测试集被映射到所述多个仓中的一个不同仓;
在将所述相应的游离片段的甲基化模式输入所述分类器时,为所述多个游离片段的测试集中的每个游离片段的测试集中的每个相应的游离片段分配游离片段癌症状况,作为所述分类器的输出的一函数的所述函数;
计算来自所述测试受试者的游离片段的数量的第一集中趋势度量,所述游离片段在跨越所述多个仓的所述子集中的多个游离片段的每个测试集中被分配为所述第一癌症状况;
计算来自所述测试受试者的游离片段的数量的第二集中趋势度量,所述游离片段在跨越所述多个仓的所述子集的多个游离片段的每个测试集中;以及
使用所述第一集中趋势度量和所述第二集中趋势度量来估计所述测试受试者的细胞来源分数。
3.根据权利要求2所述的方法,其特征在于,所述第二癌症状况是不存在癌症,并且所述测试受试者的所述细胞来源分数分包括所述测试受试者的肿瘤分数。
4.根据权利要求1所述的方法,其特征在于,所述分类器具有以下形式:
Figure FDA0003755459730000021
其中,
Figure FDA0003755459730000022
是用于所述第一癌症状况的第一模型,
“片段”是所述相应游离片段的所述甲基化模式,
Figure FDA0003755459730000031
是用于所述第二癌症状况的第二模型,并且其中,
当R(片段)满足阈值时,所述相应游离片段的所述游离片段癌症状况被分配为所述第一癌状况。
5.根据权利要求4所述的方法,其特征在于,所述阈值介于1和10之间。
6.根据权利要求4所述的方法,其特征在于,所述阈值为1、2、3、4、5、6、7、8、9或10。
7.根据权利要求1所述的方法,其特征在于,所述关联I的度量按下式计算:
Figure FDA0003755459730000032
其中,
i和j是集{第一癌症状况,第二癌症状况}的独立索引,
xi是所述多个训练受试者中具有癌症状况i的训练受试者的数量,
yj是所述多个训练受试者中具有映射到所述相应仓的一个或多个游离片段的训练受试者的数量,所述一个或多个游离片段被分配为癌症状况j,
p(xi,yj)是
Figure FDA0003755459730000033
N(xi,yj)是所述多个训练受试者中具有所述癌症病状i的训练受试者的数量,并且所述训练受试者还具有映射到所述相应仓中的一个或多个游离片段,所述一个或多个游离片段被分配为所述癌症状况j,
NT是所述多个训练受试者中的训练受试者的数量,
p(xi)是xi/NT,以及
p(yj)是yj/NT
8.根据权利要求1中所述的方法,其特征在于,所述关联的度量是相关性、互信息度量或距离度量。
9.根据权利要求1所述的方法,其特征在于,所述关联的度量是皮尔逊相关系数。
10.根据权利要求1所述的方法,其特征在于,所述关联的度量是调整后的相关系数、加权相关系数、反射相关系数或缩放相关系数。
11.根据权利要求1至10中任一项所述的方法,其特征在于,所述多个仓由1000个仓至100,000个仓组成。
12.根据权利要求1至10中任一项所述的方法,其特征在于,所述多个仓由15,000个仓至80,000个仓组成。
13.根据权利要求1至12中任一项所述的方法,其特征在于,所述多个仓中的每个相应的仓平均具有10至1200个残基。
14.根据权利要求1至12中任一项所述的方法,其特征在于,所述多个仓中的每个相应的仓平均具有10至10000个残基。
15.根据权利要求2所述的方法,其特征在于,所述第一集中趋势度量是来自所述多个测试受试者的游离片段的数量的算术平均值、加权平均值、中间值、中铰链、三均值、缩尾均值、平均值或众数,来自所述多个测试受试者的游离片段在跨越所述多个仓的所述子集的每个游离片段测试集中被分配为所述第一癌症状况。
16.根据权利要求2所述的方法,其特征在于,所述第二集中趋势度量是游离片段的数量的算术平均值、加权平均值、中间值、中铰链、三均值、缩尾均值、平均值或众数,所述游离片段来自跨越所述多个仓的所述子集的每个游离片段的测试集中的所述多个测试受试者。
17.根据权利要求2所述的方法,其特征在于,所述估计所述细胞来源分数包括将所述第一集中趋势度量除以所述第二集中趋势度量。
18.根据权利要求1至17中任一项所述的方法,其特征在于,所述多个训练受试者由10个训练受试者至1000个训练受试者组成。
19.根据权利要求1至17中任一项所述的方法,其特征在于,所述选择标准指定选择具有前N个关联的度量之一的仓,其中N是50或更大的正整数。
20.根据权利要求19所述的方法,其特征在于,N介于500和5000之间。
21.根据权利要求19所述的方法,其特征在于,N介于800和1500之间。
22.根据权利要求1至21中任一项所述的方法,其特征在于,所述甲基化测序是双端测序。
23.根据权利要求1至21中任一项所述的方法,其特征在于,所述甲基化测序是单端测序。
24.根据权利要求1至23中任一项所述的方法,其特征在于,所述相应的训练的多个游离片段的平均长度小于500个核苷酸。
25.根据权利要求1至24中任一项所述的方法,其特征在于,所述第一癌症状况是癌症,所述第二癌症状况是不存在癌症。
26.根据权利要求1至24中任一项所述的方法,其特征在于,
所述第一癌症状况是以下中的一种:肾上腺癌、胆道癌、膀胱癌、骨/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头/颈癌、肝胆癌、肾癌、肝癌、肺癌、卵巢癌、胰腺癌、盆骨癌、胸膜癌、前列腺癌、肾肿瘤、皮肤癌、胃肿瘤、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤或白血病,
并且所述第二癌症状况是不存在癌症。
27.根据权利要求1至24中任一项所述的方法,其特征在于,
所述第一癌症状况是以下中的一种:肾上腺癌分期、胆道癌分期、膀胱癌分期、骨/骨髓癌分期、脑癌分期、乳腺癌分期、宫颈癌分期、结肠直肠癌分期、食道癌分期、胃癌分期、头/颈癌分期、肝胆癌分期、肾癌分期、肝癌分期、肺癌分期、卵巢癌分期、胰腺癌分期、盆骨癌分期、胸膜癌分期、前列腺癌分期、肾肿瘤分期、皮肤癌分期、胃肿瘤分期、睾丸癌分期、胸腺癌分期、甲状腺癌分期、子宫癌分期、淋巴瘤分期、黑色素瘤分期、多发性骨髓瘤分期或白血病分期,
并且所述第二种癌症状况是不存在癌症。
28.根据权利要求1所述的方法,其特征在于,所述甲基化测序是全基因组甲基化测序。
29.根据权利要求1所述的方法,其特征在于,所述甲基化测序是使用多个核酸探针的靶向测序,并且所述多个仓中的每个仓与所述多个核酸探针中的至少一个核酸探针相关联。
30.根据权利要求29所述的方法,其特征在于,所述多个核酸探针包括1000个或更多个核酸探针、2000个或更多个核酸探针、3000个或更多个核酸探针、5000个或更多个核酸探针、10,000个或更多个核酸探针,或1000个核酸至30,000个核酸探针。
31.根据权利要求1至30中任一项所述的方法,其特征在于,所述多个仓中的每个仓包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个CpG位点。
32.根据权利要求1至29中任一项所述的方法,其特征在于,所述多个仓中的每个仓包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个连续的CpG位点。
33.根据权利要求1至30中任一项所述的方法,其特征在于,所述多个仓中的每个仓由人类参照基因组中的2至100个连续的CpG位点组成。
34.根据权利要求1所述的方法,其特征在于,所述相应的生物样本是液体生物样本。
35.根据权利要求1所述的方法,其特征在于,所述相应的生物样本是血液样本。
36.根据权利要求1所述的方法,其特征在于,所述相应的生物样本包括所述训练受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液。
37.根据权利要求1所述的方法,其特征在于,所述相应的生物样本由所述训练受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液组成。
38.根据权利要求1至37中任一项所述的方法,其特征在于,所述相应片段中的所述相应多个CpG位点中的一个相应CpG位点的甲基化状态是:
当通过所述甲基化测序确定所述相应CpG位点被甲基化时,是甲基化的,
当通过所述甲基化测序确定所述相应CpG位点未被甲基化时,是未甲基化的,并且
当所述甲基化测序无法将所述相应CpG位点的所述甲基化状态称为甲基化或未甲基化时,标记为“其他”。
39.根据权利要求38所述的方法,其特征在于,所述甲基化测序检测所述相应片段中的一种或多种5-甲基胞嘧啶和/或5-羟甲基胞嘧啶。
40.根据权利要求38所述的方法,其特征在于,在所述相应片段的序列读数中,将一种或多种未甲基化的胞嘧啶或一种或多种甲基化的胞嘧啶转化为相应的一种或多种尿嘧啶。
41.根据权利要求40所述的方法,其特征在于,所述一种或多种尿嘧啶在所述甲基化测序期间被检测为一种或多种相应的胸腺嘧啶。
42.根据权利要求40所述的方法,其特征在于,所述一种或多种未甲基化的胞嘧啶或一种或多种甲基化的胞嘧啶的转化包括化学转化、酶转化或其组合。
43.根据权利要求4至42中任一项所述的方法,其特征在于,
所述第一模型是包含第一多子模型的第一混合模型。
所述第二模型是包含第二多子模型的第二混合模型,并且
所述第一和第二多子模型中的每个子模型代表相应生物样本中游离片段来源的独立的相应甲基化模型。
44.根据权利要求43所述的方法,其特征在于,每个独立的相应甲基化模型是二项式模型、β-二项式模型、独立位点模型或马尔可夫模型中的一种。
45.根据权利要求43所述的方法,其特征在于,
所述第一多子模型中的两个或更多个子模型是独立的站点模型,并且
所述第二多子模型中的两个或更多个子模型是独立的站点模型。
46.根据权利要求1至45中任一项所述的方法,其特征在于,所述方法还包括在所述映射B)之前,将一个或多个过滤条件应用于所述多个游离片段。
47.根据权利要求46所述的方法,其特征在于,
所述一个或多个过滤条件中的一个过滤条件是将p值阈值应用于所述多个游离片段中每个相应游离片段的所述相应甲基化模式,其中所述p值阈值表示在非癌症受试者群组中观察到甲基化模式的频率。
48.根据权利要求47所述的方法,其特征在于,所述p值阈值介于0.001和0.20之间。
49.根据权利要求47所述的方法,其特征在于,所述群组包括至少20个受试者,并且所述多个游离片段包括至少10,000个不同的相应甲基化模式。
50.根据权利要求47所述的方法,其特征在于,当所述多个游离片段中每个相应的游离片段的相应甲基化模式具有0.10或更小、0.05或更小、或0.01或更小的p值时,所述p值阈值满足来自所述受试者的甲基化模式。
51.根据权利要求46所述的方法,其特征在于,
所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段由从所述一个或多个核酸样本测量的相应的多个序列读数中的序列读数的阈值数表示,所述一个或多个核酸样本包含所述相应生物样本中的所述相应片段。
52.根据权利要求51所述的方法,其特征在于,所述阈值数是2、3、4、5、6、7、8、9、10或介于100和100之间的整数。
53.根据权利要求46所述的方法,其特征在于,
所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段由所述一个或多个核酸样本的游离核酸的阈值数表示,所述一个或多个核酸样本包含所述相应生物样本中的所述相应片段。
54.根据权利要求53所述的方法,其特征在于,所述阈值数是2、3、4、5、6、7、8、9、10或介于100和100之间的整数。
55.根据权利要求46所述的方法,其特征在于,
所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段具有CpG位点的阈值数。
56.根据权利要求55所述的方法,其特征在于,所述CpG位点的阈值数为至少1、2、3、4、5、6、7、8、9、10个CpG位点。
57.根据权利要求46所述的方法,其特征在于,
所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段的长度小于碱基对的阈值数。
58.根据权利要求57所述的方法,其特征在于,所述碱基对的阈值数的长度是一千个、两千个、三千个或四千个连续的碱基对。
59.根据权利要求2或3所述的方法,其特征在于,
重复所述获得、映射、分配、计算中心趋势的第一和第二集中趋势度量,并估计跨越一个时间段的多个时间点中的每个相应时间点上的所述测试受试者的所述细胞来源分数,从而在每个相应时间点获得所述测试受试者的多个细胞来源分数中的相应细胞来源分数;以及
使用所述多个细胞来源分数以第一细胞来源分数在所述时间段内增加或减少的形式,确定所述时间段内所述测试受试者的疾病状况的状态或进展。
60.根据权利要求59所述的方法,其特征在于,所述时间段是几个月的时间,所述多个时间点中的每个时间点是几个月的时间中的不同时间点。
61.根据权利要求60所述的方法,其特征在于,所述几个月的时间少于4个月。
62.根据权利要求59所述的方法,其特征在于,所述时间段是几年的时间,所述多个时间点中的每个时间点是几年的时间中的不同时间点。
63.根据权利要求62所述的方法,其特征在于,所述几年的时间是2至10年。
64.根据权利要求59所述的方法,其特征在于,所述时间段是几小时的时间,所述多个时间点中的每个时间点是几小时的时间中的不同时间点。
65.根据权利要求64所述的方法,其特征在于,所述几小时的时间为1至6小时。
66.根据权利要求59至65中任一项所述的方法,其特征在于,所述方法还包括,当观察到所述受试者的所述第一细胞来源分数在所述时间段内发生阈值量的变化时,改变所述测试受试者的诊断。
67.根据权利要求59至65中任一项所述的方法,其特征在于,所述方法还包括,当观察到所述受试者的所述第一细胞来源分数在所述时间段内发生阈值量的变化时,改变所述测试受试者的预后。
68.根据权利要求59至65中任一项所述的方法,其特征在于,所述方法还包括,当观察到所述受试者的所述第一细胞来源分数在所述时间段内发生阈值量的变化时,改变所述测试受试者的治疗。
69.根据权利要求66至68中任一项所述的方法,其特征在于,所述阈值大于10%、大于20%、大于30%、大于40%、大于50%、大于两倍、大于三倍或大于五倍。
70.根据权利要求59至69中任一项所述的方法,其特征在于,所述测试受试者的所述肿瘤分数介于0.003和1.0之间。
71.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:
至少部分地基于所述测试受试者的细胞来源分数的值,对所述测试受试者施用治疗方案。
72.根据权利要求71所述的方法,其特征在于,所述治疗方案包括向所述测试受试者施用癌症药剂。
73.根据权利要求72所述的方法,其特征在于,所述癌症药剂是激素、免疫疗法、放射照相术或癌症药物。
74.根据权利要求72所述的方法,其特征在于,所述癌症药剂是来那度胺、帕博利珠单抗、曲妥珠单抗、贝伐珠单抗、利妥昔单抗、伊布替尼、人乳头瘤病毒四价疫苗6、11、16和18型、帕妥珠单抗、培美曲塞、尼罗替尼、尼洛替尼、地诺单抗、醋酸阿比特龙、艾曲波帕、伊马替尼、依维莫司、帕博西尼、厄洛替尼、硼替佐米、硼替佐米或其通用等同物。
75.根据权利要求2或3所述的方法,其特征在于,已经用癌症药剂对测试受试者进行了治疗,所述方法还包括:
使用所述测试受试者的所述细胞来源分数来估计所述受试者对所述癌症药剂的响应。
76.根据权利要求75所述的方法,其特征在于,所述癌症药剂是激素、免疫疗法、放射照相术或癌症药物。
77.根据权利要求75所述的方法,其特征在于,所述癌症药剂是来那度胺、帕博利珠单抗、曲妥珠单抗、贝伐珠单抗、利妥昔单抗、伊布替尼、人乳头瘤病毒四价疫苗6、11、16和18型、帕妥珠单抗、培美曲塞、尼罗替尼、尼洛替尼、地诺单抗、醋酸阿比特龙、艾曲波帕、伊马替尼、依维莫司、帕博西尼、厄洛替尼、硼替佐米、硼替佐米或其通用等同物。
78.根据权利要求2或3所述的方法,其特征在于,已经用癌症药剂对测试受试者进行了治疗,所述方法还包括:
使用所述测试受试者的所述细胞来源分数来确定是强化还是中止所述测试受试者中的所述癌症药剂。
79.根据权利要求2或3所述的方法,其特征在于,所述测试受试者已经经受了外科手术以治疗所述癌症,所述方法还包括:
使用所述测试受试者的所述细胞来源分数,以估计所述测试受试者响应于所述外科手术的状况。
80.根据权利要求1至79中任一项所述的方法,其特征在于,所述多个仓中的一个仓对应于如下一个或多个文献中列出的基因组区域:公开号为WO2019/195268A2的国际申请的表1-24,公开号为WO2020/154682A2的国际申请的列表1-16,和/或公开号为WO2020/069350A1的国际申请的列表1-8。
81.根据权利要求1至80中任一项所述的方法,其特征在于,所述多个仓中的一个仓映射到如下一个或多个文献中列出的基因组区域的至少30%:公开号为WO2019/195268A2的国际申请的表1-24,公开号为WO2020/154682A2的国际申请的列表1-16,和/或公开号为WO2020/069350A1的国际申请的列表1-8。
82.根据权利要求1至81中任一项所述的方法,其特征在于,所述多个仓中的一个仓映射到如下一个或多个文献中列出的基因组区域的至少50%至95%:公开号为WO2019/195268A2的国际申请的表1-24,公开号为WO2020/154682A2的国际申请的列表1-16,和/或公开号为WO2020/069350A1的国际申请的列表1-8。
83.根据权利要求1至82中任一项所述的方法,其特征在于,所述多个仓中的一个仓映射到如下一个或多个文献中的1至10个独特的相应基因组区域:公开号为WO2019/195268A2的国际申请的表1-24,公开号为WO2020/154682A2的国际申请的列表1-16,和/或公开号为WO2020/069350A1的国际申请的列表1-8。
84.根据权利要求1至83中任一项所述的方法,其特征在于,所述多个仓中的每个仓映射到如下一个或多个文献中的单个独特的相应基因组区域:公开号为WO2019/195268A2的国际申请的表1-24,公开号为WO2020/154682A2的国际申请的列表1-16,和/或公开号为WO2020/069350A1的国际申请的列表1-8。
85.根据权利要求1至84中任一项所述的方法,其特征在于,对于所述多个训练受试者中的相应的训练受试者,所述训练的多个游离片段包括至少100,000个游离片段。
86.根据权利要求1至84中任一项所述的方法,其特征在于,对于所述多个训练受试者中的每个相应的训练受试者,所述训练的多个游离片段包括至少100,000个游离片段。
87.根据权利要求1至84中任一项所述的方法,其特征在于,对于所述多个训练受试者中的相应的训练受试者,所述训练的多个游离片段包括至少100万个游离片段。
88.根据权利要求1至87中任一项所述的方法,其特征在于,所述多个仓中的每个仓由少于100个核酸残基、少于500个核酸残基、少于1000个核酸残基、少于2500个核酸残基、少于5000个核酸残基、少于10,000个核酸残基、少于25,000个核酸残基、少于50,000个核酸残基、少于100,000个核酸残基组成,少于250,000个核酸残基,或少于500,000个核酸残基组成。
89.一种识别用于估计受试者细胞来源分数的多个特征的计算机系统,所述计算机系统包括:
一个或多个处理器;以及
存储器,所述存储器存储由所述一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于以下操作的指令:
A)以电子形式获得训练数据集,其中,对于多个训练受试者中的每个相应的训练受试者,所述训练数据集包括:
a)相应的训练的多个游离片段中的每个相应的游离片段的相应甲基化模式,其中所述每个相应的游离片段中的相应甲基化模式(i)通过对一个或多个核酸样本的甲基化测序来确定,所述一个或多个核酸样本包含从相应的训练受试者获得的相应生物样本中的所述相应片段,并且(ii)包含所述相应片段中的相应的多个CpG位点中每个CpG位点的甲基化状态,以及
b)所述相应的训练受试者的受试者癌症适应症,其中所述受试者癌症状况是第一癌症状况和第二癌症状况中的一种;
B)将每个多游离片段中的每个游离片段映射到多个仓中的一个仓,其中,所述多个仓中的每个相应的仓代表人类参照基因组的相应部分,从而获得多个游离片段的多个训练集,多个游离片段的每个训练集被映射到所述多个仓中的一个不同仓;
C)在将所述相应的游离片段的甲基化模式输入所述分类器时,将游离片段癌症状况分配给所述多个游离片段训练集中的每个游离片段训练集中的每个相应的游离片段,作为分类器的一输出的一函数,其中所述游离片段癌症状况是所述第一癌症状况和所述第二癌症状况中的一种;
D)对于所述多个仓中的每个相应的仓,确定(a)所述多个训练受试者中的相应训练受试者的所述受试者癌症状况和(b)映射到所述相应仓的所述相应游离片段训练集中的多个相应游离片段的所述游离片段癌症状况之间的关联I的相应度量;以及
E)识别用于估计受试者细胞来源分数的所述多个特征,作为所述多个仓的子集,其中所述多个仓的所述子集中的每个相应仓满足基于所述相应仓的关联的相应度量的选择标准。
90.一种非暂时性计算机可读存储介质,其上存储有程序代码指令,当由处理器执行时,使所述处理器执行识别用于估计受试者细胞来源分数的多个特征的方法,所述方法包括:
A)以电子形式获得训练数据集,其中,对于多个训练受试者中的每个相应的训练受试者,所述训练数据集包括:
a)相应的训练的多个游离片段中的每个相应的游离片段的相应甲基化模式,其中所述每个相应的游离片段中的相应甲基化模式(i)通过对一个或多个核酸样本的甲基化测序来确定,所述一个或多个核酸样本包含从相应的训练受试者获得的相应生物样本中的所述相应片段,并且(ii)包含所述相应片段中的相应的多个CpG位点中每个CpG位点的甲基化状态,以及
b)所述相应的训练受试者的受试者癌症适应症,其中所述受试者癌症状况是第一癌症状况和第二癌症状况中的一种;
B)将每个多游离片段中的每个游离片段映射到多个仓中的一个仓,其中,所述多个仓中的每个相应的仓代表人类参照基因组的相应部分,从而获得多个游离片段的多个训练集,多个游离片段的每个训练集被映射到所述多个仓中的一个不同仓;
C)在将所述相应的游离片段的甲基化模式输入所述分类器时,将游离片段癌症状况分配给所述多个游离片段训练集中的每个游离片段训练集中的每个相应的游离片段,作为分类器的输出的函数,其中所述游离片段癌症状况是所述第一癌症状况和所述第二癌症状况中的一种;
D)对于所述多个仓中的每个相应的仓,确定(a)所述多个训练受试者中的相应训练受试者的所述受试者癌症状况和(b)映射到所述相应仓的所述相应游离片段训练集中的多个相应游离片段的所述游离片段癌症状况之间的关联I的相应度量;以及
E)识别用于估计受试者细胞来源分数的所述多个特征,作为所述多个仓的子集,其中所述多个仓的所述子集中的每个相应仓满足基于所述相应仓的关联的相应度量的选择标准。
91.一种估计受试者的细胞来源分数的方法,其特征在于,所述方法包括:
在具有一个或多个处理器和存储由所述一个或多个处理器执行的一个或多个程序的存储器的计算机系统中:
以电子形式获得多个游离片段中每个相应的游离片段的相应甲基化模式,其中每个相应的游离片段的所述相应甲基化模式(i)通过一个或多个核酸样本的甲基化测序来确定,所述一个或多个核酸样本包含从所述受试者获得的生物样本中的所述相应片段,并且(ii)包括所述相应片段中的相应的多个CpG位点中的每个CpG位点的甲基化状态;
将所述多个游离片段中的每个游离片段映射到多个仓中的一个仓,从而获得多个游离片段的多个集,多个游离片段的每个集被映射到所述多个仓中的一个不同仓;
在将所述相应游离段的甲基化模式输入所述分类器时,将游离片段癌症状况分配给所述多个游离片段的集的每个游离片段的集中的每个相应的游离片段,作为所述分类器的输出的一函数,其中所述游离片段癌症状况是所述第一癌症状况和所述第二癌症状况中的一种;
计算来自所述测试受试者的游离片段的数量的第一集中趋势度量,所述游离片段在跨越所述多个仓的多个游离片段的每个集中被分配为所述第一癌症状况;
计算来自所述测试受试者的游离片段的数量的第二集中趋势度量,所述游离片段在跨越所述多个仓的多个游离片段的每个集中;以及
使用所述第一集中趋势度量和所述第二集中趋势度量来估计所述受试者的细胞来源分数。
92.根据权利要求91所述的方法,其特征在于,所述多个仓由1000个仓至100,000个仓组成。
93.根据权利要求91所述的方法,其特征在于,所述多个仓由15,000个仓至80,000个仓组成。
94.根据权利要求91至93中任一项所述的方法,其特征在于,所述多个仓中的每个相应的仓平均具有10至1200个残基。
95.根据权利要求91至93中任一项所述的方法,其特征在于,所述多个仓中的每个相应的仓平均具有10至10000个残基。
96.根据权利要求91至95中任一项所述的方法,其特征在于,所述第一集中趋势度量是来自所述受试者的游离片段的数量的算术平均值、加权平均值、中间值、中铰链、三均值、缩尾均值、平均值或众数,来自所述受试者的游离片段在跨越所述多个仓的每个游离片段集中被分配为所述第一癌症状况。
97.根据权利要求91至95中任一项所述的方法,其特征在于,所述第二集中趋势度量是游离片段的数量的算术平均值、加权平均值、中间值、中铰链、三均值、缩尾均值、平均值或众数,所述游离片段来自跨越所述多个仓的多个游离片段的每个集中的所述受试者。
98.根据权利要求91至97中任一项所述的方法,其特征在于,所述估计所述细胞来源分数包括将所述第一集中趋势度量除以所述第二集中趋势度量。
99.根据权利要求91至98中任一项所述的方法,其特征在于,所述甲基化测序是双端测序。
100.根据权利要求91至98中任一项所述的方法,其特征在于,所述甲基化测序是单端测序。
101.根据权利要求91至100中任一项所述的方法,其特征在于,所述多个游离片段中的每个游离片段的平均长度小于500个核苷酸。
102.根据权利要求91至101中任一项所述的方法,其特征在于,所述第一癌症状况是癌症,所述第二癌症状况是不存在癌症。
103.根据权利要求91至102中任一项所述的方法,其特征在于,
所述第一癌症状况是以下中的一种:肾上腺癌、胆道癌、膀胱癌、骨/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头/颈癌、肝胆癌、肾癌、肝癌、肺癌、卵巢癌、胰腺癌、盆骨癌、胸膜癌、前列腺癌、肾肿瘤、皮肤癌、胃肿瘤、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤或白血病,
并且所述第二癌症状况是不存在癌症。
104.根据权利要求91至102中任一项所述的方法,其特征在于,
所述第一癌症状况是以下中的一种:肾上腺癌分期、胆道癌分期、膀胱癌分期、骨/骨髓癌分期、脑癌分期、乳腺癌分期、宫颈癌分期、结肠直肠癌分期、食道癌分期、胃癌分期、头/颈癌分期、肝胆癌分期、肾癌分期、肝癌分期、肺癌分期、卵巢癌分期、胰腺癌分期、盆骨癌分期、胸膜癌分期、前列腺癌分期、肾肿瘤分期、皮肤癌分期、胃肿瘤分期、睾丸癌分期、胸腺癌分期、甲状腺癌分期、子宫癌分期、淋巴瘤分期、黑色素瘤分期、多发性骨髓瘤分期或白血病分期,
并且所述第二种癌症状况是不存在癌症。
105.根据权利要求91所述的方法,其特征在于,所述甲基化测序是全基因组甲基化测序。
106.根据权利要求91所述的方法,其特征在于,所述甲基化测序是使用多个核酸探针的靶向测序,并且所述多个仓中的每个相应的仓与所述多个核酸探针中的至少一个相应的核酸探针相关联。
107.根据权利要求106所述的方法,其特征在于,所述多个核酸探针包括1000个或更多个核酸探针、2000个或更多个核酸探针、3000个或更多个核酸探针、5000个或更多个核酸探针、10,000个或更多个核酸探针,或1000个核酸至30,000个核酸探针。
108.根据权利要求91至107中任一项所述的方法,其特征在于,所述多个仓中的每个仓包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个CpG位点。
109.根据权利要求91至107中任一项所述的方法,其特征在于,所述多个仓中的每个仓包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个连续的CpG位点。
110.根据权利要求91至107中任一项所述的方法,其特征在于,所述多个仓中的每个仓由人类参照基因组中的2至100个连续的CpG位点组成。
111.根据权利要求91至110中任一项所述的方法,其特征在于,所述生物样本是液体生物样本。
112.根据权利要求91至111中任一项所述的方法,其特征在于,所述生物样本是血液样本。
113.根据权利要求91至111中任一项所述的方法,其特征在于,所述生物样本包括所述受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液。
114.根据权利要求91至111中任一项所述的方法,其特征在于,所述生物样本由所述受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液组成。
115.根据权利要求91至114中任一项所述的方法,其特征在于,所述相应片段中的所述相应多个CpG位点中的一个相应CpG位点的甲基化状态是:
当通过所述甲基化测序确定所述相应CpG位点被甲基化时,是甲基化的,
当通过所述甲基化测序确定所述相应CpG位点未被甲基化时,是未甲基化的,并且
当所述甲基化测序无法将所述相应CpG位点的所述甲基化状态称为甲基化或未甲基化时,标记为“其他”。
116.根据权利要求91至115中任一项所述的方法,其特征在于,所述甲基化测序检测所述相应片段中的一种或多种5-甲基胞嘧啶和/或5-羟甲基胞嘧啶。
117.根据权利要求91至116中任一项所述的方法,其特征在于,在所述相应片段的序列读数中,将一种或多种未甲基化的胞嘧啶或一种或多种甲基化的胞嘧啶转化为相应的一种或多种尿嘧啶。
118.根据权利要求117所述的方法,其特征在于,所述一种或多种尿嘧啶在所述甲基化测序期间被检测为一种或多种相应的胸腺嘧啶。
119.根据权利要求117所述的方法,其特征在于,所述一种或多种未甲基化的胞嘧啶或一种或多种甲基化的胞嘧啶的转化包括化学转化、酶转化或其组合。
120.根据权利要求91至119中任一项所述的方法,其特征在于,
用于分配游离片段状况的分类器包括用于第一癌症状况的第一模型和用于第二癌症状况的第二模型,其中:
所述第一模型是包含第一多子模型的第一混合模型,
所述第二模型是包含第二多子模型的第二混合模型,并且
所述第一和第二多子模型中的每个子模型代表相应生物样本中游离片段来源的独立的相应甲基化模型。
121.根据权利要求120所述的方法,其特征在于,每个独立的相应甲基化模型是二项式模型、β-二项式模型、独立位点模型或马尔可夫模型中的一种。
122.根据权利要求120所述的方法,其特征在于,
所述第一多子模型中的两个或更多个子模型是独立的站点模型,并且
所述第二多子模型中的两个或更多个子模型是独立的站点模型。
123.根据权利要求91至122中任一项所述的方法,其特征在于,所述方法还包括在所述映射B)之前,将一个或多个过滤条件应用于所述多个游离片段。
124.根据权利要求123所述的方法,其特征在于,
所述一个或多个过滤条件中的一个过滤条件是将p值阈值应用于所述多个游离片段中每个相应游离片段的所述相应甲基化模式,其中所述p值阈值表示在非癌症受试者群组中观察到甲基化模式的频率。
125.根据权利要求124所述的方法,其特征在于,所述p值阈值介于0.001和0.20之间。
126.根据权利要求124所述的方法,其特征在于,所述群组包括至少20个受试者,并且所述多个游离片段包括至少10,000个不同的相应甲基化模式。
127.根据权利要求124所述的方法,其特征在于,当所述多个游离片段中每个相应的游离片段的相应甲基化模式具有0.10或更小、0.05或更小、或0.01或更小的p值时,所述p值阈值满足来自所述受试者的甲基化模式。
128.根据权利要求123所述的方法,其特征在于,
所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段由从所述一个或多个核酸样本测量的相应的多个序列读数中的序列读数的阈值数量表示,所述一个或多个核酸样本包含所述相应生物样本中的所述相应片段。
129.根据权利要求128所述的方法,其特征在于,所述阈值数是2、3、4、5、6、7、8、9、10或介于100和100之间的整数。
130.根据权利要求123所述的方法,其特征在于,
所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段由所述一个或多个核酸样本的游离核酸的阈值数表示,所述一个或多个核酸样本包含所述相应生物样本中的所述相应片段。
131.根据权利要求130所述的方法,其特征在于,所述阈值数是2、3、4、5、6、7、8、9、10或介于100和100之间的整数。
132.根据权利要求123所述的方法,其特征在于,
所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段具有CpG位点的阈值数。
133.根据权利要求132所述的方法,其特征在于,所述CpG位点的阈值数为至少1、2、3、4、5、6、7、8、9、10个CpG位点。
134.根据权利要求123所述的方法,其特征在于,
所述一个或多个过滤条件中的一个过滤条件是应用这样的要求,即所述多个游离片段中的每个相应的游离片段的长度小于碱基对的阈值数。
135.根据权利要求135所述的方法,其特征在于,所述碱基对的阈值数的长度是一千个、两千个、三千个或四千个连续的碱基对。
136.根据权利要求91至135中任一项所述的方法,其特征在于,所述方法还包括:
至少部分地基于所述测试受试者的细胞来源分数的值,对所述测试受试者施用治疗方案。
137.根据权利要求136所述的方法,其特征在于,所述治疗方案包括向所述测试受试者施用癌症药剂。
138.根据权利要求137所述的方法,其特征在于,所述癌症药剂是激素、免疫疗法、放射照相术或癌症药物。
139.根据权利要求137所述的方法,其特征在于,所述癌症药剂是来那度胺、帕博利珠单抗、曲妥珠单抗、贝伐珠单抗、利妥昔单抗、伊布替尼、人乳头瘤病毒四价疫苗6、11、16和18型、帕妥珠单抗、培美曲塞、尼罗替尼、尼洛替尼、地诺单抗、醋酸阿比特龙、艾曲波帕、伊马替尼、依维莫司、帕博西尼、厄洛替尼、硼替佐米、硼替佐米或其通用等同物。
140.根据权利要求91至135中任一项所述的方法,其特征在于,已经用癌症药剂对受试者进行了治疗,所述方法还包括:
使用所述受试者的所述细胞来源分数来估计所述受试者对所述癌症药剂的响应。
141.根据权利要求140所述的方法,其特征在于,所述癌症药剂是激素、免疫疗法、放射照相术或癌症药物。
142.根据权利要求140所述的方法,其特征在于,所述癌症药剂是来那度胺、帕博利珠单抗、曲妥珠单抗、贝伐珠单抗、利妥昔单抗、伊布替尼、人乳头瘤病毒四价疫苗6、11、16和18型、帕妥珠单抗、培美曲塞、尼罗替尼、尼洛替尼、地诺单抗、醋酸阿比特龙、艾曲波帕、伊马替尼、依维莫司、帕博西尼、厄洛替尼、硼替佐米、硼替佐米或其通用等同物。
143.根据权利要求91至135中任一项所述的方法,其特征在于,已经用癌症药剂对受试者进行了治疗,所述方法还包括:
使用所述受试者的所述细胞来源分数来确定是强化还是中止所述测试受试者中的所述癌症药剂。
144.根据权利要求91至135中任一项所述的方法,其特征在于,所述受试者已经经受了外科手术以治疗所述癌症,所述方法还包括:
使用所述受试者的所述细胞来源分数,以估计所述受试者响应于所述外科手术的状况。
145.根据权利要求91至144中任一项所述的方法,其特征在于,
重复所述获得、映射、分配、计算中心趋势的第一和第二集中趋势度量,并估计跨越一个时间段的多个时间点中的每个相应时间点上的所述受试者的所述细胞来源分数,从而在每个相应时间点获得所述受试者的多个细胞来源分数中的相应细胞来源分数;以及
使用所述多个细胞来源分数以第一细胞来源分数在所述时间段内增加或减少的形式,确定所述时间段内所述受试者的疾病状况的状态或进展。
146.根据权利要求45所述的方法,其特征在于,所述时间段是几个月的时间,所述多个时间点中的每个时间点是几个月的时间中的不同时间点。
147.根据权利要求146所述的方法,其特征在于,所述几个月的时间少于4个月。
148.根据权利要求145所述的方法,其特征在于,所述时间段是几年的时间,所述多个时间点中的每个时间点是几年的时间中的不同时间点。
149.根据权利要求148所述的方法,其特征在于,所述几年的时间是2至10年。
150.根据权利要求145所述的方法,其特征在于,所述时间段是几小时的时间,所述多个时间点中的每个时间点是几小时的时间中的不同时间点。
151.根据权利要求150所述的方法,其特征在于,所述几小时的时间为1至6小时。
152.根据权利要求145所述的方法,其特征在于,所述方法还包括,当观察到所述受试者的所述第一细胞来源分数在所述时间段内发生阈值量的变化时,改变所述受试者的诊断。
153.根据权利要求145所述的方法,其特征在于,所述方法还包括,当观察到所述受试者的所述第一细胞来源分数在所述时间段内发生阈值量的变化时,改变所述受试者的预后。
154.根据权利要求145所述的方法,其特征在于,所述方法还包括,当观察到所述受试者的所述第一细胞来源分数在所述时间段内发生阈值量的变化时,改变所述受试者的治疗。
155.根据权利要求152、153或154所述的方法,其特征在于,所述阈值大于10%、大于20%、大于30%、大于40%、大于50%、大于两倍、大于三倍或大于五倍。
156.根据权利要求1至155中任一项所述的方法,其特征在于,所述细胞来源分数是肿瘤分数。
157.根据权利要求156所述的方法,其特征在于,所述肿瘤分数介于0.003和1.0之间。
158.根据权利要求91至157中任一项所述的方法,其特征在于,所述多个仓中的一个仓对应于如下一个或多个文献中列出的基因组区域:公开号为WO2019/195268A2的国际申请的表1-24,公开号为WO2020/154682A2的国际申请的列表1-16,和/或公开号为WO2020/069350A1的国际申请的列表1-8。
159.根据权利要求91至158中任一项所述的方法,其特征在于,所述多个仓中的一个仓映射到如下一个或多个文献中列出的基因组区域的至少30%:公开号为WO2019/195268A2的国际申请的表1-24,公开号为WO2020/154682A2的国际申请的列表1-16,和/或公开号为WO2020/069350A1的国际申请的列表1-8。
160.根据权利要求91至159中任一项所述的方法,其特征在于,所述多个仓中的一个仓映射到如下一个或多个文献中列出的基因组区域的至少50%至95%:公开号为WO2019/195268A2的国际申请的表1-24,公开号为WO2020/154682A2的国际申请的列表1-16,和/或公开号为WO2020/069350A1的国际申请的列表1-8。
161.根据权利要求91至160中任一项所述的方法,其特征在于,所述多个仓中的一个仓映射到如下一个或多个文献中的1至10个独特的相应基因组区域:公开号为WO2019/195268A2的国际申请的表1-24,公开号为WO2020/154682A2的国际申请的列表1-16,和/或公开号为WO2020/069350A1的国际申请的列表1-8。
162.根据权利要求91至161中任一项所述的方法,其特征在于,所述多个仓中的每个仓映射到如下一个或多个文献中的单个独特的相应基因组区域:公开号为WO2019/195268A2的国际申请的表1-24,公开号为WO2020/154682A2的国际申请的列表1-16,和/或公开号为WO2020/069350A1的国际申请的列表1-8。
163.根据权利要求91至162中任一项所述的方法,其特征在于,对于所述受试者,所述多个游离片段包括至少100,000个游离片段。
164.根据权利要求91至162中任一项所述的方法,其特征在于,对于所述受试者,所述多个游离片段包括至少500,000个游离片段。
165.根据权利要求91至162中任一项所述的方法,其特征在于,对于所述受试者,所述多个游离片段包括至少100万个游离片段。
166.根据权利要求91至165中任一项所述的方法,其特征在于,所述多个仓中的每个仓由少于100个核酸残基、少于500个核酸残基、少于1000个核酸残基、少于2500个核酸残基、少于5000个核酸残基、少于10,000个核酸残基、少于25,000个核酸残基、少于50,000个核酸残基、少于100,000个核酸残基组成,少于250,000个核酸残基,或少于500,000个核酸残基组成。
167.一种用于估计受试者细胞来源分数的计算机系统,其特征在于,所述计算机系统包括:
一个或多个处理器;以及
存储器,所述存储器存储由所述一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于以下操作的指令:
以电子形式获得多个游离片段中每个相应的游离片段的相应甲基化模式,其中每个相应的游离片段的所述相应甲基化模式(i)通过一个或多个核酸样本的甲基化测序来确定,所述一个或多个核酸样本包含从所述受试者获得的生物样本中的所述相应片段,并且(ii)包括所述相应片段中的相应的多个CpG位点中的每个CpG位点的甲基化状态;
将所述多个游离片段中的每个游离片段映射到多个仓中的一个仓,从而获得多个游离片段的多个集,多个游离片段的每个集被映射到所述多个仓中的一个不同仓;
在将所述相应游离段的甲基化模式输入所述分类器时,将游离片段癌症状况分配给所述多个游离片段的集的每个游离片段的集中的每个相应的游离片段,作为一分类器的输出的一函数,其中所述受试者癌症状况是所述第一癌症状况和所述第二癌症状况中的一种;
计算来自所述测试受试者的游离片段的数量的第一集中趋势度量,所述游离片段在跨越所述多个仓的多个游离片段的每个集中被分配为所述第一癌症状况;
计算来自所述测试受试者的游离片段的数量的第二集中趋势度量,所述游离片段在跨越所述多个仓的多个游离片段的每个集中;以及
使用所述第一集中趋势度量和所述第二集中趋势度量来估计所述受试者的细胞来源分数。
168.一种非暂时性计算机可读存储介质,其上存储有程序代码指令,当由处理器执行时,使所述处理器执行用于估计受试者细胞来源分数的方法,所述方法包括:
以电子形式获得多个游离片段中每个相应的游离片段的相应甲基化模式,其中每个相应的游离片段的所述相应甲基化模式(i)通过一个或多个核酸样本的甲基化测序来确定,所述一个或多个核酸样本包含从所述受试者获得的生物样本中的所述相应片段,并且(ii)包括所述相应片段中的相应的多个CpG位点中的每个CpG位点的甲基化状态;
将所述多个游离片段中的每个游离片段映射到多个仓中的一个仓,从而获得多个游离片段的多个集,多个游离片段的每个集被映射到所述多个仓中的一个不同仓;
在将所述相应游离段的甲基化模式输入所述分类器时,将游离片段癌症状况分配给所述多个游离片段的集的每个游离片段的集中的每个相应的游离片段,作为一分类器的输出的一函数,其中所述受试者癌症状况是所述第一癌症状况和所述第二癌症状况中的一种;
计算来自所述测试受试者的游离片段的数量的第一集中趋势度量,所述游离片段在跨越所述多个仓的多个游离片段的每个集中被分配为所述第一癌症状况;
计算来自所述测试受试者的游离片段的数量的第二集中趋势度量,所述游离片段在跨越所述多个仓的多个游离片段的每个集中;以及
使用所述第一集中趋势度量和所述第二集中趋势度量来估计所述受试者的细胞来源分数。
CN202080093998.8A 2019-12-18 2020-12-18 使用甲基化信息估计细胞来源分数的系统和方法 Pending CN115210814A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962950071P 2019-12-18 2019-12-18
US62/950,071 2019-12-18
PCT/US2020/066217 WO2021127565A1 (en) 2019-12-18 2020-12-18 Systems and methods for estimating cell source fractions using methylation information

Publications (1)

Publication Number Publication Date
CN115210814A true CN115210814A (zh) 2022-10-18

Family

ID=74187386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080093998.8A Pending CN115210814A (zh) 2019-12-18 2020-12-18 使用甲基化信息估计细胞来源分数的系统和方法

Country Status (7)

Country Link
US (1) US20210295948A1 (zh)
EP (1) EP4078594A1 (zh)
JP (1) JP2023507549A (zh)
CN (1) CN115210814A (zh)
AU (1) AU2020408215A1 (zh)
CA (1) CA3159651A1 (zh)
WO (1) WO2021127565A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023172860A1 (en) * 2022-03-07 2023-09-14 Cedars-Sinai Medical Center Method for detecting cancer and tumor invasiveness using dna palindromes as a biomarker

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3889272A1 (en) * 2014-07-18 2021-10-06 The Chinese University of Hong Kong Methylation pattern analysis of tissues in dna mixture
US11499196B2 (en) * 2016-06-07 2022-11-15 The Regents Of The University Of California Cell-free DNA methylation patterns for disease and condition analysis
WO2019061514A1 (zh) 2017-09-30 2019-04-04 深圳大学 安全的无线通信物理层斜率认证方法和装置
CN112005306A (zh) 2018-03-13 2020-11-27 格里尔公司 选择、管理和分析高维数据的方法和系统
CA3094717A1 (en) 2018-04-02 2019-10-10 Grail, Inc. Methylation markers and targeted methylation probe panels
EP3856903A4 (en) 2018-09-27 2022-07-27 Grail, LLC METHYLATION MARKER AND TARGETED METHYLATION PROBE PANEL
LT3914736T (lt) 2019-01-25 2024-06-10 Grail, Llc Vėžio, vėžinio audinio kilmės ir (arba) vėžinių ląstelių tipo aptikimas

Also Published As

Publication number Publication date
CA3159651A1 (en) 2021-06-24
AU2020408215A1 (en) 2022-06-09
US20210295948A1 (en) 2021-09-23
WO2021127565A1 (en) 2021-06-24
JP2023507549A (ja) 2023-02-24
EP4078594A1 (en) 2022-10-26

Similar Documents

Publication Publication Date Title
TWI740817B (zh) 偵測突變以用於癌症篩選及胎兒分析
US20210065842A1 (en) Systems and methods for determining tumor fraction
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
US20200385813A1 (en) Systems and methods for estimating cell source fractions using methylation information
TW201403066A (zh) 癌症檢測之血漿dna突變分析
US11869661B2 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
US20200340064A1 (en) Systems and methods for tumor fraction estimation from small variants
US20210358626A1 (en) Systems and methods for cancer condition determination using autoencoders
US20210238668A1 (en) Biterminal dna fragment types in cell-free samples and uses thereof
US20210285042A1 (en) Systems and methods for calling variants using methylation sequencing data
EP4035161A1 (en) Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data
JP2023514851A (ja) 癌の病態を判別または示すメチル化パターンの同定
IL300487A (en) Sample validation for cancer classification
CN116157538A (zh) 游离核酸的核酸酶相关末端特征分析
CN115210814A (zh) 使用甲基化信息估计细胞来源分数的系统和方法
JPWO2021127565A5 (zh)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination