甲基化标记和标靶甲基化探针板
相关申请的交叉引用
本申请要求2018年4月2日提交的美国临时专利申请案第62/651,643号及2018年9月28日提交的美国临时专利申请案第62/738,271号的权益,在此通过引用将其全部内容合并于本文。
背景技术
脱氧核糖核酸(DNA)甲基化在调节基因表达中起重要作用。异常的DNA甲基化与许多疾病过程有关,包含癌症。使用甲基化测序(例如,全基因组亚硫酸氢盐测序(WGBS))的DNA甲基化分析越来越被认为是用于检测、诊断和/或监测癌症的有价值的诊断工具。例如,不同的甲基化区域的特定模式可用作各种疾病的分子标记。
然而,WGBS不是理想地适合于产品化验。原因是绝大多数的基因组在癌症中没有差异甲基化,或局部CpG密度太低而无法提供可靠的信号。仅百分之几的基因组可能对分类有用。
此外,在识别各种疾病中的多个差异甲基化区域方面存在各种挑战。首先,确定一疾病群组中的差异甲基化区域,只有与一群组的多个对照组对象比较才有分量,因此,如果对照组的人数较少,则所述确定将对较小对照组失去信心。另外,在一群组的多个对照组对象中,甲基化状态可以变化,这在当确定一疾病组中所述多个区域是否存在差异甲基化时很难解释。另一方面,在一CpG位点的胞嘧啶甲基化与在一随后的CpG位点的甲基化强烈相关。概括这种依赖性本身就是一个挑战。
因此,还没有能够通过检测多个差异甲基化区域来准确诊断疾病的经济有效的方法。
发明内容
在多个对象中及早检测到癌症是很重要的,因为它可以及早治疗,从而获得更大的生存机会。利用无细胞DNA(cell-free DNA,cfDNA)片段,标靶检测特定于癌症或起源组织(即癌症发生或起源的器官、器官群组、身体区域或细胞类型)的甲基化模式,可以通过提供一种成本效益高、非侵入性的方法用于分析相关于癌症分类的信息,使癌症的早期检测成为可能。与全基因组测序(whole genome sequencing,WGS)或全基因组亚硫酸氢盐测序(whole genome bisulfite sequencing,WGBS)相比,通过使用一标靶基因组区域化验板而非在一测试样本中的所有核酸进行测序(也称为“全基因组测序”),该方法可以增加标靶区域的测序深度,并降低成本。
为此,本说明书提供了多种癌症化验板(assay panel)(例如,多种诱饵组(baitset)),用于通过检测多个标靶基因组区域域的甲基化模式来检测癌症和各种组织或来源。所述癌症化验板可以检测和差异化一般癌症或不同癌症类型的甲基化模式,例如,(1)血癌、(2)乳腺癌、(3)结直肠癌、(4)食管癌、(5)头颈癌、(6)肝胆癌、(7)肺癌、(8)卵巢癌、和(9)胰腺癌。
多种癌症化验板可以进一步提供关于每种癌症类型的一癌症阶段的信息。本说明还提供了一种使用多种癌症化验板来诊断癌症的方法,其中所述诊断癌症还包含一癌症类型和/或一癌症阶段。本文进一步提供了多种识别具有特定于癌症或各种癌症类型的甲基化模式的多个基因组位点,以及可用于癌症和/或癌症起源组织的诊断的多个基因组位点的一列表的方法。本文所述的多种方法还包含设计多个探针以有效地扩增源自所选的多个基因组区域的核酸而不去除过量的非期望或非标靶的核酸的方法,以及用所述多个探针制作癌症化验板的方法。还描述了通过杂交捕获以外的方法扩增源自所选的多个基因组区域的核酸的方法。
本发明公开多种用于扩增供癌症诊断的多个cfDNA分子的化验板,所述化验板包含:
至少不同的500对的多核苷酸探针,其中所述至少500对的探针中的每一对:(i)包含两个不同的探针,配置为通过30个或更多个核苷酸的一重叠序列彼此相重叠,及(ii)被配置为与从所述多个cfDNA分子的处理中获得的一修饰的片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自一个或多个基因组区域,
其中所述一个或多个基因组区域中的每一个包含至少5个甲基化位点以及在多个癌性训练样本中具有一异常甲基化模式。
在一些实施例中,所述重叠序列包含至少40、50、75或100个核苷酸。
在一些实施例中,所述多种化验板包含至少50、60、70、80、90、100、120、150、200、300或400对的探针。
在一些实施例中,所述多种化验板包含至少1000、2000、2500、5000、6000、7500、10000、15000、20000或25000对探针。
本发明还公开多种用于扩增供癌症诊断的多个cfDNA分子的化验板,所述化验板包含:
至少1000个多核苷酸探针,其中所述至少1000个探针中的每一个被配置成与一修饰的多核苷酸杂交,所述修饰的多核苷酸杂交从所述多个cfDNA分子的处理中获得,其中所述多个cfDNA分子中的每一个对应于或衍生自一个或多个基因组区域,
其中所述一个或多个基因组区域中的每一个包含至少5个甲基化位点以及在多个癌性训练样本中具有一异常甲基化模式。
在一些实施例中,所述多个cfDNA分子的处理包含:将所述多个cfDNA分子中的未甲基化C(胞嘧啶)转化为U(尿嘧啶)。
在一些实施例中,所述化验板中的所述多个多核苷酸探针中的每一个与一亲和部分接合。
在一些实施例中,所述亲和部分为一生物素部分。
在一些实施例中,所述多个训练样本是源自被确定具有癌症的多个对象的多个样本。
在一些实施例中,当所述多个癌性训练样本中代表所述基因组区域的一甲基化状态向量在多个参考样本中出现的频率低于一阈值时,在多个癌性训练样本中的一基因组区域中具有一异常甲基化模式。
在一些实施例中,所述阈值为0.1、0.01、0.001或0.0001。
在一些实施例中,所述一个或多个基因组区域中的每一个在所述多个癌性训练样本中是高甲基化或低甲基化。
在一些实施例中,所述至少5个甲基化位点的至少80%、85%、90%、92%、95%或98%在所述多个癌性训练样本中是甲基化或未甲基化。
在一些实施例中,所述化验板上的所述多个探针的至少3%、5%、10%、15%、20%、30%或40%不包含G(鸟嘌呤)。
在一些实施例中,所述化验板上的所述多个探针的至少80%、85%、90%、92%、95%、98%在多个CpG检测位点上仅具有CpG或仅具有CpA。
在一些实施例中,所述化验板上的所述多个探针中的每一个包含少于20、15、10、8或6个CpG检测位点。
在一些实施例中,所述化验板上的所述多个探针中的每一个被设计为与少于20、15、10或8个脱靶基因组区域具有序列同源性或序列互补性。
在一些实施例中,所述少于20个脱靶基因组区域使用k-mer接种策略来识别。
在一些实施例中,所述少于20个脱靶基因组区域使用k-mer接种策略结合在多个接种位置处的局部比对来识别。
在一些实施例中,所述多种化验板包含至少1,000、2,000、2,500、5,000、10,000、12,000、15,000、20,000或25,000个探针。
在一些实施例中,所述至少1,000对或500对探针或所述至少1,000个探针同时包含至少20万、40万、60万、80万、100万、200万或400万个核苷酸。
在一些实施例中,所述化验板上的所述多个探针中的每一个包含至少50、75、100或120个核苷酸。
在一些实施例中,所述化验板上的所述多个探针中的每一个包含少于300、250、200或150个核苷酸。
在一些实施例中,所述化验板上的所述多个探针中的每一个包含100至150个核苷酸。
在一些实施例中,所述多个基因组区域的至少30%是外显子或内含子。
在一些实施例中,所述多个基因组区域的至少15%是外显子。
在一些实施例中,所述多个基因组区域的至少20%是外显子。
在一些实施例中,少于10%的所述多个基因组区域是多个基因间区域。
在一些实施例中,所述多种癌症化验板还包含:多个病毒特异性探针,其中所述多个病毒特异性探针中的每一个被配置为与来自cfDNA的一病毒基因组片段杂交。在一些实施例中,所述病毒基因组片段来自MCV、EBV、HBV、HCMV、HCV、HHV5、HPV16或HPV18。在一些实施例中,所述多种癌症化验板包含至少50、100、200、500、1000、2000或3000个病毒特异性探针。
在一些实施例中,所述一个或多个基因组区域中的每一个选自表1或表11至15(或其组合)中的一个。在一些实施例中,所述一个或多个基因组区域中的每一个选自表13。在一些实施例中,所述一个或多个基因组区域的每一个选自表14。在一些实施例中,所述一个或多个基因组区域的每一个选自表15。
在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表1、表11至15的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表13中的所述多个基因组区域的一个或多个中的至少30%、40%、50%、60、70%,80%,90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表14中的所述多个基因组区域的一个或多个中的至少30%、40%、50%、60、70%,80%,90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表15中的所述多个基因组区域的一个或多个中的至少30%、40%、50%、60、70%,80%,90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表1、11至15中的一个或多个中的至少500、1,000、5000、10,000或15,000个基因的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体部一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表13中的至少500、1,000、5000、10,000或15,000个基因的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表14中的至少500、1,000、5000、10,000或15,000个基因的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表15中的至少500、1,000、5000、10,000或15,000个基因的所述多个cfDNA分子获得。
本发明还公开多种用于扩增供癌症诊断的多个cfDNA分子的化验板,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与从所述多个cfDNA分子的处理而获得的一修饰的片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表1至24中的任何一个的一个或多个基因组区域。
在一些实施例中,所述多个cfDNA分子中的每一个对应于或衍生自选自表2至10或表16至24中的任何一个(或其结合)的一个或多个基因组区域。在一些实施例中,所述多个cfDNA分子中的每一个对应于或衍生自选自表13、14或15中的任何一个的一个或多个基因组区域。在一些实施例中,所述多个cfDNA分子中的每一个对应于或衍生自选自表13的一个或多个基因组区域。在一些实施例中,所述多个cfDNA分子中的每一个对应于或衍生自选自表14的一个或多个基因组区域。在一些实施例中,所述多个cfDNA分子中的每一个对应于或衍生自选自表15的一个或多个基因组区域。
在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表1至24的任何一个中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表2至10或16至24的任何一个(或其组合)中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表13中的所述多个基因组区域的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表14中的所述多个基因组区域的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表15中的所述多个基因组区域的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表1至24的任何一个中的至少50、60、70、80、90、100、120、150、200、500、1,000、5000、10,000或15,000个基因的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表2至10或16至24的任何一个中的至少50、60、70、80、90、100、120、150或200个基因的所述多个cfDNA分子获得。
在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表13中的至少500、1,000、5000、10,000或15,000个基因的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表14中的至少500、1,000、5000、10,000或15,000个基因的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表15中的至少500、1,000、5000、10,000或15,000个基因的所述多个cfDNA分子获得。
在一些实施例中,所述多个cfDNA分子的处理包含将所述多个cfDNA分子中未甲基化的C(胞嘧啶)转化为U(尿嘧啶)。在一些实施例中,所述化验板上的多个探针的每一个都与一亲和部分接合,其中所述亲和部分不是一核酸亲和部分。在一些实施例中,所述亲和部分为一生物素部分。在一些实施例中,所述化验板上的所述多个探针的至少3%、5%、10%、15%、20%、30%或40%不包含G(鸟嘌呤)。在一些实施例中,所述化验板上的所述多个探针的至少80%、85%、90%、92%、95%或98%在多个CpG检测位点上仅具有CpG或仅具有CpA。
本发明更公开多种提供癌症存在或不存在的信息的序列信息的方法,所述方法包含以下步骤:获取一测试样本,所述测试样本包含多个cfDNA测试分子;处理所述多个cfDNA测试分子,从而获得多个亚硫酸氢盐转化的测试片段;将所述多个亚硫酸氢盐转化的测试片段与一化验板相接触,从而通过杂交捕获来扩增所述多个亚硫酸氢盐转化的测试片段的一子集;及对所述多个亚硫酸氢盐转化的测试片段的所述子集进行测序,从而获得多个序列读数的一集合。在一些实施例中,所述化验板选自如上所述的多种化验板。
在一些实施例中,所述多种方法还包含以下步骤:通过评估所述多个序列读数的所述集合确定一癌症分类,其中所述癌症分类为:癌症存在或不存在;癌症的一阶段;一种类型的癌症存在或不存在;或至少1、2、3、4或5种不同类型的癌症存在或不存在。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表1、12、13、14和15中的一个中的一个或多个基因组区域,其中所述癌症分类是癌症存在或不存在,或癌症的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表1、12、13、14和15中的一个中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表2的一个或多个基因组区域,其中所述癌症分类是血癌的存在或不存在或血癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表2中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表3的一个或多个基因组区域,其中所述癌症分类是乳腺癌的存在或不存在或乳腺癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表3中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表4的一个或多个基因组区域,其中所述癌症分类是结直肠癌的存在或不存在或结直肠癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表4中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表5的一个或多个基因组区域,其中所述癌症分类是食管癌的存在或不存在或食管癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表5中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表6的一个或多个基因组区域,其中所述癌症分类是头颈癌的存在或不存在或头颈癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表6中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表7的一个或多个基因组区域,其中所述癌症分类是肝胆癌的存在或不存在或肝胆癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表7中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表8的一个或多个基因组区域,其中所述癌症分类是肺癌的存在或不存在或肺癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表8中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表9的一个或多个基因组区域,其中所述癌症分类是卵巢癌的存在或不存在或卵巢癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表9中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表10的一个或多个基因组区域,其中所述癌症分类是胰腺癌的存在或不存在或胰腺癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表10中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表16的一个或多个基因组区域,其中所述癌症分类是血癌的存在或不存在或血癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表16中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表17的一个或多个基因组区域,其中所述癌症分类是乳腺癌的存在或不存在或乳腺癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表17中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表18的一个或多个基因组区域,其中所述癌症分类是结直肠癌的存在或不存在或结直肠癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表18中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表19的一个或多个基因组区域,其中所述癌症分类是食管癌的存在或不存在或食管癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表19中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表20的一个或多个基因组区域,其中所述癌症分类是头颈癌的存在或不存在或头颈癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表20中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表21的一个或多个基因组区域,其中所述癌症分类是肝胆癌的存在或不存在或肝胆癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表21中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表22的一个或多个基因组区域,其中所述癌症分类是肺癌的存在或不存在或肺癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表22中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表23的一个或多个基因组区域,其中所述癌症分类是卵巢癌的存在或不存在或卵巢癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表23中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表24的一个或多个基因组区域,其中所述癌症分类是胰腺癌的存在或不存在或胰腺癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表24中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述确定一癌症分类的步骤由包含以下步骤的方法执行:基于所述多个序列读数的所述集合生成一测试特征向量;以及将所述测试特征向量应用于通过一训练程序获得一模型,所述模型具有来自具有癌症的一个或多个训练对象的多个片段的一癌症集合和来自不具有癌症的一个或多个训练对象的多个片段的一非癌症集合,其中所述多个片段的所述癌症集合和所述多个片段的所述非癌症集合均包含多个训练片段。
在一些实施例中,所述训练程序包含:从多个训练对象中获取多个训练片段的序列信息;对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;对于每一个训练对象,基于所述多个低甲基化的训练片段产生一训练特征向量及基于所述多个高甲基化的训练片段产生一训练特征向量;及利用来自不具有癌症的一个或多个训练对象的所述多个训练特征向量和来自具有癌症的一个或多个训练对象的所述多个训练特征向量训练所述模型。
在一些实施例中,所述训练程序包含:从多个训练对象中获取多个训练片段的序列信息;对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化,对于每一个训练对象,基于所述多个低甲基化的训练片段产生一训练特征向量及基于所述多个高甲基化的训练片段产生一训练特征向量;及利用来自不具有癌症的一个或多个训练对象的所述多个训练特征向量和来自具有癌症的一个或多个训练对象的所述多个特征向量训练所述模型。
在一些实施例中,所述训练程序包含:从多个训练对象中获取多个训练片段的序列信息;对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化,对于在一参考基因组中的多个CpG位点中的每一个:量化与所述CpG位点重叠的多个低甲基化的训练片段的一数量和与所述CpG位点重叠的多个高甲基化的训练片段的一数量;及基于多个低甲基化的训练片段和多个高甲基化的训练片段的所述数量,生成一低甲基化得分和一高甲基化得分;对于每一个训练片段,基于所述训练片段中所述多个CpG位点的所述低甲基化得分生成一总合的低甲基化得分,以及基于所述训练片段中所述多个CpG位点的所述高甲基化得分生成一总合的高甲基化得分;对于每一个训练对象:基于总合的低甲基化得分对所述多个训练片段进行排名,并基于总合的高甲基化得分对所述多个训练片段进行排名;及基于所述多个训练片段的所述排名生成一特征向量;获取不具有癌症的一个或多个训练对象的多个训练特征向量,以及具有癌症的一个或多个训练对象的多个训练特征向量;以及利用所述不具有癌症的一个或多个训练对象的所述多个特征向量及具有癌症的一个或多个训练对象的所述多个特征向量训练所述模型。在一些实施例中,所述模型包含一内核逻辑回归分类器、一随机森林分类器、一混合模型、一卷积神经网络和一自动编码器模型中的一种。在一些实施例中,所述方法进一步包含:基于所述模型获得测试样本的一癌症概率;以及将所述癌症概率与一阈值概率进行比较,以确定所述测试样本是否来自具有癌症的一患者或不具有癌症的一患者。在一些实施例中,所述方法进一步包含:对所述对象施用一抗癌剂。在一些实施例中,所述多种方法包含:向通过如本文所公开的多种方法向已经被识别为一癌症对象的一对象施用一抗癌剂。在一些实施例中,所述抗癌剂是选自以下群组组成的化学治疗剂:烷基化剂、抗代谢物、蒽环类、抗肿瘤抗生素、细胞骨架破坏剂(紫杉醇)、拓扑异构酶抑制剂、有丝分裂抑制剂、皮质类固醇、激酶抑制剂、核苷酸类似物和铂基药物。
本发明更公开多种方法,所述方法包含步骤:获得多个修饰的测试片段的多个序列读数的一集合,其中所述多个修饰的测试片段是或已经通过处理来自一测试对象的一组的多个核酸片段而获得,其中所述多个核酸片段中的每一个对应于或衍生自选自表1至24中的一个或多个中的多个基因组区域;以及将所述多个序列读数的所述集合或基于所述多个序列读数的所述集合获得的一测试特征向量应用于通过一训练程序获得的一模型,所述模型具有来自具有癌症的一个或多个训练对象的多个片段的一癌症集合和来自不具有癌症的一个或多个训练对象的多个片段的一非癌症集合,其中所述多个片段的所述癌症集合及所述多个片段的所述非癌症集合包含多个训练片段。
在一些实施例中,所述多种方法进一步包含:获得所述测试特征向量的步骤,所述步骤包含:对于所述多个核酸片段中的每一个,确定所述核酸片段是低甲基化或高甲基化,其中低甲基化和高甲基化的所述多个核酸片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;对于一参考基因组中的多个CpG位点中的每一个:量化与所述CpG位点重叠的低甲基化的多个核酸片段的一数量和与所述CpG位点重叠的高甲基化的多个核酸片段的一数量;及基于低甲基化的多个核酸片段和高甲基化的多个核酸片段的所述数量,生成一低甲基化得分和一高甲基化得分;对于每一个核酸片段,基于所述核酸片段中所述多个CpG位点的所述低甲基化得分生成一总合的低甲基化得分和基于所述核酸片段中所述多个CpG位点的所述高甲基化得分生成一总合的高甲基化得分;基于总合的低甲基化得分对所述多个核酸片段进行排名,及基于总合的高甲基化得分对所述多个核酸片段进行排名;以及基于所述多个核酸片段的所述排名生成所述测试特征向量。
在一些实施例中,所述训练程序包含步骤:对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;对于每一个训练对象,基于所述多个低甲基化的训练片段产生一训练特征向量及基于所述多个高甲基化的训练片段产生一训练特征向量;及利用来自不具有癌症的一个或多个训练对象的所述多个训练特征向量和来自具有癌症的一个或多个训练对象的所述多个训练特征向量训练所述模型。
在一些实施例中,所述训练程序包含步骤:对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化,对于在一参考基因组中的多个CpG位点中的每一个:量化与所述CpG位点重叠的多个低甲基化的训练片段的一数量和与所述CpG位点重叠的多个高甲基化的训练片段的一数量;及基于多个低甲基化的训练片段和多个高甲基化的训练片段的所述数量,生成一低甲基化得分和一高甲基化得分;对于每一个训练片段,基于所述训练片段中所述多个CpG位点的所述低甲基化得分生成一总合的低甲基化得分,以及基于所述训练片段中所述多个CpG位点的所述高甲基化得分生成一总合的高甲基化得分;对于每一个训练对象:基于总合的低甲基化得分对所述多个训练片段进行排名,并基于总合的高甲基化得分对所述多个训练片段进行排名;及基于所述多个训练片段的所述排名生成一特征向量;获取不具有癌症的一个或多个训练对象的多个训练特征向量,以及具有癌症的一个或多个训练对象的多个训练特征向量;以及利用所述不具有癌症的一个或多个训练对象的所述多个特征向量及具有癌症的一个或多个训练对象的所述多个特征向量训练所述模型。
在一些实施例中,对于一参考基因组中的每一个CpG位点,所述多种方法包含步骤:量化与所述CpG位点重叠的多个低甲基化的训练片段的一数量以及与所述CpG位点重叠的多个高甲基化的训练片段的一数量进一步包含步骤:量化来自与所述CpG位点重叠的具有癌症的一个或多个训练对象的多个低甲基化的训练片段的一癌症数量,以及量化来自与所述CpG位点重叠的不具有癌症的一个或多个训练对象的多个低甲基化的训练片段的一非癌症数量;以及量化来自与所述CpG位点重叠的具有癌症的一个或多个训练对象的多个高甲基化的训练片段的一癌症数量,以及量化来自与所述CpG位点重叠的不具有癌症的一个或多个训练对象的多个高甲基化的训练片段的一非癌症数量。
在一些实施例中,对于一参考基因组中的每一个CpG位点,所述多种方法包含步骤:基于多个低甲基化的训练片段和多个高甲基化的训练片段的所述数量来生成一低甲基化得分和一高甲基化得分还包含步骤:对于生成所述低甲基化得分,计算多个低甲基化的训练片段的所述癌症数量与多个低甲基化的训练片段的所述癌症数量及多个低甲基化的训练片段的所述非癌症数量的一低甲基化总合的一低甲基化比率;以及对于生成所述高甲基化得分,计算多个高甲基化的训练片段的所述癌症数量与多个高甲基化的训练片段的所述癌症数量及多个高甲基化的训练片段的所述非癌症数量的一高甲基化总合的一高甲基化比率。
在一些实施例中,所述模型包含所述模型包含一内核逻辑回归分类器、一随机森林分类器、一混合模型、一卷积神经网络和一自动编码器模型中的一种。在一些实施例中,所述多个序列读数的所述集合是通过使用如上所述的多种化验板中的任何一种获得。
本发明还公开多种设计用于癌症诊断的化验板的方法,所述方法包含以下步骤:识别多个基因组区域,其中所述多个基因组区域中的每一个:(i)包含至少30个核苷酸,及(ii)包含至少5个甲基化位点;选择所述多个基因组区域的一子集,其中所述选择是当对应于或衍生自多个癌症训练样本中的所述多个基因组区域的每一个的多个cfDNA分子具有一异常甲基化模式时实行,其中所述异常甲基化模式包含至少5个甲基化位点已知为或被识别为的低甲基化或高甲基化;以及设计所述化验板,所述化验板包含多个探针,其中所述多个探针中的每一个被配置成与从处理对应于或衍生自所述多个基因组区域的所述子集的一个或多个的多个cfDNA分子而获得的一修饰的片段杂交。在一些实施例中,所述多个cfDNA分子的处理包含将所述多个cfDNA分子中的未甲基化C(胞嘧啶)转化为U(尿嘧啶)。
本发明还公开多种用于杂交捕获的诱饵组,所述诱饵组包含至少50个不同的含有多核苷酸的探针,其中所述多个含有多核苷酸的探针中的每一个具有一核酸序列,所述核酸序列为:(1)在序列上与选自表1至24中任一个表所列的任何基因组区域的一基因组区域中的一序列相同,或(2)相对于所述基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个相应的转换发生在对应于所述基因组区域中的一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个在长度上具有至少45个碱基对的一核酸序列。在一些实施例中,所述多个含有多核苷酸的探针在长度上具有不超过200个碱基对的一核酸序列。在一些实施例中,所述至少50个不同的含有多核苷酸的探针被组织成至少25对含有多核苷酸的探针,其中所述多个探针中的每一对包含一第一探针和一第二探针,所述第二探针与第一探针不同,其中所述第一探针通过至少30个核苷酸在序列上与所述第二探针重叠。在一些实施例中,所述第一探针在序列上与所述第二探针通过至少40、50、75或100个核苷酸重叠。
在一些实施例中,所述多个含有多核苷酸的探针被组织成至少50、60、70、80、90、100、120、150或200对含有多核苷酸的探针。在一些实施例中,所述多个含有多核苷酸的探针被组织成至少1000、2000、2500、5000、6000、7500、10000、15000、20000或25000对含有多核苷酸的探针。在一些实施例中,一尿嘧啶或一胸腺嘧啶位于所述转换处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个与一亲和部分结合,其中所述亲和部分不是一核酸亲和部分。在一些实施例中,所述亲和部分包含生物素。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个包含少于20、15、10、8或6个CpG检测位点。在一些实施例中,所述诱饵组不具有在序列上与超过8个、10个、15个或20个的脱靶基因组区域同源或互补的探针。
在一些实施例中,所述诱饵组具有至少50、60、70、80、90、100、120、150或200个含有探针的多核苷酸。在一些实施例中,所述诱饵组具有至少1000、2000、2500、5000、10000、12000、15000、20000或25000个含有探针的多核苷酸。在一些实施例中,所述诱饵组中所有的所述多个含有多核苷酸的探针的至少3%、5%、10%、15%、20%、30%或40%缺少G(鸟嘌呤)。在一些实施例中,所述多个含有多核苷酸的探针共同包含至少1万、2万、5万、20万、40万、60万、80万、100万、200万或400万个核苷酸。在一些实施例中,所述多个多核苷酸探针中的每一个包含至少50、75、100或120个核苷酸。在一些实施例中,所述多个多核苷酸探针中的每一个具有少于300、250、200或150个核苷酸。在一些实施例中,所述多个多核苷酸探针中的每一个具有100到150个核苷酸。
在一些实施例中,所述多个含有多核苷酸的探针的至少80%、85%、90%、92%、95%或98%仅在多个CpG检测位点上具有CpG或CpA。在一些实施例中,所述诱饵组的所述多个含有多核苷酸的探针对应于从表1至24中的任一个表的所述多个基因组区域中选择的一总数量的基因组区域,其中所述多个基因组区域的至少30%是外显子或内含子。在一些实施例中,所述诱饵组的所述多个含有多核苷酸的探针对应于一总数量的基因组区域,其中所述多个基因组区域的至少15%是外显子。在一些实施例中,所述诱饵组的所述多个含有多核苷酸的探针对应于一总数量的基因组区域,其中所述多个基因组区域的至少20%是外显子。在一些实施例中,所述诱饵组的所述多个含有多核苷酸的探针对应于一总数量的基因组区域,其中少于10%的所述多个基因组区域是多个基因间区域。
在一些实施例中,所述诱饵组进一步包含:多个病毒特异性探针,所述多个病毒特异性探针中的每一个被配置成与一病毒基因组片段杂交。在一些实施例中,所述病毒基因组片段来自MCV、EBV、HBV、HCMV、HCV、HHV5、HPV16或HPV18。在一些实施例中,所述多个病毒特异性探针包含至少50、100、200、500、1000、2000或3000个病毒特异性探针。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表2的一基因组区域中的一序列相同,或(2)相对于选自表2的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表3的一基因组区域中的一序列相同,或(2)相对于选自表3的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表4的一基因组区域中的一序列相同,或(2)相对于选自表4的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表5的一基因组区域中的一序列相同,或(2)相对于选自表5的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表6的一基因组区域中的一序列相同,或(2)相对于选自表6的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表7的一基因组区域中的一序列相同,或(2)相对于选自表7的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表8的一基因组区域中的一序列相同,或(2)相对于选自表8的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表9的一基因组区域中的一序列相同,或(2)相对于选自表9的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表10的一基因组区域中的一序列相同,或(2)相对于选自表10的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表2至10的任一个表的一基因组区域中的一序列相同,或(2)相对于选自表2至10的任一个表的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表11的一基因组区域中的一序列相同,或(2)相对于选自表11的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表12的一基因组区域中的一序列相同,或(2)相对于选自表12的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表13的一基因组区域中的一序列相同,或(2)相对于选自表13的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表14的一基因组区域中的一序列相同,或(2)相对于选自表14的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表15的一基因组区域中的一序列相同,或(2)相对于选自表15的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表16的一基因组区域中的一序列相同,或(2)相对于选自表16的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表17的一基因组区域中的一序列相同,或(2)相对于选自表17的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表18的一基因组区域中的一序列相同,或(2)相对于选自表18的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表19的一基因组区域中的一序列相同,或(2)相对于选自表19的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表20的一基因组区域中的一序列相同,或(2)相对于选自表20的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表21的一基因组区域中的一序列相同,或(2)相对于选自表21的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表22的一基因组区域中的一序列相同,或(2)相对于选自表22的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表23的一基因组区域中的一序列相同,或(2)相对于选自表23的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表24的一基因组区域中的一序列相同,或(2)相对于选自表24的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述诱饵组中的所述多个多核苷酸探针的一整体被配置成与多个片段杂交,所述多个片段从选自表1至24的任一个表中对应于所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的的多个cfDNA分子获得。在一些实施例中,所述诱饵组中的多个含有多核苷酸的探针的一整体被配置成与多个片段杂交,所述多个片段从表2至10或16至24的任一个中对应于所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的多个cfDNA分子获得。在一些实施例中,所述诱饵组中多个含有多核苷酸的探针的一整体被配置成与多个片段杂交,所述多个片段从表1至24中的任一个中对应于至少500、1000、5000、10000或15000个基因组区域的多个cfDNA分子获得。在一些实施例中,所述诱饵组中多个含有多核苷酸的探针的一整体被配置成与多个片段杂交,所述多个片段从表2至10或16至24中的任一个中对应于至少50、60、70、80、90、100、120、150或200个基因组区域的cfDNA分子获得。在一些实施例中,所述多个含有多核苷酸的探针中的每一个的所述核酸序列相对于所述基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换的每一个对应的转换发生在所述基因组区域中一CpG位点的一核苷酸处。
本发明还公开多种混合物,所述混合物包含:亚硫酸氢盐转化的无细胞DNA;以及如上所述的多种诱饵集。
再者,本发明公开多种用于扩增一亚硫酸氢盐转化的无细胞DNA样本的方法,所述方法包含步骤:使所述亚硫酸氢盐转化的无细胞DNA样本与如权利要求122至177任一项所述的诱饵组相接触以形成一混合物;以及通过杂交捕获来扩增所述样本的一第一组的多个基因组区域。
本发明还公开多种用于提供一癌症存在或不存在、癌症的一阶段或癌症的一类型的信息的序列信息的方法,所述方法包含步骤:用一脱氨基剂处理来自一生物样本的无细胞DNA,以产生一无细胞DNA样本,所述无细胞DNA样本包含多个脱氨基核苷酸;扩增所述无细胞DNA样本,以用于获取多个无细胞DNA分子的信息,其中扩增所述无细胞DNA样本以获取所述多个无细胞DNA分子的信息包含:将所述无细胞DNA与多个探针相接触,所述多个探针被配置成杂交到对应于表1至24的任一个中所识别的多个区域的多个无细胞DNA分子;以及对扩增后的所述多个无细胞DNA分子进行测序,从而获得多个序列读数的一集合,以提供一癌症存在或不存在、癌症的一阶段或癌症的一类型的信息。
在一些实施例中,所述多个探针包含多个引物,及扩增所述无细胞DNA包含:使用所述多个引物扩增(例如,通过聚合酶链式反应(PCR))所述多个无细胞DNA片段(可选地,在没有杂交捕获的情况下)。在一些实施例中,所述无细胞DNA样本通过如本文所述的任何适合方法进行扩增,及所述多个探针包含所述多个含有多核苷酸的探针。
在一些实施例中,所述多种方法进一步包含以下步骤:通过评估所述多个序列读数的所述集合来确定一癌症分类,其中所述癌症分类为:癌症存在或不存在;癌症的一阶段;一类型的癌症的存在或不存在;或至少有1种、2种、3种、4种或5种不同类型的癌症的存在或不存在。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表1、11、12、13、14或15的一个中的一个或多个基因组区域,其中所述癌症分类是癌症存在或不存在,或癌症的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表1、11、12、13、14或15的一个中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表2中的一个或多个基因组区域,其中所述癌症分类是血癌存在或不存在或血癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表2中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表3中的一个或多个基因组区域,其中所述癌症分类是乳腺癌存在或不存在或乳腺癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表3中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表4中的一个或多个基因组区域,其中所述癌症分类是结直肠癌存在或不存在或结直肠癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表4的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表5中的一个或多个基因组区域,其中所述癌症分类是食管癌存在或不存在或食管癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表5中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表6中的一个或多个基因组区域,其中所述癌症分类是头颈癌存在或不存在或头颈癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表6中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表7中的一个或多个基因组区域,其中所述癌症分类是肝胆癌存在或不存在或肝胆癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表7中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表8中的一个或多个基因组区域,其中所述癌症分类是肺癌存在或不存在或肺癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表8中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表9中的一个或多个基因组区域,其中所述癌症分类是卵巢癌存在或不存在或卵巢癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表9中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表10中的一个或多个基因组区域,其中所述癌症分类是胰腺癌存在或不存在或胰腺癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表10中一个中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表16中的一个或多个基因组区域,其中所述癌症分类是血癌存在或不存在或血癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表16中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表17中的一个或多个基因组区域,其中所述癌症分类是乳腺癌存在或不存在或乳腺癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表17中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表18中的一个或多个基因组区域,其中所述癌症分类是结直肠癌存在或不存在或结直肠癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表18中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表19中的一个或多个基因组区域,其中所述癌症分类是食管癌存在或不存在或食管癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表19中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表20中的一个或多个基因组区域,其中所述癌症分类是头颈癌存在或不存在或头颈癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表20中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表21中的一个或多个基因组区域,其中所述癌症分类是肝胆癌存在或不存在或肝胆癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表21中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表22中的一个或多个基因组区域,其中所述癌症分类是肺癌存在或不存在或肺癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表22中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表23中的一个或多个基因组区域,其中所述癌症分类是卵巢癌存在或不存在或卵巢癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表23中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表24中的一个或多个基因组区域,其中所述癌症分类是胰腺癌存在或不存在或胰腺癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表24中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述确定一癌症分类的步骤包含:基于所述多个序列读数的所述集合生成一测试特征向量;以及将所述测试特征向量应用于通过一训练程序获得一模型,所述模型具有来自具有癌症的一个或多个训练对象的多个片段的一癌症集合和来自不具有癌症的一个或多个训练对象的多个片段的一非癌症集合,其中所述多个片段的所述癌症集合和所述多个片段的所述非癌症集合均包含多个训练片段。
在一些实施例中,所述训练程序包含:从多个训练对象中获取多个训练片段的序列信息;对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;对于每一个训练对象,基于所述多个低甲基化的训练片段及所述多个高甲基化的训练片段产生一训练特征向量;及利用来自不具有癌症的所述一个或多个训练对象的所述多个训练特征向量和来自具有癌症的所述一个或多个训练对象的所述多个训练特征向量训练所述模型。
在一些实施例中,所述训练程序包含:从多个训练对象中获取多个训练片段的序列信息;对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;对于在一参考基因组中的多个CpG位点中的每一个:量化与所述CpG位点重叠的多个低甲基化的训练片段的一数量和与所述CpG位点重叠的多个高甲基化的训练片段的一数量;及基于多个低甲基化的训练片段和多个高甲基化的训练片段的所述数量,生成一低甲基化得分和一高甲基化得分;对于每一个训练片段,基于所述训练片段中所述多个CpG位点的所述低甲基化得分生成一总合的低甲基化得分,以及基于所述训练片段中所述多个CpG位点的所述高甲基化得分生成一总合的高甲基化得分;对于每一个训练对象:基于总合的低甲基化得分对所述多个训练片段进行排名,并基于总合的高甲基化得分对所述多个训练片段进行排名;及基于所述多个训练片段的所述排名生成一特征向量;获取不具有癌症的一个或多个训练对象的多个训练特征向量,以及具有癌症的一个或多个训练对象的多个训练特征向量;以及利用不具有癌症的所述一个或多个训练对象的所述多个特征向量及具有癌症的所述一个或多个训练对象的所述多个特征向量训练所述模型。
在一些实施例中,所述模型包含一内核逻辑回归分类器、一随机森林分类器、一混合模型、一卷积神经网络和一自动编码器模型中的一种。在一些实施例中,所述方法进一步包含:基于所述模型获得测试样本的一癌症概率;以及将所述癌症概率与一阈值概率进行比较,以确定所述测试样本是否来自具有癌症的一患者或不具有癌症的一患者。在一些实施例中,所述方法进一步包含:对所述对象施用一抗癌剂。
本发明还公开多种治疗癌症患者的方法,所述方法包含:向通过如本文所述的多种方法向已经被识别为一癌症对象的一对象施用一抗癌剂。在一些实施例中,所述抗癌剂是选自以下群组组成的化学治疗剂:烷基化剂、抗代谢物、蒽环类、抗肿瘤抗生素、细胞骨架破坏剂(紫杉醇)、拓扑异构酶抑制剂、有丝分裂抑制剂、皮质类固醇、激酶抑制剂、核苷酸类似物和铂基药物。
再者,本发明公开多种用于提供癌症存在或不存在的信息的序列信息的方法,所述方法包含步骤:将来自一生物样本的无细胞DNA与一脱氨基剂相接触,以生成一无细胞DNA样本,所述无细胞DNA样本包含多个多个脱氨基核苷酸;扩增无细胞DNA以获取多个DNA片段,所述多个DNA片段共同对应于选自在表1至24的任一个中所识别的多个基因组区域的至少100、200、500或1000个基因组区域;以及对扩增后的无细胞DNA分子进行测序,从而获得多个序列读数的一集合。
在一些实施例中,扩增所述无细胞DNA不涉及杂交捕获。在一些实施例中,扩增所述无细胞DNA包含:放大(amplifying)所述多个DNA片段。在一些实施例中,放大所述无细胞DNA分子包含:将所述无细胞DNA与多组引物相接触,及通过聚合酶链式反应放大所述多个无细胞DNA分子,其中每一个引物组包含一前向引物和一反向引物。
本发明更公开多种用于扩增供癌症诊断的多个cfDNA分子的化验板,所述化验板包含:至少不同的50对的多核苷酸探针,其中所述至少50对探针中的每一对:(i)包含两个不同的探针,被配置成通过30个或更多个的核苷酸的一重叠序列彼此相重叠,及(ii)被配置成与一修饰的片段杂交,所述修饰的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自一个或多个基因组区域,及其中所述一个或多个基因组区域中的每一个包含至少5个甲基化位点以及在多个癌性训练样本中具有一异常甲基化模式。
在一些实施例中,所述重叠序列包含至少40、50、75或100个核苷酸。在一些实施例中,本文所公开的所述多种化验板包含至少50、60、70、80、90、100、120、150或200对探针。
本发明还公开多种用于扩增供癌症诊断的多个cfDNA分子的化验板,所述化验板包含:至少100个多核苷酸探针,其中所述至少100个探针中的每一个被配置成与一修饰的多核苷酸杂交,所述修饰的多核苷酸杂交从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子对应于或衍生自一个或多个基因组区域,及其中所述一个或多个基因组区域中的每一个包含至少5个甲基化位点以及在多个癌性训练样本中具有一异常甲基化模式。
在一些实施例中,所述多个cfDNA分子的处理包含将所述多个cfDNA分子中的未甲基化C(胞嘧啶)转化为U(尿嘧啶)。在一些实施例中,所述化验板上的所述多个探针中的每一个与一生物素部分接合。在一些实施例中,所述多个训练样本是从被确定具有癌症的多个对象的多个样本。在一些实施例中,当所述多个癌性训练样本中代表所述基因组区域的一甲基化状态向量在多个参考样本中出现的频率低于一阈值时,在多个癌性训练样本中一基因组区域中具有一异常甲基化模式。在一些实施例中,所述阈值为0.1、0.01、0.001或0.0001。
在一些实施例中,所述一个或多个基因组区域中的每一个在所述多个癌性训练样本中是高甲基化或低甲基化。在一些实施例中,所述至少5个甲基化位点的至少80%、85%、90%、92%、95%或98%在所述多个癌性训练样本中甲基化或未甲基化。在一些实施例中,所述化验板上的所述多个探针的至少3%、5%、10%、15%、20%、30%或40%不包含G(鸟嘌呤)。在一些实施例中,所述化验板上的所述多个探针的至少80%、85%、90%、92%、95%、98%在多个CpG检测位点上仅具有CpG或仅具有CpA。在一些实施例中,所述化验板上的所述多个探针中的每一个包含少于20、15、10、8或6个CpG检测位点。
在一些实施例中,所述化验板上的所述多个探针中的每一个被设计为与少于20、15、10或8个脱靶基因组区域具有序列同源性或序列互补性。在一些实施例中,所述少于20个脱靶基因组区域使用k-mer接种策略识别。在一些实施例中,所述少于20个脱靶基因组区域使用k-mer接种策略结合在多个接种位置处的局部比对来识别。
在一些实施例中,所述化验板包含至少100、200、300或400个探针。在一些实施例中,所述至少500对探针或所述至少100个探针同时包含至少1万、2万或5万个核苷酸。在一些实施例中,所述化验板上的所述多个探针中的每一个包含至少50、75、100或120个核苷酸。在一些实施例中,所述化验板上的所述多个探针中的每一个包含少于300、250、200或150个核苷酸。在一些实施例中,所述化验板上的所述多个探针中的每一个包含100至150个核苷酸。
在一些实施例中,所述化验板还包含:多个病毒特异性探针,其中所述多个病毒特异性探针中的每一个被配置为与来自cfDNA的一病毒基因组片段杂交。在一些实施例中,所述病毒基因组片段来自MCV、EBV、HBV、HCMV、HCV、HHV5、HPV16或HPV18。在一些实施例中,所述化验板包含至少50、100、200、500、1000、2000或3000个病毒特异性探针。
在一些实施例中,所述一个或多个基因组区域中的每一个选自表2至10或表16至24中的所述多个基因组区域中的一个或多个。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表2至10或表16至24的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表2至10或16至24中的一个或多个中的至少50、60、70、80、90、100、120、150或200个基因组区域的所述多个cfDNA分子获得。
附图说明
图1A示出了根据一个实施例,2×个平铺探针的设计,在一标靶区域(框在虚线矩形内)中的每个基部正好被两个探针覆盖。
图1B示出了根据一个实施例,在多个基因组区域中标靶低甲基化(hypomethylated)和/或高甲基化(hypermethylated)的多个片段的探针设计。
图2是根据一个实施例,描述生成癌症化验板的一程序的示意图。
图3A是根据一个实施例,描述为一对照组创建一数据结构的一程序的流程图。
图3B是根据一个实施例,描述验证图3A的所述对照组的所述数据结构的一附加步骤的流程图。
图4是根据一个实施例,描述用于选择多个基因组区域以用于设计多个探针从而用于一癌症化验板的一程序的流程图。
图5是根据一个实施例,示例p值得分计算的图示。
图6A是根据一个实施例,描述基于表示癌症的低甲基化和高甲基化的多个片段的训练一分类器的一程序的流程图。
图6B是根据一个实施例,描述由多个概率模型确定来识别表示癌症的多个片段的一程序的流程图。
图7A是根据一个实施例,描述对无细胞DNA(cfDNA)的一片段进行测序的一程序的流程图。
图7B是根据一个实施例,图7A对无细胞DNA(cfDNA)的一片段进行测序以获得一甲基化状态向量的一程序的图示。
图8A是根据一个实施例,用于多个核酸样本测序的多个装置的流程图。
图8B是根据一个实施例,提供分析cfDNA的甲基化状态的一分析系统。
图9是根据取决于多个DNA片段和多个探针之间重叠的大小,所述多个DNA片段杂交到所述多个探针上的数量的一图表。
图10比较了标靶高甲基化的多个片段(高(Hyper))或低甲基化的多个片段(低(Hypo))的探针中高质量(高Q(high Q))、低质量(低Q(low Q))和劣质(差Q(poor Q))的探针的数量。
图11A、11B和11C包含显示针对不同癌症阶段和癌症类型的各种癌症确定的癌症对数概率比(log-odds ratio)的图表。
图12总结了多个标靶基因组区域(黑色)和多个随机选择区域(灰色)的多个基因组注释(genomic annotation)的频率。
图13A和13B示出了验证从一对照组测序的一致性来数据验证的三张图表。
图14A示出了适用于三种不同来源的数据-M得分.测试V1(Mscore.testV1)、M得分.测试V1.cv(Mscore.testV1.cv)和M得分.测试V1.cv.平板(Mscore.testV1.cv.panel)的癌症分类在95%特异性的敏感度。
图14B显示了三个不同数据集上用于癌症分类器性能分析的接收者操作特性(ROC)曲线。
图中描述了本说明书的各种实施例仅用于说明。本领域技术人员将容易地从下面的讨论中认识到,在不脱离本文所描述的原理的情况下,可以使用本文所示的结构和方法的替代实施例。
具体实施方式
定义
除非另有定义,否则本文使用的所有技术和科学术语具有本说明书所属领域的技术人员通常理解的含义。如本文所用,以下术语具有如下所述含义。
本文中使用的术语“甲基化(methylation)”是指将甲基添加到DNA分子中的程序。DNA的四个碱基中的两个,胞嘧啶(“C”)和腺嘌呤(“A”)可以被甲基化。例如,胞嘧啶碱基的嘧啶环上的一氢原子可以转化为一甲基,以形成5-甲基胞嘧啶。甲基化倾向于发生在本文中称为“CpG位点”的胞嘧啶和鸟嘌呤的二核苷酸处。在其他情况下,甲基化可能发生在胞嘧啶不属CpG位点处或者在不是胞嘧啶的另一个核苷酸处;然而,这些情况较为少见。在本发明公开中,为了清楚起见,甲基化关于多个CpG位点进行讨论。然而,本文描述的原理同样适用于检测非CpG背景下的甲基化,包含非胞嘧啶甲基化。例如,腺嘌呤甲基化已经在细菌、植物和哺乳动物的DNA中被观察到,尽管它受到的关注要少得多。
在这些实施例中,用于检测甲基化的湿实验室(wet laboratory)化验可不同于如本文所述本领域公知的那些。此外,甲基化状态向量可包含多个元素,所述多个元素通常是甲基化已发生或未发生的多个位点的向量(即使这些位点不是特定的CpG位点)。使用所述取代,本文所述的其余程序是相同的,因此本文所述的创造性概念适用于那些其它形式的甲基化。
本文中使用的术语“甲基化位点(methylation site)”是指DNA分子上可以添加甲基的位点。“CpG”位点是最常见的甲基化位点,但甲基化位点并不局限于CpG位点。
例如,DNA甲基化可能发生在CHG和CHH的胞嘧啶中,其中H为腺嘌呤、胞嘧啶或胸腺嘧啶。也可使用本文公开的方法和程序来评估5-羟甲基胞嘧啶形式的胞嘧啶甲基化(例如,参见通过引用并入本文中的PCT专利申请案公开第WO 2010/037001号和第WO 2011/127136号)及其特征。
本文中使用的术语“CpG位点(CpG site)”是指DNA分子中的一个区域,其中胞嘧啶核苷酸在碱基的线性序列沿其5’至3’方向排列后接鸟嘌呤核苷酸。“CpG”是5’-C-磷酸盐-G-3’(5’-C-phosphate-G-3’)的简写,它是由仅有一个磷酸基分开的胞嘧啶和鸟嘌呤;磷酸盐将DNA中的任何两个核苷酸连接在一起。CpG二核苷酸中的多个胞嘧啶可以被甲基化形成5-甲基胞嘧啶。
本文中使用的术语“CpG检测位点(CpG detection site)”是指一个探针中被配置成与一个标靶DNA分子的一个CpG位点杂交的一个区域。在所述标靶DNA分子上的所述CpG位点可以包含由一个磷酸基分离的胞嘧啶和鸟嘌呤,其中胞嘧啶被甲基化(methylated)或未甲基化(unmethylated)。在标靶DNA分子上的CpG位点可包含通过一个磷酸基分离的尿嘧啶和鸟嘌呤,其中尿嘧啶是通过未甲基化的胞嘧啶的转化生成。
术语“UpG”是5’-U-磷酸盐-G-3’(5’-U-phosphate-G-3’)的简写,即尿嘧啶和鸟嘌呤仅由一个磷酸基分开。UpG可由一个DNA通过一亚硫酸氢盐处理产生,将未甲基化的胞嘧啶转化为尿嘧啶。胞嘧啶可通过本领域已知的其他方法转化为尿嘧啶,例如化学修饰或合成。
本文中使用的术语“低甲基化(hypomethylated)”或“高甲基化(hypermethylated)”是指含有多个CpG位点(例如超过3、4、5、6、7、8、9、10个等)的一个DNA分子的甲基化状态,其中所述多个CpG位点的高百分比(例如,超过80%、85%、90%或95%,或在50%至100%范围内的任何其他百分比)分别为未甲基化或甲基化。
本文中使用的术语“甲基化状态向量(methylation state vector或methylationstatus vector)”是指包含多个元素的一向量,其中每个元素表示由包含多个甲基化位点的一个DNA分子中一个甲基化位点的甲基化状态,其顺序是在DNA分子中出现从5’到3’。例如,<Mx,Mx+1,Mx+2>、<Mx,Mx+1,Ux+2>、...、<Ux,Ux+1,Ux+2>可以是包含三个甲基化位点的多个DNA分子的多个甲基化向量,其中M代表甲基化位点,U代表未甲基化位点。
本文中使用的术语“异常甲基化模式(abnormal methylation pattern或anomalous methylation pattern)”是指一甲基化状态向量或具有所述甲基化状态向量的一DNA分子的一甲基化状态,其期望在一样本中发现的频率低于一阈值。在本文提供的特定实施例中,在包含多个健康个体的一健康对照组中找到一特定甲基化状态向量的期望值由p值(p-value)表示。因此,低p值得分通常对应于与健康对照组中来自多个健康个体的多个样本中的其他甲基化状态向量相比相对意外的甲基化状态向量。高p值得分通常对应于与健康对照组中的多个健康个体的多个样本中发现的其他甲基化状态向量相比相对更期望的甲基化状态向量。一甲基化状态向量具有一p值低于一阈值(例如,0.1、0.01、0.001、0.0001等),则可以将其定义为一异常甲基化模式。本领域已知的各种方法可用于计算甲基化模式或甲基化状态向量的p值或期望值。本文提供的示例性方法涉及使用马尔可夫链概率(Markov chain probability),其假设多个CpG位点的多个甲基化状态依赖于相邻的多个CpG位点的多个甲基化状态。本文提供的替代方法通过使用包含多个混合组分的一混合模型来计算观察在多个健康个体中一特定甲基化状态向量的期望值,其中每个混合组分都是一个独立位点模型,其中假设每个CpG位点处的甲基化与其他CpG位点处的甲基化状态相独立。
本文提供的方法使用具有一异常甲基化模式的多个基因组区域。当与一基因组区域相对应或起源于所述基因组区域的多个cfDNA片段具有多个甲基化状态向量,其出现频率低于多个参考样本中的一阈值时,可确定所述基因组区域具有一异常甲基化模式。所述多个参考样本可为来自多个对照组对象或多个健康对象的样本。在所述多个参考样本中一甲基化状态向量出现的频率可以用一p值得分来表示。当对应于或起源于所述基因组区域的多个cfDNA片段不具有单一的、一致的甲基化状态向量时,所述基因组区域可具有多个甲基化状态向量的多个p值得分。在这种情况下,在与所述阈值进行比较之前,可以对所述多个p值得分进行加总或求平均。可以采用本领域已知的各种方法来比较对应于所述基因组区域和所述阈值的多个p值得分,包含但不限于算术平均值、几何平均值、调和平均值、中位数、众数等。
本文中使用的术语“癌性样本(cancerous sample)”是指包含来自被诊断为具有癌症的一个体的多个基因组DNA的样本。所述多个基因组DNA可以是但不限于多个cfDNA片段或来自具有癌症的一对象的多个染色体DNA。所述多个基因组DNA可被测序并且其甲基化状态可通过本领域已知的方法(例如亚硫酸氢盐测序)来评估。当多个基因组序列是从公共数据库(例如,癌症基因组图谱(The Cancer Genome Atlas,TCGA))中获得的,或通过对被诊断为具有癌症的一个体的一基因组进行测序实验而获得,癌性样本可以指具有所述多个基因组序列的多个基因组DNA或多个cfDNA片段。术语“多个癌性样本”作为复数是指包含来自多个个体的多个基因组DNA的多个样本,每个个体被诊断为具有癌症。在各种实施例中,使用来自100、300、500、1000、10000、20000、40000、50000个或更多个诊断为具有癌症的个体的多个癌性样本。
本文中使用的术语“非癌性样本(non-cancerous sample)”是指包含来自没被诊断为具有癌症的一个体的多个基因组DNA的一样本。所述多个基因组DNA可以是,但不限于来自不具有癌症的一对象的多个cfDNA片段或多个染色体DNA。所述多个基因组DNA可被测序并且其甲基化状态可通过本领域已知的方法(例如亚硫酸氢盐测序)来评估。当多个基因组序列是从公共数据库(例如,癌症基因组图谱(TCGA))中获得的,或通过对不具有癌症的一个体的一基因组进行测序实验而获得,非癌性样本可以指具有所述多个基因组序列的多个基因组DNA或多个cfDNA片段。术语“多个非癌性样本”作为复数是指包含来自多个个体的多个基因组DNA的多个样本,每个个体没被诊断为具有癌症。在各种实施例中,使用来自100、300、500、1000、10000、20000、40000、50000个或更多个不具有癌症的个体的癌性样本。
本文中使用的术语“训练样本(training sample)”是指用于训练本文所述的一分类器和/或以选择用于癌症诊断的一个或多个基因组区域的样本。所述多个训练样本可包含来自一个或多个健康对象以及具有用于诊断(例如,癌症、癌症的特定类型、癌症的特定阶段等)的一疾病状况的一个或多个对象。所述多个基因组DNA可以是但不限于多个cfDNA片段或多个染色体DNA。所述多个基因组DNA可被测序并且其甲基化状态可通过本领域已知的方法(例如亚硫酸氢盐测序)来评估。当多个基因组序列是从公共数据库(例如,癌症基因组图谱(TCGA))获得,或通过对一个体的一基因组进行测序实验而获得,一训练样本可以指具有所述多个基因组序列的多个基因组DNA或多个cfDNA片段。
本文中所述的“测试样本(test sample)”是指来自一对象的一样本,其健康状况已经、已被或将要使用本文所述的一分类器和/或一化验板进行测试。所述测试样本可以包含多个基因组DNA或其修饰。所述多个基因组DNA可以是但不限于多个cfDNA片段或多个染色体DNA。
本文中使用的术语“标靶基因组区域(target genomic region)”是指在一基因组中选择用于设计要包含在一化验板中的一探针的一区域。所述探针可被设计成与对应于或衍生自所述标靶基因组区域或其一片段的一核酸片段相杂交(并可选地下拉(pulldown))。对应于或衍生自所述标靶基因组区域的一核酸片段是指通过所述标靶基因组区域的降解、裂解或其他生物处理而产生的一核酸片段,或具有与所述标靶基因组区域同源或互补的一序列的一核酸片段。
本文所用的术语“脱靶基因组区域(off-target genomic region)”是指在一基因组中未曾被选择以用于设计要包含在一化验板中的一探针的一区域,但与一标靶基因组区域具有足够的同源性,而可通过设计用于标靶所述标靶基因组区域的一探针被绑定和下拉。在一个实施例中,所述脱靶基因组区域是一基因组区域,所述基因组区域与一探针沿着至少45碱基对(bp)具有至少匹配率为90%对准。
术语“无细胞核酸(cell free nucleic acid)”、“无细胞DNA(cell free DNA)”或“cfDNA”指的是在个体身体(例如血流)中循环并源自于一个或多个健康细胞和/或一个或多个癌细胞的多个核酸片段。此外,cfDNA可能来自其他来源,如病毒、胎儿等。
术语“转化DNA分子(converted DNA molecules)”、“转换cfDNA分子(convertedcfDNA molecules)”,或“从多个cfDNA分子的处理中获得的修饰片段”是指在一化学反应中通过处理样本中的多个DNA或cfDNA分子获得多个DNA分子,以区分所述多个DNA或cfDNA分子中的一甲基化核苷酸和一未甲基化核苷酸。例如,在一个实施例中,可以使用本领域已知的亚硫酸氢钠离子(例如,使用亚硫酸氢钠)处理样本,将未甲基化胞嘧啶(“C”)转化为尿嘧啶(“U”)。在另一实施例中,使用酶转化反应,例如使用胞苷脱氨酶(例如APOBEC)来完成未甲基化胞嘧啶到尿嘧啶的转换。处理后,转化的DNA分子或cfDNA分子包含原始cfDNA样本中不存在的额外尿嘧啶。
术语“循环肿瘤DNA(circulating tumor DNA)”或“ctDNA”是指源于肿瘤细胞或其他类型细胞的核酸片段,这些片段可能由于生物学过程(例如死亡细胞凋亡或坏死或活的肿瘤细胞主动释放)而释放到个体血液中。
术语“个体(individual)”是指人的个体。术语“健康个体”是指没有癌症或疾病的个体。
术语“对象(subject)”是指正在分析DNA的个体。一对象可以是一个测试对象,其DNA可以使用本文所述的标靶化验板(panel)进行评估,以评估那个人是否患有癌症或其他疾病。一对象也可能是已知没有癌症或其他疾病的一对照组的一部分。一对象也可能是已知具有癌症或另一种疾病的一癌症或其他疾病组的一部分。对照组和癌症/疾病组可用于协助设计或验证标靶化验板。
本文所用的术语“多个序列读数(sequence reads)”是指从一样本中读取的多个核苷酸序列。可以通过本文提供的各种方法或本领域已知的方法来获得多个序列读数。
本文所使用的术语“测序深度(sequencing depth)”是指在一样本中已被测序的一给定标靶核酸的计数的次数(例如,在一给定标靶区域读取的序列计数)。增加测序深度可以减少评估一疾病状态(例如癌症或起源组织)所需的标靶核酸的数量。
本文所使用的术语“起源组织(tissue of origin)”或“TOO”是指癌症产生或来源的器官、器官群组、身体区域或细胞类型。起源组织或癌细胞类型的识别通常允许识别癌症连续护理中最合适的下一步步骤,以进一步诊断、分期和决定治疗。
一化验板或诱饵组的“多个探针的一整体”或一化验板或诱饵组的“多个含有多核苷酸的探针的一整体”通常是指与特定化验板或诱饵组一起提供的所有探针。例如,在一些实施例中,一化验板或诱饵集可以同时包含:(1)多个探针,具有本文特定的多个特征(例如,用于与对应于或源自于本文阐述的一个或多个表中多个基因组区域的多个无细胞DNA片段结合的多个探针);及(2)不包含这样(多个)特征的另外的多个探针。一化验板的多个探针的整体通常是指与所述化验板或诱饵组一起提供的所有探针,包含不含有特定的(多个)特征的探针。
其他解释惯例
本文所叙述的范围应理解为该范围内所有数值的简写形式,包含所叙述的端点。例如,范围1到50应该理解为包含从1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30、31、32、33、34、35、36、37、38、39、40、41、43、44、45、46、47、48、49和50组成的群组中的任何数字、多个数字的组合或其子范围。
癌症化验板
在第一方面,本说明书提供一种癌症化验板(例如,一诱饵组),包含多个探针或多个探针对。所述多个探针可以是多个含有多核苷酸的探针,所述多个含有多核苷酸的探针特定地设计用于标靶一个或多个核酸分子,所述一个或多个核酸分子对应于或源自于在癌症和非癌性样本之间、不同类型癌症起源组织之间、不同类型癌细胞之间或不同癌症阶段的样本之间的差异甲基化的多个基因组区域,如本文提供的方法所识别。在一些实施例中,多个探针标靶具有特定于一癌症类型的多个甲基化模式的多个基因组区域(或由此衍生的多个核酸分子),例如,(1)血癌、(2)乳腺癌、(3)结直肠癌、(4)食管癌、(5)头颈癌、(6)肝胆癌、(7)肺癌、(8)卵巢癌、或(9)胰腺癌。在一些实施例中,所述化验板包含标靶特定于单一癌症类型的多个基因组区域的多个探针。在一些实施例中,所述化验板包含特定于2、3、4、5、6、7、8或9种或更多种癌症类型的多个探针。在一些实施例中,选择多个标靶基因组区域以使分类准确度最大化,受到尺寸限制(可由测序预算和所需测序深度确定)。
示例性癌症化验板的设计特征和潜在效用如图2所示。为了设计所述癌症化验板,一分析系统可以收集与正在考虑的各种结果相对应的多个样本,例如已知患有癌症的多个样本,被认为是健康的多个样本,来自已知起源组织的多个样本等。这些样本可以用全基因组亚硫酸氢盐测序(WGBS)处理或从公共数据库(如TCGA)中获得。所述分析系统可以是具有一计算机处理器和一计算机可读存储介质的任何通用计算系统,具有用于执行所述计算机处理器以执行本公开所述的任何或所有操作的多个指令。关于所述多个样本,所述分析系统确定所述样本中每个核酸片段的一个或多个CpG位点处的甲基化状态。然后,所述分析系统可以基于多个核酸片段的多个甲基化模式选择多个标靶基因组区域。一种方法考虑多个区域或更具体地一个或多个CpG位点的成对结果之间的成对分辨率。另一种方法在考虑每个结果相对于其余结果时,考虑多个区域或更具体地一个或多个CpG位点的分辨率。从所选择的具有高分辨率能力的多个标靶基因组区域,所述分析系统可以设计多个探针以标靶包含所选的多个基因组区域的多个核酸片段。所述分析系统可以生成不同尺寸的癌症化验板,例如,一小型尺寸癌症化验板包含标靶信息最丰富的基因组区域的多个探针,一中型尺寸癌症化验板包含来自所述小型尺寸癌症化验板的多个探针和标靶第二级信息的基因组区域的多个附加探针,以及一大型癌症化验板包含来自所述小型尺寸和所述中型尺寸癌症化验板的多个探针,以及更多标靶第三级信息的基因组区域的多个探针。利用这种癌症化验板,所述分析系统可以训练具有各种分类技术的多个分类器,以预测一样本具有一特定结果(例如癌症、特定癌症类型、其他疾病等)的可能性。
具体而言,在一些实施例中,所述癌症化验板包含至少50对探针,其中所述至少50对探针中的每一对包含两个探针,被配置为通过一重叠序列彼此相互重叠,其中所述重叠序列包含30个核苷酸的一序列,被配置成与从对应于一个或多个基因组区域的处理的多个cfDNA分子获得的一修饰片段杂交,其中所述多个基因组区域中的每一个包含至少5个甲基化位点,其中所述至少5个甲基化位点在多个训练样本中具有一异常甲基化模式。换句话说,当分析与所述基因组区域相对应的多个训练样本中的多个cfDNA分子时,它们具有多个甲基化状态向量出现的频率低于多个参考样本中的一阈值。
在其他实施例中,所述癌症化验板包含至少500对探针,其中所述至少500对探针中的每一对包含两个探针,被配置为通过一重叠序列彼此相互重叠,其中所述重叠序列包含30个核苷酸的一序列,被配置成与从对应于一个或多个基因组区域的处理的多个cfDNA分子获得的一修饰片段杂交,其中所述多个基因组区域中的每一个包含至少5个甲基化位点,其中所述至少5个甲基化位点在多个训练样本中具有一异常甲基化模式。同样,当分析与所述基因组区域相对应的多个训练样本中的多个cfDNA分子时,它们具有多个甲基化状态向量出现的频率低于多个参考样本中的一阈值。
在优选实施例中,所述至少5个甲基化位点在癌性和非癌性样本之间或在来自不同癌症类型的一对或多对样本之间为差异甲基化。在一些实施例中,转化的多个cfDNA分子包含多个cfDNA分子被处理(例如,通过亚硫酸氢盐处理)以将未甲基化的C(胞嘧啶)转化为U(尿嘧啶)。在某些情况下,尿嘧啶进一步转化为胸腺嘧啶(例如,通过PCR扩增)。
由于所述多个探针被配置成与对应于或衍生自一个或多个基因组区域的一转化的DNA或cfDNA分子杂交,因此所述多个探针可以具有不同于所述标靶基因组区域的一序列。例如,含有未甲基化的CpG位点的一DNA分子将转换后为包含UpG,因为未甲基化的多个胞嘧啶通过一转化反应(例如亚硫酸氢盐处理)转化为多个尿嘧啶。结果,一探针被配置成杂交到包含UpG的一序列,而不是自然存在的未甲基化的CpG。因此,所述探针中与所述未甲基化位点的一互补位点可以包含CpA而不是CpG,及标靶所有甲基化位点都未甲基化的一低甲基化位点的一些探针可以没有鸟嘌呤(G)碱基。在一些实施例中,所述多个探针的至少3%、5%、10%、15%、20%、30%或40%缺少G(鸟嘌呤)。在一些实施例中,所述化验板上所述多个探针的至少80、85、90、92、95、98%在多个CpG检测位置上仅具有CpG或仅具有CpA。因此,在一些实施例中,多个含有多核苷酸的探针具有一核酸序列(1)与一标靶基因组区域(例如,表1至24中所列的多个标靶基因组区域)中的一序列在序列上相同,或者(2)相对于所述基因组区域中的一序列仅一个或多个转换(transition)(例如,由于亚硫酸氢盐转化或其他转化技术而在一位点处碱基组成的改变)变化,其中,一个或多个转换中的每一个相应的转换发生在与所述基因组区域中一CpG位点相对应的一核苷酸处。
在一些实施例中,所述化验板上的多个探针包含少于20、15、10、8或6个CpG检测位置。在一些实施例中,所述化验板上的多个探针包含5、6、7、8、9或10个以上的CpG检测位置。
在一些实施例中,多个探针接合到一标记(tag)(例如,一非核酸亲和部分),例如一生物素部分。
所述癌症化验板可用于通常检测癌症的存在或不存在,和/或提供一癌症分类(例如癌症类型、或癌症阶段(如I、II、III或IV)、或癌症的起源处。所述化验板可以包含多个探针,所述多个探针标靶从衍生自多个一般癌性(泛癌)样本和多个非癌性样本,或仅具有特定癌症类型(例如多个肺癌特定标靶)的多个癌性样本之间的差异甲基化的多个基因组区域的多个核酸。例如,在一些实施例中,一癌症化验板被设计用于在基于从癌症和非癌症个体的cfDNA生成的亚硫酸氢盐测序数据识别的多个癌性样本中扩增(enrich)衍生自差异甲基化的多个基因组区域的多个核酸。
所述多个探针(或探针对)中的每一个都可以设计成标靶衍生自一个或多个标靶基因组区域的多个核酸。所述多个标靶基因组区域基于几个标准被选择,这些标准旨在增加信息的多个cfDNA片段的选择性扩增,同时减少噪声和非特异性结合。
在一个示例中,一化验板可以包含多个探针,所述多个探针能够选择性地杂交(即,结合)和扩增多个癌性样本中差异甲基化的多个cfDNA片段。在这种情况下,对扩增的多个片段进行测序可以提供与癌症诊断相关的信息。此外,所述多个探针被设计成标靶在多个癌性样本中,或者在某些类型组织或细胞类型的多个样本中被确定具有一异常甲基化模式的多个基因组区域。在一个实施例中,多个探针被设计用于标靶在某些癌症或癌症起源组织中被确定为高甲基化或低甲基化的多个基因组区域,以提供检测的额外选择性和特异性。在一些实施例中,一化验板包含标靶多个低甲基化片段的多个探针。在一些实施例中,一化验板包含标靶多个高甲基化片段的多个探针。在一些实施例中,一化验板包含标靶多个高甲基化片段的一第一组的多个探针和标靶多个低甲基化片段的一第二组的多个探针(图1B)。在一些实施例中,标靶所述多个高甲基化片段的所述第一组的所述多个探针与标靶所述多个低甲基化片段的所述第二组的所述多个探针之间的比率(高∶低比率(Hyper∶Hyporatio))范围为0.4和2之间、0.5和1.8之间、0.5和1.6之间、1.4和1.6之间、1.2和1.4之间、1和1.2之间、0.8和1之间、0.6和0.8之间或0.4到0.6之间。
多种识别产生异常甲基化DNA分子或差异甲基化DNA分子的多个基因组区域(即在癌症和非癌性样本之间、在不同类型的癌症起源组织之间、在不同类型的癌细胞之间、或在不同癌症阶段的多个样本之间)的方法在标题为“选择标靶的基因组区域的方法”一节中详细提供,及识别异常甲基化的多个DNA分子或多个片段的方法,所述异常甲基化的多个DNA分子或多个片段被识别为表示癌症,其在标题为“异常甲基化片段”的一节中及标题为“异常甲基化片段的过滤”的一节中详细提供。
在第二个示例中,当多个基因组区域在多个癌症样本或已知一类型的癌症的多个样本中产生异常甲基化的多个DNA分子时,所述多个基因组区域可以被选择。例如,如本文所述,一马尔可夫(Markov)模型在一组的多个参考样本(例如,来自健康对象的多个样本)上训练可用于识别多个基因组区域,所述多个基因组区域产生异常甲基化的多个DNA分子(即具有低于p值阈值的一甲基化模式的多个DNA分子)。
所述多个探针中的每一个可标靶一基因组区域,所述基因组区域包含至少30bp、35bp、40bp、45bp、50bp、60bp、70bp、80bp、90bp、100bp或更多。在一些实施例中,所述多个基因组区域可以被选择以具有少于30、25、20、15、12、10、8或6个甲基化位点。
当所述区域内所述至少5个甲基化(例如,CpG)位点的至少80%、85%、90%、92%、95%或98%在非癌性或癌性的多个样本、一特定癌症类型的多个癌症样本中是甲基化或未甲基化时,所述多个基因组区域可以被选择。
多个基因组区域可进一步被过滤(filtered),以基于其甲基化模式仅选择可能提供信息的那些,例如,癌性和非癌性的多个样本之间(例如,癌症与非癌症中异常甲基化或未甲基化)、一起源组织的多个癌性样本和不同的一起源组织的多个癌性样本之间的差异化甲基化的多个CpG位点,或仅在一特定类型的多个癌性样本中差异甲基化的多个CpG位点。对于选择,可以相对于每个CpG位点或多个CpG位点执行计算。例如,一第一计数可以被确定为含有癌症的多个样本的数量(癌症计数(cancer_count)),其包含与该CpG重叠的一片段,及一第二计数被确定为含有与该CpG位点重叠的多个片段的总样本的数量(总计(total))。多个基因组区域可以基于与含有癌症的多个样本的数量(癌症计数)(其包含表示癌症的一片段,所述片段与该CpG位点相重叠)成正相关,及与含有表示癌症的多个片段(与该CpG位点相重叠)的总样本的数量(总计(total))成反相关的标准进行选择。在一个实施例中,非癌性样本的数量(nnon-cancer)和具有与一CpG位点相重叠的一片段的癌性样本的数量(ncancer)被计数。然后估计一样本是癌症的概率,例如如同(ncancer+1)/(ncancer+nnon-cancer+2)。
按此衡量(metric)计算的多个CpG位点可以进行排名并贪婪地(greedily)添加到一化验板中,直到所述化验板尺寸的预算(budget)用尽。选择表示癌症的多个基因组区域的程序在标题为“表示癌症的多个基因组区域和分类器”的一节中进一步详细说明。
在挑选哪些CpG位点构成所述化验板时,取决于所述化验是打算进行泛癌化验(pan-cancer assay)还是单个癌症化验,或取决于需要何种灵活性。用于诊断一特定癌症类型的一化验板可以用类似的程序设计。在本实施例中,对于每种癌症类型和对于每个CpG位点,计算信息增益(gain)以确定是否包含标靶该CpG位点的一探针。信息增益可以对具有一给定癌症类型的起源组织的多个样本与所有其他样本相比来计算。例如,两个随机变量“AF”及“CT”。“AF”是一个二进制变量,它表示在一特定样本中是否存在与一特定的CpG位点重叠的一异常片段(是或否)。“CT”是一个二进制随机变量,表于癌症是否属一特定类型(例如肺癌或肺癌以外的癌症)。在给定“AF”的情况下,可以计算关于“CT”的相互信息。也就是说,如果知道是否有一异常片段与一特定的CpG位点相重叠,就可以得到多少关于癌症类型(示例中是肺癌与非肺癌)的信息。这可以用来基于肺特异性对CpG进行排名。这个过程是对于多种癌症类型重复的。如果一特定区域通常仅在肺癌(而不是其他癌症类型或非癌症)中差异甲基化,那么该区域的CpG对于肺癌会倾向具有高信息增益。对于每一种癌症类型,通过此信息增益衡量对多个CpG位点排名,然后贪婪地添加到一化验板中,直到该癌症类型的尺寸预算耗尽。
可以执行进一步的过滤,以选择具有高特异性的多个探针以用于从标靶的多个基因组区域衍生的多个核酸的扩增(即高结合效率)。多个探针可以被过滤以减少从非标靶的多个基因组区域衍生的多个核酸的非特异性结合(或脱靶(off-target)结合)。例如,可以对多个探针进行过滤,以仅选择具有小于多个脱靶结合事件的一设定阈值的那些探针。在一个实施例中,多个探针可以与一参考基因组(例如,一人类参考基因组)相对准,以选择与所述基因组中小于一设定阈值的多个区域的探针相对准的多个探针。例如,可以选择与所述参考基因组中少于25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9或8个脱标靶区域域相对准的多个探针。在其他情况下,当所述多个标靶基因组区域的一序列在一基因组中出现多于5、10、15、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35次时,执行过滤以移除多个基因组区域。当一序列或一组的多个序列与所述多个标靶基因组区域的同源性为90%、91%、92%、93%、94%、95%、96%、97%、98%或99%时,在一参考基因组中出现少于25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9或8次,可以执行进一步过滤以选择多个标靶基因组区域,或当所述序列或一组的多个序列与所述多个标靶基因组区域的同源性为90%、91%、92%、93%、94%、95%、96%、97%、98%或99%时,在一参考基因组中出现多于5、10、15、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35次,可以执行进一步过滤以移除多个标靶基因组区域。这是为了排除可能下拉多个脱靶片段的多个探针,其是不需要且会影响化验效率。
如实施例1所示,至少45bp的一片段-探针重叠可产生不可忽略的下拉数量(尽管此数字可能因化验细节而异)。因此,在一些实施例中,多个探针的长度至少为45个碱基对。在一些实施例中,重叠区域中所述探针和多个片段序列之间超过10%的不匹配率足以极大地破坏结合,从而拉低效率。因此,可以沿着至少45bp且匹配率至少为90%与探针对准的序列是对于脱靶下拉的理想对象。因此,在一个实施例中,对这些区域的数量进行评分。最佳的探针得分为1,这意味着它们只在一个地方(预期的标靶区域)匹配。得分较低(例如,小于5或10)的探针被接受,但任何高于该得分的探针都将被丢弃。其他截止值可用于特定样本。
一旦所述多个探针与对应于或衍生自一标靶基因组区域的多个DNA片段杂交并捕获,杂交的探针-DNA片段的中间产物被下拉(或分离),并对所述标靶DNA进行扩增和测序。序列读数提供了与癌症诊断相关的信息。为此,一化验板被设计以包含多个探针,所述多个探针可以捕获多个片段,所述多个片段可以共同提供与癌症诊断相关的信息。在一些实施例中,一化验板包含至少50、60、70、80、90、100、120、150或200对不同的探针。在其他实施例中,一化验板包含至少500、1000、2000、2500、5000、6000、7500、10000、15000、20000、25000或50000对不同的探针。在一些实施例中,一化验板包含至少100、120、140、160、180、200、240、300或400个不同的探针。在其他实施例中,一化验板包含至少1000、2000、5000、10000、12000、15000、20000、30000、40000、50000或100000个不同的探针。多个探针加在一起可以包含至少1万、2万、3万、4万、5万、10万、20万、40万、60万、80万、100万、200万、300万、400万、500万、600万、700万、800万、900万或1000万个核苷酸。
所选的多个标靶基因组区域可位于一基因组的不同位置,包含但不限于外显子、内含子、基因间区域和其他部分。在一些实施例中,可以添加标靶多个非人类基因组区域(例如标靶病毒基因组区域)的多个探针。
探针
本文提供的多种癌症化验板(例如,多种诱饵组)可以包含一组的多个杂交探针(在本文中也称为“多个探针”),其设计用于在扩增(enrichment)、标靶(target)及下拉(pull down)(例如,通过杂交捕获)用于化验的感兴趣多个核酸片段。在一些实施例中,所述多个探针被设计用于与从具有癌症的一对象或具有一特定癌症类型的一对象的多个样本中的DNA或cfDNA的多个分子的处理中获得的一修饰片段相杂交和扩增。所述处理步骤可将未甲基化胞嘧啶(C)转化为尿嘧啶(U)。所述多个探针可以被设计与所述修饰片段(例如DNA或RNA)的一标靶(互补)链(strand)进行退火(anneal)(或杂交)。所述标靶链可以是“正(positive)”链(例如,转录成mRNA的链,随后转化为蛋白质)或互补的“负(negative)”链。在一个特定实施例中,一癌症化验板包含两个探针组,一个探针标靶正链,另一个探针标靶一标靶基因组区域的负链。
对于每个标靶基因组区域,可以设计四个可能的探针序列。对应于或衍生自每个标靶区域的多个DNA分子是双链的,因此,一探针或探针组可以标靶“正(positive)链”或正链(forward strand)或其互补的反(reverse)链(“负(negative)”链)。此外,在一些实施例中,所述多个探针或多个探针组被设计用于扩增经处理的多个DNA分子或多个片段以将未甲基化的胞嘧啶(C)转化为尿嘧啶(U)。因为所述多个探针或多个探针组设计以扩增对应于或衍生自所述多个标靶区域转换后的多个DNA分子,所述探针的序列可以设计成扩增多个片段的多个DNA分子,其中未甲基化的C已经转换后为U(通过在对应于或衍生自所述多个标靶区域的多个DNA分子或多个片段中未甲基化的胞嘧啶的位点利用A来代替G)。在一个实施例中,多个探针设计为与已知的多个含有癌症特异性甲基化模式(例如,高甲基化或低甲基化的多个DNA分子)的多个基因组区域的多个DNA分子或多个片段结合或杂交,从而扩增癌症特异性的多个DNA分子或多个片段。标靶多个基因组区域,或癌症特异性的多个甲基化模式,可以是有利的,允许特异性地扩增被识别为癌症或癌症起源组织信息的多个DNA分子或多个片段,从而降低测序需求和测序成本。在其它实施例中,可针对每个标靶基因组区域设计两个探针序列(一个用于每个DNA链)。在其他情况下,多个探针被设计用于扩增对应于或衍生自一标靶区域的所有DNA分子或片段(即,无论链或甲基化状态如何)。这可能是因为所述癌症甲基化状态不是高度甲基化或未甲基化,或者是因为所述多个探针被设计标靶小突变或其他变异,而不是甲基化变化,这些其他变化类似地表示一癌症的存在或不存在,或一癌症的一个或多个起源组织的存在或不存在。在这种情况下,所有四个可能的探针序列可以被包含在每一个标靶基因组区域。
例如,用于杂交捕获的多种癌症化验板(例如多种诱饵组)可以包含多个含有多核苷酸的探针,所述多个含有多核苷酸的探针中的每个探针包含一核酸序列,所述核酸序列为(1)与一基因组区域内的一序列在序列上相同(例如,表1至24中的任何一个所列的一基因组区域)或(2)所述基因组区域中相对于一序列仅通过一个或多个转换(transition)而变化,其中所述一个或多个转换中的每个相应的转换发生在对应于一基因组区域中的一CpG位点的一核苷酸处。在序列上与一基因组区域内的一序列相同的多个探针可用于与“完全甲基化”的无细胞DNA分子结合,其中没有任何胞嘧啶碱基转化为尿嘧啶。相反地,具有与相对于所述基因组区域中的一序列仅通过一个或多个转换(例如,在多个CpG位点处)而变化的一核酸序列的多个探针可用于与部分或完全的多个甲基化探针结合,其中一个或多个(例如,所有的)胞嘧啶为未甲基化,且随后通过一脱氨剂(例如亚硫酸氢钠)转化为尿嘧啶。
所述多个探针的长度范围为10s、100s、200s或300s碱基对。所述多个探针可包含至少45、50、75、100或120个核苷酸。所述多个探针可包含少于300、250、200或150个核苷酸。在一个实施例中,所述多个探针包含45至200或100至150个核苷酸。在一个特定实施例中,所述多个探针包含120个核苷酸。
所述多个探针被设计用于分析多个标靶基因组区域(例如,人类或其他有机体的)的甲基化状态,所述多个标靶基因组区域被怀疑与癌症的存在或不存在、某些类型的癌症的存在或不存在、癌症的阶段或其他类型的疾病的存在或不存在相关。
此外,所述多个探针可以被设计以有效地杂交到(或结合到)并下拉含有一标靶基因组区域的多个cfDNA片段。在一些实施例中,所述多个探针被设计成覆盖一标靶基因组区域的多个重叠部分,使得每个探针“平铺(tiled)”在覆盖范围中,使得每个探针在覆盖范围中至少部分地与文库(library)中的另一个探针相重叠(图1A)。在这些实施例中,所述化验板包含多对探针,其中每对包含至少两个彼此相重叠的探针,所述至少两个彼此相重叠的探针通过至少25、30、35、40、45、50、60、70、75或100个核苷酸的一重叠序列彼此相重叠。在一些实施例中,所述重叠序列可被设计成与一标靶基因组区域(或所述标靶基因组区域的一转换版本)具有同源性或互补性,因此,与对应于或衍生自所述标靶基因组区域或含有所述标靶基因组区域的一核苷酸片段可以通过所述多个探针中的至少一个绑定和下拉。
在一个实施例中,如图1A所示使用了2×平铺设计,其中一标靶区域(图1A中的虚线矩形)中的每个基部(base)由两个探针重叠。例如,每对的多个探针可以包含一第一探针和一第二探针,不同于所述第一探针并且与所述第一探针在序列上重叠(例如,通过至少30个核苷酸重叠)。这样做是为了确保即使是对应于或衍生自一标靶区域的相对较短的DNA片段(例如,100bp)也保证与至少一个探针具有一实质性重叠(或序列互补性),从而能够有效地捕获所述相对较短的DNA片段。例如,一个100bp的DNA片段与一个30bp的标靶区域相的重叠为所述两个探针中的至少一个以至少一个75bp相重叠。也可以使用其他水平的平铺。例如,为了增加标靶尺寸和捕获效率,可以在一给定的标靶区域上平铺(tilted)更多的探针。为了增加对与所述标靶区域重叠的任何DNA片段的捕获,可以设计所述多个探针,使其在一侧或两侧都延伸超过所述标靶区域的端部。例如,多个探针可以被设计成通过至少50bp、60bp、70bp、80bp、90bp或100bp延伸超过一30bp的标靶区域的端部。
在一个实施例中,最小的标靶基因组区域为30bp。当一新标靶区域被添加到所述化验板时(基于上述的贪婪选择),30bp的所述新标靶区域可以集中在感兴趣的一特定的CpG位置上。然后,检查这个新标靶的每一边缘是否足够靠近其他标靶,以便它们可以合并。这是基于一“合并距离(merge distance)”参数,默认情况下可以是200bp,但可以进行调整。这使得靠近但不同的多个标靶区域可以用重叠的多个探针进行扩增。取决于所述新标靶的左边或右边是否存在足够靠近的多个标靶,所述新标靶可以不与任何东西合并(化验板标靶数量增加一个),左边或右边仅合并一个标靶(不改变化验板标靶的数量),或左右两边与现有标靶合并(将化验板标靶的数量减少一个)。
本文提供的一化验板包含多个多核苷酸探针,配置为与从多个cfDNA分子的处理中获得的一修饰片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自一个或多个基因组区域。换句话说,一诱饵组的多个含有多核苷酸的探针可以(作为一群组)对应于多个基因组区域的一数量。在一些实施例中,所述多个基因组区域的至少15%、20%、30%或40%是外显子或内含子。在一些实施例中,所述多个基因组区域的至少5%、10%、15%、20%、30%或40%是外显子。在一些实施例中,所述多个基因组区域的少于5%、10%、15%、20%、25%或30%是基因间区域。
在一些实施例中,所述一个或多个基因组区域中的每一个选自表1至24中的一个或多个。在一些实施例中,所述一个或多个基因组区域中的每一个选自表2至10或16至24中的一个或多个。在一些实施例中,所述一个或多个基因组区域中的每一个选自表1。在一些实施例中,所述一个或多个基因组区域中的每一个选自表2。在一些实施例中,所述一个或多个基因组区域中的每一个选自表3。在一些实施例中,所述一个或多个基因组区域中的每一个选自表4。在一些实施例中,所述一个或多个基因组区域中的每一个选自表5。在一些实施例中,所述一个或多个基因组区域中的每一个选自表6。在一些实施例中,所述一个或多个基因组区域中的每一个选自表7。在一些实施例中,所述一个或多个基因组区域中的每一个选自表8。在一些实施例中,所述一个或多个基因组区域中的每一个选自表9。在一些实施例中,所述一个或多个基因组区域中的每一个选自表10。在一些实施例中,所述一个或多个基因组区域中的每一个选自表11。在一些实施例中,所述一个或多个基因组区域中的每一个选自表12。在一些实施例中,所述一个或多个基因组区域中的每一个选自表13。在一些实施例中,所述一个或多个基因组区域中的每一个选自表14。在一些实施例中,所述一个或多个基因组区域中的每一个选自表15。在一些实施例中,所述一个或多个基因组区域中的每一个选自表16。在一些实施例中,所述一个或多个基因组区域中的每一个选自表17。在一些实施例中,所述一个或多个基因组区域中的每一个选自表18。在一些实施例中,所述一个或多个基因组区域中的每一个选自表19。在一些实施例中,所述一个或多个基因组区域中的每一个选自表20。在一些实施例中,所述一个或多个基因组区域中的每一个选自表21。在一些实施例中,所述一个或多个基因组区域中的每一个选自表22。在一些实施例中,所述一个或多个基因组区域中的每一个选自表23。在一些实施例中,所述一个或多个基因组区域中的每一个选自表24。
在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表1至24的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表2至10或16至24中的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表1中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表2中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表3中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表4中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表5中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表6中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表7中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表8中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表9中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表10中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表11中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表12中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表13中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表14中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表15中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表16中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表17中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表18中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表19中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表20中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表21中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表22中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表23中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表24中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
在一些实施例中,将所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表1或表11至15中的一个或多个中的至少500、1000、5000、10000或15000个基因组区域的cfDNA分子获得。在一些实施例中,将所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表2至10或表16至24中的一个或多个中的至少50、60、70、80、90、100、120、150或200个基因组区域的cfDNA分子获得。在一些实施例中,将所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表13中的至少500、1000、5000、10000或15000个基因组区域的cfDNA分子获得。在一些实施例中,将所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表14中的至少500、1000、5000、10000或15000个基因组区域的cfDNA分子获得。在一些实施例中,将所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表15中的至少500、1000、5000、10000或15000个基因组区域的cfDNA分子获得。
在一些实施例中,一化验板还包含多个病毒特异性探针,其中所述多个病毒特异性探针中的每一个被配置成与一病毒基因组片段相杂交。所述多个探针可以被配置成与来自与癌症相关联的一病毒株的一病毒基因组片段相杂交。在一些实施例中,所述病毒基因组片段来自MCV、EBV、HBV、HCMV、HCV、HHV5、HPV16或HPV18。在一些实施例中,所述化验板包含至少50、100、200、300、400、500、600、700、800、900、1000、1500、2000、2500或3000个病毒特异性探针。
选择标靶基因组区域的方法
在另一方面,提供了多种用于诊断癌症和/或起源组织的选择多个标靶基因组区域的方法。所述多个标靶基因组区域可用于设计和制造用于一癌症化验板的多个探针。对应于或来源自所述多个标靶基因组区域的DNA或cfDNA分子的甲基化状态可以通过使用所述癌症化验板的标靶测序进行筛选。多个替代方法,例如通过WGBS或本领域已知的其它方法,也可以被实施以检测对应于或来源自所述多个标靶基因组区域的多个DNA分子或片段的甲基化状态。
样本处理
对于多个标靶基因组区域的选择,使用从一个或多个对象中提取的一核酸样本(DNA或RNA)。在本发明的公开中,除非另有说明,否则DNA和RNA可以互换使用。也就是说,本文所描述的实施例可以同时适用于DNA和RNA类型的核酸序列。然而,为了清楚和解释的目的,本文描述的示例可以集中于DNA。所述样本包含人类基因组的任何子集,所述人类基因组的任何子集包含整个基因组。所述样本可包含血液、血浆、血清、尿液、粪便、唾液、其他类型的体液或其任何组合。在一些实施例中,用于提取一血液样本的方法(例如,注射器或手指刺)可能比用于获取组织活检的程序(可能需要手术)具有更小的侵入性。提取的样本可以包含cfDNA和/或ctDNA。对于健康的多个个体,人体可能会自然清除cfDNA和其他细胞碎片。如果一对象具有一癌症或疾病,提取样本中的ctDNA可能在可检测水平上以用于诊断。
多个cfDNA片段被进行处理以将未甲基化胞嘧啶转化为尿嘧啶。在一个实施例中,所述方法使用DNA的亚硫酸氢盐处理,将未甲基化胞嘧啶转化为尿嘧啶,而不转化甲基化胞嘧啶。例如,用于亚硫酸氢盐转化的商用试剂盒,如EZ-DNA MethylationTM-Gold、EZ-DNAMethylationTM-Direct或EZ-DNA MethylationTM-Lightning试剂盒(可从Zymo Research公司(加利福尼亚州尔湾市))获得。在另一实施例中,利用一酶反应来完成未甲基化的胞嘧啶到尿嘧啶的转化。例如,所述转化可以使用商业上可买到的试剂盒将未甲基化的胞嘧啶转化为尿嘧啶,例如APOBEC-Seq(NEBiolabs公司,马萨诸塞州伊普斯威奇市)。
利用转化后的多个cfDNA片段,制备一测序文库。在一第一步骤中,使用一ssDNA连接反应(ligation reaction)将一ssDNA适配器(adapter)添加到一亚硫酸氢盐转化的ssDNA分子的3′-OH端。在一个实施例中,所述ssDNA连接反应使用环化连接酶(CircLigase)II(Epicentre公司)将所述ssDNA适配器连接到一亚硫酸氢盐转化的ssDNA分子的3′-OH端,其中所述适配器的5′-端被磷酸化并且所述亚硫酸氢盐转化的ssDNA已经被脱磷(即,3′端具有一羟基)。在另一实施例中,所述ssDNA连接反应使用热稳定5′AppDNA/RNA连接酶(Thermostable 5′AppDNA/RNA ligase)(可从New England BioLabs公司(马萨诸塞州伊普斯威奇市)获得)将所述ssDNA适配器连接到一亚硫酸氢盐转化的ssDNA分子的3′-OH端。在本示例中,第一UMI适配器在5′端被腺苷酸化(adenylated)并且在3′端被阻断(blocked)。在另一实施例中,所述ssDNA连接反应使用T4 RNA连接酶(T4 RNA ligase)(可从NewEngland BioLabs公司获得)将所述ssDNA适配器连接到一亚硫酸氢盐转化的ssDNA分子的3′-OH端。在一第二步骤中,在一延伸反应(extension reaction)中合成一第二链DNA。例如,在一引物延伸反应中使用与ssDNA适配器中包含的一引物序列杂交的一延伸引物,以形成一双链亚硫酸氢盐转化的DNA分子。可选地,在一个实施例中,所述延伸反应使用能够读取亚硫酸氢盐转化模板链中的多个尿嘧啶残基(residues)的酶。可选地,在一第三步骤中,将一dsDNA适配器添加到所述双链亚硫酸氢盐转化的DNA分子中。最后,所述双链亚硫酸氢盐转化的DNA被扩增(amplified)以添加多个测序适配器。例如,使用包含一P5序列的一正向引物和包含一P7序列的一反向引物的PCR扩增用于将P5和P7序列添加到所述亚硫酸氢盐转化的DNA中。可选地,在文库制备期间,多个唯一分子标识符(UMI)可通过适配器连接添加到多个核酸分子(例如多个DNA分子)中。所述多个唯一分子标识符(UMIs)是多个短的核酸序列(例如,4-10个碱基对),在适配器连接期间添加到多个DNA片段的末端。在一些实施例中,UMIs是多个简并(degenerate)碱基对,其作为一唯一标记以可用于识别源自一特定DNA片段的多个序列读数。在PCR扩增过程后适配器连接期间,所述多个唯一分子标识符与附加的多个DNA片段一起复制,以在下游分析中提供了一种方法以识别来自相同原始片段的多个序列读数。
多个序列读数由DNA序列生成。所述方法可包含下一代测序(NGS)技术,包含合成技术(Illumina公司)、焦磷酸测序(454 Life Sciences公司)、离子半导体技术(IonTorrent测序)、单分子实时测序(Pacific Biosciences公司)、边连接边测序(SOLiD测序),纳米孔测序(Oxford Nanopore Technologies公司),或双端测序(paired-endsequencing)。在一些实施例中,通过使用具有多个可逆染料终止子(reversible dyeterminators)的边合成边测序(sequencing-by-synthesis)来执行大规模平行测序。
然后从所述多个序列读数生成多个甲基化状态向量。为了做到这一点,一序列读数与一参考基因组相对准。所述参考基因组有助于提供cfDNA片段源自一人类基因组中的位置。在一个简化的示例中,所述序列读数被对准,使得三个CpG位点与CpG位点23、24和25(为了便于描述而使用的任意参考标识符)相关。在对准后,具有有关于cfDNA片段上所有CpG位点的甲基化状态和所述多个CpG位点在人类基因组中的位置的信息。根据所述甲基化状态和位置,可以生成所述cfDNA片段的一甲基化状态向量。
数据结构的生成
图3A是根据一个实施例描述对于一健康的对照组(例如多个参考样本)生成一数据结构的程序300的流程图。为了创建一健康的对照组的数据结构,分析系统在从多个健康对象的多个DNA分子或片段中衍生的多个序列读数上获取与多个CpG位点的甲基化状态相关的信息。本文提供的用于创建一健康对照组数据结构的方法可以对于有癌症的多个对象、具有癌症的一来源组织的多个对象、具有一已知癌症类型的多个对象或具有另一种已知疾病状态的多个对象类似地执行。对于每个DNA分子或片段生成一甲基化状态向量(例如,通过程序100)。
利用每个片段的甲基化状态向量,分析系统细分310所述甲基化状态向量为多个字符串(strings)的多个CpG位点。在一个实施例中,分析系统细分310所述甲基化状态向量,使得所产生的多个字符串都小于一给定长度。例如,长度11的一甲基化状态向量可细分为长度小于或等于3的多个字符串,从而导致长度3的9个字符串、长度2的10个字符串和长度1的11个字符串。在另一个示例中,长度7的一甲基化状态向量细分为长度小于或等于4的多个字符串,从而导致长度4的4个字符串、长度3的5个字符串、长度2的6个字符串和长度1的7个字符串。如果一甲基化状态向量小于或与指定字符串长度相同,则所述甲基化状态向量可以转换为单个字符串,所述单个字符串包含所述向量的所有CpG位点。
分析系统通过计算运算(tallies)320所述多个字符串,对于每个可能的CpG位点和在向量中多个甲基化状态的可能性,在对照组中具有特定CpG位点作为字符串中第一个CpG位点并具有甲基化状态可能性的字符串数量。例如,在一给定的CpG位点处,考虑到字符串长度为3,有2^3或8个可能的字符串配置。在那个给定的CpG位点处,对于所述8个可能的字符串配置中的每一个,分析系统运算320在对照组中出现的每一个甲基化状态向量可能性的发生次数。继续此示例,这可能涉及运算以下数量:<Mx、Mx+1、Mx+2>、<Mx、Mx+1、Ux+2>、...、<Ux、Ux+1、Ux+2>(对于在参考基因组中每个起始CpG位点x)。分析系统创建330数据结构,存储每个起始CpG位点和字符串可能性的运算计数。
设置字符串长度的一上限具有几个好处。首先,取决于一字符串的最大长度,通过分析系统创建的数据结构的大小可以在大小上急遽地增加。例如,最大字符串长度为4意味着,每个CpG位点最起码有24个数字用于运算长度为4的字符串。将最大字符串长度增加到5意味着每个CpG位点都有另外的24或16个数字要运算,与之前的字符串长度相比,要运算的数字(以及所需的计算机内存)多了一倍。在计算和存储方面,减小字符串大小有助于保持合理的数据结构的创建和性能(例如,用于如下所述的以后访问)。其次,限制最大字符串长度的统计考虑是避免过度拟合使用字符串计数的下游模型。如果长字符串的多个CpG位点(在生物学上)对结果(例如,预测癌症的存在的预测异常)没有很强的影响,基于大字符串的多个CpG位点的概率可能会有问题,因为它需要大量的数据,而这些数据可能不可用,因此,对于一个模型适当地执行来说过于稀疏。例如,计算以前100个CpG位点为条件的异常/癌症的一概率将需要长度100的数据结构中的多个字符串计数,理想情况下,某些与前面100个甲基化状态完全匹配。如果只有长度100的字符串的稀疏计数可用,则没有足够的数据来确定测试样本中给定的长度为100的字符串是否异常。
数据结构的验证
一旦创建了数据结构,分析系统可能会试图验证340所述数据结构和/或使用所述数据结构的任何下游模型。一种类型的验证检查对照组的数据结构内的一致性。例如,如果在一个对照组中有任何离群值(outlier)的多个对象、多个样本和/或多个片段,然后所述分析系统可以执行各种计算,以确定是否从这些类别中排除任何片段。在一个代表的示例中,健康对照组可能含有一个未被诊断出但有癌性的一样本,使得所述样本中含有异常甲基化的多个片段。此第一类型的验证确保从健康对照组中移除潜在的癌性样本,从而不会影响对照组的纯正(purity)。
一第二类型的验证检查用于使用数据结构本身(即来自健康对照组)的计数来计算多个p值的概率模型。下面结合图5描述p值计算的一程序。一旦所述分析系统针对验证组中的多个甲基化状态向量生成一p值,所述分析系统使用多个p值构建一累积密度函数(cumulative density function,CDF)。使用所述CDF,所述分析系统可以对所述CDF执行各种计算,以验证对照组的数据结构。一个测试使用了所述CDF在理想情况下应为或低于一恒等函数(identity function)的事实,使得CDF(x)≤x。相反的,高于所述恒等函数则表明用于对照组数据结构的概率模型中存在一些缺陷。例如,如果1/100的片段具有一p值得分为1/1000,意味着CDF(1/1000)=1/100>1/1000,则所述第二类型的验证失败,表明概率模型存在问题。
一第三类型的验证使用了从用于构建所述数据结构的那些分离的多个验证样本的一健康集合,用于测试所述数据结构是否构建正确,所述模型是否有效。下面结合图3B描述了执行此类型的验证的示例程序。所述第三类型的验证可以量化所述健康对照组对多个健康样本分布的概括(generalizes)程度。如果所述第三类型的验证失败,则所述健康对照组就不能很好地概括健康分布。
一第四类型的验证测试,多个样本来自一非健康验证组。所述分析系统计算多个p值并对所述非健康验证组构建CDF。对于一非健康验证组,所述分析系统预计看到至少一些样本的CDF(x)>x,或者,换句话说,在所述健康对照组和所述健康验证组的所述第二类型的验证和所述第三类型的验证中预期的结果相反。如果所述第四种类型的验证失败,则这表示模型没有适当地识别设计用来识别的异常。
图3B是根据一个实施例描述验证图3A的对照组的数据结构的附加步骤340的流程图。在验证所述数据结构的步骤340的这个实施例中,所述分析系统执行如上所述的第四类型的验证测试,其利用一验证组,所述验证组具有假设与对照组相似组合的多个对象、多个样本和/或多个片段。例如,如果所述分析系统为对照组选择不具有癌症的多个健康对象,则所述分析系统也使用所述验证组中不具有癌症的多个健康对象。
所述分析系统采用所述验证组并生成100多个甲基化状态向量的一集合,如图3A所示。所述分析系统对来自所述验证组的每个甲基化状态向量执行一p值计算。所述p值计算程序将结合图4和图5进一步描述。对于每个甲基化状态向量的可能性,所述分析系统从对照组的数据结构计算一概率。一旦对于甲基化状态向量的多个可能性被计算出概率,所述分析系统基于计算出的多个概率计算350该甲基化状态向量的一p值得分。所述p值得分代表了发现特定甲基化状态向量和其他可能甲基化状态向量在对照组中具有更低概率的期望值。因此,一低的p值得分通常对应于一甲基化状态向量,所述甲基化状态向量与对照组内其他甲基化状态向量相比相对非期望的,其中一高p值得分通常对应于一甲基化状态向量,所述甲基化状态向量与在对照组中发现的其他甲基化状态向量相比相对更期望。一旦所述分析系统对所述验证组中的多个甲基化状态向量生成一p值得分,所述分析系统将使用来自所述验证组的所述p值得分构建360一累积密度函数(CDF)。所述分析系统验证370上述第四类型的验证测试中CDF的一致性。
异常甲基化片段
图4是根据一个实施例描述用于识别来自一对象的多个异常甲基化片段的程序400的流程图。程序400的一个示例在图5中直观地示出,并且在图4的描述在下面进一步描述。在程序400中,所述分析系统从所述对象的多个cfDNA片段生成100多个甲基化状态向量。所述分析系统如下处理每个甲基化状态向量。
在一些实施例中,所述分析系统在一个或多个CpG位点处过滤具有不确定状态的多个片段。在这些实施例中,所述分析系统执行一预测模型以识别不太可能具有一异常甲基化模式的多个片段以用于过滤。对于一样本片段,所述预测模型计算与健康对照组的数据结构相比样本片段的甲基化状态向量发生的一样本概率。所述预测模型随机抽样多个可能甲基化状态向量的一子集,所述多个可能甲基化状态向量的所述子集包含所述样本片段的甲基化状态向量中的多个CpG位点。所述预测模型计算对应于多个抽样的可能甲基化状态向量中的每一个的一概率。对于所述片段的甲基化状态向量和所述多个抽样的可能甲基化状态向量的多个概率计算可以根据一马尔可夫链(Markov chain)模型计算,如下小节“P值得分计算”中所述。所述预测模型计算所述多个抽样的可能甲基化状态向量对应于小于或等于样本概率的多个概率的一比例。所述预测模型基于计算出的比例为所述片段生成一估计的p值得分。所述预测模型可以过滤对应于高于一阈值的多个p值得分的多个片段,及保留对应于低于所述阈值的多个p值得分的多个片段。
在其他实施例中,所述预测模型可以计算一置信概率,所述置信概率是所述预测模型用于确定何时继续或何时终止采样。所述置信概率描述了片段的真实p值得分(将在下面标题为“P值得分计算”小节中进一步描述的真实p值得分的计算)低于基于估计的p值得分和多个抽样的可能甲基化状态向量的概率的一阈值的可能性。所述预测模型可以在迭代计算所述估计的p值得分和所述置信概率的同时,对另外一个或多个可能的甲基化状态向量进行抽样。当所述置信概率高于一置信阈值时,所述预测模型可以终止抽样。
对于一给定的甲基化状态向量,所述分析系统列举410在所述甲基化状态向量中具有相同的起始CpG位点和相同的长度(即,多个CpG位点的一集合)的多个甲基化状态向量的所有可能性。由于每个观察到的甲基化状态可能是甲基化或未甲基化,每个CpG位点只有两个可能的状态,因此甲基化状态向量的不同可能性的计数取决于2的幂次,因此长度为n的一甲基化状态向量将与甲基化状态向量的2n个可能性相关联。利用多个甲基化状态向量包含一个或多个CpG位点的多个不确定状态,所述分析系统可以列举410仅考虑具有多个观察状态的多个CpG位点的多个甲基化状态向量的可能性。
所述分析系统通过访问健康对照组数据结构,计算420观察已识别起始CpG位点/甲基化状态向量长度的甲基化状态向量的每个可能性的概率。在一个实施例中,计算观察一给定的可能性的概率使用马尔可夫链概率来建模联合概率计算,下面将关于图5更详细地描述所述联合概率计算。在其它实施例中,使用马尔可夫链概率以外的计算方法来确定观察甲基化状态向量的每个可能性的概率。
所述分析系统使用计算出的对于每种可能性的多个概率计算430对于甲基化状态向量的一p值得分。在一个实施例中,这包含识别与匹配所讨论的所述甲基化状态向量的可能性相对应的计算概率。具体地说,这是具有多个CpG位点的相同集合,或类似地具有相同的起始CpG位点和长度作为甲基化状态向量的可能性。所述分析系统将具有概率小于或等于识别概率的任何可能性的计算概率相加,以生成p值得分。
此p值代表观察片段的甲基化状态向量,或者其他甲基化状态向量在健康对照组中甚至更低的可能性的概率。因此,一低的p值得分通常对应于在一健康对象中是罕见的一甲基化状态向量,并且相对于健康对照组,这会导致片段被标记为异常甲基化。一高的p值得分通常与在一个健康的对象中预期存在(在相对意义上)的一甲基化状态向量有关。如果健康对照组是非癌症组,例如,一低的p值表示所述片段相对于所述非癌症组是异常甲基化,因此可能表示测试对象中存在癌症。
如上所述,所述分析系统计算多个甲基化状态向量中的每一个的p值得分,每个代表测试样本中的一cfDNA片段。为了辨识哪些片段是异常甲基化,所述分析系统可以基于它们的p值得分过滤440所述多个甲基化状态向量的所述集合。在一个实施例中,通过将所述多个p值得分与一阈值进行比较并仅保留在所述阈值以下的那些片段来执行滤波。此阈值p值得分可以是0.1、0.01、0.001、0.0001或类似的值。
根据程序400的示例结果,所述分析系统可以为训练中不具有癌症的参与者生成中位数(范围)为2800(1500-12000)的具有异常甲基化模式的片段,以及在训练中具有癌症的参与者生成中位数(范围)为3000(1200-220000)的具有异常甲基化模式的片段。这些具有多个异常甲基化模式的过滤的多个片段的多个集合可用于下文标题为“异常甲基化片段的过滤”的小节中所述的下游分析。
P值得分计算
图5是根据一个实施例的示例p值得分计算的图示500。为了计算给定的一测试甲基化状态向量505的一p值得分,所述分析系统采用该测试甲基化状态向量505并列举410多个甲基化状态向量的多个可能性。在这个说明性示例中,所述测试甲基化状态向量505是<M23,M24,M25,U26>。由于所述测试甲基化状态向量505的长度是4,包含CpG位点23-26的多个甲基化状态向量的多个可能性有24种。在一般示例中,多个甲基化状态向量的多个可能性的数量是2n,其中n是所述测试甲基化状态向量的长度,或者替代地是滑动窗口的长度(下文进一步描述)。
分析系统计算420多个甲基化状态向量列举的多个可能性的概率515。由于甲基化是有条件地取决于邻近的多个CpG位点的甲基化状态,计算观察一给定的甲基化状态向量的可能性的概率的一种方法是使用马尔可夫链模型。通常,一甲基化状态向量,例如<S1,S2,...,Sn>,其中S表示甲基化状态,是否是甲基化(表示为M)、未甲基化(表示为U)或不确定(表示为I),具有一联合概率(joint probability),可以使用概率的连锁法(chain rule)展开为:
P(<S1,S2,...,Sn>)=P(Sn|S1,...,Sn-1)*P(Sn-1|S1,...,Sn-2)*...*P(S2|S1)*P(S1)(1)
马尔可夫链模型可以被用于使每种可能性的条件概率计算更加有效。在一个实施例中,所述分析系统选择一马尔可夫链阶(Markov chain order)k,所述马尔可夫链阶k对应于在条件概率(conditional probability)计算中需考虑在向量(或窗口)中先前的CpG位点数量,使得条件概率被建模为P(Sn|S1,...,Sn-1)~P(Sn|Sn-k-2,...,Sn-1)。
为了计算甲基化状态向量的可能性的每个马尔可夫建模的概率,所述分析系统访问对照组的数据结构,特别是不同字符串的CpG位点和状态的计数。为了计算P(Mn|Sn-k-2,...,Sn-1),所述分析系统将来自数据结构匹配<Sn-k-2,...,Sn-1,Mn>的字符串的数量的存储计数除以来自数据结构匹配<Sn-k-2,...,Sn-1,Mn>及<Sn-k-2,...,Sn-1,Un>的字符串的数量的存储计数之和。因此,P(Mn|Sn-k-2,...,Sn-1)是计算得出的比率,其公式如下:
所述计算还可以另外通过应用一先验分布来实现计数的平滑。在一个实施例中,所述先验分布是一均匀的先验,例如拉普拉斯平滑(Laplace smoothing)。例如,在上述方程式的分子上加一常数,在上述方程的分母上加上另一个常数(例如分子中常数的两倍)。在其它实施例中,使用例如Knesser-Ney平滑的算法技术。
在图示中,上述表示的公式应用于覆盖位点23-26的测试甲基化状态向量505。一旦计算的概率515完成,所述分析系统计算430一p值得分525,其加总小于或等于甲基化状态向量与测试甲基化状态向量505匹配的可能性的概率。
在具有多个不确定状态的多个实施例中,所述分析系统可计算出在一片段的甲基化状态向量中具有多个不确定状态的多个CpG位点的一p值得分。所述分析系统识别具有和甲基化状态向量的所有甲基化状态一致的所有的可能性,不包含不确定状态。所述分析系统可以将概率分配给甲基化状态向量,作为多个已识别的可能性的概率的一总和。作为一示例,所述分析系统计算一甲基化状态向量<M1,I2,U3>的一概率,作为甲基化状态向量<M1,M2,U3>和<M1,U2,U3>的可能性的一总和,因为CpG位点1和3的甲基化状态被观察到,并且与CpG位点1和3处的片段的甲基化状态一致。这种总和求出具有不确定状态的CpG位点的方法使用了高达2i的可能性概率的计算,其中i表示甲基化状态向量中不确定状态的数目。在另外的实施例中,动态规划算法可以被执行来计算具有一个或多个不确定状态的一甲基化状态向量的概率。有利的是,所述动态规划算法在线性计算时间内操作。
在一个实施例中,计算多个概率和/或多个p值得分的运算负担可以通过缓存至少一些计算来进一步降低。例如,所述分析系统可以在临时或持久内存中缓存针对多个甲基化状态向量(或其窗口)的多个可能性的概率计算。如果其他片段具有相同的多个CpG位点,则缓存多个可能性概率可以有效率的计算p值得分,而无需重新计算潜在的可能性概率。同样,所述分析系统可以从向量(或其窗口)与多个CpG位点的一集合相关联的多个甲基化状态向量的多个可能性中的每一个计算多个p值得分。所述分析系统可以缓存所述多个p值得分,以用于确定包含相同CpG位点的其他片段的p值得分。通常,具有相同CpG位点的多个甲基化状态向量的可能性的p值得分可用于确定来自同一集合的多个CpG位点的不同CpG位点的可能性的p值得分。
滑动窗口
在一个实施例中,所述分析系统使用435一滑动窗口来确定多个甲基化状态向量的可能性并计算p值。不是针对整个甲基化状态向量列举可能性和计算p值,所述分析系统而是仅针对连续的(sequential)多个CpG位点的一窗口列举可能性并计算p值,其中所述窗口的长度(CpG位点的长度)比至少一些片段的长度短(否则,窗口毫无意义)。窗口长度可以是静态的、用户确定的、动态的或以其他方式选择的。
在计算大于所述窗口的一甲基化状态向量的p值时,所述窗口从向量中的第一个CpG位点开始,在窗口内从向量识别多个CpG位点的序列集合。所述分析系统计算对于所述窗口(包含第一个CpG位点)的一p值得分。然后,所述分析系统将所述窗口“滑动(slides)”到向量中的第二个CpG位点,并计算第二个窗口的另一个p值得分。因此,对于一窗口大小l和甲基化向量长度m,每个甲基化状态向量将生成m-l+1个p值得分。在完成对于向量的每个部分的p值计算后,所有滑动窗口中的最低p值得分被作为甲基化状态向量的整体的p值得分。在另一实施例中,所述分析系统总合多个甲基化状态向量的多个p值得分以生成一整体的p值得分。
使用所述滑动窗口有助于减少甲基化状态向量列举的可能性的数量及其相对应的概率计算,否则将需要执行这些操作。示例概率计算如图5所示,但通常甲基化状态向量的可能性的数量随着甲基化状态向量的大小成指数地增加2倍。在一个现实的示例,对于多个片段有可能有54个以上的CpG位点。作为对2^54(~1.8×10^16)种可能性计算概率来生成单个p值得分的替代,所述分析系统可以改为使用大小为5的一窗口(例如),从而对该片段的甲基化状态向量的50个窗口中的每个窗口进行50个p值计算。50个计算中的每一个都列举了甲基化状态向量的2^5(32)个可能性,总的结果是50×2^5(1.6×10^3)个概率计算。这导致要执行的计算大大减少,而对异常片段的准确识别没有任何意义。当用验证组的甲基化状态向量验证240对照组时,此附加步骤也可应用。
异常甲基化片段的过滤
在一些实施例中,执行附加过滤步骤以识别可用于癌症或癌症的一类型或阶段诊断的多个基因组区域。
低甲基化和高甲基化片段
一个附加的分析从经过滤的集合中识别450多个低甲基化片段或多个高甲基化片段。低甲基化或高甲基化的多个片段可被定义为一定长度的多个CpG位点(例如,超过3、4、5、6、7、8、9、10个等)的多个片段,分别具有一高百分比的甲基化的多个CpG位点(例如,超过80%、85%、90%或95%,或50%至100%范围内的任何其他百分比)或一高百分比的未甲基化的多个CpG位点(例如超过80%、85%、90%或95%或50%至100%范围内的任何其他百分比)。下文描述图6A至图6B示出了基于异常甲基化的多个片段的一集合来识别一基因组的这些低甲基化或高甲基化部分的示例程序。
概率模型
根据第二种方法,利用适合于癌症类型或非癌症类型的多个甲基化模式的多个概率模型进一步过滤异常的多个片段。它计算从一对象的多个异常片段通常表示癌症或特定类型的癌症的对数概率比(log-odds ratio)。所述对数概率比可以通过采用为癌性的一概率与为非癌性的一概率(即1减去为癌性的概率)之比的对数来计算,两者均由所应用的460分类模型确定。
在划分基因组的一个实施例中,所述分析系统将所述基因组划分为多个阶段的多个区域。在一第一阶段,所述分析系统将所述基因组分成多个CpG位点的多个区块。当两个相邻的CpG位点之间的一间隔超过某些阈值时(例如大于200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp或1000bp)则每个区块被定义。从每个区块,所述分析系统在一第二阶段将每个区块细分为一定长度的多个区域,例如500bp、600bp、700bp、800bp、900bp、1000bp、1100bp、1200bp、1300bp、1400bp或1500bp。所述分析系统可能进一步以长度的一百分比重叠相邻的多个区域,例如10%、20%、30%、40%、50%或60%。
所述分析系统分析对于每个区域衍生自多个DNA片段的多个序列读数。所述分析系统可以处理来自组织和/或高信号cfDNA的多个样本。高信号cfDNA样本可以通过一二元分类模型、通过癌症阶段或通过其他指标来确定。
对于每一种癌症类型和非癌症,所述分析系统会对于多个片段采用适合的一单独的概率模型。在一个示例中,每个概率模型是一混合模型,所述混合模型包含多个混合组分的一组合,每个混合组分是一独立位点模型,其中在每个CpG位点处的甲基化被假定独立于其它CpG位点处的甲基化状态。
在替代的实施例中,计算关于每个CpG位点被进行。具体地说,一第一次计数确定为包含与该CpG重叠的一异常甲基化DNA片段的癌性样本的数量(癌症_计数(cancer_count)),及一第二次计数确定集合中含有与该CpG(总计)重叠的多个片段的样本总数。基因组区域可以基于数量来选择,例如,基于与癌性样本的数量(癌症_计数)正相关的标准,其包含与该CpG重叠的一DNA片段,及集合中含有与该CpG(总计)重叠的多个片段的样本总数成反相关。
所述分析系统可以进一步计算对于一片段的对数似然比(log-likelihoodratios)(“R”),所述片段表示片段似然性,所述片段似然性表示癌症考虑到各种癌症类型,以及多种癌症类型的每一种、非癌症类型、或一癌症起源组织的适合的概率模型。这两种概率可以从适合于多种癌症类型的每一种和非癌症类型的概率模型中获取,所述概率模型定义以计算在给定的多种癌症类型的每一种和非癌症类型的一片段上观察一甲基化模式的似然性。例如,所述概率模型可以适合于多种癌症类型的每一种和非癌症类型。
图11A-11C示出了不同阶段的各种对象的各种癌症的图表,绘制了根据对上面图4描述的程序识别出的多个异常片段的对数概率比。这些基础数据是通过对CCGA对象(Clinical Trial.gov识别符:NCT02889978(https://www.clinicaltrials.gov/ct2/show/NCT02889978;参见示例3)的全基因组亚硫酸氢盐测序获得。简单地说,数据从多于1700个临床可评估的对象获得,其中多于1400个对象被筛选,包含近600个不具有癌症的对象和刚刚超过800个具有癌症的对象。图11A中的第一图示1100示出了三个不同水平的所有癌症案例-非癌症;第I/II/II阶段;和第IV阶段。对于第IV阶段的癌症对数概率比显着大于第I/II/II阶段和非癌症的那些。图11A中的第二图示1110示出了癌症的所有阶段和非癌症中的乳腺癌案例,在癌症的进展阶段,对数概率比也有类似的增加。图11B中的第三图示1120示出了乳腺癌的多个亚型。值得注意的是,F1ER2+和TNBC亚型分布更广,而F1R+/F1ER2-集中在~1附近。图11C中的第四图示1130示出了癌症的所有阶段和非癌症中的肺癌案例,在肺癌的进展阶段有稳定的进展。第五图示1140示出了在癌症的所有阶段和非癌症中的结直肠癌案例,再一次示出了结直肠癌进展阶段的稳定进展。图11C中的第六图示1150示出了在癌症的所有阶段和非癌症中的前列腺癌案例。此示例与先前示出的大多数不同,只有第IV阶段与其他第I/II/II阶段和非癌症相比有显着的不同。
表示癌症的基因组区域和分类器
所述分析系统识别460表示癌症的多个基因组区域。为了识别这些信息区域,所述分析系统计算对于每个基因组区域的信息增益,或者更具体地说,每个CpG位点描述了区分不同结果的能力。
一种用于识别多个基因组区域能够区分癌症类型和非癌症类型的方法使用了一训练后的分类模型,所述训练后的分类模型可以被应用在对应于或衍生自一癌性或非癌性群组的异常甲基化的多个DNA分子或多个片段的集合。所述训练后的分类模型可以被训练以识别任何可以从多个甲基化状态向量中识别出的感兴趣的条件。
在一个实施例中,所述训练后的分类模型是基于多个cfDNA片段或多个基因组序列的多个甲基化状态训练的二元分类器,所述多个cfDNA片段或所述多个基因组序列来自于具有癌症或一癌症类型的一对象群体(cohort)和不具有癌症的一健康对象群体,然后基于多个甲基化状态向量用于对具有癌症、一癌症类型,或不具有癌症分类一测试对象概率。在其它实施例中,可以使用已知具有特定癌症(例如,乳腺癌、肺癌、前列腺癌等)、已知具有癌症的特定起源组织(癌症据认为起源的地方)、或已知具有特定癌症的不同阶段(例如,乳腺癌、肺癌、前列腺癌等)的多个对象群组来训练不同的分类器。在这些实施例中,可以使用从已知具有特定癌症(例如,乳腺癌、肺癌、前列腺癌等)来自多个对象群体的肿瘤细胞扩增的多个样本中获得的多个序列读数来训练不同的分类器。在分类模型中,每个基因组区域区分癌症类型和非癌症类型的能力被用来将基因组区域从信息最丰富到信息最少在分类执行中进行排名。所述分析系统可以根据非癌症类型和癌症类型之间在分类中的信息增益的排名中识别多个基因组区域。多个探针可以被设计成470以标靶识别的多个基因组区域。
从表示癌症的低甲基化和高甲基化片段中计算信息增益
根据一个实施例,利用表示癌症的多个片段,所述分析系统可以根据图6A所示的程序600训练一分类器。所述程序600访问两个样本训练组(一非癌症组和一癌症组)及获得605多个甲基化状态向量的一非癌症集合和包含多个异常甲基化片段的多个甲基化状态向量的一癌症集合,例如通过程序400的步骤440。
所述程序确定610(对于每个甲基化状态向量)甲基化状态向量是否表示癌症。这里,如果至少一些数量的CpG位点具有一特定状态(分别为甲基化或未甲基化)和/或具有所述特定状态的多个位点的一阈值百分比(再次分别为甲基化或未甲基化),则表示癌症的多个片段被定义为高甲基化或低甲基化的多个片段。在一个示例中,如果片段与至少5个CpG位点重叠,并且其CpG位点的至少80%是甲基化或至少80%是未甲基化,则多个cfDNA片段分别被识别为低甲基化或高甲基化。在一个替代的实施例中,所述程序考虑甲基化状态向量的多个部分并确定所述部分是否低甲基化还是高甲基化,并且可以区分该部分是低甲基化还是高甲基化。此替代方法解决了丢失的多个甲基化状态向量,所述丢失的多个甲基化状态向量的尺寸很大,但含有至少一个区域的密集的低甲基化或高甲基化。这种定义低甲基化和高甲基化的程序可应用于图4的步骤450中。在另一实施例中,可根据从多个训练后的概率模型输出的似然性来定义表示癌症的多个片段。
在一个实施例中,所述程序在基因组中的每个CpG位点产生620一低甲基化得分(Phypo)和一高甲基化得分(Phyper)。为了在一给定的CpG位点处生成任何一个得分,所述分类器在该CpG位点处取四个计数(1)与CpG位点重叠的标记为低甲基化的癌症集合的(甲基化状态)多个向量的计数;(2)与CpG位点重叠的标记为高甲基化的癌症集合的多个向量的计数;(3)与CpG位点重叠的标记为低甲基化的非癌症集合的多个向量的计数;以及(4)与CpG位点重叠的标记为高甲基化的非癌症集合的多个向量的计数。此外,所述程序可以使每个组的这些计数标准化,以解释非癌症组和癌症组之间群组大小的差异。在替代的实施例中,表示癌症的多个片段更普遍地被使用,所述多个得分可以更广泛地定义为在每个基因组区域和/或CpG位点处表示癌症的多个片段的计数。
具体而言,在一个实施例中,为了在一给定的CpG位点生成620低甲基化得分,所述程序采用(1)与(1)和(3)加总的比率。类似地,高甲基化得分是通过取(2)除以(2)和(4)的比率来计算。此外,这些比率可通过上文讨论的附加平滑技术来计算。所述低甲基化得分和高甲基化得分与癌症概率的估计有关,考虑到来自癌症集合的多个片段的低甲基化或高甲基化的存在。
所述程序为每个异常甲基化状态向量生成630一总合的低甲基化得分和一总合的高甲基化得分。所述总合的高甲基化和低甲基化得分,是基于甲基化状态向量中所述多个CpG位点的高甲基化和低甲基化得分来确定。在一个实施例中,总合的高甲基化得分和低甲基化得分分别被分配为每个状态向量中所述多个位点的最大高甲基化和低甲基化得分。然而,在替代的实施例中,所述多个总合的得分可基于平均值、中位数或使用每个向量中所述多个位点的高/低甲基化得分的其他计算。
所述程序600通过其总合的低甲基化得分和总合的高甲基化得分对该对象的多个甲基化状态向量进行排名640,结果每个对象有两个排名。所述程序从低甲基化排名中选择总合的低甲基化得分,从高甲基化排名中选择总合的高甲基化得分。根据所选的多个得分,所述分类器为每个对象生成650单个特征向量。在一个实施例中,从任一排名中选择的多个得分以一固定顺序选择,对于多个训练组中的每一个的每个对象的每个生成的特征向量是相同的。作为一示例,在一个实施例中,所述分类器从每个排名中选择第一、第二、第四和第八总合的高甲基化得分,及类似地对于每个总合的低甲基化得分,以及将这些得分写入该对象的特征向量中。
所述程序训练660一二元分类器,以区分癌症和非癌症训练组之间的多个特征向量。一般来说,可以使用许多分类技术中的任何一种。在一个实施例中,所述分类器是一非线性分类器。在具体实施例中,所述分类器是一非线性分类器利用具有高斯径向基函数(RBF)核(Gaussian radial basis function kernel)的一L2正则化核逻辑回归(L2-regularized kernel logistic regression)。
具体而言,在一个实施例中,非癌性样本或(多种)不同癌症类型(nother)的数量以及具有与一CpG位点重叠的一异常甲基化片段的癌症样本或(多种)癌症类型(ncancer)的数量被计算。然后,一样本是癌症的概率通过一得分(“S”)来估计,所述得分与ncancer呈正相关,而与nother呈负相关。所述得分可以使用以下公式计算:(ncancer+1)/(ncancer+nother+2)or(ncancer)/(ncancer+nother)。所述分析系统计算670每种癌症类型和每个基因组区域或CpG位点的一信息增益,以确定所述基因组区域或CpG位点是否表示癌症。计算具有一给定癌症类型的多个训练样本与所有其他样本相比的信息增益。例如,使用两个随机变量“异常片段”(“AF”)和“癌症类型”(“CT”)。在一个实施例中,AF是表示在一给定样本中是否存在与一给定CpG位点重叠的一异常片段的二进制变量,如针对上述异常得分/特征向量而确定。CT是用来表示癌症是否属特定类型的一随机变量。所述分析系统计算与给定的AF相关的CT的相互信息。也就是说,如果知道是否有在一特定的CpG位点上重叠的一异常片段,就可以获得多少关于癌症类型的信息。
对于一给定的癌症类型,所述分析系统基于其癌症特异性如何使用此信息对CpG位点进行排名。这个程序是重复对所有癌症类型的考虑。如果一特定区域在一给定的癌症的多个训练样本中通常是异常甲基化,而在其他癌症类型的多个训练样本或多个健康训练样本中却没有,则通过那些异常片段重叠的多个CpG位点对于所述给定的癌症类型往往具有高的信息增益。对于每种癌症类型排名后的CpG位点被贪婪地添加(选择)到基于他们的排名的多个CpG位点的一选定的集合,以用于癌症分类器。
从概率模型中识别出表示癌症的片段计算成对的信息增益
根据多个概率模型下的所述第二种方法识别出的表示癌症的多个片段,所述分析可根据图6B中的流程680识别多个基因组区域。所述分析系统为每个样本、每个区域、每种癌症类型定义690一特征向量,通过对具有一计算出的对数似然比的多个DNA片段的一计数,所述片段表示高于多个阈值的癌症,其中每个计数是所述特征向量中的一值。在一个实施例中,所述分析系统对每种癌症类型在对数似然比高于一个或多个可能阈值的一区域处的一样本中存在的多个片段的数量进行计数。所述分析系统通过为每种癌症类型的每个基因组区域的多个DNA片段的一计数来定义对于每个样本的一特征向量,其为高于多个阈值的片段提供一计算的对数似然比,其中每个计数是所述特征向量中的一值。所述分析系统使用被定义的多个特征向量来计算每个基因组区域描述该基因组区域区分多个癌症类型中的每一对之间的能力的一信息得分。对于多个癌症类型中的每一对,所述分析系统基于多个信息得分对多个区域进行排名。所述分析系统可以根据多个信息得分基于所述排名选择多个区域。
所述分析系统计算695对于描述区分多个癌症类型中的每一对之间的能力的每个区域的一信息得分。对于每一对不同的癌症类型,所述分析系统可以指定一种类型为一阳性类型(positive type),另一种类型为一阴性类型(negative type)。在一个实施例中,区分所述阳性类型和所述阴性类型之间的一区域的能力是基于相互信息,使用所述阳性类型和所述阴性类型的多个cfDNA样本的估计分数进行计算,其中所述特征在最终化验中将不为零,即该等级的至少一个片段在一标靶甲基化化验中测序。这些分数是使用观察到的在健康cfDNA、高信号cfDNA和/或每种癌症类型的肿瘤样本中出现的特征的比率来估计的。例如,如果一特征在健康的cfDNA中频繁出现,则它也将被估计为在任何癌症类型的cfDNA中频繁出现,并且可能导致一低的信息得分。所述分析系统可以从排名中为多个癌症类型中的每一对选择一定数量的区域,例如1024。
在其他实施例中,所述分析系统进一步从多个区域的排名中识别主要的高甲基化或低甲基化的多个区域。所述分析系统可以为被标识为信息的一区域加载(多个)阳性类型的多个片段的一集合。所述分析系统从加载的多个片段中,评估加载的多个片段主要是高甲基化还是低甲基化。如果所述加载的多个片段主要是高甲基化或低甲基化,所述分析系统可以选择与主要甲基化模式相对应的多个探针。如果所述加载的多个片段不是主要的高甲基化或低甲基化,所述分析系统可使用多个探针的一混合来标靶高甲基化和低甲基化。所述分析系统可以进一步识别重叠超过一定百分比的多个片段的多个CpG位点的一最小集合。
在其他实施例中,所述分析系统在基于多个信息得分对所述多个区域进行排名之后,标记所有癌症类型对中最低信息性排名的每个区域。例如,如果一区域是用于区分乳腺癌和肺癌的第十大信息区域,以及用于区分乳腺癌和结肠直肠癌的第五大信息区域,则该区域给定一总体标签为“5”。所述分析系统可以设计多个探针从最低标签的多个区域开始,同时将多个区域添加到化验板中,例如,直到化验板的大小预算耗尽为止。
脱靶基因组区域
在一些实施例中,标靶所选的多个基因组区域的多个探针基于其脱靶区域的数量被进一步过滤475。这是为了筛选能下拉太多对应于或衍生自多个脱靶基因组区域的多个cfDNA片段的多个探针。排除具有许多脱靶区域的多个探针可能是有价值的,因为它降低了脱靶率,并增加了一给定数量的测序的标靶覆盖率。
一脱靶基因组区域是指与一标靶基因组区域具有显着同源性的一基因组区域,使得从多个脱靶基因组区域衍生的多个DNA分子或多个片段被设计通过设计用于杂交到一标靶基因组区域的一探针杂交并下拉。一非靶标基因组区域可以是一基因组区域,沿着至少35bp、40bp、45bp、50bp、60bp、70bp或80bp以具有至少为80%、85%、90%、95%或97%的匹配率与一探针对准。在一个实施例中,一脱靶基因组区域是一基因组区域沿着至少45bp以至少90%的匹配率与一探针对准。可以采用本领域已知的各种方法来筛选出多个标靶基因组区域。
彻底搜索基因组以找到所有脱靶基因组区域可能在计算上具有挑战性。在一个实施例中,一k-mer(k个碱基的子字符串)接种策略(可允许一个或多个不匹配)组合到多个种子位置处的局部对准。在这种情况下,可以基于k-mer长度、允许的不匹配数量和一特定位置的k-mer种子命中数来保证对良好对准的彻底搜索。这需要在大量位置进行动态编程局部对准,因此此方法被高度优化以使用多个向量CPU指令(例如,AVX2、AVX512),并且可以在一机器内的多个核心上并行,也可以在通过一网络连接在多台机器上并行。本领域普通技术人员将认识到可以对这种方法进行多种修改和多种变型,以识别出脱靶的多个基因组区域。
在一些实施例中,包含大于一阈值数量的多个脱靶基因组区域或对应于或衍生自多个脱靶基因组区域的多个DNA分子与多个探针具有序列同源性的被排除(或过滤)。例如,多于30个、多于25个、多于20个、多于18个、多于15个、多于12个、多于10个或多于5个的脱靶区域的多个脱靶基因组区域或对应于或衍生自多个脱靶基因组区域多个DNA分子与多个探针具有序列同源性被排除。
在一些实施例中,取决于脱靶区域的数量,将探针分为2、3、4、5、6或更多个单独的群组。例如,没有脱靶区域或没有对应于或衍生自多个脱靶区域DNA分子与多个探针具有序列同源性的被分配到高质量组,具有1至18个脱靶区域或对应于或衍生自1至18个脱靶区域与多个探针具有序列同源性的被分配到低质量组,具有19个以上的脱靶区域或对应于或衍生自19个标靶区域的DNA分子与多个探针具有序列同源性被分配到劣质组。其他截止值可用于分组。
在一些实施例中,最低质量组中的多个探针被排除。在一些实施例中,除了最高质量组之外的组中的多个探针被排除。在一些实施例中,为每组中的多个探针制作单独的化验板。在一些实施例中,所有探针使用在相同化验板上,但是基于分配的组执行单独的分析。
在一些实施例中,一化验板包含的数量较多的高质量探针较低的组中的探针的数量多。在一些实施例中,一化验板包含的较少数量的劣质探针少于其他组中的数量。在一些实施例中,一化验板中超过95%、90%、85%、80%、75%或70%的探针是高质量探针。在一些实施例中,一化验板中少于35%、30%、20%、10%、5%、4%、3%、2%或1%的探针是低质量探针。在一些实施例中,一化验板中少于5%、4%、3%、2%或1%的探针是劣质探针。在一些实施例中,一化验板中不包含劣质的探针。
在一些实施例中,低于50%、低于40%、低于30%、低于20%、低于10%或低于5%的探针被排除。在一些实施例中,一化验板中选择性地包含具有30%以上、40%以上、50%以上、60%以上、70%以上、80%以上或90%以上的探针。
癌症化验板的使用方法
在另一方面,提供了多种使用一癌症化验板的方法。所述多种方法可包含步骤:处理多个DNA分子或多个片段,以将未甲基化的胞嘧啶转化为尿嘧啶(例如,使用亚硫酸氢盐处理)、将一癌症化验板(如本文所述)施加到被转换的多个DNA分子或多个片段,扩增与所述化验板中的多个探针杂交(或结合)的转换后多个DNA分子或多个片段的一子集,及对扩增的多个cfDNA片段进行测序。将所述癌症化验板施加到所述被转换的多个DNA分子或多个片段的步骤被执行在转换后的多个DNA分子或多个片段可以结合到所述癌症化验板的多个探针的情况下。因此,转化后的多个DNA分子或多个片段结合到所述多个探针可以被选择性地分离。在一些实施例中,所述多个序列读数可与一参考基因组(例如,一人类参考基因组)进行比较,允许识别在多个DNA分子或多个片段内的多个CpG位点处的多个甲基化状态,从而提供与癌症诊断相关的信息。
样本处理
图7A是根据一个实施例制备用于分析的一核酸样本的方法的流程图。所述方法包含但不限于以下步骤。例如,所述方法的任何步骤可包含用于质量控制的定量子步骤或本领域技术人员已知的其他实验室化验程序。
在步骤105中,从一对象中提取一核酸样本(DNA或RNA)。在本发明的公开中,除非另有说明,否则DNA和RNA可以互换使用。也就是说,本文所描述的实施例可以同时适用于核酸序列的DNA和RNA类型。然而,为了清楚和解释的目的,本文描述的示例可以集中于DNA。所述样本可以包含人类基因组的任何子集,包含整个基因组。所述样本可包含血液、血浆、血清、尿液、粪便、唾液、其他类型的体液或其任何组合。在一些实施例中,用于提取一血液样本的多种方法(例如,注射器或手指刺)可比用于获取组织活检的程序(可能需要手术)具有更小的侵入性。提取的样本可以包含cfDNA和/或ctDNA。对于多个健康的个体,人体可能会自然清除cfDNA和其他细胞片段。如果一对象患有一癌症或疾病,提取样本中的ctDNA可能在可检测水平上以用于诊断。
在步骤110中,所述多个cfDNA片段被处理以将未甲基化胞嘧啶转化为尿嘧啶。在一个实施例中,所述方法使用DNA的亚硫酸氢盐处理,将未甲基化胞嘧啶转化为尿嘧啶,而不转化甲基化胞嘧啶。例如,用于亚硫酸氢盐转化的商用试剂盒,如EZ-DNA MethylationTM-Gold、EZ-DNA MethylationTM-Direct或EZ-DNA MethylationTM-Lightning试剂盒(可从Zymo Research Corp公司(加利福尼亚州尔湾市))获得。在另一实施例中,利用一酶反应来完成未甲基化的胞嘧啶到尿嘧啶的转化。例如,所述转化可以使用商业上可买到的试剂盒将未甲基化的胞嘧啶转化为尿嘧啶,例如APOBEC-Seq(NEBiolabs公司,马萨诸塞州伊普斯威奇市)。
在步骤115,制备一测序文库。在一第一步骤中,使用一ssDNA连接反应(ligationreaction)将一ssDNA适配器(adapter)添加到一亚硫酸氢盐转化的ssDNA分子的3′-OH端。在一个实施例中,所述ssDNA连接反应使用环化连接酶(CircLigase)II(Epicentre公司)将所述ssDNA适配器连接到一亚硫酸氢盐转化的ssDNA分子的3′-OH端,其中所述适配器的5′-端被磷酸化并且所述亚硫酸氢盐转化的ssDNA已经被脱磷(即,3′端具有一羟基)。在另一实施例中,所述ssDNA连接反应使用热稳定5′AppDNA/RNA连接酶(Thermostable 5′AppDNA/RNA ligase)(可从New England BioLabs公司(马萨诸塞州伊普斯威奇市)获得)将所述ssDNA适配器连接到一亚硫酸氢盐转化的ssDNA分子的3′-OH端。在本示例中,第一UMI适配器在5′端被腺苷酸化(adenylated)并且在3′端被阻断(blocked)。在另一实施例中,所述ssDNA连接反应使用T4 RNA连接酶(T4 RNA ligase)(可从New England BioLabs公司获得)将所述ssDNA适配器连接到一亚硫酸氢盐转化的ssDNA分子的3′-OH端。在一第二步骤中,在一延伸反应(extension reaction)中合成一第二链DNA。例如,在一引物延伸反应中使用与ssDNA适配器中包含的一引物序列杂交的一延伸引物,以形成一双链亚硫酸氢盐转化的DNA分子。可选地,在一个实施例中,所述延伸反应使用能够读取亚硫酸氢盐转化模板链中的多个尿嘧啶残基(residues)的酶。可选地,在一第三步骤中,将一dsDNA适配器添加到所述双链亚硫酸氢盐转化的DNA分子中。最后,所述双链亚硫酸氢盐转化的DNA被扩增(amplified)以添加多个测序适配器。例如,使用包含一P5序列的一正向引物和包含一P7序列的一反向引物的PCR扩增用于将P5和P7序列添加到所述亚硫酸氢盐转化的DNA中。可选地,在文库制备期间,多个唯一分子标识符(UMI)可通过适配器连接添加到多个核酸分子(例如多个DNA分子)中。所述多个唯一分子标识符(UMIs)是多个短的核酸序列(例如,4-10个碱基对),在适配器连接期间添加到多个DNA片段的末端。在一些实施例中,UMIs是多个简并(degenerate)碱基对,其作为一唯一标记以可用于识别源自一特定DNA片段的多个序列读数。在PCR扩增过程后适配器连接期间,所述多个唯一分子标识符与附加的多个DNA片段一起复制,以在下游分析中提供了一种方法以识别来自相同原始片段的多个序列读数。
在步骤120中,多个标靶DNA序列可从文库中扩增(例如,通过杂交)。可以使用任何合适的扩增方法。例如,在一些实施例中,在(例如,接触)多个样本上执行标靶化验板化验。在扩增中,多个杂交探针(在本文中也被称为“多个探针”)可用于标靶并下拉多个核酸片段,这些片段可提供关于癌症(或疾病)的存在与否、癌症状态或癌症分类(例如,癌症类型或起源组织)的信息。对于一给定的工作流程,所述多个探针可以设计成与DNA或RNA的一标靶(互补的)链进行退火(或杂交)。所述标靶链可以是“正”链(例如,转录成mRNA的链,随后转化为蛋白质)或互补的“负”链。所述多个探针的长度可以是10s、100s或1000s的碱基对。此外,所述多个探针可以覆盖一标靶区域的多个重叠部分。
在某些示例中,多个引物可用于特异性地放大感兴趣的多个标靶/多个生物标记物(例如,通过PCR),从而扩增样本所需的多个标靶/多个生物标记物(可选择不进行杂交捕获)。例如,可以为每个感兴趣的基因组区域制备正向和反向引物,并用于放大对应于或衍生自所需的基因组区域的多个片段。因此,虽然本发明特别关注多种癌症化验板和多种诱饵组,但本发明的范围足够广泛以包含用于扩增无细胞DNA的其他方法。因此,本领域技术人员在本发明的益处下将认识到,类似于本文所述的与杂交捕获相关的方法可以通过用一些其他扩增策略代替杂交捕获来实现,例如对应感兴趣的多个基因组区域的无细胞DNA的多个片段的PCR放大。在一些实施例中,亚硫酸氢盐锁式探针捕获用于扩增多个感兴趣区域,如Zhang等人(美国专利申请案公开第US 2016/0340740号)中所述。在一些实施例中,使用附加或替代方法来扩增(例如,非标靶扩增),例如还原亚硫酸氢盐测序、甲基化限制酶测序、甲基化DNA免疫沉淀测序、甲基CpG结合域蛋白质测序、甲基DNA捕获测序,或微滴PCR。
在下拉和/或杂交(参见步骤120)之后,杂交的多个核酸片段也可以可选地使用PCR放大(扩增125)。例如,可以对多个标靶序列进行扩增以获得可随后测序的多个扩增序列。一般而言,本领域任何已知方法均可用于分离并扩增探针杂交的多个标靶核酸。例如,如本领域已知,可将一生物素部分添加至探针的5′端(即,生物素化),以便于分离使用链霉亲和素涂层表面(例如,链霉亲和素包披珠)与探针杂交的多个标靶核酸。在允许多个核酸片段与多个互补探针特异结合的条件下,将多个核酸片段应用于包含多个探针的一化验板上。因此,它能够选择性的分离和扩增与多个探针有高度亲和力的多个核酸片段。
在步骤130中,多个序列读数从扩增的多个DNA序列(例如,多个扩增序列)生成。测序数据可以通过本领域已知的手段从扩增的多个DNA序列获得。例如,所述方法可包含下一代测序(NGS)技术,包含合成技术(Illumina公司)、焦磷酸测序(454 Life Sciences公司)、离子半导体技术(Ion Torrent测序)、单分子实时测序(Pacific Biosciences公司)、边连接边测序(SOLiD测序),纳米孔测序(Oxford Nanopore Technologies公司),或双端测序(paired-end sequencing)。在一些实施例中,通过使用具有多个可逆染料终止子(reversible dye terminators)的边合成边测序(sequencing-by-synthesis)来执行大规模平行测序。
序列读数分析
在一些实施例中,所述多个序列读数可以使用本领域已知的方法与一参考基因组对准以确定对准位置信息。所述对准位置信息可表示所述参考基因组中的一起始位置和一结束位置,所述参考基因组中的所述起始位置和所述结束位置对应于一给定序列读数的一起始核苷酸碱基和一结束核苷酸碱基。对准位置信息还可以包含序列读数长度,其可从所述起始位置和所述结束位置确定。所述参考基因组中的一区域可能与一基因或一基因的一片段相关联。
在各种实施例中,一序列读数包含表示为R1和R2的一读数对。例如,第一读数R1可以从一核酸片段的一第一端测序,而第二读数R2可从所述核酸片段的第二端测序。因此,第一读数R1和第二读数R2的核苷酸碱基对可与所述参考基因组的多个核苷酸碱基一致地(例如,在相反方向上)对准。从读数对R1和R2衍生的对准位置信息可以包含所述参考基因组中对应于一第一读数的结束的一起始位置(例如,R1)和所述参考基因组中对应于一第二读数的结束的一结束位置(例如,R2)。换言之,所述参考基因组中的所述起始位置和所述结束位置代表所述参考基因组内所述核酸片段对应的可能位置。具有SAM(序列对准映射)格式或BAM(二进制对准映射)格式的输出文件可以生成并输出,以供进一步分析。
根据所述序列读数,每个CpG位点的位置和甲基化状态可以基于与一参考基因组的对准来确定。此外,每个片段的甲基化状态向量可以被生成以指定所述片段在所述参考基因组中的一位置(例如,通过每个片段中第一CpG位点的位置或另一个类似的度量来指定)、所述片段中的多个CpG位点的一数量,以及所述片段中每个CpG位点的甲基化状态是甲基化(例如,表示为M)、未甲基化(例如,表示为U)或不确定(例如,表示为I)。所述多个甲基化状态向量可以被存储在临时或持久的计算机存储器中以供之后使用和处理。此外,来自一单一对象的多个重复读数或多个重复甲基化状态向量可以被移除。在另一实施例中,可以确定某个片段具有一个或多个具有不确定甲基化状态的CpG位点。这种片段可以从以后的处理中排除,也可以选择性地包含在下游数据模型说明此类不确定的甲基化状态。
图7B是根据一个实施例图7A的程序100的对一cfDNA片段测序以获得一甲基化状态向量的图示。作为一个示例,所述分析系统取用一cfDNA片段112。在本示例中,所述cfDNA片段112包含三个CpG位点。如图所示,cfDNA片段112的第一和第三CpG位点被甲基化114。在处理步骤120期间,所述cfDNA片段112被转换以产生一转换后的cfDNA片段122。在处理120期间,第二未甲基化的CpG位点使其胞嘧啶转化为尿嘧啶。然而,所述第一和第三CpG位点没有被转换。
转换后,准备一测序文库130并测序140生成一序列读数142。所述分析系统将序列读数142与一参考基因组144对准150。所述参考基因组144提供了所述cfDNA片段起源于一人类基因组中的哪个位置。在这个简化的示例中,所述分析系统对准150所述序列读数,使得三个CpG位点与CpG位点23、24和25(为了便于描述而使用的任意参考标识符)相关。所述分析系统因此产生了cfDNA片段112上所有CpG位点的甲基化状态的信息,以及在人类基因组中CpG位点地图定位的信息。如图所示,序列读数142上被甲基化的CpG位点被读作胞嘧啶。在本示例中,胞嘧啶出现在序列读数142中,仅出现在第一和第三CpG位点,这允许推断原始cfDNA片段中的第一和第三CpG位点被甲0基化。然而,第二CpG位点被读作胸腺嘧啶(在测序程序中U被转换成T),因此,可以推断第二CpG位点在原始cfDNA片段中是未甲基化的。利用这两个信息,甲基化状态和位置,所述分析系统为所述片段cfDNA 112生成160一甲基化状态向量152。在此示例中,所得的甲基化状态向量152是<M23,U24,M25>,其中M对应于一甲基化CpG位点,U对应于一未甲基化CpG位点,并且下标号对应于参考基因组中每个CpG位点的位置。
图13A和13B示出了验证来自一对照组的测序一致性的数据的三个图示。第一图示1300示出了不同癌症阶段(阶段0、阶段I、阶段II、阶段III、阶段IV和非癌症)的多个对象从一测试样本获得的cfDNA片段上未甲基化胞嘧啶转化为尿嘧啶(步骤120)的转化精度。如图所示,将多个cfDNA片段上的未甲基化胞嘧啶转化为尿嘧啶具有均一的一致性。总的转化准确率为99.47%,具有一精密度为±0.024%。第二图示1310示出了癌症不同阶段的平均覆盖率。所有组的平均覆盖率为多个DNA片段的基因组覆盖率约34倍(~34X),仅使用确信地映射到所述基因组的那些进行计数。第三图示1320(图13B)示出了不同癌症阶段每个样本的cfDNA浓度。
癌症诊断
通过本文提供的方法获得的多个序列读数可以通过多种自动化算法进一步处理。例如,所述分析系统用于从一测序器接收测序数据并执行如本文所述的各个方面的处理。所述分析系统可以是个人电脑(PC)、台式电脑、膝上型计算机、笔记本电脑、平板电脑、移动装置中的一种。一计算装置可以通过无线、有线或无线和有线通信技术的组合通信地耦合到所述测序器。通常,所述计算装置配置有一处理器和存储器,用于存储多个计算机指令,当由所述处理器执行时,所述多个计算机指令使处理器执行本文档其余部分中描述的步骤。一般来说,遗传数据和由此产生的数据量足够大,而计算能力又要求如此之大,以致于不可能在纸上或仅凭人类的头脑来执行。
多个标靶基因组区域的甲基化状态的临床解释是一程序,所述程序包含对每个甲基化状态或甲基化状态组合的临床效果进行分类,并以对医学专业人员有意义的方式报告结果。所述临床解释可以是基于多个序列读数与特定于癌症或非癌症对象的数据库的比较,和/或基于从一样本中识别出的具有癌症特异性甲基化模式的多个cfDNA片段的数量和类型。在一些实施例中,多个标靶基因组区域基于在多个癌性样本中的差异甲基化的相似性被排名或分类,并且在解释程序中使用多个等级或多个分类。所述多个等级和所述多个分类可以包含(1)临床疗效的类型,(2)疗效证据的强度,以及(3)疗效的大小。临床分析和基因组数据解释的各种方法可用于序列读数的分析。在一些其它实施例中,这种多个差异甲基化区域的多个甲基化状态的临床解释可以基于机器学习方法,所述机器学习方法基于一分类或回归方法来解释一当前样本,所述机器学习方法使用来自癌症和非癌性样本的患者具有已知癌症状态、癌症类型、癌症阶段、起源组织等的多个差异甲基化区域的多个甲基化状态进行训练。
具有临床意义的信息通常可以包含癌症存在或不存在,某些类型的癌症存在或不存在,癌症的阶段,或者其他类型的疾病存在或不存在。在一些实施例中,所述信息涉及一种或多种癌症类型的存在或不存在,所述癌症类型选自由以下组成的群组:(1)血癌;(2)乳腺癌;(3)结直肠癌;(4)食管癌;(5)头颈癌;(6)肝胆癌;(7)肺癌;(8)卵巢癌;和(9)胰腺癌。
癌症分级器
为了训练一癌症类型分类器,所述分析系统获得多个训练样本,每个训练样本具有表示癌症的低甲基化和高甲基化的多个片段的一集合,例如,通过程序400中的步骤450识别,以及训练样本的癌症类型的一标签。所述分析系统基于表示癌症的低甲基化和高甲基化的多个片段的所述集合确定(对于每个训练样本的)一特征向量。所述分析系统计算多个标靶基因组区域中每个CpG位点的一异常得分。在一个实施例中,所述分析系统基于来自包含所述CpG位点的所述集合中是否存在一低甲基化或高甲基化片段,将所述特征向量的所述异常得分定义为二进制得分。一旦确定了一训练样本的所有异常得分,所述分析系统将所述特征向量确定为多个元素的一向量,包含对于每个元素,所述异常得分中的一个与其中所述多个CpG位点中的一个相关联。所述分析系统可以基于样本覆盖率(即所有CpG位点的中位数或平均排序深度)标准化所述特征向量的所述多个异常得分。
使用多个训练样本的多个特征向量,所述分析系统可以对所述癌症分类器进行训练。在一个实施例中,所述分析系统基于所述多个训练样本的所述多个特征向量,训练一二进制癌症分类器,以区分多个标签、癌症和非癌症。在本实施例中,所述分类器输出表示癌症存在或不存在的似然性的一预测得分。在另一实施例中,所述分析系统训练一多类癌症分类器(multiclass cancer classifier),以瘥多种癌症类型之间进行区分。在此多类癌症分类器实施例中,对所述癌症分类器进行训练,以确定一癌症预测,所述癌症预测包含对被分类的多个癌症类型的每一种的一预测值。多个所述预测值可能对应于一给定样本具有所述多种癌症类型中的每一种的一似然性。例如,所述癌症分类器返回一癌症预测,包含对于乳腺癌、肺癌和非癌症的一预测值。例如,所述癌症分类器可以返回对于一测试样本的癌症预测,包含对于乳腺癌、肺癌和/或无癌症的一预测得分。在任一实施例中,所述分析系统通过将多个训练样本的多个集合及其多个特征向量输入到所述癌症分类器中并调整多个分类参数来训练所述癌症分类器,从而所述分类器的一功能能够将所述多个训练特征向量准确地关联到他们相应的标签。所述分析系统可以将所述多个训练样本分组为一个或多个训练样本的多个集合,以用于所述癌症分类器的迭代批次训练。在输入包含其多个训练特征向量的多个训练样本的所有集合并调整多个分类参数后,对所述癌症分类器进行充分训练,以在一定误差范围内根据其特征向量标记多个测试样本。所述分析系统可以根据多种方法中的任何一种来训练所述癌症分类器。例如,二进制癌症分类器可以是使用一对数损失函数(log-loss function)训练的L2正则化逻辑回归分类器(L2-regularized logisticregression classifier)。作为另一个示例,多癌症分类器可以是一多类逻辑回归(multinomial logistic regression)。在实践中,可以使用其他技术训练任何类型的癌症分类器。这些技术有很多,包含潜在使用的多种内核方法(kernel method)、多种机器学习算法(如多层神经网络等),特别是PCT专利申请案第PCT/US2019/022122号和美国专利申请案第16/352602号中所述的方法,其通过引用将其整体并入本文可以用于各种实施例。
在特定实施例中,一癌症分类器通过一程序来训练,所述程序包含以下步骤:a.从多个训练对象中获取多个训练片段的序列信息;b.对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;c.对于每一个训练对象,基于所述多个低甲基化的训练片段及所述多个高甲基化的训练片段产生一训练特征向量;及d.利用来自不具有癌症的一个或多个训练对象的所述多个训练特征向量和来自具有癌症的一个或多个训练对象的所述多个训练特征向量训练所述模型。所述训练方法还可以包含以下步骤:a.从多个训练对象中获取多个训练片段的序列信息;b.对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;c.对于在一参考基因组中的多个CpG位点中的每一个:量化与所述CpG位点重叠的多个低甲基化的训练片段的一数量和与所述CpG位点重叠的多个高甲基化的训练片段的一数量;及基于多个低甲基化的训练片段和多个高甲基化的训练片段的所述数量,生成一低甲基化得分和一高甲基化得分;d.对于每一个训练片段,基于所述训练片段中所述多个CpG位点的所述低甲基化得分生成一总合的低甲基化得分,以及基于所述训练片段中所述多个CpG位点的所述高甲基化得分生成一总合的高甲基化得分;e.对于每一个训练对象:基于总合的低甲基化得分对所述多个训练片段进行排名,并基于总合的高甲基化得分对所述多个训练片段进行排名;及基于所述多个训练片段的所述排名生成一特征向量;f.获取不具有癌症的一个或多个训练对象的多个训练特征向量,以及具有癌症的一个或多个训练对象的多个训练特征向量;以及g.利用不具有癌症的所述一个或多个训练对象的所述多个特征向量及具有癌症的所述一个或多个训练对象的所述多个特征向量训练所述模型。在一些实施例中,所述模型包含一内核逻辑回归分类器、一随机森林分类器、一混合模型、一卷积神经网络和一自动编码器模型中的一种。
在一些实施例中,量化与所述CpG位点重叠的多个低甲基化的训练片段的一数量以及与所述CpG位点重叠的多个高甲基化的训练片段的一数量进一步包含步骤:a.量化来自与所述CpG位点重叠的具有癌症的一个或多个训练对象的多个低甲基化的训练片段的一癌症数量,以及量化来自与所述CpG位点重叠的不具有癌症的一个或多个训练对象的多个低甲基化的训练片段的一非癌症数量;以及b.量化来自与所述CpG位点重叠的具有癌症的一个或多个训练对象的多个高甲基化的训练片段的一癌症数量,以及量化来自与所述CpG位点重叠的不具有癌症的一个或多个训练对象的多个高甲基化的训练片段的一非癌症数量。在一些实施例中,基于多个低甲基化的训练片段和多个高甲基化的训练片段的所述数量来生成一低甲基化得分和一高甲基化得分还包含步骤:a.对于生成所述低甲基化得分,计算多个低甲基化的训练片段的所述癌症数量与多个低甲基化的训练片段的所述癌症数量及多个低甲基化的训练片段的所述非癌症数量的一低甲基化总合的一低甲基化比率;以及b.对于生成所述高甲基化得分,计算多个高甲基化的训练片段的所述癌症数量与多个高甲基化的训练片段的所述癌症数量及多个高甲基化的训练片段的所述非癌症数量的一高甲基化总合的一高甲基化比率。
在部署期间,所述分析系统从一对象收集的一测试样本中获取多个序列读数。本领域可用的各种测序方法可用于获得多个序列读数。在一些实施例中,所述多个序列读数从全基因组测序或标靶测序获得。在一些实施例中,所述多个序列读数包含修饰的多个测试片段的多个序列读数的一集合,其中所述修饰的多个测试片段是通过多个核酸片段的一集合的处理获得,其中所述多个核酸片段中的每一个对应于或衍生自从表1至24中的一个或多个中选择的多个基因组区域。在一些实施例中,所述多个序列读数来自使用如本文描述的化验板扩增的多个DNA样本。
所述分析系统处理所述多个序列读数,以获得与多个训练样本描述的类似程序中一测试特征向量。在一些实施例中,所述测试特征向量通过一程序获得,所述程序包含步骤:a.对于所述多个核酸片段中的每一个,确定所述核酸片段是低甲基化或高甲基化,其中低甲基化和高甲基化的所述多个核酸片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;b.对于一参考基因组中的多个CpG位点中的每一个:量化与所述CpG位点重叠的低甲基化的多个核酸片段的一数量和与所述CpG位点重叠的高甲基化的多个核酸片段的一数量;及基于低甲基化的多个核酸片段和高甲基化的多个核酸片段的所述数量,生成一低甲基化得分和一高甲基化得分;c.对于每一个核酸片段,基于所述核酸片段中所述多个CpG位点的所述低甲基化得分生成一总合的低甲基化得分和基于所述核酸片段中所述多个CpG位点的所述高甲基化得分生成一总合的高甲基化得分;d.基于总合的低甲基化得分对所述多个核酸片段进行排名,及基于总合的高甲基化得分对所述多个核酸片段进行排名;以及e.基于所述多个核酸片段的所述排名生成所述测试特征向量。
然后,所述分析系统将所述测试特征向量输入到经过训练的癌症分类器中,以产生一癌症预测,例如,二元预测(癌症或非癌症)或多类癌症预测(多种癌症类型中的每一种的预测得分)。在一些实施例中,所述分析系统输出测试样本的一癌症概率。所述癌症概率可以与一阈值概率进行比较,以确定来自一对象的所述测试样本具有癌症或不具有癌症。
示例性测序器和分析系统
图8A是根据一个实施例用于测序多个核酸样本的多种系统和装置的流程图。此说明性的流程图包含多个装置,例如一测序器820和一分析系统800。所述测序器820和所述分析系统800可串联工作以执行本文所述程序中的一个或多个步骤。
在各种实施例中,所述测序器820接收一扩增的核酸样本810。如图8A所示,所述测序器820可以包含一图形用户界面825,所述图形用户界面825允许用户与多个特定任务互动(例如,启动测序或终止测序)以及一个或多个加载站830,用于加载一测序药盒(包含多个扩增片段样本)和/或用于加载执行测序化验所需的多种缓冲液。因此,一旦所述测序器820的一用户已向所述测序器820的所述加载站830提供了所需的试剂和测序药盒,所述用户就可以通过与所述测序器820互动的所述图形用户界面825来启动测序。一旦启动,所述测序器820执行测序并输出来自所述核酸样本810的多个扩增片段的多个序列读数。
在一些实施例中,所述测序器820与所述分析系统800通信地耦合。所述分析系统800包含一些用于处理各种应用的序列读数的计算装置,例如评估一个或多个CpG位点的甲基化状态、识别变体(variant calling)或质量控制。测序器820可以将BAM文件格式的多个序列读数提供给所述分析系统800。所述分析系统800可以通过无线、有线或无线和有线通信技术的组合以通信方式耦合到所述测序器820。通常,所述分析系统800配置有一处理器和存储多个计算机指令的非临时计算机可读存储介质,当由所述处理器执行时,所述多个计算机指令导致处理器处理所述多个序列读数或执行本文公开的任何方法或程序的一个或多个步骤。
在一些实施例中,所述多个序列读数可以使用本领域已知的方法与一参考基因组对准以确定对准位置信息,例如,图3A中程序100的步骤140的一部分。对准位置通常可以描述所述参考基因组中一区域的一起始位置和一结束位置,其对应于一给定序列读数的一起始碱基和一结束碱基。与甲基化测序相对应,所述对准位置信息可概括为表示根据与所述参考基因组的对准的所述序列读数中包含的一第一CpG位点和一最后CpG位点。所述对准位置信息可以进一步表示在一给定的序列读数中多个甲基化状态和所有CpG位点的位置。所述参考基因组中的一区域可与一基因或一基因的一片段相关联;因此,所述分析系统800可使用一个或多个基因与所述序列读数对准来标记一序列读数。在一个实施例中,从所述起始位置和所述结束位置来确定片段长度(或大小)。
在各种实施例中,例如当使用一成对的结束测序程序时,一序列读数由表示为R_1和R_2的一读数对组成。例如,一第一读数R_1可从一双链DNA(dsDNA)分子的一第一端测序,而一第二读数R_2可从所述双链DNA(dsDNA)的一第二端测序。因此,所述第一读数R_1和所述第二读数R_2的核苷酸碱基对可与所述参考基因组的多个核苷酸碱基一致地(例如,在相反方向上)对准。衍生自读数对R_1和R_2的对准位置信息可以包含所述参考基因组中的一起始位置,所述起始位置对应于所述第一读数(例如,R_1)的终点及所述参考基因组中的一结束位置,所述结束位置对应于一第二读数(例如,R_2)的终点。换言之,所述参考基因组中的所述起始位置和所述结束位置代表所述参考基因组内所述核酸片段对应的可能位置。可以生成并输出具有SAM(序列对准映射)格式或BAM(二进制)格式的一输出文件,以供进一步分析。
现在参考图8B,图8B是根据一个实施例的用于处理多个DNA样本的一分析系统800的方框图。所述分析系统实现了一个或多个用于分析多个DNA样本的计算装置。所述分析系统800包含一序列处理器840、序列数据库845、模型数据库855、多个模型850、参数数据库865和评分引擎860。在一些实施例中,所述分析系统800执行在图3A的程序100、图3B的程序340、图4的程序400、图5的程序500、图6A的程序600或图6B的程序680和本文描述的其他程序中的一个或多个步骤。
所述序列处理器840从一样本的多个片段生成多个甲基化状态向量。在一片段上的每个CpG位点处,所述序列处理器840通过图3A的程序100为每个片段生成一甲基化状态向量,其指定在参考基因组中所述片段的位置、所述片段中的多个CpG位点的一数量以及所述片段中每个CpG位点的甲基化状态,是甲基化、未甲基化还是不确定。所述序列处理器840可将多个片段的多个甲基化状态向量存储在所述序列数据库845中。所述序列数据库845中的数据可以被组织以使得来自一样本的多个甲基化状态向量彼此相关联。
此外,多个不同的模型850可以存储在所述模型数据库855中,或者检索以用于多个测试样本。在一个示例中,一模型是一经过训练的癌症分类器,用于使用来自多个异常片段的一特征向量来确定测一试样本的一癌症预测。所述癌症分类器的训练和使用将结合标题为“表示癌症的基因组区域和分类器”的小节进一步讨论。所述分析系统800可以训练一个或多个模型850并将各种被训练参数存储在所述参数数据库865中。所述分析系统800将所述多个模型850与多个函数一起存储在所述模型数据库855中。
在推断期间,所述评分引擎860使用一个或多个850模型返回多个输出。所述评分引擎860访问所述模型数据库855中的所述多个模型850以及所述参数数据库865中的多个被训练参数。根据每个模型,所述评分引擎接收所述模型的一适当输入,并基于接收到的输入、所述多个参数以及与输入和输出相关的每个模型的一函数来计算一输出。在一些使用的情况中,所述评分引擎860进一步计算与所述模型计算的多个输出的一置信度相关的多个度量。在其他使用的情况中,所述评分引擎860用于所述模型中计算其他中间值。
应用
在一些实施例中,本发明的方法、分析系统和/或分类器可用于检测癌症的存在、监测癌症的进展或复发、监测治疗反应或有效性、确定最小残留疾病灶(MRD)的存在或监测最小残留疾病灶或其任何组合。例如,如本文所述,一分类器可用于生成一样本特征向量是来自一癌症患者的一似然或概率得分(例如,从0到100)。在一些实施例中,将所述概率得分与一阈值概率进行比较以确定一对象是否患有癌症。在其它实施例中,可在不同时间点(例如,治疗前或治疗后)评估所述似然性或概率得分以监视疾病进展或监视治疗有效性(例如,治疗疗效)。在其他实施例中,所述似然性或概率得分可用于作出或影响一临床决策(例如,癌症诊断、治疗选择、治疗效果评估等)。例如,在一个实施例中,如果所述似然性或概率得分超过一阈值,则医生可以开出适当的治疗方案。
癌症的早期检测
在一些实施例中,本发明的方法和/或分类器用于检测怀疑患有癌症的一对象中癌症存在或不存在。例如,一分类器(如本文所述)可用于确定一样本特征向量是来自具有癌症的一对象的一似然性或概率得分。
在一个实施例中,大于或等于60的概率得分可表示所述对象患有癌症。在其他实施例中,概率得分大于或等于65、大于或等于70、大于或等于75、大于或等于80、大于或等于85、大于或等于90、或大于或等于95,表示所述对象患有癌症。在其它实施例中,一概率得分可表示疾病的严重性。例如,与低于80分(例如,70分)相比,概率得分为80分可能表示癌症的更严重程度或晚期。类似地,随着时间的推移(例如,在一第二、更晚的时间点)概率得分的增加可以表示疾病的进展,或者随着时间的推移(例如,在一第二、更晚的时间点)概率得分的减少可以表示治疗成功。
在另一个实施例中,可以通过取一癌性概率与一非癌性概率(即1减去癌性概率)的比值的对数来计算一测试对象的一癌症对数概率比,如本文所述。根据本实施例,大于1的癌症对数概率比可表示所述对象患有癌症。在其他实施例中,癌症对数概率比大于1.2、大于1.3、大于1.4、大于1.5、大于1.7、大于2、大于2.5、大于3、大于3.5或大于4,表示对象患有癌症。在其它实施例中,一癌症对数概率比可表示疾病的严重程度。例如,与得分低于2(例如,得分为1)相比,一癌症对数概率比大于2可能表示癌症的更严重程度或晚期。同样,随着时间的推移(例如,在第二、更晚的时间点)癌症对数概率比的增加可以表示疾病的进展,或者随着时间的推移(例如,在第二、更晚的时间点)癌症对数概率比的减少可以表明治疗成功。
根据本发明的各个方面,本发明的方法和系统可以被训练来检测或分类多个癌症适应症。例如,本发明的方法、系统和分类器可用于检测一种或多种、两种或多种、三种或多种、五种或多种不同类型癌症的存在。
在一些实施例中,癌症是以下的一种或多种:(1)血癌;(2)乳腺癌;(3)结直肠癌;(4)食管癌;(5)头颈癌;(6)肝胆癌;(7)肺癌;(8)卵巢癌;及(9)胰腺癌。
癌症与治疗监测
在一些实施例中,可在不同的时间点(例如,或在治疗之前或之后)评估似然性或概率得分,以监测疾病进展或监测治疗效果(例如,治疗疗效)。例如,本发明提供的方法涉及在一第一时间点从一癌症患者获得一第一样本(例如,一第一血浆cfDNA样本)、从中确定一第一似然性或概率得分(如本文所述)、在第二时间点从所述癌症患者获得一第二测试样本(例如,一第二血浆cfDNA样本),并从中确定一第二似然性或概率得分(如本文所述)。
在某些实施例中,所述第一时间点在一癌症治疗之前(例如,在切除手术或治疗干预之前),并且所述第二时间点在一癌症治疗之后(例如,在切除手术或治疗干预之后),以及用于监测治疗的有效性的方法。例如,如果所述第二似然性或概率得分比所述第一似然性或概率得分降低,则认为治疗成功。然而,如果所述第二似然性或概率得分比所述第一似然性或概率得分增加,则认为治疗不成功。在其它实施例中,所述第一和所述第二时间点都在一癌症治疗之前(例如,在切除手术或治疗干预之前)。在其他实施例中,所述第一和所述第二时间点都是在一癌症治疗之后(例如,在切除手术或治疗干预之前),以及用于监视治疗的有效性或治疗的有效性的损失的方法。在其它实施例中,多个cfDNA样本可在第一和第二时间点从一癌症患者获得并分析。例如,用于监测癌症进展,确定癌症是否处于缓解期(例如,治疗后),监测或检测残留疾病或疾病复发,或监测治疗(treatment)(例如,治疗(therapeutic))的疗效。
本领域技术人员将容易理解,可以在任何期望的时间点从一癌症患者获得测试样本,并根据本发明的方法进行分析以监测患者的癌症状态。在一些实施例中,所述第一时间点和第二时间点被范围从大约15分钟到大约30年的时间量分开,例如大约30分钟,例如大约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或大约24小时,例如大约1、2、3、4、5、10、15、20、25或大约30天,或例如约1、2、3、3、4、5、6、7、8、9、10、11、或12个月,或例如约1、1.5、2、2.5、3、3.5、4、4.5、5、5、5.5、6.5、6、6.5、7、7.5、8、8.5、9、9.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29,29.5年或约30年。在其它实施例中,可至少每3个月一次、至少每6个月一次、至少一年一次、至少每2年一次、至少每3年一次、至少每4年一次或至少每5年一次从所述患者处获取多个测试样本。
治疗
在另一实施例中,从本文描述的任何方法获得的信息(例如,似然性或概率得分)可用于作出或影响一临床决策(例如,癌症诊断、治疗选择、治疗效果评估等)。例如,在一个实施例中,如果似然性或概率得分超过一阈值,医生可以开出适当的治疗方案(例如,切除手术、放射治疗、化疗和/或免疫疗法)。在一些实施例中,例如一似然性或概率得分之类的信息可以作为一输出数值提供给医生或对象。
一分类器(如本文所述)可用于确定来自具有癌症的一对象的一样本特征向量的似然性或概率得分。在一个实施例中,当所述似然性或概率超过一阈值时,处方一适当的治疗(例如,切除手术或治疗)。例如,在一个实施例中,如果所述似然性或概率得分大于或等于60,则处方一个或多个适当的治疗。在另一实施例中,如果所述似然性或概率得分大于或等于65、大于或等于70、大于或等于75、大于或等于80、大于或等于85、大于或等于90、或大于或等于95,则处方一个或多个适当的治疗。在其它实施例中,一癌症对数概率比可表示癌症治疗的有效性。例如,随着时间的推移(例如,在治疗后的一第二时间)癌症对数概率比的增加可以表示治疗无效。同样,随着时间的推移(例如,在治疗后的一第二时间)癌症对数概率比的降低可以表示治疗成功。在另一实施例中,如果癌症对数概率比大于1、大于1.5、大于2、大于2.5、大于3、大于3.5或大于4,则处方一种或多种适当的治疗。
在一些实施例中,所述治疗是选自由以下组成的群组的一种或多种的癌症治疗剂:一化学治疗剂、一靶向的癌症治疗剂、一分化治疗剂、一激素治疗剂和一免疫治疗剂。例如,所述治疗可以是选自由以下组成的群组的一种或多种的化学治疗剂:烷基化剂、抗代谢物、蒽环类、抗肿瘤抗生素、细胞骨架破坏剂(紫杉醇)、拓扑异构酶抑制剂、有丝分裂抑制剂、皮质类固醇、激酶抑制剂、核苷酸类似物和铂基药物及其任何组合。在一些实施方案中,所述治疗是选自由以下组成的群组的一种或多种的靶向癌症治疗剂:信号转导抑制剂(例如酪氨酸激酶和生长因子受体抑制剂)、组蛋白脱乙酰基酶(HDAC)抑制剂、视黄酸受体激动剂、蛋白质组抑制剂、血管生成抑制剂和单克隆抗体结合物。在一些实施例中,所述治疗是一种或多种的分化治疗剂包含维甲酸类,例如维甲酸、阿利维甲酸和贝沙罗汀。在一些实施例中,所述治疗是选自由以下组成的群组的一种或多种的激素治疗剂:抗雌激素、芳香化酶抑制剂、孕激素、雌激素、抗雄激素和GnRH激动剂或类似物。在一个实施例中,所述治疗是选自由以下组成的群组的一种或多种的免疫治疗剂:单克隆抗体疗法,如利妥昔单抗(RITUXAN)和阿仑单抗(CAMPATH),非特异性免疫疗法和佐剂,如卡介苗、白细胞介素2(IL-2)和干扰素α,免疫调节药物,例如沙利度胺和来那度胺(REVLIMID)。熟练的医生或肿瘤学家有能力基于诸如肿瘤的类型、癌症阶段、先前接受过癌症治疗或治疗剂的暴露以及癌症的其他特征的特征来选择合适的癌症治疗剂。
示例
为了向本领域技术人员提供关于如何制作和使用本说明书的完整公开和描述,提出以下示例,并且不打算限制发明人所认为的描述的范围,也不打算表示下面的实验是全部或唯一进行的实验。已经努力确保所用数字(如数量、温度等)的准确性,但应考虑一些实验误差和偏差。
示例1:探针质量分析
为了测试一cfDNA片段和一探针之间需要多少重叠才能实现不可忽略的下拉量,使用设计包含三种不同类型探针(V1D3、V1D4、V1E2)的多种化验板测试不同长度的重叠,与每个探针特定的175bp标靶DNA片段具有不同的重叠。测试的重叠范围在0bp和120bp之间。将含有多个175bp标靶DNA片段的多个样本施加于所述化验板上并洗涤,然后收集与所述多个探针结合的多个DNA片段。测量收集到的多个DNA片段的多个数量,并将所述多个数量绘制为密度与重叠大小,如图9所示。
当重叠小于45bp时,多个标靶DNA片段没有显着的结合和下拉。这些结果表明通常需要至少45bp的一片段探针重叠来实现不可忽略的下拉量,尽管这个数字可能因化验条件而异。
此外,其表明在所述探针与多个片段序列在重叠区域中的大于10%的错配率足以大大破坏结合,从而降低了下拉效率。因此,可以沿至少45bp与探针对准且匹配率至少为90%的序列是脱靶下拉的候选序列。
因此,我们对每个探针进行了具有45bp对准且匹配率为90%以上(即脱靶区域)的所有基因组区域进行了详尽的搜索。具体地说,我们将一k-mer接种策略(其允许一个或多个不匹配)与多个种子位置的局部对准相结合。这保证不会丢失任何基于k-mer长度、允许的不匹配数量和特定位置的k-mer种子命中数的良好对准。这涉及到在大量位置执行动态编程本地对准。这涉及在大量位置执行动态编程局部对齐,因此对实现进行了优化以使用向量CPU指令(例如AVX2、AVX512)并在计算机内部的许多内核以及通过网络连接的许多计算机之间并行化。这样可以进行详尽的搜索,这对于设计高性能化验板时非常有价值(即,对于给定数量的测序的低脱靶率和高标靶覆盖率)。
在彻底搜索之后,基于脱靶区域的数量对每个探针进行评分。最好的探针得分为1,这意味着它们只在一个地方匹配(高Q)。得分在2-19之间的低得分(低Q)的探针被接受,但得分超过20(劣Q)的不佳得分的探针被丢弃。其他截止值可用于特定样本。
然后在多个探针标靶的多个高甲基化基因组区域或多个低甲基化基因组区域中对高质量、低质量和劣质量的探针的数量进行计数。如图10所示,标靶多个高甲基化区域的多个探针往往具有较少的脱靶区域。
示例2:标靶基因组区域的注释
通过图4中概述的程序识别的多个标靶基因组区域被,以了解多个标靶区域的多个特征。特别是,选定的多个标靶基因组区域与一参考基因组对准,以确定多个排列位置。对准位置信息被收集以用于每个选定的标靶基因组区域,所述对准位置信息包含染色体数量、起始碱基、结束碱基以及给定基因组区域的基因组注释。多个标靶基因组区域被定位在内含子、外显子、基因间区域、5’UTRs、3’UTRs或对照区域,如启动子或增强子。落在每个基因组注释内的多个标靶基因组区域的数量被计数并绘制在图12中提供的图示中。图12还比较了落入每个基因组注释内的所选的多个靶标基因组区域的数量(黑色条)或随机选择的多个基因组区域的数量(灰色条)。
分析显示,与随机选择的相同大小的标靶相比,所选的多个标靶基因组区域在其基因组分布上不是随机的,它们对调控和功能元件(如启动子和5UTRs)的扩增程度更高,基因间序列的代表性更少。例如,多个标靶基因组区域被发现定位于启动子、5’UTR、外显子、内含子/外显子边界、内含子、3’UTRs或增强子,而不是基因间区域。
示例3:癌症化验板(CCGA)
使用从1800多个个体中获得的多个cfDNA片段进行测序生成的数据库来选择多个标靶基因组区域。cfDNA测序数据库在本文中被称为循环无细胞基因组图谱研究(“CCGA”)。CCGA的研究描述在Clinical Trial.gov中,标识符:NCT02889978(https://www.clinicaltrials.gov/ct2/show/NCT02889978)。
具体而言,数据库中的多个cfDNA序列基于p值使用非癌症分布进行筛选,仅保留p<0.001的多个片段。所选的多个cfDNA被进一步过滤以仅保留那些至少90%甲基化或90%未甲基化的cfDNA。接下来,对于所选片段中的每个CpG位点,对包含重叠该CpG位点的多个片段的癌症样本或非癌症样本的数量进行计数。具体而言,计算每个CpG的P(癌症|重叠片段),并选择具有高P值的多个基因组位点作为一般癌症标靶。通过设计,所选的多个片段具有非常低的噪音(即很少有非癌症片段重叠)。
为了寻找癌症类型的多个特异性靶点,进行了类似的选择程序。多个CpG位点基于它们的信息增益进行排名,将一种癌症类型与所有其他样本(非癌症加上其他癌症类型)进行比较。我们只试图为CCGA中的癌症类型的亚集合找到癌症类型的特异性靶点,我们认为应该有足够的信号使之可行。使用相同的选择方法来找到一癌症类型分类器的多个特征时,良好的结果支持了这种直觉。
多种癌症化验板包含多个探针以标靶所选的多个基因组区域被生成。具体而言,所述多种化验板旨在一般地检测癌症的存在和/或阶段(即与非癌症相比)或如下所列的特定癌症类型:
表1:泛癌#1
表2:血癌#1
表3:乳腺癌#1
表4:结直肠癌#1
表5:食管癌#1
表6:头颈癌#1
表7:肝胆管癌#1
表8:肺癌#1
表9:卵巢癌#1
表10:胰腺癌#1
表12:泛癌#2
表13:泛癌#3
表14:泛癌#4
表15:泛癌#5
表16:血癌#2
表17:乳腺癌#2
表18:结直肠癌#2
表19:食管癌#2
表20:头颈癌#
表21:肝胆管癌#2
表22:肺癌#2
表23:卵巢癌#2
表24:胰腺癌#2
所述多个化验板可包含多个探针,配置为与从多个cfDNA分子的处理中获得的一修饰片段相杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自包含在表1至24提供的列表中的一个或多个基因组区域。表1至10和12至13中提供的所述多个基因组区域通过图4所示的程序使用CCGA数据集进行识别。表14至24表示表1至13的子集。表1至10以下列列格式列出所述多个基因组区域,从最左边一列开始:标靶基因组区域所在的染色体,标靶基因组区域的起始和终止位置,标靶基因组区域是高甲基化还是低甲基化,以及位于基因组的标靶区域的10000bp范围内的任何基因的注释(如果知道的话)。表12至24从最左边的一列开始,具有列格式如下:标靶基因组区域所在的染色体以及标靶基因组区域在染色体上的起始位置和终止位置。染色体数目和起始和终止位置是相对于已知的人类参考基因组hg19提供的。人类参考基因组hg19的序列可从基因组参考联盟获得,参考号为GRCh37/hg19,也可从圣克鲁斯基因组研究所提供的基因组浏览器中获得。
通常,可将一探针设计为与表1至24中包含的任何标靶区域(例如,多个异常片段)的起始/终止范围内包含的任何CpG位点重叠。
表1
表2-血癌
表3-乳腺癌
表4-结直肠癌
表5-食管癌
表6-头颈癌
表7-肝胆癌
表8-肺癌
表9-卵巢癌
表10-胰腺癌
表11
表12-泛癌#2
表13-泛癌#3
表14-泛癌#4
表15-泛癌#5
表16-血癌
chr |
起始 |
结束 |
chr |
起始 |
结束 |
chr |
起始 |
结束 |
chr1 |
15251121 |
15251211 |
chr1 |
15480854 |
15480892 |
chr1 |
64240031 |
64240118 |
chr1 |
64240618 |
64240673 |
chr1 |
183774245 |
183774363 |
chr1 |
202183372 |
202183401 |
chr1 |
214724532 |
214724561 |
chr1 |
232765226 |
232765301 |
chr1 |
233750126 |
233750302 |
chr2 |
14772762 |
14772823 |
chr2 |
14774475 |
14774567 |
chr2 |
46526303 |
46526331 |
chr2 |
75427370 |
75427399 |
chr2 |
101436638 |
101436708 |
chr2 |
103236166 |
103236277 |
chr2 |
151342979 |
151343218 |
chr2 |
171571265 |
171571315 |
chr2 |
171571890 |
171571997 |
chr2 |
189157513 |
189157617 |
chr2 |
235860803 |
235860808 |
chr2 |
236402772 |
236402901 |
chr2 |
236403271 |
236403419 |
chr2 |
238395907 |
238395961 |
chr3 |
37901952 |
37901953 |
chr3 |
45187297 |
45187328 |
chr3 |
126373521 |
126373619 |
chr3 |
126373669 |
126373704 |
chr3 |
133748141 |
133748206 |
chr3 |
133748552 |
133748576 |
chr3 |
153838819 |
153838870 |
chr3 |
153839519 |
153839559 |
chr3 |
153839641 |
153839775 |
chr3 |
171527953 |
171527971 |
chr4 |
24914639 |
24914668 |
chr4 |
152246133 |
152246237 |
chr4 |
170947288 |
170947325 |
chr4 |
184019693 |
184019736 |
chr4 |
184020107 |
184020179 |
chr5 |
34656933 |
34657034 |
chr5 |
72416247 |
72416262 |
chr5 |
72733094 |
72733185 |
chr5 |
107005984 |
107006186 |
chr5 |
121413538 |
121413590 |
chr6 |
1312001 |
1312095 |
chr6 |
1312680 |
1312708 |
chr6 |
1314089 |
1314101 |
chr6 |
26987968 |
26988166 |
chr6 |
42928322 |
42928454 |
chr7 |
27275514 |
27275532 |
chr7 |
28995658 |
28995978 |
chr7 |
28996458 |
28996495 |
chr7 |
32997125 |
32997454 |
chr7 |
50860227 |
50860393 |
chr7 |
50860980 |
50861103 |
chr7 |
51384328 |
51384440 |
chr7 |
51384916 |
51384951 |
chr7 |
55086481 |
55086601 |
chr7 |
55086984 |
55087533 |
chr7 |
121945823 |
121945920 |
chr7 |
155602752 |
155602805 |
chr8 |
25041747 |
25041864 |
chr8 |
95651539 |
95651599 |
chr8 |
95651637 |
95651655 |
chr8 |
102505798 |
102505934 |
chr8 |
120220429 |
120220592 |
chr9 |
14312995 |
14313096 |
chr9 |
21559295 |
21559381 |
chr9 |
21559678 |
21559702 |
chr9 |
38620642 |
38620725 |
chr9 |
110251389 |
110251418 |
chr9 |
110252364 |
110252455 |
chr9 |
134421818 |
134421835 |
chr10 |
21462534 |
21462607 |
chr10 |
30026077 |
30026090 |
chr10 |
33624167 |
33624230 |
chr10 |
33624493 |
33624550 |
chr10 |
72973131 |
72973180 |
chr10 |
116164249 |
116164341 |
chr11 |
12132525 |
12132559 |
chr11 |
12399041 |
12399145 |
chr11 |
12399181 |
12399222 |
chr11 |
12695482 |
12695496 |
chr11 |
12695573 |
12695611 |
chr11 |
12696612 |
12696746 |
chr11 |
16628820 |
16628933 |
chr11 |
33037468 |
33037556 |
chr11 |
66790622 |
66790655 |
chr11 |
120039834 |
120039865 |
chr11 |
129245747 |
129245810 |
chr11 |
130318961 |
130318997 |
chr11 |
134201503 |
134201543 |
chr11 |
134201842 |
134202084 |
chr12 |
16500577 |
16500621 |
chr12 |
56882365 |
56882380 |
chr12 |
107486551 |
107486672 |
chr12 |
107487195 |
107487855 |
chr12 |
107712274 |
107712303 |
chr13 |
100634315 |
100634382 |
chr14 |
34420251 |
34420288 |
chr14 |
61747389 |
61747528 |
chr14 |
61747583 |
61747816 |
chr14 |
61748002 |
61748033 |
chr15 |
62456923 |
62456952 |
chr15 |
71055770 |
71055815 |
chr15 |
96874363 |
96874416 |
chr15 |
98504115 |
98504144 |
chr15 |
99193207 |
99193345 |
chr15 |
99193350 |
99193465 |
chr16 |
54964949 |
54965114 |
chr16 |
68771167 |
68771298 |
chr16 |
80966400 |
80966431 |
chr16 |
84402245 |
84402319 |
chr16 |
84853289 |
84853376 |
chr17 |
42061337 |
42061381 |
chr17 |
72427854 |
72427963 |
chr17 |
72428345 |
72428381 |
chr17 |
75207840 |
75207944 |
chr17 |
80693343 |
80693554 |
chr18 |
19750309 |
19750346 |
chr18 |
21269350 |
21269390 |
chr18 |
21269660 |
21269740 |
chr18 |
78005004 |
78005051 |
chr19 |
462182 |
462235 |
chr19 |
33792412 |
33792524 |
chr20 |
1206856 |
1207034 |
chr20 |
6748926 |
6749036 |
chr20 |
18039824 |
18039897 |
chr20 |
22564236 |
22564265 |
chr20 |
50384768 |
50384896 |
chr21 |
38070706 |
38070765 |
chr22 |
31198493 |
31198637 |
|
|
|
表17-乳腺癌
chr |
起始 |
结束 |
chr |
起始 |
结束 |
chr |
起始 |
结束 |
chr1 |
2336398 |
2336427 |
chr1 |
2521025 |
2521062 |
chr1 |
6507964 |
6508126 |
chr1 |
21573736 |
21574203 |
chr1 |
23885071 |
23885088 |
chr1 |
155043332 |
155043657 |
chr1 |
167823371 |
167823461 |
chr1 |
185073819 |
185073966 |
chr2 |
44497709 |
44497842 |
chr2 |
61135116 |
61135137 |
chr2 |
127863602 |
127863725 |
chr3 |
12977068 |
12977144 |
chr3 |
183728814 |
183728926 |
chr5 |
43007937 |
43007966 |
chr5 |
176764101 |
176764169 |
chr6 |
41773521 |
41773844 |
chr6 |
43748464 |
43748616 |
chr7 |
907657 |
907709 |
chr7 |
6188652 |
6188831 |
chr7 |
6188926 |
6189061 |
chr7 |
55410020 |
55410126 |
chr7 |
127371130 |
127371234 |
chr7 |
129800244 |
129800434 |
chr7 |
131041516 |
131041596 |
chr7 |
134918504 |
134918637 |
chr8 |
61777576 |
61777622 |
chr8 |
142367673 |
142367790 |
chr8 |
144668567 |
144668667 |
chr8 |
144668910 |
144668972 |
chr9 |
34224349 |
34224474 |
chr9 |
34372806 |
34372983 |
chr9 |
129401098 |
129401195 |
chr9 |
139888946 |
139888980 |
chr10 |
6003403 |
6003625 |
chr10 |
22047362 |
22047601 |
chr11 |
232864 |
233062 |
chr11 |
63641073 |
63641104 |
chr12 |
110353415 |
110353451 |
chr13 |
28239910 |
28240164 |
chr14 |
102564465 |
102564502 |
chr16 |
3802982 |
3803074 |
chr16 |
85699690 |
85699921 |
chr17 |
26961771 |
26961833 |
chr17 |
42092191 |
42092220 |
chr17 |
70026544 |
70026667 |
chr18 |
74755509 |
74755577 |
chr19 |
14181306 |
14181682 |
chr19 |
33468019 |
33468055 |
chr19 |
38782560 |
38782589 |
chr19 |
40829794 |
40830032 |
chr19 |
45570402 |
45570450 |
chr19 |
45574774 |
45574782 |
chr19 |
45574837 |
45574888 |
chr20 |
6022813 |
6023045 |
chr20 |
32301800 |
32301953 |
chr20 |
60620233 |
60620412 |
chr20 |
60772886 |
60773878 |
chr21 |
37775035 |
37775141 |
chr21 |
46935740 |
46935936 |
chr22 |
21977315 |
21977347 |
chr22 |
23801460 |
23801567 |
chr22 |
24560376 |
24560522 |
chr22 |
39830356 |
39830457 |
chr22 |
41657234 |
41657350 |
|
|
|
|
|
|
表18-结直肠癌
chr |
起始 |
结束 |
chr |
起始 |
结束 |
chr |
起始 |
结束 |
chr1 |
3659551 |
3659643 |
chr1 |
3659672 |
3659716 |
chr1 |
3663533 |
3663562 |
chr1 |
12123244 |
12123276 |
chr1 |
38511662 |
38511757 |
chr2 |
12858453 |
12858499 |
chr2 |
29338159 |
29338748 |
chr2 |
29338810 |
29338969 |
chr2 |
31360307 |
31360590 |
chr2 |
31360631 |
31360693 |
chr2 |
31360695 |
31360756 |
chr2 |
31360804 |
31360831 |
chr2 |
31456893 |
31457039 |
chr2 |
100937837 |
100938164 |
chr2 |
100938481 |
100938545 |
chr2 |
100938575 |
100938799 |
chr2 |
100938801 |
100938810 |
chr2 |
100938985 |
100939155 |
chr2 |
144694753 |
144695135 |
chr2 |
172367022 |
172367125 |
chr2 |
241542045 |
241542344 |
chr3 |
142791152 |
142791173 |
chr3 |
142839563 |
142839578 |
chr3 |
142839580 |
142839607 |
chr3 |
179168977 |
179169016 |
chr4 |
718082 |
718112 |
chr4 |
79689652 |
79689732 |
chr4 |
156297417 |
156297556 |
chr4 |
156297980 |
156298073 |
chr5 |
38845676 |
38845705 |
chr5 |
82769015 |
82769061 |
chr5 |
111987788 |
111987818 |
chr5 |
146257500 |
146257602 |
chr6 |
73331516 |
73331851 |
chr6 |
73331876 |
73332169 |
chr6 |
73332392 |
73332674 |
chr6 |
73332987 |
73333099 |
chr6 |
127440332 |
127440510 |
chr6 |
127440512 |
127440524 |
chr6 |
151815056 |
151815089 |
chr6 |
152957954 |
152957995 |
chr6 |
163834315 |
163834383 |
chr6 |
163834406 |
163834533 |
chr6 |
163836569 |
163836900 |
chr7 |
2728069 |
2728108 |
chr7 |
28449277 |
28449291 |
chr7 |
44364839 |
44364903 |
chr7 |
69064591 |
69064772 |
chr7 |
69064834 |
69064858 |
chr7 |
76033251 |
76033289 |
chr7 |
90226290 |
90226363 |
chr7 |
106797775 |
106797804 |
chr7 |
107483695 |
107483918 |
chr7 |
134143808 |
134143908 |
chr7 |
140027009 |
140027043 |
chr7 |
149411542 |
149411728 |
chr7 |
149411835 |
149412304 |
chr7 |
150069099 |
150069346 |
chr7 |
150070022 |
150070058 |
chr8 |
53853998 |
53854027 |
chr8 |
80803674 |
80803831 |
chr8 |
97507150 |
97507246 |
chr8 |
143533745 |
143533774 |
chr9 |
37026964 |
37026993 |
chr9 |
93698030 |
93698051 |
chr9 |
140024843 |
140024919 |
chr9 |
140024957 |
140025023 |
chr10 |
3641379 |
3641396 |
chr10 |
7450525 |
7450567 |
chr10 |
7452350 |
7452550 |
chr10 |
7453492 |
7453521 |
chr10 |
49731643 |
49731749 |
chr10 |
64578319 |
64578355 |
chr10 |
101089410 |
101089439 |
chr10 |
125851518 |
125851645 |
chr10 |
125852300 |
125852498 |
chr10 |
125852754 |
125853191 |
chr10 |
133795401 |
133795430 |
chr11 |
2040108 |
2040148 |
chr11 |
3169689 |
3169835 |
chr11 |
94275795 |
94275813 |
chr11 |
94473683 |
94473769 |
chr11 |
94473803 |
94473984 |
chr11 |
94502453 |
94502489 |
chr12 |
104850506 |
104850537 |
chr12 |
104850578 |
104850592 |
chr12 |
104851078 |
104851186 |
chr13 |
26625302 |
26625502 |
chr13 |
28366066 |
28366122 |
chr13 |
36920350 |
36920379 |
chr13 |
36920629 |
36920769 |
chr13 |
73619661 |
73619698 |
chr13 |
95364499 |
95364528 |
chr13 |
95364771 |
95364800 |
chr13 |
95620022 |
95620057 |
chr13 |
110959797 |
110959860 |
chr15 |
45670503 |
45670839 |
chr15 |
48937059 |
48937095 |
chr15 |
48937428 |
48937646 |
chr15 |
48937710 |
48937987 |
chr15 |
79383948 |
79383977 |
chr15 |
83776497 |
83776596 |
chr16 |
10276758 |
10276799 |
chr16 |
10276801 |
10276841 |
chr16 |
71715780 |
71715809 |
chr17 |
32908287 |
32908371 |
chr17 |
46125007 |
46125061 |
chr17 |
47574091 |
47574149 |
chr17 |
80535383 |
80535469 |
chr19 |
3578139 |
3578223 |
chr19 |
10823679 |
10823708 |
chr19 |
50316245 |
50316330 |
chr19 |
57862640 |
57862783 |
chr20 |
4803922 |
4804008 |
chr20 |
33547579 |
33547585 |
chr20 |
36531800 |
36531910 |
chr20 |
37434553 |
37434722 |
chr20 |
37434737 |
37434744 |
chr20 |
39317088 |
39317196 |
chr21 |
27012374 |
27012431 |
chr21 |
45508618 |
45508647 |
chr22 |
39853522 |
39853590 |
chr22 |
39853592 |
39853592 |
表19-食管癌
chr |
起始 |
结束 |
chr |
起始 |
结束 |
chr |
起始 |
结束 |
chr1 |
3663875 |
3663921 |
chr1 |
9712075 |
9712104 |
chr1 |
11538796 |
11538821 |
chr1 |
11539176 |
11539205 |
chr1 |
11539411 |
11539440 |
chr1 |
29450492 |
29450543 |
chr1 |
38512386 |
38512415 |
chr1 |
53068387 |
53068425 |
chr1 |
91869989 |
91870018 |
chr1 |
170633608 |
170633637 |
chr1 |
202679216 |
202679327 |
chr1 |
209381133 |
209381165 |
chr1 |
230561780 |
230561824 |
chr1 |
244014222 |
244014376 |
chr2 |
31456683 |
31456712 |
chr2 |
56410918 |
56410996 |
chr2 |
56411692 |
56411733 |
chr2 |
228029471 |
228029500 |
chr3 |
37493520 |
37493621 |
chr3 |
46924935 |
46924964 |
chr3 |
49907094 |
49907130 |
chr3 |
55519220 |
55519228 |
chr3 |
98620892 |
98620980 |
chr4 |
331323 |
331352 |
chr4 |
57687721 |
57687782 |
chr4 |
75858574 |
75858611 |
chr4 |
87515338 |
87515367 |
chr4 |
155665446 |
155665475 |
chr5 |
129240069 |
129240101 |
chr6 |
53212553 |
53213932 |
chr6 |
71665639 |
71665723 |
chr6 |
168719984 |
168720019 |
chr7 |
409827 |
409872 |
chr7 |
409887 |
409892 |
chr7 |
54609992 |
54610006 |
chr7 |
87104817 |
87105101 |
chr7 |
87257964 |
87258054 |
chr7 |
106685283 |
106685345 |
chr7 |
113726510 |
113726539 |
chr8 |
107282164 |
107282195 |
chr8 |
110704002 |
110704029 |
chr8 |
110704098 |
110704144 |
chr9 |
21974208 |
21974237 |
chr9 |
36037069 |
36037098 |
chr9 |
112403365 |
112403394 |
chr9 |
132805319 |
132805445 |
chr9 |
132805750 |
132805893 |
chr10 |
116853876 |
116853908 |
chr10 |
134755905 |
134755934 |
chr11 |
20618293 |
20618322 |
chr11 |
20618527 |
20618556 |
chr11 |
64410724 |
64410759 |
chr11 |
107461624 |
107461653 |
chr11 |
114113023 |
114113052 |
chr12 |
8850659 |
8850744 |
chr12 |
95267525 |
95267554 |
chr12 |
133463737 |
133463876 |
chr12 |
133758049 |
133758107 |
chr13 |
46961495 |
46961533 |
chr13 |
49794118 |
49794179 |
chr13 |
78492724 |
78492748 |
chr13 |
92050761 |
92050814 |
chr14 |
51561766 |
51562012 |
chr15 |
53082444 |
53082491 |
chr15 |
65669860 |
65669899 |
chr15 |
83378213 |
83378370 |
chr15 |
91643361 |
91643586 |
chr16 |
23313465 |
23313522 |
chr16 |
23313780 |
23313836 |
chr16 |
80838052 |
80838143 |
chr17 |
14204213 |
14204242 |
chr17 |
14204528 |
14204620 |
chr17 |
40333045 |
40333226 |
chr17 |
42907565 |
42907630 |
chr17 |
48071021 |
48071050 |
chr17 |
51901005 |
51901034 |
chr17 |
56327272 |
56327301 |
chr17 |
56833708 |
56833953 |
chr19 |
10527166 |
10527243 |
chr19 |
12163452 |
12163672 |
chr19 |
12163894 |
12163923 |
chr19 |
12175446 |
12175504 |
chr19 |
12476501 |
12476556 |
chr19 |
12606382 |
12606511 |
chr19 |
23433144 |
23433223 |
chr19 |
24216976 |
24217023 |
chr19 |
33685545 |
33685581 |
chr19 |
35264086 |
35264092 |
chr19 |
37263533 |
37263584 |
chr19 |
37341762 |
37341962 |
chr19 |
37569394 |
37569554 |
chr19 |
38085255 |
38085759 |
chr19 |
38085958 |
38086066 |
chr19 |
38146063 |
38146247 |
chr19 |
38146458 |
38146568 |
chr19 |
52097690 |
52097732 |
chr19 |
53031202 |
53031215 |
chr19 |
53193859 |
53193893 |
chr19 |
58740087 |
58740118 |
chr20 |
4230571 |
4230600 |
chr20 |
20348527 |
20348605 |
chr20 |
20349575 |
20349604 |
chr20 |
39317751 |
39318138 |
chr20 |
62680682 |
62680739 |
chr21 |
33244922 |
33245040 |
chr21 |
33245716 |
33245718 |
chr21 |
33246038 |
33246190 |
chr22 |
21368588 |
21368617 |
chr22 |
24820331 |
24820396 |
chr22 |
44208422 |
44208448 |
|
|
|
表20-头颈癌
chr |
起始 |
结束 |
chr |
起始 |
结束 |
chr |
起始 |
结束 |
chr1 |
898655 |
898690 |
chr1 |
1856437 |
1856466 |
chr1 |
1910416 |
1910445 |
chr1 |
2375149 |
2375355 |
chr1 |
10166522 |
10166551 |
chr1 |
32180398 |
32180427 |
chr1 |
97185263 |
97185357 |
chr1 |
177150774 |
177150803 |
chr1 |
246488176 |
246488316 |
chr3 |
154797384 |
154797416 |
chr4 |
146853952 |
146853981 |
chr4 |
185089697 |
185089797 |
chr5 |
57878711 |
57878752 |
chr5 |
87976104 |
87976308 |
chr5 |
87976526 |
87976559 |
chr5 |
174220972 |
174221001 |
chr7 |
44097691 |
44097876 |
chr8 |
67025064 |
67025365 |
chr9 |
140709047 |
140709174 |
chr9 |
140727472 |
140727511 |
chr9 |
140727846 |
140727930 |
chr10 |
524755 |
524770 |
chr11 |
392577 |
392720 |
chr11 |
1027541 |
1027574 |
chr11 |
66454425 |
66454454 |
chr11 |
94884131 |
94884160 |
chr12 |
54399617 |
54399646 |
chr13 |
114807745 |
114807815 |
chr14 |
21100749 |
21100778 |
chr14 |
21100802 |
21100831 |
chr16 |
1397455 |
1397484 |
chr16 |
2128578 |
2128682 |
chr16 |
2129033 |
2129332 |
chr16 |
88757467 |
88757496 |
chr17 |
1536129 |
1536146 |
chr17 |
7348886 |
7348997 |
chr17 |
17062575 |
17062752 |
chr17 |
17123964 |
17123993 |
chr18 |
32557847 |
32557864 |
chr18 |
74501145 |
74501183 |
chr19 |
1308066 |
1308081 |
chr19 |
1775077 |
1775239 |
chr19 |
58144495 |
58144701 |
chr21 |
39047777 |
39047838 |
chr21 |
44283611 |
44283774 |
chr22 |
36902292 |
36902381 |
chr22 |
42096003 |
42096190 |
chr22 |
47023045 |
47023191 |
chr22 |
47054687 |
47054700 |
chr22 |
50943094 |
50943262 |
chrX |
3746613 |
3746642 |
表21-肝胆癌
chr |
起始 |
结束 |
chr |
起始 |
结束 |
chr |
起始 |
结束 |
chr1 |
213123890 |
213123919 |
chr2 |
1653023 |
1653230 |
chr5 |
17512115 |
17512144 |
chr6 |
26284812 |
26284898 |
chr7 |
6543151 |
6543216 |
chr7 |
64330412 |
64330470 |
chr10 |
7213532 |
7213535 |
chr10 |
7424627 |
7424687 |
chr11 |
68409559 |
68409588 |
chr12 |
105478324 |
105478359 |
chr15 |
99456300 |
99456329 |
chr16 |
47177526 |
47177606 |
chr16 |
88942120 |
88942160 |
chr17 |
29298081 |
29298184 |
chr17 |
29298186 |
29298463 |
chr17 |
42402885 |
42402917 |
chr17 |
62777336 |
62777450 |
chr18 |
77309534 |
77309563 |
chr22 |
40075158 |
40075302 |
|
|
|
|
|
|
表22-肺癌
表23-卵巢癌
chr |
起始 |
结束 |
chr |
起始 |
结束 |
chr |
起始 |
结束 |
chr1 |
2331364 |
2331437 |
chr1 |
90309344 |
90309490 |
chr1 |
219347395 |
219347472 |
chr1 |
234620965 |
234620979 |
chr1 |
245494496 |
245494578 |
chr2 |
47200592 |
47200621 |
chr2 |
47249735 |
47249848 |
chr2 |
178973004 |
178973042 |
chr2 |
209225238 |
209225275 |
chr2 |
220080582 |
220080941 |
chr2 |
240319921 |
240320012 |
chr3 |
193419703 |
193419732 |
chr4 |
1008741 |
1008806 |
chr4 |
1282516 |
1282545 |
chr4 |
57777438 |
57777577 |
chr6 |
43639549 |
43639710 |
chr7 |
127615922 |
127615951 |
chr7 |
138042222 |
138042288 |
chr7 |
140180180 |
140180298 |
chr8 |
59058942 |
59059233 |
chr8 |
141596887 |
141597022 |
chr8 |
143558473 |
143558604 |
chr8 |
144203654 |
144203708 |
chr8 |
144303563 |
144303592 |
chr10 |
135018033 |
135018070 |
chr11 |
66658258 |
66658290 |
chr11 |
120998702 |
120998825 |
chr14 |
105512064 |
105512395 |
chr16 |
4431127 |
4431189 |
chr17 |
7368948 |
7369139 |
chr17 |
77084519 |
77084667 |
chr19 |
56201644 |
56201812 |
chr22 |
46931261 |
46931332 |
表24-胰腺癌
示例4:癌症化验板(TCGA)
能够一般地检测癌症的存在和/或阶段(即癌症与非癌症)的一化验板被生成。所述化验板包含多个探针,配置成与从多个cfDNA分子的处理中获得的一修饰片段相杂交,其中所述多个cfDNA分子中的每个对应于或衍生自表11中的一个或多个基因组区域。表11中的所述多个基因组区域是使用本文件其余部分所述的技术以及通过标靶多个病毒序列/基因组进行识别的,来自癌症基因组图谱(TCGA)的数据集是由美国国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)合作开发的。所述数据集提供了33种癌症的类型中关键基因组变化的全面、多维地图。
表11从最左列开始以下列格式列出了多个基因组区域:标靶基因组区域所在的染色体,标靶基因组区域的起始和终止位置,标靶基因组区域是高甲基化还是低甲基化,以及位于基因组的标靶区域10000bp范围内的任何基因的注释(如果知道的话)。染色体数量及起始和终止位置是相对于已知的人类参考基因组hg19提供的。人类参考基因组hg19的序列可从基因组参考联盟获得,参考号为GRCh37/hg19,也可从圣克鲁斯基因组研究所提供的基因组浏览器中获得。
通常情况下,一探针被设计与表11中包含的多个标靶区域(例如多个异常碎片)的起始/终止范围内的包含的任何CpG位点重叠。
为了从TCGA中识别用于在标靶的化验板中使用的基因组区域,使用了BRCA(乳腺癌)、COAD(结肠腺癌)、LIHC(肝细胞癌)、LUAD(肺腺癌)和LUSC(肺鳞状细胞癌)的450KIllumina阵列TCGA数据。由于TCGA阵列数据处于CpG位点水平,因此很容易导致假阳性。为了避免假阳性,基因库中的多个CpG位点被转化为350个碱基箱(bins)。每个箱的多个β值被计算为该箱中多个CpGβ值的平均值。下表汇总了具有不同范围的多个平均CpG值(CpG/箱(CpG/bin))的箱数(bin count)。
CpG/箱 |
1 |
2_5 |
6_10 |
11_15 |
16_20 |
20_25 |
箱数 |
220424 |
83644 |
6354 |
271 |
30 |
3 |
多个箱具有少于2个CpG的被排除在分析外。其次,在正常组织和癌组织之间具有β差异大于0.95的多个箱被选择。LIHC(肝细胞癌)分析采用0.9作为阈值。本领域技术人员将理解,对于上述多个参数中的每一个的其他阈值可用于选择要标靶的CpG位点。
正在分析的多个箱的总数和为每种癌症类型选择的多个箱的数量总结如下。如下表所示,通过此分析识别出的所述多个标靶基因组区域的超过50%与使用CCGA数据集选择的多个基因组区域重叠,如示例3所提供。然而,有3459个CpG位点位于新的基因组区域,这些位点在CCGA的研究中没有被识别。
还向所述多个标靶基因组区域添加了额外的肝脏特异性标记。为了选择这些标记,通过Illumina Infinium 450K阵列从TCGA肝脏甲基化数据集中使用了49对HCC(肝细胞癌)肿瘤/正常对。对单个CpGs的M值进行差异一甲基化分析,选择折叠变化(fold change)>8的高甲基化CpGs。在这个版本中只选择了高甲基化的CpGs,因为它们在基因表达调控中更为相关。将群集的CpGs(由选定的CpGs在另一个选定的CpG的150bp之内定义)组合成多个簇(clusters),并将多个单例扩展到最大长度为300bp的多个区域,前提是所述簇或区域内的所有CpGs一致且显着地高甲基化(平均折叠变化>4,最小折叠变化>2)。
表11还包含文献中已经报道的与不同类型癌症相关联的一些区域。其他地区,如SEPT9和SHOX2也包含在表11中。
表11还包含能够检测常见驱动突变的一些标靶区域。为此,还包含了Cohen等人在2018年论文(Cohen等人,使用多分析物血液测试检测和定位可手术切除的癌症,科学期刊,2018)中研究的多个区域,以及oncoKB集合中的所有蛋白质变体。
关于表11中包含的多个病毒序列的选择,对于上述提到的每种癌症,一模型适用于所有可能的病毒组合以进行诊断。最高得分的10%以内的多个模型被存储。存在于任何癌症的顶级模型中的所有病毒被保留。这消除了JCV-PLYCG和HPV8-ZM130,并保留了HBV和HCV。
在多个病毒基因组中划分500个位点。多个位点被分配以反映每一种病毒被包含在内的多个顶级模型的比例。在每种病毒的基因组中,多个位点的分布间隔不小于250bp。多个位点的概率与CCGA数据集的读数分布成正比。这个分布被选为相对于人类的独特性(特异性)和跨病毒株的保守性(敏感度)的一代替物(proxy)。如果每个提议的位点在一现有位点的250bp之内,则将被拒绝,否则将被接受。然而,如果多个位点的数量足以覆盖整个基因组,取样是统一的,任何多余的位点都会分配给其他基因组。将多个位点重新分配给其他基因组,以使最终结果尽可能接近目标分配。
示例5:用于癌症诊断的化验板的性能
如本文所述,通过应用二进制排名得分L2正则化核逻辑回归分类器来评估本文所述的化验板的性能(参见,例如,图6A;另见PCT专利申请案第PCT/US2019/022122号和美国专利申请案第US 16/352602号),利用三个不同的计算程序来区分癌症样本和非癌症样本:(1)WGBS数据分析(“M得分.测试V1(Mscore.testV1)”);(2)WGBS数据的10倍交叉验证分析(“M得分.测试V1.cv(Mscore.testV1.cv)”);及(3)经过计算过滤的WGBS数据分析,以将分类限制在表12所列的衍生自多个标靶基因组区域的多个cfDNA分子的多个序列读数(“M得分.测试V1.cv.化验板(Mscore.testV1.cv.panel)”)。利用这三种方法评估的多个序列读数从本文所述的CCGA研究获得。
将多个输出分数汇总并用于构建一接收者操作特性(ROC)曲线以用于性能分析,并评估敏感度和特异性。校正干扰信号后,使用非肿瘤样本来评估特异性。敏感度和特异性之间的关系由图14B中提供的接收者操作特性曲线来描述,图14A中提供了每个数据集在95%特异性下的敏感度。
无论使用何种计算方法,数据都显示了分类器的高度特异性。曲线下面积(AUC)值和95%特异性下的敏感度在三个不同的计算程序中是相似的。这一结果显示,当分析局限于多个标靶基因组区域(如本文所述)时,分类器在诊断癌症方面与未过滤的WGBS数据一样有效。当分析是限制从表12中所列的多个标靶基因组区域衍生的多个cfDNA分子的多个序列读取时,基本上没有性能损失。通过使用从化验板的使用而不是整个核酸测序获得的标靶基因组区域的序列读数,化验板为基础的方法可以增加标靶区域的测序深度,与WGBS相比成本更低,同时提供相似的敏感度和特异性。
示例6:使用癌症化验板诊断癌症
多个血样样本收集自一组先前诊断为具有癌症的多个个体和另一组不具有癌症的多个个体。cfDNAs是从所述多个血液样本中提取出来,用亚硫酸氢盐处理,以将非甲基化的胞嘧啶转化为尿嘧啶。亚硫酸氢盐处理的多个样本应用到按本文提供设计的癌症化验板。未结合的cfDNAs被清洗及cfDNAs结合到多个探针被收集。对收集到的cfDNAs进行放大和测序。测序数据证实,探针特异性地扩增具有多个甲基化模式的cfDNAs,与非癌症组相比,来自癌症组的多个样本包含显着更多的差异甲基化cfDNA。
通过引用合并
在本申请中引用的所有出版物、专利、专利申请和其他文件,出于所有目的通过引用全文并入本文,其程度与每个单独的出版物、专利、专利申请或其他文件分别指出通过引用并入的程度相同。用于所有目的。
同义词
应当理解,本发明的附图和描述已经被简化,以说明与清楚理解本发明相关的元素,同时为了清晰起见,消除了在典型系统中发现的许多其他元素。本领域的普通技术人员可以认识到在实施本发明公开时需要和/或需要其他元件和/或步骤。然而,由于这些元素和步骤在本领域中是公知的,并且由于它们不会便于更好地理解本公开,因此本文不提供对此类元素和步骤的讨论。本文公开的内容可以针对本领域技术人员已知的元件和方法进行变更和修改。
上述描述的一些部分以算法和信息操作的符号表示来描述实施例。这些算法的描述和表示通常由数据处理领域的技术人员用于将其工作的实质有效地传达给本领域技术人员。这些操作,虽然在功能上、计算上或逻辑上描述,但应理解为通过计算机程序或等效电路、微代码等来实现。所描述的操作及其相关联的模块可以体现在软件、固件、硬件或其任何组合中。
如本文所用,对“一个实施例(one embodiment)”或“一实施例(an embodiment)”的任何引用意味着结合该实施例描述的特定元件、特征、结构或特性包含在至少一个实施例中。在说明书的不同位置出现的短语“在一个实施例中”不一定都指同一实施例,从而为所描述的实施例的各种可能性提供了共同工作的框架。
如本文所用,术语“包含(comprises、comprising、includes、including)”、“具有(has、having)”或其任何其他变体旨在涵盖非排他性包含。例如,包含多个元件列表的程序、方法、物品或设备不一定仅限于这些元件,而是可以包含未明确列出或此类程序、方法、物品或设备固有的其他元素。此外,除非另有明确的相反规定,“或”指的是包含或,而不是排他或。例如,条件A或B由以下任一条件满足:A为真(或存在)且B为假(或不存在),A为假(或不存在),B为真(或存在),及A和B均为真(或存在)。
此外,使用“一(a、an)”来描述本文实施例的元件和组件。这样做仅仅是为了方便和给人一个大致的描述。本说明应理解为包含一个或至少一个,单数也包含复数,除非很明显地其另有含义。
虽然已经说明和描述了特定的实施例和应用,但是应该理解,所公开的实施例不限于本文所公开的精确结构和组件。在不脱离所附权利要求所限定的精神和范围的情况下,可以对本文公开的方法和装置的布置、操作和细节进行对本领域技术人员来说显而易见的各种修改、改变和变化。
虽然已经示出并描述了各种具体实施例,但上述规范并不具有限制性。应理解的是,可以在不偏离描述的精神和范围的情况下进行各种更改。本领域技术人员在审查本规范后,许多变化将变得明显。