本申请是2018年12月19日提交的名称为“CELL-FREE DNA END CHARACTERISTICS”的美国临时专利申请号62/782,316的PCT并要求其权益,该美国临时专利申请出于所有目的而全文以引用方式并入本文。
附图说明
图1示出了根据本公开的实施方式的末端基序的示例。
图2示出了根据本公开的实施方式的用于分析胎儿DNA分子与母体DNA分子之间的差异末端基序模式的基于基因型差异的方法的示意图。
图3示出了根据本公开的实施方式的胎儿DNA分子与母体DNA分子之间的末端基序频率的条形图。
图4示出了根据本公开的实施方式的胎儿和共享的(即,胎儿加母体的)序列的来自图3的前10个末端基序。
图5A和图5B示出了根据本发明的实施方式的孕妇中的胎儿DNA分子与母体DNA分子之间的熵的箱线图。
图6A和图6B示出了根据本公开的实施方式的胎儿DNA分子和母体DNA分子的分层聚类分析。
图7A和图7B示出了根据本公开的实施方式的使用孕妇的所有基序跨不同的三个月时间的熵分布。图7C和图7D示出了根据本公开的实施方式的使用孕妇的10个基序跨不同的三个月时间的熵分布。
图8A示出了所有片段跨不同胎龄的熵。第3个三个月时间的受试者中的血浆DNA片段的熵被证明低于(p值=0.06)第1个三个月时间和第2个三个月时间的所述受试者中的血浆DNA片段的熵。图8B示出了Y染色体源的片段跨不同胎龄的熵。第3个三个月时间的受试者中的Y染色体源的片段的熵被证明低于(p值=0.01)第1个三个月时间和第2个三个月时间的所述受试者中的Y染色体源的片段的熵。
图9和图10示出了根据本公开的实施方式在胎儿DNA分子与母体DNA分子之间的排名前10的末端基序跨不同的三个月时间的分布。
图11示出了根据本公开的实施方式在胎儿分子与共享分子之间的前10个排名的基序跨不同的三个月时间的组合频率。
图12示出了根据本公开的实施方式的用于分析癌症患者的血浆DNA中的突变分子与共享分子之间的差异末端基序模式的基于基因型差异的方法的示意图。
图13示出了根据本公开的实施方式的肝细胞癌中的癌症相关联的突变体分子和共享分子的血浆DNA末端基序的景观。
图14示出了根据本公开的实施方式的肝细胞癌中的癌症相关联的突变分子和共享分子的血浆DNA末端基序的径向景观。
图15A示出了根据本公开的实施方式的在HCC患者的血浆DNA中的突变序列与共享序列之间的末端基序频率的排名差异中的前10个末端基序。
图15B示出了根据本公开实施方式的HCC患者和怀孕女性的8个末端基序的组合频率。
图16A和图16B示出了根据本公开的实施方式的针对HCC病例的不同末端基序集合的共享片段和突变片段的熵值。
图17是根据本公开的实施方式的基序多样性得分(熵)相对于测量的循环肿瘤DNA分数的曲线图。
图18A示出了根据本公开的实施方式的使用供体特异性片段的熵分析。图18B示出了使用供体特异性片段的分层聚类分析。
图19是示出根据本公开的实施方式的估计受试者的生物样本中临床相关DNA的浓度分数的方法的流程图。
图20是示出根据本公开的实施方式的通过分析来自怀有胎儿的女性受试者的生物样本来确定胎儿的胎龄的方法的流程图。
图21示出了根据本公开的实施方式的用于血浆DNA末端基序分析的表型方法的示意图。
图22示出了根据本公开的实施方式的在使用所有血浆DNA分子的情况下HCC受试者与HBV受试者之间的4聚体末端基序的频率分布的示例。
图23A示出了根据本公开的实施方式的具有不同癌症水平的各种受试者的前10个血浆DNA 4聚体末端基序的组合频率的箱线图。这些水平是对照:健康对照受试者;HBV:慢性乙型肝炎携带者;Cirr:肝硬化受试者;eHCC:早期HCC;iHCC:中期HCC;和aHCC:晚期HCC。图23B示出了根据本公开的实施方式的HCC受试者与非癌症受试者之间的前10个血浆DNA 4聚体末端基序的组合频率的接收者操作特征(ROC)曲线。
图24A示出了根据本公开的实施方式的跨不同组的CCA基序的频率的箱线图。图24B示出了根据本公开的实施方式的使用在非HCC受试者中存在的最频繁的3聚体基序(CCA)在非HCC组与HCC组之间的ROC曲线。
图25A示出了根据本公开的实施方式跨不同组使用256个4聚体末端基序的熵值的箱线图。图25B示出了根据本公开的实施方式跨不同组使用10个4聚体末端基序的熵值的箱线图。
图26A示出了根据本公开实施方式跨不同组使用的3聚体基序的熵值的箱线图。发现使用3聚体基序(总共64个基序)的HCC受试者的熵显著高于(p值<0.0001)非HCC受试者。图26B示出了根据本公开的实施方式的使用非HCC组与HCC组之间的64个3聚体基序的熵的ROC曲线。发现AUC为0.872。
图27A和图27B示出了根据本公开的实施方式跨不同组使用4聚体的基序多样性(熵)得分的箱线图。
图28示出了根据本公开的实施方式的将健康对照与癌症区分开的各种技术的接收者操作曲线。
图29示出了根据本公开的实施方式的使用各种k聚体的MDS分析的接收者操作曲线。
图30示出了根据本公开的实施方式的对各种肿瘤DNA分数的基于MDS的癌症检测的执行。
图31示出了根据本公开的实施方式的用于MDS、SVM和逻辑回归分析的接收者操作曲线。
图32示出了根据本公开的实施方式的针对跨具有不同癌症水平的不同组的排名前10的末端基序的分层聚类分析。不同的组包括对照:健康对照受试者;HBV:慢性乙型肝炎携带者;Cirr:肝硬化受试者;eHCC:早期HCC;iHCC:中期HCC;和aHCC:晚期HCC。
图33A至图33C示出了根据本公开的实施方式的使用跨具有不同癌症水平的不同组的所有血浆DNA分子的分层聚类分析。
图34示出了根据本公开的实施方式的使用跨具有不同癌症水平的不同组的所有血浆DNA分子基于3聚体基序的分层聚类分析。
图35A示出了根据本公开的实施方式的使用健康对照受试者与SLE患者之间的所有血浆DNA分子的熵分析。图35B示出了根据本公开的实施方式的使用健康对照受试者与SLE患者之间的所有血浆DNA分子的分层聚类分析。
图36示出了根据本公开的实施方式的在健康对照受试者与SLE患者之间使用具有10个选定的末端基序的血浆DNA分子的熵分析。
图37示出了根据本公开的实施方式的包括末端基序和拷贝数或甲基化的组合分析的ROC曲线。
图38A示出了根据本公开的实施方式的基于4聚体的熵分析,所述4聚体由HCC受试者和非HCC受试者中的经测序的血浆DNA片段及其相邻基因组序列的末端共同构建。图38B示出了根据本公开的实施方式的基于4聚体的聚类分析,所述4聚体是由HCC受试者和非HCC受试者中的经测序的血浆DNA片段及其相邻基因组序列的末端共同构建的。
图39示出了根据本公开的实施方式用于限定血浆DNA的末端基序的图1的技术140和160的ROC比较。
图40示出了根据本公开的实施方式的准确性比较,所述准确性比较显示组织特异性开放染色质区域改善了血浆DNA末端基序的区别能力。
图41示出了根据本公开的实施方式的基于大小带的血浆DNA末端基序分析。
图42是示出根据本公开的实施方式的对受试者的生物样本中的病理学水平进行分类的方法的流程图。
图43是示出根据本公开的实施方式的富集生物样本的临床相关DNA的方法的流程图。
图44是示出根据本公开的实施方式的富集生物学样本的临床相关DNA的方法3700的流程图。
图45示出了示例性曲线图,所述示例性曲线图示出了根据本公开的实施方式使用CCCA末端基序的胎儿DNA分数的增加。
图46示出了根据本发明的实施方式的测量系统。
图47示出了根据本发明的实施方式的可与系统和方法一起使用的示例性计算机系统的框图。
术语
“组织”对应于集合在一起作为功能单元的一组细胞。单个组织中可以存在超过一种类型的细胞。不同类型的组织可以由不同类型的细胞(例如,肝细胞、肺泡细胞或血细胞)组成,但也可以与来自不同生物体(母亲相对于胎儿)的组织相对应或与健康细胞相对于肿瘤细胞相对应。“参考组织”可以与用于测定组织特异性甲基化水平的组织相对应。来自不同个体的相同组织类型的多个样本可以用于测定所述组织类型的组织特异性甲基化水平。
“生物样本”是指取自受试者(例如,人类(或其它动物),如孕妇、患有癌症的个人或疑似患有癌症的个人、器官移植接受者或疑似患有涉及器官的疾病过程(例如,心肌梗塞的心脏、中风的脑或贫血的造血系统)的受试者)且含有一个或多个感兴趣的核酸分子的任何样本。生物样本可以是体液,如血液、血浆、血清、尿液、阴道液、水囊肿(例如,睾丸)液、阴道冲洗液、胸膜液、腹水液、脑脊髓液、唾液、汗液、泪液、痰液、支气管肺泡灌洗液、乳头排出液、来自身体不同部位(例如,甲状腺、乳房)的抽吸液、眼内流体(例如房水)等。也可以使用粪便样本。在各个实施方式中,已经富集了游离DNA的生物样本(例如,通过离心方案获得的血浆样本)中的大部分DNA可以是游离的,例如,大于50%、60%、70%、80%、90%、95%或99%的DNA可以是游离的。离心方案可以包含例如在3,000g×10分钟下获得流体部分,并在例如30,000g下再离心另外10的分钟以去除残留的细胞。作为生物样本分析的一部分,可以分析至少1,000个游离DNA分子。作为其它实施方式,可以分析至少10,000个或50,000个或100,000个或500,000个或1,000,000个或5,000,000个游离DNA分子或更多。
“临床相关DNA”可以指待测量的特定组织来源的DNA,例如以确定此类DNA的浓度分数或对样本(例如,血浆)的表型进行分类。临床相关DNA的示例是母体血浆中的胎儿DNA,或患者血浆或其它具有游离DNA的样本中的肿瘤DNA。另一个示例包括对移植患者的血浆、血清或尿液中与移植物相关联的DNA的量的测量。另一个示例包括测量受试者血浆中造血DNA和非造血DNA的浓度分数,或样本中肝DNA片段(或其它组织)的浓度分数,或脑脊液中脑DNA片段的浓度分数。
“序列读数”是指从核酸分子的任何部分或全部进行测序的一串核苷酸。例如,序列读数可以是从核酸片段测序的短核苷酸串(例如,20-150个核苷酸)、核酸片段的一端或两端处的短核苷酸串或对存在于生物样本中的整个核酸片段进行的测序。序列读数可以通过多种方式获得,例如使用测序技术或使用探针,例如通过杂交阵列或捕获探针或扩增技术,如聚合酶链反应(PCR)或使用单引物的线性扩增或等温扩增。作为生物样本分析的一部分,可以分析至少1,000个序列读数。作为其它示例,可以分析至少10,000个、或50,000个、或100,000个、或500,000个、或1,000,000个、或5,000,000个序列读数。
序列读数可包括与片段的末端相关联的“末端序列”。末端序列可以对应于片段的最外N个碱基,例如,片段末端的2-30个碱基。如果序列读数对应于整个片段,则该序列读数可包含两个末端序列。当配对末端测序提供对应于片段的末端的两个序列读数时,每个序列读数可包含一个末端序列。
“序列基序”可以指DNA片段(例如,游离DNA片段)中的碱基的短反复出现模式。序列基序可以出现在片段的末端处,因此是末端序列的一部分或包含末端序列。“末端基序”可以指末端序列的序列基序,该序列基序优先出现在DNA片段的末端处,可能针对特定类型的组织。末端基序也可以恰好出现在片段的末端之前或之后,因此仍对应于末端序列。
术语“等位基因”是指处于相同的物理基因组基因座处的替代DNA序列,所述替代DNA序列可能会或可能不会导致不同的表型性状。在任何特定的二倍体生物体中,使用每个染色体的两个拷贝(男性人类受试者中的性染色体除外),每个基因的基因型包括在该基因座处存在的一对等位基因,该一对等位基因在纯合子中是相同的,而在杂合子中是不同的。生物体的群体或物种通常在各个个体的每个基因座处包含多个等位基因。在群体中发现多于一个等位基因的基因组基因座被称为多态性位点。某一基因座处的等位基因变异可作为群体中存在的等位基因的数量(即,多态性程度)或杂合子比例(即,杂合率)来测量。如本文所用,术语“多态性”是指人类基因组中的任何个体间变异,无论所述变异的频率如何。此类变异的示例包括但不限于单核苷酸多态性,简单的串联重复多态性、插入缺失多态性、突变(其可能引起疾病)和拷贝数变异。如本文所用的术语“单倍型”是指在多个基因座处的等位基因的组合,所述等位基因在同一染色体或染色体区域上一起被传递。单倍型可指少至一对基因座或指染色体区域,或指整个染色体或染色体臂。
术语“胎儿DNA浓度分数”可与术语“胎儿DNA比例”和“胎儿DNA分数”互换使用,并且是指生物样本(例如,母体血浆或血清样本)中存在的来源于胎儿的胎儿DNA分子的比例(Lo等人,Am J Hum Genet.1998;62:768-775;Lun等人,Clin Chem.2008;54:1664-1672)。类似地,肿瘤分数或肿瘤DNA分数可以指生物学样本中的肿瘤DNA的浓度分数。
“相对频率”可以指比例(例如,百分比、分数、或浓度)。特别地,特定末端基序(例如,CCGA)的相对频率可以例如通过具有CCGA的末端序列来提供一定比例的与末端基序CCGA相关联的游离DNA片段。
“合计值”可以指例如一组末端基序的相对频率的集体特性。示例包括平均值、中值、相对频率的总和、相对频率之间的变化(例如,熵、标准偏差(standard deviation,SD)、变异系数(coefficient of variation,CV)、四分位差(interquartile range,IQR)或不同相对频率之间的某个百分位截止(例如,第95个百分位或第99个百分位))、或相对于相对频率的参考模式的差(例如,距离),如在聚类中可实现的。
“校准样本”可以对应于生物样本,所述生物样本的临床相关DNA的浓度分数(例如,组织特异性DNA分数)是已知的或通过校准方法确定的,例如使用对组织具有特异性的等位基因,例如在移植中,由此使供体基因组中存在但受体基因组中不存在的等位基因可以用作移植的器官的标记物。作为另一个示例,校准样本可以对应于这样的样本,可以从所述样本确定末端基序。校准样本可同时用于这两个目的。
“校准数据点”包括“校准值”和临床相关DNA(例如,特定组织类型的DNA)的测量浓度或已知浓度分数。可以从针对校准样本所确定的相对频率(例如,合计值)确定校准值,所述校准样本的临床相关DNA的浓度分数是已知的。校准数据点可以以各种方式定义,例如作为离散点或作为校准函数(也被称为校准曲线或校准表面)。可以从校准数据点的附加数学变换导出校准函数。
“位点”(也被称为“基因组位点”)对应于单个位点,所述位点可以是单个碱基位置或一组相关的碱基位置,例如,CpG位点或较大的一组相关的碱基位置。“基因座”可以对应于包含多个位点的区域。基因座可以仅包含一个位点,这将使所述基因座在所述上下文中等同于一个位点。
每个基因组位点(例如,CpG位点)的“甲基化指数”可以指在所述位点处显示出甲基化的DNA片段(例如,如根据序列读数或探针所测定的)占覆盖所述位点的读数总数的比例。“读数”可以对应于从DNA片段获得的信息(例如,位点处的甲基化状态)。可以使用优先与特定甲基化状态的DNA片段杂交的试剂(例如,引物或探针)来获得读数。通常,在用根据其甲基化状态来差异性地修饰或差异性地识别DNA分子的方法(例如,亚硫酸氢盐转化、或甲基化敏感性限制酶、或甲基化结合蛋白、或抗甲基胞嘧啶抗体、或识别例如甲基胞嘧啶和羟甲基胞嘧啶的单分子测序技术)处理之后应用此类试剂。
区域的“甲基化密度”可以指区域内示出甲基化的位点处的读数数除以覆盖所述区域中的所述位点的读数的总数。位点可以具有特定的特性,例如,是CpG位点。因此,区域的“CpG甲基化密度”可以指示出CpG甲基化的读数数除以覆盖所述区域中的CpG位点(例如,特定CpG位点、CpG岛内或更大区域内的CpG位点)的读数的总数。例如,可以根据在CpG位点处进行亚硫酸氢盐处理(对应于甲基化胞嘧啶)后未转化的胞嘧啶的总数测定人类基因组中每100kb组距的甲基化密度,作为由映射到100kb区域的序列读数覆盖的所有CpG位点的比例。这种分析也可以针对其它箱大小(例如500bp、5kb、10kb、50kb或1Mb等)执行。区域可以是整个基因组或染色体或染色体的部分(例如,染色体臂)。当区域仅包含CpG位点时,所述CpG位点的甲基化指数与所述区域的甲基化密度相同。“甲基化的胞嘧啶的比例”可以指区域中在所分析的胞嘧啶残基(即包含CpG上下文之外的胞嘧啶)的总数内示出被甲基化(例如,在亚硫酸氢盐转化之后未转化)的胞嘧啶位点“C”的数量。甲基化指数、甲基化密度和甲基化胞嘧啶的比例是“甲基化水平”的示例。除了亚硫酸氢盐转化之外,本领域的技术人员已知的其它方法也可以用于询问DNA分子的甲基化状态,包含但不限于对甲基化状态敏感的酶(例如,甲基化敏感性限制酶)、甲基化结合蛋白、使用对甲基化状态敏感的平台进行单分子测序(例如,纳米孔测序(Schreiber等人,Proc Natl Acad Sci USA.2013;110:18910-18915)以及太平洋生物科学公司(Pacific Biosciences)的单分子实时分析(Flusberg等人,Nat Methods.2010;7:461-465))。DNA分子的甲基化度量可对应于被甲基化的位点(例如,CpG位点)的百分比。甲基化度量可以被指定为绝对数或百分比,所述绝对数或百分比可以被称为分子的甲基化密度。
术语“测序深度”是指基因座被与所述基因座进行比对的序列读数所覆盖的次数。所述基因座可以与核苷酸一样小,或者与染色体臂一样大,或者与整个基因组一样大。测序深度可以表示为50x、100x等,其中“x”是指基因座被序列读数覆盖的次数。测序深度也可以应用于多个基因座或整个基因组,在此情况下,x可以指分别对基因座或单倍体基因组或整个基因组进行测序的平均次数。超深测序可以指测序深度是至少100x。
“分离值”与涉及两个值(例如,两个分数贡献或两个甲基化水平)的差或比率相对应。分离值可以是简单的差或比率。作为示例,x/y以及x/(x+y)的直接比率是分离值。分离值可以包含其它因子,例如,乘法因子。作为其它示例,可以使用值的函数的差或比率,例如两个值的自然对数(ln)的差或比率。分离值可以包含差和比率。
(例如,相对频率的)“分离值”和“合计值”是参数(也称为度量)的两个示例,所述参数提供了在不同分类(状态)之间变化的样本度量,并且因此可以用于确定不同的分类。合计值可以是分离值,例如,当在样本的相对频率集合和相对频率参考集合之间取差值时,如可在聚类中所做的那样。
如本文所用的术语“分类”是指与样本的特定性质相关联的任何一个或多个数字或其它一个或多个字符。例如,符号“+”(或词语“正”)可以表示样本被归类为具有缺失或扩增。分类可以是二进制的(例如,正或负)或具有更多的分类等级(例如,从1到10或0到1的标度)。
术语“截止值”和“阈值”是指在操作中使用的预定数量。例如,截止大小可以指超过一定大小则不包含片段的大小。阈值可以是高于或低于特定分类所应用的值。这些术语中的任一个可以在这些上下文中的任一种中使用。截止值或阈值可以是“参考值”或者可以从表示特定类别或区分两个或多个类别的参考值中得出。如本领域技术人员将理解的,可以以各种方式确定此类参考值。例如,可以针对具有不同已知分类的两个不同的受试者确定度量,并且可以选择参考值作为一个分类的代表(例如,平均值)或度量的两个集群之间的值(例如,选择以获得期望的灵敏度和特异性)。作为另一示例,可以基于样本的统计模拟来确定参考值。
术语“癌症水平”可以指是否存在癌症(即,存在或不存在)、癌症的阶段、肿瘤的尺寸、是否存在转移、身体的总肿瘤负荷、癌症对治疗的反应和/或癌症严重程度的其它度量(例如癌症复发)。癌症水平可以是数字或其它标记,如符号、字母和颜色。所述水平可以是零。癌症水平还可以包含恶化前或癌前病状(状态)。癌症水平可以以各种方式使用。例如,筛查可以检查癌症是否存在于以前不知道患有癌症的人身上。评估可以调查被诊断出患有癌症的人,以监测癌症随着时间的进展、研究治疗的有效性或确定预后。在一个实施方式中,预后可以表示为患者死于癌症的可能性,或在特定持续时间或时间之后癌症进展的可能性,或癌症转移的可能性或程度。检测可以意指“筛查”或可以意指检查具有癌症暗示性特征(例如症状或其它阳性测试)的人是否患有癌症。
“病理学水平”可以指与生物体相关联的病理的量、程度或严重性,其中所述水平可以如以上针对癌症所描述的水平。病理的另一个示例是对移植器官的排斥。其它示例病理可以包含自身免疫攻击(例如,损害肾脏狼疮性肾炎的或多发性硬化症)、炎性疾病(例如,肝炎)、纤维化过程(例如,肝硬化)、脂肪浸润(例如,脂肪肝疾病)、退化过程(例如阿尔茨海默氏病)和缺血性组织损伤(例如,心肌梗塞或中风)。受试者的健康状态可以被认为是无病理分类。
术语“约”或“大约”可以意指在如由所属领域的一般技术人员测定的具体值的可接受的偏差范围内,其将部分取决于所述值如何测量或测定,即,测量系统的限制。例如,根据本领域的实践,“约”可以意指在1个或大于1个标准偏差内。可替代地,“约”可以意指给定值的最多20%、最多10%、最多5%或最多1%的范围。可替代地,特别是对于生物系统或过程,术语“约”或“大约”可以意指在值的数量级内、值的5倍内,并且更优选地,值的2倍内。当在本申请和权利要求书中描述特定值时,除非另外指出,否则应假设术语“约”表示所述特定值在可接受的误差范围内。术语“约”可以具有本领域普通技术人员通常理解的含义。术语“约”可以指±10%。术语“约”可以指±5%。
具体实施方式
本公开描述了用于测量生物体的生物样本中的游离DNA片段的末端基序的量(例如,相对频率)以测量样本的特性和/或基于此类测量来确定生物体的状况的技术。不同的组织类型表现出序列基序的相对频率的不同模式。本公开提供了用于测量例如在来自各种组织的游离DNA的混合物中的游离DNA的末端基序的相对频率的各种用途。来自此类组织中的一者的DNA可以被称为临床相关的、DNA。
特定组织(例如,胚胎、肿瘤或移植的器官)的临床相关DNA表现出相对频率的特定模式,所述特定模式可以作为合计值进行测量。样本中的其它DNA可以表现出不同的模式,从而允许测量样本中的临床相关DNA的量。因此,在一个示例中,可以基于末端基序的相对频率来确定临床相关DNA的浓度分数(例如,百分比)。浓度分数可以是数字、数值范围或其它分类,例如高、中或低,或者浓度分数是否超过阈值。在各种实施方式中,合计值可以是末端基序集合的相对频率的总和、所有末端基序或末端基序集合的相对频率的方差(例如,熵,也称为基序多样性得分)、或相对于参考模式(例如,具有已知的浓度分数的校准样本的相对频率的阵列(向量))的差(例如,总距离)。此类阵列可以被认为是相对频率的参考集合。可以在分类器中使用此类差,分层聚类、支持向量机和逻辑回归是所述分类器的示例。作为示例,临床相关DNA可以是胎儿、肿瘤、移植器官或其它组织(例如,造血或肝脏)DNA。
在另一个示例中,可以使用基序相对频率来确定病理学水平。具有不同表型的生物体可表现出游离DNA片段的基序相对频率的不同模式。可以将末端基序的相对频率的合计值与参考值进行比较,以对表型进行分类。在各种实施方式中,合计值可以是相对频率的总和、相对频率的方差、或相对于相对频率的参考集合的差。示例病理包括癌症和自体免疫性疾病,例如SLE。
在另一个示例中,基序相对频率可用于确定胎儿的胎龄。母体样本中末端基序相对频率的合计值由于胎儿的胎龄较长而改变。可以如上文和其它地方所述来确定此类合计值。
假定来自特定组织的游离DNA片段具有优选末端基序的特定集合,则优选的末端基序可用于富集样本中来自特定组织的DNA(临床相关DNA)。可以通过物理操作执行此类富集以富集物理样本。一些实施方式可以例如使用引物或衔接子捕获和/或扩增具有与优选的末端基序的集合匹配的末端序列的游离DNA片段。本文描述了其它示例。
在一些实施方式中,富集可以计算机模拟执行。例如,系统可以接收序列读数,然后基于末端基序过滤所述读数,以获得具有更高浓度的来自临床相关DNA的对应DNA片段的序列读数子集。如果DNA片段的末端序列包含优选的末端基序,则可以将所述DNA片段鉴定为具有更高的可能性来自感兴趣的组织。如本文所述,可以基于DNA片段的甲基化和大小来进一步确定可能性。
末端基序的此类用途可以消除对参考基因组的需要,如当使用末端位置时可能需要的(Chan等人,Proc Natl Acad Sci USA.2016;113:E8159-8168;Jiang等人,Proc NatlAcad Sci USA.2018;doi:10.1073/pnas.1814616115))。此外,由于末端基序的数目可能小于参考基因组中优选末端位置的数目,因此可以收集每个末端基序的更多统计,从而潜在地提高准确性。
以上述方式使用末端基序的这种能力是令人惊讶的,例如,如Chandrananda等人发现关于涉及片段起始位点周围51bp(上游/下游20bp)区域的单核苷酸频率的位点特异性核苷酸模式而言,母体片段与胎儿片段之间具有高度相似性(Chandrananda等人,BMC MedGenomics.2015;8:29),这意味着使用他们的基于末端周围的单核苷酸频率的方法无法通知游离DNA片段的来源组织。
I.游离DNA末端基序
末端基序涉及游离DNA片段的末端序列,例如,该片段任一末端处的K个碱基的序列。末端序列可以是具有各种碱基数(例如,1、2、3、4、5、6、7等)的k聚体。末端基序(或“序列基序”)序列本身,而不是参考基因组中的特定位置。因此,在整个参考基因组中的许多位置处可能出现相同的末端基序。可以使用参考基因组来确定末端基序,例如以鉴定刚好在起始位置之前或刚好在末端位置之后的碱基。此类碱基仍将对应于游离DNA片段的末端,例如因为它们是基于片段的末端序列来鉴定的。
图1示出了根据本公开的实施方式的末端基序的示例。图1描绘了定义待分析的4聚体末端基序的两种方式。在技术140中,从血浆DNA分子的每个末端上的前4bp序列直接构建4聚体末端基序。例如,可以使用经测序的片段的前4个核苷酸或后4个核苷酸。在技术160中,通过使用来自片段的经测序的末端的2聚体序列和来自与该片段的末端相邻的基因组区域的另一2聚体序列,来共同构建4聚体末端基序。在其它实施方式中,可以使用其它类型的基序,例如1聚体、2聚体、3聚体、5聚体、6聚体和7聚体末端基序。
如图1所示,例如使用对血液样本的纯化处理,例如通过离心而获得游离DNA片段110。除了血浆DNA片段之外,还可以使用其它类型的游离DNA分子,例如来自血清、尿液、唾液和本文中提及的其它此类游离样本。在一个实施方式中,DNA片段可以是平末端的。
在框120处,对DNA片段进行配对末端测序。在一些实施方式中,配对末端测序可以从DNA片段的两个末端产生两个序列读数,例如每个序列读数为30-120个碱基。这两个序列读数可形成DNA片段(分子)的一对读数,其中每个序列读数包含DNA片段的相应末端的末端序列。在其它实施方式中,可以对整个DNA片段进行测序,从而提供单个序列读数,所述单个序列读数包含所述DNA片段的两个末端的末端序列。
在框130处,可以将序列读数与参考基因组进行比对。该比对用于说明限定序列基序的不同方式,并且在一些实施方式中可以不使用该比对。可以使用各种软件包执行比对程序,所述各种软件包为例如BLAST、FASTA、Bowtie、BWA、BFAST、SHRiMP、SSAHA2、NovoAlign和SOAP。
技术140显示了经测序的片段141的序列读数,并与基因组145进行了比对。以5'末端视为起点,第一末端基序142(CCCA)位于经测序的片段141的起点处。第二末端基序144(TCGA)处于经测序的片段141的尾部处。在一个实施方式中,当酶识别CCCA然后恰好在第一个C之前进行切割时,可能出现这种末端基序。如果是这种情况,则CCCA将优先处于血浆DNA片段的末端处。对于TCGA,酶可识别它,然后在A后面进行切割。
技术160显示了经测序的片段161的序列读数,并与基因组165进行比对。以5'末端视为起点,第一末端基序162(CGCC)具有恰好在经测序的片段161的起点之前出现的第一部分(CG)和作为经测序的片段161的起点的末端序列的一部分的第二部分(CC)。第二末端基序164(CCGA)具有恰好在经测序的片段161的尾部之后的出现的第一部分(GA)和作为经测序的片段161的尾部的末端序列的一部分的第二部分(CC)。在一个实施方式中,当酶识别CGCC,然后在G与C之间进行切割时,可能会出现这种末端基序。如果是这种情况,则CC将优先处于血浆DNA片段的末端处,而CG恰好在所述CC之前出现,从而提供了CGCC的末端基序。至于第二末端基序164(CCGA),酶可以在C与G之间切割。如果是这种情况,则CC将优先处于血浆DNA片段的末端处。对于技术160,来自相邻基因组区域和经测序的血浆DNA片段的碱基数可以变化,并且不必限于固定比率,例如代替2:2,所述比率可以是2:3、3:2、4:4、2:4等。
游离DNA末端标记中包含的核苷酸的数量越高,则基序的特异性越高,因为在基因组中具有以确切构型排列的6个碱基的概率低于在基因组中具有以确切构型排列的2个碱基的概率。因此,末端基序的长度的选择可以由预期用途应用的所需灵敏性和/或特异性支配。
由于使用末端序列将序列读数与参考基因组进行比对,所以仍然可以从末端序列确定从末端序列确定的任何序列基序,或者恰好在末端序列之前/之后的任何序列基序。因此,技术160使末端序列与其它碱基相关联,其中参考被用作进行该关联的机制。技术140与技术160之间的差异是将特定的DNA片段分配给两个末端基序,这会影响相对频率的特定值。但是,总体结果(例如,临床相关DNA的浓度分数、病理水平的分类等)将不会受到如何将DNA片段分配给末端基序的影响,只要使用如在生产中使用的一致技术来训练数据。
具有对应于特定末端基序的末端序列的DNA片段的计数数目可以被计数(例如,存储在存储器中的阵列中)以确定相对频率。如下面更详细描述的,可以分析游离DNA片段的末端基序的相对频率。对于不同类型的组织和不同的表型(例如不同的病理水平),已经检测到末端基序的相对频率的差异。所述差异可以通过具有特定末端基序或整体模式的DNA片段的量来量化,所述整体模式为例如跨末端基序集合(例如,对应于所用长度的k聚体的所有可能组合)的方差(例如熵,也称为基序多样性得分)。
II.基于基因型差异的方法
我们已经确定不同的组织类型具有不同的末端基序。在本文中,我们描述了如何可使用末端基序来确定临床相关DNA(例如,胎儿DNA、肿瘤DNA、来自移植器官的DNA、或来自特定器官的DNA)的浓度分数。
为了鉴定优先于特定类型的临床相关DNA的末端基序,可以使用基因型差异来鉴定来自临床相关组织的DNA片段。一旦检测到DNA片段来自临床相关组织,就可以确定该DNA片段的末端基序。我们对末端基序的相对频率的分析表明,末端基序的相对频率因不同组织而异。如下所述,相对频率差异的量化可以与校准样本结合使用以确定生物样本中的临床相关DNA的浓度分数的分类,所述校准样本的临床相关DNA的浓度分数是已知的(例如,通过单独技术(例如组织特异性等位基因)测量的)。
尽管可能需要测量校准样本中的临床相关DNA的浓度分数,但是所得的校准值(例如,作为校准功能的一部分)可用于确定新样本的浓度分数,而不必鉴定特定于临床相关DNA的等位基因。以这种方式,可以以更稳健的方式确定浓度分数。
A.怀孕
母体基因组与胎儿基因组之间的基因型差异可用于区分胎儿DNA分子和母体DNA分子。例如,我们可以使用母亲为纯合(AA)而胎儿为杂合(AB)的信息性单核苷酸多态性(SNP)位点。
图2示出了根据本公开的实施方式的用于分析胎儿DNA分子与母体DNA分子之间的差异末端基序模式的基于基因型差异的方法的示意图。如图2所示,可以确定携带胎儿特异性等位基因(B)的胎儿特异性分子205。另一方面,可以确定携带共享等位基因(A)的共享分子207,所述共享分子将代表主要是母源的DNA分子,因为胎儿DNA分子通常在母体血浆DNA池中是少数。因此,任何源自共享分子的分子特性都将反映出母体背景DNA分子(即造血来源的DNA分子)的特征。除等位基因外,还可使用其它胎儿特异性标记物(例如,表观遗传标记物)。
我们使用图1中的技术140分析了4聚体末端基序。分析了256个末端基序。我们计算了每个4聚体基序的比例,并使用条形图(描绘为条形图220)比较了256个基序的频率。此类条形图提供了每个4聚体作为末端基序出现的相对频率(%)。为了便于说明,仅示出了几个4聚体。相对频率(有时也称为仅“频率”)可以通过以下方式确定:(具有末端基序的DNA片段的数量)/所分析的DNA片段的总数(可能以分母为2的因子),分母中可能具有因子2以考虑两个末端。此类百分比可以被认为是相对频率,因为它涉及第一末端基序的一个量(例如,计数)相对于一个或多个其它基序(可能包括第一末端基序)的量之比。如人们可以看到的,末端基序222在不同组织类型的DNA片段之间具有相对频率的显著差异。此类差异可以用于各种目的,例如以富集样本中的胎儿DNA或确定胎儿DNA的浓度。
条形图220中所示的相对频率的值可以是具有256个值的阵列中的存储值。可以存在用于末端基序集合的每个末端基序的计数器,其中每当新的DNA片段具有对应于用于特定末端基序的计数器的末端基序时,所述计数器就会增量。可以以各种方式选择基序集合,例如作为所有末端基序或较小的集合,例如在参考样本中出现最多的基序或在参考样本中表现出最大分离的基序。
可以使用各种量化技术来提供样本的相对频率的度量,并且可以使用这种量化技术来根据临床相关DNA对游离DNA的量进行分类。一种示例性量化技术包括末端基序集合的相对频率之和,在本文中也称为组合频率。例如,此类集合可以是在特定组织类型中最频繁出现或被鉴定为在两种组织类型之间具有最大分离的末端基序。也可以使用加权的和。权重可以是预定的或可变的,例如,给定频率的权重可以取决于频率本身。熵就是此类示例。
在另一个实施方式中,为了捕获胎儿DNA分子与母体DNA分子之间的末端基序的景观差异,可以使用基于熵的分析230。熵是方差/多样性的示例。为了分析基序的频率分布(例如,对于总共256个基序),熵的一种定义使用以下方程式:
其中Pi是特定基序的频率;较高的熵值表示较高的多样性(即较高的随机度)。
在此示例中,当256个基序的频率相等时,熵将达到最大值(即5.55)。相比之下,当256个基序的频率具有偏斜分布时,熵将减小。例如,如果一个特定基序占99%,而其它基序构成剩余的1%,则该公式中的熵将降低至0.11,但是可以使用其它公式,例如不使用对数或仅使用对数)。因此,基序频率的熵不断降低将暗示跨末端基序的频率分布的偏斜度增加。基序频率的熵不断增加将表明跨基序的频率将朝着这些基序的相等概率鸥年以。因此,基序频率的熵测量了血浆DNA中存在的末端基序丰度的均匀性如何。基序频率的均匀度越高,则可以预期到的熵值就越高。换句话说,基序频率的熵降低将暗示跨末端基序关于末端基序频率的偏斜度增加。
在各种其它示例中,标准偏差(SD)、变异系数(CV)、四分位差(IQR)、或跨不同基序频率的某一百分位截止(例如第95个或第99个百分位)可用于评定胎儿DNA分子与母体DNA分子之间的末端基序模式的景观变化。此类各种示例提供了末端基序集合的相对频率的方差/多样性的度量。给定图2中的熵的定义,如果只有一个末端基序具有非零计数,则熵将具有最小值。如果其它末端基序确实出现在一些DNA片段中,则熵将增加。如果没有选择(所有末端基序的随机分布,例如在所有都具有相同频率的一种假设情况下),则熵将达到最大值。以这种方式,熵量化了游离DNA片段的末端序列对末端基序的全局选择性。
曲线235示出了共享序列(主要是母体)和胎儿序列的熵值。在基因分型测量的错误容限内,共享序列包含的胎儿DNA比胎儿序列更少(如果原始样本具有10%的胎儿DNA,则共享序列包含可能约5%的胎儿DNA),所述胎儿序列将具有近100%的胎儿DNA。在给定这种分离的情况下,样本中胎儿DNA的浓度越大,则熵值的差异将越大。胎儿DNA浓度与熵之间的这种关系可用于确定胎儿DNA浓度,例如如使用一个或多个校准值所测量的。例如,可以通过可能并不普遍适用的另一种技术(产生校准值)来测量校准样本的临床相关DNA的浓度,例如使用男性胎儿的Y染色体DNA或先前鉴定出的肿瘤组织突变。在给定校准样本的熵测量结果的情况下,使用校准样本中的测量浓度,两个熵值(一个是测试样本的熵值,另一个是校准样本的熵值)的比较可以提供测试样本的浓度分数。稍后描述了校准值和校准函数的此类用途的进一步细节。
在另一个实施方式中,可以采用基于聚类的分析240。纵轴对应于4聚体基序,并且水平轴对应于不同的样本,例如具有针对胎儿DNA浓度的不同分类。颜色对应于特定样本的特定4聚体基序的相对频率,例如,其中红色校准样本242的浓度高于绿色校准样本244的浓度,绿色校准样本244具有较低的值。
基于聚类的分析可以利用以下假设:与胎儿DNA分子与母体DNA分子之间(即,组间分子特性)的相似度相比,胎儿DNA分子内或母体DNA分子内的256个4聚体末端基序的频率分布(即,组内分子特性)的相似度将相对较高。因此,预期以来源于共享序列的末端基序(例如,较高浓度的共享序列)为特征的个体的校准样本不同于以来源于胎儿特异性序列的末端基序为特征的个体的校准样本(例如,较低浓度的共享序列,以及因此较高浓度的胎儿序列)。每个个体对应于包含256个末端基序及其对应频率的向量(即256维向量)。示例性聚类技术包括但不限于分层聚类、基于质心的聚类、基于分布的聚类、基于密度的聚类。不同的聚类可以对应于样本中胎儿DNA的不同量,因为由于母体DNA片段与胎儿DNA片段之间的末端基序频率的差异,这些聚类将具有相对频率的不同模式。
为了评定胎儿DNA分子与母体DNA分子之间的末端基序的差异,我们使用微阵列平台(Human Omni2.5,Illumina)分别对母体血沉棕黄层和胎儿样本进行了基因分型,并对匹配的血浆DNA样本进行了测序。从第一个三个月(12-14周)、第二个三个月(20-23周)和第三个三个月(38-40周)的每一个中,从10名孕妇获得外周血样本,并且收获来自每种情况的血浆和母体血沉棕黄层样本。我们获得了195,331个信息性SNP(范围:146,428-202,800)的中值,其中母亲是纯合的并且胎儿是杂合的。携带胎儿特异性等位基因的血浆DNA分子被鉴定为胎儿特异性DNA分子。携带共享等位基因的血浆DNA分子被鉴定出并认为主要是母源的DNA分子。在那些样本中的中值胎儿DNA分数是17.1%(范围:7.0%-46.8%)。对于每种情况,获得了中值为1.03亿(范围:5200万-1.86亿)的经定位的配对末端读数。通过对最接近片段末端的4聚体序列进行生物信息学研究,确定了每个血浆DNA分子的末端基序。下面提供了来自该样本集合的分析的结果。
1.相对频率的排名次序差异
我们认为,胎儿DNA分子与母体DNA分子之间的基序频率排名差异中的前几个末端基序将对检测或富集胎儿和母体DNA分子有用。因此,我们根据一名孕妇中的胎儿DNA分子与母体DNA分子之间的末端基序频率差异对末端基序进行了排名,其中测序深度为270x。胎儿序列和共享序列是使用与上述类似的方式,根据信息性SNP鉴定的。
图3示出了根据本公开的实施方式的胎儿DNA分子与母体DNA分子之间的末端基序频率的条形图。数据获自一名孕妇,其中测序深度为270x。纵轴对应于给定4聚体基序的频率百分比,所述频率百分比是根据具有给定4聚体基序的DNA片段的数目(如根据序列读数确定的)除以所分析的DNA片段的末端序列的总数(例如,DNA片段数量的两倍)确定的。横轴对应于256个不同的4聚体。4聚体是按照共享序列的频率不断减小进行分选的,其中图3分为具有用于纵轴的不同标度的两部分。可以在胎儿DNA分子(具有胎儿特异性等位基因的胎儿DNA分子)与母体DNA分子(具有共享等位基因的母体DNA分子)之间观察到末端基序的频率差异。
图4示出了根据本公开的实施方式的胎儿和共享的(即,胎儿加母体的)序列的来自图3的前10个末端基序。纵轴偏移并以1%的频率开始。排名前10的末端基序是CCCA、CCAG、CCTG、CCAA、CCCT、CCTT、CCAT、CAAA、CCTC和CCAC。如可以看到的,一些末端基序具有的在共享序列与胎儿特异性序列之间的差异要大于其它末端基序。因此,为了区分母体DNA和胎儿DNA,人们可能想要使用具有最大差异的末端基序,而不是仅仅具有最高频率的末端基序。
2.熵的使用
然后,对于各种样本,分析了具有共享等位基因的DNA分子的熵和具有胎儿特异性等位基因的DNA分子的熵。前者被鉴定为母体的,而后者被鉴定为胎儿的。对于每个样本,获得两个数据点:胎儿DNA分子的熵和共享DNA分子的熵(标记为“母体”)。
图5A示出胎儿DNA分子中的末端基序的熵低于母体DNA分子中的末端基序的熵(p值<0.0001),表明源自母体DNA分子的末端基序的分布中存在较高的偏斜度。图5A中的熵是使用所有256个基序确定的,因为在这些示例中,对于给定的样本和胎儿DNA或母体DNA分子的给定池,使用了4聚体。
类似于图2的曲线235,两种组织类型的熵的差异表明熵可用于确定游离DNA片段的混合物(例如,血浆或血清)中的胎儿DNA的浓度分数。如上所述,被鉴定为胎儿DNA的池具有比母体池更高百分比(例如,接近100%)的胎儿DNA。针对所述池类型确定的熵值是不同的。因此,熵与胎儿DNA浓度之间存在关系。可以基于校准样本的胎儿DNA浓度的测量值(校准值)和对应的熵值(相对频率的示例)将该关系确定为校准函数,其中校准值和相对频率可以形成校准数据点。具有不同胎儿DNA浓度的校准样本将具有不同的熵值。校准函数可以拟合于校准数据点,使得可以将新测量的相对频率(例如,熵)输入到校准函数中以提供胎儿DNA浓度的输出。
图5B示出了当使用来自图4的10个基序的相对频率时的熵。如图所示,对于该给定的10个末端基序的集合,该关系随着具有较高熵的胎儿序列而改变。仍然可以确定胎儿DNA的浓度分数,但是将使用不同的校准函数。因此,用于校准的基序集合应该与以后使用的基序集合相同,即,当基于熵或该集合的相对频率的其它合计值测量浓度分数时。
3.聚类
我们进一步对孕妇进行了分层聚类分析,每个孕妇的特征都是包含所有4聚体末端基序频率的256维向量。实际上,以来源于胎儿特异性序列和母体DNA分子的末端基序为特征的个体可以聚类为两组。
图6A和图6B示出了根据本公开的实施方式的对第一个三个月时间怀孕的胎儿DNA分子和母体DNA分子的分层聚类分析。图6A示出了基于256个4聚体末端基序频率的分层聚类分析。纵轴对应于4聚体基序,并且横轴对应于各种样本的不同部分(即,胎儿特异性620(黄色)和共享610(蓝色)序列)。该颜色对应于样本的特定部分的特定4聚体基序的相对频率。
不同部分(胎儿特异性和共享的)具有不同的胎儿DNA浓度,并且因此将具有针对胎儿DNA的浓度的不同分类。当使用校准样本执行这种聚类时,可以例如如以上熵部分中所述测量胎儿DNA浓度。每个校准样本将具有对应的向量,所述向量的长度等于所使用的基序的数量(例如,对于所有4聚体为256,或者可能只是4聚体的子集,因为胎儿序列与共享序列之间可能具有最大的差异,但是也可以使用其它k聚体)。
图6B示出了用于基于256个4聚体末端基序频率的分层聚类分析的放大可视化。每行代表一种类型的末端基序(即,不同的末端基序)。每列代表怀孕的受试者。梯度颜色指示末端基序的频率。红色代表最高频率,并且绿色代表最低频率。如可以看到的,代表具有不同胎儿DNA浓度的样本的两个部分(胎儿和共享的)被干净地聚类成两个单独的聚类,显示出能够区分具有不同胎儿DNA浓度水平的样本的良好准确性。
4.不同三个月时间的样本
除了能够区分具有不同浓度分数的样本,一些实施方式可以区分来自处于不同胎龄(例如,哪个三个月时间,或只是是否在第三个三个月时间)的怀孕受试者的不同样本。
图7A和图7B示出了根据本公开的实施方式的使用孕妇的所有基序跨不同的三个月时间的熵分布。有趣的是,使用胎儿特异性片段确定的末端基序的数目的熵值似乎与胎龄(p值:0.024,第1个三个月时间数据对比从第2个及第3个三个月时间汇集的数据)相关联,但是来自共享片段(主要是母体DNA)的末端基序的数目的熵值似乎不与胎龄(p值:1,第1个三个月时间数据对比从第2个及第3个三个月时间汇集的数据)相关联。妊娠晚期通常具有较高的胎儿DNA浓度。因此,浓度与胎龄之间可能存在相关性。
对于胎儿特异性片段,与第一个三个月时间相比,第二个和第三个三个月时间具有降低的熵。因此,胎儿片段可以传达胎龄。并且,由于共享的片段具有基本上恒定的熵(例如,由于主要是母体片段和/或与母体生理相关联的末端基序变化抵消了这种胎儿信号),因此所有片段的熵变化都将反映由于胎儿片段的变化而导致的胎龄。不同的三个月时间之间的熵的这种关系将显示由于母体片段的存在而导致的较少变化,但这种关系仍将存在。但是,当可以鉴定出胎儿特异性等位基因(例如,男性胎儿或通过鉴定以与预期胎儿DNA浓度相似的百分比出现的等位基因,或使用亲本基因型信息)时,则将存在更显著的关系(例如,如图7B所示)。
图7C和图7D示出了根据本公开的实施方式的使用孕妇的10个基序跨不同的三个月时间的熵分布。该10个基序是通过从共享片段确定的排名选择的。这些图显示,由于基序的特定选择,对于胎儿特异性片段的不同三个月时间,熵仍然变化,即使关系可能是减少(与图7B中的增加相反)也是如此。
图8A示出了根据本公开的实施方式的跨不同胎龄的所有片段的熵。该熵是使用全部256个4聚体末端基序确定的。第3个三个月时间的受试者中的血浆DNA片段的熵被证明低于(p值=0.06)第1个三个月时间和第2个三个月时间的所述受试者中的血浆DNA片段的熵。并且,第2个三个月时间的平均值低于第1个三个月时间的平均值。因此,当包括所有胎儿片段时(与图7A中的共享片段相反),熵确实提供了胎龄。
图8B示出了Y染色体源的片段跨不同胎龄的熵。第3个三个月时间的受试者中的Y染色体源的片段的熵被证明低于(p值=0.01)第1个三个月时间和第2个三个月时间的所述受试者中的Y染色体源的片段的熵。这些针对胎儿分子过滤的样本(使用来自Y染色体的胎儿特异性序列)显示了第3个三个月时间与第2个三个月时间之间存在较大的分离。
图9和图10示出了根据本公开的实施方式在胎儿DNA分子与母体DNA分子之间的排名前10的末端基序跨不同的三个月时间的分布。胎儿DNA分子与母体DNA分子之间的基序频率排名差异中排名前10的末端基序是从一个单独的深度测序孕妇病例中挖掘出来的。然后将这些排名前10的末端基序用于分析所述样本中的每个样本。
在独立的同期群中计算了携带这些感兴趣的末端基序的胎儿DNA分子和共享DNA分子的比例,所述同期群包括分别来自第一个三个月时间(12-14周)、第二个三个月时间(20-23周)和第三个三个月时间(38-40周)中的各者的10名孕妇。发现与共享分子相比,胎儿DNA分子中有更高的末端基序数量,这表明这些末端基序与起源组织具有一定关系。例如,发现跨第一个三个月时间(1.26%对比1.11%)、第二个三个月时间(1.24%对比1.11%)和第三个三个月时间(1.24%对比1.15%),胎儿DNA分子中的CAAA%的中值始终高于共享分子(主要是母体)中的CAAA%的中值。因此,可以将末端基序CAAA鉴定为指示具有CAAA的末端序列的特定DNA片段来自胎儿的可能性增加的标记物。
某些末端基序显示出更明显的与胎龄的关系。例如,具有末端基序CCCA的胎儿DNA分子显示出随着胎龄的连续(单调)增加,CCAG、CCTG、CCAA、CCCT和CCAC也是如此。然而,CCTT不显示出针对第2个三个月时间作为中值倾角的不断增加,然后针对第3个三个月时间增加。
在另一个实施方式中,可以组合排名前10的末端基序,以查看跨不同的三个月时间的胎儿DNA分子与母体DNA分子之间的差异。
图11示出了根据本公开的实施方式在胎儿分子与共享分子之间的前10个排名的基序跨不同的三个月时间的组合频率。如图11所示,我们发现在胎儿DNA分子与母体DNA分子之间的排名前10的末端基序的组合频率的差异在第2个三个月时间(p值:0.013)和第3个三个月时间(p值:0.0019)中都与第1个三个月时间(p值:0.92)相比相对较大。胎儿分子的频率从第1个三个月时间到第2个三个月时间至第3个三个月时间不断增加,而共享分子没有显示出这种持续关系。这表明不同的生理条件(例如胎龄)将影响来源于不同来源组织的末端基序。
B.肿瘤学
在怀孕背景下设计的基因型手段也可以在肿瘤学背景下应用。
图12示出了根据本公开的实施方式的用于分析癌症患者的血浆DNA中的突变分子与共享分子之间的差异末端基序模式的基于基因型差异的方法的示意图。如图12所示,可以确定携带肿瘤特异性等位基因(B)的肿瘤特异性分子1205。另一方面,可以确定携带共享等位基因(A)的共享分子1207,所述共享分子将代表主要健康来源的DNA分子,因为肿瘤DNA分子通常将是血浆DNA池中的少数。
作为示例,可以鉴定突变序列(即携带癌症相关联的突变的血浆DNA)和共享序列(主要是造血系统来源的DNA)。癌症相关联的突变可定义为在肿瘤组织(肝细胞癌,HCC)中存在但在正常细胞(例如血沉棕黄层)中不存在的变体。例如,在HCC患者中,假设在特定的基因组基因座中肿瘤组织的基因型是“AG”,而血沉棕黄层细胞的基因型是“AA”,则在肿瘤组织中特异性存在的“G”将被视为癌症相关联的突变,而“A”将被视为共享的野生型等位基因。在各种实施方式中,突变序列可通过对来自肿瘤的组织活检进行测序或通过分析游离样本(例如血浆或血清)来获得,例如如美国专利公开2014/0100121中所述。
在血浆DNA被以220x的深度测序的HCC患者中,确定了突变序列与共享序列之间的末端基序频率分布。条形图1220提供了每个4聚体作为突变序列和共享序列的末端基序出现的相对频率(%)。可以如上文针对图2的条形图220所描述的那样确定这种相对频率。如人们可以看到的,末端基序1222在不同组织类型的DNA片段之间具有相对频率的显著差异。此类差异可以用于各种目的,例如以富集样本中的肿瘤DNA或确定肿瘤DNA的浓度。
在另一个实施方式中,为了捕获肿瘤DNA分子与母体DNA分子之间的末端基序的景观差异,可以使用基于熵的分析1230,类似于图2。曲线1235示出了共享序列和肿瘤序列的熵值。熵或其它方差度量的差异可以例如使用校准函数来提供肿瘤浓度分数。
在另一个实施方式中,类似于图2中的胎儿分析,可以执行基于聚类的分析1240。针对样本中的的肿瘤序列量的分类可以基于属于参考聚类的新样本来确定,所述参考聚类的肿瘤分数的分类是已知的。
1.相对频率的排名次序差异
图13示出了根据本公开的实施方式的肝细胞癌中的癌症相关联的突变体分子和共享分子的血浆DNA末端基序的景观。观察到末端基序的数量在突变序列与共享序列之间改变,例如但不限于CCCA、CCAG、CCAA、CCTG、CCTT、CCCT、CAAA、CCAT、TAAA、AAAA基序。图13示出了与图3类似的信息,但是对于临床相关DNA,是肿瘤DNA而不是胎儿DNA。
图14示出了根据本公开的实施方式的肝细胞癌中的癌症相关联的突变分子和共享分子的血浆DNA末端基序的径向景观。在外周上列出了不同的末端基序,并且在不同的径向长度处示出了末端基序的频率。末端基序按非肿瘤(例如,健康)细胞的野生型(wt)等位基因的频率分选。频率值1410对应于wt等位基因,而频率值1420对应于突变(mut)等位基因。该径向视图示出了与野生型(共享)序列相比,突变序列的末端基序的相对频率存在显著差异。
图15A示出了根据本公开的实施方式的在HCC患者的血浆DNA中的突变序列与共享序列之间的末端基序频率的排名差异中的前10个末端基序。确定参考样本中的共享序列的前几个末端基序。如图所示,前几个末端基序是CCCA、CCAG、CCAA、CCTG、CCTT、CCCT、CAAA、CCAT、TAAA、和AAAA。相对频率的差异在末端基序之间有所不同。例如,发现显示出突变序列与共享序列之间的最大差异的基序(CCCA)分别是1.9%和1.6%,表明相对于共享序列(主要是血细胞来源的野生型序列)突变序列的此类基序减少了15%。
图15B示出了根据本公开实施方式的HCC患者和怀孕女性的8个末端基序的组合频率。组合频率是示例性的合计值,例如作为末端基序的集合的相对频率之和。如可以看出的,在以下两种情况中的每一种中两类序列的组合频率存在分离:在野生型(WT)与突变体之间,以及在母本序列与胎儿序列之间。野生型(WT)与突变体之间的组合频率的分离大于母体序列与胎儿序列之间的分离。
该组合频率显示出与胎儿分析的熵曲线相似的行为。因此,图15B示出了可用于确定临床相关DNA的浓度分数的相对频率的合计值的另一示例。并且,图15B中的wt对比突变体关系显示也可以确定其它临床相关DNA(例如,肿瘤DNA)的浓度分数。
2.熵的使用
图16A和图16B示出了根据本公开的实施方式的针对HCC病例的不同末端基序集合的共享片段和突变片段的熵值。与胎儿序列一样,两种类型的序列的熵之间的关系可以取决于所使用的末端基序的集合而变化。图16A使用了4聚体的所有256个末端基序。由于突变片段的更均匀频率分布(例如,更平坦),因此突变片段的熵更高。并且,由于偏斜度频率分布较高,共享片段的熵较低。
图16B使用HCC受试者中出现的共享片段的4聚体的前10个末端基序。对于前10个基序,熵的关系是相反的。图16A和图16B示出用于确定胎儿DNA浓度的校准分析也可以用于确定肿瘤DNA浓度。
如上所述,较高的熵值指示末端基序中的较高多样性。可以使用基序多样性得分(MDS)估计循环游离DNA生物学样本中的临床相关DNA(例如,胚胎、移植物或肿瘤)的浓度分数。
图17是根据本公开的实施方式的基序多样性得分相对于测量的循环肿瘤DNA分数的曲线图。对于多个校准样本中的每一个校准样本,测量校准数据点1705。校准数据点包括样本的基序多样性得分和临床相关DNA的浓度分数,所述临床相关DNA的浓度分数在这种情况下是肿瘤DNA分数。基于软件包ichorCNA估计肿瘤DNA分数,所述软件包通过利用癌症相关联的拷贝数畸变来测量血浆DNA中的肿瘤DNA分数(Adalsteinsson等人,2017)。
给定的样本可以是没有肿瘤DNA的健康对照样本,或者是来自患有肿瘤的患者的样本,其中肿瘤DNA分数是非零的,即存在肿瘤DNA和其它(例如,健康的)DNA。发现患有HCC的患者的血浆DNA的MDS值与肿瘤DNA分数呈正相关(Spearman的ρ:0.597;p值:0.0002)。这是使用校准函数1710(在此示例中为线性函数)显示的。
校准函数1710可用于确定新测试样本中的肿瘤DNA分数,已经测量了所述新测试样本的基序多样性得分。校准函数1710可以通过对校准数据点1705进行函数拟合来确定,例如使用回归。
在一些示例中,新样本的MDS的计算值X可用作函数F(X)的输入,其中F是校准函数(曲线)。F(X)的输出是浓度分数。可以提供误差范围,该误差范围对于每个X值可能不同,从而提供值范围作为F(X)的输出。在其它示例中,可以将与新样本中的MDS的测量值0.95对应的浓度分数确定为根据处于为0.95的MDS处的校准数据点计算出的平均浓度。作为另一个示例,校准数据点1705可用于提供针对特定校准值的DNA浓度分数的范围,其中所述范围可用于确定浓度分数是否高于阈值量。
C.移植
基因型技术也可应用以监测移植,例如肝移植。在受体是纯合的并且供体是杂合的情况下的SNP位点将允许确定移植患者的血浆中的供体特异性DNA分子和主要的造血系统DNA。
图18A示出了根据本公开的实施方式的使用供体特异性片段的熵分析。图18B示出了使用供体特异性片段的分层聚类分析。如图18A和图18B所示,在肝移植的情况下,观察到肝特异性DNA分子具有与共享序列(主要是血液来源的DNA)不同的特性。与共享序列相比,通常发现供体特异性DNA分子(肝DNA)中的血浆DNA末端基序的熵较低(图18A)。以来源于肝脏特异性DNA分子的末端基序为特征的个体聚类在一起,而以来源于共享DNA分子的末端基序为特征的个体聚类为另一组。
D.对浓度分数进行分类
如上所述,一个或多个末端基序的集合的相对频率可用于确定临床相关DNA的浓度分数的分类。
图19是示出根据本公开的实施方式的估计受试者的生物样本中临床相关DNA的浓度分数的方法1900的流程图。生物学样本可包括临床相关DNA和其它游离DNA。在其它示例中,生物样本可不包含临床相关DNA,并且估计的浓度分数可以指示临床相关DNA的零或低百分比。方法1900和本文所述的任何其它方法的各方面可以由计算机系统执行。
在框1910处,分析来自生物样本的多个游离DNA片段以获得序列读数。序列读数可包括与多个游离DNA片段的末端对应的末端序列。作为示例,可以使用测序或基于探针的技术获得序列读数,这两种技术都可以包括例如经由扩增或捕获探针进行富集。
可以按多种方式进行测序,例如使用大规模平行测序或下一代测序、使用单分子测序和/或使用双链或单链DNA测序文库制备方案。所属领域的技术人员将了解可以使用的各种测序技术。作为测序的一部分,一些序列读数可能对应于细胞核酸。
测序可以是如本文中所描述的靶向测序。例如,可以富集生物样本中来自特定区域的DNA片段。富集可以包括使用捕获探针,所述捕获探针与例如入通过参考基因组定义的基因组的一部分或整个基因组结合。
可以分析统计上显著数量的游离DNA分子,以提供浓度分数的准确测定。在一些实施方式中,分析至少1,000个游离DNA分子。在其它实施方式中,可以分析至少10,000个、或50,000个、或100,000个、或500,000个、或1,000,000个、或5,000,000个游离DNA分子或更多。
在框1920处,对于多个游离DNA片段中的每一个游离DNA片段,确定游离DNA片段的一个或多个末端序列中的每一个末端序列的序列基序。序列基序可包括N个碱基位置(例如,1、2、3、4、5、6个等)。作为示例,可以通过以下方式来确定序列基序:分析在与DNA片段的末端相对应的末端处的序列读数,将信号与特定基序相关联(例如,当使用探针时),和/或将序列读数与参考基因组进行比对,例如,如图1中所述。
例如,在通过测序设备进行测序之后,序列读数可以由计算机系统接收,所述计算机系统可以与进行测序的测序装置以可通信的方式耦合,例如通过有线或无线通信或通过可拆卸的存储器装置。在一些实施方式中,可以接收包括核酸片段的两个末端的一个或多个序列读数。DNA分子的位置可以通过将DNA分子的一个或多个序列读数定位(比对)至人基因组的相应部分,例如特定区域来确定。在其它实施方式中,特定探针(例如,在PCR或其它扩增之后)可以例如通过特定的荧光颜色来指示位置或特定的末端基序。鉴定可以是游离DNA分子对应于序列基序的集合中的一个序列基序。
在框1930处,确定与多个游离DNA片段的末端序列对应的一个或多个序列基序的集合的相对频率。序列基序的相对频率可以提供具有与所述序列基序对应的末端序列的所述多个游离DNA片段的比例。可以使用一个或多个参考样本的参考集合来鉴定一个或多个序列基序的集合。对于参考样本,临床相关DNA的浓度分数不必是已知的,但是可以确定基因型差异,使得可以鉴定出临床相关DNA和其它DNA(例如,健康DNA、母体DNA、或接受移植器官的受试者的DNA)的末端基序之间的差异。可以基于差异来选择特定的末端基序(例如,以选择具有最高绝对值或百分比差异的末端基序)。在整个公开内容中描述了相对频率的示例。
在一些具体实施中,序列基序包括N个碱基位置,其中一个或多个序列基序的集合包括N个碱基的所有组合。在一些示例中,N可以是等于或大于二或三的整数。一个或多个序列基序的集合可以是在一个或多个校准样本或未用于校准浓度分数的其它参考样本中出现的前M个(例如,前10个)最频繁的序列基序。
在框1940处,确定一个或多个序列基序的集合的相对频率的合计值。在整个公开内容中描述了示例性合计值,例如,所述合计值包括熵值(基序多样性得分)、相对频率的和,以及与基序集合的计数的向量(例如,可能的4聚体的245个基序的256个计数或可能的3聚体的64个基序的64个计数的向量)对应的多维数据点。当一个或多个序列基序的集合包括多个序列基序时,合计值可以包括该集合的相对频率的和。
作为示例,当一个或多个序列基序的集合包括多个序列基序时,合计值可以包括该集合的相对频率的和。作为另一示例,合计值可以对应于相对频率的方差。例如,合计值可以包括熵项。熵项可以包括各项的和,每个项包括相对频率乘以相对频率的对数。作为另一个示例,合计值可以包括机器学习模型(例如,聚类模型)的最终或中间输出。
在框1950处,通过将合计值与一个或多个校准值进行比较来确定生物样本中的临床相关DNA的浓度分数的分类。可以从临床相关DNA的浓度分数是已知(例如,经测量)的一个或多个校准样本确定一个或多个校准值。比较可以是对多个校准值的比较。可以通过将合计值输入到与校准数据拟合的校准函数中来进行比较,所述校准函数提供合计值相对于样本中的临床相关DNA的浓度分数的变化的变化。作为另一示例,一个或多个校准值可对应于使用一个或多个校准样本中的游离DNA片段测量的一个或多个序列基序的集合的相对频率的一个或多个合计值。
可以将校准值计算为每个校准样本的合计值。可以确定每个样本的校准数据点,其中所述校准数据点包括样本的校准值和所测量的浓度分数。这些校准数据点可以在方法1900中使用,或者可以用于确定最终校准数据点(例如,如通过函数拟合所定义的)。例如,线性函数可以作为浓度分数的函数与校准值拟合。线性函数可以定义要在方法1900中使用的校准数据点。作为比较的一部分,可以将新样本的新合计值用作函数的输入,以提供输出浓度分数。因此,一个或多个校准值可以是使用多个校准样本的临床相关DNA的浓度分数确定的校准函数的多个校准值。
作为另一示例,可以将新合计值与具有相同浓度分数分类(例如,在相同范围内)的样本的平均合计值进行比较,并且如果与校准值与另一分类的平均值的接近度相比,新合计值=更接近该平均值,则可以确定新样本具有与最接近的校准值相同的浓度。当执行聚类时可以使用此类技术。例如,校准值可以是与浓度分数的特定分类对应的聚类的代表值。
校准数据点的确定可以包括例如如下测量浓度分数。对于一个或多个校准样本中的每个校准样本,可以测量校准样本中的临床相关DNA的浓度分数。可以通过作为获得校准数据点的一部分分析来自校准样本的游离DNA片段,从而确定一个或多个合计值,来确定一个或多个序列基序的集合的相对频率的合计值。每个校准数据点可以指定校准样本中所测量的临床相关DNA的浓度分数以及针对校准样本确定的合计值。一个或多个校准值可以是一个或多个合计值,或者可以使用一个或多个合计值来确定(例如,当使用校准函数时)。浓度分数的测量可以如本文所述以各种方式进行,例如通过使用特异于临床相关DNA的等位基因。
在各种实施方式中,可以使用组织特异性等位基因或表观遗传标记物,或使用DNA片段的大小来测量临床相关DNA的浓度分数,例如如美国专利公开2013/0237431中所述,该美国专利公开的全文以引用方式并入。组织特异性表观遗传标记物可以包括样本中表现出组织特异性DNA甲基化模式的DNA序列。
在各种实施方式中,临床相关DNA可以选自由以下项组成的组:胎儿DNA、肿瘤DNA、来自移植器官的DNA、和特定组织类型(例如,来自特定器官)。临床相关DNA可以是特定组织类型的,例如,特定组织类型是肝或造血系统的。当受试者是怀孕的女性时,临床相关DNA可以是胎盘组织,所述胎盘组织对应于胎儿DNA。作为另一个示例,临床相关DNA可以是来源于患有癌症的器官的肿瘤DNA。
通常,优选的是使用与用于测量生物(测试)样本的浓度分数相似的测定来生成从一个或多个校准样本确定的一个或多个校准值。例如,可以以相同方式产生测序文库。两种示例性处理技术是GeneRead(www.qiagen.com/us/shop/sequencing/generead-size-selection-kit/#orderinginformation)和SPRI(固相可逆固定化,AMPure磁珠,www.beckman.hk/reagents_depr/genomic_depr/cleanup-and-size-selection/pcr)。GeneRead可以去除短DNA,所述短DNA主要是肿瘤片段,所述肿瘤片段可以影响野生型片段和突变片段以及胎儿和移植病例的末端基序的相对频率。
E.确定胎龄
如以上在图7A、图7B和图8至图10中所述,胎儿特异性片段基序可用于推断胎龄。
图20是示出根据本公开的实施方式的通过分析来自怀有胎儿的女性受试者的生物样本来确定胎儿的胎龄的方法2000的流程图。生物样本包括来自女性受试者和胎儿的游离DNA片段。
在框2010处,分析来自生物样本的多个游离DNA片段,以获得序列读数。序列读数可包括与多个游离DNA片段的末端对应的末端序列。可以以与图19的框1910类似的方式执行框2010。
在分析之前、分析之后或作为分析的一部分,例如如上文针对图2和图5A所述,可以将多个游离DNA片段鉴定为来源于胎儿。这可以过滤为胎儿的或最有可能是胎儿的DNA片段。作为示例,可以使用胎儿特异性等位基因或胎儿特异性表观遗传标记物鉴定多个游离DNA片段。作为另一个示例,对于序列读数中的每个序列读数,可以基于包括一个或多个序列基序的集合中的一个序列基序的序列读数的末端序列,确定该序列读数对应于胎儿的可能性。也可以使用其它标准,例如如第II.E节所述。可以将可能性与阈值进行比较,并且当可能性超过阈值时,可以将序列读数鉴定为来源于胎儿。有关富集样本中的临床相关DNA的更多详细信息,可以在第IV节中找到。
在框2020处,对于多个游离DNA片段中的每一个游离DNA片段,确定游离DNA片段的一个或多个末端序列中的每一个末端序列的序列基序。可以以与图19的框2020类似的方式执行框2020。
在框2030处,确定与多个游离DNA片段的末端序列对应的一个或多个序列基序的集合的相对频率。序列基序的相对频率可以提供具有与所述序列基序对应的末端序列的所述多个游离DNA片段的比例。可以以与图19的框2030类似的方式执行框1930。
在框2040处,确定一个或多个序列基序的集合的相对频率的合计值。可以以与图19的框2040类似的方式执行框1940。
在框2050处,获得一个或多个校准数据点。每个校准数据点可以指定与合计值对应的胎龄(例如,如上图中所述的三个月时间)。如上所述,可以从多个具有已知胎龄并且包括游离DNA分子的校准样本确定一个或多个校准数据点。在一些实施方式中,所述一个或多个校准数据点可以是多个校准数据点,所述多个校准数据点形成校准函数,所述函数近似于从具有已知胎龄的所述多个校准样本中的所述游离DNA分子确定的测量的合计值。
在框2060处,将合计值与至少一个校准数据点的校准值进行比较。例如,可以将新样本的新合计值与如图8A中确定的针对第三个三个月的平均值进行比较。作为另一示例,至少一个校准数据点的校准值可以对应于使用多个校准样本中的至少一个校准样本中的游离DNA分子测量的合计值。合计值的比较可以是与多个校准值进行比较,例如,每个校准值对应于多个校准样本中的一个校准样本。可以通过将合计值输入到与校准数据拟合的函数(校准函数)中来进行比较,所述校准函数提供合计值相对于胎龄的变化。可以以针对方法1900描述的类似方式(例如,关于框1950)执行比较。
在框2070处,基于比较来估计胎儿的胎龄。例如,如果新合计值最接近第三个三个月的平均值(或所使用的其它校准值),则可以确定新样本处于第三个三个月中。作为另一示例,可以将新合计值与同图8A或其它类似图中的数据拟合的校准函数(例如,线性函数)进行比较。该函数可以输出胎龄,例如,作为线性函数的Y值。本文提供的使用校准函数的其它示例也可以在确定胎龄的背景下使用。
III.表型方法
使用对怀孕的受试者、癌症受试者以及肝移植的基于基因型的分析,血浆DNA末端基序的存在与起源组织存在关联。我们认为原因是,在癌症患者中,肿瘤DNA释放到血液循环中,从而改变了血浆DNA末端基序的原始正常表现。然而,我们不排除癌症病理生物学的其它方面(例如,肿瘤微环境(浸润性T细胞、B细胞、嗜中性粒细胞等))会生成不同的末端基序,从而对末端基序的景观产生影响的可能性。因此,对癌症受试者与非癌症对照受试者之间的血浆DNA末端基序的分析将揭示从对照受试者中分类HCC的能力。
图21示出了根据本公开的实施方式的用于血浆DNA末端基序分析的表型方法的示意图。图21具有与图2和图12的相似之处,例如,可以绘制相对频率,可以确定方差值(例如,熵),并且可以执行聚类。
在图21中,使用从血浆DNA分子推导的末端基序(例如,4聚体)并在癌症受试者与对照受试者之间进行比较,从而消除了基因型标记物的限制并且使其广泛适用于许多临床情况,例如自体免疫性疾病(例如系统性红斑狼疮,SLE)和移植的检测。使用表型方法并使用所有已测序的血浆DNA片段,可以按照与基于基因型差异的方法非常相似的分析程序执行熵和聚类分析。在这种情况下,将在对照受试者与患病受试者之间比较熵分析和聚类分析。
患病分子2105来自被确定为患有疾病的一个或多个受试者。对照分子2107来自不是患有疾病的一个或多个受试者。确定两个分子池的末端基序集合的相对频率。条形图1220提供了每个4聚体作为对照序列和患病序列的末端基序出现的相对频率(%)。可以如上文针对图2的条形图220所描述的那样确定这种相对频率。如人们可以看到的,末端基序2122在不同组织类型的DNA片段之间具有相对频率的显著差异。这种差异可用于各种目的,例如以将新样本分类为患病或未患病的,或疾病的某种其它水平。
为了捕获肿瘤DNA分子与共享DNA分子之间的末端基序的景观差异,类似于图2,可以使用基于熵的分析2130。曲线2135示出了对照受试者和患病受试者的熵值。熵或其它方差度量的差异可以提供与疾病有关的病理水平的分类。
在另一个实施方式中,类似于图2中的胎儿分析和图12中的肿瘤分析,可以执行基于聚类的分析2140。可以基于属于分类已知的参考聚类的新样本来确定病理水平的分类。
因此,在相对频率的合计值的一个示例中,每个个体可以包含关于4聚体末端基序的256个频率的向量(即256维向量)为特征。在其它示例中,标准偏差(SD)、变异系数(CV)、四分位差(IQR)、或跨不同基序频率的某一百分位截止(例如第95个或第99个百分位)可用于评定疾病组与对照组之间的末端基序模式的景观变化。合计值的其它示例也在其它节中提供,并在此处适用。
A.肿瘤学
在一些实施方式中,疾病(病理学)可以是癌症。因此,一些实施方式可以对癌症水平进行分类。
1.相对频率的排名次序差异
图22示出了根据本公开的实施方式在使用所有血浆DNA分子的情况下在肝细胞癌(HCC)受试者与乙型肝炎病毒(HBV)受试者之间的4聚体末端基序的频率分布的示例。图22比较了HCC患者和一名HBV患者中的256个末端基序的频率。与类似的曲线一样,纵轴是基序频率,并且横轴对应于相应的末端基序。在图22中,我们基于非HCC受试者中的基序频率的平均值对基序进行了升序排名。底部的曲线与顶部的曲线接续,但是为了便于说明,以不同的比例绘制。
在HCC患者中有许多显示出畸变的末端基序。例如,与HBV受试者相比,在HCC患者中显示出频率增加的排名前10的末端基序(TGGG、TAAA、AAAA、GAAA、GGAG、TAGA、GCAG、TGGT、GCTG和GAGA)具有平均1.22倍变化,其中范围为1.12-1.35倍变化;并且在HCC患者中显示出频率降低的排名前10的末端基序(CCCA、CCAG、CCAA、CCCT、CCTG、CCAC、CCAT、CCCC、CCTC和CCTT)具有平均1.23倍变化,其中范围为1.16-1.29倍变化。相对于非癌症组在HCC组中显示出频率增加(或作为单独集合减少)的前几个基序的此类集合可用于有关癌症对新受试者进行分类。作为另一个示例,排名过程可以选择所有显示出HCC升高的那些基序,然后根据在HCC受试者与非HCC受试者之间的ACC以降序对那些基序进行排名。然后基于AUC值选择前10个基序。
为了通过使用血浆DNA末端基序测试诊断潜力,我们对20名健康对照受试者(对照)、22名慢性乙型肝炎携带者(HBV)、12名肝硬化受试者(Cirr)、24名早期HCC(eHCC)、11名中期HCC(iHCC)和7名晚期HCC(aHCC)进行了测序,其中配对读数的中值为2.15亿(范围:0.97-0.1681亿)。
图23A示出了根据本公开的实施方式的具有不同癌症水平的各种受试者的前10个血浆DNA 4聚体末端基序的组合频率的箱线图。基于图22中的数据,即基于HBV受试者中的频率,选择了排名前10的血浆DNA 4聚体末端基序。组合频率是给定受试者的10个末端基序的频率之和。我们发现,与非癌症受试者相比,HCC患者中排名前10的末端基序的组合频率显著降低(p值<0.0001)。重要的是,使用这种末端基序分析,可以以95%的特异性鉴定出58.3%的eHCC患者。此外,可以检测到癌症的不同时期。例如,晚期HCC的值明显低于eHCC和iHCC。
图23B示出了根据本公开的实施方式的HCC受试者与非癌症受试者之间的前10个血浆DNA 4聚体末端基序的组合频率的接收者操作特征(ROC)曲线。发现ROC曲线的曲线下面积(AUC)为0.91,表明血浆DNA末端基序确实具有将HCC与非癌症受试者区分开的临床潜力。在另一个实施方式中,在HCC受试者与非HCC受试者之间具有最大分离的七个末端基序的组合频率提供为0.92的AUC。
图24A示出了根据本公开的实施方式的跨不同组的CCA基序的频率的箱线图。非HCC组中的最频繁3聚体基序(CCA)在HCC组中显著较低(p值<0.0001)。图24B示出了根据本公开的实施方式的使用在非HCC受试者中存在的最频繁的3聚体基序(CCA)在非HCC组与HCC组之间的ROC曲线。发现AUC为0.915。最频繁4聚体(CCCA)还提供了为0.91的相似AUC。
2.熵的使用(基序多样性得分)
图25A示出了根据本公开的实施方式跨不同组使用256个4聚体末端基序的熵值的箱线图。使用了4聚体的全部256个基序。如图25A所示,与非HCC受试者(平均值:5.203;范围:5.124-5.253)相比,HCC患者中的熵值显著增加(p值<0.0001)(平均值:5.242;范围:5.164-5.29)。重要的是,使用这种末端基序分析,可以以95%的特异性鉴定出41.7%的eHCC患者。与非HCC组相比,HCC组、IHCC组和晚期HCC组的熵通常增加。此外,可以检测到癌症的不同时期。例如,晚期HCC的值明显高于eHCC和iHCC。
图25B示出了根据本公开的实施方式跨不同组使用10个4聚体末端基序的熵值的箱线图。在此,HCC受试者的熵相对于非HCC受试者降低。因此,使用的末端基序集合可以将关系从增加改变为降低。例如,使用排名前10的基序,HCC组中的熵降低。无论哪种方式,都存在在HCC组与非HCC组之间的诊断能力,以及晚期HCC相对于HCC早期的诊断能力。
图26A示出了根据本公开实施方式跨不同组使用的3聚体基序的熵值的箱线图。发现使用3聚体基序(总共64个基序)的HCC受试者的熵显著高于(p值<0.0001)非HCC受试者。图26B示出了根据本公开的实施方式的使用非HCC组与HCC组之间的64个3聚体基序的熵的ROC曲线。发现AUC为0.872。
如上所述,较高的熵值指示末端基序中的较高多样性。作为使用基序多样性得分来在各种癌症类型样本与对照(例如健康)样本之间进行区分的实施方式的能力的进一步说明,使用了来自已发表研究的数据。
图27A和图27B示出了根据本公开的实施方式跨不同组使用4聚体的基序多样性得分的箱线图。使用所有256个4聚体确定基序多样性得分。当我们使用从发表的研究下载的血浆DNA的测序结果执行MDS分析时,通常可以在各种癌症类型中观察到血浆DNA末端多样性的增加(Song等人,2017),这可能反映了以下事实:来自不同解剖部位的不同肿瘤细胞会将其DNA释放到血液循环中(Bettegowda等人,2014)。分析的癌症为:肝细胞癌(HCC)、肺癌(LC)、乳腺癌(BC)、胃癌(GC)、多形性成胶质细胞瘤(GBM)、胰腺癌(PC)和结直肠癌(CRC)。
为了进一步测试MDS变化跨不同癌症类型的普遍性,我们对具有40个其它癌症类型的血浆DNA样本(包括患有结直肠癌(n=10)、肺癌(n=10)、鼻咽癌(n=10)和头颈鳞状细胞癌(n=10)的患者)的独立同期群进行了进一步测序,其中配对末端读数的中值为4200万(范围:1900-6500万)。如图27B所示,患有癌症的患者组的MDS值(中值:0.943;范围:0.939-0.949)显著高于没有癌症的对照组(中值:0.941;范围:0.933-0.946;p值<0.0001,Wilcoxon秩和检验)。
图28示出了根据本公开的实施方式的将健康对照与癌症区分开的各种技术的接收者操作曲线。我们具有总共129个样本,包括健康对照(n=38)、HBV携带者(n=17)、肝细胞癌患者(n=34)、结直肠癌患者(n=10)、肺癌患者(n=10)、鼻咽癌患者(n=10)和头颈鳞状细胞癌患者(n=10)。有趣的是,基于MDS的方法2801(AUC=0.85)与包括片段大小2803(AUC=0.74,p值=0.0040;DeLong检验)的其它片段化度量(Yu等人,2017b)、片段优选末端2804(AUC=0.52,p值<0.0001)(Jiang等人,2018)和定向感知的血浆游离片段化信号OCF2802(AUC=0.68,p值=0.0013)(Sun等人,2019)相比似乎表现出最好的性能。如果所述技术中的任何一种技术将受试者分类为患有癌症,则组合分析2805将受试者鉴定为患有癌症。
对于不同长度的基序,MDS分析区分癌症与非癌症的准确性保持相对良好。使用MDS对1聚体至5聚体执行分析。
图29示出了根据本公开的实施方式的使用各种k聚体的MDS分析的接收者操作曲线。从1聚体至5聚体基序推导的MDS值也具有区分患有癌症和不患有癌症的患者的能力。1聚体分析2901提供了为0.81的AUC。2聚体分析2902提供了为0.85的AUC。3聚体分析2903提供了为0.85的AUC。4聚体分析2904提供了为0.85的AUC。5聚体分析2905提供了为0.81的AUC。
我们还根据计算机模拟探索了肿瘤DNA分数对基于MDS的癌症检测的性能的影响。
图30示出了根据本公开的实施方式的对各种肿瘤DNA级分的基于MDS的癌症检测的执行。如图30所示,随着血浆DNA中肿瘤DNA分数的增加,癌症检测的性能逐渐提高。例如,肿瘤DNA分数为0.1%的患者的ROC曲线下面积(AUC)仅为0.52,而肿瘤DNA分数为3%的患者的AUC增至0.9,并且在更高的浓度下进一步增加,但在5%的肿瘤分数下已经接近最大值。
3.机器学习(SVM,回归和聚类)
为了进一步探索是否可以建立使用血浆DNA末端基序检测癌症患者的分类器,我们使用了256个血浆DNA末端基序来构建分类器,以分别使用考虑每个末端基序的幅值和方向的支持向量机(SVM)和逻辑回归区分患有癌症(n=55)和不患有癌症(n=74)的患者。SVM分析鉴定了在256维位置中能最好地区分癌症患者与非癌症患者的超平面,其中训练数据点是4聚体的256个基序中的每个基序的频率。逻辑回归确定系数以乘以256个频率中的每一个频率,并且还确定逻辑函数的所得输出的截止值,该截止值可以是相乘频率的加权和,也可以接收该加权和作为输入。如本领域技术人员所熟悉的,这种逻辑函数可以是S形函数或其它激活函数。
为了最小化过度拟合的问题,我们采用了留一法式程序,以通过使用接收者操作特征(ROC)曲线分析来评估其性能。留一法程序是根据以下步骤执行的。在为N的样本量中,我们将一个样本留作测试样本,然后使用剩余的样本(N-1)来使用256个血浆DNA末端基序基于SVM和逻辑回归训练分类器。然后,我们使用经训练的分类器来确定是否将剩下的样本归类为从患有或未患有癌症的受试者中获取的。我们系统地留出了一个样本作为测试样本,以测试根据其余样本训练的分类器。因此,我们可以获得每个样本的预测结果,并根据预测结果计算出准确性。
图31示出了根据本公开的实施方式的用于MDS、SVM和逻辑回归分析的接收者操作曲线。与基于MDS的分析(AUC=0.85)相比,我们观察到使用具有256个末端基序的分类器时AUC的增加很小(对于SVM和逻辑回归两者,AUC=0.89)。
作为另一种机器学习技术,我们使用了基于末端基序频率的聚类。
图32示出了根据本公开的实施方式的针对跨具有不同癌症水平的不同组的排名前10的末端基序的分层聚类分析。如图所示,HCC受试者(eHCC:早期HCC 3205;iHCC:中期HCC 3230;和aHCC:晚期HCC 3225)通常聚类在一起,而非HCC(健康对照受试者;HBV:慢性乙型肝炎携带者)通常聚类在一起。例如,右侧的聚类是早期的HCC 3205(黄色)。左中大部分是对照3210、HBV 3215和肝硬化3220。HCC组与非HCC组之间的不同聚类模式表明,末端基序将反映血浆DNA末端基序中与疾病相关联的偏好,并表明了血浆DNA末端基序的潜在诊断能力。除了基于连接性的分层聚类作为统计方法外,还可以使用其它聚类技术,例如基于质心的聚类、基于分布的聚类、和基于密度的聚类。
图33A至图33C示出了根据本公开的实施方式的使用跨具有不同癌症水平的不同组的所有血浆DNA分子的分层聚类分析。图33A示出了基于256个4聚体末端基序频率的分层聚类分析。图33B示出了用于基于256个4聚体末端基序频率的分层聚类分析的放大可视化。每行代表一种类型的末端基序。每列代表单独的血浆DNA样本。梯度颜色指示末端基序的频率。红色代表最高频率,并且绿色代表最低频率。图33C示出了使用末端基序对HCC受试者和非HCC受试者的主成分分析(PCA)。主成分是256个基序的线性组合,所述256个基序提供了最大的方差,例如,在所得的频率加权和中。
由于HCC受试者和非HCC受试者似乎形成了两个截然不同的聚类,因此来源于所有血浆DNA分子的末端基序将是用于区分HCC受试者与非HCC受试者的重要度量。图33A和图33B示出了HCC受试者3305(红色)倾向于聚类为一个组,并且非HCC受试者3310(蓝色)倾向于聚类为另一组。在图33C中,PCA分析还显示,HCC受试者和非HCC受试者倾向于聚类为两个不同的组。PC1和PC2对应于相对频率的不同线性组合(例如,加权平均值),所述相对频率的不同线性组合可以表示相对频率的给定直方图的模式。图33C示出了可以在执行聚类或使用截止值或截止平面之前执行线性组合(或其它变换)。因此,可以使用变换后的相对频率来确定合计值。
图34示出了根据本公开的实施方式的使用跨具有不同癌症水平的不同组的所有血浆DNA分子基于3聚体基序的分层聚类分析。为了便于说明,仅示出了热图的顶部部分。如图所示,HCC受试者(eHCC:早期HCC 3405;iHCC:中期HCC 3430;和aHCC:晚期HCC 3425)通常聚类在一起,而非HCC(健康对照受试者3410;HBV 3415:慢性乙型肝炎携带者;和肝硬化3420)通常聚类在一起。
基于这些发现,可以使用机器学习(例如,深度学习)模型以通过使用包含血浆DNA末端基序的256维向量来训练癌症分类器,包括但不限于支持向量机(SVM)、决策树、朴素贝叶斯分类、逻辑回归、聚类算法、PCA、奇异值分解(SVD)、t分布随机邻居嵌入(tSNE)、人工神经网络,以及构造分类器集合和然后通过对它们的预测进行加权投票来对新数据点进行分类的集成方法。一旦基于包括一系列癌症患者和非癌症患者的“基于256维向量的矩阵”对癌症分类器进行了训练,就能够预测新患者患癌症的可能性。
在机器学习算法的这种使用中,合计值可以对应于可以与参考值进行比较的概率或距离(例如,当使用SVM时)。在其它实施方式中,合计值可以对应于模型中的较早输出(例如,神经网络中较早的层),该输出与两个分类之间的截止值进行比较或者与给定分类的代表值进行比较。
B.免疫疾病监测
图35A示出了根据本公开的实施方式的使用健康对照受试者与SLE患者之间的所有血浆DNA分子的熵分析。图35B示出了根据本公开的实施方式的使用健康对照受试者与SLE患者之间的所有血浆DNA分子的分层聚类分析。
对血浆DNA末端基序的全局景观畸变分析,包括熵(图35A,p值:0.00014)和聚类分析(图35B)表明,SLE患者可以与健康对照受试者区分开。例如,对于患有SLE的受试者,熵增加(图35A)。并且,通常在左侧(SLE 3510)和右侧(对照/正常3505)上形成两个聚类。因此,自体免疫性疾病改变了血浆DNA片段化模式,从而显示了区分SLE受试者与对照受试者之间的血浆DNA末端基序的能力。
图36示出了根据本公开的实施方式的在健康对照受试者与SLE患者之间使用具有10个选定的末端基序的血浆DNA分子的熵分析。使用具有针对对照受试者的前10个最高相对频率的基序。与其它表型一样,基序集合可影响SLE熵是较高还是较低。假定选择10个基序作为对照的最高值,则熵较高,因为这些值彼此相似(即,由于排名)。并且,SLE熵较低,这是因为存在更多的变化,例如,因为它们不是针对SLE受试者进行排名。如果使用SLE样本选择了前10个基序,则可能存在相反的关系。因此,可以使用相对频率的合计值来确定自体免疫性疾病(例如,SLE)的水平。
C.末端基序和常规度量的协同分析
我们测试了血浆DNA末端基序和其它度量(拷贝数畸变(CNA)、低甲基化和高甲基化)的组合分析是否将提高无创癌症检测的性能。例如,基于决策树的分类可用于组合分析。
图37示出了根据本公开的实施方式的用于HCC受试者和非HCC受试者的包括末端基序和拷贝数或甲基化的组合分析的ROC曲线。末端基序分析使用4聚体的所有356个基序确定的基序多样性得分。如果任一分析导致了癌症的分类,则组合分析鉴定出癌症。末端基序和甲基化分析的组合分析(AUC:0.94)或末端基序和CNA分析的组合分析(AUC:0.93)优于仅使用末端基序的分析(AUC:0.86)。甲基化分析使用的低甲基化的(定义为甲基化密度z得分<-3)1Mb箱的数量高于正常对照的1Mb箱的数量,其中异常箱的截止数量区分癌症与非癌症。CNA分析使用z得分的表示大于3或小于-3的1Mb箱的数量,并且异常箱的截止数量区分癌症和非癌症。甲基化分析的更多详细信息可以在美国专利公开2014/0080715中找到,而CNA分析的更多详细信息可以在美国专利公开U.S.2013/0040824中找到。
描述了基于示例性决策树的分类。例如,我们可以使用随机森林算法来推导每个度量的截止值,包括CNA、低甲基化、高甲基化、大小(例如,如美国专利公开2013/0237431中所述)、末端基序、和片段化模式(例如,如在美国专利公开2017/0024513和2019/0341127和美国专利申请16/519,912中所述)。每个度量都有特定的截止值。以一个度量(低甲基化)作为示例,取决于度量是低于还是高于截止值,可以将一种情况分为癌症还是非癌症。一个度量表示决策树中的一个节点。例如,在样本遍历整棵树中的所有节点之后,大多数选票(例如,表示癌症的节点数量大于表示非癌症的节点数量)可以提供最终分类。
D.定义血浆DNA的末端基序的替代方法的示例
为了证明使用定义血浆DNA的末端基序的替代方式的可行性,采用图1中的技术160来分析HCC受试者和非HCC受试者,所述受试者包括经测序的20名健康对照受试者(对照)、22名慢性乙型肝炎携带者(HBV)、12名肝硬化受试者(Cirr)、24名早期HCC(eHCC)、11名中期肝癌(iHCC)和7名晚期肝癌(aHCC)。
图38A示出了根据本公开的实施方式的基于4聚体的熵分析,所述4聚体由HCC受试者和非HCC受试者中的经测序的血浆DNA片段及其相邻基因组序列的末端共同构建。使用所有256个末端基序确定熵。如同使用图1的技术140定义基序的分析一样,HCC受试者的熵与非癌症受试者的熵不同。并且,晚期HCC显示出与eHCC和iHCC的很大差异。图38B示出了根据本公开的实施方式的基于4聚体的聚类分析,所述4聚体是由HCC受试者3810和非HCC受试者3805中的经测序的血浆DNA片段及其相邻基因组序列的末端共同构建的。
图39示出了根据本公开的实施方式用于限定血浆DNA的末端基序的图1的技术140和160的ROC比较。使用与图38A相同的受试者,并且执行使用4聚体的熵分析来进行分类。方法(i)对应于技术140,并且方法(ii)对应于技术160。与图1中的技术140相比,使用图1中的技术160观察到了稍差的性能(AUC:0.815对比0.856)。
E.过滤以提高区分能力
某些标准可用于过滤特定的DNA片段(除末端基序外)以提供更高的准确性,例如灵敏性和特异性。作为示例,末端基序分析可限于源自特定组织的开放染色质区域的DNA片段,例如,如通过完全在多个开放染色质区域中的一个开放染色质区域内进行读数比对或部分地与多个开放染色质区域中的一个开放染色质区域进行读数比对所确定的。例如,具有至少一个核苷酸与开放染色质区域重叠的任何读数可以被定义为开放染色质区域内的读数。根据DNA酶I超敏性位点,典型的开放染色质区域为约300bp。开放染色质区域的大小可为可变的,具体取决于用于定义开放染色质区域的技术,例如,ATAC-seq(用于转座酶可及染色质测序的测定)与DNA酶I-Seq。
作为另一个示例,可以选择特定大小的DNA片段来执行末端基序分析。如下所示,这可以增加末端基序的相对频率的合计值的分离,从而提高准确性。
另一个示例可以使用DNA片段的甲基化特性。胎儿DNA和肿瘤DNA通常是低甲基化的。实施方式可以确定DNA片段的甲基化度量(例如,密度)(例如,作为在DNA片段上甲基化的位点的比例或绝对数目)。并且,可以基于所测量的甲基化密度来选择DNA片段用于末端基序分析。例如,仅当甲基化密度高于阈值时才可以使用DNA片段。
DNA片段是否包括相对于参考基因组的序列变异(例如碱基取代、插入或缺失)也可以用于过滤。
各种过滤标准可以组合在一起使用。例如,可能需要满足每个标准,或者可能需要满足至少特定数量的标准。在另一个具体实施中,可以确定片段对应于临床相关DNA(例如,胚胎、肿瘤或移植物)的概率,并针对该概率确定阈值,DNA片段在用于末端基序分析之前要满足该阈值。作为另一示例,可以基于概率来加权DNA片段对特定末端基序的频率计数器的贡献(例如,加上具有小于一的值的概率,而不是加一)。因此,具有特定末端基序的DNA片段将被加权更高和/或具有更高的概率。这种富集在下面进一步描述。
1.跨组织特异性染色质区域的末端基序
由于不同的组织在凋亡期间将具有优选的片段化模式(Chan等人,Proc NatlAcad Sci USA.2016;113:E8159-8168;Jiang等人,Proc Natl Acad Sci USA.2018;doi:10.1073/pnas.1814616115),因此我们进一步认为原因是选择用于血浆DNA末端基序分析的某些基因组区域将进一步提高在对患病患者和对照受试者进行分类中的区分能力。以检测HCC患者作为示例,使用血液和肝脏的开放染色质区域。
图40示出了根据本公开的实施方式的准确性比较,所述准确性比较显示组织特异性开放染色质区域改善了HCC和非癌症患者的血浆DNA末端基序的区分能力。使用4聚体和前10个基序的组合频率对所有256个基序的熵执行分析。对于肝开放染色质结果,如果读数具有至少一个核苷酸与肝开放染色质区域中的一个肝开放染色质区域重叠,则保留序列读数(即,不过滤掉)。
源自与肝开放染色质区域重叠的血浆DNA分子的末端基序的能力通过使用排名前10的基序的组合频率而产生最佳性能,其中AUC为0.918。相比之下,源自血浆DNA分子的末端基序在没有任何选择的情况下对所有256个基序进行区分的能力是为0.855的最小AUC。
因此,如果要对特定组织进行癌症筛查,则可以使用来自该特定组织的开放染色质的DNA片段(或至少在末端序列位于开放染色质区域的情况下)来执行分析,而不使用不在这些鉴定出的区域中的DNA片段。在此使用肝,因为癌症是HCC。可以通过将序列读数与参考基因组进行比对来确定DNA片段的位置,其中可以从文献或数据库中鉴定出该开放染色质区域。
2.基于大小带的末端基序分析
末端基序中的某些末端基序的频率显示为根据所分析的大小范围(大小带)而变化,例如,CCCA的百分比显示出这种行为。这意味着基于大小带的末端基序分析可影响使用血浆DNA末端基序将癌症患者与非癌症受试者区分开的性能。为了说明这种可能性,我们测试了一系列大小范围,包括但不限于50-80bp、81-110bp、111-140bp、141-170bp、171-200bp、201-230bp,以调查所分析的大小带将如何影响整体诊断性能。
图41示出了根据本公开的实施方式的基于大小带的血浆DNA末端基序分析。使用4聚体的256个基序确定分类使用的基序多样性得分(熵)。在图41中列出了各种范围,但也可以使用其它范围。50-80分析4101提供为0.826的AUC。81-110分析4102提供为0.537的AUC。111-140分析4103提供为0.551的AUC。141-170分析4104提供为0.716的AUC。171-200分析4105提供为0.769的AUC。201-230分析4106提供为0.756的AUC。
此类大小范围可用于富集临床相关DNA的技术。例如,选择为50-80个碱基的DNA分子将富集样本中的肿瘤DNA。与单个大小范围相反,可以使用多个不相交的大小范围。这种富集可为以下原因:对于50-80个碱基和81-110个碱基的大小范围出现了更好的AUC。
在50bp至80bp范围内的来源于血浆DNA分子的末端基序似乎具有最好的从非HCC受试者中检测HCC的区分能力(AUC:0.83)。因此,实施方式可以过滤DNA片段以选择特定大小范围内的DNA片段,然后使用所选定的DNA片段(读数)来确定相对频率和以后的操作。作为示例,可以通过物理分离或通过使用序列读数确定大小来进行大小过滤(例如,如果对整个片段进行测序或通过将配对末端与参考进行比对,则为长度)。短DNA的物理富集的示例包括凝胶电泳时的条带切割、通过毛细管电泳时在一定保留时间收集洗脱液、在液相色谱法之后、或通过微流控技术。
F.对病理水平进行分类
图42是示出根据本公开的实施方式的对受试者的生物样本中的病理学水平进行分类的方法4200的流程图。生物样本包括游离DNA。可以以与图19的方法1900和图20的方法2000类似的方式来执行方法4200的各方面。
在框4210处,分析来自生物样本的多个游离DNA片段以获得序列读数。序列读数包括与多个游离DNA片段的末端对应的末端序列。可以以与图19的框1910类似的方式执行框4210。
在框4220处,对于多个游离DNA片段中的每一个游离DNA片段,确定游离DNA片段的一个或多个末端序列中的每一个末端序列的序列基序。可以以与图19的框1920类似的方式执行框4220。
在框4230处,确定与多个游离DNA片段的末端序列对应的一个或多个序列基序的集合的相对频率。序列基序的相对频率可以提供具有与所述序列基序对应的末端序列的所述多个游离DNA片段的比例。可以以与图19的框1930类似的方式执行框4230。例如,一个或多个序列基序的集合可包括N个碱基位置。一个或多个序列基序的集合可包括N个碱基的所有组合。N可以是等于或大于3的整数,也可以是任何其它整数。
作为另一示例,一个或多个序列基序的集合可以是在一个或多个参考样本中确定的两种类型的DNA之间具有最大差异的前M个序列基序,例如,全部显示出最大正差异的基序(例如,前10个或其它数量)或所有具有最大负差异的基序。M可以是等于或大于1的整数。对于方法1900和2000,两种类型的DNA可以是临床相关DNA和另一种DNA。对于方法4200,两种类型的DNA可以来自两个参考样本,所述两个参考样本具有病理水平的不同分类。作为另一示例,一个或多个序列基序的集合可以是在一个或多个参考样本中出现的前M个最频繁的序列基序,例如如图22所示,其中参考样本是非癌症样本,例如HBV样本。
在框4240处,确定一个或多个序列基序的集合的相对频率的合计值。可以以与图19的框1940类似的方式执行框4240。合计值的示例在整个本公开中描述并且包括熵、组合频率、与相对频率的参考模式的差(例如,距离)(如可以在聚类中或使用SVM的情况下实现的)、或根据所述差异确定的值(例如,概率)、或机器学习模型(例如,神经网络中的中间层或最终层)中的输出,将该输出与两个分类之间的截止值进行比较或与给定分类的代表值进行比较。
当一个或多个序列基序的集合包括多个序列基序时,合计值可以包括该集合的相对频率的和。该和可以是加权的和。例如,合计值可包括熵项,该熵项包括包含加权和的项之和。每个项可以包括相对频率乘以相对频率的对数。合计值可对应于相对频率的方差
在另一个示例中,合计值包括机器学习模型的最终或中间输出。在各种具体实现中,机器学习模型使用聚类、支持向量机或逻辑回归。
在框4250处,可以基于聚合值与参考值的比较来确定受试者的病理水平的分类。作为示例,病理学可以是癌症或自体免疫性疾患。作为示例,水平可以是没有癌症、早期、中期或晚期。然后,分类可以选择所述水平中的一种水平。因此,可以根据包括多个癌症时期的多个癌症水平确定分类。例如,癌症可以是肝细胞癌、肺癌、乳腺癌、胃癌、多形性成胶质细胞瘤、胰腺癌、结直肠癌、鼻咽癌、和头颈鳞状细胞癌。作为示例,自体免疫性疾患可以是系统性红斑狼疮。
在其它示例中,病理水平对应于与病理学相关联的临床相关DNA的浓度分数。例如,病理水平可以是癌症,并且临床相关DNA可以是肿瘤DNA。参考值可以是根据校准样本确定的校准值,如针对方法1900所述。
在一些实施方式中,过滤游离DNA以鉴定多个游离DNA片段。上面的章节中提供了过滤的示例。例如,过滤可以基于甲基化(密度或特定位点是否被甲基化)、大小、或DNA片段所来源于的区域。可以过滤游离DNA中来自特定组织的开放染色质区域的DNA片段。
IV.富集
来自特定组织的DNA片段表现出特定的末端基序集合的偏好可用于富集样本中来自该特定组织的DNA。因此,实施方式可以富集样本中的临床相关DNA。例如,可以使用测定来仅对具有特定末端序列的DNA片段进行测序,扩增和/或捕获。作为另一示例,可以例如以与第III.E节中所述类似的方式来执行序列读数的过滤。
A.物理富集
可以通过多种方式进行物理富集,例如通过靶向测序或PCR,如可以使用特定的引物或衔接子执行的。如果检测到末端序列的特定末端基序,则可以将衔接子添加至片段的末端。然后,当执行测序时,仅对具有衔接子的DNA片段进行测序(或至少主要对其进行测序),从而提供靶向测序。
作为另一示例,可以使用与特定的末端基序集合杂交的引物。然后,可以使用这些引物执行测序或扩增。与特定末端基序对应的捕获探针也可用于捕获具有那些末端基序的DNA分子以用于进一步分析。一些实施方式可以将短寡核苷酸连接至血浆DNA分子的末端。然后,探针可以经设计为使得其仅识别部分为末端基序并且部分为连接的寡核苷酸的序列
一些实施方式可以使用基于CRISPR的诊断技术,例如使用指导RNA来定位与临床相关DNA的优选末端基序对应的位点,然后使用核酸酶切割DNA片段,如使用Cas-9或Cas-12可以进行的。例如,可以使用衔接子识别末端基序,然后使用CRISPR/Cas9或Cas-12切割末端基序/衔接子杂合体并创建通用的可识别末端,以进一步富集具有所需末端的分子。
图43是示出根据本公开的实施方式的富集生物学样本的临床相关DNA的方法4300的流程图。生物样本包含临床相关DNA分子和其它游离DNA分子。方法4300可以使用特定测定来执行富集。
在框4310处,接收来自生物样本的多个游离DNA片段。临床相关DNA片段(例如,胎儿或肿瘤)具有末端序列,该末端序列包括以比其它DNA(例如,母体DNA、健康DNA或血细胞)更大的相对频率出现的序列基序。作为示例,可以使用来自图3和图13的数据)。因此,序列基序可用于富集临床相关DNA。
在框4320处,使多个游离DNA片段经受一个或多个探针分子,该一个或多个探针分子检测多个游离DNA片段的末端序列中的序列基序。探针分子的这种使用可以导致获得检测到的DNA片段。在一个示例中,所述一个或多个探针分子可包含一种或多种酶,所述一种或多种酶询问所述多个游离DNA片段并附加用于扩增所述检测到的DNA片段的新序列。在另一个示例中,一个或多个探针分子可附着至表面,以用于通过杂交检测末端序列中的序列基序。
在框4330处,使用检测到的DNA片段来富集生物样本中的临床相关DNA片段。例如,使用检测到的DNA片段来富集生物样本中的临床相关DNA片段可包括扩增检测到的DNA片段。作为另一示例,可以捕获检测到的DNA片段,并且可以丢弃未检测到的DNA片段。
B.计算机模拟富集
计算机模拟富集可以使用各种标准来选择或丢弃某些DNA片段。此类标准可包括末端基序、开放染色质区域、大小、序列变异、甲基化、和其它表观遗传特征。表观遗传特征包括基因组的所有修饰,所述修饰不涉及DNA序列的变化。该标准可以指定截止值,例如要求某些特性,例如特定的大小范围,高于或低于一定量的甲基化度量、多于一个CpG位点的甲基化状态的组合(例如,甲基化单倍型(Guo等人,Nat Genet.2017;49:635-42))等,或具有的组合概率高于阈值。这种富集还可涉及基于这种概率对DNA片段进行加权。
作为示例,富集的样本可用于对病理学进行分类(如上所述),以及鉴定肿瘤或胎儿突变或用于标记计数以用于染色体或染色体区域的扩增/缺失检测。例如,如果特定末端基序或末端基序集合与肝癌相关联(即,相对频率高于非癌症或其它癌症),则用于执行癌症筛查的实施方式可将此类DNA片段加权为高于不具有该优选的末端基序或该优选的末端基序集合的DNA片段。
图44是示出根据本公开的实施方式的富集生物学样本的临床相关DNA的方法4400的流程图。生物样本包含临床相关DNA分子和其它游离DNA分子。方法4400可以使用序列读数的特定标准来执行富集。
在框4410处,分析来自生物样本的多个游离DNA片段以获得序列读数。序列读数包括与多个游离DNA片段的末端对应的末端序列。可以以与图19的框1910类似的方式执行框4410。
在框4420处,对于多个游离DNA片段中的每一个游离DNA片段,确定游离DNA片段的一个或多个末端序列中的每一个末端序列的序列基序。可以以与图19的框1920类似的方式执行框4420。
在框4430处,鉴定在临床相关DNA中以比其它DNA更大的相对频率出现的一个或多个序列基序的集合;序列基序的集合可以通过本文所述的基因型或表型技术鉴定。校准或参考样本可用于对临床相关DNA具有选择性的序列基序进行排名和选择。
在框4440处,鉴定在末端序列中具有一个或多个序列基序的集合的一组序列读数。这可以看作是过滤的第一阶段。
在框4450处,可以存储具有与临床相关DNA超过阈值对应的可能性的序列读数。可以使用末端基序的集合来确定该可能性。例如,对于该一组序列读数中的每个序列读数,可以基于包括一个或多个序列基序的集合中的序列基序的序列读数的末端序列,来确定该序列读数对应于临床相关DNA的可能性。可以将可能性与阈值进行比较。作为示例,可以凭经验确定阈值。例如,可以测试样本的各种阈值,可以针对所述样本测量一组序列读数的临床相关DNA的浓度。最佳阈值可以使浓度最大化,与此同时保持一定百分比的序列读数总数。所述阈值可以由在暴露于类似的病因风险因素但无疾病的健康对照或对照组中存在的一个或多个末端基序的浓度的一个或多个给定的百分位(第5个、第10个、第90个、或第95个)确定。该阈值可以是回归或概率得分。
当可能性超过阈值时,可以将序列读数存储在存储器中(例如,在文件、表或其它数据结构中),从而获得存储的序列读数。具有低于阈值的可能性的序列读数可以被丢弃或不存储在保留的读数的存储位置中,或者数据库的字段可以包括标志,所述标志指示该读数具有较低的阈值,以便以后的分析可以排除此类读数。作为示例,可以使用各种技术来确定可能性,所述各种技术为例如比值比、z得分或概率分布。
在框4460处,可以分析所存储的序列读数以确定生物学样本中的临床相关DNA的特性,例如,如本文所述,例如在其它流程图中所述。方法1900、2000和4200就是此类示例。例如,生物样本中的临床相关DNA的特性可以是临床相关DNA的浓度分数。作为另一个示例,该特性可以是从其获得生物样本的受试者的病理水平,其中所述病理水平与临床相关DNA相关联。作为另一个示例,该特性可以是从其获得生物样本的怀孕女性的胎儿的胎龄。
其它标准可以用来确定可能性。可以使用序列读数来测量多个游离DNA片段的大小。特定序列读数对应于临床相关DNA的可能性可以进一步基于对应于特定序列读数的游离DNA片段的大小。
也可以使用甲基化。因此,实施方式可以测量在游离DNA片段的与特定序列读数对应的一个或多个位点处的一种或多种甲基化状态。特定的序列读数对应于临床相关DNA的可能性可以进一步基于一种或多种甲基化状态。作为进一步的示例,读数是否在所鉴定的开放染色质区域的集合内可以用作过滤器。
图45示出了示例性曲线图,所述示例性曲线图示出了根据本公开的实施方式使用CCCA末端基序的胎儿DNA级分的增加。纵轴是所测试的样本的胎儿DNA分数。两组数据是针对(1)与信息性SNP重叠的所有片段(即,具有胎儿特异性等位基因的片段)和(2)具有CCCA末端基序并与信息性SNP重叠的片段。因此,左侧的数据提供了整个样本中的实际胎儿DNA分数,并且右侧的数据提供了计算机模拟富集的样本的数据。在该示例中,当末端基序是CCCA时,可以将可能性确定为高于阈值。可以以类似的方式使用更多的基序,例如,作为指示可能性高于阈值的组。
胎儿DNA分数的中值相对增加为3.2%(IQR:1.3-6.4%)。胎儿DNA分数的相对增加由(b-a)/a*100定义,其中a是通过与信息性SNP重叠的所有片段计算的原始胎儿DNA分数,其中母亲是纯合的并且胎儿是杂合的,b是通过用在胎儿DNA分子中富集的CCCA基序标记的片段计算的胎儿DNA分数。
对于本文所述的方法中的任何方法,游离DNA片段的一个或多个末端序列中的每一个末端序列的序列基序可以使用参考基因组来执行(例如,经由图1的技术160)。此类技术可包括:将与游离DNA片段对应的一个或多个序列读数与参考基因组进行比对,鉴定参考基因组中与末端序列相邻的一个或多个碱基,以及使用所述末端序列和所述一个或多个碱基来确定序列基序。
V.示例性系统
图46示出了根据本发明的实施方式的测量系统4600。所述系统包含样本4605,例如样本固持器4610内的游离DNA分子,其中样本4605可以与测定物4608接触以提供物理特征信号4615。样本固持器的示例可以是包含测定物的探针和/或引物的流动池或液滴移动通过的管(其中液滴包含所述测定物)。检测器4620检测来自样本的物理特性4615(例如,荧光强度、电压或电流)。检测器4620可以间隔地(例如,周期性间隔)进行测量以获得构成数据信号的数据点。在一个实施方式中,模数转换器多次将来自检测器的模拟信号转换为数字形式。样本固持器4610和检测器4620可以形成测定设备,例如,根据本文所述的实施方式执行测序的测序设备。将数据信号4625从检测器4620发送到逻辑系统4630。数据信号4625可以存储在本地存储器4635、外部存储器4640或存储设备4645中。
逻辑系统4630可以是或可以包括计算机系统、ASIC、微处理器等。其还可以包括显示器(例如,监测器、LED显示器等)和用户输入设备(例如鼠标、键盘、按钮等)或与它们耦接。逻辑系统4630和其它部件可以是独立的或网络连接的计算机系统的一部分,或者逻辑系统可以直接附接到或结合在包括检测器4620和/或样本固持器4610的设备(例如,测序设备)中。逻辑系统4630还可以包括在处理器4650中执行的软件。逻辑系统4630可以包括存储用于控制测量系统4600以执行本文所述的方法中的任何方法的指令的计算机可读介质。例如,逻辑系统4630可以向包括样本固持器4610的系统提供命令,使得测序或其它物理操作得以执行。可以按特定的顺序执行此类物理操作,例如,按特定的顺序添加和去除试剂。此类物理操作可以由如可用于获得样本并执行测定的机器人系统(例如,包括机械臂的机器人系统)执行。
本文提到的计算机系统中的任何计算机系统都可以利用任何合适数量的子系统。在图47中,在计算机系统10中示出了此类子系统的示例。在一些实施方式中,计算机系统包括单个计算机装置,其中子系统可以是计算机装置的部件。在其它实施方式中,计算机系统可以包括具有内部部件的多个计算机装置,每个计算机装置是子系统。计算机系统可包括台式计算机和膝上型计算机、平板电脑、移动电话和其它移动设备。
图47中示出的子系统通过系统总线75互连。示出了附加的子系统,例如打印机74、键盘78、一个或多个存储设备79、耦接到显示适配器82的监视器76(例如,显示屏,例如LED)等。耦接到I/O控制器71的外围设备和输入/输出(I/O)设备可以通过任何数量的例如输入/输出(I/O)端口77(例如,USB、
)等本领域已知的装置连接到计算机系统。例如,I/O端口77或外部接口81(例如以太网、Wi-Fi等)可以用于将计算机系统10连接到广域网(例如因特网)、鼠标输入设备、或扫描仪。通过系统总线75的互连允许中央处理器73与每个子系统通信并控制来自系统存储器72或一个或多个存储设备79(例如,固定盘,例如硬盘驱动器或光盘)的多个指令的执行,以及子系统之间信息的交换。系统存储器72和/或一个或多个存储设备79可以体现为计算机可读介质。另一个子系统是数据收集设备85,例如相机、麦克风、加速计等。本文提及的数据中的任何数据可以从一个部件输出到另一个部件并且可以输出到用户。
计算机系统可以包括例如通过外部接口81、通过内部接口或经由可以从一个部件连接到另一个部件和移除的可移除存储设备连接在一起的多个相同的部件或子系统。在一些实施方式中,计算机系统、子系统或装置可以经网络通信。在此类情况下,一个计算机可以视为客户端并且另一个计算机视为服务器,其中每一个计算机可以是同一个计算机系统的一部分。客户端和服务器可以各自包括多个系统、子系统或部件。
实施方式的各方面可以使用硬件电路系统(例如,专用集成电路或现场可编程门阵列)以控制逻辑的形式实施,和/或以模块化或集成方式使用具有一般可编程处理器的计算机软件实施。如本文所用,处理器可包括单核处理器、同一集成芯片上的多核处理器,或者单个电路板上或联网的多个处理单元,以及专用硬件。基于本文提供的公开内容和教导,本领域普通技术人员将了解并且意识到使用硬件以及硬件和软件的组合来实现本发明的实施方式的其它方式和/或方法。
本申请中描述的软件部件或功能中的任何软件部件或功能可以实施为被处理器使用任何合适的计算机语言(例如Java、C、C++、C#、Objective-C、Swift或如Perl或Python的脚本语言)使用例如常规或面向对象的技术执行的软件代码。软件代码可以存储为计算机可读介质上用于存储和/或传输的一系列指令或命令。合适的非暂时性计算机可读媒体可以包含随机存取存储器(RAM)、只读存储器(ROM)、如硬盘驱动器或软盘的磁性媒体、或如光盘(CD)或DVD(数字通用光盘)或蓝光光盘的光学媒体、闪存等。计算机可读介质可以是此类存储或传输设备的任何组合。
也可以使用适于经由符合各种协议的有线、光学和/或无线网络(包含因特网)传输的载波信号来编码和传输此类程序。因此,计算机可读介质可以使用以此类程序编码的数据信号产生。用程序代码编码的计算机可读介质可以与兼容设备打包在一起或与其它设备分开提供(例如,通过因特网下载)。任何此类计算机可读介质可以驻留在单个计算机产品(例如,硬盘驱动器、CD或整个计算机系统)上或内,并且可以存在于系统或网络内的不同计算机产品上或内。计算机系统可以包括监测器、打印机、或用于向用户提供本文提及的结果中的任何结果的其它合适的显示器。
本文描述的方法中的任何方法可以用包括一个或多个处理器的计算机系统完全或部分地执行,所述计算机系统可以被配置成执行步骤。因此,实施方式可以针对被配置成执行本文所述的方法中的任何方法的步骤的计算机系统,所述计算机系统可能具有执行相应步骤或相应步骤组的不同部件。尽管作为编号的步骤呈现,但是本文的方法步骤可以同时或在不同时间或以不同顺序执行。另外,这些步骤的各部分可以与来自其它方法的其它步骤的各部分一起使用。而且,步骤的全部或部分可以是任选的。另外,所述方法中的任何方法的步骤中的任何步骤都可以用模块、单元、电路、或用于执行这些步骤的系统的其它装置来执行。
在不脱离本发明的实施方式的精神和范围的情况下,可以以任何合适的方式组合特定实施方式的具体细节。然而,本发明的其它实施方式可以针对涉及每个单独方面的特定实施方式,或这些单独方面的特定组合。
出于说明和描述的目的,已经呈现了本公开的示例性实施方式的以上描述。以上描述并非旨在穷举本公开或将本公开限制于所描述的精确形式,并且根据上述教导,许多修改和变化是可能的。
除非特别指出相反的情况,否则对“一个(种)/一(a/an)”或“所述(the)”的叙述旨在表示“一个或多个”。除非特别指出相反的情况,否则“或”的使用旨在表示“包含性的或”,而非“排他性的或”。对“第一”部件的引用不一定要求提供第二部件。此外,除非明确说明,否则对“第一”或“第二”部件的引用并不将所引用的部件限制到特定位置。术语“基于”旨在表示“至少部分地基于”。
本文所提及的所有专利、专利申请、出版物和描述出于所有目的以引用方式整体并入本文。没有一项被承认为是现有技术。