CN116981782A - 基于脱靶多核苷酸测序数据检测肿瘤的存在 - Google Patents

基于脱靶多核苷酸测序数据检测肿瘤的存在 Download PDF

Info

Publication number
CN116981782A
CN116981782A CN202280020758.4A CN202280020758A CN116981782A CN 116981782 A CN116981782 A CN 116981782A CN 202280020758 A CN202280020758 A CN 202280020758A CN 116981782 A CN116981782 A CN 116981782A
Authority
CN
China
Prior art keywords
segment
computing system
determining
metric
coverage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280020758.4A
Other languages
English (en)
Inventor
卡塔林·巴尔巴西奥鲁
达里娅·丘多瓦
亚历山大·阿特西奥门卡
丹尼尔·盖勒
王皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guardant Health Inc
Original Assignee
Guardant Health Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guardant Health Inc filed Critical Guardant Health Inc
Priority claimed from PCT/US2022/071059 external-priority patent/WO2022192889A1/en
Publication of CN116981782A publication Critical patent/CN116981782A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

在本文描述的实施方式中,从来源于脱靶序列的样品获得的信息可用于确定样品的肿瘤细胞拷贝数和/或肿瘤分数的估计。另外,从种系SNP的存在获得的信息可用于确定样品的肿瘤细胞拷贝数或肿瘤分数中的至少一个的估计。

Description

基于脱靶多核苷酸测序数据检测肿瘤的存在
相关申请的交叉引用
本申请要求2021年3月9日提交的美国临时专利申请第63/158,824号和2021年4月8日提交的美国临时专利申请第63/173,273号的优先权的权益,为了所有目的将其中各项通过引用以其整体并入本文。
背景
肿瘤是细胞的异常生长。肿瘤可以是良性或恶性的。恶性肿瘤通常被称为癌症。癌症为全世界疾病的主要原因。每年,世界各地有数千万人被诊断为患有癌症,并且多于一半的人最终因其死亡。在许多国家,癌症列为继心血管疾病之后第二大最常见的死亡原因。早期检测与许多癌症的改善结果相关。
癌症通常通过肿瘤的活组织检查,随后分析细胞病理学、生物标志物或从细胞提取的DNA来检测。传统的活检可能是痛苦和侵入性的。基于从肿瘤提取的组织样品,这样的活检通常也只能检查受试者体内的一部分肿瘤细胞。因此,常规组织活检提供关于特定时期肿瘤的有限信息,并且不总是代表肿瘤细胞的群体。
最近已经提出,癌症还可以根据体液诸如血液或尿液中的无细胞核酸(例如,循环核酸、循环肿瘤核酸、外泌体(exosome)、来自凋亡细胞和/或坏死细胞的核酸)检测(参见例如,Siravegna等人,Nature Reviews,14:531-548(2017))。例如,当正常细胞和/或癌细胞死亡时,DNA通常被释放到体液中,作为无细胞DNA和/或循环肿瘤DNA。测量无细胞核酸的测试具有非侵入性的优点,可以在不识别可疑癌细胞进行活检的情况下进行,并且从癌症的所有部分取样核酸。分析在这样的检测中获得的数据以检测肿瘤的存在可能是复杂的,因为释放到体液中的核酸量低且可变,从这样的液体以可分析形式回收核酸也是如此。
附图简述
并入本说明书并构成其一部分的附图示出了某些实施方式,并与书面描述一起用于解释本文公开的方法、计算机可读介质和系统的某些原理。当结合附图阅读时,可以更好地理解本文提供的描述,附图以示例的方式而非限制的方式被包括在内。应当理解,除非上下文另有说明,否则在所有附图中,相同的附图标记表示相同的部件。还应当理解,一些或所有附图可以是出于说明目的的示意性表示,并不一定描绘所示元件的实际相对尺寸或位置。
图1是根据一个或更多个实施方式,基于脱靶多核苷酸确定与受试者相关的肿瘤度量的示例架构的示意图。
图2是根据一个或更多个实施方式,基于中靶多核苷酸、脱靶多核苷酸和单核苷酸多态性数据来确定与受试者相关的肿瘤度量(metrics)的示例过程的流程图。
图3是根据一个或更多个实施方式,基于来源于脱靶多核苷酸的覆盖范围度量来确定与受试者相关的肿瘤度量的示例过程的示意图。
图4是根据一个或更多个实施方式,基于来源于脱靶多核苷酸的尺寸分布度量来确定与受试者相关的肿瘤度量的示例过程的示意图。
图5是使用分箱操作(binning operation)、一个或更多个另外的分割操作(segmentation operations)和似然函数来确定肿瘤度量的示例过程的示意图。
图6是根据一个或更多个实施方式,生成增强量的脱靶多核苷酸的示例过程的流程图,该脱靶多核苷酸可用于确定受试者中存在的肿瘤的指标。
图7是根据一个或更多个实施方式,基于来源于脱靶多核苷酸的信息确定关于受试者的肿瘤度量的示例方法的流程图,所述示例方法包括关于参考人类基因组的至少一个分割过程。
图8是根据一个或更多个实施方式,基于来源于脱靶多核苷酸的覆盖范围信息来确定关于受试者的肿瘤度量的示例方法的流程图,所述示例方法包括关于参考人类基因组的多个分割过程。
图9是根据一个或更多个实施方式,基于来源于脱靶多核苷酸的尺寸分布信息来确定关于受试者的肿瘤度量的示例方法的流程图。
图10是根据一个或更多个实施方式,生成测序数据并从测序数据确定脱靶序列表示(sequence representation)的示例方法的流程图,其中脱靶序列表示可用于基于来源于脱靶序列表示的信息确定关于受试者的肿瘤度量。
图11是示出根据一个或更多个示例实施方式,计算机系统形式的机器的组件的框图,该机器可以从一个或更多个机器可读介质读取和执行指令,以执行本文描述的任何一种或更多种方法。
图12是示出根据一个或更多个示例实施方式,可以与本文描述的一个或更多个硬件架构结合使用的代表性软件架构的框图。
图13A显示了对于40Mb尺寸区域,在扩增发生时拷贝数为“3”或发生缺失时拷贝数为“1”的情况下,仅使用中靶数据相对于使用中靶和脱靶数据的组合,杂合性丢失的检测限(LoD)的差异。在这些情况下,相对于仅使用中靶数据,当使用中靶和脱靶数据二者时,灵敏度可以提高至少约20%。
图13B显示了对于40Mb尺寸区域,在扩增发生时拷贝数为“4”或对于纯合缺失为“0”拷贝的情况下,仅使用中靶数据相对于使用中靶和脱靶数据的组合,杂合性丢失的LoD的差异。
图14显示了对于不同类型癌症,最大突变等位基因分数(MAF)与肿瘤分数的关系图。
图15显示了使用本文描述的技术在6号染色体的基因组区域中观察到的与人类白细胞抗原(HLA)相关的缺失。
图16显示了对于预测在HLA区域具有杂合性丢失(LoH)的患者,观察到的6号染色体覆盖范围的实例。
图17显示了不同癌症类型中HLA LoH的普遍率。
图18显示了许多不同基因组位置处的杂合单核苷酸多态性(SNP)的突变等位基因分数的实例,这些突变等位基因分数通过确定MAF的倒数,并且然后应用Log base 2转换来修饰。
图19显示了使用图18所示的转换的SNP MAF数据,基于拷贝数的分割过程的示例细化。
图20包括示出各种基因的实际拷贝数以及根据仅基于覆盖范围数据的CBS过程的实施方式使用分割估计的基因拷贝数与使用图18和图19所示的细化过程估计的基因拷贝数之间的差异的表格。
本公开内容的概述
在一些方面,一种方法,包括:由包括一个或更多个计算装置的计算系统获得指示与样品中包含的多核苷酸分子相关的序列表示的序列数据,每个计算装置具有一个或更多个处理器和存储器;由计算系统通过执行比对过程来生成比对的序列表示的集合,该比对过程确定相对于参考人类基因组的一部分具有至少阈值量的同源性的一个或更多个序列表示;由计算系统通过鉴定许多比对的序列表示中不对应于参考人类基因组的靶区域的第一部分来确定脱靶序列表示的集合;由计算系统通过鉴定许多比对的序列表示中对应于参考人类基因组的靶区域的第二部分来确定中靶序列表示的集合;由计算系统确定参考人类基因组的第一区段,其中所述第一区段不包括所述靶区域;由计算系统基于对应于单个第一区段的脱靶序列表示的集合的相应子集来确定单个第一区段的第一定量量度;由所述计算系统,相对于所述单个第一区段的另外的定量量度,确定单个第一区段的第一归一化定量量度;由计算系统通过相对于针对单个第一区段的参考定量量度调整单个第一归一化定量量度来确定针对单个第一区段的第二归一化定量量度;由计算系统确定参考人类基因组的第二区段,单个第二区段包括比单个第一区段更多数量的核苷酸,并且包括多于一个单个第一区段;由计算系统基于包括在所述单个第二区段中的相应多于一个单个第一区段的所述第一归一化定量量度和所述第二归一化定量量度,确定单个第二区段的第二定量量度;以及由计算系统基于对应于单个第二区段的单个第二定量量度来确定关于单个第二区段的肿瘤细胞拷贝数的估计。
在一些方面,第一定量量度基于样品中包含的对应于单个第一区段的多核苷酸分子的相应数量来确定。
在一些方面,第一定量量度基于对应于单个第一区段的来源于样品的测序读段的相应数量来确定。
在一些方面,该方法包括由计算系统确定对应于单个第一区段的序列表示具有与靶区域的至少阈值量的同源性;以及由计算系统确定从确定单个第二覆盖范围度量中排除单个第一区段的第一定量量度。
在一些方面,该方法包括:在确定第二区段之前:由计算系统确定鸟嘌呤-胞嘧啶(GC)含量,该含量指示在对应于单个第一区段的脱靶序列表示的集合的一部分中包含的鸟嘌呤核苷酸和胞嘧啶核苷酸的数量;由计算系统确定对应于来自所述单个第一区段中的多于一个GC含量分区中的GC含量分区的序列表示的频率,所述多于一个GC含量分区中的每个GC含量分区对应于GC含量值的不同范围;由计算系统基于对应于单个第一区段中多于一个GC含量分区的序列表示的频率来确定单个第一区段的预期定量量度;以及由计算系统基于单个第一区段的预期定量量度来确定单个第一区段的GC归一化定量量度。
在一些方面,该方法包括由计算系统确定单个第一区段中的每个序列表示的可映射性评分,该可映射性评分指示人类参考基因组的多于一个部分之间的同源性量,人类参考基因组的多于一个部分的人类参考基因组的每个部分与人类参考基因组的多于一个部分的人类参考基因组的另外部分具有至少阈值量的同源性;由计算系统从所述单个第一区段中的可映射性评分的多于一个分区中确定对应于可映射性评分的分区的序列表示的频率,所述可映射性评分的多于一个分区中的每个可映射性评分的分区对应于可映射性评分的不同范围的值;由所述计算系统基于对应于所述单个第一区段中的可映射性评分的多于一个分区的序列表示的频率来确定所述单个第一区段的预期定量量度;以及由计算系统基于针对单个第一区段的预期定量量度来确定针对单个第一区段的可映射性评分归一化定量量度。
在一些方面,该方法包括:由计算系统获得训练序列数据,该训练序列数据指示从训练样品获得的另外多核苷酸分子的另外序列表示,其中训练样品从其中没有检测到拷贝数改变的个体获得;由计算系统通过进行另外比对过程来生成多个参考比对的序列表示(reference aligned sequence representations),该另外比对过程确定相对于参考人类基因组的一部分具有至少阈值量的同源性的一个或更多个另外序列表示;由计算系统通过鉴定不对应于参考人类基因组的靶区域的多个另外比对的序列表示的一部分来确定脱靶序列表示的另外的集合;以及由计算系统基于包括在单个第一区段中的脱靶序列表示的另外的集合的数量来确定单个第一区段的单个参考定量量度。
在一些方面,该方法包括:由计算系统确定对应于单个靶区域的中靶序列表示的集合中包含的中靶序列表示的相应数量;以及由计算系统基于对应于单个靶区域的中靶序列表示的相应数量来确定单个靶区域的单个另外定量量度;其中与样品相关的肿瘤细胞的拷贝数的估计是基于个体的另外定量量度。
在一些方面,参考人类基因组的第二区段基于对应于单个靶区域的单个另外定量量度来确定。
在一些方面,第一定量量度包括用于单个第一区段的第一尺寸分布度量,第一归一化定量量度或第二归一化定量量度中的至少一个对应于归一化尺寸分布度量,参考定量量度是参考尺寸分布度量,并且第二定量量度包括用于单个第二区段的第二尺寸分布度量。
在一些方面,该方法包括由计算系统确定对应于单个第一区段的单个序列表示中包含的核苷酸的数量,以生成单个第一区段的序列表示的单个尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于序列表示的相应尺寸范围,并且单个第一区段的单个尺寸分布度量指示对应于多于一个分区中的每个分区的第一区段中包含的脱靶序列表示的集合的数量;由计算系统根据相对于参考尺寸分布度量的单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;由所述计算系统基于所述单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量来确定所述单个第二区段的所述第二尺寸分布度量;以及由计算系统基于对应于单个第二区段的单个第二尺寸分布度量来确定肿瘤细胞相对于单个第二区段的拷贝数的另外估计。
在一些方面,第一定量量度包括用于单个第一区段的第一覆盖范围度量,第一归一化定量量度对应于第一归一化覆盖范围度量,第二归一化定量量度对应于第二归一化覆盖范围度量,参考定量量度是参考覆盖范围度量,并且第二定量量度包括用于单个第二区段的第二覆盖范围度量。
在一些方面,该方法包括由计算系统确定对应于单个第一区段的多个序列表示,以生成单个第一区段的单个第一覆盖范围度量;由所述计算系统根据所述单个第一覆盖范围度量确定所述单个第一区段的所述第一归一化覆盖范围度量;由所述计算系统根据所述单个第一覆盖范围度量相对于所述参考覆盖范围度量来确定所述单个第一区段的所述第二归一化覆盖范围度量;以及由所述计算系统基于所述第一归一化覆盖范围度量和所述第二归一化覆盖范围度量来确定所述单个第二区段的所述第二覆盖范围度量;其中肿瘤细胞相对于单个第二区段的拷贝数的估计是基于对应于单个第二区段的单个第二覆盖范围度量。
在一些方面,肿瘤细胞相对于单个第二区段的拷贝数的估计是基于对应于单个第二区段的单个第二覆盖范围度量。
在一些方面,定量量度包括单个第一区段的第一尺寸分布度量和第一覆盖范围度量;所述第一归一化定量量度和所述第二归一化定量量度对应于归一化尺寸分布度量或归一化覆盖范围度量中的至少一个;参考定量量度包括参考尺寸分布度量和参考覆盖范围度量;并且第二定量量度包括针对单个第二区段的第二尺寸分布度量和第二覆盖范围度量。
在一些方面,该方法包括由计算系统通过确定对应于单个第一区段的单个序列表示中包含的核苷酸的数量来确定单个序列表示的尺寸;由计算系统基于所述单个序列表示的相应尺寸生成针对所述单个第一区段的第一尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于序列表示的相应尺寸范围,并且针对单个第一区段的单个尺寸分布度量指示对应于所述多于一个分区中的每个分区的所述第一区段中包含的脱靶序列表示的集合的数量;由计算系统根据相对于参考尺寸分布度量的单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;以及由计算系统基于单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量来确定单个第二区段的第二尺寸分布度量。
在一些方面,该方法包括由计算系统确定对应于单个第一区段的多个序列表示,以生成单个第一区段的单个第一覆盖范围度量;由所述计算系统根据所述单个第一覆盖范围度量确定所述单个第一区段的所述第一归一化覆盖范围度量;由所述计算系统根据所述单个第一覆盖范围度量相对于所述参考覆盖范围度量来确定所述单个第一区段的所述第二归一化尺寸分布度量;以及由计算系统基于第一归一化覆盖范围度量和第二归一化覆盖范围度量来确定单个第二区段的第二覆盖范围度量。
在一些方面,肿瘤细胞相对于单个第二区段的拷贝数的估计是由计算系统通过基于第二尺寸分布度量确定肿瘤细胞相对于单个第二区段的拷贝数的第一估计和基于第二覆盖范围度量确定肿瘤细胞相对于单个第二区段的拷贝数的第二估计而生成的肿瘤细胞相对于单个第二区段的拷贝数的总估计(aggregate estimate)。
在一些方面,该方法包括:由计算系统确定与样品相关的野生型等位基因的数量相对于与样品相关的突变等位基因的数量的比率;以及由计算系统基于该比率确定杂合单核苷酸多态性(SNP)度量。
在一些方面,该方法包括由计算系统基于SNP度量确定样品的肿瘤分数的另外估计;以及由计算系统基于SNP度量确定与样品相关的肿瘤细胞的拷贝数的另外估计。
在一些方面,该方法包括由计算系统确定对应于似然函数的模型的参数,该似然函数产生与样品相关的肿瘤细胞的拷贝数的估计;其中所述模型的参数对应于肿瘤细胞相对于所述单个第二区段的拷贝数的所述单个估计的至少一部分,并且对应于所述样品的肿瘤分数的估计。
在一些方面,模型的参数对应于一个或更多个SNP度量,一个或更多个SNP度量的单个SNP度量与突变等位基因的数量相对于野生型等位基因的数量的相应比率相关。
在一些方面,单个第一区段的至少一部分包括参考人类基因组的约30,000个核苷酸至约150,000个核苷酸。
在一些方面,单个第二区段的至少一部分包括参考人类基因组的至少约100万个核苷酸至约1000万个核苷酸;并且第二区段由一个或更多个循环二进制分割过程确定。
在某些方面,样品来源于受试者的组织。
在一些方面,样品来源于从受试者获得的流体。
在一些方面,该方法包括由计算系统基于单个第二定量度量来确定对样品的肿瘤分数的估计。
在一些方面,样品的肿瘤分数的估计和肿瘤细胞相对于单个第二区段的拷贝数的估计基于:观察到的定量量度=2*(1-TF)+n*TF来确定,其中n是肿瘤细胞拷贝数,并且TF是样品的肿瘤分数;并且其中所观察到的定量量度包括所述第二定量量度的至少一部分。
在一些方面,该方法包括由计算系统确定对应于单个第一区段并且对应于一个或更多个单核苷酸多态性(SNP)的多个序列表示;以及由计算系统基于对应于单个SNP的序列表示的数量来确定单个SNP的突变等位基因分数。
在一些方面,参考人类基因组的第二区段基于单个第一区段的突变等位基因分数来确定。
在某些方面,一个或更多个SNP对应于杂合种系SNP。
在一些方面,一个或更多个SNP对应于一种或更多种类型的癌症的驱动突变。
在一些方面,该方法包括由计算系统执行基于第二归一化定量量度的循环二进制分割过程的第一实现,以确定参考人类基因组的第二区段的第一估计;以及由计算系统基于单个第一区段的突变等位基因分数执行循环二进制分割过程的第二实现,以确定参考人类基因组的第二区段的第二估计。
在一些方面,计算系统包括:一个或更多个硬件处理器;以及一个或更多个非暂时性计算机可读存储介质,其包括计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的操作:获得指示与样品中包含的多核苷酸分子相关的序列表示的序列数据;通过执行比对过程生成比对的序列表示的集合,该比对过程确定相对于参考人类基因组的一部分具有至少阈值量同源性的一个或更多个序列表示;通过鉴定许多比对的序列表示中不对应于参考人类基因组的靶区域的第一部分来确定脱靶序列表示的集合;通过鉴定许多比对的序列表示中对应于参考人类基因组的靶区域的第二部分来确定中靶序列表示的集合;确定所述参考人类基因组的第一区段,其中所述第一区段不包括所述靶区域;基于对应于单个第一区段的脱靶序列表示的集合的相应子集,确定单个第一区段的第一定量量度;相对于单个第一区段的另外定量量度确定单个第一区段的第一归一化定量量度;通过相对于针对单个第一区段的参考定量量度调整单个第一归一化定量量度来确定针对单个第一区段的第二归一化定量量度;确定参考人类基因组的第二区段,单个第二片段包括比单个第一区段更多数量的核苷酸,并且包括多于一个单个第一区段;基于单个第二区段中包含的相应多于一个单个第一区段的第一归一化定量量度和第二归一化定量量度,确定用于单个第二区段的第二定量量度;以及基于对应于单个第二区段的单个第二定量量度来确定肿瘤细胞关于各个第二区段的拷贝数的估计。
在一些方面,第一定量量度基于样品中包含的对应于单个第一区段的多核苷酸分子的相应数量来确定。
在一些方面,第一定量量度基于对应于单个第一区段的来源于样品的测序读段的相应数量来确定。
在一些方面,另外的定量量度对应于第一区段的序列表示的中位数。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器执行时,使得一个或更多个硬件处理器执行包括以下的另外的操作:在确定第二区段之前:确定单个第一区段中的每个序列表示的可映射性评分,所述可映射性评分指示人类参考基因组的多于一个部分之间的同源性量,人类参考基因组的多于一个部分的人类参考基因组的每个部分与人类参考基因组的多于一个部分的人类参考基因组的另外部分具有至少阈值量的同源性;从单个第一区段中的多于一个可映射性评分分区确定对应于可映射性评分分区的序列表示的频率,所述多于一个可映射性评分分区中的每个可映射性评分分区对应于可映射性评分的不同范围的值;基于对应于单个第一区段中的多于一个可映射性评分分区的序列表示的频率,确定单个第一区段的预期定量量度;以及基于针对单个第一区段的预期定量量度来确定针对单个第一区段的可映射性评分归一化的定量量度。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:在确定第二区段之前:确定鸟嘌呤-胞嘧啶(GC)含量,该含量指示对应于单个第一区段的脱靶序列表示的集合的一部分中包含的鸟嘌呤核苷酸和胞嘧啶核苷酸的数量;确定对应于来自所述单个第一区段中的多于一个GC含量分区中的GC含量分区的序列表示的频率,所述多于一个GC含量分区中的每个GC含量分区对应于GC含量值的不同范围;基于对应于单个第一区段中多于一个GC含量分区的序列表示的频率,确定单个第一区段的预期定量量度;以及基于针对单个第一区段的预期定量量度来确定针对单个第一区段的GC归一化定量量度。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:确定对应于单个第一区段的序列表示与靶区域具有至少阈值量的同源性;以及确定从确定单个第二覆盖范围度量中排除单个第一区段的第一定量量度。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:获得指示从训练样品获得的另外多核苷酸分子的另外序列表示的训练序列数据,其中训练样品从其中没有检测到拷贝数改变的个体获得;通过执行另外比对过程生成多个参考比对的序列表示,该另外比对过程确定一个或更多个另外序列表示,所述另外序列表示相对于参考人类基因组的一部分具有至少阈值量的同源性;通过鉴定不对应于参考人类基因组的靶区域的多个另外比对的序列表示的一部分来确定脱靶序列表示的另外的集合;以及基于单个第一区段中包含的脱靶序列表示的另外的集合的数量来确定单个第一区段的单个参考定量量度。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:确定对应于单个靶区域的中靶序列表示的集合中包含的中靶序列表示的相应数量;以及基于对应于单个靶区域的中靶序列表示的相应数量来确定单个靶区域的单个另外的定量量度;其中与样品相关的肿瘤细胞的拷贝数的估计是基于单个另外的定量量度。
在一些方面,参考人类基因组的第二区段基于对应于单个靶区域的单个另外定量量度来确定。
在一些方面,第一定量量度包括用于单个第一区段的第一尺寸分布度量,第一归一化定量量度或第二归一化定量量度中的至少一个对应于归一化尺寸分布度量,参考定量量度是参考尺寸分布度量,并且第二定量量度包括用于单个第二区段的第二尺寸分布度量。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:确定对应于单个第一区段的单个序列表示中包含的核苷酸的数量,以生成单个第一区段的序列表示的单个尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于序列表示的相应尺寸范围,并且单个第一区段的单个尺寸分布度量指示对应于多于一个分区中的每个分区的第一区段中包含的脱靶序列表示的集合的数量;根据相对于参考尺寸分布度量的单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;基于所述单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量来确定所述单个第二区段的所述第二尺寸分布度量;以及基于对应于单个第二区段的单个第二尺寸分布度量来确定肿瘤细胞相对于单个第二区段的拷贝数的另外估计。
在一些方面,第一定量量度包括用于单个第一区段的第一覆盖范围度量,第一归一化定量量度对应于第一归一化覆盖范围度量,第二归一化定量量度对应于第二归一化覆盖范围度量,参考定量量度是参考覆盖范围度量,并且第二定量量度包括用于单个第二区段的第二覆盖范围度量。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:确定对应于单个第一区段的序列表示的数量,以生成单个第一区段的单个第一覆盖范围度量;根据所述单个第一覆盖范围度量确定所述单个第一区段的所述第一归一化覆盖范围度量;根据所述单个第一覆盖范围度量相对于所述参考覆盖范围度量确定所述单个第一区段的所述第二归一化覆盖范围度量;以及基于所述第一归一化覆盖范围度量和所述第二归一化覆盖范围度量来确定所述单个第二区段的所述第二覆盖范围度量;其中肿瘤细胞相对于单个第二区段的拷贝数的估计是基于对应于单个第二区段的单个第二覆盖范围度量。
在一些方面,定量量度包括单个第一区段的第一尺寸分布度量和第一覆盖范围度量;所述第一归一化定量量度和所述第二归一化定量量度对应于归一化尺寸分布度量或归一化覆盖范围度量中的至少一个;参考定量量度包括参考尺寸分布度量和参考覆盖范围度量;并且第二定量量度包括针对单个第二区段的第二尺寸分布度量和第二覆盖范围度量。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:通过确定对应于单个第一区段的单个序列表示中包含的核苷酸的数量来确定单个序列表示的尺寸;基于单个序列表示的各个尺寸为单个第一区段生成第一尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于序列表示的各个尺寸范围,并且用于单个第一区段的单个尺寸分布度量指示对应于多于一个分区中的每个分区的第一区段中包含的脱靶序列表示的集合的数量;根据所述单个第一尺寸分布度量相对于所述参考尺寸分布度量来确定所述单个第一区段的归一化尺寸分布度量;以及基于单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量来确定单个第二区段的第二尺寸分布度量。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:确定对应于单个第一区段的序列表示的数量,以生成单个第一区段的单个第一覆盖范围度量;根据所述单个第一覆盖范围度量确定所述单个第一区段的所述第一归一化覆盖范围度量;根据所述单个第一覆盖范围度量相对于所述参考覆盖范围度量来确定所述单个第一区段的所述第二归一化尺寸分布度量;以及基于所述第一归一化覆盖范围度量和所述第二归一化覆盖范围度量来确定所述单个第二区段的所述第二覆盖范围度量。
在一些方面,肿瘤细胞相对于单个第二区段的拷贝数的估计是由计算系统通过基于第二尺寸分布度量确定肿瘤细胞相对于单个第二区段的拷贝数的第一估计和基于第二覆盖范围度量确定肿瘤细胞相对于单个第二区段的拷贝数的第二估计而生成的肿瘤细胞相对于单个第二区段的拷贝数的总估计。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:确定与样品相关的野生型等位基因的数量相对于与样品相关的突变等位基因的数量的比率;以及基于该比率确定杂合单核苷酸多态性(SNP)度量。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:基于SNP度量确定样品的肿瘤分数的另外估计;以及基于SNP度量确定与样品相关的肿瘤细胞拷贝数的另外估计。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:确定对应于似然函数的模型的参数,该似然函数产生与样品相关的肿瘤细胞的拷贝数的估计;其中所述模型的参数对应于相对于所述单个第二区段的肿瘤细胞拷贝数的所述单个估计的至少一部分,并且对应于所述样品的肿瘤分数的所述估计。
在一些方面,模型的参数对应于一个或更多个SNP度量,一个或更多个SNP度量的单个SNP度量与突变等位基因的数量相对于野生型等位基因的数量的相应比率相关。
在一些方面,单个第一区段的至少一部分包括参考人类基因组的约30,000个核苷酸至约150,000个核苷酸。
在一些方面,单个第二区段的至少一部分包括参考人类基因组的至少约100万个核苷酸至约1000万个核苷酸;并且第二区段由一个或更多个循环二进制分割过程确定。
在某些方面,样品来源于受试者的组织。
在一些方面,样品来源于从受试者获得的流体。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:基于单个第二定量度量确定样品的肿瘤分数的估计。
在一些方面,样品的肿瘤分数的估计和肿瘤细胞相对于单个第二区段的拷贝数的估计基于:观察到的定量量度=2*(1-TF)+n*TF来确定,其中n是肿瘤细胞拷贝数,并且TF是样品的肿瘤分数;并且其中所观察到的定量量度包括所述第二定量量度的至少一部分。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:由计算系统确定对应于单个第一区段并且对应于一个或更多个单核苷酸多态性(SNP)的多个序列表示;以及由计算系统基于对应于单个SNP的序列表示的数量来确定单个SNP的突变等位基因分数。
在一些方面,参考人类基因组的第二区段基于单个第一区段的突变等位基因分数来确定。
在某些方面,一个或更多个SNP对应于杂合种系SNP。
在一些方面,一个或更多个SNP对应于一种或更多种类型的癌症的驱动突变。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:由计算系统执行基于第二归一化定量量度的循环二进制分割过程的第一实现,以确定参考人类基因组的第二区段的第一估计;以及由计算系统基于单个第一区段的突变等位基因分数执行循环二进制分割过程的第二实现,以确定参考人类基因组的第二区段的第二估计。
在一些方面,一个或更多个计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:获得指示与样品中包含的多核苷酸分子相关的序列表示的序列数据;通过执行比对过程生成比对的序列表示的集合,该比对过程确定相对于参考人类基因组的一部分具有至少阈值量同源性的一个或更多个序列表示;通过鉴定许多比对的序列表示中不对应于参考人类基因组的靶区域的第一部分来确定脱靶序列表示的集合;通过鉴定许多比对的序列表示中对应于参考人类基因组的靶区域的第二部分来确定中靶序列表示的集合;确定所述参考人类基因组的第一区段,其中所述第一区段不包括所述靶区域;基于对应于单个第一区段的脱靶序列表示的集合的相应子集,确定单个第一区段的第一定量量度;相对于单个第一区段的另外定量量度确定单个第一区段的第一归一化定量量度;通过相对于针对单个第一区段的参考定量量度调整单个第一归一化定量量度来确定针对单个第一区段的第二归一化定量量度;确定参考人类基因组的第二区段,单个第二片段包括比单个第一区段更多数量的核苷酸,并且包括多于一个单个第一区段;基于单个第二区段中包含的相应多于一个单个第一区段的第一归一化定量量度和第二归一化定量量度,确定用于单个第二区段的第二定量量度;以及基于对应于单个第二区段的单个第二定量量度来确定肿瘤细胞关于各个第二区段的拷贝数的估计。
在一些方面,第一定量量度基于样品中包含的对应于单个第一区段的多核苷酸分子的相应数量来确定。
在一些方面,第一定量量度基于对应于单个第一区段的来源于样品的测序读段的相应数量来确定。
在一些方面,另外的定量量度对应于第一区段的序列表示的中位数。
在一些方面,一个或更多个计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:在确定第二区段之前:确定鸟嘌呤-胞嘧啶(GC)含量,该含量指示对应于单个第一区段的脱靶序列表示的集合的一部分中包含的鸟嘌呤核苷酸和胞嘧啶核苷酸的数量;确定对应于来自所述单个第一区段中的多于一个GC含量分区中的GC含量分区的序列表示的频率,所述多于一个GC含量分区中的每个GC含量分区对应于GC含量值的不同范围;基于对应于单个第一区段中多于一个GC含量分区的序列表示的频率,确定单个第一区段的预期定量量度;以及基于针对单个第一区段的预期定量量度来确定针对单个第一区段的GC归一化定量量度。
在一些方面,一个或更多个计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:在确定第二区段之前:确定单个第一区段中的每个序列表示的可映射性评分,所述可映射性评分指示人类参考基因组的多于一个部分之间的同源性量,人类参考基因组的多于一个部分的人类参考基因组的每个部分与人类参考基因组的多于一个部分的人类参考基因组的另外部分具有至少阈值量的同源性;从单个第一区段中的多于一个可映射性评分分区确定对应于可映射性评分分区的序列表示的频率,所述多于一个可映射性评分分区中的每个可映射性评分分区对应于可映射性评分的不同范围的值;基于对应于单个第一区段中的多于一个可映射性评分分区的序列表示的频率,确定单个第一区段的预期定量量度;以及基于针对单个第一区段的预期定量量度来确定针对单个第一区段的可映射性评分归一化的定量量度。
在一些方面,一个或更多个计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使得计算系统执行包括以下的操作:确定对应于单个第一区段的序列表示与靶区域具有至少阈值量的同源性;以及确定从确定单个第二覆盖范围度量中排除单个第一区段的第一定量量度。
在一些方面,一个或更多个计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:获得指示从训练样品获得的另外多核苷酸分子的另外序列表示的训练序列数据,其中训练样品从其中没有检测到拷贝数改变的个体获得;通过执行另外比对过程生成多个参考比对的序列表示,该另外比对过程确定一个或更多个另外序列表示,所述另外序列表示相对于参考人类基因组的一部分具有至少阈值量的同源性;通过鉴定不对应于参考人类基因组的靶区域的多个另外比对的序列表示的一部分来确定脱靶序列表示的另外的集合;以及基于单个第一区段中包含的脱靶序列表示的另外的集合的数量来确定单个第一区段的单个参考定量量度。
在一些方面,一个或更多个计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:确定对应于单个靶区域的中靶序列表示的集合中包含的中靶序列表示的相应数量;以及基于对应于单个靶区域的中靶序列表示的相应数量来确定单个靶区域的单个另外的定量量度;其中与样品相关的肿瘤细胞的拷贝数的估计是基于单个另外的定量量度。
在一些方面,参考人类基因组的第二区段基于对应于单个靶区域的单个另外定量量度来确定。
在一些方面,第一定量量度包括用于单个第一区段的第一尺寸分布度量,第一归一化定量量度或第二归一化定量量度中的至少一个对应于归一化尺寸分布度量,参考定量量度是参考尺寸分布度量,并且第二定量量度包括用于单个第二区段的第二尺寸分布度量。
在一些方面,一个或更多个计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:确定对应于单个第一区段的单个序列表示中包含的核苷酸的数量,以生成单个第一区段的序列表示的单个尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于序列表示的相应尺寸范围,并且单个第一区段的单个尺寸分布度量指示对应于多于一个分区中的每个分区的第一区段中包含的脱靶序列表示的集合的数量;根据相对于参考尺寸分布度量的单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;基于所述单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量来确定所述单个第二区段的所述第二尺寸分布度量;以及基于对应于单个第二区段的单个第二尺寸分布度量来确定肿瘤细胞相对于单个第二区段的拷贝数的另外估计。
在一些方面,第一定量量度包括用于单个第一区段的第一覆盖范围度量,第一归一化定量量度对应于第一归一化覆盖范围度量,第二归一化定量量度对应于第二归一化覆盖范围度量,参考定量量度是参考覆盖范围度量,并且第二定量量度包括用于单个第二区段的第二覆盖范围度量。
在一些方面,一个或更多个计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:确定对应于单个第一区段的序列表示的数量,以生成单个第一区段的单个第一覆盖范围度量;根据所述单个第一覆盖范围度量确定所述单个第一区段的所述第一归一化覆盖范围度量;根据所述单个第一覆盖范围度量相对于所述参考覆盖范围度量确定所述单个第一区段的所述第二归一化覆盖范围度量;以及基于所述第一归一化覆盖范围度量和所述第二归一化覆盖范围度量来确定所述单个第二区段的所述第二覆盖范围度量;其中肿瘤细胞相对于单个第二区段的拷贝数的估计是基于对应于单个第二区段的单个第二覆盖范围度量。
在一些方面,肿瘤细胞相对于单个第二区段的拷贝数的估计是基于对应于单个第二区段的单个第二覆盖范围度量。
在一些方面,定量量度包括单个第一区段的第一尺寸分布度量和第一覆盖范围度量;所述第一归一化定量量度和所述第二归一化定量量度对应于归一化尺寸分布度量或归一化覆盖范围度量中的至少一个;参考定量量度包括参考尺寸分布度量和参考覆盖范围度量;并且第二定量量度包括针对单个第二区段的第二尺寸分布度量和第二覆盖范围度量。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:通过确定对应于单个第一区段的单个序列表示中包含的核苷酸的数量来确定单个序列表示的尺寸;基于单个序列表示的各个尺寸为单个第一区段生成第一尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于序列表示的各个尺寸范围,并且用于单个第一区段的单个尺寸分布度量指示对应于多于一个分区中的每个分区的第一区段中包含的脱靶序列表示的集合的数量;根据所述单个第一尺寸分布度量相对于所述参考尺寸分布度量来确定所述单个第一区段的归一化尺寸分布度量;以及基于单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量来确定单个第二区段的第二尺寸分布度量。
在一些方面,计算机可读存储器包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使得计算系统执行包括以下的操作:确定对应于单个第一区段的多个序列表示,以生成单个第一区段的单个第一覆盖范围度量;根据所述单个第一覆盖范围度量确定所述单个第一区段的所述第一归一化覆盖范围度量;根据所述单个第一覆盖范围度量相对于所述参考覆盖范围度量来确定所述单个第一区段的所述第二归一化尺寸分布度量;以及基于所述第一归一化覆盖范围度量和所述第二归一化覆盖范围度量来确定所述单个第二区段的所述第二覆盖范围度量。
在一些方面,肿瘤细胞相对于单个第二区段的拷贝数的估计是由计算系统通过基于第二尺寸分布度量确定肿瘤细胞相对于单个第二区段的拷贝数的第一估计和基于第二覆盖范围度量确定肿瘤细胞相对于单个第二区段的拷贝数的第二估计而生成的肿瘤细胞相对于单个第二区段的拷贝数的总估计。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使得计算系统执行包括以下的操作:确定与样品相关的野生型等位基因的数量相对于与样品相关的突变等位基因的数量的比率;以及基于该比率确定杂合单核苷酸多态性(SNP)度量。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使得计算系统执行包括以下的操作:基于SNP度量确定样品的肿瘤分数的另外估计;以及基于SNP度量确定与样品相关的肿瘤细胞拷贝数的另外估计。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:确定对应于似然函数的模型的参数,该似然函数生成与样品相关的肿瘤细胞的拷贝数的估计;其中所述模型的参数对应于相对于所述单个第二区段的肿瘤细胞拷贝数的所述单个估计的至少一部分,并且对应于所述样品的肿瘤分数的所述估计。
在一些方面,模型的参数对应于一个或更多个SNP度量,一个或更多个SNP度量的单个SNP度量与突变等位基因的数量相对于野生型等位基因的数量的相应比率相关。
在一些方面,单个第一区段的至少一部分包括参考人类基因组的约30,000个核苷酸至约150,000个核苷酸。
在一些方面,单个第二区段的至少一部分包括参考人类基因组的至少约100万个核苷酸至约1000万个核苷酸;并且第二区段由一个或更多个循环二进制分割过程确定。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:基于单个第二定量度量确定样品的肿瘤分数的估计。
在一些方面,样品的肿瘤分数的估计和肿瘤细胞相对于单个第二区段的拷贝数的估计基于:观察到的定量量度=2*(1-TF)+n*TF来确定,其中n是肿瘤细胞拷贝数,并且TF是样品的肿瘤分数;并且其中所观察到的定量量度包括所述第二定量量度的至少一部分。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:由计算系统确定对应于单个第一区段并且对应于一个或更多个单核苷酸多态性(SNP)的多个序列表示;以及由计算系统基于对应于单个SNP的序列表示的数量来确定单个SNP的突变等位基因分数。
在一些方面,参考人类基因组的第二区段基于单个第一区段的突变等位基因分数来确定。
在某些方面,一个或更多个SNP对应于杂合种系SNP。
在一些方面,一个或更多个SNP对应于一种或更多种类型的癌症的驱动突变。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:由计算系统基于第二归一化定量量度执行循环二进制分割过程的第一实现,以确定参考人类基因组的第二区段的第一估计;以及由计算系统基于单个第一区段的突变等位基因分数执行循环二进制分割过程的第二实现,以确定参考人类基因组的第二区段的第二估计。
在一些方面,一种方法,包括:由包括一个或更多个计算装置的计算系统获得指示样品中包含的多核苷酸分子的序列表示的序列数据,每个计算装置具有一个或更多个处理器和存储器;由计算系统通过执行确定一个或更多个序列表示的比对过程来生成多个比对的序列表示,该序列表示相对于参考人类基因组的一部分具有至少阈值量的同源性;由计算系统通过鉴定许多比对的序列表示中不对应于参考人类基因组的靶区域的部分来确定脱靶序列表示的集合;由所述计算系统执行多于一个分割过程以确定所述参考人类基因组的多个区段;由计算系统基于对应于参考人类基因组的单个区段的脱靶序列表示的集合的一部分确定单个区段的单个定量量度;以及由计算系统基于单个定量度量确定与样品相关的肿瘤细胞的拷贝数的多于一个估计,肿瘤细胞的拷贝数的所述多于一个估计中的单个估计对应于单个区段。
在一些方面,多于一个分割过程包括:第一分割过程,包括由计算系统确定参考人类基因组的第一区段,其中第一区段不包括靶区域;以及第二分割过程,包括由计算系统确定参考人类基因组的第二区段,单个第二区段包括比单个第一区段更多数量的核苷酸,并且包括多于一个单个第一区段。
在一些方面,单个定量量度对应于单个覆盖范围度量,并且该方法包括:由计算系统基于单个第一区段中包含的脱靶多核苷酸序列表示的集合的数量来确定参考人类基因组的单个第一区段的单个第一覆盖范围度量;由计算系统根据各个第一覆盖范围度量确定单个第一区段的归一化覆盖范围度量;以及由计算系统基于单个第二区段中包含的相应多于一个单个区段的归一化覆盖范围度量来确定参考人类基因组的单个第二区段的单个第二覆盖范围度量。
在一些方面,归一化覆盖范围度量通过以下确定:由计算系统基于相对于单个第一区段的序列表示的中位数的单个第一覆盖范围度量来确定单个第一区段的第一归一化定量量度。
在一些方面,该方法包括由计算系统基于相对于单个第一区段的参考覆盖范围度量的单个覆盖范围度量来确定单个第一区段的第二归一化定量量度,参考覆盖范围度量基于从没有检测到拷贝数变异的个体获得的样品来确定;以及由计算系统相对于针对单个第一区段的第二归一化覆盖范围度量调整单个第一归一化定量量度。
在一些方面,与样品相关的肿瘤细胞的拷贝数的估计是基于单个第二覆盖范围度量。
在一些方面,单个定量量度对应于单个尺寸分布度量,并且该方法包括:由计算系统确定单个第一区段的单个第一尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于序列表示的相应尺寸范围,并且用于单个第一区段的单个尺寸分布度量指示对应于多于一个分区中的每个分区的第一区段中包含的脱靶序列表示的集合的数量;由计算系统根据相对于参考尺寸分布度量的单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;以及由计算系统基于单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量来确定参考人类基因组的单个第二区段的单个第二尺寸分布度量。
在一些方面,与样品相关的肿瘤细胞的拷贝数的估计是基于单个第二尺寸分布度量。
在一些方面,该方法包括:由计算系统确定与样品相关的野生型等位基因的数量相对于与样品相关的突变等位基因的数量的比率;以及由计算系统基于该比率确定杂合单核苷酸多态性(SNP)度量。
在一些方面,该方法包括由计算系统基于SNP度量确定与样品相关的肿瘤细胞的拷贝数的另外估计。
在一些方面,该方法包括由计算系统基于单个定量量度来确定样品的肿瘤分数的估计。
在一些方面,肿瘤细胞的拷贝数和样品的肿瘤分数的估计基于:观察到的定量量度=2*(1-TF)+n*TF,其中n是肿瘤细胞拷贝数,并且TF是样品的肿瘤分数;并且其中观察到的定量量度包括所述定量量度的至少一部分。
在一些方面,计算系统包括:一个或更多个硬件处理器;以及一个或更多个非暂时性计算机可读存储介质,其包括计算机可读指令,所述指令当由一个或更多个硬件处理器执行时,使得一个或更多个硬件处理器执行包括以下的操作:获得指示样品中包含的多核苷酸分子的序列表示的测序数据;通过执行确定一个或更多个序列表示的比对过程生成多个比对的序列表示,该序列表示相对于参考人类基因组的一部分具有至少阈值量的同源性;通过许多比对的序列表示中鉴定不对应于参考人类基因组的靶区域的部分来确定脱靶序列表示的集合;执行多于一个分割过程以确定所述参考人类基因组的多个区段;基于对应于参考人类基因组的单个区段的脱靶序列表示的集合的一部分,确定单个区段的单个定量量度;以及基于单个定量度量确定与样品相关的肿瘤细胞的拷贝数的多于一个估计,肿瘤细胞的拷贝数的多于一个估计的单个估计对应于单个区段。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使一个或更多个硬件处理器执行包括以下的操作:通过以下执行多于一个分割过程:执行第一分割过程,包括确定参考人类基因组的第一区段,其中第一区段不包括靶区域;以及执行第二分割过程,包括确定参考人类基因组的第二区段,单个第二区段包括比单个第一区段更多数量的核苷酸,并且包括多于一个单个第一区段。
在一些方面,单个定量量度对应于单个覆盖范围度量,并且计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:通过以下确定归一化覆盖范围度量:基于相对于单个第一区段的序列表示的中位数的单个第一覆盖范围度量,确定单个第一区段的第一归一化定量量度。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:基于相对于单个第一区段的参考覆盖范围度量的单个覆盖范围度量,确定单个第一区段的第二归一化定量量度,参考覆盖范围度量基于从没有检测到拷贝数变异的个体获得的样品来确定;以及针对单个第一区段,相对于第二归一化覆盖范围度量调整单个第一归一化定量量度。
在一些方面,与样品相关的肿瘤细胞的拷贝数的估计是基于单个第二覆盖范围度量。
在一些方面,单个定量量度对应于单个尺寸分布度量,并且与样品相关的肿瘤细胞的拷贝数的估计是基于单个第二尺寸分布度量。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的操作:确定与样品相关的野生型等位基因的数量相对于与样品相关的突变等位基因的数量的比率;以及基于该比率确定杂合单核苷酸多态性(SNP)度量。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:基于SNP度量确定与样品相关的肿瘤细胞的拷贝数的另外估计。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的操作:基于单个定量量度确定样品的肿瘤分数的估计。
在一些方面,肿瘤细胞的拷贝数和样品的肿瘤分数的估计基于:观察到的定量量度=2*(1-TF)+n*TF,其中n是肿瘤细胞拷贝数,并且TF是样品的肿瘤分数;并且其中观察到的定量量度包括所述定量量度的至少一部分。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:获得指示样品中包含的多核苷酸分子的序列表示的测序数据;通过执行确定一个或更多个序列表示的比对过程生成多个比对的序列表示,该序列表示相对于参考人类基因组的一部分具有至少阈值量的同源性;通过鉴定许多比对的序列表示中不对应于参考人类基因组的靶区域的部分来确定脱靶序列表示的集合;执行多于一个分割过程以确定所述参考人类基因组的多个区段;基于对应于参考人类基因组的单个区段的脱靶序列表示的集合的一部分,确定单个区段的单个定量量度;以及基于单个定量度量确定与样品相关的肿瘤细胞的拷贝数的多于一个估计,肿瘤细胞的拷贝数的多于一个估计的单个估计对应于单个区段。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:通过以下执行多于一个分割过程:执行第一分割过程,包括确定参考人类基因组的第一区段,其中第一区段不包括靶区域;以及执行第二分割过程,包括确定参考人类基因组的第二区段,单个第二区段包括比单个第一区段更多数量的核苷酸,并且包括多于一个单个第一区段。
在某些方面,单个定量量度对应于单个覆盖范围度量;并且包括另外的计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使得计算系统执行包括以下的另外的操作:基于单个第一区段中包含的脱靶多核苷酸序列表示的集合的数量,确定参考人类基因组的单个第一区段的单个第一覆盖范围度量;根据所述单个第一覆盖范围度量确定单个第一区段的归一化覆盖范围度量;以及基于单个第二区段中包含的相应多于一个单个区段的归一化覆盖范围度量来确定参考人类基因组的单个第二区段的单个第二覆盖范围度量。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:通过以下确定归一化覆盖范围度量:基于相对于单个第一区段的序列表示的中位数的单个第一覆盖范围度量,确定单个第一区段的第一归一化定量量度。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使得计算系统执行包括以下的操作:基于相对于单个第一区段的参考覆盖范围度量的单个覆盖范围度量来确定单个第一区段的第二归一化定量量度,参考覆盖范围度量基于从没有检测到拷贝数变异的个体获得的样品来确定;以及针对单个第一区段,相对于第二归一化覆盖范围度量调整单个第一归一化定量量度。
在一些方面,与样品相关的肿瘤细胞的拷贝数的估计是基于单个第二覆盖范围度量。
在一些方面,单个定量量度对应于单个尺寸分布度量,并且包括另外的计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使得计算系统执行包括以下的另外的操作:确定单个第一区段的单个第一尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于序列表示的相应尺寸范围,并且单个第一区段的单个尺寸分布度量指示对应于多于一个分区中的每个分区的第一区段中包含的脱靶序列表示的集合的数量;根据相对于参考尺寸分布度量的单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;以及基于单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量,确定参考人类基因组的单个第二区段的单个第二尺寸分布度量。
在一些方面,与样品相关的肿瘤细胞的拷贝数的估计是基于单个第二尺寸分布度量。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使得计算系统执行包括以下的操作:确定与样品相关的野生型等位基因的数量相对于与样品相关的突变等位基因的数量的比率;以及基于该比率确定杂合单核苷酸多态性(SNP)度量。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:基于SNP度量确定与样品相关的肿瘤细胞的拷贝数的另外估计。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:基于单个定量量度确定样品的肿瘤分数的估计。
在一些方面,肿瘤细胞的拷贝数和样品的肿瘤分数的估计基于:观察到的定量量度=2*(1-TF)+n*TF,其中n是肿瘤细胞拷贝数,并且TF是样品的肿瘤分数;并且其中观察到的定量量度包括所述定量量度的至少一部分。
在一些方面,一种方法,包括:由包括一个或更多个计算装置的计算系统基于来自样品的多核苷酸分子获得包括多于一个测序读段的测序数据,每个计算装置具有一个或更多个处理器和存储器;由计算系统通过执行比对过程生成多个比对的测序读段,该比对过程确定相对于参考人类基因组的一部分具有至少阈值量的同源性的测序读段的数量的一个或更多个部分;由计算系统通过鉴定不对应于参考人类基因组的靶区域的许多比对的序列读段的一部分来确定脱靶序列读段的集合;由所述计算系统执行多于一个分割过程以确定所述参考人类基因组的多个区段;由计算系统基于对应于参考人类基因组的单个区段的脱靶测序读段的集合来确定单个区段的定量量度;以及由计算系统基于单个定量量度确定与样品相关的肿瘤细胞的拷贝数的多于一个估计,肿瘤细胞的拷贝数的多于一个估计的单个估计对应于单个区段。
在一些方面,多于一个分割过程包括:第一分割过程,包括由计算系统确定参考人类基因组的第一区段,其中第一区段不包括靶区域;以及第二分割过程,包括由计算系统确定参考人类基因组的第二区段,单个第二区段包括比单个第一区段更多数量的核苷酸,并且包括多于一个单个第一区段。
在一些方面,单个定量量度对应于单个覆盖范围度量,并且该方法包括:由计算系统基于单个第一区段中包含的脱靶测序读段的集合的数量来确定单个第一区段的单个第一覆盖范围度量;由计算系统根据单个第一覆盖范围度量确定单个第一区段的归一化覆盖范围度量;以及由计算系统基于单个第二区段中包含的相应多于一个单个区段的归一化覆盖范围度量来确定单个第二区段的单个第二覆盖范围度量。
在一些方面,归一化覆盖范围度量通过以下确定:由计算系统基于相对于与单个第一区段相关的测序读段的中位数的单个第一覆盖范围度量来确定单个第一区段的第一归一化定量量度。
在一些方面,该方法包括由计算系统基于相对于单个第一区段的参考覆盖范围度量的单个覆盖范围度量来确定单个第一区段的第二归一化定量量度,参考覆盖范围度量基于从没有检测到拷贝数变异的个体获得的样品来确定;以及由计算系统相对于针对单个第一区段的第二归一化覆盖范围度量调整单个第一归一化定量量度。
在一些方面,与样品相关的肿瘤细胞的拷贝数的估计是基于单个第二覆盖范围度量。
在一些方面,单个定量量度对应于单个尺寸分布度量,并且该方法包括:由计算系统确定单个第一区段的单个第一尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于测序读段的相应尺寸范围,并且用于单个第一区段的单个尺寸分布度量指示对应于多于一个分区中的每个分区的第一区段中包含的脱靶测序读段的集合的数量;由计算系统根据相对于参考尺寸分布度量的单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;以及由计算系统基于单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量来确定参考人类基因组的单个第二区段的单个第二尺寸分布度量。
在一些方面,与样品相关的肿瘤细胞的拷贝数的估计是基于单个第二尺寸分布度量。
在一些方面,该方法包括:由计算系统确定与样品相关的野生型等位基因的数量相对于与样品相关的突变等位基因的数量的比率;以及由计算系统基于该比率确定杂合单核苷酸多态性(SNP)度量。
在一些方面,该方法包括由计算系统基于SNP度量确定与样品相关的肿瘤细胞的拷贝数的另外估计。
在一些方面,该方法包括基于单个定量量度来确定样品的肿瘤分数的估计。
在一些方面,肿瘤细胞的拷贝数和样品的肿瘤分数的估计基于:观察到的定量量度=2*(1-TF)+n*TF,其中n是肿瘤细胞拷贝数,并且TF是样品的肿瘤分数;并且其中观察到的定量量度包括所述定量量度的至少一部分。
在一些方面,计算系统包括:一个或更多个硬件处理器;以及一个或更多个非暂时性计算机可读存储介质,包括计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使一个或更多个硬件处理器执行包括以下的操作:基于来自样品的多核苷酸分子获得包括多个测序读段的测序数据;通过执行比对过程生成多个比对的序列读段,该比对过程确定相对于参考人类基因组的一部分具有至少阈值量的同源性的测序读段的数量的一个或更多个部分;通过鉴定不对应于参考人类基因组的靶区域的许多比对的测序读段的一部分来确定脱靶序列读段的集合;执行多于一个分割过程以确定所述参考人类基因组的多个区段;基于对应于参考人类基因组的单个区段的脱靶测序读段的集合,确定单个区段的定量量度;以及基于单个定量量度确定与样品相关的肿瘤细胞的拷贝数的多于一个估计,肿瘤细胞的拷贝数的多于一个估计中的单个估计对应于单个区段。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使一个或更多个硬件处理器执行包括以下的另外的操作:通过以下执行多于一个分割过程:通过确定参考人类基因组的第一区段来执行第一分割过程,其中第一区段不包括靶区域;以及通过确定参考人类基因组的第二区段来执行第二分割过程,单个第二区段包括比单个第一区段更多数量的核苷酸,并且包括多于一个单个第一区段。
在某些方面,单个定量量度对应于单个覆盖范围度量;并且计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:基于单个第一区段中包含的脱靶多核苷酸序列表示的集合的数量,确定参考人类基因组的单个第一区段的单个第一覆盖范围度量;根据所述单个第一覆盖范围度量确定单个第一区段的归一化覆盖范围度量;以及基于单个第二区段中包含的相应多于一个单个区段的归一化覆盖范围度量来确定参考人类基因组的单个第二区段的单个第二覆盖范围度量。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:通过以下确定归一化覆盖范围度量:基于相对于与单个第一区段相关的测序读段的中位数的单个第一覆盖范围度量,确定单个第一区段的第一归一化定量量度。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:基于相对于单个第一区段的参考覆盖范围度量的单个覆盖范围度量,确定单个第一区段的第二归一化定量量度,参考覆盖范围度量基于从没有检测到拷贝数变异的个体获得的样品来确定;以及针对单个第一区段,相对于第二归一化覆盖范围度量调整单个第一归一化定量量度。
在一些方面,与样品相关的肿瘤细胞的拷贝数的估计是基于单个第二覆盖范围度量。
在一些方面,单个定量量度对应于单个尺寸分布度量;并且一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:确定单个第一区段的单个第一尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于序列表示的相应尺寸范围,并且单个第一区段的单个尺寸分布度量指示对应于多于一个分区中的每个分区的第一区段中包含的脱靶序列表示的集合的数量;根据相对于参考尺寸分布度量的单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;以及由计算系统基于单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量,确定参考人类基因组的单个第二区段的单个第二尺寸分布度量。
在一些方面,与样品相关的肿瘤细胞的拷贝数的估计是基于单个第二尺寸分布度量。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:确定与样品相关的野生型等位基因的数量相对于与样品相关的突变等位基因的数量的比率;以及基于该比率确定杂合单核苷酸多态性(SNP)度量。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:基于SNP度量确定与样品相关的肿瘤细胞的拷贝数的另外估计。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:基于单个定量量度确定样品的肿瘤分数的估计。
在一些方面,肿瘤细胞的拷贝数和样品的肿瘤分数的估计基于:观察到的定量量度=2*(1-TF)+n*TF,其中n是肿瘤细胞拷贝数,并且TF是样品的肿瘤分数;并且其中观察到的定量量度包括所述定量量度的至少一部分。
在一些方面,一个或更多个计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:基于来自样品的多核苷酸分子获得包括多个测序读段的测序数据;通过执行比对过程生成多个比对的测序读段,该比对过程确定相对于参考人类基因组的一部分具有至少阈值量的同源性的测序读段的数量的一个或更多个部分;通过鉴定不对应于参考人类基因组的靶区域的许多比对的序列读段的一部分来确定脱靶序列读段的集合;执行多于一个分割过程以确定所述参考人类基因组的多个区段;基于对应于参考人类基因组的单个区段的脱靶测序读段的集合,确定单个区段的定量量度;以及基于单个定量量度确定与样品相关的肿瘤细胞的拷贝数的多于一个估计,肿瘤细胞的拷贝数的多于一个估计中的单个估计对应于单个区段。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:通过以下执行多于一个分割过程:执行第一分割过程,包括确定参考人类基因组的第一区段,其中第一区段不包括靶区域;以及执行第二分割过程,包括确定参考人类基因组的第二区段,单个第二区段包括比单个第一区段更多数量的核苷酸,并且包括多于一个单个第一区段。
在一些方面,单个定量量度对应于单个覆盖范围度量,并且包括另外的计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使得计算系统执行包括以下的另外的操作:基于单个第一区段中包含的脱靶序列读段的集合的数量来确定单个第一区段的单个第一覆盖范围度量;根据各个第一覆盖范围度量确定单个第一区段的归一化覆盖范围度量;以及基于单个第二区段中包含的相应多于一个单个区段的归一化覆盖范围度量来确定单个第二区段的单个第二覆盖范围度量。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:通过以下确定归一化覆盖范围度量:基于相对于单个第一区段的序列表示的中位数的单个第一覆盖范围度量,确定单个第一区段的第一归一化定量量度。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使得计算系统执行包括以下的操作:基于相对于单个第一区段的参考覆盖范围度量的单个覆盖范围度量来确定单个第一区段的第二归一化定量量度,参考覆盖范围度量基于从没有检测到拷贝数变异的个体获得的样品来确定;以及针对单个第一区段,相对于第二归一化覆盖范围度量调整单个第一归一化定量量度。
在一些方面,与样品相关的肿瘤细胞的拷贝数的估计是基于单个第二覆盖范围度量。
在一些方面,单个定量量度对应于单个尺寸分布度量,并且包括另外的计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使得计算系统执行包括以下的另外的操作:确定单个第一区段的单个第一尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于序列读段的相应尺寸范围,并且单个第一区段的单个尺寸分布度量指示对应于多于一个分区中的每个分区的第一区段中包含的脱靶序列读段的集合的数量;根据相对于参考尺寸分布度量的单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;以及基于单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量,确定参考人类基因组的单个第二区段的单个第二尺寸分布度量。
在一些方面,与样品相关的肿瘤细胞的拷贝数的估计是基于单个第二尺寸分布度量。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使得计算系统执行包括以下的操作:确定与样品相关的野生型等位基因的数量相对于与样品相关的突变等位基因的数量的比率;以及基于该比率确定杂合单核苷酸多态性(SNP)度量。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:基于SNP度量确定与样品相关的肿瘤细胞的拷贝数的另外估计。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:基于单个定量量度确定样品的肿瘤分数的估计。
在一些方面,肿瘤细胞的拷贝数和样品的肿瘤分数的估计基于:观察到的定量量度=2*(1-TF)+n*TF,其中n是肿瘤细胞拷贝数,并且TF是样品的肿瘤分数;并且其中观察到的定量量度包括所述定量量度的至少一部分。
在一些方面,一种方法,包括:由包括一个或更多个计算装置的计算系统获得指示样品中包含的多核苷酸分子的测序数据,每个计算装置具有一个或更多个处理器和存储器;由计算系统通过执行确定一个或更多个多核苷酸分子的比对过程来生成多个比对的多核苷酸分子,该序列表示相对于参考人类基因组的一部分具有至少阈值量的同源性;由计算系统通过鉴定不对应于参考人类基因组的靶区域的许多比对的多核苷酸分子的一部分来确定脱靶多核苷酸分子的集合;由所述计算系统执行多于一个分割过程以确定所述参考人类基因组的多个区段;由计算系统基于对应于参考人类基因组的单个区段的脱靶多核苷酸分子的集合的一部分确定单个区段的定量量度;以及由计算系统基于单个定量量度确定与样品相关的肿瘤细胞的拷贝数的多于一个估计,肿瘤细胞的拷贝数的所述多于一个估计中的单个估计对应于单个区段。
在一些方面,多于一个分割过程包括:第一分割过程,包括由计算系统确定参考人类基因组的第一区段,其中第一区段不包括靶区域;以及第二分割过程,包括由计算系统确定参考人类基因组的第二区段,单个第二区段包括比单个第一区段更多数量的核苷酸,并且包括多于一个单个第一区段。
在一些方面,单个定量量度对应于单个覆盖范围度量,并且该方法包括:由计算系统基于单个第一区段中包含的脱靶多核苷酸分子的集合的数量来确定单个第一区段的单个第一覆盖范围度量;由计算系统根据单个第一覆盖范围度量确定单个第一区段的归一化覆盖范围度量;以及由计算系统基于单个第二区段中包含的相应多于一个单个区段的归一化覆盖范围度量来确定单个第二区段的单个第二覆盖范围度量。
在一些方面,归一化覆盖范围度量通过以下确定:由计算系统基于相对于与单个第一区段相关的多核苷酸分子的中位数的单个第一覆盖范围度量来确定单个第一区段的第一归一化定量量度。
在一些方面,该方法包括由计算系统基于相对于单个第一区段的参考覆盖范围度量的单个覆盖范围度量来确定单个第一区段的第二归一化定量量度,参考覆盖范围度量基于从没有检测到拷贝数变异的个体获得的样品来确定;以及相对于针对单个第一区段的第二归一化覆盖范围度量调整单个第一归一化定量量度。
在一些方面,与样品相关的肿瘤细胞的拷贝数的估计是基于单个第二覆盖范围度量。
在一些方面,单个定量量度对应于单个尺寸分布度量,并且该方法包括:由计算系统确定单个第一区段的单个第一尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于多核苷酸分子的相应尺寸范围,并且用于单个第一区段的单个尺寸分布度量指示对应于多于一个分区中的每个分区的第一区段中包含的脱靶多核苷酸分子的集合的数量;由计算系统根据相对于参考尺寸分布度量的单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;以及由计算系统基于单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量来确定参考人类基因组的单个第二区段的单个第二尺寸分布度量。
在一些方面,与样品相关的肿瘤细胞的拷贝数的估计是基于单个第二尺寸分布度量。
在一些方面,与样品相关的肿瘤细胞的拷贝数的估计是基于单个第二尺寸分布度量。
在一些方面,该方法包括:由计算系统确定与样品相关的野生型等位基因的数量相对于与样品相关的突变等位基因的数量的比率;以及由计算系统基于该比率确定杂合单核苷酸多态性(SNP)度量。
在一些方面,该方法包括由计算系统基于SNP度量确定与样品相关的肿瘤细胞的拷贝数的另外估计。
在一些方面,该方法包括:由计算系统基于单个定量量度来确定样品的肿瘤分数的估计。
在一些方面,肿瘤细胞的拷贝数和样品的肿瘤分数的估计基于:观察到的定量量度=2*(1-TF)+n*TF,其中n是肿瘤细胞拷贝数,并且TF是样品的肿瘤分数;并且其中观察到的定量量度包括所述定量量度的至少一部分。
在一些方面,计算系统包括:一个或更多个硬件处理器;以及一个或更多个非暂时性计算机可读存储介质,其包括计算机可读指令,所述指令当由一个或更多个硬件处理器执行时,使得一个或更多个硬件处理器执行包括以下的操作:获得指示样品中包含的多核苷酸分子的测序数据;通过执行确定一个或更多个多核苷酸分子的比对过程生成多个比对的多核苷酸分子,该多核苷酸分子相对于参考人类基因组的一部分具有至少阈值量的同源性;通过鉴定不对应于参考人类基因组的靶区域的许多比对的多核苷酸分子的一部分来确定脱靶多核苷酸分子的集合;执行多于一个分割过程以确定所述参考人类基因组的多个区段;基于对应于参考人类基因组的单个区段的脱靶多核苷酸分子的集合的一部分,确定单个区段的定量量度;以及基于单个定量量度确定与样品相关的肿瘤细胞的拷贝数的多于一个估计,肿瘤细胞的拷贝数的多于一个估计的单个估计对应于单个区段。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使一个或更多个硬件处理器执行包括以下的另外的操作:通过以下执行多于一个分割过程:执行第一分割过程,包括确定参考人类基因组的第一区段,其中第一区段不包括靶区域;以及执行第二分割过程,包括确定参考人类基因组的第二区段,单个第二区段包括比单个第一区段更多数量的核苷酸,并且包括多于一个单个第一区段。
在某些方面,单个定量量度对应于单个覆盖范围度量,并且一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:基于单个第一区段中包含的脱靶多核苷酸分子的集合的数量,确定单个第一区段的单个第一覆盖范围度量;由计算系统根据所述单个第一覆盖范围度量确定单个第一区段的归一化覆盖范围度量;以及基于单个第二区段中包含的相应多于一个单个区段的归一化覆盖范围度量来确定单个第二区段的单个第二覆盖范围度量。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:通过以下确定归一化覆盖范围度量:基于相对于与单个第一区段相关的多核苷酸分子的中位数的单个第一覆盖范围度量,确定单个第一区段的第一归一化定量量度。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:基于相对于单个第一区段的参考覆盖范围度量的单个覆盖范围度量,确定单个第一区段的第二归一化定量量度,参考覆盖范围度量基于从没有检测到拷贝数变异的个体获得的样品来确定;以及针对单个第一区段,相对于第二归一化覆盖范围度量调整单个第一归一化定量量度。
在一些方面,与样品相关的肿瘤细胞的拷贝数的估计是基于单个第二覆盖范围度量。
在一些方面,单个定量量度对应于单个尺寸分布度量;并且一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:确定单个第一区段的单个第一尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于多核苷酸分子的相应尺寸范围,并且单个第一区段的单个尺寸分布度量指示对应于多于一个分区中的每个分区的第一区段中包含的脱靶多核苷酸分子的集合的数量;根据相对于参考尺寸分布度量的单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;以及由计算系统基于单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量,确定参考人类基因组的单个第二区段的单个第二尺寸分布度量。
在一些方面,与样品相关的肿瘤细胞的拷贝数的估计是基于单个第二尺寸分布度量。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:确定与样品相关的野生型等位基因的数量相对于与样品相关的突变等位基因的数量的比率;以及基于该比率确定杂合单核苷酸多态性(SNP)度量。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:基于SNP度量确定与样品相关的肿瘤细胞的拷贝数的另外估计。
在一些方面,计算系统的一个或更多个非暂时性计算机可读存储介质包括另外的计算机可读指令,所述指令当由一个或更多个硬件处理器实施时,使得一个或更多个硬件处理器执行包括以下的另外的操作:基于单个定量量度确定样品的肿瘤分数的估计。
在一些方面,肿瘤细胞的拷贝数和样品的肿瘤分数的估计基于:观察到的定量量度=2*(1-TF)+n*TF,其中n是肿瘤细胞拷贝数,并且TF是样品的肿瘤分数;并且其中观察到的定量量度包括所述定量量度的至少一部分。
在一些方面,一个或更多个计算机可读存储介质包括计算机可读指令,所述指令包括:获得指示样品中包含的多核苷酸分子的测序数据;通过执行比对过程产生多个比对的多核苷酸分子,该比对过程确定相对于参考人类基因组的一部分具有至少阈值量的同源性的一个或更多个多核苷酸分子;通过鉴定不对应于参考人类基因组的靶区域的许多比对的多核苷酸分子的一部分来确定脱靶多核苷酸分子的集合;执行多于一个分割过程以确定所述参考人类基因组的多个区段;基于对应于参考人类基因组的单个区段的脱靶多核苷酸分子的集合的一部分,确定单个区段的定量量度;以及基于单个定量量度确定与样品相关的肿瘤细胞的拷贝数的多于一个估计,肿瘤细胞的拷贝数的多于一个估计中的单个估计对应于单个区段。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:通过以下执行多于一个分割:通过确定参考人类基因组的第一区段来执行第一分割过程,其中第一区段不包括靶区域;以及通过确定参考人类基因组的第二区段来执行第二分割过程,单个第二区段包括比单个第一区段更多数量的核苷酸,并且包括多于一个单个第一区段。
在一些方面,单个定量量度对应于单个覆盖范围度量,并且包括另外的计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使得计算系统执行包括以下的另外的操作:基于单个第一区段中包含的脱靶多核苷酸分子的集合的数量来确定单个第一区段的单个第一覆盖范围度量;根据各个第一覆盖范围度量确定单个第一区段的归一化覆盖范围度量;以及基于单个第二区段中包含的相应多于一个单个区段的归一化覆盖范围度量来确定单个第二区段的单个第二覆盖范围度量。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:通过以下确定归一化覆盖范围度量:基于相对于与单个第一区段相关的多核苷酸分子的中位数的单个第一覆盖范围度量,确定单个第一区段的第一归一化定量量度。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使得计算系统执行包括以下的操作:基于相对于单个第一区段的参考覆盖范围度量的单个覆盖范围度量来确定单个第一区段的第二归一化定量量度,参考覆盖范围度量基于从没有检测到拷贝数变异的个体获得的样品来确定;以及针对单个第一区段,相对于第二归一化覆盖范围度量调整单个第一归一化定量量度。
在一些方面,与样品相关的肿瘤细胞的拷贝数的估计是基于单个第二覆盖范围度量。
在一些方面,单个定量量度对应于单个尺寸分布度量,并且包括另外的计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使得计算系统执行包括以下的另外的操作:确定单个第一区段的单个第一尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于多核苷酸分子的相应尺寸范围,并且单个第一区段的单个尺寸分布度量指示对应于多于一个分区中的每个分区的第一区段中包含的脱靶多核苷酸分子的集合的数量;根据相对于参考尺寸分布度量的单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;以及基于单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量,确定参考人类基因组的单个第二区段的单个第二尺寸分布度量。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使得计算系统执行包括以下的操作:确定与样品相关的野生型等位基因的数量相对于与样品相关的突变等位基因的数量的比率;以及基于该比率确定杂合单核苷酸多态性(SNP)度量。
在一些方面,计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:基于SNP度量确定与样品相关的肿瘤细胞的拷贝数的另外估计。
在一些方面,一个或更多个计算机可读存储介质包括计算机可读指令,所述指令当由计算系统的一个或更多个处理器实施时,使计算系统执行包括以下的操作:基于单个定量量度确定样品的肿瘤分数的估计。
在一些方面,肿瘤细胞的拷贝数和样品的肿瘤分数的估计基于:观察到的定量量度=2*(1-TF)+n*TF,其中n是肿瘤细胞拷贝数,并且TF是样品的肿瘤分数;并且其中观察到的定量量度包括所述定量量度的至少一部分。
定义
为了更容易地理解本公开内容,以下首先定义某些术语。以下术语和其他术语的另外定义可通过说明书进行阐述。如果下面阐述的术语的定义与通过引用并入的申请或专利中的定义不一致,则本申请中阐述的定义应该用于理解该术语的含义。
如本说明书和所附权利要求书中使用的,除非上下文另有明确指示,否则单数形式“一(a/an)”和“该(the)”包括复数的指代物。因此,例如,提及“一种(a)方法”包括一种或更多种方法和/或本文描述的类型的和/或对本领域普通技术人员而言在阅读本公开内容等后将变得明显的步骤。
还应当理解,本文使用的术语仅为了描述特定实施的目的,并且不被意图是限制性的。此外,除非另外定义,否则本文使用的所有技术术语和科学术语具有与本公开内容所属的领域的普通技术人员所通常理解的相同的含义。在描述和要求保护这些方法、计算机可读介质和系统时,将根据下面阐述的定义使用下面的术语及其语法变体。
约:如本文所用的,应用于一个或更多个感兴趣的值或要素的“约”或“大约”是指与所述参考值或要素相似的值或要素。在某些实施方式中,术语“约”或“大约”是指在所述参考值或要素的任一方向上(大于或小于)落在25%、20%、19%、18%、17%、16%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%或更小的范围内的值或要素,除非另有说明或从上下文明显(除非该数目将超过可能值或要素的100%)。
施用:如本文所用,向受试者“施用(administer)”或“施用(administering)”治疗剂(例如,免疫治疗剂)是指给予、提供组合物或使组合物与受试者接触。施用可以通过许多途径中的任何一种来完成,包括例如表面(topical)、口服、皮下、肌内、腹膜内、静脉内、鞘内和皮内。
衔接子:如本文所用,“衔接子”是指可以是至少部分双链的并用于连接给定样品核酸分子的任一末端或两个末端的短核酸(例如,长度小于约500个核苷酸、小于约100个核苷酸或小于约50个核苷酸)。衔接子可以包含允许扩增在两个末端侧翼均为衔接子的核酸分子的引物结合位点,和/或测序引物结合位点,包括用于测序应用诸如各种下一代测序(NGS)应用的引物结合位点。衔接子还可以包含对于捕获探针,诸如附接至流通池支持物等等的寡核苷酸的结合位点。衔接子还可以包含如本文描述的核酸标签。核酸标签可以相对于扩增引物和测序引物结合位点定位,使得核酸标签被包含在给定的核酸分子的扩增子和序列读段中。相同或不同的衔接子可以连接至核酸分子的相应末端。在一些实施方式中,除了核酸标签不同之外,相同的衔接子连接到核酸分子的相应末端。在一些实施方式中,衔接子是Y形衔接子,其中一个末端是如本文描述的平末端或加尾的以便连接至核酸分子,该核酸分子也是平末端或用一个或更多个互补核苷酸加尾的。在又其他示例实施方式中,衔接子是钟形衔接子,包含平末端或加尾的末端以便连接至待分析的核酸分子。衔接子的其他实例包括T加尾(T-tailed)和C加尾(C-tailed)衔接子。
比对:如本文所用,“比对(alignment)”或“比对(align)”是指确定至少两个序列表示是否具有至少阈值量的同源性。在一个或更多个实例中,同源性的阈值量可以是至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、至少约99.5%或至少约99.9%。在两个序列表示至少具有阈值量的同源性的情况下,这两个序列表示可以被称为“比对的”。
扩增:如本文所用,核酸上下文中的“扩增(amplify)”或“扩增(amplification)”是指从少量多核苷酸(例如,单个多核苷酸分子)开始产生多拷贝的多核苷酸或多核苷酸的一部分,其中扩增产物或扩增子通常是可检测的。多核苷酸的扩增包括各种化学和酶促过程。
条形码:如本文所用,核酸上下文中的“条形码”或“分子条形码”是指包含可用作分子标识符的序列的核酸分子。例如,在下一代测序(NGS)文库制备过程中,可以将单个“条形码”序列添加到每个DNA片段,以便在最终数据分析之前可以对每个读段进行鉴定和分选。
癌症类型:如本文使用的,“癌症类型”是指由例如组织病理学定义的癌症的类型或亚型。癌症类型可以由任何常规标准来定义,诸如基于给定组织中的发生(例如,血癌、中枢神经系统(CNS)癌、脑癌、肺癌(小细胞和非小细胞)、皮肤癌、鼻癌、喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、乳腺癌、前列腺癌、卵巢癌、肺癌、肠癌、软组织癌、神经内分泌癌、胃食管癌、头颈癌、妇科癌症、结肠直肠癌、尿路上皮癌、固态癌、异质癌、同质癌)、未知原发性起源的癌症等,和/或相同细胞谱系的癌症(例如,上皮癌(carcinoma)、肉瘤、淋巴瘤、胆管癌、白血病、间皮瘤、黑色素瘤或胶质母细胞瘤)和/或显示癌症标志物诸如Her2、CA15-3、CA19-9、CA-125、CEA、AFP、PSA、HCG、激素受体和NMP-22的癌症。癌症还可以通过分期(例如,1、2、3或4期)和是否为原发性或继发性起源来分类。
载波信号:如本文所用,“载波信号”是指能够存储、编码或携带供机器1100执行的暂时性或非暂时性指令1102的任何无形介质,并且包括数字或模拟通信信号或促进这样的指令1102的通信的其他无形介质。指令1102可以经由网络接口装置使用暂时性或非暂时性传输介质并使用多个熟知传输协议中的任何一个经网络1134发送或接收。
无细胞核酸:如本文所用,“无细胞核酸”是指不包含在细胞内或不以其他方式与细胞结合的核酸,或在一些实施方式中,是指在去除完整细胞后保留在样品中的核酸。无细胞核酸可以包括,例如,来源于来自受试者的体液(例如,血液、血浆、血清、尿液、脑脊液(CSF)等)的所有未包封的核酸。无细胞核酸包括DNA(cfDNA)、RNA(cfRNA)及其杂合体,包括基因组DNA、线粒体DNA、循环DNA、siRNA、miRNA、循环RNA(cRNA)、tRNA、rRNA、小核仁RNA(snoRNA)、Piwi-相互作用RNA(piRNA)、长非编码RNA(长ncRNA)和/或这些的任一种的片段。无细胞核酸可以是双链、单链或其杂合体。无细胞核酸可以通过分泌或细胞死亡程序,例如细胞坏死、凋亡等等,释放到体液中。一些无细胞核酸从癌细胞释放到体液中,例如循环肿瘤DNA(ctDNA)。其他从健康细胞释放。ctDNA可以是未包封裹的肿瘤衍生的片段化DNA。无细胞核酸可以具有一种或更多种表观遗传修饰,例如,无细胞核酸可以被乙酰化、5-甲基化、泛素化、磷酸化、类泛素化(sumoylated)、核糖基化和/或瓜氨酸化。
细胞核酸:如本文所用,“细胞核酸”是指至少在从受试者采集或收集样品时被置于一个或更多个细胞内的核酸,即使这些核酸随后作为给定分析过程的一部分被取出。
通信网络:如本文所用,“通信网络”是指网络114、1034的一个或更多个部分,其可以是ad hoc网络、内部网、外部网、虚拟专用网(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、互联网、互联网的一部分、公共交换电话网(PSTN)的一部分、普通老式电话服务(POTS)网络、蜂窝电话网络、无线网络、网络、另一种类型的网络或两个或更多个这样的网络的组合。例如,网络114、1034或网络的一部分可以包括无线或蜂窝网络,并且耦合可以是码分多址(CDMA)连接、全球移动通信系统(GSM)连接或其他类型的蜂窝或无线耦合。在该实例中,耦合可以实现各种类型的数据传输技术中的任何一种,诸如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线电服务(GPRS)技术、GSM演进的增强数据速率(EDGE)技术、包括3G的第三代合作伙伴项目(3GPP)、第四代无线(4G)网络、通用移动电信系统(UMTS)、高速分组接入(HSPA)、微波存取的全球互操作性(WiMAX)、长期演进(LTE)标准、由各种标准制定组织定义的其他、其他远程协议或其他数据传输技术。
置信区间:如本文所用,“置信区间”是指如此定义的值的范围,使得给定参数的值以特定概率处于该值范围内。
对照样品:如本文所用,“对照样品”或“参考样品”是指获自没有已知拷贝数变异的个体的样品。
拷贝数:如本文所用,可以包括“整数拷贝数”,其是对应于肿瘤细胞或非肿瘤细胞中的拷贝数的整数。拷贝数还可以包括“观察的拷贝数”,它是代表肿瘤细胞和非肿瘤细胞混合物的拷贝数的实际数目。
拷贝数扩增:如本文所用,“拷贝数扩增”是指相对于对照群体基因组内基因组区域的重复数,个体基因组内基因组区域的重复数增加。
拷贝数缺失:如本文所用,“拷贝数缺失”是指相对于对照群体基因组内基因组区域的重复数,个体基因组内基因组区域的重复数减少。
拷贝数变体:如本文所用,“拷贝数变体”、“CNV”或“拷贝数变异”是指基因组的某些部分重复,并且基因组中重复的数目在所考虑的群体中的个体之间变化,以及在个体的两种状况或状态之间变化的现象(例如,在接受治疗之前和之后,个体中的CNV可以变化)。
覆盖范围:如本文所用,“覆盖范围(coverage)”或“覆盖范围度量”是指对应于参考序列的特定基因组区域的核酸分子或测序读段的数量。
脱氧核糖核酸或核糖核酸:如本文所用,“脱氧核糖核酸”或“DNA”是指在糖部分的2’-位置具有氢基团的天然或修饰的核苷酸。DNA可以包括包含四种类型的核苷酸碱基的核苷酸链:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)。如本文所用,“核糖核酸”或“RNA”是指在糖部分的2’-位置具有羟基的天然或修饰的核苷酸。RNA可以包括包含四种类型的核苷酸的核苷酸链:A、尿嘧啶(U)、G和C。如本文所用,术语“核苷酸”是指天然核苷酸或修饰的核苷酸。核苷酸的某些对以互补方式彼此特异性结合(称为互补碱基配对)。在DNA中,腺嘌呤(A)与胸腺嘧啶(T)配对并且胞嘧啶(C)与鸟嘌呤(G)配对。在RNA中,腺嘌呤(A)与尿嘧啶(U)配对并且胞嘧啶(C)与鸟嘌呤(G)配对。当第一核酸链与由与第一链中的核苷酸互补的核苷酸构成的第二核酸链结合时,两条链结合形成双链。如本文所用,“核酸测序数据”、“核酸测序信息”、“序列信息”、“序列表示(sequence representation)”、“核酸序列”、“核苷酸序列”、“基因组序列”、“遗传序列”、“片段序列”、“测序读段”或“核酸测序读段”表示指示核酸诸如DNA或RNA的分子(例如,全基因组、全转录组、外显子组、寡核苷酸、多核苷酸或片段)中核苷酸碱基(例如,腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶或尿嘧啶)顺序和身份的任何信息或数据。应当理解,本教导设想了使用包括但不限于以下的所有可用的各种技术、平台或科技(technologies)获得的序列信息:毛细管电泳、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸鉴定系统、焦磷酸测序、基于离子或pH的检测系统以及基于电子特征(electronic signature)的系统。
驱动突变:如本文所用,“驱动突变(driver mutation)”是指驱动癌症进展的突变。
免疫治疗:如本文所用,“免疫治疗”是指用一种或更多种以下的剂治疗,所述剂起作用以刺激免疫系统,从而杀伤癌细胞或至少抑制癌细胞的生长,并且优选地降低癌症的进一步增长、降低癌症的尺寸和/或消除癌症。一些这样的剂与呈递在癌细胞上的靶结合;一些与呈递到免疫细胞上而不是癌细胞上的靶结合;一些与呈递在癌细胞和免疫细胞二者上的靶结合。这样的剂包括但不限于,检查点抑制剂和/或抗体。检查点抑制剂是免疫系统的途径的抑制剂,其维持自我耐受性并且调节外周组织中生理免疫响应的持续时间和幅度,以最小化旁组织损伤(参见例如,Pardoll,Nature Reviews Cancer 12,252–264(2012))。示例性剂包括针对以下中任何一种的抗体:PD-1、PD-2、PD-L1、PD-L2、CTLA-40、OX40、B7.1、B7He、LAG3、CD137、KIR、CCR5、CD27或CD40。其他示例性剂包括促炎性细胞因子,诸如IL-1β、IL-6和TNF-α。其他示例性剂是针对肿瘤活化的T细胞,诸如通过表达嵌合抗原而活化的T细胞,所述嵌合抗原靶向由该T细胞识别的肿瘤抗原。
插入/缺失(Indel):如本文所用,“插入/缺失”是指涉及受试者基因组中核苷酸插入或缺失的突变。
检测限(LoD):如本文所用,“检测限”是指可以通过给定的测定或分析方法测量的样品中物质(例如核酸)的最小量。
机器可读介质:如本文所用,“机器可读介质”是指能够临时或永久存储指令1102和数据的组件、装置或其他有形介质,并且可以包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、缓冲存储器、闪存、光介质、磁介质、高速缓冲存储器、其他类型的存储器(例如,可擦除可编程只读存储器(EEPROM))和/或其任何合适的组合。术语“机器可读介质”可以被理解为包括能够存储指令1102的单个介质或多于一个介质(例如,集中式或分布式数据库,或相关联的高速缓存和服务器)。术语“机器可读介质”还应被理解为包括能够存储供机器1100执行的指令1102(例如,代码)的任何介质或多于一种介质的组合,使得当指令1102由机器1100的一个或更多个处理器1104执行时,使得机器1100执行本文描述的任何一种或更多种方法。因此,“机器可读介质”是指单个存储设备或装置,以及包括多于一个存储设备或装置的“基于云”的存储系统或存储网络。术语“机器可读介质”不包括信号本身。
可映射性评分:如本文所用,“可映射性评分”是指指示参考序列的两个区域之间的同源性量的值。随着相应区域之间同源性的量增加,两个相应区域的可映射性评分可以具有增加的值。此外,随着相应区域之间同源性的量减少,两个相应区域的可映射性评分可以具有减少的值。同源性的量可以通过确定区域和参考序列之间未对齐的量来确定。随着可映射性评分增加,未对齐的区域的概率降低。此外,随着可映射性评分降低,未对齐的区域的概率增加。
最大MAF:如本文所用,“最大MAF(maximum MAF)”或“最大MAF(max MAF)”是指样品中所有体细胞变体的最大MAF。
次要等位基因频率:如本文所用,“次要等位基因频率”指在给定核酸群体诸如从受试者获得的样品中次要等位基因(例如,不是最常见的等位基因)出现的频率。处于低次要等位基因频率的遗传变异在样品中可以具有相对低的存在频率。
突变等位基因分数:如本文所用,“突变等位基因分数”、“突变剂量”或“MAF”是指在给定样品中给定基因组位置含有等位基因改变或突变的核酸分子的分数。MAF通常被表示为分数或百分比。例如,MAF可以小于给定位点存在的所有体细胞变体或等位基因的约0.5、0.1、0.05或0.01%(即,小于约50%、10%、5%或1%)。
突变:如本文所用,“突变”是指从已知参考序列的变异,并且包括突变,诸如单核苷酸变体(SNV)、拷贝数变体或变异(CNV)/畸变、插入或缺失(插入/缺失)、基因融合、颠换、易位、移码、复制、重复扩增和表观遗传变体。突变可以是种系突变或体细胞突变。在一些实例中,用于比较目的的参考序列是提供测试样品的受试者的物种的野生型基因组序列,通常是人类基因组。
突变调用器:如本文所用,“突变调用器”是指用于鉴定测试样品数据(例如,从受试者获得的序列信息)中的突变的算法(以软件或其他计算机实现的方式实现)。
突变计数:如本文所用,“突变计数(mutation count)”或“突变计数(mutationalcount)”是指核酸样品的整个基因组或外显子组或靶向区域中的体细胞突变的数目。
赘生物:如本文使用的,术语“赘生物”和“肿瘤”可互换使用。它们是指受试者体内细胞的异常生长。赘生物或肿瘤可以是良性的、潜在恶性的或恶性的。恶性肿瘤被称为癌症或癌性肿瘤。
下一代测序:如本文使用的,“下一代测序”或“NGS”是指与传统的基于Sanger和毛细管电泳的方法相比具有增加的通量的测序技术,例如,具有一次产生数十万个相对较小的测序读段的能力。下一代测序技术的一些实例包括但不限于合成测序、连接测序和杂交测序。
核酸标签:如本文所用,“核酸标签”是指用于区分来自不同样品的核酸(例如,代表样品索引),或同一样品中不同类型或经过不同处理的不同核酸分子(例如,代表分子条形码)的短核酸(例如,长度小于约500个、约100个、约50个或约10个核苷酸)。核酸标签包含预定的、固定的、非随机的、随机的或半随机的寡核苷酸序列。这种核酸标签可用于标记不同的核酸分子或不同的核酸样品或子样品。核酸标签可以是单链的、双链的或至少部分双链的。核酸标签任选地具有相同的长度或不同的长度。核酸标签还可以包括具有一个或更多个平末端的双链分子,包括5’或3’单链区域(例如,突出端),和/或在给定分子内的其他位置包括一个或更多个其他单链区域。核酸标签可以附接在其他核酸(例如,待扩增和/或测序的样品核酸)的一个末端或两个末端。核酸标签可以被解码以揭示信息,诸如给定核酸的样品来源、形式或处理。例如,核酸标签也可用于实现汇集和/或并行处理包含带有不同分子条形码和/或样品索引的核酸的多于一个样品,其中核酸随后通过检测(例如,读取)核酸标签被解卷积。核酸标签也可以称为标识符(例如分子标识符、样品标识符)。另外地或可选地,核酸标签可以用作分子标识符(例如,用于区分同一样品或子样品中不同亲本分子的不同分子或扩增子)。例如,这包括对给定样品中的不同核酸分子独特地加标签,或对这些分子非独特地加标签。在非独特地加标签应用的情况下,可以使用有限数目的标签(即分子条形码)来对每个核酸分子加标签,使得可以基于它们的内源序列信息(例如,它们映射到所选参考序列的起始和/或终止位置、序列一个末端或两个末端的子序列和/或序列长度)联合至少一个分子条形码来区分不同的分子。使用足够数目的不同分子条形码,以使得任何两个分子可能具有相同的内源序列信息(例如,起始和/或终止位置、序列的一个末端或两个末端的子序列和/或长度)以及还具有相同的分子条形码的概率低(例如,小于约10%、小于约5%、小于约1%或小于约0.1%)。
脱靶区域:如本文所用,“脱靶区域”是指在参考序列的靶区域之外的参考序列的基因组区域。例如,脱靶区域可以包括对应于用于捕获感兴趣的多核苷酸的一个或更多个探针的参考序列的区域之外的参考序列的区域。
脱靶序列表示:如本文所用,“脱靶序列表示”是指相对于参考序列的靶区域之外的基因组区域具有至少阈值量的同源性的多核苷酸分子或测序读段。脱靶序列表示可以指与脱靶区域对齐的多核苷酸分子和序列读段。同源性的阈值量可以是至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、至少约99.5%或至少约99.9%。
中靶序列表示:如本文所用,“中靶序列表示”是指相对于参考序列的靶区域具有至少阈值量的同源性的多核苷酸或测序读段。中靶序列表示可以指与中靶区域对齐的多核苷酸分子和序列读段。同源性的阈值量可以是至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、至少约99.5%或至少约99.9%。
多核苷酸:如本文使用的,“多核苷酸”、“核酸”、“核酸分子”、“多核苷酸分子”或“寡核苷酸”是指通过核苷间连接进行连接的核苷(包括脱氧核糖核苷、核糖核苷或它们的类似物)的线性聚合物。多核苷酸可以包含至少三种核苷。寡核苷酸的尺寸范围通常从几个单体单元例如3-4个到几百个单体单元。除非另外注明,否则每当多核苷酸以字母序列诸如“ATGCCTG”表示时,应该理解,该核苷酸从左到右是5'→3'的顺序,并且在DNA的情况下,“A”表示脱氧腺苷,“C”表示脱氧胞苷,“G”表示脱氧鸟苷,并且“T”表示脱氧胸苷。字母A、C、G和T可以用于指碱基本身、指包含该碱基的核苷或核苷酸,这是本领域的标准。
探针:如本文所用,“探针”是指包含功能性(functionality)的多核苷酸。功能性可以是可检测的标记(荧光)、结合部分(生物素)或固体支持物(磁性吸引颗粒或芯片)。探针可以包括与靶核酸序列杂交的单链DNA/RNA多核苷酸或双链DNA多核苷酸(例如,探针,Agilent Technologies)。使用探针的序列捕获通常部分地取决于与探针的序列互补(或几乎互补)的靶核酸序列的至少一部分中连续核苷酸的数量。在一些实例中,探针可以对应于驱动突变。
处理:如本文所用,术语“处理”、“计算”和“比较”可互换使用。在某些应用中,这些术语指确定差异,例如,数量或序列的差异。例如,可以处理基因表达、拷贝数变异(CNV)、插入缺失和/或单核苷酸变体(SNV)值或序列。
处理器:如本文所用,“处理器”是指根据控制信号(例如,“命令”、“操作码”、“机器码”等)操纵数据值并产生用于操作机器的相应输出信号的任何电路或虚拟电路(由在实际处理器上执行的逻辑模拟的物理电路)。处理器可以是例如CPU、RISC处理器、CISC处理器、GPU、DSP、ASIC、RFIC或其任何组合。处理器还可以是具有两个或更多个独立处理器(有时称为“内核”)的多核处理器,这些处理器可以同时执行指令。
定量量度:如本文所用,“定量量度”是指通过分析序列表示的特征而生成的数值。定量量度可以包括覆盖范围度量和尺寸分布度量。定量量度还可以包括与对应于靶区域的参考序列的基因组区域相关的种系单核苷酸多态性的突变等位基因频率。
参考序列:如本文使用的,“参考序列”是指用于与实验确定的序列进行比较的目的的已知序列。例如,已知序列可以是整个基因组、染色体或其任何区段。参考序列可以包括至少约20个、至少约50个、至少约100个、至少约200个、至少约250个、至少约300个、至少约350个、至少约400个、至少约450个、至少约500个、至少约1000个,或更多个核苷酸。参考序列可以与基因组或染色体的单个连续序列比对,或者可以包括与基因组或染色体的不同区域比对的非连续区段。示例性参考序列包括例如人类基因组参考序列,诸如hG19和hG38。
样品:如本文使用的,“样品”意指能够通过本文公开的方法和/或系统分析的任何事物。
灵敏度:如本文所用,“灵敏度”是指在给定的MAF和覆盖范围检测到单核苷酸变体、插入和缺失的存在的概率,以及在给定的肿瘤分数和覆盖范围检测到拷贝数变体存在的概率。
测序:如本文使用的,“测序”是指用于确定生物分子例如核酸诸如DNA或RNA的序列(例如,单体单元的身份和顺序)的许多技术中的任一种。示例测序方法包括但不限于靶向测序、单分子实时测序、外显子或外显子组测序、内含子测序、基于电子显微术的测序、小组测序(panel sequencing)、晶体管介导的测序、直接测序、随机鸟枪法测序、Sanger双脱氧终止测序、全基因组测序、杂交测序、焦磷酸测序、毛细管电泳、双链体测序、循环测序、单碱基延伸测序、固相测序、高通量测序、大规模平行签名测序(massively parallelsignature sequencing)、乳液PCR、低变性温度共扩增PCR(COLD-PCR)、多重PCR、可逆染料终止子测序、配对末端测序(paired-end sequencing)、近末端测序(near-termsequencing)、核酸外切酶测序、连接测序、短读段测序、单分子测序、合成测序、实时测序、反向终止子测序、纳米孔测序、454测序、Solexa基因组分析仪测序、SOLiDTM测序、MS-PET测序,及它们的组合。在一些实施方式中,测序可以通过基因分析仪进行,诸如,例如通过可从Illumina,Inc.、Pacific Biosciences,Inc.或Applied Biosystems/Thermo FisherScientific等等商业上获得的基因分析仪进行。
单核苷酸多态性:如本文所用,“单核苷酸多态性”或SNP是指发生在基因组特定部分并且以至少阈值分数(例如1%)存在于具有给定表型的群体中的单核苷酸突变或变异。种系单核苷酸多态性存在于存在种系SNP的群体的部分的种系中。
单核苷酸变体:如本文所用,“单核苷酸变体”或“SNV”是指发生在基因组中特定位置的单核苷酸的突变或变异。
尺寸分布度量:如本文所用,“尺寸分布度量”是指基于单个序列表示的尺寸,被包括在尺寸分布的单个分区中的多个序列表示。序列表示的尺寸可以指序列表示中表示的核苷酸的数量。此外,尺寸分布的单个分区可以包括序列表示的一定范围的尺寸。在各种实例中,尺寸分布中两个相邻分区的尺寸范围可以不重叠。
体细胞突变:如本文使用的,“体细胞突变”意指在受孕之后发生的基因组突变。体细胞突变可以发生在身体的除了生殖细胞以外的任何细胞中,并且因此不会传递给后代。
受试者:如本文使用的,“受试者”是指动物,诸如哺乳动物物种(例如,人类),或禽类(例如,鸟类)物种,或其他生物体,诸如植物。更具体地,受试者可以是脊椎动物,例如哺乳动物诸如小鼠、灵长类动物、猿或人类。动物包括农场动物(例如,生产牛(productioncattle)、奶牛、家禽、马、猪等)、运动动物和伴侣动物(例如,宠物或支持动物)。受试者可以是健康个体、具有或怀疑具有疾病或有患该疾病倾向的个体、或需要治疗或怀疑需要治疗的个体。术语“个体”或“患者”旨在与“受试者”可互换地使用。
例如,受试者可以是已经被诊断患有癌症、将接受癌症治疗和/或已经接受至少一种癌症治疗的个体。受试者可以是处于癌症的缓解中。作为另一个实例,受试者可以是被诊断患有自身免疫性疾病的个体。作为另一个实例,受试者可以是怀孕或计划怀孕的女性个体,其可能已经被诊断或怀疑患有疾病,例如癌症、自身免疫性疾病。
靶区域:如本文所用,“靶区域”是指感兴趣的基因组区域。例如,感兴趣的基因组区域可以对应于与一种或更多种癌症类型一致的一种或更多种突变。此外,感兴趣的基因组区域可以通过一个或更多个探针富集。
阈值:如本文所用,“阈值”是指用于表征不同样品的相同参数的实验确定值的预定值,取决于它们与阈值的关系。
肿瘤分数:如本文所用,“肿瘤分数”是指对给定样品中源自肿瘤的核酸分子的分数的估计。例如,样品的肿瘤分数可以是衍生自样品的最大MAF或样品的测序覆盖范围模式或样品中的cfDNA片段的长度或样品的任何其他选择特征的量度。在一些情况下,样品的肿瘤分数等于样品的最大MAF。
变体:如本文所用,“变体”可以被称为等位基因。取决于等位基因是杂合的或纯合的,变体通常以50%(0.5)或100%(1)的频率出现。例如,种系变体是遗传性的并且通常具有0.5或1的频率。然而,体细胞变体是获得性变体并且通常具有<0.5的频率。遗传位点的主要等位基因和次要等位基因是指具有其中位点分别被参考序列的核苷酸和不同于参考序列的变体核苷酸占据的位点的核酸。位点处的测量可以采取等位基因分数(AF)的形式,它测量在样品中观察到等位基因的频率。
详述
癌症通常由个体细胞的基因内的突变的积累引起,其中的至少一些引起不当调控的细胞分裂。这样的突变可以包括单核苷酸变异(SNV)、基因融合、插入、颠倒、易位和倒位。这些突变还可以包括拷贝数变异,其对应于肿瘤基因组中的基因的拷贝数相对于个体的非癌细胞的增加或减少。无细胞核酸中存在的突变程度和样品中突变的无细胞核酸的量可用作生物标志物,以确定肿瘤进展、预测患者结果和细化治疗选择。在各种实例中,无细胞核酸中存在的突变程度可以通过给定样品的肿瘤细胞拷贝数和肿瘤分数来指示。
在现有的系统和方法中,可以鉴定来自样品中包含的无细胞核酸的多核苷酸,其对应于参考序列的靶区域。可以生成对应于来自样品的中靶序列的量的一个或更多个定量量度,并用于确定给定样品的肿瘤细胞的拷贝数和/或肿瘤分数的估计。此外,在现有系统中,可以鉴定与靶区域之外的参考序列部分对齐的来自样品的多核苷酸。在现有系统中,脱靶序列表示通常不用于确定肿瘤细胞拷贝数或样品肿瘤分数中的至少一个的估计,因为脱靶序列不对应于参考序列的中靶区域。
在本文描述的实施方式中,除了从中靶序列表示获得的信息之外,从样品获得的信息可用于确定关于提供样品的受试者的肿瘤度量。例如,从脱靶序列表示获得的信息可用于确定肿瘤细胞的拷贝数和/或样品的肿瘤分数的估计。另外,从种系SNP的存在获得的信息可用于确定样品的肿瘤细胞拷贝数或肿瘤分数中的至少一个的估计。使用除了从中靶序列表示获得的信息之外的信息确定肿瘤细胞的拷贝数或样品的肿瘤分数中的至少一个的估计值,可以相对于现有技术提高肿瘤细胞的拷贝数和/或样品的肿瘤分数的估计的准确性。此外,肿瘤细胞的拷贝数和/或样品的肿瘤分数的估计的准确性的提高是使用对应于脱靶分子的信息的结果,该脱靶分子以前在检测受试者的拷贝数变异时没有考虑,并且因此被丢弃。
在一个或更多个说明性实例中,可以从来自样品的测序数据确定脱靶序列表示的数量。此外,可以执行第一分隔处理,其确定参考序列的第一区段的数量。在一个或更多个实例中,第一区段的数量可以被称为“箱元(bin)”。可以相对于脱靶序列表示来确定定量量度。例如,可以相对于与单个第一区段相关的脱靶序列表示来确定指示序列表示的数量的覆盖范围度量。覆盖范围度量可以相对于参考覆盖范围度量进行归一化,参考覆盖范围度量是从不存在拷贝数变异的个体的样品确定的。在各种实例中,可以执行第二分割处理,使得每个第二区段包括多于一个第一区段。对应于单个第二区段的第一区段的归一化覆盖范围度量可用于确定一个或更多个第二区段的肿瘤细胞拷贝数,并确定样品的肿瘤分数。一个或更多个第二区段的肿瘤细胞拷贝数和肿瘤分数可以用作最大似然估计模型的参数的值,该模型确定肿瘤细胞拷贝数和/或肿瘤分数的值的似然。在一些实施方式中,指示不同尺寸的序列表示相对于参考序列的区段的分布的尺寸分布数据也可以用于确定最大似然估计模型的参数的值,诸如肿瘤分数和肿瘤细胞拷贝数。此外,单核苷酸多态性数据可用于确定最大似然估计模型的参数的值。
图1是根据一个或更多个实施方式的示例架构100的示意图,该示例架构100基于从脱靶区域获得的信息来确定受试者中的肿瘤度量,诸如拷贝数变异。在一个或更多个实例中,所考虑的疾病是一种癌症。这样的癌症的非限制性实例包括胆道癌、膀胱癌、移行细胞癌、尿路上皮癌、脑癌、神经胶质瘤、星形细胞瘤、乳腺癌、化生癌、宫颈癌、宫颈鳞状细胞癌、直肠癌、结肠直肠癌、结肠癌、遗传性非息肉性结肠直肠癌、结肠直肠腺癌、胃肠间质瘤(GIST)、子宫内膜癌、子宫内膜间质肉瘤、食管癌、食管鳞状细胞癌、食管腺癌、眼黑素瘤、葡萄膜黑素瘤、胆囊癌、胆囊腺癌、肾细胞癌、透明细胞肾细胞癌(clear cell renal cellcarcinoma)、移行细胞癌、尿路上皮癌、肾母细胞瘤、白血病、急性淋巴细胞白血病(ALL)、急性髓性白血病(AML)、慢性淋巴细胞白血病(CLL)、慢性髓性白血病(CML)、慢性粒单核细胞白血病(CMML)、肝癌(liver cancer)、肝上皮癌(liver carcinoma)、肝细胞瘤、肝细胞癌、胆管癌、肝母细胞瘤、肺癌、非小细胞肺癌(NSCLC)、间皮瘤、B细胞淋巴瘤、非霍奇金淋巴瘤、弥漫性大B细胞淋巴瘤、套细胞淋巴瘤、T细胞淋巴瘤、非霍奇金淋巴瘤、前体T淋巴母细胞淋巴瘤/白血病、外周T细胞淋巴瘤、多发性骨髓瘤、鼻咽癌(NPC)、神经母细胞瘤、口咽癌、口腔鳞状细胞癌、骨肉瘤、卵巢癌、胰腺癌、胰腺导管腺癌、假乳头状肿瘤、腺泡细胞癌、前列腺癌、前列腺腺癌、皮肤癌、黑素瘤、恶性黑素瘤、皮肤黑素瘤、小肠癌、胃癌(stomachcancer)、胃上皮癌(gastric carcinoma)、胃肠间质瘤(GIST)、子宫癌或子宫肉瘤。
架构100可以包括测序机器102。在一个或更多个实例中,测序机器102可以是能够执行扩增样品104中存在的核酸的一个或更多个测序操作的多个测序机器中的任何一个。在各种实例中,测序机器102可以执行下一代测序操作。在一个或更多个实例中,样品104可以包括一定量的从受试者提取的至少一种体液。在一个或更多个另外的实例中,样品104可以包括从受试者获得的组织样品。
在测序之前,可以从样品104提取多核苷酸。从样品104提取多核苷酸可以包括实施一种或更多种细胞裂解技术以裂解样品104中包含的细胞膜,并应用一种或更多种蛋白酶来破坏样品104中包含的蛋白质。从样品104提取多核苷酸还可以包括许多洗涤和/或洗脱技术,以将多核苷酸与样品104中包含的其他组分分离。在各种实例中,在测序之前,可以从样品104提取数千、高达数百万、高达数十亿的多核苷酸。此外,可以对提取的多核苷酸和衔接子进行钝末端连接,并且可以将标签(例如,分子条形码)添加到提取的多核苷酸。提取的多核苷酸也可以通过在提取的多核苷酸和对应于参考序列的靶区域的探针之间引起杂交来富集。富集过程可以识别数千、数十万、高达数百万个多核苷酸,这些多核苷酸对应于与探针相关的中靶区域。在富集过程之后,也可以存在对应于参考序列的脱靶区域的数千、高达数百万个未富集的多核苷酸。
富集过程之后,富集的多核苷酸可以根据一个或更多个扩增过程进行扩增。一个或更多个扩增过程可以产生数千、高达数百万个拷贝的单个富集的多核苷酸。在一个或更多个实例中,在某些情况下,一部分未富集的多核苷酸可以被扩增,但不能达到富集的多核苷酸被扩增的程度。所述一个或更多个扩增过程可产生经历一个或更多个测序操作的扩增产物。在对样品104执行一个或更多个测序操作之后,测序机器102可以产生测序数据106。
测序数据106可以包括扩增产物中包含的核酸的字母数字表示。例如,对于扩增产物的单个核酸,测序数据106可以包括对应于代表相应核苷酸链的字母串的数据,所述字母对应于单个核酸。
测序数据106可以存储在一个或更多个数据文件中。例如,测序数据106可以存储在FASTQ文件中,该文件包括存储原始序列数据和质量评分的基于文本的测序数据文件格式。在一个或更多个另外的实例中,测序数据106可以存储在根据二进制碱基调用(BCL)序列文件格式的数据文件中。在一个或更多个另外的实例中,测序数据106可以存储在BAM文件中。在一个或更多个实例中,测序数据106可以包括至少约1千兆字节(GB)、至少约2GB、至少约3GB、至少约4GB、至少约5GB、至少约8GB或至少约10GB。包括在测序数据106中的单个序列表示在本文可以被称为“读段”或“测序读段”。在各种实例中,作为单个第一核酸扩增的结果,样品104中包括的单个第一核酸可以对应于测序数据106中包括的多于一个序列表示。在一个或更多个另外的实例中,由于没有单个第二核酸的扩增,样品104中包括的单个第二核酸可以对应于测序数据106中包括的单个序列表示。
架构100可以包括计算系统108,其从测序机器102获得测序数据106并分析测序数据106。例如,计算系统108可以分析测序数据106,以确定在从其获得样品104的受试者中存在拷贝数变异的概率。在一个或更多个另外的实例中,计算系统108还可以确定在提供样品104的受试者中存在肿瘤的概率。计算系统108可以包括一个或更多个计算装置110。一个或更多个计算装置110可以包括一个或更多个桌面计算装置、一个或更多个移动计算装置、或一个或更多个服务器计算装置中的至少一个。在各种实例中,一个或更多个计算装置110的至少一部分可以被包括在远程计算环境,诸如云计算环境中。在一个或更多个实例中,计算系统108和测序机器102可以由单个机构拥有、操作、维护和/或控制。在一个或更多个另外的实例中,计算系统108和测序机器102可以由多于一个机构拥有、操作、维护和/或控制。
在操作112,计算系统108可以执行比对过程。比对过程可以包括确定,测序数据106中包括的单个序列表示的至少一部分对应于参考序列的基因组区域。比对过程可以确定序列数据106中包括的单个序列表示和参考序列的部分之间的同源性量。给定序列表示和参考序列之间的同源性量可以指示参考序列中与给定序列表示的相应位置具有相同的核苷酸的位置的数量。计算系统108可以基于确定序列表示和参考序列的部分具有至少阈值量的同源性来确定序列表示与参考序列的一部分对齐。在序列表示相对于参考序列的多个部分具有至少阈值量的同源性的情况下,可以确定与序列表示具有最大量的同源性的参考序列的部分与序列表示对齐。与参考序列具有至少阈值量的同源性的序列表示可以被包括在由在操作112发生的比对过程生成的比对的序列表示114中。
给定序列表示和参考序列的一部分之间的同源性量可以通过使用以下来确定:BLAST程序(基本局部比对搜索工具)和PowerBLAST程序(Altschul等人,J.Mol.Biol.,1990,215,403-410;Zhang和Madden,Genome Res.,1997,7,649-656)或通过使用Gap程序(Wisconsin Sequence Analysis Package,Genetics Computer Group,UniversityResearch Park,Madison Wis.),使用默认设置,其使用Needleman和Wunsch的算法(J.Mol.Biol.48;443-453(1970))。也可以使用Burrows-Wheeler比对器(Li,H.,&Durbin,R.(2009).Fast and accurate short read alignment with Burrows–Wheelertransform.Bioinformatics,25(14),1754–1760)确定序列表示和参考序列的一部分之间的同源性量。
在一个或更多个实施方式中,单个比对的序列表示114可以对应于测序数据106中包含的单个读段。在这些情况下,比对的序列表示114可以包括对应于样品104中包含的单个多核苷酸的多于一个读段。在一个或更多个另外的实例中,比对的序列表示114可以对应于样品104中包含的单个核酸。在这些情况下,计算系统可以基于每组测序读段共有的分子条形码来确定序列数据106中包括的对应于样品104中包括的单个核酸的读段的集合。也就是说,包括在样品104中的单个核酸可以用独特识别单个核酸的分子条形码编码,并且在至少一些情况下,单个核酸可以由包括在测序数据106中的多于一个读段来表示。因此,当对应于样品104中包括的单个核酸的测序数据106中存在多于一个序列表示时,计算系统108可以将多于一个序列表示分组在一起。在各种实例中,对应于包括在样品104中的单个核酸的序列表示组在本文可以被称为“家族”。此外,具有共同分子条形码的比对的序列表示114相对于参考序列的开始和停止位置可用于对对应于样品104中包括的单个核酸的序列表示进行分组。在一个或更多个说明性实例中,表示对应于样品104中包括的单个核酸的序列表示的家族的单个序列表示在本文中可以被称为“共有序列表示”。
计算系统108可以在操作116处分析比对的序列表示114。在一个或更多个实例中,可以相对于参考序列的多个靶区域来分析比对的序列表示114。在一个或更多个说明性实例中,靶区域可以对应于用于鉴定样品104中存在的感兴趣的核酸的探针的多核苷酸序列。计算系统108可以分析比对的序列表示114,以确定序列表示的至少一个子集,该子集可用于确定在从其获得样品104的受试者中是否存在拷贝数变异。在一个或更多个实例中,可以分析比对的序列表示114,以确定包括在比对的序列表示114中的中靶序列表示118。中靶序列表示118可以包括比对的序列表示114中包含的与参考序列的靶区域具有至少阈值量的同源性的序列表示。
此外,可以分析比对的序列表示114以确定脱靶序列表示120。脱靶序列表示120可以与参考序列中不对应于靶区域的部分比对。在一个或更多个实例中,脱靶序列表示120可以与参考序列的至少一个靶区域没有重叠。在一个或更多个另外的实例中,脱靶序列表示120可以与参考序列的至少一个靶区域具有小于阈值量的重叠。在一个或更多个说明性实例中,重叠的阈值量可以是:序列表示与靶区域之间的同源性不大于约10%、序列表示与靶区域之间的同源性不大于约9%、序列表示与靶区域之间的同源性不大于约8%、序列表示与靶区域之间的同源性不大于约7%、序列表示与靶区域之间的同源性不大于约6%、序列表示与靶区域之间的同源性不大于约5%、序列表示与靶区域之间的同源性不大于约4%、序列表示与靶区域之间的同源性不大于约3%、序列表示与靶区域之间的同源性不大于约2%、序列表示与靶区域之间的同源性不大于约1%、序列表示与靶区域之间的同源性不大于约0.5%、或者序列表示与靶区域之间的同源性不大于约0.1%。
在操作122,计算系统108可以分析来源于测序数据106的一个或更多个定量量度。来源于测序数据106的定量量度的至少一部分可以相对于中靶序列表示118来确定。此外,可以相对于脱靶序列表示120来确定来源于测序数据106的定量量度的至少一部分。在一个或更多个实例中,计算系统108可以确定关于中靶序列表示118的一个或更多个覆盖范围度量。例如,计算系统108可以确定与参考序列的单个靶区域比对的多个中靶序列表示,以生成单个靶区域的相应覆盖范围度量。在各种实例中,计算系统108可以基于相对于中靶序列表示118的总数或相对于对应于一组靶区域的中靶序列表示118的数量的对应于单个靶区域的中靶序列表示118的相应数量,来确定单个靶区域的一个或更多个归一化覆盖范围度量。
此外,计算系统108可以确定关于脱靶序列表示120的一个或更多个覆盖范围度量。在一个或更多个实例中,计算系统108可以确定参考序列的多于一个区段,并确定对应于多于一个区段中的单个区段的多个脱靶序列表示120。在一个或更多个另外的实例中,计算系统108可以确定关于脱靶序列表示120的一个或更多个尺寸分布度量。例如,计算系统108可以基于具有特定尺寸或尺寸范围的多个脱靶序列表示120来确定对应于多于一个区段中的单个区段的相应尺寸分布。在一个或更多个说明性实例中,包含在单个脱靶序列表示120中的核苷酸数量在本文中可以被称为单个脱靶序列表示120的“尺寸”。在一个或更多个实例中,单个序列表示的尺寸可以包括对应于单个序列表示的分子中包含的核苷酸的数量。在一个或更多个另外实例中,除了一个或更多个另外的核苷酸诸如衔接子和/或条形码的核苷酸之外,单个序列表示的尺寸可以包括对应于单个序列表示的分子中包含的核苷酸的数量。此外,尺寸分布可以包括基于平均序列表示尺寸的序列表示的尺寸的正态分布,并且具有至少八个分区。分区可以平均分布在平均值之上和平均值之下。在各种实例中,单个分区可以对应于从平均值的一个或更多个标准偏差。
在一个或更多个实例中,计算系统108可以执行关于参考序列的多于一个分割过程。例如,计算系统108可以执行将参考序列划分成多于一个第一区段的第一分割过程。在一个或更多个实现中,多于一个第一区段可以被称为“箱元”。计算系统108还可以执行将参考序列划分成多于一个第二区段的第二分割过程。在各种实例中,多于一个第一区段可以包括比多于一个第二区段更多数量的区段。为了说明,多于一个第二区段可以包括多于一个第一区段。在一个或更多个实例中,计算系统108可以为多于一个第一区段和多于一个第二区段二者确定定量量度,诸如覆盖范围度量或尺寸分布度量中的至少一个。为了说明,计算系统108可以使用由计算系统108确定的关于多于一个第一区段的定量量度来确定多于一个第二区段的定量量度。
在一个或更多个说明性场景中,可以实施多于一个分割过程,因为在较小的第一区段中不存在拷贝数变异。因此,实施生成包括多于一个第一区段的第二区段的第二分割过程,使得第二区段具有对应于可能发生拷贝数变异的基因组区域的尺寸。此外,可以执行第一分割过程以生成单个第一区段的归一化数据,这可以最小化可能存在的偏差。因此,执行多于一个分割过程可以生成可用于关于提供样品104的受试者更准确地确定拷贝数变异和/或肿瘤分数的定量量度。
由计算系统108在操作122执行的来源于中靶序列表示118和脱靶序列表示120的定量量度的分析可用于确定一个或更多个肿瘤度量124。在一个或更多个实例中,一个或更多个肿瘤度量124可以包括单个第二区段的肿瘤细胞拷贝数。单个第二区段的肿瘤细胞拷贝数可以指示对应于单个第二区段中的一个或更多个的基因组区域中的扩增或缺失的量。在各种实例中,肿瘤细胞拷贝数可以指示对应于一个或更多个单个第二区段的基因组区域的杂合性丢失。在一个或更多个另外的实例中,一个或更多个肿瘤度量124可以包括对应于样品104的肿瘤分数的估计。在一个或更多个说明性实例中,一个或更多个肿瘤度量124可以指示从其获得样品104的个体内肿瘤生长的进展或消退。此外,一个或更多个肿瘤度量124可以指示提供给提供样品104的受试者的一种或更多种治疗的有效性。在一个或更多个另外的说明性实例中,一个或更多个肿瘤度量124可以关于模型来使用,以生成在从其获得样品104的受试者中存在肿瘤的概率。在一个或更多个另外的说明性实例中,一个或更多个肿瘤度量124可以对应于最大似然估计模型的参数,该模型可以被实施以确定从其获得样品104的受试者的肿瘤细胞拷贝数。在各种其他说明性实例中,一个或更多个肿瘤度量124可以对应于期望最大化模型的参数,该模型可以被实施以确定从其获得样品104的受试者的肿瘤细胞拷贝数。
图2是根据一个或更多个实施方式,基于中靶序列表示、脱靶序列表示和单核苷酸多态性数据来确定与受试者相关的肿瘤度量(诸如肿瘤细胞拷贝数)的示例过程200的流程图。过程200可以包括,在202,基于来源于样品的多核苷酸生成测序数据204。测序数据204可以包括对应于由测序机器生成的数据的测序读段。在一个或更多个实例中,测序数据204可以指示多个测序读段来自单个多核苷酸。
在操作206,过程200可以包括执行关于测序数据204的计算操作,以确定一个或更多个另外的数据集。在各种实例中,一个或更多个另外的数据集可以包括测序数据204中包含的序列表示的一个或更多个子集。可以基于一个或更多个标准来确定所述一个或更多个另外的数据集。例如,可以执行操作206以基于确定测序数据204中包括的对应于参考序列的靶区域的序列表示的第一子集来产生中靶数据208。此外,可以执行操作206以基于确定测序数据204中包括的序列表示的对应于排除靶区域的参考序列的部分的第二子集来产生脱靶数据210。
此外,可以执行操作206以基于鉴定测序数据204中包括的对应于许多种系SNP的序列表示来产生单核苷酸多态性数据212。在各种实例中,用于产生SNP数据212的种系SNP可以包括包含在对应于靶区域的参考序列的基因组区域中的种系SNP。在一个或更多个实例中,SNP数据212可以通过相对于对应于一个或更多个探针的相应种系SNP的位置和变异来分析序列数据204的序列表示来确定。在一个或更多个实施方式中,SNP数据212可以包括包含在一个或更多个公开可用数据库中的多个单个种系SNP的序列表示。在一个或更多个说明性实例中,SNP数据212可以包括在gnomAD数据库的版本中鉴定的种系SNP的序列表示,诸如在提交本文件时gnomAD数据库的最新版本。在一个或更多个另外的实例中,根据许多序列表示共有的分子条形码,并基于相对于对应于单个家族中包含的许多序列表示的子集的原始多核苷酸分子的起始位置和终止位置,可以将多个序列表示分组为家族。对应于来源于样品的SNP的定量量度可以基于与参考基因组中与单个SNP相关的相应部分比对的家族数量来确定。
关于操作206执行的计算操作还可以利用脱靶数据210来基于包括在脱靶数据210中的序列表示来确定定量量度。例如,可以执行计算操作来确定覆盖范围数据214和尺寸分布数据216。覆盖范围数据214可以包括对应于参考序列的单个区段的序列表示的数量。在一个或更多个实例中,覆盖范围数据214可以指示对应于参考序列的脱靶区域的单个区段的序列表示的数量或计数。在一个或更多个另外的实例中,覆盖范围数据214可以指示对应于参考序列的脱靶区域的单个区段的多核苷酸的数量。
还可以相对于脱靶数据210确定归一化的定量量度。例如,覆盖范围数据214还可以包括归一化的覆盖范围数据。在一个或更多个说明性实例中,归一化覆盖范围数据可以指示从参考序列的给定区段获得的第一覆盖范围度量相对于从给定区段获得的第二覆盖范围度量。在一个或更多个说明性实例中,从其中没有检测到拷贝数变异的个体的样品确定第二覆盖范围度量。在各种实例中,第二覆盖范围度量可以是参考覆盖范围度量。在一个或更多个实例中,可以确定对应于参考序列的给定区段的参考覆盖范围度量的序列表示的数量的平均值,并用于确定归一化覆盖范围度量。
此外,尺寸分布数据216可以指示关于对应于参考序列的给定区段的序列表示的尺寸分布。在各种实例中,序列表示的尺寸可以被分组以形成多个分区,每个分区包括一定范围的尺寸的序列表示。序列表示的尺寸分布可以指示对应于每个相应分区的序列表示的数量。
在一个或更多个实例中,尺寸分布数据216可以包括归一化的尺寸分布数据。归一化的尺寸分布数据可以指示关于参考序列的给定区段的与样品相对应的第一序列表示的尺寸的第一分布,相对于从其中没有检测到拷贝数变异的个体的样品获得的与给定区段相对应的第二序列表示的尺寸的第二分布。在一个或更多个说明性实例中,第二序列表示可用于确定参考尺寸分布度量。在这些场景中,归一化的尺寸分布数据可以包括第一序列表示的尺寸的第一分布相对于第二序列表示的尺寸的第二分布的比率。
在218,过程200可以包括相对于参考序列分析一个或更多个另外的数据集,以确定受试者中存在的拷贝数变异的指标。在图2的说明性实例中,中靶数据208、脱靶数据210或SNP数据212中的至少一个可用于确定关于从其得到测序数据204的样品的肿瘤细胞拷贝数220。此外,中靶数据208、脱靶数据210或SNP数据212中的至少一个可用于确定与用于得到测序数据204的样品相关的肿瘤分数222。
肿瘤细胞拷贝数220和至少在一些情况下,样品的肿瘤分数222可以通过以下确定:
观察到的覆盖范围=2*(1-TF)+n*TF,其中n是肿瘤细胞拷贝数220,并且TF是样品肿瘤分数222。
在一个或更多个说明性实例中,给定样品的肿瘤分数220可以是给定样品中包含的所有核酸的至少约0.05%、至少约0.1%、至少约0.2%、至少约0.5%、至少约1%、至少约2%、至少约3%、至少约4%、至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%或至少约50%。
用于确定肿瘤分数222的观察到的覆盖范围和肿瘤细胞拷贝数220可以通过对参考序列执行一个或更多个分割操作来确定,以确定参考序列的区段的数量。在一个或更多个实例中,对于不同类型的数据执行的分段操作的结果可以是不同的。例如,覆盖范围数据214可用于确定参考序列的第一分割。此外,中靶数据210和覆盖范围数据214可用于确定合并数据,该合并数据可用于确定不同于第一分割的参考序列的第二分割。
在各种实例中,中靶数据208可以包括中靶序列表示的数量,并且可以通过确定对应于参考序列的单个靶区域的中靶序列表示的相应数量来为参考序列的单个靶区域确定中靶数据208的观察的覆盖范围。在一个或更多个说明性实例中,可以确定相对于靶区域的中间区域同源的中靶序列表示的数量,以确定相对于中靶区域的观察的覆盖范围。靶区域的中间区域可以包括至少一个核苷酸、至少两个核苷酸、至少三个核苷酸、至少四个核苷酸、至少5个核苷酸、至少10个核苷酸、至少15个核苷酸、至少20个核苷酸或至少25个核苷酸。在一个或更多个另外的实例中,中靶数据208的覆盖范围数据可以对应于参考基因组的区段(诸如100kb区段)上靶序列表示的平均覆盖范围。
在一个或更多个另外的实例中,中靶数据208可以包括对应于参考序列的单个区段的尺寸分布数据。在一个或更多个实例中,尺寸分布可以包括多个层次(gradation),每个层次包括一定范围的尺寸的中靶序列表示。参考序列的单个区段的尺寸分布可以包括在分布的每个层次中包括的中靶序列表示的数量。
此外,与覆盖范围数据和/或尺寸分布数据相关的中靶数据208可以被归一化。在各种实例中,中靶数据208可以基于中靶序列表示相对于参考覆盖范围数据或参考尺寸分布数据中的至少一个进行归一化,中靶序列表示基于从不存在肿瘤的个体获得的许多样品而生成。相对于中靶覆盖范围数据的中靶数据208也可以相对于中靶序列表示的覆盖范围的中位值来归一化。
肿瘤细胞拷贝数220可以根据公布号为第WO2017/106768并且题为“Methods toDetermine Tumor Gene Copy Number by Analysis of Cell-Free DNA”的PCT申请(通过引用以其全文整体并入本文)中描述的技术关于中靶数据208确定。在至少一些实施方式中,使用中靶数据208生成的观察到的覆盖范围和肿瘤细胞拷贝数220可用于确定肿瘤分数222的估计。脱靶数据210可以包括脱靶序列表示的数量,并且通过确定对应于参考序列的单个区段的脱靶序列表示的数量,可以针对参考序列的单个区段确定来源于脱靶数据210的覆盖范围数据214的观察到的覆盖范围。可以为参考序列的单个区段确定肿瘤细胞拷贝数220。在一个或更多个说明性实例中,可以使用覆盖范围数据214相对于参考序列执行分割过程,使得通过确定参考序列的区域来生成区段,其中在分割过程的一次或更多次迭代之后给定区段的拷贝数不变。以这种方式,基于至少使用覆盖范围数据214执行的分割过程的结果来确定每个区段的肿瘤细胞拷贝数220。使用覆盖范围数据214生成的观察的覆盖范围和肿瘤细胞拷贝数220可用于确定肿瘤分数222的估计。
此外,观察到的尺寸分布数据216的覆盖范围可以对应于来源于脱靶数据210的尺寸分布,脱靶数据210对应于参考序列的单个区段。在一个或更多个实例中,尺寸分布可以包括多个层次,每个层次包括一定范围的尺寸的序列表示。参考序列的单个区段的尺寸分布可以包括在分布的每个层次中包括的脱靶序列表示的数量。可以基于参考序列的单个区段的尺寸分布度量来确定参考序列的单个区段的肿瘤细胞拷贝数220。在一个或更多个说明性实例中,可以使用尺寸分布数据216相对于参考序列执行分割过程,使得通过确定参考序列的区域来生成区段,其中在分割过程的多次迭代之后,该区域的肿瘤细胞拷贝数220不变。以这种方式,基于至少使用尺寸分布数据216执行的分割过程的结果来确定每个区段的肿瘤细胞拷贝数220。使用尺寸分布数据216生成的观察到的覆盖范围和肿瘤细胞拷贝数220可用于确定肿瘤分数220的估计。
在一个或更多个另外的实例中,脱靶序列表示的覆盖范围数据214和中靶序列表示的覆盖范围数据的合并版本可用于确定肿瘤细胞拷贝数220和/或肿瘤分数222。在一个或更多个实例中,可以基于对应于参考基因组的单个区域的多个中靶序列表示的数量和脱靶序列表示的数量来确定合并的覆盖范围数据。在各种实例中,可以基于相对于中靶数据208和脱靶数据210生成的归一化覆盖范围数据来确定合并的覆盖范围数据。在一个或更多个说明性实例中,可以通过基于给定基因附近的中靶区域和脱靶区域移动中靶覆盖范围数据来确定合并的覆盖范围数据,使得中靶和脱靶覆盖范围数据相对于共同的平均值分布。在一个或更多个实施方式中,中靶区域和脱靶区域的覆盖范围数据的分布可以不同。
通过确定测序数据204中存在的单个SNP的突变等位基因频率(MAF),SNP数据212可用于确定肿瘤分数222。参考序列的区段的肿瘤细胞拷贝数220可以使用SNP数据212和诸如Chen,Gary等人,“Precise inference of copy number alternations in tumorsamples from SNP arrays”,Bioinformatics 2013December 1;29(23):2964-2970描述的技术来确定。
在使用中靶数据208、脱靶数据210或SNP数据212中的至少一个确定肿瘤细胞拷贝数220和肿瘤分数222之后,可以使用肿瘤细胞拷贝数220的值和肿瘤分数222的值作为模型的参数来实施模型。在一个或更多个实施方式中,可以组合基于中靶数据208、脱靶数据210和SNP数据212中的每一个确定的肿瘤细胞拷贝数220的值和肿瘤分数222的值,并且可以使用组合的值来实施模型,以确定肿瘤细胞拷贝数220和肿瘤分数222的估计的可能性。
图3是根据一个或更多个实施方式,基于来源于脱靶序列的覆盖范围度量来确定与受试者相关的肿瘤度量的示例过程300的示意图。过程300可以包括基于测序数据确定中靶序列表示和脱靶序列表示,测序数据包括来源于从受试者获得的样品的序列表示。在一个或更多个实例中,可以通过分析关于参考序列302的序列表示来确定中靶序列表示和脱靶序列表示。为了说明,可以相对于参考序列302的一个或更多个部分(诸如说明性参考序列部分304)分析序列表示,以确定序列表示和说明性参考序列部分304之间的同源性量。在图3的说明性实例中,说明性参考序列部分304可以包括靶区域306。在各种实例中,靶区域306可以对应于参考序列302的对应于驱动突变的区域。在各种实例中,参考序列302可以具有至少约500个靶区域、至少约1000个靶区域、至少约2500个靶区域、至少约5000个靶区域、至少约10,000个靶区域、至少约15,000个靶区域、至少约20,000个靶区域、至少约25,000个靶区域或至少约30,000个靶区域。靶区域306可以包括约25个核苷酸至约250个核苷酸、约50个核苷酸至约200个核苷酸、或约75个核苷酸至约150个核苷酸。
此外,在图3的说明性实例中,相对于说明性参考序列部分304分析第一序列表示308、第二序列表示310和第三序列表示312。基于该分析,可以确定第一序列表示308与靶区域306对齐。在这些场景中,第一序列表示308可以被鉴定为中靶序列。此外,第二序列表示310可以被确定为与说明性参考序列部分304中位于靶区域306之外的部分对齐。第三序列表示312还可以被确定为与在靶区域306之外的说明性参考序列部分304的另外部分对齐。在这些情况下,第二序列表示310和第三序列表示312可以被鉴定为脱靶序列。
来源于样品的序列表示和参考序列302之间的比对过程可以生成脱靶序列数据314。脱靶序列数据314可以包括与参考序列302中在靶区域之外的区域对齐的序列表示。例如,脱靶序列数据314可以包括第二序列表示310和第三序列表示312。
在操作316,过程300可以包括基于脱靶序列数据314执行的第一分割过程。在一个或更多个实例中,对应于中靶序列表示的序列数据被排除在第一分割过程316期间使用之外。在各种实例中,中靶区域的覆盖深度,诸如序列表示的数量,可以大于脱靶区域的覆盖深度。中靶区域和脱靶区域的覆盖深度之间的差异会导致在包括中靶序列表示和脱靶序列表示二者的序列数据中存在一定量噪声。噪声量会导致使用过程300生成的肿瘤度量的不准确性。为了减少当使用中靶序列数据来执行第一分割过程316时存在的噪声,并且为了增加由过程300生成的肿瘤度量的准确性,使用脱靶序列数据314来执行第一分割过程316。
第一分割过程可以生成参考序列302的许多第一区段,诸如说明性的第一区段318。在一个或更多个说明性实例中,第一区段318可以包括不大于约200千碱基(kb)、不大于约180kb、不大于约160kb、不大于约140kb、不大于约120kb、不大于约100kb、不大于约80kb或不大于约60kb。在一个或更多个另外的说明性实例中,第一区段318可以包括至少约50kb、至少约60kb、至少约70kb、至少约80kb、至少约90kb、至少约100kb、至少约120kb、至少约140kb、至少约160kb或至少约180kb。在各种实例中,多于一个第一区段318的至少一部分可以具有相同数量的核苷酸,并且多于一个第一区段318的剩余部分可以具有较少的核苷酸。在一个或更多个说明性实例中,第一区段318的第一数量可以具有200kb,并且第一区段318的第二数量可以具有小于200kb。在一个或更多个另外的实例中,多于一个第一区段318中的至少约70%具有相同数量的核苷酸,多于一个第一区段318中的至少约75%具有相同数量的核苷酸,多于一个第一区段318中的至少约80%具有相同数量的核苷酸,多于一个第一区段318中的至少约85%具有相同数量的核苷酸,多于一个第一区段318中的至少约90%具有相同数量的核苷酸,多于一个第一区段318中的至少约95%具有相同数量的核苷酸,或者多于一个第一区段318中的至少约99%具有相同数量的核苷酸。在一个或更多个另外的实例中,可以执行参考序列302的第一分割过程,使得多于一个第一区段318排除靶区域。在这些实施方式中,多于一个第一区段318不与靶区域重叠。
参考序列302的第一区段318的数量可以是至少约7000、至少约8000、至少约9000、至少约10,000、至少约11,000、至少约12,000、至少约13,000、至少约14,000、至少约15,000、至少约16,000、至少约17,000、至少约18,000、至少约19,000、至少约20,000、至少约21,000、至少约22,000、至少约23,000、至少约24,000、至少约25,000或至少约26,000。在一个或更多个说明性实例中,参考序列302的第一区段318的数量可以是从约7000到约35,000,从约10,000到约30,000,或者从约12,000到约27,000。
在一个或更多个实例中,过程300可以包括确定单个第一区段318的覆盖范围数据320。单个第一区段318的覆盖范围数据320可以包括与单个第一区段318具有至少阈值量的同源性的脱靶序列表示的数量。为第一区段318生成的覆盖范围数据可用于产生第一区段覆盖范围数据322。在各种实例中,第一区段覆盖范围数据322可以包括对应于单个第一区段318的脱靶序列表示的数量。在一个或更多个说明性实例中,对应于单个第一区段318的脱靶序列表示的数量可以是数百个脱靶序列表示的数量级,多达数千个和数万个脱靶序列表示。
在各种实例中,第一区段覆盖范围数据322可以排除第一区段318中的一个或更多个的覆盖范围信息。以这种方式,可以过滤用于确定第一区段覆盖范围数据322的一个或更多个第一区段318。第一区段318的过滤可以基于脱靶序列数据314来执行。在一个或更多个另外的实例中,可以基于从未检测到拷贝数变异的个体获得的参考样品生成的脱靶序列表示数据来执行第一区段318的过滤。
在一个或更多个实例中,可以从第一区段覆盖范围数据322中排除高于或低于参考中值覆盖范围度量一个标准偏差、两个标准偏差、三个标准偏差或四个标准偏差中的至少一个的覆盖范围信息的第一区段318。在一个或更多个说明性实例中,在使用参考样品的训练过程中,可以从确定第一区段覆盖范围数据322中排除具有高于或低于参考中值覆盖范围度量一个标准偏差、两个标准偏差、三个标准偏差或四个标准偏差中的至少一个的覆盖范围信息的第一区段318。在一个或更多个另外的实例中,对应于X染色体和/或Y染色体的一个或更多个第一区段可以从第一区段覆盖范围数据324中排除。
此外,可以确定与参考序列302的靶区域具有至少阈值量的重叠的第一区段318。在一个或更多个第一区段318与参考序列302的靶区域具有至少阈值量的重叠的情况下,对应于一个或更多个第一区段318的覆盖范围信息可以从第一区段覆盖范围数据322中排除。在各种实例中,参考序列302的靶区域和第一区段318中的一个或更多个之间的重叠的阈值量可以包括第一区段318与参考序列302的靶区域重叠至少约5个核苷酸,第一区段318与参考序列302的靶区域重叠至少约10个核苷酸,第一区段318与参考序列302的靶区域重叠至少约15个核苷酸,第一区段318与参考序列302的靶区域重叠至少约20个核苷酸,或者第一区段318与参考序列302的靶区域重叠至少约25个核苷酸。
由于当来自这些第一区段318的数据被包括在第一区段覆盖范围数据322中时会产生一定量的噪声,因此可以从第一区段覆盖范围数据322中排除与靶区域具有阈值量的重叠的第一区段318。在一个或更多个实例中,与靶区域具有阈值量的重叠的第一区段318的覆盖范围的量(诸如序列表示的数量)可以大于与一个或更多个靶区域没有阈值量的重叠的第一区段318的覆盖范围的量。在一个或更多个说明性实例中,
只考虑脱靶,因为脱靶和中靶的覆盖深度不同,将其组合的噪声太大。平均覆盖范围为300-400。噪声太大。存在中靶和脱靶覆盖范围的差异。这就是为什么我们不把它们放在一起,直到第二次分割。
在一个或更多个另外的实例中,第一区段覆盖范围数据322可以排除第一区段318中的一个或更多个的序列表示,其中关于第一区段的覆盖范围数据和另外的第一区段318的数量之间的变化量大于关于脱靶序列表示数据的阈值变化量,脱靶序列表示数据是从没有检测到拷贝数变异的个体获得的参考样品生成的。例如,具有从参考序列表示的覆盖范围数据的平均值的至少一个标准偏差、至少两个标准偏差、至少三个标准偏差或至少四个标准偏差的参考序列表示的覆盖范围量度的第一区段318可以从第一区段覆盖范围数据322中排除。
在一个或更多个另外的实施方式中,具有少于阈值数量的序列表示的一个或更多个第一区段的覆盖范围信息也可以从第一区段覆盖范围数据322中排除。在一个或更多个说明性实例中,为了从第一区段覆盖范围数据322中排除相应的第一区段318的覆盖范围信息,第一区段318中存在的序列表示的阈值数量是0、1、2、3、4、5、8、10、12、15、20、25、35、50、75或100。在各种实例中,用于确定是否从确定第一区段覆盖范围数据322中排除相应的第一区段318的覆盖范围数据可以基于第一区段318的参考覆盖范围数据,该参考覆盖范围数据对应于从其中没有检测到拷贝数变异的个体获得的参考样品。
此外,在操作324,过程300可以包括归一化第一区段覆盖范围数据322以产生归一化覆盖范围数据326。归一化覆盖范围数据326可以通过相对于参考覆盖范围数据分析第一区段覆盖范围数据322来生成。在一个或更多个实例中,可以基于脱靶序列来确定参考覆盖范围数据,脱靶序列是基于从不存在拷贝数变异的个体获得的许多样品而生成的。在各种实例中,可以通过分析从其中不存在拷贝数变异的个体的参考样品获得的序列数据来确定参考覆盖范围数据,以确定从参考样品生成的与参考序列302的靶区域不对齐的脱靶序列表示。参考序列302的第一区段318的参考覆盖范围数据可以通过确定从包括在单个第一区段318中的来源于参考样品的脱靶序列表示的相应数量来产生。在一个或更多个说明性实例中,给定第一区段318的参考覆盖范围数据可以基于关于给定第一区段318来源于多于一个参考样品的脱靶序列表示的平均数量来确定。对于单个第一区段318,可以通过确定包括在单个第一区段覆盖范围数据322中的脱靶序列表示的数量相对于单个第一区段318的参考覆盖范围数据的比率来生成归一化覆盖范围数据。归一化覆盖范围数据326可以通过聚集包括在第一区段覆盖范围数据322中的脱靶序列表示的数量相对于单个第一区段318的参考覆盖范围数据的比率来产生。
第一区段覆盖范围数据322的归一化也可以相对于鸟嘌呤-胞嘧啶(G-C)含量或可映射性评分中的至少一个来执行。例如,对于单个第一区段318,可以确定G-C含量,其指示对应于单个第一区段318的脱靶序列表示的鸟嘌呤核苷酸的数量和胞嘧啶核苷酸的数量。此外,对于多于一个分区的G-C含量的分区,可以确定G-C含量的频率。G-C含量的单个分区可以对应于G-C含量值的不同范围。以这种方式,给定第一区段318的G-C含量的频率可以由单个第一区段318的G-C含量分布来表示。可以基于单个第一区段318的G-C含量的频率来确定单个第一区段318的预期覆盖范围量。归一化覆盖范围数据326的至少一部分可以包括基于单个第一区段318的预期覆盖范围量确定的G-C归一化覆盖范围数据。
此外,可以为对应于单个第一区段318的单个序列表示确定可映射性评分。还可以确定序列表示的频率,该频率对应于在单个第一区段318的多于一个分区的分区内具有可映射性评分的序列表示的数量。用于单个第一区段318的多于一个分区的可映射性评分的单个分区可以对应于可映射性评分的不同范围的值。可以基于单个第一区段318的可映射性评分的频率来确定单个第一区段318的预期覆盖范围量。归一化覆盖范围数据326的至少一部分可以包括基于单个第一区段318的预期覆盖范围量确定的可映射性评分归一化覆盖范围数据。
在各种实例中,归一化覆盖范围数据326可以包括对应于G-C含量归一化数据、可映射性评分归一化数据、根据参考覆盖范围数据归一化的覆盖范围数据或根据中值覆盖范围数据归一化的覆盖范围数据中的至少一个的归一化数据的组合。在一个或更多个实例中,可以基于相对于一组或更多组另外的数据执行的归一化来调整相对于第一组数据执行的归一化,以产生第一区段318的覆盖范围度量的最终归一化值。例如,可以相对于从多于一个第一区段318生成的中值覆盖范围数据,针对单个第一区段318的第一区段覆盖范围数据322,执行第一区段318的第一归一化。在一个或更多个实例中,第一归一化可以导致单个第一区段318的第一比率。继续这个例子,可以相对于来源于多个参考样品的单个第一区段318的参考覆盖范围数据,对单个第一区段318的第一区段覆盖范围数据322执行第二归一化。在一个或更多个另外的实例中,第二归一化可以导致单个第一区段318的第二比率。在这些情况下,可以基于在第二归一化之后生成的单个第一区段318的第二归一化覆盖范围数据来调整在第一归一化之后生成的单个第一区段318的第一归一化覆盖范围数据,以产生第一调整的归一化覆盖范围数据。
可以相对于单个第一区段318的G-C含量、相对于多于一个另外的第一区段318的G-C含量(例如,中值G-C含量)或相对于来源于参考样品的G-C含量进行第三归一化。第三归一化的结果可以包括第三比率。在各种实例中,可以基于G-C含量归一化数据来调整第二归一化覆盖范围数据,以产生第二调整的归一化覆盖范围数据。此外,可以针对可映射性评分执行第四归一化,以产生可映射性评分归一化数据。可以基于可映射性评分归一化数据进一步调整第二调整的归一化覆盖范围数据,以生成第三调整的归一化覆盖范围数据。在各种实例中,第一归一化覆盖范围数据、第一调整的归一化覆盖范围、第二调整的归一化覆盖范围数据或第三调整的归一化覆盖范围数据中的至少一个可以被包括在归一化覆盖范围数据326中。
在一个或更多个实例中,归一化覆盖范围数据的过程324可以包括将比例因子应用于第一区段覆盖范围数据322的一个或更多个操作。在一个或更多个另外的实例中,比例因子可以应用于中靶覆盖范围数据。可以通过将给定第一区段118的覆盖范围数据除以一组第一区段318的覆盖范围数据的中值来确定比例因子。在一个或更多个说明性实例中,第一区段318的组可以包括至少约90%的第一区段318、至少约95%的第一区段318、至少约99%的第一区段、至少约99.5%的第一区段318或至少约99.9%的第一区段318。
过程300可以包括,在操作328,执行关于参考序列302的第二分割过程。第二分割过程可以将参考序列302分成多个第二区段,诸如说明性的第二区段330。单个第二区段330可以包括多于一个第一区段318。在一个或更多个实例中,单个第二区段330可以包括至少30个第一区段318、至少35个第一区段318、至少40个第一区段318、至少45个第一区段318、至少50个第一区段318、至少55个第一区段318或至少60个第一区段318。在一个或更多个说明性实例中,单个第二区段330可以包括比单个第一区段318更多数量的核苷酸。例如,单个第二区段330可以包括至少约200万个核苷酸、至少约300万个核苷酸、至少约400万个核苷酸、至少约500万个核苷酸、至少约600万个核苷酸或至少约700万个核苷酸。在一个或更多个说明性实例中,单个第二区段330可以包括约200万个核苷酸至约1200万个核苷酸、约300万个核苷酸至约1000万个核苷酸、或约400万个核苷酸至约800万个核苷酸。在各种实例中,至少一个或更多个第二区段330可以具有与第二区段330中的至少一个另外区段不同数量的核苷酸。在各种实例中,第二分割过程可以包括一个或更多个循环二进制分割过程,诸如由Olshen,Adam等人,“Circular binary segmentations for the analysis of array-based DNA copy number data”,Biostatistics,2004October;5(4):557-72描述的那些。
作为第二分割过程的一部分确定的第二区段330的数量可以是至少5、至少7、至少10、至少12、至少15、至少16、至少17、至少18、至少19、至少20、至少21、至少22、至少23、至少24或至少25。在一个或更多个说明性实例中,作为第二分割过程的一部分确定的第二区段330的数量可以是5到30、10到27或18到24。
在第二分割过程完成之后,可以确定第二区段覆盖范围数据332。单个第二区段330的第二区段覆盖范围数据332可以包括单个第二区段330中包含的每个第一区段318的归一化覆盖范围度量。在一个或更多个说明性实例中,单个第二区段330的第二区段覆盖范围数据332可以对应于构成第二区段330的多于一个第一区段318的归一化覆盖范围度量的总和。在操作334,可以基于第二区段覆盖范围数据332来确定肿瘤度量。例如,可以基于第二区段覆盖范围数据332来确定脱靶序列表示所来源的样品的肿瘤细胞拷贝数。单个第二区段330的肿瘤细胞拷贝数可以指示对应于单个第二区段330中的一个或更多个的基因组区域的扩增或缺失的量。在各种实例中,肿瘤细胞拷贝数可以指示对应于单个第二区段330中的一个或更多个的基因组区域的杂合性丢失。此外,还可以在第二分割过程完成时确定肿瘤分数。在一个或更多个说明性实例中,肿瘤度量可以包括模型的参数值,该模型可用于确定肿瘤细胞拷贝数和肿瘤分数的值的似然。为了说明,第二分割过程可以产生23个区段。在这些场景中,肿瘤度量可以包括23个肿瘤细胞拷贝数,每个拷贝数对应于相应的第二区段330。23个肿瘤细胞拷贝数以及基于第二区段覆盖范围数据332确定的肿瘤分数可以包括用于最大似然估计模型的参数值,该模型确定肿瘤细胞拷贝数和肿瘤分数的估计值的似然。
在一个或更多个实例中,可以对不满足一个或更多个标准的第二区段330的至少一部分重复第一分割过程316和第二分割过程328。例如,在第一分割过程316和第二分割过程328的第一次迭代之后,一个或更多个第二区段330的肿瘤细胞拷贝数的似然可以小于最小似然。在一个或更多个另外的实例中,一个或更多个标准可以对应于肿瘤细胞拷贝数的估计是否从分割过程的一次迭代到下一次迭代改变。
在这些情况下,可以对不满足一个或更多个标准的一个或更多个第二区段重复第一分割过程316和第二分割过程328,而对满足一个或更多个标准的第二区段330不重复第一分割过程316和第二分割过程328。为了说明,参考序列302中对应于不满足一个或更多个标准的一个或更多个第二区段330的部分可以被分割成另外的第一区段。在各种实例中,可以针对具有相对于该区段的预期拷贝数相同或一致拷贝数的第二区段执行第二分割过程。预期的拷贝数可以基于相应区段的参考基因组的拷贝数。可以为另外的第一区段确定另外的覆盖范围数据,并且可以针对另外的第一区段的另外覆盖范围数据执行一个或更多个归一化过程。在一个或更多个说明性实例中,可以通过根据参考覆盖范围数据实施G-C含量归一化过程、可映射性评分归一化过程或覆盖范围数据归一化过程中的至少一个来确定另外的归一化覆盖范围数据。
在确定另外的归一化覆盖范围数据之后,可以使用另外的归一化覆盖范围数据关于另外的第一区段执行第二分割过程的另外实施,以确定一个或更多个另外的第二区段。可以基于另外的归一化覆盖范围数据来确定一个或更多个另外的第二区段的另外的第二区段覆盖范围数据。另外的第二区段的另外的区段覆盖范围数据可用于确定另外的第二区段的肿瘤细胞拷贝数。初始第二区段的初始肿瘤细胞拷贝数可以与另外的肿瘤细胞拷贝数组合,并用作最大似然估计模型的参数。此外,初始第二区段和另外的第二区段的覆盖范围数据可以组合以确定样品的肿瘤分数的值。样品的肿瘤分数的值也可以用作最大似然估计模型的参数。
在一个或更多个实施方式中,为了确定对第二区段330的肿瘤细胞拷贝数的估计,可以基于第二区段覆盖范围数据332来确定对第二区段330的肿瘤细胞拷贝数的第一估计。可以执行另外的第一分割过程以确定另外的第一区段。在各种实例中,另外的第一区段的至少一部分可以位于参考基因组302的与相应第一区段318相同的基因组位置。还可以基于根据对应于另外的第一区段的序列表示的相应数量确定的另外的第一区段覆盖范围数据来确定另外的归一化覆盖范围数据。另外的归一化覆盖范围数据可用于执行另外的第二分割过程,并且可确定另外的第二区段覆盖范围数据。在一个或更多个实例中,另外的第二区段的至少一部分可以位于参考基因组302的与相应第二区段330相同的基因组位置。另外的第二区段覆盖范围数据可用于确定另外的第二区段的肿瘤细胞拷贝数的第二估计。
可以相对于肿瘤细胞拷贝数的第一估计来分析肿瘤细胞拷贝数的第二估计。在另外的第二区段的肿瘤细胞拷贝数的第二估计不同于相应第二区段的肿瘤细胞拷贝数的第一估计的情况下,可以执行第一分割过程和第二分割过程的第三迭代,以及第二另外的第一区段覆盖范围数据、第二另外的归一化覆盖范围数据和第二另外的第二覆盖范围数据的确定。在另外的第二区段的肿瘤细胞拷贝数的第二估计与相应第二区段的肿瘤细胞拷贝数的第一估计相同的情况下,可以确定相应第二区段的肿瘤细胞拷贝数不变,并且满足用于确定相应第二区段的肿瘤细胞拷贝数的估计的一个或更多个标准。在一个或更多个说明性实例中,响应于确定在第一分割过程和第二分割过程的多次迭代之后肿瘤细胞拷贝数的估计相同,第二区段的肿瘤细胞拷贝数可以被认为是不变的。在各种实例中,第一分割过程和第二分割过程的每次迭代的初始条件可以不同。此外,可以基于一种或更多种循环二进制分割技术来确定第二区段的肿瘤细胞拷贝数的估计不变。
图4是根据一个或更多个实施方式,确定从来源于脱靶序列的尺寸分布度量确定的肿瘤度量的示例过程的示意图。过程400可以包括基于测序数据确定中靶序列表示和脱靶序列表示,测序数据包括来源于从受试者获得的样品的多核苷酸序列。在一个或更多个实例中,可以通过分析关于参考序列402的序列表示来确定中靶序列表示和脱靶序列表示。为了说明,可以相对于参考序列402的一个或更多个部分(诸如说明性参考序列部分404)分析序列表示,以确定序列表示和说明性参考序列部分404之间的同源性量。在图4的说明性实例中,说明性参考序列部分404可以包括对应于驱动突变的靶区域406。在各种实例中,参考序列402可以具有至少约500个靶区域、至少约1000个靶区域、至少约2500个靶区域、至少约5000个靶区域、至少约10,000个靶区域、至少约15,000个靶区域、至少约20,000个靶区域、至少约25,000个靶区域或至少约30,000个靶区域。靶区域406可以包括约25个核苷酸至约250个核苷酸、约50个核苷酸至约200个核苷酸、或约75个核苷酸至约150个核苷酸。
此外,在图4的说明性实例中,相对于说明性参考序列部分404分析第一序列表示408、第二序列表示410和第三序列表示412。基于该分析,第一序列表示408相对于靶区域406的至少一部分对齐。在这些场景中,第一序列表示408可以被鉴定为中靶序列表示。此外,第二序列表示410可以与说明性参考序列部分404中位于靶区域406之外的部分对齐。第三序列表示412还可以与在靶区域406之外的说明性参考序列部分404的另外部分对齐。在这些情况下,第二序列表示410和第三序列表示412可以被鉴定为脱靶序列表示。
来源于样品的序列表示和参考序列402之间的比对过程可以生成脱靶序列数据414。脱靶序列数据414可以包括与参考序列402中在靶区域之外的区域对齐的序列表示。例如,脱靶序列数据414可以包括第二序列表示410和第三序列表示412。
在操作416,过程400可以包括基于脱靶序列数据414执行的第一分割过程。第一分割过程可以生成参考序列402的许多第一区段,诸如说明性的第一区段418。执行第一分割过程,使得参考序列402的第一区段418具有不大于阈值数量的数量的核苷酸。在一个或更多个说明性实例中,核苷酸的阈值数量可以不大于约200千碱基(kb)、不大于约180kb、不大于约160kb、不大于约140kb、不大于约120kb、不大于约100kb、不大于约80kb或不大于约60kb。在一个或更多个另外的说明性实例中,第一区段318可以包括至少约50kb、至少约60kb、至少约70kb、至少约80kb、至少约90kb、至少约100kb、至少约120kb、至少约140kb、至少约160kb或至少约180kb。在各种实例中,第一区段418的至少一部分可以具有相同数量的核苷酸,并且多于一个第一区段418的剩余部分可以具有较少的核苷酸。在一个或更多个说明性实例中,多于一个第一区段418的至少一部分可以具有200kb,并且多于一个第一区段418的剩余部分可以具有较少的核苷酸。在一个或更多个另外的实例中,多于一个第一区段418中的至少约70%可以具有相同数量的核苷酸,多于一个第一区段418中的至少约75%可以具有相同数量的核苷酸,多于一个第一区段418中的至少约80%可以具有相同数量的核苷酸,多于一个第一区段418中的至少约85%可以具有相同数量的核苷酸,多于一个第一区段418中的至少约90%可以具有相同数量的核苷酸,多于一个第一区段418中的至少约95%可以具有相同数量的核苷酸,或者多于一个第一区段418中的至少约99%可以具有相同数量的核苷酸。在一个或更多个另外的实例中,可以执行参考序列402的第一分割过程,使得多于一个第一区段418排除靶区域。在这些实施方式中,多于一个第一区段418不与靶区域重叠。
参考序列402的第一区段418的数量可以是至少约7000、至少约8000、至少约9000、至少约10,000、至少约11,000、至少约12,000、至少约13,000、至少约14,000、至少约15,000、至少约16,000、至少约17,000、至少约18,000、至少约19,000、至少约20,000、至少约21,000、至少约22,000、至少约23,000、至少约24,000、至少约25,000或至少约26,000。在一个或更多个说明性实例中,参考序列402的第一区段418的数量可以是从约7000到约35,000,从约10,000到约30,000,或者从约12,000到约27,000。
在一个或更多个实例中,过程400可以包括确定单个第一区段418的尺寸分布420。用于单个第一区段418的尺寸分布420可以包括被包括在序列表示尺寸的分布的各个分区中的脱靶序列表示的数量。例如,尺寸分布420可以表示对应于相应第一区段418的序列表示的尺寸的正态分布。在这些场景中,单个分区可以对应于与平均值的标准偏差相关的序列表示的尺寸的范围。为了说明,分布420的第一分区可以包括具有比平均值大一个标准偏差的尺寸的序列表示,并且分布420的第二分区可以包括具有比平均值小一个标准偏差的尺寸的序列表示。此外,分布420的第三分区可以包括尺寸在大于平均值的一到两个标准偏差之间的序列表示,并且分布420的第四分区可以包括尺寸在小于平均值的一到两个标准偏差之间的序列表示。为第一区段418生成的尺寸分布数据可用于产生序列尺寸分布数据422。在各种实例中,序列尺寸分布数据422可以包括对应于单个第一区段418的脱靶序列表示的相应尺寸分布。
在各种实例中,序列尺寸分布数据422可以排除第一区段418中的一个或更多个的覆盖范围信息。以这种方式,可以过滤用于确定序列尺寸分布数据422的一个或更多个第一区段418。第一区段418的过滤可以基于脱靶序列数据414来执行。在一个或更多个另外的实例中,可以基于从不存在拷贝数变异的个体获得的参考样品生成的脱靶序列表示数据来执行第一区段418的过滤。
此外,可以确定与参考序列402的靶区域具有至少阈值量的重叠的第一区段418。在一个或更多个第一区段418与参考序列402的靶区域具有至少阈值量的重叠的情况下,对应于一个或更多个第一区段418的序列尺寸分布信息可以从序列尺寸分布数据422中排除。在各种实例中,参考序列402的靶区域和第一区段418中的一个或更多个之间的重叠的阈值量可以包括第一区段418与参考序列402的靶区域重叠至少约5个核苷酸,第一区段418与参考序列402的靶区域重叠至少约10个核苷酸,第一区段418与参考序列402的靶区域重叠至少约15个核苷酸,第一区段418与参考序列402的靶区域重叠至少约20个核苷酸,或者第一区段418与参考序列402的靶区域重叠至少约25个核苷酸。
在一个或更多个另外的实施方式中,具有少于阈值数量的序列表示的一个或更多个第一区段418的尺寸分布信息也可以从序列尺寸分布数据422中排除。在一个或更多个说明性实例中,为了从序列尺寸分布数据422中排除相应的第一区段418的序列尺寸分布信息,第一区段418中存在的序列表示的阈值数量是0、1、2、3、4、5、8、10、12、15、20、25、35、50、75或100。在各种实例中,用于确定是否从确定序列尺寸分布数据422中排除相应的第一区段418的序列尺寸分布信息可以基于第一区段418的参考序列尺寸分布数据,该参考序列尺寸分布数据对应于从其中没有检测到拷贝数变异的个体获得的参考样品。
此外,在操作424,过程400可以包括归一化序列尺寸分布数据422,以产生归一化尺寸分布数据426。归一化尺寸分布数据426可以通过相对于参考尺寸分布数据分析序列尺寸分布数据422来生成。在一个或更多个实例中,可以基于脱靶序列表示来确定参考尺寸分布数据,脱靶序列表示是基于从不存在肿瘤的个体获得的许多样品生成的。在各种实例中,可以通过分析从其中不存在拷贝数变异的个体的参考样品获得的测序数据来确定参考尺寸分布数据,以确定从参考样品生成的与参考序列402的靶区域不对齐的脱靶序列表示。参考序列402的第一区段418的参考尺寸分布数据可以通过确定来源于参考样品的脱靶序列表示的相应数量来产生,这些参考样品被包括在关于单个第一区段418的分布的相应分区中。在一个或更多个说明性实例中,给定第一区段418的参考尺寸分布数据可以基于关于给定第一区段418的分布的单个分区来源于多于一个参考样品的脱靶序列表示的平均数量来确定。对于单个第一区段418,可以通过确定来源于序列尺寸分布数据422的来自给定第一区段418的尺寸分布数据相对于单个第一区段418的参考尺寸分布数据的比率来生成归一化尺寸分布数据。归一化尺寸分布数据426可以通过聚集来源于序列尺寸分布数据422的来自给定第一区段418的尺寸分布数据相对于单个第一区段418的参考尺寸分布数据的比率来产生。
尽管在图4的说明性实例中没有示出,但是过程400可以包括执行关于参考序列402的第二分割过程。第二分割过程可以将参考序列402分成许多第二区段。单个第二区段可以包括多于一个第一区段418。在一个或更多个实例中,单个第二区段可以包括至少30个第一区段418、至少35个第一区段418、至少40个第一区段418、至少45个第一区段418、至少50个第一区段418、至少55个第一区段418或至少60个第一区段418。在一个或更多个说明性实例中,单个第二区段可以包括比单个第一区段418更多数量的核苷酸。例如,单个第二区段可以包括至少约200万个核苷酸、至少约300万个核苷酸、至少约400万个核苷酸、至少约500万个核苷酸、至少约600万个核苷酸或至少约700万个核苷酸。在一个或更多个说明性实例中,单个第二区段可以包括约200万个核苷酸至约1200万个核苷酸、约300万个核苷酸至约1000万个核苷酸、或约400万个核苷酸至约800万个核苷酸。在各种实例中,至少一个或更多个第二区段可以具有与第二区段中的至少一个另外区段不同数量的核苷酸。在各种实例中,第二分割过程可以包括一个或更多个循环二进制分割过程,诸如由Olshen,Adam等人,“Circular binary segmentations for the analysis of array-based DNA copynumber data”,Biostatistics,2004October;5(4):557-72描述的那些。
作为第二分割过程的一部分确定的第二区段的数量可以是至少5、至少7、至少10、至少12、至少15、至少16、至少17、至少18、至少19、至少20、至少21、至少22、至少23、至少24或至少25。在一个或更多个说明性实例中,作为第二分割过程的一部分确定的第二区段的数量可以是5到30、10到27或18到24。
在完成第二分割过程之后,可以确定第二尺寸分布数据。参考基因组402的单个第二区段的第二尺寸分布数据可以包括单个第二区段中包含的每个第一区段418的归一化覆盖范围度量。在一个或更多个说明性实例中,单个第二区段的第二尺寸分布数据可以对应于构成第二区段的多于一个第一区段418的归一化覆盖范围度量的总和。此外,在操作428,可以基于第二尺寸分布数据来确定肿瘤度量。例如,可以基于第二尺寸分布数据来确定脱靶序列表示所来源的样品的肿瘤细胞拷贝数。单个第二区段的肿瘤细胞拷贝数可以指示对应于单个第二区段中的一个或更多个的基因组区域的扩增或缺失的量。在各种实例中,肿瘤细胞拷贝数可以指示对应于一个或更多个单个第二区段的基因组区域的杂合性丢失。此外,还可以在第二分割过程完成时确定肿瘤分数。在一个或更多个说明性实例中,肿瘤度量可以包括模型的参数值,该模型可用于确定肿瘤细胞拷贝数和肿瘤分数的值的可能性。为了说明,第二分割过程可以产生23个区段。在这些场景中,肿瘤度量可以包括23个肿瘤细胞拷贝数,每个拷贝数对应于相应的第二区段330。23个肿瘤细胞拷贝数以及基于第二尺寸分布数据确定的肿瘤分数可以包括用于最大似然估计模型的参数值,该模型确定肿瘤细胞拷贝数和肿瘤分数的估计值的似然。
在一个或更多个实例中,可以对不满足一个或更多个标准的第二区段的至少一部分重复第一分割过程416和第二分割过程。例如,在第一分割过程416和第二分割过程的第一次迭代之后,一个或更多个第二区段的肿瘤细胞拷贝数的似然可以小于最小似然。在这些情况下,可以对不满足一个或更多个标准的一个或更多个第二区段重复第一分割过程416和第二分割过程,而对满足一个或更多个标准的第二区段不重复第一分割过程416和第二分割过程。为了说明,参考序列402中对应于不满足一个或更多个标准的一个或更多个第二区段的部分可以被分割成另外的第一区段。可以为另外的第一区段确定另外的覆盖范围数据,并且可以针对另外的第一区段的另外的覆盖范围数据执行一个或更多个归一化过程。在一个或更多个说明性实例中,可以通过根据参考尺寸分布数据实施尺寸分布数据归一化过程来确定另外的归一化覆盖范围数据。
在确定另外的归一化尺寸分布数据之后,可以使用另外的归一化尺寸分布数据关于另外的第一区段执行第二分割过程的另外实施,以确定一个或更多个另外的第二区段。基于另外的归一化尺寸分布数据,可以为一个或更多个另外的第二区段确定另外的第二区段尺寸分布数据。另外的第二区段的另外的区段尺寸分布数据可用于确定另外的第二区段的肿瘤细胞拷贝数。初始第二区段的初始肿瘤细胞拷贝数可以与另外的肿瘤细胞拷贝数组合,并用作最大似然估计模型的参数。此外,初始第二区段和另外的第二区段的尺寸分布数据可以组合以确定样品的肿瘤分数的值。样品的肿瘤分数的值也可以用作最大似然估计模型的参数。
在一个或更多个实施方式中,为了确定对参考基因组402的第二区段的肿瘤细胞拷贝数的估计,可以基于第二区段尺寸分布数据来确定对第二区段的肿瘤细胞拷贝数的第一估计。可以执行另外的第一分割过程以确定另外的第一区段。在各种实例中,另外的第一区段的至少一部分可以位于参考基因组402的与相应第一区段418相同的基因组位置。还可以基于根据对应于另外的第一区段的序列表示的相应数量确定的另外的第一区段尺寸分布数据来确定另外的归一化尺寸分布数据。另外的归一化尺寸分布数据可用于执行另外的第二分割过程,并且可以确定另外的第二区段尺寸分布数据。在一个或更多个实例中,另外的第二区段的至少一部分可以位于参考基因组402的与相应第二区段相同的基因组位置。另外的第二区段尺寸分布数据可用于确定另外的第二区段的肿瘤细胞拷贝数的第二估计。
可以相对于肿瘤细胞拷贝数的第一估计来分析肿瘤细胞拷贝数的第二估计。在另外的第二区段的肿瘤细胞拷贝数的第二估计不同于相应第二区段的肿瘤细胞拷贝数的第一估计的情况下,可以执行第一分割过程和第二分割过程的第三迭代,以及第二另外的第一区段尺寸分布数据、第二另外的归一化尺寸分布数据和第二另外的第二尺寸分布数据的确定。在另外的第二区段的肿瘤细胞拷贝数的第二估计与相应第二区段的肿瘤细胞拷贝数的第一估计相同的情况下,可以确定相应第二区段的肿瘤细胞拷贝数不变,并且满足用于确定相应第二区段的肿瘤细胞拷贝数的估计的一个或更多个标准。在一个或更多个说明性实例中,响应于确定在第一分割过程和第二分割过程的多次迭代之后肿瘤细胞拷贝数的估计相同,第二区段的肿瘤细胞拷贝数可以被认为是不变的。在各种实例中,第一分割过程和第二分割过程的每次迭代的初始条件可以不同。此外,可以基于一种或更多种循环二进制分割技术来确定第二区段的肿瘤细胞拷贝数的估计不变。
图5是使用分箱操作、一个或更多个另外的分割操作和似然函数来确定肿瘤度量的示例过程500的示意图。过程500在操作502包括参考基因组分箱。参考基因组分箱可以包括沿着参考基因组的核苷酸序列确定箱元,其中箱元包括许多核酸。在一个或更多个实例中,单个箱元可以包括不大于约200kb、不大于约180kb、不大于约160kb、不大于约140kb、不大于约120kb、不大于约100kb、不大于约80kb或不大于约60kb。在一个或更多个另外的说明性实例中,第一区段318可以包括至少约50kb、至少约60kb、至少约70kb、至少约80kb、至少约90kb、至少约100kb、至少约120kb、至少约140kb、至少约160kb或至少约180kb。在各种实例中,箱元的至少一部分可以具有相同数量的核苷酸,而箱元的其余部分可以具有较少的核苷酸。在一个或更多个说明性实例中,第一数量的箱元可以具有200kb,并且第二数量的箱元可以具有小于200kb。在一个或更多个另外的实例中,至少约70%的箱元具有相同数量的核苷酸,至少约75%的箱元具有相同数量的核苷酸,至少约80%的箱元具有相同数量的核苷酸,至少约85%的箱元具有相同数量的核苷酸,至少约90%的箱元具有相同数量的核苷酸,至少约95%的箱元具有相同数量的核苷酸,或者至少约99%的箱元具有相同数量的核苷酸。在各种实例中,箱元可以排除靶区域。例如,可以确定箱元,使得单个箱元不与一个或更多个靶区域重叠。
在一个或更多个实例中,靶区域可以对应于参考序列中对应于驱动突变的区域。在一个或更多个说明性实例中,单个驱动突变可以对应于作为肿瘤检测诊断测试的一部分的探针。在各种实例中,参考序列可以具有至少约500个靶区域、至少约1000个靶区域、至少约2500个靶区域、至少约5000个靶区域、至少约10,000个靶区域、至少约15,000个靶区域、至少约20,000个靶区域、至少约25,000个靶区域或至少约30,000个靶区域。单个靶区域可以包括约25个核苷酸至约250个核苷酸、约50个核苷酸至约200个核苷酸、或约75个核苷酸至约150个核苷酸。在一个或更多个实例中,参考序列可以是人类参考序列。
箱元的数量可以是至少约7000、至少约8000、至少约9000、至少约10,000、至少约11,000、至少约12,000、至少约13,000、至少约14,000、至少约15,000、至少约16,000、至少约17,000、至少约18,000、至少约19,000、至少约20,000、至少约21,000、至少约22,000、至少约23,000、至少约24,000、至少约25,000或至少约26,000。在一个或更多个说明性实例中,箱元的数量可以是从约7000到约35,000,从约10,000到约30,000,或者从约12,000到约27,000。
在操作502发生的参考基因组分箱可以生成中靶序列表示504和脱靶序列表示506。中靶序列表示504可以对应于源自样品或样品中包括的核苷酸分子的与参考序列的靶区域对齐的序列读段中的至少一个。此外,脱靶序列表示506可以对应于源自样品或样品中包括的核苷酸分子的与由参考基因组分箱产生的相应箱元对齐的序列读段中的至少一个。
中靶序列表示504和脱靶序列表示506可以组合以产生覆盖范围数据508。覆盖范围数据508可以指示对应于由参考基因组分箱产生的单个箱元的序列表示的定量量度和对应于单个靶区域的序列表示的定量量度。覆盖范围数据508中包括的定量量度可以对应于单个箱元或单个靶区域所对应的序列表示的数量。在一个或更多个另外的实例中,覆盖范围数据508中包括的定量量度可以对应于单个箱元或单个靶区域所对应的序列表示的数量相对于该单个箱元或单个靶区域所对应的序列表示的总数量的比率。
在一个或更多个实例中,可以过滤中靶序列表示504或脱靶序列表示506中的至少一个以生成覆盖范围数据508。例如,与和少于阈值数量的序列表示相关联的单个箱元对齐的脱靶序列表示506可以从覆盖范围数据508中排除。此外,可以从覆盖范围数据508中排除包括在与一个或更多个靶区域具有至少阈值量的重叠的脱靶序列表示506中的序列表示。
覆盖范围数据508可以用作在操作510执行的另外分割操作的一部分。在一个或更多个实例中,覆盖范围数据508在被用作在操作510执行的另外分割操作的一部分之前,可以经受一种或更多种归一化技术。在一个或更多个说明性实例中,覆盖范围数据508可以根据参考样品覆盖范围数据、G-C含量或可映射性评分中的至少一个来归一化。在各种实例中,参考样品覆盖范围数据可以对应于来源于不存在拷贝数变异的个体获得的样品中的定量量度。在一种或更多种情况下,参考样品覆盖范围数据可以从不存在拷贝数变异的个体获得的脱靶序列表示生成。
在操作510执行的另外的分割操作可以包括在操作512使用覆盖范围数据508的分割。在操作512执行的使用覆盖范围数据的分割可以包括确定参考序列中不同于箱元的区段。在一个或更多个实例中,使用覆盖范围数据508的分割可以将参考序列分成至少30个区段、至少35个区段、至少40个区段、至少45个区段、至少50个区段、至少55个区段或至少60个区段。在一个或更多个说明性实例中,通过使用覆盖范围数据514的分割产生的区段可以包括比在操作502执行的作为参考基因组分箱的一部分生成的箱元更多数量的核苷酸。例如,在操作512产生的单个区段可以包括至少约200万个核苷酸、至少约300万个核苷酸、至少约400万个核苷酸、至少约500万个核苷酸、至少约600万个核苷酸或至少约700万个核苷酸。在一个或更多个说明性实例中,在操作512产生的单个区段可以包括约200万个核苷酸至约1200万个核苷酸,约300万个核苷酸至约1000万个核苷酸,或约400万个核苷酸至约800万个核苷酸。在各种实例中,在操作512产生的至少一个或更多个区段可以具有与在操作514产生的至少一个另外区段不同数量的核苷酸。也就是说,由操作512使用覆盖范围数据508生成的单个区段可以具有可变数量的核苷酸。此外,在操作512确定的给定区段中包含的核苷酸的数量在不同的样品间可以不同。为了说明,在操作512为从第一个体获得的第一样品产生的单个区段中包括的核苷酸的第一数量可以不同于在操作512为从第二个体获得的第二样品产生的单个区段中包括的核苷酸的第二数量。在一个或更多个实施方式中,对于给定的样品组,在操作502产生的箱元的数量和位置可以相同,而在操作512产生的区段的数量或区段的尺寸中的至少一个可以变化。在各种实例中,第二分割过程可以包括一个或更多个循环二进制分割过程,诸如由Olshen,Adam等人,“Circular binary segmentations forthe analysis of array-based DNA copy number data”,Biostatistics,2004October;5(4):557-72描述的那些。
此外,在操作510处的另外分割操作可以包括在操作514处使用种系SNP突变等位基因频率(MAF)数据516的分割。种系SNP MAF数据516可以对应于杂合种系SNP。在一个或更多个说明性实例中,种系SNP MAF数据516可以包括使用Genome Aggregation Database版本2.1.1鉴定的杂合种系SNP。此外,种系SNP MAF数据516可以对应于与在操作502产生的单个箱元对齐的种系SNP。例如,可以选择预定的种系SNP的集合并与参考序列比对。然后可以将种系SNP的基因组位置与单个箱元的基因组位置进行比较。以这种方式,在操作502由参考基因组分箱产生的单个箱元的至少一部分可以包括一个或更多个种系SNP。在种系SNPMAF数据516中表示的种系SNP的数量可以是至少约100个SNP、至少约250个SNP、至少约500个SNP、至少约1000个SNP、至少约1500个SNP、至少约2000个SNP、至少约3000个SNP、至少约4000个SNP或至少约5000个SNP。此外,种系SNP MAF数据616中表示的种系SNP的数量可以不大于约30,000个SNP、不大于约25,000个SNP、不大于约20,000个SNP、不大于约15,000个SNP、不大于约10,000个SNP或不大于约8000个SNP。在一个或更多个说明性实例中,种系SNPMAF数据616中表示的种系SNP的数量可以是约250个SNP至约30,000个SNP、约500个SNP至约10,000个SNP、约1000个SNP至约5000个SNP、或约2500个SNP至约8000个SNP。在各种实例中,种系SNP MAF数据516中表示的SNP可以对应于与个体中至少一种类型癌症的存在相关联的SNP。在一个或更多个另外的实例中,种系SNP MAF数据516中表示的SNP可以对应于驱动突变所对应的SNP。
在一个或更多个实例中,可以确定单个种系SNP的突变等位基因分数,并用于确定参考序列的区段。在操作514产生的区段的数量和包含在单个区段中的核苷酸的数量可以与在操作512产生的那些相同或相似。例如,在操作514执行的使用种系SNP MAF数据516的分割可以包括确定不同于箱元的参考序列的区段。在一个或更多个实例中,使用种系SNPMAF数据516的分割可以将参考序列分成至少30个区段、至少35个区段、至少40个区段、至少45个区段、至少50个区段、至少55个区段或至少60个区段。在一个或更多个说明性实例中,通过使用种系SNP MAF数据516的分割产生的区段可以包括比在操作502执行的作为参考基因组分箱的一部分生成的箱元更多数量的核苷酸。例如,在操作514产生的单个区段可以包括至少约200万个核苷酸、至少约300万个核苷酸、至少约400万个核苷酸、至少约500万个核苷酸、至少约600万个核苷酸或至少约700万个核苷酸。在一个或更多个说明性实例中,在操作514产生的单个区段可以包括约200万个核苷酸至约1200万个核苷酸,约300万个核苷酸至约1000万个核苷酸,或约400万个核苷酸至约800万个核苷酸。在各种实例中,在操作514产生的至少一个或更多个区段可以具有与在操作514产生的至少一个另外区段不同数量的核苷酸。也就是说,由操作514使用种系SNP数据516生成的单个区段可以具有可变数量的核苷酸。此外,在操作514确定的给定区段中包含的核苷酸的数量在不同的样品间可以不同。为了说明,从第一个体获得的第一样品在操作514产生的单个区段中包括的核苷酸的第一数量可以不同于从第二个体获得的第二样品在操作514产生的单个区段中包括的核苷酸的第二数量。在一个或更多个实施方式中,对于给定的样品组,在操作502产生的箱元的数量和位置可以相同,而在操作514产生的区段的数量或区段的尺寸中的至少一个可以变化。
在各种实例中,种系SNP MAF数据516可以在操作514中使用之前被修饰或转换。例如,可以确定种系SNP的MAF的倒数。此外,log base 2转换可以应用于种系SNP的倒数,以产生修饰的种系SNP MAF数据516,该数据在操作514中用于产生参考序列的区段。在一个或更多个说明性实例中,可以调整SNP MAF数据516,以便消除替代等位基因拷贝数改变的影响。在一个或更多个说明性实例中,SNP MAF数据516被调整为低于等位基因平衡基线。例如,当MAF值低于基线值时,将其保持为其原始值。在MAF高于基线值的情况下,将其向下翻转为(1-MAF)x(基线/0.5)。然后对调整的MAF进行log2转换并上移1,使得初始等位基因平衡的MAF 0.5现在被转换为0。
由操作512和514确定的区段的数量可以是至少5、至少7、至少10、至少12、至少15、至少16、至少17、至少18、至少19、至少20、至少21、至少22、至少23、至少24或至少25。在一个或更多个说明性实例中,由操作512和514产生的区段的数量可以是5到30、10到27或18到24。
在各种实例中,种系SNP MAF数据516可以作为输入提供给一个或更多个循环二进制分割过程,以确定参考序列的区段。此外,在操作514执行的使用种系SNP MAF数据516的分割可以是在操作512执行的使用覆盖范围数据508的分割的细化。在一个或更多个场景中,在操作512执行的使用覆盖范围数据508的分割可以是一个或更多个循环二进制分割过程的第一实施,并且在操作516执行的使用种系SNP MAF数据516的分割可以是一个或更多个循环二进制分割过程的第二实施。在一个或更多个实例中,由操作514生成的区段可以用作操作516的输入。在一个或更多个实例中,覆盖范围数据508可以对应于在循环二进制分割算法的第一实施期间使用的循环二进制分割算法的第一权重,并且种系SNP MAF数据可以对应于循环二进制分割算法的第二实施所对应的循环二进制分割算法的第二权重。
在一个或更多个实施方式中,在操作514使用种系SNP MAF数据516执行的分割可以提供比在操作514仅使用覆盖范围数据508执行的分割更一致和更准确的参考序列分割。为了说明,在至少一些情况下,在操作512使用覆盖范围数据508进行分割之后,数据中可能存在一定量的噪声,这导致关于确定在操作512确定的一个或更多个区段的拷贝数的一定量的不确定性。在操作514使用种系SNP MAF数据516的分割比仅在操作512进行分割时可以减少存在的噪声量,并且导致更准确地确定参考序列的区段。
分割数据518可以通过在510执行的另外分割操作来产生。在操作520,过程500可以包括基于分割数据518生成一个或更多个肿瘤指标522。肿瘤指标522可以包括对肿瘤细胞拷贝数或肿瘤分数中的至少一个的估计。包括在分割数据518中的单个区段的肿瘤细胞拷贝数可以指示对应于一个或更多个单个区段的基因组区域的扩增或缺失的量。在各种实例中,肿瘤细胞拷贝数可以指示对应于分割数据518中包括的一个或更多个单个区段的基因组区域的杂合性丢失。
可以使用似然函数524来确定在操作520生成的肿瘤指标522。似然函数可以通过将数值网格单独馈送到似然函数中来执行,直到收敛于给定区段的肿瘤细胞拷贝数和给定样品的肿瘤分数。数值网格可以包括对肿瘤细胞拷贝数的估计的数量和/或对肿瘤分数的估计的数量。在一个或更多个说明性实例中,似然函数524可以包括最大似然估计模型。在各种实例中,似然函数524可以包括肿瘤指标组分526。肿瘤指标组分526可以包括用于生成肿瘤指标522的似然函数524的参数。
在一个或更多个另外实施方式中,可以使用似然函数524直接使用覆盖范围数据508和种系SNP MAF数据516来确定肿瘤指标522。也就是说,可以在操作510处确定肿瘤指标522而不执行另外的分割操作。在这些场景中,似然函数524可以包括分割组分528。分割组分528可包括可用于确定参考序列的区段的似然函数524的参数。分割组分528可以包括与对应于肿瘤指标组分526的似然函数的参数不同的参数。在一个或更多个实例中,覆盖范围数据508可以在被似然函数524的分割组分528分析之前被归一化。
在一个或更多个实例中,分割组分528可用于生成参考序列的至少5个区段、参考序列的至少7个区段、参考序列的至少10个区段、参考序列的至少12个区段、参考序列的至少15个区段、参考序列的至少16个区段、参考序列的至少17个区段、参考序列的至少18个区段、参考序列的至少19个区段、参考序列的至少20个区段、参考序列的至少21个区段、参考序列的至少22个区段、参考序列的至少23个区段、参考序列的至少24个区段或参考序列的至少25个区段。在一个或更多个说明性实例中,似然函数的分割组分528可用于生成参考序列的5至30个区段、参考序列的10至27个区段或参考序列的18至24个区段。在一个或更多个另外说明性实例中,使用似然函数的分割组分528产生的单个区段可以包括约200万个核苷酸至约1200万个核苷酸、约300万个核苷酸至约1000万个核苷酸、或约400万个核苷酸至约800万个核苷酸。
在各种实例中,可以使用对应于肿瘤指标组分526的似然函数524的参数的最大似然估计量来确定初始分割。在一个或更多个实例中,参数可以对应于样品的肿瘤细胞拷贝数和肿瘤分数的估计。肿瘤细胞拷贝数(CN)可以使用以下公式来确定:
CN=n*TF+2*(1-TF),其中TF是样品肿瘤分数,并且n是肿瘤细胞拷贝数。
似然函数的参数也可以对应于种系SNP的突变等位基因频率(MAF)。种系SNP的MAF可以使用以下公式确定:
MAF=(n-1)*TF/(n*TF+2*(1-TF))或MAF=TF/(nTF+2*(1-TF))。
在一个或更多个说明性实例中,通过提供初始分割估计,并且然后找到初始区段的肿瘤细胞拷贝数和样品肿瘤分数的最大似然估计,可以使用具有肿瘤指标组分526和分割组分528二者的似然函数来确定肿瘤指标522。初始分割可以对应于人类参考序列的23条染色体。在一个或更多个另外的实例中,初始分割可以对应于基于覆盖范围数据508的循环二进制分割算法的初始实施。在一个或更多个另外的实例中,初始分割可以对应于基于覆盖范围数据508的循环二进制分割算法的初始实施,以及关于种系SNP的一个或更多个循环二进制分割(CBS)过程的初始实施。
由似然函数524使用覆盖范围数据508和种系SNP MAF数据516执行的分割可以使用迭代过程来执行。迭代过程可以包括对单个区段执行多于一个操作。例如,对于单个区段,可以执行环状分区(circular partition)。环状分区可以表示将该区段分成多于一个子区段。为了说明,该区段可以分成3个子区段。在区段被分成三个子区段的情况下,两个边缘子区段可以对应于相同的拷贝数,而中间子区段可以具有不同的拷贝数。然后可以测试环状分区,以确定环状分区是否使用区段拷贝数和样品肿瘤分数从箱元和与区段重叠的种系SNP产生更好的覆盖范围数据508拟合。可以使用一种或更多种统计或机器学习技术来确定环状分区的拟合度。为了说明,可以确定F统计量,其表示基于给定区段的箱元的覆盖范围数据确定的平均值的可变性与杂合SNP MAF之间的比率。当从箱元覆盖范围数据和杂合SNP MAF生成的平均值的可变性之间的比率大于区段内覆盖范围数据和SNP MAF的可变性时,可以确定区段数据的更好拟合。在各种实例中,当F统计量的p值低于阈值时,环状分区的区段是更好的拟合,并在分割过程的下一次迭代中使用。在一个或更多个说明性实例中,F统计量的阈值可以小于0.005、0.008、0.010、0.015或0.020。
图6是根据一个或更多个实施方式,生成可用于确定受试者的肿瘤度量的增强数量的脱靶序列表示的示例过程600的流程图。过程600可以关于样品602执行。
可以获得样品602的第一等分试样604和样品602的第二等分试样606。第一等分试样604可以经历第一许多操作,诸如在608进行末端修复,在610附着包含分子条形码的衔接子,在612附着引物,以及在614通过使用探针将片段杂交到探针来富集靶区域。在操作614使用探针进行杂交之前,可以进行一个或更多个扩增操作来扩增已经经历了操作608、610和612的多核苷酸的至少一部分。可以针对第一等分试样604执行操作608、610、612、614,产生富集的样品616。富集的样品616可以包括已经使用条形码标记的许多无细胞核酸,条形码可用于识别对应于包括在第一等分试样604中的单个核酸的序列。此外,富集的样品616可以包括双链核酸,其中包括在第一等分试样604中的相对于探针具有至少阈值量的互补性的核酸已经组合形成双链核酸。
第二等分试样606可以经历与针对第一等分试样604执行的第一许多操作不同的第二许多操作。例如,第二等分试样606可以在618处经历末端修复操作,在620处经历衔接子(包括分子条形码)附着操作,以及在622处经历引物附着操作,以产生未富集的样品624。未富集的样品624可以包括未经过杂交过程的第二等分试样606的单链核酸。
富集的样品616和未富集的样品624可以在626执行的测序过程期间组合。在一个或更多个说明性实例中,富集的样品616中包含的核酸和未杂交的非富集样品624中包含的核酸在测序过程期间可以不被扩增。包括在第二等分试样606中的至少约90%的核酸可以在测序过程期间不被扩增,包括在第二等分试样606中的至少约95%的核酸可以在测序过程期间不被扩增,包括在第二等分试样606中的至少约97%的核酸可以在测序过程期间不被扩增,包括在第二等分试样606中的至少约98%的核酸可以在测序过程期间不被扩增,或者包括在第二等分试样606中的至少约99%的核酸可以在测序过程期间不被扩增。
作为测序过程的结果,可以产生测序产物。在各种实例中,测序产物可以包括扩增产物,该扩增产物包括对应于在测序过程期间已经扩增的杂交的核酸的核酸。测序产物还可以包括在测序过程期间未被扩增的核酸,诸如包括在第一等分试样604中的核酸,其不对应于与杂交期间使用的探针相关的参考序列的靶区域。测序产物还可以包括包含在第二等分试样606中的核酸。
在操作628,过程600可以包括执行比对过程,该比对过程将由测序过程产生的多核苷酸序列的序列与参考序列比对。比对过程可以识别与测序产物中包含的核酸相关的序列表示相对应的不对应于参考序列的靶区域的脱靶序列表示。脱靶序列表示可以来源于富集的样品616中包括的核酸和未富集样品624中包括的不对应于参考序列的靶区域的核酸。可以基于比对过程生成增强量的脱靶序列表示630,因为增强量的脱靶序列表示630包括来源于富集的样品616和非富集样品624的脱靶序列表示,而不是识别来源于单一来源(诸如富集的样品616)的脱靶序列表示。
图7是根据一个或更多个实施方式,基于来源于脱靶序列表示的信息来确定受试者中的肿瘤度量的示例方法700的流程图。在操作702,方法700可以包括将从样品获得的多于一个序列与参考序列比对,以确定许多脱靶序列表示。脱靶序列表示可以与对应于驱动突变的参考基因组的靶区域之外的参考基因组的区域比对。在各种实例中,样品可以包含无细胞DNA分子。
此外,在操作704,可以执行分割过程以确定参考序列的多于一个区段。分割过程可以包括基于一个或更多个标准将参考基因组分成许多区段。在一个或更多个实例中,可以执行多于一个分割操作。在这些场景中,可以针对不同的分割操作应用不同的标准。例如,可以根据一个或更多个第一标准实施一个或更多个第一分割操作,并且可以根据一个或更多个第二标准实施第二分割过程。为了说明,第一分割过程可以通过将参考序列分成具有特定尺寸诸如至少50kb、至少75kb、至少100kb、至少125kb或至少150kb的区段来实施。在各种实例中,至少一部分区段可以具有相同数量的核苷酸。此外,可以执行第二分割过程,该过程基于各个区段的肿瘤细胞拷贝数不变来确定参考基因组的第二区段。在各种实例中,第二区段可以具有比第一区段更大的尺寸,并且包括许多第一区段。
此外,在操作706,方法700可以包括相对于脱靶序列表示确定相对于参考序列的多于一个区段的一个或更多个定量量度,诸如覆盖范围度量和尺寸分布度量。覆盖范围度量可以指示对应于参考序列的一个或更多个区段的序列表示的计数。尺寸分布度量可以指示具有相对于尺寸分布的相应尺寸的脱靶序列表示的计数。在一个或更多个实例中,尺寸分布可以包括分区的数量,每个分区对应于序列表示的尺寸范围。在一个或更多个实例中,归一化的定量量度也可以基于一个或更多个定量量度来确定。在各种实例中,归一化的定量量度可以基于从来源于不存在拷贝数变异的个体获得的参考样品的参考定量量度来确定。在一个或更多个另外的实例中,可以基于第一区段的可映射性评分或第一区段的鸟嘌呤-胞嘧啶(G-C)含量中的至少一个来确定归一化的定量量度。在一个或更多个另外实例中,一个或更多个定量量度可以对应于参考序列的靶区域所对应的单核苷酸多态性(SNP)的定量量度。
方法700还可以包括基于一个或更多个定量量度来确定从其获得样品的受试者的肿瘤细胞拷贝数。在一个或更多个实例中,可以基于脱靶序列表示的覆盖范围度量或脱靶序列表示的尺寸分布度量中的至少一个来确定肿瘤细胞拷贝数。在各种实例中,肿瘤细胞拷贝数也可以基于来源于与参考序列的靶区域相关的序列表示的定量量度来确定。此外,肿瘤细胞拷贝数可以基于对应于参考序列的靶区域的种系SNP的最大等位基因分数来确定。肿瘤细胞拷贝数也可以根据脱靶序列表示的覆盖范围度量、脱靶序列表示的尺寸分布度量、来源于与参考序列的靶区域相关的序列表示的定量量度或对应于参考序列的靶区域的种系SNP的最大等位基因分数中的至少两个的组合来确定。
图8是根据一个或更多个实施方式,基于从脱靶多核苷酸获得的覆盖范围信息来确定关于受试者的肿瘤度量的示例方法800的流程图。方法800可以包括,在操作802,获得测序数据,该测序数据指示来自受试者的样品中包含的多核苷酸分子的序列表示。受试者可以是人类受试者。序列表示可以对应于作为与样品相关的测序过程的一部分而生成的测序读段。在各种实例中,样品可以包含无细胞DNA分子。
另外,在操作804,方法800可以包括执行确定对应于参考序列的一部分的相应序列表示的比对过程。比对过程可以确定对应于参考序列的相应部分的序列表示。在一个或更多个实例中,可以进行比对过程,而不过滤测序读段或根据样品中包含的初始多核苷酸对测序读段进行分组。在一个或更多个另外实例中,可以通过确定对应于样品中包含的单个多核苷酸分子的多于一个测序读段来过滤测序读段。在这些情况下,将使用对应于样品中包含的单个多核苷酸分子的单个序列表示来执行比对过程。此外,在操作806,方法800可以包括通过识别许多比对的序列表示中不对应于参考序列的靶区域的部分来确定脱靶序列表示的集合。
在操作808,方法800还可以包括确定不包括靶区域的参考序列的第一区段。第一区段可以作为第一分割过程的一部分来确定,该第一分割过程根据一个或更多个标准将参考基因组分成许多第一区段。在各种实例中,一个或更多个标准可以包括单个第一区段的最大尺寸。在一个或更多个另外的实例中,一个或更多个标准可以包括最大化具有相应尺寸诸如50kb、75kb、100kb、125kb或150kb的第一区段的数量。
在操作810,过程800可以包括确定单个第一区段的第一覆盖范围度量。第一覆盖范围度量可以指示对应于单个第一区段的序列表示的数量。在一个或更多个说明性实例中,第一覆盖范围度量可以通过对与对应于单个第一区段的参考序列的部分对齐的序列表示进行计数来确定。
此外,在操作812,方法800可以包括确定单个第一区段的归一化覆盖范围度量。可以基于参考覆盖范围度量来确定归一化的覆盖范围度量。在一个或更多个实例中,可以基于来源于不存在拷贝数变异的个体获得的参考样品的覆盖范围信息来确定参考覆盖范围度量。在各种实例中,可以通过确定来源于与参考序列的单个第一区段对齐的参考样品的序列表示的数量来确定参考覆盖范围度量。可以通过确定来源于样品的与单个第一区段对齐的序列表示的数量相对于来源于参考样品的与单个第一区段对齐的序列表示的数量的比率来确定归一化覆盖范围度量。归一化覆盖范围度量也可以通过确定来源于样品的与单个第一区段对齐的序列表示的数量相对于第一区段的序列表示的平均数量的比率来确定。
在一个或更多个另外的实例中,可以基于第一区段的鸟嘌呤-胞嘧啶(G-C)含量来确定归一化覆盖范围度量。为了说明,归一化覆盖范围度量可以通过确定与单个第一区段对齐的G-C残基的频率来确定。然后可以相对于单个第一区段的G-C残基的预期数量来分析与单个第一区段对齐的G-C残基的频率,以确定单个第一区段的归一化G-C覆盖范围度量。
在更多的实例中,可以基于第一区段的可映射性评分来确定归一化覆盖范围度量。例如,归一化覆盖范围度量可以通过确定单个第一区段的部分相对于另外单个第一区段的另外部分之间的同源性量来确定。为了说明,可以相对于参考序列的另外部分分析第一区段的一部分,以确定第一区段的部分和参考序列的另外部分之间的同源性量,从而生成第一区段的部分的可映射性评分。可以相对于单个第一区段的预期可映射性评分来分析单个第一区段的部分的可映射性评分,以确定归一化覆盖范围度量。
此外,在操作814,过程800可以包括确定比第一区段具有更多数量核苷酸的参考人类基因组的第二区段。可以基于不同于用于确定第一区段的第一区段的第一分割过程的第二分割过程来确定第二区段。在一个或更多个实例中,第二分割过程可以基于与用于确定第一区段的标准不同的标准来确定第二区段。在各种实例中,第二区段可以包括比第一区段更多数量的核苷酸,并且第二区段可以包括许多第一区段。此外,第二区段可以包括靶区域。在一个或更多个说明性实例中,用于确定第二区段的一个或更多个标准可以包括确定肿瘤细胞相对于第二区段的拷贝数没有改变。
在操作816,方法800可以包括基于归一化覆盖范围度量来确定单个第二区段的第二覆盖范围度量。用于单个第二区段的第二覆盖范围度量可以包括用于各个第二区段中包括的单个箱元的归一化覆盖范围度量。在操作818,方法800可以包括:基于第二覆盖范围度量确定肿瘤细胞拷贝数的估计。在一个或更多个实例中,肿瘤细胞拷贝数的估计可以是最大似然估计模型的参数。肿瘤细胞的拷贝数可用于确定提供给提供样品的受试者的一种或更多种干预的有效性。可以向受试者提供所述一个或更多个干预以治疗受试者的疾病或生物状况。在一个或更多个说明性实例中,疾病或生物状况可以包括癌症。此外,肿瘤细胞的拷贝数可用于确定受试者关于疾病或状况的预后。在一个或更多个另外的实例中,第二覆盖范围度量也可用于确定关于受试者的肿瘤分数。
图9是根据一个或更多个实施方式,基于从脱靶多核苷酸获得的尺寸分布信息来确定关于受试者的肿瘤度量的示例方法900的流程图。方法900可以包括,在操作902,获得测序数据,该测序数据指示来自受试者的样品中包含的多核苷酸的序列表示。在一个或更多个实例中,受试者可以是人类受试者。序列表示可以对应于包括在测序数据中的测序读段。在各种实例中,样品可以包含无细胞DNA分子。
在操作904,方法900可以包括执行比对过程,该比对过程确定对应于单个序列表示的参考序列的一个或更多个部分。比对过程可以确定对应于参考序列的相应部分的序列表示。在一个或更多个实例中,可以进行比对过程,而不过滤测序读段或根据样品中包含的初始多核苷酸对测序读段进行分组。在一个或更多个另外实例中,可以通过确定对应于样品中包含的单个多核苷酸分子的多于一个测序读段来过滤测序读段。在这些情况下,将使用对应于样品中包含的单个多核苷酸分子的单个序列表示来执行比对过程。
此外,在操作906,方法900可以包括通过识别不对应于参考序列的靶区域的许多比对的序列的一部分来确定脱靶分子的集合。此外,在操作908,方法900可以包括确定参考序列中不包括靶区域的区段。区段可以作为分割过程的一部分来确定,该分割过程根据一个或更多个标准将参考基因组分成许多区段。在各种实例中,一个或更多个标准可以包括单个区段的最大尺寸。在一个或更多个另外的实例中,一个或更多个标准可以包括最大化具有相应尺寸诸如50kb、75kb、100kb、125kb或150kb的区段的数量。
在操作910,方法900还可以包括确定单个区段的序列尺寸分布度量。序列尺寸分布度量可以对应于序列表示的各种尺寸范围所对应的序列表示的数量。例如,可以为单个区段确定尺寸分布。尺寸分布可以包括分区的数量,每个分区对应于序列表示的尺寸范围。在一个或更多个说明性实例中,尺寸分布的第一分区可以对应于具有1个核苷酸至40个核苷酸的序列表示,第二分区可以对应于具有41个核苷酸至80个核苷酸的序列表示,第三分区可以对应于具有81个核苷酸至120个核苷酸的序列表示,并且第四分区可以对应于具有大于121个核苷酸的序列表示。继续这个实例,一个或更多个区段的序列尺寸分布度量可以指示对应于第一分区的序列表示的第一数量、对应于第二分区的序列表示的第二数量、对应于第三分区的序列表示的第三数量以及对应于第四分区的序列表示的第四数量。在各种实例中,对应于每个分区的序列表示的尺寸范围可以基于单个区段的序列表示的平均尺寸和与平均值的标准偏差。
在操作912,方法900还可以包括确定单个区段的归一化序列尺寸分布度量。可以基于参考尺寸分布度量来确定单个区段的归一化序列尺寸分布度量。在一个或更多个实例中,可以基于来源于不存在拷贝数变异的个体获得的参考样品的序列尺寸分布信息来确定参考尺寸分布度量。在各种实例中,参考尺寸分布度量可以通过确定来源于参考样品的序列表示的数量来确定,这些序列表示与参考序列的单个区段对齐,并且对应于尺寸分布的单个分区。可以通过确定来源于样品的与单个区段对齐并对应于尺寸分布的相应分区的序列表示的数量相对于来源于参考样品的与单个区段对齐并对应于尺寸分布的相应分区的序列表示的数量的比率来确定归一化尺寸分布度量。归一化尺寸分布度量也可以通过确定来源于样品的与单个区段对齐并且对应于尺寸分布的相应分区的序列表示的数量相对于对应于尺寸分布的相应分区的区段的序列表示的平均数量的比率来确定。
此外,在操作914,方法900可以包括基于归一化的序列尺寸分布度量来确定肿瘤细胞的拷贝数的估计。在一个或更多个实例中,肿瘤细胞拷贝数的估计可以是最大似然估计模型的参数。肿瘤细胞的拷贝数可用于确定提供给提供样品的受试者的一种或更多种干预的有效性。可以向受试者提供所述一个或更多个干预以治疗受试者的疾病或生物状况。在一个或更多个说明性实例中,疾病或生物状况可以包括癌症。此外,肿瘤细胞的拷贝数可用于确定受试者关于疾病或状况的预后。在一个或更多个另外的实例中,归一化尺寸分布度量也可用于确定关于受试者的肿瘤分数。
尽管没有参照图9进行描述,但是过程900还可以包括第二分割过程,该第二分割过程用于基于归一化尺寸分布度量来确定第二尺寸分布度量。第二尺寸分布度量可用于确定肿瘤细胞拷贝数的估计。在一个或更多个实例中,第二分割过程可以基于与用于确定第一区段的标准不同的标准来确定第二区段。在各种实例中,第二区段可以包括比第一区段更多数量的核苷酸,并且第二区段可以包括许多第一区段。此外,第二区段可以包括靶区域。在一个或更多个说明性实例中,用于确定第二区段的一个或更多个标准可以包括确定肿瘤细胞相对于第二区段的拷贝数没有改变。
图10是根据一个或更多个实施方式,生成测序数据并从测序数据确定脱靶序列表示的示例方法的流程图,其中脱靶序列表示可用于基于来源于脱靶序列表示的信息确定关于受试者的肿瘤度量。在1002,方法1000可以包括,制备来源于样品的多核苷酸的集合用于测序。例如,可以对多核苷酸的集合进行钝末端连接,并且可以将分子条形码添加到多核苷酸的集合中包含的单个多核苷酸。分子条形码可用于识别单个多核苷酸。此外,可以通过在该多核苷酸的集合和对应于参考序列的靶区域的探针之间进行一个或更多个杂交过程来富集该多核苷酸的集合,以产生富集的多核苷酸的集合。在一个或更多个实例中,富集的多核苷酸的集合可以在测序前扩增。在一个或更多个另外实例中,不与探针杂交的多核苷酸的集合的至少一部分也可以在测序前扩增。不与探针杂交的多核苷酸在本文中称为“非杂交的多核苷酸”。在各种实例中,样品可以包含无细胞DNA分子。
此外,在1004,方法1000可以包括对多核苷酸分子的集合执行一个或更多个测序过程以生成测序数据。测序数据可以包括对应于杂交的多核苷酸和非杂交多核苷酸的许多测序读段,在本文也称为序列表示。测序读段可以对应于指示与已测序的多核苷酸相关的字母数字序列的数据。在一个或更多个说明性实例中,测序数据可以包括千兆字节至太兆字节的数据。
方法1000还可以包括,在1006,将序列数据中包括的多于一个序列表示与参考序列比对,以确定多于一个脱靶序列表示。脱靶序列表示可以与对应于驱动突变的参考基因组的靶区域之外的参考基因组的区域对齐。
此外,在1008,方法1000可以包括执行分割过程以确定参考序列的多于一个区段。分割过程可以包括基于一个或更多个标准将参考基因组分成许多区段。在一个或更多个实例中,可以执行多于一个分割操作。在这些场景中,可以针对不同的分割操作应用不同的标准。例如,可以相对于一个或更多个第一标准实施第一分割操作,并且可以相对于一个或更多个第二标准实施第二分割过程。为了说明,第一分割过程可以通过将参考序列分成具有特定尺寸诸如至少50kb、至少75kb、至少100kb、至少125kb或至少150kb的箱元来实施。在各种实例中,至少一部分区段可以具有相同数量的核苷酸。此外,可以执行第二分割过程,该过程基于各个区段的肿瘤细胞拷贝数不变来确定参考基因组的第二区段。在一个或更多个实例中,第二区段可以具有比第一区段更大的尺寸。为了说明,第二区段可以包括许多第一区段。
在操作1010,方法1000可以包括确定关于多于一个区段的一个或更多个定量量度。定量度量可以包括覆盖范围度量和尺寸分布度量。覆盖范围度量可以指示对应于参考序列的一个或更多个区段的序列表示的计数。尺寸分布度量可以指示具有相对于尺寸分布的相应尺寸的脱靶序列表示的计数。在一个或更多个实例中,尺寸分布可以包括分区的数量,每个分区对应于序列表示的尺寸范围。在一个或更多个实例中,归一化的定量量度也可以基于一个或更多个定量量度来确定。在各种实例中,归一化定量度量可以基于从来源于不存在拷贝数变异的个体获得的参考样品的参考定量量度来确定。还可以根据第一区段的G-C含量或第一区段的可映射性评分中的至少一个来确定归一化定量量度。在一个或更多个另外实例中,一个或更多个定量量度可以对应于参考序列的靶区域所对应的单核苷酸多态性(SNP)的定量量度。
此外,在1012,方法1000可以包括基于一个或更多个定量量度来确定从其获得样品的受试者的肿瘤细胞拷贝数。在一个或更多个实例中,可以基于脱靶序列表示的覆盖范围度量或脱靶序列表示的尺寸分布度量中的至少一个来确定肿瘤细胞拷贝数。在各种实例中,肿瘤细胞拷贝数也可以基于来源于与参考序列的靶区域相关的序列表示的定量量度来确定。此外,肿瘤细胞拷贝数可以基于对应于参考序列的靶区域的种系SNP的最大等位基因分数来确定。肿瘤细胞拷贝数也可以根据脱靶序列表示的覆盖范围度量、脱靶序列表示的尺寸分布度量、来源于与参考序列的靶区域相关的序列表示的定量量度或对应于参考序列的靶区域的种系SNP的最大等位基因分数中的至少两个的组合来确定。
样品
无细胞多核苷酸的分离和提取可以通过使用多种技术收集样品来进行。样品可以是从受试者分离的任何生物样品。样品可以包括身体组织、全血、血小板、血清、血浆、粪便、红细胞、白血细胞或白细胞、内皮细胞、组织活检(例如,来自已知或疑似实体瘤的活检)、脑脊液、滑液、淋巴液、腹水、组织间隙液或细胞外液(例如,来自细胞间隙中的流体)、齿龈液、龈沟液、骨髓、胸膜渗出物、脑脊液、唾液、粘液、痰、精液、汗液、尿液。样品优选地为体液,特别地血液及其级分,以及尿液。这样的样品包括从肿瘤脱落的核酸。核酸可以包括DNA和RNA并且可以是双链和单链形式。样品可以呈最初从受试者分离出来的形式,或者可以已经经历另外的处理以去除或添加组分,诸如细胞,相对于另一种组分富集一种组分,或将一种形式的核酸转化为另一种,诸如RNA至DNA,或单链核酸至双链。因此,例如,用于分析的体液样品是含有无细胞核酸例如无细胞DNA(cfDNA)的血浆或血清。
在一些实施方式中,取自受试者的体液样品体积取决于对测序的区域的期望的读段深度。示例体积为约0.4-40ml、约5-20ml、约10-20ml。例如,体积可以是约0.5ml、约1ml、约5ml、约10ml、约20ml、约30ml、约40ml或更多毫升。取样的血液的体积可以在约5ml至约20ml之间。
样品可包含不同量的核酸。给定样品中的核酸的量可以等于多于一个基因组当量。例如,约30ng DNA的样品可以包含约10,000(104)个单倍体人类基因组当量,并且在cfDNA的情况下,可以包含约2000亿(2×1011)个个体多核苷酸分子。类似地,约100ng DNA的样品可以含有约30,000个单倍体人类基因组当量,并且在cfDNA的情况下,含有约6,000亿个个体分子。
在一些实施方式中,样品包含来自不同来源的核酸,例如来自细胞和来自无细胞来源的核酸(例如血液样品等)。典型地,样品包括携带突变的核酸。例如,样品任选地包含携带种系突变和/或体细胞突变的DNA。通常,样品包含携带癌症相关突变(例如,癌症相关的体细胞突变)的DNA。在本公开内容的一些实施方式中,受试者中的无细胞核酸可以来源于肿瘤。例如,从受试者分离的无细胞DNA可以包含ctDNA。
扩增前的样品中的无细胞核酸的示例性的量通常在从约1飞克(fg)至约1微克(μg),例如约1皮克(pg)至约200纳克(ng)、约1ng至约100ng、约10ng至约1000ng的范围。在一些实施方式中,样品包含高达约600ng、高达约500ng、高达约400ng、高达约300ng、高达约200ng、高达约100ng、高达约50ng或高达约20ng的无细胞核酸分子。任选地,该量是至少约1fg、至少约10fg、至少约100fg、至少约1pg、至少约10pg、至少约100pg、至少约1ng、至少约10ng、至少约100ng、至少约150ng或至少约200ng的无细胞核酸分子。在某些实施方式中,该量为高达约1fg、约10fg、约100fg、约1pg、约10pg、约100pg、约1ng、约10ng、约100ng、约150ng或约200ng的无细胞核酸分子。在一些实施方式中,方法包括从样品中获得约1fg至约200ng之间的无细胞核酸分子。
无细胞核酸通常具有长度约100个核苷酸和长度约500个核苷酸之间的尺寸分布,长度约110个核苷酸至长度约230个核苷酸的分子代表样品中约90%的分子,众数为长度约168个核苷酸,并且第二个次要峰在长度约240个至约440个核苷酸之间的范围内。在某些实施方式中,无细胞核酸的长度为约160至约180个核苷酸,或长度为约320至约360个核苷酸,或长度为约440至约480个核苷酸。
在一些实施方式中,无细胞核酸通过分配步骤(partitioning step)从体液分离,在该分离步骤中,如存在于溶液中的无细胞核酸与体液的完整细胞和其他非可溶性组分分开。在这些实施的一些中,分配包括诸如离心或过滤的技术。可选地,体液中的细胞被裂解,并且一起处理无细胞核酸和细胞核酸。通常,在添加缓冲液和洗涤步骤后,无细胞核酸用例如乙醇沉淀。在某些实施方式中,使用另外的净化(clean up)步骤,诸如基于二氧化硅的柱来去除污染物或盐。例如,任选地在整个反应中添加非特异性批量(bulk)载体核酸,以优化示例性程序的某些方面诸如收率。在这样的处理后,样品通常包括各种形式的核酸,包括双链DNA、单链DNA和/或单链RNA。任选地,单链DNA和/或单链RNA转化为双链形式,因此它们被包括在随后的处理和分析步骤中。关于任选地适用于进行本文公开的方法的cfDNA分配和表观遗传修饰的相关分析的另外细节描述在例如通过引用并入的2017年12月22日提交的WO 2018/119452中。
核酸标签
在某些实施方式中,提供分子标识符或条形码的标签通过化学合成、连接或重叠延伸PCR等方法掺入或以其他方式连接到衔接子。在一些实施方式中,反应中独特或非独特标识符或分子条形码的分配遵循例如以下中描述的方法并利用例如以下中描述的系统:美国专利申请20010053519、20030152490、20110160078和美国专利第6,582,908号、第7,537,898号和第9,598,731号,其各自通过引用并入。
标签随机或非随机地连接(linked)(例如连接(ligated))到样品核酸。在一些实施方式中,标签以预期的标识符比率(例如,独特和/或非独特条形码的组合)引入微孔。例如,可以加载标识符使得每基因组样品加载多于约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、50个、100个、500个、1000个、5000个、10000个、50,000个、100,000个、500,000个、1,000,000个、10,000,000个、50,000,000个或1,000,000,000个标识符。在一些实施方式中,加载标识符使得每基因组样品加载少于约2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、50个、100个、500个、1000个、5000个、10000个、50,000个、100,000个、500,000个、1,000,000个、10,000,000个、50,000,000个或1,000,000,000个标识符。在某些实施方式中,每样品基因组加载的标识符的平均数目少于或大于每基因组样品约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、50个、100个、500个、1000个、5000个、10000个、50,000个、100,000个、500,000个、1,000,000个、10,000,000个、50,000,000个或1,000,000,000个标识符。标识符通常是独特的或非独特的。
一种示例性格式使用连接到靶核酸分子两个末端的约2至约1,000,000个不同标签,或约5至约150个不同标签,或约20至约50个不同标签。对于20-50x 20-50的标签,总共创建400-2500个标签。标签的这样的数目是足够的,使得具有相同起点和终点的不同分子具有接收不同标签组合的高概率(例如,至少94%、99.5%、99.99%、99.999%)。
在一些实施方式中,标识符是预定的、随机的或半随机的序列寡核苷酸。在其他实施方式中,可以使用多于一个条形码使得条形码在所述多于一个条形码中相对于彼此不必是独特的。在这些实施方式中,条形码通常附接(例如,通过连接或PCR扩增)至个体分子,使得条形码和可以与其附接的序列的组合产生可以被单独地追踪的独特序列。如本文描述的,加非独特标签的条形码的检测与在序列读段的开始(起始)和结束(终止)部分的序列数据组合通常允许将独特的身份指定至特定分子。单独的序列读段的长度或碱基对数目也任选地用于为给定分子指定独特身份。如本文描述的,来自已经指定了独特身份的核酸单链的片段可以从而允许随后识别来自亲本链和/或互补链的片段。
核酸扩增
侧翼为衔接子的样品核酸通常通过PCR和其他扩增方法来扩增,所述其他扩增方法使用结合至待扩增的DNA分子侧翼的衔接子中的引物结合位点的核酸引物。在一些实施方式中,扩增方法包括由热循环引起的延伸、变性和退火的循环,或者可以是等温的,如在转录介导的扩增中。任选地使用的其他示例性的扩增方法包括连接酶链式反应、链置换扩增、基于核酸序列的扩增、和基于自主持续序列的复制以及其他方法。
通常应用一轮或更多轮扩增循环来使用常规核酸扩增方法将样品索引/标签引入核酸分子。扩增通常在一种或更多种反应混合物中进行。在一些实施方式中,在执行序列捕获步骤之前和/或之后引入分子标签和样品索引/标签。在一些实施方式中,在探针捕获之前仅引入分子标签,并且在进行序列捕获步骤之后引入样品索引/标签。在某些实施方式中,分子标签和样品索引/标签两者均在进行基于探针的捕获步骤之前引入。在一些实施方式中,在执行序列捕获步骤(即,核酸富集)之后引入样品索引/标签。通常,序列捕获方案包括引入与靶向的核酸序列互补的单链核酸分子,例如基因组区域的编码序列,并且这样的区域的突变与癌症类型相关。通常,扩增反应产生具有分子标签和样品索引/标签的多于一个非独特或独特地加标签的核酸扩增子,所述核酸扩增子的尺寸范围为约200个核苷酸(nt)至约700nt、250nt至约350nt,或约320nt至约550nt。在一些实施方式中,扩增子具有约300nt的尺寸。在一些实施方式中,扩增子具有约500nt的尺寸。
核酸富集
在一些实施方式中,在对核酸测序之前富集序列。富集任选地针对特定靶区域来进行或非特异性地进行(“靶序列”)。在一些实施方式中,感兴趣的靶向区域可以用针对一个或更多个诱饵集组(bait set panels)选择的核酸捕获探针(“诱饵”)使用差异性平铺和捕获方案(differential tiling and capture scheme)来富集。差异性平铺和捕获方案通常使用不同相对浓度的诱饵集在与诱饵相关的基因组区段中差异性平铺(例如,以不同的“分辨率”),经受限制的集合(例如,测序仪限制,诸如测序载量、每种诱饵的效用等),并以下游测序所需的水平捕获靶向的核酸。这些感兴趣的靶向的基因组区段任选地包括核酸构建体的天然或合成核苷酸序列。在一些实施方式中,具有针对一个或更多个感兴趣区段的探针的生物素标记的珠可以用于捕获靶序列,并任选地随后扩增这些区段,以富集感兴趣区域。
序列捕获通常包括使用与靶核酸序列杂交的寡核苷酸探针。在某些实施方式中,探针集策略包括将探针平铺在感兴趣的区段内。这样的探针的长度可以在例如从约60个至约120个核苷酸。该集可以具有约2x、3x、4x、5x、6x、8x、9x、10x、15x、20x、50x或更大的深度。序列捕获的有效性通常部分地取决于靶分子中与探针序列互补(或几乎互补)的序列的长度。
核酸测序
在从样品提取和分离cfDNA之后,可以在步骤103和104对cfDNA进行测序。在进行或不进行先前的扩增的情况下,任选地侧翼为衔接子的样品核酸通常经历测序。测序方法或任选地可使用的商业上可获得的格式包括例如,Sanger测序、高通量测序、亚硫酸氢盐测序、焦磷酸测序、合成测序、单分子测序、纳米孔测序、半导体测序、连接测序、杂交测序、RNA-Seq(Illumina)、数字基因表达(Helicos)、下一代测序(NGS)、单分子合成测序(SMSS)(Helicos)、大规模并行测序、克隆单分子阵列(Solexa)、鸟枪法测序、Ion Torrent、OxfordNanopore、Roche Genia、Maxim-Gilbert测序、引物步移、使用PacBio、SOLiD、Ion Torrent或Nanopore平台的测序。测序反应可以在各种样品处理单元中进行,样品处理单元可包括多通路、多通道、多孔或基本上同时处理多于一个样品集的其他装置。样品处理单元还可以包括多于一个样品室,使得能够同时处理多于一个运行。
测序反应可以对已知包含癌症或其他疾病的标志物的一种或更多种核酸片段类型或区段进行。测序反应也可以对样品中存在的任何核酸片段进行。测序反应可以提供基因组的至少约5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%或100%的基因组的序列覆盖度。在其他情况下,基因组的序列覆盖度可以是基因组的小于约5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%或100%。
同时测序反应可以使用多重测序技术进行。在一些实施方式中,用至少约1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个或100,000个测序反应对无细胞多核苷酸测序。在其他实施方式中,无细胞多核苷酸用少于约1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个或100,000个测序反应来测序。测序反应通常顺序地或同时地进行。随后的数据分析通常对所有或部分测序反应进行。在一些实施方式中,对至少约1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个或100,000个测序反应进行数据分析。在其他实施方式中,对少于约1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个或100,000个测序反应进行数据分析。示例性的读段深度为每位点(碱基位置)约1000至约50000个读段。
在一些实施方式中,核酸群体被制备用于通过在一个末端或两个末端具有单链突出端的双链核酸上酶促形成平末端进行测序。在这些实施方式中,通常用具有5’-3’DNA聚合酶活性和3’-5’核酸外切酶活性的酶在核苷酸(例如,A、C、G和T或U)的存在下处理群体。任选地使用的示例性酶或其催化片段包括Klenow大片段和T4聚合酶。在5’突出端处,酶通常延伸相对链上凹进的3’末端,直到它与5’末端齐平,产生平末端。在3’突出端处,酶通常从3’末端消化直到相对链的5’末端,并且有时超过5’末端。如果这种消化进行到超过相对链的5’末端,空位可以被具有与用于5’突出端相同的聚合酶活性的酶填充。双链核酸上平末端的形成有利于例如衔接子的附接和随后的扩增。
在一些实施方式中,核酸群体经受另外的处理,诸如单链核酸向双链的转化和/或RNA向DNA的转化。这些形式的核酸还任选地连接到衔接子并被扩增。
在有或没有预先扩增的情况下,可以对经历上述形成平末端过程的核酸以及任选地样品中的其他核酸测序,以产生测序的核酸。测序的核酸可以指核酸的序列(即序列信息)或其序列已经确定的核酸。可以进行测序,以从样品中单个核酸分子的扩增产物的共有序列直接或间接提供样品中单个核酸分子的序列数据。
在一些实施方式中,样品中具有单链突出端的双链核酸在平末端形成后,在两端处被与包含条形码的衔接子连接,并且测序确定了核酸序列以及通过衔接子引入的直线连接的(in-line)条形码。平末端的DNA分子任选地与至少部分双链的衔接子(例如,Y形衔接子或钟形衔接子)的平末端连接。可选地,样品核酸和衔接子的平端可以用互补核苷酸加尾以有利于连接(例如,粘末端连接)。
核酸样品通常与足够数目的衔接子接触,使得相同核酸的任何两个拷贝从两个末端连接的衔接子接收到衔接子条形码的相同组合的概率低(例如,<1或0.1%)。以这种方式使用衔接子允许鉴定参考核酸上具有相同起始点和终止点并且连接至条形码的相同组合的核酸序列的家族。这样的家族代表扩增前样品中模板/亲本核酸的扩增产物的序列。通过平末端形成和衔接子附接修饰,家族成员的序列可以被编译以获得原始样品中核酸分子的一个或多于一个共有核苷酸或完整共有序列。换言之,占据样品中核酸的指定位置的核苷酸被确定为占据家族成员序列中相应位置的共有核苷酸。家族可以包括双链核酸的一条或两条链的序列。如果家族的成员包括来自双链核酸的两条链的序列,出于编译所有序列以获得一个或更多个共有核苷酸或序列的目的,一条链的序列被转化为它们的互补序列。一些家族仅包括单个成员序列。在这种情况下,该序列可以作为扩增前样品中核酸的序列被获取。可选地,仅具有单个成员序列的家族可以从随后的分析消除。
测序的核酸中的核苷酸变异可以通过将测序的核酸与参考序列比较来确定。参考序列通常是已知序列,例如,来自受试者的已知全基因组或部分基因组序列(例如人类受试者的全基因组序列)。参考序列可以是例如hG19或hG38。如上文描述的,测序的核酸可以代表样品中的核酸的直接确定的序列,或这样的核酸的扩增产物的共有序列。可以在参考序列上的一个或更多个指定的位置处进行比较。当相应的序列最大程度地对齐时,可以鉴定测序的核酸的子集,包括与参考序列的指定的位置相对应的位置。在这样的子集内,可以确定哪些(如果有的话)测序的核酸在指定的位置处包括核苷酸变异,基于给定cfDNA片段的端点(即,它的5’和3’末端核苷酸)映射到参考序列的位置确定给定cfDNA片段的长度,确定给定cfDNA片段的中点从cfDNA片段中基因组区域中点的偏移,以及确定任选地哪些(如果有的话)包括参考核苷酸(即,与参考序列中的相同)。如果子集中包括核苷酸变体的测序的核酸的数目超过选择的阈值,那么变体核苷酸可以在指定的位置处被调用。阈值可以是单纯的数值,诸如包括核苷酸变体的子集内的至少1个、2个、3个、4个、5个、6个、7个、8个、9个或10个测序的核酸,或者它可以是比率,诸如包括核苷酸变体的子集内的至少0.5个、1个、2个、3个、4个、5个、10个、15个或20个测序的核酸,以及其他可能性。可以对参考序列中任何感兴趣的指定的位置重复比较。有时可以对占据参考序列上至少约20个、100个、200个或300个连续位置例如,约20-500个或约50-300个连续位置处的指定的位置进行比较。
关于核酸测序的另外细节,包括本文描述的格式和应用,也在例如以下中提供:Levy等人,Annual Review of Genomics and Human Genetics,17:95-115(2016),Liu等人,J.of Biomedicine and Biotechnology,Volume 2012,Article ID 251364:1-11(2012),Voelkerding等人,Clinical Chem.,55:641-658(2009),MacLean等人,NatureRev.Microbiol.,7:287-296(2009),Astier等人,J Am Chem Soc.,128(5):1705-10(2006),美国专利第6,210,891号,美国专利第6,258,568号,美国专利第6,833,246号,美国专利第7,115,400号,美国专利第6,969,488号,美国专利第5,912,148号,美国专利第6,130,073号,美国专利第7,169,560号,美国专利第7,282,337号,美国专利第7,482,120号,美国专利第7,501,245号,美国专利第6,818,395号,美国专利第6,911,345号,美国专利第7,501,245号,美国专利第7,329,492号,美国专利第7,170,050号,美国专利第7,302,146号,美国专利第7,313,308号,和美国专利第7,476,503号,其均通过引用以其整体并入。
测序组(Sequencing Panel)
为了改进检测感兴趣的基因组区域和任选地肿瘤指示突变的似然,测序的DNA区段可以包含一组(a panel of)基因或包含已知基因组区域的基因组区段。选择有限的区段进行测序(例如,有限的组)可以减少所需的总测序(例如,测序的核苷酸总量)。测序组可以靶向多于一个不同的基因或区域,例如,以检测单个癌症、癌症的集合或所有癌症。可选地,可以通过全基因组测序(WGS)或其他无偏测序方法对DNA进行测序,而不使用测序组。在2019年1月31日提交的美国临时专利申请62/799,637中描述的表观遗传靶中可以找到合适的组和用于组的靶的实例,该专利申请通过引用以其全文并入。
在一些方面,选择靶向多于一个不同基因或基因组区域(例如,转录因子结合区、远端调控元件(DRE)、重复元件、内含子-外显子接头、转录起始位点(TSS)等)的组,使得确定比例的患有癌症的受试者在组中的一个或更多个不同基因中表现出遗传变体或肿瘤标志物。可以将组选择为将用于测序的区域限定为固定数目的碱基对。可以选择该组来对所需量的DNA测序。还可以将组选择为实现期望的序列读段深度。可以将组选择为对一定量的测序的碱基对实现期望的序列读段深度或序列读段覆盖范围。可以将组选择为对检测样品中一种或更多种遗传变体实现理论灵敏度、理论特异性和/或理论准确度。
用于检测该组区域的探针可以包括用于检测感兴趣的基因组区域(热点区域)的探针以及核小体感知探针(例如,KRAS密码子12和13),并且可以设计成基于分析cfDNA覆盖范围和受核小体结合模式影响的片段尺寸变异和GC序列组成来优化捕获。本文使用的区域还可以包括基于核小体位置和GC模型优化的非热点区域。该组可以包括多于一个子组(subpanels),包括用于鉴定以下的子组:来源组织(例如,使用已发表的文献来定义50-100个诱饵,所述诱饵代表具有组织间的最多样转录谱的基因(不一定是启动子))、全基因组支架(例如,用于鉴定超保守的基因组内容并用少量探针稀疏地跨染色体平铺以用于拷贝数碱基排列目的)、转录起始位点(TSS)/CpG岛(例如,用于捕获例如肿瘤抑制基因的启动子(例如,结肠直肠癌中的SEPT9/VIM)中的差异甲基化区域(例如,差异甲基化区域(DMR))。在一些实施方式中,来源组织的标志物是组织特异性表观遗传标志物。
感兴趣的基因组位置列表的一些实例可见于表1和表2。在一些实施方式中,本公开内容的方法中使用的基因组位置包含表1中的至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少55个、至少60个、至少65个、至少70个、至少75个、至少80个、至少85个、至少90个、至少95个或97个基因的至少一部分。在一些实施方式中,本公开内容的方法中使用的基因组位置包括表1中的至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少55个、至少60个、至少65个或70个SNV。在一些实施方式中,本公开内容的方法中使用的基因组位置包括表1中的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个或18个CNV。在一些实施方式中,本公开内容的方法中使用的基因组位置包括表1中的至少1个、至少2个、至少3个、至少4个、至少5个或6个融合。在一些实施方式中,本公开内容的方法中使用的基因组位置包括表1中的至少1个、至少2个或3个插入/缺失的至少一部分。在一些实施方式中,本公开内容的方法中使用的基因组位置包含表2中的至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少55个、至少60个、至少65个、至少70个、至少75个、至少80个、至少85个、至少90个、至少95个、至少100个、至少105个、至少110个或115个基因的至少一部分。在一些实施方式中,本公开内容的方法中使用的基因组位置包括表2中的至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少55个、至少60个、至少65个、至少70个或73个SNV。在一些实施方式中,本公开内容的方法中使用的基因组位置包括表2中的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个或18个CNV。在一些实施方式中,本公开内容的方法中使用的基因组位置包括表2中的至少1个、至少2个、至少3个、至少4个、至少5个或6个融合。在一些实施方式中,本公开内容的方法中使用的基因组位置包含表2中的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个或18个插入/缺失的至少一部分。这些感兴趣的基因组位置中的每一个可以被鉴定为给定诱饵集组的主链区域或热点区域。在一个或更多个实例中,可以使用表1和/或表2中包括的所有突变来实现本公开内容的方法。
表2
在一些实施方式中,组中的一个或更多个区域包括来自一个或多于一个基因的一个或更多个基因座,用于检测手术后残留癌症。这种检测可以比现有的癌症检测方法更早。在一些实施方式中,组中的一个或更多个基因组位置包括来自一个或多于一个基因的一个或更多个基因座,用于检测高风险患者群体中的癌症。例如,吸烟者的肺癌发病率比一般人群高得多。此外,吸烟者可能会患上其他肺部状况,使癌症检测更加困难,诸如肺部不规则结节的发展。在一些实施方式中,本文描述的方法比现有的癌症检测方法更早地检测患者对癌症治疗的响应(特别是在高风险患者中)。
基因组位置可以基于在该基因或区域中具有肿瘤标志物的患有癌症的受试者的数量来选择以包含在测序组中。基因组位置可以基于患有癌症的受试者的患病率和该基因中存在的肿瘤标志物来选择以包含在测序组中。肿瘤标志物在区域中的存在可以指示受试者患有癌症。
在一些情况下,可以使用来自一个或更多个数据库的信息来选择组。关于癌症的信息可以来源于癌症肿瘤活检或cfDNA测定。数据库可以包括描述测序的肿瘤样品群体的信息。数据库可以包括关于肿瘤样品中mRNA表达的信息。数据库可以包括关于肿瘤样品中调控元件或基因组区域的信息。与测序的肿瘤样品相关的信息可以包括各种遗传变体的频率,并描述遗传变体出现的基因或区域。遗传变体可以是肿瘤标志物。这样的数据库的一个非限制性实例是COSMIC。COSMIC是在各种癌症中发现的体细胞突变的目录。对于特定的癌症,COSMIC根据突变频率对基因进行排序。通过在给定基因中具有高频率的突变,可以选择基因包含在组中。例如,COSMIC表明,33%的测序乳腺癌样品群体在TP53中具有突变,并且22%的取样乳腺癌群体在KRAS中具有突变。包括APC在内的其他排序基因仅在约4%的测序乳腺癌样品群体中具有发现的突变。基于TP53和KRAS在取样的乳腺癌中具有相对高的频率(例如,与APC相比,APC以约4%的频率发生),可以将TP53和KRAS包括在测序组中。COSMIC作为非限制性实例提供,然而,可以使用将癌症与位于基因或遗传区域中的肿瘤标志物关联的任何数据库或信息集。在由COSMIC提供的另一个实例中,在1156个胆道癌样品中,380个样品(33%)携带TP53突变。其他几个基因,诸如APC,在所有样品的4%-8%中具有突变。因此,可以基于胆道癌样品群体中相对较高的频率来选择TP53以包含在组中。
可以为组选择其中肿瘤标志物在取样的肿瘤组织或循环肿瘤DNA中的频率显著高于在给定背景群体中发现的频率的基因或基因组区段。为了包含在组中,基因组位置的组合可以选择为使得至少大多数患有癌症的受试者可以具有在该组中的基因组位置或基因中的至少一个中存在的肿瘤标志物或基因组区域。可以基于指示对于特定癌症或癌症的集合,大多数受试者在一个或更多个所选区域中具有一种或更多种肿瘤标志物的数据来选择基因组位置的组合。例如,为了检测癌症1,可以基于指示90%患有癌症1的受试者在该组的区域A、B、C和/或D中具有肿瘤标志物的数据来选择包括区域A、B、C和/或D的组。可选地,肿瘤标志物可以表现为独立地出现在患有癌症的受试者的两个或更多个区域中,使得组合起来,两个或更多个区域中的肿瘤标志物存在于患有癌症的受试者群体的大多数中。例如,为了检测癌症2,可以基于指示90%的受试者在一个或更多个区域中具有肿瘤标志物的数据来选择包括区域X、Y和Z的组,并且在30%的这样的受试者中,肿瘤标志物仅在区域X中被检测到,而对于检测到肿瘤标志物的其余受试者,肿瘤标志物仅在区域Y和/或Z中被检测到。如果肿瘤标志物在50%或更多的时间在这些区域中的一个或更多个中检测到,则存在于先前显示与一种或更多种癌症相关的一个或更多个基因组位置中的肿瘤标志物可以指示或预测受试者患有癌症。计算方法,诸如在给定一个或更多个区域内的肿瘤标志物集合的癌症频率的情况下,采用检测癌症的条件概率的模型,可以用于预测哪些区域单独或组合可以预测癌症。用于组选择的其他方法包括使用描述来自采用具有大组(large panels)的肿瘤的综合基因组图谱分析和/或全基因组测序(WGS、RNA-seq、Chip-seq、硫酸氢盐测序、ATAC-seq等)的研究的信息的数据库。从文献中收集的信息也可以描述在某些癌症中通常受影响和突变的途径。组选择还可以通过使用描述遗传信息的本体来通知。
用于测序的组中包括的基因可以包括完全转录区域、启动子区域、增强子区域、调控元件和/或下游序列。为了进一步增加检测肿瘤指示突变的似然,仅外显子可以被包括在组中。该组可包含所选基因的所有外显子,或仅包含所选基因的一个或更多个外显子。该组可包括来自多于一个不同基因中的每一个的外显子。该组可包含来自多于一个不同基因中的每一个的至少一个外显子。
在一些方面,选择来自多于一个不同基因中的每一个的一组外显子,使得确定比例的患有癌症的受试者在该组外显子中的至少一个外显子中表现出遗传变异。
可以对来自一组基因中每个不同基因的至少一个完整外显子进行测序。测序的组可包含来自多于一个基因的外显子。该组可包含来自2至100个不同基因、2至70个基因、2至50个基因、2至30个基因、2至15个基因或2至10个基因的外显子。
选定的组可以包含不同数量的外显子。该组可包含2至3000个外显子。该组可包含2至1000个外显子。该组可包含2至500个外显子。该组可包含2至100个外显子。该组可包含2至50个外显子。该组可包含不超过300个外显子。该组可包含不超过200个外显子。该组可包含不超过100个外显子。该组可包含不超过50个外显子。该组可包含不超过40个外显子。该组可包含不超过30个外显子。该组可包含不超过25个外显子。该组可包含不超过20个外显子。该组可包含不超过15个外显子。该组可包含不超过10个外显子。该组可包含不超过9个外显子。该组可包含不超过8个外显子。该组可包含不超过7个外显子。
该组可包含来自多于一个不同基因的一个或更多个外显子。该组可包含来自一定比例的所述多于一个不同基因中的每一个的一个或更多个外显子。该组可包含来自至少25%、50%、75%或90%的不同基因中的每一个的至少两个外显子。该组可包含来自至少25%、50%、75%或90%的不同基因中的每一个的至少三个外显子。该组可包含来自至少25%、50%、75%或90%的不同基因中的每一个的至少四个外显子。
测序组的尺寸可以变化。测序组可以变大或变小(就核苷酸尺寸而言),这取决于几个因素,包括例如测序的核苷酸总量或为组中特定区域测序的独特分子的数量。测序组的尺寸可以是5kb到50kb。测序组的尺寸可以是10kb到30kb。测序组的尺寸可以是12kb到20kb。测序组的尺寸可以是12kb到60kb。测序组的尺寸可以是至少10kb、12kb、15kb、20kb、25kb、30kb、35kb、40kb、45kb、50kb、60kb、70kb、80kb、90kb、100kb、110kb、120kb、130kb、140kb或150kb。测序组的尺寸可以小于100kb、90kb、80kb、70kb、60kb或50kb。
选择用于测序的组可以包括至少1、5、10、15、20、25、30、40、50、60、80或100个基因组位置(例如,每个都包括感兴趣的基因组区域)。在一些情况下,组中的基因组位置选择为使得位置的尺寸相对较小。在一些情况下,组中的区域具有约10kb或更小、约8kb或更小、约6kb或更小、约5kb或更小、约4kb或更小、约3kb或更小、约2.5kb或更小、约2kb或更小、约1.5kb或更小或约1kb或更小的尺寸。在一些情况下,组中的基因组位置具有约0.5kb至约10kb、约0.5kb至约6kb、约1kb至约11kb、约1kb至约15kb、约1kb至约20kb、约0.1kb至约10kb或约0.2kb至约1kb的尺寸。例如,组中的区域可以具有从约0.1kb到约5kb的尺寸。
本文选择的组可以允许深度测序,其足以检测低频遗传变体(例如,在从样品获得的无细胞核酸分子中)。样品中遗传变体的量可以按照给定遗传变体的次要等位基因频率来指代。突变等位基因频率可以指突变等位基因在给定的核酸群体诸如样品中出现的频率。次要等位基因频率低的遗传变体可以具有相对低的在样品中存在的频率。在一些情况下,该组允许检测次要等位基因频率为至少0.0001%、0.001%、0.005%、0.01%、0.05%、0.1%或0.5%的遗传变体。该组可以允许检测次要等位基因频率为0.001%或更高的遗传变体。该组可以允许检测次要等位基因频率为0.01%或更高的遗传变体。该组可以允许检测以低至0.0001%、0.001%、0.005%、0.01%、0.025%、0.05%、0.075%、0.1%、0.25%、0.5%、0.75%或1.0%的频率存在于样品中的遗传变体。该组可以允许检测以至少0.0001%、0.001%、0.005%、0.01%、0.025%、0.05%、0.075%、0.1%、0.25%、0.5%、0.75%或1.0%的频率存在于样品中的肿瘤标志物。该组可以允许检测样品中低至1.0%的频率的肿瘤标志物。该组可以允许检测样品中低至0.75%的频率的肿瘤标志物。该组可以允许检测样品中低至0.5%的频率的肿瘤标志物。该组可以允许检测样品中低至0.25%的频率的肿瘤标志物。该组可以允许检测样品中低至0.1%的频率的肿瘤标志物。该组可以允许检测样品中低至0.075%的频率的肿瘤标志物。该组可以允许检测样品中低至0.05%的频率的肿瘤标志物。该组可以允许检测样品中低至0.025%的频率的肿瘤标志物。该组可以允许检测样品中低至0.01%的频率的肿瘤标志物。该组可以允许检测样品中低至0.005%的频率的肿瘤标志物。该组可以允许检测样品中低至0.001%的频率的肿瘤标志物。该组可以允许检测样品中低至0.0001%的频率的肿瘤标志物。该组可以允许检测样品中以低至1.0%至0.0001%的频率的测序的cfDNA中的肿瘤标志物。该组可以允许检测样品中以低至0.01%至0.0001%的频率的测序的cfDNA中的肿瘤标志物。
在患有疾病(例如,癌症)的受试者群体中,可以表现出一定比例的遗传变体。在一些情况下,至少1%、2%、3%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%或99%的患有癌症的群体在组中的至少一个区域中表现出一种或更多种遗传变异。例如,至少80%患有癌症的群体可以在组中的至少一个基因组位置表现出一种或更多种遗传变异。
该组可以包括来自一个或更多个基因中的每一个的一个或更多个包含感兴趣的基因组区域的位置。在一些情况下,该组可以包括来自至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50或80个基因中的每一个的一个或更多个包含感兴趣的基因组区域的位置。在一些情况下,该组可以包括来自至多1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50或80个基因中的每一个的一个或更多个包含感兴趣的基因组区域的位置。在一些情况下,该组可以包括来自约1至约80个、1至约50个、约3至约40个、5至约30个、10至约20个不同基因中的每一个的一个或更多个包含感兴趣的基因组区域的位置。
组中包含基因组区域的位置可以选择为以便检测一个或更多个表观遗传修饰的区域。一个或更多个表观遗传修饰的区域可以被乙酰化、甲基化、泛素化、磷酸化、类泛素化、核糖基化和/或瓜氨酸化。例如,组中的区域可以选择为以便检测一个或更多个甲基化区域。
组中的区域可以选择为使得它们包含跨一个或更多个组织差异转录的序列。在一些情况下,包含基因组区域的位置可以包含与其他组织相比在某些组织中以更高水平转录的序列。例如,包含基因组区域的位置可以包含在某些组织中转录但不在其他组织中转录的序列。
组中的基因组位置可以包含编码和/或非编码序列。例如,组中的基因组位置可以包含外显子、内含子、启动子、3’非翻译区、5’非翻译区、调控元件、转录起始位点和/或剪接位点中的一个或更多个序列。在一些情况下,组中的区域可以包含其他非编码序列,包括假基因、重复序列、转座子、病毒元件和端粒。在一些情况下,组中的基因组位置可以包含非编码RNA中的序列,例如核糖体RNA、转移RNA、Piwi相互作用RNA和微RNA。
组中的基因组位置可以选择为以期望的灵敏度水平检测(诊断)癌症(例如,通过检测一种或更多种遗传变体)。例如,组中的区域可以选择为以至少50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%或99.9%的灵敏度检测癌症(例如,通过检测一种或更多种遗传变体)。组中的基因组位置可以选择为以100%的灵敏度检测癌症。
组中的基因组位置可以选择为以期望的特异性水平检测(诊断)癌症(例如,通过检测一种或更多种遗传变体)。例如,组中的基因组区域可以选择为以至少50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%或99.9%的特异性检测癌症(例如,通过检测一种或更多种遗传变体)。组中的基因组位置可以选择为以100%的特异性检测一种或更多种遗传变体。
组中的基因组位置可以选择为以期望的阳性预测值检测(诊断)癌症。可以通过增加灵敏度(例如,检测到实际阳性的机会)和/或特异性(例如,不会将实际阴性误认为阳性的机会)来增加阳性预测值。作为非限制性实例,组中的基因组位置可以选择为以至少50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%或99.9%的阳性预测值检测一种或更多种遗传变体。组中的区域可以选择为以100%的阳性预测值检测一种或更多种遗传变体。
组中的基因组位置可以选择为以期望的准确度检测(诊断)癌症。如本文所用,术语“准确度”可以指测试区分疾病状况(例如,癌症)和健康状况的能力。准确度可以使用诸如灵敏度和特异性、预测值、似然比、ROC曲线下面积、Youden指数和/或诊断优势比的量度来定量。
准确度可以用百分比表示,百分比是指给出正确结果的测试次数与执行的测试总数之间的比率。组中的区域可以选择为以至少50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%或99.9%的准确度检测癌症。组中的基因组位置可以选择为以100%的准确度检测癌症。
可以选择组为高度灵敏并检测低频遗传变体。例如,可以选择组,使得可以以至少50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%或99.9%的灵敏度检测以低至0.01%、0.05%或0.001%的频率存在于样品中的遗传变体或肿瘤标志物。可以选择组中的基因组位置,以70%或更高的灵敏度检测以1%或更低的频率存在于样品中的肿瘤标志物。可以选择组以至少50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%或99.9%的灵敏度检测样品中低至0.1%的频率的肿瘤标志物。可以选择组以至少50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%或99.9%的灵敏度检测样品中低至0.01%的频率的肿瘤标志物。可以选择组以至少50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%或99.9%的灵敏度检测样品中低至0.001%的频率的肿瘤标志物。
组可以选择为高度特异性并检测低频遗传变体。例如,组可以选择为使得可以以至少50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%或99.9%的特异性检测以低至0.01%、0.05%或0.001%的频率存在于样品中的遗传变体或肿瘤标志物。组中的基因组位置可以选择为以70%或更高的特异性检测以1%或更低的频率存在于样品中的肿瘤标志物。组可以选择为以至少70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%或99.9%的特异性检测样品中低至0.1%的频率的肿瘤标志物。组可以选择为以至少70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%或99.9%的特异性检测样品中低至0.01%的频率的肿瘤标志物。组可以选择为以至少70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%或99.9%的特异性检测样品中低至0.001%的频率的肿瘤标志物。
组可以选择为高度准确并检测低频遗传变体。组可以选择为使得可以以至少70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%或99.9%的准确度检测以低至0.01%、0.05%或0.001%的频率存在于样品中的遗传变体或肿瘤标志物。组中的基因组位置可以选择为以70%或更高的准确度检测以1%或更低的频率存在于样品中的肿瘤标志物。组可以选择为以至少70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%或99.9%的准确度检测样品中低至0.1%的频率的肿瘤标志物。组可以选择为以至少70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%或99.9%的准确度检测样品中低至0.01%的频率的肿瘤标志物。组可以选择为以至少70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%或99.9%的准确度检测样品中低至0.001%的频率的肿瘤标志物。
组可以选择为高度预测性并检测低频遗传变体。组可以选择为以低至0.01%、0.05%或0.001%的频率存在于样品中的遗传变体或肿瘤标志物可以具有至少70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%或99.9%的阳性预测值。
可增加组中使用的探针或诱饵的浓度(2至6ng/μL),以捕获样品中更多的核酸分子。组中使用的探针或诱饵的浓度可为至少2ng/μL、3ng/μL、4ng/μL、5ng/μL、6ng/μL或更高。探针的浓度可为约2ng/μL至约3ng/μL、约2ng/μL至约4ng/μL、约2ng/μL至约5ng/μL、约2ng/μL至约6ng/μL。组中使用的探针或诱饵的浓度可为2ng/μL或更高至6ng/μL或更低。在一些情况下,这可以允许分析生物样品中的更多分子,从而能够检测较低频率的等位基因。
在一种实施方式中,在测序之后,序列读段可以被分配质量评分。质量评分可以是序列读段的基于阈值指示这些序列读段是否可以用于随后的分析的表示。在一些情况下,一些序列读段不具有足够的质量或长度来进行随后的映射步骤。具有至少90%、95%、99%、99.9%、99.99%或99.999%的质量评分的序列读段可能从序列读段的数据集中过滤掉。在其他情况下,被分配了至少90%、95%、99%、99.9%、99.99%或99.999%的质量评分的序列读段可能从数据集中过滤掉。满足指定质量评分阈值的序列读段可以被映射到参考基因组。映射比对后,序列读段可以被分配映射评分。映射评分可以是映射回参考序列的序列读段的表示,指示每一个位置是或者不是独特地可映射的。具有至少90%、95%、99%、99.9%、99.99%或99.999%的映射评分的序列读段可能从数据集中过滤掉。在其他情况下,被分配了少于90%、95%、99%、99.9%、99.99%或99.999%的映射评分的测序读段可能从数据集中过滤掉。
癌症和其他疾病
在某些实施方案中,本文公开的方法和方面用于诊断患者的给定疾病、病症或状况。在某些实施方案中,本文公开的方法和方面用于患者的纵向监测和追踪患有疾病的受试者的治疗响应。通常,所考虑的疾病是一种癌症。这种癌症的非限制性实例包括胆道癌、膀胱癌、移行细胞癌、尿路上皮癌、脑癌、神经胶质瘤、星形细胞瘤、乳腺癌、化生性癌、宫颈癌、宫颈鳞状细胞癌、直肠癌、结肠直肠癌、结肠癌、遗传性非息肉性结肠直肠癌、结肠直肠腺癌、胃肠间质瘤(GIST)、子宫内膜癌、子宫内膜间质肉瘤、食管癌、食管鳞状细胞癌、食管腺癌、眼黑色素瘤、葡萄膜黑色素瘤、胆囊癌、胆囊腺癌、肾细胞癌、透明细胞肾细胞癌、移行细胞癌、尿路上皮癌、肾母细胞瘤、白血病、急性淋巴细胞白血病(ALL)、急性髓细胞白血病(AML)、慢性淋巴细胞白血病(CLL)、慢性髓细胞白血病(CML)、慢性髓单核细胞白血病(CMML)、肝癌、肝上皮癌、肝细胞癌、胆管癌、肝母细胞瘤、肺癌、非小细胞肺癌(NSCLC)、间皮瘤、B细胞淋巴瘤、非霍奇金淋巴瘤、弥漫性大B细胞淋巴瘤、套细胞淋巴瘤、T细胞淋巴瘤、非霍奇金淋巴瘤、前体T淋巴母细胞性淋巴瘤/白血病、外周T细胞淋巴瘤、多发性骨髓瘤、鼻咽癌(NPC)、成神经细胞瘤、口腔癌、口腔鳞状细胞癌、骨肉瘤、卵巢癌、胰腺癌、胰腺导管腺癌、假乳头状肿瘤、腺泡细胞癌、前列腺癌、前列腺腺癌、皮肤癌、黑色素瘤、恶性黑色素瘤、皮肤黑色素瘤、小肠癌、胃癌、胃上皮癌、胃肠间质瘤(GIST)、子宫癌或子宫肉瘤。
使用本文公开的方法和系统任选地评价的其他基于遗传的疾病、病症或状况的非限制性实例包括软骨发育不全、α-1抗胰蛋白酶缺乏症、抗磷脂综合征、孤独症、常染色体显性多囊肾病、沙尔科-马里-图思病(Charcot-Marie-Tooth,CMT)、猫叫综合征、克罗恩病、囊性纤维化、德卡姆病(Dercum disease)、唐氏综合征、Duane综合征、杜兴氏肌营养不良症、因子V Leiden易栓症、家族性高胆固醇血症、家族性地中海热、脆性X综合征、戈谢病、血色素沉着症、血友病、前脑无裂畸形(holoprosencephaly)、亨廷顿病、克兰费尔特综合征、马方综合征、强直性肌营养不良、神经纤维瘤病、努南综合征、成骨不全、帕金森病、苯丙酮尿症、Poland异常、卟啉症、早老症、视网膜色素变性、重症联合免疫缺陷(scid)、镰状细胞病、脊髓性肌萎缩症、Tay-Sachs、地中海贫血、三甲基胺尿症、特纳综合征、颚心脸综合征(velocardiofacial syndrome)、WAGR综合征、威尔逊病等。
精准治疗
由改进的计算机系统110提供的精确诊断可以产生由计算机系统110鉴定(和/或由卫生专业人员选择)的精确的治疗计划。例如,一种类型的精确诊断和治疗可能与同源重组修复(HRR)途径中的基因有关。
同源重组是一种遗传重组,其中核苷酸序列在两个相似或相同的DNA分子之间交换。细胞最广泛地使用它来精确修复称为双链断裂(DSB)的、发生在DNA两条链上的有害断裂。HRR提供了一种无差错消除存在于已复制(S期和G2期)的DNA中的损害的机制,以在细胞分裂发生之前消除染色体断裂。同源重组如何修复DNA中双链断裂的主要模型是同源重组修复途径,其介导双链断裂修复(DSBR)途径和合成依赖性链退火(SDSA)途径。同源重组基因的种系和体细胞缺陷与乳腺癌、卵巢癌和前列腺癌密切相关。
样品中变体核苷酸的数目和类型可以提供关于提供样品的受试者对治疗即治疗干预的适应性的指示。例如,各种聚ADP核糖聚合酶(PARP)抑制剂已被证明能阻止由BRCA1或BRCA2基因的遗传突变引起的乳腺癌、卵巢癌和前列腺癌肿瘤的生长。这些治疗剂中的一些可以抑制碱基切除修复(BER),碱基切除修复可以弥补HRR的不足。
另一方面,某些BRCA和HRR野生型患者可能无法从PARP抑制剂治疗中获得临床益处。此外,并非所有具有BRCA突变的卵巢癌患者都会对PARP抑制剂产生响应。此外,不同类型的突变可能指示不同的疗法。例如,HRR基因的体细胞杂合缺失可能指示与体细胞纯合缺失不同的疗法。因此,遗传物质的状态可能影响治疗。在一个实例中,可将PARP抑制剂向在HRR基因中含有体细胞纯合缺失的个体施用,但不向在HRR基因中含有野生型等位基因或体细胞杂合缺失的个体施用。
在一些实施方式中,具有由所公开的任何方法确定的HRD的受试者可以被施用靶向治疗。靶向治疗可包括PARP抑制剂。可以施用的PARP抑制剂的实例包括以下一种或更多种:VELIPARIB、OLAPARIB、TALAZOPARIB、RUCAPARIB、NIRAPARIB、PAMIPARIB、CEP 9722(Cephalon)、E7016(Eisai)、E7449(Eisai,PARP 1/2和tankyrase 1/2抑制剂)或3-氨基苯甲酰胺。在一些实施方式中,靶向治疗可以包括至少一种碱基切除修复(BER)抑制剂。例如,OLAPARIB可以抑制BER。在某些实施方式中,靶向治疗可以包括PARP抑制剂和放射治疗的组合。在一种实施方式中,PARP抑制剂和放射治疗的组合将允许PARP抑制剂导致在肿瘤组织(例如,具有BRCA1/BRCA2突变的组织)中从放射治疗产生的单链断裂形成双链断裂。这种组合可以在每次辐射剂量提供更有效的治疗。
定制治疗和相关施用
在一些实施方式中,本文公开的方法涉及鉴定具有给定的疾病、病症或状况的患者以及向所述患者施用治疗。基本上任何癌症治疗(例如,外科治疗、放射治疗、化疗等等)被包括作为这些方法的部分。在某些实施方式中,施用于受试者的治疗可包括至少一种化疗药物。在一些实施方式中,化疗药物可以包含烷化剂(例如但不限于苯丁酸氮芥、环磷酰胺、顺铂和卡铂)、亚硝脲(例如但不限于卡莫司汀和洛莫司汀)、抗代谢物(例如但不限于氟尿嘧啶、甲氨蝶呤和氟达拉滨)、植物生物碱和天然产物(例如但不限于长春新碱、紫杉醇和拓扑替康)、抗肿瘤抗生素(例如但不限于博莱霉素、多柔比星和米托蒽醌)、激素剂(例如但不限于泼尼松、地塞米松、他莫昔芬和亮丙立德)和生物响应调节剂(例如但不限于赫赛汀和阿瓦斯丁、爱必妥(Erbitux)和利妥昔单抗)。在一些实施方式中,施用于受试者的化疗可以包括FOLFOX或FOLFIRI。通常,治疗包括至少一种免疫治疗(或免疫治疗剂)。免疫治疗通常指增强针对给定癌症类型的免疫应答的方法。在某些实施方式中,免疫治疗是指增强针对肿瘤或癌症的T细胞应答的方法。
在一些实施方式中,免疫治疗或免疫治疗剂靶向免疫检查点分子。某些肿瘤能够通过选择免疫检查点途径来逃避免疫系统。因此,靶向免疫检查点已经成为对抗肿瘤逃避免疫系统的能力和激活针对某些癌症的抗肿瘤免疫的有效方法。Pardoll,Nature ReviewsCancer,2012,12:252-264。
在某些实施方式中,免疫检查点分子是抑制性分子,其减少T细胞对抗原的应答中涉及的信号。例如,CTLA4在T细胞上表达,并通过结合抗原呈递细胞上的CD80(又名B7.1)或CD86(又名B7.2)在下调T细胞活化中起作用。PD-1是另一种在T细胞上表达的抑制性检查点分子。PD-1在炎性应答期间限制外周组织中T细胞的活性。此外,PD-1的配体(PD-L1或PD-L2)通常在许多不同肿瘤的表面上上调,导致肿瘤微环境中抗肿瘤免疫应答的下调。在某些实施方式中,抑制性免疫检查点分子是CTLA4或PD-1。在其他实施方式中,抑制性免疫检查点分子是PD-1的配体,诸如PD-L1或PD-L2。在其他实施方式中,抑制性免疫检查点分子是CTLA4的配体,诸如CD80或CD86。在其他实施方式中,抑制性免疫检查点分子是淋巴细胞活化基因3(LAG3)、杀伤细胞免疫球蛋白样受体(KIR)、T细胞膜蛋白3(TIM3)、半乳凝素9(GAL9)或腺苷A2a受体(A2aR)。
靶向这些免疫检查点分子的拮抗剂可用于增强针对某些癌症的抗原特异性T细胞应答。因此,在某些实施方式中,免疫治疗或免疫治疗剂是抑制性免疫检查点分子的拮抗剂。在某些实施方式中,抑制性免疫检查点分子是PD-1。在某些实施方式中,抑制性免疫检查点分子是PD-L1。在某些实施方式中,抑制性免疫检查点分子的拮抗剂是抗体(例如,单克隆抗体)。在某些实施方式中,抗体或单克隆抗体是抗CTLA4、抗PD-1、抗PD-L1或抗PD-L2抗体。在某些实施方式中,抗体是单克隆抗PD-1抗体。在某些实施方式中,抗体是单克隆抗PD-L1抗体。在某些实施方式中,单克隆抗体是抗CTLA4抗体和抗PD-1抗体、抗CTLA4抗体和抗PD-L1抗体、或抗PD-L1抗体和抗PD-1抗体的组合。在某些实施方式中,抗PD-1抗体是pembrolizumab或纳武利尤单抗/>中的一种或更多种。在某些实施方式中,抗CTLA4抗体是易普利姆玛/>在某些实施方式中,抗PD-L1抗体是阿特珠单抗(atezolizumab)/>avelumab/>或durvalumab/>中的一种或更多种。
在某些实施方式中,免疫治疗或免疫治疗剂是针对CD80、CD86、LAG3、KIR、TIM3、GAL9或A2aR的拮抗剂(例如抗体)。在其他实施方式中,拮抗剂是抑制性免疫检查点分子的可溶性形式,诸如包含抑制性免疫检查点分子的细胞外结构域和抗体的Fc结构域的可溶性融合蛋白。在某些实施方式中,可溶性融合蛋白包含CTLA4、PD-1、PD-L1或PD-L2的细胞外结构域。在一些实施方式中,可溶性融合蛋白包含CD80、CD86、LAG3、KIR、TIM3、GAL9或A2aR的细胞外结构域。在一种实施方式中,可溶性融合蛋白包含PD-L2或LAG3的细胞外结构域。
在某些实施方式中,免疫检查点分子是共刺激分子,其放大T细胞对抗原的应答中涉及的信号。例如,CD28是一种在T细胞上表达的共刺激受体。当T细胞通过其T细胞受体与抗原结合时,CD28与抗原呈递细胞上的CD80(又名B7.1)或CD86(又名B7.2)结合,以放大T细胞受体信号传导并促进T细胞活化。因为CD28与CTLA4结合相同的配体(CD80和CD86),CTLA4能够抵消或调节由CD28介导的共刺激信号传导。在某些实施方式中,免疫检查点分子是选自CD28、诱导性T细胞共刺激因子(ICOS)、CD137、OX40或CD27的共刺激分子。在其他实施方式中,免疫检查点分子是包括例如CD80、CD86、B7RP1、B7-H3、B7-H4、CD137L、OX40L或CD70的共刺激分子的配体。
靶向这些共刺激检查点分子的激动剂可用于增强针对某些癌症的抗原特异性T细胞应答。因此,在某些实施方式中,免疫治疗或免疫治疗剂是共刺激检查点分子的激动剂。在某些实施方式中,共刺激检查点分子的激动剂是激动剂抗体,并且优选地是单克隆抗体。在某些实施方式中,激动剂抗体或单克隆抗体是抗CD28抗体。在其他实施方式中,激动剂抗体或单克隆抗体是抗ICOS、抗CD137、抗OX40或抗CD27抗体。在其他实施方式中,激动剂抗体或单克隆抗体是抗CD80、抗CD86、抗B7RP1、抗B7-H3、抗B7-H4、抗CD137L、抗OX40L或抗CD70抗体。
用于治疗除了癌症之外的特定的基于遗传的疾病、病症或状况的治疗选项通常是本领域普通技术人员熟知的,并且鉴于所考虑的特定疾病、病症或状况将是明显的。
在某些实施方式中,本文所述的定制治疗通常肠胃外(例如,静脉内或皮下)施用。含有免疫治疗剂的药物组合物通常静脉内施用。某些治疗剂口服施用。然而,定制治疗(例如,免疫治疗剂等)也可以通过本领域已知的任何方法施用,包括例如口腔施用、舌下施用、直肠施用、阴道施用、尿道内施用、表面施用、眼内施用、鼻内施用和/或心房内施用,这些施用可以包括片剂、胶囊、颗粒、水性悬浮液、凝胶、喷雾剂、栓剂、药膏(salves)、软膏(ointments)等。
图11是示出根据一些示例实施方式的机器1100的组件的框图,该机器1100能够从机器可读介质(例如,机器可读存储介质)读取指令并执行本文讨论的任何一种或更多种方法。具体地,图11示出了计算机系统的示例形式中的机器1100的示意图,在该计算机系统中,可以执行用于使机器1100执行本文讨论的任何一个或更多个方法的指令1102(例如,软件、程序、应用程序(application)、小程序、应用程序(app)或其他可执行代码)。这样,指令1102可用于实现本文描述的模块或组件。指令1102将一般的、未编程的机器1100转换成特定的机器1100,该机器被编程为以所描述的方式执行所描述和图示的功能。在替代实施方式中,机器1100作为独立装置操作,或者可以耦合(例如,联网)到其他机器。在联网部署中,机器1100可以在服务器-客户端网络环境中以服务器机器或客户端机器的能力操作,或者在对等(或分布式)网络环境中作为对等机器操作。机器1100可以包括但不限于服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如,智能手表)、智能家居设备(例如,智能家用电器)、其他智能设备、网络家用电器、网络路由器、网络交换机、网桥或能够顺序或以其他方式执行指令1102的任何机器,指令1102指定机器1100要采取的动作。此外,虽然仅示出了单个机器1100,但是术语“机器”也应被理解为包括单独或联合执行指令1102以执行本文讨论的任何一个或更多个方法的机器的集合。
机器1100可以包括处理器1104、内存/存储器1106和I/O组件1108,它们可以被配置成诸如经由总线1110彼此通信。在示例实施方式中,处理器1104(例如,中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另一处理器或其任何合适的组合)可以包括例如可以执行指令1102的处理器1112和处理器1114。术语“处理器”旨在包括多核处理器1104,其可以包括可以同时执行指令1102的两个或更多个独立处理器(有时称为“核心”)。尽管图11示出了多个处理器1104,但是机器1100可以包括具有单核的单个处理器1112、具有多核的单个处理器1112(例如,多核处理器)、具有单核的多个处理器1112、1114、具有多核的多个处理器1112、1114或其任何组合。
内存/存储器1106可以包括存储器,诸如主存储器1116或其他内存/存储器,以及存储单元1118,两者都可被处理器1104诸如经由总线1110访问。存储单元1118和主存储器1116存储包含本文描述的方法或功能中的任何一个或更多个的指令1102。在机器1100执行指令1102期间,指令1102还可以完全或部分地驻留在主存储器1116内、存储单元1118内、处理器1104中的至少一个内(例如,处理器的高速缓冲存储器内)或其任何合适的组合内。因此,主存储器1116、存储单元1118和处理器存储器1104是机器可读介质的实例。
I/O组件1108可以包括各种各样的组件来接收输入、提供输出、产生输出、传输信息、交换信息、捕获测量值等等。包括在特定机器1100中的特定I/O组件1108将取决于机器的类型。例如,诸如移动电话的便携式机器将可能包括触摸输入装置或其他这样的输入机制,而无头服务器机器将可能不包括这样的触摸输入装置。应当理解,I/O组件1108可以包括图10中未示出的许多其他组件。I/O组件1108根据功能进行分组仅仅是为了简化下面的讨论,并且分组绝不是限制性的。在各种示例实施方式中,I/O组件1108可以包括用户输出组件1120和用户输入组件1122。用户输出组件1120可以包括视觉组件(例如,诸如等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT)的显示器)、声学组件(例如,扬声器)、触觉组件(例如,振动电机、电阻机构)、其他信号发生器等等。用户输入组件1122可以包括字母数字输入组件(例如,键盘、被配置为接收字母数字输入的触摸屏、光电键盘或其他字母数字输入组件)、基于点的输入组件(例如,鼠标、触摸板、轨迹球、操纵杆、运动传感器或其他指向工具)、触觉输入组件(例如,物理按钮、提供触摸或触摸手势的位置或力的触摸屏或其他触觉输入组件)、音频输入组件(例如,麦克风)等。
在另外的示例实施方式中,I/O组件1108可以包括生物特征组件1124、运动组件1126、环境组件1128或位置组件1130以及广泛的其他组件。例如,生物特征组件1124可以包括用于检测表情(例如,手部表情、面部表情、声音表情、身体姿势或眼睛追踪)、测量生物信号(例如,血压、心率、体温、排汗或脑电波)、识别人(例如,语音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的组件。运动组件1126可以包括加速传感器组件(例如,加速度计)、重力传感器组件、旋转传感器组件(例如,陀螺仪)等。环境组件1128可以包括例如照明传感器组件(例如,光度计)、温度传感器组件(例如,检测环境温度的一个或更多个温度计)、湿度传感器组件、压力传感器组件(例如,气压计)、声学传感器组件(例如,检测背景噪声的一个或更多个麦克风)、接近传感器组件(例如,检测附近物体的红外传感器)、气体传感器(例如,为了安全检测危险气体浓度或测量大气中污染物的气体检测传感器)或可以提供对应于周围物理环境的指示、测量值或信号的其他组件。位置组件1130可以包括位置传感器组件(例如,GPS接收器组件)、高度传感器组件(例如,检测可以从中导出高度的气压的高度计或气压计)、方向传感器组件(例如,磁力计)等。
通信可以使用多种技术来实现。I/O组件1108可以包括可操作以将机器1100耦合到网络1134或装置1136的通信组件1132。例如,通信组件1132可以包括网络接口组件或其他合适的装置来与网络1134接口。在另外的实例中,通信组件1132可以包括有线通信组件、无线通信组件、蜂窝通信组件、近场通信(NFC)组件、组件(例如,/>低能耗)、组件以及经由其他模态提供通信的其他通信组件。装置1136可以是另一台机器1100或多种外围装置(例如,经由USB耦合的外围装置)中的任何一种。
此外,通信组件1132可以检测标识符或包括可操作用于检测标识符的组件。例如,通信组件1132可以包括射频识别(RFID)标签读取器组件、NFC智能标签检测组件、光学读取器组件(例如,检测一维条形码诸如通用产品代码(UPC)条形码、多维条形码诸如快速响应(QR)码、Aztec码、数据矩阵、Dataglyph、MaxiCode、PDF417、Ultra码、UCC RSS-2D条形码和其他光学码的光学传感器)、或者声学检测组件(例如,用于识别标记的音频信号的麦克风)。此外,可以经由通信组件1132导出各种信息,例如经由互联网协议(IP)地理位置的位置、经由信号三角测量的位置、经由检测可以指示特定位置的NFC信标信号的位置等等。
如本文所用,“组件”是指具有由函数或子程序调用、分支点、API或提供特定处理或控制功能的分区或模块化的其他技术定义的边界的装置、物理实体或逻辑。组件可以通过它们的接口与其他组件组合,以执行机器过程。组件可以是设计用于与其他组件一起使用的打包功能硬件单元,也可以是通常执行相关功能的特定功能的程序的一部分。组件可以构成软件组件(例如,在机器可读介质上实现的代码)或硬件组件。“硬件组件”是能够执行某些操作的有形单元,并且可以以某种物理方式进行配置或排列。在各种示例实施方式中,一个或更多个计算机系统(例如,独立计算机系统、客户端计算机系统或服务器计算机系统)或计算机系统的一个或更多个硬件组件(例如,处理器或一组处理器)可以由软件(例如,应用程序或应用程序部分)配置为硬件组件,该硬件组件操作以执行本文所述的某些操作。
硬件组件也可以机械地、电子地或其任何合适的组合来实现。例如,硬件组件可以包括被永久配置为执行某些操作的专用电路或逻辑。硬件组件可以是专用处理器,诸如现场可编程门阵列(FPGA)或ASIC。硬件组件还可以包括由软件临时配置以执行某些操作的可编程逻辑或电路。例如,硬件组件可以包括由通用处理器1104或其他可编程处理器执行的软件。在由这样的软件配置后,硬件组件就成为特定的机器(或机器1100的特定组件),被独特地定制以执行所配置的功能,并且不再是通用处理器1104。应当理解,机械地、在专用和永久配置的电路中或者在临时配置的电路(例如,由软件配置)中实现硬件组件的决定可以由成本和时间考虑来驱动。因此,短语“硬件组件”(或“硬件实现的组件”)应该被理解为包括有形实体,可以是物理构造的、永久配置的(例如,硬连线的)或临时配置的(例如,编程的)以某种方式操作或执行本文所述的某些操作的实体。考虑到其中硬件组件被临时配置(例如,被编程)的实现,每个硬件组件不需要在时间上的任何一个实例被配置或例示。例如,在硬件组件包括由软件配置成专用处理器的通用处理器1104的情况下,通用处理器1104可以在不同时间分别配置为不同的专用处理器(例如,包括不同的硬件组件)。软件相应地配置特定处理器1112、1114或处理器1104,例如在一个时间实例构成特定硬件组件,并在不同时间实例构成不同的硬件组件。
硬件组件可以向其他硬件组件提供信息,也可以从其他硬件组件接收信息。因此,所描述的硬件组件可以被认为是通信耦合的。在多于一个硬件组件同时存在的情况下,通信可以通过两个或更多个硬件组件之间的信号传输(例如,通过适当的电路和总线)来实现。在其中在不同时间配置或例示多于一个硬件组件的实现中,这些硬件组件之间的通信可以例如通过在多于一个硬件组件可以访问的存储器结构中存储和检索信息来实现。例如,一个硬件组件可以执行一个操作,并将该操作的输出存储在与其通信耦合的存储装置中。然后,另一个硬件组件可以在稍后的时间访问存储装置以检索和处理存储的输出。
硬件组件还可以发起与输入或输出装置的通信,并且可以对资源(例如,信息的集合)进行操作。本文描述的示例方法的各种操作可以至少部分地由一个或更多个处理器1104来执行,所述处理器1104被临时配置(例如,通过软件)或永久配置来执行相关操作。无论是临时配置还是永久配置,这样的处理器1104可以构成处理器实现的组件,其操作以执行本文描述的一个或更多个操作或功能。如本文所用,“处理器实现的组件”是指使用一个或更多个处理器1104实现的硬件组件。类似地,本文描述的方法可以至少部分地由处理器实现,特定处理器1112、1114或处理器1104是硬件的实例。例如,方法的至少一些操作可以由一个或更多个处理器1104或处理器实现的组件来执行。此外,一个或更多个处理器1104还可以操作以支持“云计算”环境中或作为“软件即服务”(SaaS)的相关操作的性能。例如,至少一些操作可以由一组计算机(作为包括处理器1104的机器1000的实例)执行,这些操作可以经由网络1134(例如,互联网)和经由一个或更多个适当的接口(例如,API)访问。某些操作的性能可以分布在处理器之间,不仅驻留在单个机器1100内,而且部署在许多机器上。在一些示例实施方式中,处理器1104或处理器实现的组件可以位于单个地理位置(例如,在家庭环境、办公室环境或服务器群内)。在其他示例实施方式中,处理器1104或处理器实现的组件可以分布在许多地理位置。
图12是示出包括示例软件架构1202的系统1200的框图,该示例软件架构1202可以与本文描述的各种硬件架构结合使用。图12是软件架构的非限制性示例,并且将会理解,可以实现许多其他架构来促进本文描述的功能。软件架构1202可以在诸如图11的机器1100的硬件上执行,该硬件包括处理器1104、内存/存储器1106和输入/输出(I/O)组件1108等。示出了代表性的硬件层1204,并且可以表示例如图11的机器1100。代表性硬件层1204包括具有相关的可执行指令1208的处理单元1206。可执行指令1208表示软件架构1202的可执行指令,包括本文描述的方法、组件等的实现。硬件层1204还包括存储器或存储模块内存/存储器1210中的至少一个,其也具有可执行指令1208。硬件层1204还可以包括其他硬件1212。
在图12的示例架构中,软件架构1202可以被概念化为层的堆栈,其中每一层提供特定的功能。例如,软件架构1202可以包括诸如操作系统1214、库1216、框架/中间件1218、应用1220和表示层1222的层。操作上,层内的应用1220或其他组件可以通过软件堆栈调用API调用1224,并响应于API调用1224接收消息1226。图示的层在本质上是有代表性的,并不是所有的软件架构都有所有的层。例如,一些移动或特殊用途操作系统可以不提供框架/中间件1218,而其他操作系统可以提供这样的层。其他软件架构可以包括另外的或不同的层。
操作系统1214可以管理硬件资源并提供公共服务。操作系统1214可以包括例如内核1228、服务1230和驱动程序1232。内核1228可以充当硬件层和其他软件层之间的抽象层。例如,内核1228可以负责存储器管理、处理器管理(例如,调度)、组件管理、网络、安全设置等等。服务1230可以为其他软件层提供其他公共服务。驱动器1232负责控制底层硬件或与底层硬件接口。例如,取决于硬件配置,驱动程序1232包括显示器驱动程序、相机驱动程序、 驱动程序、闪存驱动程序、串行通信驱动程序(例如,通用串行总线(USB)驱动程序)、驱动程序、音频驱动程序、电源管理驱动程序等等。
库1216提供由应用程序1220、其他组件或层中的至少一个使用的公共基础设施。库1216提供允许其他软件组件以比直接与底层操作系统1214功能(例如,内核1228、服务1230、驱动程序1232)接口更容易的方式执行任务的功能。库1216可以包括系统库1234(例如,C标准库),其可以提供诸如存储器分配函数、字符串操作函数、数学函数等功能。此外,库1216可以包括API库1236,诸如媒体库(例如,支持诸如MPEG4、H.264、MP3、AAC、AMR、JPG、PNG等各种媒体格式的呈现和操作的库)、图形库(例如,可用于在显示器上呈现二维和三维图形内容的OpenGL框架)、数据库库(例如,可提供各种关系数据库功能的SQLite)、web库(例如,可提供web浏览功能的WebKit)等。库1216还可以包括各种各样的其他库1238,以向应用1220和其他软件组件/模块提供许多其他API。
框架/中间件1218(有时也称为中间件)提供可由应用1220或其他软件组件/模块使用的更高级别的公共基础设施。例如,框架/中间件1218可以提供各种图形用户界面功能、高级别资源管理、高级别位置服务等等。框架/中间件1218可以提供应用程序1220或其他软件组件/模块可以利用的广谱的其他API,其中一些可以特定于特定的操作系统1214或平台。
应用1220包括内置应用1240和第三方应用1242。代表性内置应用1240的实例可以包括但不限于联系人应用、浏览器应用、图书阅读器应用、位置应用、媒体应用、消息应用或游戏应用。第三方应用1242可以包括由特定平台的供应商之外的实体使用ANDROIDTM或IOSTM软件开发工具包(SDK)开发的应用,并且可以是运行在诸如IOSTM、ANDROIDTM电话或其他移动操作系统的移动操作系统上的移动软件。第三方应用1242可以调用由移动操作系统(诸如操作系统1214)提供的API调用1224,以促进本文描述的功能。/>
应用1220可以使用内置的操作系统功能(例如,内核1228、服务1230、驱动程序1232)、库1216和框架/中间件1218来创建UI与系统的用户交互。可选地或另外地,在一些系统中,与用户的交互可以通过表示层发生,诸如表示层1222。在这些系统中,应用程序/组件“逻辑”可以从与用户交互的应用程序/组件的各个方面分离。
本文描述的至少一些过程可以在由一个或更多个处理器执行的计算机可读指令中体现,使得过程的操作可以部分或全部由一个或更多个计算机系统的功能组件执行。因此,在一些情况下,本文描述的计算机实现的过程是作为参考的示例。然而,在其他实现中,本文描述的计算机实现的过程的至少一些操作可以部署在各种其他硬件配置上。因此,本文描述的计算机实现的过程不旨在限于关于图11和图12描述的系统和配置,并且可以全部或部分地由一个或更多个另外的系统和/或组件实现。
尽管本文描述的流程图可以将操作示为顺序过程,但是许多操作可以并行或并发执行。此外,可以重新安排操作的顺序。当一个进程的操作完成时,它就被终止了。过程可以对应于方法、程序、算法等。方法的操作可以全部或部分执行,可以与其他方法中的一些或所有操作联合执行,并且可以由任意数量的不同系统执行,诸如本文描述的系统,或者其任何部分,诸如包括在任何系统中的处理器。
实施例
实施例1
利用概率模型同时归一化靶向和脱靶基因组区域的分子覆盖范围,减轻了系统覆盖范围偏差。该模型由来自超过10万个临床无细胞DNA(cfDNA)患者样品的大型数据库(Guardant Health,CA)的测序数据提供信息。
·利用循环二进制分割鉴定拷贝数一致的分割区域。使用EM算法拟合并入了中靶/脱靶区域的覆盖范围和每个区段内种系SNP的等位基因频率的概率模型。该复合概率模型允许预测基因水平的体细胞CNA、基因功能丧失或全基因组不稳定性/LoH。
使用现有数据中观察到的覆盖范围和突变等位基因分数(MAF)可变性,模拟了尺寸为40Mb的区域的缺失和扩增的数据集。现有数据从液体活检的结果获得。模拟研究比较了检测小水平扩增和缺失(1-4个拷贝)的灵敏度,以比较“中靶+脱靶”模型与仅“中靶”模型的性能。图13A显示了对于40Mb尺寸区域,在扩增发生时拷贝数为“3”或在缺失发生时拷贝数为“1”的情况下,仅使用中靶数据相对于使用中靶和脱靶数据的组合,杂合性丢失的检测限(LoD)的差异。在这些情况下,相对于仅使用中靶数据,当使用中靶和脱靶数据时,灵敏度可以提高至少约20%。
图13B显示了对于40Mb尺寸区域,在扩增发生时拷贝数为“4”或对于纯合缺失为“0”拷贝的情况下,仅使用中靶数据相对于使用中靶和脱靶数据的组合,杂合性丢失的LoD的差异。在这些情况下,相对于仅使用中靶数据,当使用中靶和脱靶数据时,灵敏度可以提高至少约10%。对于40Mb尺寸区域,检测中的LoD为LOH/3个拷贝或homdel/4个拷贝。注意:检测拷贝数改变的灵敏度不仅随肿瘤细胞拷贝数而变化,也随改变的基因组区域尺寸而变化,并且变得不太依赖于靶向组(targeting panel)。
实施例2
图14显示了对于不同类型癌症,最大突变等位基因分数(MAF)与预测的肿瘤分数的关系图。预测的肿瘤分数是基于本文描述的技术,该技术使用最大似然估计(MLE)模型,其中基因组区段的组织拷贝数是MLE模型的参数。在驱动因素经常被包括在组中的癌症类型中观察到高度的一致性。CRC样品(R2=0.75),胃癌(R2=0.63)和膀胱癌(R2=0.6),提示在靶向组中未显示驱动突变的情况下,使用该度量更好地估计cfDNA中的肿瘤脱落水平。分析包括>6,000个各种癌症类型的癌症样品,其中具有最高等位基因分数的体细胞调用是给定癌症类型的已知驱动突变。
实施例3
图15显示了使用现有技术在6号染色体的基因组区域中观察到的与人类白细胞抗原(HLA)相关的缺失。HLA区中观察到的缺失在5Mb至60Mb之间变化。
我们观察到,表征HLA LOH细化了新抗原的预测,并可能对我们理解耐药机制和靶向新抗原的免疫治疗方法有意义。通过将本文描述的建模方法应用于来自在RUO上处理的不同癌症类型的15,618名癌症患者的样品,预测人类白细胞抗原中的杂合性丢失。
图16显示了预测在HLA区域具有杂合性丢失(LoH)的患者的观察到的6号染色体覆盖范围的实例。
图17显示了不同癌症类型中HLA LoH的普遍率。在膀胱癌、前列腺癌、NSCLC和HNSC中观察到HLA中LoH的高普遍率(超过15%),并且与先前的研究一致,即HLA LOH是降低免疫治疗疗效的几种癌症类型的共同特征。
实施例4
图18显示了在许多不同基因组位置的杂合单核苷酸多态性(SNP)的突变等位基因分数的实例,这些突变等位基因分数通过确定MAF的倒数,并且然后应用Log base 2转换来修饰。特别地,1800显示了在参考序列的相应基因组位置的许多SNP的突变等位基因分数。图18所示的至少一部分SNP可以对应于参考序列的靶区域。杂合SNP首先被调整到低于等位基因平衡基线。也就是说,当MAF值低于基线值时,它保持为其原始值;当MAF高于基线值时,将它向下翻转为(1-MAF)x(基线/0.5)。这一过程的结果显示在1802。然后对调整的MAF进行log2转换并上移1,使得初始等位基因平衡的MAF 0.5现在被转换为0。1804显示了log base2转换的结果。
图19显示了使用图18所示的转换的SNP MAF数据基于拷贝数(显示为第一种颜色诸如青色的区段)的分割过程的示例细化。分割过程的细化(显示为第二种颜色的区段,例如蓝色)可以导致参考序列的区段的拷贝数估计的准确性增加。例如,1900示出了仅使用覆盖范围数据的循环二进制分割(CBS)过程的第一实施的结果。在某些情况下,当基于仅基于覆盖范围数据使用CBS过程确定的区段来确定拷贝数和/或肿瘤分数时,CBS过程的结果会产生数据噪声,这会导致一定量的不准确性。1902示出了图18的1804中所示的log base 2转换的结果,该结果可以应用于1900中所示的CBS过程的实施的结果。通过使用仅覆盖范围数据CBS过程的结果以及1902中示出的数据作为输入来执行CBS过程的另外实现,可以提高使用CBS过程的分割的准确性。
图20包括示出各种基因的实际拷贝数以及使用根据仅基于覆盖范围数据的CBS过程的实现的分割估计的基因拷贝数与使用图18和图19所示的细化过程估计的基因拷贝数之间的差异的表格。

Claims (69)

1.一种方法,所述方法包括:
由包括一个或更多个计算装置的计算系统获得指示与样品中包括的多核苷酸分子相关的序列表示的序列数据,每个计算装置具有一个或更多个处理器和存储器;
由所述计算系统通过执行比对过程来生成比对的序列表示的集合,该比对过程确定相对于参考人类基因组的一部分具有至少阈值量的同源性的一个或更多个序列表示;
由所述计算系统通过鉴定许多比对的序列表示中不对应于所述参考人类基因组的靶区域的第一部分来确定脱靶序列表示的集合;
由所述计算系统通过鉴定许多比对的序列表示中对应于所述参考人类基因组的靶区域的第二部分来确定中靶序列表示;
由所述计算系统确定所述参考人类基因组的第一区段,其中所述第一区段不包括所述靶区域;
由所述计算系统基于对应于单个第一区段的所述脱靶序列表示的集合的相应子集来确定所述单个第一区段的第一定量量度;
由所述计算系统相对于单个第一区段的另外的定量量度确定所述单个第一区段的第一归一化定量量度;
由所述计算系统通过相对于针对单个第一区段的参考定量量度调整单个第一归一化定量量度来确定所述单个第一区段的第二归一化定量量度;
由所述计算系统确定所述参考人类基因组的第二区段,单个第二区段包括比所述单个第一区段更多数量的核苷酸,并且包括多于一个所述单个第一区段;
由所述计算系统基于包括在所述单个第二区段中的相应多于一个单个第一区段的所述第一归一化定量量度和所述第二归一化定量量度,确定单个第二区段的第二定量量度;以及
由所述计算系统基于对应于所述单个第二区段的单个第二定量量度来确定关于单个第二区段的肿瘤细胞拷贝数的估计。
2.根据权利要求1所述的方法,其中基于所述样品中包含的对应于所述单个第一区段的多核苷酸分子的相应数量来确定所述第一定量量度。
3.根据权利要求1所述的方法,其中基于来源于所述样品的对应于所述单个第一区段的测序读段的相应数量来确定所述第一定量量度。
4.根据权利要求1-3中任一项所述的方法,其中所述另外的定量量度对应于所述第一区段的序列表示的中位数。
5.根据权利要求1-4中任一项所述的方法,所述方法包括:
在确定所述第二区段之前:
由所述计算系统确定鸟嘌呤-胞嘧啶(GC)含量,所述含量指示对应于单个第一区段的脱靶序列表示的集合的一部分中包含的鸟嘌呤核苷酸和胞嘧啶核苷酸的数量;
由所述计算系统,确定对应于来自所述单个第一区段中的多于一个GC含量分区的GC含量分区的序列表示的频率,所述多于一个GC含量分区中的每个GC含量分区对应于GC含量值的不同范围;
由所述计算系统基于对应于所述单个第一区段中多于一个GC含量分区的序列表示的频率来确定单个第一区段的预期定量量度;以及
由所述计算系统基于所述单个第一区段的预期定量量度来确定所述单个第一区段的GC归一化定量量度。
6.根据权利要求5所述的方法,所述方法包括:
在确定所述第二区段之前:
由所述计算系统确定单个第一区段中的每个序列表示的可映射性评分,所述可映射性评分指示所述人类参考基因组的多于一个部分之间的同源性量,所述人类参考基因组的多于一个部分中的所述人类参考基因组的每个部分与所述人类参考基因组的多于一个部分中的所述人类参考基因组的另外部分具有至少阈值量的同源性;
由所述计算系统,确定对应于来自所述单个第一区段中的多于一个可映射性评分分区的可映射性评分分区的序列表示的频率,所述多于一个可映射性评分分区中的每个可映射性评分分区对应于可映射性评分的值的不同范围;
由所述计算系统基于对应于所述单个第一区段中多于一个可映射性评分分区的序列表示的频率来确定单个第一区段的预期定量量度;以及
由所述计算系统基于所述单个第一区段的预期定量量度来确定所述单个第一区段的可映射性评分归一化定量量度。
7.根据权利要求1所述的方法,所述方法包括:
由所述计算系统确定对应于单个第一区段的序列表示与靶区域具有至少阈值量的同源性;和
由所述计算系统确定,从确定所述单个第二覆盖范围度量中排除所述单个第一区段的第一定量量度。
8.根据权利要求1-7中任一项所述的方法,所述方法包括:
由所述计算系统获得训练序列数据,所述训练序列数据指示从训练样品获得的另外多核苷酸分子的另外序列表示,其中所述训练样品从其中没有检测到拷贝数改变的个体获得;
由所述计算系统通过执行另外比对过程来生成参考比对的序列表示的数量,所述另外比对过程确定相对于所述参考人类基因组的一部分具有至少阈值量的同源性的一个或更多个另外序列表示;
由所述计算系统通过识别不对应于所述参考人类基因组的靶区域的许多另外比对的序列表示的一部分来确定脱靶序列表示的另外的集合;以及
由所述计算系统基于包括在所述单个第一区段中的所述脱靶序列表示的另外的集合数量来确定所述单个第一区段的单个参考定量量度。
9.根据权利要求1-8中任一项所述的方法,所述方法包括:
由所述计算系统确定对应于单个靶区域的中靶序列表示的集合中包括的中靶序列表示的相应数量;以及
由所述计算系统基于对应于所述单个靶区域的中靶序列表示的相应数量来确定单个靶区域的单个另外的定量量度;
其中与所述样品相关的肿瘤细胞的拷贝数的估计是基于所述单个另外的定量量度。
10.根据权利要求9所述的方法,其中基于对应于所述单个靶区域的单个另外定量量度来确定所述参考人类基因组的第二区段。
11.根据权利要求1-10中任一项所述的方法,其中所述第一定量量度包括单个第一区段的第一尺寸分布度量,所述第一归一化定量量度或所述第二归一化定量量度中的至少一个对应于归一化尺寸分布度量,所述参考定量量度是参考尺寸分布度量,并且所述第二定量量度包括所述单个第二区段的第二尺寸分布度量。
12.根据权利要求11所述的方法,所述方法包括:
由所述计算系统确定对应于单个第一区段的单个序列表示中包含的核苷酸的数量,以生成所述单个第一区段的序列表示的单个尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于序列表示的相应尺寸范围,并且单个第一区段的单个尺寸分布度量指示所述第一区段中包含的脱靶序列表示的集合的数量,该集合对应于多于一个分区中的每个分区;
由所述计算系统根据相对于参考尺寸分布度量的所述单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;
由所述计算系统基于所述单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量来确定所述单个第二区段的所述第二尺寸分布度量;以及
由所述计算系统基于对应于所述单个第二区段的单个第二尺寸分布度量来确定关于单个第二区段的肿瘤细胞拷贝数的另外估计。
13.根据权利要求1-12中任一项所述的方法,其中所述第一定量量度包括单个第一区段的第一覆盖范围度量,所述第一归一化定量量度对应于第一归一化覆盖范围度量,所述第二归一化定量量度对应于第二归一化覆盖范围度量,所述参考定量量度是参考覆盖范围度量,并且所述第二定量量度包括单个第二区段的第二覆盖范围度量。
14.根据权利要求13所述的方法,所述方法包括:
由所述计算系统确定对应于单个第一区段的序列表示的数量,以生成所述单个第一区段的单个第一覆盖范围度量;
由所述计算系统根据所述单个第一覆盖范围度量确定所述单个第一区段的所述第一归一化覆盖范围度量;
由所述计算系统根据所述单个第一覆盖范围度量相对于所述参考覆盖范围度量来确定所述单个第一区段的所述第二归一化覆盖范围度量;以及
由所述计算系统基于所述第一归一化覆盖范围度量和所述第二归一化覆盖范围度量来确定所述单个第二区段的所述第二覆盖范围度量;
其中肿瘤细胞相对于所述单个第二区段的拷贝数的估计是基于对应于所述单个第二区段的单个第二覆盖范围度量。
15.根据权利要求1-14中任一项所述的方法,其中:
所述定量量度包括单个第一区段的第一尺寸分布度量和第一覆盖范围度量;
所述第一归一化定量量度和所述第二归一化定量量度对应于归一化尺寸分布度量或归一化覆盖范围度量中的至少一个;
所述参考定量量度包括参考尺寸分布度量和参考覆盖范围度量;以及
所述第二定量量度包括用于单个第二区段的第二尺寸分布度量和第二覆盖范围度量。
16.根据权利要求15所述的方法,所述方法包括:
由所述计算系统通过确定对应于单个第一区段的单个序列表示中包含的核苷酸的数量来确定单个序列表示的尺寸;
由所述计算系统基于所述单个序列表示的相应尺寸生成所述单个第一区段的第一尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于序列表示的相应尺寸范围,并且单个第一区段的单个尺寸分布度量指示对应于所述多于一个分区中的每个分区的所述第一区段中包含的脱靶序列表示的集合的数量;
由所述计算系统根据相对于所述参考尺寸分布度量的所述单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;以及
由所述计算系统基于所述单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量来确定所述单个第二区段的所述第二尺寸分布度量。
17.根据权利要求16所述的方法,所述方法包括:
由所述计算系统确定对应于单个第一区段的序列表示的数量,以生成单个第一区段的单个第一覆盖范围度量;
由所述计算系统根据所述单个第一覆盖范围度量确定所述单个第一区段的所述第一归一化覆盖范围度量;
由所述计算系统根据所述单个第一覆盖范围度量相对于所述参考覆盖范围度量来确定所述单个第一区段的所述第二归一化尺寸分布度量;以及
由所述计算系统基于所述第一归一化覆盖范围度量和所述第二归一化覆盖范围度量来确定所述单个第二区段的所述第二覆盖范围度量。
18.根据权利要求17所述的方法,其中肿瘤细胞相对于单个第二区段的拷贝数的估计是由所述计算系统通过基于所述第二尺寸分布度量确定肿瘤细胞相对于单个第二区段的拷贝数的第一估计和基于所述第二覆盖范围度量确定肿瘤细胞相对于单个第二区段的拷贝数的第二估计而生成的肿瘤细胞相对于单个第二区段的拷贝数的总估计。
19.根据权利要求1-18中任一项所述的方法,所述方法包括:
由所述计算系统确定与所述样品相关的野生型等位基因的数量相对于与所述样品相关的突变等位基因的数量的比率;以及
由所述计算系统基于所述比率确定杂合单核苷酸多态性(SNP)度量。
20.根据权利要求19所述的方法,所述方法包括:
由所述计算系统基于所述SNP度量确定所述样品的肿瘤分数的另外估计;以及
由所述计算系统基于所述SNP度量确定与样品相关的肿瘤细胞拷贝数的另外估计。
21.根据权利要求1-20中任一项所述的方法,所述方法包括:
由所述计算系统确定对应于似然函数的模型的参数,所述似然函数生成与所述样品相关的肿瘤细胞的拷贝数的估计;
其中所述模型的参数对应于相对于所述单个第二区段的肿瘤细胞拷贝数的所述单个估计的至少一部分,并且对应于所述样品的肿瘤分数的估计。
22.根据权利要求21所述的方法,其中所述模型的参数对应于一个或更多个SNP度量,所述一个或更多个SNP度量的单个SNP度量与突变等位基因的数量相对于野生型等位基因的数量的相应比率相关。
23.根据权利要求1-22中任一项所述的方法,其中所述单个第一区段的至少一部分包括所述参考人类基因组的约30,000个核苷酸至约150,000个核苷酸。
24.根据权利要求1-25中任一项所述的方法,其中:
所述单个第二区段的至少一部分包括所述参考人类基因组的至少约100万个核苷酸至约1000万个核苷酸;以及
所述第二区段通过一个或更多个循环二进制分割过程确定。
25.根据权利要求1-24中任一项所述的方法,其中所述样品来源于受试者的组织。
26.根据权利要求1-25中任一项所述的方法,其中所述样品来源于从受试者获得的流体。
27.根据权利要求1-26中任一项所述的方法,所述方法包括:
由所述计算系统基于所述单个第二定量度量确定所述样品的肿瘤分数的估计。
28.根据权利要求1-27中任一项所述的方法,其中所述样品的肿瘤分数的估计和所述肿瘤细胞相对于单个第二区段的拷贝数的估计基于以下确定:
观察到的定量量度=2*(1-TF)+n*TF,其中n是所述肿瘤细胞拷贝数,并且TF是所述样品的肿瘤分数;以及
其中所述观察到的定量量度包括所述第二定量量度的至少一部分。
29.根据权利要求1-28中任一项所述的方法,所述方法包括:
由所述计算系统确定对应于单个第一区段并且对应于一个或更多个单核苷酸多态性(SNP)的序列表示的数量;
由所述计算系统基于对应于单个SNP的序列表示的数量来确定单个SNP的突变等位基因分数。
30.根据权利要求29所述的方法,其中所述参考人类基因组的第二区段基于所述单个第一区段的突变等位基因分数来确定。
31.根据权利要求29或权利要求30所述的方法,其中所述一个或更多个SNP对应于杂合种系SNP。
32.根据权利要求29-31中任一项所述的方法,其中所述一个或更多个SNP对应于一种或更多种类型的癌症的驱动突变。
33.根据权利要求29-32中任一项所述的方法,所述方法包括:
由所述计算系统执行基于所述第二归一化定量量度的循环二进制分割过程的第一实现,以确定所述参考人类基因组的所述第二区段的第一估计;以及
由所述计算系统基于所述单个第一区段的突变等位基因分数执行所述循环二进制分割过程的第二实现,以确定所述参考人类基因组的第二区段的第二估计。
34.一种方法,所述方法包括:
由包括一个或更多个计算装置的计算系统获得指示样品中包括的多核苷酸分子的序列表示的序列数据,每个计算装置具有一个或更多个处理器和存储器;
由所述计算系统通过执行比对过程来生成许多比对的序列表示,该比对过程确定相对于参考人类基因组的一部分具有至少阈值量的同源性的一个或更多个序列表示;
由所述计算系统通过鉴定所述许多比对的序列表示中不对应于所述参考人类基因组的靶区域的部分来确定脱靶序列表示的集合;
由所述计算系统执行多于一个分割过程以确定所述参考人类基因组的许多区段;
由所述计算系统基于对应于所述参考人类基因组的单个区段的脱靶序列表示的集合的一部分,确定所述单个区段的单个定量量度;以及
由所述计算系统基于所述单个定量度量确定与所述样品相关的肿瘤细胞拷贝数的多于一个估计,肿瘤细胞拷贝数的所述多于一个估计的单个估计对应于单个区段。
35.根据权利要求34所述的方法,其中所述多于一个分割过程包括:
第一分割过程,包括由所述计算系统确定所述参考人类基因组的第一区段,其中所述第一区段不包括所述靶区域;以及
第二分割过程,包括由所述计算系统确定所述参考人类基因组的第二区段,单个第二区段包括比所述单个第一区段更多数量的核苷酸,并且包括多于一个所述单个第一区段。
36.根据权利要求35所述的方法,其中所述单个定量量度对应于单个覆盖范围度量,并且所述方法包括:
由所述计算系统基于所述单个第一区段中包含的脱靶多核苷酸序列表示的集合的数量来确定所述参考人类基因组的单个第一区段的单个第一覆盖范围度量;
由所述计算系统根据所述单个第一覆盖范围度量确定单个第一区段的归一化覆盖范围度量;以及
由所述计算系统基于所述单个第二区段中包含的相应多于一个单个区段的归一化覆盖范围度量来确定所述参考人类基因组的单个第二区段的单个第二覆盖范围度量。
37.根据权利要求36所述的方法,其中所述归一化覆盖范围度量通过以下确定:
由所述计算系统基于所述单个第一覆盖范围度量相对于所述单个第一区段的序列表示的中位数来确定单个第一区段的第一归一化定量量度。
38.根据权利要求37所述的方法,所述方法包括:
由所述计算系统基于所述单个覆盖范围度量相对于所述单个第一区段的参考覆盖范围度量来确定单个第一区段的第二归一化定量量度,所述参考覆盖范围度量基于从未检测到拷贝数变异的个体获得的样品来确定;以及
由所述计算系统相对于所述单个第一区段的第二归一化覆盖范围度量调整单个第一归一化定量量度。
39.根据权利要求36所述的方法,其中:
与所述样品相关的肿瘤细胞拷贝数的估计是基于所述单个第二覆盖范围度量。
40.根据权利要求34所述的方法,其中所述单个定量量度对应于单个尺寸分布度量,并且所述方法包括:
由所述计算系统确定单个第一区段的单个第一尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于序列表示的相应尺寸范围,并且单个第一区段的单个尺寸分布度量指示对应于多于一个分区中的每个分区的所述第一区段中包含的脱靶序列表示的集合的数量;
由所述计算系统根据相对于参考尺寸分布度量的单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;以及
由所述计算系统基于所述单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量来确定所述参考人类基因组的单个第二区段的单个第二尺寸分布度量。
41.根据权利要求40所述的方法,其中:
与所述样品相关的肿瘤细胞拷贝数的估计是基于所述单个第二尺寸分布度量。
42.根据权利要求34-41中任一项所述的方法,所述方法包括:
由所述计算系统确定与所述样品相关的野生型等位基因的数量相对于与所述样品相关的突变等位基因的数量的比率;以及
由所述计算系统基于所述比率确定杂合单核苷酸多态性(SNP)度量。
43.根据权利要求42所述的方法,所述方法包括:
由所述计算系统基于所述SNP度量确定与样品相关的肿瘤细胞拷贝数的另外估计。
44.根据权利要求34-43中任一项所述的方法,所述方法包括:由所述计算系统基于单个定量量度确定所述样品的肿瘤分数的估计。
45.根据权利要求44所述的方法,其中所述肿瘤细胞的拷贝数和所述样品的肿瘤分数的估计基于以下来确定:
观察到的定量量度=2*(1-TF)+n*TF,其中n是所述肿瘤细胞拷贝数,并且TF是所述样品的肿瘤分数;并且
其中所述观察到的定量量度包括所述定量量度的至少一部分。
46.一种方法,所述方法包括:
由包括一个或更多个计算装置的计算系统基于来源于样品的多核苷酸分子获得包括许多测序读段的测序数据,每个计算装置具有一个或更多个处理器和存储器;
由所述计算系统通过执行比对过程产生许多比对的测序读段,所述比对过程确定所述许多测序读段中相对于所述参考人类基因组的一部分具有至少阈值量的同源性的一个或更多个部分;
由所述计算系统通过鉴定所述许多比对的序列读段中不对应于所述参考人类基因组的靶区域的部分来确定脱靶序列读段的集合;
由所述计算系统执行多于一个分割过程以确定所述参考人类基因组的许多区段;
由所述计算系统基于对应于所述参考人类基因组的单个区段的脱靶测序读段的集合来确定所述单个区段的定量量度;以及
由所述计算系统基于所述单个定量量度确定与所述样品相关的肿瘤细胞拷贝数的多于一个估计,肿瘤细胞拷贝数的所述多于一个估计中的单个估计对应于单个区段。
47.根据权利要求46所述的方法,其中所述多于一个分割过程包括:
第一分割过程,包括由所述计算系统确定所述参考人类基因组的第一区段,其中所述第一区段不包括所述靶区域;以及
第二分割过程,包括由所述计算系统确定所述参考人类基因组的第二区段,单个第二区段包括比所述单个第一区段更多数量的核苷酸,并且包括多于一个所述单个第一区段。
48.根据权利要求47所述的方法,其中所述单个定量量度对应于单个覆盖范围度量,并且所述方法包括:
由所述计算系统基于所述单个第一区段中包含的脱靶测序读段的集合的数量来确定单个第一区段的单个第一覆盖范围度量;
由所述计算系统根据单个第一覆盖范围度量确定单个第一区段的归一化覆盖范围度量;以及
由所述计算系统基于所述单个第二区段中包含的相应多于一个单个区段的归一化覆盖范围度量来确定单个第二区段的单个第二覆盖范围度量。
49.根据权利要求48所述的方法,其中所述归一化覆盖范围度量通过以下确定:
由所述计算系统基于所述单个第一覆盖范围度量相对于与所述单个第一区段相关的测序读段的中位数来确定单个第一区段的第一归一化定量量度。
50.根据权利要求49所述的方法,所述方法包括:
由所述计算系统基于所述单个覆盖范围度量相对于所述单个第一区段的参考覆盖范围度量来确定单个第一区段的第二归一化定量量度,所述参考覆盖范围度量基于从未检测到拷贝数变异的个体获得的样品来确定;以及
由所述计算系统相对于所述单个第一区段的第二归一化覆盖范围度量调整单个第一归一化定量量度。
51.根据权利要求48所述的方法,其中:
与所述样品相关的肿瘤细胞拷贝数的估计是基于所述单个第二覆盖范围度量。
52.根据权利要求46所述的方法,其中所述单个定量量度对应于单个尺寸分布度量,并且所述方法包括:
由所述计算系统确定单个第一区段的单个第一尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于测序读段的相应尺寸范围,并且单个第一区段的单个尺寸分布度量指示对应于多于一个分区中的每个分区的所述第一区段中包含的脱靶测序读段的集合的数量;
由所述计算系统根据相对于参考尺寸分布度量的单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;以及
由所述计算系统基于所述单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量来确定所述参考人类基因组的单个第二区段的单个第二尺寸分布度量。
53.根据权利要求52所述的方法,其中:
与所述样品相关的肿瘤细胞拷贝数的估计是基于单个第二尺寸分布度量。
54.根据权利要求46所述的方法,所述方法包括:
由所述计算系统确定与所述样品相关的野生型等位基因的数量相对于与所述样品相关的突变等位基因的数量的比率;以及
由所述计算系统基于所述比率确定杂合单核苷酸多态性(SNP)度量。
55.根据权利要求54所述的方法,所述方法包括:
由所述计算系统基于所述SNP度量确定与样品相关的肿瘤细胞拷贝数的另外估计。
56.根据权利要求46所述的方法,所述方法包括由所述计算系统基于单个定量量度确定所述样品的肿瘤分数的估计。
57.根据权利要求56所述的方法,其中所述肿瘤细胞拷贝数和所述样品的肿瘤分数的估计基于以下来确定:
观察到的定量量度=2*(1-TF)+n*TF,其中n是所述肿瘤细胞拷贝数,并且TF是所述样品的肿瘤分数;并且
其中所述观察到的定量量度包括所述定量量度的至少一部分。
58.一种方法,所述方法包括:
由包括一个或更多个计算装置的计算系统获得指示样品中包括的多核苷酸分子的测序数据,每个计算装置具有一个或更多个处理器和存储器;
由所述计算系统通过执行比对过程来生成许多比对的多核苷酸分子,所述比对过程确定相对于参考人类基因组的一部分具有至少阈值量的同源性的一个或更多个多核苷酸分子;
由所述计算系统通过鉴定所述许多比对的多核苷酸分子中不对应于所述参考人类基因组的靶区域的部分来确定脱靶多核苷酸分子的集合;
由所述计算系统执行多于一个分割过程以确定所述参考人类基因组的许多区段;
由所述计算系统基于对应于所述参考人类基因组的单个区段的脱靶多核苷酸分子的集合的一部分来确定所述单个区段的定量量度;以及
由所述计算系统基于所述单个定量量度确定与所述样品相关的肿瘤细胞拷贝数的多于一个估计,肿瘤细胞拷贝数的所述多于一个估计中的单个估计对应于单个区段。
59.根据权利要求58所述的方法,其中所述多于一个分割过程包括:
第一分割过程,包括由所述计算系统确定所述参考人类基因组的第一区段,其中所述第一区段不包括所述靶区域;以及
第二分割过程,包括由所述计算系统确定所述参考人类基因组的第二区段,单个第二区段包括比所述单个第一区段更大数量的核苷酸,并且包括多于一个所述单个第一区段。
60.根据权利要求59所述的方法,其中所述单个定量量度对应于单个覆盖范围度量,并且所述方法包括:
由所述计算系统基于所述单个第一区段中包含的脱靶多核苷酸分子的集合的数量来确定单个第一区段的单个第一覆盖范围度量;
由所述计算系统根据单个第一覆盖范围度量确定单个第一区段的归一化覆盖范围度量;以及
由所述计算系统基于所述单个第二区段中包含的相应多于一个单个区段的归一化覆盖范围度量来确定单个第二区段的单个第二覆盖范围度量。
61.根据权利要求60所述的方法,其中所述归一化覆盖范围度量通过以下确定:
由所述计算系统基于所述单个第一覆盖范围度量相对于与所述单个第一区段相关的多核苷酸分子的中位数来确定单个第一区段的第一归一化定量量度。
62.根据权利要求61所述的方法,所述方法包括:
由所述计算系统基于所述单个覆盖范围度量相对于所述单个第一区段的参考覆盖范围度量来确定单个第一区段的第二归一化定量量度,所述参考覆盖范围度量基于从未检测到拷贝数变异的个体获得的样品来确定;以及
相对于所述单个第一区段的第二归一化覆盖范围度量调整单个第一归一化定量量度。
63.根据权利要求62所述的方法,其中:
与所述样品相关的肿瘤细胞拷贝数的估计是基于所述单个第二覆盖范围度量。
64.根据权利要求59所述的方法,其中所述单个定量量度对应于单个尺寸分布度量,并且所述方法包括:
由所述计算系统确定单个第一区段的单个第一尺寸分布度量,其中尺寸分布包括多于一个分区,每个分区对应于多核苷酸分子的相应尺寸范围,并且用于单个第一区段的单个尺寸分布度量指示对应于多于一个分区中的每个分区的所述第一区段中包含的脱靶多核苷酸分子的集合的数量;
由所述计算系统根据相对于参考尺寸分布度量的单个第一尺寸分布度量来确定单个第一区段的归一化尺寸分布度量;以及
由所述计算系统基于所述单个第二区段中包含的相应多于一个单个第一区段的归一化尺寸分布度量来确定所述参考人类基因组的单个第二区段的单个第二尺寸分布度量。
65.根据权利要求64所述的方法,其中:
与所述样品相关的肿瘤细胞拷贝数的估计是基于所述单个第二尺寸分布度量。
66.根据权利要求58-65中任一项所述的方法,所述方法包括:
由所述计算系统确定与所述样品相关的野生型等位基因的数量相对于与所述样品相关的突变等位基因的数量的比率;以及
由所述计算系统基于所述比率确定杂合单核苷酸多态性(SNP)度量。
67.根据权利要求66所述的方法,所述方法包括:
由所述计算系统基于所述SNP度量确定与样品相关的肿瘤细胞拷贝数的另外估计。
68.根据权利要求58-67中任一项所述的方法,所述方法包括:由所述计算系统基于所述单个定量量度确定所述样品的肿瘤分数的估计。
69.根据权利要求68所述的方法,其中所述肿瘤细胞拷贝数和所述样品的肿瘤分数的估计基于以下来确定:
观察到的定量量度=2*(1-TF)+n*TF,其中n是所述肿瘤细胞拷贝数,并且TF是所述样品的肿瘤分数;并且
其中所述观察到的定量量度包括所述定量量度的至少一部分。
CN202280020758.4A 2021-03-09 2022-03-09 基于脱靶多核苷酸测序数据检测肿瘤的存在 Pending CN116981782A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US63/158,824 2021-03-09
US202163173273P 2021-04-09 2021-04-09
US63/173,273 2021-04-09
PCT/US2022/071059 WO2022192889A1 (en) 2021-03-09 2022-03-09 Detecting the presence of a tumor based on off-target polynucleotide sequencing data

Publications (1)

Publication Number Publication Date
CN116981782A true CN116981782A (zh) 2023-10-31

Family

ID=88471703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280020758.4A Pending CN116981782A (zh) 2021-03-09 2022-03-09 基于脱靶多核苷酸测序数据检测肿瘤的存在

Country Status (1)

Country Link
CN (1) CN116981782A (zh)

Similar Documents

Publication Publication Date Title
JP7466519B2 (ja) 腫瘍遺伝子変異量を腫瘍割合およびカバレッジによって調整するための方法およびシステム
JP7421474B2 (ja) 腫瘍遺伝子変異量の正規化
JP2024015059A (ja) セルフリー核酸の細胞起源を決定するための方法およびシステム
CA3075932A1 (en) Methods and systems for differentiating somatic and germline variants
JP2023540221A (ja) バリアントの起源を予測するための方法およびシステム
JP2023526252A (ja) 相同組換え修復欠損の検出
US20220028494A1 (en) Methods and systems for determining the cellular origin of cell-free dna
JP2024056984A (ja) エピジェネティック区画アッセイを較正するための方法、組成物およびシステム
CN116981782A (zh) 基于脱靶多核苷酸测序数据检测肿瘤的存在
US20220344004A1 (en) Detecting the presence of a tumor based on off-target polynucleotide sequencing data
CN112334983A (zh) 用于检测和抑制由融合事件引起的比对错误的方法
CN117063239A (zh) 用于分析分子响应的方法和相关方面
WO2023197004A1 (en) Detecting the presence of a tumor based on methylation status of cell-free nucleic acid molecules
Filges Next generation molecular diagnostics using ultrasensitive sequencing
Everaert Development of extracellular RNA sequencing technologies and applications for cancer diagnosis and monitoring
CA3210101A1 (en) Methods and related aspects for analyzing molecular response
CN118098339A (zh) 标志物在胃癌免疫联合化疗中的应用、检测模型的构建方法和检测装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination