CN111919257B

CN111919257B - 降低测序数据中的噪声的方法和系统及其实施和应用

Info

Publication number: CN111919257B
Application number: CN201980013999.4A
Authority: CN
Inventors: 张锋; 茅矛; 陈灏
Original assignee: Shenzhen Siqin Medical Technology Co ltd; Siqin Co ltd
Current assignee: Shenzhen Siqin Medical Technology Co ltd; Siqin Co ltd
Priority date: 2018-07-27
Filing date: 2019-07-26
Publication date: 2021-05-28
Anticipated expiration: 2039-07-26
Also published as: WO2020023893A1; US20210217493A1; CN111919257A

Abstract

本公开涉及处理测序数据的方法和装置(例如，降低测序数据中的噪声)。

Description

降低测序数据中的噪声的方法和系统及其实施和应用

优先权主张

本申请要求享受2018年7月27日提交的美国临时专利申请第62/711,219号的权益。其全部内容均通过引用并入本文。

技术领域

本公开涉及处理测序数据的方法。

背景

近年来，新一代测序技术的发展使得在全基因组范围内检测各类生物样品的突变成为可能。然而，检测低频率的变异仍具有挑战性，如来自肿瘤细胞和循环肿瘤DNA(ctDNA)中的稀有变异。测序数据中的背景噪声在很大程度上影响了稀有变异检出的准确性。为了提高稀有变异检出的准确性，提出进行更高深度的测序，但更高深度的测序产生大量的数据，并且由于其成本问题不适合临床使用。另外，如果样品有限，可能很难进行深度测序。需要处理测序数据的改进方法，特别是降低测序数据的噪声。

发明内容

本公开涉及降低测序噪声的方法和/或检测稀有变异的方法。在一些实施例中，本文描述的方法可以将稀有突变的信号与噪声区分。

在一个方面，本公开提供了用于消除测序结果中的噪声的方法。该方法可以包括以下步骤中的一个或多个：

(a)确定从对照受试者组中收集的对照样品在基因组中关注位点处每种碱基类型的频率，并且确定从患有肿瘤或疑似患有肿瘤的受试者收集的样品在基因组中关注位点处每种碱基类型的频率；

(b)通过计算对照样品中碱基类型频率的分布与从患有肿瘤或疑似患有肿瘤的受试者收集的样品中碱基类型频率的分布之间的互熵来确定关注位点的趋异得分；

(c)通过确定对照样品中碱基类型频率的分布与从患有肿瘤或疑似患有肿瘤的受试者收集的样品中碱基类型频率的分布代表相同分布的概率来确定显著性得分；

(d)基于趋异得分和显著性得分计算信息得分，其中较高的信息得分表示关注位点处的测序结果更有可能是噪声。

在一些实施例中，样品源自生物学样品，例如全血、血浆和组织或唾液。在一些实施例中，样品是循环游离核酸。

在一些实施例中，趋异得分由如下公式计算：

其中，_j ⁱQ_N是对照样品在关注位点i处碱基类型j的频率，_j ⁱQ_T是从患有肿瘤或疑似患有肿瘤的受试者收集的样品在位点i处碱基类型j的频率。

在一些实施例中，

在一些实施例中，显著性得分由如下公式计算：

在一些实施例中，_jp是人类参考基因组中碱基j的背景频率。

在一些实施例中，

在一些实施例中，人类参考基因组为人类基因组组装体GRCh37(hg19)或GRCh 38(hg38)。

在一些实施例中，信息得分由下列公式计算：

在一些实施例中，如果信息得分高于参考阈值，则删除关注位点处的测序结果。

在一些实施例中，如果信息得分低于参考阈值，则纳入关注位点处的测序结果。

在一个方面，本公开还提供了用于消除测序结果中噪声的系统，该系统包括下列中的一个或多个：

a)至少一个设备，配置为对包括从对照受试者组收集的第一组核酸样品和从患有肿瘤或疑似患有肿瘤的受试者收集的第二组核酸样品的核酸样品进行测序；

b)计算机可读程序代码，包括执行以下的指令：

i.计算第一组样品在基因组中关注位点处每种碱基类型的频率和第二组样品在基因组中关注位点处每种碱基类型的频率；

ii.通过计算第一组样品中碱基类型频率的分布与第二组样品中碱基类型频率的分布之间的互熵来确定关注位点的趋异得分；

iii.通过确定第一组样品中碱基类型频率的分布与第二组样品中碱基类型频率的分布代表相同分布的概率来计算显著性得分；

iv.基于趋异得分和显著性得分计算信息得分，其中较高的信息得分表示在关注位点处的测序结果更有可能是噪声；

c)计算机可读程序代码，包括执行以下的指令：

i.如果信息得分高于参考阈值，则删除关注位点处的测序结果；或

ii.如果信息得分低于参考阈值，则纳入关注位点处的测序结果。

在另一个方面，本公开还提供了消除测序结果中噪声的方法。该方法涉及以下步骤中的一个或多个：

(a)确定从对照受试者组中收集的对照样品中每种碱基类型的频率与参考基因组中每种碱基类型的频率的比率；

(b)确定从患有肿瘤或疑似患有肿瘤的受试者收集的样品中每种碱基类型的频率与参考基因组中每种碱基类型的频率相比的比率；

(c)确定每种碱基类型的频率比率的对数乘积得分；

(d)如果乘积得分的绝对值高于参考阈值，则删除测序结果。

在一些实施例中，从患有肿瘤或疑似患有肿瘤的受试者收集的样品中每种碱基类型的频率比率的对数由以下公式确定

其中_jp是人类参考基因组中碱基类型j的背景频率，并且_j ⁱQ_T是从患有肿瘤或疑似患有肿瘤的受试者收集的样品在位点i处碱基类型j的频率。

在一些实施例中，对照样品中每种碱基类型的频率比率的对数由以下公式确定

其中_jp是人类参考基因组中碱基类型j的背景频率，其中_j ⁱQ_N是对照样品在位点i处碱基类型j的频率。

在一些实施例中，乘积得分由以下公式确定：

在一些实施例中，乘积得分由以下公式确定：

在一个方面，本公开提供了一种用于消除测序数据中噪声的系统，包括：

a)至少一个设备，配置为对包括第一组对照核酸样品和从患有肿瘤或疑似患有肿瘤的受试者收集的第二组核酸样品的核酸样品进行测序；

b)计算机可读程序代码，包括执行以下的指令：

i.确定第一组对照核酸样品中每种碱基类型的频率与参考基因组中每种碱基类型的频率的比率；

ii.确定第二组核酸样品中每种碱基类型的频率与参考基因组中每种碱基类型的频率的比率；

iii.确定每种碱基类型的频率比率的对数得分；和

iv.如果得分的绝对值高于参考阈值，则删除测序结果。

在一个方面，本公开提供了一种降低测序数据中噪声的计算机实施方法，该方法包括：

a)接收从病例核酸样品组和对照核酸样品组测序获得的多个测序读段；

b)将多个测序读段比对到参考基因组的目标区域；

c)确定对照样品组中关注位点处每种碱基类型在目标区域的频率；

d)确定病例样品组中关注位点处每种碱基类型在目标区域的频率；

e)通过计算对照样品组中碱基类型频率的分布与病例样品组中碱基类型频率的分布之间的互熵来确定关注位点的趋异得分；

f)通过确定对照样品组中碱基类型频率的分布与病例样品组中碱基类型频率的分布代表相同分布的可能性来确定显著性得分；和

g)基于趋异得分和显著性得分来确定关注位点处的测序结果是否可能是测序噪声。

在一些实施例中，该方法还包括：

h)基于趋异得分和显著性得分计算信息得分；

i)如果关注位点的信息得分小于参考阈值，则报告关注位点处的测序结果；和

j)如果关注位点的信息得分高于参考阈值，则删除关注位点处的测序结果。

在一些实施例中，病例样品和对照样品源自游离DNA片段。在一些实施例中，病例样品和对照样品源自生物样品的RNA。在一些实施例中，病例样品和对照样品的测序小于1、2、3、4、5、6、7、8、9、10、15或20倍。

b)将多个测序读段比对到参考基因组的目标区域；

c)确定对照样品中每种碱基类型的频率与参考基因组中每种碱基类型的频率的比率；

d)确定病例样品中每种碱基类型的频率与参考基因组中每种碱基类型的频率的比率；

e)确定每种碱基类型的频率比率的对数得分；

f)如果得分的绝对值高于参考阈值，则删除测序结果；或如果得分的绝对值不大于参考阈值，则保留测序结果。

在一个方面，本公开提供了一种检测样品DNA序列中DNA变异的方法，包括：

a)将样品DNA序列的测序读段比对到参考DNA序列，从而鉴定在参考DNA序列中关注位点处的变异，并且确定在样品DNA序列中关注位点处每种碱基类型的频率；

b)确定对照核酸样品组中关注位点处每种碱基类型的频率；

c)通过计算样品中碱基类型频率的分布与对照样品中碱基类型频率的分布之间的互熵来确定关注位点的趋异得分；

d)通过确定样品中碱基类型频率的分布和对照样品中碱基类型频率的分布代表相同分布的可能性来确定显著性得分；

e)基于趋异得分和显著性得分计算信息得分；和

输出关注位点处的变异。

如本文所用的，术语“单核苷酸多态性”或“SNP”是指在同一基因组序列的不同等位基因中在单个核苷酸残基上存在的多核苷酸序列变异。如果基因组序列是在产生蛋白质过程中转录的，这种变异可发生在基因组序列的编码区或非编码区(即，在启动子或内含子区)。检测一个或多个SNP允许区分单个基因组序列或两个或多个个体之间的不同等位基因。在一些实施例中，群体内SNP的频率为约或至少1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、15％或20％。在一些实施例中，群体内SNP的频率为小于2％、3％、4％、5％、 6％、7％、8％、9％、10％、15％或20％。

如本文所用的，术语“单核苷酸变异”或“SNV”是指在没有任何频率限制的情况下单核苷酸的变异。体细胞中可出现SNV。

如本文所用的，术语“等位基因”是指占据染色体上相同位置的基因或DNA非编码区域的几种替代形式之一。术语等位基因可用于描述来自任何有机体的DNA，包括但不限于细菌、病毒、真菌、原生动物、霉菌、酵母、植物、人类、非人类、动物和古细菌。

如本文所用，术语“样品”是指含有核酸的试样。样品的例子包括但不限于组织，体液 (例如血液，血清，血浆，唾液，尿液，泪液，腹膜液，腹水，阴道分泌物，乳汁，母乳，淋巴液，脑脊髓液，粘膜分泌物)，脐带血，绒毛膜绒毛，羊水，胚胎，胚胎组织，淋巴液，脑脊液，粘膜分泌物或其它体液，粪便，单个细胞或含同样核酸的此类来源的提取物、以及使用本领域已建立程序的亚细胞结构(如线粒体)。

如本文所用，术语“敏感性”是指被正确鉴定为阳性的真阳性的比例。它可以通过将真阳性数目除以真阳性数目加上假阴性之和来计算。

如本文所用，术语“特异性”是指被正确鉴定为阴性的真阴性的比例。它可以通过将真阴性数目除以真阴性数目加上假阳性之和来计算。

如本文所用，术语“癌症”是指具有自主生长能力的细胞，即以快速增殖的细胞生长为特征的异常状态或状况。这一术语旨在包括所有类型的癌性生长或致癌过程、转移组织或恶性转化的细胞、组织或器官，而不考虑组织病理学类型或侵袭性阶段。这里使用的术语“肿瘤”是指癌细胞，例如大量的癌细胞。可以使用本文描述的方法治疗或诊断的癌症包括各种器官系统的恶性肿瘤，如影响肺、乳腺、甲状腺、淋巴、胃肠道和生殖泌尿道的恶性肿瘤，以及腺癌，包括如大多数结肠癌、肾细胞癌、前列腺癌和/或睾丸肿瘤、非小细胞肺癌、小肠癌和食道癌的恶性肿瘤。在一些实施例中，本文描述的方法被设计用于治疗或诊断受试者中的癌。术语“癌(carcinoma)”为本领域公认的，并且是指上皮或内分泌组织的恶性肿瘤，包括呼吸系统癌、胃肠道系统癌、泌尿生殖系统癌、睾丸癌、乳腺癌、前列腺癌、内分泌系统癌和黑色素瘤。在一些实施例中，癌症是肾癌或黑色素瘤。代表性的癌包括由宫颈、肺、前列腺、乳腺、头颈部、结肠和卵巢的组织形成的那些癌。该术语还包括癌肉瘤(carcinosarcoma)，例如，包括由癌组织和肉瘤组织组成的恶性肿瘤。“腺癌(adenocarcinoma)”是指源于腺体组织或在其中肿瘤细胞形成可识别的腺体结构的癌。术语“肉瘤(sarcoma)”为本领域公认的，并且是指间充质衍生的恶性肿瘤。

如本文所用，术语“病例样品”是指从处于患有疾病或失调的风险、疑似患有疾病或失调、或患有关注的疾病或失调的受试者获得的样品。在一些实施例中，疾病或失调是癌症。

如本文所用，术语“对照样品”是指从健康或没有所关注的疾病或失调(例如癌症)的受试者获得的样品。

除非另有定义，本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员所普遍理解的相同含义。本文描述的方法和材料用于本发明；也可以使用本领域已知的其它适当的方法和材料。这些材料、方法和例子只是说明性的，并不打算加以限制。这里提到的所有出版物、专利申请、专利、序列、数据库条目和其它参考资料都通过引用将其全部内容并入本文。如有冲突，则以本公开说明书(包括定义)为准。

本发明的其它特点和优点将从以下详细描述和附图以及权利要求中显而易见地看出。

附图说明

图1.信息得分、对数几率(log odds)乘积得分和对数几率总和得分的ROC图。

图2A.前200个突变检出的信息得分。突变按信息得分排序。

图2B.前200个突变检出的对数几率乘积得分。突变按对数几率乘积得分排序。

图2C.前200个突变检出的对数几率总和得分。突变按对数几率总和得分排序。

图3A.目标等位基因频率与信息得分之间的关系。

图3B.目标等位基因频率与对数几率乘积得分之间的关系。

图3C.目标等位基因频率与对数几率总和得分之间的关系。

图4.观测的等位基因频率与目标等位基因频率之间的关系。

图5A.示出了信息得分与观测的等位基因频率之间的关系。

图5B.示出了对数几率乘积得分与观测的等位基因频率之间的关系。

图5C.示出了对数几率总和得分与观测的等位基因频率之间的关系。

图6A.从覆盖深度500倍的测序数据中获得的前200个信息得分的突变中的真阳性。

图6B.从覆盖深度200倍的测序数据中获得的前200个信息得分的突变中的真阳性。

图6C.从覆盖深度100倍的测序数据中获得的前200个信息得分的突变中的真阳性。

图6D.从覆盖深度50倍的测序数据中获得的前200个信息得分的突变中的真阳性。

图6E.从覆盖深度20倍的测序数据中获得的前200个信息得分的突变中的真阳性。

图6F.从覆盖深度10倍的测序数据获得的前200个信息得分的突变中的真阳性。

图6G.从覆盖深度5倍的测序数据获得的前200个信息得分的突变中的真阳性。

图6H.从覆盖深度2倍的测序数据获得的前200个信息得分的突变中的真阳性。

图7A.从ACRG受试者编号200(深度>20)中获得的前200个信息得分的突变中的真阳性。33个真阳性检测出33个。最后一个真阳性排在第62位。

图7B.从ACRG受试者编号11(深度>20)中获得的前200个信息得分的突变中的真阳性。27个真阳性检测出26个。最后一个真阳性排在第106位。

图7C.从ACRG受试者编号22(深度>20)中获得的前200个信息得分的突变中的真阳性。37个真阳性检测出37个。最后一个真阳性排在第63位。

图7D.从ACRG受试者编号26(深度>20)中获得的前200个信息得分的突变中的真阳性。70个真阳性检测出69个。前200个突变中的最后一个真阳性排在第192位。

图7E.从ACRG受试者编号68(深度>20)中获得的前200个信息得分的突变中的真阳性。10个真阳性检测出10个。前200个突变中的最后一个真阳性排在第61位。

图7F.从ACRG受试者编号82(深度>20)中获得的前200个信息得分的突变中的真阳性。37个真阳性检测出37个。前200个突变中的最后一个真阳性排在第108位。

图8.示出了用于检测和降低测序噪声的系统的示意图。

具体实施方式

本公开涉及降低每个核苷酸位点处测序噪声的方法、用于消除与技术来源相关的测序噪声的方法以及基于核苷酸突变概率的突变检出的方法。

这些方法在一定程度上是基于这样一个事实，即真突变中的碱基频率(也称为核苷酸频率)分布在统计学上不同于测序噪声中的碱基频率分布。这里提出了几种得分方案来捕捉这种微妙的差异。这些得分旨在反映真突变与背景噪声之间碱基频率在统计上的显著性差异。在一些实施例中，由于使用的是频率而不是碱基计数，所以每个读段都是同等加权的，并且没有进行归一化。

对于这些得分，具有真突变的核苷酸位点通常被赋值为较低的得分(例如，较低的得分绝对值)，而噪声则具有较高的得分(例如，较高的绝对值)。因此，可以设置合适的得分阈值，以便在预期的假阳性率下，其分数低于阈值的核苷酸位点可被确信地认为是真突变，并且得分高于阈值的核苷酸位点(即噪声)可被检测到并从进一步的分析中删除。

本公开提供了测序数据全面彻底的表征，可以方便地检测方法依赖的系统性技术错误，并进一步允许将真变异准确地区分出。本文所描述的方法可以确定每个核苷酸碱基位点处的测序噪声/错误，从而可以消除技术来源的测序噪声。因此，可以基于良好计算的得分(如概率)更准确地检出突变。

测序和测序噪声

癌症的早期诊断通常可以增加成功治疗的机会。在获得癌症护理方面的延迟对于晚期表现是常见的，特别是在较低的资源环境和弱势群体中。延迟或无法获得癌症护理的后果是较低的生存可能性，较高的治疗发病率，较高的护理费用，导致从癌症产生的本可避免的死亡和残疾。早期诊断通过在尽早阶段提供护理来改善癌症结果，并因此是所有环境中的一项重要公共卫生战略。

游离DNA(cfDNA)或循环肿瘤DNA(ctDNA)分析的临床使用需要用于所关注液体(如血液)中DNA片段遗传特征的准确测定法。这些测定法通常需要较高的分析敏感性来检测高背景噪声(例如，由非恶性细胞脱落的野生型DNA)中的临床相关遗传改变。低等位基因频率(AF<0.5％突变)在患者中常见，特别是在早期检测的背景下。此外，需要精细的特异性，因为假阳性可能导致进一步不必要的、侵入性测试或不适当的治疗调整。因此，重要的是将真突变(例如准确的变异检出)与测序噪声区分。本公开提供了降低测序数据中噪声的方法，特别是当突变等位基因频率较低的时候。

样品中的DNA通过本文描述的方法进行测序，例如通过Illumina平台(如X-10，NovSeq)。在一些实施例中，这些样品来自对照受试者、健康受试者、肿瘤患者、有患癌风险或疑似患有肿瘤的患者。如本文所使用的，对照受试者可以是指健康的受试者，或者没有所关注疾病或失调(例如癌症、肿瘤)的受试者。原始输出读段的质量可以通过多种质量控制工具来检查，例如FastQC。在一些实施例中，对原始数据进行裁剪(例如通过Fastp)以删除低质量的读段(例如，碱基质量小于20的比例超过40％的任何读段和/或默认参数下裁剪后短于70bp 的任何读段)。在一些实施例中，剩余数据由FastQC再次检查，以确认它们仍然符合质量标准。裁剪后通过质量控制(QC)的数据利用比对工具(如BWA(0.7.17-r1194-dirty)进行比对。可以将测序读段比对并映射到参考基因组。可以计算特定位点(如参考基因组中)的等位基因频率。为了确定在这个位点处的稀有变异是否可能是噪声，可以根据本文描述的方法计算质量得分。

这些方法在一定程度上是基于这样一个事实，即真突变中的碱基频率(也称为核苷酸频率)分布在统计学上不同于测序噪声中的碱基频率分布。在一些实施例中，质量得分可以是信息得分、对数几率乘积得分或对数几率总和得分。这些得分在本文中被描述，并可由碱基频率计算。特别是本文所描述的信息得分可以有效地降低测序噪声。

如本文所使用的，关注位点处的“碱基频率”或“核苷酸频率”是指核酸样品组中核苷酸的频率。这些核酸样品可来自一个受试者(如，一个对照受试者，一个健康受试者，一个患有肿瘤或癌症的受试者，一个具有患肿瘤或癌症风险的受试者，一个疑似患有肿瘤或癌症的受试者，或一个患有其它疾病的受试者)，或一组受试者(如，多个对照受试者、多个健康受试者、多个患有肿瘤或癌症的受试者，多个具有患肿瘤或癌症风险的受试者，多个疑似患有肿瘤或癌症的受试者，或多个患有其它疾病的受试者)。在一些实施例中，关注的变异是体细胞突变(如存在于癌细胞中的突变)。因此，即使所有的核酸样品都来自同一个受试者，一些核酸样品(例如cfDNA或ctDNA)也可能具有在同一受试者的正常组织样品中不存在的变异。因此，在一些实施例中，碱基频率或核苷酸频率可以是从一个受试者获得的 cfDNA或ctDNA中的特定碱基或核苷酸的频率。在一些实施例中，碱基频率或核苷酸频率可以是从一组受试者获得的所有cfDNA或ctDNA中特定碱基或核苷酸的频率。在一些实施例中，例如在核酸样品或测序读段的组内，变异的频率为小于0.1％、0.2％、0.3％、0.4％、 0.5％、0.6％、0.7％、0.8％、0.9％、1％、2％、3％、4％、5％、6％、7％、8％、9％、10％或 20％。在一些实施例中，例如在核酸样品或测序读段的组内，变异的频率为至少0.1％、0.2％、 0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1％、2％、3％、4％、5％、6％、7％、8％、 9％、10％或20％。在一些实施例中，在不考虑体细胞突变或其它一些随机突变的情况下，参考基因组中的碱基频率或核苷酸频率是群体中核苷酸的频率。

信息得分

在给定数据文件(例如BAM文件)中的读段比对下，i是基因组上的关注位点，并且j是该位点处的碱基类型(即A、T、C、G)。在一些实施例中，将从肿瘤患者或疑似患有肿瘤的患者收集的样品的参数指定为T(或肿瘤)，并且将来自正常样品(例如，对照样品、从没有肿瘤的受试者收集的样品)的参数指定为N(或正常)。因此，_j ⁱQ_T是从肿瘤患者或疑似患有肿瘤的患者收集的样品中在位点i处碱基类型j的观测频率。在一些实施例中，_j ⁱQ_T是从一个或多个患者收集的样品中的观测频率。

类似地，_j ⁱQ_N是一个或多个正常样品或对照样品中的观测频率。在一些实施例中，_j ⁱQ_N是从一个正常受试者获得的一组核酸样品中的观测频率。在一些实施例中，_j ⁱQ_N是从一组正常受试者获得的一组核酸样品中的观测频率。因此，在某些情况下，_j ⁱQ_N可以是正常受试者组内观测频率的平均值。正常样品可与肿瘤样品同时测序。在一些实施例中，正常样品可以不与肿瘤样品同时测序。在一些实施例中，_j ⁱQ_N可以被存储在数据库中。因此，没有必要对正常样品反复测序。

在位点j处的趋异得分D被定义为：

其中

对于基因组中的位点i，如果对来自正常受试者的样品和来自肿瘤患者或疑似患有肿瘤的患者的样品给定的碱基类型j在这个位点处的频率为0，即_j ⁱQ_T和_j ⁱQ_N都为0，则可以使用伪计数频率以便避免分母(例如_j ⁱQ_v)为0时的情况。在一些实施例中，伪计数频率为小于 0.001、0.0009、0.0008、0.0007、0.0006、0.0005、0.0004、0.0003、0.0002或0.0001。在一些实施例中，伪计数频率为至少或约0.001、0.0009、0.0008、0.0007、0.0006、0.0005、0.0004、 0.0003、0.0002或0.0001。在一些实施例中，伪计数频率为至少或约0.00033。在一些实施例中，伪计数频率仅在分母为0时应用。

趋异得分表示真突变的碱基频率的分布与噪声的碱基频率的分布之间的互熵。在一些实施例中，噪声是由一个或多个对照受试者(例如，健康受试者或没有癌症或肿瘤的受试者) 的碱基频率分布确定的。在一些实施例中，将一个受试者用于确定碱基频率。在一些实施例中，将超过1个受试者(例如约或超过2、3、4、5、6、7、8、9、10、20、30、40、50、 60、70、80、90、100、110、120、130、140、150、160、170、180、190或200)用于确定碱基频率。较大的趋异得分意味着样品共享的信息较少，并且在碱基频率方面不相似。

为了示例说明目的，表1列出示例性数据集。在表1中，数据集1中的肿瘤样品和正常样品具有相当不同的核苷酸频率，因此趋异得分很大。数据集2中的核苷酸频率更相似，因而趋异得分比数据集1小得多。

表1.趋异得分示例

显著性得分S被定义为：

其中

_jp是整个人类基因组中碱基j的背景频率(例如hg19或hg38参考基因组中的频率)。在一些实施例中，它是相关人群(例如白种人、亚洲人或黑人)中的频率。

显著性得分评估真突变和噪声实际代表相同源分布的概率。如果体细胞突变是假的，它的核苷酸频率将从潜在的源分布或正常样品的分布重新采样。因此，如果突变检出是假的，则显著性得分将很大。

表2显示了用于示例说明目的的数据集。在表2中，对于A、T、C和G，分别将_jp设置为0.25。

表2.显著性得分示例

基于上述公式，在一些实施例中，可以根据以下方程计算位点i处的信息得分：

在一些实施例中，核苷酸位点较小的信息得分表明肿瘤样品中的这个位点存在真突变 (而不是噪声)。

在一些实施例中，可以使用适当的参考阈值。在一些实施例中，信息得分小于0.4、0.5、0.6、0.61、0.62、0.63、0.64、0.65、0.66、0.67、0.68、0.69、0.7或0.8是期望的。在一些实施例中，将信息得分为约或至少0.4、0.5、0.6、0.61、0.62、0.63、0.64、0.65、0.66、0.67、0.68、0.69、0.7或0.8的变异视为噪声。

对数几率乘积得分

在一些实施例中，可以将对数几率乘积得分用于评估在该位点处的质量。

在肿瘤样品(T)和正常样品(N)中，碱基类型j在关注位点i处的对数几率被定义为：

其中_jp是整个人类基因组中碱基j的背景频率(例如hg19或hg38参考基因组中的频率)。类似地，对于特定的碱基，如果_jp为0，则使用伪计数频率。

在一些实施例中，在位点i处的对数几率乘积得分可以用以下方程计算：

可以证明，只有_j ⁱw_T＝_j ⁱw_N，对数几率乘积得分才能达到最大值。_j ⁱw_T和_j ⁱw_N之间的差异越大，对数几率乘积得分越小。表3显示了用于示例说明目的的示例性数据集。

表3.对数几率乘积得分示例

较大的对数几率乘积得分表明在这个位点处的测序结果更有可能是噪声。因此，如果存在噪声，得分会更高。如果存在真突变，得分将更低。

在一些实施例中，可以使用对数几率乘积得分的适当参考阈值。在一些实施例中，对数几率乘积得分小于80、85、90、95或100是期望的。在一些实施例中，将对数几率乘积得分为约或至少80、85、90、95或100的变异视为噪声。

对数几率总和得分

在一些实施例中，可以将对数几率总和得分用于评估在该位点处的质量。_j ⁱw_T和_j ⁱw_T可以根据上面描述的方程计算。

在一些实施例中，位点i处的对数几率总和得分可以用以下方程计算：

由于计算_j ⁱw_T和_j ⁱw_T方程中的对数，对数总和得分通常为负值。在一些实施例中，可使用对数几率总和得分的绝对值。较大的绝对值表明在这个位点处的测序结果更有可能是噪声。因此，如果存在噪声，绝对值就会更高。如果存在真突变，绝对值就会更低。

在一些实施例中，可以使用对数几率总和得分的适当参考阈值。在一些实施例中，对数几率总和得分的绝对值小于28、29、30、31、35或40是期望的。在一些实施例中，将对数几率总和得分的绝对值为约或至少28、29、30、31、35或40的变异视为噪声。

评估质量得分

本文描述的方法可以评估其表征测序噪声的能力。可以使用多种统计学标准，例如曲线下面积(AUC)、正确预测的百分比、敏感性和/或特异性。在一个实施例中，通过交叉验证、留一交叉验证(LOOCV)、n折交叉验证和刀切法来评估这些方法。

在一些实施例中，用于评估数学模型的方法是评估敏感性敏感性(真阳性分数)和/或1- 特异性(真阴性分数)的方法。在一个实施例中，该方法是接收机工作特性(ROC)，它提供了几个参数来评估生成的方程结果的敏感性和特异性二者。在一个实施例中，使用ROC 面积(曲线下面积)来评估方程。优选大于0.5、0.6、0.7、0.8、0.9的ROC面积。在一些实施例中，ROC为至少或约0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98或0.99。在一些实施例中，ROC为至少或约0.9857。完美的ROC面积得分1.0表明100％的敏感性和100％的特异性。ROC曲线可以用多种统计学工具进行计算，包括但不限于统计分析系统

或R。

在一些实施例中，基于评估得分选择数学模型。在一些实施例中，在特异性很重要的情况下，可以设置敏感性阈值，并选择基于特异性排名的数学模型。例如，可以选择特异性截止值大于0.95、0.9、0.85、0.8、0.7、0.65、0.6、0.55或0.45的数学模型。同样，可以设置特异性阈值，并可以选择基于敏感性(例如大于0.95、0.9、0.85、0.8、0.7、0.65、0.6、0.550.5或0.45)排名的数学模型。因此，在一些实施例中，仅选择排名前十的数学模型、排名前二十的数学模型或排名前一百的数学模型。

本领域熟练的技术人员能够理解敏感性和特异性取决于选定的参考阈值(或截止点)。参考阈值越严格，敏感性越低，特异性越高。可以针对敏感性、特异性或正确预测的百分比优化参考阈值。因此，可以基于期望的敏感性和/或期望的特异性设置参考阈值。

在一些实施例中，可以计算准确性、特异性、敏感性、精密度(阳性预测值)、阴性预测值和F1-得分。在一些实施例中，该数学模型具有优异的性能，其中准确性、特异性、敏感性、精密度、阴性预测值和/或F1-得分的值为约或至少0.99、0.98、0.97、0.96、0.95、0.94、0.93、0.92、0.91、0.9、0.85或0.8。

在一些实施例中，与本领域常用的方法相比，本文所描述的方法可以将准确性、特异性、敏感性、精密度(阳性预测值)、阴性预测值和/或F1-得分提高至少10％、20％、30％、40％、 50％、60％、70％、80％或90％。

样品制备

本文提供的是用于分析核酸的方法和组合物。在一些实施例中，分析了核酸片段混合物中的核酸片段。核酸的混合物可以包含两种或更多种核酸片段种类，它们具有不同的核苷酸序列、不同的片段长度、不同的来源(例如基因组来源、细胞或组织来源、肿瘤来源、癌症来源、样品来源、受试者来源、胎儿来源、母体来源)或其组合。

本文描述的核酸或核酸混合物可以从受试者获得的样品中分离出来。受试者可以是任何活的或非活的有机体，包括但不限于人类、非人类动物、哺乳动物、植物、细菌、真菌或病毒。任何人类或非人类动物可以选自、包括但不限于哺乳动物、爬行动物、鸟类、两栖动物、鱼类、有蹄类动物、反刍动物、牛类(例如家牛)、马类(例如家马)、山羊类和绵羊类 (例如绵羊、山羊)、猪类(例如家猪)、骆驼类(例如骆驼(camel)、大羊驼(llama)、羊驼(alpaca))、猴、猿猴(例如大猩猩、黑猩猩)、熊科(例如熊)、家禽、狗、猫、小鼠、大鼠、鱼、海豚、鲸鱼和鲨鱼。受试者可以是雄性或雌性。

核酸可以从任何类型的合适的生物试样或样品(例如，测试样品)中分离出来。样品或测试样品可以是从受试者(例如人类受试者)分离或获得的任何试样。试样的非限制例子包括来自受试者的液体或组织，包括但不限于血液、血清、脐带血、绒毛膜绒毛、羊水、脑脊液、脊液、灌洗液(例如支气管肺泡、胃、腹膜、导管、耳、关节镜术)、活检样品、腹腔穿刺样品、胎儿细胞残留物、尿液、粪便、痰、唾液、鼻粘膜、前列腺液、灌洗液、精液、淋巴液、胆汁、泪液、汗液、母乳、乳腺液、胚胎细胞和胎儿细胞(例如，胎盘细胞)。

在一些实施例中，生物样品可以是血液、血浆或血清。如本文使用的，术语“血液”包括全血或血液的任何成分，如血清和血浆。血液或其成分可包括游离核酸或细胞内核酸。血液可以包括血沉棕黄层(buffy coat)。血沉棕黄层有时是通过使用Ficoll梯度分离。血沉棕黄层可以包括白血细胞(例如白细胞、T-细胞、B-细胞、血小板)。血浆是指用抗凝血剂处理的血液离心产生的全血的成分。血清是指血液样品凝固后残留的液体的水样成分。液体或组织样品通常是按照医院或诊所通常遵循的标准规程进行收集。对于血液，经常收集适量的外周血(例如，在3-40毫升之间)，并可在制备之前或之后按照标准程序储存。提取核酸的液体或组织样品可以是无细胞的(如游离的)。在一些实施例中，液体或组织样品可以包含细胞组分或细胞残留物。在一些实施例中，癌细胞或肿瘤细胞可以包括在样品中。

样品通常是异质的。在许多情况下，样品中存在不止一种类型的核酸种类。例如，异质核酸可以包括但不限于癌症和非癌症核酸、病原体和宿主核酸以及/或突变和野生型核酸。样品可以是异质的，因为存在多于一种细胞类型，如癌症和非癌症细胞，或病原性和宿主细胞。

在一些实施例中，样品包括游离DNA(cfDNA)或循环肿瘤DNA(ctDNA)。本文使用的，术语“游离DNA”或“cfDNA”是指在血流中自由循环的DNA。这些cfDNA可以从基本上没有细胞的来源中分离出来。在一些实施例中，这些细胞外核酸可以存在于血液中并从血液中获得。细胞外核酸通常包括不可检测的细胞，并且可以包括细胞组分或细胞残留物。细胞外核酸的无细胞来源的非限制例子是血液、血浆、血清和尿液。本文所使用的，术语“获得游离循环样品核酸”包括直接获得样品(如，收集样品例如测试样品)或从已经收集样品的其它人那里获得样品。在不受理论限制的情况下，细胞外核酸可以是细胞凋亡和细胞裂解的产物，这为具有一系列长度范围(如，“梯状”)的细胞外核酸提供了基础。

细胞外核酸可包括不同的核酸种类。例如，来自患有癌症的病人的血清或血浆可包含来自癌细胞的核酸和来自非癌细胞的核酸。本文使用的，术语“循环肿瘤DNA”或“ctDNA”是指血流中与细胞无关的肿瘤来源的片段化DNA。ctDNA通常直接来源于肿瘤或来源于循环肿瘤细胞(CTC)。循环肿瘤细胞是有活力的、完整的肿瘤细胞，从原发肿瘤脱落，进入血流或淋巴系统。ctDNA可通过细胞凋亡和坏死从肿瘤细胞释放(例如，从正在死亡的细胞)，也可通过由有活力的肿瘤细胞主动释放(如分泌)。研究表明，片段化的ctDNA的大小主要是166bp长，这对应于包裹在核小体周围的DNA加上连接体的长度。这种长度的片段化可能表明凋亡DNA的片段化，提示凋亡可能是ctDNA释放的主要方法。因此，在一些实施例中，ctDNA或cfDNA的长度可以为至少或约70、80、90、100、110、120、130、140、 150、160、170、180、190或200bp。在一些实施例中，ctDNA或cfDNA的长度可小于约 70、80、90、100、110、120、130、140、150、160、170、180、190或200bp。在一些实施例中，游离核酸的长度为约500、250或200碱基对或更小。

本公开提供了分离、富集和分析血液中发现的游离DNA或循环肿瘤DNA的方法，作为检测癌症存在和/或监测癌症进展的无创手段。因此，实践本文描述的方法的第一步骤是从受试者获得血液样品并从受试者提取DNA。

血液样品可从受试者(例如，疑似患有癌症的受试者)获得。该步骤可以在医院或诊所进行。可以收集适量的外周血，例如，通常在1至50毫升之间(例如，在1至10毫升之间)。可以以本领域普通技术人员已知的方式收集、储存或运输血液样品，以将样品中核酸的降解或质量降低最小化。在一些实施例中，血液可以被放置在含有EDTA的管中以防止血液凝固，然后通过离心从全血获得血浆。血清可以在血液凝固后经离心和不离心的情况下获得。如果使用离心，那么它通常，但不是唯一的，以适当的速度进行，例如，1,500-3,000×g。血浆或血清可以进行额外的离心步骤，然后转移到新的管以进行DNA提取。

除了全血的无细胞部分外，DNA还可以从血沉棕黄层部分富集的细胞组分中回收，这可以在全血样品离心后获得。

从包括血液的生物样品提取DNA存在许多已知的方法。可以遵循DNA制备的一般方法(例如，Sambrook和Russell，分子克隆：实验室手册，第3版，2001年描述的)；各种商业上可用的试剂或试剂盒也可用于从血液样品获得DNA，如Qiagen的QIAamp循环核酸试剂盒、QiaAmp DNA微型试剂盒或QiaAmp DNA血液微型试剂盒(Qiagen，Hilden，德国)、基因组Prep^TM血液DNA分离试剂盒(Promega，Madison，Wis.)和GFX^TM基因组血液 DNA纯化试剂盒(Amersham，Piscataway，N.J.)。

在纯化过程中，由于血细胞破裂，cfDNA纯化容易受到污染。因此，不同的纯化方法会导致cfDNA提取收率的显著差异。在一些实施例中，纯化方法包括通过静脉穿刺收集血液，离心将细胞沉淀，以及从血浆提取cfDNA。在一些实施例中，在提取后，游离DNA可占全部核酸的约或至少50％(如约或至少50％、60％、70％、80％、90％、91％、92％、93％、 94％、95％、96％、97％、98％或99％的总核酸是游离DNA)。

可用本文描述的方法分析的核酸包括但不限于DNA(例如互补DNA(cDNA)、基因组DNA(gDNA)、cfDNA或ctDNA)、核糖核酸(RNA)(例如信使RNA(mRNA)、短抑制 RNA(siRNA)、核糖体RNA(rRNA)、转运RNA(tRNA)或小RNA)和/或DNA或RNA类似物(例如，含有碱基类似物、糖类似物和/或非活性骨架等)、RNA/DNA杂合链和聚酰胺核酸(PNA)，所有这些可以是单链或双链形式。除非另有限制，核酸可以包括天然核苷酸的已知类似物，其中一些可以与天然核苷酸类似的方式发挥作用。核酸可以是有利于进行本文所述方法的任何形式(例如，线性，环状，超螺旋，单链，或双链)。某些实施例中的核酸可以来自单一染色体或其片段(例如，核酸样品可以是来自从二倍体生物获得的样品的一条染色体)。在某些实施例中，核酸包括核小体、核小体的片段或部分或类核小体结构。

为本文所述方法提供的核酸可含有来自一个样品或来自两个或更多个样品(例如，来自 1个或多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7 个或更多个、8个或更多个、9个或更多个、10个或更多个、11个或更多个、12个或更多个、13个或更多个、14个或更多个、15个或更多个、16个或更多个、17个或更多个、18 个或更多个、19个或更多个或20个或更多个样品)的核酸。

在一些实施例中，可以在测序前从样品提取、分离、纯化、部分纯化或扩增核酸。在一些实施例中，可以通过将核酸经受生成核酸片段的方法来处理核酸。片段可以通过本领域已知的适当方法生成，并且可以通过选择适当的片段生成程序来控制核酸片段的平均、中间或标称长度。在某些实施例中，相对较短长度的核酸可用于分析包含极少量序列变异和/或包含相对大量已知核苷酸序列信息的序列。在一些实施例中，长度相对较长的核酸可用于分析包含较多序列变异和/或包含相对少量核苷酸序列信息的序列。

测序

在分析前对核酸(如核酸片段、样品核酸、游离核酸、循环肿瘤核酸)进行测序。

如本文所使用的，“读段”或“测序读段”是由本文所描述或本领域已知的任何测序方法产生的短核苷酸序列。读段可以从核酸片段的一端产生(“单末端读段”)，并且读段有时也可以从核酸的两端产生(例如，双末端读段，双端读段)。

从游离DNA获得的测序读段可以是来自正常细胞或肿瘤细胞的核酸混合物的读段。相对较短读段的混合物可以通过本文描述的方法被转化为受试者中存在的基因组核酸的表示。在某些实施例中，“获取”样品的核酸测序读段可指直接进行核酸测序以获得序列信息。

可将测序读段进行映射，并且映射到特定核酸区域(例如染色体、区间(bin)、基因组区段)的读段或序列标签的数目被称为计数。在一些实施例中，计数可以被操作或转换(如归一化、组合、添加、过滤、选择、平均化、导出为平均值等或其组合)。

在一些实施例中，对来自一个个体的核酸样品组测序。在某些实施例中，将来自两个或更多个样品的核酸样品(其中每个样品来自一个个体或两个或更多个个体)汇合并且将汇合物在一起进行测序。在一些实施例中，来自每个生物样品的核酸样品通常由一个或多个唯一识别标签识别。

核酸也可进行冗余测序。基因组的给定区域或游离DNA的区域可以由两个或更多个读段或重叠式读段覆盖(例如，覆盖“倍数(fold)”大于1)。DNA测序中的覆盖(或深度) 是指在重建序列中包含给定核苷酸的唯一读段的数目。在一些实施例中，对一部分基因组进行测序，有时以确定的核苷酸序列覆盖的基因组的量表示(例如，覆盖“倍数”小于1)。因此，在一些实施例中，倍数是基于整个基因组计算的。当以约1倍覆盖对基因组测序时，基因组中大约100％的核苷酸序列被读段表示。在一些实施例中，游离DNA被测序，并且倍数是基于整个基因组计算的。因此，比较测序量与为不同项目生成的测序读段量也更容易。

倍数也可以基于重建序列(例如cfDNA)的长度来计算。当游离DNA以基于重建序列计算出的约1倍覆盖进行测序(例如panel测序)时，所有唯一读段中的核苷酸数目将与样品中cfDNA的整个核苷酸序列大致相同。

在一些实施例中，以约0.1倍至约100倍覆盖、约0.2倍至20倍的覆盖、或约0.2倍至约1倍的覆盖对核酸测序。在一些实施例中，测序是以约或至少0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、 100、200、300、400、500或1000倍覆盖进行的。在一些实施例中，测序以不大于0.2、0.3、 0.4、0.5、0.6、0.7、0.8、0.9、1、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、 70、80、90、100、200、300、400、500或1000倍覆盖进行。在一些实施例中，测序以不大于15、20、30、40、50、60、70、80、90或100倍覆盖进行。

在一些实施例中，序列覆盖以约或至少0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、2、3、4或5倍(例如，由整个基因组确定)进行。在一些实施例中，序列覆盖以不大于0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、2、3、4或5倍(例如，由整个基因组确定)进行。

在一些实施例中，序列覆盖以约或至少100、150、200、250、300、350、400、450或500倍(如，由重建序列确定)进行。在一些实施例中，序列覆盖以不大于100、150、200、 250、300、350、400、450或500倍(如，由重建序列确定)进行。

在一些实施例中，可以在测序过程之前或期间制备测序文库。制备测序文库的方法是本领域已知的，并且商业上可用的平台可用于某些特定应用。某些商业上可用的文库平台可与本文描述的测序方法相容。例如，一个或多个商业上可用的文库平台可与合成法测序相容。在某些实施例中，使用基于连接的文库制备方法(例如ILLUMINATRUEQ、Illumina、San Diego Ca)。基于连接的文库制备方法通常使用甲基化接头设计，其可以在初始连接步骤合并索引序列，并且通常可用于制备用于单端测序、双末端测序和多路测序的样品。在某些实施例中，使用基于转座子的文库制备方法(例如，EPICENTRE NEXTERA、Epicentre、 Madison WI)。基于转座子的方法通常使用体外转座以在单管反应中同时片段化和对DNA 标签化(通常允许合并平台特定的标签和可选的条形码)，并制备测序仪可用的文库。

任何适合于本文描述的测序方法都可以使用。在一些实施例中，使用了高通量测序法。高通量测序法通常涉及克隆扩增的DNA模板或单一DNA分子，这些DNA分子在液流小室以大规模平行的方式进行测序。这种测序方法还可以提供数字定量信息，其中每个测序读段是表示单个克隆DNA模板、单一DNA分子、区间或染色体的可计数“序列标签”或“计数”。

能够以大规模并行的方式测序DNA的新一代测序技术在本文被统称为“大规模并行测序”(MPS)。高通量测序技术包括，例如，用可逆染料终止剂进行的合成测序，通过寡核苷酸探针连接的测序，焦磷酸测序和实时测序。MPS的非限制例子包括大规模并行签名测序(MPSS)、Polony测序、焦磷酸测序、Illumina(Solexa)测序、SOLiD测序、离子半导体测序、DNA纳米球测序、Helioscope单分子测序、单分子实时(SMRT)测序、纳米孔测序、 IONTorrent和RNA聚合酶(RNAP)测序。其中一些测序方法在例如US20130288244A1中描述，并通过引用将其全部内容并入本文。

用于高通量测序方法的系统是在商业上可用的，并且包括例如Roche454平台，应用生物系统(Applied Biosystems)SOLID平台，Helicos真正单分子DNA测序技术，Affymetrix 公司的分子杂交-测序平台，太平洋生物科学公司(Pacific Biosciences)的单分子实时(SMRT) 技术，454生命科学(454Life Sciences)、Illumina/Solexa和HelicosBiosciences的合成-测序平台，以及Applied Biosystems的连接-测序平台。来自生命技术公司(Life Technologies) 的ION TORRENT技术和纳米孔测序技术也可用于高通量测序方法。

测序读段的长度通常与特定的测序技术相关。例如，高通量方法提供大小可以从几十碱基对(bp)变化到数百个碱基对(bp)的测序读段。例如，纳米孔测序可以提供大小可以从几十碱基对变化到数百至数千个碱基对的测序读段。在一些实施例中，测序读段的中间、中值或平均长度为约15bp至900bp长(如约或至少20bp、25bp、30bp、35bp、40bp、45bp、50bp、55bp、60bp、65bp、70bp、75bp、80bp、85bp、90bp、95bp、100bp、110bp、 120bp、130、140bp、150bp、200bp、250bp、300bp、350bp、400bp、450bp或500bp)。在一些实施例中，测序读段的中间、中值或平均长度为约1000bp或更长。在一些实施例中，由于质量差而将测序读段小于60bp、65bp、70bp、75bp、80bp、85bp、90bp、95bp、 100bp、110bp、120bp、130、140bp、150bp、200bp、250bp、300bp、350bp、400bp、 450bp或500bp的读段删除。

可以通过多种方式进行核苷酸测序读段(即来自基因组物理位置未知的片段的序列信息)的映射，并且通常包括将获得的测序读段与参考基因组中的匹配序列比对(例如，Li等人,“Mapping short DNA sequencing reads and calling variants using mappingquality score,” Genome Res.,2008年8月19日)。在这种比对方式中，通常将测序读段与参考序列比对，并且比对的那些序列被称为“映射”或“序列标签”。在某些实施例中，映射的测序读段被指示为“命中(hit)”或“计数(count)”。

本文使用的，术语“比对(aligned)”、“比对(alignment)”或“比对(aligning)”是指可以被鉴定为匹配(例如100％同一性)或部分匹配的两个或更多个核酸序列。比对可以手动完成，也可以通过计算机算法完成，示例包括作为Illumina基因组学分析流程一部分发布的核苷酸数据高效局部比对(ELAND)计算机程序。测序读段的比对可以是100％的序列匹配。在某些情况下，比对是小于100％的序列匹配(即非完美匹配、部分匹配、部分比对)。在一些实施例中，比对为约99％、98％、97％、96％、95％、94％、93％、92％、91％、90％、89％、88％、87％、86％、85％、84％、83％、82％、81％、80％、79％、78％、77％、76％或 75％的匹配。在一些实施例中，比对包括错配。在一些实施例中，比对包括1、2、3、4或5 个错配。两个或更多个序列可以使用任一链进行比对。在某些实施例中，核酸序列与另一核酸序列的反向互补序列比对。

多种计算方法可以被用来将每个测序读段比对到基因组区域。可用于比对序列的计算机算法的非限制示例包括(但不限于)BLAST、BLITZ、FASTA、BOWTIE 1、BOWTIE 2、ELAND、MAQ、PROBEMATCH、SOAP或SEQMAP，或其变体或其组合。在一些实施例中，测序读段可以与参考基因组中的序列进行比对。在一些实施例中，测序读段可以在本领域已知的核酸数据库的序列中找到和/或与其比对上，例如，GenBank、dbEST、dbSTS、EMBL (欧洲分子生物学实验室)和DDBJ(日本DNA数据库)。可以使用BLAST或类似的工具在序列数据库中搜索出已鉴定的序列。例如，然后可以将搜索命中的结果用来将鉴定的序列排序到适当的基因组区段。一些分析测序读段的方法在例如US20130288244A1中进行了描述，并通过引用将其全部内容并入本文。

检测癌症

本公开提供了检测和/或治疗癌症的方法。

在一些实施例中，测序游离DNA允许更广泛的探究，允许评估数千/数百万个位置处的突变状态。在一些实施例中，检测到原癌基因或抑癌基因处的突变表明受试者可能患有癌症。

在一些实施例中，原癌基因的突变可以包括以下一个或多个原癌基因处的一个或多个突变(例如，TERT、ABL1(ABL)、ABL2(ABLL、ARG)、AKAP13(HT31、LBC、BRX)、 ARAF1、ARHGEF5(TIM)、ATF1、AXL、BCL2、BRAF(BRAF1、RAFB1)、BRCA1、 BRCA2(FANCD1)、BRIP1、CBL(CBL2)、CSF1R(CSF-1、FMS、MCSF)、DAPK1(DAPK)、 DEK(D6S231E)、DUSP6(MKP3、PYST1)、EGF、EGFR(ERBB、ERBB1)、ERBB3(HER3)、 ERG、ETS1、ETS2、EWSR1(EWS、ES、PNE,)、FES(FPS)、FGF4(HSTF1、KFGF)、FGFR1、 FGFR10P(FOP)、FLCN、FOS(c-fos)、FRAP1、FUS(TLS)、HRAS、GLI1、GLI2、GPC3、 HER2(ERBB2、TKR1、NEU)、HGF(SF)、IRF4(LSIRF、MUM1)、JUNB、KIT(SCFR)、KRAS2(RASK2)、LCK、LCO、MAP3K8(TPL2、COT、EST)、MCF2(DBL)、MDM2、MET(HGFR、RCCP2)、MLH型基因、MMD、MOS(MSV)、MRAS(RRAS3)、MSH型基因、 MYB(AMV)、MYC、MYCL1(LMYC)、MYCN、NCOA4(ELE1、ARA70、PTC3)、NF1型基因、NMYC、NRAS、NTRK1(TRK、TRKA)、NUP214(CAN、D9S46E)、OVC、TP53(P53)、 PALB2、PAX3(HUP2)STAT1、PDGFB(SIS)、PIM基因、PML(MYL)、PMS(PMSL)基因、 PPM1D(WIP1)、PTEN(MMAC1)、PVT1、RAF1(CRAF)、RB1(RB)、RET、RRAS2(TC21)、ROS1(ROS、MCF3)、SMAD型基因、SMARCB1(SNF5、INI1)、SMURF1、SRC(AVS)、 STAT1、STAT3、STAT5、TDGF1(CRGF)、TGFBR2、THRA(ERBA、EAR7等)、TFG(TRKT3)、 TIF1(TRIM24、TIF1A)、TNC(TN、HXB)、TRK、TUSC3、USP6(TRE2)、WNT1(INT1)、 WT1、VHL)。在一些实施例中，抑癌基因的突变包括以下一个或多个抑癌基因处的一个或多个突变(例如，APC、BRCA1、BRCA2(FANCD1)、CAPG、CDKN1A(CIP1、WAF1、 p21)、CDKN2A(CDKN2、MTS1(depreciated)、TP16、p16(INK4))、CD99(MIC2、MIC2X)、 FRAP1(FRAP、MTOR、RAFT1)、NF1、NF2、PI5、PDGFRL(PRLTS、PDGRL)、PML(MYL)、 PPARG、PRKAR1A(TSE1)、PRSS11(HTRA、HTRA1)、PTEN(MMAC1)、RRAS、RB1(RB)、 SEMA3B、SMAD2(MADH2、MADR2)、SMAD3(MADH3)、SMAD4(MADH4、DPC4)、SMARCB1(SNF5、INI1)、ST3(TSHL、CCTS)、TET2、TOP1、TNC(TN、HXB)、TP53(P53)、 TP63(TP73L)、TP73、TSG11、TUSC2(FUS1)、TUSC3、VHL)。

在一些实施例中，这些方法涉及检测原癌基因和/或抑癌基因处的特定突变，例如检测 EGFR、KRAS、TP53、IDH1、PIK3CA、BRAF和/或NRAS中的一个或多个突变。其中一些突变在Mehrotra等人,“Detection of somatic mutations in cell-free DNA in plasma andcorrelation with overall survival in patients with solid tumors."Oncotarget9.12(2018):10259中进行了描述，通过引用将其全部内容并入本文。

在一些实施例中，原癌基因和/或抑癌基因中的拷贝数变异和结构变异表明受试者可能患有癌症。

在一些实施例中，突变负荷被用来检测癌症。如本文所使用的，术语“突变负荷(mutation burden)”是指在预先确定的基因组(例如，在预先确定的基因组的编码区域)中每个预选单元(如每兆碱基)的改变(如一个或多个改变，例如一个或多个体细胞的改变)的水平，例如数目。突变载荷(mutation load)可被测量，例如，基于整个基因组或外显子组，基于基因组或外显子组的子集，或基于cfDNA。在某些实施例中，可以基于基因组或外显子组的子集测量的突变载荷外推以确定整个基因组或外显子组突变载荷。

在一些实施例中，肿瘤突变负荷被限于非同义突变。在一些实施例中，肿瘤突变负荷被限于原癌基因和/或抑癌基因。

在某些实施例中，测量来自受试者(例如本文描述的受试者)的样品中例如肿瘤样品(例如肿瘤样品或源自肿瘤的样品)中的突变载荷。在某些实施例中，突变负荷以百分位数表示，例如来自参考群体样品中的突变载荷之中的百分位数。在某些实施例中，参考群体包括与受试者具有相同类型癌症的患者。在其它实施例中，参考群体包括正在接受或已经接受与受试者相同类型疗法的患者。在一些实施例中，如果突变载荷高于参考阈值，则受试者可能患有癌症。如果突变载荷低于参考阈值，受试者就不太可能患有癌症。

在一些实施例中，突变负荷可以决定对治疗剂，例如检查点抑制剂(例如抗PD-1抗体)的敏感性。在一些实施例中，疗法是免疫疗法。

涉及肿瘤突变负荷的这些方法中的一些已经例如在Rizvi等人,"Mutationallandscape determines sensitivity to PD-l blockade in non small cell lungcancer."Science 348.6230(2015): 124-128；Addeo等人,"Measuring tumor mutationburden in cell-free DNA:advantages and limits."Translational Lung CancerResearch(2019)中进行了描述，通过引用将其全部内容并入本文。

在某些方面，本文描述的方法也可用于检测复发。因此，本文所描述的方法可用于预测最终复发，例如手术、化疗或其它一些治愈性治疗之后。

在一些方面，本文所描述的方法也可用于评估治疗反应和进展。游离DNA或循环肿瘤 DNA的测序可用于指导治疗剂的选择，并监测整个治疗过程中的动态肿瘤反应。例如，药物治疗过程中血浆肿瘤DNA的重新出现或显著增加，与放射学/临床进展密切相关。因此，在一些实施例中，血浆肿瘤DNA在显著增加后又减少(而肿瘤或癌症症状持续)表明耐药性的发展，并且需要转换疗法。这些方法中的一些已经被描述，如在Ulrich等人,"Cell-freeDNA in oncology:gearing up for clinic."Annals of laboratory medicine 38.1(2018):1-8； Babayan等人,"Advances in liquid biopsy approaches for earlydetection and monitoring of cancer."Genome medicine 10.1(2018):21中，通过引用将其全部内容并入本文。

在一些实施例中，如果受试者被确定为具有增高的患癌风险，则可以进行某些医疗程序。在一些实施例中，这些医疗程序可以进一步确认受试者是否患有癌症。一些实施例进一步包括成像程序(例如CT扫描、核扫描、超声、MRI、PET扫描、X-射线)、活检(例如用针头、用内窥镜、经手术、切除活检、切取活检)或进一步的实验室测试(例如测试血液、尿液或其它体液)。

一些实施例进一步包括在临床记录或数据库中对受试者患癌风险(例如，受试者患癌或患肿瘤的风险增加)进行更新或记录。一些实施例还包括对被确定为具有癌症风险增加的受试者进行更多监测(例如，增加体检的周期和增加诊所就诊的频率)。一些实施例进一步包括对被确定为具有增高的患癌风险的受试者，在临床记录或数据库中记录对监测增加的需要。一些实施例进一步包括告知受试者进行癌症症状的自我监测。本文描述的方法的一些实施例包括推荐改变生活方式。一些生活方式的改变包括但不限于饮食改变(例如，多吃水果和蔬菜，少吃红肉，减少饮酒)、接种疫苗(例如接种人类乳头瘤病毒疫苗或乙型肝炎疫苗)、服用药物(例如非甾体抗炎药物、COX-2抑制剂、他莫昔芬或雷洛昔芬)、减肥和/或多做运动。

治疗方法

本公开提供了治疗如本文所述的疾病或失调的方法。在一些实施例中，该疾病或失调是癌症。在一个方面，本公开提供了治疗受试者中癌症的方法，降低受试者中肿瘤体积随时间的增加率的方法，降低发生转移的风险的方法，或降低受试者中发生额外转移的风险的方法。在一些实施例中，治疗可以阻止、减缓、延缓或抑制癌症的进展。在一些实施例中，治疗可以导致受试者中癌症的一个或多个症状的数目、严重程度和/或持续时间的减轻。在一些实施例中，本文公开的组合物和方法可用于治疗处于癌症风险的患者。

治疗一般可包括例如手术、化疗、放射疗法、激素疗法、靶向疗法和/或其结合。使用哪些治疗方法取决于癌症的类型、位置和等级以及患者的健康和选择。在一些实施例中，疗法是化疗或化学放疗。

在一个方面，本公开的特点是包括向需要其的受试者(例如，患有或确定为患有或诊断为患有癌症的受试者)施用治疗有效量的治疗剂的方法。在一些实施例中，受试者患有例如乳腺癌(例如三阴性乳腺癌)、类癌、宫颈癌、子宫内膜癌、胶质瘤、头颈癌、肝癌、肺癌、小细胞肺癌、淋巴瘤、黑色素瘤、卵巢癌、胰腺癌、前列腺癌、肾癌、结直肠癌、胃癌、睾丸癌、甲状腺癌、膀胱癌、尿道癌或恶性血液肿瘤。在一些实施例中，癌症是不可切除的黑色素瘤或转移性黑色素瘤、非小细胞肺癌(NSCLC)、小细胞肺癌(SCLC)、膀胱癌或转移性激素难治性前列腺癌。在一些实施例中，受试者患有实体瘤。在一些实施例中，癌症是头颈部鳞状细胞癌(SCCHN)、肾细胞癌(RCC)、三阴性乳腺癌(TNBC)或结直肠癌。在一些实施例中，受试者患有三阴性乳腺癌(TNBC)、胃癌、尿路上皮癌、默克尔细胞癌或头颈部癌症。

本文所使用的，“有效量”是指足以影响有益或预期结果(包括停止、减缓、延缓或抑制疾病例如癌症的进展)的量或剂量。有效量将取决于，例如，被施用治疗剂的受试者的年龄和体重，症状的严重程度和给药途径，并且因此，给药可根据个人情况确定。有效量可以以一次或多次给药方式施用。例如，有效量是指足以减轻、停止、稳定、逆转、抑制、减缓和/或延迟患者中癌症进展的量，或足以减轻、停止、稳定、逆转、减缓和/或延迟细胞(例如，活检细胞，本文描述的任意癌症细胞，或细胞系(例如癌症细胞系))在体外增殖的量。

在一些实施例中，本文描述的方法可用于监测疾病的进展，确定治疗的有效性，和调整治疗策略。例如，可以从受试者收集游离DNA来检测癌症，并且还可以将这些信息用来为受试者选择适当的治疗方法。在受试者接受治疗后，可以从受试者收集游离DNA。对这些cfDNA的分析可用于监测疾病的进展，确定治疗的有效性和/或调整治疗策略。在一些实施例中，然后将结果与早期结果进行比较。在一些实施例中，循环肿瘤DNA的急剧增加表明肿瘤细胞凋亡，这可能表明治疗是有效的。

在一些实施例中，该治疗剂可以包括选自由以下组成的组的一种或多种抑制剂：B-Raf 抑制剂、EGFR抑制剂、MEK抑制剂、ERK抑制剂、K-Ras抑制剂、c-Met抑制剂、间变性淋巴瘤激酶(ALK)抑制剂、磷脂酰肌醇3激酶(PI3K)抑制剂、Akt抑制剂、mTOR抑制剂、双PI3K/mTOR抑制剂、布鲁顿酪氨酸激酶(BTK)抑制剂和异柠檬酸脱氢酶1(IDH1)和/或异柠檬酸脱氢酶2(IDH2)抑制剂。在一些实施例中，额外的治疗剂为吲哚胺2,3-双加氧酶 -1(IDO1)的抑制剂(例如，艾卡哚司他，epacadostat)。

在一些实施例中，治疗剂可以包括选自由以下组成的组的一种或多种抑制剂：HER3抑制剂、LSD1抑制剂、MDM2抑制剂、BCL2抑制剂、CHK1抑制剂、活化刺猬信号通路抑制剂和选择性降解雌激素受体剂。

在一些实施例中，治疗剂可以包括选自由以下组成的组的一种或多种治疗剂：曲贝替定 (Trabectedin)、白蛋白结合型紫杉醇(nab-paclitaxel，nab-紫杉醇)、Trebananib(一种血管生成素抑制剂)、帕唑帕尼(Pazopanib)、西地尼布(Cediranib)、帕博西尼(Palbociclib)、依维莫司(everolimus)、氟吡啶(fluoropyrimidine)、IFL、瑞格菲尼(regorafenib)、Reolysin (一种乳腺癌溶瘤病毒药物)、力比泰(Alimta)、色瑞替尼(Zykadia)、索坦(Sutent)、坦罗莫司(temsirolimus)、阿昔替尼(axitinib)、依维莫司(everolimus)、索拉非尼(sorafenib)、维全特(Votrient)、帕唑帕尼(Pazopanib)、IMA-901、AGS-003、卡博替尼(cabozantinib)、长春氟宁(Vinflunine)、Hsp90抑制剂、Ad-GM-CSF、替莫唑胺(Temazolomide)、IL-2、 IFNa、长春花碱(vinblastine)、沙利度胺(Thalomid)、达卡巴嗪(dacarbazine)、环磷酰胺(cyclophosphamide)、来那度胺(lenalidomide)、氮杂胞苷(azacytidine)、来那度胺 (lenalidomide)、硼替佐米(bortezomid)、氨柔比星(amrubicine)、卡非佐米(carfilzomib)、普拉曲沙(pralatrexate)和恩扎妥林(enzastaurin)。

在一些实施例中，治疗剂可以包括选自由以下组成的组的一种或多种治疗剂：佐剂、TLR 激动剂、肿瘤坏死因子(TNF)α、IL-1、HMGB1、IL-10拮抗剂、IL-4拮抗剂、IL-13拮抗剂、IL-17拮抗剂、HVEM拮抗剂、ICOS激动剂、靶向CX3CL1的治疗、靶向CXCL9的治疗、靶向CXCL10的治疗、靶向CCL5的治疗、LFA-1激动剂、ICAM1激动剂和Selectin激动剂。

在一些实施例中，向受试者施用卡铂(carboplatin)、nab-紫杉醇、紫杉醇、顺铂(cisplatin)、培美曲塞、吉西他滨、FOLFOX或FOLFIRI。

在一些实施例中，治疗剂是抗体或其抗原结合片段。在一些实施例中，治疗剂是与PD-1、 CTLA-4、BTLA、PD-L1、CD27、CD28、CD40、CD47、CD137、CD154、TIGIT、TIM-3、 GITR或OX40特异性结合的抗体。

在一些实施例中，治疗剂是抗PD-1抗体、抗OX40抗体、抗PD-L1抗体、抗PD-L2抗体、抗LAG-3抗体、抗TIGIT抗体、抗BTLA抗体、抗CTLA-4抗体或抗GITR抗体。

在一些实施例中，治疗剂是抗CTLA4抗体(例如易普利姆玛，ipilimumab)、抗CD20抗体(例如利妥昔单抗，rituximab)、抗EGFR抗体(例如西妥昔单抗，cetuximab)、抗 CD319抗体(例如艾洛珠单抗，elotuzumab)或抗PD1抗体(例如纳武单抗，nivolumab)。

系统、软件和接口

本文描述的方法(例如，量化、映射、归一化、范围设置、调整、分类、计数和/或确定测序读段和计数)通常需要计算机、处理器、软件、模块或其它装置。本文描述的方法通常是计算机实施方法，并且方法的一个或多个部分有时由一个或多个处理器执行。与本文描述的方法有关的实施例通常适用于由本文描述的系统、装置和计算机程序产品中的指令实现的相同或相关的处理。在一些实施例中，本文描述的处理和方法是通过自动化方法执行的。在一些实施例中，自动化方法体现在软件、模块、处理器、外围设备和/或包括类似装置的装置中，这些装置决定测序读段、计数、映射、映射的序列标签、高度、简况(profile)、归一化、比较、范围设置、分类、调整、绘图、结果、转换和鉴定。在本文使用的，软件是指计算机可读的程序指令，当由处理器执行时，执行本文描述的计算机操作。

可以对源自受试者(例如，对照受试者、患者或疑似患有肿瘤的受试者)的测序读段、计数、高度及简况进行分析和处理以确定遗传变异的存在或不存在。测序读段和计数有时被称为“数据”或“数据集”。在一些实施例中，数据或数据集可以由一个或多个特征或变量来表征。在一些实施例中，测序装置作为系统的一部分包括在内。在一些实施例中，系统包括计算装置和测序装置，其中测序装置被配置为接收物理核酸并生成测序读段，计算装置被配置为处理来自测序装置的读段。计算装置有时被配置为从测序读段确定遗传变异(例如拷贝数变异、突变)的存在或不存在。

本文描述的主题和功能操作的实施可以以数字电子电路、有形的计算机软件或固件、计算机硬件实现，包括本文描述的结构及其结构等价物，或者一个或多个结构的组合。本文描述的主题的实施可以实施为一个或多个计算机程序，即编码在有形程序载体上的计算机程序指令的一个或多个模块，用于由处理设备执行、或控制处理设备的操作。可选地，或另外地，程序指令可以编码在为人工生成信号的传播信号上，例如，机器生成的电气、光学或电磁信号，生成该信号用于编码信息以用于传输到适当的接收器装置，供处理设备执行。机器可读介质可以是机器可读存储设备、机器可读存储基板、随机或串行访问存储设备，或它们中一种或多种的组合。

参考图8，系统10通过将数据与参数绑定并将测序噪声处理器应用于输入数据来处理数据，并输出指示测序噪声的信息(例如质量得分、信息得分)。系统10包括客户端设备12、数据处理系统18、数据存储库20、网络16和无线设备14。测序噪声处理器基于本文描述的方法处理输入数据。在一些实施例中，测序噪声处理器基于本文描述的方法生成质量得分(例如信息得分)。

数据处理系统18从数据存储库20检索数据21，数据21表示测序噪声处理器参数的一个或多个值，包括对照样品中的核苷酸频率、肿瘤样品中的核苷酸频率和整个人类基因组中的背景频率等。数据处理系统18将检索到的数据输入到测序噪声处理器中，例如，输入到数据处理程序30中。在本实施例中，数据处理程序30被编程以检测测序噪声。在一些实施例中，通过计算本文描述的信息得分、对数几率乘积得分和对数几率总和得分来检测测序噪声。

在一些实施例中，数据处理系统18将参数与表示与变异相关的信息的一个或多个值(例如，关注位点处的等位基因频率)绑定。数据处理系统18通过修改数据库记录将数据的值与参数绑定，从而将参数的值设置为数据21的值(或其的一部分)。数据21包括多个数据记录，每个数据记录具有参数的一个或多个值。在一些实施例中，数据处理系统18通过将数据处理程序30应用于参数的绑定值以将数据处理程序30应用于记录中的每一个。根据将数据处理程序30应用于绑定值(例如，如数据21或数据21中的记录中所指定的)，数据处理系统18确定表明该变异是否可能是真突变或测序噪声的得分。在一些实施例中，数据处理系统18输出(例如，通过网络16和/或无线设备14输出到客户端设备12)表示确定的质量得分的数据，或表示变异是否是真突变或测序噪声的数据。

在一些实施例中，根据表示变异是否为真突变或测序噪声的数据，数据处理系统18可以被配置为确定受试者是否患有癌症或具有患癌的风险。如果数据处理系统18确定受试者患有癌症或有患癌的风险，数据处理系统18可以进一步更新数据21中的临床记录，表明受试者患有癌症或有患癌的风险。在一些实施例中，记录包括进行更多监测(例如，增加体检的周期和增加诊所就诊的频率)的需要、进一步程序(例如诊断、实验室测试或治疗程序)的需要以及推荐改变生活方式。

数据处理系统18为图形用户界面生成数据，当呈现在客户端设备12的显示设备上时，显示输出的可视化表示。在一些实施例中，这些参数的值可以被存储在数据存储库20或内存22中。

客户端设备12可以是能够从用户获取输入并通过网络16与数据处理系统18和/或与其它客户端设备通信的任意类型的计算设备。客户端设备12可以是移动设备、台式计算机、笔记本电脑、手机、个人数字助理(PDA)、服务器、嵌入式计算系统等。

数据处理系统18可以是能够接收数据并运行一个或多个服务的多种计算设备中的任意一种。在一些实施例中，数据处理系统18可以包括服务器、分布式计算系统、台式计算机、笔记本电脑、手机等。数据处理系统18可以是位于同一位置或不同位置(即地点)的单个服务器或一组服务器。数据处理系统18和客户端设备12可以运行相互具有客户端-服务器关系的程序。虽然图中显示了不同的模块，但在一些实施例中，客户端程序和服务器程序可以在同一设备上运行。

数据处理系统18可以通过输入/输出(I/O)接口24和数据存储库20接收来自无线设备14 和/或客户端设备12的数据。数据存储库20可以存储用于数据处理程序30的各种数据值。测序噪声处理程序(也可被称为程序、软件、软件应用程序、脚本或代码)可以以任何形式的编程语言编写，包括编译或解释语言，或声明性或程序性语言，并且可以以任何形式部署，包括作为独立程序或作为模块、组件、子程序或其它适合在计算环境中使用的单元。数据处理程序可以，但不需要，对应于文件系统中的文件。该程序可以被存储在包含其它程序或信息(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中、存储在专用于有关程序的单一文件中、或存储在多个协调文件(例如，存储一个或多个模块、子程序或部分代码的文件)中。数据处理程序可以被部署为在一台计算机上或位于一个站点或分布在多个站点上并由通信网络互连的多台计算机上执行。

在一些实施例中，数据存储库20存储表示来自对照受试者样品的测序读段和来自肿瘤患者或疑似患有肿瘤的患者的样品的测序读段的数据21。在另一个实施例中，数据存储库20 存储测序噪声处理器的参数。接口24可以是一类能够通过网络接收数据的接口，包括例如以太网接口、无线网络接口、光纤网络接口、调制解调器等。数据处理系统18还包括处理设备28。本文所使用的，“处理设备”包括用于处理信息的各种类型的装置、设备和机器，如可编程处理器、计算机或多个处理器或计算机。该装置可包括专用逻辑电路，如FPGA(现场可编程门阵列)或ASIC(应用特定集成电路)或RISC(精简指令集电路)。除硬件外，该装置还可以包括为有关计算机程序创建执行环境的代码，例如构成处理器固件、协议堆栈、信息库管理系统、操作系统或它们的一个或多个组合的代码。

数据处理系统18还包括内存22和总线系统26，例如包括数据总线和主板，用于建立和控制数据处理系统18的组件之间的数据通信。处理设备28可以包括一个或多个微处理器。通常，处理设备28可以包括能够接收和存储数据以及通过网络进行通信的适当处理器和/或逻辑。内存22可以包括硬盘驱动器和随机访问存储器存储设备，例如包括动态随机访问存储器或其它类型的非短暂性机器可读存储设备。内存22存储由处理设备28执行的数据处理程序30。这些计算机程序可以包括用于实现本文描述的操作和/或技术的数据引擎。数据引擎可以在计算机设备、硬件或软硬件组合上运行的软件中实施。

各种方法和公式可以以计算机程序指令的形式实施，并由处理设备执行。用于表达程序指令的适当编程语言包括但不限于C、C++、FORTRAN的实施方式如FORTRAN77或FORTRAN90、Java，Visual Basic、Perl、Tcl/Tk、JavaScript、ADA和统计分析软件(如SAS、R、MATLAB、SPSS和Stata等)。这些方法的各个方面可以相互用不同的计算机语言编写，并且造成该各个方面通过给定系统上可用的适当系统-等级工具相互通信。

本公开中描述的处理和逻辑流可以由一个或多个可编程计算机执行一个或多个计算机程序来进行，通过操作输入信息和生成输出来进行功能。处理和逻辑流也可以由专用逻辑电路 (例如FPGA(现场可编程门阵列)或ASIC(应用特定集成电路)或RISC)来进行，并且装置也可以被实施作为专用逻辑电路(例如FPGA(现场可编程门阵列)或ASIC(应用特定集成电路)或RISC)。

适合于执行计算机程序的计算机包括例如通用型或特殊用途型微处理器或两者，或任何其它类型的中央处理单元。通常，中央处理单元将从只读存储器或随机访问存储器或两者接收指令和信息。计算机的基本元件是用于进行或执行指令的中央处理单元和用于存储指令和信息的一个或多个存储设备。通常，计算机还将包括用于存储信息的一个或多个海量存储设备(例如磁盘、磁光盘或光盘)，或者被操作耦合以接收来自用于存储信息的一个或多个海量存储设备(例如磁盘、磁光盘或光盘)的信息或将信息传送到用于存储信息的一个或多个海量存储设备(例如磁盘、磁光盘或光盘)或两者，然而，计算机不必需要有这样的设备。此外，计算机可以被嵌入另一设备，例如移动电话、智能手机或平板电脑、触摸屏设备或表面、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如通用串行总线(USB)闪存驱动器)，仅举几个例子。

适用于存储计算机程序指令和信息的计算机可读媒介包括多种形式的非易失性存储器、媒介和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；和CD ROM盘和(蓝光)DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或合并至专用逻辑电路中。

为了提供与用户的交互，本公开中描述的主题的实现可以在具有用于向用户显示信息的显示设备(例如CRT显示器(阴极射线管)或LCD显示器(液晶显示器))和由此用户可以向计算机提供输入的键盘和指向设备(例如鼠标或轨迹球)的计算机上实现。其它类型的设备也可以用来提供与用户的交互。此外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过将网页发送到用户客户端设备上的网页浏览器以响应从网页浏览器收到的请求。

本文所述主题的实现可以在计算系统中实施，该计算系统包括后端组件(例如作为信息服务器)，或包括中间件组件(例如应用服务器)，或包括前端组件(例如具有图形用户界面或网页浏览器的客户端计算机，用户可以通过其与主题的实现交互)，或一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件可以通过任何数字信息通信的形式或媒介，例如通信网络，进行互联。通信网络的例子包括局域网(“LAN”)和广域网(“WAN”)，例如互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常相互远程，通常通过通信网络进行交互。客户端和服务器的关系是由在各自计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生的。在一些实施例中，服务器可以是通过云计算服务的云服务器。

虽然本公开包括许多具体的实现细节，但不应将其解释为对任何可能声称的内容的范围的限制，而应解释为对特定实现可能特有的特性的描述。在单独实现方式的背景下，本公开中描述的某些特性也可以在单个实现方式中组合实现。相反，在单个实现方式的背景下描述的各种特性也可以分别在多个实现方式或在任何合适的子组合中实现。此外，虽然上述特征可以被描述为在某些组合中起作用，甚至最初声称是这样的，但在某些情况下，声称的组合中的一个或多个特征可以从组合中剔除，并且声称的组合可以指向子组合或子组合的变体。

同样，虽然操作是按特定顺序描述的，但不应将其理解为要求按照显示的特定顺序或顺序地进行此类操作，或进行所有示例说明的操作，以实现期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。此外，不应将上述实现方式中的多种系统组件的分离理解为在所有实现方式中都需要这样的分离，并且应该理解，所描述的程序组件和系统通常可以集成在单一软件产品中，或者打包成多个软件产品。

已经描述了主题的具体实现方式。其它实现方式是在以下权利要求的范围内。例如，权利要求中列举的行动可以以不同的顺序进行，并且仍然取得理想的结果。在一个实施例中，附图中描述的处理不一定需要所显示的特定顺序或连续顺序以实现理想的结果。在某些实现方式中，多任务处理和并行处理可能是有利的。

试剂盒

本公开还提供了用于收集、运输和/或分析样品的试剂盒。这种试剂盒可以包含用于从受试者获得适当样品或测量特定生物标志物的水平所需的材料和试剂。在一些实施例中，试剂盒包含从受试者获得样品和存储样品会所需的材料和试剂。然后将样品运往至服务中心进行进一步处理(例如测序和/或数据分析)。

试剂盒还可以包括用于收集样品、进行测定以及解释和分析从测定的性能产生的数据的方法的说明书。

示例

本发明在以下示例中作了进一步的描述，这些示例不限制权利要求描述的本发明的范围。

示例1：数据制备

用Illumina平台(如X-10、NovaSeq)对肿瘤样品中的DNA进行测序。原始输出读段的质量由FastQC进行检查。用Fastp裁剪原始数据以删除低质量的读段(碱基质量小于20的比率超过40％的任何读段和所有默认切除后短于70bp的任何读段)。剩余数据经FastQC再次检查以确认数据仍符合上述标准。裁剪后通过质控的数据利用BWA(0.7.17-r1194-dirty) 进行比对。输出数据由Samtools转换为BAM和PILEUP格式文件。最后，通过内部C++实现方式对hg19基因组组装体中的每个碱基进行得分。

Ⅰ、模拟的数据集

该数据集是由OpenGene工具箱以SeqMaker生成(Chen等人,“SeqMaker:A NextGeneration sequencing simulator with variations,sequencing error andamplification bias integrated."2016IEEE International Conference onBioinformatics and Biomedicine(BIBM). IEEE,2016)。其参数设置如下：

(1)SeqMaker以1000x深度模拟了93个基因的NextGen测序数据。

(2)在每个基因中，仅分配一个真突变。其类型和位置随机确定，携带的等位基因频率在0.001和0.1之间的范围。

由于数据模拟的随机性，20个基因的真突变根本没有支持性读段。以下分析将不包括该20个基因。

Ⅱ、ROC分析

基于模拟的测序数据计算其余73个基因的信息得分、对数几率乘积得分和对数几率总和得分。仅当真突变的得分高于该基因中所有位点的得分时，才会认为是真阳性。这三种得分的ROC图如图1所示。图1显示，在模拟的ctDNA测序数据上，在突变检测中信息得分表现最好。

示例2：实验中的突变检出

在实际数据中，因为不知道一个基因中有多少真突变，所以需要从所有基因的所有位点选择突变。因此，将这73个基因的所有位点按其得分进行排序。

图2A显示200个突变检出的信息得分。真阳性富集于信息得分最低的突变中。

图2B显示对数几率乘积得分最低的200个突变检出的对数几率乘积得分。如图2B所示，真阳性随机分布在这些突变中。

图2C显示得分最高(绝对值最低)的200个突变检出的对数几率总和得分。较高的得分表明突变更有可能是真阳性。如图2C所示，真阳性随机分布在这些突变中。

这些图显示了真阳性和假阳性。

图2A-2C的结果表明，信息得分在识别真阳性方面表现最好。

结果也与TNER进行了比较，TNER是一种常用的减少循环肿瘤DNA突变检测中背景误差的程序(Deng等人,“TNER:a novel background error suppression method formutation detection in circulating tumor DNA.”BMC Bioinformatics19.1(2018)：387)。本文描述的信息得分优于TNER。TNER在其86个输出中确认出了51个真阳性。相反，信息得分在前86 个突变中确定出了53个真阳性。

示例3：与目标等位基因频率的相关性

突变检测得分应尽可能地捕捉目标等位基因频率的信息，因为目标等位基因频率是检测真突变的重要标准。图3A-3C显示通过这三种不同的得分可获得多少来自目标等位基因频率的信息(即目标等位基因频率与得分之间的相关系数)。

图3A显示目标等位基因频率与信息得分之间的关系。相关系数为-0.572362。

图3B显示目标等位基因频率与对数几率乘积得分之间的关系。相关系数为 -0.5340896。

图3C显示目标等位基因频率与对数几率总和分数之间的关系。相关系数为0.528966。

信息得分再次与目标等位基因频率的相关性最高。因此，它是这三种得分中真突变的最佳估计量。然而，信息得分对于目标等位基因频率只能达到0.57的相关系数(C.C)，但这并不令人惊讶，因为观测的等位基因频率与目标等位基因频率之间的相关系数为0.55(图4)。图4显示了观测的等位基因频率与目标等位基因频率之间的关系。相关系数为0.554857。信息得分比观测的等位基因频率获得更高的相关系数，因为它使用背景中一些信息来消除一些噪声。

示例3：与观测的等位基因频率的相关性

这三种得分都与观测的等位基因频率具有高的相关性，表明它们能够从测序读段捕获突变信息的能力(图5A-5C)。其中，信息得分仍优于其它两种得分。

图5A显示信息得分与观测的等位基因频率之间的关系。相关系数为-0.995983。

图5B显示对数几率乘积得分与观测的等位基因频率之间的关系。相关系数为 -0.8240068。

图5C显示了对数几率总和得分与观测的等位基因频率之间的关系。相关系数为0.8092415。

因此，信息得分对于观测的等位基因频率具有最高的相关系数(绝对值)。

示例4：低深度测序下的性能

前面的示例结果表明，在高深度(1000x)的模拟测序数据下，信息得分是目标等位基因频率的最佳估计量，也是检出ctDNA突变的最佳标准。还进行实验以测验信息得分对低深度测序数据的性能。测序深度逐渐降低。结果如图6A-6H所示，标记出具有最高得分的突变中的真阳性。结果总结于下表。

表4

图6A-6H表明，在测序深度降低时，信息得分的性能降低。这表明，较高的测序深度一般会带来更好的性能。

示例5：实际测序数据的验证

由亚洲癌症研究小组(ACRG)项目提供的实际测序数据，进一步验证信息得分的性能。选取来自ACRG受试者编号200、11、22、26、68和82的数据用于此验证测试，因为这些病例还提供了一些实验验证的体细胞变异作为真阳性。对每个ACRG病例，将每个验证的体细胞变异及其上下游1000个碱基的信息得分进行排序(图7A-7F)。

表5

结果确认真阳性在最高得分中的富集，并且证明信息得分是检测实际测序数据中真体细胞变异的有前途的方法。

其它实施例

可以理解的是，虽然本发明已经结合其详细描述进行了描述，但上述描述旨在示例说明而不是限制本发明的范围，此范围由所附权利要求的范围所定义。其它方面、优点和限定属于下列权利要求的范围。

Claims

1.一种用于消除测序结果中噪声的方法，所述方法包括：

(a)确定对照样品中在基因组中关注位点处每种碱基类型的频率，并且确定从患有肿瘤或疑似患有肿瘤的受试者收集的样品中在基因组中所述关注位点处每种碱基类型的频率；

(b)通过计算对照样品中碱基类型频率的分布与从所述患有肿瘤或疑似患有肿瘤的受试者收集的样品中碱基类型频率的分布之间的互熵来确定所述关注位点处的趋异得分；

(c)通过确定对照样品中碱基类型频率的分布与从所述患有肿瘤或疑似患有肿瘤的受试者收集的样品中碱基类型频率的分布代表相同分布的概率来确定显著性得分；

(d)基于所述趋异得分和所述显著性得分来计算信息得分，其中较高的信息得分表示所述关注位点处的测序结果更有可能是噪声。

2.根据权利要求1所述的方法，其中所述样品源自全血、血浆和组织或唾液。

3.根据权利要求1所述的方法，其中所述样品是循环游离核酸。

4.根据权利要求1所述的方法，其中所述趋异得分由以下公式计算：

其中_j ⁱQ_N是所述对照样品中在关注位点i处碱基类型j的频率，_j ⁱQ_T是从所述患有肿瘤或疑似患有肿瘤的受试者收集的样品在位点i处碱基类型j的频率，

其中

5.根据权利要求1所述的方法，其中所述显著性得分由以下公式计算：

其中_jp是人类参考基因组中碱基j的背景频率，

其中

6.根据权利要求5所述的方法，其中所述人类参考基因组是人类基因组组装体GRCh37(hg19)或人类基因组组装体GRCh38(hg38)。

7.根据权利要求1-6中任一项所述的方法，其中所述信息得分由以下公式计算：

8.根据权利要求7所述的方法，其中如果所述信息得分高于参考阈值，则删除所述关注位点处的所述测序结果。

9.根据权利要求7所述的方法，其中如果所述信息得分低于参考阈值，则纳入所述关注位点处的所述测序结果。

10.一种用于消除测序结果中噪声的系统，包括：

a)至少一个设备，配置为对包括从一个或多个对照受试者收集的第一组核酸样品和从患有肿瘤或疑似患有肿瘤的受试者收集的第二组核酸样品的核酸样品进行测序；

b)计算机可读程序代码，包括执行以下的指令：

i.计算所述第一组核酸样品在基因组中关注位点处每种碱基类型的频率和所述第二组核酸样品在基因组中所述关注位点处每种碱基类型的频率；

ii.通过计算所述第一组核酸样品中碱基类型频率的分布与所述第二组核酸样品中碱基类型频率的分布之间的互熵来计算所述关注位点的趋异得分；

iii.通过确定所述第一组核酸样品中碱基类型频率的分布与所述第二组核酸样品中碱基类型频率的分布代表相同分布的概率来计算显著性得分；

iv.基于所述趋异得分和所述显著性得分计算信息得分，其中较高的信息得分表示在所述关注位点处的测序结果更有可能是噪声；

c)计算机可读程序代码，包括执行以下的指令：

i.如果所述信息得分高于参考阈值，则删除所述关注位点处的所述测序结果；或

ii.如果所述信息得分低于参考阈值，则纳入所述关注位点处的测序结果。

11.一种用于消除测序结果中噪声的方法，所述方法包括：

(a)确定对照样品中关注位点处每种碱基类型的频率与参考基因组中所述关注位点处每种碱基类型的频率的比率，其中所述对照样品中所述关注位点处每种碱基类型的频率比率的对数由以下公式确定

其中_jp是人类参考基因组中碱基类型j的背景频率，并且其中_j ⁱQ_N是对照样品中在位点i处碱基类型j的频率；

(b)确定从患有肿瘤或疑似患有肿瘤的受试者收集的样品中所述关注位点处每种碱基类型的频率与参考基因组中所述关注位点处每种碱基类型的频率相比的比率，其中所述从患有肿瘤或疑似患有肿瘤的受试者收集的样品中所述关注位点处每种碱基类型的频率比率的对数由以下公式确定

其中_jp是人类参考基因组中碱基类型j的背景频率，并且_j ⁱQ_T是从患有肿瘤或疑似患有肿瘤的受试者收集的样品中在位点i处碱基类型j的频率；

(c)确定所述对照样品与所述从患有肿瘤或疑似患有肿瘤的受试者收集的样品在所述关注位点处每种碱基类型的频率比率的对数的得分，其中所述得分由以下公式确定：

或

和

(d)如果所述得分的绝对值高于参考阈值，则删除所述关注位点处的测序结果。

12.一种用于消除测序数据中噪声的系统，包括：

c)至少一个设备，配置为对包括第一组对照核酸样品和从患有肿瘤或疑似患有肿瘤的受试者收集的第二组核酸样品的核酸样品进行测序；

d)计算机可读程序代码，包括执行以下的指令：

v.确定所述第一组对照核酸样品中关注位点处每种碱基类型的频率与参考基因组中所述关注位点处每种碱基类型的频率的比率，其中所述第一组对照核酸样品中所述关注位点处每种碱基类型的频率比率的对数由以下公式确定

其中_jp是人类参考基因组中碱基类型j的背景频率，并且其中_j ⁱQ_N是所述第一组对照核酸样品中在位点i处碱基类型j的频率；

vi.确定所述第二组核酸样品中所述关注位点处每种碱基类型的频率与参考基因组中所述关注位点处每种碱基类型的频率的比率，其中所述第二组核酸样品中所述关注位点处每种碱基类型的频率比率的对数由以下公式确定

其中_jp是人类参考基因组中碱基类型j的背景频率，并且_j ⁱQ_T是从患有肿瘤或疑似患有肿瘤的受试者收集的所述第二组核酸样品中在位点i处碱基类型j的频率；

vii.确定所述第一组对照核酸样品与所述第二组核酸样品在所述关注位点处每种碱基类型的频率比率的对数的得分，其中所述得分由以下公式确定：

或

和

viii.如果所述得分的绝对值高于参考阈值，则删除所述关注位点处的测序结果。

13.一种降低测序数据中噪声的计算机实施方法，所述方法包括：

k)接收从对病例组核酸样品和对照组核酸样品测序获得的多个测序读段；

l)将所述多个测序读段比对到参考基因组的目标区域；

m)确定所述对照组核酸样品中关注位点处每种碱基类型在所述目标区域的频率；

n)确定所述病例组核酸样品中所述关注位点处每种碱基类型在所述目标区域的频率；

o)通过计算所述对照组核酸样品中碱基类型频率的分布与所述病例组核酸样品中收集的样品中碱基类型频率的分布之间的互熵来确定所述关注位点处的趋异得分；

p)通过确定所述对照组核酸样品中碱基类型频率的分布和所述病例组核酸样品中碱基类型频率的分布代表相同分布的可能性来确定显著性得分；和

q)基于所述趋异得分和所述显著性得分来确定所述关注位点处的测序结果是否可能是测序噪声。

14.根据权利要求13所述的计算机实施方法，其中所述方法还包括：

r)基于所述趋异得分和所述显著性得分计算信息得分；

s)如果所述关注位点处的所述信息得分小于参考阈值，则报告所述关注位点处的测序结果；和

t)如果所述关注位点处的所述信息得分高于参考阈值，则删除所述关注位点处的测序结果。

15.根据权利要求13所述的计算机实施方法，其中所述病例组核酸样品和所述对照组核酸样品源自游离DNA片段。

16.根据权利要求13所述的计算机实施方法，其中所述病例组核酸样品和所述对照组核酸样品源自生物样品的RNA。

17.根据权利要求13所述的计算机实施方法，其中对所述病例组核酸样品和所述对照组核酸样品的测序少于1、2、3、4、5、6、7、8、9、10、15或20倍。

18.一种降低测序数据中噪声的计算机实施方法，所述方法包括：

g)接收从对病例组核酸样品和对照组核酸样品测序获得的多个测序读段；

h)将所述多个测序读段比对到参考基因组的目标区域；

i)确定所述对照组核酸样品中关注位点处每种碱基类型的频率与参考基因组中所述关注位点处每种碱基类型的频率的比率，其中所述对照组核酸样品中所述关注位点处每种碱基类型的频率比率的对数由以下公式确定

其中_jp是人类参考基因组中碱基类型j的背景频率，并且其中_j ⁱQ_N是所述对照组核酸样品中在位点i处碱基类型j的频率；

j)确定所述病例组核酸样品中所述关注位点处每种碱基类型的频率与参考基因组中所述关注位点处每种碱基类型的频率的比率，其中所述病例组核酸样品中所述关注位点处每种碱基类型的频率比率的对数由以下公式确定

其中_jp是人类参考基因组中碱基类型j的背景频率，并且_j ⁱQ_T是从患有肿瘤或疑似患有肿瘤的受试者收集的所述病例组核酸样品中在位点i处碱基类型j的频率；

k)确定所述对照组核酸样品与所述病例组核酸样品在所述关注位点处每种碱基类型的频率比率的对数的得分，其中所述得分由以下公式确定：

或

和

l)如果所述得分的绝对值高于参考阈值，则删除所述关注位点处的测序结果；或如果所述得分的绝对值不大于参考阈值，则保留所述关注位点处的测序结果。

19.一种用于检测样品DNA序列中DNA变异的方法，包括：

f)将所述样品DNA序列的测序读段比对到参考DNA序列，从而鉴定在所述参考DNA序列中关注位点处的变异，并且确定在所述样品DNA序列中所述关注位点处每种碱基类型的频率；

g)确定对照组核酸样品中所述关注位点处每种碱基类型的频率；

h)通过计算所述样品DNA序列中碱基类型频率的分布与所述对照组核酸样品中碱基类型频率的分布之间的互熵来确定所述关注位点处的趋异得分；

i)通过确定所述样品DNA序列中碱基类型频率的分布与所述对照组核酸样品中碱基类型频率的分布代表相同分布的可能性来确定显著性得分；

j)基于所述趋异得分和所述显著性得分计算信息得分；和

k)输出所述关注位点处的变异。