CN114292912A

CN114292912A - 一种变体核酸的检测方法

Info

Publication number: CN114292912A
Application number: CN202111600502.4A
Authority: CN
Inventors: 张之宏; 祝鹏飞; 吴帅来; 王晨阳; 邱福俊; 汉雨生
Original assignee: Guangzhou Burning Rock Dx Co ltd
Current assignee: Guangzhou Burning Rock Dx Co ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-08
Also published as: WO2023115662A1

Abstract

本申请涉及一种变体核酸的检测方法，具体涉及一种检测变体核酸的存在和/或数量方法，所述方法包含基于待测样本中的体细胞突变区域和背景突变区域，确定所述变体核酸存在和/或数量。本申请还涉及本申请的方法在样本检测中的应用。

Description

一种变体核酸的检测方法

技术领域

本申请涉及生物医学领域，具体的涉及一种变体核酸的检测方法。

背景技术

检测外周血中循环肿瘤DNA(ctDNA,Circulating Tumor DNA)的存在和/或占比是进行微小残留病灶(MRD，Minimal Residual Disease)检测的主要方法。微小残留病灶(MRD，Minimal Residual Disease)是指癌症治疗后残留在体内的少量癌细胞，它是肿瘤复发和远端转移的潜在来源，在肺癌，结直肠癌，食管癌等多种实体瘤中具有很好的预后价值。当前主要通过检测术后外周血中ctDNA含量判断MRD阳性或者阴性，国内首个《肺癌MRD的检测和临床应用共识》规定，用作MRD检测时，ctDNA的检出限需要低至0.02％的水平。因此，本领域急需一种能够准确检测ctDNA的存在和/或占比的方法。

发明内容

一方面，本申请提供了一种检测变体核酸的存在和/或数量方法，所述方法包含基于待测样本中待测区域的体细胞突变位点和背景突变位点，确定所述变体核酸的存在和/或数量，其中通过从所述待测样本的全部突变位点中去除所述体细胞突变位点，确定所述背景突变位点。

一方面，本申请提供了一种检测变体核酸的存在和/或数量方法的分析设备，所述设备包含判断模块，用于基于待测样本中待测区域的体细胞突变位点和背景突变位点，确定所述变体核酸存在和/或数量，其中通过从所述待测样本的全部突变位点中去除所述体细胞突变位点，确定所述背景突变位点。

一方面，本申请提供了一种储存介质，其记载可以本申请所述的方法的程序。

一方面，本申请提供了一种设备，所述设备包含本申请所述的储存介质。

一方面，本申请提供了根据本申请所述的方法，所述方法用于检测和/或量化从受试者获得的待测样品中的循环肿瘤DNA。

本申请提供了一种变体核酸的检测方法，例如一种检测变体核酸的存在和/或数量方法，所述方法包含基于待测样本中待测区域的体细胞突变位点和背景突变位点，确定所述变体核酸的存在和/或数量，其中通过从所述待测样本的全部突变位点中去除所述体细胞突变位点，确定所述背景突变位点。本申请的检测方法可以准确地评估样本ctDNA占比以及样本ctDNA的显著性水平。

本领域技术人员能够从下文的详细描述中容易地洞察到本申请的其它方面和优势。下文的详细描述中仅显示和描述了本申请的示例性实施方式。如本领域技术人员将认识到的，本申请的内容使得本领域技术人员能够对所公开的具体实施方式进行改动而不脱离本申请所涉及发明的精神和范围。相应地，本申请的附图和说明书中的描述仅仅是示例性的，而非为限制性的。

附图说明

本申请所涉及的发明的具体特征如所附权利要求书所显示。通过参考下文中详细描述的示例性实施方式和附图能够更好地理解本申请所涉及发明的特点和优势。对附图简要说明如下：

图1A-1B显示的是不同的重复单元重复次数情况下，插入或缺失1个重复单元的可观测信号频率。

图2A-2B显示的是不同的重复单元重复次数情况下，插入或缺失1个、2个或3个重复单元的可观测信号频率。

图3A-3B显示的是不同的重复单元重复次数情况下，插入或缺失1个长度为1个、2个或3个碱基的重复单元的可观测信号频率。

图4显示的是随机插入或缺失1个或2个碱基的可观测信号频率。

图5A-5B显示的是基于不同位点个数的评估稀释比的结果，其中横坐标为位点个数，纵坐标为评估稀释比例，虚线表示实验的稀释比。

图6显示的是不同检测方法的检测敏感性结果。

图7A-7E显示的是对于不同细胞系稀释样本，本申请方法检测的敏感性和特异性的结果。图7A检测了对于H2009细胞系(人肺腺癌细胞)稀释样本的检测，包括基于88个阳性位点和265个阴性位点的分析；图7B检测了对于HCC38细胞系(人乳腺导管癌细胞)稀释样本的检测，包括基于41个阳性位点和312个阴性位点的分析；图7C检测了对于H1437细胞系(人非小细胞肺癌细胞)稀释样本的检测，包括基于48个阳性位点和305个阴性位点的分析；图7D检测了对于HCC1395细胞系(人乳腺癌细胞)稀释样本的检测，包括基于85个阳性位点和268个阴性位点的分析；图7E检测了对于H2126细胞系(人肺癌细胞系)稀释样本的检测，包括基于91个阳性位点和262个阴性位点的分析。其中，横坐标05pct表示5e-03稀释度，01pct表示1e-03稀释度，002pct表示2e-04稀释度，0004pct表示4e-05稀释度,00008pct表示8e-06稀释度，阴性样本可以表示稀释度为0。

具体实施方式

以下由特定的具体实施例说明本申请发明的实施方式，熟悉此技术的人士可由本说明书所公开的内容容易地了解本申请发明的其他优点及效果。

术语定义

在本申请中，术语“变体核酸”通常是指在核酸序列的一个或更多个位置处发生的插入、添加、缺失和/或替换等突变后的核酸片段。例如，变体核酸可以包含源于肿瘤组织的变体核酸，如ctDNA。例如，变体核酸可以包含源于胎儿组织的变体核酸。例如，变体核酸可以包含源于异体组织或器官的变体核酸。

在本申请中，术语“体细胞突变”通常是指发生在非胚胎细胞中的后天获得的一类突变。在本申请中，所述体细胞突变可以包括在体细胞组织(例如，种系外的细胞)中发生的遗传改变。在本申请中，所述体细胞突变可以包括点突变(例如，单个核苷酸与另一个核苷酸的交换(例如，沉默突变、错义突变和无义突变))、插入和缺失(例如，添加和/或移除一个或更多个核苷酸(例如，插入缺失))、扩增、基因重复、拷贝数改变(CNA)、重排和剪接变体。所述体细胞突变可以与细胞的生长，编程，衰老和凋亡过程密切相关。例如，所述体细胞突变可以与肿瘤发生中信号通路改变，血管生成和/或肿瘤的转移相关。

在本申请中，术语“背景突变”通常是指在待测样本中可以用于背景参考的突变。例如，背景突变可以是受试者体内可遗传的突变，例如，背景突变可以是受试者正常组织以及肿瘤组织都可以具有的突变。例如，为了确定更准确的背景突变，本申请提供的方法可以将待测样本的全部突变去除肿瘤组织中检测的体细胞突变，以及其他需要排除的位点对应的信息，以排除明确的突变位点或区域对背景计算的影响。

在本申请中，术语“突变位点”通常是指与对照序列的核苷酸序列相比存在差异的核苷酸所在的位点。例如，所述对照序列可以为基因测序中使用的参照序列(例如可以为人类参考基因组)。在本申请中，所述突变位点可以包括至少1个(例如，1个、2个、3个、4个或更多个)位点处的核苷酸序列的不同(例如，所述不同可以包括核苷酸取代、重复、缺失和/或增加)。例如，所述突变位点可以包括至少1个核苷酸位点处发生核苷酸突变。所述核苷酸突变可以为自然突变，也可以为人工突变。所述突变位点可以包括单核苷酸变异(SNV)。

在本申请中，术语“数据库”通常是指相关数据的有组织实体，而不管数据或有组织实体的表示方式。例如，所述相关数据的有组织实体可以采取表、映射、网格、分组、数据报、文件、文档、列表的形式或任何其他形式。在本申请中，所述数据库可以包括以计算机可存取的方式来收集并保存的任何数据。

在本申请中，术语“计算模块”通常是指用于计算的功能模块。所述计算模块可以根据输入值计算输出值或得到结论或结果，例如计算模块可以主要是用于计算输出值。计算模块可以是有形的，例如电子计算机的处理器、带有处理器的计算机或电子设备或计算机网络，也可以是存储在电子介质上的一段程序、命令行或软件包。

在本申请中，术语“处理模块”通常是指用于数据处理的功能模块。所述处理模块可以根据将输入值处理为有统计学意义的数据，例如可以是用于输入值的数据的分类。处理模块可以是有形的，例如用于存储数据的电子或磁介质，以及电子计算机的处理器、带有处理器的计算机或电子设备或计算机网络，也可以是存储在电子介质上的一段程序、命令行或软件包。

在本申请中，术语“判断模块”通常是指用于获得相关判断结果的功能模块。在本申请中，所述判断模块可以根据输入值计算输出值或得到结论或结果，例如判断模块可以主要是用于得到结论或结果。判断模块可以是有形的，例如电子计算机的处理器、带有处理器的计算机或电子设备或计算机网络，也可以是存储在电子介质上的一段程序、命令行或软件包。

在本申请中，术语“样品获得模块”通常是指用于获得受试者的所述样本的功能模块。例如，所述样品获得模块可以包括用以获得所述样本(例如组织样本、血液样本、唾液、胸腔积液、腹腔积液、脑脊液等)所需的试剂和/或仪器。例如，可以包括采血针、采血管和/或血液样本运输箱。例如，本申请的装置可以不含或包含1个或以上的所述样品获得模块，并可以可选地具有输出本申请所述的样本的测量值的功能。

在本申请中，术语“接收模块”通常是指用于获得所述样本中所述测量值的功能模块。在本申请中，所述接收模块可以输入本申请所述样本(例如组织样本、血液样本、唾液、胸腔积液、腹腔积液、脑脊液等)。在本申请中，所述接收模块可以输入本申请所述样本(例如组织样本、血液样本、唾液、胸腔积液、腹腔积液、脑脊液等)的测量值。所述接收模块可以对所述样本的状态进行检测。例如，所述数据接收模块可以可选地对所述样本进行本申请所述的基因测序(例如二代基因测序)。例如，所述数据接收模块可以可选地包括用以进行所述基因测序所需的试剂和/或仪器。所述数据接收模块可以可选地检测出测序深度、测序读长计数或测序序列信息。

在本申请中，术语“二代基因测序”、高通量测序”或“下一代测序”通常是指第二代高通量测序技术及之后发展的更高通量的测序方法。下一代测序平台包括但不限于已有的Illumina等测序平台。随着测序技术的不断发展，本领域技术人员能够理解的是还可以采用其他方法的测序方法和装置用于本方法。例如，二代基因测序可以具有高灵敏度、通量大、测序深度高、或低成本的优势。根据发展历史、影响力、测序原理和技术不同等，主要有以下几种：大规模平行签名测序(Massively Parallel Signature Sequencing，MPSS)、聚合酶克隆(Polony Sequencing)、454焦磷酸测序(454pyro sequencing)、Illumina(Solexa)sequencing、离子半导体测序(Ion semi conductor sequencing)、DNA纳米球测序(DNA nano-ball sequencing)、Complete Genomics的DNA纳米阵列与组合探针锚定连接测序法等。所述二代基因测序可以使对一个物种的转录组和基因组进行细致全貌的分析成为可能，所以又被称为深度测序(deep sequencing)。例如，本申请的方法同样可以应用于一代基因测序、二代基因测序、三代基因测序或单分子测序(SMS)。

在本申请中，术语“待测样本”通常是指需要进行检测，并判定该样本上的一个或者多个基因区域是否存在有变体核酸的样本。例如，待测样本或其数据可以在进行检测之前预先储存在储存器中。

在本申请中，术语“人类参考基因组”通常是指可以在基因测序中发挥参照功能的人类基因组。所述人类参考基因组的信息可以参考UCSC(University of California，Santa Cruz)。所述人类参考基因组可以有不同的版本，例如，可以为hg19、GRCH37或ensembl 75。

在本申请中，术语“测序深度”通常是指特定区域(例如特定基因、特定区间、特定碱基)被检测的次数。测序深度可以是指通过测序检测的一段碱基序列。例如，通过将测序深度比对到人类参考基因组，并可选地去重，可以确定和统计特定基因、特定区间或特定碱基位置上测序读长的数量，作为测序深度。在一些情况下，测序深度可以与测序深度相关。例如，测序深度可以受到基因突变状态的影响。

在本申请中，术语“测序数据”通常是指测序后获得的短序列的数据。例如，测序数据包含测序短序列(测序读长)的碱基序列、测序读长的数目等。

在本申请中，术语“显著性检验”通常是指判断样本与假设分布之间的差异是否显著的方式。例如，通过显著性检验可以判断待测样本的体细胞突变是否属于显著的差异。

在本申请中，术语“T检验”通常是指一种有学生t分布的统计假设检验的方式。例如，通过T检验可以确认待测样本的某一目标基因的体细胞突变具有显著性。

在本申请中，术语“包含”通常是指包括明确指定的特征，但不排除其他要素。

在本申请中，术语“约”通常是指在指定数值以上或以下0.5％-10％的范围内变动，例如在指定数值以上或以下0.5％、1％、1.5％、2％、2.5％、3％、3.5％、4％、4.5％、5％、5.5％、6％、6.5％、7％、7.5％、8％、8.5％、9％、9.5％、或10％的范围内变动。

发明详述

一方面，本申请提供了检测变体核酸的存在和/或数量的方法，所述方法可以包含基于待测样本中待测区域的体细胞突变位点和背景突变位点，确定所述变体核酸的存在和/或数量，其中通过从所述待测样本的全部突变位点中去除所述体细胞突变位点，确定所述背景突变位点。例如，所述待测区域可以根据探针或探针组合进行靶向和检测。例如，待测区域可以基于本领域已知的肿瘤突变区域进行选择。例如，待测区域可以根据对肿瘤组织测序后得到的突变区域进行选择。例如，体细胞突变位点可以基于受试者肿瘤样品的测序数据进行选择。例如，例如，体细胞突变位点可以基于受试者肿瘤样品的体细胞突变随机选择，也可以根据体细胞突变频率等排序选取优先级较高的一个或更多个位点。例如，选择1个或更多、2个或更多、3个或更多、4个或更多、5个或更多、10个或更多、15个或更多、20个或更多、25个或更多、30个或更多、40个或更多、50个或更多、60个或更多或100个或更多位点用于体细胞突变位点。

例如，所述变体核酸可以选自以下组：循环肿瘤核酸、胎儿游离核酸(或者可以称为循环胎儿核酸)和来源于异体器官和/或组织的循环核酸。例如，所述变体核酸可以是循环肿瘤DNA。

一方面，本申请提供的方法还可以包含对所述待测样本的全部突变位点进行碱基错误校正。例如，对于碱基错误的校正可以是本领域常用的校正手段。

例如，所述碱基错误校正可以包含基于多数投票规则，校正源自相同位点的测序读段的每个位置的碱基类型，确定一致性序列。例如，所述校正包含将不能确定碱基类型的位点的碱基质量调整为0。例如，本申请的校正可以包含对于源自相同位点的正义链和反义链的测序读段同时校正，即来源于同一核酸片段的正义链和反义链校正后保留一条校正后的一致性序列。例如，本申请的校正可以包含对于源自相同位点的正义链和反义链的测序读段分别校正，即来源于同一核酸片段的正义链和反义链校正后，分别保留两条校正后的一致性序列。

例如，所述碱基错误校正还可以包含校正源自相同位点的正义链和反义链的每个位置的碱基类型，保留所述正义链和反义链的各自的所述一致性序列。例如，所述校正可以包含将相同位点来源的不一致碱基的位点的碱基质量调整为0。例如，所述校正可以包含将相同位点来源的不一致碱基的位点的碱基信息删除。例如，所述校正可以包含将相同位点来源的不一致碱基的位点的碱基信息不用于后续的数据分析。

例如，所述源自相同位点的测序读段可以包含比对到人类参考基因组位置相同且包含相同单分子标签(UMI)的测序读段。例如，所述源自相同位点的测序读段可以包含比对到人类参考基因组位置基本相同的测序读段。

例如，所述方法可以包含基于所述碱基错误校正后的位点，确定所述待测样本中的突变位点。例如，本申请的方法可以包含从所述碱基错误校正后的位点中，选取待测样本中的突变位点。

例如本申请所述的方法，还可以包含通过从所述待测样本的全部突变位点中去除高频率突变位点，得到所述背景突变位点。例如，本申请的背景突变位点可以包含从待测样品的突变位点中去除已知的肿瘤的体细胞突变位点和高频率突变位点，剩余的突变位点。

例如，所述高频率突变位点可以包含突变频率约为5e-03或更高的位点。例如，所述高频率突变位点可以根据测序的准确度和样品的质量等因素进行调整。例如，所述高频率突变位点可以包含突变频率约为1e-03或更高、5e-03或更高、1e-02或更高、5e-02或更高、1e-01或更高、或5e-01或更高的位点。

例如，本申请的方法可以包含从待测样本的序列信息中去除质控不合格的序列信息。例如，质控不合格的序列信息可以包含通过本领域常用的测序质控方法确定的不合格序列信息。例如质控不合格的序列信息可以包含低质量测序读段的序列信息，低质量碱基的序列信息等。

例如，所述方法还可以包含通过从所述待测样本的序列信息中去除低质量测序读段(read)的序列信息。例如，低质量测序读段可以包含比对错误或难以比对的测序读段。例如，低质量的测序读段可以是当将该测序读段比对到人类参考基因组位置时，比对位置结果为正确的概率值低的测序读段。例如，所述低质量测序读段可以包含比对质量小于60的测序读段。例如，对于比对错误或难以比对的测序读段，该测序读段的测序信息可以不作为该比对位置的序列信息。例如，测序读段的测序质量可以通过测序仪器和本领域常用的质控方法进行确认。例如，所述低质量测序读段还可以包含包括了8个或更多碱基错配的测序读段。

例如，所述方法还包含通过从所述待测样本的序列信息中去除低质量碱基的序列信息。例如，校正后碱基质量小的碱基的序列信息被去除。例如，所述低质量碱基可以包含校正后碱基质量小于20的碱基。例如，碱基质量为20的碱基，测序正确率可以为99.99％或更高。

例如本申请所述的方法，所述方法还可以包含确定选自以下组的突变频率：所述体细胞突变位点的体细胞突变频率和所述背景突变位点的背景突变频率，用于评估位点突变显著性水平。例如，源自体细胞突变位点的突变频率可以为体细胞突变频率。例如，源自背景突变位点的突变频率可以为背景突变频率。

例如本申请所述的方法，所述突变频率可以包含多聚体突变频率和/或插入或缺失(INDEL)突变频率；例如，用于计算突变频率的模型可以是测序数据的多聚体突变频率。例如，用于计算突变频率的模型可以是测序数据的插入或缺失(INDEL)突变频率。例如，INDEL可以表示插入或缺失。

例如，所述多聚体突变频率可以包含在特定的连续排列碱基序列中特定位置的碱基突变为另一种碱基的频率。例如，单碱基突变频率可以包含单个碱基发生突变的频率。例如，多聚体突变频率可以包含连续排列的碱基序列中，中间位置的碱基发生突变的频率。

例如，所述连续排列碱基序列可以包含连续排列的2个或更多碱基。例如，所述连续排列碱基序列可以包含连续排列的2个或更多、3个或更多、5个或更多、7个或更多、或9个或更多的碱基。例如，所述连续排列碱基序列可以包含连续排列的3个或5个碱基。

例如，所述多聚体突变频率可以包含在特定的连续排列序列中第2位的碱基突变为另一种特定碱基的频率。例如，对于三聚体突变频率，关注在特定的第一个碱基和第三个碱基的排列环境下，第二个碱基突变为另一种碱基的频率。

例如，所述INDEL突变频率可以包含以下组：随机INDEL突变频率、和碱基重复区INDEL突变频率。

例如，所述INDEL突变频率可以包含随机INDEL突变频率。例如，所述随机INDEL突变频率可以包含插入或缺失一个或多个碱基的频率。例如，所述随机INDEL突变频率可以包含在特定的一个或多个碱基之后插入或缺失一个或多个碱基的频率。例如，所述随机INDEL突变频率可以包含在特定的一个碱基之后插入或缺失一个或多个碱基的频率；例如，所述随机INDEL突变频率可以包含在特定的两个或更多个碱基之后插入或缺失一个或多个碱基的频率。

例如，插入或缺失一个碱基时，所述随机INDEL突变频率可以包含在特定的一个碱基之后插入或缺失一个特定碱基的频率。例如，当插入或缺失2个或更多碱基时，所述随机INDEL突变频率可以包含在特定的一个碱基之后插入或缺失特定长度碱基的频率。例如，当插入或缺失2个或更多碱基时，插入或缺失的具体碱基组合可以不考虑，可以仅考虑在特定的一个或多个碱基之后插入或缺失特定长度碱基的频率。

例如，所述INDEL突变频率可以包含碱基重复区INDEL突变频率。例如，所述碱基重复区INDEL突变频率可以包含插入或缺失一个或多个碱基重复单元(Unit)的频率，所述Unit长度为1个或更多。

例如，所述碱基重复区INDEL突变频率可以包含插入或缺失一个或多个碱基重复单元(Unit)的频率，所述Unit长度为2个或更多。例如，Unit长度为2个碱基或更多、3个碱基或更多、4个碱基或更多、5个碱基或更多、6个碱基或更多、7个碱基或更多、8个碱基或更多、9个碱基或更多或10个碱基或更多。

例如，所述碱基重复区INDEL突变频率可以包含相同Unit长度和相同Unit重复次数的序列中插入或缺失Unit特定个数的频率。例如，当Unit长度为2个或更多时，可以不考虑Unit的具体碱基组合，可以仅考虑特定的重复次数的Unit中发生插入或缺失一个或多个Unit的频率。例如，确定碱基重复区INDEL突变频率可以包含相同Unit长度和相同Unit重复次数的序列中插入或缺失Unit特定个数的频率，其中Unit可以包含任意的序列。例如，可以将该种情况下的任意碱基组合的Unit合并计算。

例如本申请所述的方法还可以包含确定待测样本中变体核酸的存在和/或所述体细胞突变位点存在突变的显著性水平。例如，发生显著性突变的体细胞突变位点可以用于评估变体核酸的存在。例如，评估变体核酸的占比时可以仅利用发生显著性突变的体细胞突变位点的数据。

例如，所述方法可以包含通过确定将所述体细胞突变位点视作为背景突变时的累积概率，用于衡量所述显著性水平。例如，可以假设候选的体细胞突变位点发生的是背景突变，评估该情况下的累积概率。例如，所述累积概率可以用于表示显著性水平。

例如，所述方法可以包含基于泊松分布或二项分布，确定所述累积概率。例如，所述方法可以包含基于二项分布，确定所述累积概率。例如，所述方法可以包含基于泊松分布，确定所述累积概率。

例如，所述方法可以包含基于以下公式确定所述累积概率：

其中，P表示累积概率，k从0到x-1累加，x表示体细胞突变位点突变后序列的覆盖深度，n表示所述体细胞突变位点的总覆盖深度，p表示所述体细胞突变位点的背景突变频率，e表示自然对数。

例如，所述方法可以包含基于以下公式确定所述累积概率：

其中，P表示累积概率，k从0到x-1累加，x表示体细胞突变位点突变后序列的覆盖深度，n表示所述体细胞突变位点的总覆盖深度，p表示所述体细胞突变位点的背景突变频率。

例如，所述方法可以包含当所述累积概率小于显著性阈值时，确定变体核酸的存在。例如，显著性阈值的确定可以是本领域技术人员根据测序仪器的准确性和待测样本的质量进行调整的。例如，所述显著性阈值为0.05或更小。例如，所述显著性阈值为0.05或更小、0.01或更小、0.005或更小、0.001或更小、0.0005或更小、或0.0001或更小。

例如本申请所述的方法，所述方法还可以包含确定待测样本中变体核酸的存在和/或数量。例如，本申请的方法可以用于准确确定待测样本中变体核酸例如ctDNA的占比。例如，本申请确定变体核酸占比和/或得出该占比的显著性水平的方法可以基于体细胞突变位点和背景突变位点的数据进行评估。

例如，所述方法可以包含通过似然估计算法，确定待测样本中变体核酸的存在和/或数量。例如，所述方法可以包含基于泊松分布或二项分布的似然估计算法，确定待测样本中变体核酸的存在和/或数量。例如，所述变体核酸的数量可以包含待测样品中循环肿瘤DNA(ctDNA)在待测样品总DNA中的占比。例如，通过极大似然估计算法确定ctDNA占比π的极大似然估计值。

例如，所述方法可以包含确定ctDNA占比π的极大似然估计值

当π取值为所述

时，如下式的函数l(π)取最大值，例如，如本领域公知的ln(x)表示以自然对数e为底数，求解x的对数的计算符号：

l(π)＝∑_iw_ilnl_i(π；x_i,n_i,p_i,q_i)

其中，w_i为第i个体细胞突变位点的权重，l_i(π；x_i,n_i,p_i,q_i)通过下式计算：

其中，f_i通过下式计算：

f_i＝πq_i+(1-π)p_i

n_i表示第i个所述体细胞突变位点的总覆盖深度，x_i为第i个体细胞突变位点突变后序列的覆盖深度，q_i表示第i个所述体细胞突变位点在肿瘤组织样本中的突变频率，p_i表示对应的突变在待测样本中的背景突变频率，e表示自然对数。

例如，所述方法可以包含确定ctDNA占比π的极大似然估计值

当π取值为所述

时，如下式的函数l(π)取最大值：

l(π)＝∑_iw_ilnl_i(π；x_i,n_i,p_i,q_i)

其中，f_i通过下式计算：

f_i＝πq_i+(1-π)p_i

n_i表示第i个所述体细胞突变位点的总覆盖深度，x_i为第i个体细胞突变位点突变后序列的覆盖深度，q_i表示第i个所述体细胞突变位点在肿瘤组织样本中的突变频率，p_i表示对应的突变在待测样本中的背景突变频率。

例如，所述方法可以包含确定所述ctDNA占比π的极大似然估计值的显著性水平。例如，所述方法可以包含通过似然比检验算法确定所述显著性水平。例如，所述方法可以包含通过基于卡方分布的似然比检验算法确定所述显著性水平。例如本申请所述的方法，根据似然比统计量

值和自由度为1的卡方分布概率密度函数，确定所述显著性水平。

例如，所述方法可以包含通过下式确定所述似然比统计量

值，

其中，l(π)＝∑_iw_ilnl_i(π；x_i,n_i,p_i,q_i)

其中，w_i为第i个体细胞突变位点的权重，根据第i个体细胞突变位点的体细胞突变频率或测序覆盖深度确定w_i的取值，l_i(π；x_i,n_i,p_i,q_i)通过下式计算：

其中，f_i通过下式计算：

f_i＝πq_i+(1-π)p_i

例如，所述方法包含通过下式确定所述似然比统计量

值，

其中，l(π)＝∑_iw_ilnl_i(π；x_i,n_i,p_i,q_i)

其中，f_i通过下式计算：

f_i＝πq_i+(1-π)p_i

n_i表示第i个所述体细胞突变位点的总覆盖深度，x_i为第i个体细胞突变位点突变后序列的覆盖深度，q_i表示第i个所述体细胞突变位点在肿瘤组织样本中的突变频率，p_i表示对应的突变在待测样本中的背景突变频率，e表示自然对数；例如，所述每一个w_i取值可以相同，例如每一个w_i取值可以1。例如，本领域人员可以根据实际的第i个体细胞突变位点的重要程度，例如该位点的突变频率或测序覆盖深度，调整具体的w_i的0至1的取值。

一方面，本申请提供了一种检测变体核酸的存在和/或数量方法，所述方法可以包含基于待测样本中待测区域的体细胞突变位点和背景突变位点，确定所述变体核酸的存在和/或数量，其中通过从所述待测样本的全部突变位点中去除所述体细胞突变位点，确定所述背景突变位点；任选地，可以对所述待测样本的全部突变位点进行碱基错误校正；任选地，本申请的背景突变位点可以包含从待测样品的突变位点中去除已知的肿瘤的体细胞突变位点和高频率突变位点，剩余的突变位点；任选地，可以从待测样本的序列信息中去除质控不合格的序列信息；任选地，本申请评估突变频率的类型可以选自单碱基突变频率、多聚体突变频率和插入或缺失(INDEL)突变频率；任选地，可以基于泊松分布或二项分布，确定将所述体细胞突变位点视作为背景突变时的累积概率；任选地，可以基于泊松分布或二项分布的似然估计算法，估计待测样本中变体核酸的存在和/或数量以及确定所述变体核酸占比的估计值的显著性水平。

例如，本申请的微小残留病灶检测方法(PROPHET)可以通过分析扩增子法或杂交捕获法产生的二代测序数据中的肿瘤体细胞突变，判断MRD阳性或阴性，可以属于肿瘤知情法(tumor-informed assay)策略。

本申请检测方法可以利用明确的肿瘤体细胞突变信息，例如可以通过肿瘤组织获取，用于外周血中检测肿瘤体细胞突变，具体可以为：1)对肿瘤组织样本和配对样本进行全外显子组测序；2)基于常用的比对软件如bwa将测序结果比对到人类参考基因组；3)基于常用的体细胞突变分析软件如mutect2检测肿瘤组织中的体细胞突变；4)对体细胞突变进行优先级排序，基于优先级挑选出一定数量的突变；5)基于筛选的突变，设计杂交捕获探针，后续用于外周血样本检测。体细胞突变排序之前，可以过滤掉高重复区，高GC区以及与其他位置序列同源区的突变，以降低杂交捕获的难度。体细胞排序的优先级从高到低依次可以为：1)驱动突变(driver mutation),2)造成氨基酸序列改变的突变，包括非同义突变，选择性剪接突变，以及in-frame/out-of-frame InDel等，3)同义突变，这三类突变中每一类都按照突变频率从高到低排列。

本申请的分析具体可以包括以下步骤：1)数据准备，包括基于特异性分子标签(UMI，Unique Molecular Identifier)校正碱基错误，以及校正后的reads比对到人类基因组；2)基于读长(reads)比对结果，计算样本特异性背景水平；3)对待检体细胞突变位点，计算其突变率；4)对每个待检体细胞突变位点，根据背景水平，评估其为真突变的显著性水平；5)基于筛选的所有体细胞位点，根据背景水平，评估样本ctDNA占比以及样本ctDNA的显著性水平。

数据准备

由于建库测序的碱基出错的几率可以在1e-03水平，而MRD检测时需要1e-04水平的检出，可以任选地通过UMI进行碱基校正，或者使用本领域常用的方法，例如选用更准确的建库测序方法降低建库测序碱基误差。数据准备步骤可以产生经过UMI去重复和碱基校正后的BAM格式的序列比对文件。UMI碱基校正的原理是利用同一个分子来源的多个PCR产物的测序序列，校正建库测序过程中的碱基错误。具体步骤可以为：1)基于常用的二代测序比对软件bwa(version 0.7.10)将测序reads比对到人类参考基因组；2)利用比对信息和UMI信息，将比对到基因组位置相同且UMI相同的所有reads视为同一个分子来源的reads，将其归为一个单元并保留reads个数大于一定阈值的单元；3)基于多数投票规则确定单元内每个位置的碱基，最终产生一条代表这个单元的一致性reads；4)将一致性reads比对到基因组，生成BAM文件。

为了利用同一个分子来源的序列信息进行碱基错误校正，在杂交建库时，本申请可以任选地采用双端UMI的duplex建库方法。UMI duplex建库可以区分双链DNA不同链来源的分子，在后续进行碱基校正时，可以利用该信息互相校正。在进行碱基错误校正时，首先基于UMI和比对位置信息，可以将同一个DNA链来源的reads基于多数投票规则进行校正，将不能确定的碱基设置为N且质量为0，其他碱基质量可以设置为最高值，生成单链一致性序列即SSCSs；再将来源于同一DNA的不同链的序列进行校正，可以将双链中不一致碱基的质量调整为0，但可以保留这两条SSCSs。由于ctDNA分子只有约164bp左右，而测序读长通常可达150bp左右。本申请的方法可以任选地利用测序的同一个DNA链来源的R1和R2的测序读长重叠部分进行再次校正，将R1和R2中不一致的碱基质量调整为0。本申请提供的方法可以任选地区分来自于同一个DNA不同链的reads，在后续碱基校正时，可以避免损失该部分校正信息。

样本特异性SNV背景

样本特异性背景是基于测序目标区域BAM文件比对信息可以任选地计算各种多聚体突变频率，作为样本特异的背景频率。例如三聚体突变频率计算时可以关注第二位碱基是否发生改变，其余两个碱基固定。例如目标区某一位置和左右各一碱基组成的三聚体为AGC，现该位置的比对结果中包括4个ACC，6个ATC，10个AAC和99980个AGC，则其AGC->ACC三聚体转换频率为4e-05,AGC->ATC转换频率为6e-05,AGC->AAC转换频率为1e-04。此处三聚体也可以变更成其他长度的寡聚体，计算方法可以同三聚体类似。样本特异性背景计算的具体步骤为：1)对测序目标区域的所有位点，统计其对应的各种三聚体个数；2)去除所有体细胞突变位点以及其他需要排除的位点对应的三聚体信息，以排除明确的突变位点或区域对背景计算的影响；3)可以去除突变频率高于特定阈值如5e-03的位点对应的所有三聚体信息，以排除其他潜在突变对背景计算的干扰；4)将剩余位点的三聚体信息整合在一起，基于三聚体突变类型计算每种突变的频率，作为该样本的特异性背景突变水平。为了排除序列比对，以及低质量碱基对背景噪音评估的影响，在计算背景时，可以任选地针对比对质量小于60或包括8个或以上碱基错配的reads均进行过滤，另外也可以任选地舍弃了碱基质量较低的三聚体。样本特异性背景计算时，可以利用了待分析样本自身的测序数据信息，不依赖于其他正常样本或同批次其他样本作为对照，有利于排除样本间因素或者实验批次因素导致的背景波动。另外样本特异性背景计算时，充分利用了测序目标区域的所有信息，将不同位置的属于同一种三聚体的信息整合处理，有效解决了因数据不充分导致背景评估不准确的问题。

样本特异性InDel背景

为了充分利用样本的突变信息，除了SNV之外，本方法还可以采用InDel突变。在计算样本特异性InDel背景时，基于InDel序列特征，将其分为两大类：1)随机InDel,2)碱基重复区InDel,用(Unit)n表示，其中Unit表示重复单元，可以是单碱基或多碱基，n表示重复次数，一般为2次或以上。碱基重复区InDel一般表现为重复单元的单次或者多次的插入缺失.计算InDel背景步骤和SNV类似，具体为：1)对测序目标区域的所有位点，基于其参考序列，统计其测序的InDel信号和非InDel信号次数；2)去除所有体细胞突变位点以及其他需要排除的位点对应的信息，以排除明确的突变位点或区域对背景计算的影响；3)可以去除突变频率高于特定阈值如5e-03的位点对应的所有信息，以排除其他潜在突变对背景计算的干扰；4)将剩余位点的信息整合在一起，基于InDel类型计算每种突变的频率，作为该样本的特异性InDel背景突变水平。

对于随机InDel，在背景统计时，本申请可以依据InDel的位置前一个碱基的种类以及InDel插入缺失长度分别统计不同类型的InDel背景值。在插入或缺失单碱基时，可以将前一位碱基与插入缺失碱基组合，分别统计相关频率，例如，当插入或缺失单个碱基A时，分别统计TA->T,GA->G,CA->C,T->TA,G->GA,C->CA的背景频率。当插入缺失2个或多个碱基时，由于组合数过多，以及单个类型目标位点较少，可以任选地不单独统计，计算插入缺失相同长度碱基的背景均值。

对于(Unit)n,Unit为单碱基的突变，本申请基于参考序列中Unit的种类，n的值，以及插入缺失的个数，分别统计背景值。对于(Unit)n,Unit为2个碱基时，可以任选地不考虑Unit的具体序列，将所有Unit长度为2且重复次数n相同的InDel合并，依据其插入缺失的个数，计算对应的背景。如突变GATAT->GAT,CTGTG->CTG,均属于Unit为2，n为2，缺失一次的突变，在计算背景噪音时合并处理。Unit长度大于2时，处理方法可以与Unit为2时一致。

对于Unit的长度n，本申请假设在Unit碱基类型和插入缺失个数相同的情况下，背景错误率与n之间存在关联性，具体联系如下：

其中p_n(Unit|n₁)表示特定Unit有n次重复的情况下插入(缺失)n₁个的背景错误率，在此假设下，利用所有满足条件的位点检测信息，可以估算出

则重复n次位点的错误率为：

体细胞突变位点突变信号

依据BAM文件的比对信息，对预先选定的待检体细胞位点，基于三聚体模式计算特定的SNV突变频率，或者基于InDel类型计算对应的突变频率。如当某一特定体细胞待检位置的原始三聚体为CAG，体细胞突变为A->G,则可以计算CAG->CGG的突变频率。同样的，在计算时任选地排除低质量比对或低质量碱基的影响。

体细胞突变位点显著性评估

二项分布即重复n次独立的伯努利试验，在每次试验中只有两种可能的结果，而且两种结果发生与否互相对立，并且相互独立，这符合样本背景突变场景的描述。另外当二项分布的n足够大且事件发生概率p足够小时，观测事件发生次数近似服从泊松分布(λ＝np)。因此本申请的方法可以采用泊松分布(x～Binom(n,p))或二项分布(x～Poison(np))的假设来计算体细胞突变显著性。例如，本申请采用泊松分布的假设进行计算，可以有较高的评估结果准确性。

本申请的方法根据该体细胞位点特定突变观测值，以及样本背景中该突变频率，计算背景条件下的累积概率P值。当P值小于特定的阈值时，则可以认为该位点突变频率显著高于样本背景，该位置为真突变。假设待检位点突变类型为A->G,原始三聚体为CAG,观测到该位点覆盖深度为n,其中CGG次数为x时，则该位点突变检出的p值为：

或者

其中p(CAG→CGG)为背景频率。

除了计算SNV显著性，该方法同样适用于计算INDEL显著性。如某一待检测INDEL为AGGG->AGG,该点覆盖深度为n1，观测到AGG次数为x1,可以将上述公式中的n替换为n1,x替换为x1,p(CAG→CGG)替换为p(AGGG→AGG)即可。以此类推，所有类型的INDEl或SNV突变都可以用此方法计算其位点显著性。

样本ctDNA显著性水平和ctDNA占比评估

在实际应用中，受外周血采样量和检测成本的影响，样本的有效测序深度是受限的。当ctDNA占比低至0.02％或以下时，如果平均有效深度为10000X，则平均每个点只有约2个或以下突变信号，因此部分体细胞突变位点在外周血数据中可能很难检测到突变信号，再考虑到各种突变的背景水平，可能难以直接计算出ctDNA占比。本申请的方法可以采用多位点联合检验的方法判断样本中是否存在ctDNA，使用似然方法估算样本中的ctDNA占比。假设ctDNA占比为π，第i个待检体细胞突变在肿瘤组织样本中的频率为q_i，对应的突变在检测样本中的背景频率为p_i，则检测样本中体细胞突变频率的期望fi_i满足：

f_i＝πq_i+(1-π)p_i

使用似然法估计参数π，对数似然函数为：

l(π)＝∑_iw_ilnl_i(π；x_i,n_i,p_i,q_i)

其中w_i为第i个待检体细胞突变的权重，实际分析中可以根据突变的类型和可信度设置权重的取值，n_i表示第i个待检体细胞突变的有效覆盖深度，x_i为第i个待检体细胞突变的目标突变深度，l_i(π)为第i个待检体细胞突变的后验概率：

或者

其中，f_i＝πq_i+(1-π)p_i

通过极大似然估计算法对参数π进行估计，得到极大似然估计值

使用似然比检验算法对零假设π＝0进行检验，似然比统计量为：

利用

分布的概率密度函数可以计算P值。

另一方面，本申请还提供了一种检测变体核酸存在和/或数量的方法，所述方法可以包含基于待测变体样本的体细胞突变位点的突变优先级，确定体细胞突变位点集合，所述体细胞突变位点集合可以用于检测变体核酸存在和/或数量，所述突变优先级从高到低可以包含：驱动突变、驱动突变以外的非同义突变和同义突变。

例如，所述待测变体样本可以来源于受试者在接受治疗之前获得的样品。例如，所述治疗可以包含肿瘤治疗。

例如，通过将所述待测变体样本与阴性样本比对，可以确定所述体细胞突变位点。

例如，所述驱动突变以外的非同义突变可以选自以下组：选择性剪接突变、不造成基因读码框位移的插入或缺失(in-frame INDEL)和造成基因读码框位移的插入或缺失(out-of-frame INDEL)。

例如，所述方法可以包含将所述体细胞突变位点按照突变优先级从高到低排序，其中在相同的突变优先级中所述体细胞突变位点可以按照突变频率从高到低排序。

例如，所述方法可以包含选取排序最高的5个或更多的突变位点作为所述体细胞突变位点集合。例如，本申请的方法可以包含选取排序最高的1个或更多、最高的2个或更多、最高的3个或更多、最高的4个或更多、最高的5个或更多、最高的6个或更多、最高的7个或更多、最高的8个或更多、最高的9个或更多、最高的10个或更多、最高的15个或更多、最高的20个或更多、最高的25个或更多、最高的30个或更多、最高的40个或更多、最高的50个或更多、或最高的100个或更多的突变位点作为所述体细胞突变位点集合。

例如，所述方法还可以包含基于所述体细胞突变位点集合，确定待测样本的待测区域。例如，所述方法还可以包含基于所述体细胞突变位点集合，确定可以结合所述待测区域的核酸。例如，本申请的方法可以包含基于所述体细胞突变位点集合，设计用于检测待测样本的探针。

另一方面，本申请还提供了一种检测变体核酸的存在和/或数量方法的分析设备，所述设备包含确定模块或判断模块，可以用于基于待测样本中待测区域的体细胞突变位点和背景突变位点，确定所述变体核酸存在和/或数量，其中可以通过从所述待测样本的全部突变位点中去除所述体细胞突变位点，确定所述背景突变位点。例如，本申请的所述检测变体核酸的存在和/或数量方法的分析设备可以包含执行本申请所述的检测变体核酸的存在和/或数量方法的模块。

另一方面，本申请还提供了一种数据库建立的方法，所述数据库包含体细胞突变位点集合，所述方法可以包含基于待测变体样本的体细胞突变位点的突变优先级，确定体细胞突变位点集合，所述体细胞突变位点集合用于检测变体核酸存在和/或数量，所述突变优先级从高到低包含：驱动突变、驱动突变以外的非同义突变和同义突变。例如，本申请数据库建立的方法可以包含基于待测变体样本的体细胞突变位点的突变优先级，确定体细胞突变位点集合的方法。

另一方面，本申请还提供了一种数据库的建立设备，所述数据库包含体细胞突变位点集合，所述设备包含确定模块，用于基于待测变体样本的体细胞突变位点的突变优先级，确定体细胞突变位点集合，所述体细胞突变位点集合用于检测变体核酸存在和/或数量，所述突变优先级从高到低包含：驱动突变、驱动突变以外的非同义突变和同义突变。例如，本申请的所述数据库的建立设备可以包含执行本申请所述的数据库建立的方法的模块。

另一方面，本申请还提供了一种数据库，其可以根据本申请的数据库建立的方法建立。

另一方面，本申请还提供了一种储存介质，其记载可以运行本申请所述的方法的程序。例如，所述非易失性计算机可读存储介质可以包括软盘、柔性盘、硬盘、固态存储(SSS)(例如固态驱动(SSD))、固态卡(SSC)、固态模块(SSM))、企业级闪存驱动、磁带或任何其他非临时性磁介质等。非易失性计算机可读存储介质还可以包括打孔卡、纸带、光标片(或任何其他具有孔型图案或其他光学可识别标记的物理介质)、压缩盘只读存储器(CD-ROM)、可重写式光盘(CD-RW)、数字通用光盘(DVD)、蓝光光盘(BD)和/或任何其他非临时性光学介质。

另一方面，本申请还提供了一种设备，所述设备包含本申请所述的储存介质。例如，本申请的设备还可以包含耦接至所述储存介质的处理器，所述处理器被配置为基于存储在所述储存介质中的程序执行以实现本申请的方法。

另一方面，本申请还提供了根据本申请的方法，其可以用于检测和/或量化从受试者获得的待测样品中的循环肿瘤DNA。在本申请中，所述方法可以用于判断所述受试者的待测样品中的循环肿瘤DNA的存在和/含量。例如，本申请的任一个或多个方法可以是非诊断目的的。例如，本申请的任一个或多个方法可以是诊断目的的。

另一方面，本申请还提供了根据本申请的方法，其可以用于疾病或残留疾病的诊断、预防和/或伴随治疗。

另一方面，本申请还提供了根据本申请的方法，其可以用于疾病治疗方法的预测、选择和/或评估。例如，可以确定或辅助确定受试者患有癌症或具有癌症的复发的可能性，其可以受益于抗癌治疗，包括化学治疗、免疫治疗、放射治疗、手术或其组合的可能性。

在本申请中，所述方法可以用于通过检测待测样品中的循环肿瘤DNA的存在和/含量，用于临床实践(例如可以推测某些特定的肿瘤治疗方式是否适于该受试者)。在某些情况下，所述方法检测出的待测样品中的循环肿瘤DNA的存在和/含量可以与本领域已知的生物标志物联合使用于临床实践。

不欲被任何理论所限，下文中的实施例仅仅是为了阐释本申请的方法和用途等，而不用于限制本申请发明的范围。

实施例

实施例1

本申请共选择了25例真实样本，分析其InDel可观测信号，初步评估背景突变频率。基于统计结果，发现在(Unit)n类型的InDel中，在插入或缺失重复单元次数相同的情况下，可观测信号频率随着n的增加而呈指数增加，如图1A-1B。其中，Unit表示重复单元的碱基长度，n表示重复单元的重复次数。

在相同(Unit)n时，2个插入缺失均比1个插入缺失的可观测信号频率低，当3个或以上的插入缺失时可观测信号弱，如图2A-2B。

与长度为1个碱基的碱基重复单元相比，长度为2-3个碱基的重复单元的插入缺失可观测信号频率相当或增大，如图3A-3B。

与重复单元插入缺失相比，随机插入缺失1-2个碱基时，可观测信号频率均非常低，在1e-7水平，如图4。

考虑到MRD检测时，ctDNA占比较低，例如在2e-4或以下。重复单元的重复次数n<＝3或者随机插入缺失时，InDel可观测信号可以在1e-5以下，因此该类突变可以纳入MRD分析，对于ctDNA占比在1e-5以上的样本可以实现对于MRD的准确检测。

实施例2

本申请选择1个待检细胞系和1个本底细胞系作为研究材料，稀释成5e-03,1e-03,2e-04,4e-05,8e-06共5个梯度的稀释样本，模拟不同ctDNA占比的样本。从待检细胞系中选择了88个与本底细胞系不同的突变位点设计探针，并捕获测序。最终每个稀释样本进行了三次测序，共获得15个稀释样本,每个样本的建库投入量为30ng,目标区平均测序深度为100000X。随后从这88个位点中，任意挑选5-60个突变位点分析ctDNA占比,重复次数为50次，因此每个稀释梯度共进行了150次分析测试。当选择样本Pvalue<0.01作为样本检出的阈值时，在稀释梯度为5e-3或1e-3时，5个突变位点即可完成样本的100％检出；在稀释梯度为2e-4时，15个突变位点或以上能完成样本的100％检出；在稀释梯度为4e-5时，40个突变位点或以上时能完成样本的100％检出，如表1。

表1 样本检出比例结果

当评估稀释占比的结果时，发现在稀释梯度为5e-3或1e-3时，5个突变位点即可较准确计算稀释比；在稀释梯度为2e-4时，15个突变位点即可较准确计算稀释比；在稀释梯度为4e-5时，40个突变位点或以上可以较准确计算稀释比，如图5A-5B。

实施例3

比较本申请方法(PROPHET)所用的背景构建方法和突变位点前后10bp区域构建背景方法(INVAR)的检测效果，对实施例2中的15例测序样本进行了两种方法的平行分析。同样地，从88个位点中任意挑选5-60个位点，重复次数为50次。另外还从88个位点之外，任意挑选了5-60个阴性位点，重复次数也为50次，目的是评估检测的特异性。当选择样本Pvalue<0.01为阈值时，对于少于40个位点的情况，本申请方法检测敏感性可以优于INVAR方法，如表2和图6所示。

表2 不同方法检测效果比较

同时已知的INVAR方法既使用突变位点前后10bp的测序信息，也使用同一个靶点组合(panel)捕获测序多个样本的测序信息。因此，INVAR方法除了样本自身的突变位点之外，还包括同时测序的其他样本的突变位点前后10bp的测序信息可用，因此总的可选突变位点数相对较多。而本申请的方法更适用于单个样本的panel，可以适用于总的可选突变位点偏少的检测环境。

实施例4

为了衡量INDEL和SNV对ctDNA占比评估效果，本申请选择了一个标准品数据和一个本底细胞系进行稀释，共稀释成2.5e-3、1.25e-3、6.25e-4、3.125e-4、1.6e-4、8e-5、4e-5七个梯度，模拟不同ctDNA占比的样本。在测序范围内，该标准品共包括28个有效突变，其中INDEL突变8个，SNV突变20个。稀释品的平均测序深度为60000X。本申请分别用8个INDEL,8个SNV(任意挑选)，和28个突变分析ctDNA占比，结果如表3所示。

表3 标准品稀释样本分析结果

基于结果可知，在选择8个突变位点情况下，SNV或者INDEL单独分析时，在1.6e-4的稀释水平及以上均能准确估计，且满足显著性pvalue<0.01,在8e-5或以下，INDEL计算结果可以比SNV好；当用SNV和INDEL结合分析时，在该实验的所有梯度稀释下均能准确计算其稀释梯度，且满足显著性pvalue<0.01。

实施例5

本申请选择了5个待检细胞系和1个本底细胞系作为研究材料，将每个待检细胞系与本底细胞系稀释成5e-03、1e-03、2e-04、4e-05、8e-06共5个梯度的稀释样本，模拟不同ctDNA占比的样本。在每个待检细胞系中选择40～100个自身特有的胚系突变，作为体细胞突变位点，并设计相应的杂交探针，用于后续实验。最终对每个稀释样本以及本底样本进行了三次重复实验，共获得90个样本数据，每个样本的建库投入量为30ng，目标区平均测序深度为100000X。后续利用本申请的方法对这些测序数据进行分析，计算其位点检出以及样本检出情况。表4为样本的掺比(模拟ctDNA占比)评估和显著性水平结果，图7A-7E为位点pvalue<0.05时位点检出情况展示。

表4 细胞系稀释样本分析结果

基于样本分析结果可知，在稀释梯度为5e-03至4e-05时，本申请的方法均能较准确评估稀释水平，且样本显著性pvalue均较低，在8e-06水平时，稀释水平估值与实际差异较大。基于位点分析结果可知，在稀释梯度为5e-03至4e-05时，敏感性从100％降至15％左右，但均明显高于(1-特异性)，在8e-06水平时，敏感性降至5％左右，与(1-特异性)比较接近。因此验证本申请的检测方法可以检测到低至4e-05左右的ctDNA，低于共识给出的ctDNA检出限低至2e-04的水平，为后续应用于微小残留病灶检测提供了数据支持和辅助。

前述详细说明是以解释和举例的方式提供的，并非要限制所附权利要求的范围。目前本申请所列举的实施方式的多种变化对本领域普通技术人员来说是显而易见的，且保留在所附的权利要求和其等同方案的范围内。

Claims

1.一种检测变体核酸的存在和/或数量的方法，所述方法包含基于待测样本中待测区域的体细胞突变位点和背景突变位点，确定所述变体核酸的存在和/或数量，其中通过从所述待测样本的全部突变位点中去除所述体细胞突变位点，确定所述背景突变位点。

2.如权利要求1所述的方法，所述变体核酸选自以下组：循环肿瘤核酸、胎儿游离核酸和来源于异体器官和/或组织的循环核酸。

3.如权利要求1-2中任一项所述的方法，所述方法还包含对所述待测样本的突变位点进行如下任意一种或多种碱基错误校正，并且基于所述碱基错误校正后的位点，确定所述待测样本中的突变位点；

1)所述碱基错误校正包含基于多数投票规则，校正源自相同位点的测序读段的每个位置的碱基类型，确定一致性序列；

2)所述碱基错误校正包含将不能确定碱基类型的位点的碱基质量调整为0；

3)所述碱基错误校正包含校正源自相同位点的正义链和反义链的每个位置的碱基类型，保留所述正义链和反义链的各自的所述一致性序列；

4)所述碱基错误校正包含将相同位点来源的正义链和反义链中不一致碱基的位点的碱基质量调整为0；

所述源自相同位点的测序读段包含比对到人类参考基因组位置相同且包含相同单分子标签(UMI)的测序读段。

4.如权利要求1-3中任一项所述的方法，所述方法还包含通过从所述待测样本的全部突变位点进行如下以下任意一种或多种过滤，得到所述背景突变位点；

1)去除高频率突变位点；

2)从所述待测样本的序列信息中去除质控不合格的序列信息；

3)从所述待测样本的序列信息中去除低质量测序读段(read)的序列信息；

4)从所述待测样本的序列信息中去除低质量碱基的序列信息。

5.如权利要求4所述的方法，所述高频率突变位点包含突变频率约为5e-03或更高的位点、所述低质量测序读段包含比对质量小于60的测序读段和/或包含8个或更多碱基错配的测序读段，和/或所述低质量碱基包含校正后碱基质量小于20的碱基。

6.如权利要求1-5中任一项所述的方法，所述方法还包含确定选自以下组的突变频率：所述体细胞突变位点的体细胞突变频率和所述背景突变位点的背景突变频率，用于评估位点突变显著性水平。

7.如权利要求6所述的方法，所述突变频率包含单碱基突变频率、多聚体突变频率和/或INDEL突变频率。

8.如权利要求7所述的方法，所述多聚体突变频率包含在特定的连续排列碱基序列中特定位置的碱基突变为另一种碱基的频率。

9.如权利要求8所述的方法，所述连续排列碱基序列包含连续排列的2个或更多碱基，或者所述连续排列碱基序列包含连续排列的3个碱基。

10.如权利要求7-9中任一项所述的方法，所述多聚体突变频率包含在特定的连续排列序列中第2位的碱基突变为另一种特定碱基的频率。

11.如权利要求7-10中任一项所述的方法，所述INDEL突变频率包含随机INDEL突变频率和/或碱基重复区INDEL突变频率，或者所述随机INDEL突变频率包含插入或缺失一个或更多个碱基的频率，或者所述随机INDEL突变频率包含在特定的一个或更多个碱基之后插入或缺失一个或更多个碱基的频率，或者所述随机INDEL突变频率包含在特定的一个碱基之后插入或缺失一个或更多个碱基的频率。

12.如权利要求11所述的方法，当插入或缺失一个碱基时，所述随机INDEL突变频率包含在特定的一个碱基之后插入或缺失一个特定碱基的频率；和/或当插入或缺失2个或更多碱基时，所述随机INDEL突变频率包含在特定的一个碱基之后插入或缺失特定长度碱基的频率。

13.如权利要求11-12中任一项所述的方法，所述碱基重复区INDEL突变频率包含插入或缺失一个或更多个碱基重复单元(Unit)的频率，所述Unit长度为1个或更多、或2个或更多。

14.如权利要求11-13中任一项所述的方法，所述碱基重复区INDEL突变频率包含相同Unit长度和相同Unit重复次数的序列中插入或缺失Unit特定个数的频率。

15.如权利要求1-14中任一项所述的方法，所述方法还包含确定待测样本中变体核酸的存在和/或所述体细胞突变位点存在突变的显著性水平。

16.如权利要求15所述的方法，所述方法包含通过确定所述体细胞突变位点的背景突变频率的累积概率，衡量所述显著性水平。

17.如权利要求16所述的方法，所述方法包含基于泊松分布或二项分布，确定所述累积概率。

18.如权利要求16-17中任一项所述的方法，所述方法包含基于以下公式确定所述累积概率：

其中，P表示累积概率，k从0到x-1累加，x表示体细胞突变位点突变后序列的覆盖深度，n表示所述体细胞突变位点的总覆盖深度，p表示所述体细胞突变位点的背景突变频率，e表示自然对数；

和/或，所述方法包含基于以下公式确定所述累积概率：

19.如权利要求16-18中任一项所述的方法，所述方法包含当所述累积概率小于显著性阈值时，确定变体核酸的存在。

20.如权利要求19所述的方法，所述显著性阈值为0.05或更小。

21.如权利要求1-20中任一项所述的方法，所述方法还包含确定待测样本中变体核酸的存在和/或数量。

22.如权利要求1-21中任一项所述的方法，所述方法包含通过似然估计算法，确定待测样本中变体核酸的存在和/或数量。

23.如权利要求1-22中任一项所述的方法，所述方法包含基于泊松分布或二项分布的似然估计算法，确定待测样本中变体核酸的存在和/或数量。

24.如权利要求1-23中任一项所述的方法，所述变体核酸的数量包含待测样品中循环肿瘤DNA(ctDNA)在待测样品总DNA中的占比。

25.如权利要求24所述的方法，通过极大似然估计算法确定ctDNA占比π的极大似然估计值。

26.如权利要求25所述的方法，所述方法包含确定ctDNA占比π的极大似然估计值

当π取值为所述

时，如下式的函数l(π)取最大值：

l(π)＝∑_iw_ilnl_i(π；x_i，n_i，p_i，q_i)

其中，w_i为第i个体细胞突变位点的权重，l_i(π；x_i，n_i，p_i，q_i)通过下式计算：

其中，f_i通过下式计算：

f_i＝πq_i+(1-π)p_i

n_i表示第i个所述体细胞突变位点的总覆盖深度，x_i为第i个体细胞突变位点突变后序列的覆盖深度，q_i表示第i个所述体细胞突变位点在肿瘤组织样本中的突变频率，p_i表示对应的突变在待测样本中的背景突变频率，e表示自然对数；

和/或，所述方法包含确定ctDNA占比π的极大似然估计值

当π取值为所述

时，如下式的函数l(π)取最大值：

l(π)＝∑_iw_iInl_i(π；x_i，n_i，p_i，q_i)

其中，f_i通过下式计算：

f_i＝πq_i+(1-π)p_i

27.如权利要求25-26中任一项所述的方法，所述方法包含确定所述ctDNA占比π的极大似然估计值的显著性水平。

28.如权利要求27所述的方法，所述方法包含通过似然比检验算法确定所述显著性水平。

29.如权利要求27-28中任一项所述的方法，所述方法包含通过基于卡方分布的似然比检验算法确定所述显著性水平。

30.如权利要求27-29中任一项所述的方法，根据似然比统计量

31.如权利要求30所述的方法，所述方法包含通过下式确定所述似然比统计量

值，

其中，l(π)＝∑_iw_ilnl_i(π；x_i，n_i，p_i，q_i)

其中，w_i为第i个体细胞突变位点的权重，根据第i个体细胞突变位点的体细胞突变频率或测序覆盖深度确定w_i的取值，l_i(π；x_i，n_i，p_i，q_i)通过下式计算：

其中，f_i通过下式计算：

f_i＝πq_i+(1-π)p_i

和/或，所述方法包含通过下式确定所述似然比统计量

值，

其中，l(π)＝∑_iw_ilnl_i(π；x_i，n_i，p_i，q_i)

其中，f_i通过下式计算：

f_i＝πq_i+(1-π)p_i

32.一种检测变体核酸的存在和/或数量方法的分析设备，所述设备包含判断模块，用于基于待测样本中待测区域的体细胞突变位点和背景突变位点，确定所述变体核酸存在和/或数量，其中通过从所述待测样本的全部突变位点中去除所述体细胞突变位点，确定所述背景突变位点。

33.一种储存介质，其记载可以运行权利要求1-31中任一项所述的方法的程序。

34.一种设备，所述设备包含权利要求32所述的储存介质。

35.如权利要求34所述的设备，所述设备还包含耦接至所述储存介质的处理器，所述处理器被配置为基于存储在所述储存介质中的程序执行以实现权利要求1-31中任一项所述的方法。

36.根据权利要求1-31中任一项所述的方法，所述方法用于检测和/或量化从受试者获得的待测样品中的循环肿瘤DNA。