CN113789371A

CN113789371A - 一种基于批次矫正的拷贝数变异的检测方法

Info

Publication number: CN113789371A
Application number: CN202111095132.3A
Authority: CN
Inventors: 汉雨生; 赵宇; 张振; 张之宏
Original assignee: Guangzhou Burning Rock Dx Co ltd
Current assignee: Guangzhou Burning Rock Dx Co ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2021-12-14

Abstract

本申请涉及一种拷贝数变异的检测方法及其应用，具体涉及一种拷贝数状态的分析方法，包含获取待测样本组的测序数据；确定待测样本中的目标基因；根据所述待测样本组的测序数据确定所述待测样本中的目标基因的拷贝数状态。本申请的方法可以降低拷贝数变异检测中的批次效应，提高拷贝数状态分析的准确性。

Description

一种基于批次矫正的拷贝数变异的检测方法

技术领域

本申请涉及生物医学领域，具体的涉及一种基于批次矫正的拷贝数变异的检测方法。

背景技术

拷贝数变异是结构变异的一种，具体指基因组区域中较大DNA片段的扩增或缺失。在人类各种癌症中，拷贝数变异已被广泛地看成是癌症的形成和发展中非常重要的突变类型。例如，MET基因拷贝数扩增变异是非小细胞肺癌(NSCLC)中可能靶向治疗的驱动基因变异。ERBB2(HER2)基因拷贝数扩增可能见于约5％的RAS野生型的结直肠癌(CRC)，HER2扩增的RAS野生型CRC可能对联合抗HER2治疗敏感。携带BRCA1或BRCA2基因突变卵巢癌或乳腺癌患者可能从靶向治疗药物奥拉帕尼治疗中获益。因此，拷贝数变异检测具有重要的实际临床意义。

传统的MLPA(多重连接探针扩增技术)、FISH(荧光原位杂交技术)等拷贝数变异检测方法虽然具有快速、特异性高等优势，但是由于其特异性探针设计会受到目标区域限制，只能获取有限的基因拷贝数信息。近些年来，随着高通量技术(NGS)的日渐成熟，由于其通量大，灵敏度高等优势，高通量技术已经在临床拷贝数变异检测中广泛应用，可以帮助患者同时地、准确地检测更多基因的拷贝数变异。可是，实际临床应用中，拷贝数变异的检测结果存在大量假阳性。本领域急需一种可以降低误差和/或提高拷贝数检测结果稳定性的分析方法。

发明内容

一方面，本申请提供了一种拷贝数状态的分析方法，包含获取待测样本组的测序数据；确定待测样本中的目标基因；根据所述待测样本组的测序数据确定所述待测样本中的目标基因的拷贝数状态。

一方面，本申请提供了一种拷贝数状态分析装置，包含以下模块：接收模块，用于获取待测样本组的测序数据；确定模块，用于确定待测样本中的目标基因；判断模块，用于根据所述待测样本组的测序数据确定所述待测样本中的目标基因的拷贝数状态。

一方面，本申请提供了一种储存介质，其记载可以运行本申请所述的拷贝数状态的分析方法的程序。

一方面，本申请提供了一种设备，其包含本申请所述的储存介质。

一方面，本申请提供了本申请所述的拷贝数状态的分析方法，在疾病诊断、预防和/或治疗中的应用。

本申请提供了一种拷贝数状态的分析方法，包含基于待测样本组的测序数据确定所述待测样本组中待测样本的目标基因的拷贝数状态。本申请的拷贝数状态的分析方法，可以容忍样本具有一定程度的拷贝数变异，即当同一批次样本含有30％或更高的拷贝数变异时，本申请的数状态的分析方法可以检测出待测样本的拷贝数状态。本申请的方法可以对同一批样本中的样本总数要求低，可以降低拷贝数变异检测中的误差和/或提高拷贝数检测结果稳定性。

本领域技术人员能够从下文的详细描述中容易地洞察到本申请的其它方面和优势。下文的详细描述中仅显示和描述了本申请的示例性实施方式。如本领域技术人员将认识到的，本申请的内容使得本领域技术人员能够对所公开的具体实施方式进行改动而不脱离本申请所涉及发明的精神和范围。相应地，本申请的附图和说明书中的描述仅仅是示例性的，而非为限制性的。

附图说明

本申请所涉及的发明的具体特征如所附权利要求书所显示。通过参考下文中详细描述的示例性实施方式和附图能够更好地理解本申请所涉及发明的特点和优势。对附图简要说明如下：

图1A-1B显示的是基于构建参考基线方法和本申请方法的检测结果图。每个箱线图表示30例样本的BRCA1基因外显子拷贝数值分布。A组和B组分别代表不同批次探针捕获。图1A显示基于构建参考基线方法计算BRCA1基因各外显子的拷贝数分布。图1B显示本申请方法计算BRCA1基因各外显子的拷贝数分布。

图2A-2B显示的是基于构建参考基线方法和本申请方法对NGS建库方法差异的样本检测结果图。横坐标：染色体坐标；纵坐标：评估的拷贝数(CN)值。图2A显示基于构建参考基线方法检测拷贝数变异结果。图2B显示本申请方法检测拷贝数变异结果。方框表示检出的拷贝数变异。

图3A-3B显示的是基于筛选稳定窗口不同设定阈值后的样本检测结果。横坐标：染色体坐标；纵坐标：评估的拷贝数(CN)值。图3A显示设定阈值为0.05的样本检测拷贝数变异结果。图3B显示设定阈值为0.15的样本检测拷贝数变异结果。方框表示检出的拷贝数变异。

图4A-4J显示的是10例模拟阳性拷贝数变异样本构建批次基线后的检测结果。横坐标：染色体坐标；纵坐标：评估的拷贝数(CN)值。图中方框表示表示检出的拷贝数变异。

具体实施方式

以下由特定的具体实施例说明本申请发明的实施方式，熟悉此技术的人士可由本说明书所公开的内容容易地了解本申请发明的其他优点及效果。

术语定义

在本申请中，术语“二代基因测序”、高通量测序”或“下一代测序”通常是指第二代高通量测序技术及之后发展的更高通量的测序方法。下一代测序平台包括但不限于已有的Illumina等测序平台。随着测序技术的不断发展，本领域技术人员能够理解的是还可以采用其他方法的测序方法和装置用于本方法。例如，二代基因测序可以具有高灵敏度、通量大、测序深度高、或低成本的优势。根据发展历史、影响力、测序原理和技术不同等，主要有以下几种：大规模平行签名测序(Massively Parallel Signature Sequencing，MPSS)、聚合酶克隆(Polony Sequencing)、454焦磷酸测序(454pyro sequencing)、Illumina(Solexa)sequencing、离子半导体测序(Ion semi conductor sequencing)、DNA纳米球测序(DNA nano-ball sequencing)、Complete Genomics的DNA纳米阵列与组合探针锚定连接测序法等。所述二代基因测序可以使对一个物种的转录组和基因组进行细致全貌的分析成为可能，所以又被称为深度测序(deep sequencing)。例如，本申请的方法同样可以应用于一代基因测序、二代基因测序、三代基因测序或单分子测序(SMS)。

在本申请中，术语“数据库”通常是指相关数据的有组织实体，而不管数据或有组织实体的表示方式。例如，所述相关数据的有组织实体可以采取表、映射、网格、分组、数据报、文件、文档、列表的形式或任何其他形式。在本申请中，所述数据库可以包括以计算机可存取的方式来收集并保存的任何数据。

在本申请中，术语“计算模块”通常是指用于计算的功能模块。所述计算模块可以根据输入值计算输出值或得到结论或结果，例如计算模块可以主要是用于计算输出值。计算模块可以是有形的，例如电子计算机的处理器、带有处理器的计算机或电子设备或计算机网络，也可以是存储在电子介质上的一段程序、命令行或软件包。

在本申请中，术语“处理模块”通常是指用于数据处理的功能模块。所述处理模块可以根据将输入值处理为有统计学意义的数据，例如可以是用于输入值的数据的分类。处理模块可以是有形的，例如用于存储数据的电子或磁介质，以及电子计算机的处理器、带有处理器的计算机或电子设备或计算机网络，也可以是存储在电子介质上的一段程序、命令行或软件包。

在本申请中，术语“判断模块”通常是指用于获得相关判断结果的功能模块。在本申请中，所述判断模块可以根据输入值计算输出值或得到结论或结果，例如判断模块可以主要是用于得到结论或结果。判断模块可以是有形的，例如电子计算机的处理器、带有处理器的计算机或电子设备或计算机网络，也可以是存储在电子介质上的一段程序、命令行或软件包。

在本申请中，术语“样品获得模块”通常是指用于获得受试者的所述样本的功能模块。例如，所述样品获得模块可以包括用以获得所述样本(例如组织样本、血液样本、唾液、胸腔积液、腹腔积液、脑脊液等)所需的试剂和/或仪器。例如，可以包括采血针、采血管和/或血液样本运输箱。例如，本申请的装置可以不含或包含1个或以上的所述样品获得模块，并可以可选地具有输出本申请所述的样本的测量值的功能。

在本申请中，术语“接收模块”通常是指用于获得所述样本中所述测量值的功能模块。在本申请中，所述接收模块可以输入本申请所述样本(例如组织样本、血液样本、唾液、胸腔积液、腹腔积液、脑脊液等)。在本申请中，所述接收模块可以输入本申请所述样本(例如组织样本、血液样本、唾液、胸腔积液、腹腔积液、脑脊液等)的测量值。所述接收模块可以对所述样本的状态进行检测。例如，所述数据接收模块可以可选地对所述样本进行本申请所述的基因测序(例如二代基因测序)。例如，所述数据接收模块可以可选地包括用以进行所述基因测序所需的试剂和/或仪器。所述数据接收模块可以可选地检测出测序深度、测序读长计数或拷贝数。

在本申请中，术语“拷贝数变异”通常是指目标区间、目标基因或目标基因中的目标区间的拷贝数的扩增或缺失。例如，本申请提供的拷贝数变异分析方法可以是用于治疗或诊断目的。例如，本申请提供的拷贝数变异分析方法可以是用于非治疗或诊断目的，例如通过测序结果判定是否存在着拷贝数变异现象。

在本申请中，术语“滑窗法”通常是指一种窗口区域的划分方法，例如，可以按照相同或不同的窗口区域长度，将全长区域的划分为多个窗口。例如，可以按照相同或不同步长，将全长区域的划分为多个窗口。例如，可以按照相同的窗口区域长度，并可以按照相同的步长，将全长区域的划分为多个窗口。

在本申请中，术语“质量合格的样品”通常是通过质量控制标准的样本。例如，质量合格的样品可以是指平均测序深度、最小测序深度和/或覆盖均一度合格的样本。例如，平均测序深度合格可以是指平均测序深度为约100x或以上的样本。例如，最小测序深度合格的样本可以是指最小测序深度为约30x或以上的样本。例如，覆盖均一度合格的样本可以是指大于或等于样本平均测序深度的20％的碱基数量占样本中总碱基数量的百分比为约90％或以上的样本。

在本申请中，术语“待测样本”通常是指需要进行检测，并判定该样本上的一个或者多个基因区域是否存在有拷贝数变异的样本。例如，待测样本或其数据可以在进行检测之前预先储存在储存器中。

在本申请中，术语“人类参考基因组”通常是指可以在基因测序中发挥参照功能的人类基因组。所述人类参考基因组的信息可以参考UCSC(University of California，Santa Cruz)。所述人类参考基因组可以有不同的版本，例如，可以为hg19、GRCH37或ensembl 75。

在本申请中，术语“GC含量”通常是指在基因序列(碱基序列)中鸟嘌呤G和胞嘧啶C所占该序列汇总所有核苷酸的比率。

在本申请中，术语“测序深度”通常是指特定区域(例如特定基因、特定区间、特定碱基)被检测的次数。测序深度可以是指通过测序检测的一段碱基序列。例如，通过将测序深度比对到人类参考基因组，并可选地去重，可以确定和统计特定基因、特定区间或特定碱基位置上测序读长的数量，作为测序深度。在一些情况下，测序深度可以与测序深度相关。例如，测序深度可以受到拷贝数状态的影响。

在本申请中，术语“测序数据”通常是指测序后获得的短序列的数据。例如，测序数据包含测序短序列(测序读长)的碱基序列、测序读长的数目等。

在本申请中，术语“统计值”可以是指根据样本的数据值计算的分析数值。例如，本申请的统计值可以是指平均值、方差、标准差、中位数值、众数值等。本领域技术人员根据实际情况选择一个或多个统计值用于分析数据。

在本申请中，术语“回归”通常是指变量之间关系的统计分析方法。例如，本申请通过回归分析，可以得出样本测序数据与某一变量(例如GC含量)的线性或非线性关系。例如，可以通过局部加权回归得到样本的测序数据与某一变量(例如GC含量)的关系，并通过这一关系调整/矫正该样本的测序数据。例如，本申请的矫正可以是指根据样本的测序数据与某一变量的关系，对该样本的测序数据进行处理以消除或减弱该变量对该样本的测序数据造成的偏差。

在本申请中，术语“局部加权回归”通常是指在输入变量和目标变量的回归分析中，在局部引入权重的回归分析方法。例如，局部加权回归可以通过(loess(X～Y))的算法根据Y对X进行局部加权回归分析和处理。

在本申请中，术语“标准化”或“归一化”通常是指一种对数据变换的方式。例如，标准化可以是指将不同组的数据变换到某一固定范围的处理。例如，标准化可以是指将不同组的数据变换到同一中位值的处理。例如，本申请的标准化可以是指将不同样本的测序数据变换为的中位值相近水平的数据的处理方式。

在本申请中，术语“显著性检验”通常是指判断样本与假设分布之间的差异是否显著的方式。例如，通过显著性检验可以判断待测样本的拷贝数变异是否属于显著的差异。

在本申请中，术语“格拉布斯检验法”通常是指判断和/或筛除异常值的方法。例如，通过判断某一数值是否符合整体的分布范围，可以确定该数值是否属于异常值。

在本申请中，术语“T检验”通常是指一种有学生t分布的统计假设检验的方式。例如，通过T检验可以确认待测样本的某一目标基因的拷贝数变异具有显著性。

在本申请中，术语“包含”通常是指包括明确指定的特征，但不排除其他要素。

在本申请中，术语“约”通常是指在指定数值以上或以下0.5％-10％的范围内变动，例如在指定数值以上或以下0.5％、1％、1.5％、2％、2.5％、3％、3.5％、4％、4.5％、5％、5.5％、6％、6.5％、7％、7.5％、8％、8.5％、9％、9.5％、或10％的范围内变动。

发明详述

一方面，本申请提供一种拷贝数状态的分析方法，可以包含获取待测样本组的测序数据；确定待测样本中的目标基因；根据所述待测样本组的测序数据确定所述待测样本中的目标基因的拷贝数状态。

一方面，本申请提供一种拷贝数状态的分析方法，可以包含以下步骤：

(S1)将所述目标基因所在区域划分为若干个窗口区域，获取所述待测样本组中的对照窗口区域的测序数据；

(S2)基于所述对照窗口区域的测序数据，确定所述待测样本的目标基因的拷贝数状态。

(S2)基于所述对照窗口区域的测序数据，确定所述待测样本的目标基因的拷贝数状态，将所述质量合格的样品的窗口区域按照所述覆盖波动水平从低到高排序，所述对照窗口区域可以包含覆盖波动水平前4个或更多所述窗口，可以基于所述质量合格的样品的窗口区域的测序数据的绝对离差中位数与中位数的比值，确定所述覆盖波动水平，或者所述对照窗口区域的所有所述质量合格的样品的所述测序数据的绝对离差中位数与中位数的比值可以为约0.15或更小。

步骤(S1-1)：获取所述待测样本组中所有样本的窗口区域的测序数据；步骤(S1-2)：获取所述待测样本组中质量合格的样本，所述质量合格的样本可以包含平均测序深度、最小测序深度和/或覆盖均一度合格的样本；步骤(S1-3)：使所述待测样本组中所有样本的窗口区域的所述测序数据标准化；

(S2)基于所述对照窗口区域的测序数据，确定所述待测样本的目标基因的拷贝数状态，将所述质量合格的样品的窗口区域按照所述覆盖波动水平从低到高排序，所述对照窗口区域可以包含覆盖波动水平前4个或更多所述窗口，可以基于所述质量合格的样品的窗口区域的测序数据的绝对离差中位数与中位数的比值，确定所述覆盖波动水平，或者所述对照窗口区域的所有所述质量合格的样品的所述测序数据的绝对离差中位数与中位数的比值可以为约0.15或更小；步骤(S2-1)：基于所述对照窗口区域的测序数据，确定归一化系数；步骤(S2-2)：基于所述归一化系数，确定待测样本的每一个窗口区域的拷贝数；步骤(S2-3)：基于待测样本的每一个窗口区域的测序数据以及相应窗口区域的待测样本组中其它样本的测序数据，确定待测样本的拷贝数变异显著性。

例如，所述测序数据可以包含测序深度。例如，所述拷贝数状态可以包含拷贝数扩增和/或缺失。例如，所述拷贝数状态可以包含外显子拷贝数状态。

例如，所述待测样本组可以包含约10个或更多的样本。例如，所述待测样本组可以包含约10个或更多、约12个或更多、约15个或更多、约20个或更多、约25个或更多、约50个或更多、或约100个或更多的样本。例如，本申请可以不要求同一批次有较多的样本数量。例如，所述待测样本组可以包含约10个或更少、约12个或更少、约15个或更少、约20个或更少、约25个或更少、或约50个或更少的样本。例如，本申请的拷贝数状态分析方法，可以对待测样本的拷贝数变异水平具有较高的容忍度。例如，包含约30％拷贝数变异的样本，可以通过本申请的分析方法进行评估。例如，包含10％或更低、15％或更低、20％或更低、25％或更低、或30％或更低拷贝数变异的样本，可以通过本申请的分析方法进行评估。例如，本申请的样本来源可以是任意的含有核酸的样本，例如组织、血液、唾液、胸腔积液、腹腔积液、脑脊液等。

例如，本申请方法所述步骤(S1)还可以包含步骤(S1-1)：获取所述待测样本组中所有样本的窗口区域的测序数据。例如，本申请的基因测序可以包含任选的高通量测序方法或模块、装置。例如，测序可以选自下组：Solexa测序技术、454测序技术、SOLiD测序技术、Complete Genomics测序方法和半导体(Ion Torrent)测序技术及其对应的装置。

例如，本申请方法所述步骤(S1-1)可以包含通过滑窗法将所述目标基因所在区域划分为所述窗口区域。例如，所述划窗法的步长可以为约24个碱基。例如，所述窗口区域的长度可以为约120个碱基。

例如，本申请方法所述步骤(S1-1)可以包含获取每一个所述窗口区域去除重复测序片段后的平均测序深度。

例如，本申请方法所述步骤(S1)还可以包含步骤(S1-2)：获取所述待测样本组中质量合格的样本，所述质量合格的样本可以包含平均测序深度、最小测序深度和/或覆盖均一度合格的样本。例如，所述平均测序深度合格的样本包含平均测序深度可以为约100x或以上的样本。例如，所述最小测序深度合格的样本包含最小测序深度可以为约30x或以上的样本。例如，质量合格的各个阈值可以根据测序情况进行调整。

例如，所述覆盖均一度可以与所述样本每个碱基的测序深度有关。例如，所述覆盖均一度可以通过大于或等于样本平均测序深度的20％的碱基数量占样本中总碱基数量的百分比计算。例如，所述覆盖均一度合格的样本可以包含覆盖均一度为约90％或以上的样本。例如，所述覆盖均一度合格的样本可以包含覆盖均一度为约90％或以上的样本。例如，所述覆盖均一度合格的样本可以包含覆盖均一度为约90％或以上、约92％或以上、约95％或以上、约97％或以上、或约99％或以上的样本。

例如，所述待测样本组中质量合格的样本数量可以为10个或更多。

例如，本申请方法所述步骤(S1)还可以包含步骤(S1-3)：使所述待测样本组中所有样本的窗口区域的所述测序数据标准化。

例如，所述标准化可以包含基于所述样本所有窗口区域的平均测序深度对所述样本的每一个窗口区域的所述测序数据标准化、和/或基于所述样本的每一个窗口区域的GC含量对所述样本的每一个窗口区域的所述测序数据标准化。

例如，所述标准化可以包含使所述样本的每一个窗口区域上所述测序数据除以所述样本的所有窗口区域上所述测序数据的总和，再乘以因子。例如，所述因子可以根据所有区间的大小进行设置。例如，所述因子可以任选为1E+07。例如，所述因子可以任选为1E+100、1E+20、1E+10、1E+09、1E+08、1E+07、1E+06、1E+05、1E+04、1E+03、或1E+02。

例如，所述标准化可以包含基于GC含量，通过回归的方法使所述样本的每一个窗口区域的所述测序数据标准化。例如，所述回归可以包含局部加权回归。

例如，所述对照窗口区域可以包含覆盖波动水平低的窗口区域。

例如，可以基于所述质量合格的样品的窗口区域的测序数据统计值，确定所述覆盖波动水平。例如，可以基于所述质量合格的样品的窗口区域的测序数据的离差，确定所述覆盖波动水平。例如，可以基于所述质量合格的样品的窗口区域的测序数据的绝对离差中位数和/或中位数，确定所述覆盖波动水平。例如，可以基于所述质量合格的样品的窗口区域的测序数据的绝对离差中位数与中位数的比值，确定所述覆盖波动水平。

例如，将所述质量合格的样品的窗口区域按照所述覆盖波动水平从低到高排序，所述对照窗口区域可以包含覆盖波动水平前2个或更多所述窗口。

例如，将所述质量合格的样品的窗口区域按照所述覆盖波动水平从低到高排序，所述对照窗口区域可以包含覆盖波动水平前4个或更多所述窗口。

例如，所述对照窗口区域的所有所述质量合格的样品的所述测序数据的绝对离差中位数与中位数的比值可以为约0.15或更小。例如，所述对照窗口区域的所有所述质量合格的样品的所述测序数据的绝对离差中位数与中位数的比值可以为约0.15或更小、约0.14或更小、约0.13或更小、约0.12或更小、约0.11或更小、约0.10或更小、约0.09或更小、约0.08或更小、约0.07或更小、约0.06或更小、或约0.05或更小。例如，所述对照窗口区域的所有所述质量合格的样品的所述测序数据的绝对离差中位数与中位数的比值可以为约0.05至约0.15、约0.07至约0.15、约0.10至约0.15、约0.12至约0.15、约0.05至约0.12、约0.07至约0.12、约0.10至约0.12、约0.05至约0.10、约0.07至约0.10、或约0.05至约0.07。

例如，本申请所述步骤(S2)还可以包含步骤(S2-1)：基于所述对照窗口区域的测序数据，确定归一化系数。

例如，可以通过计算所述对照窗口区域的所有所述质量合格的样品的测序数据平均值，确定所述归一化系数。

例如，在确定所述归一化系数前，可以筛除对照窗口区域的异常样本的覆盖水平值。例如，所述异常覆盖水平值可以为每个所述对照窗口区域通过异常值分析方法判断为异常样本的覆盖水平值。例如，所述异常值分析方法可以包含格拉布斯检验法(Grubbstest)。例如，每个窗口可以包含了批次内质量合格样本在该窗口的覆盖水平值，然后可以采用格拉布斯检验法检验判断这些覆盖水平值是否含有异常值，如果含有，可以将异常值去除。然后对剩余的覆盖水平值，可以继续重复采用格拉布斯检验法检验判断是否有异常，直至无异常值出现。例如，也可以当剩余覆盖水平值数量少于质量合格样本数的60％或更少、50％或更少、或40％或更少时，停止去除异常值，可以将剩余数值都用于确定所述归一化系数。

例如，筛除所述异常样本后剩余的样本数量可以为筛除前样本数量的40％或更多、70％或更多、80％或更多、90％或更多、95％或更多、或99％或更多。

例如，本申请所述步骤(S2)还可以包含步骤(S2-2)：基于所述归一化系数，确定待测样本的每一个窗口区域的拷贝数。

例如，本申请所述步骤(S2-2)可以包含基于所述归一化系数，通过使所述待测样本的每一个窗口区域的所述测序数据归一化的方法，确定待测样本的每一个窗口区域的所述拷贝数。

例如，所述归一化方法可以包含将所述窗口区域的待测样本的测序数据除以所述窗口区域的归一化系数，乘以倍性。例如，对于男性X染色体来说，所述倍性可以为1。当受试者为多倍体是，所述倍性可以根据具体情况进行调整。例如，所述倍性可以为2。

例如，本申请所述步骤(S2)还可以包含步骤(S2-3)：基于待测样本的每一个窗口区域的测序数据以及相应窗口区域的待测样本组中其它样本的测序数据，确定待测样本的拷贝数变异显著性。

例如，本申请所述步骤(S2-3)可以包含基于待测样本的每一个窗口区域的所述拷贝数，确定拷贝数变异候选区域。

例如，可以通过区域分割的方法，确定所述拷贝数变异候选区域。例如，所述区域分割可以包含通过循环二元分割算法，确定所述拷贝数变异候选区域的前后端点。

例如，本申请所述步骤(S2-3)可以包含基于待测样本的所述拷贝数变异候选区域中窗口区域的测序数据以及相应窗口区域的待测样本组中其它样本的测序数据，确定拷贝数变异的显著性。例如，可以通过显著性检验的方法，确定所述拷贝数变异的显著性。例如，所述显著性检验可以包含T检验。

另一方面，本申请还提供了一种拷贝数状态分析装置，可以包含以下模块：接收模块，用于获取待测样本组的测序数据；确定模块，用于确定待测样本中的目标基因；判断模块，用于根据所述待测样本组的测序数据确定所述待测样本中的目标基因的拷贝数状态。

例如，本申请的拷贝数状态分析装置，其中的模块可以被配置为基于存储在所述储存介质中的程序执行以实现本申请所述的拷贝数状态分析方法。

另一方面，本申请还提供了一种储存介质，其记载可以运行本申请所述的方法的程序。

另一方面，本申请还提供了一种设备，其可以包含本申请所述的储存介质。例如，所述非易失性计算机可读存储介质可以包括软盘、柔性盘、硬盘、固态存储(SSS)(例如固态驱动(SSD))、固态卡(SSC)、固态模块(SSM))、企业级闪存驱动、磁带或任何其他非临时性磁介质等。非易失性计算机可读存储介质还可以包括打孔卡、纸带、光标片(或任何其他具有孔型图案或其他光学可识别标记的物理介质)、压缩盘只读存储器(CD-ROM)、可重写式光盘(CD-RW)、数字通用光盘(DVD)、蓝光光盘(BD)和/或任何其他非临时性光学介质。

例如，本申请的设备还可以包含耦接至所述储存介质的处理器，所述处理器可以被配置为基于存储在所述储存介质中的程序执行以实现本申请所述的方法。

另一方面，本申请还提供了一种本申请的方法，可以在疾病诊断、预防和/或治疗中的应用。

另一方面，本申请还提供了一种本申请的方法，可以在目标基因的拷贝数状态监测中的应用。

另一方面，本申请还提供了一种本申请的方法，可以在全基因组关联研究中的应用。

在本申请中，所述方法可以用于判断所述受试者是否具有拷贝数变异。例如，本申请的任一个或多个方法可以是非诊断目的的。例如，本申请的任一个或多个方法可以是诊断目的的。

在本申请中，所述方法可以用于通过检测所述拷贝数变异，用于临床实践(例如可以推测某些特定的肿瘤治疗方式是否适于该受试者)。在某些情况下，所述方法检测出的拷贝数变异水平可以与本领域已知的生物标志物联合使用于临床实践。

不欲被任何理论所限，下文中的实施例仅仅是为了阐释本申请的方法和用途等，而不用于限制本申请发明的范围。

实施例

实施例1

1.1数据准备

选取30例阴性外周血样本，然后采用同一批实验试剂，从外周血中提取DNA，并通过片段化、加接头及PCR扩增等实验步骤制备全基因组预文库。接着，将制备好的预文库分成两份，分别用不同批次的探针，记为A批次和B批次，与预文库杂交，特异性地捕获人类基因组中BRCA1基因，获得终文库A和终文库B。用测序仪对两份终文库进行高通量测序。最后，将测序数据与人类基因组标准序列hg19进行比对，获得比对后的BAM文件。

1.2基于构建参考基线的传统方法检测拷贝数变异

事先，用前期收集的足量(例如：50例及以上)拷贝数正常的阴性样本作为参考集构建参考基线。随后，将两组实验样本采用该参考集构建的基线计算BRCA1基因上各外显子的拷贝数值及检测拷贝数变异。从计算的外显子拷贝数结果看(如图1A所示)，A批次探针捕获的实验数据均一性更好，与理论拷贝数值2更接近，而B批次探针捕获的结果相对更差，特别是BRCA1基因8号外显子，所有样本都有明显偏低的偏好。另一方面，从拷贝数变异检出结果看，采用B批次探针实验组中，30例样本检出2例来自BRCA1的假阳性的拷贝数变异。说明由于可能的探针批次差异，采用传统的基于参考基线方式很容易导致拷贝数变异检出的准确性下降。

1.3基于本申请方法检测拷贝数变异

因此，接下来采用本申请方法检测拷贝数变异。

(1)数据准备

本申请的拷贝数变异检测算法，可以选取足够的样本数量，例如可以是15例来自相同样本类型和相同实验方法学，且尽可能保证实验中使用试剂批次、实验设备等是一致的样本数据。每个参与的样本数据需要来自NGS测序数据比对后的BAM文件。

(2)基于BAM文件去重和DNA序列片段覆盖深度的统计

对每个样本BAM文件，首先，可以去除由于NGS建库中PCR引入的重复DNA序列片段，获取唯一比对DNA片段。然后，根据要检测的目标DNA区域，采用滑窗法，每次滑动24bp，将该区域划分成探针固定长度为120bp的窗口区域，并统计每个窗口内唯一比对的DNA片段的平均覆盖水平。

(3)样本测序覆盖度质控

任选地，对每个样本进行质量控制，判断平均测序深度、最小测序深度和覆盖均一性是否满足要求。其中，要求平均测序深度≥100X，最小测序深度≥30X，覆盖均一性≥90％(指碱基测序深度≥样本平均测序深度20％的碱基占比，公式如下：覆盖均一度＝(大于或等于样本平均测序深度的20％的碱基数量/样本中总碱基数量)×100％。如果样本数据质量不满足要求，可以不用于矫正基线的构建。本申请的检测方法可以对满足质量合格的样本数至少为10例进行检测。

(4)数据校正及归一化处理

为了减低噪音和系统性偏差对拷贝数变异检测结果的影响，可以对每个窗口区域的覆盖水平进行矫正，包括覆盖水平初步矫正(基于样本平均覆盖水平)、GC矫正和批次矫正。

(5)覆盖水平初步矫正

为了矫正不同样本测序覆盖深度的差异，覆盖水平初步矫是将批次内所有样本的覆盖水平矫正到同一指定的覆盖水平。具体地，对批次内样本的每一个窗口区域，测序所得平均覆盖水平除以样本内所有窗口区域的平均覆盖水平的总和，再乘以固定因子(因子为1E+07)。

(6)GC矫正

为了矫正由于GC偏好导致测序覆盖深度差异，GC矫正通过计算每个窗口GC含量，然后利用loess回归方法对样本内每一个窗口区域的覆盖水平进行GC偏好矫正。

(7)批次矫正

i.获取批次内所有质控合格样本的GC矫正数据。

ii.计算参与构建批次基线的样本在每个窗口内的覆盖水平的中位值(median)和绝对离差中位值(MAD)。如果MAD/median＞设定阈值(例如，设定阈值可以为约0.05至约0.15)，表明该窗口覆盖水平不稳定，需要被剔除。

iii.保留MAD/median<小于设定阈值的窗口，或者保留MAD/median最小的前4个窗口，作为覆盖水平稳定的窗口区域。

iv.接着，对保留的每个覆盖水平稳定的窗口区域，采用grubbs检验去除该窗口内异常的覆盖水平值，然后计算剩余覆盖水平值的平均水平，作为批次矫正参考系数。

v.最后，对于每个待测样本，基于上述计算的批次矫正参考系数，对每个窗口区域的覆盖水平进行归一化处理，并计算拷贝数CN值，每个窗口拷贝数CN值计算公式如下：

(8)拷贝数变异识别

利用CBS算法识别样本目标区域上的断点位置，获取候选的拷贝数变异区域。然后，对每个候选的拷贝数变异区域进行显著性检验，具体地，通过T检验，判断待测样本在候选拷贝数变异区域上的窗口覆盖水平与批次内其他样本在该区域的覆盖水平是否具有显著性差异，从而判断候选拷贝数变异的可靠性。

其中BRCA1基因外显子拷贝数分布如图1B所示，可以看出，相比基于构建参考基线的传统方法，本申请方法获得拷贝数结果均一性更好，特别是对批次差异大的B组探针，效果更明显，并且两组实验数据都没有检出任何假阳性拷贝数变异。

实施例2

选取20例细胞系样本，其中19例为阴性样本，1例为已知的外显子拷贝数变异(LGR)样本(BRCA1:Exon 12amp)。实验采用仪器自动化建库方式获取高通量测序数据。最后，将测序数据与人类基因组标准序列hg19进行比对，获得比对后的BAM文件。将样本BAM文件分别用基于构建参考基线的传统方法和本申请的方法检测拷贝数变异。其中，基于构建参考基线方法采用的基线可以是用早期手动化建库方式的样本数据建立(例如实施例1中所用的参考基线)。

含有拷贝数变异的阳性样本结果如图2A-2B所示，基于构建参考基线传统方法检测结果(图2A所示)数据背景噪音极大，无法检出拷贝数变异，而本申请方法数据背景噪音明显更小，可以检出拷贝数变异(图2B所示)，说明不同实验方法产生的NGS数据可能有很大差异，基于手动化建库方式的数据构建的基线不适用于自动化建库数据。说明当实验方法发生改变时，如果采用参考基线传统方式，需要事先收集足够量使用该实验方法的样本数据，然后人工构建新的基线，这大大增加了实验成本和人力浪费。

实施例3

选取696例外周血样本检测BRCA1和BRCA2的外显子拷贝数变异(LGR)，实验采用RNA探针特异性捕获BRCA1和BRCA2基因区域，然后经高通量测序，将测序数据与人类基因组标准序列hg19进行比对，获得比对后的BAM文件。随后，分别采用基于构建参考基线的方法和本申请方法检测拷贝数变异。同时，所有样本拷贝数变异都经BRCA MASTR Plus Dx试剂盒(基于多重PCR捕获方法学)确认，一共包含17例LGR阳性样本和679例阴性样本。

以BRCA MASTR Plus Dx试剂盒检出结果为基准，分别得到该696例外周血样本基于构建参考基线传统方法检测结果和本申请方法检测结果的灵敏度和特异性，分别如表1和表2所示。

表1.基于构建参考基线方法的检测结果

表2.本申请方法的检测结果

对比表1和表2可以看出，相比传统构建基线方法，通过本申请方法在不损失灵敏度的情况下，可以大大降低样本假阳性，检测准确性可以从75.3％提高到98.9％。

实施例4

选取14例细胞系样本测序比对后的数据构建批次基线，构建批次基线过程中，对于描述窗口覆盖波动水平的阈值，分别设为0.05和0.15，构建2条批次基线。然后分别用2条批次基线对该14例样本中已知LGR拷贝数变异的样本(BRCA1:exon4-6del)进行批次矫正，再检测拷贝数变异。

含有拷贝数变异的阳性样本结果如图3A-3B所示，基于不同窗口覆盖波动水平的阈值构建的批次基线都可以明显地检测到拷贝数变异，说明本申请筛选稳定区间的阈值范围都可以实现对于拷贝数变异的检测。

实施例5

选取10例阴性细胞系样本作为模拟样本本底，然后选择10例已被文献报道的BRCA1和BRCA2基因的LGR拷贝数变异作为待模拟的突变(表3所示)，包含5种拷贝数扩增变异和5种拷贝数缺失变异。经过模拟将上述拷贝数扩增变异和拷贝数缺失变异人为加入到模拟样本本底数据中，最终得到10例阳性LGR模拟样本数据。

将10例模拟阳性样本构建批次基线，再使用构建的批次基线对该10例模拟样本进行批次矫正和拷贝数变异识别。10例模拟样本的结果如图4A-4J所示，模拟的10例拷贝数变异都能准确检出，说明本申请对于任意区域的拷贝数变异都可以实现准确的检测。

表3：10例模拟的拷贝数变异类型

前述详细说明是以解释和举例的方式提供的，并非要限制所附权利要求的范围。目前本申请所列举的实施方式的多种变化对本领域普通技术人员来说是显而易见的，且保留在所附的权利要求和其等同方案的范围内。

Claims

1.一种拷贝数状态的分析方法，包含获取待测样本组的测序数据；确定待测样本中的目标基因；根据所述待测样本组的测序数据确定所述待测样本中的目标基因的拷贝数状态。

2.如权利要求1所述的方法，包含以下步骤：

(S1)将所述目标基因所在区域划分为若干个窗口区域，获取所述待测样本组中的对照窗口区域的测序数据；任选地，所述测序数据包含测序深度；任选地所述待测样本组包含约10个或更多的样本；

(S2)基于所述对照窗口区域的测序数据，确定所述待测样本的目标基因的拷贝数状态；任选地，所述拷贝数状态包含拷贝数扩增和/或缺失；任选地，所述拷贝数状态包含外显子拷贝数状态；任选地，所述对照窗口区域包含覆盖波动水平低的窗口区域；任选地，基于所述质量合格的样品的窗口区域的测序数据统计值，确定所述覆盖波动水平；任选地，基于所述质量合格的样品的窗口区域的测序数据的离差，确定所述覆盖波动水平；任选地，基于所述质量合格的样品的窗口区域的测序数据的绝对离差中位数和/或中位数，确定所述覆盖波动水平；任选地，基于所述质量合格的样品的窗口区域的测序数据的绝对离差中位数与中位数的比值，确定所述覆盖波动水平；任选地，将所述质量合格的样品的窗口区域按照所述覆盖波动水平从低到高排序，所述对照窗口区域包含覆盖波动水平前2个或更多所述窗口；任选地，将所述质量合格的样品的窗口区域按照所述覆盖波动水平从低到高排序，所述对照窗口区域包含覆盖波动水平前4个或更多所述窗口；任选地，所述对照窗口区域的所有所述质量合格的样品的所述测序数据的绝对离差中位数与中位数的比值为约0.15或更小。

3.如权利要求2所述的方法，所述步骤(S1)还包含步骤(S1-1)：获取所述待测样本组中所有样本的窗口区域的测序数据，任选地，所述步骤(S1-1)包含通过滑窗法将所述目标基因所在区域划分为所述窗口区域；任选地，所述划窗法的步长为约24个碱基；任选地，所述窗口区域的长度为约120个碱基；任选地；所述步骤(S1-1)包含获取每一个所述窗口区域去除重复测序片段后的平均测序深度。

4.如权利要求2-3中任一项所述的方法，所述步骤(S1)还包含步骤(S1-2)：获取所述待测样本组中质量合格的样本，所述质量合格的样本包含平均测序深度、最小测序深度和/或覆盖均一度合格的样本；任选地，所述质量合格的样本包含平均测序深度为约100x或以上的样本；任选地，所述质量合格的样本包含最小测序深度为约30x或以上的样本；任选地，所述覆盖均一度与所述样本每个碱基的测序深度有关；任选地，所述覆盖均一度通过大于或等于样本平均测序深度的20％的碱基数量占样本中总碱基数量的百分比计算；任选地，所述质量合格的样本包含覆盖均一度为约90％或以上的样本；任选地，所述待测样本组中质量合格的样本数量为10个或更多。

5.如权利要求2-4中任一项所述的方法，所述步骤(S1)还包含步骤(S1-3)：使所述待测样本组中所有样本的窗口区域的所述测序数据标准化；任选地，所述标准化包含基于所述样本所有窗口区域的平均测序深度对所述样本的每一个窗口区域的所述测序数据标准化、和/或基于所述样本的每一个窗口区域的GC含量对所述样本的每一个窗口区域的所述测序数据标准化；任选地，所述标准化包含使所述样本的每一个窗口区域上所述测序数据除以所述样本的所有窗口区域上所述测序数据的总和，再乘以因子；任选地，所述因子为1E+07；任选地，所述标准化包含基于GC含量，通过回归的方法使所述样本的每一个窗口区域的所述测序数据标准化；任选地，所述回归包含局部加权回归。

6.如权利要求2-5中任一项所述的方法，所述步骤(S2)还包含步骤(S2-1)：基于所述对照窗口区域的测序数据，确定归一化系数；任选地，通过计算所述对照窗口区域的所有所述质量合格的样品的测序数据平均值，确定所述归一化系数；任选地，在确定所述归一化系数前，筛除对照窗口区域的异常样本的覆盖水平值；任选地，所述异常覆盖水平值为每个所述对照窗口区域通过异常值分析方法判断为异常样本的覆盖水平值；任选地，所述异常值分析方法包含格拉布斯检验法(Grubbs test)；任选地，筛除所述异常样本后剩余的样本数量为筛除前样本数量的40％或更多。

7.如权利要求2-6中任一项所述的方法，所述步骤(S2)还包含步骤(S2-2)：基于所述归一化系数，确定待测样本的每一个窗口区域的拷贝数；任选地，所述步骤(S2-2)包含基于所述归一化系数，通过使所述待测样本的每一个窗口区域的所述测序数据归一化的方法，确定待测样本的每一个窗口区域的所述拷贝数；任选地，所述归一化方法包含将所述窗口区域的待测样本的测序数据除以所述窗口区域的归一化系数，乘以倍性；任选地，所述倍性为2。

8.如权利要求2-8中任一项所述的方法，所述步骤(S2)还包含步骤(S2-3)：基于待测样本的每一个窗口区域的测序数据以及相应窗口区域的待测样本组中其它样本的测序数据，确定待测样本的拷贝数变异显著性；任选地，所述步骤(S2-3)包含基于待测样本的每一个窗口区域的所述拷贝数，确定拷贝数变异候选区域；任选地，通过区域分割的方法，确定所述拷贝数变异候选区域；任选地，所述区域分割包含通过循环二元分割算法，确定所述拷贝数变异候选区域的前后端点；任选地，所述步骤(S2-3)包含基于待测样本的所述拷贝数变异候选区域中窗口区域的测序数据以及相应窗口区域的待测样本组中其它样本的测序数据，确定拷贝数变异的显著性；任选地，通过显著性检验的方法，确定所述拷贝数变异的显著性；任选地，所述显著性检验包含T检验。

9.一种拷贝数状态分析装置，包含以下模块：接收模块，用于获取待测样本组的测序数据；确定模块，用于确定待测样本中的目标基因；判断模块，用于根据所述待测样本组的测序数据确定所述待测样本中的目标基因的拷贝数状态。

10.一种储存介质，其记载可以运行权利要求1-8中任一项所述的方法的程序。

11.一种设备，其包含权利要求10所述的储存介质；任选地，还包含耦接至所述储存介质的处理器，所述处理器被配置为基于存储在所述储存介质中的程序执行以实现权利要求1-8中任一项所述的方法。

12.权利要求1-8中任一项所述的方法，在疾病诊断、预防和/或治疗中、在目标基因的拷贝数状态监测中和/或在全基因组关联研究中的应用。