CN112980961B

CN112980961B - 联合检测snv、cnv和fusion变异的方法和装置

Info

Publication number: CN112980961B
Application number: CN202110508556.1A
Authority: CN
Inventors: 韩志军; 王磊; 王杰; 王雨倩; 庞莹; 杨继伟; 王修涵; 谢正华
Original assignee: Shanghai Siludi Medical Laboratory Co ltd
Current assignee: Shanghai Siludi Medical Laboratory Co ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-08-27
Anticipated expiration: 2041-05-11
Also published as: CN112980961A

Abstract

本公开内容涉及联合检测SNV、CNV和FUSION变异的方法和装置。更具体而言，所述装置包括：测序数据读入模块；SNV检测模块；CNV检测模块；FUSION变异检测模块；和结果输出模块，其中CNV检测模块包括以下模块：BAF计算模块；BAF矫正模块；BAF分离鉴定模块；测序深度计算模块；logR矫正模块；logR背景噪音计算模块；和CNV判定模块。所述方法和装置基于BAF+logR信息，高灵敏度高特异性检测ctDNA占比极低的样本中的SNV、CNV及FUSION变异，尤其是低拷贝数扩增的CNV变异。

Description

联合检测SNV、CNV和FUSION变异的方法和装置

技术领域

本发明属于基因检测技术领域，尤其涉及检测样本中目标基因的CNV的方法、系统和装置，以及联合检测样本中的SNV、CNV和FUSION变异的方法、系统和装置。

背景技术

细胞的DNA通过凋亡、分泌或吞噬等多种机制进入血液循环系统，这种DNA碎片称之为细胞游离DNA(cell free DNA, cfDNA)，大小通常为160-180bp。

对于肿瘤患者而言，血浆中的cfDNA除了来自正常的细胞外，还有部分来源于肿瘤细胞，这部分携带肿瘤细胞特异信息的DNA被称为循环肿瘤DNA(circulating tumor DNA,ctDNA)。ctDNA在cfDNA中的占比一般为0.1％-10％，并且随着病情阶段的不同差异很大。在肿瘤患者的ctDNA中，常见的变异类型包括点突变(single nucleotide variant, SNV)、插入缺失(insertion and deletion, INDEL)、拷贝数变异(copy number variation, CNV)、基因融合(Fusion)等。

ctDNA的相对含量与肿瘤的负荷和对治疗的反应是相关的，可以用于鉴定驱动基因、指导临床治疗、检测临床治疗效果及对癌症复发进行动态监控等，因此cfDNA的液体活检越来越受到关注。相比传统影像学，cfDNA检测可以更早的检测到癌症是否复发，此外cfDNA样本收集相对容易，对于一些晚期患者很难取到组织样本。

目前检测CNV的方法主要有荧光原位杂交(FISH)、Southern印迹杂交、数字PCR以及二代测序等。荧光原位杂交技术检测特异性高，但样本处理周期长，成本高(探针价格昂贵)，也无法做到高通量，结果判读专业性和主观性较强；数字PCR可以实现对扩增进行绝对定量，但对于样本的基因组要求较高，基因组紊乱情况下无法给出正确结果，甚至会误报；Southern印记杂交技术也可以检测CNV，但是操作复杂繁琐，并且容易出现假阳性，临床推广比较困难；已有的一些二代检测技术无法在cfDNA水平进行准确检测，主要表现在灵敏度不足，在肿瘤占比低的血液样本中假阴性率高。

由上述可知，由于血浆中带有基因拷贝数变异的游离DNA(cfDNA)的浓度较低，目前检测cfDNA中的CNV的方法存在灵敏度不高、特异性较低、准确度较低以及操作繁琐等缺点。因此，本领域对于有效检测低ctDNA含量样本中的SNV、CNV及FUSION变异，尤其是低拷贝数扩增的CNV变异的方法存在持续需求。

因此，本领域需要一种以高灵敏度和高特异性准确检测CNV的改进方法，从而有效提高cfDNA中CNV的检出率；还需要一种联合检测cfDNA样本中目标基因的SNV、CNV和FUSION变异的方法。

发明内容

本发明提供了一种基于BAF+logR信息，高灵敏度高特异性检测CNV的方法，该方法结合BAF与测序深度的信息，可以有效提高cfDNA中CNV的阳性检出率。在此基础上，本发明提供了一种联合检测SNV、CNV和FUSION变异的方法和装置，以有效检测ctDNA占比极低的样本中的SNV、CNV及FUSION变异，尤其是低拷贝数扩增的CNV变异。

本申请发明人发现，通过在目标基因区域及基因组上特定SNP位点设计探针，并开发了利用BAF和logR信息双重检测CNV的新技术，可以准确检出ctDNA占比极低的样本(例如血液样本)中低频CNV扩增，克服现有技术存在的不足之处并具有极大的应用价值。

在第一方面，本公开内容提供了一种检测样本中目标基因的CNV的方法，所述方法包括以下步骤：

(aa)将样本原始测序数据比对到参考基因组上，生成比对结果；

(a)计算每个SNP位点的BAF值；

(b)对BAF进行样本间矫正；

(c)鉴定目标基因上的BAF是否存在分离，以及各染色体上是否存在BAF分离以评估全基因组的倍型完整程度；

(d)统计原始测序深度并计算目标基因的logR值；

(e)矫正logR值；

(f)计算logR的背景噪音水平；和

(g)按照如下规则判定目标基因是否存在CNV：

当样本为整倍体时，

此时如目标基因存在BAF分离现象表明该基因存在CNV，此时如该基因的中位logR大于该基因的背景噪音水平或高于给定阈值T₁则判定该基因存在扩增，如该基因的中位logR小于该基因的背景噪音水平的相反数或小于给定阈值T₂则判定该基因存在缺失；

或此时如果目标基因不存在BAF分离现象，此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值T₃则判定该基因存在扩增，如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值T₄则判定该基因存在缺失；

当样本为非整倍体时，

此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值T₅则判定该基因存在扩增，如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值T₆则判定该基因存在缺失。

在一个实施方案中，所述阈值T₁为0.1至0.7范围内的任意值，T₂为-0.7至-0.1范围内的任意值，T₃为0.1至0.7范围内的任意值，T₄为-0.7至-0.1范围内的任意值，T₅为0.1至0.7范围内的任意值，和T₆为-0.7至-0.1范围内的任意值；并且T₁、T₂、T₃、T₄、T₅和T₆可相同或不同。

在一个实施方案中，所述阈值T₁例如为0.1、0.2、0.3、0.4、0.5、0.6或0.7，T₂例如为-0.7、-0.6、-0.5、-0.4、-0.3、-0.2或-0.1，T₃例如为0.1、0.2、0.3、0.4、0.5、0.6或0.7，T₄例如为-0.7、-0.6、-0.5、-0.4、-0.3、-0.2或-0.1，T₅例如为0.1、0.2、0.3、0.4、0.5、0.6或0.7，和T₆例如为-0.7、-0.6、-0.5、-0.4、-0.3、-0.2或-0.1。

在一个实施方案中，所述阈值T₁例如为0.2，T₂例如为-0.2，T₃例如为0.2，T₄例如为-0.2，T₅例如为0.3，和T₆例如为-0.3。

在一个实施方案中，在步骤(aa)之前，还包括选择SNP位点并设计CNV探针的步骤。

在一个实施方案中，步骤(b)包括：利用预先生成的BAF基线文件对计算的BAF值进行矫正，使得各杂合SNP的BAF在大量样本间的中值在0.5。

在一个实施方案中，对于完整二倍体样本的杂合SNP，其BAF值与0.5的差值大于给定阈值则表明存在CNV，所述给定阈值例如0.05-0.2范围内的任意值，例如0.05、0.1、0.15、0.2等。

在一个实施方案中，对于肿瘤样本，其BAF偏离程度与目标基因的倍型和肿瘤纯度相关。

在一个实施方案中，当肿瘤纯度为100%时，BAF分布在0.33或0.67附近时表明该基因存在3个拷贝；而当肿瘤纯度为50%时，BAF分布在0.33或0.67附近时表明该基因存在LOH。

在一个实施方案中，步骤(e)包括：利用预先生成的logR基线文件及广义相加模型(GAM)对生成的logR值进行矫正，并对矫正后的logR的中位值平移到0值，输出矫正后的logR值。

在一个实施方案中，步骤(f)包括：利用logR矫正模块输出的矫正后的logR值信息及CNV检测目标基因集作为输入评估每个目标基因的背景噪音水平，统计除去该目标基因所有探针后logR的sd值作为该目标基因的背景噪音水平并输出。

在一个实施方案中，如果基因组上存在大量区域的BAF分离现象，比如大于4条(例如大于4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20条)染色体上同时存在BAF分离现象，则表明该样本的基因组为非整倍体。

在一个实施方案中，如果基因组上不存在大量区域的BAF分离现象，比如小于或等于4条(例如小于或等于4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20条)染色体上同时存在BAF分离现象，则表明该样本的基因组为整倍体例如二倍体。

在一个实施方案中，所述目标基因选自EGFR、MET、KRAS、NRAS、BRAF、ERBB2、ALK、KIT、TP53、RB1、RET、ROS1、FGFR2、NTRK1、NTRK2和NTRK3。

在一个实施方案中，所述样本为血浆cfDNA。

在第一方面的一个具体实施方案中，提供一种检测样本，例如cfDNA样本中目标基因的CNV的方法，所述方法包括以下步骤：

(aa)将样本原始测序数据比对到参考基因组上，生成BAM文件；

(a)从BAM文件中统计CNV相关SNP位点的基因型信息，并计算每个SNP位点的BAF值；

(b)利用预先生成的BAF基线文件对计算的BAF值进行矫正，使得各杂合SNP的BAF在大样本间的中值在0.5；

(d)从BAM文件统计CNV相关探针的原始测序深度，并对测序深度进行以2为底的log转换，生成logR值；

(e)利用预先生成的logR基线文件及广义相加模型(GAM)对生成的logR值进行矫正，并对矫正后的logR的中位值平移到0值；

(f)对于矫正后的logR值，在去除目标基因相关探针后计算余下所有CNV相关探针logR值的sd值作为该目标基因的背景噪音水平；

(g)按照如下规则判定目标基因是否存在CNV：

当样本为整倍体时，

当待检测样本存在多条染色体上大量SNP位点的BAF分离现象时表明该样本存在非整倍体扩增或缺失现象(即非整倍体时)，

此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值T₅则判定该基因存在扩增，如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值T₆则判定该基因存在缺失，

其中所述阈值T₁例如为0.2，T₂例如为-0.2，T₃例如为0.2，T₄例如为-0.2，T₅例如为0.3，和T₆例如为-0.3。

在第二方面，本公开内容提供了一种联合检测样本中目标基因的SNV、CNV和FUSION的方法，所述方法包括SNV检测、CNV检测和FUSION变异检测，其中CNV检测根据第一方面所述的任一种方法进行。

在第三方面，本公开内容提供了一种用于联合检测样本中的SNV、CNV和FUSION变异的装置，所述联合检测根据第二方面所述的任一种方法进行。

在第三方面的一个实施方案中，所述用于联合检测样本中的SNV、CNV和FUSION变异的装置包括：

测序数据读入模块，用于将原始测序数据比对到参考基因组并排序及去冗余；

SNV检测模块，用于检测样本中的所有SNV；

CNV检测模块，用于检测样本中目标基因的CNV；

FUSION变异检测模块，用于检测样本中的所有FUSION变异；和

结果输出模块，用于整合SNV检测模块、CNV检测模块和FUSION变异检测模块的结果并输出，

其中CNV检测模块包括以下模块：

BAF计算模块，用于实施步骤(a)计算每个SNP位点的BAF值；

BAF矫正模块，用于实施步骤(b)对BAF进行样本间矫正；

BAF分离鉴定模块，用于实施步骤(c)鉴定目标基因上的BAF是否存在分离，以及各染色体上是否存在BAF分离以评估全基因组的倍型完整程度；

测序深度计算模块，用于实施步骤(d)统计原始测序深度并计算目标基因的logR值；

logR矫正模块，用于实施步骤(e)矫正logR值；

logR背景噪音计算模块，用于实施步骤(f)计算logR的背景噪音水平；和

CNV判定模块，用于实施步骤(g)按照如下规则判定目标基因是否存在CNV：

当样本为整倍体时，

当样本为非整倍体时，

在一个实施方案中，在将原始测序数据比对到参考基因组并排序及去冗余之前，还包括选择SNP位点并设计CNV探针的步骤。

在一个实施方案中，步骤(c)包括：利用预先生成的BAF基线文件对计算的BAF值进行矫正，使得各杂合SNP的BAF在大量样本间的中值在0.5。

在一个实施方案中，所述样本为血浆cfDNA。

在第四方面，本公开内容提供了一种用于实施根据第一方面和第二方面所述的任一种方法的计算机系统，其包括：

输入设备，用于输入样本核酸序列的测序信息；

计算机存储器，用于存储计算机程序指令；

计算机处理器，用于执行所述计算机程序指令，其中所述计算机程序指令实施单独的CNV检测或SNV、CNV和FUSION变异的联合检测，并将结果传输到输出设备；和

输出设备，用于显示所述结果。

在第五方面，本公开内容提供了一种计算机可读介质，其中

所述计算机可读介质存储有计算机程序，

其中所述计算机程序能被计算机处理器执行以实施根据第一方面和第二方面所述的任一种方法。

下列描述和实施例详细阐述了本发明的实施方案。要理解的是，本发明不限于本文所述的具体实施方案并因此可改动。本领域技术人员将认识的是，存在本发明的许多变动和修改，所述变动和修改均包含在其范围之内。

附图说明

图1是根据本公开内容的一个实施方案的基于BAF+logR的CNV检测方法；

图2是根据本公开内容的一个实施方案的多基因突变联检的功能模块构成，用于联合检测SNV、CNV和FUSION变异。

具体实施方式

因此，本发明提供了一种基于BAF+logR信息，高灵敏度高特异性检测CNV的方法，该方法结合BAF与测序深度的信息，可以有效提高cfDNA中CNV的阳性检出率。在此基础上，本发明提供了一种联合检测SNV、CNV和FUSION变异的方法和装置，以有效检测ctDNA占比极低的样本中的SNV、CNV及FUSION变异，尤其是低拷贝数扩增的CNV变异。

为了提高CNV检测的灵敏度，本发明在目标基因附近一定基因组范围内选择了若干在人群中高度杂合且GC含量在一定范围内的SNP位点并设计CNV探针，同时在全基因组范围内选择了若干在人群中高度杂合且极少存在CNV且GC含量在一定范围内的SNP位点并设计CNV探针，所选的SNP位点用于统计目标基因及基因组范围内的BAF值；同时针对目标基因的所有外显子区域设计CNV探针用于计算测序深度，经矫正后利用BAF+logR算法检测目标基因的CNV。

BAF即B等位基因频率 (B Allele Frequency)，在人的基因组中，每条染色体都存在两个拷贝，因而对于每一个SNP(单核苷酸多态性位点)，其在基因组上存在三种可能的形式，即AA、AB、BB型，对应的BAF分别为0、0.5、1。如果该区域发生拷贝数变异，例如其中一条染色体的该区域发生扩增使得该区域变为3个拷贝，则存在AAA、AAB、ABB、BBB四种倍型，对应的BAF分别为0、0.33、0.67、1。因而在等位基因SNP杂合的情况下，偏离0.5附近的BAF可以表征目标区域是否存在CNV及其可能的倍型，结合测序深度信息可以更为准确的检测CNV。

在本公开内容的第一方面的一个具体实施方案中，提供了一种检测样本中目标基因的CNV的方法，所述方法包括以下步骤：

(aa)将样本原始测序数据比对到参考基因组上，生成BAM文件；

(c)利用预先生成的BAF基线文件对计算的BAF值进行矫正，使得各杂合SNP的BAF在大样本间的中值在0.5；

(g)按照如下规则判定目标基因是否存在CNV：

当样本为整倍体时，

参考图1，上述方法可以以包括若干功能模块的装置呈现，作为一个非限制性实例，这些功能模块包括：测序数据读入模块、BAF计算模块、BAF矫正模块、BAF分离鉴定模块、测序深度计算模块、logR矫正模块、logR背景噪音计算模块、CNV判定模块、结果输出模块。以下详细描述这些功能模块。

测序数据读入模块：用于读入本发明所提供的试剂盒探针捕获的文库经NGS测序后产生的原始测序数据，进而利用比对软件如bwa进行比对生成BAM文件并进行排序、去冗余。

BAF计算模块：利用测序数据读入模块所产生的BAM文件及CNV相关SNP位点文件作为输入，计算每个位点的BAF值并输出。

BAF矫正模块：利用BAF计算模块输出的BAF值及本发明所提供试剂盒在大规模样本中针对每个CNV SNP位点的BAF所产生的基线文件作为输入，对样本中每个SNP位点的BAF进行样本间矫正，排除实验因素引入的误差，并输出矫正后的BAF值。

BAF分离鉴定模块：利用BAF矫正模块所产生的BAF值作为输入，鉴定目标基因相关的SNP位点是否存在BAF分离的情况以及基因组倍型完整度。当目标基因上存在杂合SNP时，杂合SNP的BAF如果不在0.5附近，则表明该目标基因存在拷贝数变异，其BAF偏离0.5的程度与目标基因的倍型及肿瘤纯度相关，例如当肿瘤纯度为100%时，BAF分布在0.33或0.67附近时表明该基因存在3个拷贝；当肿瘤纯度为50%时，BAF分布在0.33或0.67附近时表明该基因存在LOH。因而仅有BAF的信息无法尚确定目标存在扩增或缺失。如果基因组上同时存在大量区域的BAF分离现象，则表明该样本的基因组为非整倍体，即可能存在非整倍体扩增现象。

测序深度(depth)计算模块：利用测序数据读入模块所产生的BAM文件及CNV相关探针文件作为输入，计算每条探针的原始测序深度信息并输出。

logR矫正模块：利用测序深度计算模块输出的测序深度信息及本发明所提供试剂盒在大规模正常人样本中所产生的测序深度信息作为输入对原始测序深度利用GAM进行矫正，同时在样本内进行logR转换，并利用样本内所有CNV探针logR的中位值进行归零矫正，输出矫正后的logR值。

LogR背景噪音计算模块：利用logR矫正模块输出的矫正后的logR值信息及CNV检测目标基因集作为输入评估每个目标基因的背景噪音水平，统计除去该目标基因所有探针后logR的sd值作为该目标基因的背景噪音水平并输出。

CNV判定模块：利用BAF矫正模块、logR矫正模块及logR背景噪音计算模块所产生的BAF、logR值及噪音水平作为输入判定目标基因是否存在CNV及相对拷贝数。当待检测样本不存在多条染色体上大量SNP位点的BAF分离现象时表明该样本为完整的二倍体样本，此时如目标基因存在BAF分离现象表明该基因存在CNV，此时如该基因的中位logR大于该基因的背景噪音水平或高于给定阈值则判定该基因存在扩增，如该基因的中位logR小于该基因的背景噪音水平的相反数或小于给定阈值则判定该基因存在缺失。当待检测样本为完整的二倍体样本，此时如果目标基因不存在BAF分离现象，此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值则判定该基因存在扩增，如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值则判定该基因存在缺失。当待检测样本存在多条染色体上大量SNP位点的BAF分离现象时表明该样本存在非整倍体扩增或缺失现象，此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值则判定该基因存在扩增，如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值则判定该基因存在缺失。

结果输出模块：用于绘制CNV相关分析图及输出最终CNV结果。

在一个具体实施方案中，所述判断目标基因BAF是否存在分离的规则如下：

如目标基因上存在大于给定阈值数目的杂合SNP位点，比如5，则判断目标基因所有杂合SNP中是否存在连续的给定阈值数目的杂合SNP位点，

使得这些连续的杂合SNP位点的BAF同时分布在0.5的两侧，且分布在0.5两侧的任意两个SNP对应BAF之间的差值大于给定阈值，如0.1；或

使得这些连续的杂合SNP位点的BAF仅分布在0.5的单侧，且任意单个SNP对应BAF与0.5之间的差值大于给定阈值，如0.1；

如满足上述条件，即判定目标基因存在BAF分离，否则判定不存在BAF分离。

在一个具体实施方案中，所述判定基因组倍型是否完整的规则如下：

对于任意一条染色体，如其包含的所有杂合SNP中存在任意SNP的BAF与0.5之间的差值大于给定阈值，如0.1，则判定该染色体存在CNV；如果同时存在CNV的染色体数据大于给定阈值，如5，则判定该样本基因组倍型不完整；反之，则倍型完整。

在一个具体实施方案中，所述判定目标基因是否存在CNV的规则如下：

如果该样本基因组倍型完整，

如果目标基因的BAF存在分离，

此时如果目标基因对应所有探针的中位logR值大于该基因对应背景噪音水平或者大于给定阈值，如0.2，则判定该基因存在CNV扩增；此时如果目标基因对应所有探针的中位logR值小于该基因对应背景噪音水平的相反数或者小于给定阈值，如-0.2，则判定该基因存在CNV缺失；或

如果目标基因的BAF不存在分离，

此时如果目标基因对应所有探针的中位logR值大于该基因对应背景噪音水平且大于给定阈值，如0.2，则判定该基因存在CNV扩增；此时如果目标基因对应所有探针的中位logR值小于该基因对应背景噪音水平的相反数且小于给定阈值，如-0.2，则判定该基因存在CNV缺失；或

如果该样本基因组倍型不完整，

此时如果目标基因对应所有探针的中位logR值大于该基因对应背景噪音水平且大于给定阈值，如0.3，则判定该基因存在CNV扩增；此时如果目标基因对应所有探针的中位logR值小于该基因对应背景噪音水平的相反数且小于给定阈值，如-0.3，则判定该基因存在CNV缺失。

在本公开内容的第二方面的一个具体实施方案中，提供了提供了一种联合检测样本中目标基因的SNV、CNV和FUSION的方法，所述方法包括SNV检测、CNV检测和FUSION变异检测，其中CNV变异检测根据第一方面所述的任一种方法进行。

在本公开内容的第三方面的一个具体实施方案中，提供了一种用于联合检测样本中的SNV、CNV和FUSION变异的装置，所述联合检测根据第二方面所述的任一种方法进行。

SNV检测模块，用于检测样本中的所有SNV；

CNV检测模块，用于检测样本中目标基因的CNV；

FUSION变异检测模块，用于检测样本中的所有FUSION变异；和

其中CNV检测模块包括以下模块：

BAF计算模块，用于实施步骤(a)计算每个SNP位点的BAF值；

BAF矫正模块，用于实施步骤(b)对BAF进行样本间矫正；

logR矫正模块，用于实施步骤(e)矫正logR值；

当样本为整倍体时，

当样本为非整倍体时，

参考图2，该第三方面的装置可以包括若干功能模块，作为一个非限制性实例，这些功能模块包括：测序数据读入模块，用于将原始测序数据比对到参考基因组并排序及去冗余；SNV检测模块，用于检测样本中的所有SNV；CNV检测模块，用于检测样本中目标基因的CNV；FUSION变异检测模块，用于检测样本中的所有FUSION变异；和结果输出模块，用于整合SNV检测模块、CNV检测模块和FUSION变异检测模块的结果并输出。

输入设备，用于输入样本核酸序列的测序信息；

计算机存储器，用于存储计算机程序指令；

输出设备，用于显示所述结果。

在第五方面，本公开内容提供了一种计算机可读介质，其中

所述计算机可读介质存储有计算机程序，

本文所用的术语仅以描述具体的实施方案为目的而不意图限制本发明。除非上下文另有明确指示，否则本文所用的单数形式“一”、“一个”和“所述”也意图包括复数形式。此外，开放式的表述“包括”和“包含”解释为还可以含有没有述及的结构组成部分或方法步骤，但需要注意的是，该开放式的表述也涵盖仅由所述的组分和方法步骤组成的情形(即涵盖了封闭式表述“由……组成”的情形)。

如全文所用，范围用作描述该范围内的每个数值和所有数值的简写形式。范围内的任何数值例如整数值、以十分之一递增的值(当范围的端值为小数点后一位时)或以百分之一递增的值(当范围的端值为小数点后二位时)都可选做该范围的终点。例如，范围0.1-10用作描述该范围内的所有数值，例如0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8……9.5、9.6、9.7、9.8、9.9和10 (以十分之一递增的值)，并且包括所有子范围，例如0.1-1.0、2.0-3.0、4.0-5.0、6.0-7.0、8.0-9.0等。

本说明书中提及的所有科学技术术语具有与本领域技术人员通常理解的含义相同的含义，在冲突的情况下以本说明书中的定义为准。为了使本发明的描述更易于理解，以下先对一些术语进行解释说明。

本文所述的术语“建库”又称文库构建，是指，对于血液、体液或粪便等样本中存在的cfDNA进行修复并连接到一段已知DNA片段即adapter序列(也称为接头)上，从而可以用于在illumina设备上进行高通量DNA测序的过程。本发明中所称“建库”是指用于高通量测序的建库。

本文所述的术语“高通量测序”又可以称为下一代测序技术(Next GenerationSequencing, NGS)、大规模平行测序(Massively Parallel Sequencing(MPS))，是指采用“边合成边测序”的原理、对于几十万到几百万DNA分子同时进行平行的测序反应，然后通过生物信息学分析所得到的原始图像数据或电化学信号、最终得到待测样品的核酸序列或拷贝数等信息的测序技术，又称为高通量测序、深度测序、二代测序等。高通量测序的基本程序是将待测DNA随机打断成小片段，经末端修复、连接接头序列、PCR等步骤进行文库构建，最后使用Illumina，Ion Torrent等测序仪进行测序。

本文所述的术语“捕获测序”是指利用生物素标记的DNA或RNA探针，对DNA样本中的目标片段进行捕获，并进行测序的技术。

本文所述的术语“cfDNA”，又称游离DNA(cell free DNA)，是指存在血浆或血清、脑脊液等细胞外游离状态的核酸片段，约160-180bp，是细胞DNA在生理或病理条件下的产物。cfDNA可通过分泌或细胞死亡过程释放到循环中，例如细胞坏死或凋亡。某些cfDNA为ctDNA (见下文)。

本文所述的术语“循环肿瘤DNA (circulating tumor DNA, ctDNA)”是指起源于肿瘤的游离DNA (cfDNA)级分。

本文所述的术语“突变”是指在生物或细胞的基因组中的遗传改变。例如，目的突变可以是相对于生物生殖系的变化，例如癌细胞特异性变化。突变可包括单核苷酸变异(SNV)、拷贝数变异(CNV)、单核苷酸多态性(SNP)、插入、缺失和重排(例如FUSION(融合))。

本文所述的术语“SNV (single nucleotide variant，单核苷酸变异)”是一种体细胞单核苷酸突变。

本文所述的术语“CNV(Copy Number Variation，拷贝数变异)”是指由基因组发生重排而导致的，一般指长度为1kb以上的基因组大片段的拷贝数增加或者减少。

本文所述的术语“FUSION (融合)”是指两个或多个基因的编码区或非编码区断裂，重新首尾相连，置于同一套调控序列。

本文所述的术语“SNP”，即单核苷酸多态性(Single Nucleotide Polymorphism)，是指由于单个核苷酸改变而导致的核酸序列多态性。一般来说，一个SNP位点只有两种等位基因，因此又叫双等位基因。SNP在人类基因组中的发生频率比较高，大约平均每1000个碱基中就有一个多态性位点。

本文所述的术语“癌症”和“肿瘤”在本文中可交换使用以及可以指表现出自发的不受调控生长的细胞或组织，由此所述细胞或组织表现出以增加的细胞增殖(例如显著的细胞增殖)为特征的异常生长。用于本申请的检测、分析或处理的目的细胞可包括但不限于癌前细胞(例如良性细胞)、恶性细胞、转移前细胞、转移性细胞和非转移性细胞。事实上各组织的癌症均为本领域技术人员已知的，包括实体瘤，例如肉瘤、成胶质细胞瘤、黑素瘤、淋巴瘤、骨髓瘤等，以及循环癌症，例如白血病。癌症的实例包括但不限于卵巢癌、乳腺癌、结肠癌、肺癌、前列腺癌、肝细胞癌、胃癌、胰腺癌、子宫颈癌、卵巢癌、肝癌、膀胱癌、泌尿道癌、甲状腺癌、肾癌、癌瘤、黑素瘤、头颈癌和脑癌。

虽然上文已描述了本发明的各种实施方案，但是应理解的是，其仅以实例的方式提供，而并非限制。对公开的实施方案的许多改变可依照本文的公开内容来进行，而不会背离本发明的精神或范围。因此，本发明的广度和范围不应受到任何上述的实施方案所限制。

本文提及的所有文献都通过引用结合到本文中。本申请引用的所有出版物和专利文件都为所有目的而通过引用结合，引用程度如同单独地指出各个出版物或专利文件一样。

实施例

除非另外说明，否则本文实施例所用的材料均市购获得，用于进行实验的各种具体实验方法均为本领域常规的实验方法或者按照制造商所建议的步骤和条件，并能由本领域技术人员根据需要常规地确定。

实施例1

血液中多基因突变联检试剂盒的探针设计方案

根据FDA肿瘤治疗用药指南等公开信息报导选取了肺肠癌相关存在CNV的重要基因如MET、ERBB2，以MET及ERBB2基因范围为中心，在长度为1Mb的基因组范围选择东亚人群频率在0.4-0.6之间、GC含量在0.3-0.7之间的SNP位点；同时在全基因组范围内选择500个东亚人群频率在0.4-0.6之间、GC含量在0.4-0.6之间、且在人群间倍型高度稳定的SNP位点。针对所选的这些SNP位点及MET、ERBB2的外显子范围设计捕获探针，探针长度120nt，目标区域保持两层探针覆盖。

根据FDA肿瘤治疗用药指南等公开信息报导选取了肺肠癌相关存在SNV的重要基因如EGFR、MET、KRAS、NRAS、BRAF、ERBB2、ALK、KIT、TP53、RB1，针对其用药突变位点设计捕获探针，探针长度120nt，目标区域保持两层探针覆盖。

根据FDA肿瘤治疗用药指南等公开信息报导选取了肺肠癌相关存在Fusion的重要基因如ALK、RET、ROS1、FGFR2、NTRK1、NTRK2、NTRK3，从COSMIC等数据库中选择其常见融合断点所在内含子区域，针对这些内含子区域设计捕获探针，探针长度120nt，目标区域保持两层探针覆盖。

上述探针合成后按相同浓度混合用于cfDNA文库捕获，捕获的文库用于NGS测序。

实施例2

血液中多基因突变联检试剂盒的建库方案

1. 末端修复反应液配制

先从冰箱-20℃取出下列试剂，解冻后震荡混匀，单个样本配制量参见表1。

表1：

	体积
		cfDNA	25µL
10X末端修复酶缓冲液	3µL
		末端修复酶	1.5µL
总体积	29.5µL

2. 末端修复反应

向200uL离心管中加入4.5uL分装好的Mix后按照表2程序进行反应。

表2：

步骤	温度	时间
			1	20℃	30min
2	4℃	∞

3. 连接1反应Mix配制

先从冰箱-20℃取出下列试剂，解冻后震荡混匀，单个样本配制量参见表3。

表3：

	体积
		连接缓冲液1	12.5µL
连接接头1	1µL
		连接酶1	1.5µL
总体积	15µL

配制后放置于冰盒上备用。

4. 纯化

末端修复反应结束后使用1.8X Ampure磁珠进行纯化，使用15uL连接1反应Mix回溶磁珠，并保证磁珠充分混匀。

5. 连接1反应

将PCR管放置于PCR仪上，按照表4进行反应：

表4：

步骤	温度	时间
			1	20℃	15min
2	65℃	15min
			3	4℃	∞

6. 连接2反应Mix配制

先从冰箱-20℃取出下列试剂，解冻后震荡混匀，单个样本配制量参见表5。

表5：

	体积
		连接缓冲液2	2.25µL
连接接头2	2µL
		连接酶2A	0.25µL
连接酶2B	0.5µL
		总体积	5µL

7. 连接2反应

于PCR管中加入5uL连接2反应Mix后混匀保证磁珠充分重悬，并按照表6程序进行反应。

表6：

步骤	温度	时间
			1	65℃	30min
2	4℃	∞

8. 纯化

于PCR管中加入2.5X PEG/NaCl溶液进行纯化，回溶于21uL NF水中并转移20uL至新的PCR管备用。

9. PCR扩增反应液配制

按照表7配制PCR反应液：

表7：

	体积
		连接产物	20uL
UDI primer Pairs	5µL
		Hifi HotStart ReadyMix	25µL
总体积	50µL

10. PCR反应

按照表8的程序进行PCR反应：

表8：

11. 纯化

PCR反应结束后使用1.3X Ampure磁珠进行纯化，最后使用30Ul NF水回溶。

12. 文库质检

使用4150芯片和Qubit进行文库片段大小和浓度的检验。

13. 杂交：

13.1. 杂交文库准备

将待杂交文库放置于冰上融化后，取2ug置于1.5mL EP管中，再加入5uL HumanCot-1 DNA和1uL Blocking Oligo Mix后真空浓缩至干燥。

13.2. 杂交Mix配制

按照表9配制杂交反应Mix。

表9：

	体积
		2X 杂交反应buffer	8.5uL
杂交反应增强液	2.7uL
		Probe	2uL
NF水	3.8uL
		总体积	17uL

13.3. 杂交反应

加入17uL杂交反应Mix，吹吸混匀后离心将Mix收集到管底，然后避光静置10min重溶。

将重溶后的反应Mix转移至0.2mL离心管中，按照表10的反应程序进行杂交：

表10：

程序	时间
		95℃	30S
65℃	16h
		65℃	Hold

13.4. 洗脱

1)按照表11配制1X捕获buffer：

表11：

	NF水	Buffer
			2X Beads Wash buffer	160	160
10X Wash buffer 1	252	28
			10X wash buffer 2	144	16
10X wash buffer 3	144	16
			10X Stringent Wash buffer	288	32

2)将Dynabeads® M270 Streptavidin C1从4℃冰箱取出，室温平衡30min；

3)将M270涡旋均匀后取出50ul放置于1.5mL离心管，将离心管静置于磁力架上，Beads完全分离后去掉上清；

4)加入100ul 1xBeads Wash Buffer，涡旋均匀10sec后静置于磁力架上，Beads完全分离后去掉上清，共清洗3次；

5)按照表12配制磁珠重悬缓冲液。

表12：

	NF水
		2X 杂交反应buffer	8.5uL
杂交反应增强液	2.7uL
		NF水	5.8uL
总体积	17uL

6) 将17ul磁珠重悬缓冲液加入至磁珠中，涡旋均匀后分装到0.2ml PCR管中；

7)杂交反应持续16h后，将17ul重悬后的M270磁珠加入到PCR仪上的杂交管中，涡旋混匀，然后放回PCR仪上65℃继续孵育45min，期间每12min短暂震荡约3S；

8)孵育结束后加入100ul预热的1x Wash Buffer Ⅰ，短暂震荡约3S，然后转移到1.5ml LoBind离心管中，震荡大约3sec后短暂离心并立即静置于磁力架上，大约20s后Beads完全分离，立即去掉上清；

9)加入150ul预热的1xStringent Wash Buffer，吹吸10次后短暂离心并立即静置于65℃金属浴上孵育5min，然后静置于磁力架上，大约20s后Beads完全分离，立即去掉上清，重复该步骤一次；

10)加入150ul 1x Wash Buffer Ⅰ，振荡2min，后短暂轻离心，然后静置于磁力架上，Beads完全分离后去掉上清；

11)加入150ul 1x Wash Buffer Ⅱ，振荡2min，后短暂轻离心，然后静置于磁力架上，Beads完全分离后去掉上清；

12)加入150ul 1x Wash Buffer Ⅲ，振荡2min，后短暂轻离心，然后静置于磁力架上，Beads完全分离后去掉上清；

13)加入18uL NF水重悬磁珠备用。

13.5. PCR扩增

按照下表进行PCR反应Mix的配制：

表13：

反应组分	体积(ul)
		重悬的beads	20
KAPA HiFi HotStart ReadyMix	25
		P5/P7 primer Mix	5
总计	50

涡旋均匀后进行以下反应：

表14：

13.6. PCR产物回收

加入1.5X Ampure磁珠进行产物回收，最后使用20uL NF水回溶。

13.7. 文库质检

使用4150芯片和Qubit进行文库片段大小和浓度的检验。

14. 上机测序

构建的文库使用CN500进行测序。

实施例3

细胞系混合模拟cfDNA样本中多基因突变检测

将含有EGFR 19del突变的细胞系、含有KRAS G12D突变的细胞系、含有EML4-ALK融合突变的细胞系以及含有MET扩增的细胞系gDNA打断，模拟cfDNA，用阴性细胞系gDNA稀释，使得EGFR 19del、KRAS G12D、EML4-ALK的目标突变丰度分别在0.4%、0.2%及0.1%水平，使得MET扩增的绝对拷贝数分别在10、6、3.5、2.5拷贝数，利用实施例1的试剂盒及实施例2的实验条件建库测序获得原始测序数据。

原始测序数据经bwa比对到参考基因组hg19生成BAM文件，利用sambamba排序去冗余。利用常规方法检测其中SNV、FUSION突变。利用本发明提供的CNV检测方法检测CNV。CNV检测具体步骤如下：

1)从BAM文件中统计CNV相关SNP位点的基因型信息，并计算每个SNP位点的BAF值；

2)利用预先生成的BAF基线文件对计算的BAF值进行矫正，使得各杂合SNP的BAF在大样本间的中值在0.5；

3)鉴定目标基因上的BAF是否存在分离，以及各染色体上是否存在BAF分离以评估全基因组的倍型完整程度；

4)从BAM文件统计CNV相关探针的原始测序深度，并对测序深度进行以2为底的log转换，生成logR值；

5)利用预先生成的logR基线文件及广义相加模型(GAM)对生成的logR值进行矫正，并对矫正后的logR的中位值平移到0值；

6)对于矫正后的logR值，在去除目标基因相关探针后计算余下所有CNV相关探针logR值的sd值作为该目标基因的背景噪音水平；

7)按照如下规则判定目标基因是否存在CNV：

当样本基因组倍型完整时，

此时如目标基因存在BAF分离现象表明该基因存在CNV，此时如该基因的中位logR大于该基因的背景噪音水平或高于给定阈值则判定该基因存在扩增，如该基因的中位logR小于该基因的背景噪音水平的相反数或小于给定阈值则判定该基因存在缺失；

或此时如果目标基因不存在BAF分离现象，此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值则判定该基因存在扩增，如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值则判定该基因存在缺失；

当样本基因组倍型不完整时，

此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值则判定该基因存在扩增，如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值则判定该基因存在缺失。

所述预先生成的BAF基线文件构建规则如下：

利用本发明实施例1中提供的试剂盒对300例正常人样本建库测序，比对后统计各CNV相关SNP位点的BAF值，统计杂合位点BAF分布的中值，该中值与0.5之间的差别作为对应SNP位点BAF的基线值。

所述预先生成的logR基线文件构建规则如下：

利用本发明实施例1中提供的试剂盒对30例正常人样本建库测序，比对后统计各CNV相关探针的logR值并进行样本内logR的中值归零矫正，统计每条探针logR的中值，作为对应探针logR的基线值。

所述判断目标基因BAF是否存在分离的规则如下：

如目标基因上存在大于给定阈值数目的杂合SNP位点，比如5，则判断目标基因所有杂合SNP中是否存在连续的给定阈值数据的杂合SNP位点，

所述判定基因组倍型是否完整的规则如下：

所述判定目标基因是否存在CNV的阈值如下：

如果该样本基因组倍型完整，

如果目标基因的BAF存在分离，

如果目标基因的BAF不存在分离，

如果该样本基因组倍型不完整，

表15显示了细胞系混样SNV、FUSION检测结果，其中阳性表示检出变异，阴性表示未检出。表16显示了细胞系混样CNV检测结果，其中扩增阳性表示检出MET存在CNV扩增。

表15：

注：VAF为变异等位基因分数(Variant Allele Fraction)。

表16：

突变类型	ddPCR拷贝数	NGS拷贝数	检测结果
				MET扩增	10	10.14	扩增阳性
MET扩增	10	10.1	扩增阳性
				MET扩增	5.8	6.21	扩增阳性
MET扩增	5.8	6.16	扩增阳性
				MET扩增	3.5	3.7	扩增阳性
MET扩增	3.5	3.76	扩增阳性
				MET扩增	2.5	2.78	扩增阳性
MET扩增	2.5	2.79	扩增阳性

实施例4

临床血液样本中多基因突变联检

将含有EGFR 19del突变的临床血液样本、含有EGFR L858R突变的临床血液样本、含有EGFR T790M突变的临床血液样本、含有KRAS G12D突变的临床血液样本、含有KRASG13D突变的临床血液样本、含有BRAF V600E突变的临床血液样本、含有EML4-ALK融合突变的临床血液样本以及含有MET扩增的临床血液样本cfDNA以及利用阴性细胞系提取的gDNA打断模拟cfDNA稀释，使用ddPCR对各突变进行定量，使用实施例1中提供的试剂盒及实施例2和3中提供的建库测序方法及检测方法检测。

表17显示了临床样本SNV、FUSION检测结果，其中阳性表示检出变异，阴性表示未检出。表18显示了临床样本CNV检测结果，其中，扩增阳性表示检出MET存在CNV扩增。

这些实验结果表明，利用本发明的方法，成功实现了ctDNA占比极低的样本中的SNV、CNV及FUSION变异，尤其是低拷贝数扩增的CNV变异的有效检测。

表17：

突变类型	ddPCR VAF	变异支持数	NGS VAF	检测结果
					BRAF V600E	0.18%	8	0.12%	阳性
KRAS G12D	0.22%	15	0.25%	阳性
					KRAS G13D	0.20%	8	0.13%	阳性
EGFR L858R	0.20%	14	0.20%	阳性
					EGFR L858R	0.17%	13	0.19%	阳性
EGFR T790M	0.19%	8	0.13%	阳性
					EGFR T790M	0.27%	7	0.11%	阳性
EGFR T790M	0.26%	8	0.12%	阳性
					EGFR 19del	0.18%	22	0.38%	阳性
EGFR 19del	0.18%	12	0.20%	阳性
					EML4-ALK	0.20%	26	0.26%	阳性
EML4-ALK	0.40%	49	0.49%	阳性
					EML4-ALK	0.80%	110	1.14%	阳性

表18：

突变类型	ddPCR拷贝数	NGS拷贝数	检测结果
				MET 扩增	2.99	3.13	扩增阳性
MET 扩增	2.48	2.79	扩增阳性
				MET 扩增	5.22	4.55	扩增阳性
MET 扩增	3.17	3.26	扩增阳性
				MET 扩增	2.49	2.88	扩增阳性
MET 扩增	4.95	4.66	扩增阳性
				MET 扩增	2.97	3.22	扩增阳性
MET 扩增	2.41	2.83	扩增阳性

虽然上文已描述了本发明的各种实施方案，但是应理解的是，其仅以实例的方式提供，而并非限制。在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都将落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims

1.一种用于联合检测样本中的SNV、CNV和FUSION变异的装置，所述装置包括：

SNV检测模块，用于检测样本中的所有SNV；

CNV检测模块，用于检测样本中目标基因的CNV；

FUSION变异检测模块，用于检测样本中的所有FUSION变异；和

其中CNV检测模块包括以下模块：

BAF计算模块，用于实施步骤(a)计算每个SNP位点的BAF值；

BAF矫正模块，用于实施步骤(b)利用预先生成的BAF基线文件对计算的BAF值进行矫正，使得各杂合SNP的BAF在大样本间的中值在0.5；

判断目标基因BAF是否存在分离的规则如下：

如目标基因上存在的杂合SNP位点数目大于5，则判断目标基因所有杂合SNP中是否存在连续的所述数目的杂合SNP位点，

使得这些连续的杂合SNP位点的BAF同时分布在0.5的两侧，且分布在0.5两侧的任意两个SNP对应BAF之间的差值大于0.1；或

使得这些连续的杂合SNP位点的BAF仅分布在0.5的单侧，且任意单个SNP对应BAF与0.5之间的差值大于0.1；

如满足上述条件，即判定目标基因存在BAF分离，否则判定不存在BAF分离，

logR矫正模块，用于实施步骤(e)利用预先生成的logR基线文件及广义相加模型(GAM)对生成的logR值进行矫正，并对矫正后的logR的中位值平移到0值，输出矫正后的logR值；

logR背景噪音计算模块，用于实施步骤(f)利用logR矫正模块输出的矫正后的logR值信息及CNV检测目标基因集作为输入评估每个目标基因的背景噪音水平，统计除去该目标基因所有探针后logR的sd值作为该目标基因的背景噪音水平并输出；和

当样本为整倍体时，

当样本为非整倍体时，

所述阈值T₁为0.2，T₂为-0.2，T₃为0.2，T₄为-0.2，T₅为0.3，和T₆为-0.3，

并且所述样本为血浆cfDNA。

2.根据权利要求1所述的装置，其中在将原始测序数据比对到参考基因组并排序及去冗余之前，还包括选择SNP位点并设计CNV探针的步骤。

3.根据权利要求1所述的装置，其中对于完整二倍体样本的杂合SNP，其BAF值与0.5的差值大于给定阈值0.05、0.1、0.15或0.2则表明存在CNV。

4.根据权利要求1-3中任一项所述的装置，其中如果大于4条或5条染色体上同时存在大量SNP位点的BAF分离现象，则表明该样本的基因组为非整倍体；反之则表明该样本的基因组为整倍体。

5.根据权利要求1-3中任一项所述的装置，其中所述目标基因选自EGFR、MET、KRAS、NRAS、BRAF、ERBB2、ALK、KIT、TP53、RB1、RET、ROS1、FGFR2、NTRK1、NTRK2和NTRK3。