CN105925665A

CN105925665A - 试剂盒、建库方法以及检测目标区域变异的方法及系统

Info

Publication number: CN105925665A
Application number: CN201610196118.5A
Authority: CN
Inventors: 韩颖鑫; 张印新; 王佳伟; 高晓峘; 张春生; 李胜
Original assignee: Guagnzhou Jingke Biotech Co ltd
Current assignee: Guangzhou Jingke Medical Laboratory Ltd
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2016-09-07

Abstract

本发明提供一种试剂盒，其包含探针，所述探针固定在固相基质上或者所述探针游离于溶液中，所述探针能够特异性识别目标区域，其中，所述目标区域包括下列之一：表1所示147个基因中的至少之一；或表1中所述至少一种基因的CDS区域；或表1中所述至少一种基因的CDS区域的上下游至少10‑200bp的区域。发明还提供试剂盒的用途、一种构建目标区域测序文库的方法、一种测序方法、一种检测目标区域变异的方法及系统。利用本发明的试剂盒和/或本发明的方法及系统，能够一次性、简单方便且高特异性的获取肺癌的相关基因序列，能够准确检测分析这些相关基因序列，使检测分析结果可以辅助用于肺癌的研究。

Description

试剂盒、建库方法以及检测目标区域变异的方法及系统

技术领域

本发明涉及生物医学领域，具体的，涉及试剂盒及其用途，更具体的，本发明涉及一种试剂盒、试剂盒的用途、一种构建目标区域测序文库的方法、一种测序方法以及一种检测目标区域变异的方法及系统。

背景技术

原发性肺癌(以下简称肺癌)是我国最常见的恶性肿瘤之一。全国肿瘤登记中心2014年发布的数据显示,2010年,我国新发肺癌病例60.59万(男41.63万,女性18.96万),居恶性肿瘤首位(男性首位,女性第2位),占恶性肿瘤新发病例的19.59％(男性23.03％,女性14.75％)。肺癌发病率为35.23/10万(男性49.27/10万,女性21.66/10万)。同期,我国肺癌死亡人数为48.66万(男性33.68万,女性16.62万),占恶性肿瘤死因的24.87％(男性26.85％,女性21.32％)。肺癌死亡率为27.93/10万(男性39.79/10万,女性16.62/10万)。

肿瘤的发生发展是一个长期缓慢的过程，目前肿瘤诊疗的困境主要在于：早期诊断困难，错过最佳治疗时机；易复发转移，预后较差；放化疗易产生耐受及缺乏有效的治疗靶点等。肿瘤的防控重在预防。统计显示，癌前阶段的筛查可实现接近100％的预防，早期癌症可实现80％的治愈率，晚期癌症的五年生存率仅有30％。因此早期筛查是遏制多种肿瘤高发的有效措施之一。因此做到肿瘤的早诊早治，实时监控及个体化诊疗是提高肿瘤远期生存率、降低死亡率的关键。因此寻找用于对肿瘤早期筛查及预后复发监测的特异肿瘤标志物成为重要的课题。

循环DNA是存在于血液、滑膜液等体液中的细胞外游离DNA，研究发现许多肿瘤患者循环DNA与正常人相比有很大差异，由于肿瘤细胞凋亡，癌症患者循环DNA中含有一定的肿瘤标志物。近年来肿瘤患者血液中循环游离DNA的基因检测诊断已成为研究热点，研究显示血液中循环肿瘤DNA有可能成为一种新的肿瘤早期诊断及预后判断的标志物。检测血液中循环游离DNA中的肿瘤标志物检测具有区别于传统组织肿瘤标志物检测方式，具有无创、随时监控和早期筛查等优势，并且对循环游离DNA的取样检测避免了当前分子诊断需要采集癌组织作为标本来源的困难，是一种很有潜力的肿瘤标志物。

如今高通量测序技术已经在医学研究中得到了广泛应用，但由于肺癌发病早期的血浆游离DNA含量较低，而且测序技术本身存在一定的错误率等，因此传统的测序方法将无法分辨测序错误和肿瘤标本中低频率突变，因此开发易操作、低损伤、高准确的技术是肺癌早期检测研究领域攻克的难点。

发明内容

依据本发明的一方面，本发明提供一种试剂盒，其包含探针，所述探针固定在固相基质上或者游离于溶液中，所述探针能够特异性识别目标区域，其中，所述目标区域包括下列之一：

表1所示147个基因中的至少之一；或表1中所述至少一种基因的CDS区域；或表1中所述至少一种基因的CDS区域的上下游至少10-200bp的区域。

本发明另一方面提供一种构建目标区域测序文库的方法，所述方法包括：

(1)获取待测样本中的核酸，所述核酸由多个DNA片段组成，所述DNA片段来自断裂的基因组DNA和/或游离的DNA片段，所述短序列DNA片段具有平末端；

(2)加碱基“A”至所述DNA片段的3’端，获得具有粘性末端A的DNA片段；

(3)连接接头于所述粘性末端片段的两端，获得接头连接片段；

(4)利用第一引物对所述接头连接片段进行第一扩增，获得第一扩增产物；

(5)利用上述试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及，

(6)利用第二引物对所述目标区域进行第二扩增，获得第二扩增产物，所述第二扩增产物构成所述目标区域测序文库。

本发明另一方面提供一种测序方法，所述方法包括：根据上述构建目标区域测序文库的方法构建目标区域测序文库；

对所述目标区域测序文库进行测序，获得测序数据，所述测序数据由多个读段组成；其中，在NextSeq CN500上进行所述测序。

本发明另一方面提供提供一种检测目标区域变异的方法，所述方法包括：(1)利用上述测序方法，获得测序数据，对所述测序数据进行过滤，所述过滤包括去除掉不确定碱基比例超过10％的读段和/或碱基质量值不大于5的碱基数的比例不小于50％的读段；

(2)将所述测序数据与参考序列进行第一比对，获得第一比对结果，去除掉第一比对结果中的一个读段对中的两个读段相同的读段对；将所述第一比对结果与所述参考序列的一部分进行第二比对，获得第二比对结果；对所述比对结果进行再过滤，所述过滤包括去除掉比对中错配碱基数多于3个读段，获得所述目标区域中的SNP、InDel、SV和CNV变异中的至少之一；其中所述参考序列为HG19，所述参考序列的一部分包括目标区域参考序列中的每个已知InDel位点导致的错配区域。

本发明另一方面提供一种检测目标区域变异的系统，包括，

核酸获取装置，用于获取待测样本中的核酸，所述核酸由多个DNA片段组成，所述DNA片段来自断裂的基因组DNA和/或游离的DNA片段，所述DNA片段具有平末端；加碱基A装置，用于加碱基“A”至所述DNA片段的3’端，获得具有粘性末端A的DNA片段；接头连接装置，用于连接接头于所述粘性末端片段的两端，获得接头连接片段；第一扩增装置，用于利用第一引物对所述接头连接片段进行第一扩增，获得第一扩增产物；捕获装置，用于前述含有探针的任一试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及，第二扩增装置，用于利用第二引物对所述目标区域进行第二扩增，获得第二扩增产物；测序装置，用于将所述扩增产物进行测序，获得所述目标区域变异位点信息，变异包括SNP、InDel、SV和CNV变异中的至少一种。

本发明的方法，是一种高灵敏性、高特异性、高通量的方法，能够辅助用于肺癌的相关基因的科学研究。通过使用新一代高通量测序技术，结合本发明一方面的试剂盒包含的能特异性捕获特定目标区域的探针，能够在很短的时间内同时进行多例样本检测，并且可以基于相同数据量进行更高深度的数据挖掘，检测结果特异性高，具较低的假阳性率、假阴性率，能够确保得到的检测结果能够准确的反应受检者的实时外周血状况。而且此芯片中的探针集不仅可以灵活的挑选检测基因，还能随着导致肺癌新基因的发现，加入新的基因，具有很高的性价比和针对性。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1显示了根据本发明的一个实施例，构建目标区域测序文库的方法的流程图。

具体实施方式

本发明人经过广泛而深入的研究，首次建立了一种测定目标区域变异的方法。具体而言，本发明人根据现有疾病基因的信息，设计了固定有多种疾病特异性探针的核酸芯片；对待测样本中游离的、片段化的、源自基因组DNA的双链核酸分子的末端加入接头，并进行富集；用核酸芯片对含接头的DNA片段进行捕获，将捕获的片段在高通量测序平台进行测序，基于已知的基因位点信息，对测序结果进行分析，得到目标区域核酸变异的信息。

本发明中的“变异”、“核酸变异”、“基因变异”可通用，本发明中的“SNP”(SNV)、“CNV”、“插入缺失”(indel)和“结构变异”(SV)同通常定义，但本发明中对各种变异的大小不作特别限定，这样这几种变异之间有的有交叉，比如当插入/缺失的为大片段甚至整条染色体时，也属于发生拷贝数变异(CNV)或是染色体非整倍性，也属于SV。这些类型变异的大小交叉并不妨碍本领域人员通过上述描述执行实现本发明的方法和/或装置并且达到所描述的结果。

本发明中的“参考序列”为已知基因组序列或者已知基因组序列的至少一部分，本发明中所使用的“第一”、“第二”等仅为方便描述指代，不能理解为指示或暗示相对重要性，也不能理解为有先后顺序关系。本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

CDS区域即编码区域，编码区是指能够转录信使RNA的部分，它能够合成相应的蛋白质。

获得本发明一方面的试剂盒、实现本发明一方面的方法，一般包括目标区域捕获探针/芯片的设计、微量样本建库及杂交上机测序、下机数据的生物信息分析和变异数据解读。

一种试剂盒，其包含探针，所述探针固定在固相基质上或者所述探针游离于溶液中，所述探针能够特异性识别目标区域，其中，所述目标区域包括：

表1

在本发明的一个实施例中，目标区域包括表1所示147个基因中的至少10、20、30、50、100个基因。在本发明的一个实施例中，目标区域包括表1所示147个基因的全部基因区域。本发明的试剂盒探针能够特异性识别的目标区域，是发明人经过多次收集、多次筛选和多次试验组合获得的，这些目标区域与肺癌的发生发展相关。

进一步的，所述探针的长度为20-120mer。较佳地，50-100mer，更佳地，60-80mer。

在本发明的一个实施例中，所述探针的制备包括如下步骤：确定所述目标区域的参考序列；从所述参考序列的一端开始，在所述参考序列上依次获取DNA片段直至所述参考序列的另一端；将所述DNA片段与所述参考序列比对，获得每一条DNA片段在参考序列上的比对次数，过滤掉比对次数超过1的DNA片段；去除掉GC含量不在30-80％的DNA片段。

其中，一条DNA片段为一条探针，全部所述DNA片段构成探针集，所述DNA片段之间完全重叠、部分重叠或完全不重叠，所述探针集能够覆盖所述目标区域至少一次。

所说的目标区域的参考序列可以从参考基因组上获取，例如从人参考基因组HG19上获得对应目标区域的基因，所有的HG19上的对应的基因构成所说的目标区域的参考序列，HG19可以从NCBI数据库下载。

进一步的，探针的制备还包括：确定所述目标区域在参考基因组上的位置，获取所述目标区域的参考序列，从所述参考序列一端的第一个核苷酸开始拷贝所述参考序列获取第一条DNA片段，从所述参考序列一端的第二个核苷酸开始拷贝所述参考序列获取第二条DNA片段，从所述参考序列一端的第三个核苷酸开始拷贝所述参考序列获取第三条DNA片段，这样依次获取后续DNA片段直至第N条DNA片段的一端超出所述参考序列的另一端，其中，一条DNA片段为一条探针，全部所述DNA片段构成所述探针集，N为所述探针集中包含的探针的总数。

依据本发明的另一方面，本发明提供一种上述任一试剂盒在获取肺癌相关基因序列中的用途。利用本发明一方面的试剂盒能够一次性、简单方便且高特异性的获取肺癌的相关基因序列。

依据本发明的又一方面，本发明提供一种构建目标区域测序文库的方法，所述方法包括：(1)获取待测样本中的核酸，所述核酸由多个DNA片段组成，所述DNA片段来自断裂的基因组DNA和/或游离的DNA片段，所述DNA片段具有平末端；(2)加碱基“A”至所述DNA片段的3’端，获得具有粘性末端A的DNA片段；(3)连接接头于所述粘性末端片段的两端，获得接头连接片段；(4)利用第一引物对所述接头连接片段进行第一扩增，获得第一扩增产物；(5)利用上述试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及，(6)利用第二引物对所述目标区域进行第二扩增，获得第二扩增产物，所述第二扩增产物构成所述目标区域测序文库。

本发明的这一方面的测序文库构建方法，特别适用于样本含微量核酸的测序文库的构建，在本发明的一个实施例中，样本为含微量游离DNA片段的血浆样本，包含极其微量的目标游离DNA片段，第一扩增使得核酸的量能满足芯片/探针杂交捕获的需求，而因芯片杂交捕获会损耗一定量的核酸，第二扩增能使捕获下的目标片段获得再次扩增以满足上机测序和质控检测的要求。本发明的这一文库构建方法特别适用于总游离核酸不低于10ng或者常规组织基因组DNA不低于1μg的样本的测序文库构建，利用本发明的这一方面的方法构建的目标区域文库，测序后的下机数据质量高，基于高质量的下机数据利于后续的准确检测分析。

在本发明的一个实施例中，步骤(1)中所述DNA片段具有平末端是通过末端修复的方法制备。根据本发明的一个实施例，在将DNA片段进行末端修复前，可以进一步包括纯化DNA片段的步骤，由此，使得后续的末端修复易于进行。根据本发明的实施例，将DNA片段进行末端修复可以利用Klenow片段、T4DNA聚合酶和T4多核苷酸激酶进行，其中，所述Klenow片段具有5’—3’聚合酶活性和3’—5’聚合酶活性，但缺少5’—3’外切酶活性。由此，能够方便准确地对DNA片段进行末端修复。根据本发明的实施例，还可以进一步包括对经过末端修复的DNA片段进行纯化的步骤，由此能够方便地进行后续处理。

进一步的，在经过末端修复的DNA片段的3’末端添加碱基A，以便获得具有粘性末端A的DNA片段。根据本发明的一个实施例，可以利用Klenow(3’—5’exo-)，即具有3’—5’外切酶活性的Klenow，在经过末端修复的DNA片段的3’末端添加碱基A。由此，能够方便准确地将碱基A添加到经过末端修复的DNA片段的3’末端。根据本发明的实施例，还可以进一步包括对具有粘性末端A的DNA片段进行纯化的步骤，由此能够方便地进行后续处理。

进一步的，可以使用热启动taq DNA聚合酶对经过转换的目的片段进行PCR扩增。根据本发明的实施例，热启动taq DNA聚合酶的种类不受特别限制，根据本发明的具体示例，热启动taqDNA聚合酶可以为r-taq聚合酶，由此PCR扩增效率高、用时少。

在本发明的一个实施例中，所述第一引物序列如SEQ ID NO:1和SEQ ID NO:2所示；所述第二引物序列如SEQ ID NO:3和SEQ ID NO:4所示。

其中SEQ ID NO:2中“NNNNNNNN”表示标签序列，所述标签序列具有SEQ ID NO：5-8中至少之一所示的序列。

在本发明的一个实施例中，所述方法具有如下特征：所述样本来源于人或动物；所述目标区域为肺癌相关基因区域。

依据本发明的一方面，本发明提供一种测序方法，所述方法包括：根据本发明一方面的测序文库构建方法构建目标区域测序文库；对所述目标区域测序文库进行测序，获得测序数据，所述测序数据由多个读段组成；其中，在NextSeq CN500上进行所述测序。

进一步的，测序技术可采用第二代测序技术或第三代测序技术进行。本领域人员可以理解的，所述测序平台还可以采用Illumina的Hiseq2000/2500平台、LifeTechnologies的Ion Torrent平台、单分子测序平台等。在本发明的一个实施例中，采用贝瑞和康公司的NextSEQ CN 500测序平台。

依据本发明的一方面，本发明提供一种检测目标区域变异的方法，所述方法包括：(1)利用前述本发明的任一测序方法，获得目标样本的目标区域测序数据，对所述测序数据进行过滤，所述过滤包括去除掉不确定碱基比例超过10％的读段和/或碱基质量值不大于5的碱基数的比例不小于50％的读段；(2)将所述测序数据与参考序列进行第一比对，获得第一比对结果，去除掉第一比对结果中的一个读段对中的两个读段相同的读段对，其中所述参考序列为HG19；将所述第一比对结果与所述参考序列的一部分进行第二比对，获得第二比对结果；对所述比对结果进行再过滤，所述过滤包括去除掉比对中错配碱基数多于3个读段，获得所述目标区域中的SNP、InDel、SV和CNV变异中的至少之一；其中，所述参考序列的一部分包括目标区域参考序列中的每个已知InDel位点导致的错配区域。这里，所说的第二比对为局部比对，第一比对为常规全局比对，可利用但不限于SOAP或BWA等软件依照其默认设置进行，获得第一比对结果，第一比对结果包括读段在参考序列上的匹配位置及匹配情况信息，在本发明的一个实施例中，进行第二比对即基于第一比对结果，对与所捕获的基因区域对应的参考序列中的所有已知INDEL附近的所有序列信息(reads)进行局部重新比对，能够消除第一比对中的错误，提高后续变异检测的准确性，第二比对可利用GATK重比对软件(https://www.broadinstitute.org/gatk/)进行。在本发明的一个实施例中，通过GATKUnifiedGenotyper软件同时检测所说的SNP和INDEL变异。利用本发明的这一方面的变异检测方法，能够准确检测出突变频率为1％的低频突变。

在本发明的一个实施例中，所述方法还包括，当所检测出的变异位点中的至少之一满足以下，则判定所测样本为阳性样本：测序深度不小于10X，至少有3个读段的支持，在阴性对照样本中的读段支持数少于2，在阳性对照样本中的突变率大于1％，以及变异位点的读段支持量与正常对照样本(阴性对照样本)相同位点的读段支持量具有显著差异。所说的阳性样本指肺癌样本。上述判定条件是发明人结合目前相关数据库信息和大量文献报道信息、检测统计大量阳性样本和大量阴性样本确定下来的，具有统计意义。

特别的是，所述的变异位点在待测样本中的读段支持量与正常对照样本(阴性对照样本)相同位点的读段支持量具有显著差异。其中的读段支持量，可以为支持该变异的读段的数目，也可以是支持该变异的读段在比对上该位点读段中的比例。

在本发明的一个实施例中，采用后者来比较，所说的具有显著差异指具有实质差异，例如对于待测样本中的变异位点A，在阳性样本中的reads支持比例为26/500(变异26条reads，总500条reads)，即阳性样本中的变异频率5.2％，而在阴性样本中的reads支持比例为1/200(变异1条reads，总200条reads)，即阴性样本中的变异频率为0.5％，则达到所说的显著性差异或者所说的实质性差异，这里指具有统计学上的显著性差异，例如可以利用fisher检验，差异具有显著性(p≤0.05)，即认为达到所说的具有显著差异。

在本发明的一个实施例中，还采用另外一种确定显著性差异的算法，例如对于待测样本中的变异位点A，在阳性样本中的reads支持比例为7/500，而在大量阴性样本中的支持比例符合特定的分布，均小于1/200，比较待测样本中变异位点A的读段支持比例(变异频率)与大量阴性样本数据集中该位点变异频率的差异，可以利用z检验或者t检验，差异具有显著性(p≤0.05)，即达到所说的显著性差异。

本发明另一方面提供一种检测目标区域变异的系统，包括：

核酸获取装置，用于获取待测样本中的核酸，所述核酸由多个初始DNA片段组成，所述初始DNA片段来自断裂的基因组DNA和/或游离的DNA片段；加碱基A装置，用于加碱基“A”至所述短序列DNA片段的3’端，获得具有粘性末端A的DNA片段；接头连接装置，用于连接接头于所述粘性末端片段的两端，获得接头连接片段；第一扩增装置，用于利用第一引物对所述接头连接片段进行第一扩增，获得第一扩增产物；捕获装置，用于前述任一包含探针的试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及，第二扩增装置，用于利用第二引物对所述目标区域进行第二扩增，获得第二扩增产物；测序装置，用于将所述扩增产物进行测序，获得所述目标区域变异位点信息，变异包括SNP、InDel、SV和CNV变异中的至少一种。

其中SEQ ID NO:2中“NNNNNNNN”表示标签序列，所述标签序列具有SEQ ID NO：5-8中至少之一所示的序列，

在本发明的一个实施例中，所述检测目标区域变异的系统还包括：

第一过滤装置，用于对测序装置获得的测序数据进行第一过滤，获得第一过滤结果，所述过滤包括去除掉不确定碱基比例超过10％的读段和/或碱基质量值不大于5的碱基数的比例不小于50％的读段；

第一比对装置，用于将所述第一过滤结果与参考序列进行第一比对，获得第一比对结果，去除掉第一比对结果中的一个读段对中的两个读段相同的读段对，其中所述参考序列为HG19；

第二比对装置，用于将所述第一比对结果与所述参考序列的一部分进行第二比对，获得第二比对结果；

第二过滤装置，用于对所述第二比对结果进行第二过滤，所述过滤包括去除掉比对中错配碱基数多于3个读段，获得所述目标区域中的SNP、InDel、SV和CNV变异中的至少之一；其中，所述参考序列的一部分包括目标区域参考序列中的每个已知InDel位点导致的错配区域。

前述对于本发明一方面或者任一具体实施方式中的检测目标区域变异的方法的技术特征和优点的描述，同样适用于本发明这一方面的系统，在此不再赘述。

下面示例，仅用于解释本发明，而不能理解为对本发明的限制。除另有交待，以下实施例中涉及的未特别交待的试剂、序列(接头、标签和引物)、软件及仪器，都是常规市售产品或者开源的，比如购自贝瑞和康公司的NextSEQ CN 500测序平台建库相关试剂盒来进行文库构建等。

实施例一设计芯片

1、统计OMIM数据及相关文献中有关单基因导致的肺癌相关的驱动基因的每个外显子区变异样本数、变异样本、最热点变异所在的样本数、PI值(以评估患者回复频率在每个外显子上的水平，PI＝每外显子上携带突变的累计患者数目/外显子长度)，并根据PI值降序排列。然后，以第一个外显子区变异的样本作为样本数据库，统计其他所有区间和样本数据库不同样本的个数，将不同样本个数最多的样本区间列为第二个筛选到芯片区间，此时以筛选到的两个区间的变异样本作为样本数据库，以同样的方法筛选第三个区间，直到样本数据库包括了所有的样本，以统计外显子区集，而对于没有筛选到任何区间的基因所有区间，则都加到芯片区间上。

2、基于TCGA，ICGC等数据库，以去除驱动基因区间并且包括大于等于5个样本的热点变异的区间(SNV>＝5)为候选区间，重复上一步的计算。

3、基于TCGA，ICGC等数据库，在去除已被筛选的区间中分别以：PI>＝30，SNV>＝3和：PI>＝20，SNV>＝3为候选区间，筛选使得单样本数据库样本数减少最多的区间作为第一个芯片区间，重复以上过程进行计算。

4、加入融合基因等区间。

5、设计出目标区域捕获芯片LungPano。LungPano芯片包括了肺癌相关的驱动基因(Driver Gene)、高频突变基因、癌症相关12条信号通路中重要基因及靶药相关基因等，共计147个基因，135Kb。所述基因详见表1。

实施例二构建目标区域测序文库，具体流程见图1。

(一)样本制备

1.抽取受检者外周血5-10mL，存于EDTA抗凝管中，在4-6小时内对外周血进行分离；

2.血浆游离DNA提取(参照QIAamp Circulating Nucleic Acid Kit提取试剂说明书，进行血浆游离DNA提取)；得到血浆游离DNA(cfDNA)，cfDNA中可能包含来自肿瘤细胞的DNA片段(ctDNA)。(二)文库构建

1.末端修复

反应后加入Agencourt AMPure XPreagent 120μL，磁珠纯化后，最后回溶42μLddH2O，带磁珠进行下一步反应；

2.末端加A

反应后加入PEG/NaCl SPRI溶液90μL，充分混合并进行磁珠纯化，最后回溶(35-接头)μL ddH2O，带磁珠进行下一步反应；

3.接头连接

反应后，加入PEG/NaCl SPRI溶液50μL，进行第一次磁珠纯化，使用50μL Tris-HCl(1mM，pH8.0)回溶；

再加入PEG/NaCl SPRI溶液50μL，进行第二次磁珠纯化，使用25μLTris-HCl(1mM，pH8.0)回溶；

4.第一轮PCR扩增

反应后加入Agencourt AM Pure XP reagent 90μL，磁珠纯化后，回溶31μLddH2O，取上清液后质控并进行芯片杂交。

(三)目标区域捕获芯片杂交

1.采用实施例一设计的捕获芯片LungPano-135Kb，按照常规芯片使用的方法进行杂交捕获及洗脱。最后使用21μL ddH2O回溶杂交洗脱磁珠。

2.第二轮PCR扩增

反应后加入Agencourt AMPure XP reagent 108μL，磁珠纯化后，回溶31μL EB，取上清液后质控并上机测序。

实施例三上机测序

将实施例二获得的测序文库，采用Nextseq CN 500PE75程序进行上机测序，测序实验操作按照制造商提供的操作说明书(参见杭州贝瑞和康基因诊断公司官方公布cBot)进行上机测序操作。

实施例四测序数据分析

1.利用实施例三的方法获得的测序数据。

2.下机数据过滤Reads_filter：筛选符合分析要求的reads。需要满足两个条件：1)reads中N的数目<10％；2)质量值<5的碱基不超过50％。

3.序列比对：Bwa aln->sampe|samtools view|samtools sort：与人类参考基因组序列比对，得到每条reads在染色体上的位置及质量信息。比对后的文件以bam格式存在；

4.去重复MarkDuplicates.jar：将比对到参考基因组相同起点的reads标记为重复，在后续分析中只作为一条reads分析；

5.重比对：GenomeAnalysisTK.jar-T Realigner、TargetCreator、IndelRealigner：将前期比对质量差的reads针对性地利用其他比对工具进行重新比对，提高数据利用率；

6.质量值校正GenomeAnalysisTK.jar-T BaseRecalibrator、PrintReads：根据reads特点对质量值作校正，提高支持的可信度；

7.过滤Filt_bam：去除比对中错配碱基数多于3个的reads，提高准确性；

8.质控QC：统计芯片的捕获效率、有效reads数、平均深度、重复率、覆盖度及未被覆盖的区间等信息，对芯片设计、样本处理及上机测序过程进行评估和反馈，保证质量控制过程。

9.识别SNV/InDel/SV/CNV及筛选其中的高频变异位点：

用MuTect、varScan、somVar流程识别出SNP变异；

用gatk、varScan、somVar流程识别出InDel变异；

用contra.py流程识别出CNV；

用MDect流程识别出SV；

针对不同的变异类型选用不同的检测软件及参数

所使用的筛选参数为：测序深度≥10X，在阴性(正常)样本中的变异率≤2％，在阳性样本中的变异率≥1％，在该待测样本数据中支持该变异的reads数≥3，与正常对照(例如正常体细胞)的读段支持比例具有显著差异(p≤0.05)；

10.注释

对检出的变异进行注释，内容包括：功能、reads支持数、变异频率、氨基酸变异及Cosmic中的变异等，得到的信息可根据疾病可数据库进行相应调整；注释标记：根据变异情况判断疾病的来源，变异数据解读。

实施例五两例实验样本检测结果

按照实施例1-4的方法对两例样本进行检测。

1、检测结果

测序数据统计结果见下表2：

表2

目标区域覆盖度见下表3：

表3

检测结果见下表4：

表4

本次基因检测检出的其他变异信息见下表5：

表5

注释：rsID：短序列突变在数据库中的编号；FR.1:dbSNP数据库中收录的关于此SNP的频率信息；Fr.2：千人计划中全部测序样本中关于此SNP在亚裔人种中的频率信息；Fr.3：ESP6500数据库中收录的关于此SNP的频率信息；Fr.4：本地数据库中关于此SNP的频率信息；Condel：Condel数据库预测结果。

2、检测结果说明

本次检测在与肺癌相关的靶向用药基因EGFR中，检测到了一个G719A的突变。此突变位于18号外显子，临床研究表明EGFR突变阳性(18号外显子突变、19号外显子缺失、21号外显子突变)的患者对EGFR-TKI敏感，而野生型患者基本无效。

上面所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通工程技术人员对本发明技术方案所做出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

序列表

<110> 广州精科生物技术有限公司

<120> 试剂盒、建库方法以及检测目标区域变异的方法及系统

<130> CN81765

<160> 7

<170> PatentIn version 3.5

<210> 1

<211> 58

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 1

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58

<210> 2

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 2

aatgatacgg cgaccaccga gatc 24

<210> 3

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 3

caagcagaag acggcatacg a 21

<210> 4

<211> 8

<212> DNA

<213> 人工序列

<220>

<223> 接头

<400> 4

atactcca 8

<210> 5

<211> 8

<212> DNA

<213> 人工序列

<220>

<223> 接头

<400> 5

caagctgt 8

<210> 6

<211> 8

<212> DNA

<213> 人工序列

<220>

<223> 接头

<400> 6

ttagacaa 8

<210> 7

<211> 8

<212> DNA

<213> 人工序列

<220>

<223> 接头

<400> 7

cagctctt 8

Claims

1.一种试剂盒，其包含探针，所述探针固定在固相基质上或者所述探针游离于溶液中，所述探针特异性识别目标区域，其中，所述目标区域包括：

2.如权利要求1所述的试剂盒，其特征在于，所述探针为全人工合成或体外克隆合成，所述探针的长度为20-120mer。

3.权利要求1的试剂盒，其特征在于，所述探针的制备包括如下步骤：

确定所述目标区域的参考序列；

从所述参考序列的一端开始，在所述参考序列上依次获取DNA片段直至所述参考序列的另一端；

将所述DNA片段与所述参考序列比对，获得每一条DNA片段在参考序列上的比对次数，过滤掉比对次数超过1的DNA片段；

去除掉GC含量不在30-80％的DNA片段。

4.权利要求1-3任一项所述的试剂盒在获取肺癌相关基因序列中的用途。

5.一种构建目标区域测序文库的方法，其特征在于，包括：

(1)获取待测样本中的核酸，所述核酸由多个DNA片段组成，所述DNA片段来自断裂的基因组DNA和/或游离的DNA片段，所述DNA片段具有平末端；

(5)利用权利要求1-3任一项所述的试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及，

6.根据权利要求5所述的方法，其特征在于，所述第一引物序列如SEQ ID NO:1和SEQID NO:2所示；所述第二引物序列如SEQ ID NO:3和SEQ ID NO:4所示。

7.根据权利要求5所述的方法，其特征在于，所述样本来源于人或动物；所述目标区域为肺癌相关基因区域。

8.一种测序方法，其特征在于，包括：

根据权利要求5的方法构建目标区域测序文库；

9.一种检测目标区域变异的方法，其特征在于，包括，

(1)利用权利要求8的方法，获得测序数据，对所述测序数据进行过滤，所述过滤包括去除掉不确定碱基比例超过10％的读段和/或碱基质量值不大于5的碱基数的比例不小于50％的读段；

(2)将所述测序数据与参考序列进行第一比对，获得第一比对结果，去除掉第一比对结果中的一个读段对中的两个读段相同的读段对，其中所述参考序列为HG19；将所述第一比对结果与所述参考序列的一部分进行第二比对，获得第二比对结果；对所述比对结果进行再过滤，所述过滤包括去除掉比对中错配碱基数多于3个读段，获得所述目标区域中的SNP、InDel、SV和CNV变异中的至少之一；其中，所述参考序列的一部分包括目标区域参考序列中的每个已知InDel位点导致的错配区域。

10.一种检测目标区域变异的系统，其特征在于，包括，

核酸获取装置，用于获取待测样本中的核酸，所述核酸由多个DNA片段组成，所述DNA片段来自断裂的基因组DNA和/或游离的DNA片段，所述DNA片段具有平末端；

加碱基A装置，用于加碱基“A”至所述DNA片段的3’端，获得具有粘性末端A的DNA片段；

接头连接装置，用于连接接头于所述粘性末端片段的两端，获得接头连接片段；

第一扩增装置，用于利用第一引物对所述接头连接片段进行第一扩增，获得第一扩增产物；

捕获装置，用于利用权利要求1-3任一项所述的试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及，

第二扩增装置，用于利用第二引物对所述目标区域进行第二扩增，获得第二扩增产物；

测序装置，用于将所述扩增产物进行测序，获得所述目标区域变异位点信息，变异包括SNP、InDel、SV和CNV变异中的至少一种。