一种用于检测染色体拷贝数变异的测序文库构建方法和试
剂盒
技术领域
本发明涉及文库的构建方法和试剂盒,更具体地,本发明涉及用于检测染色体拷贝数变异的测序文库构建方法和试剂盒。
背景技术
研究表明,染色体数目的异常在已发现的染色体异常相关疾病中占有很大的比例(Nagaoka,et al,2012)。染色体数目的异常除了可表现为整条染色体的数目改变(染色体非整倍体),也可表现为某染色体的某一片段的拷贝数变异(如染色体微缺失微重复综合征)。鉴于染色体异常疾病一般具有高发、危害性严重且缺乏有效的治疗手段等特点,所以利用技术手段准确检测染色体拷贝数是否存在异常具有重要的意义。
采用传统核型分析技术(Karyotyping)结合荧光原位杂交技术(FISH)或染色体微列阵分析技术(Chromosome Microarray Analysis,CMA,如aCGH和SNP-array)是目前临床上用于检测染色体拷贝数变异的主要手段和标准(Nord,et al,2015)。上世纪70年代建立起的高分辨率核型分析技术(Yunis,1978;Trask,2002)目前仍是检测染色体非整倍体、平衡或非平衡性结构重排、较大片段的缺失/重复以及嵌合体等染色体异常的金标准,但其分辨率较低(约为5Mb),无法检出具有临床意义的染色体较小片段的拷贝数变异。而始于上世纪80年代后期的FISH技术(Trask,1991)将细胞遗传学、免疫学和分子生物学相结合,在临床研究上检测目标染色体非整倍体和结构异常等方面具有较好的应用,但是其特异性探针的设计受到对目标区域信息的限制,因而仅能够得到有限的染色体信息。近年来发展起来的染色体微阵列分析技术(CMA)则是一种高通量检测基因组DNA拷贝数变异的分子核型分析技术,其中相对成熟的比较基因组杂交(aCGH)技术和单核苷酸多态性基因芯片(SNParray)技术都属于CMA技术(Manning and Hudgins,2010)。虽然CMA技术相比于传统核型分析技术具有很高的分辨率(Breman,et al,2012),但其在临床应用中需根据公共数据库中详尽的染色体异常及相关临床信息定制微阵列芯片,因此对某些罕见的或数据库中未涵盖的微缺失微重复(CNV)的检测存在不足。而且,目前CMA技术的难度较高和成本相对较高等特点也限制了其在欠发达地区的广泛应用。因此,为了更广泛地排查和诊断染色体疾病,需要一种在保证检测通量和分辨率的前提下能够准确检测染色体拷贝数变异的经济、简单的方法。
近些年日益成熟的高通量测序技术(Next Generation Sequencing,NGS)因其通量高、准确性高、灵敏性高、自动化程度高和运行成本低等突出的优势,使其在临床研究中得到广泛的应用(Xuan,et al,2013)。目前通过NGS数据检测CNV最常用的原理是基于计算深度(read-depth)来实现的,即通过将某区段的深度与预先校正得到的理论值进行计算比较以判定该区段是否存在CNV,这种方法对于单端测序和双端测序都适用(Yoon,et al,2009;Mason-Suares,et al,2016)。在NGS文库制备的过程中通常会采用标准的PCR来扩增随机片段,而PCR不可避免的扩增偏好则会对数据的准确性造成影响(van Dijk,et al,2014;Head,et al,2014;Goodwin,et al,2016)。因此,建立一种简单的不依赖PCR的建库方法对于提高染色体非整倍性尤其是CNV的检测准确性至关重要。
发明内容
本发明的目的在于克服传统检测染色体拷贝数变异的方法在分辨率、全基因组覆盖程度、通量和成本等方面的不足,同时克服NGS建库过程中PCR扩增偏好性带来的问题,提供了一种不依赖PCR的检测染色体拷贝数变异的测序文库构建方法和试剂盒。采用该方法和试剂盒对待测样本进行染色体拷贝数变异检测,可实现对染色体非整倍体和染色体微缺失微重复综合征的筛查和诊断。
在第一个方面,本发明提供一种用于检测染色体拷贝数变异的测序文库构建方法,其主要包括以下步骤:
(1)利用双链DNA片段化酶将待测DNA随机片段化;
(2)对片段化后的DNA进行末端补平和3’端悬A;
(3)将末端补平并3’端悬A的DNA与测序接头连接,获得连接产物;
(4)纯化所述连接产物,获得测序文库,
其中步骤(1)-(3)在单一反应管中完成。图1示出了根据本发明的方法构建测序文库的主要步骤。
在一个实施方案中,待测DNA的起始含量优选为10-260ng。本领域技术人员已知,为满足一定的上机测序要求,适合的文库总量应不低于2fmol。因此,为使所构建文库总量不低于2fmol,本发明人发现待测DNA的起始含量最优为10-260ng。含量过低,将导致所得测序文库浓度不高,不能获得有效的测序数据;含量过高,则将导致待测DNA不能被充分地随机片段化(即,将有部分待测DNA未被片段化而仍然保持长片段的形式,这部分长片段DNA不能被有效地测序),也会影响最终文库的浓度和测序的准确性(参见实施例2)。
在一个实施方案中,双链DNA片段化酶为非特异性切口核酸酶和T7内切酶突变体的混合酶。具体地,所述非特异性切口核酸酶是源自弧菌,例如嗜盐弧菌(Vibriovulnificus)(Vvn)的核酸酶,所述核酸酶可以是野生型或其突变体。所述T7内切酶突变体是指在美国公开号2007-0042379中描述的,例如在两个催化结构域之间的桥接区具有突变的T7内切酶。在一个实施方案中,包含非特异性切口核酸酶和T7内切酶突变体的双链DNA片段化酶是本领域技术人员已知的,例如中国专利CN102301009A所述。
在一个实施方案中,非特异性切口核酸酶和T7内切酶突变体的单位比例小于1:200,例如小于1:100或小于1:10,其范围可以为1:2-1:200。最优选地,非特异性切口核酸酶和T7内切酶突变体的单位比例为1:200。其中,1个单位T7内切酶突变体定义为在37℃下1个小时将90%的2μg线性切口的2.44kb的dsDNA转化成2个片段(1.37kb和1.07kb)所需要的酶的量。1个单位Vvn核酸酶和其突变体定义为在37℃下30min释放1A260单位的酸性可溶寡核苷酸所需要的酶的量。
在一个实施方案中,根据DNA是否落在大于60%GC(高GC含量)、40%-60%GC(标准GC含量)、或者小于40%GC(低GC含量)的范围内可确定DNA片段化反应的最佳的温育时间。例如,温育时间范围可以典型地在5min至120min,例如,15min至60min范围内。
在一个实施方案中,DNA片段化反应的温度为35-40℃,最优选37℃。
在一个实施方案中,待测DNA的随机片段化是在缓冲液I存在下进行,其中缓冲液I主要包括20mM三羟甲基氨基甲烷-盐酸(Tris-HCl)、15mM氯化镁(MgCl2)、50mM氯化钠(NaCl)、0.1mg/ml牛血清白蛋白(BSA)、0.15%曲拉通(Triton)。缓冲液I的存在能为随机片段化反应提供合适的反应环境,同时维持DNA片段化酶的稳定性,并提高它的酶活力。
在一个实施方案中,在步骤(1)和(2)之间还包括将所述双链DNA片段化酶灭活的步骤。灭活所述双链DNA片段化酶是指在60-70℃,例如65℃下温浴10-13min,优选在缓冲液II存在下进行。所述缓冲液II主要包括50mM氯化钠(NaCl)、10mM三羟甲基氨基甲烷-盐酸(Tris-HCl)、10mM氯化镁(MgCl2)、1mM二硫苏糖醇(DTT)。缓冲液II的存在能为酶的灭活反应提供合适的离子浓度,同时也为接下来的末端补平和3’端悬A的反应提供合适的反应环境。
在一个实施方案中,可以用本领域技术人员已知的任何适用于末端补平的酶对DNA进行末端补平。这种酶的实例包括但不限于T4DNA聚合酶、Klenow酶等。在一个实施方案中,可以用本领域技术人员已知的任何适用于3’端悬A的酶对DNA进行3’端悬A。这种酶的实例包括但不限于Taq酶、klenow ex-(New England Biolabs)(是一种改进的Klenow酶,其3’-5’外切活性缺失)等。在本发明的文库构建方法中,末端补平和3’端悬A同时进行,这简化了操作步骤、节约成本,同时也降低了样本间的污染。
在一个实施方案中,末端补平和3’端悬A所用的温育时间和温度可以根据具体需要由本领域技术人员根据常规技术确定。
在一个实施方案中,可以用本领域技术人员已知的任何适用于连接测序接头的酶。这种酶的实例包括但不限于T4DNA连接酶、T7DNA连接酶或它们的混合物。本发明中的测序接头是与测序平台匹配的双链测序接头,是本领域技术人员根据常规技术可以选择的。优选地,该连接步骤是在缓冲液III的存在下进行,所述缓冲液III主要包括50mM氯化钠(NaCl)、10mM三羟甲基氨基甲烷-盐酸(Tris-HCl)、10mM氯化镁(MgCl2)、0.1%牛血清白蛋白(BSA)。缓冲液III的存在能够为连接反应提供合适的反应环境,同时维持酶的稳定性。
在一个实施方案中,在上机测序前可以用商购的试剂盒或本领域技术人员已知的任何试剂对根据本发明的文库构建方法所得的测序文库进行纯化。所述测序文库适用于第二代高通量测序平台,例如:Illumina公司的HiSeq/MiSeq/MiniSeq/MySeq/NovaSeq测序平台、Thermo Fisher公司的PGM/Proton测序平台等。
在第二个方面,本发明还提供一种用于构建检测染色体拷贝数变异的测序文库的试剂盒,其包括:双链DNA片段化酶和缓冲液I、缓冲液II、用于DNA末端补平的酶和用于3’端悬A的酶、测序接头、连接酶和缓冲液III,其中缓冲液I、II和III的成分如上所述。
在一个实施方案中,本发明的试剂盒还包括用作阴性对照的DNA样本。阴性对照是指不含染色体拷贝数变异的正常DNA样本。
本发明的文库构建方法基本上均通过酶反应完成,利用酶易失活的特点以及不同步骤中酶反应温度不同的特点使得可以在单一反应管中依次连续地完成DNA随机片段化、末端补平和3’悬A、以及连接接头这三个步骤,步骤间无DNA纯化过程。由于本发明的文库构建方法可以在单一反应管中完成,因此也避免了DNA样本在转移之中造成的样本损失以及样本污染。此外,由于所涉及的试剂种类较少,本发明的文库构建方法和试剂盒操作流程较为简单,具有较好的易操作性。并且,本发明的文库构建方法不包含PCR步骤,从而避免了因PCR操作本身带来的扩增偏好性,最终提高检测的准确性。最后,本发明的文库构建方法和试剂盒可对低至10ng的样本DNA实现准确的检测,即,DNA样本的起始含量比较低。
附图说明
图1:本发明所述的文库构建方法的示意图。
图2:采用本发明的方法构建文库后对待测DNA样本(A)和对照正常样本(B)进行测序的结果。
图3:采用本发明的方法构建文库后对第二个待测DNA样本(A)和对照正常样本(B)进行测序的结果。
具体实施方式
实施例1:根据本发明的方法构建文库并用于测序DNA样本
根据本发明的用于检测染色体拷贝数变异的测序文库的构建方法和试剂盒,对以帕陶氏综合征(T13)为例的染色体非整倍体、以染色体22q11.2微缺失综合征为例的染色体微缺失进行检测。具体地,帕陶氏综合征是第13组染色体中出现第3个染色体引起的,是常见的三体综合征之一;染色体22q11.2微缺失综合征是指22号染色体22q11.21-q11.23微小缺失所造成的临床症候群,是人类最常见的微缺失综合征。
根据以下方法检测样本DNA:
1.测定浓度:用Qubit荧光计测定待测DNA样本的浓度,使DNA样本的起始含量优选为10-260ng。
2.构建文库:按照本发明所述的用于构建检测染色体拷贝数变异的测序文库的方法进行文库构建,具体包括以下步骤:
(1)取待测DNA样本和阴性对照(即正常DNA样本)在冰上按下表1分别配制反应混合物。
表1:
试剂 |
加入量 |
DNA样本 |
10ng |
双链DNA片段化酶 |
1μl |
缓冲液I |
1μl |
EB缓冲液 |
补至10μl |
混合均匀后,将反应体系置于37℃温育10min。
(2)将反应混合物转至冰上,加入7μl的缓冲液II,充分混匀后置于65℃下温育10min,以灭活双链DNA片段化酶。
(3)将反应混合物转至冰上,加入1.5μl T4DNA聚合酶和1.5μlTaq酶,用EB缓冲液将体积补至50μl。充分混匀后,在室温下瞬间离心5s,轻弹去除气泡。然后将上述反应混合物放入普通PCR仪(或恒温金属浴)中开始下列温育步骤:首先37℃,20min,然后72℃,20min,最后4℃,5min。
(4)在PCR仪(或恒温金属浴)中完成温育后,将反应混合物取出并置于冰上。同时,根据下表2配制预混液:
表2:
试剂 |
加入量 |
缓冲液III |
25μl |
T4DNA连接酶 |
1μl |
将预混液进行充分混匀后,在室温下瞬间离心5s。然后将该预混液加入已经完成温育的反应混合物,并加入2μl的测序接头在反应管壁上,然后立即在室温下瞬间离心5s,快速混匀后,在室温下瞬间离心5s,并轻弹去除气泡,再次在室温下瞬间离心5s。然后将上述反应混合物放入PCR仪(或恒温金属浴)中开始如下温育步骤:首先20℃,15min,然后65℃,10min,最后4℃,5min。温育完成后,即可获得测序文库。
3.文库纯化和上机测序:使用高通量测序文库构建DNA纯化试剂盒(磁珠法)(杭州贝瑞和康基因诊断技术有限公司生产,货号R0022)纯化所得测序文库,纯化所得测序文库,使其总量应不低于2fmol。使用NextSeq CN500(国械注准20153400460)测序仪,根据制造商的说明进行上机测序。
4.分析测序结果:将测序结果与人类基因组参考序列进行比对,待测样本和正常样本的染色体拷贝数检测结果分别如图2和图3所示。
在图2和图3中,纵坐标log2(ratio)中ratio是指检测区域的拷贝数与2(二倍体)的比值,横坐标代表整条染色体区域。其中整条染色体被均匀地分成若干个区域(bin),每个点代表一个bin的log2(ratio)值,然后根据所有点的分布得到趋势线(灰色实线)。图中的黑色实线表示染色体的着丝点位置,将染色体分为短臂和长臂。由于目前人类基因组参考序列中尚无可供数据分析用的13号染色体短臂和22号染色体短臂的参考序列,因此无法分析13号染色体短臂和22号染色体短臂的相关测序数据,导致在这些区域没有相应的log2(ratio)值。
具体地,图2示出了待测DNA样本(A)和正常样本(B)的13号染色体区域的拷贝数检测结果。从结果可以看出,待测DNA样本的13号染色体区域长臂的log2(ratio)值为0.585(=log21.5)左右,说明至少13号染色体的长臂部分有三个拷贝,即待测DNA样本为帕陶氏综合征(T13);而正常样本的13号染色体区域的log2(ratio)值均为0(=log21),说明13号染色体为二倍体。用SNP-array芯片检测该待测DNA样本,证实确实存在三个拷贝的13号染色体长臂。换言之,本发明的方法和试剂盒建库测序的检测结果与临床检测结果一致。
此外,还使用本发明的方法和试剂盒对第二个待测DNA样本和正常样本进行建库并测序,结果如图3所示。从检测结果可以看出,待测DNA样本的22号染色体在第20M左右的区域其log2(ratio)值约为-1(=log20.5),说明该区域为单倍体。将染色体的横坐标与人类基因组参考序列进行比对,发现上述单倍体区域为22q11.21-q11.23区域,即待测DNA样本为染色体22q11.2微缺失综合征;而正常样本的22号整条染色体区域的log2(ratio)值均为0(=log21),说明不存在22号染色体22q11.2区域的缺失。用SNP-array芯片检测该待测DNA样本,证实确实在22号染色体22q11.2区域具有微小缺失。换言之,本发明的方法和试剂盒建库测序的检测结果与临床检测结果一致。
以上实施例说明,本发明的文库构建方法以及相应的试剂盒可以用于通过高通量测序来准确地检测染色体拷贝数的变异。
实施例2:DNA起始含量对测序文库浓度的影响
根据实施例1所述的构建文库和纯化文库的方法,用起始含量不同的DNA样本制备测序文库,并测定所得文库的总量,结果如下表3所示。
表3.DNA的起始含量与最终所得文库的总量。
起始DNA量(ng) |
文库总量(fmol) |
<5 |
0.142 |
<5 |
0.2 |
<5 |
0.21 |
<5 |
0.108 |
<5 |
0.129 |
<5 |
0.169 |
5 |
1.053 |
5 |
1.592 |
10 |
2.776 |
10 |
2.401 |
50 |
2.97 |
50 |
2.988 |
100 |
2.318 |
100 |
3.11 |
150 |
2.477 |
150 |
2.752 |
200 |
2.348 |
200 |
1.782 |
220 |
2.462 |
220 |
1.758 |
240 |
2.078 |
240 |
1.935 |
260 |
2.149 |
260 |
2.228 |
280 |
1.405 |
280 |
1.585 |
290 |
1.982 |
290 |
1.812 |
300 |
1.04 |
300 |
0.568 |
从上表可以看出,当DNA起始含量为10-260ng时,所得文库的最终总量基本上大于2fmol,满足测序的需要。当浓度过低或过高,所得文库的浓度均低于2fmol,不是最优适合用于测序。因此,在本发明中,用于制备文库的起始DNA含量优选为10-260ng。
以上所述仅为本发明的实施例,并不用于限制本发明,对于本领域的技术人员来讲,本发明可以有更改和变化。凡在本发明的精神和原则之内,所作的任何修改、同等替换、改进等,均应包含在本发明的保护范围之内。
参考文献
Nagaoka SI,Hassold TJ,and Hunt PA.Human aneuploidy:mechanisms and newinsights into an age-old problem.Nat.Rev.Genet.2012,13:493e504
Nord A,Salipante SJ,Pritchard C.Chapter 11–Copy Number VariantDetection Using Next-Generation Sequencing.Clinical Genomics,2015,8:165-187
Yunis J.High-resolution chromosome analysis in clinicalmedicine.Prog.Clin.Pathol.,1978,7:267-288
Trask BJ.Human cytogenetics:46 chromosomes,46 years andcounting.Nat.Rev.Genet.2002,3:769e778
Trask BJ.Fluoresence in situ hybridization:application incytogenetics and gene mapping.Trends Gnent.1991,7:149-154.
Manning M,and Hudgins L.Array-based technology and recommendationsfor utilization in medical genetics practice for detection of chromosomalabnormalities.Genet.Med.2010,12(11):742-745.
Breman A,Pursley AN,Hixson P,Bi W,Ward P,Bacino CA,Shaw C,Lupski JR,Beaudet A,Patel A,Cheung SW,Van den Veyver I:Prenatal chromosomal microarrayanalysis in a diagnostic laboratory:experience with>1000cases and review ofthe literature.Prenat.Diagn.2012,32:351e361.
Xuan J,Yu Y,Qing T,Guo L,Shi L.Next-generation sequencing in theclinic:promises and challenges.Cancer Lett.2013,340(2):284-295.
Yoon S,Xuan Z,Makarov V,Ye K,Sebat J.Sensitive and accurate detectionof copy number variants using read depth of coverage.Genome Res.2009,19(9):1586-1592.
Mason-Suares H,Landry L,Lebo MS.Detecting Copy Number Variation viaNext Generation Technology.Curr.Genet.Med.Report.2016,4(3):1-12.
van Dijk EL,Jaszczyszyn Y,Thermes C.Library preparation methods fornext-generation sequencing:tone down the bias.Exp.Cell Res.2014,322(1):12-20.
Head SR,Komori HK,LaMere SA,Whisenant T,Van Nieuwerburgh F,SalomonDR,Ordoukhanian P1.Library construction for next-generation sequencing:overviews and challenges.Biotechniques.2014,56(2):61-64.
Goodwin S,McPherson JD,McCombie WR.Coming of age:ten years of next-generation sequencing technologies.Nat.Rev.Genet.2016,17(6):333-351.