发明内容
本发明提供一种测序文库的构建方法及试剂盒和应用,所述测序文库的构建方法使用转座酶实现一步法打断DNA并在5’端和3’端分别加入测序接头,测序接头中包含样品标签信息,能够同时实现不同来源样品的测序,进一步实现染色体数目异常检测,该方法比常规文库构建方法节省时间,并且操作简单,对实验设备和反应条件的要求较低,利于新一代测序检测单细胞或微量DNA技术的推广应用。
根据本发明的第一方面,本发明提供一种测序文库的构建方法,所述方法包括:将靶DNA与转座酶包埋复合物在转座反应的条件下孵育,产生两端带有双接头的DNA文库;其中,所述转座酶包埋复合物包括转座酶、转座酶识别序列互补序列、第一测序接头序列和第二测序接头序列,所述第一测序接头序列包括5’端的第一测序标签序列和3’端的转座酶识别序列,所述第二测序接头序列包括5’端的第二测序标签序列、样品标签序列和3’端的转座酶识别序列。
本发明所用的靶DNA可以是基因组DNA或扩增的DNA,如全基因组扩增的DNA。其中,基因组DNA的样品来源可以是人类单细胞、少数几个细胞或微量DNA样品等。细胞类型可以是植入前遗传检测的胚胎细胞,癌症研究的单个肿瘤细胞,产前诊断的母体外周血有核红细胞、血浆、羊水,病理学研究的组织切片等。
本发明中,所述的全基因组扩增是指对单个细胞、几个细胞或微量核酸样品进行全基因组范围的扩增,其方法可以是部分随机引物扩增(Degenerate OligonucleotidePrimer PCR,缩写DOP-PCR)、完全随机引物扩增(Primer Extension PreamplificationPCR,缩写PEP-PCR)、多重链置换扩增(Multiple Displacement Amplification,缩写MDA)、OmniPlex WGA等方法中的任一种。也可采用商业试剂盒如QIAgen公司的REPLI-g,SigmaAldrich公司的GenomePlex WGA,New England Biolabs公司的Sureplex,RubiconGenomics公司的PicoPlex WGA,GE Healthcare公司的illustra Genomiphi V2等试剂盒中的任一种。
本发明的方法可对新一代高通量半导体测序平台产生的测序序列进行染色体拷贝数分析。其中,新一代高通量半导体测序平台包括并不限于IonTorrentTM和Ion ProtonTM测序平台。
本发明中,所述样品标签序列为随机序列,优选6-14个碱基的随机序列,更优选10个碱基的随机序列,由于随机序列的每一个位点均有A、T、C和G四种选择,理论上随机序列若有N个碱基可产生4N个样品标签序列,因此10个碱基的随机序列足够标记测序样品。
作为本发明的优选技术方案,所述第二测序接头序列在样品标签序列与3’端的转座酶识别序列之间还包括测序特殊碱基“GAT”。在样品标签序列后加入三个碱基“GAT”,避免出现两个连续的C,以免在后续分析时造成标签识别出错。
作为本发明的优选技术方案,所述第一测序标签序列和/或第二测序标签序列选自Ion TorrentTM或Ion ProtonTM测序平台的标签序列;因此,本发明的方法适用于IonTorrentTM或Ion ProtonTM测序平台。
作为本发明的优选技术方案,所述转座酶识别序列为转座酶Tn5识别的19bp的嵌合端转座子末端。
作为本发明的优选技术方案,所述转座酶识别序列互补序列具有SEQ ID NO:1所示的碱基序列;所述第一测序接头序列具有SEQ ID NO:2所示的碱基序列;所述第二测序接头序列具有SEQ ID NO:3所示的碱基序列。
其中,SEQ ID NO:1为5'-CTGTCTCTTATACACATCT-3'。需要说明的是,本发明的转座酶识别序列互补序列并不局限于SEQ ID NO:1所示的碱基序列,在其5’端和3’端均可以有若干附加的碱基序列。SEQ ID NO:2为:
5'-CCACTACGCCTCCGCTTTCCTCTCTATGGGCAGTCGGTGATAGATGTGTATAAGAGACAG-3';其中,下划线部分为转座酶识别序列,非下划线部分为第一测序标签序列。需要说明的是,本发明的第一测序接头序列并不局限于SEQ ID NO:2所示的碱基序列,在转座酶识别序列和第一测序标签序列前后以及它们之间还可以有若干附加的碱基序列或连接序列。SEQ IDNO:3为:
5'-CCATCTCATCCCTGCGTGTCTCCGACTCAGNNNNNNNNNNGATAGATGTGTATAAGAGACAG-3';其中,下划线部分为转座酶识别序列,NNNNNNNNNN为样品标签序列,每个N可选自A、T、C和G中任一个,NNNNNNNNNN之前的序列为第二测序标签序列,之后的GAT为测序特殊碱基。需要说明的是,本发明的第二测序接头序列并不局限于SEQ ID NO:3所示的碱基序列,在转座酶识别序列之前和/或之后还可以有若干附加的碱基序列或连接序列,在第二测序标签序列之前还可以有若干附加的碱基序列。
根据本发明的第二方面,本发明提供一种用于构建测序文库的试剂盒,所述试剂盒包括转座酶识别序列互补序列、第一测序接头序列和第二测序接头序列,所述第一测序接头序列包括5’端的第一测序标签序列和3’端的转座酶识别序列,所述第二测序接头序列包括5’端的第二测序标签序列、样品标签序列和3’端的转座酶识别序列。
作为本发明的优选技术方案,所述样品标签序列为随机序列,优选6-14个碱基的随机序列,更优选10个碱基的随机序列。
作为本发明的优选技术方案,所述第二测序接头序列在样品标签序列与3’端的转座酶识别序列之间还包括测序特殊碱基“GAT”。
作为本发明的优选技术方案,所述第一测序标签序列和/或第二测序标签序列选自Ion TorrentTM或Ion ProtonTM测序平台的标签序列。
作为本发明的优选技术方案,所述转座酶识别序列为转座酶Tn5识别的19bp的嵌合端转座子末端。
作为本发明的优选技术方案,所述转座酶识别序列互补序列具有SEQ ID NO:1所示的碱基序列;所述第一测序接头序列具有SEQ ID NO:2所示的碱基序列;所述第二测序接头序列具有SEQ ID NO:3所示的碱基序列。
作为本发明的优选技术方案,所述试剂盒还包括转座酶,所述转座酶优选为转座酶Tn5,本发明一个具体实施例选用了Vazyme公司的Tagment Enzyme,但是其它这类转座酶也适用于本发明。
作为本发明的优选技术方案,所述试剂盒还包括用于切口平移反应的DNA聚合酶,本发明一个具体实施例选用了Life Technologies公司的Platinum Pfx DNA聚合酶,但是其它这类DNA聚合酶也适用。DNA聚合酶能够通过切口平移(nick translation)反应补平转座酶打断DNA后的切口,利于后续测序的进行。
第一方面中的说明也适用于第二方面,二者并无实质差别,所以在此不再赘述。
需要说明的是,本发明中“第一”、“第二”等概念仅用于区分不同的表述对象,并能理解为有技术含义或有顺序限定的含义。
根据本发明的第三方面,本发明提供如第二方面所述的试剂盒在测序文库的构建并通过测序进行染色体数目异常检测中的应用,优选在单细胞染色体数目异常检测中的应用。
相比现有技术,本发明的优势体现在:本发明的测序文库的构建方法使用转座酶识别序列互补序列、第一测序接头序列和第二测序接头序列,其中第二测序接头序列含有一段特别的样品标签序列作为样品的标签信息,使用转座酶能够实现一步法打断DNA并在5’端和3’端同时加入不同的测序接头,不需要像现有的基于转座酶的DNA打断方法那样通过DNA聚合酶等核酸修饰酶催化添加3’端标签序列。本发明的测序接头中包含样品标签信息,能够同时实现不同来源样品的测序,进一步实现染色体数目异常检测。本发明的方法比常规文库构建方法节省时间,可以节约文库构建耗时近5个小时,并且操作简单,对实验设备和反应条件的要求较低,利于新一代测序检测单细胞或微量DNA技术的推广应用。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
如图1所示,传统的PF文库构建流程(图1中左图)包括Covaris打断仪打断DNA、末端修复、加接头、质量检测、混库(pooling)、缺口平移、再次质量检测和上机等步骤;而本发明的转座酶建库流程(图1中右图)包括转座反应混合液配置、转座反应(DNA片段化同时加接头)、质量检测、混库(pooling)、缺口平移、再次质量检测和上机等步骤。可见,本发明的转座反应一步代替了传统的Covaris打断仪打断DNA、末端修复和加接头三个步骤,明显节省了时间。
如图2所示,本发明利用转座酶一步完成DNA打断和测序接头连接的原理为:转座酶识别序列-反向(ME-r,即转座酶识别序列互补序列)分别与测序接头序列1(即第一测序接头序列)和带标签的测序接头序列2(即第二测序接头序列,其中标签即样品标签序列)退火形成接头,然后将接头与转座酶包埋形成转座酶包埋复合物,再将该转座酶包埋复合物与基因组DNA或扩增产物孵育进行转座打断得到两端带有双接头的DNA片段,通过延伸(切口平移反应)得到DNA文库;然后通过乳液PCR生成单链,用于测序。
下面通过具体实施例详细说明本发明。
1、样本选择和全基因组扩增
选择已知核型的人类淋巴细胞细胞系样本8例,包括非整倍体,片段缺失/重复大小不同的样本(其中最小为1.9Mb左右)。将其培养至最佳状态时,挑取单个细胞或细胞团,完成全基因组扩增并用Nanodrop分光光度计做DNA定量,Sigma Aldrich公司的GenomePlexWGA和New England Biolabs公司的Sureplex两种全基因扩增试剂盒平行扩增,每种细胞系设置单个细胞和多个细胞组,共32例全基因组扩增产物样本。
每例样本取100ng的DNA来完成本发明转座酶文库构建。
另外每例样本再取100ng的DNA用Life Technologies公司官方网站公布的标准文库构建方法完成,作为对照。具体方法步骤参见Life Technologies公司官方网站(http://www.lifetechnologies.com)。
2、接头制备
合成如下接头:
ME-r:5'-CTGTCTCTTATACACATCT-3'(SEQ ID NO:4);
P1:5'-CCACTACGCCTCCGCTTTCCTCTCTATGGGCAGTCGGTGAT
AGATGTGTATAAGAGACAG-3'(SEQ ID NO:5);
PA_1:5'-CCATCTCATCCCTGCGTGTCTCCGACTCAGCTAAGGTA
ACGATAGATGTGTATAAGAGACAG-3'(SEQ ID NO:6);
PA_2:5'-CCATCTCATCCCTGCGTGTCTCCGACTCAGTAAGGAGA
ACGATAGATGTGTATAAGAGACAG-3'(SEQ ID NO:7);
PA_3:5'-CCATCTCATCCCTGCGTGTCTCCGACTCAGAAGAGGAT
TCGATAGATGTGTATAAGAGACAG-3'(SEQ ID NO:8);
PA_4:5'-CCATCTCATCCCTGCGTGTCTCCGACTCAGTACCAAGA
TCGATAGATGTGTATAAGAGACAG-3'(SEQ ID NO:9);
PA_5:5'-CCATCTCATCCCTGCGTGTCTCCGACTCAGCAGAAGGA
ACGATAGATGTGTATAAGAGACAG-3'(SEQ ID NO:10);
PA_6:5'-CCATCTCATCCCTGCGTGTCTCCGACTCAGCTGCAAGT
TCGATAGATGTGTATAAGAGACAG-3'(SEQ ID NO:11);
PA_7:5'-CCATCTCATCCCTGCGTGTCTCCGACTCAGTTCGTGAT
TCGATAGATGTGTATAAGAGACAG-3'(SEQ ID NO:12);
PA_8:5'-CCATCTCATCCCTGCGTGTCTCCGACTCAGTTCCGATA
ACGATAGATGTGTATAAGAGACAG-3'(SEQ ID NO:13)。
注:其中下划线部分为样品标签序列,在反应中,不同的样品选用带不同标签的PA_N以示区别。
用退火缓冲液,将ME-r、P1、PA_1~8溶解至100μM。
注:退火缓冲液配制方法如下,精确称量1.21g Tris-base(100mM),5.844gNaCl(1000mM),0.372g EDTA2Na(10mM),混合加入超纯水至终体积100mL,充分溶解,混合均匀,即配制成为10×退火缓冲液。
在200μL的PCR管中按下表配制反应体系(表1):
表1
将配制好的反应1和反应2中1~8共9份,分别涡旋振荡充分混匀,并短暂离心。置于PCR仪内按如下反应程序完成反应(表2):
表2
反应结束后,将反应1和反应2的1~8分别等体积混合,混匀,分别命名为“退火接头混合液1~8”,-20℃保存。
3、退火接头混合液-转座酶包埋
在8个200μL的PCR管中按下表分别配制反应体系(表3):
表3
注:实施例中所用转座酶为Vazyme公司生产的Tagment Enzyme,规格为(10U/μL);包埋缓冲液为转座酶配套试剂,同为Vazyme公司生产。
用移液器轻轻吹打至少20次充分混匀。
将配制好的反应体系置于PCR仪上30℃反应1小时,反应产物分别命名为“转座反应混合液1~8”,置于-20℃保存。
4、DNA片段化并加入测序接头
于室温解冻转座反应缓冲液,上下颠倒混匀后备用。
分别在8个PCR管中分别配制如下反应体系(表4):
表4
注:转座反应缓冲液为转座酶配套试剂,同为Vazyme公司生产。
用移液器轻轻吹打至少20次充分混匀。
将混好的反应体系置于PCR仪上按如下程序进行反应(表5):
表5
反应完成后,取出PCR管,用1.5倍体积的Ampure XP Beads进行纯化,溶25μL的EB。
5、文库混合
将上一步骤得到的8份产物各取3μL等体积混合,得到24μL混合液。
6、切口平移
在PCR管中配制如下反应体系(表6):
表6
注:扩增酶为Life Technologies公司的Platinum Pfx DNA聚合酶,扩增缓冲液为配套试剂。
用移液器轻轻吹打10次充分混匀。
将混合均匀的反应体系置于PCR仪上,72℃恒温孵浴20min。
反应完成后,取出PCR管,用1.2倍体积的Ampure XP Beads进行纯化,溶16μL的EB。
7、上机测序
产物经文库检测合格后,使用Ion ProtonTM测序平台进行上机测序。
8、测序后信息分析
将8个样本上述流程测序得到的数据,连同常规建库得到的8份测序数据,同时按照如下流程进行信息分析:
1)提取有效数据:将bam格式的下机数据转换为比对软件所需的fastQ格式,并从读段(reads)的5’端截取50bp用于后续分析,在此基础上,再从其5’端切除20bp,以排除全基因组扩增(WGA)时引入的接头对后续分析的影响;
2)序列比对:将截取后的reads与NCBI数据库中版本37.3(hg19;NCBIBuild37.3)的人类基因组参考序列用SOAPaligner/soap2进行比对;
3)Y染色体判断:根据Y染色体特异基因的支持数判断Y染色体是否存在;
4)窗口划分:将人类基因组参考序列划分为100kb左右的窗口,并上下滑动20 kb;
5)GC含量校正:统计各窗口内的unique reads(即去重后的序列中在参考基因组上只有唯一比对位置的序列)数,并计算其GC含量(GC%),以各窗口中reads的GC%的中位数作为该窗口的GC%。分别将样本序列和参考序列上的各窗口按GC%(梯度为0.05)划分为不同校正单元,并计算各校正单元内不同窗口reads数的中位数(Mi),以此计算出各校正单元的校正系数,再算出各窗口校正后的Ratio值用于后续分析;
6)断点筛查:将每个窗口视作一个点,对每一个点进行一次游程检验,以此得到初步的断点集,再对该断点集中的点进行多次筛选,确定最终的断点集;
7)数据过滤及可视化:本发明中阳性信号(CNV)需满足三个条件:a)CNV片段不小于1M;b)P≤1e-10;c)Ratio≤0.7(缺失)或Ratio≥1.3(重复)。根据上述条件判断CNV,并画出其核型图以及各窗口Ratio值对应的峰图。
9、结果分析
通过以上方法分析得到的结果如下表(表7)所示,本次检测的样本共计8例,本发明方法检测的结果与已知结果和常规建库得到的结果分别做对比,结果完全一致。
表7
图3显示了本发明中的样本S1采用本发明方法和常规建库方法建库测序分析得到的核型图和结果峰图比较。其中,图3a为采用本发明方法得到的核型图;图3b为采用常规建库方法得到的核型图;图3c为采用本发明方法得到的结果峰图;图3d为采用常规建库方法得到的结果峰图。
图4显示了本发明中的样本S2采用常规建库方法和本发明方法建库测序分析得到的核型图和结果峰图比较。其中,图4a为采用常规建库方法得到的核型图;图4b为采用本发明方法得到的核型图;图4c为采用常规建库方法得到的结果峰图;图4d为采用本发明方法得到的结果峰图。
图3和图4所示的结果显示,本发明方法检测的结果与常规建库方法得到的结果完全一致。说明本发明方法能够在保证结果真实性的前提下,大大简化建库程序,缩短建库时间。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换。