一种接头元件和使用其构建测序文库的方法
技术领域
本发明涉及生物技术领域,具体地,涉及一种接头元件,使用该接头元件构建测序文库的方法,所构建的测序文库及其应用。
背景技术
高通量测序已经成为了现代分子生物学、生物技术、医学等多领域的基础之一。在近几年,对迅速、精确、经济的基因表达水平和核苷酸序列的测定方法的研究不断推陈出新;以边合成边测序为基本原理的第二代高通量测序技术已趋于成熟,各大测序公司纷纷将重点放在了新测序产品的开发、测序流程的缩短和成本降低上。目前已有的基于第二代测序技术的测序产品有全基因组重测序、全转录组测序、小分子RNA测序等。特别的,第二代测序结合微阵列技术而衍生出来的应用--目标序列捕获测序技术能够使用大量寡核苷酸探针与基因组上的特定区域互补结合,捕捉富集特定区段的基因片段进行测序;运用于疾病基因的检测诊断与研究。
Complete Genomics(CG)公司目前已有一套独立自主开发的第二代测序技术,适用于人全基因组测序。其文库构建流程主要包括:基因组DNA打断、第一次接头连接、双链环化并酶切、第二次接头连接、单链分离环化。其中两次接头连接在整个建库流程非常重要。接头是一段特殊的设计好的DNA序列,通过连接等方法固定在DNA片段两端后,在测序时能被识别并作为测序的起始位点,供仪器读取其后的序列信息。为保证读取的序列信息易于分析,在一个DNA片段的两端(5’端和3’端)需要加上两种不同的接头;为了实现这种特定的方向性连接,同时避免接头间的相互连接,可以采用粘性末端接头连接的方式;但这种方式要求具有粘性末端的片段,难以避免片段间相互连接的问题。而Complete Genomics公司测序文库构建则采用了分多步骤分别添加两端接头的方式。为获得两端均连接上接头的片段,需要经过DNA片段一端连接接头、变性退火延伸、在DNA片段另一端连接接头、缺口补平、聚合酶链式反应在内五个步骤。其中多次的延伸反应所需试剂费用高昂,步骤间需要进行多次纯化回收,总体成本高且缺乏效率。
为解决Complete Genomics公司测序平台文库构建中存在的接头连接步骤过多,整体文库构建时间过长,成本过高的问题,特提出了本发明。
发明内容
针对上述现有技术的不足,本发明的目的在于提供一种接头元件,使用该接头元件构建测序文库的方法,所构建的测序文库及其应用。本发明的构建测序文库的方法,在接头连接时抛弃了传统的多步骤分别添加两端接头的方式,通过有着独特的序列构造的连接接头,和同样新颖的接头连接+单链替换的接头连接方法,在保证接头连接方向性的同时,解决了片段互连、接头自连、片段连接效率低的问题,并成功地将整个接头连接过程简化为四个全新步骤,并减少了步骤间的纯化反应,大大缩短了接头连接所需时间,明显地降低了成本;此外,本发明的测序文库构建方法还引入了核酸探针捕获技术,从而实现目标基因组区域的测序,成功创立了基于单链环状文库测序平台的目标区域捕获测序产品。
第一方面,本发明提供了一种接头元件,该接头元件由接头A和接头B组成;所述接头A由一条核酸长链与一条核酸短链互补配对而成,其长链5’端具有磷酸修饰,其短链3’端为封闭修饰,其短链中具有酶作用位点;所述接头B为一条核酸单链,其3’端能与接头A长链5’端互补配对,其余部分则无法与接头A互补配对。
上述接头元件中,作为优选,所述接头A长链为40-48bp,接头A短链为9-14bp;
优选地,所述接头B中,与接头A长链互补的长度为6-12bp,与接头A长链不互补的长度为9-15bp;
优选地,所述封闭修饰为双脱氧封闭修饰。
作为优选,所述短链中的酶作用位点为U或dU,对应的酶为User酶。
作为优选,所述接头B中具有标签序列;由于标签序列的存在,在后续步骤中可以将标签不同的不同样品混合后放入同一反应体系进行反应,进一步节约操作步骤与成本。
在一个优选的实施方案中,所述接头A的长链序列为:/Phos/GTCTCCAGTCTCAACTGCCTGAAGCCCGATCGAGCTTGTCT(即,SEQ ID NO:1),所述接头A的短链序列为GACUGGAGAC/ddC/(即,SEQ ID NO:2),所述接头B的序列为TCCTAAGACCGCACTGGAGAC(即,SEQ ID NO:3),其中“//”中为末端修饰基团,“Phos”表示磷酸化,“dd”表示双脱氧。
第二方面,本发明提供了一种接头连接方法,该接头连接方法为:将如第一方面所述的接头元件连接在待测DNA片段两端。
优选地,所述接头连接方法依次包括如下步骤:
(1)通过连接反应,将所述接头A加在待测DNA片段的两端;
(2)根据短链中的酶作用位点,用相应酶处理接头A连接后的DNA片段;
(3)通过连接反应,在经过步骤(2)处理的接头A连接后的DNA片段两端加上接头B。
作为优选,在所述接头元件连接前,还包括将待测DNA片段进行去磷酸化和平端修复的步骤;进一步优选地,在步骤(2)中,还包括对所述DNA片段未连接的5’端进行磷酸化处理的步骤;进一步优选地,使用多聚核苷酸激酶进行磷酸化处理。
第三方面,本发明提供了一种测序文库的构建方法,其使用如第一方面所述的接头元件或如第二方面所述的接头连接方法进行接头连接。
在一个优选的具体实施方案中,所述构建方法包括以下步骤:
1)将待测DNA进行片段化;
2)对步骤1)所得DNA片段进行去磷酸化和平端修复;
3)接头连接:
接头A连接:通过连接反应,在步骤2)所得DNA片段两端加上接头A;
酶处理、磷酸化:根据接头A短链中的酶作用位点,用相应酶处理接头A连接后的DNA片段,并对片段未连接的5’端进行磷酸化处理;
接头B连接:通过连接反应,在接头A连接后的DNA片段两端加上接头B;
4)DNA片段扩增:以步骤3)所得DNA片段为模板,以与接头A长链、接头B核酸链互补配对的核酸单链C、D为引物,进行聚合酶链式反应;
5)杂交捕获:用寡核苷酸探针对步骤4)所得产物进行杂交捕获,并在杂交产物的富集步骤中,在核酸双链的一条链5’端引入分离标记,另一条链5’端引入磷酸基团修饰;
6)单链分离及环化:利用分离标记对步骤8)所得产物进行分离,获得无分离标记的另一条核酸单链;环化所得核酸单链,得单链环状核酸产物,即为测序文库。
对于上述构建方法:
步骤1)中,作为优选,所述待测DNA为基因组DNA;
优选地,所述片段化为利用物理方法或化学方法,对待测DNA进行随机打断;
优选地,利用物理超声法或酶反应法进行待测DNA片段化;
优选地,所述DNA片段的长度为150-250bp。
步骤2)中,作为优选,所述去磷酸化是利用碱性磷酸酶、优选虾碱性磷酸酶进行的;
优选地,所述平端修复是利用T4 DNA聚合酶进行的。
在一个优选的实施方案中,步骤3)中所述接头A的长链序列为:/Phos/GTCTCCAGTCTCAACTGCCTGAAGCCCGATCGAGCTTGTCT(即,SEQ ID NO:1),所述接头A的短链序列为GACUGGAGAC/ddC/(即,SEQ ID NO:2),所述接头B的序列为TCCTAAGACCGCACTGGAGAC(即,SEQID NO:3),其中“//”中为末端修饰基团,“Phos”表示磷酸化,“dd”表示双脱氧;在进一步优选的实施方案中,步骤4)中所述核酸单链C的序列为/Phos/AGACAAGCTCGATCGGGCTTC(即,SEQ ID NO:4),所述核酸单链D的序列为TCCTAAGACCGCACTGGAGAC(即,SEQ ID NO:5),其中“//”中为末端修饰基团,“Phos”表示磷酸化。
步骤5)中,作为优选,所述寡核苷酸探针为寡核苷酸探针库;使用寡核苷酸探针的杂交捕获步骤使得本发明的测序文库可以实现全外显子测序,并且,通过更换所使用的寡核苷酸探针,可以满足其他不同的测序要求。
优选地,所述分离标记为生物素修饰。
步骤6)中,作为优选,在单链核酸环化后,还包括通过用外切酶等方法处理,去掉剩余的未环化单链的步骤。
上述构建方法所得单链环状核酸产物可以直接进入后续的测序步骤,经过滚环复制后形成核酸纳米球(DNB)进行核酸序列信息读取。
第四方面,本发明提供了一种测序文库,其由如第三方面所述的构建方法制得。
第五方面,本发明提供了如第四方面所述的测序文库在基因组测序中的应用,优选地,在目标基因组区域测序中的应用;优选地,使用单链环状文库测序平台进行测序;进一步优选地,使用Complete Genomics公司的测序平台进行测序。
第六方面,本发明提供了一种核酸测序方法,其包括将如第四方面所述的测序文库进行测序的步骤;
优选地,使用单链环状文库测序平台进行测序;进一步优选地,使用CompleteGenomics公司的测序平台进行测序;
优选地,还包括将测序结果进行组装和/或拼接的步骤。
第七方面,本发明提供了一种测序文库构建试剂盒,其特征在于,包括如第一方面所述的接头元件。
优选地,所述试剂盒还包括去磷酸化酶,优选碱性磷酸酶,更优选虾碱性磷酸酶;DNA聚合酶,优选T4 DNA聚合酶;User酶;和磷酸化酶,优选多聚核苷酸激酶。
有益效果
片段化的待测DNA在经过步骤2)的处理后,目的核酸片段经过去磷酸化的末端封闭处理后,成为了两端封闭的平末端片段,完全避免了片段间相互作用的发生,使连接前DNA片段的利用率得到了极高的保证。
本发明在接头A的长链5’端引入磷酸基团,且在接头A的短链3’端引入封闭修饰;由于封闭修饰的存在,被封闭的末端无法与目标核酸片段进行连接;再加上长短链本身的特殊构造,接头与接头之间也无法连接;确保了在进行接头A连接时,接头长链的5’末端能够准确地连接至目的片段3’末端。这种设计非常有效地防止了接头互连的发生,保证了连接反应的效率。
在接头A连接后设计进行的目标片段磷酸化步骤,使目标片段未连接上接头的一端磷酸化;在接头A连接后的酶处理过程中,接头A的短链缩短、脱落,使得接头B可以部分配对于接头A长链;上述这些使得接头B的定向连接成为了可能,保证了接头连接的方向性。而在传统Complete Genomics公司的接头连接步骤中,在接头A连接后选择了通过变性、退火、延伸的方式(图2编号1所示)避免两端连接上同样的接头;此方法虽然也保证了接头连接的方向性,但需要使用高保真热启动酶,成本很高,反应时间长。而本发明的此种连接方式所采用的处理酶(如User酶)相对廉价,酶反应条件温和;而且对反应体系的要求低,在酶处理前可以省略纯化处理步骤。总体来说,既降低了成本,又减少了处理时间。
在B接头的连接中,也巧妙地运用了接头A结构中长短链的特性;由于酶处理后短链互补配对碱基较少、结合不稳定,在相对较温和的温度就会与长链分离;简单地使具有较长碱基互补配对序列、结合能力更占优势的接头B单链与接头A长链互补配对;使之精确地连接至目的片段空缺的末端。而接头B其他部分不能互补配对的序列则保证了A、B两种接头的差异性;通过随后的聚合酶链式反应,最终形成了有不同末端序列(即,一端为A接头长链,一端为B接头)的目标片段。这种独特的设计通过与聚合酶链式反应的结合,解决了在平末端连接时,如何经济有效地在片段两端引入不同接头的问题。同时避免了通过引入末端连接腺苷酸步骤来进行片段的粘性末端连接,从而导致的片段/接头间相互作用的发生。
对比Complete Genomics公司传统的B接头连接方法(图2编号2所示),通过此特殊的部分碱基配对的单链接头设计,将接头连接、缺口补平用一个步骤替换,大大缩短了流程,节约了成本。
在Complete Genomics公司传统的测序文库构建方案的基础上,本发明提出了一种基于新颖的接头构造和接头连接方式的测序文库构建方案,并引入了探针杂交捕获步骤,从而开发出基于单链环状文库测序平台的新颖的目标区域捕获文库测序产品,实现了基于单链环状文库测序平台的小区域捕获文库测序从无到有的突破。
附图说明
图1图解说明了本发明的测序文库构建方案;1为打断后的DNA片段,2为经过去磷酸化、末端修复后的片段(每个末端均为羟基),3为接头A长短链,4为接头B单链,5为文库构建最终产物核酸单链环。
图2图解说明了Complete Genomics公司的传统接头连接方法;为接头A’、B’连接之间的处理步骤;2为接头B’连接相关的三个步骤。
具体实施方式
为便于理解本发明,本发明列举实施例如下。本领域技术人员应该明了,所述实施例仅仅是帮助理解本发明,不应视为对本发明的具体限制。
实施例1本发明的测序文库构建
1、基因组DNA打断:基因组DNA打断有多种方式,无论是物理超声法还是酶反应法,市场上有非常成熟的方案。本实施例采用的是物理超声打断法。
取96孔PCR板一块,加入一根聚四氟乙烯线,加入基因组DNA1μg,加入TE缓冲溶液或无酶水补齐80μl。将板封膜后至于E220超声打断仪上超声打断。打断条件设置:
填充系数 |
20% |
剧烈度 |
5 |
脉冲系数 |
200 |
打断时间 |
60s,5次 |
2、打断片段选择:可以采用磁珠纯化法或凝胶回收法。本实施例采用磁珠纯化法。
取打断后的DNA,加入80μl Ampure XP磁珠,混匀后放置7-15min;置入磁力架后收集上清,在上清中加入40μl Ampure XP磁珠,混匀后放置7-15min;置入磁力架吸去上清,用75%乙醇洗磁珠两次;晾干后加入50μl TE缓冲溶液或无酶水,混匀后放置7-15min溶解回收产物。
3、去磷酸化反应:取上步骤回收产物,按下表配制体系:
将4.8μl反应液加入前一步的回收产物中,混匀,按下表条件进行反应。反应产物直接用于进行下一步骤。
4、片段末端修复:按下表配制体系:
将体系混匀后加入上一步骤产物中,混匀后置于12℃孵育20min。使用90μlAmpure XP磁珠进行纯化,18μl TE缓冲溶液溶解回收产物。(反应产物的纯化有多种方式,有磁珠法、柱纯化法、凝胶回收法等等。均可用于替换。本实施例如不做特殊说明,均采用磁珠法纯化。)
5、接头A连接:本方案中使用的接头序列如下(序列从左到右为5’端至3’端,“//”中为末端修饰基团,“phos”表示磷酸化,“dd”表示双脱氧,“bio”表示生物素):
接头A长链:
/Phos/GTCTCCAGTCTCAACTGCCTGAAGCCCGATCGAGCTTGTCT(即,SEQ ID NO:1);
接头A短链:
GACUGGAGAC/ddC/(即,SEQ ID NO:2);
本方案使用的连接缓冲液1配方:
三羟甲基氨基甲烷-盐酸(pH 7.8) |
150mM |
聚乙二醇8000 |
15% |
氯化镁 |
30mM |
核糖核苷三磷酸 |
3mM |
配制以下体系:
将以上体系与之前的产物混匀,按下表进行反应:
6、磷酸化、去尿嘧啶:按下表配置体系:
将以上反应体系加入步骤5产物中,混匀后置于37℃放置15min。
使用60μl Ampure XP磁珠纯化,62.5μl无酶水或TE缓冲液溶解回收。
7、接头B连接:
接头B序列如下:
TCCTAAGACCGCACTGGAGAC(即,SEQ ID NO:3)
按下表配制体系:
在步骤6回收产物中加入上述体系混匀,20℃反应20min。
使用120μl Ampure XP磁珠进行纯化,45μl TE缓冲溶液溶解回收产物。
8、聚合酶链式反应:
引物C序列如下:
/phos/AGACAAGCTCGATCGGGCTTC(即,SEQ ID NO:4)
引物D序列如下:
TCCTAAGACCGCACTGGAGAC(即,SEQ ID NO:5)
按下表配制体系:
将上步骤回收产物,加入到以上体系中,混匀后按下表条件进行反应:
反应完成后使用240μl Ampure XP磁珠进行纯化,25μl无酶水溶解回收产物。
9、杂交捕获:取500ng-1μg上步骤反应产物,浓缩蒸干后加入以下体系1中溶解:
封闭序列1:GAAGCCCGATCGAGCTTGTCT(即,SEQ ID NO:6)
封闭序列2:GTCTCCAGTC(即,SEQ ID NO:7)
封闭序列3:GTCTCCAGTGCGGTCTTAGGA(即,SEQ ID NO:8)
将混合后的反应体系1置于95℃反应5min,持续放置于65℃。
配制体系2:
将体系2加入体系1中,持续放置于65℃。
配制体系3:
将体系3加入体系1、2中,65℃反应20-24h。
反应完成后使用链霉亲和素包裹的磁珠进行结合,结合完成后将磁珠溶于50ul无酶水中。
配制以下反应体系:
带生物素修饰的引物D序列如下:
/bio/TCCTAAGACCGCACTGGAGAC(即,SEQ ID NO:9)
将溶解的磁珠加入反应体系中混匀,按下表进行反应:
95℃ |
3min |
95℃ |
30s |
56℃ |
30s |
72℃ |
90s |
68℃ |
7min |
反应完成后使用240μl Ampure XP磁珠进行纯化。使用80μl TE缓冲液或无酶水溶解回收产物。
10、单链分离:使用链霉亲和素包裹的磁珠结合步骤9中获得的带生物素目的片段。使用78μl 0.1M氢氧化钠将未结合磁珠的单链分离下来,加入酸性缓冲液中和获得的分离产物,中和后产物总体积112ul。
11、单链环化:配制以下反应体系1:其中核酸单链E具有相应互补序列用于连接单链两端。单链E序列如下:TCGAGCTTGTCTTCCTAAGACCGC(即,SEQ ID NO:10)
无酶水 |
43μl |
核酸单链E |
20μl |
总共 |
63μl |
将反应体系1加入步骤10单链产物中。混匀。
配制反应体系2:
将反应体系2加入反应体系1中,混匀,37℃孵育1.5h。
12、外切酶1、外切酶3处理:
配置以下反应缓冲液:
将23.7μl反应缓冲液加入步骤11的350μl反应产物中。混匀后置于37℃孵育30min。
加入15.4μl 500mM乙二胺四乙酸,混匀。
使用800μl Ampure XP磁珠纯化回收,40-80μl无酶水/TE缓冲液回溶。
本实施例最终产物浓度和总量情况如下:
|
浓度(ng/μl) |
总量(ng) |
产物1 |
0.40 |
16 |
产物2 |
0.42 |
16.8 |
产物3 |
0.48 |
19.2 |
申请人声明,本发明通过上述实施例来说明本发明的详细工艺设备和工艺流程,但本发明并不局限于上述详细工艺设备和工艺流程,即不意味着本发明必须依赖上述详细工艺设备和工艺流程才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。
SEQUENCE LISTING
<110> 华大基因研究院
<120> 一种接头元件和使用其构建测序文库的方法
<130> PY2014
<160> 10
<170> PatentIn version 3.3
<210> 1
<211> 41
<212> DNA
<213> 人工序列
<223> /分子类型="DNA"
/"/Phos/"="末端磷酸基团修饰"
<400> 1
/Phos/gtctccagtc tcaactgcct gaagcccgat cgagcttgtc t 41
<210> 2
<211> 13
<212> DNA
<213> 人工序列
<223> /分子类型="DNA"
/"/ddc/"="双脱氧胞嘧啶"
<400> 2
gacuggagac /ddc/ 13
<210> 3
<211> 21
<212> DNA
<213> 人工序列
<400> 3
tcctaagacc gcactggaga c 21
<210> 4
<211> 21
<212> DNA
<213> 人工序列
<223> /分子类型="DNA"
/"/Phos/"="末端磷酸基团修饰"
<400> 4
/Phos/agacaagctc gatcgggctt c 21
<210> 5
<211> 21
<212> DNA
<213> 人工序列
<400> 5
tcctaagacc gcactggaga c 21
<210> 6
<211> 21
<212> DNA
<213> 人工序列
<400> 6
gaagcccgat cgagcttgtc t 21
<210> 7
<211> 10
<212> DNA
<213> 人工序列
<400> 7
gtctccagtc 10
<210> 8
<211> 21
<212> DNA
<213> 人工序列
<400> 8
gtctccagtg cggtcttagg a 21
<210> 9
<211> 21
<212> DNA
<213> 人工序列
<223> /分子类型="DNA"
/"/bio/"="末端生物素修饰"
<400> 9
/bio/ tcctaagacc gcactggaga c 21
<210> 10
<211> 24
<212> DNA
<213> 人工序列
<400> 10
tcgagcttgt cttcctaaga ccgc 24