基于高通量测序的PCR产物大样本量混合建库的文库构建方
法和试剂
技术领域
本发明涉及文库构建技术领域,尤其涉及一种基于高通量测序的PCR产物大样本量混合建库的文库构建方法和试剂。
背景技术
随着测序技术的发展,基因测序已进入千元基因组时代,但是对全基因组进行测序,其测序成本及分析成本依然是非常昂贵的。因此对外显子区域或者感兴趣的特定区域进行捕获测序则更符合实际需求。对于少数几个或者数十个目的基因扩增序列的二代测序文库构建,常常采用单管扩增后混合建库或者多重PCR。由于每个样本的目标区域小,而数据需求量低,所以一般都需要对成百上千个样本进行混合测序,而在常规的文库构建方法情况下,是先将样本DNA进行打断,再在加接头环节将不同样本的插入片段分别加上带有不同文库标签序列的接头,以便于下机数据进行样本的拆分。上述方法工作量大,难以进行大样本量的混合建库。
常规的高通量测序小片段文库的构建方法,是将样本DNA分别进行随机打断,进行末端修复及加“A”碱基,再给不同样本的DNA片段分别加上带有不同标签序列的接头,加接头产物即可进行混合建库上机。该方法由于需要对每个样本单独进行酶反应及纯化,建库成本高、工作量大,而且依赖于超声波打断设备。
为了降低建库的成本及工作量,实现大样本的混合建库,需尽可能在更早的环节在不同样本的PCR产物上加上用以区分样本的标签序列。除了上述的常规建库方法外,一种方法是在PCR环节,在特异性引物的5’端加上特定的标签序列,PCR产物混合后经不完全随机打断后建库并进行双端测序,部分插入片段带有标签序列则可区分样本信息,而部分不带有标签序列的数据则为无效数据。上述方法操作简单,但存在以下方面的问题:一是由于超声打断后,部分插入片段丢失了区分样本信息的标签序列,所以会产生部分无效数据,造成数据的浪费;二是为了实现序列的全覆盖,必须使用双端测序,插入片段大小范围较大,文库质量相对较差,影响下机数据质量;三是依赖于超声波打断设备。
发明内容
本发明提供一种基于高通量测序的PCR产物大样本量混合建库的文库构建方法和试剂,不依赖于超声打断仪器;实现混合建库,降低建库成本及复杂度;减少数据浪费,提高测序数据的碱基随机性、覆盖深度均一性,从而降低单个样本的测序成本。
根据本发明的第一方面,本发明提供一种基于高通量测序的PCR产物大样本量混合建库的文库构建方法,包括:
(1)将来源于不同样本DNA的多个PCR产物中的每一个,分别与带有标签序列的随机引物进行退火,并在恒温扩增酶的作用下进行恒温扩增反应,得到能够区分样本来源的恒温扩增产物,其中上述带有标签序列的随机引物的序列结构如下:
X(m)N(n),其中X(m)表示标签序列,其长度为4~15个碱基,用于区分样本来源;N(n)表示随机碱基序列,其长度为6~10个碱基,用于与上述PCR产物随机结合;
(2)将不同样本来源的恒温扩增产物混合,并对混合产物进行片段选择;
(3)对上述片段选择的产物进行5’磷酸化平末端修复和3’末端加A反应,以得到具有5’磷酸化和3’粘性末端A的DNA片段;
(4)将上述DNA片段与接头序列连接,以得到能够区分文库信息的连接产物,其中上述接头序列含有用于区分文库的条形码序列;
(5)对上述连接产物进行PCR扩增,以得到适用于高通量测序的上机文库。
进一步地,上述标签序列X(m)长度为6个碱基,上述随机碱基序列N(n)长度为6个碱基。
进一步地,上述步骤(1)中的PCR产物是目标区域特异性PCR产物。
进一步地,上述步骤(1)中的PCR产物是单重或者多重PCR反应的产物,其长度大于400bp。
进一步地,上述步骤(1)中的PCR产物的量是10-50ng。
进一步地,上述标签序列X(m)选自如下标签01至标签48所示的序列中任意一个:
进一步地,上述步骤(1)中的恒温扩增酶是phi29DNA聚合酶。
进一步地,上述接头序列包括正链和负链,其中上述正链如SEQ ID NO:1所示的序列,上述负链如SEQ ID NO:2所示的序列,
5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’(SEQID NO:1);
5’-GATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNNNATCTCGTATGCCGTCTTCTGCTTG-3’(SEQ ID NO:2),其中NNNNNNNN表示上述条形码序列。
根据本发明的第二方面,本发明提供一种基于高通量测序的PCR产物大样本量混合建库的文库构建试剂盒,包括:带有标签序列的随机引物,其序列结构如下:
X(m)N(n),其中X(m)表示标签序列,其长度为4~15个碱基,用于区分样本来源;N(n)表示随机碱基序列,其长度为6~10个碱基,用于与上述PCR产物随机结合;
上述带有标签序列的随机引物分别用于与来源于不同样本DNA的多个PCR产物中的每一个进行退火,并在恒温扩增酶的作用下进行恒温扩增反应,以便得到能够区分样本来源的恒温扩增产物。
进一步地,上述标签序列X(m)长度为6个碱基,上述随机碱基序列N(n)长度为6个碱基。
本发明的有益效果体现在:
(1)不依赖于超声打断仪器:本发明的方法采用随机引物恒温扩增法对样本DNA进行随机扩增,扩增产物呈弥散状,经片段选择后可用于建库,而不依赖于超声波打断仪。
(2)降低建库成本:在进行PCR产物的恒温扩增时,采用的是带有特定标签序列的随机引物,扩增产物在两端均带有特定标签序列,可将不同样本的恒温扩增产物进行混合建库,而不需如现有建库方法中单独对每个样本进行末端修复及加“A”、加接头,极大的降低建库成本。
(3)提高数据利用率,降低测序成本:经过恒温扩增反应,所得插入片段均带有各自特定的标签序列,不同于在PCR引物两端加标签序列,打断后部分片段丢失标签序列,不会造成数据浪费;而且测序数据随机分布在目标序列上,各位点覆盖深度均一度较好,整体数据需求量更低。
(4)提高测序质量:恒温扩增产物大小呈随机弥散状,此时可根据测序策略决定片段选取的大小及范围,经切胶或者磁珠片段选择后,其插入片段相比之下更为集中,文库质量更好;此外采用随机引物进行扩增,下机数据碱基随机性更好。
附图说明
图1为本发明实施例1中PCR产物经恒温扩增后的产物大小电泳图;其中,1表示Tiangen D2000DNA ladder,2表示恒温反应37℃30min(加酶),3表示恒温反应37℃30min(未加酶),4和5表示恒温扩增37℃60min(加酶),7和8表示恒温扩增37℃60min(未加酶);
图2为本发明实施例1中恒温扩增产物经磁珠片段选择产物的Ageilent2100bioanalyzer片段大小分析图;
图3为本发明实施例1中下机数据对特定PCR区域的序列覆盖深度及随机分布图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
本发明提出了一种基于高通量测序的PCR产物大样本量混合建库的文库构建方法,包括:
(1)将来源于不同样本DNA的多个PCR产物中的每一个,分别与带有标签序列的随机引物进行退火,并在恒温扩增酶的作用下进行恒温扩增反应,得到能够区分样本来源的恒温扩增产物,其中上述带有标签序列的随机引物的序列结构如下:
X(m)N(n),其中X(m)表示标签序列,其长度为4~15个碱基,用于区分样本来源;N(n)表示随机碱基序列,其长度为6~10个碱基,用于与上述PCR产物随机结合;
(2)将不同样本来源的恒温扩增产物混合,并对混合产物进行片段选择;
(3)对上述片段选择的产物进行5’磷酸化平末端修复和3’末端加A反应,以得到具有5’磷酸化和3’粘性末端A的DNA片段;
(4)将上述DNA片段与接头序列连接,以得到能够区分文库信息的连接产物,其中上述接头序列含有用于区分文库的条形码序列;
(5)对上述连接产物进行PCR扩增,以得到适用于高通量测序的上机文库。
在本发明的方法中,标签序列X(m)长度为4~15个碱基,随机碱基序列N(n)长度为6~10个碱基,若标签序列X(m)长度过长,例如超过15个碱基,则会导致随机性下降,使得不同位点的深度大小有比较大的差异。类似地,若随机碱基序列N(n)长度过长,例如超过10个碱基,也会导致随机性下降,使得不同位点的深度大小有比较大的差异。若标签序列X(m)长度过短,例如少于4个碱基,则会影响有效标签序列的数量,不足以区分大量样本。若随机碱基序列N(n)长度过短,例如少于6个碱基,也会影响随机性,甚至得不到有效的扩增产物。
发明人发现,标签序列X(m)长度为6个碱基,随机碱基序列N(n)长度为6个碱基的情况下,能够取得最好的效果,能够得到足量有效的扩增产物,并且随机性极佳。
发明人还对标签序列X(m)的具体碱基组成进行了深入研究。在考虑到高GC含量可能带来的负面影响,尤其是对随机碱基序列N(n)的影响的前提下,发明人得到了一组具体的标签序列,如下表1所示:
表1
名称 |
序列 |
名称 |
序列 |
标签01 |
ACAGTG |
标签25 |
CTATAC |
标签02 |
ACTGAT |
标签26 |
CTCAGA |
标签03 |
ACTTGA |
标签27 |
CTTGTA |
标签04 |
AGTCAA |
标签28 |
GACGAC |
标签05 |
AGTTCC |
标签29 |
GAGTGG |
标签06 |
ATCACG |
标签30 |
GATCAG |
标签07 |
ATGAGC |
标签31 |
GCCAAT |
标签08 |
ATGTCA |
标签32 |
GGCTAC |
标签09 |
ATTCCT |
标签33 |
GGTAGC |
标签10 |
CAAAAG |
标签34 |
GTAGAG |
标签11 |
CAACTA |
标签35 |
GTCCGC |
标签12 |
CACCGG |
标签36 |
GTGAAA |
标签13 |
CACGAT |
标签37 |
GTGGCC |
标签14 |
CACTCA |
标签38 |
GTTTCG |
标签15 |
CAGATC |
标签39 |
TAATCG |
标签16 |
CAGGCG |
标签40 |
TACAGC |
标签17 |
CATGGC |
标签41 |
TAGCTT |
标签18 |
CATTTT |
标签42 |
TATAAT |
标签19 |
CCAACA |
标签43 |
TCATTC |
标签20 |
CCGTCC |
标签44 |
TCCCGA |
标签21 |
CGATGT |
标签45 |
TCGAAG |
标签22 |
CGGAAT |
标签46 |
TCGGCA |
标签23 |
CGTACG |
标签47 |
TGACCA |
标签24 |
CTAGCT |
标签48 |
TTAGGC |
表1的标签序列,排除了高GC含量等因素的不利影响,避免了对随机碱基序列N(n)的影响,使得本发明能够取得极佳的效果。
本发明的典型特征,除了上述带有标签序列的随机引物的序列结构以外,还体现在:本发明是以PCR产物作为恒温扩增的模板来源,尤其是以目标区域特异性PCR产物作为恒温扩增的模板来源,这样的PCR产物可以是单重或者多重PCR反应的产物,其长度一般要求大于400bp,因为小于400bp的PCR产物,在恒温扩增中可能难以产生有效的产物,或者产物过小,文库质量可能会受影响。对PCR产物的片段数无限制,可以是任何数量的PCR产物。
作为模板的PCR产物的量一般要求10-50ng,能取得较好的效果。本发明中的恒温扩增酶可以是phi29DNA聚合酶。
在采用Hiseq平台进行高通量测序的情况下,所使用的通用接头序列包括正链和负链,其中上述正链如SEQ ID NO:1所示的序列,上述负链如SEQ ID NO:2所示的序列,
5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’(SEQID NO:1);
5’-GATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNNNATCTCGTATGCCGTCTTCTGCTTG-3’(SEQ ID NO:2),其中NNNNNNNN表示上述条形码序列。
条形码序列在不同混合文库间起到区别文库来源的作用。每个条形码序列都是特异的,对于Hiseq平台通用引物而言,条形码序列有96种。
在采用SEQ ID NO:1和SEQ ID NO:2所示的接头序列的情况下,与之配套的PCR扩增所用引物序列如下:SEQ ID NO:3和SEQ ID NO:4所示:
P1:5’AATGATACGGCGACCGAGATCTACAC(SEQ ID NO:3);
P2:5’CAAGCAGAAGACGGCATACGAGAT(SEQ ID NO:4)。
以下通过实施例详细说明本发明的技术方案和技术效果,应当理解,实施例仅是示例性的,不能理解为对本发明保护范围的限制。
实施例1
本实施例对地中海贫血的HBA、HBB两个基因的特定区域PCR产物进行建库测序及分析,以上基因参考序列均来自于公共在线数据库。
1.对以上基因特定区域的PCR扩增引物序列如下表2所示:
表2
2.以基因组DNA为模板,采用表2所示的4对引物,分别进行PCR反应,所使用的PCR反应试剂为KAPA Hotstart HiFi ready mix(KR0370),反应体系如下表3所示:
表3
反应程序为:95℃热变性3min;95℃变性30sec,56℃退火30sec,72℃延伸1min30sec,32个循环;72℃终延伸10min。
3.PCR产物纯化:向PCR产物中加入30μL NF(nuclease-free)水,再加入50μL XP磁珠,充分混匀后室温静置5min,上磁力架,待磁珠完全吸附后,去上清,使用70%乙醇清洗磁珠,磁珠晾干后加入50μL NF水洗脱DNA。
4.PCR产物的恒温扩增:取纯化后的PCR扩增产物,分别加入随机引物及恒温扩增缓冲液进行引物退火,体系如下表4所示:
表4
反应程序为:95℃反应3min,4℃反应10min。
图1示出了PCR产物经恒温扩增后的产物大小电泳图;其中,1表示TiangenD2000DNA ladder,2表示恒温反应37℃30min(加酶),3表示恒温反应37℃30min(未加酶),4和5表示恒温扩增37℃60min(加酶),7和8表示恒温扩增37℃60min(未加酶)。
5.向退火产物中加入2μL Phi29DNA聚合酶,37℃反应30min,此时扩增产物已分别加上了标签序列,将多管产物进行混合后,取2μL进行琼脂糖电泳,评估扩增情况。
6.取上述恒温扩增产物50μL,以0.7*0.3倍XP磁珠进行片段选择,35μL洗脱,取1μL片段选择产物使用Agilent 2100bioanalyzer分析片段大小。
图2示出了恒温扩增产物经磁珠片段选择产物的Ageilent 2100bioanalyzer片段大小分析图。
7.末端修复及加“A”,反应体系如下表5所示:
表5
反应程序为:37℃反应30min,65℃反应15min。
8.接头连接,反应体系如下表6所示:
表6
反应程序为:23℃反应60min;4℃保存。
9.接头连接产物纯化,以1倍XP磁珠进行纯化,50μL NF水洗脱。
10.文库出库前扩增,反应体系如下表7所示:
表7
反应程序为:95℃预变性3min;95℃变性30sec,56℃退火30sec,72℃延伸45sec,8个循环;72℃终延伸5min。
11.使用1倍磁珠对PCR产物进行纯化,纯化产物使用Qubit测定浓度合格后即可出库上机,测序策略为PE75。
12.下机数据经质控合格后,比较参考序列,分析数据覆盖深度及随机性。
图3示出了下机数据对特定PCR区域的序列覆盖深度及随机分布图。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
SEQUENCE LISTING
<110> 深圳市乐土精准医疗科技有限公司
<120> 基于高通量测序的PCR产物大样本量混合建库的文库构建方法和试剂
<130> 17I23933
<160> 12
<170> PatentIn version 3.3
<210> 1
<211> 58
<212> DNA
<213> 人工序列
<400> 1
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58
<210> 2
<211> 65
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (34)..(41)
<223> n is a, c, g, or t
<400> 2
gatcggaaga gcacacgtct gaactccagt cacnnnnnnn natctcgtat gccgtcttct 60
gcttg 65
<210> 3
<211> 26
<212> DNA
<213> 人工序列
<400> 3
aatgatacgg cgaccgagat ctacac 26
<210> 4
<211> 24
<212> DNA
<213> 人工序列
<400> 4
caagcagaag acggcatacg agat 24
<210> 5
<211> 19
<212> DNA
<213> 人工序列
<400> 5
agcataaacc ctggcgcgc 19
<210> 6
<211> 20
<212> DNA
<213> 人工序列
<400> 6
ctcagcaaac gtgccaggca 20
<210> 7
<211> 21
<212> DNA
<213> 人工序列
<400> 7
caagcataaa ccctggcgcg c 21
<210> 8
<211> 24
<212> DNA
<213> 人工序列
<400> 8
tatcccggaa tgtgccaaca atgg 24
<210> 9
<211> 18
<212> DNA
<213> 人工序列
<400> 9
gccagtgcca gaagagcc 18
<210> 10
<211> 22
<212> DNA
<213> 人工序列
<400> 10
gaatgggaaa cagacgaatg at 22
<210> 11
<211> 24
<212> DNA
<213> 人工序列
<400> 11
tttcagggca ataatgatac aatg 24
<210> 12
<211> 20
<212> DNA
<213> 人工序列
<400> 12
ggaatgtggg aggtcagtgc 20