CN108866155B

CN108866155B - 一种下一代测序文库的制备方法

Info

Publication number: CN108866155B
Application number: CN201810596876.5A
Authority: CN
Inventors: 常玉晓; 穆建强; 赵胜; 卢颖; 刘可
Original assignee: Agricultural Genomics Institute at Shenzhen of CAAS
Current assignee: Shenzhen Zhongnong Jingyue Biotechnology Co ltd
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2022-07-26
Anticipated expiration: 2038-06-11
Also published as: CN108866155A

Abstract

本发明公开了一种下一代测序文库的制备方法。按照如下步骤进行：DNA定量，在待测DNA片段的两端加上测序时需要的DNA接头序列，DNA文库的浓度和DNA片段长度分布模式的检测，DNA文库混合比例的计算和混合，混合文库的片段选择，被选择DNA文库的检测和定量，被选择DNA文库的测序。本发明的方法将多个文库在PCR后混合在一起进行一次片段分选和Q‑PCR定量，大大的降低了工作量，而且最终的测序数据量在不同样品中的分布没有受到显著影响。

Description

一种下一代测序文库的制备方法

技术领域

本发明属于生物技术领域，具体涉及一种下一代测序文库的制备方法。

背景技术

2015年10月，随着Illumina公司宣布将HiSeq X^TM测序系统的应用扩展到非人物种的全基因组测序后，新一代测序(Next-Generation Sequencing，NGS)的成本大幅度下降；2017年1月9日，测序巨头企业Illumina公司在著名的JP摩根健康大会上发布了新的测序系统NovaSeq^TM系列仪器，并声称该仪器一次运行的试剂成本比HiSeq X^TM低30％，但是数据产出量是HiSeq X^TM的3倍，使得未来人类基因组测序的价格进一步降至100美元。HiSeq X^TM和NovaSeq^TM的推出，也使众多物种的大规模群体重测序项目成为可能。然而，与测序环节技术的快速进步相比，测序文库的构建技术在过去的十年中鲜有实质性的改进和提高，这一点很大程度上限制了NGS的广泛应用，尤其是样品数量多时，测序文库的构建这一步往往成为项目周期和成本的限制因素。

测序文库构建的流程包含三个步骤：第一步，在待测DNA片段的两端加上测序时需要的DNA接头序列；第二步，DNA文库片段选择；第三步，DNA文库中有效DNA片段的准确定量。

在第一个步骤中，目前有两大类在待测DNA片段的两端加上测序时需要的DNA接头序列的方法。第一类一般称为Truseq文库，其大致流程如下：1.根据准备测序的读长，将基因组DNA打断成峰值在300-500bp、但范围弥散分布于200-1000bp的小片段；2.将这些小片段DNA经过末端修复、加腺嘌呤脱氧核糖核苷酸(dATP)尾巴后形成3’端带dATP尾巴的双链DNA分子；3.将3’端带dATP尾巴的双链DNA分子和5’端带胸腺嘧啶脱氧核糖核苷酸(dTTP)的Truseq接头连接；4.根据需要可以用通过聚合酶链式反应(Polymerase Chain Reaction,PCR)扩增连接了接头的DNA片段，或者不用PCR扩增而构建PCR-free的测序文库。另一类在待测DNA片段的两端加上测序时需要的DNA接头序列的方法一般称为转座酶文库。转座酶文库利用Tn5转座酶复合体可以随机切割DNA分子并在切割的位置连接上测序接头的特性，把构建Truseq文库过程中的DNA打断、末端修复、加dATP尾巴、接头连接等过程通过一次转座酶反应完成，大大的简化了文库构建的过程。接头连接上以后，和Truseq文库构建一样，通过PCR扩增获得转座酶文库。

在第一个步骤完成后，无论是Truseq文库还是转座酶文库，其DNA片段的范围都是弥散的分布于大概200-1000bp，因此需要测序文库构建流程中的第二个步骤，即根据测序长度选取跨度大约为100bp的DNA片段进行后续测序反应。比如，如果目的测序长度为双末端150bp(Pair End 150bp)，则选择长度为420-520bp(插入片段约300bp，加上两端的接头长度约120-160bp)的DNA片段；如果目的测序长度为双末端250bp(Pair End 250bp)，则选择长度为620-720bp。目前一般用磁珠或琼脂糖凝胶切胶的方法选择目的DNA片段，也可以利用Life technology公司开发的

预制琼脂糖凝胶电泳系统或Sage Science公司开发的系列仪器(Sage BluePippin、Sage ELF或Sage PippinHT)进行DNA文库片段选择。

在第二个步骤DNA文库片段选择完成后，得到一个DNA长度跨度约为100bp、峰值根据测序长度而异的待测序的文库。由于在文库构建的每一步反应中，酶学反应效率都达不到100％，尤其是Truseq文库的构建需要三次酶学反应，导致最终所得文库中只有部分DNA分子两端都连接上了测序接头。而测序过程中，只有DNA两端均连接上测序接头的DNA分子才能做为模板在测序芯片(Flowcell)上被扩增而产生DNA簇(DNA Cluster)，而且模板的浓度对测序数据的产出量和测序质量有重要的影响：如果模板浓度过低，则DNA簇的密度也低，数据产出量也随之就低，导致测序试剂的浪费；如果模板浓度过高，则DNA簇的密度也高，临近的DNA簇上产生的荧光信号会相互干扰，导致数据质量下降，严重时甚至会导致测序失败。因此，需要测序文库构建流程中的第三个步骤，即对DNA文库中两端都带有测序接头的有效DNA片段的准确定量。此外，目前测序仪的通量越来越高，生产中常常需要把多个样品混合在一起进行测序，为了使各样品的数据产出量准确，也需要对单个样品进行准确定量后再根据文库浓度进行文库混合。现在一般常用Q-PCR对文库进行定量。

目前，常规的测序文库构建流程中，需要对每一个样品按照上述三个步骤依次独立进行，工作量很大，效率很低，费时费力。尤其是第二个步骤(DNA文库片段选择)和第三个步骤(DNA文库中有效DNA片段的准确定量)，这两个步骤需要的手工操作非常繁杂，虽然可以利用自动化移液工作站替代部分人工操作，但自动化移液站的购置成本昂贵，一般的实验室或公司难以承担。利用琼脂糖凝胶电泳进行文库的片段选择时，为避免不同样品之间相互污染，一个电泳槽最多完成两个样品。一般情况下，每人需要利用12个电泳槽才可以同时处理24个样品，一天最多处理24个样品(上午电泳、切胶，下午做DNA回收)。处理96个样品大约需要4天。Q-PCR对选择的片段进行定量时一般每个样品需要3-5次技术重复，若利用384孔PCR板，每次可以处理大约75-125个样品。这样，完成96个样品的定量也需要1天时间。在这种背景下，常规的测序文库构建方法已经成为下一步大规模群体重测序项目的瓶颈步骤。亟需开发高效率、低手工操作、低成本的测序文库制备方法，打破HiSeq X^TM和NovaSeq^TM时代常规文库制备、片段选择和文库定量流程对测序的限制瓶颈。

发明内容

本发明的目的在于提供一种高通量、低成本的测序文库制备、片段选择和文库定量的方法。

一种下一代测序文库的制备方法，按照如下步骤进行：

(1)DNA定量：将抽提的基因组DNA取2-5μL，测定基因组DNA的浓度；

(2)在待测DNA片段的两端加上测序时需要的DNA接头序列；

(3)DNA文库的浓度和DNA片段长度分布模式的检测；

(4)DNA文库混合比例的计算和混合：根据每个文库的浓度和该文库中目标片段占的比例，两者相乘即得到该文库中目标片段的浓度，该浓度信息是不同DNA文库混合的依据；根据目标片段的浓度，从每个文库都取相同总量的目标DNA进行混合，获得最终混合的文库；

(5)混合文库的片段选择：将混合好的文库进行片段选择，采用磁珠或琼脂糖凝胶切胶的方法选择目的DNA片段，也可以利用Life technology公司开发的

预制琼脂糖凝胶电泳系统或Sage Science公司开发的系列仪器(Sage BluePippin、Sage ELF或SagePippinHT)进行DNA文库片段选择；

(6)被选择DNA文库的检测和定量：采用Fragment analyzer、AgilentBioanalyzer2100或Qsep100检测被选择文库的实际片段大小；文库的定量采用

或Q-PCR来测定；

(7)被选择DNA文库的测序：根据文库的浓度，按照Illumina相关仪器的要求，上机测序。

步骤(1)中，测定基因组DNA的浓度采用基于荧光染料的DNA浓度测定方法，所述基于荧光染料的DNA浓度测定方法为

或

步骤(2)中，所述在待测DNA片段的两端加上测序时需要的DNA接头序列的方法有2种，第一种方法是将基因组DNA利用超声波打断，然后对其进行末端修复、加A尾巴，然后利用连接酶将DNA接头连接到基因组DNA片段上并通过PCR扩增得到文库；第二种方法是利用Tn5转座酶复合体将DNA打断并连接上DNA接头序列。

步骤(3)中，所述DNA文库的浓度采用

或

的方法来测定；所述DNA片段分布模式采用Fragment analyzer、Agilent Bioanalyzer 2100或Qsep100来检测。

步骤(4)中，混合的文库的个数可以根据每个文库所需数据量和测序平台而定；常用的Illumina HiseqX每条Lane可产出120Gb的数据(PE150测序)，如果每个文库期望获得4G的数据，则可以把30个文库混合在一起。

步骤(5)中，混合文库的片段的回收采用Sage BluePippin、Sage ELF、SagePippinHT或E-Gel。

本发明的有益效果：本发明开发的下一代测序文库的制备方法，主要创新之处是根据文库中目的片段占总文库的比例对目的片段进行定量，根据目的片段的浓度将多个不同的文库混合在一起进行后续的片段分选和Q-PCR定量。和传统方法相比，本发明的方法将多个文库在PCR后混合在一起进行一次片段分选和Q-PCR定量，大大的降低了工作量，而且最终的测序数据量在不同样品中的分布没有受到显著影响。

附图说明

图1为水稻基因组DNA质量检测琼脂糖凝胶电泳图。

图2为Agilent Bioanalyzer 2100检测文库的片段分布图。

图3为30个样品混合测序的数据量分布图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。

实施例1

以30份水稻基因组DNA的文库构建过程为例，所用水稻DNA的琼脂糖凝胶电泳检测结果如图1所示(部分样品)，所有DNA条带完整、清晰，质量符合文库构建要求。操作步骤如下：

1.DNA的定量

1.1利用琼脂糖凝胶电泳对水稻基因组DNA进行质量检测，本实施例中DNA质量检测的结果如图1。

1.2Qubit定量的步骤

dsDNA High Sensitivity Kit测定DNA的浓度。本实施例中，30份水稻DNA的浓度如表1：

表1

2.在待测DNA片段的两端连接测序时需要的DNA接头序列

利用转座酶待测DNA片段的两端加上测序时需要的DNA接头序列，使用TruePrep^TMDNA Library Prep Kit V2for Illumina进行实验，具体操作步骤如下：

(1)基因组DNA的片段化，连接接头

1)在灭菌PCR管中配置如表2反应体系：

表2

2)使用移液器轻轻吹打5次充分混匀；

3)样品放置PCR仪中，程序如表3所示：

表3

(2)片段化DNA样品的纯化

1)加入90μL VAHTS DNA Clean Beads涡旋振荡或使用移液器吹打10次充分混匀，室温孵育5min；

2)将反应管瞬时离心并置于磁力架上，待溶液澄清后(约5min)小心移除上清；

3)保持反应管始终处于磁力架上，加入500μL新鲜配制的80％乙醇，室温孵育30sec，小心移除上清；

4)重复步骤3)一次；

5)保持反应管始终处于磁力架上，开盖空气干燥约5min；

6)将反应管从磁力架上取出，加入26μL Nuclease-free water混匀，室温孵育5min。

7)将反应管短暂离心并置于磁力架上，待溶液澄清后(约5min)小心吸取24μL上清至新的无菌PCR管中。

(3)PCR富集

1)将PCR管置于冰上，配置如表4反应体系：

表4

*TruePrep^TM Index Kit V2for

(Vazyme#TD202)中提供8种N5XX和12种N7XX，可根据样品数量和Index搭配策略自行选择。

2)使用移液器轻轻吹打5次充分混匀；

3)样品放置PCR仪中，程序如表5所示：

表5

(4)文库的纯化参照步骤(2)纯化过程。

3.DNA文库的浓度和DNA片段长度分布模式的检测

3.1DNA文库的浓度可以利用基于荧光染料的方法来检测，本实施例中利用Qubit来检测，获得DNA文库的浓度信息如表6：

表6

3.2DNA文库的片段长度分布模式可以利用Agilent Bioanalyzer 2100或Qsep100来检测，本实施例中利用Agilent Bioanalyzer 2100。根据测序需求，选择适宜测序的片段大小的区间。本实施例选择的区间范围是420bp-520bp，统计其占总片段分布的百分比。Agilent Bioanalyzer 2100统计30个样品420bp-520bp区间分布比例结果如表7所示：

表7

4.DNA文库混合比例的计算和混合

为了能够将不同的文库混合在一起进行后续的操作，需要知道上一步得到的文库的浓度和DNA片段长度分布的情况，浓度如前所述可以基于荧光染料的方法，例如

或

来测定，DNA片段分布模式可以用Fragment analyzer、AgilentBioanalyzer 2100、Qsep100等仪器来检测。

根据每个文库的浓度和该文库中目标片段(比如420-520bp区间)所占的比例，两者相乘可以得到该文库目标片段的浓度，该浓度是不同DNA文库混合的依据。根据目标片段的浓度，每个文库都取相同总量的目标DNA进行混合，由此计算出每个样品混合时需要的体积。本实施例中目标片段取5ng，对应每个样品文库的体积如表8所示。本实施例中利用Illumina HiseqX测序，每条Lane可产出大约120-130Gb的数据(PE150测序)，将30个文库混合在一起在一条Lane上测序，每个文库期望获得约4G的数据。

表8

5.混合文库的片段选择

将混合好的文库进行片段选择，可以用磁珠或琼脂糖凝胶切胶的方法选择目的DNA片段，也可以利用Life technology公司开发的

预制琼脂糖凝胶电泳系统或Sage Science公司开发的系列仪器(Sage BluePippin、Sage ELF或Sage PippinHT)进行DNA文库片段选择。本实施例利用Sage science公司的Sage ELF进行片段选择。具体操作可为：取30个样品对应体积的文库混合均匀后，吸取50μL，然后再加入10μL 6×loadingbuffer混合均匀，加入Sage ELF2％琼脂糖凝胶DNA回收胶盒(Cassette)中，设定“时间”模式电泳120min，回收不同的片段。

6.被选择DNA文库的检测和定量

本实施例利用

dsDNA High Sensitivity Kit检测分选回收的DNA的浓度。并利用Agilent Bioanalyzer 2100来检测文库的片段分布(图2)。文库的定量可以利用

或

测定，也可以利用Q-PCR来定量，本实施例中利用Q-PCR定量。

7.DNA文库的测序

根据步骤6中所得文库浓度，按照Illumina相关仪器的要求，上机测序。

本发明以单人处理96个样品为例。常规的测序文库构建方法中，第一步，在待测DNA片段的两端加上测序时需要的DNA接头序列，一般需要2天时间；第二步，DNA文库片段选择，利用琼脂糖凝胶电泳进行文库的片段选择时，为避免不同样品间的相互污染，一个电泳槽最多可完成2个样品的分选。一般情况下，每人需要利用12个电泳槽才可以同时处理24个样品，一天最多处理24个样品(上午电泳、切胶，下午做DNA回收)。处理96个样品大约需要4天；第三步，DNA文库中有效DNA片段的准确定量，一般每个样品利用Q-PCR对选择的片段进行定量时需要3-5次技术重复。若利用384孔PCR板，每次可以处理大约75-125个样品。这样，完成96个样品的定量也需要1天时间。综合起来，一个人需要7天时间才能完成96份样品的处理。

而利用本发明的方法，同样对于一个人处理96个样品而言，第一步，在待测DNA片段的两端加上测序时需要的DNA接头序列，需要1天；第二步，DNA文库片段选择，我们可以把96个样品每24个混合在一起，0.5天即可轻松完成4个混合样品的片段选择；第三步，DNA文库中有效DNA片段的准确定量，0.5天即可完成。综合起来，一个人需要用2天时间即可以处理96份样品，而且需要的手工操作时间也比传统方法少。更重要的是，虽然本发明没有对单个样品进行定量，但是最终的测序数据量在不同样品中的分布仍然很均匀。(以30个样品混库测序为例，每个样品预期4G数据量，如图3)。

Claims

1.一种下一代测序文库的制备方法，其特征在于，按照如下步骤进行：

（1）DNA定量：将抽提的基因组DNA取2-5μL，测定基因组DNA的浓度；

（2）在待测DNA片段的两端加上测序时需要的DNA接头序列；

（3）DNA文库的浓度和DNA片段长度分布模式的检测；

（4）DNA文库混合比例的计算和混合：根据每个文库的浓度和该文库中目标片段占的比例，两者相乘即得到该文库中目标片段的浓度，该浓度信息是不同DNA文库混合的依据；根据目标片段的浓度，从每个文库都取相同总量的目标DNA进行混合，获得最终混合的文库；

（5）混合文库的片段选择：将混合好的文库进行片段选择，利用琼脂糖凝胶切胶回收目的DNA片段的方法、E-Gel预制琼脂糖凝胶电泳系统、Sage BluePippin、Sage ELF或SagePippinHT，进行DNA文库片段选择，获得被选择DNA文库片段；

（6）被选择DNA文库的检测和定量：采用Fragment analyzer、Agilent Bioanalyzer2100或Qsep100检测被选择文库的实际片段大小；文库的定量采用Qubit、PicoGreen或Q-PCR来测定；

（7）被选择DNA文库的测序：根据文库的浓度，按照Illumina相关仪器的要求，上机测序；

步骤（2）中，所述在待测DNA片段的两端加上测序时需要的DNA接头序列的方法有2种，第一种方法是将基因组DNA利用超声波打断，然后对其进行末端修复、加A尾巴，然后利用连接酶将DNA接头连接到基因组DNA片段上并通过PCR扩增得到文库；第二种方法是利用Tn5转座酶复合体将DNA打断并连接上DNA接头序列；

步骤（3）中，所述DNA文库的浓度采用Qubit或PicoGreen的方法来测定；所述DNA片段分布模式采用Fragment analyzer、Agilent Bioanalyzer 2100或Qsep100来检测。

2.根据权利要求1所述下一代测序文库的制备方法，其特征在于，步骤（1）中，测定基因组DNA的浓度采用基于荧光染料的DNA浓度测定方法，所述基于荧光染料的DNA浓度测定方法为Qubit或PicoGreen。