CN104561362A

CN104561362A - 高通量测序文库及其构建方法

Info

Publication number: CN104561362A
Application number: CN201510055922.7A
Authority: CN
Inventors: 蒋智; 王大伟; 李明洲; 李宗文; 朱海浩; 王苗英; 刘运超
Original assignee: Nuo Hezhi Source Beijing Bioinformation Science And Technology Ltd
Current assignee: Nuo Hezhi Source Beijing Bioinformation Science And Technology Ltd
Priority date: 2015-02-03
Filing date: 2015-02-03
Publication date: 2015-04-29
Anticipated expiration: 2035-02-03
Also published as: CN104561362B

Abstract

本发明公开了一种高通量测序文库及其构建方法。该构建方法包括以下步骤：S1，从DNA-蛋白交联复合体中获取DNA片段；S2，利用核酸外切酶对DNA片段进行酶切；以及S3，对酶切后的DNA片段进行文库构建，得到高通量测序文库；其中，核酸外切酶是指作用于双链DNA，具有3’→5’核酸外切酶活性而不具有DNA聚合酶活性的核酸酶。上述文库构建方法，通过用具有3’→5’核酸外切酶活性而不具有DNA聚合酶活性的核酸外切酶替代现有技术中的具有3’→5’核酸外切酶活性且具有DNA聚合酶活性的klenow片段，因而能够将非目的片段中的标记去除得更彻底，使所得DNA片段纯度大大提高，进而提高后续测序数据的有效量。

Description

高通量测序文库及其构建方法

技术领域

本发明涉及高通量测序领域，具体而言，涉及一种高通量测序文库及其构建方法。

背景技术

染色体是遗传物质的载体，其活性和功能是由其结构和空间构象所决定的。染色体组成长期处于一种动态的平衡，即在整个细胞周期，乃至在不同类型的细胞中都是不同的。这种不同组成及活性对于染色体的形态建成以及基因的表达调控和复制等方面具有重要的作用。Job Dekker等在2002年最早发明了这种研究染色体空间构象的方法，即染色体构型捕捉(Chromosome Conformation Capture)方法，即3C方法，该方法可以用来研究染色体任意两个遗传位点相互作用频率。3C方法的原理是：首先分离待研究物种细胞核，经过甲醛处理最终使全基因组范围内具有物理上相互作用的DNA和其结合蛋白进行交联，通过解交联和测序分析获得相对各个位点相对互作频率数据。全基因组范围内互作频率分析即可反应出染色体的空间构象。

基于高通量测序的染色体构型捕捉(Hi-C)方法是3C方法与新一代测序方法的完美结合。该方法可以准确研究染色体三维结构的折叠和长距离调控。与3C方法相比，该方法可以更准确、无偏差，系统地在全基因范围内研究染色体的折叠情况。3C方法聚焦于某个位点，能进行两个区域间―一对应相互作用的分析。而Hi-C方法则是通过广泛撒网，聚焦于分析整个基因组中―一对多，―多对多的相互作用。

Hi-C的方法原理是经过甲醛固定细胞后，DNA或蛋白间的连接体也同时固定，用一种限制酶完全切割片段，再用连接酶连接、拆分交联体，最后将获得的DNA片段建库用于新一代测序，进一步通过生物信息学分析，最终获得染色体的三维折叠结构。下面结合图1对目前Hi-C方法的文库构建步骤做一个具体介绍：

(1)将2x10⁷～2.5x10⁷个哺乳动物的细胞用1％甲醛进行固定，固定后用甘氨酸终止反应，将固定后的细胞置于-80℃冰箱(可放置一年)；

(2)将固定好的细胞使用裂解液进行裂解，裂解之后使用NEB Buffer 2进行重悬，加入HindIII，37℃进行过夜酶切；

(3)将过夜酶切后的细胞，使用生物素标记的dCTP以及未生物素标记的dATP、dTTP、dGTP进行末端修复，修复酶为klenow片段(klenow fragment)；

(4)将修复后的细胞使用T4连接酶进行过夜连接，连接后将产生新的NlaIII酶切位点；

(5)加入蛋白酶K过夜裂解，然后使用酚氯仿抽提进行DNA提取；

(6)从提取得到的DNA中取5ug进行去除片段未连接的但末端存在生物素dCTP，防止捕获时捕获到末端未连接但存在生物素的片段；

(7)将处理完的样品进行建库，使用covaris进行打断至300bp，并使用XP磁珠进行片段选择，去掉过大或过小的片段；

(8)将上述打断的产物进行末端修复、加A反应；

(9)使用链霉素亲和磁珠处理，对中间产物中带有生物素标记的片段进行捕获，得到目的片段。

(10)将捕获到的目的片段连接illumina接头，使用P5、P7进行PCR扩增进行目的片段富集。

(11)将富集到的产物使用XP磁珠纯化，去掉引物二聚体等，纯化完的产物即为构建好的文库，使用NheI进行酶切检测文库质量。

(12)将构建完成的文库进行库捡，使用Hiseq 2500PE125进行测序，得到的数据进行信息分析，将测序所得序列(reads)中含有NheI位点的数据作为有效数据进行后续信息分析，该建库方法有效数据约为40-50％。

因而，急需对对现有技术进行改进，以改善现有的基于高通量测序的染色体构型捕捉方法所得到的有效数据少、建库效率低的缺陷。

发明内容

本发明的主要目的在于提供一种高通量测序文库及其构建方法，以改善现有技术中所构建的文库经测序后得到的有效数据量少、测序效率低的缺陷。

为了实现上述目的，根据本发明的一个方面，提供了一种高通量测序文库的构建方法，该方法包括以下步骤：S1，从DNA-蛋白交联复合体中获取DNA片段；S2，利用核酸外切酶对DNA片段进行酶切；以及S3，对酶切后的DNA片段进行文库构建，得到高通量测序文库；其中，核酸外切酶是指作用于双链DNA，具有3’→5’核酸外切酶活性而不具有DNA聚合酶活性的核酸酶。

进一步地，在步骤S2中，核酸外切酶为核酸外切酶III；更优选，利用8～12U的核酸外切酶对每ugDNA片段进行酶切，进一步优选酶切的反应条件为35～39℃反应8～12min，然后70～74℃反应18～25min。

进一步地，步骤S1包括：S11，利用蛋白酶对DNA-蛋白交联复合体进行解交联，得到DNA和蛋白的混合物；以及S12，对混合物进行DNA提取，得到DNA片段。

进一步地，步骤S11包括以下步骤：S111，利用核酸内切酶对DNA-蛋白交联复合体进行酶切，得到酶切交联体片段；S112，对酶切交联体片段进行末端修复标记，得到标记交联体片段；S113，对标交联体片段进行DNA连接，得到连接带标记交联体片段；以及S114，采用蛋白酶K对连接带标记交联体片段进行解交联，得到DNA和蛋白的混合物。

进一步地，步骤S112中，标记交联体片段上的标记为生物素标记。

进一步地，步骤S112步骤为：利用带生物素标记的dCTP及生物素未标记的dATP、dTTP和dGTP在Klenow片段修复酶的作用下，对酶切交联体片段进行末端修复标记，得到标记交联体片段。

进一步地，步骤S3包括以下步骤：S31，对经酶切后的DNA片段进行随机打断，得到片段化DNA；S32，对片段化DNA进行亲和纯化，得到纯化DNA；S33，对纯化DNA依次进行末端修复、加“A”、接头连接，得到带接头DNA；以及S34，对带接头DNA进行扩增富集，得到高通量测序文库。

进一步地，在步骤S32中，采用链霉素磁珠对片段化DNA进行亲和纯化，得到纯化DNA。

进一步地，在步骤S1之前，该方法还包括利用甲醛对DNA和蛋白进行交联，得到DNA-蛋白交联复合体的步骤。

进一步地，步骤S111中的核酸内切酶为HindIII、MboI、EcoRI或DpnII。

为了实现上述目的，根据本发明的另一个方面，提供了一种高通量测序文库，该高通量测序文库采用上述任一种方法构建而成。

应用本发明的技术方案，通过在从DNA-蛋白交联复合体中获取到DNA片段之后，以及利用该DNA片段进行文库构建之前，用以双链DNA为底物且具有3’→5’核酸外切酶活性而不具有DNA聚合酶活性的核酸外切酶替代现有技术中的具有3’→5’核酸外切酶活性且具有DNA聚合酶酶活性的klenow片段，能够将非目的DNA片段的末端碱基去除的更彻底，使所得到的用于建库的DNA片段的纯度大大提高，进而提高所构建的文库测序所得数据的有效量，大大减少了无效数据。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了现有技术中的高通量测序文库的构建方法流程示意图；

图2示出了本发明一种典型的实施方式中高通量测序文库的构建方法流程示意图；

图3示出了本发明一种优选的实施例中高通量测序文库的构建方法的详细流程示意图；以及

图4示出了本发明与现有技术所构建的高通量测序文库的电泳结果比较图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

本发明中的核酸外切酶是指作用于双链DNA，具有3’→5’核酸外切酶活性而不具有DNA聚合酶活性的核酸酶。适用于本发明的核酸外切酶所具有的共同点是：都以双链DNA为底物，且具有从3’-OH端将单个核苷酸逐一切除的活性而不具有DNA聚合酶的活性，满足上述条件的核酸酶都在本发明的保护范围内，而且，除了具有上述活性之外，本发明的核酸外切酶还可以具有其他相对较弱的核酸酶活性，比如，BAL-31核酸酶，除了具有3’→5’核酸外切酶活性外，还具有核酸内切酶活性，但其3’→5’核酸外切酶活性比其核酸内切酶活性强20倍。因此，适用于本发明的核酸外切酶可以是来源于大肠杆菌的核酸外切酶III和核酸外切酶V，也可以是来源于埃氏交替单胞菌BAL-31培养物的BAL-31核酸外切酶，还可以是ATP依赖型脱氧核糖核酸酶(如Plasmid-safe^TM ATP-dependent DNase)。

正如背景技术部分所提到的，现有技术中，在利用高通量测序的方法对全基因组上与蛋白互作的DNA片段进行检测时，因所构建的文库中包括了大量非目的片段，因而文库产出的有效数据量比较低。为了改善这一缺陷，发明人针对目前基于高通量测序的染色体构型捕捉的建库流程进行了大量研究，发现现有建库流程中存在以下缺点：

1)在关键步骤的处理上即上述第(6)步中存在缺陷，由于klenow片段修复酶对末端进行修复的步骤为一个动态平衡的过程，该步骤的原理是利用大浓度的不带标记的dCTP替换小浓度末端带有标记的dCTP，从而将提取得到的DNA片段中未连接的但末端存在生物素标记的dCTP替换下来，以防止这些非目的片段被捕获到。但由于该klenow片段修复酶的酶作用原理的限制，必定有一部分是替换不下来而且该酶的替换效率也比较低，从而使得很多无用的小片段被捕获到，从根本上导致了数据的浪费，造成了最后信息分析中目的片段的有效数据仅有40-50％；

2)在打断之后直接进行末端修复，加A反应，然后再进行链霉素亲和磁珠捕获，在捕获之前进行末端修复及加A反应，由于修复步骤的DNA起始量较大，影响了修复的反应效率且大部分不需要被捕获的片段并不需要进行反应，造成修复试剂的浪费；

3)该方法对细胞的起始数量要求较高，至少需要2x10⁷个，而有些原代细胞不易培养，有时无法满足建库需求。

基于上述发现，在本发明一种典型的实施方式中，提供了一种高通量测序文库的构建方法，如图2所示，该方法包括以下步骤：S1，从DNA-蛋白交联复合体中获取DNA片段；S2，利用核酸外切酶对DNA片段进行酶切；以及S3，对经酶切后的DNA片段进行文库构建，得到高通量测序文库；其中，核酸外切酶是指作用于双链DNA，具有3’→5’核酸外切酶活性而不具有DNA聚合酶活性的核酸酶。

本发明的上述文库构建方法，通过在从DNA-蛋白交联复合体中获取到DNA片段之后，以及利用该DNA片段进行文库构建之前，用核酸外切酶替代现有技术中的具有3’→5’核酸外切酶活性且具有DNA聚合酶酶活性的klenow片段，本发明的核酸外切酶是以双链DNA为底物，具有3’→5’核酸外切酶活性而不具有DNA聚合酶活性，因而能够将非目的片段中的标记去除的更彻底，使所得到的DNA片段的纯度大大提高，进而提高所构建的文库测序所得数据的有效量，大大减少了无效数据。

在本发明的上述步骤S1中，所获得的DNA片段既包含带有标记的目的片段也含有部分带有标记但因为物理距离或空间较大而无法在酶切后的连接步骤中实现连接的片段，而未连接的片段表明相互之间不存在互作，因而不是测序所需的目的片段，因而在建库步骤需要将其去除。而现有技术中采用的是klenow片段修复酶进行去除，是利用了klenow片段修复酶的3’→5’核酸外切酶活性，但如前面所提到的，klenow片段修复酶对末端进行去除及修复的步骤是一个动态平衡的过程，其在切除一个核苷酸后，会利用其DNA聚合酶活性再添加上一个核苷酸，而其通过添加不带标记的核苷酸替换切下来的带标记的核苷酸的思路，是建立在不带标记的核苷酸的浓度大于切下来的带有标记的核苷酸的浓度基础上的，而这种去除方式无法将未连接的非目的片段末端的标记彻底去除，从而影响了产出数据的有效量。因而，本发明的上述核酸外切酶也是指能够以双链DNA为底物，具有从3’→5’方向切除单个核苷酸的核酸外切酶，但该核酸外切酶并不包括现有技术中的既具有3’→5’核酸外切酶活性又具有DNA聚合酶活性的核酸酶，比如klenow片段修复酶。

在本发明的上述方法中，在步骤S2中用具有3’→5’核酸外切酶活性且不具有DNA聚合酶活性的核酸外切酶替代现有技术中的klenow片段对DNA片段进行酶切时，可以根据具体所使用的核酸外切酶的不同进行适当调整酶切体系和反应条件。在本发明一种优选的实施例中，核酸外切酶为核酸外切酶III；更优选利用8～12U的核酸外切酶对每ug所述DNA片段进行酶切，进一步优选酶切的反应条件为35～39℃反应8～12min，然后70～74℃反应18～25min。酶与底物的用量比和反应条件在上述范围内能够将末端修复后未连接上的带有标记的非目的片段的3’末端切掉，即将其所带有的标记切掉，使得后续亲和纯化时便不会被捕获到，进而提高了目的片段的纯度，从而大大提高所构建的文库后续产出的有效数据。

在本发明的上述方法中，步骤S1的目的是从交联的DNA-蛋白复合体中获取DNA用于后续文库构建，因而现有技术中所有能够获取DNA的步骤均适用于本发明。在本发明一种优选的实施例中，上述步骤S1包括：S11，利用蛋白酶对DNA-蛋白交联复合体进行解交联，得到DNA和蛋白的混合物；以及S12，对混合物进行DNA提取，得到DNA片段。该优选实施例采用蛋白酶将交联的复合体中的蛋白进行酶解，使得DNA释放出来，进而从DNA蛋白混合物中利用常规的DNA提取方法进行DNA提取即可得到DNA片段。更优选采用常用的蛋白酶K进行DNA-蛋白交联复合体的解交联，蛋白酶K能够酶解的蛋白种类多，活性高。

在本发明的另一种优选的实施例中，上述步骤S11包括：S111，利用核酸内切酶对DNA-蛋白交联复合体进行酶切，得到酶切交联体片段；S112，对酶切交联体片段进行末端修复标记，得到标记交联体片段；S113，对标交联体片段进行DNA连接，得到连接带标记交联体片段；以及S114，采用蛋白酶K对连接带标记交联体片段进行解交联，得到DNA和蛋白的混合物。

上述优选实施例中，采用核酸内切酶对DNA-蛋白交联复合体进行酶切是为了将基因组中交联的复合体进行割断，形成相对独立的酶切交联体片段，为了使各个独立的酶切交联体片段形成一个完整的片段用于后续建库，需要对片段进行连接，但连接之前需要对酶切片段进行末端修复补平；在修复补平的过程中通过使用带有标记的底物可以使修复的末端带上标记，进而不仅有利于标记连接的两个片段的作用位点，而且便于后续建库过程中对目的片段的捕获，因而蛋白酶K解交联后得到的DNA和蛋白混合物中的DNA是带有标记的连接片段和带有标记的未连接的片段。

上述步骤S112中，标记交联体片段上的标记可以是任何能够起到标记作用的物质，比如生物素标记、地高辛标记或者同位素标记等。本发明优选采用生物素标记，生物素标记不仅能够起到最基本的标记作用，而且可以通过DNA末端修复的过程中通过底物dNTP(如dCTP)来进行添加，此外，还没有同位素标记等放射性的危害，操作安全简单。

在本发明一种更优选的实施例中，上述步骤S112步骤为：利用带生物素标记的dCTP及生物素未标记的dATP、dTTP和dGTP在Klenow片段修复酶的作用下，对酶切交联体片段进行末端修复标记，得到标记交联体片段。只对其中一种底物进行生物素标记即可起到标记的作用，因而无需对所有的底物都进行标记，且既能实现标记的目的，又能节约成本。

在本发明的上述方法中，上述步骤S3即为文库构建的步骤，既可以采用现有技术中通用的方法来进行文库的构建，也可以在现有技术的文库构建步骤基础上进行适当改进得到。在本发明一种优选的实施例中，为了进一步提高所构建的DNA文库的数据有效量，提供了一种改进的文库构建步骤，该步骤S3包括：S31，对经酶切后的DNA片段进行随机打断，得到片段化DNA；S32，对片段化DNA进行亲和纯化，得到纯化DNA；S33，对纯化DNA依次进行末端修复、加“A”、接头连接，得到带接头DNA；以及S34，对带接头DNA进行扩增富集，得到高通量测序文库。

本发明的上述优选实施例中的文库构建步骤，通过将现有技术中的在随机打断后随即进行末端修复加A反应，然后才进行亲和纯化的操作步骤进行改进，在DNA随机打断后立即进行亲和纯化的步骤，通过纯化将未连接的带有标记的非目的片段去除后，再有针对性地进行末端修复和加A以及后续的接头连接、富集等步骤。这种改进仅通过简单的操作步骤上的调换，提早一步对目的DNA进行纯化，不仅提高了目的DNA的纯度，减少后续无效数据的产出，而且还能进一步使末端修复加A步骤所消耗的试剂大大减少，降低文库构建成本。

在上述优选实施例的步骤S32中，亲和纯化的步骤可以根据所带标记的不同而进行不同的亲和纯化。本发明优选采用链霉素磁珠对片段化DNA进行亲和纯化，得到纯化DNA。链霉素磁珠不仅能够特异性纯化DNA而且能够与DNA上的标记结合，使得带有标记的DNA被高度纯化富集。在本发明一种更优选的实施例中，采用M-280的链霉素磁珠对片段化DNA进行亲和纯化，该磁珠能够特异性地结合DNA的生物素标记，进而将带有生物素标记的DNA进行富集。

在本发明的上述方法中，得到DNA-蛋白交联复合体的步骤可以采用现有技术的方法得到，也可以采用其他方法得到。本发明优选采用在步骤S1之前，还包括利用甲醛对DNA和蛋白进行交联，从而得到DNA-蛋白交联复合体的步骤。

在本发明的上述方法中，步骤S111中将DNA-蛋白交联复合体进行酶切的核酸内切酶可以根据实验目的差异或DNA物种来源的不同进行合理选择，本发明优选上述核酸内切酶为HindIII、MboI、EcoRI、DpnII等限制性内切酶。这些核酸内切酶在不同物种中的酶切位点相对都较多，可以尽可能多地获得酶切交联体片段。

在本发明另一种典型的实施方式中，提供了一种高通量测序文库，该文库采用上述任一种方法构建而成。利用本发明提供的方法所构建的文库具有所得到的有效数据量多的优势。

下面将结合具体的实施例来进一步说明本发明的有益效果。

本发明以人肺腺癌H1299细胞系作为实验材料进行实验，前期需要对细胞进行培养，待细胞数量满足实验需求之后，按照图3所示的高通量测序文库构建方法的详细流程进行操作，具体实验步骤如下：

一、染色体的交联及固定

1.起始的细胞量为1x10⁷个细胞，将细胞培养液用450g转速离心10min收集细胞，弃掉上清液，加入45mL新鲜的细胞培养液将细胞重悬；

2.向上述重悬的细胞中加入1.25mL 37％甲醛(formaldehyde)混匀(终浓度1％)，室温放置10min，每隔2min上下摇动数次；

3.向其中加入2.5mL 2.5M甘氨酸混匀终止交联反应；

4.将细胞悬浮液用1500rpm离心10min，弃掉上清，细胞沉淀可储存在-80℃冰箱或直接进行下一步操作。

二、细胞裂解和DNA酶切

1.将每份细胞加入550ul裂解液(500ul 10mM Tris-HCL pH8.0、10mM NaCl、0.2％IgepalCA-630，50ul EB)，混匀后在冰上放置15min，；

2.用杜恩斯匀浆器进行裂解，在冰上进行，缓慢的上下颠倒30次；

3.将裂解液转入1.5mL管，室温5000rpm离心10min；

4.弃上清，用50ul 1x NEB buffer2重悬沉淀，向管中加入312ul 1xNEB buffer 2，混匀后再加入38ul 1％SDS，再次混匀后在65℃放置10min；

5.每管加入44μl Triton X-100充分混匀，加入400U HindIII(NEB)，37℃酶切过夜。

三、生物素标记DNA末端、稀释和连接

1.将上述酶切后的样品放置在冰上，依次加入以下试剂，充分混匀，然后在37℃放置45min；

0.4mM biotin-14-dCTP 37.5ul

dA/T/GP mix 4.5ul

Klenow 5U/ul 10ul

2.反应结束后将样品放置在冰上，加入86ul 10％SDS，65℃放置30min，结束后置在冰上；

3.准备15mL管并放置在冰上，加入7.61mL的连接体系(ligation mix)，体系如下，然后将上述修复标记后的产物分别加入其中，颠倒混匀，16℃放置4小时；

4.向每个管中加入50ul 10mg/ml蛋白酶K，混匀后在65℃放置过夜。

四、DNA提取

1.第二天再向上述蛋白酶K解交联的产物中每管加入50ul 10mg/ml蛋白酶K，65℃放置2小时，然后取出冷却至室温；

2.将管内的溶液转移到50ml离心管中，加入10ml pH 8.0phenol，vortex 2min，3500rpm离心10min，将上清转移至新的50ml管；

3.向管中加入10ml pH8.0的酚:氯仿(体积比1:1)，涡旋仪上混匀，3500rpm离心10min将上清转移至新的50ml离心管；

4.用1x TE将溶液体积补充至10ml，向其中加入1ml 3M NaOAc，25ml无水乙醇，颠倒混匀后在-80℃放置至少1hr；

5.将管取出，在4℃10000g离心20min。弃掉上清，加入450ul 1x TE溶解；

6.将上述450ul产物使用Zymo Genomic DNA Clean&Concentrator(货号：D4011)试剂盒对所提取的DNA进行纯化，详细步骤见试剂盒说明书。

五、除去末端标记但没有连接的DNA

1.将上述纯化后的产物进行定量，取3-5ug(建议5ug)加入以下体系，充分混匀。如果产物足够多，可取若干份5ug准备反应体系；

2.将上述体系于37℃反应10min，72℃反应20min，然后立即置于冰上；

3.将上述核酸外切酶的酶切产物补足至130ul，使用covaris进行随机打断，具体参数如下；

Covaris S220参数设置：

4.将片断化的产物用QIAquick PCR产物纯化试剂盒进行纯化(按照试剂盒说明)，产物用50ul洗脱液洗脱。(Qubit定量)

六、目标片段捕获

使用M-280Streptavidin磁珠(magnetic beads)对上述产物进行捕获，具体实验步骤如下：

1.振荡重悬M-280Streptavidin磁珠，吸取20μl重悬的磁珠置于1.5ml离心管，将离心管放置在磁分离架上等待1分钟，小心吸取弃上清，用50μl磁珠结合缓冲液(BeadBinding Buffer)洗涤磁珠，去上清。

2.用50μl磁珠结合缓冲液重悬磁珠；

3.加入上一步片段化的样品50μl，20℃温浴15分钟。

七、文库构建

(一)末端修复

1.将离心管放置在磁分离架上，用200μl磁珠洗脱缓冲液(Bead Wash Buffer)Ⅰ洗涤磁珠三次，每次轻弹磁珠后，微离心；

2.将离心管放置在磁分离架上，等待1分钟，舍弃上清，用200μl的EB洗涤磁珠两次，每次轻弹磁珠后，微离心，移去最后一次洗涤的缓冲液(EB)；

3.在1.5ml的离心管中配制末端修复反应体系：

4.轻轻地吹打末端修复反应体系确保磁珠在反应体系中充分悬浮，20℃温浴30min。

(二)末端加A

1.200μl磁珠洗脱缓冲液Ⅰ洗涤磁珠三次，然后使用200μlEB洗涤磁珠两次，第二次加入EB后，需先将磁珠转移至一新1.5ml离心管，移去最后一次洗涤的缓冲液(EB)；

2.在1.5ml的离心管中配制末端加“A”反应体系：

3.将上述体系置于37℃温浴30min，进行加“A”反应。

(三)加接头

1.上述末端加“A”后的产物用200μl磁珠洗脱缓冲液Ⅰ洗涤磁珠三次，200μl EB洗涤磁珠两次，第二次加入EB后，需先将磁珠转移至一新1.5ml离心管；

2.移去最后一次洗涤的缓冲液(EB)，加入19μl的EB重悬磁珠，加入新的1.5离心管中，在1.5ml的离心管中配制接头连接反应体系：

2×快速连接缓冲液(Rapid ligation Buffer) 25μl

接头 1μl

T4DNA连接酶(L603-HC-L) 5μl

3.将上述接头连接反应体系置于20℃温浴15min，得到接头连接产物。

(四)PCR扩增

1.上述接头连接产物用200μl磁珠洗脱缓冲液Ⅰ洗涤磁珠三次，200μl 200μl磁珠洗脱缓冲液II(0.1M NaOH)洗涤磁珠一次，200μl的EB洗涤磁珠两次，移去最后一次洗涤的缓冲液(EB)，加入23μl的EB重悬磁珠，移至新的PCR管中；

2.在0.2ml的离心管中配制PCR反应体系：

Phusion DNA聚合酶 25μl

P7(25μm) 1μl

P5(25μm) 1μl

3.将上述PCR反应体系在PCR仪中按下列程序运行：

第五步：重复第二步至第四步，重复18次；

第六步：72℃ 5min

4.反应结束后用磁分离架移取PCR反应体系的上清，取上清进行电泳；

5.使用2％的琼脂糖凝胶进行电泳，在100V的电压下的电泳1h10min，电泳结束后，对片段大小在350-500bp的凝胶范进行切割；

6.利用Qiagen的纯化回收柱对上述切割下来的目的片段的凝结进行胶回收，最后用50μlEB洗脱；

7.使用0.8倍XP磁珠进行纯化，30μl EB溶解，即得到目的文库。

八、文库质量检测

利用HidIII酶切之后经过末端修复连接，会在连接位置产生新的酶切位点，即NheI的酶切位点，因而可使用该NheI内切酶对上述所构建的文库进行酶切鉴定，以鉴定文库中目的片段的含量，目的片段含量高的文库经过NheI酶切之后条带会出现弥散现象。

将上述所构建的文库取20ng进行NheI酶切检测，酶切体系如下：

然后将该酶切反应体系置于37℃反应1h，然后将酶切产物进行电泳检测，检测结果见图4。

在图4中，1为按照现有技术的方法所构建的文库的电泳结果，2为现有技术的方法所构建的文库经酶切后的电泳结果，3为本发明的改进方法所构建的文库1的电泳结果，4为本发明的改进方法所构建的文库1酶切后的电泳结果，5为本发明的改进方法所构建的文库2的电泳结果，6为本发明的改进方法所构建的文库2酶切后的电泳结果，7为Trans 100bp DNA分子大小标记。从图2中电泳结果可知，经过本发明的改进方法所构建的文库经酶切后条带的弥散程度要高于现有技术所构建的文库的弥散程度，表明本发明的方法所构建的文库中目的片段的比例高于现有技术所构建的文库中的目的片段的比例。

八、对测序数据的分析

对所构建文库使用Hiseq 2500PE125进行测序，对下机数据进行处理。测序得到的原始测序序列(sequenced reads或者raw reads)里面含有的带接头的、低质量的序列(reads)。为了保证信息分析质量，必须对原始测序序列进行过滤，得到有效数据(clean reads)，后续分析都基于有效数据(clean reads)。数据处理的步骤如下：

(1)去除带接头(adapter)的序列(reads)；

(2)去除N(N表示无法确定碱基信息)的比例大于10％的序列(reads)；

(3)去除低质量reads(质量值SQ<＝5的碱基数占整个序列(reads)的50％以上的序列(reads)。

将得到的有效数据进行分析，统计其每个文库的序列中含有NheI酶切位点的比例，统计结果如下表1：

表1：

从上表1中可以看出，经过本发明的改进过的方法所构建的文库中目的片段比例远高于利用现有技术的方法所构建的文库中的目的片段的比例。

从以上的描述中，可以看出，本发明上述的实施例通过以核酸外切酶处理代替了现有技术中利用Klenow片段进行的末端修复步骤，使得未连接的片段但末端存在生物素标记的dCTP去除的更彻底，从而在后续的目的片段捕获过程中不被生物素亲和磁珠捕获到，从根本上提高了文库中有效数据的比例，改善文库的质量，也提高了文库中数据信息的多样性。同时通过现有技术中的文库构建步骤，进行先捕获后建库的步骤，并对中间产物进行多次漂洗，提高反应效率，去除结合在生物素亲和磁珠上的非目的片段，大大提高了建库成功率及文库质量。捕获得到目的片段含量的提高，使得对样本的起始量以及后续价格较高的试剂的用量也得到了改善，不仅降低了实验成本(由原来的8000元/样本降低至4000元/样本)，也大大降低了基于高通量测序的染色体构型文库构建的难度。

本发明的上述改进步骤从根本上解决了基于高通量测序的染色体构型文库因无效数据量过高而导致的质量低的问题，使得有效数据比例大大提高，提高了数据利用率，从而使得上机数据量按比例降低，大幅度降低了数据成本和实验成本，适合大规模应用。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种高通量测序文库的构建方法，其特征在于，所述构建方法包括以下步骤：

S1，从DNA-蛋白交联复合体中获取DNA片段；

S2，利用核酸外切酶对所述DNA片段进行酶切；以及

S3，对酶切后的所述DNA片段进行文库构建，得到所述高通量测序文库；

其中，所述核酸外切酶是指作用于双链DNA，具有3’→5’核酸外切酶活性而不具有DNA聚合酶活性的核酸酶。

2.根据权利要求1所述的构建方法，其特征在于，在所述步骤S2中，所述核酸外切酶为核酸外切酶III；更优选，利用8～12U的所述核酸外切酶对每ug所述DNA片段进行酶切，进一步优选所述酶切的反应条件为35～39℃反应8～12min，然后70～74℃反应18～25min。

3.根据权利要求1所述的构建方法，其特征在于，所述步骤S1包括：

S11，利用蛋白酶对所述DNA-蛋白交联复合体进行解交联，得到DNA和蛋白的混合物；以及

S12，对所述混合物进行DNA提取，得到所述DNA片段。

4.根据权利要求3所述的构建方法，其特征在于，所述步骤S11包括以下步骤：

S111，利用核酸内切酶对所述DNA-蛋白交联复合体进行酶切，得到酶切交联体片段；

S112，对所述酶切交联体片段进行末端修复标记，得到标记交联体片段；

S113，对所述标交联体片段进行DNA连接，得到连接带标记交联体片段；以及

S114，采用蛋白酶K对所述连接带标记交联体片段进行解交联，得到所述DNA和蛋白的混合物。

5.根据权利要求4所述的构建方法，其特征在于，所述步骤S112中，所述标记交联体片段上的标记为生物素标记。

6.根据权利要求4所述的构建方法，其特征在于，所述步骤S112步骤为：利用带生物素标记的dCTP及生物素未标记的dATP、dTTP和dGTP在Klenow片段修复酶的作用下，对所述酶切交联体片段进行末端修复标记，得到所述标记交联体片段。

7.根据权利要求1所述的构建方法，其特征在于，所述步骤S3包括以下步骤：

S31，对酶切后的所述DNA片段进行随机打断，得到片段化DNA；

S32，对所述片段化DNA进行亲和纯化，得到纯化DNA；

S33，对所述纯化DNA依次进行末端修复、加“A”、接头连接，得到带接头DNA；以及

S34，对所述带接头DNA进行扩增富集，得到所述高通量测序文库。

8.根据权利要求7所述的构建方法，其特征在于，在所述步骤S32中，采用链霉素磁珠对所述片段化DNA进行亲和纯化，得到所述纯化DNA。

9.根据权利要求1所述的构建方法，其特征在于，在所述步骤S1之前，所述方法还包括利用甲醛对DNA和蛋白进行交联，得到所述DNA-蛋白交联复合体的步骤。

10.根据权利要求4所述的构建方法，其特征在于，所述步骤S111中的所述核酸内切酶为HindIII、MboI、EcoRI或DpnII。

11.一种高通量测序文库，其特征在于，采用权利要求1至10中任一项所述的方法构建而成。