CN109355289A

CN109355289A - 用于从预文库中富集靶标序列的试剂盒、制备方法和应用

Info

Publication number: CN109355289A
Application number: CN201811583396.1A
Authority: CN
Inventors: 王永利; 宋卓
Original assignee: Human And Future Biotechnology (changsha) Co Ltd
Current assignee: Human And Future Biotechnology (changsha) Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-02-19

Abstract

本申请公开了一种用于从预文库中富集靶标序列的试剂盒、制备方法和应用。本申请的试剂盒包括蛋白核酸复合物、DNA连接酶和捕获接头；蛋白核酸复合物由Cas酶和RNA引导序列组装成，RNA引导序列能特异性与靶标序列结合，Cas酶将靶标序列切割；DNA连接酶将捕获接头连接到被切割的靶标序列；然后通过捕获接头或捕获接头与靶标序列连接时的polyA尾的修饰将靶标序列分离、富集。本申请的试剂盒，利用蛋白核酸复合物精准识别和切割靶标序列，采用不同的RNA引导序列，可以富集多个靶标区域，且没有多重PCR富集的偏好性，可检测点突变、小插入和缺失、基因融合等多种变异类型，使用简单、成本低廉、准确度高。

Description

用于从预文库中富集靶标序列的试剂盒、制备方法和应用

技术领域

本申请涉及DNA富集领域，特别是涉及一种用于从预文库中富集靶标序列的试剂盒、制备方法和应用。

背景技术

当前科技的高速发展使DNA测序在医学、农业、环境、工业等各个领域得到广泛应用。新一代测序技术(NGS)的高速发展使全基因组测序成本不断降低。但是目标区域富集测序由于其检测成本更低，目标基因检测质量高，准确度好，仍然是新一代测序技术在各种测序应用中最常见的方法手段。

目前比较常见的目标区域富集测序方法主要分三类：多重PCR富集方法、基于探针杂交的捕获方法、反向分子探针杂交方法。

多重PCR富集方法是应用非常广泛的一种方法，该方法应用多对引物同时对多个目标区域进行扩增，并最终构建成NGS文库进行测序；该方法引物设计较简单，成本低廉，便于操作。但是，该方法的缺点是随着目标区域增多，引物之间的相互干扰越来越大，会产生大量的非特异性扩增，甚至会出现没有目标区域扩增的情况。另外，由于不同的扩增子其碱基序列GC含量等差异，在一个扩增体系中会出现严重的扩增偏好性，进而造成浪费测序数据的现象。

基于探针杂交捕获的方法是将捕获探针固定在捕获芯片上，或者游离在液体试剂中，探针长度一般为60ng-120nt之间，捕获区域可以长达几个Mb；该方法操作比较复杂，操作时间长，灵敏度低，往往需要比较大量的样本才能进行杂交捕获。

分子反向探针杂交法是近几年出现的一种新方法。分子反向探针在两端含有待捕获区域的两端同源序列，可以杂交到相关区域上形成环状。经过酶延伸并且连接后即形成一个分子环。待消化掉未形成环的非目标分子后再通过反向PCR扩增的方法将目标区域分子扩增下来形成文库。该方法特异性高，操作较简便。但是反向探针设计很复杂，做多个区域捕获时成本高昂。

因此，为了满足日益广泛的基因测序需求，研发一种更有效的目标DNA富集试剂或方法，是本领域的研究重点。

发明内容

本申请的目的是提供一种新的用于从预文库中富集靶标序列的试剂盒、制备方法和应用。

为了实现上述目的，本申请采用了以下技术方案：

本申请的一方面公开了一种用于从预文库中富集靶标序列的试剂盒，包括蛋白核酸复合物、DNA连接酶和捕获接头；蛋白核酸复合物由Cas酶和RNA引导序列组装而成，RNA引导序列能够特异性的与靶标序列结合，Cas酶能够特异性的识别与RNA引导序列结合的靶标序列，并将靶标序列切割；DNA连接酶用于将捕获接头连接到被切割的靶标序列的切割末端；捕获接头为一段DNA序列，用于将靶标序列从预文库中区分开来，并通过捕获接头的修饰将靶标序列分离、富集；或者通过在将捕获接头与靶标序列切割末端连接时的polyA尾的修饰将靶标序列分离、富集。

其中，预文库是指DNA样品经过打断处理、末端修复、加polyA尾、加接头的双链DNA文库，进一步的，在加接头后还经过PCR扩增获得的双链DNA文库。该双链DNA文库中包含有本申请的靶标序列，以及其它更多的非靶标序列；而本申请的试剂盒就是要从众多的非靶标序列中，将靶标序列分离、富集；因此，将该双链DNA文库称为预文库。本申请中捕获接头是指在经过Cas酶酶切后加入的一段DNA序列，实际上，捕获接头也是适应于测序平台的接头序列，与预文库中“加接头”的接头序列属于同一类型的DNA序列，只是为了区别于预文库原本的接头序列，本申请在Cas酶酶切后加入的接头成为捕获接头。实际上，捕获接头与预文库中的接头相比，一方面，可以是索引序列不同，以示区分即可，进一步的，也可以设计不同的通用引物序列结合区；另一方面，本申请的捕获接头还可以进行修饰，例如生物素标记等。

需要说明的是，本申请的试剂盒，利用CRISPR-Cas系统对靶标序列的特异性识别和切割作用，采用由Cas酶和RNA引导序列组装的蛋白核酸复合物，对靶标序列进行识别和切割，然后再利用DNA连接酶将捕获接头与被切割的靶标序列连接；其中，捕获接头带有修饰基团，或者在将捕获接头与靶标序列连接时的polyA尾上带有修饰基团，通过修饰基团将靶标序列分离出来，起到富集的效果。其中，修饰基团可以是常规采用的，例如生物素标记，也可以是其它能够识别并能够被分离的修饰基团，在此不作具体限定。

还需要说明的是，本申请最终将靶标序列分离出来，是通过捕获接头或polyA尾的修饰实现的，例如生物素标记；在实际应用中，在酶切后，会产生平末端，在该平末端上加捕获接头时，通常需要先加polyA尾，然后再连接接头；所以，这里就存在两个操作空间：第一，在加polyA尾时，使用具有修饰的dATP，例如生物素标记的dATP，形成具有生物素标记等修饰的polyA尾，用于后续的分离和富集；第二，使用本身具有修饰的捕获接头，例如生物素标记的捕获接头，然后再进行分离和富集。

优选的，捕获接头的修饰和polyA尾的修饰具体为生物素标记；试剂盒还包括亲和素修饰的磁珠，磁珠用于将与捕获接头连接的靶标序列分离。

需要说明的是，一方面，生物素标记是本领域常规使用的标记方法，不排除还可以采用其它的修饰基团；另一方面，亲和素修饰的磁珠是生物素标记DNA常规使用的分离、纯化方式，除磁珠以外，也可以采用其它的过滤膜、过滤柱等方式对生物素标记进行分离、富集，在此不作具体限定。

优选的，本申请的试剂盒还包括针对捕获接头设计的通用引物和针对预文库接头设计的通用引物。

需要说明的是，如前面分析的，捕获接头与预文库的接头实际上，只要是索引序列不同即可，因此，针对捕获接头设计的通用引物和预文库的通用引物也可以是相同的；当然，本申请的一种实现方式中，具体将两者设计为不同的引物序列，以免混淆；并且，设计为不同的引物序列也可以避免非靶标序列残留也被扩增。

还需要说明的是，对于本申请试剂盒分离、富集的靶标序列，实际上，在Cas酶酶切后，是将靶标序列一分为二的，两段靶标的末端再分别连接捕获接头，由此形成的靶标序列，实际上一端是酶切后加入的捕获接头，另一端仍然是预文库时加入的接头；所以，在完成分离、富集后，如果还需要采用PCR扩增构建最终的测序文库，则必须同时采用针对捕获接头设计的通用引物和针对预文库接头设计的通用引物进行PCR扩增。

优选的，本申请的试剂盒还包括加polyA尾的试剂、磁珠纯化试剂和PCR扩增试剂。

需要说明的是，加polyA尾的试剂、磁珠纯化试剂和PCR扩增试剂等都是实验室常规使用的试剂，可以通过市场购买；但是，为了使用方便，也可以将其加入本申请的试剂盒中。

本申请的另一面公开了由Cas酶和RNA引导序列组装的蛋白核酸复合物在靶标序列富集中的应用。

需要说明的是，CRISPR-Cas系统是细菌和古细菌在长期演化过程中形成的一种适应性免疫防御，可用来对抗入侵的病毒及外源DNA，在基因工程领域，CRISPR-Cas系统被用于精准的靶基因识别和基因改造。而本申请则是创造性的利用其精准的特异识别功能，对靶标序列进行识别、富集。因此，本申请公开了由Cas酶和RNA引导序列组装的蛋白核酸复合物在靶标序列富集中的应用。本申请使用CRISPR-Cas系统精确的靶向功能来实现特定靶标序列的富集，不仅可富集多个区域，而且没有多重PCR富集方法的偏好性，可以检测点突变、小插入和缺失、基因融合等多种变异类型，实验操简单，成本低廉，准确度高。

本申请的另一面公开了一种用于靶标序列富集的蛋白核酸复合物的制备方法，包括根据需要富集的靶标序列，采用CRISPR-Cas系统设计特异性扩增引物，并采用设计的特异性扩增引物扩增获得含有CRISPR-Cas引导序列和靶标区域序列的双链DNA；然后使用T7或U6转录酶将双链DNA转录成RNA，做为靶标区域的RNA引导序列；将Cas酶与RNA引导序列组装，即获得蛋白核酸复合物。

本申请的再一面公开了本申请用于靶标序列富集的蛋白核酸复合物的制备方法制备获得的蛋白核酸复合物。

本申请的再一面公开了本申请的试剂盒或本申请的蛋白核酸复合物在目标DNA的测序或文库构建中的应用。

基于本申请用于从预文库中富集靶标序列的试剂盒，本申请提供了一种从预文库中富集靶标序列的方法，包括采用蛋白核酸复合物对预文库中的靶标序列进行特异性识别和酶切；然后利用DNA连接酶将捕获接头连接到靶标序列的切割末端；利用捕获接头上的修饰或者捕获接头与靶标序列切割末端连接时的polyA尾的修饰将靶标序列分离、富集；蛋白核酸复合物由Cas酶和RNA引导序列组装而成，RNA引导序列能够特异性的与靶标序列结合，Cas酶能够特异性的识别与RNA引导序列结合的靶标序列，并将靶标序列切割；捕获接头包含高通量测序平台的接头序列。

优选的，本申请的靶标序列富集方法中，修饰为生物素标记，将靶标序列分离，具体包括，利用亲和素修饰的磁珠，将带有生物素标记的靶标序列分离出来。

优选的，本申请的靶标序列富集方法还包括采用针对捕获接头设计的通用引物和针对预文库的接头设计的通用引物，对分离的靶标序列进行PCR扩增，进一步富集靶标序列。

优选的，本申请的靶标序列富集方法中，蛋白核酸复合物的制备方法包括，根据需要富集的靶标序列，采用CRISPR-Cas系统设计特异性扩增引物，并采用设计的特异性扩增引物扩增获得含有CRISPR-Cas引导序列和靶标区域序列的双链DNA；然后使用T7或U6转录酶将双链DNA转录成RNA，做为靶标区域的RNA引导序列；将Cas酶与RNA引导序列组装，即获得蛋白核酸复合物。

本申请的另一面公开了本申请的靶标序列富集方法在目标DNA的测序或文库构建中的应用。

本申请的再一面公开了一种目标DNA的文库构建方法，包括采用本申请的靶标序列富集方法对目标DNA进行富集，然后再进行后续的文库构建步骤。

本申请的再一面公开了一种目标DNA的测序方法，包括采用本申请的文库构建方法制备测序文库，然后对制备的测序文库进行测序。

由于采用以上技术方案，本申请的有益效果在于：

本申请用于从预文库中富集靶标序列的试剂盒，利用Cas酶和RNA引导序列组装的蛋白核酸复合物的特异性识别功能，精准的识别靶标序列，再通过DNA连接酶将捕获接头连接到靶标序列上，并利用捕获接头或者捕获接头与靶标序列连接的polyA序列上的修饰，将靶标序列分离出来，实现富集。本申请的试剂盒，采用不同的RNA引导序列，不仅可以富集多个靶标区域，而且没有多重PCR富集方法的偏好性，可以检测点突变、小插入和缺失、基因融合等多种变异类型，使用简单、成本低廉、准确度高。

附图说明

图1为本申请实施例中靶标序列富集的流程示意图；

图2为本申请实施例中制备RNA引导序列的原理示意图；

图3为本申请实施例中利用蛋白核酸复合物富集靶标序列的原理示意图。

具体实施方式

CRISPR-Cas系统是细菌和古细菌在长期演化过程中形成的一种适应性免疫防御，可用来对抗入侵的病毒及外源DNA；CRISPR-Cas系统识别出特定外源DNA序列，并在特定位置将其切断。

本申请正是使用CRISPR-Cas系统精确的靶向功能来实现特定目标区域富集；具体的，利用Cas酶和RNA引导序列组装的蛋白核酸复合物，特异性的识别靶标序列，并对靶标序列进行切割，然后，第一种方法是，将具有修饰的捕获接头添加到靶标序列上，例如生物素标记的捕获探针，利用捕获探针上的修饰，将靶标序列分离出来，实现富集；第二种方法是，在连接捕获接头时，会事先进行加polyA处理，采用具有修饰的dATP，例如生物素标记的dATP，在靶标序列上生成具有修饰的polyA尾，利用polyA尾上的修饰将靶标序列分离出来，实现富集。

基于以上研究和认识，本申请创造性的研发了一种用于从预文库中富集靶标序列的试剂盒，包括蛋白核酸复合物、DNA连接酶和捕获接头；蛋白核酸复合物由Cas酶和RNA引导序列组装而成，RNA引导序列能够特异性的与靶标序列结合，Cas酶能够特异性的识别与RNA引导序列结合的靶标序列，并将靶标序列切割；DNA连接酶用于将捕获接头连接到被切割的靶标序列的切割末端；捕获接头为一段DNA序列，用于将靶标序列从预文库中区分开来，并通过捕获接头的修饰将靶标序列分离、富集；或者通过在将捕获接头与靶标序列切割末端连接时的polyA尾的修饰将靶标序列分离、富集。

在本申请试剂盒的基础上，本申请进一步的提供了一种从预文库中富集靶标序列的方法，包括采用蛋白核酸复合物对预文库中的靶标序列进行特异性识别和酶切；然后利用DNA连接酶将捕获接头连接到靶标序列的切割末端；利用捕获接头上的修饰或者捕获接头与靶标序列切割末端连接时的polyA尾的修饰将靶标序列分离、富集；蛋白核酸复合物由Cas酶和RNA引导序列组装而成，RNA引导序列能够特异性的与靶标序列结合，Cas酶能够特异性的识别与RNA引导序列结合的靶标序列，并将靶标序列切割；捕获接头包含高通量测序平台的接头序列。

以上从预文库中富集靶标序列的方法是在已经制备获得蛋白核酸复合物的情况下的富集方法。但是，对于一个全新的待测样本来说，本申请的目标DNA富集试剂盒或方法，其关键都在于蛋白核酸复合物的制备。因此，本申请从蛋白核酸复合物制备到靶标序列富集，再到最终建库、测序的整个流程，如图1所示，包括构建预文库步骤11、制作引导序列步骤12、组装复合物步骤13、目标区域酶切步骤14、连接接头并分离步骤15、构建终文库步骤16、测序和数据分析步骤17。

其中，构建预文库步骤11，是指将待测DNA样本首先进行超声打断或酶切打断，使其成为平均200bp大小的双链DNA片段。再经过末端修复、加dATP、连接头、PCR扩增等步骤，最终在双链DNA片段两端加上符合特定测序平台的通用序列或通用序列的一部分，该文库即本申请的预文库。实际上，从某种角度来说，预文库就是可以直接用于测序的文库；但是，为了提高测序质量和效率，节省测序工作量，本申请进一步的研发了从预文库中富集靶标序列的方法和试剂盒，从而能够更准确、有效的对靶标序列进行测序。

制作引导序列步骤12，是指根据靶标序列设计扩增引物，扩增获得双链DNA，然后逆转录生成RNA引导序列；具体的，需要充分分析所要富集的目标区域序列的特点，根据CRISPR-Cas系统设计能够扩增含有CRISPR-Cas引导序列和目标区域序列的引物，通过扩增的方法制作双链DNA，然后再使用T7或者U6转录酶将双链DNA转录成RNA，做为靶标序列的RNA引导序列；RNA引导序列的结构和制备如图2所示。

组装复合物步骤13，即蛋白核酸复合物组装，是指将Cas酶与RNA引导序列在组装缓冲液中进行组装；其中，使用的Cas酶可以是野生型的Cas9，可以是突变型CasD10A或其它突变型蛋白。

目标区域酶切步骤14，即将组装的蛋白核酸复合物与预文库加入酶切反应体系中，使蛋白核酸复合物正确识别目标DNA序列并进行酶切。

连接接头并分离步骤15，即采用DNA连接酶将捕获接头连接到靶标序列酶切后的末端；然后利用捕获接头的修饰，或者捕获接头与靶标序列连接时的polyA尾的修饰，对靶标序列进行分离，例如通过链霉亲和素磁珠进行筛选分离。

构建终文库步骤16，使用通用引物序列对连上捕获接头并被分离出来的目标区域DNA片段进行扩增，构建符合NGS测序平台的文库。最终，对构建的终文库进行测序和数据分析步骤17，即获得靶标序列的测序数据。利用蛋白核酸复合物的特异性识别功能进行靶标序列的富集，其原理如图3所示。

下面通过具体实施例对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明，不应理解为对本申请的限制。

实施例一

本例首先采用人基因组DNA制备了预文库，该预文库是包含靶标序列的EGFR、ERBB2和TP53基因的测序文库；然后在该预文库的基础上，针对靶标序列设计并制备RNA引导序列和蛋白核酸复合物；并针对靶标序列另外设计了带有生物素标记的捕获接头，同时，针对捕获接头设计了通用引物；采用蛋白核酸复合物特异性识别靶标序列，然后在DNA连接酶的作用下，将设计的捕获接头连接到靶标序列上，利用捕获接头的生物素标记，将靶标序列分离出来；最后，利用针对捕获接头设计的通用引物进一步扩增富集靶标序列，并对扩增产物进行测序，验证靶标序列的富集效果。详细如下：

1.引物和接头序列设计

本例首先针对EGFR、ERBB2和TP53三个基因的特异性扩增引物，用于制备预文库；EGFR基因的上/下游引物为EGFR-F和EGFR-R，分别为Seq ID No.1和Seq ID No.2所示序列；ERBB2基因的上/下游引物为ERBB2-F和ERBB2-R，分别为Seq ID No.3和Seq ID No.4所示序列；TP53基因的上/下游引物为TP53-F和TP53-R，分别为Seq ID No.5和Seq ID No.6所示序列。

EGFR-F：Seq ID No.1：5’-TGCGAAGCCACACTGACGTGCC-3’

EGFR-R：Seq ID No.2：5’-CTTTGTGTTCCCGGACATAGTCCA-3’

ERBB2-F：Seq ID No.3：5’-TCTTCTCACTCATATCCTCCTC-3’

ERBB2-R：Seq ID No.4：5’-TGTCCTCCTAGCAGGAGAGGGTG-3’

TP53-F：Seq ID No.5：5’-AGGCGCACTGGCCTCATCTTGG-3’

TP53-R：Seq ID No.6：5’-AAGCAGAGGCTGGGGCACAGCA-3’

本例采用单链寡核苷酸ADT-S和ADT-AS，两者等摩尔比混合后，退火形成双链接头，用于构建本例的预文库。其中，ADT-S为Seq ID No.7所示序列，ADT-AS为Seq ID No.8所示序列。

Seq ID No.7：5’-GATCGGAAGAGCACACGTCTGAACTCCAGTCAC-3’

Seq ID No.8：5’-CCATCTCATCCCTGCGTGTCGCTCTTCCGATCT-3’

本例设计的预文库的通用引物为P-LIB-F和INDEX-LIB-R，其中，P-LIB-F为Seq IDNo.9所示序列，INDEX-LIB-R为Seq ID No.,10所示序列。

Seq ID No.9：5’-CCATCTCATCCCTGCGTGTC-3’

Seq ID No.10：5’-CAAGCAGAAGACGGCATACGAGATNNNNNNNGTGACTGGAGTTC-3’

Seq ID No.10所示序列中的7个“N”表示7bp长度的标签序列，即索引序列，也就是barcode。

本例设计的与酶切后的靶标序列连接的捕获序列是由单链寡核苷酸Cap-ADT-S和Cap-ADT-AS等摩尔比混合后退火形成的双链接头。其中，Cap-ADT-S为Seq ID No.11所示序列，Cap-ADT-AS为Seq ID No.12所示序列。

Seq ID No.11：

5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’

Seq ID No.12：5’-GATCGGAAGAGCACACGTCTGAACTCCAGTCAC-3’

本例的捕获接头的5’端具有磷酸基团修饰以及生物素标记。

本例针对捕获接头的通用引物，其上下游引物分别为LIB-F和LIB-R，LIB-F为SeqID No.13所示序列，LIB-R为Seq ID No.14所示序列。

Seq ID No.13：5’-AATGATACGGCGACCACCGA-3’

Seq ID No.14：5’-CAAGCAGAAGACGGCATACGA-3’

另外，本例针对EGFR基因中的一段靶标序列，采用CRISPR-Cas系统设计特异性扩增引物，扩增获得双链DNA，然后采用T7转录酶将双链DNA转录成RNA，获得RNA引导序列。具体的，用于制作捕获区域EGFR序列的RNA引导序列的双链DNA的扩增引物为T7-Fwd和T7-Rev，T7-Fwd为Seq ID No.15所示序列，T7-Rev为Seq ID No.16所示序列。

Seq ID No.15：5’-GAATTTAATACGACTCACTATAGGGCTTGTGGAAAGGACGAAACACC-3’

Seq ID No.16：

5’-AAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAACACGTGATGGCCAGCGTGGACCC-GGTGTTTCGTCCTTTCCACAAG-3’

2.预文库制备

以人源全基因组DNA为模板，分别使用针对EGFR、ERBB2和TP53基因设计的三对引物，即EGFR-F和EGFR-R、ERBB2-F和ERBB2-R、TP53-F和TP53-R，进行PCR扩增；等量混合PCR扩增产物，进行加接头，即ADT-S和ADT-AS退火形成的双链接头(以下简称ADT接头)，获得预文库。详细如下：

(1)PCR扩增

三对引物的PCR扩增体系为：人源基因组DNA 30ng、扩增引物对(上下游引物各10μM)2μL、10×rTaqbuffer 5μL、rTaq DNA聚合酶1μL、dNTPs(2.5mM each)4μL，补充去离子水至50μL。

PCR反应条件为：98℃预变性2min，然后进入30个循环：98℃变性15s、60℃退火30s、72℃延伸1min，循环结束后72℃再延伸5min，4℃待机。

本例使用Ampure XP beads分别对三个PCR扩增产物进行纯化回收，回收产物采用30μL去离子水复溶。Ampure XP beads纯化回收步骤详见使用说明书，在此不累述。

(2)预文库构建

将“(1)PCR扩增”步骤得到的三个PCR产物按等质量混合，然后取30ng混合物用于连接接头，连接接头后，采用预文库的通用引物P-LIB-F和INDEX-LIB-R对连接接头的产物进行PCR扩增，获得预文库。具体如下：

连接接头的反应体系为：三个PCR产物的混合物30ng、10×T4DNALigase2μL、10×T4DNALigase buffer 5μL、ADT接头(20uM)1μL，补充去离子水至50μL。

反应条件为，PCR仪上25℃反应60min，然后4℃保存。

本例使用Ampure XP beads对连接产物进行纯化回收，最终采用38μL复溶纯化回收的连接产物，用于PCR扩增制备预文库。

PCR扩增反应体系：接头连接产物38ul、P-LIB-F和INDEX-LIB-R(上下游引物各10μM)2μL、10×rTaqbuffer 5μL、rTaq DNA聚合酶1μL、dNTP(2.5mM each)4μL，补充去离子水至50μL。

PCR反应条件为：98℃预变性2min，然后进入10个循环：98℃变性15s、60℃退火30s、72℃延伸1min，循环结束后72℃再延伸5min，4℃待机。

本例使用Ampure XP beads对PCR扩增产物进行纯化回收，回收产物采用30μL去离子水复溶，即获得本例的预文库。

3.制作RNA引导序列

本例针对EGFR靶标序列区域设计了制作RNA引导序列的扩增引物，以此引物进行PCR扩增，获得制作RNA引导序列的双链DNA，再经过反转录即获得本例的RNA引导序列，详细如下：

双链DNA的扩增引物为T7-Fwd和T7-Rev，PCR反应体系为：T7-Fwd(100μM)12.5μL、T7-Rev(100μM)12.5μL、KAPAHifi MM 25μL，补充去离子水至50μL。

PCR反应条件为：95℃预变性30s；然后进入18个循环：95℃变性15s、60℃退火30s、72℃延伸30s；循环结束后，72℃再延伸1min，4℃保存。

PCR扩增产物采用Ampure XP beads纯化回收，最终采用30μL去离子水复溶，获得双链DNA。

使用T7转录酶将PCR产物转录成RNA，然后使用RNeasy Mini Kit(QIagen，74104)试剂盒纯化后即得到EGFR的RNA引导序列。其中，T7转录酶转录生成RNA采用HiScribe^TM T7Quick HighYield RNA Synthesis Kit(NEB,E2050S)，具体步骤详见试剂盒说明书。

4.蛋白核酸复合物组装和目标区域酶切

在冰上配制蛋白核酸复合物组装反应体系：组装buffer 1μL、RNA(100ng/μL)引导序列5μL、CAS蛋白(1μM)2.5μL、RNase-Free水1.5μL，总计10μL。

混匀后，置于冰上15min，即获得蛋白核酸复合物。

然后采用制备的蛋白核酸复合物进行酶切，酶切反应体系为：组装buffer4μL、蛋白核酸复合物10μL、捕获预文库(20ng/μL)5μL、RNase-Free水31μL，总计50μL。

酶切反应条件为：PCR仪上37℃反应1小时；然后65℃反应5min，加5μL的RNaseA，再37℃反应10min。即获得酶切产物。

酶切产物采用Ampure XP beads纯化回收，复溶获得20μL酶切产物。

5.连接捕获接头和靶标序列分离

本例对酶切产物进行polyA处理，然后连接Cap-ADT-S和Cap-ADT-AS退火形成的双链接头(以下简称Cap-ADT)，详细如下：

polyA处理的反应体系为：纯化回收的酶切产物20μL、1μL的Klenow exo-、5μL的10×NEB buffer2、dATP(2.5mM)4μL、去离子水20μL，总计50μL。

反应体系配制好后，在PCR仪上37℃反应1小时，然后65℃反应5min。即获得加polyA尾的酶切产物。

将polyA处理的产物使用Ampure XP beads纯化回收，复溶获得23μL的polyA尾酶切产物。

加捕获接头反应体系为：polyA尾酶切产物23μL、2×apid ligase buffer 25μL、rapid ligase 1μL、Cap-ADT(5μM)1μL，总计50μL。

反应体系配制好后，在PCR仪上25℃反应30min。即完成捕获接头连接。

连接好捕获接头后，产物使用链霉亲和素磁珠(Dynabeads^TM MyOne^TMStreptavidin T1,CATNo.65602)抓取，将连接捕获接头的靶标序列分离、富集。

具体如下：

1)将T1磁珠混匀后吸出20μL，上磁力架，待澄清后吸去上清，加入200μL的washbufer混匀，涡旋1分钟，重新放在磁力架上，待澄清后吸弃上清；

2)重复采用washbufer洗一次；

3)加入50μL的binding buffer，混匀磁珠；与待捕获试剂混匀，室温结合15分钟；

4)放置在磁力架上，待上清澄清后吸弃上清；

5)如步骤1)继续使用washbuffer洗两遍，吸弃上清。

6.终文库构建

对亲和素磁珠分离纯化的靶标序列进行PCR扩增，获得用于测序的文库；其中，PCR扩增的引物为LIB-F和LIB-R，详细如下：

PCR扩增反应体系为：去离子水38μL、LIB-F/R(上下游引物各10μM)2μL、10×rTaqbuffer 5μL、rTaq DNA聚合酶1μL、dNTP(2.5mM each)4μL，总计50μL。

采用配制的50μL反应体系重悬链霉亲和素磁珠进行PCR扩增。其中，链霉亲和素磁珠上吸附有靶标序列。

PCR反应条件为：95℃预变性30s，然后进入10个循环：95℃变性15s、58℃退火30s、72℃延伸30s，循环结束后，72℃再延伸1min，4℃保存。

PCR扩增产物采用Ampure XP beads纯化回收，复溶获得50μL的PCR扩增纯化回收产物，即本例构建的靶标序列的最终文库。

7.上机测序和数据分析

最终文库经过标准质控后在IlluminaNextSeq500上进行双端100bp测序。测序结果经过BWA比对后统计比对到基因组的序列数，以及比对到靶标区域的序列数等信息，结果如表1所示。

表1靶标序列富集后的测序结果

表1的结果说明，本例的靶标序列富集方法能够非常特异且高效的富集靶标序列片段。

实施例二

本例的靶标序列富集方法和捕获接头都与实施例一相同，所不同的是，本例针对EGFR基因的不同靶标区域，设计了不同的RNA引导序列，以对相应的区域进行富集。

具体的，在扩增获得用于逆转录制备RNA引导序列的双链DNA时，采用了不同的特异性扩增引物；本例扩增双链DNA的上游引物仍然是T7-Fwd，但是，针对不同的靶标区域，本例分别设计了3条下游引物，3条下游引物分别与上游引物配对，进行双链DNA扩增，以制备不同的RNA引导序列。本例的3条下游引物分别为T7-8200-Rev、T7-7992-Rev、T7-7905-Rev；T7-8200-Rev为Seq ID No.17所示序列，T7-7992-Rev为Seq ID No.18所示序列，T7-7905-Rev为Seq ID No.19所示序列。

Seq ID No.17：

5’-AAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAACGGGTTGGCCAATCTACTCCCCCGGTGTTTCGTCCTTTCCACAAG-3’

Seq ID No.18：

5’-AAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAACGGGTGGGAAAATAGACCAATCCGGTGTTTCGTCCTTTCCACAAG-3’

Seq ID No.19：

5’-AAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAACGTGTGGCAAAGGTGCCCTTGCCGGTGTTTCGTCCTTTCCACAAG-3’

另外，本例的预文库并非三个基因的PCR扩增产物，而是直接采用基因组DNA制备预文库。具体的，取人源基因组DNA使用超声打断至平均200bp；然后使用KAPA Hyper建库试剂盒(KAPA Hyper Prep Kit illumina platforms，KK8504)进行预文库构建；预文库构建采用的接头序列以及预文库的通用引物都与实施例一相同。

构建预文库后，后续的步骤包括RNA引导序列制备、蛋白核酸复合物组装、目标区域酶切、连接捕获接头和靶标序列分离、终文库构建、上机测序和数据分析等步骤都与实施例一相同。三个靶标序列的富集产物分别进行上机测序，测序平台仍然采用IlluminaNextSeq500双端100bp测序。测序结果经过BWA比对后统计各靶标区域的序列数，结果如表2所示。

表2靶标序列富集后的测序结果

表2的结果显示，在复杂的人源基因组中，本例的靶标序列富集方法依然能够比较特异、有效的富集目标区域；并且三个目标区域8200、7992、7905在总序列数及比对到目标区域序列数上的均匀度非常好，偏好性很小。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换。

SEQUENCE LISTING

<110> 人和未来生物科技（长沙）有限公司

<120> 用于从预文库中富集靶标序列的试剂盒、制备方法和应用

<130> 18I27613

<160> 19

<170> PatentIn version 3.3

<210> 1

<211> 22

<212> DNA

<213> 人工序列

<400> 1

tgcgaagcca cactgacgtg cc 22

<210> 2

<211> 24

<212> DNA

<213> 人工序列

<400> 2

ctttgtgttc ccggacatag tcca 24

<210> 3

<211> 22

<212> DNA

<213> 人工序列

<400> 3

tcttctcact catatcctcc tc 22

<210> 4

<211> 23

<212> DNA

<213> 人工序列

<400> 4

tgtcctccta gcaggagagg gtg 23

<210> 5

<211> 22

<212> DNA

<213> 人工序列

<400> 5

aggcgcactg gcctcatctt gg 22

<210> 6

<211> 22

<212> DNA

<213> 人工序列

<400> 6

aagcagaggc tggggcacag ca 22

<210> 7

<211> 33

<212> DNA

<213> 人工序列

<400> 7

gatcggaaga gcacacgtct gaactccagt cac 33

<210> 8

<211> 33

<212> DNA

<213> 人工序列

<400> 8

ccatctcatc cctgcgtgtc gctcttccga tct 33

<210> 9

<211> 20

<212> DNA

<213> 人工序列

<400> 9

ccatctcatc cctgcgtgtc 20

<210> 10

<211> 44

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (25)..(31)

<223> n is a, c, g, or t

<400> 10

caagcagaag acggcatacg agatnnnnnn ngtgactgga gttc 44

<210> 11

<211> 58

<212> DNA

<213> 人工序列

<400> 11

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58

<210> 12

<211> 33

<212> DNA

<213> 人工序列

<400> 12

gatcggaaga gcacacgtct gaactccagt cac 33

<210> 13

<211> 20

<212> DNA

<213> 人工序列

<400> 13

aatgatacgg cgaccaccga 20

<210> 14

<211> 21

<212> DNA

<213> 人工序列

<400> 14

caagcagaag acggcatacg a 21

<210> 15

<211> 46

<212> DNA

<213> 人工序列

<400> 15

gaatttaata cgactcacta tagggcttgt ggaaaggacg aaacac 46

<210> 16

<211> 127

<212> DNA

<213> 人工序列

<400> 16

aaaaaaagca ccgactcggt gccacttttt caagttgata acggactagc cttattttaa 60

cttgctattt ctagctctaa aacacgtgat ggccagcgtg gacccggtgt ttcgtccttt 120

ccacaag 127

<210> 17

<211> 127

<212> DNA

<213> 人工序列

<400> 17

aaaaaaagca ccgactcggt gccacttttt caagttgata acggactagc cttattttaa 60

cttgctattt ctagctctaa aacgggttgg ccaatctact cccccggtgt ttcgtccttt 120

ccacaag 127

<210> 18

<211> 127

<212> DNA

<213> 人工序列

<400> 18

aaaaaaagca ccgactcggt gccacttttt caagttgata acggactagc cttattttaa 60

cttgctattt ctagctctaa aacgggtggg aaaatagacc aatccggtgt ttcgtccttt 120

ccacaag 127

<210> 19

<211> 127

<212> DNA

<213> 人工序列

<400> 19

aaaaaaagca ccgactcggt gccacttttt caagttgata acggactagc cttattttaa 60

cttgctattt ctagctctaa aacgtgtggc aaaggtgccc ttgccggtgt ttcgtccttt 120

ccacaag 127

Claims

1.一种用于从预文库中富集靶标序列的试剂盒，其特征在于：包括蛋白核酸复合物、DNA连接酶和捕获接头；

所述蛋白核酸复合物由Cas酶和RNA引导序列组装而成，所述RNA引导序列能够特异性的与靶标序列结合，所述Cas酶能够特异性的识别与RNA引导序列结合的靶标序列，并将靶标序列切割；

所述DNA连接酶用于将所述捕获接头连接到被切割的靶标序列的切割末端；

所述捕获接头为一段DNA序列，用于将靶标序列从预文库中区分开来，并通过捕获接头的修饰将靶标序列分离、富集；或者通过在将捕获接头与靶标序列切割末端连接时的polyA尾的修饰将靶标序列分离、富集。

2.根据权利要求1所述的试剂盒，其特征在于：所述捕获接头的修饰和polyA尾的修饰具体为生物素标记；所述试剂盒还包括亲和素修饰的磁珠，所述磁珠用于将与捕获接头连接的靶标序列分离。

3.根据权利要求1所述的试剂盒，其特征在于：还包括针对捕获接头设计的通用引物和针对预文库接头设计的通用引物。

4.根据权利要求1-3任一项所述的试剂盒，其特征在于：还包括加polyA尾的试剂、磁珠纯化试剂和PCR扩增试剂。

5.由Cas酶和RNA引导序列组装的蛋白核酸复合物在靶标序列富集中的应用。

6.一种用于靶标序列富集的蛋白核酸复合物的制备方法，其特征在于：包括根据需要富集的靶标序列，采用CRISPR-Cas系统设计特异性扩增引物，并采用设计的特异性扩增引物扩增获得含有CRISPR-Cas引导序列和靶标区域序列的双链DNA；然后使用T7或U6转录酶将双链DNA转录成RNA，做为靶标区域的RNA引导序列；将Cas酶与RNA引导序列组装，即获得所述蛋白核酸复合物。

7.根据权利要求6所述的制备方法制备的蛋白核酸复合物。

8.根据权利要求1-4任一项所述的试剂盒或权利要求7所述的蛋白核酸复合物在目标DNA的测序或文库构建中的应用。