CN110904204B

CN110904204B - 引物组合及其用途

Info

Publication number: CN110904204B
Application number: CN201811075995.2A
Authority: CN
Inventors: 吴帅来; 白雪; 王庆亮; 朱向莹
Original assignee: Shanghai Jikai Gene Medical Technology Co ltd
Current assignee: Shanghai Jikai Gene Medical Technology Co ltd
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2023-11-21
Anticipated expiration: 2038-09-14
Also published as: CN110904204A

Abstract

本发明属于分子生物学的高通量测序领域，具体涉及一种引物组合及其用途。所述引物组合所适用的待扩增对象的结构包括自5’‑3’依次排布的：第一固定序列‑可变序列‑第二固定序列，所述引物组合至少包括第一正向引物和第二正向引物，所述第一正向引物的结构中包括5’‑随机序列‑特异性扩增序列‑3’，所述第二正向引物的结构中包括5’‑特异性扩增序列‑3’。使用本发明的引物组合制备文库，可平衡待扩增对象中的固定序列带来的固定碱基比例，使得每个位置的碱基比例适合于测序要求，克服了现有技术中所存在的操作繁杂，测序数据质量不高的问题。

Description

引物组合及其用途

技术领域

本发明属于分子生物学的高通量测序领域，具体涉及一种引物组合及其用途。

背景技术

shRNA(short hairpin RNA，短发卡RNA)和sgRNA(single guide RNA，单一导向RNA)均可以通过依赖于碱基互补的特异性方式结合靶(target)位点，通过RNAi(RNAinterference，RNA干扰)或CRISPR-Cas9导致靶位点基因的敲低(knockdown，KD)或敲除(knockout，KO)。通过使用不同形式的Cas9蛋白，例如融合基因激活物(activator)或阻遏物(repressor)的失活型Cas9(dCas9)，还可以不以KO的方式调控靶位点基因表达。

shRNA通常60-80nt长，由两侧的互补序列茎(stem)和中间的环(loop)序列组成。sgRNA由17-20nt gRNA(guide RNA，导向RNA)和约80nt的tra-RNA(trans-acting RNA，反式作用RNA)组成。这两种RNA都要求明确的转录起点和转录终点，因此shRNA和sgRNA的表达元件在设计上具有相似性，都是通过真核生物III类启动子和终止信号进行表达，典型的如U6启动子及其聚U序列(polyU)终止子。

shRNA或sgRNA表达元件通常整合到慢病毒表达载体中，然后包装成慢病毒，以细胞转染(transfection)的方式进入细胞。慢病毒载体序列可以整合到细胞基因组中，即实现稳定转染。

shRNA或sgRNA调控靶位点基因表达后，根据靶位点基因的功能，或对细胞的生长产生促进或抑制性作用。因此，通过检测细胞生长的变化，可以反应shRNA或sgRNA靶位点基因的功能，从而阐释靶位点的遗传功能。

针对多个靶位点的shRNA或sgRNA混合在一起可以制备成文库(library)。将含有混合shRNA或sgRNA文库的慢病毒载体，以较低的感染比例转染细胞，使得群体中每个细胞仅能被带有一种shRNA或sgRNA的慢病毒感染，在经历一段时间/刺激后，通过高通量测序(high-throughput sequencing，HTS)检测群体中每个shRNA/sgRNA的频率与原始文库中的频率变化，可以分析出哪些shRNA/sgRNA导致了细胞生长更快或更慢，因而得出相应靶位点对细胞生长/刺激的作用。这种高通量遗传筛选，可以鉴定影响细胞生物学过程的重要基因，例如对各种外界应激、药物敏感性、病原易感性的重要基因，以及多种生物学基本过程的重要基因。

这种文库可以包括针对某一类相似的基因，例如激酶基因，细胞凋亡基因，受体基因，miRNA(microRNA，微RNA)基因，lncRNA(long non-coding RNA，长不编码RNA)基因等等，也可以包括一群并无明显相关性的基因，还可以设计成针对整个基因组。例如GeCKO文库含有2个子文库组成的、总计123411种不同sgRNA序列组成的文库(Shalem et al.,2014)，Bassik文库含有9个子文库组成的、总计～20000种不同sgRNA序列组成的文库。

对细胞中shRNA/sgRNA比例的分析需要使用PCR获取sgRNA序列进行测序。由于sgRNA两侧序列固定，根据这段固定序列设计正向和反向引物，可以从基因组DNA中获取sgRNA序列。PCR可以设计成巢式PCR(Shalem et al.,2014)，或直接一步PCR(Joung etal.,2017)。一步PCR直接在正反向引物的非模板配对区加上测序所需的接头序列，得到的PCR产物即可用于测序的文库。两步PCR首先获取基因组DNA中的sgRNA序列，测序接头通过第二轮PCR再引入，二轮PCR产物也可以直接用于测序。

下一代测序(NGS)，例如illumina测序的边合成边测序(SBS)技术，使得大量DNA文库进行同步测序成为可能。通过对不同文库标记不同的标签(index)序列，根据测序仪机型不同，一次测序反应的流动池(flowcell)或者道(lane)中可以混入多个不同样本，而最终样本的测序数据量与混合比例直接相关。

测序的数据获取依赖于相机拍照，illumina测序仪要求在同一个反应池/道中的文库每个位置的碱基(A、T、C、G)分布均匀，特别是测序开始的一段序列，否则会影响仪器对簇(cluster)的定位，导致能过滤(PF，passed filtered)簇的比例大幅下降，严重影响测序能够得到的数据量。最佳的碱基比例为A、T、C、G各占25％，一定程度的偏离也能获得较好的数据，但是偏离到什么程度是可以接受的，或者偏低程度与数据质量的关系，本技术领域并无明确的理论和经验。碱基不平衡文库的测序存在难度，现有技术可以通过加入其他碱基平衡文库(如phiX)来缓冲整体的碱基平衡性，但是会相应损失最终获得的数据量。当文库碱基不平衡特别突出时，phiX掺入的比例可能≥50％，这将极大损害数据得率。

由于sgRNA两侧序列固定，直接PCR得到的文库在测序接头内侧必然有一段固定的序列。这种固定序列的每个位置只有一种碱基，是一种极端碱基不平衡的文库。将碱基不平衡文库以较低的比例与其他碱基平衡文库混合测序是一种处理这类文库的常用方法，但是，从同一实验不同样本间的数据均一性的角度出发，对不同批次产生的同一实验不同样本的数据进行横向比较时，可能会产生较大偏差。当每个样本的数据需求就比较大时，例如CRISPR-Cas9文库，与其他文库相掺的方法无法更是无法满足需求。

为了避免固定序列导致的碱基比例严重失衡，现有的CRISPR-Cas9文库制备技术通过在正向引物的特异性区域和接头区域之间插入一组“摇摆(stagger)”碱基来堆叠出平衡的碱基。

通过摇摆碱基堆积平衡碱基的方法需要多条带有摇摆碱基的正向引物才能有效工作，例如使用了9条，和使用了10条。由于正向引物必须的接头区域和特异性区域已经长达80多nt，摇摆碱基使得正向引物的长度进一步增加到80-90nt。由于实际应用中，很多一次仅对一个样本进行分析，从文库混合的最终效果，可以对不同样本使用带有不同“摇摆”碱基的正向引物。

不同长度“摇摆”碱基的正向引物在PCR效率上有一定偏差，特别是对于80-90nt这样的超长引物，对不同样本使用不同正向引物的做法可能会导致很大的人为差异，从而影响最终筛查数据的可用性。为此，必须对每个样本都使用全套“摇摆”碱基正向引物，这使得文库数目是样本数据的9-10倍。

最终的测序数据分配依赖于文库混合时的掺入量，文库数目的极大增加不仅使得文库定量、混合的工作量和成本大大增加，也会影响最终数据的均匀程度。数据量分布不均匀导致测序量的浪费、样本的测序不足，以及均一化后分析可能的偏差。

此外，由于“摇摆”碱基只是通过碱基错位来叠加一个碱基平衡文库，最终得到的文库结构在每个位置上的碱基分布还不近相同，这使得每个位点的测序质量也相应不同，对数据质量和分析结果可能带来影响。

还有很多与shRNA和sgRNA文库结构类似的测序对象，例如16S rDNA固定区和可变区，TCR/BCR(T细胞受体/B细胞受体)的固定区和可变区，都属于固定序列-一段可变区-固定序列的结构。

发明内容

为了克服现有技术中所存在的操作繁杂，测序数据质量不高的问题，本发明的目的在于提供一种引物组合，所述引物组合所适用的待扩增对象的结构包括自5’-3’依次排布的：第一固定序列-可变区-第二固定序列。

为了实现上述目的以及其他相关目的，本发明采用如下技术方案：

本发明的第一方面，提供一种引物组合，所述引物组合适用的待扩增对象的结构包括自5’-3’依次排布的：第一固定序列-可变区-第二固定序列，所述引物组合至少包括第一正向引物和第二正向引物，所述第一正向引物的结构中包括5’-随机序列-特异性扩增序列-3’，所述第二正向引物的结构中包括5’-特异性扩增序列-3’，所述第一正向引物中的特异性扩增序列与所述第二正向引物中的特异性扩增序列均能够各自特异识别第一固定序列并在严谨条件下与所述第一固定序列杂交以扩增获得预期的扩增子，所述随机序列的长度与预期的扩增子中5’端的固定序列的长度相等。

在优选的实施方式中，所述第一正向引物扩增获得的预期的扩增子中5’端的固定序列与所述第二正向引物扩增获得的预期的扩增子中5’端的固定序列相同。

在优选的实施方式中，所述第一正向引物中的特异性扩增序列与所述第二正向引物中的特异性扩增序列相同。

在优选的实施方式中，预期的扩增子中5’端的固定序列的长度与待测可变序列的长度相等。

从5’-3’方向看，预期的扩增子中，所述待测可变序列中的第一个碱基与5’端固定序列的最后一个碱基相邻。

第一正向引物为一引物集，该第一正向引物的随机序列段含有多条序列不同的随机序列，该引物集中各引物的随机序列长度一致。

从整体看，所述第一正向引物中各随机序列的每个位置均有A、T、G、C。

一种实施方式中，以每个位置的总碱基数为100％计，A的含量在10％以上。以每个位置的总碱基数为100％计，T的含量在10％以上。以每个位置的总碱基数为100％计，G的含量在10％以上。以每个位置的总碱基数为100％计，C的含量在10％以上。

一种实施方式中，以每个位置的总碱基数为100％计，A的含量在20％以上。以每个位置的总碱基数为100％计，T的含量在20％以上。以每个位置的总碱基数为100％计，G的含量在20％以上。以每个位置的总碱基数为100％计，C的含量在20％以上。

一种实施方式中，以每个位置的总碱基数为100％计，A的含量为25％。以每个位置的总碱基数为100％计，T的含量为25％。以每个位置的总碱基数为100％计，G的含量为25％。以每个位置的总碱基数为100％计，C的含量为25％。

因此，所述随机序列用于平衡待扩增对象扩增获得的文库中，由5’端固定序列带来的碱基不平衡，使得文库中拟测序的每个位置的碱基比例平衡以适合于测序。

一般情况下，预期的扩增子的长度范围是50-600bp，优选地为50-300bp，以满足有效扩增即可。

为了适应测序平台，第一正向引物的结构中可包括5’-接头序列-随机序列-特异性扩增序列-3’，第二正向引物的结构中可包括5’-接头序列-特异性扩增序列-3’。其中，第一正向引物中的随机序列的长度仍与预期的扩增子中5’端的固定序列长度相等。此时，所述预期的扩增子5’端为接头序列，接头序列的长度不计入5’端的固定序列长度之内。所述接头序列的具体序列没有限制，只要与测序平台相匹配即可。

所述引物组合中还包括可与所述第一正向引物和所述第二正向引物配合使用的反向引物。反向引物的结构中包括5’-特异性扩增序列-3’。所述反向引物中的特异性扩增序列能够特异识别第二固定序列并在严谨条件下与第二固定序列杂交。所述反向引物用于与所述第一正向引物和所述第二正向引物配合，对待扩增对象进行扩增。

为了适应测序平台，反向引物的结构中可包括5’-接头序列-特异性扩增序列-3’。所述接头序列的具体序列没有限制，只要与测序平台相匹配即可。

本发明的第二方面，提供前述引物组合用于制备试剂盒的用途，所述试剂盒适用的待扩增对象的结构包括自5’-3’依次排布的：第一固定序列-可变区-第二固定序列。

本发明的第三方面，提供一种试剂盒，所述试剂盒适用的待扩增对象的结构包括自5’-3’依次排布的：第一固定序列-可变区-第二固定序列，所述试剂盒至少包括前述引物组合。

本发明的第四方面，提供前述引物组合或试剂盒用于制备sgRNA文库测序产品、shRNA文库测序产品、微生物多样性测定产品、BCR/TCR多样性测定测序产品的用途。

本发明的第五方面，提供一种制备文库的方法，采用前述引物组合或试剂盒，包括步骤：

(1)使用第一正向引物和反向引物，配置成PCR体系，对待扩增对象进行PCR扩增，获得子文库1；

(2)使用第二正向引物和反向引物，配置成PCR体系，对待扩增对象进行PCR扩增，获得子文库2；

(3)将步骤(1)获得的子文库1和步骤(2)获得的子文库2混合，即得。

一种实施方式中，子文库1和子文库2以合适的摩尔比例混合即可。例如，子文库1和子文库2可以1:1的摩尔比例进行混合，但是并不限于这个比例。

另一种实施方式中，当需要对多个模板样本文库进行混合测序时，由于同一模板得到的子文库1和子文库2之间的高度一致性，为简化操作，可以对其中一些使用第一正向引物，而另一些使用第二正向引物，只需保证最终测序的混合文库中子文库1和子文库2的摩尔比例为1：1即可。

使用所述引物组合或试剂盒制备文库，能够提高所得文库的碱基平衡性。

与现有技术相比，本发明具有如下有益效果：

(1)使用本发明的技术方案制备文库，每个样本只需要2组正向引物，极大减少了操作复杂度，并且提高了混合文库的均一性，使得数据利用率得以提高。

(2)使用本发明的技术方案制备获得的最终文库，在平衡化文库区域内的每个位置上，碱基组成都是50％(N)+50％(A/T/C/G)，即A、T、C、G中任一为62.5％，其余三种碱基分别为12.5％，出乎意料的，此碱基组成可以满足测序仪对碱基频率的要求，并得到高质量数据，且使得测序数据在每个位置的测序质量一致。

(3)使用本发明的技术方案制备文库，2组正向引物形成的文库对每个样本形成一对技术重复，可以用来评估文库数据质量。

附图说明

图1：实施例1中第一固定序列-可变序列-第二固定序列的正义链示意图。

图2：实施例1中子文库1和子文库2的示意图。

图3：文库在miniSeq上表现出的碱基均衡度。

图4：文库在HiSeq-X上表现出的碱基均衡度。

图5：实施例3中子文库1和子文库2之间的相关性。

具体实施方式

本发明的核心创新点在于提供一种引物组合，所述引物组合适用的待扩增对象中包括多条基因片段，各基因片段均具有共同的结构特征，亦即，各待扩增对象的结构包括自5’-3’依次排布的：第一固定序列-可变序列-第二固定序列，相比之下，一般情况下，各待扩增对象的5’的序列是已知的、相同的、固定不变的，因此称为第一固定序列。所述第一固定序列后都紧邻着的一段序列，相比之下，在各待扩增对象中是各不相同的，因此，称之为可变序列。一般情况下，各待扩增对象的3’的序列是已经知的、相同的、固定不变的，因此称为第二固定序列。为了获知各待扩增对象中可变序列的全部碱基序列或部分碱基序列，可以采用本发明的引物组合对各待扩增对象中的可变序列进行扩增，然后对扩增产物进行测序，从而得知各待扩增对象中可变序列的全部碱基序列或部分碱基序列。测序的时候，可采用常用的illumina测序法。illumina测序的边合成边测序(SBS)技术，使得大量基因文库进行同步测序成为可能。测序的数据获取依赖于相机拍照，illumina测序仪要求在同一个反应池/道中的文库每个位置的碱基(A、T、C、G)分布均匀，特别是测序开始的一段序列，否则会影响仪器对簇(cluster)的定位，导致能过滤(PF，passed filtered)簇的比例大幅下降，严重影响测序能够得到的数据量。

各待扩增对象中的可变序列是各不相同且未知的，因此，可根据第一固定序列来设计正向引物，那么直接PCR得到的各扩增子的5’端的序列是相同的，这段相同序列的每个位点的碱基都是固定单一的，各扩增子所组成的文库将是一种极端碱基不平衡的文库，这样碱基不平衡文库的测序存在难度。

而本发明的引物组合是根据第一固定序列和可变序列一起来设计获得的，所述引物组合至少包括第一正向引物和第二正向引物，以解决各扩增子的5’端的碱基不平衡问题。所述第一正向引物的结构中包括5’-随机序列-特异性扩增序列-3’，所述第二正向引物的结构中包括5’-特异性扩增序列-3’，优选地，所述第一正向引物中的特异性扩增序列和所述第二正向引物中的特异性扩增序列相同，各特异性扩增序列均能够特异识别第一固定序列并在严谨条件下与所述第一固定序列杂交以扩增获得预期的扩增子，所述随机序列的长度与预期的扩增子中5’端的固定序列的长度相等。在优选的实施方式中，预期的扩增子中5’端的固定序列的长度与待测可变序列的长度相等。从5’-3’方向看，预期的扩增子中，所述待测可变序列中的第一个碱基与5’端固定序列的最后一个碱基相邻。所述待测可变序列可以是所述可变序列的全部序列也可以是所示可变区的部分序列。例如，当大家想知道整个可变区的序列时，这时所述待测可变序列是所述可变序列的全部序列。从5’-3’方向看，当大家想知道所述可变区的前若干个序列时，则这时所述待测可变序列可以是这前若干个序列。从5’-3’方向看，当大家想知道所述可变区的中间若干个序列时，则这时所述待测可变序列从第一个序列开始直到把这中间若干个序列包括在内。从5’-3’方向看，当大家想知道所述可变区的后若干个序列，则这时所述待测可变序列是所述可变序列的全部序列。第一正向引物为一引物集，该第一正向引物的随机序列段含有多条序列不同的随机序列，该引物集中各引物的随机序列长度一致。从整体看，所述第一正向引物中各随机序列的每个位置均有A、T、G、C。一种实施方式中，以每个位置的总碱基数为100％计，A的含量在10％以上。以每个位置的总碱基数为100％计，T的含量在10％以上。以每个位置的总碱基数为100％计，G的含量在10％以上。以每个位置的总碱基数为100％计，C的含量在10％以上。一种实施方式中，以每个位置的总碱基数为100％计，A的含量在20％以上。以每个位置的总碱基数为100％计，T的含量在20％以上。以每个位置的总碱基数为100％计，G的含量在20％以上。以每个位置的总碱基数为100％计，C的含量在20％以上。种实施方式中，以每个位置的总碱基数为100％计，A的含量为25％。以每个位置的总碱基数为100％计，T的含量为25％。以每个位置的总碱基数为100％计，G的含量为25％。以每个位置的总碱基数为100％计，C的含量为25％。

为了更好更快地扩增，还可包括与所述第一正向引物和所述第二正向引物配合使用的反向引物。对于反向引物没有特殊要求，只要能够配合所述第一正向引物和所述第二正向引物使用即可。所述反向引物的结构中包括5’-特异性扩增序列-3’。所述反向引物中的特异性扩增序列，要求能够与所述第一正向引物和所述第二正向引物中的特异性扩增序列Tm，GC％，长度等性质类似。所述第一正向引物和所述第二正向引物中的特异性扩增序列、所述反向引物中的特异性扩增序列所界定的扩增子长度范围是50-600bp，优选地为50-300bp，以保证满足有效扩增即可。所述反向引物中的特异性扩增序列能够特异识别第二固定序列并在严谨条件下与第二固定序列杂交。

为了更好地适应于测序平台，所述第一正向引物、所述第二正向引物、反向引物的结构中可包括接头序列。例如，所述第一正向引物的结构中包括5’-接头序列-随机序列-特异性扩增序列-3’。所述第二正向引物的结构中包括5’-接头序列-特异性扩增序列-3’。所述反向引物的结构中包括5’-接头序列-特异性扩增序列-3’。其中，第一正向引物中的随机序列的长度仍与预期的扩增子中5’端的固定序列长度相等。此时，所述预期的扩增子5’端为接头序列，接头序列的长度不计入5’端的固定序列长度之内。所述接头序列的具体序列没有限制，只要与测序平台相匹配即可。

本发明的引物组合所应用的待扩增对象中的可变序列可以是sgRNA序列、shRNA序列、16S rDNA可变区序列，TCR可变区序列，BCR可变区序列等等。

例如，待扩增对象中的可变序列是sgRNA序列的话，就直接将gRNA序列作为可变序列即可，具体文库建立方法可详见本发明实施例。

如果待扩增对象中的可变序列是shRNA的话，可以让预期的扩增子中的5’端的固定序列的长度与第一固定序列紧邻的一侧的互补序列茎的长度相同即可。

本发明的引物组合还可用于sgRNA文库测序、shRNA文库测序、微生物多样性测定、BCR/TCR多样性测定。

本发明还提供一种制备文库的方法，包括步骤：

一种实施方式中，子文库1和子文库2可以1:1的摩尔比例进行混合。

另一种实施方式中，当需要对多个模板样本进行建库时，由于同一模板得到的子文库1和子文库2之间的高度一致性，为简化操作，可以对其中一些使用第一正向引物，而另一些使用第二正向引物，只需保证最终测序的混合文库中子文库1和子文库2的摩尔比例适合即可。

使用本发明的引物组合制备文库，每个样本只需要2个PCR反应，极大减少了操作复杂度，并且提高了混合文库的均一性，使得数据利用率得以提高。

在进一步描述本发明具体实施方式之前，应理解，本发明的保护范围不局限于下述特定的具体实施方案；还应当理解，本发明实施例中使用的术语是为了描述特定的具体实施方案，而不是为了限制本发明的保护范围。下列实施例中未注明具体条件的试验方法，通常按照常规条件，或者按照各制造商所建议的条件。

当实施例给出数值范围时，应理解，除非本发明另有说明，每个数值范围的两个端点以及两个端点之间任何一个数值均可选用。除非另外定义，本发明中使用的所有技术和科学术语与本技术领域技术人员通常理解的意义相同。除实施例中使用的具体方法、设备、材料外，根据本技术领域的技术人员对现有技术的掌握及本发明的记载，还可以使用与本发明实施例中所述的方法、设备、材料相似或等同的现有技术的任何方法、设备和材料来实现本发明。

除非另外说明，本发明中所公开的实验方法、检测方法、制备方法均采用本技术领域常规的分子生物学、生物化学、染色质结构和分析、分析化学、细胞培养、重组DNA技术及相关领域的常规技术。这些技术在现有文献中已有完善说明，具体可参见Sambrook等MOLECULAR CLONING：A LABORATORY MANUAL，Second edition，Cold Spring HarborLaboratory Press，1989and Third edition，2001；Ausubel等，CURRENT PROTOCOLS INMOLECULAR BIOLOGY，John Wiley&Sons，New York，1987and periodic updates；theseries METHODS IN ENZYMOLOGY，Academic Press，San Diego；Wolffe，CHROMATINSTRUCTURE AND FUNCTION，Third edition，Academic Press，San Diego，1998；METHODS INENZYMOLOGY，Vol.304，Chromatin(P.M.Wassarman and A.P.Wolffe，eds.)，AcademicPress，San Diego，1999；和METHODS IN MOLECULAR BIOLOGY，Vol.119，ChromatinProtocols(P.B.Becker，ed.)Humana Press，Totowa，1999等。

实施例1

一、本实施例中，示例性地以GeCKOv2sgRNA文库作为研究对象，所述GeCKOv2sgRNA文库是一个全基因组范围内的CRISPR-cas9敲除文库。以相同的pLentiCRISPR-v2载体，含有123411条不同的sgRNA。文库整体具有的结构特征，亦即，构建于载体上的每条sgRNA与其上下游的载体上的序列形成自5’-3’依次排布的：第一固定序列-可变序列-第二固定序列。这里的可变序列就是指gRNA序列。本实施例中，相比之下，gRNA的序列有123411种组合，因此可将之称为可变序列。各gRNA将pLentiCRISPR-V2载体靶向至全基因组不同的靶位点，从而对全基因组不同的靶位点基因进行或敲除。本实施例中可变序列也就是gRNA序列的长度为20nt。位于5’端的第一固定序列是来自于pLentiCRISPR-V2载体的同一位置的序列，为了获知GeCKOv2sgRNA文库中各gRNA的所占比例及其变化，可以对各载体上包括sgRNA的部分进行扩增，然后对扩增产物进行测序。

测序的时候，可采用常用的illumina测序法。illumina测序的边合成边测序(SBS)技术，使得大量基因文库进行同步测序成为可能。测序的数据获取依赖于相机拍照，illumina测序仪要求在同一个反应池/道中的文库每个位置的碱基(A、T、C、G)分布均匀，特别是测序开始的一段序列，否则会影响仪器对簇(cluster)的定位，导致能过滤(PF，passedfiltered)簇的比例大幅下降，严重影响测序能够得到的数据量。

各gRNA序列是各不相同的，可根据第一固定序列来设计正向引物，那么直接PCR得到的各扩增子的5’端的序列是相同的，这段相同序列的每个位点的碱基都是固定单一的，各扩增子所组成的文库将是一种极端碱基不平衡的文库，这样碱基不平衡文库的测序存在难度。

本实施例所采用的方案是：根据第一固定序列和可变序列一起来设计第一正向引物和第二正向引物，用以解决各扩增子的5’端的碱基不平衡问题。所述第一正向引物的结构中包括5’-随机序列-特异性扩增序列-3’，所述第二正向引物的结构中包括5’-特异性扩增序列-3’，优选地，第一正向引物中的特异性扩增序列和第二正向引物中的特异性扩增序列相同，各特异性扩增序列均能够特异识别第一固定序列并在严谨条件下与所述第一固定序列杂交以扩增获得预期的扩增子，所述随机序列的长度与预期的扩增子中5’端的固定序列的长度相等。预期的扩增子中5’端的固定序列的长度与待测可变序列的长度相等。

例如，第一固定序列-可变序列-第二固定序列的示意图如图1所示。其中，SSSSSSSSSSSSSSSSSSSS代表gRNA序列，也就是可变区，长度为20nt。如果想知道整个可变区的序列，或者想知道可变区的后几个序列，那么待测可变区的长度是20nt，那么预期的扩增子中5’端的固定序列的长度也为20nt，所述第一正向引物的结构中的随机序列的长度也为20nt。第一正向引物为一引物集，该第一正向引物的随机序列段含有多条序列不同的随机序列，该引物集中各引物的随机序列长度一致。从整体看，所述第一正向引物中各随机序列的每个位置均有A、T、G、C。

一种实施方式中，以每个位置的总碱基数为100％计，A的含量在10％以上。以每个位置的总碱基数为100％计，T的含量在10％以上。以每个位置的总碱基数为100％计，G的含量在10％以上。以每个位置的总碱基数为100％计，C的含量在10％以上。一种实施方式中，以每个位置的总碱基数为100％计，A的含量在20％以上。以每个位置的总碱基数为100％计，T的含量在20％以上。以每个位置的总碱基数为100％计，G的含量在20％以上。以每个位置的总碱基数为100％计，C的含量在20％以上。种实施方式中，以每个位置的总碱基数为100％计，A的含量为25％。以每个位置的总碱基数为100％计，T的含量为25％。以每个位置的总碱基数为100％计，G的含量为25％。以每个位置的总碱基数为100％计，C的含量为25％。

5’端红框内绿色序列GTGGAAAGGACGAAACACCG表示第一固定序列中邻近可变序列的一段序列。所以预期的扩增子中5’端的固定序列的正义链可以是gtggaaaggacgaaacaccg。所述第一正向引物与所述第二正向引物中的特异性扩增序列特异识别第一固定序列并在严谨条件下与所述特异性扩增序列杂交，因此，所述特异性扩增序列可以是gtggaaaggacgaaacaccg。

为了更好更快地扩增，还可包括反向引物。对于反向引物没有特殊要求，只要能够配合所述第一正向引物和所述第二正向引物使用即可。所述反向引物的结构中包括5’-特异性扩增序列-3’。所述反向引物中的特异性扩增序列，要求能够与所述第一正向引物和所述第二正向引物中的特异性扩增序列Tm，GC％，长度等性质类似。所述第一正向引物和所述第二正向引物中的特异性扩增序列、所述反向引物中的特异性扩增序列所界定的扩增子长度是50-600bp，优选为50-300bp，以保证高效扩增。所述反向引物中的特异性扩增序列能够特异识别第二固定序列并在严谨条件下与第二固定序列杂交。

如图1中，5’端红框内绿色序列GTCGTGTACTGGCTCCGCCTTTTTCC表示第二固定序列正义链中的一段序列。所述反向引物中的特异性扩增序列可以是GTCGTGTACTGGCTCCGCCTTTTTCC。

为了更好地应用于测序平台，所述第一正向引物、所述第二正向引物、反向引物的结构中可包括接头序列。例如，所述第一正向引物的结构中包括5’-接头序列-随机序列-特异性扩增序列-3’。所述第二正向引物的结构中包括5’-接头序列-特异性扩增序列-3’。所述反向引物的结构中包括5’-接头序列-特异性扩增序列-3’。所述接头序列的具体序列没有限制，只要与测序平台相匹配即可。

所以，本实施例中，第一正向引物可以是：

AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTNNNNNNNNNNNNNNNNNNNNgtggaaaggacgaaacaccg(SEQ ID NO.1)，

其中，AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQID NO.2)为接头序列，NNNNNNNNNNNNNNNNNNNN(SEQ ID NO.3)为随机序列，gtggaaaggacgaaacaccg(SEQ ID NO.4)为特异性扩增序列；

第二正向引物可以是

AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTgtggaaaggacgaaacaccg(SEQ ID NO.5)，其中，AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO.2)为接头序列，gtggaaaggacgaaacaccg(SEQ ID NO.4)为特异性扩增序列；

本实施例中，反向引物中的特异性扩增序列可以是

AGCCAGTACACGACATCACTTTCC(SEQ ID NO.6)，并可根据illumina测序要求添加带有index的接头序列，例如以下提供了带有12个不同index的反向引物，这些不同的反向引物，形成反向引物。

CAS9-R1

CAAGCAGAAGACGGCATACGAGATCGTGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGCCAGTACACGACATCACTTTCC(SEQ ID NO.7)

CAS9-R2

CAAGCAGAAGACGGCATACGAGATACATCGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGCCAGTACACGACATCACTTTCC(SEQ ID NO.8)

CAS9-R3

CAAGCAGAAGACGGCATACGAGATGCCTAAGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGCCAGTACACGACATCACTTTCC(SEQ ID NO.9)

CAS9-R4

CAAGCAGAAGACGGCATACGAGATTGGTCAGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGCCAGTACACGACATCACTTTCC(SEQ ID NO.10)

CAS9-R5

CAAGCAGAAGACGGCATACGAGATCACTGTGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGCCAGTACACGACATCACTTTCC(SEQ ID NO.11)

CAS9-R6

CAAGCAGAAGACGGCATACGAGATATTGGCGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGCCAGTACACGACATCACTTTCC(SEQ ID NO.12)

CAS9-R7

CAAGCAGAAGACGGCATACGAGATGATCTGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGCCAGTACACGACATCACTTTCC(SEQ ID NO.13)

CAS9-R8

CAAGCAGAAGACGGCATACGAGATTCAAGTGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGCCAGTACACGACATCACTTTCC(SEQ ID NO.14)

CAS9-R9

CAAGCAGAAGACGGCATACGAGATCTGATCGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGCCAGTACACGACATCACTTTCC(SEQ ID NO.15)

CAS9-R10

CAAGCAGAAGACGGCATACGAGATAAGCTAGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGCCAGTACACGACATCACTTTCC(SEQ ID NO.16)

CAS9-R11

CAAGCAGAAGACGGCATACGAGATGTAGCCGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGCCAGTACACGACATCACTTTCC(SEQ ID NO.17)

CAS9-R12

CAAGCAGAAGACGGCATACGAGATTACAAGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGCCAGTACACGACATCACTTTCC(SEQ ID NO.18)。

二、文库制备方法，包括如下步骤：

(1)使用第一正向引物和反向引物，配置成PCR体系(表1)，对待扩增对象(GeCKOv2sgRNA文库)进行PCR扩增，获得子文库1：

表1

成分	体积
		模板	1-33.6μL
2×PCR酶	40μL
		第一正向引物	3.2μL
反向引物	3.2μL
		总体积	80μL

PCR扩增按照表2中的程序进行：

表2

(2)使用第二正向引物和反向引物，配置成PCR体系(表3)，对待扩增对象进行PCR扩增，获得子文库2：

表3

PCR扩增按照表2中的程序进行：

表2

(3)将步骤(1)获得的子文库1和步骤(2)获得的子文库2以1:1的摩尔比例进行混合，获得文库。

理论上，获得的子文库1和子文库2的示意图如图2所示，其中，A代表子文库2中的扩增子，B代表子文库1中的扩增子。步骤(1)获得的子文库1和步骤(2)获得的子文库2以1:1的摩尔比例后，从整体看，来自于子文库1的随机序列，每个位置的碱基分布均匀，因此使得整体扩增子5’端的固定序列中每个位置的碱基得以平衡化。来自于子文库2的可变区序列，本身每个位置的碱基分布均匀，使得扩增子中随机序列紧邻的固定序列中每个位置的碱基得以平衡化。因此，所得文库在1-60nt内每个位置的碱基都是平衡的。

三、测序

对获得的文库使用illumina miniseq进行1x75nt测序，不添加phiX平衡文库。分析测序数据的碱基频率和各碱基位置的Q30。见图3。在互补文库的1-60nt范围内，每个碱基的Q30均在90％以上。

实施例2

按照实施例1中相同的方法，对GeCKO v2质粒进行文库制备，对得到的文库使用illumina hiseq-X进行2x150nt测序，添加2％的phiX平稳文库。分析测序数据的碱基频率和各碱基位置的Q30。见图4。在互补文库的1-60nt范围内，每个碱基的Q30均在90％以上。

实施例3

使用GeCKOv2sgRNA文库包装得到的混合病毒，按照MOI 0.3感染细胞，经过puromycin筛选后，对稳定病毒感染的细胞(Day0)抽提基因组DNA，以其作为模板。按照实施例1中相同的方法，对抽提获得的基因组DNA进行文库制备，对测序结果进行1和2两个技术重复文库进行拆分，计算每个gRNA的均一化频率)计算子文库1(如图5中的A)和子文库2(如图5中的B)之间的各gRNA均一化频率的相关系数，相关系数约等于1，见图5。表明本方案实施的平衡文库可以稳定体现原始序列频率特征。

以上所述，仅为本发明的较佳实施例，并非对本发明任何形式上和实质上的限制，应当指出，对于本技术领域的普通技术人员，在不脱离本发明方法的前提下，还将可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。凡熟悉本专业的技术人员，在不脱离本发明的精神和范围的情况下，当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时，凡依据本发明的实质技术对上述实施例所作的任何等同变化的更动、修饰与演变，均仍属于本发明的技术方案的范围内。

序列表

<110> 上海吉凯基因化学技术有限公司

<120> 引物组合物及其用途

<130> 184557

<160> 18

<170> SIPOSequenceListing 1.0

<210> 1

<211> 98

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctnn 60

nnnnnnnnnn nnnnnnnngt ggaaaggacg aaacaccg 98

<210> 2

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58

<210> 3

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

nnnnnnnnnn nnnnnnnnnn 20

<210> 4

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

gtggaaagga cgaaacaccg 20

<210> 5

<211> 78

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctgt 60

ggaaaggacg aaacaccg 78

<210> 6

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

agccagtaca cgacatcact ttcc 24

<210> 7

<211> 88

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 7

caagcagaag acggcatacg agatcgtgat gtgactggag ttcagacgtg tgctcttccg 60

atctagccag tacacgacat cactttcc 88

<210> 8

<211> 88

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 8

caagcagaag acggcatacg agatacatcg gtgactggag ttcagacgtg tgctcttccg 60

atctagccag tacacgacat cactttcc 88

<210> 9

<211> 88

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 9

caagcagaag acggcatacg agatgcctaa gtgactggag ttcagacgtg tgctcttccg 60

atctagccag tacacgacat cactttcc 88

<210> 10

<211> 88

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 10

caagcagaag acggcatacg agattggtca gtgactggag ttcagacgtg tgctcttccg 60

atctagccag tacacgacat cactttcc 88

<210> 11

<211> 88

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 11

caagcagaag acggcatacg agatcactgt gtgactggag ttcagacgtg tgctcttccg 60

atctagccag tacacgacat cactttcc 88

<210> 12

<211> 88

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 12

caagcagaag acggcatacg agatattggc gtgactggag ttcagacgtg tgctcttccg 60

atctagccag tacacgacat cactttcc 88

<210> 13

<211> 88

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 13

caagcagaag acggcatacg agatgatctg gtgactggag ttcagacgtg tgctcttccg 60

atctagccag tacacgacat cactttcc 88

<210> 14

<211> 88

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 14

caagcagaag acggcatacg agattcaagt gtgactggag ttcagacgtg tgctcttccg 60

atctagccag tacacgacat cactttcc 88

<210> 15

<211> 88

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 15

caagcagaag acggcatacg agatctgatc gtgactggag ttcagacgtg tgctcttccg 60

atctagccag tacacgacat cactttcc 88

<210> 16

<211> 88

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 16

caagcagaag acggcatacg agataagcta gtgactggag ttcagacgtg tgctcttccg 60

atctagccag tacacgacat cactttcc 88

<210> 17

<211> 88

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 17

caagcagaag acggcatacg agatgtagcc gtgactggag ttcagacgtg tgctcttccg 60

atctagccag tacacgacat cactttcc 88

<210> 18

<211> 88

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 18

caagcagaag acggcatacg agattacaag gtgactggag ttcagacgtg tgctcttccg 60

atctagccag tacacgacat cactttcc 88

Claims

1.一种引物组合，所述引物组合适用的待扩增对象的结构包括自5’-3’依次排布的：第一固定序列-可变区-第二固定序列，所述引物组合至少包括第一正向引物和第二正向引物，所述第一正向引物的结构中包括5’-随机序列-特异性扩增序列-3’，所述第二正向引物的结构中包括5’-特异性扩增序列-3’，所述第一正向引物中的特异性扩增序列与所述第二正向引物中的特异性扩增序列均能够各自特异识别第一固定序列并在严谨条件下与所述第一固定序列杂交以扩增获得预期的扩增子，所述随机序列的长度与预期的扩增子中5’端的固定序列的长度相等；

所述第一正向引物中的特异性扩增序列与所述第二正向引物中的特异性扩增序列相同；

预期的扩增子中5’端的固定序列的长度与待测可变序列的长度相等；

从整体看，所述第一正向引物中各随机序列的每个位置均有A、T、G、C，以每个位置的总碱基数为100%计，A、T、C和G的含量均在20%以上。

2.根据权利要求1所述的引物组合，其特征在于，所述随机序列用于平衡待扩增对象扩增获得的文库中，由固定序列带来的碱基不平衡，使得文库中拟测序的每个位置的碱基比例平衡以适合于测序。

3.根据权利要求1所述的引物组合，其特征在于，所述第一正向引物的结构中包括5’-接头序列-随机序列-特异性扩增序列-3’，所述第二正向引物的结构中包括5’-接头序列-特异性扩增序列-3’。

4.根据权利要求1所述的引物组合，其特征在于，所述引物组合中还包括反向引物，所述反向引物能够特异识别所述第二固定序列并在严谨条件下与所述第二固定序列杂交。

5.如权利要求1-4之任一项所述引物组合用于制备试剂盒的用途，所述试剂盒适用的待扩增对象的结构包括自5’-3’依次排布的：第一固定序列-可变区-第二固定序列。

6.一种试剂盒，所述试剂盒适用的待扩增对象的结构包括自5’-3’依次排布的：第一固定序列-可变区-第二固定序列，所述试剂盒至少包括如权利要求1-4之任一项所述引物组合。

7.如权利要求1-4之任一项所述引物组合或权利要求6所述的试剂盒用于制备sgRNA文库测序产品、shRNA文库测序产品、微生物多样性测定产品、BCR/TCR多样性测定测序产品的用途。

8.一种制备文库的方法，采用如权利要求1-4之任一项所述引物组合或如权利要求6所述试剂盒，包括步骤：

（1）使用第一正向引物和反向引物，配置成PCR体系，对待扩增对象进行PCR扩增，获得子文库1；

（2）使用第二正向引物和反向引物，配置成PCR体系，对待扩增对象进行PCR扩增，获得子文库2；

（3）将步骤（1）获得的子文库1和步骤（2）获得的子文库2混合，即得。