CN113957089B

CN113957089B - 一种筛选调控序列的载体体系和应用

Info

Publication number: CN113957089B
Application number: CN202111247419.3A
Authority: CN
Inventors: 施金秀; 罗燕; 肖晓丹; 叶知晟
Original assignee: Yunzhou Biotechnology Guangzhou Co ltd
Current assignee: Yunzhou Biotechnology Guangzhou Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2024-02-27
Anticipated expiration: 2040-12-31
Also published as: CN113957089A; WO2022142963A1; CN112725329B; CN112725329A

Abstract

本发明公开了一种文库高度多样性的文库构建方法，摒弃了蛋白改组中所采用的体外同源重组技术，通过引入Y型adaptor与DNaseI消化后小于100bp的随机片段连接，成功解决了具有相似特性的或具有特定或未知功能的功能元件无法进行有效重组的缺陷，该方法主要涉及三种文库的构建，分别为构建标签文库、功能元件文库以及索引标签文库，能够快速高通量实现功能元件多样性的构建方法，为最终筛选得到具有优良性能的功能元件奠定了坚实的基础。

Description

一种筛选调控序列的载体体系和应用

本申请是申请日为2020.12.31、发明名称为“一种功能元件的建库方法及其应用”、申请号为202011630533.X的发明的分案申请。

技术领域

本发明属于生物工程领域，更具体地，涉及一种筛选调控序列的载体体系和应用。

背景技术

基因的表达离不开调控序列的作用，启动子或增强子作为调控序列之一，是一段位于结构基因5’上游上下游区域的DNA序列，能够准确地与特定的RNA聚合酶及相关转录因子结合，从而启动下游基因的转录起始，是调控基因表达最重要的顺式作用元件。真核生物启动子包含三种具有重要生物功能的保守序列，分别为位于-35～-25区的TATA盒(TATAbox)、位于-80～-70区的CAAT盒(CAAT box)和位于-110～-80区的GC盒(GC box)。其中TATA盒参与调控下游基因的精确转录起始，CAAT盒和GC盒参与调控转录起始的频率。尽管上述三种功能区域是构成启动子功能活性的重要体现，但并不是每个启动子都包含这三种功能区域，这三个功能区域的任意碱基或相对位置的改变往往会造成启动子活性及特异性的剧烈变化。上游启动子或增强子活性以及基因附近的调控序列如5’UTR和3’UTR是决定下游基因能否顺利表达及表达水平是否适中的关键性因素，因此，为了使目的基因获得更好的表达，在体外利用分子定向进化技术对启动子调控序列进行改造筛选便显得尤为重要。

自然进化是一个漫长的优胜劣汰、有利突变不断积累的过程，为了加快这一进程，研究人员在体外模拟突变、重组和选择的自然进化机制，使进化朝着预期的方向发展。早期研究人员主要采用物理方法、化学方法、致突变菌株或易错PCR等方法将随机突变引入到蛋白质编码基因中，然后进行细胞或动物水平的功能筛选，从而得到能够满足人们需要的新功能或优良性能的蛋白质。这些方法虽然能够在一定程度上改善蛋白的某些特性，但是其所具备的多样性远远无法满足人们的需求。随着分子生物学的不断发展，人们建立了一种基于PCR技术的新的体外定向分子进化技术-DNA改组(DNA shuffling)技术，该技术由Stemmer于1994年首次提出，可用于核酸、蛋白的体外定向进化。DNA改组涉及将不同来源的多个相关基因家族通过DNaseI消化或超声破碎成随机片段，然后利用各片段间的同源性互为模板和引物，经过无引物PCR(primerless PCR)将这些片段重新组装成全长基因，该过程会所产生模板切换或交叉事件，从而增加了突变体文库的多样性。然后利用针对不同蛋白编码框的特异性5’端和3’端引物对蛋白突变体进行扩增，并克隆到相关的克隆载体上形成突变体文库，通过NGS测序验证文库多样性(～106以上)，最后在细胞水平或动物水平进行功能筛选，得到一种具有改良特性的蛋白。该方法主要针对蛋白分子的定向进化，作为起始模板的不同基因之间需要具备一定的同源性，从而产生小片段间的体外同源重组引入突变形成可供筛选的突变体文库。

启动子或增强子DNA改组(promoter or enhancer shuffling)的主要目的是增强启动子的活性或特异性改变基因的表达特性，具有相似特性的启动子调控序列(如特异性靶向相同的组织或器官)之间往往同源性极低，因此上述针对蛋白分子的DNA改组技术显然并不能够生搬硬套用于启动子调控序列的定向进化。目前，启动子改组一般采用以下技术路线：(1)对单个启动子进行两轮易错PCR，回收PCR产物(形成大量具有同源序列的突变体)；(2)用DNaseI消化或超声破碎成随机片段并回收；(3)将回收产物作为模板，进行无引物PCR；(4)在无引物PCR体系中加入含有特定酶切位点的特异性引物扩增全长启动子，回收特定大小的PCR产物；(5)用对应的限制性内切酶对克隆载体及全长启动子突变体进行酶切连接；(6)NGS测序验证启动子文库的多样性。该技术路线高度重复了蛋白定向进化的方法，且仅能对单个启动子来源进行改组，即便第一轮的易错PCR提高了模板的多样性，其本质上仍来源于同一个启动子，因此该启动子文库的多样性仍受到极大的限制，相同体系下一般只能到达10⁴～10⁵，筛选有特定功能的调控序列难度较大。

发明内容

有鉴于此，本发明要解决的技术问题在于提供一种筛选调控序列的载体体系和应用。

本发明的目的在于克服启动子改组方法的局限性，解决不同来源启动子由于同源性低而无法进行高效的体外重组导致文库多样性不足的问题，提供一种功能元件文库的构建方法

本发明所采取的技术方案是：

本发明的第一个方面，提供一种质粒载体，其包括：索引标签、报告基因和条码标签；

所述条码标签为长度为5～200bp的随机片段；

所述索引标签的个数至少为1，index1和index2独立的选自长度为5～100bp的随机片段；

所述报告基因的表达产物为可通过催化底物反应自身发光或产生颜色变化、可通过催化底物反应使底物发光或产生颜色变化、或经过激发光照射而产生发射光或产生颜色变化、或可抵抗相应药物筛选。

一些实施例中，所述条码标签为长度为40bp的随机片段；所述索引标签的数量为2，其中index1为长度为30bp的随机片段，index2为长度为30bp的随机片段，所述报告基因选自荧光蛋白、荧光素酶、LacZ基因或能起到筛选作用的抗性基因中的至少一种，所述抗性基因包括嘌呤霉素抗性基因。

一些具体实施例中，所述质粒载体依次包括如下元件：pUC ori、5’ITR、BGH pA、index1、AsiSI酶切位点、index2、Kozak、TurboGFP基因、条码标签、WPRE、BGH pA、3’ITR和Amp抗性筛选标记；其中，条码标签为长度为40bp的随机片段，所述index1为长度为30bp的随机片段，所述index2为长度为30bp的随机片段；

另一些具体实施例中，所述质粒载体依次包括如下元件：pUC ori、5’ITR、BGH pA、index1、AsiSI酶切位点、随机重组调控序列、AsiSI酶切位点、index2、Kozak、TurboGFP基因、条码标签、WPRE、BGH pA、3’ITR和Amp抗性筛选标记；其中，随机重组调控序列的长度为50～2000bp，为经DnaseI酶消化后的启动子片段或酶消化后的增强子片段，条码标签为长度为40bp的随机片段，所述index1为长度为30bp的随机片段，所述index2为长度为30bp的随机片段。

一些本发明提供的包括载体骨架与依次连接于载体骨架上的第一终止子、重组位点、报告基因、多克隆位点(MCS)、转录后调控序列(WPRE)和第二终止子。

优选地，根据本发明第一个方面所述的载体，所述载体上还包括至少一个酶切位点。

优选地，所述报告基因的表达产物为可通过催化底物反应自身发光或产生颜色变化、可通过催化底物反应使底物发光或产生颜色变化、或经过激发光照射而产生发射光或产生颜色变化、或可抵抗相应药物筛选。

具体地，所述报告基因选自荧光蛋白、荧光素酶、LacZ基因或能起到筛选作用的抗性基因中的至少一种，所述抗性基因例如嘌呤霉素抗性基因。

在本发明的部分实施例中，所述报告基因选用TurboGFP。

优选地，所述第一终止子与第二终止子为能起转录终止作用的元件。

具体地，所述终止子SV40终止子、hGH终止子、BGH终止子或rbGlob终止子。

在本发明的部分实施例中，所述第一终止子与第二终止子都选用BGH终止子，记为BGH-pA。

一些实施例中，所述质粒载体依次包括如下元件：pUC ori、5’ITR、BGH pA、index1、index2、报告基因、条码标签、WPRE、BGH pA、3’ITR和抗性筛选标记。

一些实施例中，所述index1和index2之间还包括酶切位点和随机重组调控序列。

一些具体实施例中，所述酶切位点为AsiSI；所述酶切位点的数量为2，位于所述随机重组调控序列的两端；

所述随机重组调控序列为经酶消化后的启动子片段或酶消化后的增强子片段。

本发明实施例中，制备随机重组调控序列的步骤中，所述酶消化的酶为DnaseI；所述启动子选自hRO、hRK、mCAR或ProA1；所述增强子选自CMV_en、HBB_en或SV40_en。

本发明第二方面，是提供所述质粒载体的构建方法，将条码标签、索引标签和随机重组调控序列插入含有报告基因的骨架载体。

本发明对条码标签、索引标签或随机重组调控序列的插入顺序不做限定，且对其插入顺序也不做限定，凡本领域能够采用的载体与核酸片段连接的方式都可以用于本发明所述的质粒载体的构建，例如，或将插入片段和载体经酶切后进行连接，或通过Gibson克隆反应将片段与载体进行连接。

本发明中，所述条码标签的插入为：制备携带有骨架载体同源臂的条码标签，使其与线性化骨架载体经Gibson克隆反应，构建获得标签文库。

本发明中，所述索引标签和随机重组调控序列的插入包括：

制备随机重组调控序列，然后在其两端添加骨架载体的同源臂和索引标签，得到结构为同源臂1-索引标签1-酶切位点1-随机重组调控序列-酶切位点2-索引标签2-同源臂2的插入片段；

将标签文库线性化；然后将所述插入片段与线性化的标签文库连接，获得调控序列文库。

一些实施例中，所述随机重组调控序列的制备方法包括，以DnaseI酶对启动子或增强子进行消化。

一些实施例中，所述同源臂1-索引标签1-酶切位点1-随机重组调控序列-酶切位点2-索引标签2-同源臂2片段的制备具体包括：

将引物F和引物R退火形成Y型的adaptor；所述引物F的结构为同源臂1-索引标签1-酶切位点1-保护序列1；所述引物R的结构为保护序列2-酶切位点2-索引标签2-同源臂2；所述保护序列1和保护序列2互补；

将adaptor与平末端的随机重组调控序列连接，得含有Y型接头的功能元件随机长片段；

将对含有Y型接头的功能元件随机长片段经PCR获得线性片段，

使所述线性片段与线性化的标签文库进行连接，构建获得调控序列文库。

一些实施例中，本发明所述质粒载体的构建方法还包括将所述调控序列文库经酶切去除随机重组调控序列，获得索引标签文库。

本发明的第三个方面，提供本发明第一个方面所述的载体在文库构建或功能元件筛选方面的应用。

本发明的第四个方面，提供一种文库构建的方法，利用Y型接头将随机打断的序列整合入所述载体中。

具体地，所述整合位点为所述载体的重组位点。

进一步地，所述Y型接头从结构上分为互补区和非互补区。

更进一步地，所述Y型接头的5’端的非互补序列分别包含来自于骨架载体克隆位点前后两端的第一同源臂、第二同源臂以及第一index序列、第二index序列，3’端的互补序列包含酶切位点。

具体地，所述Y型接头的结构依次为第一同源臂、第一index序列、酶切位点、随机序列嵌入位点、酶切位点、第二index序列和第二同源臂。

所述同源序列便于后续与骨架载体进行Gibson克隆反应。

所述酶切位点不同于本发明第一个方面所述载体上的酶切位点，该酶切位点可用于功能筛选后的功能元件的测序验证。

在本发明的部分实施方式中，所述酶切位点选用AsiSI酶切位点。

在本发明的部分实施方式中，所述Y型接头通过PCR引物退火制备得到。

进一步地，所述PCR的下游引物上还有酶切位点。

更具体地，所述Y型接头由引物A：GGGCTCACCTCAGGCTACGGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGCGATCGCTTCATTC(SEQ ID NO.3)和引物BPhos-GAATGAAGCGATCGCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCCCTGACGTAGGCTGACGGC(SEQ ID NO.4)混匀后通过退火制备得到。

根据本发明第三个方面的方法，包括以下步骤：

S01.构建标签文库；

S02.构建功能元件文库；

S03.构建索引标签文库。

进一步地，步骤S01中所述标签是一种具有约40个碱基的随机序列，

优选地，随机标签序列位于荧光示踪筛选基因TurboGFP下游，

更优选地，随机标签序列位于荧光示踪筛选基因TurboGFP与polyA之间，可在mRNA水平确定Barcode序列，从而间接确定其所对应的功能元件序列。

更具体地，步骤S01的具体操作为：

a.线性化所述载体，回收线性化载体骨架；

b.用携带随机标签序列及同源臂引物扩增载体骨架，获得带有随机标签序列的的PCR产物；

c.将PCR产物与回收的线性化载体骨架连接，构建得标签文库。

优选地，步骤a中通过单酶切线性化所述载体。

优选地，步骤b中所述引物的上游引物中含有所述随机标签序列。

优选地，步骤b中所述引物的上下游引物均含有酶切位点。由此扩增出来的PCR片段酶切后可以与酶切后的载体骨架连接。

优选地，步骤c中将连接产物转化大肠杆菌，用于储存。

在本发明的部分实施方式中，使用XbaI酶切骨架载体，所使用的引物为：F端引物：CACCAAGGAAGCCCTCGAGGACGCGTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGGATCCCGACCTACCGACCCAGCTTTC(SEQ ID NO.1)和R端引物AGGCGAAGACGCGGAAGAGG(SEQ ID NO.2)。

回收纯化PCR产物后使用Mlu I+Tfi I进行酶切纯化，得到嵌入标签Insert-Barcode片段；使用Mlu I+Tfi I酶切克隆骨架，回收4849bp片段作为载体骨架；随后将嵌入标签Insert-Barcode片段和文库骨架进行连接反应，并转化至大肠杆菌DH10B中，得到标签Barcode文库。

在本发明的部分实施例中，步骤S01的具体技术路线如下：利用特定的限制性内切酶切除骨架载体MCS和部分元件序列，回收骨架大片段，利用5’端携带随机标签Barcode序列及同源臂的引物PCR扩增骨架载体，获得带有Barcode的PCR产物；将该PCR产物与经酶切回收骨架载体进行Gibson克隆反应，构建标签文库，或记为Barcode文库。

此外，还可以通过高通量NGS测序验证标签Barcode文库的多样性。

进一步地，步骤S02利用所述Y型接头将随机打断的所述功能元件的序列整合入所述载体中。

更具体地，步骤S02的具体操作为：

d.将功能元件的核酸片段随机打断，得功能元件随机短片段；

e.将功能元件随机短片段与Y型接头连接，得含有Y型接头的功能元件随机长片段；

f.将含有Y型接头的功能元件随机长片段与步骤S01构建得到的标签文库进行连接，构建功能元件文库。

优选地，步骤d中将功能元件片段随机打断成小于100bp的片段。

更优选地，步骤d中将功能元件片段随机打断成约50bp的片段。

优选地，步骤d中将核酸片段随机打断后进行末端补平，形成不同大小的平末端短片段。

优选地，步骤d中所述功能元件的核酸片段为某一特定功能的多种功能元件的核酸片段。

优选地，步骤e中可以通过PCR增加含有Y型接头的功能元件随机长片段的产量，并且将含有Y型接头的功能元件随机长片段改构为双链DNA片段。纯化PCR产物后再与标签Barcode文库进行连接。

这一步骤中所使用的引物为：F2:CGGTGGGCTCTATGGTGAGACGCCAGCCGTGGGCTCACCTCAGGCTACGG(SEQ ID NO.5)；

R2:GTCTAGACCTCGAGGAGAGACGCCACGGCTGCCGTCAGCCTACGTCAGGG(SEQ ID NO.6)。

进一步地，步骤e中所述Y型接头通过PCR引物退火制备得到。

进一步地，所述PCR的下游引物上还有酶切位点。

在本发明的部分实施方式中，所述Y型接头由引物A：GGGCTCACCTCAGGCTACGGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGCGATCGCTTCATTC(SEQ ID NO.3)和引物B Phos-GAATGAAGCGATCGCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCCCTGACGTAGGCTGACGGC(SEQ ID NO.4)混匀后通过退火制备得到。

在本发明的部分实施方式中，步骤S02的具体技术路线如下：分别PCR扩增并回收数种具有相同组织特异性或具有特定或未知功能的功能元件；将数种功能元件用DNaseI消化成小于100bp的随机片段并进行末端补平，回收目的大小条带，如约50bp的小条带；加入经过退火反应的Y型adaptor与随机平末端短片段进行连接并进行PCR反应，得到结构为第一同源臂-第一index序列-AsiSI酶切位点-功能元件片段-AsiSI酶切位点-第二index序列-第二同源臂的克隆片段；克隆片段再次与预先酶切的Barcode文库进行连接，得到功能元件文库。第一index序列记为index1，第二index序列记为index2。

在本发明的部分实施方式中，具体使用Xcm I酶切步骤S01中得到的Barcode文库，回收4845bp片段作为文库骨架；将功能元件随机片段和文库骨架进行连接反应，并转化至大肠杆菌DH10B中，得到启动子文库。

进一步地，步骤S03的具体技术路线为：酶切步骤S02中构建的功能元件文库，去除随机序列嵌入位点，回收载体骨架并自连，构建得索引标签文库。

优选地，通过少量多次添加的方法，将酶切功能元件文库得到的片段加入到连接反应中，尽可能地使连接反应中发生的为分子内的连接反应，即使单个线性化片段自身环化连接；并将连接产物转化至大肠杆菌DH10B中，得到索引标签文库。

为了确定index1、index2和Barcode之间的一一对应关系，利用酶切功能元件文库，切去功能元件随机片段，回收骨架并自连，从而实现在一个高通量测序反应中同时对index1、index2和Barcode进行测序(高通量测序NGS的测序读长最大为1kb)，构建得索引标签文库，发明人将该文库命名为Marriage文库。

以Marriage文库质粒为模板，PCR扩增Marriage文库中的index1、index2以及Barcode序列进行高通量测序NGS测序，通过数据分析可以确定三者之间的对应关系。

本发明的第五个方面，提供本发明第三个方面所述方法在筛选功能元件方面的应用。

本发明的第六个方面，提供一种筛选功能元件的方法，包括文库构建的步骤，所述文库构建的方法本发明第三个方面所述的方法。

根据本发明第六个方面所述的方法，包括以下步骤：

S11.将本发明所述的方法构建得到的功能元件文库转染细胞或注射实验动物；

S12.通过报告基因表达情况选取细胞或组织提取mRNA，逆转录成cDNA；

S13.对所述标签进行测序，通过所述标签序列、第一index序列和第二index序列的对应关系筛选得到功能元件。

在本发明的部分实施方式中，首先将启动子文库转染特定的细胞或显微注射实验动物，如果是病毒载体，则需要包装成病毒颗粒再感染细胞或活体动物，然后观察TurboGFP荧光表达情况，选择荧光表达强度合适的细胞或组织提取mRNA，逆转录成cDNA并对所述标签Barcode进行测序，通过Marriage文库中index1、index2和Barcode的对应关系可得到相应的index1和index2具体序列，最后再以已知序列的index1和index2为引物，以功能元件文库为模板，PCR扩增出特定的功能元件，最终筛选得到具有优良性能(如片段较小，特异性高，启动能力强)的功能元件序列。

本发明的有益效果是：

现有的特定功能元件改组技术是基于蛋白改组中的体外同源重组而来，往往只能利用单一的功能元件作为起始的改组模板，所得到的文库多样性不足。本发明提供了一种文库高度多样性的文库构建方法，摒弃了蛋白改组中所采用的体外同源重组技术，通过引入Y型adaptor与DNaseI消化后小于100bp的随机片段连接，成功解决了具有相似特性的或具有特定或未知功能的功能元件无法进行有效重组的缺陷，该方法主要涉及三种文库的构建，分别为构建Barcode文库、功能元件文库以及Marriage文库，能够快速高通量实现启动子或增强子高度多样性的构建方法，该方法也可应用于其他功能元件的构建和筛选，为最终筛选得到具有优良性能的功能元件奠定了坚实的基础。

附图说明

图1 Y型接头示意图；

图2原始载体图谱(示例)；

图3构建标签Barcode文库的载体图谱；

图4构建启动子文库的载体图谱；

图5构建索引标签Marriage文库的载体图谱；

图6随机段片段和接头的比例用量；其中，泳道1加入的随机短片段和Y型adaptor比例为1：3；泳道2的比例为1：1；

图7小鼠视网膜下原位注射后视网膜切片荧光图，A图中较亮的红色荧光即代表视锥细胞的分布，B图则是整个文库在视网膜中的分布表达情况，C图是A图和B图的共染图，图C中黄橙色荧光标记的细胞即为可用于后续的启动子序列鉴定；

图8增强子测试表达载体；

图9增强子文库。

具体实施方式

以下结合具体的实施例及附图对本发明的内容作进一步详细的说明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。

下列实施例中未注明具体条件的实验方法，通常按照常规条件，例如Sambrook等人，分子克隆：实验室手册(New York:Cold Spring Harbor Laboratory Press，1989)中所述的条件，或按照制造厂商所建议的条件。实施例中所用到的各种常用化学试剂，均为市售产品。

实施例中选用AAV载体作为示例，质粒图谱如附图2所示。本领域一般技术人员应理解采用常规建库使用的载体均可实现本发明目的。如pUC18，pBR322载体等，可根据后续筛选的方法和应用场景选择不同的载体。

基因组功能元件(functional elements)指参与基因表达调控的元件，主要包括顺式作用元件(cis-acting element)和反式作用因子(trans-acting element)常见的包括：启动子(promoter)、增强子(enhancer)、沉默子(silencer)、调控序列(regulatoryregions and sequence)、可诱导元件(Inducible element)以及激活因子和阻遏因子(activator and repressor)等。

标签Barcode，为高通量测序过程的标签，区分不同的样本。

索引index，为为高通量测序过程中进一步区分含有相同标签Barcode的不同样本的索引。

实施例1

一种功能元件文库的构建方法，包括三种文库的构建，分别为构建Barcode文库、功能元件文库以及Marriage文库，具体包括以下步骤：

S01.构建标签(Barcode)文库：

(1)制备Insert-Barcode片段：

使用XbaI酶切原始载体(如图2所示)，回收4528bp片段作为PCR的模板扩增多克隆位点MCS+转录调控元件WPRE元件的部分序列；所使用的引物为：F1端引物：CACCAAGGAAGCCCTCGAGGACGCGTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGGATCCCGACCTACCGACCCAGCTTTC(SEQ ID NO.1)和R1端引物AGGCGAAGACGCGGAAGAGG(SEQ ID NO.2)进行扩增；

F端引物中的40个N碱基代表随机的测序标签Barcode序列。

回收纯化PCR产物后使用Mlu I+Tfi I进行酶切纯化，得到Insert-Barcode片段。

F端引物下划线处为Mlu I的酶切位点；Tfi I的酶切位点位于载体骨架的转录调控元件WPRE上，引物F和R的扩增产物上含有TfiI的酶切位点。

(2)制备线性化克隆骨架：使用Mlu I+Tfi I酶切克隆骨架，回收4849bp片段作为文库骨架。

(3)将Insert-Barcode片段和文库骨架进行连接反应(如图3所示)，得到Barcode文库，转化至大肠杆菌DH10B中，用以保存。

(4)扩增Barcode标签文库中的Barcode序列进行高通量NGS测序，通过数据分析确认文库的多样性高达1×10⁸。

S02.构建调控序列文库：

(1)随机打断某一类型的数种功能元件的核酸片段，得到功能元件随机片段；

使用DNase I对功能元件的核酸片段进行消化(不同长度的片段消化的条件和时间不同)，使启动子片段被随机剪切不同大小的短片段；

将1U的DNase I稀释25倍，按照如下体系消化片段，使启动子片段被随机剪切为50-100bp的短片段，并进行回收；

使用End Repair Module(E6050S)对短片段进行末端补平，形成不同大小的平末端短片段，纯化回收后得到功能元件随机短片段；

将引物F2：GGGCTCACCTCAGGCTACGGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGCGATCGCTTCATTC(SEQ ID NO.3)和引物R2 Phos-GAATGAAGCGATCGCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCCCTGACGTAGGCTGACGGC(SEQ ID NO.4)混匀后通过退火制备得到。混匀后通过退火形成Y型adaptor(含有AsiSI酶切位点)。

引物B下划线处为AsiSI的酶切位点。

将功能元件随机短片段和Y型adaptor按一定的比例混匀后进行连接反应，生成含Y型adaptor的功能元件长片段；

通过琼脂糖凝胶电泳、切胶、回收的方法对功能元件长片段进行筛选，将预期范围内的功能元件长片段进行回收纯化；

以回收的功能元件长片段为模板，通过PCR扩增的方法增加预期范围内的功能元件长片段的产量，以及将预期含Y型adaptor的功能元件长片段改构为双链DNA片段；回收纯化PCR产物，得到最终的功能元件随机片段片段。

PCR的引物序列为：F2:CGGTGGGCTCTATGGTGAGACGCCAGCCGTGGGCTCACCTCAGGCTACGG(SEQ ID NO.5)；

R2:GTCTAGACCTCGAGGAGAGACGCCACGGCTGCCGTCAGCCTACGTCAGGG(SEQ ID NO.6)。

(2)制备线性化载体骨架：使用Xcm I酶切S01中得到的Barcode文库，去除Stuffer序列，回收4845bp片段作为文库骨架；

(3)将s功能元件随机片段和载体骨架进行连接反应，得到启动子文库(如图4所示)，转化至大肠杆菌DH10B中，用以保存。

S03.构建索引标签Marriage文库

(1)线性化：使用AsiS I酶切S02中得到的调控序列文库，回收4954bp含相同粘性末端的线性化片段；

(2)连接及转化：通过少量多次添加的方法将上一步中得到的片段加入到连接反应中，尽可能地使连接反应中发生的为分子内的连接反应，即使单个线性化片段自身环化连接；并将连接产物转化至大肠杆菌DH10B中，得到索引标签Marriage文库(如图5所示)，转化至大肠杆菌DH10B中，用以保存。

以Marriage文库质粒为模板，PCR扩增索引标签Marriage文库中的index1、index2以及Barcode序列进行高通量测序，通过数据分析确定三者之间的对应关系。

实施例2

为了得到一种高度特异性靶向视锥细胞且能高效表达目的基因的启动子，发明人选择了四种感光细胞特异性的启动子hRO、hRK、mCAR和ProA1为原材料进行DNA改组，这四种启动子强度差异是hRO≈hRK>mCAR>ProA1。其中ProA1启动子是一个仅在视锥细胞中特异表达的启动子，但其全长约为2kb，显然并不适用于AAV载体。hRK启动子全长仅有约500bp，可同时在视锥细胞和视杆细胞中表达，但其特异性未达到预期要求。hRO和mCAR启动子仅在视杆细胞中表达，同样不符合预期。因此，发明人利用这四种启动子进行DNA随机重组，选取大小约为500bp的随机重组片段克隆到AAV载体上形成启动子文库，然后将获得的具有高度多样性的启动子文库包装成8型AAV，同时，以对照病毒作为视锥细胞靶向性的参照，动物水平进行视网膜下原位注射，通过观察TurboGFP(绿色报告基因)和Tdtomato(红色报告基因)荧光表达情况筛选出具有优良特性的随机重组启动子，具体实验步骤如下：

S01.构建Barcode标签文库：

1.1制备Insert-barcode片段：

1.1.1使用XbaI酶切克隆骨架，回收4528bp片段作为PCR的模板扩增MCS+WPRE元件的部分序列；使用F1端引物：CACCAAGGAAGCCCTCGAGGACGCGTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGGATCCCGACCTACCGACCCAGCTTTC(SEQ ID NO.1)和R1端引物AGGCGAAGACGCGGAAGAGG(SEQ ID NO.2)进行扩增；

1.1.2回收纯化PCR产物后使用Mlu I+Tfi I进行酶切纯化，得到Insert-Barcode片段；

1.2制备线性化克隆骨架：使用Mlu I+Tfi I酶切克隆骨架，回收4849bp片段作为文库骨架；

1.3将Insert-Barcode片段和文库骨架进行连接反应，并转化至大肠杆菌DH10B中，得到Barcode文库；

1.4扩增Barcode标签文库中的Barcode序列进行NGS测序，通过数据分析确认文库的多样性高达1×10⁸。

S02.构建启动子文库：

2.1制备随机重组启动子片段：

2.1.1分别通过PCR扩增hRO、hRK、mCAR和ProA1启动子片段；

2.1.2使用DNase I对启动子片段进行消化将1U的DNase I稀释25倍，按照如下体系消化片段，使启动子片段被随机剪切为50-100bp的短片段，并进行回收；；

2.1.3使用End Repair Module(E6050S)对上述片段进行末端补平，形成50-100bp大小的平末端短片段，纯化回收后得到启动子随机短片段；

2.1.4将引物F2：GGGCTCACCTCAGGCTACGGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGCGATCGCTTCATTC(SEQ ID NO.3)和引物R2：Phos-GAATGAAGCGATCGCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCCCTGACGTAGGCTGACGGC(SEQ ID NO.4)混匀后通过退火形成Y型adaptor(含有AsiSI酶切位点)；

2.1.5将启动子随机短片段和Y型adaptor分别按1：1和1：3的比例混匀后进行连接反应，生成含Y型adaptor的启动子长片段大小趋势明显；如图6所示随着接头加入量的增多，获得的片段长度越短；

2.1.6将连接产物进行琼脂糖电泳，对500bp的启动子长片段进行切胶回收纯化；

2.1.7以上一步产物为模板，通过PCR扩增的方法增加500bp启动子长片段的产量，以及将预期含Y型adaptor的启动子长片段改构为双链DNA片段；

引物序列为：F2:CGGTGGGCTCTATGGTGAGACGCCAGCCGTGGGCTCACCTCAGGCTACGG(SEQID NO.5)；

R2:GTCTAGACCTCGAGGAGAGACGCCACGGCTGCCGTCAGCCTACGTCAGGG(SEQ ID NO.6)。

2.1.8回收纯化上一步的PCR产物，得到最终的shuffling promoter片段。

2.2制备线性化克隆骨架：使用Xcm I酶切第一步中得到的Barcode标签文库，回收4845bp片段作为文库骨架；

2.3将随机重组启动子片段和文库骨架进行连接反应，并转化至大肠杆菌DH10B中，得到启动子文库；

S03.构建索引标签Marriage文库：

3.1线性化：使用AsiS I酶切第二步中得到的启动子文库，回收4954bp含相同粘性末端的线性化片段；

3.2连接及转化：通过少量多次添加的方法将上一步中得到的片段加入到连接反应中，尽可能地使连接反应中发生的为分子内的连接反应，即使单个线性化片段自身环化连接；并将连接产物转化至大肠杆菌DH10B中，得到索引标签Marriage文库；

3.3以Marriage文库质粒为模板，PCR扩增索引标签Marriage文库中的index1、index2以及Barcode序列进行NGS测序，通过数据分析确定三者之间的对应关系。通过序列分析确定该文库的多样性达到8.5×10⁶。

本实施例还提供一种筛选功能元件的方法，包括以下步骤：

S11.将步骤S02构建得到的功能元件文库转染细胞或注射实验动物；

S13.对标签Barcode进行测序，通过标签Barcode序列、第一index序列和第二index序列的对应关系筛选得到功能元件。

具体来说，以在动物水平筛选具有优良特性的启动子为例：

4.1将上述得到的启动子文库以及对照ProA1-Tdtomato包装成8型AAV病毒；

4.2将上述病毒混合后进行小鼠眼球的视网膜下原位注射；

4.3两周后摘取眼球进行冷冻切片并拍照观察荧光表达情况；

4.4收集感光细胞并进行流式筛选，分选出具有较高荧光强度的细胞，结果见附图6；

4.5对分选出来的荧光表达较强的细胞提取RNA；

4.6以RNA为模板逆转录成cDNA，PCR扩增出包含Barcode的序列进行NGS测序，通过Marriage文库的数据分析结果，得到index1和index2的具体序列；

4.7以得到的index1和index2序列为引物，以启动子文库为模板，PCR扩增出相应的启动子片段；

4.8通过Sanger测序得到候选启动子的具体序列。

附图6中为将文库病毒与对照ProA1-Tdtomato病毒预混后进行小鼠视网膜下原位注射所得到的荧光图片。由于ProA1启动子仅特异性靶向视锥细胞中，因此A图中较亮的红色荧光即代表视锥细胞的分布，B图则是整个文库在视网膜中的分布表达情况，C图是A图和B图的共染图，图C中黄橙色荧光标记的细胞即为可用于后续的启动子序列鉴定。

综上所述，说明本发明提供的文库构建方法可以达到文库高度多样性的效果，成功解决了具有相似特性的或具有特定或未知功能的功能元件无法进行有效重组的缺陷，能够快速高通量实现启动子、增强子或其他功能元件高度多样性的构建方法，并且可以由此筛选出具有优良性能(如片段较小，特异性高，启动能力强)的功能元件序列。

实施例3

选取CMV_en、HBB_en和SV40_en增强子为原材料进行DNA改组，这3个增强子都可以对基因起到调控作用，其中CMV_en增强子的大小为300bp，HBB_增强子大小为3kb,SV40_en增强子大小为237bp。为了获得一个全新的更短的且有正调控作用的HBB增强子，我们利用这3种增强子进行随机重组，选取大小约为800bp-1k的随机重组片段克隆到含有SCP1_mini启动子的哺乳动物增强子测试表达载体(图8)上形成增强子文库，然后将获得的增强子文库瞬转K562细胞，通过流式分选的方式筛选出不同荧光强度的细胞，进一步筛选出符合目的的随机重组增强子。

1.构建Barcode标签文库：

1.1.1使用ScaI酶切克隆骨架，回收3974bp片段作为PCR的模板扩增MCS+SV40元件的部分序列；使用F3端引物(GAAGCCCTCGAGGACGCGTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNAAAGGTACCAAAGGATCCCGAC)和R3端引物TGGAGCGAACGACCTACACCGA进行扩增；

1.1.2回收纯化PCR产物后使用Mlu I+Drd I进行酶切纯化，得到Insert-barcode片段；

1.2制备线性化克隆骨架：使用Mlu I+Drd I酶切克隆骨架，回收3953bp片段作为文库骨架；

1.4扩增Barcode标签文库中的Barcode序列进行NGS测序，通过数据分析确认文库的多样性。

2.构建索引标签Marriage文库：

2.1制备线性化克隆骨架：使用BsmBI酶切第一步中得到的Barcode标签文库，回收3404bp片段作为文库骨架；

2.2 Index1+MCS+Index2片段的制备：将引物F4(TGGGGATGCGGTGGGCTCTATGGNNNNNNNNNNNNNNNNNNNNNNNNNCCCAGACCGACTCGGACCACCCAGCCGTGAACTGGAAAGCTTACCACAAGAGCCG)和引物R4(TTATATAAGTACCCTCGAGGNNNNNNNNNNNNNNNNNNNNNNNNNGGGACAGGCAGTGCCAGGAGCCACGGCTCTTGTGGTAAGCTTTCCAGTTCACGGC)退火延伸形成171bp的双链Index1+MCS+Index2片段；

2.3使用Index1+MCS+Index2片段与文库骨架进行Gibon连接，并将连接产物转化至大肠杆菌DH10B中，得到Marriage索引标签文库；

2.4以Marriage索引标签文库质粒为模板，PCR扩增索引标签Marriage文库中的Index1、Index2以及Barcode序列进行NGS测序，通过数据分析确定三者之间的对应关系。

3.构建增强子文库：

3.1制备随机重组增强子片段：

3.2分别通过PCR扩增CMV_en、HBB_en和SV40_en增强子片段；

3.3使用Covaris超声破碎根据操作说明书对启动子片段进行破碎，使增强子片段被随机剪切为150bp-550bp的短片段，并进行回收；

3.4使用End Repair Module(E6050S)对上述片段进行末端补平；

3.5将引物F5(gactcggaccacccagccgtnnnnnnnnnnnnnnnnnnnnnnnnnnnnnngcgatcgcttcattc)和引物r5(phos-gaatgaagcgatcgcnnnn nnnnnnnnnnnnnnnnnnnnnnnnnnacggctgggtggtccgagtc)混匀后通过退火获得小片段左连接接头；将引物f6(phos-cctaggcgcaccaaggaagccnnnnnnnnnnnnnnnnnnnnnnnnnnnnnncctcgagggtacttatataa)和引物r6(ttatataagtaccctcgaggnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnggcttccttggtgcgcctagg)混匀后通过退火获得小片段右连接接头；

3.6将增强子随机短片段和两种连接接头1：1混匀后进行连接反应，生成增强子长片段；

3.7将连接产物进行琼脂糖电泳，对800bp-1kb左右大小的增强子重组片段进行切胶回收纯化，得到最终的随机重组增强子片段。

3.8制备线性化克隆骨架：使用XcmI酶切Marriage索引标签文库，回收3404bp片段作为文库骨架；

3.9将随机重组增强子片段和文库骨架进行Gibson重组连接反应，并转化至大肠杆菌DH10B中，得到增强子文库，如图9所示；

3.10将获得的增强子文库瞬转K562细胞，通过流式分选的方式筛选出不同荧光强度的细胞，提取目的细胞RNA，并以RNA为模板逆转录成cDNA，PCR扩增出包含Barcode的序列进行NGS测序，获得具体的Barcode序列，通过Marriage索引标签文库的数据分析结果，得到index1和index2的具体序列；

3.11以得到的index1和index2序列为引物，以增强子文库为模板，PCR扩增出相应的增强子片段；

3.12通过Sanger序列即可得到候选增强子的具体序列。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

序列表

<110> 云舟生物科技（广州）有限公司

<120> 一种筛选调控序列的载体体系和应用

<130> MP21030223F

<160> 14

<170> SIPOSequenceListing 1.0

<210> 1

<211> 93

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (27)..(66)

<223> n为a、c、g或t

<400> 1

caccaaggaa gccctcgagg acgcgtnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 60

nnnnnnggat cccgacctac cgacccagct ttc 93

<210> 2

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

aggcgaagac gcggaagagg 20

<210> 3

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (21)..(50)

<223> n为a、c、g或t

<400> 3

gggctcacct caggctacgg nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn gcgatcgctt 60

cattc 65

<210> 4

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (16)..(45)

<223> n为a、c、g或t

<400> 4

gaatgaagcg atcgcnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnccctg acgtaggctg 60

acggc 65

<210> 5

<211> 50

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

cggtgggctc tatggtgaga cgccagccgt gggctcacct caggctacgg 50

<210> 6

<211> 50

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

gtctagacct cgaggagaga cgccacggct gccgtcagcc tacgtcaggg 50

<210> 7

<211> 81

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (19)..(59)

<223> n为a、t、c或g

<400> 7

gaagccctcg aggacgcgtn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnna 60

aaggtaccaa aggatcccga c 81

<210> 8

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 8

tggagcgaac gacctacacc ga 22

<210> 9

<211> 103

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (24)..(48)

<223> n为a、t、c或g

<400> 9

tggggatgcg gtgggctcta tggnnnnnnn nnnnnnnnnn nnnnnnnncc cagaccgact 60

cggaccaccc agccgtgaac tggaaagctt accacaagag ccg 103

<210> 10

<211> 100

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (21)..(45)

<223> n为a、t、c或g

<400> 10

ttatataagt accctcgagg nnnnnnnnnn nnnnnnnnnn nnnnngggac aggcagtgcc 60

aggagccacg gctcttgtgg taagctttcc agttcacggc 100

<210> 11

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (21)..(50)

<223> n为a、t、c或g

<400> 11

gactcggacc acccagccgt nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn gcgatcgctt 60

cattc 65

<210> 12

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (16)..(45)

<223> n为a、t、c或g

<400> 12

gaatgaagcg atcgcnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnacggc tgggtggtcc 60

gagtc 65

<210> 13

<211> 71

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (22)..(51)

<223> n为a、t、c或g

<400> 13

cctaggcgca ccaaggaagc cnnnnnnnnn nnnnnnnnnn nnnnnnnnnn ncctcgaggg 60

tacttatata a 71

<210> 14

<211> 70

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (21)..(60)

<223> n为a、t、c或g

<400> 14

ttatataagt accctcgagg nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn ggcttccttg 60

gtgcgcctag 70

Claims

1.质粒载体，其包括：索引标签、报告基因和条码标签；

所述条码标签为长度为5~200bp的随机片段；

所述索引标签包括index1和index2，其独立的选自长度为5~100bp的随机片段；所述index1和index2之间还包括酶切位点和随机重组调控序列，所述酶切位点位于所述随机重组调控序列的两端；

所述随机重组调控序列为经酶消化或超声破碎后的启动子片段或酶消化后或超声破碎的增强子片段；

2.根据权利要求1所述的质粒载体，其特征在于，所述条码标签为长度为40bp的随机片段；其中index1为长度为30bp的随机片段，index2为长度为30bp的随机片段，所述报告基因选自荧光蛋白、荧光素酶、LacZ基因或能起到筛选作用的抗性基因中的至少一种，所述抗性基因包括嘌呤霉素抗性基因。

3.根据权利要求2所述的质粒载体，其特征在于，依次包括如下元件：pUC ori、5’ITR、BGH pA、index1、index2、报告基因、条码标签、WPRE、BGH pA、3’ITR和抗性筛选标记。

4.根据权利要求1所述的质粒载体，其特征在于，所述酶切位点的数量为2，所述酶切位点为AsiSI。

5.根据权利要求1所述的质粒载体，其特征在于，所述酶消化的酶为DnaseI；所述启动子选自hRO、hRK、mCAR或ProA1；所述增强子选自CMV_en、HBB_en或SV40_en。

6.根据权利要求1~5任一项所述的质粒载体，其特征在于，

依次包括如下元件：pUC ori、5’ITR、BGH pA、index1、AsiSI酶切位点、index2、Kozak、TurboGFP基因、条码标签、WPRE、BGH pA、3’ITR和Amp抗性筛选标记；其中，条码标签为长度为40bp的随机片段，所述index1为长度为30bp的随机片段，所述index2为长度为30bp的随机片段；

应用于调控序列的筛选，则所述质粒载体依次包括如下元件：pUC ori、5’ITR、BGH pA、index1、AsiSI酶切位点、随机重组调控序列、AsiSI酶切位点、index2、Kozak、TurboGFP基因、条码标签、WPRE、BGH pA、3’ITR和Amp抗性筛选标记；其中，随机重组调控序列的长度为50~2000bp，为经DnaseI酶消化后的启动子片段或酶消化后的增强子片段，条码标签为长度为40bp的随机片段，所述index1为长度为30bp的随机片段，所述index2为长度为30bp的随机片段。

7.权利要求1~6任一项所示质粒载体的构建方法，其特征在于，将条码标签、索引标签和随机重组调控序列插入含有报告基因的骨架载体。

8.根据权利要求7所述的构建方法，其特征在于，所述条码标签的插入为：

制备携带有骨架载体同源臂的条码标签，使其与线性化骨架载体经Gibson克隆反应，构建获得标签文库。

9.根据权利要求7所述的构建方法，其特征在于，所述索引标签和随机重组调控序列的插入包括：

制备随机重组调控序列，然后在其两端添加骨架载体的同源臂和索引标签，获得插入片段；

将权利要求8所述构建方法制得的标签文库线性化；

将所述插入片段与线性化的标签文库连接，获得调控序列文库。

10.根据权利要求9所述的构建方法，其特征在于，所述随机重组调控序列的制备方法包括，以DnaseI酶对启动子或增强子进行消化。

11.根据权利要求9或10所述的构建方法，其特征在于，所述插入片段的制备具体包括：

将对含有Y型接头的功能元件随机长片段经PCR获得线性片段，

12.权利要求1~6任一项所述质粒载体的构建方法，其特征在于，将权利要求9~11所述构建方法构建获得的调控序列文库经酶切去除随机重组调控序列，获得索引标签文库。