CN112725331B

CN112725331B - 一种高通量突变体文库的构建方法

Info

Publication number: CN112725331B
Application number: CN202110098177.XA
Authority: CN
Inventors: 王跃强; 陈树清; 安磊; 许红恩; 吴光耀
Original assignee: Shenzhen Fengfeng Life Technology Co ltd
Current assignee: Wei Guopeng
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-07-20
Anticipated expiration: 2041-01-25
Also published as: CN112725331A

Abstract

本发明属于生物工程技术领域，具体涉及一种通用的高通量突变体文库的构建方法。本发明提供的突变体文库构建技术，使用双重密码子编码技术设计批量合成长片段引物作为突变体模板，通过高效克隆技术将突变体片段连接入承接载体，随后在载体公共区域添加标签序列制成。本发明提供的突变体文库构建方法具有技术简单、可靠性高及综合成本低等优势，可用于对酶、抗体等重要功能蛋白实施定向进化，也可用于对癌症、遗传病、代谢病及药物基因组等领域基因的突变体的生物学意义进行研究。

Description

一种高通量突变体文库的构建方法

技术领域

本发明属于生物工程技术领域，具体涉及一种高通量突变体文库的构建方法。

背景技术

基因组学研究遇到突变体注释的瓶颈问题：基因测序技术蓬勃发展使得测序成本不断下降，海量的基因测序数据被生产出来。在群体中不同个体的基因组序列在主体一致的前提下，每个个体又有大量的变异位点。此外，人类癌症的发生发展的过程中，会有许多后天的继发性变异产生。DNA变异对基因功能乃至个体健康的影响可能多种多样，因而对于基因组中变异的功能影响的研究变得十分关键。过去，由于缺乏高效、低成本的高通量突变体功能研究技术手段，对基因组中海量变异进行高通量研究困难重重，这是限制基因测序技术商业化应用的核心瓶颈难题。

深度突变体功能扫描技术推动解决基因行业瓶颈难题：深度突变体功能扫描(Deep Mutational Scanning,DMS)技术可以高效、低成本地对基因组中突变体进行系统性研究。这一方法依赖于一个人工合成的突变体文库，用以模拟天然存在的突变体。而后通过特定的功能筛选方法(Functional Assay)将不同突变体按照功能类别进行区分。DMS技术的核心包括三部分，分别是：突变体文库的构建，恰当的功能筛选Assay，高通量测序及生物信息分析。突变体文库的构建是进行高通量功能研究的关键前提条件。

当前突变体文库构建技术的缺点：当前突变体文库构建方法主要有：(1)Error-prone PCR法，即为利用非高保真DNA聚合酶在PCR扩增过程中随机引入变异。(2)利用定点突变法构建文库，即为利用大量定点突变引物通过PCR方法系统地构建突变体文库。(3)利用简并引物构建突变体文库，即为针对较小区段，采用简并引物随机组合的方式构建突变体文库。(4)利用基因编辑技术在基因组原位构建突变体文库，即为利用基因编辑技术以随机修复方式或定点同源重组方式在基因组原位位置构建突变体文库。目前已有的突变体文库构建方法有诸多局限，主要体现在以下几个方面：(1)Error-prone PCR法、简并引物法和基因编辑技术构建突变体文库时，无法精确控制文库突变体的突变类型，突变体文库中存在大量非目标突变体。(2)定点突变法构建突变体文库虽然优于前三者，但基于PCR的方法在扩增过程中可能掺入错误碱基造成额外突变的产生。(3)无标签或缺乏高效标签与突变体关联的方法。文库构建需要考虑加标签序列的问题：当突变体区段覆盖范围较大时(大于高通量测序序列读长)，直接扩增突变体区段检测变异位点则会变得繁琐而成本高昂。

发明内容

针对现有技术存在的缺陷，本发明提供了一种新的、具有普遍适用性的高通量突变体文库的构建方法，本发明针对性地解决了上述技术方法的不足。本发明提供的突变体文库构建方法具有技术简单、可靠性高及综合成本低等优势，可用于对重要基因、功能蛋白实施定向进化研究，也可用于癌症、代谢病、遗传病、药物基因组学等领域关键基因突变体生物学意义解读研究。

为了达到上述目的，本发明采用的技术方案为：

一种高通量突变体文库的构建方法，包括如下步骤：

S1、构建突变体承接载体；

S2、将突变体序列插入到承接载体中，制得突变体文库；

S3、将标签序列插入到步骤S2所得含突变体序列的文库载体上，制得含标签序列与突变体序列的突变体文库；

S4、利用优化的Inverse PCR方法扩增获得突变体-标签序列相连的DNA片段；

S5、利用高通量测序确定突变体与标签序列的对应关系，同时可以确定突变体文库的覆盖度与均一性。

步骤S1所述的承接载体包括但不限于如下类型：噬菌体展示载体、原核表达载体、酵母表达载体、哺乳动物细胞表达载体、病毒表达载体等。构建的承接载体预留无缝克隆的限制性内切酶酶切位点，通常为两个方向相反的二型限制性内切酶位点，如BsmB-I，Bsa-I，Bbs-I等。酶切后可将载体线性化，同时不带入额外序列。承接载体需要预留额外的酶切位点，用于接入标签序列。

步骤S2所述的突变体序列即为长片段DNA模板，包括但不限于引物池(OligoPools)DNA、简并引物(Degenerate primers)DNA等。突变体序列的5’和3’末端分别包含长度大于15个核苷酸的无变异序列，中间部分为变异区间。单一区段的DNA模板5’和3’末端的序列主要用于PCR扩增及后续克隆使用，中间部分的变异区间可以单个或多个位点变异，所述变异类型包含但不局限于碱基替换(Substitution)、删除(Deletion)及插入(Insertion)，移码变异(Frame-shift)和提前翻译终止(Stop-gain)等。

在上述方法的一些实施方案中，当目标基因长度较大(大于210bp，超过70个氨基酸)时，各段长片段DNA模板存在重叠区。通过密码子优化设计，使长片段DNA模板的5’和3’末端的非变异序列序列，使用一套密码子进行编码；中间的变异区使用另外一套密码子进行编码。设计时，应保证重叠区域的DNA片段所分别采用的两套密码子编码的序列有最大的差异度。双重密码子编码的设计，使得同一基因片段的混合合成的DNA序列不必分开合成，从而节约成本。

突变体序列通过聚合酶链式反应(PCR)扩增的方法，包含但不限于：常规PCR扩增，常规油包水PCR扩增(Emulsion PCR)，数字PCR扩增(Digital PCR)以及其他基于微流控液滴生成系统的PCR扩增等。

突变体接入到承接载体的方法有多种，包括但不限于如下方法：(1)通过体外同源重组试剂(如Gibson组装试剂)将突变体片段接入，(2)使用限制性内切酶酶切和DNA连接酶连接方法将将突变体片段接入。

优选地，步骤S3所述的标签序列可以由一段包含多种序列的DNA构成，也可以由多段包含多种序列的DNA拼接构成。标签序列通常由简并引物经过PCR扩增获得，简并引物应有足够多的排列组合。

标签序列可以置于载体上任何可行的区域：(1)通过预留的酶切位点将S2所述突变体文库载体线性化，(2)通过克隆方法将标签序列接入到上述线性化片段中。

步骤S4所述的优化的Inverse PCR方法主要包括以下步骤：

(1)设计第一组引物，在引物中预先添加相同的限制性内切酶位点，通过PCR将包含突变体和标签序列的区域克隆扩增，扩增序列的一端为突变体序列，另一端为标签序列；

(2)使用预先设计的限制性内切酶切割上述的PCR扩增片段，并使用连接酶使片段自连环化；此时，突变体序列一端与标签序列一端经由设计的酶切位点连接；

(3)设计第二组引物，通过PCR将仅含突变体序列和标签序列的区域扩增。

步骤S5所述高通量测序确定突变体与标签序列的对应关系是指：一种突变体可以与多种标签序列相关联，即为突变体与标签序列的对应关系为一对多。待高通量测序确定突变体与标签序列的对应关系以后，可以计算检测到的突变体的数据占设计突变体总数的比例，即为突变体文库的覆盖度。同时，统计各种突变体总和reads数目(不区分标签序列)，即可确定突变体文库中各种突变体的均一性。

本发明还提供了一种利用所述构建方法制得的高通量突变体文库在基因或蛋白定向进化分析中的应用。此处的蛋白定向进化，包括但不限于：酶蛋白、抗体蛋白、其他功能性蛋白等。

本发明还提供了一种利用所述构建方法制得的高通量突变体文库在癌症基因、代谢病基因、遗传病基因及药物基因组学基因突变体功能研究中的应用。

与现有技术相比，本发明提供的高通量突变体文库的构建方法具有如下优势：

(1)使用单片段组装方法构建突变体文库，极大提升了文库构建过程的可靠性和成功率，同时由于简化了生化反应体系片段复杂度，提升了克隆构建效率，极大降低了非预期突变体的产生，同时预先构建的载体经过测序验证，可以确保除突变体插入片段设计的变异外，载体不存在额外变异；

(2)标签序列可以灵活安置在载体的恰当区段，这使得克隆构建具有更多灵活性，同时便于通过各种类型元件肽段或者其他方式构建具有融合功能的蛋白；

(3)使用多段简并引物组合作为标签序列，相比于既有的单段标签序列而言，可以通过简单的排列组合构造出多种多样完全不重复的标签序列，效率高成本低；

(4)采用后关联法将突变体与标签序列关联，使用Inverse PCR法提取的突变体-标签序列关联片段长度较小且均一性好，可以混合进行高通量测序，操作简便成本低、关联效率高。

附图说明

图1为文库承接载体结构示意图；

图2为突变体片段接入承接载体的示意图；

图3双重密码子编码技术方法示意图；

图4为一段式和两段式Tag标签序列示意图；

图5为Inverse PCR提取突变体区域和标签序列区域的示意图；

图6为EGFR突变体文库中突变体高通量测序检测结果；

具体实施方式

下面结合具体实施例对本发明作进一步解释，但是应当注意的是，以下实施例仅用以解释本发明，而不能用来限制本发明，所有与本发明相同或相近的技术方案均在本发明的保护范围之内。若未特别指明，实施例中所用的技术手段为本领域技术人员所熟知的常规手段，所用原料为市售商品。

现以EGFR基因18-21号外显子突变体文库为例，解释说明本发明的技术方案；

实施例EGFR基因高通量突变体文库的构建

EGFR基因是细胞表面信号转导关键蛋白因子，亚裔、非吸烟人群非小细胞肺癌患者中EGFR有高频变异，且变异主要集中于EGFR的18～21号外显子，该区段共有188个氨基酸。为了研究相关突变体对靶向药物的敏感性，因此构建覆盖18～21号外显子的突变体文库。构建的突变体文库满足以下几个特征：a，载体为慢病毒载体，用于感染细胞构建稳转细胞系；b，抗性基因选择抗稻瘟菌素，连接方式选择“P2A”多肽连接，与EGFR形成融合蛋白；c，突变体序列使用引物池DNA为模板。

所述高通量突变体文库的构建方法为：

S1、构建突变体承接载体：

对野生型EGFR基因序列进行密码子优化(网页工具连接为：https://www.novoprolabs.com/tools/codon-optimization)设计，使优化后的序列与野生型序列相似度尽可能低，除去不必要的限制性内切酶位点。在EGFR基因中插入片段(突变体序列)前添加线性化酶切位点“GAGACG”，在EGFR基因中插入片段(突变体序列)后添加线性化酶切位点“CGTCTC”。在EGFR基因上游添加EGFP表达模块和EF1α启动子，分别用于后续病毒滴度测定和启动EGFR突变体的表达。在EGFR基因下游依次添加如下元件：P2A-Puro抗稻瘟菌素抗性基因。EGFR与抗稻瘟菌素抗性基因形成融合基因，由P2A元件(GSGEGRGSLLTCGDVEENPGP(SEQ ID NO.1))连接。相关DNA序列设计完毕后，向南京金斯瑞公司订购全基因合成的序列。以pLenti-CMV-GFP慢病毒载体为基础，使用Kpn-I和EcoR-V克隆位点，通过双酶切-连接将合成的DNA片段亚克隆到慢病毒载体中。

本发明所设计的承接载体以框架载体为基础改造而来。EGFR基因的18～21号外显子区域，共计含有188个氨基酸。文库构建时，分为6个子文库单独进行构建，每个子文库单独对应一个承接载体，承接载体包含一个串联的双BsmB-I酶切位点。至此，可得到图1及图2所示的框架载体。

S2、将突变体序列插入到承接载体中，得含突变体序列的承接载体文库：

本发明所设计的引物池序列(突变体序列)长度均为150个碱基，中间为变异区域，外侧为同源臂区域。引物池为突变体序列(单链DNA)的混合物，包含6组突变体序列，分别与6个承接载体对应。6个突变体子文库的氨基酸序列(以其中一条为例)及其对应的核苷酸编码序列(以其中一条为例)如下文所示：其中，单下划线部分为变异区间，双下划线为具体变异位点，两端为非变异区间。以此为基础，6对特异性引物用于分别扩增6组突变体片段，分别与6个承接载体对应(图2)。引物池引物设计遵循双重密码子设计方法(图3)。此时，使用混合模板做PCR扩增时，可以有效防止反应体系相关片段互相干扰。将相关引物设计完毕后，向苏州金唯智公司采购相关引物池。获得引物池后，使用TE缓冲液将引物池引物溶解稀释，稀释后浓度为1.0ng/μL。使用NEB公司Q5高保真DNA聚合酶(NEB,M0491L)将相关片段扩增以备用，其中dNTP购自于NEB公司货号为N0447S。PCR反应体系如下表1所述。

S1氨基酸序列：

S2氨基酸序列：

S3氨基酸序列：

S4氨基酸序列：

S5氨基酸序列：

S6氨基酸序列：

S1核苷酸序列：

S2核苷酸序列：

S3核苷酸序列：

S4核苷酸序列：

S5核苷酸序列：

S6核苷酸序列：

表1引物池序列片段扩增PCR反应体系

6组片段引物序列如下：

S1_F：GCGGAAAAGAACACTGCGCAGGCTGCTGCAAGAAAGGGAA(SEQ ID NO.14)；

S1_R：TCCACAGCCCTTTGTAAACCGTACCAAAAGCACCAGACCC(SEQ ID NO.15)；

S2_F：AATTTTGAAGGAGACCGAGTTTAAGAAGATAAAGGTGCTG(SEQ ID NO.16)；

S2_R：CCTCATCCAGTATCTCTTTATTAGCCTTGGGTGACGTAGC(SEQ ID NO.17)；

S3_F：AAAAGTCAAAATCCCTGTGGCAATCAAAGAGCTGCGGGAG(SEQ ID NO.18)；

S3_R：GCATCAGTTGAGTGATGAGCTGCACGGTGGACGTGAGGCA(SEQ ID NO.19)；

S4_F：CAGTGTAGATAACCCACACGTTTGCAGGCTGCTCGGCATC(SEQ ID NO.20)；

S4_R：TGCCCTTAGCTATCTGAACGCACCAGTTCAGCAGATACTG(SEQ ID NO.21)；

S5_F：GTTGGACTATGTCAGAGAACACAAGGACAACATTGGTTCA(SEQ ID NO.22)；

S5_R：CAAAATCAGTAATTTTTACGTGCTGAGGTGTCTTTACCAA(SEQ ID NO.23)；

S6_F：TAGAAGACTCGTGCACAGAGACCTGGCTGCCCGGAACGTG(SEQ ID NO.24)；

S6_R：TATGGAGAATGCTTTCGAGAGCCATCCATTTAATAGGCAC(SEQ ID NO.25)；

PCR反应条件为：95℃，3分钟；(95℃，20秒；55℃，20秒；72℃，30秒)，35个循环；72℃，延伸5分钟；12℃保存。

使用天根公司质粒大提试剂盒大量抽提承接载体质粒。文库构建前，先使用BsmB-I限制性内切酶(NEB,R0580L)将承接载体线性化。反应体系中应加入额外DTT(ThermoFisher，P2325)，反应体系如下表2所示。

表2承接载体线性化体系配制

载体	10×反应缓冲液	BsmB-I内切酶(10U/μL)	DTT(50mM)	去离子水
					4μg	5μL	2μL	1μL	补至50μL

反应条件为：37℃，消化3小时。使用天根DNA纯化试剂盒纯化酶切产物。

将制备好的线性化承接载体与上述突变体文库插入片段进行同源重组连接，具体反应体系如下表3所示。

表3线性化承接载体与突变体文库插入片段连接体系配制

反应条件为：50℃，孵育1小时。孵育结束后，立即将反应体系放于冰上5分钟，而后进行转化。转化前先将转化产物纯化，而后使用电转感受态细胞进行电激转化。转化完毕后，将相关菌液稀释，取1/1000和1/10000体积的菌液涂板，第二天鉴定转化克隆数量。余下的菌液接种到200mL新鲜配置含有氨苄青霉素(100μg/mL)的LB液体培养基中培养过夜，第二天进行质粒大量抽提，所提取的质粒即为目标突变体子文库。由于突变体文库包含多个子文库，因此，可将多个子文库按照相同质量进行混合，即可得到完整的突变体文库。

S3、将标签序列插入到步骤S2所得含突变体序列的文库，得含标签序列与突变体序列的文库；

本发明所使用的承接载体在抗稻瘟菌素抗生素筛选基因下游存在唯一的EcoR-V酶切位点，因而可以通过单酶切将载体线性化。相关反应体系如下表4所示：

表4文库线性化处理体系配制

反应条件为：37℃，消化3小时。使用天根DNA纯化试剂盒纯化酶切产物。而后需要进一步使用Thermo Fisher公司的FastAp(EF0654)实施载体去磷酸化，相关反应体系如下表5所示。去磷酸化反应条件为：37℃，消化3小时；使用天根DNA纯化试剂盒纯化酶切产物。

表5文库载体去磷酸化相关反应体系配制

文库载体	10×反应缓冲液	FastAP(1U/μL)	去离子水
				5μg	5μL	2μL	补至50μL

制备Tag标签时，可以根据需要选择一段式标签或者两段式标签(图4)。一段式标签可以使用PCR直接扩增简并引物获得，优点是简便高效。两段式标签由前后两部分构成，前段为一组正向简并引物，后段为一组反向简并引物，正反两组引物有公共重叠序列，可经退后延伸获得完整的标签序列。两段式标签序列可以任意组合，从而以低成本的方式获得大量排列组合，这样可以满足超大文库构建的需要。本发明所列的两段式简并引物，共有20×16种(320种)组合方式，能够满足人类基因组中所有CDS序列小于30kb基因的突变体文库构建的需要。此处所列的两段式标签序列仅用于阐述本发明，并不限制本发明的保护范围。

此处，使用一段式标签序列介绍文库添加标签方法。相关简并引物序列(即一段式标签序列)如下：

HR-TAG-F：

TGAATTGCTGCCCTCTGGTTATGTGTGGGAGGGCTAAGATRNYNMKBYBSYHWHMRVSVMWDRDKKNS NWTTACTTGTACAGCTCGTCCA(SEQ ID NO.26)；

HR-Tag-R：

AAATTTTGTAATCCAGAGGTTGATTACCGATAAGCTTGATTAGGTCTTGAAAGGAGTGG(SEQ IDNO.27)；

正向引物中的RNYNMKBYBSYHWHMRVSVMWDRDKKNSNW即为标签序列，其中其中Y代表C或T，R代表A或G，M代表A或C，S代表C或G，K代表G或T，W代表A或T，B代表C或G或T，H代表A或C或T，V代表A或C或G，D代表A或G或T，N代表T或C或G或A；

根据排列组合规则，理论上该简并序列共计含有约4400亿种不同的标签序列组合。使用Q5高保真DNA聚合酶(NEB，M0491L)将扩增标签序列片段，PCR反应体系如下表6所述。

表6标签序列片段扩增体系配制

PCR反应条件为：95℃，3分钟；(95℃，20秒；55℃，20秒；72℃，30秒)，35个循环；72℃，延伸5分钟；12℃保存。之后，使用天根公司DNA纯化试剂盒纯纯化相关载体以备后续使用。

加标签时，可以分别给6个子文库单独加标签，单独制备“标签-突变体”连接片段。同时，也可以将制备好的6个子文库线性化后等比例混合并与上述标签序列片段进行同源重组连接。此处，采用后一种方案。具体反应体系如下表7所示。反应条件为：50℃，孵育1小时。

表7标签序列与承接载体同源重组连接体系配制

孵育结束后，立即将反应体系放于冰上5分钟，而后进行转化。将相关菌液接种到200mL新鲜配置的含有氨苄青霉素(100μg/mL)LB液体培养基中培养过夜，第二天进行质粒大量抽提，所提取的质粒即为添加了标签序列的突变体子文库。

S4、利用Inverse PCR方法提取突变体-标签序列关联DNA片段(图5)；

使用第一组引物，通过PCR将相关区域克隆扩增。引物序列如下：

InversePCR-F1：ATCGGCGGCCGCCAGGCTGCTGCAAGAAAGGGAA(SEQ ID NO.28)；

InversePCR-R1：ATCGGCGGCCGCTTATGTGTGGGAGGGCTAAG(SEQ ID NO.29)；

表8标签序列片段扩增体系配制

相关扩增子的一端为突变体序列，另一端为标签序列。第一组引物中预先添加相同的Not-I限制性内切酶酶切位点。使用DNA纯化试剂盒纯化相关PCR产物后，进行酶切消化，反应体系如下表9所示：

表9 PCR产物酶切消化反应体系配制

酶切反应条件为：37℃，酶切2小时。

使用DNA纯化试剂盒纯纯化酶切产物后，使用T4连接酶(NEB，M0202S)使片段自连环化，反应体系如下表所示。连接体系反应条件：20℃，连接1小时。

表10用T4连接酶将片段自连环化体系配制

使用第二组引物，通过PCR将仅含突变体序列和标签序列的区域克隆扩增：

共同的正向引物：

InversePCR-F2：TGCCCTCTGGTTATGTGTGGGAG(SEQ ID NO.30)；

6条单独的反向引物：

InversePCR-R21：AAACCGTACCAAAAGCACCAGAC(SEQ ID NO.31)；

InversePCR-R22：CTTTATTAGCCTTGGGTGACGTAG(SEQ ID NO.32)；

InversePCR-R23：AGCTGCACGGTGGACGTGAGGC(SEQ ID NO.33)；

InversePCR-R24：CGCACCAGTTCAGCAGATACTG(SEQ ID NO.34)；

InversePCR-R25：TTACGTGCTGAGGTGTCTTTAC(SEQ ID NO.35)；

InversePCR-R26：TTCGAGAGCCATCCATTTAATAG(SEQ ID NO.36)；

使用Q5高保真DNA聚合酶(NEB,M0491L)将扩增标签序列片段，PCR反应体系如下表所述。

表11标签序列片段扩增体系配制

S5、利用高通量测序确定突变体与标签序列的对应关系，同时可以确定突变体文库的质量。

将S4中的相关片段用于商业化服务的第二代高通量测序(金唯智，PE-150)。由于标签序列和突变体序列在同一个测序分子上，因而测序后通过生物信息分析，可将突变体与标签序列关联，由此可以确定文库的质量(图6)。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制，尽管参照较佳实施例对本发明做了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

序列表

<110> 深圳市狂风生命科技有限公司

<120> 一种高通量突变体文库的构建方法

<130> 2021.1.21

<160> 36

<170> SIPOSequenceListing 1.0

<210> 1

<211> 21

<212> PRT

<213> P2A元件(P2A components)

<400> 1

Gly Ser Gly Glu Gly Arg Gly Ser Leu Leu Thr Cys Gly Asp Val Glu

1 5 10 15

Glu Asn Pro Gly Pro

20

<210> 2

<211> 30

<212> PRT

<213> S1氨基酸序列(S1 amino acid sequence)

<400> 2

Val Val Glu Pro Leu Thr Pro Ser Gly Glu Ala Pro Asn Gln Ala Leu

1 5 10 15

Leu Arg Ile Leu Lys Glu Thr Glu Phe Lys Lys Ile Lys Val

20 25 30

<210> 3

<211> 31

<212> PRT

<213> S2氨基酸序列(S2 amino acid sequence)

<400> 3

Phe Ser Gly Ala Phe Gly Thr Val Tyr Lys Gly Leu Trp Ile Pro Glu

1 5 10 15

Gly Glu Lys Val Lys Ile Pro Val Ala Ile Lys Glu Leu Arg Glu

20 25 30

<210> 4

<211> 31

<212> PRT

<213> S3氨基酸序列(S3 amino acid sequence)

<400> 4

Gly Thr Ser Pro Lys Ala Asn Lys Glu Ile Leu Asp Glu Ala Tyr Val

1 5 10 15

Met Ala Ser Val Asp Asn Pro His Val Cys Arg Leu Leu Gly Ile

20 25 30

<210> 5

<211> 31

<212> PRT

<213> S4氨基酸序列(S4 amino acid sequence)

<400> 5

Thr Leu Thr Ser Thr Val Gln Leu Ile Thr Gln Leu Met Pro Phe Gly

1 5 10 15

Cys Leu Leu Asp Tyr Val Arg Glu His Lys Asp Asn Ile Gly Ser

20 25 30

<210> 6

<211> 32

<212> PRT

<213> S5氨基酸序列(S5 amino acid sequence)

<400> 6

Val Tyr Leu Leu Asn Trp Cys Val Gln Ile Ala Lys Gly Met Asn Tyr

1 5 10 15

Leu Glu Asp Arg Arg Leu Val His Arg Asp Leu Ala Ala Arg Asn Val

20 25 30

<210> 7

<211> 32

<212> PRT

<213> S6氨基酸序列(S6 amino acid sequence)

<400> 7

Lys Val Lys Thr Pro Gln His Val Lys Ile Thr Asp Phe Gly Leu Ala

1 5 10 15

Lys Leu Leu Gly Ala Glu Glu Lys Glu Tyr His Ala Glu Gly Gly Lys

20 25 30

<210> 8

<211> 150

<212> DNA

<213> S1核苷酸序列(S1 nucleotide sequence)

<400> 8

acactgcgca ggctgctgca agaaagggaa gttgtggagc ctcttacacc cagtggagaa 60

gctcccaacc aagctctctt gaggatcttg aaggaaactg aattcaaaaa gatcaaagtg 120

ctggggtctg gtgcttttgg tacggtttac 150

<210> 9

<211> 150

<212> DNA

<213> S2核苷酸序列(S2 nucleotide sequence)

<400> 9

gagaccgagt ttaagaagat aaaggtgctg ttctccggtg cgttcggcac ggtgtataag 60

ggactctgga tcccagaagg tgagaaagtt aaaattcccg tcgctatcaa ggaattaaga 120

gaagctacgt cacccaaggc taataaagag 150

<210> 10

<211> 150

<212> DNA

<213> S3核苷酸序列(S3 nucleotide sequence)

<400> 10

atccctgtgg caatcaaaga gctgcgggag ggtacatctc cgaaagccaa caaggaaatc 60

ctcgatgaag cctacgtgat ggccagcgtg gacaaccccc acgtgtgccg cctgctgggc 120

atctgcctca cgtccaccgt gcagctcatc 150

<210> 11

<211> 150

<212> DNA

<213> S4核苷酸序列(S4 nucleotide sequence)

<400> 11

aacccacacg tttgcaggct gctcggcatc acactcacct ccaccgtgca gctcatcacg 60

cagctcatgc ccttcggctg cctcctggac tatgtccggg aacacaaaga caatattggc 120

tcccagtatc tgctgaactg gtgcgttcag 150

<210> 12

<211> 150

<212> DNA

<213> S5核苷酸序列(S5 nucleotide sequence)

<400> 12

agagaacaca aggacaacat tggttcagtg tacctgctca actggtgtgt gcagatcgca 60

aagggcatga actacttgga ggaccgtcgc ttggtgcacc gcgacctggc agccaggaac 120

gtattggtaa agacacctca gcacgtaaaa 150

<210> 13

<211> 150

<212> DNA

<213> S6核苷酸序列(S6 nucleotide sequence)

<400> 13

cacagagacc tggctgcccg gaacgtgaaa gtgaaaacac cgcagcatgt caagatcaca 60

gattttgggc tggccaaact gctgggtgcg gaagagaaag aataccatgc agaaggaggc 120

aaagtgccta ttaaatggat ggctctcgaa 150

<210> 14

<211> 40

<212> DNA

<213> S1-F

<400> 14

gcggaaaaga acactgcgca ggctgctgca agaaagggaa 40

<210> 15

<211> 40

<212> DNA

<213> S1-R

<400> 15

tccacagccc tttgtaaacc gtaccaaaag caccagaccc 40

<210> 16

<211> 40

<212> DNA

<213> S2-F

<400> 16

aattttgaag gagaccgagt ttaagaagat aaaggtgctg 40

<210> 17

<211> 40

<212> DNA

<213> S2-R

<400> 17

cctcatccag tatctcttta ttagccttgg gtgacgtagc 40

<210> 18

<211> 40

<212> DNA

<213> S3-F

<400> 18

aaaagtcaaa atccctgtgg caatcaaaga gctgcgggag 40

<210> 19

<211> 40

<212> DNA

<213> S3-R

<400> 19

gcatcagttg agtgatgagc tgcacggtgg acgtgaggca 40

<210> 20

<211> 40

<212> DNA

<213> S4-F

<400> 20

cagtgtagat aacccacacg tttgcaggct gctcggcatc 40

<210> 21

<211> 40

<212> DNA

<213> S4-R

<400> 21

tgcccttagc tatctgaacg caccagttca gcagatactg 40

<210> 22

<211> 40

<212> DNA

<213> S5-F

<400> 22

gttggactat gtcagagaac acaaggacaa cattggttca 40

<210> 23

<211> 40

<212> DNA

<213> S5-R

<400> 23

caaaatcagt aatttttacg tgctgaggtg tctttaccaa 40

<210> 24

<211> 40

<212> DNA

<213> S6-F

<400> 24

tagaagactc gtgcacagag acctggctgc ccggaacgtg 40

<210> 25

<211> 40

<212> DNA

<213> S6-R

<400> 25

tatggagaat gctttcgaga gccatccatt taataggcac 40

<210> 26

<211> 90

<212> DNA

<213> HR-TAG-F

<400> 26

tgaattgctg ccctctggtt atgtgtggga gggctaagat rnynmkbybs yhwhmrvsvm 60

wdrdkknsnw ttacttgtac agctcgtcca 90

<210> 27

<211> 59

<212> DNA

<213> HR-Tag-R

<400> 27

aaattttgta atccagaggt tgattaccga taagcttgat taggtcttga aaggagtgg 59

<210> 28

<211> 34

<212> DNA

<213> InversePCR-F1

<400> 28

atcggcggcc gccaggctgc tgcaagaaag ggaa 34

<210> 29

<211> 32

<212> DNA

<213> InversePCR-R1

<400> 29

atcggcggcc gcttatgtgt gggagggcta ag 32

<210> 30

<211> 23

<212> DNA

<213> InversePCR-F2

<400> 30

tgccctctgg ttatgtgtgg gag 23

<210> 31

<211> 23

<212> DNA

<213> InversePCR-R21

<400> 31

aaaccgtacc aaaagcacca gac 23

<210> 32

<211> 24

<212> DNA

<213> InversePCR-R22

<400> 32

ctttattagc cttgggtgac gtag 24

<210> 33

<211> 22

<212> DNA

<213> InversePCR-R23

<400> 33

agctgcacgg tggacgtgag gc 22

<210> 34

<211> 22

<212> DNA

<213> InversePCR-R24

<400> 34

cgcaccagtt cagcagatac tg 22

<210> 35

<211> 22

<212> DNA

<213> InversePCR-R25

<400> 35

ttacgtgctg aggtgtcttt ac 22

<210> 36

<211> 23

<212> DNA

<213> InversePCR-R26

<400> 36

ttcgagagcc atccatttaa tag 23

Claims

1.一种高通量突变体文库的构建方法，其特征在于，包括如下步骤：

S1、构建突变体承接载体；

S2、将突变体序列插入到承接载体中，制得突变体文库；步骤S2所述的突变体序列的5’和3’末端分别包含长度大于15个核苷酸的无变异的序列用于后续聚合酶链式反应扩增及分子克隆；中间部分为变异区间，所述变异区间可以包含单个或多个位点变异，所述变异类型包含但不局限于碱基替换、删除及插入，移码变异和提前翻译终止；所述的突变体序列的5’和3’末端的无变异序列使用一套密码子编码；变异区间序列使用第二套密码子进行编码；

S3、将标签序列插入到步骤S2所得突变体文库上，制得含标签序列的突变体文库；

S5、利用高通量测序确定突变体与标签序列的对应关系，并确定突变体文库的覆盖度与均一性。

2.如权利要求1所述的构建方法，其特征在于，步骤S1所述的承接载体中需要预留无缝克隆所需的酶切位点，酶切后可将载体线性化，同时不带入额外序列；所述酶切位点为两个方向相反的二型限制性内切酶位点，包含BsmB-I、Bsa-I、Bbs-I。

3.如权利要求2所述的方法，其特征在于，步骤S1所述的承接载体以基础框架为基础改造而来，所述基础框架包含：蛋白表达的载体框架，病毒载体框架，非病毒载体框架。

4.如权利要求1所述的方法，其特征在于，所述的聚合酶链式反应扩增，包含：常规PCR扩增，常规油包水PCR扩增，数字PCR扩增以及其他基于微流控液滴生成系统的PCR扩增。

5.如权利要求1所述的构建方法，其特征在于，步骤S3所述的标签序列可以由一段包含多种序列的DNA构成，也可以由多段包含多种序列的DNA拼接构成；标签序列可以置于载体上任何可行的区域。

6.如权利要求1所述的构建方法，其特征在于，步骤S4所述的优化的Inverse PCR需要先经历一轮PCR扩增，来获得包含突变体序列和标签序列的DNA片段，在PCR扩增时，所使用的引物，需在正向引物及反向引物中加入相同的限制性内切酶序列，用于后续DNA片段高效环化。