CN108026523B - 向导rna组装载体 - Google Patents

向导rna组装载体 Download PDF

Info

Publication number
CN108026523B
CN108026523B CN201680051156.XA CN201680051156A CN108026523B CN 108026523 B CN108026523 B CN 108026523B CN 201680051156 A CN201680051156 A CN 201680051156A CN 108026523 B CN108026523 B CN 108026523B
Authority
CN
China
Prior art keywords
polynucleotide
guide
sequence
host cell
polynucleotides
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680051156.XA
Other languages
English (en)
Other versions
CN108026523A (zh
Inventor
保卢斯·佩特鲁斯·德·瓦尔
约翰尼斯·安德列什·劳博斯
保罗·克拉森
瑞内·维尔瓦尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DSM IP Assets BV
Original Assignee
DSM IP Assets BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DSM IP Assets BV filed Critical DSM IP Assets BV
Publication of CN108026523A publication Critical patent/CN108026523A/zh
Application granted granted Critical
Publication of CN108026523B publication Critical patent/CN108026523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • C12N15/1031Mutagenizing nucleic acids mutagenesis by gene assembly, e.g. assembly by oligonucleotide extension PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/62DNA sequences coding for fusion proteins
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/64General methods for preparing the vector, for introducing it into the cell or for selecting the vector-containing host
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/80Vectors or expression systems specially adapted for eukaryotic hosts for fungi
    • C12N15/81Vectors or expression systems specially adapted for eukaryotic hosts for fungi for yeasts
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]

Abstract

本发明涉及用于宿主细胞的CRISPR‑CAS系统,特别地涉及在体内产生包含一种或多种向导多核苷酸表达盒的环状载体的方法,其中所述一种或多种向导多核苷酸表达盒包含编码与一种或多种控制序列可操作地相连的向导多核苷酸的多核苷酸,所述控制序列指导所述向导多核苷酸在宿主细胞中表达,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且其中所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR‑Cas复合体。

Description

向导RNA组装载体
发明领域
本发明涉及在宿主细胞中组装含有gRNA的载体的新方法,所述载体待用于CRISPR-CAS介导的基因组转化中。
发明背景
基因组技术和分析方法的最近的进展显著促进了例如登记和定位与各种生物功能和疾病相关的遗传因素的能力。需要精确的基因组工程技术,以使得能够通过允许对各个遗传元件进行选择性扰动从而对偶然遗传变异进行系统化反向工程,以及促进合成生物学、生物技术和医学应用。虽然基因组编辑技术(例如设计者锌指、转录激活物样效应物核酸酶(TALEN)或归巢大范围核酸酶)可用于产生靶向基因组扰动,但仍然需要新的基因组工程技术,所述技术经济实惠、易于设置、可扩展并且适合于靶向基因组内的多个位置。大范围核酸酶的工程设计对于大多数学术研究人员而言具有挑战性,因为这些酶的DNA识别和切割功能交织在一个结构域中。工程化锌指阵列的稳健构建也被证明对于许多实验室是困难的,因为需要解释阵列中各个指结构域之间的环境依赖效应。因此,迫切需要具有广泛应用的用于靶向宿主细胞内的特定序列的替代性的稳健的技术。
最近描述了一种新的基因组编辑系统CRISPR-Cas系统(Sander等人,2014;Hsu等人,2014;Doudna和Charpentier,2104)。CRISPR-Cas系统不需要生成用于靶向特定序列的定制蛋白质,而是需要可以通过向导多核苷酸编程从而识别特定多核苷酸靶标的单一Cas酶;换句话说,通过使用所述向导多核苷酸分子,可以将Cas酶募集到宿主细胞基因组中的特定多核苷酸靶标。
为了使得能够使用RNA指导的CRISPR/CAS9系统在Saccharomyces cerevisiae酵母中进行基因组的精确工程化,将必需组分CAS9蛋白和crRNA-tracrRNA融合转录物(被称为向导RNA或gRNA)引入酵母细胞中并一起起作用。这可以通过表达来自一种或多种脱氧核糖多核苷酸的gRNA和CAS9蛋白质二者来有效实现。结果表明:可以使用着丝粒附加型载体(Sikorski和Hieter,1989)从单拷贝载体表达CAS9蛋白,连同表达向导RNA和在转化中引入供体DNA的2μ载体(Christianson等人,1992),产生具有接近100%供体DNA重组频率的细胞,如通过引入期望的突变所示(DiCarlo等人,2013)。DiCarlo及其同事的这项首次研究描述了使用CRISPR/CAS9系统在一轮酵母转化中修饰基因组中的单个靶标。
在DiCarlo方法的扩展中,其他人描述了表达系统(例如,酵母表达质粒,使用在酵母中体内重组),以使得每轮转化能够进行多个修饰,即表达多个gRNA序列和供体DNA序列(Ryan等人,2014;Bao等人,2015;Horwitz等人,2015;
Figure BDA0001587231190000021
等人,2015;Mans等人,2015)。由一种或多种高拷贝酵母表达载体(即,带有2-μ自私复制质粒的序列,和显性抗性或营养缺陷型标记的选择)表达gRNA表达盒(如DiCarlo等人,2013所述,受SNR52启动子和SUP4终止子的控制)。为了构建(多)gRNA表达质粒,目前有两种策略:在引入到S.cerevisiae之前构建质粒,例如通过使用体外DNA组装方法如Gibson克隆(Mans等人,2015)或USER克隆(Ryan等人,2014;
Figure BDA0001587231190000022
等人,2015)以及E.coli中的中间克隆步骤。在所有这些相当费力的方法中,完整的gRNA表达盒被用作克隆反应的构建元件。第二种方法依赖于S.cerevisiae将片段组装成功能性表达载体的体内重组能力(Horwitz等人,2015)。例如,将线性化的骨架载体和多个线性gRNA表达盒直接共转化到S.cerevisiae中以通过缺口修复产生多个功能性表达载体。直接转化PCR扩增的或合成的DNA片段并随后通过S.cerevisiae进行体内重组的后一种方法具有如下优点:不需要例如通过E.coli的中间扩增步骤,从而缩短了时间并避免了在E.coli中可能的重组事件。
这种gRNA转化方案和表达系统导致三个S.cerevisiae基因(ADH5、HO、RHR2)的三重缺失或在几个S.cerevisiae基因中引入单核苷酸突变,从而导致容易鉴定的表型(例如SPT15突变和乙醇耐受性)。后一种方法的缺点是:对待引入的每个向导RNA均使用完整表达盒,这使得该方法不太适合于在组装中使用标准化的载体元件。此外,缺口修复依赖于gRNA表达盒每个末端的500bp侧翼序列。因此,该方法需要费力构建多个gRNA表达盒,每个gRNA表达盒包含约1500个核苷酸。另一个缺点是:CRISPR-Cas9介导的基因组编辑的效率在各个实验之间显著不同(在一轮酵母转化中,三重修饰导致64%的缺失,而引入单核苷酸突变导致9%)。后者可能是因为事实上并非所有的gRNA在细胞中同等表达。因此,所有gRNA都存在于一个单一载体中的方法将是优选的。
因此,期望开发出低成本的可靠方法,其通过在组装中使用标准构建元件在体内组装含有多个gRNA的载体。
发明概述
本发明涉及CRISPR-CAS系统。
本发明提供了一种产生包含一种或多种向导多核苷酸表达盒的载体、优选环状载体的方法,其中所述一种或多种向导多核苷酸表达盒包含编码与一种或多种控制序列可操作地相连的向导多核苷酸的多核苷酸,所述控制序列指导所述向导多核苷酸在宿主细胞中的表达,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且其中所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述方法包括以下步骤:
-提供一种或多种多核苷酸,其中所述一种或多种多核苷酸包含待延伸的多核苷酸序列,其中所述待延伸的多核苷酸序列在待延伸的5’-端和/或3’-端包含向导多核苷酸表达盒的片段;
-进行一个或多个重叠延伸PCR反应,其是通过在每个反应中使所述一种或多种多核苷酸中的一种和两种合适的多核苷酸引物产生一种杂交线性多核苷酸,
其中选择待延伸的一种或多种多核苷酸序列和合适的多核苷酸引物,使得在所述一个或多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体;
-使在所述重叠延伸PCR中获得的一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸进行组装反应,从而产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体。优选地,所述组装反应发生在体内。
本发明还提供了一种在体内组装包含一种或多种向导多核苷酸表达盒的载体、优选环状载体的方法,其中所述一种或多种向导多核苷酸表达盒包含编码与一种或多种控制序列可操作地相连的向导多核苷酸的多核苷酸,所述控制序列指导所述向导多核苷酸在宿主细胞中的表达,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述方法包括以下步骤:
-提供一种或多种线性多核苷酸,其中所述一种或多种线性多核苷酸在5'-末端和/或3'-末端包含至少含有向导序列的至少一种向导多核苷酸表达盒或其片段;
-将所述一种或多种线性多核苷酸和任选的一种或多种另外的线性多核苷酸转化到宿主细胞中;
-允许在所述一种或多种线性多核苷酸和任选的一种或多种另外的线性多核苷酸之间发生同源重组反应,其中所述线性多核苷酸和另外的线性多核苷酸已被选择为包含合适的5'-末端和3'-末端,从而允许所述一种或多种线性多核苷酸和任选的所述一种或多种另外的线性多核苷酸彼此以预定顺序同源重组,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体;
-任选地选择包含载体、优选环状载体的宿主细胞,并且其中所述载体、优选所述环状载体包含一种或多种功能性向导多核苷酸表达盒;
-任选地回收所述载体、优选所述环状载体。
本发明还提供了一种用于产生包含载体、优选环状载体的重组宿主细胞的方法,其中所述载体、优选所述环状载体包含一种或多种向导多核苷酸表达盒,其中所述一种或多种向导多核苷酸表达盒包含编码与一种或多种控制序列可操作地相连的向导多核苷酸的多核苷酸,所述控制序列指导所述向导多核苷酸在宿主细胞中的表达,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述方法包括以下步骤:
-提供一种或多种线性多核苷酸,其中所述一种或多种线性多核苷酸在5'-末端和/或3'-末端包含至少含有所述向导序列的至少一种向导多核苷酸表达盒或其片段;
-将所述一种或多种线性多核苷酸和任选的一种或多种另外的线性多核苷酸转化到宿主细胞中;
-允许在所述一种或多种线性多核苷酸和任选的一种或多种另外的线性多核苷酸之间发生同源重组反应,其中所述线性多核苷酸和另外的线性多核苷酸已被选择为包含合适的5'-末端和3'-末端,从而允许所述一种或多种线性多核苷酸和任选的所述一种或多种另外的线性多核苷酸彼此以预定顺序同源重组,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体;
-任选地选择包含载体、优选环状载体的宿主细胞,并且其中所述载体、优选所述环状载体包含一种或多种功能性向导多核苷酸表达盒。
本发明还提供了一种用于生产包含载体、优选环状载体的重组宿主细胞的方法,其中所述载体、优选所述环状载体包含一种或多种向导多核苷酸表达盒,其中所述一种或多种向导多核苷酸表达盒包含编码与一种或多种控制序列可操作地相连的向导多核苷酸的多核苷酸,所述控制序列指导所述向导多核苷酸在宿主细胞中的表达,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述方法包括以下步骤:
-在第一宿主细胞、优选属于S.cerevisiae种的第一宿主细胞中进行根据本发明所述的在体内组装包含一种或多种向导多核苷酸表达盒的载体、优选环状载体的方法,其中选择包含所述载体、优选所述环状载体的所述第一宿主细胞并回收所述载体、优选所述环状载体,其中所述载体、优选所述环状载体包含一种或多种功能性向导多核苷酸表达盒,
-转化所述载体、优选所述环状载体到第二宿主细胞中;
-任选地分离包含所述载体、优选所述环状载体的第二宿主细胞。
此外,本发明还提供了载体、优选环状载体和宿主细胞,所述宿主细胞包含利用本发明方法能够获得的载体、优选环状载体。
本发明涉及非天然存在的或工程化的组合物,其包含CRISPR-Cas体系的来源(source),所述体系包含如本文所述的向导多核苷酸和Cas蛋白,其中所述向导多核苷酸和任选的Cas蛋白存在于根据本发明的载体、优选环状载体中。
本发明还涉及一种调节细胞中多核苷酸表达的方法,所述方法包括:使宿主细胞与非天然存在的或工程化的组合物接触,所述组合物包含CRISPR-Cas体系的来源,所述体系包含如本文所述的向导多核苷酸和Cas蛋白,其中所述向导多核苷酸指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体。
本发明还涉及一种用于产生感兴趣的化合物的方法,所述方法包括:在有益于产生感兴趣的化合物的条件下培养根据本发明所述的宿主细胞,并任选地纯化或分离所述感兴趣的化合物。
附图简述
图1示出了典型的向导多核苷酸的例子。两个向导多核苷酸都是包含向导序列(crRNA)和向导多核苷酸结构组分的向导RNA。在上图中,向导多核苷酸结构组分包含两个彼此杂交的单独分子;单个分子可以被称为tracr序列和tracr-匹配(tracr-mate)序列。在下图中,向导多核苷酸结构组分包含具有内部杂交的单个分子。该图改编自Sander和Joung,2014以及Mali等人,2013。
图2示出了OE-PCR反应中使用的引物以及砖(brick)1-4的结构。
图3示出了体内组装反应中使用的延伸的砖1-4的结构。
图4示出了在体内组装反应中延伸的砖1-4如何以预定顺序彼此组装。
图5示出了表达CAS9的单拷贝(CEN/ARS)载体pCSN061的载体图谱,所述CAS9针对在S.cerevisiae中表达进行了密码子对优化。KanMX标记存在于该载体上。
图6示出了OE-PCR反应中使用的引物以及砖1、2、3b、4的结构。
图7A示出了体内组装反应中使用的延伸的砖1、2、3b和4的结构。
图7B示出了在体内组装反应中延伸的砖1-4如何以预定顺序彼此组装。
图8示出了转化实验1中描述的多重方法中所使用的供体DNA序列的示意图。供体DNA序列(类胡萝卜素基因表达盒)含有约50bp侧翼序列(INT5'和INT3'),其与预期的整合位点(INT1、INT2或INT3)具有同源性。转化后,供体DNA序列整合到基因组的预期整合位点中。使用三种不同的启动子来表达crtE、crtYB和crtI(用白色矩形和两个有不同灰色的矩形来代表)。
图9A示出了转化实验2中描述的多重方法中所使用的供体DNA序列的示意图。供体DNA序列(类胡萝卜素基因表达盒)含有约50bp侧翼序列(INT5'和INT3'),其与预期的整合位点(INT1、INT2或INT3)具有同源性。LF序列包含与基因组DNA中的整合位点的重叠和50bp侧翼序列加上用于表达crtE、crtYB和crtI的特异性启动子的一部分(用与LF序列相连的小的白色矩形和两个有不同灰色的矩形来表示)。RF序列包含与基因组DNA中的整合位点的重叠和50bp侧翼序列加上用于表达crtE、crtYB和crtI的特异性终止子的一部分(用与RF序列相连的小的白色矩形来表示)。
图9B示出了:转化后,将图9A中所述的供体DNA序列整合到基因组的预期整合位点。使用三种不同的启动子来表达crtE、crtYB和crtI(用白色矩形和两个有不同灰色的矩形来代表)。
图10示出了含有向导RNA表达盒的多拷贝(2微米)载体pGNR002的载体图谱,其中可以通过利用SapI位点来克隆/组装向导序列。NatMX(诺尔丝菌素)抗性标记存在于该载体上。
图11示出了用于1gRNA-载体组装方法1和1gRNA-载体组装方法2的在OE-PCR反应中使用的引物的图示,其中载体pGRN002被用作模板。
图12A和12B示出了在酵母中的体内组装反应中使用的PCR片段#1(一gRNA-载体方法1)和PCR片段#2(一gRNA-载体方法2)的图示。GS:20bp向导序列。
图13示出了使用1gRNA-载体组装方法1或1gRNA-载体组装方法2来缺失INT1基因座周围的约1kb或约10kb基因组DNA的策略的图示。
序列表描述
SEQ ID NO:1示出了酵母中优选的终止多核苷酸序列。
SEQ ID NO:2示出了待整合到S.cerevisiae的14号染色体上的整合基因座中的多核苷酸序列,其包含Cas9表达盒和natMX标记,并包含整合基因座的5'-侧翼区和3'-侧翼区。
SEQ ID NO:3示出了包含2μ质粒的砖1的多核苷酸序列。
SEQ ID NO:4示出了砖2的多核苷酸序列,所述砖2包含Dasher GFP的表达盒,所述表达盒上游侧翼是S.cerevisae TDH3启动子,下游侧翼是S.cerevisiae ADH1终止子序列。
SEQ ID NO:5示出了包含显性抗性标记KanMX的砖3的多核苷酸序列。
SEQ ID NO:6示出了包含kanR基因、细菌选择标记和pUC ORI的砖4的多核苷酸序列。
SEQ ID NO:7示出了正向引物gR1-HXT1-f的多核苷酸序列。
SEQ ID NO:8示出了正向引物gR2-HXT2-f的多核苷酸序列。
SEQ ID NO:9示出了正向引物gR3-HXT3-f的多核苷酸序列。
SEQ ID NO:10示出了正向引物gR4-GAL2-f的多核苷酸序列。
SEQ ID NO:11示出了反向引物gR1-HXT1-r的多核苷酸序列。
SEQ ID NO:12示出了反向引物gR2-HXT2-r的多核苷酸序列。
SEQ ID NO:13示出了反向引物gR3-HXT3-r的多核苷酸序列。
SEQ ID NO:14示出了反向引物gR4-GAL2-r的多核苷酸序列。
SEQ ID NO:15示出了延伸的砖1的多核苷酸序列。
SEQ ID NO:16示出了延伸的砖2的多核苷酸序列。
SEQ ID NO:17示出了延伸的砖3的多核苷酸序列。
SEQ ID NO:18示出了延伸的砖4的多核苷酸序列。
SEQ ID NO:19示出了CRISPR-CAS9介导的缺失S.cerevisiae菌株BIE272中的基因HXT5-HXT1-HXT4中所使用的供体DNA的多核苷酸序列。
SEQ ID NO:20示出了CRISPR-CAS9介导的缺失S.cerevisiae菌株BIE272中的基因HXT2中所使用的供体DNA的多核苷酸序列。
SEQ ID NO:21示出了CRISPR-CAS9介导的缺失S.cerevisiae菌株BIE272中的基因HXT3-HXT6-HXT7中所使用的供体DNA的多核苷酸序列。
SEQ ID NO:22示出了CRISPR-CAS9介导的缺失S.cerevisiae菌株BIE272中的基因GAL2中所使用的供体DNA的多核苷酸序列。
SEQ ID NO:23示出了CAS9表达载体pCSN061的多核苷酸序列。
SEQ ID NO:24示出了砖3b(natMX-片段)的多核苷酸序列。
SEQ ID NO:25示出了正向引物g1-INT59-f的多核苷酸序列。
SEQ ID NO:26示出了正向引物g2-YPRc-f的多核苷酸序列。
SEQ ID NO:27示出了正向引物g3-INT1-f的多核苷酸序列。
SEQ ID NO:28示出了正向引物砖4_至3-f的多核苷酸序列。
SEQ ID NO:29示出了反向引物g1-INT59-r的多核苷酸序列。
SEQ ID NO:30示出了反向引物g2-YPRc-r的多核苷酸序列。
SEQ ID NO:31示出了反向引物g3-INT1-r的多核苷酸序列。
SEQ ID NO:32示出了反向引物砖3_至4-r的多核苷酸序列。
SEQ ID NO:33示出了延伸的砖1的多核苷酸序列(实施例4)。
SEQ ID NO:34列出延伸的砖2的多核苷酸序列(实施例4)。
SEQ ID NO:35示出了延伸的砖3b的多核苷酸序列(实施例4)。
SEQ ID NO:36列出延伸的砖4的多核苷酸序列(实施例4)。
SEQ ID NO:37空。
SEQ ID NO:38列出合成的con5–低p(KlTDH2p)-crtE-ScTDH3t–conA表达盒的多核苷酸序列。
SEQ ID NO:39示出了合成的con5–中等p(KlPGK1p)-crtE-ScTDH3t-conA表达盒的多核苷酸序列。
SEQ ID NO:40示出了合成的con5–强p(ScFBA1p)-crtE-ScTDH3t-conA表达盒的多核苷酸序列。
SEQ ID NO:41示出了合成的conA-低p(KlYDRp)-crtYB-ScPDC1t-conB表达盒的多核苷酸序列。
SEQ ID NO:42示出了合成的conA-中等p(KlTEF2p)-crtYB-ScPDC1t-conB表达盒的多核苷酸序列。
SEQ ID NO:43示出了合成的conA-强p(ScTEF1p)-crtYB-ScPDC1t-conB表达盒的多核苷酸序列。
SEQ ID NO:44列出合成的conB-低p(ScPRE3p)-crtI-ScTAL1t-conC表达盒的多核苷酸序列。
SEQ ID NO:45列出合成的conB-中等p(ScACT1p)-crtI-ScTAL1t-conC表达盒的多核苷酸序列。
SEQ ID NO:46示出了合成的conB-强p(KlENO1p)-crtI-ScTAL1t-conC表达盒的多核苷酸序列。
SEQ ID NO:47示出了具有50bp LF和RF侧翼(PCR片段)的供体表达盒序列的多核苷酸序列。与INT1同源-低p(KlTDH2p)-crtE-ScTDH3t-与INT1同源。
SEQ ID NO:48示出了具有50bp LF和RF侧翼(PCR片段)的供体表达盒序列的多核苷酸序列。与INT1同源-中等p(KlPGK1p)-crtE-ScTDH3t-与INT1同源。
SEQ ID NO:49示出了具有50bp LF和RF侧翼(PCR片段)的供体表达盒序列的多核苷酸序列。与INT1同源-强p(ScFBA1p)-crtE-ScTDH3t-与INT1同源。
SEQ ID NO:50示出了具有50bp LF和RF侧翼(PCR片段)的供体表达盒序列的多核苷酸序列。与INT2同源-低p(KlYDR1p)-crtYB-ScPDC1t-与INT2同源。
SEQ ID NO:51示出了具有50bp LF和RF侧翼(PCR片段)的供体表达盒序列的多核苷酸序列。与INT2同源-中等p(KlTEF2p)-crtYB-ScPDC1t-与INT2同源。
SEQ ID NO:52示出了具有50bp LF和RF侧翼(PCR片段)的供体表达盒序列的多核苷酸序列。与INT2同源-强p(ScTEF1p)-crtYB-ScPDC1t-与INT2同源。
SEQ ID NO:53示出了具有50bp LF和RF侧翼(PCR片段)的供体表达盒序列的多核苷酸序列。与INT3同源-低p(ScPRE3p)-crtI-ScTAL1t-与INT3同源。
SEQ ID NO:54示出了具有50bp LF和RF侧翼(PCR片段)的供体表达盒序列的多核苷酸序列。与INT3同源-中等p(ScACT1p)-crtI-ScTAL1t-与INT3同源。
SEQ ID NO:55示出了具有50bp LF和RF侧翼(PCR片段)的供体表达盒序列的多核苷酸序列。与INT3同源-强p(KlENO1p)-crtI-ScTAL1t-与INT3同源。
SEQ ID NO:56示出了用于获得SEQ ID NO:47的正向(FW)引物的多核苷酸序列。
SEQ ID NO:57示出了了用于获得SEQ ID NO:47、SEQ ID NO:48、SEQ ID NO:49的反向(REV)引物的多核苷酸序列。
SEQ ID NO:58示出了用于获得SEQ ID NO:48的FW引物的多核苷酸序列。
SEQ ID NO:59示出了用于获得SEQ ID NO:49的FW引物的多核苷酸序列。
SEQ ID NO:60示出了用于获得SEQ ID NO:50的FW引物的多核苷酸序列。
SEQ ID NO:61示出了用于获得SEQ ID NO:50、SEQ ID NO:51、SEQ ID NO:52的REV引物的多核苷酸序列。
SEQ ID NO:62示出了用于获得SEQ ID NO:51的FW引物的多核苷酸序列。
SEQ ID NO:63示出了用于获得SEQ ID NO:52的FW引物的多核苷酸序列。
SEQ ID NO:64示出了用于获得SEQ ID NO:53的FW引物的多核苷酸序列。
SEQ ID NO:65示出了用于获得SEQ ID NO:53、SEQ ID NO:54、SEQ ID NO:55的REV引物的多核苷酸序列。
SEQ ID NO:66示出了用于获得SEQ ID NO:54的FW引物的多核苷酸序列。
SEQ ID NO:67示出了用于获得SEQ ID NO:55的FW引物的多核苷酸序列。
SEQ ID NO:68示出了具有重叠的ScTDH3t-INT1 3'(部分供体)-INT13'基因组DNA的右侧翼(RF)序列的多核苷酸序列。与INT1 3'基因组DNA的524bp具有同源性。
SEQ ID NO:69示出了具有重叠的KlYDR2p-INT2 5'(部分供体)-INT2 5'基因组DNA的左侧翼(LF)序列的多核苷酸序列。与INT2 5'基因组DNA的322bp具有同源性。
SEQ ID NO:70示出了具有重叠的KlTEF2p-INT2 5'(部分供体)-INT25'基因组DNA的LF序列的多核苷酸序列。与INT2 5'基因组DNA的322bp具有同源性。
SEQ ID NO:71示出了具有重叠的ScTEF1p-INT2 5'(部分供体)-INT25'基因组DNA的LF序列的多核苷酸序列。与INT2 5'基因组DNA的322bp具有同源性。
SEQ ID NO:72示出了具有重叠的ScPDC1t-INT2 3'(部分供体)-INT23'基因组DNA的RF序列的多核苷酸序列。与INT2 3'基因组DNA的524bp具有同源性。
SEQ ID NO:73示出了具有重叠的ScPRE3p-INT3 5'(部分供体)-INT35'基因组DNA的LF序列的多核苷酸序列。与INT3 5'基因组DNA的602bp具有同源性。
SEQ ID NO:74示出了具有重叠的ScACT1p-INT3 5'(部分供体)-INT3 5'基因组DNA的LF序列的多核苷酸序列。与INT3 5'基因组DNA的602bp具有同源性。
SEQ ID NO:75示出了具有重叠的KlENO1p-INT3 5'(部分供体)-INT3 5'基因组DNA的LF序列的多核苷酸序列。与INT3 5'基因组DNA的602bp具有同源性。
SEQ ID NO:76示出了具有重叠的ScTAL1t-INT3 3'(部分供体)-INT33'基因组DNA的RF序列的多核苷酸序列。与INT3 3'基因组DNA的624bp具有同源性。
SEQ ID NO:77示出了用于获得SEQ ID NO:68的FW引物的多核苷酸序列。
SEQ ID NO:78示出了用于获得SEQ ID NO:68的REV引物的多核苷酸序列。
SEQ ID NO:79示出了用于获得SEQ ID NO:69、SEQ ID NO:70、SEQ ID NO:71的FW引物的多核苷酸序列。
SEQ ID NO:80示出了用于获得SEQ ID NO:69的REV引物的多核苷酸序列。
SEQ ID NO:81示出了用于获得SEQ ID NO:70的REV引物的多核苷酸序列。
SEQ ID NO:82示出了用于获得SEQ ID NO:71的REV引物的多核苷酸序列。
SEQ ID NO:83示出了用于获得SEQ ID NO:72的FW引物的多核苷酸序列。
SEQ ID NO:84示出了用于获得SEQ ID NO:72的REV引物的多核苷酸序列。
SEQ ID NO:85示出了用于获得SEQ ID NO:73、SEQ ID NO:74、SEQ ID NO:75的FW引物的多核苷酸序列。
SEQ ID NO:86示出了用于获得SEQ ID NO:73的REV引物的多核苷酸序列。
SEQ ID NO:87示出了用于获得SEQ ID NO:74的REV引物的多核苷酸序列。
SEQ ID NO:88示出了用于获得SEQ ID NO:75的REV引物的多核苷酸序列。
SEQ ID NO:89示出了用于获得SEQ ID NO:76的FW引物的多核苷酸序列。
SEQ ID NO:90示出了用于获得SEQ ID NO:76的REV引物的多核苷酸序列。
SEQ ID NO:91示出了表达载体pRN1120的多核苷酸序列。
SEQ ID NO:92示出了用于去除pRN1120中的SapI限制性位点的FW引物的多核苷酸序列。
SEQ ID NO:93示出了用于去除pRN1120中的SapI限制性位点的REV引物的多核苷酸序列。
SEQ ID NO:94示出了允许直接SapI克隆向导序列(载体pGRN002的一部分)的gBlock的多核苷酸序列。
SEQ ID NO:95示出了表达载体pGRN002的多核苷酸序列。
SEQ ID NO:96示出了FW引物方法1的多核苷酸序列:两侧各30bp。
SEQ ID NO:97示出了REV引物方法1的多核苷酸序列:两侧各30bp。
SEQ ID NO:98示出了PCR片段方法1的多核苷酸序列:两侧各30bp。将片段转化到酵母中,从而允许通过体内重组重构环状载体。
SEQ ID NO:99示出了FW引物方法1的多核苷酸序列:一侧50bp的尾巴。
SEQ ID NO:100示出了REV引物方法1的多核苷酸序列:一侧50bp的尾巴。
SEQ ID NO:101示出了PCR片段方法2的多核苷酸序列:一侧50bp的尾巴。将片段转化到酵母中,从而允许通过体内重组重构环状载体。
SEQ ID NO:102示出了用于获得5'侧翼A-连接子5序列以获得约1kB的基因组DNA缺失的FW引物的多核苷酸序列。
SEQ ID NO:103示出了用于获得5'侧翼A和B-连接子5序列以获得约1kB的基因组DNA缺失的REV引物的多核苷酸序列。
SEQ ID NO:104示出了用于获得约1kB的基因组DNA缺失的片段A(5'侧翼A-连接子5)的多核苷酸序列。
SEQ ID NO:105示出了用于获得5'侧翼B-连接子5序列以获得约10kB的基因组DNA缺失的FW引物的多核苷酸序列。
SEQ ID NO:106示出了用于获得约10kB的基因组DNA缺失的片段B(5'侧翼B-连接子5)的多核苷酸序列。
SEQ ID NO:107示出了用于获得连接子5-TDH3p-GFP-ENO1t-连接子3PCR片段的FW引物的多核苷酸序列。
SEQ ID NO:108示出了用于获得连接子5-TDH3p-GFP-ENO1t-连接子3PCR片段的REV引物的多核苷酸序列。
SEQ ID NO:109示出了片段C连接子5-TDH3p-GFP-ENO1t-连接子3合成盒的多核苷酸序列。
SEQ ID NO:110示出了用于获得连接子3-3'侧翼A序列以获得约1kB的基因组DNA缺失的FW引物的多核苷酸序列。
SEQ ID NO:111示出了用于获得连接子3-3'侧翼A和B序列以获得约1kB的基因组DNA缺失的REV引物的多核苷酸序列。
SEQ ID NO:112示出了用于获得约1kB的基因组DNA缺失的片段D(连接子3-3'侧翼A)的多核苷酸序列。
SEQ ID NO:113示出了用于获得连接子3-3'侧翼B序列以获得约10kB的基因组DNA缺失的FW引物的多核苷酸序列。
SEQ ID NO:114示出了用于获得连接子3-3'侧翼B序列以获得约10kB的基因组DNA缺失的REV引物的多核苷酸序列。
SEQ ID NO:115示出了用于获得约10kB的基因组DNA缺失的片段E(连接子3-3'侧翼B)的多核苷酸序列。
SEQ ID NO:116示出了根据SEQ ID NO:7至SEQ ID NO:10的正向引物中前15个多核苷酸(核苷酸1-15)的多核苷酸序列。
SEQ ID NO:117示出了根据SEQ ID NO:7至SEQ ID NO:10的正向引物中最后25个多核苷酸(核苷酸36-60)的多核苷酸序列。
SEQ ID NO:118示出了根据SEQ ID NO:11至SEQ ID NO:14的反向引物中前15个多核苷酸(核苷酸1-15)的多核苷酸序列。
SEQ ID NO:119示出了根据SEQ ID NO:11至SEQ ID NO:14的反向引物中的最后25个多核苷酸(核苷酸36-60)的多核苷酸序列。
发明详述
我们惊奇地发现:通过应用可重复使用的标准化载体元件和重叠延伸PCR(overlap-extension-PCR,OE-PCR)来引入可变的向导序列,能够有效地产生包含多个gRNA-表达盒的载体。由于根据本发明的多片段组装体的设计,可以以低成本直接组装功能性多gRNA盒。本文描述的方法提供了灵活性,其使用一组可以以灵活方式重复使用的标准化载体元件(例如一组标准化的标记盒、复制起点盒、荧光/显色盒、启动子、终止子等)进行操作。
第一方面,本发明涉及一种产生包含一种或多种向导多核苷酸表达盒的载体、优选环状载体的方法,其中所述一种或多种向导多核苷酸表达盒包含编码与一种或多种控制序列可操作地相连的向导多核苷酸的多核苷酸,所述控制序列指导所述向导多核苷酸在宿主细胞中的表达,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述方法包括以下步骤:
-提供一种或多种多核苷酸,其中所述一种或多种多核苷酸包含待延伸的多核苷酸序列,其中所述待延伸的多核苷酸序列在待延伸的5’-端和/或3’-端包含向导多核苷酸表达盒的片段;
-进行一个或多个重叠延伸PCR反应,其是通过在每个反应中使所述一种或多种多核苷酸中的一种和两种合适的多核苷酸引物产生一种杂交线性多核苷酸,
其中选择待延伸的一种或多种多核苷酸序列和合适的多核苷酸引物,使得在所述一个或多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体;
-使在所述重叠延伸PCR中获得的一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸进行组装反应,从而产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体,
其中所述组装反应发生在体内。
“向导多核苷酸表达盒”在本文中被定义为包含编码向导多核苷酸的多核苷酸的表达盒,所述向导多核苷酸与一种或多种指导所述向导多核苷酸在合适宿主细胞中表达的控制序列可操作地相连。在本发明的语境中,“向导多核苷酸”包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体。
在本发明的所有实施方式的上下文中,术语“CRISPR-Cas复合体”指的是包含与靶多核苷酸杂交并与Cas蛋白复合的向导多核苷酸的复合体。在最简单的形式中,当使用未突变的Cas蛋白(例如但不限于Streptococcus pyogenes的Cas9蛋白)时,CRISPR-Cas复合体的形成导致在靶多核苷酸中或附近(例如,距离靶多核苷酸1、2、3、4、5、6、7、8、9、10、20、50个或更多个碱基对内)切割一条或两条多核苷酸链。通常,根据本发明的靶多核苷酸(在下文定义)与PAM序列(在下文定义)相关联,并且PAM序列优选紧接着在靶多核苷酸的下游(3');CRISPR-Cas复合体的形成通常导致PAM序列上游(5')3个碱基对处的一条或两条多核苷酸链被切割。
“向导多核苷酸”在本文中意指至少包含向导序列的多核苷酸,所述向导序列能够与靶多核苷酸(例如,宿主细胞基因组中的靶多核苷酸)杂交,并且能够指导CRISPR-Cas系统与靶多核苷酸的序列特异性结合以形成CRISPR-Cas复合体。在一个实施方式中,向导多核苷酸是gRNA。为了使得能够形成活性CRISPR-Cas复合体,向导多核苷酸优选还包含具有特定二级结构并允许Cas蛋白与向导多核苷酸结合的序列。此类序列在本领域中被称为tracrRNA、tracr序列、tracr支架或向导多核苷酸结构组分,这些术语在本文中可互换使用;其中tracr是反式激活CRISPR的缩写;因此tracrRNA表示反式激活CRISPR RNA。原始CRISPR-Cas系统中的tracrRNA是将crRNA(向导序列)与Cas核酸酶相连的内源性细菌RNA,能够结合任何crRNA。向导多核苷酸结构组分可以由单个多核苷酸分子构成,或者可以由两个或更多个彼此杂交的分子构成;向导多核苷酸结构组分的这种杂交组分可以被称为tracr序列和tracr-匹配(tracr-mate)序列。因此,向导多核苷酸优选还包含tracr序列和/或tracr-匹配序列。向导多核苷酸是根据下文所示的多核苷酸的一般定义的多核苷酸;优选的向导多核苷酸包含核糖核苷酸,更优选的向导多核苷酸是RNA(向导RNA或gRNA)。图1中示出了典型的向导多核苷酸结构的两个例子。
在本发明的语境中,如果主题序列能够与靶序列或靶多核苷酸杂交,优选在如在宿主细胞中的生理条件下杂交,则“向导序列”被称为基本上是靶序列或靶多核苷酸(例如,宿主细胞基因组中存在的靶序列或靶多核苷酸)的反向互补物。当使用合适的比对算法最佳比对时,向导序列与其相应靶序列之间的互补性程度优选高于50%、60%、75%、80%、85%、90%、95%、97.5%、99%的序列同一性。可以使用用于比对序列的任何合适算法(优选本文中在“序列同一性”下所定义的算法)来确定最佳比对。当靶多核苷酸是双链多核苷酸时,主题序列(例如向导序列)可能够与靶多核苷酸的任一条链(例如,编码链或非编码链)杂交。优选地,根据本发明的向导序列靶向靶标中独特的靶序列。优选地,根据本发明的向导序列与紧邻PAM序列的靶多核苷酸中的8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸,更优选8、9、10、11或12个核苷酸具有100%序列同一性。根据本发明的向导序列的长度优选为8-30、更优选10-30、更优选15-30、更优选17-27、更优选17-20、更优选17、18、19、20、21、22、23、24、25、26或27个核苷酸。向导序列指导CRISPR-Cas系统与靶序列的序列特异性结合以形成CRISPR-Cas复合体的能力可以通过任何合适的试验来评估。例如,可以将足以形成CRISPR-Cas复合体的CRISPR系统的组分(包括待检测的向导序列)提供给具有相应靶序列的宿主细胞,例如通过用编码CRISPR-Cas系统的组分的载体转染,然后评估靶序列内的优先切割,例如通过检查员试验(Surveyor assay)(由Integrated DNATechnologies,Leuven,Belgium提供的
Figure BDA0001587231190000191
突变检测试剂盒)或另一种序列分析试验例如测序。可通过下述方法在试验管中评价靶多核苷酸的切割:提供靶多核苷酸、CRISPR-Cas系统的组分(包括待检测的向导序列和不同于测试的向导序列的对照向导序列),并比较测试的向导序列反应和对照向导序列反应之间靶序列处的切割速率或结合。其他试验也是可以的,并且是本领域技术人员已知的。人们认为向导多核苷酸结构组分是形成活性CRISPR-Cas复合体所必需的。人们认为向导多核苷酸结构组分与向导序列可操作地相连不是必需的;然而,向导多核苷酸结构组分可与向导多核苷酸内的向导序列可操作地相连。根据本发明的向导多核苷酸结构组分可包含野生型向导多核苷酸结构组分的全部或部分(例如,野生型tracr序列的约或多于约20、26、32、45、48、54、63、67、85或更多个核苷酸)或由其组成,其形成CRISPR-Cas复合体的一部分;例如通过根据本发明的tracr序列的至少一部分与根据本发明的tracr-匹配序列的全部或部分杂交并优选地与根据本发明的向导序列可操作地相连。根据本发明的tracr序列与根据本发明的tracr-匹配序列具有足够的互补性,使得能够杂交,优选在如在宿主细胞中的生理条件下杂交,并促进CRISPR-Cas复合体的形成。就根据本发明的靶序列而言,认为不需要完全的互补性,只要存在足够的互补性使得有功能即可。优选地,当最佳比对时,根据本发明的tracr序列沿着根据本发明的tracr-匹配序列的长度具有至少50%、60%、70%、80%、90%、95%或99%的序列同一性。可以使用用于比对序列的任何合适算法(优选本文中在“序列同一性”下所定义的算法)来确定最佳比对。通常,根据本发明的tracr-匹配序列包括与根据本发明的tracr序列具有足够的互补性以促进在靶序列处形成CRISPR-Cas复合体的任何序列,其中所述CRISPR-Cas复合体包含与根据本发明的tracr序列杂交的根据本发明的tracr-匹配序列。根据本发明的tracr序列与根据本发明的tracr-匹配序列的互补性程度优选地根据tracr-匹配序列和tracr序列沿着两条序列中较短者的长度的最佳比对来定义。可以使用用于比对序列的任何合适算法(优选本文中在“序列同一性”下所定义的算法)来确定最佳比对。优选地,关于根据本发明的tracr-匹配序列和根据本发明的tracr序列,考虑二级结构,例如tracr序列或tracr-匹配序列内的自互补性。优选地,当最佳比对时,根据本发明的tracr序列与根据本发明的tracr-匹配序列之间沿着两条序列中较短者的长度的互补性程度高于50%、60%、75%、80%、85%、90%、95%、97.5%、99%的序列同一性。优选地,根据本发明的tracr-匹配序列的长度为5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、40、50个或更多个核苷酸。优选地,根据本发明的tracr序列的长度为5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、40、50个或更多个核苷酸。优选地,根据本发明的tracr序列和根据本发明的tracr-匹配序列(即向导多核苷酸结构组分)包含在单个转录物内,使得两者之间的杂交产生包含二级结构(例如发夹)的杂交复合体。当tracr序列和tracr-匹配序列未包含在单个转录物中时,也可以形成这种杂交复合体。用于形成发夹结构的根据本发明的tracr序列和/或根据本发明的tracr-匹配序列和/或根据本发明的向导多核苷酸结构组分中优选的环形成序列的长度是四个核苷酸,并且最优选具有GAAA序列;可以使用更长或更短的环序列(loop sequence),也可以使用替代序列。环序列优选包括核苷酸三联体(例如AAA)和另外的核苷酸(例如C或G)。环形成序列的例子包括CAAA和AAAG。优选地,根据本发明的tracr序列和/或根据本发明的tracr-匹配序列或其杂交复合体和/或根据本发明的向导多核苷酸结构组分包含或能够形成至少两个或更多个发夹。更优选地,根据本发明的tracr序列和/或根据本发明的tracr-匹配序列或其杂交复合体和/或根据本发明的向导多核苷酸结构组分包含或能够形成2个、3个、4个或5个发夹。优选地,根据本发明的tracr序列和/或根据本发明的tracr-匹配序列或其杂交复合体和/或根据本发明的向导多核苷酸结构组分包含或能够形成至多五个发夹。优选地,根据本发明的tracr序列和根据本发明的tracr-匹配序列或根据本发明的tracr序列和根据本发明的tracr-匹配序列的杂交复合体和/或根据本发明的向导多核苷酸结构组分的单一转录物还包含转录终止序列;优选地,所述转录终止序列是polyT序列,例如6个T核苷酸,或者对于酵母优选的是TTTTTTTGTTTTTTATGTCT(SEQ ID NO:1)。如所述,向导多核苷酸结构组分是本领域技术人员已知的;背景信息可以例如在Gaj等人,2013中找到。
在根据本发明的所有实施方式的上下文中,术语“靶多核苷酸”是指如本文所定义的向导序列被设计成与其具有互补性的如本文所定义的靶序列,其中如本文所定义的靶序列与如本文所定义的向导序列之间的杂交促进CRISPR-Cas复合体的形成。完全互补不是必需的,只要存在引起杂交并促进CRISPR-Cas复合体形成的足够的互补性即可。优选地,如本文所定义的向导序列靶向靶标中独特的靶序列。优选地,向导序列与紧邻PAM序列的靶多核苷酸中的8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸,更优选8、9、10、11或12个核苷酸具有100%序列同一性。如本文所定义的靶多核苷酸可以包含任何多核苷酸,例如DNA或RNA多核苷酸,并且可以是单链或双链的。当靶多核苷酸是双链多核苷酸时,如本文所定义的向导序列可能够与靶多核苷酸的任一条链(例如编码链或非编码链)杂交。
如本文所定义的靶多核苷酸可位于细胞的细胞核或细胞质中。如本文所定义的靶多核苷酸可位于宿主细胞的细胞器中,例如位于线粒体或叶绿体中。如本文所定义的靶多核苷酸可以包含在基因组中,可以包含在染色体中或可以在染色体外,可以包含在人工染色体(例如酵母人工染色体(YAC))中,可以存在于任何染色体实体或染色体外实体(例如常染色体复制实体,例如附加型质粒或载体)中。如本文所定义的靶多核苷酸对于宿主细胞而言可以是天然的或外来的。如本文所定义的靶多核苷酸优选与原间隔序列邻近基序(PAM)相关连,所述PAM是被CRISPR-Cas复合体识别的短多核苷酸。优选地,靶多核苷酸和PAM相连,其中PAM优选紧接在靶多核苷酸的下游(3')。PAM的确切序列和长度可以变化,例如,不同的Cas蛋白可需要不同的PAM。根据本发明的优选PAM是长度为2至8个核苷酸的多核苷酸。优选的PAM选自5'-XGG-3'、5'-XGGXG-3'、5'-XXAGAAW-3'、5'-XXXXGATT-3'、5'-XXAGAA-3'5'-XAAAAC-3',其中X可以是任何核苷酸或其类似物,优选任何核苷酸;W是A或T。更优选的PAM是5'-XGG-3'。PAM优选与Cas蛋白相匹配。最广泛使用的CAS/CRISPR系统来源于S.pyogenes,匹配的PAM序列5'-XGG-3'紧接着位于靶序列的下游(3')。用于Neisseriameningitidis Cas蛋白的优选PAM是5'-XXXXGATT-3';用于Streptococcus thermophilusCas蛋白的优选PAM是5'-XXAGAA-3';用于Treponema denticola的优选PAM是5'-XAAAAC-3'。优选的PAM与所使用的Cas蛋白相匹配。根据本发明的Cas蛋白可被工程化以匹配与匹配野生型Cas蛋白的天然PAM不同的PAM。因此,根据本发明的CRISPR-Cas系统可被用于定制的特异性靶向。
优选的基因组分别是Aspergillus、Penicillium、Rasamsonia、Trichoderma、Yarrowia、Saccharomyces、Kluyveromyces、Mortierella、Bacillus、Escherichia、Pichia和Issatchenkia的基因组。所述微生物的基因组的非限制性实例可以通过在例如(http:// www.ncbi.nlm.nih.gov/)的如下的其Genbank访问ID号码访问:A.niger ATCC 1015NCBI访问号ACJE00000000,A.niger CBS 513.88基因组序列可通过EMBL访问号AM269948至AM270415访问;Aspergillus oryzae RIB40BA000049至BA000056;Penicilliumchrysogenum威斯康星54-1255完整基因组,访问号AM920416至AM920464;Kluyveromyceslactis CBS2359NRRL Y-1140访问号AJ229366至AJ230023;Kluyveromyces lactis NRRLY-1140访问ID NC_006037至NC_006042;Saccharomyces cerevisiae CEN.PK113-7D访问IDCM001522至CM001537;Saccharomyces cerevisiae S288c访问ID NC_001133至NC_001148;Rasamsonia Emersonii CBS 393.64访问ID LASV01000001至LASV01000862;Yarrowialipolitica PO1f访问ID CM002778至CM002783;Yarrowia lipolitica CLIB122访问IDCR382127至CR382132;Bacillus subtilis subsp.subtilis str.168访问ID AL009126;Escherichia coli str.K-12substr.MG1655访问ID U00096.3;Pichia pastoris访问IDFN392319-FN392325,Pichia kudriavzevii M12(也称为Issatchenkia orientalis),访问号:GenBank:ALNQ00000000.1,Trichoderma reesei QM6a GL985056-GL985132。
基因组中未知或不确定的核苷酸(例如用“n”表示的核苷酸)优选被排除作为多核苷酸序列靶标。
术语“CRISPR系统”、“CRISPR-Cas系统”和“CRISPR酶系统”在本文中可互换使用,在本发明的所有实施方式的上下文中,其指的是与靶多核苷酸一起形成CRISPR-Cas复合体所需的元件的集合;这些元件包括但不限于Cas蛋白和向导多核苷酸。
术语“多核苷酸”、“(多)核苷酸序列”和“核酸”在本文中可互换使用,在本发明的所有实施方式的上下文中,其指的是任何长度的核苷酸(脱氧核糖核苷酸或者核糖核苷酸,或其混合物或类似物)的聚合形式。多核苷酸可以具有任何三维结构,并且可以执行已知或未知的任何功能。以下是多核苷酸的非限制性实例:基因或基因片段的编码区或非编码区、由连锁分析(linkage analysis)确定的基因座、外显子、内含子、信使RNA(mRNA)、转运RNA(tRNA)、核糖体RNA(rRNA)、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微RNA(miRNA)、核酶、cDNA、重组多核苷酸、分支多核苷酸、质粒、载体、任何序列的分离的DNA、任何序列的分离的RNA、核酸探针、寡核苷酸和引物。多核苷酸可以包含一个或多个经修饰的核苷酸,例如甲基化的核苷酸和核苷酸类似物或核苷酸等同物,其中核苷酸类似物或等同物被定义为具有经修饰的碱基和/或经修饰的骨架和/或非天然核苷间键合或这些修饰的组合的残基。优选的核苷酸类似物和等同物描述在“一般定义”部分中。根据期望,可以在组装多核苷酸之前或之后引入对核苷酸结构的修饰。可以在聚合后进一步修饰多核苷酸,例如通过与标记化合物缀合。多核苷酸可以是单链或双链的。当提到编码另一种多核苷酸的多核苷酸时,术语多核苷酸的含义通常包括双链多核苷酸,即使仅提到两条链中的一条(即提到编码链)亦是如此。
根据第一方面的产生载体、优选环状载体的方法在第一步中包括:
-提供一种或多种多核苷酸,其中所述一种或多种多核苷酸包含待延伸的多核苷酸序列,其中所述待延伸的多核苷酸序列在待延伸的5’-端和/或3’-端包含向导多核苷酸表达盒的片段。
所述一种或多种多核苷酸可以是如上文所定义的多核苷酸。所述一种或多种多核苷酸中的每一种均包含待延伸的多核苷酸序列。在本发明的语境中,待延伸的多核苷酸序列是包含在所述一种或多种多核苷酸中的每一种中的多核苷酸序列,所述多核苷酸序列将通过方法的第二步中的重叠延伸PCR反应进行延伸以产生根据本发明的载体、优选环状载体,并且与反应中使用的引物的核苷酸序列剪接(spliced)/杂交。所得到的延伸的多核苷酸序列包含待延伸的多核苷酸序列,其与反应中使用的引物的核苷酸序列剪接/杂交。所述延伸的多核苷酸序列在本文中被表示为杂交的线性多核苷酸。
包含在经历重叠延伸PCR反应的所述一种或多种多核苷酸的每一种中的待延伸的多核苷酸序列可以是所述多核苷酸的子序列(sub-sequence),或者其可以包含完整的多核苷酸序列。因此,在一个实施方式中,经历重叠延伸PCR反应的多核苷酸由待延伸的多核苷酸序列组成。
待延伸的多核苷酸序列在待延伸的5’-端和/或3’-端包含向导多核苷酸表达盒的片段。
如上文所定义的“向导多核苷酸表达盒”是编码向导多核苷酸的多核苷酸,所述向导多核苷酸与一种或多种指导所述向导多核苷酸在宿主细胞中表达的控制序列可操作地相连。
向导多核苷酸表达盒包含在宿主细胞中表达向导多核苷酸所需的全部控制序列,其中所述控制序列与所述向导多核苷酸可操作地相连。通常,向导多核苷酸表达盒至少包含启动子,所述启动子与待在宿主细胞中表达的向导多核苷酸的编码序列和终止子序列可操作地相连。
如本文所用的术语“可操作地相连”是指两个或更多个物理连接并且彼此处于功能性关系的核酸序列元件。例如,如果满足以下条件,则控制序列(例如启动子)与DNA编码序列可操作地相连:启动子能够起始或调控编码序列的转录或表达,即处于以下构象,其中,控制序列处于相对于编码序列的合适位置,所述位置使得控制序列指导RNA(例如mRNA或gRNA)以及任选的从所述mRNA翻译的多肽的生产,在这种情况下,编码序列应被理解为“受启动子的控制”。通常,当两条核酸序列可操作地相连时,它们处于相同的方向并且往往也处于同一读码框中。他们通常基本上是连续的,但这可以不是必需的。
术语“控制序列”在本文中被定义为包括对于在体外或在宿主细胞中表达RNA和/或多肽是必需的或有利的所有组分(如果控制序列与编码感兴趣的化合物或参与感兴趣的化合物的产生的多核苷酸可操作地相连)。这种控制序列包括但不限于前导序列、Shine-Delgarno序列(也表示为核糖体结合位点)、聚腺苷酸化序列、前肽序列(pro-peptidesequence)、原前肽序列(pre-pro-peptide sequence)、启动子、信号序列和转录终止子。
控制序列可以带有接头,以引入特定的限制性位点,从而促进控制序列与向导多核苷酸的编码区连接。
控制序列可以是合适的启动子序列(启动子)。
控制序列也可以是合适的转录终止子(终止子)序列,其为被宿主细胞识别以终止转录的序列。终止子序列与编码向导多核苷酸或编码感兴趣的化合物的核酸序列的3’-末端可操作地相连。在细胞中有功能的任何终止子都可以用于本发明。本领域技术人员知道在本文所述的宿主细胞中可以使用哪种类型的终止子。
控制序列也可以是5'非翻译序列(也称为前导序列),即宿主细胞翻译而言重要的mRNA的非翻译区。翻译起始序列或5'-非翻译序列与编码感兴趣的化合物或与本文其它地方定义的感兴趣的化合物有关的化合物的编码序列的5'-末端可操作地相连。在细胞中有功能的任何前导序列都可以用于本发明。
控制序列也可以是聚腺苷酸化序列,即与核酸序列的3'-末端可操作地相连,并且当转录时被宿主细胞(突变的或亲本)识别为向转录的mRNA添加聚腺苷残基的信号的序列。在细胞中有功能的任何聚腺苷酸化序列都可以用于本发明。
术语“启动子”在本文中被定义为结合RNA聚合酶并指导聚合酶到编码生物化合物(例如,感兴趣的化合物或向导多核苷酸)的核酸序列的正确下游转录开始位点以起始转录的DNA序列。RNA聚合酶有效地催化向导RNA或与编码区的适当DNA链互补的信使RNA的组装。术语“启动子”还被理解为包括在转录成mRNA(当启动子与编码感兴趣的化合物或编码参与感兴趣的化合物合成的化合物的多核苷酸可操作地相连时)之后用于翻译的5'-非编码区(介于启动子和翻译起点之间),顺式作用转录控制元件例如增强子,以及能够与转录因子相互作用的其它核苷酸序列。
在本发明的语境中,“向导多核苷酸表达盒的片段”是包含仅(功能性)向导多核苷酸表达盒的一部分的多核苷酸。在一个实施方式中,向导多核苷酸表达盒的片段包含含有向导多核苷酸表达盒的5'-末端的片段。在另一个实施方式中,向导多核苷酸表达盒的片段包含含有向导多核苷酸表达盒的3'-末端的片段。在一个实施方式中,待延伸的多核苷酸序列在5’-末端包含含有所述表达盒的3'-末端的向导多核苷酸表达盒的片段。在另一个实施方式中,待延伸的多核苷酸序列在3'-末端包含含有向导多核苷酸表达盒的5'-末端的向导多核苷酸表达盒的片段。在一个实施方式中,包含向导多核苷酸表达盒的5'-末端的片段包含向导多核苷酸表达盒的控制序列,更优选包含启动子。在另一个实施方式中,包含向导多核苷酸表达盒的3'-末端的片段包含向导多核苷酸结构元件和控制序列,更优选包含向导多核苷酸结构元件和终止子。在一个优选实施方式中,在待延伸的多核苷酸序列的5’-端和/或3’-端的向导多核苷酸表达盒的片段不包含编码向导序列的多核苷酸。后一种实施方式具有以下优点:允许使用标准化载体元件,所述标准化载体元件连同重叠延伸PCR(OE-PCR)一起允许引入可变的向导序列。因此,可以以低成本直接组装功能性的多gRNA盒。在第二步中,根据第一方面的产生包含一种或多种向导多核苷酸表达盒的载体、优选环状载体的方法包括:
-进行一个或多个重叠延伸PCR反应,其是通过在每个反应中使所述一种或多种多核苷酸中的一种和两种合适的多核苷酸引物产生一种杂交线性多核苷酸,
其中选择待延伸的一种或多种多核苷酸序列和合适的多核苷酸引物,使得在所述一个或多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体。
在整个发明中,根据本发明的方法在体内组装的包含一种或多种向导多核苷酸表达盒的载体优选是自主复制的环状载体。或者,所述包含一种或多种向导多核苷酸表达盒的载体可以是自主复制线性载体。自主复制线性载体是本领域技术人员已知的(FinbarrHayes(2003);Takahashi S等人(2011);Burke DT,等人(1987))。
因此,在本发明的语境中,经历重叠延伸PCR反应的一种或多种多核苷酸是包含将在重叠延伸PCR反应中延伸的多核苷酸序列的多核苷酸。
在本发明的语境中,术语“重叠延伸PCR”(OE-PCR)、“PCR介导的重叠延伸”、“基于PCR的重叠延伸”、“通过重叠延伸的剪接(SOE)”、“通过重叠延伸的基因剪接”、“通过重叠延伸PCR的剪接(SOE-PCR)”、“通过重叠延伸PCR的基因剪接”、“通过PCR介导的重叠延伸的基因剪接”、“通过PCR驱动的重叠延伸的基因剪接”和类似的措辞具有相同的含义并且在本文中可以互换使用。重叠延伸PCR(本文缩写为OE-PCR)是在20世纪80年代后期开发的本领域技术人员公知的基于聚合酶链式反应的技术(参见Horton等人)。该技术描述于上述Horton等人以及Heckman和Pease等等中。重叠延伸PCR的机制例如描述于Horton等人(通过引用并入本文)的图1以及Heckman和Pease(通过引用并入本文)的图1b中。
在一个实施方式中,所述的“进行一个或多个重叠延伸PCR反应,其是通过在每个反应中使所述一种或多种多核苷酸中的一种和两种合适的多核苷酸引物产生一种杂交线性多核苷酸,
其中选择待延伸的一种或多种多核苷酸序列和合适的多核苷酸引物,使得在所述一个或多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体”包括以下步骤:
a)在每种反应中使所述一种或多种多核苷酸中的一种和一种合适的多核苷酸引物进行重叠延伸PCR反应,其中所述多核苷酸引物的3'-末端含有包含在所述一种或多种多核苷酸中的待延伸的多核苷酸序列的3’-端的互补序列,或者其中所述多核苷酸引物的互补物的3'-末端含有包含在所述一种或多种多核苷酸中的待延伸的多核苷酸序列的互补物的3’-端的互补序列,以产生一种杂交线性多核苷酸,所述杂交线性多核苷酸的序列包含在其3'-末端或其5'-末端与合适引物的多核苷酸序列剪接的待延伸的多核苷酸序列,
b)任选地,使在步骤a)中获得的杂交线性多核苷酸和另一种合适的引物进行第二重叠延伸PCR反应,其中所述多核苷酸引物的3'-末端含有杂交线性多核苷酸的3’-端的互补序列,所述杂交线性多核苷酸的序列包含在其3'-末端或其5'-末端与第一合适引物的多核苷酸序列剪接的待延伸的多核苷酸序列;或者,其中其它多核苷酸引物的互补物的3'-末端含有杂交线性多核苷酸的互补物的3’-端的互补序列,所述杂交线性多核苷酸的序列包含在其3'-末端或其5'-末端与第一合适引物的多核苷酸序列剪接的待延伸的多核苷酸序列,以产生一种杂交线性多核苷酸,所述杂交线性多核苷酸的序列包含在其3'-末端和其5'-末端与合适引物的多核苷酸序列剪接的待延伸的多核苷酸序列,
其中选择待延伸的一种或多种多核苷酸序列和合适的多核苷酸引物,使得在所述一个或多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体。
选择待延伸的一种或多种多核苷酸序列和用于重叠延伸PCR反应中的合适的多核苷酸引物,使得
1)在所述一个或多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸都至少包含编码向导序列的多核苷酸;
2)所述在一个或多个重叠延伸PCR反应中获得的一种或多种杂交线性多核苷酸包含合适的5'-末端和3'-末端,从而允许一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体,
3)所述在一个或多个重叠延伸PCR反应中获得的一种或多种杂交线性多核苷酸包含合适的5'-末端和3'-末端,从而允许所述一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装。
为了满足条件1),在待延伸的5’-末端和/或3’-末端包含向导多核苷酸序列的片段的待延伸的多核苷酸序列可以包含编码向导多核苷酸序列的多核苷酸序列。或者,为了满足条件1),重叠延伸PCR反应中所使用的合适引物可以包含编码向导序列的多核苷酸。在又一个实施方式中,待延伸的多核苷酸序列和重叠延伸PCR反应中使用的合适引物都包含编码向导序列的多核苷酸的一部分,在OE-PCR反应中剪接两个序列之后,其能够产生编码向导序列的完整多核苷酸。在一个优选的实施方式中,待延伸的多核苷酸序列的5’-端和/或3’-端的向导多核苷酸表达盒的片段不包含编码向导序列的多核苷酸。在一个优选的实施方式中,用于重叠延伸PCR反应中的合适引物包含编码向导序列的多核苷酸。
为了满足条件2),将在一个或多个OE-PCR反应中延伸的多核苷酸序列在待延伸的5’-端和/或3’-端包含向导多核苷酸表达盒的片段,并且在一个或多个OE-PCR反应中所使用的一种或多种引物可以包含所述向导多核苷酸表达盒的第二片段,使得在OE-PCR之后,所获得的杂交线性多核苷酸在其5'-末端或在其3'-末端包含至少一个功能性向导多核苷酸表达盒。或者,将在一个或多个OE-PCR反应中延伸的多核苷酸序列在待延伸的5’-端和3’-端包含向导多核苷酸表达盒的片段,并且在一个或多个OE-PCR反应中所使用的引物可以包含所述向导多核苷酸表达盒的第二片段,使得在OE-PCR之后,所获得的杂交线性多核苷酸在5'-末端和3'-末端都包含功能性向导多核苷酸。在另一替代性实施方式中,在一个或多个重叠延伸PCR反应中获得的杂交线性多核苷酸在其5'-末端和/或3'-末端包含向导多核苷酸表达盒的片段,并且在一种或多种杂交线性多核苷酸彼此并任选地与一种或多种另外的线性多核苷酸组装之后生成功能性表达盒。因此,在本发明的一个实施方式中,在重叠延伸PCR反应中获得的杂交线性多核苷酸不包含功能性向导多核苷酸表达盒。杂交线性多核苷酸优选包含向导多核苷酸表达盒的片段,所述片段包含编码向导序列的多核苷酸。
在本发明的语境中,所述一种或多种另外的线性多核苷酸是如上文所定义的线性多核苷酸,其不包含编码向导序列的核苷酸。
为了满足条件3),设计待组装的一种或多种杂交线性多核苷酸以及任选的一种或多种另外的线性多核苷酸中存在的5'-末端和3'-末端,以允许所述一种或多种杂交线性多核苷酸和任选的所述一种或多种另外的线性多核苷酸之间以预定的顺序体内同源重组,从而导致通过同源重组形成一种类型的产物。
在OE-PCR反应中,使用合适的引物和一种或多种多核苷酸来产生如上文所定义的杂交线性多核苷酸。
在根据本发明的产生载体、优选环状载体的方法的一个实施方式中,每个重叠延伸PCR反应中使用的引物的长度为至多100个核苷酸,优选至多长度为80、70、60、50、40、30个核苷酸。在根据本发明的产生环状载体的方法的另一个实施方式中,每个重叠延伸PCR反应中使用的引物的长度为至少30个核苷酸,优选长度至少为40、50、60个核苷酸。
选择(例如选择和设计)根据本发明的产生载体、优选环状载体的方法中所用的引物,使得在一个或多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸都至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体。
因此,在一个实施方式中,OE-PCR反应中使用的合适的引物至少包含编码向导序列的多核苷酸。在另一个实施方式中,OE-PCR反应中使用的合适的引物至少包含编码向导序列的多核苷酸和末端,例如含有待延伸的多核苷酸序列的3'-端的互补序列的3'-末端。在另一个实施方式中,OE-PCR反应中使用的合适的引物至少包含编码向导序列的多核苷酸和末端,例如含有杂交多核苷酸的3'-端的互补序列的3'-末端。在又一个实施方式中,OE-PCR反应中使用的合适的引物至少包含编码向导序列的多核苷酸,含有待延伸的多核苷酸序列的3'-端的互补序列的3'-末端或者含有待延伸的杂交多核苷酸的3'-端的互补序列的3'-末端,以及与待用于组装步骤中的杂交线性多核苷酸或另外的线性多核苷酸的3’-末端共享同源序列的5’-末端。
根据第一方面的产生载体、优选环状载体的方法的最后一步包括:
-使在所述重叠延伸PCR中获得的一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸进行组装反应,从而产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体,
其中所述组装反应发生在体内。
根据本发明,组装反应发生在宿主细胞中。换言之,根据本发明,组装反应发生在体内。在重叠延伸PCR中获得的一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸的组装通过同源重组在体内发生。该步骤利用了发生组装反应的宿主细胞中的同源重组介导的双链断裂DNA修复通路。可发生组装反应的合适宿主细胞是S.cerevisiae。利用同源重组介导的DNA修复通路产生线性或环状载体的方法是本领域技术人员已知的,例如描述于Raymond等人中。
“同源重组”指的是具备包含相似核苷酸序列的对应位点的核苷酸序列(即同源序列)之间的反应,通过所述反应,分子能够相互作用(重组)以形成新的、重组的核酸序列。各相似核苷酸序列的位点在本文中被称为“同源序列”。通常,同源重组的频率随着同源序列的长度的增加而增加。因此,虽然同源重组能够在不太相同的两种核酸序列之间发生,但随着两种序列之间的差异的增加,重组频率(或效率)下降。
可使用要组合的两个分子的每一个上的一个同源序列来实现重组,从而产生“单交换”的重组产物。或者,可将两个同源序列放置在要重组的两个分子的每一个上。供体上的两个同源序列和靶标上的两个同源序列之间的重组生成“双交换”的重组产物。
因此,为了使两种多核苷酸序列通过同源重组彼此重组,两种多核苷酸都需要与彼此共享同源区。这些同源区在本文中可被互换地称为“侧翼区”、“侧翼序列”、“重叠区”、“重叠序列”、“同源区”、“同源序列”。为了使同源重组发生,同源序列不需要相同。然而,同源重组的效率随着同源序列之间的序列同一性水平增加。优选地,同源序列至少50%彼此相同,优选至少60%、70%、80%、85%、90%、95%彼此相同,更优选地同源序列100%彼此相同。本领域技术人员已知:同源重组的效率随着待重组的多核苷酸之间的同源序列的长度增加。在一个实施方式中,同源序列的长度为至少10bp,优选至少20bp、30bp、40bp、50bp、100bp、500bp、1000bp或更多。本领域技术人员已知:尽管在S.cerevisiae中同源重组的效率非常高,因为双链DNA断裂主要通过这种机制来修复;而在其他宿主细胞中,同源重组的效率较低,从而需要较长的同源序列。在丝状真菌中,所述同源序列的长度可以是数千个核碱基。本领域技术人员知道如何设计共享足够序列同一性的足够长的同源序列以允许有效的同源重组。优选地,同源序列共享至少80%的序列同一性并且长至少20bp。在一个优选实施方式中,在属于S.cerevisiae的宿主细胞中进行体内组装反应。
在根据第一方面的产生包含一种或多种向导多核苷酸表达盒的载体、优选环状载体的方法的一个实施方式中,待延伸的一种或多种多核苷酸序列或另外的线性多核苷酸包含一种或多种选自以下的元件:复制起点或其片段、选择标记或其片段、CAS9表达盒或其片段、供体多核苷酸或其片段。在根据第一方面的产生包含一种或多种向导多核苷酸表达盒的载体、优选环状载体的方法的另一个实施方式中,待延伸的一种或多种多核苷酸序列或另外的线性多核苷酸包含一种或多种选自以下的元件:复制起点或其片段、选择标记或其片段、CAS9表达盒或其片段、供体多核苷酸或其片段、控制序列或其片段。优选地,所述一种或多种元件包含标准化的和/或可重复使用的载体元件,即标准化的复制起点或其片段、标准化的选择标记盒或其片段、标准化的控制序列(例如标准化的启动子或终止子)或其片段。
“复制起点”在本文中被定义为染色体、质粒或病毒上复制起始处的DNA序列。术语“复制起点”或“质粒复制因子”或“复制子”在本文中被定义为使质粒或载体能够在体内复制的核苷酸序列。为了将本发明的载体维持在宿主细胞中,复制起点(ORI)(也称为自主复制序列(ARS)或复制子)是必需的。自主复制序列可以是允许独立于染色体复制的质粒复制的本领域技术人员可用的任何合适的序列。复制起点可以是介导在细胞中起作用的自主复制的任何质粒复制因子。细菌复制起点的例子有允许在E.coli中复制的质粒pBR322、pUC19、pACYC177和pACYC184的复制起点,允许在假单胞菌(Pseudomonas)中复制的RSF1010,例如F.Heffron等人在Proc.Nat'l Acad.Sci.USA 72(9):3623-27(1975年9月)中所述,以及允许在Bacillus中复制的pUB110、pE194、pTA1060和pAMβ1。为了在酵母中有效表达gRNA,导致高拷贝数的所得质粒的ORI是高度期望的。S.cerevisiae中使用的优选复制起点是2微米(2μ)质粒序列(Broach等人)。自主复制序列可以是赋予独立于染色体复制的质粒复制的本领域技术人员可用的任何合适的序列。优选地,自主复制序列是AMA1复制子(Gems等人)。
“选择标记”是允许容易地选择经转化细胞的基因,其产物提供杀生物剂抗性或病毒抗性、重金属抗性、营养缺陷型的原养型等。选择标记可在作为表达盒的载体上引入细胞,或者可在单独的载体上引入。一些生色蛋白或荧光蛋白可被用作选择标记。存在许多各种各样的生色蛋白或荧光蛋白,例如红色荧光蛋白(RFP)、绿色荧光蛋白(GFP)、mCherry、dsRed等等。
在丝状真菌细胞中使用的选择标记可选自下组,所述组包括但不限于amdS(乙酰胺酶)、argB(鸟氨酸氨甲酰基转移酶)、bar(草丁膦乙酰转移酶)、bleA(腐草霉素结合)、hygB(潮霉素磷酸转移酶)、niaD(硝酸还原酶)、pyrG(乳清苷-5'-磷酸脱羧酶)、sC(硫酸腺苷酰转移酶)、NAT或NTC(诺尔斯菌素)和trpC(邻氨基苯甲酸合酶)、kanMX(G418/遗传霉素抗性;选择标记kanMX是受来自Ashbya gossypii的强TEF启动子控制的由细菌氨基糖苷磷酸转移酶(来自转座子Tn903的kanr)组成的杂合基因;当用kanMX标记转化时,哺乳动物细胞、酵母和其它真核生物获得遗传霉素(=G418,类似于卡那霉素的氨基糖苷抗生素)抗性;在酵母中,kanMX标记避免了对营养缺陷型标记的需求;另外,kanMX标记使得E.coli对卡那霉素有抗性),以及来源于其它物种的等同物。用于Aspergillus和Penicillium细胞中优选的是amdS(见例如EP635574B1、EP0758020A2、EP1799821A2、WO 97/06261A2)和A.nidulans或A.oryzae的pyrG基因和Streptomyces hygroscopicus的bar基因。更优选地,使用amdS基因,甚至更优选使用来自A.nidulans或A.niger的amdS基因。最优选的选择标记基因是A.nidulans amdS编码序列融合至A.nidulans gpdA启动子(参见EP635574B1)。另一些优选的AmdS标记是在WO2006/040358中描述的标记。也可以使用来自其他丝状真菌的AmdS基因(WO 97/06261)。
可用于原核宿主细胞中的标记包括ATP合成酶,亚基9(oliC),乳清苷-5’-磷酸脱羧酶(pvrA),氨苄青霉素抗性基因(E.coli),新霉素、卡那霉素、四环素、壮观霉素、红霉素、氯霉素、腐草霉素的抗性基因(Bacillus)和编码β-葡糖醛酸糖苷酶(β-glucuronidase,GUS)的E.coli的uidA基因。载体可以在体外使用,例如用于在体外转录系统中体外产生RNA或用于转染或转化宿主细胞。
可用于转化大多数丝状真菌和酵母的通用标记基因例如乙酰胺酶基因或cDNA(来自A.nidulans、A.oryzae或A.niger的amdS、niaD、facA基因或cDNA),或提供抗生素抗性如G418抗性、潮霉素抗性、博莱霉素抗性、卡那霉素抗性、甲氨蝶呤抗性、腐草霉素抗性或苯菌灵抗性(benA)的基因。或者,可以使用特异性选择标记,例如需要相应的突变宿主菌株的营养缺陷型标记:例如D-丙氨酸消旋酶(来自Bacillus)、URA3(来自S.cerevisiae或来自其它酵母的类似基因)、pyrG或pyrA(来自A.nidulans或A.niger)、argB(来自来自A.nidulans或A.niger)或trpC。
用于连接上述元件以构建根据本发明的载体的程序是本领域技术人员公知的(参见例如Sambrook&Russell,Molecular Cloning:A Laboratory Manual,第3版,CSHLPress,Cold Spring Harbor,NY,2001;和Ausubel等人,Current Protocols in MolecularBiology,Wiley InterScience,NY,1995)。
“CAS9表达盒”是包含与允许在合适的宿主细胞中表达CAS9蛋白的控制序列可操作地相连的编码CAS9蛋白的多核苷酸的多核苷酸序列。上文定义了控制序列和可操作地相连。
在本发明的所有实施方式的上下文中,Cas蛋白是指适用于本发明目的的任何Cas蛋白。Cas蛋白可以包含酶活性或可以不包含酶活性。Cas蛋白的非限制性实例包括Casl、CasI B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9(也称为Csnl和Csxl2)、CaslO、Csyl、Csy2、Csy3、Csel、Cse2、Cscl、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmrl、Cmr3、Cmr4、Cmr5、Cmr6、Csbl、Csb2、Csb3、Csxl7、Csxl4、CsxlO、Csxl6、CsaX、Csx3、Csxl、CsxlS、Csfl、Csf2、Csf3、Csf4、其同系物或其经修饰形式(Slaymaker等人2016;Kleinstiver等人2016;Nelson和Gersbach2016)。替代上文所述的Cas蛋白,也可以在本发明的方法中使用Cpf1蛋白(如Zetsche等人2015中所述),任选地结合对向导多核苷酸表达盒的改造。这些Cas蛋白是本领域技术人员已知的;例如,S.pyogenes Cas9蛋白的氨基酸序列可以在SwissProt数据库中以登录号Q99ZW2找到。优选地,根据本发明的未修饰的Cas蛋白具有DNA切割活性,例如,Cas9。优选地,Cas蛋白是Cas9,并且可以是来自S.pyogenes或S.pneumoniae的Cas9或来自Staphylococcus aureus的Cas9(Ran等人,2015)。优选地,根据本发明的Cas蛋白指导在靶多核苷酸的位置(例如在靶多核苷酸内和/或在靶多核苷酸的反向互补物内)切割一条或两条多核苷酸链。在靶多核苷酸的位置在本文中被定义为在距离靶多核苷酸的第一个或最后一个核苷酸约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500或更多个核苷酸内;更优选地,在距离靶多核苷酸的第一个或最后一个核苷酸1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500或更多个核苷酸内;甚至更优选地,在距离靶多核苷酸的第一个或最后一个核苷酸1、2、3、4、5、6、7、8、9、10、15、20、25、50个核苷酸内。因此,根据本发明的Cas蛋白优选指导在距离靶多核苷酸的第一个或最后一个核苷酸约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500或更多个核苷酸内;更优选地,在距离靶多核苷酸的第一个或最后一个核苷酸1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500或更多个核苷酸内;甚至更优选地,在距离靶多核苷酸的第一个或最后一个核苷酸1、2、3、4、5、6、7、8、9、10、15、20、25、50个核苷酸内切割一条或两条多核苷酸链。通常,根据本发明的靶多核苷酸与PAM序列(在本文的其他地方定义)相关联,并且PAM序列优选紧接着在靶序列的下游(3');CRISPR-Cas复合体的形成通常导致PAM序列上游(5')3个碱基对处的一条或两条多核苷酸链被切割。
优选地,Cas蛋白具有指导在靶多核苷酸的位置切割两条多核苷酸链的活性。通常通过两个独立的催化结构域(即RuvC和HNH)实现Cas核酸酶活性。每个结构域切割一条多核苷酸链,每个结构域可以通过单点突变而失活。因此,可以相对于相应的野生型Cas蛋白方便地突变本文所定义的Cas蛋白,使得突变的Cas蛋白具有改变的核酸酶活性并且缺乏切割靶多核苷酸的一条或两条链的能力。例如,来自S.pyogenes的Cas9的RuvC I催化结构域中的天冬氨酸-至-丙氨酸替换(D10A)将来自切割两条链的核酸酶的Cas9转变为切口酶,切口酶在本文中被定义为切割靶多核苷酸的单链的Cas9蛋白。使Cas9成为切口酶的突变的其他例子包括但不限于H840A、N854A和N863A。在本发明的语境中,具有切口酶活性的Cas蛋白可用于通过同源重组进行基因组编辑,优选根据Ran等人,2013的双切刻技术。因此,根据本发明的优选的Cas蛋白包含至少一个突变,使得该蛋白与相应的野生型Cas蛋白相比具有改变的核酸酶活性,优选具有指导在靶序列的位置切割单条多核苷酸链的活性。这种所谓的切口酶突变体可以方便地用于双链体设置中,即用在包含具有RuvC突变的Cas蛋白切口酶突变体和其中NHN突变的Cas蛋白切口酶突变体的根据本发明的组合物中,使得一个Cas蛋白突变体切刻多核苷酸靶标的一条链,另一个Cas蛋白突变体切刻多核苷酸靶标的另一条链。根据所使用的两种向导多核苷酸,两种不同的CRISPR-Cas复合体会有效地在多核苷酸靶标中产生两个单链切口;这些切口可相距几个核苷酸至多达5、10、20、30或更多个核苷酸。这种双切刻方法大大提高了NEJH的特异性。有关双切刻的背景信息可以在例如Ran等人,2013中找到。
根据本发明的Cas蛋白可以包含两个或更多个突变的Cas9催化结构域,如RuvC I、RuvC II和/或RuvC III,以产生基本上缺乏所有DNA切割活性的突变的Cas9。在一些实施方式中,将D10A突变与H840A、N854A或N863A突变中的一种或多种组合以产生基本上缺乏所有DNA切割活性的Cas9酶。优选地,当突变酶的DNA切割活性相对于其未突变形式小于约25%、10%、5%、1%、0.1%、0.01%或更低时,Cas蛋白被视为基本上缺乏所有DNA切割活性。由于CRISPR-CAS复合体会阻碍从靶多核苷酸转录,因此基本上缺乏所有酶活性的Cas蛋白可方便地用于基因沉默或表达的下调。其他突变可以是有用的;其中当Cas9或其他Cas蛋白来自不同于S.pyogenes的物种时,可以使相应氨基酸发生突变以实现类似的效果;本领域技术人员知道如何鉴定这些相应的氨基酸。
根据本发明的Cas蛋白可以是融合蛋白并且包含至少一个异源功能性结构域,所述结构域优选为包含FokI活性的结构域,例如Aggarwal等人(Aggarwal,A.K.;Wah,D.A.;Hirsch,J.A.;Dorner,L.F.;Schildkraut,I.(1997)."Structure of the multimodularendonuclease FokI bound to DNA".Nature 388(6637):97–100)所述。酶FokI在Flakeobacterium okeanokoites中天然存在,其是由N-末端DNA结合结构域和C-末端的非特异性DNA切割结构域组成的细菌IIS型限制性内切核酸酶(Durai等人,2005)。当FokI蛋白在5'-GGATG-3':3'-CATCC-5'识别位点通过其DNA结合结构域与双链DNA结合时,DNA切割结构域被激活并切割识别位点最近的核苷酸下游的第一链的9个核苷酸和上游的第二链的13个核苷酸,而不需要进一步的序列特异性(Wah等人,1998。Cas9-FokI融合已描述于Guilinger等人,2014;和Tsai等人,2014等中)。
除了Cas蛋白之外,根据本发明的Cas融合蛋白可以包含1、2、3、4、5、6、7、8、9、10个或更多个结构域。可以与Cas蛋白融合的蛋白结构域的实例包括但不限于表位标签、报告基因序列和具有一种或多种以下活性的蛋白结构域:甲基化酶活性、去甲基化酶活性、转录激活活性、转录抑制活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性和核酸结合活性。表位标签的非限制性实例包括组氨酸(His)标签、V5标签、FLAG标签、流感血凝素(HA)标签、Myc标签、VSV-G标签和硫氧还蛋白(TRX)标签。报告基因的例子包括但不限于谷胱甘肽-S-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)β-半乳糖苷酶、β-葡糖醛酸酶、萤光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)和自发荧光蛋白(包括蓝色荧光蛋白(BFP))。Cas蛋白可以与编码结合DNA分子或结合其它细胞分子的蛋白质或蛋白质片段的基因序列融合,包括但不限于麦芽糖结合蛋白(MBP)、S-标签、Lex A DNA结合结构域(DBD)融合、GAL4DNA结合域融合和单纯疱疹病毒(HSV)BP 16蛋白融合。US20110059502中描述了可以形成包含CRISPR酶的融合蛋白的一部分的另外的结构域。标签化的Cas蛋白可以用于鉴定靶多核苷酸的位置。根据本发明的优选的Cas融合蛋白包含如上文所定义的FokI结构域。
根据本发明的优选的Cas蛋白包含核定位序列,优选异源核定位序列。这种核定位序列也被称为核定位信号。优选地,这种核定位信号赋予CRISPR-Cas复合体足够的强度,以促使所述CRISPR-Cas复合体以可检测量在宿主细胞的核中积累。不希望受到理论的束缚,认为核定位序列对于宿主细胞中的CRISPR-Cas活性不是必要的,但包括这种序列提高系统的活性,特别是对于将核酸分子靶向到细胞核。这种核定位序列优选存在于Cas蛋白中,但也可以存在于其他地方,从而促进CRISPR-Cas系统靶向细胞核。优选的核定位序列是SV40核定位序列。编码Cas蛋白的多核苷酸(例如编码Cas9蛋白质的多核苷酸)优选针对待在其中表达的宿主细胞进行密码子优化,更优选地,编码Cas蛋白的多核苷酸被密码子对优化。一般而言,密码子优化是指这样的过程:通过将天然序列的至少一个密码子(例如,多于1、2、3、4、5、10、15、20、25、50个或更多个密码子)替换为在感兴趣的宿主细胞的基因中更频繁或最频繁使用的密码子并同时保持天然氨基酸序列来修饰核酸序列以增强在该宿主细胞中的表达。各种物种展示出对特定氨基酸的某些密码子的特定偏好。密码子偏好(生物体之间密码子使用的差异)通常与信使RNA(mRNA)的翻译效率相关,而信使RNA(mRNA)的翻译效率又被认为依赖于被翻译的密码子的性质和特定转运RNA(tRNA)分子的可用性等等。所选择的tRNA在细胞中占优势通常是肽合成中最常使用的密码子的反映。因此,可以基于密码子优化调整基因以获得在给定生物体中的最佳基因表达。密码子使用表可易于获得,例如,在“密码子使用数据库”,这些表可以以多种方式进行修改。见例如Nakamura,Y.,等人,2000。也可获得用于在特定宿主细胞中表达的特定序列进行密码子优化的计算机算法,例如也可获得Gene Forge(Aptagen;Jacobus,PA)。优选地,编码Cas蛋白的序列中的一个或多个密码子(例如1、2、3、4、5、10、15、20、25、50或更多个或全部密码子)对应于特定氨基酸的最常用的密码子。用于密码子优化的优选方法描述于WO2006/077258和WO2008/000632中。WO2008/000632提出了密码子对优化。密码子对优化是这样一种方法,其中编码多肽的核苷酸序列就其密码子使用(特别是所使用的密码子对)被修饰,以获得经改善的编码多肽的核苷酸序列的表达和/或经改善的所编码多肽的产生。密码子对被定义为编码序列中的一组两个连续的三联体(密码子)。
如本文所定义的“供体多核苷酸”是外源多核苷酸(当多核苷酸是DNA时也称为供体DNA)或修复模板,其在CRISPR-Cas复合体切割靶多核苷酸后与靶多核苷酸重组,从而产生经修饰的靶多核苷酸。这种外源多核苷酸在本文中被称为根据本发明的外源多核苷酸或供体核苷酸,并且可以是单链的或双链的。外源多核苷酸可以存在于载体上或可以以其本身存在,可以由另一多核苷酸编码或可以与向导多核苷酸可操作地相连,并且可以与和向导序列相关连的PAM的上游(即在PAM的5'侧)的靶多核苷酸的一部分具有序列同一性,或者可以与和向导序列相关连的PAM的下游(即在PAM的5'侧)的靶多核苷酸的一部分具有序列同一性。供体多核苷酸可以包含在单独的载体中。携带外源多核苷酸的载体可以是下文所述的任何载体。外源多核苷酸可以存在于包含如本文所定义的编码Cas蛋白的多核苷酸和/或包含如本文所定义的向导多核苷酸或编码向导多核苷酸的多核苷酸的载体上。
在根据产生包含一种或多种向导多核苷酸表达盒的载体、优选环状载体的方法的一个实施方式中,组装后获得的载体或环状载体包含一种或多种选自以下的元件:复制起点、选择标记、CAS9表达盒、供体多核苷酸或一种或多种所述元件的组合。
在根据产生包含一种或多种向导多核苷酸表达盒的载体、优选环状载体的方法的另一个实施方式中,组装后获得的载体或环状载体包含复制起点,优选复制起点和选择标记,甚至更优选复制起点、选择标记和CAS9表达盒和/或供体多核苷酸。
因此,在一个实施方式中,本发明提供了根据本发明的载体,其中编码Cas蛋白的多核苷酸、向导多核苷酸或编码向导多核苷酸的多核苷酸存在于单个载体上,其可以进一步包含表达编码产物所需的任何元件,例如启动子和终止子元件。这种单个(多合一)载体具有CRISPR-Cas系统所需的所有组件都在一起的优点;另外,任选地与供体多核苷酸组合的单一转化事件足以将各组分引入宿主细胞中。
在根据第一方面的产生载体、优选环状载体的方法的一个实施方式中,载体、优选环状载体包含一种向导多核苷酸表达盒。
因此,在第一方面的一个实施方式中,本发明提供了一种产生包含一种向导多核苷酸表达盒的载体、优选环状载体的方法,其中所述一种向导多核苷酸表达盒包含编码与一种或多种控制序列可操作地相连的向导多核苷酸的多核苷酸,所述控制序列指导所述向导多核苷酸在宿主细胞中的表达,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且其中所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述方法优选地包括以下步骤:
-提供一种多核苷酸,其中所述多核苷酸包含待延伸的多核苷酸序列,其中所述待延伸的多核苷酸序列在待延伸的5’-端和/或3’-端包含向导多核苷酸表达盒的片段;
-进行一个重叠延伸PCR反应,其是通过在反应中使所述多核苷酸和两种合适的多核苷酸引物产生一种杂交线性多核苷酸,
其中选择待延伸的多核苷酸序列和合适的多核苷酸引物,使得在所述重叠延伸PCR反应中获得的杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体;
-使在所述重叠延伸PCR中获得的杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸进行组装反应,从而产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体,
优选地,其中所述组装反应发生在体内。
在根据第一方面的产生载体、优选环状载体的方法的另一个实施方式中,载体、优选环状载体包含两种或更多种向导多核苷酸表达盒。
因此,在第一方面的一个实施方式中,本发明提供了一种产生包含两种或更多种向导多核苷酸表达盒的载体、优选环状载体的方法,其中所述两种或更多种向导多核苷酸表达盒包含编码与一种或多种控制序列可操作地相连的向导多核苷酸的多核苷酸,所述控制序列指导所述向导多核苷酸在宿主细胞中的表达,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且其中所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述方法优选地包括以下步骤:
-提供两种或更多种多核苷酸,其中所述两种或更多种多核苷酸包含待延伸的多核苷酸序列,其中所述待延伸的多核苷酸序列在待延伸的5’-端和/或3’-端包含向导多核苷酸表达盒的片段;
-进行两个或更多个重叠延伸PCR反应,其是通过在每个反应中使所述两种或更多种多核苷酸中的一种和两种合适的多核苷酸引物产生一种杂交线性多核苷酸,
其中选择待延伸的两种或更多种多核苷酸序列和合适的多核苷酸引物,使得在所述两个或更多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许两种或更多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体;
-使在所述重叠延伸PCR中获得的两种或更多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸进行组装反应,从而产生包含两种或更多种功能性向导多核苷酸表达盒的载体、优选环状载体,
优选地,其中所述组装反应发生在体内。
第二方面,本发明提供了一种在体内组装包含一种或多种向导多核苷酸表达盒的载体、优选环状载体的方法,其中所述一种或多种向导多核苷酸表达盒包含编码与一种或多种控制序列可操作地相连的向导多核苷酸的多核苷酸,所述控制序列指导所述向导多核苷酸在宿主细胞中的表达,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述方法包括以下步骤:
-提供一种或多种线性多核苷酸,其中所述一种或多种线性多核苷酸在5'-末端和/或3'-末端包含至少含有向导序列的至少一种向导多核苷酸表达盒或其片段;
-将所述一种或多种线性多核苷酸和任选的一种或多种另外的线性多核苷酸转化到宿主细胞中;
-允许在所述一种或多种线性多核苷酸和任选的一种或多种另外的线性多核苷酸之间发生同源重组反应,其中所述线性多核苷酸和另外的线性多核苷酸已被选择为包含合适的5'-末端和3'-末端,从而允许所述一种或多种线性多核苷酸和任选的所述一种或多种另外的线性多核苷酸彼此以预定顺序同源重组,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体;
-任选地选择包含载体、优选环状载体的宿主细胞,并且其中所述载体包含一种或多种功能性向导多核苷酸表达盒;
-任选地回收所述载体、优选所述环状载体。
在第一步中,根据本发明第二方面的在体内组装包含一种或多种向导多核苷酸表达盒的载体、优选环状载体的方法包括:
-提供一种或多种线性多核苷酸,其中所述一种或多种线性多核苷酸在5'-末端和/或3'-末端包含至少含有向导序列的至少一种向导多核苷酸表达盒或其片段。
向导多核苷酸表达盒、CRISPR-CAS复合体、向导多核苷酸、向导序列、靶多核苷酸、CRISPR-CAS系统、多核苷酸、控制序列、“可操作地相连”、启动子、向导多核苷酸表达盒的片段、同源重组、同源序列已在上文本发明的第一方面中进行了定义。这些定义在说明书全文中都是有效的。
所述一种或多种线性多核苷酸是如本文所定义的多核苷酸,其在5'-末端和/或3'-末端包含至少含有向导序列的至少一种向导多核苷酸表达盒或其片段。
如本文所定义的一种或多种线性多核苷酸、包含待延伸的多核苷酸序列的一种或多种多核苷酸以及一种或多种另外的线性多核苷酸可以根据本领域已知的方法产生。例如,通常可以通过本领域已知的任何扩增方法(例如PCR、RT-PCR等)来产生适用于本发明的多核苷酸。
在第二方面中使用的一种或多种线性多核苷酸和任选的一种或多种另外的多核苷酸可以包含一种或多种选自以下的元件:如本文之前所定义的复制起点或其片段、选择标记或其片段、CAS9表达盒或其片段、供体多核苷酸或其片段。
在第二步中,根据本发明第二方面的在体内组装包含一种或多种向导多核苷酸表达盒的载体、优选环状载体的方法包括:
-将所述一种或多种线性多核苷酸和任选的一种或多种另外的线性多核苷酸转化到宿主细胞中。
可根据本领域技术人员已知的各种技术将所述一种或多种线性多核苷酸和任选的一种或多种另外的线性多核苷酸转化到宿主细胞中。用于将异源核酸引入各种生物体中的方法的非限制性实例包括:转化、转染、转导、电穿孔、超声介导的转化、粒子轰击(particle bombardment)、微粒轰击(microprojectile bombardment)、原生质体方法、Agrobacterium介导的转化(AMT)等。在一些情况下,添加运载体分子可增加通常被认为难以通过常规方法转化的细胞的DNA摄取。本领域技术人员容易获得常规的转化方法。原生质体方法优选用于丝状真菌。特别地,J.R.S.Fincham,Transformation in fungi.1989,Microbiological reviews.53,148-170描述了转化程序。转化可涉及由本身已知的方式的原生质体形成、原生质体转化和细胞壁再生组成的方法。在EP 238 023和Yelton等人,1984,Proceedings of the National Academy of Sciences USA 81:1470-1474中描述了转化Aspergillus细胞的合适程序。例如,De Groot等人,Agrobacterium tumefaciens-mediated transformation of filamentous fungi.Nat Biotechnol.1998,16:839-842(勘误在Nat Biotechnol 1998 16:1074中)中描述了使用Agrobacterium tumefaciens转化Aspergillus和其它丝状真菌宿主细胞的合适程序。Malardier等人,1989,Gene 78:147156或WO 96/00787中描述了转化Fusarium种的合适方法。可以应用其它方法,例如使用基因枪(biolistic)转化的方法,如Christiansen等人,Biolistic transformation ofthe obligate plant pathogenic fungus,Erysiphe graminis f.sp.hordei.1995,CurrGenet.29:100-102中所述。可以利用本领域已知的任何方法转化酵母,例如Becker和Guarente,在Abelson,J.N.和Simon,1983;Hinnen等人,1978以及Gietz RD,Woods RA.2002所述的程序。
在第三步,根据本发明第二方面的在体内组装包含一种或多种向导多核苷酸表达盒的载体、优选环状载体的方法包括:
-允许在所述一种或多种线性多核苷酸和任选的一种或多种另外的线性多核苷酸之间发生同源重组反应,其中所述线性多核苷酸和另外的线性多核苷酸已被选择为包含合适的5'-末端和3'-末端,从而允许所述一种或多种线性多核苷酸和任选的所述一种或多种另外的线性多核苷酸彼此以预定顺序同源重组,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体。
所述一种或多种线性多核苷酸和一种或多种另外的线性多核苷酸已被选择为包含合适的5'-末端和3'-末端,从而允许所述一种或多种线性多核苷酸和任选的所述一种或多种另外的线性多核苷酸彼此以预定顺序同源重组。如何选择线性多核苷酸和另外的线性多核苷酸以包含合适的5'-末端和3'-末端从而允许同源重组是通过提供两种将通过同源重组彼此重组的多核苷酸序列进行的,其中同源序列如前文所述。优选地,同源序列彼此至少50%相同,优选至少60%、70%、80%、85%、90%、95%相同,更优选同源序列彼此100%相同。在一个实施方式中,同源序列长至少10bp,优选至少20bp、30bp、40bp、50bp、100bp、500bp、1000bp或更多。本领域技术人员知道如何设计具有足够序列同一性的足够长的同源序列,以允许在宿主细胞中有效同源重组。优选地,同源序列具有至少80%序列同一性且长至少20bp。在一个优选的实施方式中,在属于S.cerevisiae的宿主细胞中进行本发明第二方面的方法。
在第四任选步骤中,根据本发明第二方面的在体内组装包含一种或多种向导多核苷酸表达盒的载体、优选环状载体的方法包括:
-任选地选择包含载体、优选环状载体的宿主细胞,并且其中所述载体包含一种或多种功能性向导多核苷酸表达盒。
在第五任选步骤中,根据本发明第二方面的在体内组装包含一种或多种向导多核苷酸表达盒的载体、优选环状载体的方法包括:
-任选地回收所述载体、优选所述环状载体。
可以利用本领域技术人员已知的各种技术来选择包含载体、优选环状载体的宿主细胞。通常,组装反应中使用的一种或多种线性多核苷酸和任选的一种或多种另外的线性多核苷酸包含一种或多种选择标记,所述选择标记被整合入环状载体的多核苷酸序列中并允许差异性选择包含载体的宿主细胞,所述载体包含所有来自其他载体的一种或多种功能性向导多核苷酸表达盒。
一旦已经选择了包含载体、优选环状载体的宿主细胞,则可以根据本领域技术人员已知的方法从其中回收载体、优选环状载体。通常,可以使包含正确载体的宿主细胞在合适的培养基中繁殖,在充足的细胞生长之后,可以收获培养物,可以裂解宿主细胞,并且可以从其他细胞组分纯化载体、优选环状载体,例如通过色谱法诸如使用硅胶或阴离子交换树脂的色谱法。色谱法之后,可以使用标准技术(例如乙醇沉淀)进一步回收载体。
在根据第二方面的方法的一个实施方式中,载体、优选环状载体包含两种或更多种向导多核苷酸表达盒,优选地所述方法包括以下步骤:
-提供两种或更多种多核苷酸,其中所述两种或更多种多核苷酸包含待延伸的多核苷酸序列,其中所述待延伸的多核苷酸序列在待延伸的5’-端和/或3’-端包含向导多核苷酸表达盒的片段;
-进行两个或更多个重叠延伸PCR反应,其是通过在每个反应中使所述两种或更多种多核苷酸中的一种和两种合适的多核苷酸引物产生一种杂交线性多核苷酸,
其中选择待延伸的两种或更多种多核苷酸序列和合适的多核苷酸引物,使得在所述两个或更多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许两种或更多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体;
-使在所述重叠延伸PCR中获得的两种或更多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸进行组装反应,从而产生包含两种或更多种功能性向导多核苷酸表达盒的载体、优选环状载体,
优选地,其中所述组装反应发生在体内。
在根据第二方面的方法的另一个实施方式中,载体、优选环状载体包含一种向导多核苷酸表达盒,优选地其中所述方法包括以下步骤:
-提供一种多核苷酸,其中所述多核苷酸包含待延伸的多核苷酸序列,其中所述待延伸的多核苷酸序列在待延伸的5’-端和/或3’-端包含向导多核苷酸表达盒的片段;
-进行一个重叠延伸PCR反应,其是通过在反应中使所述多核苷酸和两种合适的多核苷酸引物产生一种杂交线性多核苷酸,
其中选择待延伸的多核苷酸序列和合适的多核苷酸引物,使得在所述重叠延伸PCR反应中获得的杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体;
-使在所述重叠延伸PCR中获得的杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸进行组装反应,从而产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体,
优选地,其中所述组装反应发生在体内。
第三方面,本发明提供了一种用于产生包含载体、优选环状载体的重组宿主细胞的方法,其中所述载体包含一种或多种向导多核苷酸表达盒,其中所述一种或多种向导多核苷酸表达盒包含编码与一种或多种控制序列可操作地相连的向导多核苷酸的多核苷酸,所述控制序列指导所述向导多核苷酸在宿主细胞中的表达,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述方法包括以下步骤:
-提供一种或多种线性多核苷酸,其中所述一种或多种线性多核苷酸在5'-末端和/或3'-末端包含至少含有所述向导序列的至少一种向导多核苷酸表达盒或其片段;
-将所述一种或多种线性多核苷酸和任选的一种或多种另外的线性多核苷酸转化到宿主细胞中;
-允许在所述一种或多种线性多核苷酸和任选的一种或多种另外的线性多核苷酸之间发生同源重组反应,其中所述线性多核苷酸和另外的线性多核苷酸已被选择为包含合适的5'-末端和3'-末端,从而允许所述一种或多种线性多核苷酸和任选的所述一种或多种另外的线性多核苷酸彼此以预定顺序同源重组,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体;
-任选地选择包含环状载体的宿主细胞,并且其中所述载体包含一种或多种功能性向导多核苷酸表达盒。
根据第三方面的方法的前四个步骤可以类似于根据本发明第二方面的方法的相应步骤来进行。
在一个实施方式中,根据本发明第三方面的方法还包括以下步骤:
-回收所述载体、优选所述环状载体;
-转化所述载体、优选所述环状载体到第二宿主细胞中;
-任选地分离包含所述载体、优选所述环状载体的第二宿主细胞。
根据第三方面的方法中的回收所述载体、优选所述环状载体,转化所述载体、优选所述环状载体到第二宿主细胞中和分离包含所述载体、优选所述环状载体的第二宿主细胞可根据类似于上文所述的方法进行。
第四方面,本发明提供了一种用于生产包含载体、优选环状载体的重组宿主细胞的方法,其中所述载体包含一种或多种向导多核苷酸表达盒,其中所述一种或多种向导多核苷酸表达盒包含编码与一种或多种控制序列可操作地相连的向导多核苷酸的多核苷酸,所述控制序列指导所述向导多核苷酸在宿主细胞中的表达,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述方法包括以下步骤:
-在第一宿主细胞、优选属于S.cerevisiae种的第一宿主细胞中进行根据第二方面的在体内组装包含一种或多种向导多核苷酸表达盒的载体的方法,其中选择包含所述载体、优选所述环状载体的所述第一宿主细胞并回收所述载体、优选所述环状载体,其中所述载体包含一种或多种功能性向导多核苷酸表达盒,
-转化所述载体、优选所述环状载体到第二宿主细胞中;
-任选地分离包含所述载体、优选所述环状载体的第二宿主细胞。
根据第四方面的方法中的回收所述载体、优选所述环状载体,转化所述载体到第二宿主细胞中和分离包含所述载体的第二宿主细胞可根据类似于上文所述的方法进行。
在根据第三方面或第四方面的方法的一个实施方式中,所述一种或多种线性多核苷酸是通过以下获得的如前文在本发明第一方面中所定义的杂交线性多核苷酸:
-提供一种或多种多核苷酸,其中所述一种或多种多核苷酸包含待延伸的多核苷酸序列,其中所述待延伸的多核苷酸序列在待延伸的5’-端和/或3’-端包含向导多核苷酸表达盒的片段;
-进行一个或多个重叠延伸PCR反应,所述重叠延伸PCR反应通过在每种反应中使所述一种或多种多核苷酸中的一种和两种合适的多核苷酸引物产生一种杂交线性多核苷酸而进行,
其中选择所述待延伸的一种或多种多核苷酸序列和合适的多核苷酸引物,使得在所述一个或多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸都至少包含编码向导序列的多核苷酸以及合适的5’-末端和3’-末端,从而允许一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体。
在根据本发明第三方面或第四方面的方法的一个优选实施方式中,所述“进行一个或多个重叠延伸PCR反应,所述重叠延伸PCR反应通过在每种反应中使所述一种或多种多核苷酸中的一种和两种合适的多核苷酸引物产生一种杂交线性多核苷酸而进行,
其中选择所述待延伸的一种或多种多核苷酸序列和合适的多核苷酸引物,使得在所述一个或多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸都至少包含编码向导序列的多核苷酸以及合适的5’-末端和3’-末端,从而允许一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体”包括以下步骤:
a)在每种反应中使所述一种或多种多核苷酸中的一种和一种合适的多核苷酸引物进行重叠延伸PCR反应,其中所述多核苷酸引物的3'-末端含有包含在所述一种或多种多核苷酸中的待延伸的多核苷酸序列的3’-端的互补序列,或者其中所述多核苷酸引物的互补物的3'-末端含有包含在所述一种或多种多核苷酸中的待延伸的多核苷酸序列的互补物的3’-端的互补序列,以产生一种杂交线性多核苷酸,所述杂交线性多核苷酸的序列包含在其3'-末端或其5'-末端与合适引物的多核苷酸序列剪接的待延伸的多核苷酸序列,
b)任选地,使在步骤a)中获得的杂交线性多核苷酸和另一种合适的引物进行第二重叠延伸PCR反应,其中所述多核苷酸引物的3'-末端含有杂交线性多核苷酸的3’-端的互补序列,所述杂交线性多核苷酸的序列包含在其3'-末端或其5'-末端与合适引物的多核苷酸序列剪接的待延伸的多核苷酸序列;或者,其中所述多核苷酸引物的互补物的3'-末端含有杂交线性多核苷酸的互补物的3’-端的互补序列,所述杂交线性多核苷酸的序列包含在其3'-末端或其5'-末端与其他合适引物的多核苷酸序列剪接的待延伸的多核苷酸序列,以产生一种杂交线性多核苷酸,所述杂交线性多核苷酸的序列包含在其3'-末端和其5'-末端与合适引物的多核苷酸序列剪接的待延伸的多核苷酸序列,
其中选择待延伸的一种或多种多核苷酸序列和合适的多核苷酸引物,使得在所述一个或多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体。
在根据本发明第三方面或第四方面的方法的一个优选实施方式中,组装反应发生在属于S.cerevisiae种的宿主细胞中。
在根据第三方面或第四方面的方法的一个实施方式中,第二宿主细胞是原核细胞,例如细菌宿主细胞或真核宿主细胞,优选真菌宿主细胞。例如,所述第二宿主细胞是选自Escherichia、Anabaena、Caulobactert、Gluconobacter、Rhodobacter、Pseudomonas、Paracoccus、Bacillus、Brevibacterium、Corynebacterium、Rhizobium(Sinorhizobium)、Flavobacterium、Klebsiella、Enterobacter、Lactobacillus、Lactococcus、Methylobacterium、Staphylococcus或Streptomyces的原核宿主细胞。或者,第二宿主细胞是真菌宿主细胞,更优选丝状真菌宿主细胞,最优选选自Acremonium、Agaricus、Aspergillus、Aureobasidium、Chrysosporium、Coprinus、Cryptococcus、Filibasidium、Fusarium、Humicola、Magnaporthe、Mortierella、Mucor、Myceliophthora、Neocallimastix、Neurospora、Paecilomyces、Penicillium、Piromyces、Panerochaete、Pleurotus、Schizophyllum、Talaromyces、Rasamsonia、Thermoascus、Thielavia、Tolypocladium和Trichoderma的丝状真菌宿主细胞。在另一个实施方式中,真菌宿主细胞是酵母宿主细胞,优选选自Candida、Hansenula、Issatchenkia、Kluyveromyces、Pichia、Saccharomyces、Schizosaccharomyces、Yarrowia或Zygosaccharomyces的酵母宿主细胞。
根据本发明任一方面的一个实施方式,包含一种或多种功能性向导多核苷酸表达盒的环状载体包含至少两种或更多种功能性向导多核苷酸表达盒,优选至少3、4、5、6或更多个功能性向导多核苷酸表达盒。
第五方面,本发明提供了通过根据本发明的第一方面或第二方面的方法能够获得的包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体。涉及本发明前述方面的任何实施方式同样适用于本发明的第五方面。
在本发明所有实施方式的上下文中,载体可以是任何载体(例如质粒或病毒),其可以方便地经受重组DNA程序并且可以介导一种或多种向导多核苷酸表达盒的表达。载体的选择通常取决于载体与待导入载体的宿主细胞的相容性。优选的载体是本文实施例中使用的载体。根据本发明第五方面的载体优选为闭环质粒。在其他上下文中,载体可以是环状的或可以是线性多核苷酸。载体可以是自主复制载体,即作为染色体外实体存在的载体,其复制独立于染色体复制,例如,质粒、染色体外元件、微型染色体或人工染色体。
优选地,载体是自主复制载体,优选2μ载体(用于酵母)或AMA载体(用于丝状真菌)。AMA-载体优选包含AMA1序列(参见例如Aleksenko和Clutterbuck 1997)或其功能变体或等同物。
根据本发明第五方面的载体优选不整合到宿主细胞的基因组中。优选地,根据第四方面的载体不是整合性载体。根据本发明第四方面的载体可以含有一种或多种选择标记,其允许容易地选择经转化的细胞。根据本发明的方法在体内组装的包含一种或多种向导多核苷酸表达盒的载体优选是自主复制的环状载体。或者,所述包含一种或多种向导多核苷酸表达盒的载体可以是自主复制线性载体。自主复制线性载体是本领域技术人员已知的。(Finbarr Hayes(2003);Takahashi S等人(2011);Burke DT等人(1987))。
在第六方面,本发明提供了一种重组宿主细胞,其包含含有一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体,所述重组宿主细胞能够通过根据第三方面或第四方面的方法获得。涉及本发明前述方面的任何实施方式同样适用于本发明的第六方面。
包含含有一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体的重组宿主细胞可以是本文所定义的(例如在通用定义中)任何宿主细胞。当宿主细胞是其中发生载体、优选环状载体的组装的宿主细胞时,所述宿主细胞优选为S.cerevisiae宿主细胞。优选的宿主细胞是经修饰的宿主细胞,其中与相应的野生型宿主细胞相比,与非同源末端连接(NHEJ)相关的组分的表达发生改变;优选与NHEJ相关的组分的表达降低。与NHEJ相关的优选组分是酵母Ku70和Ku80及其在根据本发明的优选非哺乳动物宿主细胞中的各自的直系同源物。与NHEJ相关的另一优选组分是酵母LIG4及其在根据本发明的优选非哺乳动物宿主细胞中的各自的直系同源物。
第七方面,本发明提供了根据第五方面的载体、优选环状载体或者根据第六方面的包含载体、优选环状载体的宿主细胞在CRISP-CAS介导的转化中的用途。
第八方面,本发明提供了一种非天然存在的或工程化的组合物,其包含含有向导多核苷酸和Cas蛋白的CRISPR-Cas系统的来源,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述向导序列基本上是宿主细胞基因组中的5’-(N)yPAM-3’多核苷酸序列靶标的(N)y部分的反向互补物,其中y是8-30的整数,其中PAM是原间隔序列邻近基序,其中所述宿主细胞优选是原核生物或真核生物,所述真核生物是丝状真菌,优选Aspergillus、Penicillium或Rasamsonia;或者酵母,优选Yarrowia、Saccharomyces或Kluyveromyces;Pichia、Issatchenkia或Mortierella;并且其中PAM优选为选自5'-XGG-3'、5'-XGGXG-3'、5'-XXAGAAW-3'、5'-XXXXGATT-3'、5'-XXAGAA-3'、5'-XAAAAC-3'的序列,其中X可以是任何核苷酸或其类似物,优选X可以是任何核苷酸;并且W是A或T,其中所述向导多核苷酸包含在根据第五方面的载体、优选环状载体中。
本发明提供了一种非天然存在的或工程化的组合物,其包含含有向导多核苷酸和Cas蛋白的CRISPR-Cas系统的来源,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述向导序列基本上是宿主细胞基因组中的5’-(N)yPAM-3’多核苷酸序列靶标的(N)y部分的反向互补物,其中y是8-30的整数,更优选10-30的整数,更优选15-30的整数,更优选17-27的整数,更优选17-20的整数,更优选17、18、19、20、21、22、23、24、25、26或27,其中PAM是原间隔序列邻近基序,其中所述宿主细胞优选是原核生物或真核生物,所述真核生物是丝状真菌,优选Aspergillus、Penicillium或Rasamsonia或Mortierella;或者酵母,优选Yarrowia、Saccharomyces或Kluyveromyces或Pichia或Issatchenkia;并且其中PAM优选为选自5'-XGG-3'、5'-XGGXG-3'、5'-XXAGAAW-3'、5'-XXXXGATT-3'、5'-XXAGAA-3'、5'-XAAAAC-3'的序列,其中X可以是任何核苷酸或其类似物,优选X可以是任何核苷酸;并且W是A或T,其中所述向导多核苷酸包含在根据第五方面的载体、优选环状载体中。
组合物、来源、CRISPR-Cas系统、向导多核苷酸、Cas蛋白、靶多核苷酸、宿主细胞和CRISPR-Cas复合体在本文中被称为根据本发明的组合物、来源、CRISPR-Cas系统、向导多核苷酸、Cas蛋白、靶多核苷酸、宿主细胞和CRISPR-Cas复合体。为了完整起见,由于“一种”或不使用数量词限定在本文其他地方被定义为“至少一种”,因此根据本发明的组合物包含至少一种(即一种、两种、三种或更多种)向导多核苷酸和/或至少一种(即一种、两种、三种或更多种)Cas蛋白的来源。相应地,本发明便利地提供了一种多重CRISPR-Cas系统。这种多重CRISPR-Cas系统可便利地用于引入供体多核苷酸、缺失多核苷酸和将多核苷酸文库插入宿主细胞基因组中。
在本发明的所有实施方式的上下文中,术语“非天然存在的组合物”是指这样的组合物,其在本发明中使用的形式在自然界中不存在。各个元件可以例如以其本身或与天然的其他元件组合的形式存在,但非天然存在的组合物比天然组合物多包含或少包含例如至少一个元件。
在本发明的所有实施方式的上下文中,术语“工程化的组合物”是指这样的组合物,其中至少一种元件已被工程化,即被人工修饰,使得所得元件在自然界中不存在。由此可见,由于包含至少一种工程化的元件,所以工程化的组合物在自然界中不存在。
术语“杂交”是指其中一种或多种多核苷酸反应形成通过核苷酸残基的碱基之间的氢键而稳定的复合体的反应。氢键可以通过Watson Crick碱基配对、Hoogstein结合或以任何其他序列特异性方式发生。复合体可以包含形成双链体结构的两条链、形成多链复合体的三条或更多条链、单一自身杂交链或它们的任何组合。杂交反应可以构成更广泛方法(例如通过酶切割多核苷酸)中的步骤。优选的杂交条件是根据本发明的宿主细胞内的生理条件。
在本发明的所有实施方式的上下文中,术语“来源”是指包含向导多核苷酸和Cas蛋白的CRISPR-Cas系统的任何来源。向导多核苷酸和Cas蛋白可以存在于不同来源中。在这种情况下,根据本发明的组合物包含含有向导多核苷酸来源和Cas-蛋白来源的CRISPR-Cas系统。任何来源意指向导多核苷酸和Cas蛋白可以以其可以在CRISPR-Cas系统内起作用的形式存在。向导多核苷酸和/或Cas-蛋白可以以其活性形式提供,并且可以例如由不活动的形式或由另一个实体提供。向导多核苷酸可以例如存在于另一种多核苷酸上或可以由被转录以提供实际的向导多核苷酸的多核苷酸编码。Cas蛋白可由被转录并/或翻译以提供实际Cas蛋白的多核苷酸(例如DNA或mRNA)编码。编码多核苷酸可以存在于本文所定义的核酸构建体中和/或本文所定义的载体中。这种核酸构建体和载体在本文中被称为根据本发明的核酸构建体和根据本发明的载体。
优选地,在根据本发明的组合物中,Cas蛋白由多核苷酸编码和/或向导多核苷酸由多核苷酸编码或存在于多核苷酸上。
优选地,在根据本发明的组合物中,Cas蛋白由多核苷酸编码和/或向导多核苷酸由另一多核苷酸编码或存在于另一多核苷酸上,并且多核苷酸包含在载体中。
优选地,在根据本发明的组合物中,Cas蛋白由多核苷酸编码,并且向导多核苷酸由另一多核苷酸编码或存在于另一多核苷酸上,并且多核苷酸包含在一个载体中。
优选地,在根据本发明的组合物中,Cas蛋白由包含在载体中的多核苷酸编码,并且向导多核苷酸由另一载体中包含的另一多核苷酸编码或存在于另一载体中包含的另一多核苷酸上。
因此,本发明提供了这样的可能性:向导多核苷酸和Cas蛋白被原样提供,或者它们在载体上被编码或存在于载体上,所述载体例如根据本发明第五方面的载体。在后一种情况下,编码多核苷酸可以各自在单独的载体上,或者都可以在单个载体上。
根据本发明的组合物中来源中的Cas蛋白的量可以变化并且可以针对最佳性能进行优化。避免宿主细胞中过高水平的Cas蛋白可能是合适的,因为高水平的Cas蛋白可能对宿主细胞有毒性,即使没有向导多核苷酸存在亦是如此(参见例如Ryan等人2014和Jacobs等人,2014)。本领域技术人员知道如何调控表达水平,例如通过选择较弱的启动子或诱导型启动子来表达Cas蛋白。本文其他地方描述了适用于表达蛋白质的启动子的实例。
在其中由多核苷酸编码根据本发明的向导多核苷酸的根据本发明的组合物中,可通过与编码多核苷酸可操作地相连的启动子来促进向导多核苷酸的表达。这种启动子可以是本领域技术人员已知的任何合适的启动子。可以使用几种类型的启动子。使用RNA聚合酶III启动子或RNA聚合酶II启动子可能是方便的。关于RNA聚合酶III及其启动子的背景信息可以参见例如Marck等人,2006中。在一些情况下,例如在S.cerevisiae、S.pombe中,RNA聚合酶III启动子在转录区中包含启动子元件。因此,使用RNA聚合酶II启动子可能是方便的;这些是本领域技术人员已知的并且在例如Kornberg 1999中进行了综述。然而,来自RNA II聚合酶的转录物通常具有复杂的转录终止子并且转录物是多聚腺苷酸化的;这可能妨碍了向导多核苷酸的要求,因为其5'-端和3’-端都需要被精确定义以获得所需的二级结构,从而产生功能性CRISPR-Cas系统。但是这些缺点可以被规避。在使用RNA聚合酶II启动子的情况下,编码向导多核苷酸的多核苷酸也可以编码自我加工核酶并且可以与RNA聚合酶II启动子可操作地相连;因此,多核苷酸编码包含向导多核苷酸和自我加工核酶的前向导多核苷酸,其中当转录时,通过自我加工核酶从前向导多核苷酸转录物释放向导多核苷酸。包含编码与RNA聚合酶II启动子可操作地相连的本发明的前向导多核苷酸的多核苷酸的优选构建体是本文实施例8-17和18-34中描述的那些。关于这种构建体的背景信息可以在例如Gao等人,2014等人中找到。
优选地,在其中向导多核苷酸由多核苷酸编码的本发明组合物中,所述多核苷酸与H1RNA聚合酶III启动子、优选人H1RNA聚合酶III启动子可操作地相连。
优选地,在其中向导多核苷酸由多核苷酸编码的本发明组合物中,所述多核苷酸与U6RNA聚合酶III启动子、优选人U6RNA聚合酶III启动子可操作地相连。
优选地,在其中向导多核苷酸由多核苷酸编码的本发明的组合物中,所述多核苷酸与SNR52p RNA聚合酶III启动子、优选酵母SNR52p RNA聚合酶III启动子可操作地相连。当宿主是酵母宿主细胞例如Saccharomyces或Kluyveromyces时,优选使用这种启动子。
优选地,在其中向导多核苷酸由多核苷酸编码的本发明组合物中,所述多核苷酸与RNA聚合酶II启动子可操作地相连并且编码包含向导多核苷酸和自我加工核酶的前向导多核苷酸,其中当转录时,通过自我加工核酶从前向导多核苷酸转录物释放向导多核苷酸。
根据本发明第八方面的组合物可方便地用于调节宿主细胞中多核苷酸的表达。因此,第九方面,本发明提供了调节宿主细胞中多核苷酸表达的方法,该方法包括:使宿主细胞与根据本发明第八方面的组合物接触,其中所述向导多核苷酸指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,优选其中宿主细胞包含编码感兴趣的化合物的多核苷酸。
在本发明的上下文中,术语“表达”在本文中被定义为从多核苷酸模板转录多核苷酸的过程(例如,DNA模板多核苷酸被转录成mRNA多核苷酸转录物或其他RNA转录物),和/或随后将mRNA转录物翻译成肽、多肽或蛋白质的过程。转录物和编码的多肽可以统称为“基因产物”。如果多核苷酸转录物来源于基因组模板DNA,则表达可以包括在宿主细胞中剪接mRNA转录物。术语“调节表达”在本文中是指与亲本宿主细胞(其中当使用相同条件进行检测时,表达未被调节)相比,表达增加或减少。表达减少可以是转录物(例如mRNA)的量减少和/或翻译产物(例如多肽)的量减少。由此可见,表达增加可以是转录物(例如mRNA)的量增加和/或翻译产物(例如多肽)的量增加。
优选地,CRISPR-Cas复合体在靶多核苷酸的位置切割一条或两条多核苷酸链,从而导致基因产物的调节表达。CRISPR-Cas复合体也可以具有改变的核酸酶活性并且基本上不具有切割靶多核苷酸的一条或两条链的能力;在这种情况下,通过复合体与靶多核苷酸的结合来调节表达。由于CRISPR-Cas复合体会阻碍从靶多核苷酸转录,因此缺乏基本上所有酶活性的Cas蛋白可方便地用于基因沉默或表达下调。或者,可以将Cas蛋白修饰成用于可编程转录激活或感兴趣基因沉默的转录因子(Larson等人,2013)。
根据本发明第八方面的组合物可以方便地用于缺失多核苷酸。在一个实施方式中,当根据本发明第八方面的组合物包含至少一种或两种向导多核苷酸的来源和/或至少一种Cas蛋白的来源时,形成了至少一种CRISPR-Cas复合体或两种不同的CRISPR-Cas复合体,其在靶多核苷酸的一个位置或不同位置切割一条或两条多核苷酸链,从而导致从靶多核苷酸中缺失多核苷酸片段。优选地,包含至少一种或两种向导多核苷酸和/或至少一种Cas蛋白的来源的本发明的组合物另外包含如下文所定义的外源多核苷酸,其与向导多核苷酸所靶向的至少一种或两种靶多核苷酸至少部分互补。这种待缺失的多核苷酸片段或缺失的片段的长度可以为几个核苷酸至几千个核苷酸,可以缺失整个基因,或者可以缺失基因簇。因此,本发明提供了调节宿主细胞中多核苷酸表达的方法,其中从靶多核苷酸中缺失多核苷酸片段。
在一个实施方式中,调节表达的方法包括在靶多核苷酸的至少一个位置切割一条或两条多核苷酸链,随后通过与外源多核苷酸的同源重组来修饰靶多核苷酸。在这种情况下,根据本发明第八方面的组合物优选还包含这种外源多核苷酸。这种修饰可以导致靶多核苷酸中至少一个核苷酸的插入、缺失或取代,其中插入或取代核苷酸可以源自外源多核苷酸。当外源多核苷酸是例如Dong等人和Beetham等人中所述的非整合实体时,也可以进行修饰;在这种情况下,靶多核苷酸被修饰,但没有外源多核苷酸的核苷酸被引入到靶多核苷酸中。因此,当根据本发明的Cas蛋白作为蛋白质被转化时,所得到的宿主是非重组宿主细胞。外源多核苷酸可以是任何感兴趣的多核苷酸,例如编码如下文所定义的感兴趣的化合物的多核苷酸,或这种多核苷酸或其变体的一部分。这种外源多核苷酸在本文中被称为根据本发明的外源多核苷酸,并且可以是单链的或双链的。
本领域技术人员可以考虑根据本发明的组合物和方法用于各种应用。可以使用根据本发明的组合物和方法修饰、编辑或破坏基因组中的多核苷酸(或基因)。例如,当使用切割靶多核苷酸的两条链的完全活性Cas蛋白时,并且当不存在外源多核苷酸作为合适的修复模板时,通过非同源末端连接修复(NHEJ)来修复双链断裂。在可发生一个或几个核苷酸的NHEJ插入和/或缺失(在一些情况下,其可被解释为取代)期间,它们在修复位点随机插入或缺失;这是NHEJ的特征。这种插入和/或缺失可影响编码序列的阅读框,从而导致基因产物的氨基酸改变或者在(过早的)终止密码子产生或剪接位点改变的情况下甚至是截短的蛋白。
当外源多核苷酸作为修复模板存在时,可以使用根据本发明的组合物和方法,利用同源末端连接修复(HEJ)(也称为同源性定向修复(HDR))来修饰、编辑或破坏基因组中的多核苷酸(或基因)。例如,当与靶多核苷酸(即双链断裂的上游(5')和下游(3'))具有序列同一性的外源多核苷酸与根据本发明的CRISPR-Cas系统一起存在时,HDR将引入(或实际上再生)靶多核苷酸中双链断裂处的外源多核苷酸的相应核苷酸。优选地,根据本发明的外源多核苷酸不含靶序列本身及随后的功能性PAM序列,以避免外源多核苷酸本身或经修饰的靶多核苷酸被CRISPR-CAS系统(再)切割的风险。
在本发明的实施方式中,当根据本发明的CRISPR-Cas系统包含外源多核苷酸(供体多核苷酸、供体DNA、修复模板)时,根据本发明的CRISPR-Cas系统优选包含由一种或多种分开的多核苷酸或载体编码的或存在于一种或多种分开的多核苷酸或载体上的两种或更多种相对多核苷酸,并且两种或更多种外源多核苷酸与使得能够形成两种或更多种CRISPR-CAS复合体的所述CRISPR-Cas系统一起提供。在根据本发明的方法中,根据本发明的这种CRISPR-Cas系统可方便地用于调节两种或更多种靶多核苷酸处的表达,即靶向多个靶位点的方法。根据本发明的这种CRISPR-Cas系统将偶然在一个或多个靶多核苷酸处形成一个、两个或更多个CRISPR-CAS复合体。这种方法可用于在宿主细胞的基因组中产生一个或多个插入、缺失、取代,任选地与一种或多种外源多核苷酸组合,或通过形成的CRISPR-CAS复合体来调节基因的表达。
优选地,CRISPR-Cas复合体在靶多核苷酸的位置切割一条或两条多核苷酸链,从而导致基因产物的调节表达。CRISPR-Cas复合体也可以具有改变的核酸酶活性并且缺乏切割靶多核苷酸的一条或两条链的能力;在这种情况下,通过复合体与靶多核苷酸的结合来调节表达。
在一个实施方式中,当根据本发明第八方面的组合物包含至少一种或两种向导多核苷酸的来源和/或至少一种Cas蛋白的来源时,形成了至少一种CRISPR-Cas复合体或两种不同的CRISPR-CAS复合体,其在靶多核苷酸的一个位置或不同位置切割一条或两条多核苷酸链,从而导致从靶多核苷酸中缺失多核苷酸片段。优选地,包含至少一种或两种向导多核苷酸和/或至少一种Cas蛋白的来源的根据本发明的这种组合物另外包含如下文所定义的外源多核苷酸,其与向导多核苷酸所靶向的至少一种或两种靶多核苷酸至少部分互补。这种待缺失的多核苷酸片段或缺失的片段的长度可以为几个核苷酸至几千个核苷酸,可以缺失整个基因,或者可以缺失基因簇。因此,本发明提供了调节宿主细胞中多核苷酸表达的方法,其中从靶多核苷酸中缺失多核苷酸片段。
在一个实施方式中,调节宿主细胞中多核苷酸表达的方法(其中从靶多核苷酸中缺失多核苷酸片段)包括使宿主细胞与如本文所述的组合物接触,其中所述向导多核苷酸指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体。优选地,调节宿主细胞中多核苷酸表达的方法(其中从靶多核苷酸中缺失多核苷酸片段)包括使宿主细胞与如本文所述的组合物接触,其中所述向导多核苷酸指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述宿主细胞是与NHEJ相关的组分有缺陷的经修饰的宿主细胞。在另一个优选的实施方式中,调节宿主细胞中多核苷酸表达的方法(其中从靶多核苷酸中缺失多核苷酸片段)包括使宿主细胞与如本文所述的组合物接触,其中所述向导多核苷酸指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述宿主细胞是与NHEJ相关的组分有缺陷的经修饰的宿主细胞,其中如本文所述的组合物不包含外源多核苷酸或供体多核苷酸。在一个优选的实施方式中,与NHEJ相关的组分是酵母Ku70或酵母Ku80或酵母LIG4或其各自在根据本发明的宿主细胞中的直系同源物。在另一个实施方式中,宿主细胞是丝状真菌宿主细胞。在调节宿主细胞中多核苷酸表达的方法的另一个实施方式中,组合物包含在AMA载体中。
因此,在一个实施方式中,本发明涉及调节细胞中多核苷酸表达的方法,其中从靶多核苷酸中缺失多核苷酸片段,所述方法包括使宿主细胞与本文所述组合物接触,但所述组合物优选不包含本文所定义的供体多核苷酸,其中所述向导多核苷酸指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述宿主细胞在与NHEJ相关的组分方面有缺陷,与NHEJ相关的组分优选酵母Ku70或酵母Ku80或酵母LIG4或其各自在宿主细胞中的直系同源物。
出乎意料地发现:在如本文所述的调节细胞中多核苷酸表达的方法(其中从靶多核苷酸中缺失多核苷酸片段)中,在参与NHEJ的基因有缺陷的宿主细胞中,当在目标切割位点的两个位点上存在同源区域并且其中本文所述的组合物不包含供体DNA时,通过使用CRISPR/CAS9系统,可以以受控方式获得宿主细胞基因组中的缺失。
因此,在一个实施方式中,本发明涉及调节细胞中多核苷酸表达的方法,其中从靶多核苷酸中缺失多核苷酸片段,所述方法包括使宿主细胞与非天然存在的或工程化的组合物接触,所述组合物包含含有向导多核苷酸和Cas蛋白的CRISPR-Cas系统,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述向导序列基本上是宿主细胞基因组中的5’-(N)yPAM-3’多核苷酸序列靶标的(N)y部分的反向互补物,其中y是8-30的整数,其中PAM是原间隔序列邻近基序,其中所述宿主细胞优选是真核生物,所述真核生物是丝状真菌,优选Aspergillus、Penicillium、Rasamsonia或Mortierella;并且其中PAM优选为选自5'-XGG-3'、5'-XGGXG-3'、5'-XXAGAAW-3'、5'-XXXXGATT-3'、5'-XXAGAA-3'、5'-XAAAAC-3'的序列,其中X可以是任何核苷酸或其类似物,优选X可以是任何核苷酸;并且W是A或T,但优选不包含如本文所定义的供体多核苷酸,其中所述向导多核苷酸指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述宿主细胞在与NHEJ相关的组分方面有缺陷,与NHEJ相关的组分优选酵母Ku70或酵母Ku80或酵母LIG4或其各自在宿主细胞中的直系同源物,其中所述Cas蛋白具有指导在靶序列的位置切割两条多核苷酸链的活性并且其中所述切割发生在包含在两个同源区域之间的基因组区域中,所述同源区域在被所述Cas蛋白切割后彼此重组,从而导致所述区域之间包含的多核苷酸缺失。
优选地,两个同源区域之间的同源性程度使得允许同源重组。优选地,两个同源区域在同源区域的全长上具有至少60%、70%、80%、90%、99%或100%的序列同一性。已出乎意料地发现:同源区域的长度可以非常短,即使在丝状真菌中亦是如此,其中通常需要至少1kb或几kb的长度才能允许进行同源重组。因此,在一个优选的实施方式中,同源区域的长度优选为至多1kb、至多0.5kb、至多100bp、至多50bp、至多40bp、至多30bp、至多20bp、最多10bp。
优选地,两个同源区域之间的距离为至多10kb、至多9kb、至多8kb、至多7kb、至多6kb、至多5kb、至多4kb、至多3kb、至多2kb、至多1kb、至多0.5kb、至多100bp、至多50bp、至多40bp、至多30、20、10kb。
一方面,本发明涉及能够鉴定在PAM位点附近的约7-20bp的同源区域之间所包含的基因组中的PAM位点的软件算法,以设计靶向一个或多个PAM位点并产生多核苷酸缺失而不使用供体DNA的方法。
上述方法可用于以设计的方式有效移除多核苷酸序列。例如,经过在基因组DNA处引入Cas9表达盒并且在几轮CRISPR/CAS9系统介导的修饰之后,可以通过引入靶向Cas9表达盒中的位点的gRNA从基因组中移除CAS9,并且其中Cas9表达盒包含在如上文所定义的两个同源区域之间,优选长100bp,更优选长20bp、15bp或较短,并切开Cas9开放阅读框或表达盒的大部分。
上述方法也可用于基因的瞬时失活。例如,可通过以下方法使基因例如Ku70多核苷酸无功能:在Ku70基因的ORF中插入多核苷酸序列,Ku70基因分别在其5'-端和3'-端包含两个同源区域,其中优选地所述同源区域长100bp,更优选长20bp、15bp或较短。可以使用CRISPR-Cas9系统但不使用上述供体DNA而使Ku70基因再次有功能。
在一个实施方式中,调节表达的方法包括在靶多核苷酸的至少一个位置切割一条或两条多核苷酸链,然后通过与外源多核苷酸同源重组来修饰靶多核苷酸。在这种情况下,根据本发明第一方面的组合物优选还包含这种外源多核苷酸。这种修饰可导致靶多核苷酸中至少一个核苷酸的插入、缺失或取代,其中插入或取代核苷酸可来源于或可不来源于外源多核苷酸。在一个实施方式中,外源多核苷酸包含与靶多核苷酸同源的区域。优选地,这些同源区域之间的同源性程度使得允许同源重组。优选地,同源区域在同源区域的全长上具有至少60%、70%、80%、90%、99%或100%的序列同一性。在一个实施方式中,其中宿主细胞在参与本文所定义的NHEJ的组分方面有缺陷,同源区域的长度优选为至多1kb、至多0.5kb、至多100bp、至多50bp、至多40bp、至多30bp、至多20bp、最多10bp。
当外源多核苷酸是非整合实体时,也可以进行修饰;在这种情况下,靶多核苷酸被修饰,但没有外源多核苷酸的核苷酸被引入到靶多核苷酸中。因此,当根据本发明的Cas蛋白作为蛋白质被转化时,所得到的宿主是非重组宿主。在根据本发明的这个方面的方法中,宿主细胞因此可以是重组宿主细胞或可以是非重组宿主细胞。外源多核苷酸可以是任何感兴趣的多核苷酸,例如编码如本文定义的感兴趣的化合物的多核苷酸,或制造多核苷酸或其变体的一部分。
另一方面,本发明提供了产生宿主细胞的方法,所述方法包括使宿主细胞与根据本发明第八方面的组合物接触,其中所述向导多核苷酸指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体。本发明的这个实施方式中的宿主细胞可以是任何类型的如本文所定义的宿主细胞,并且可以包含编码本文其它地方所定义的感兴趣的化合物的多核苷酸。产生根据本发明的宿主细胞的优选方法包括产生后代宿主细胞的步骤,其中在所述后代宿主细胞中不再存在根据本发明的CRISPR-Cas系统的组分。进一步优选的宿主细胞是经修饰的宿主细胞,其中与相应的野生型宿主细胞相比,如上所述的与NHEJ相关的组分的表达发生变化;优选与NHEJ相关的组分的表达降低。
根据本发明第八方面的组合物可以是如本文所定义的任何这种组合物。使宿主细胞与根据本发明的组合物接触可以通过本领域技术人员已知的任何方式进行。根据本发明的宿主细胞可以被简单地引入包含根据本发明的组合物的溶液中。可以使用将根据本发明的组合物递送到宿主细胞中的特定工具。
第十方面,本发明提供了生产感兴趣的化合物的方法,所述方法包括在有益于感兴趣的化合物的条件下培养根据本发明第六方面的宿主细胞或通过根据本发明的第三方面或第四方面的方法能够获得或获得的宿主细胞,并任选地纯化或分离所述感兴趣的化合物。
在本发明的所有实施方式的上下文中,感兴趣的化合物可以是任何生物化合物。生物化合物可以是生物质或生物聚合物或代谢物。生物化合物可以由构成生物合成通路或代谢通路的一系列多核苷酸或单个多核苷酸编码,或者可以是一系列多核苷酸的产物或单个多核苷酸的产物的直接结果,多核苷酸可以是基因,一系列多核苷酸可以是基因簇。在本发明的所有实施方式中,编码感兴趣的生物化合物或与感兴趣的生物化合物相关的生物合成通路或代谢通路的一系列多核苷酸或单个多核苷酸是根据本发明的组合物和方法的优选靶标。生物化合物可以对于宿主细胞是天然的或对于宿主细胞是异源的。
术语“异源生物化合物”在本文中被定义为对细胞不是天然的生物化合物;或其中已进行结构修饰以改变天然生物化合物的天然生物化合物。
术语“生物聚合物”在本文中被定义为相同、相似或不相似的亚基(单体)的链(或聚合物)。生物聚合物可以是任何生物聚合物。生物聚合物可以例如是但不限于核酸、多胺、多元醇、多肽(或聚酰胺)或多糖。
生物聚合物可以是多肽。多肽可以是具有感兴趣的生物活性的任何多肽。术语“多肽”在本文中并不是指特定长度的编码产物,因此包括肽、寡肽和蛋白质。术语多肽是指任何长度的氨基酸的聚合物。聚合物可以是线性的或分支的,它可以包含经修饰的氨基酸,并且可以被非氨基酸中断。该术语还包括已被修饰的氨基酸聚合物;例如二硫键形成、糖基化、脂化、乙酰化、磷酸化或任何其它操作,例如与标记组分缀合。在本文中使用时,术语“氨基酸”包括天然的和/或非天然的或合成的氨基酸,包括甘氨酸和D或L光学异构体二者,以及氨基酸类似物和肽模拟物。多肽还包括上述多肽和杂合多肽的天然存在的等位基因和工程化变型。多肽对于宿主细胞可以是天然的或者可以是异源的。多肽可以是胶原或明胶,或其变体或杂合体。多肽可以是抗体或其部分、抗原、凝血因子、酶、激素或激素变体、受体或其部分、调节蛋白、结构蛋白、报告分子或转运蛋白、参与分泌过程的蛋白质、参与折叠过程的蛋白质、分子伴侣、肽氨基酸转运蛋白、糖基化因子、转录因子、合成肽或寡肽、细胞内蛋白质。细胞内蛋白质可以是酶,例如蛋白酶、神经酰胺酶、环氧化物水解酶、氨肽酶、酰基转移酶、醛缩酶、羟化酶、氨肽酶、脂酶。多肽也可以是细胞外分泌的酶。这类酶可以属于氧化还原酶、转移酶、水解酶、裂解酶、异构酶、连接酶、过氧化氢酶、纤维素酶、几丁质酶、角质酶、脱氧核糖核酸酶、葡聚糖酶、酯酶的组。酶可以是糖酶,例如纤维素酶诸如内切葡聚糖酶、β-葡聚糖酶、纤维二糖水解酶或β-葡糖苷酶、半纤维素酶或果胶分解酶例如木聚糖酶、木糖苷酶、甘露聚糖酶、半乳聚糖酶、半乳糖苷酶、果胶甲基酯酶、果胶裂解酶、果胶酸裂解酶、内切多聚半乳糖醛酸酶、外切半乳糖醛酸酶、鼠李糖半乳糖醛酸酶、阿拉伯糖酶、阿拉伯呋喃糖苷酶、阿拉伯木聚糖水解酶、半乳糖醛酸酶、裂解酶或淀粉分解酶;水解酶、异构酶或连接酶、磷酸酶如肌醇六磷酸酶、酯酶如脂酶、蛋白水解酶、氧化还原酶如氧化酶、转移酶或异构酶。酶可以是植酸酶。酶可以是氨肽酶、天冬酰胺酶、淀粉酶、麦芽糖淀粉酶、糖酶、羧肽酶、内切蛋白酶、金属蛋白酶、丝氨酸蛋白酶、过氧化氢酶、几丁质酶、角质酶、环糊精糖基转移酶、脱氧核糖核酸酶、酯酶、α-半乳糖苷酶、β-半乳糖苷酶、葡糖淀粉酶、α-葡糖苷酶、β-葡糖苷酶、卤过氧化物酶、蛋白质脱氨酶、转化酶、漆酶、脂酶、甘露糖苷酶、非水溶性葡聚糖酶、氧化酶、果胶分解酶、过氧化物酶、磷脂酶、半乳糖脂酶、叶绿素酶、多酚氧化酶、核糖核酸酶、转谷氨酰胺酶或葡萄糖氧化酶、己糖氧化酶、单加氧酶。
根据本发明,感兴趣的化合物可以是具有改进的分泌特征的多肽或酶,如WO2010/102982中所述。根据本发明,感兴趣的化合物可以是融合的或杂合的多肽,其与另一多肽在多肽或其片段的N-末端或C-末端融合。通过将编码一种多肽的核酸序列(或其部分)与编码另一种多肽的核酸序列(或其部分)融合来产生融合多肽。
产生融合多肽的技术是本领域已知的,包括连接编码多肽的编码序列以使它们在框内并且融合多肽的表达受相同启动子和终止子的控制。杂合多肽可以包含从至少两种不同多肽获得的部分或完整多肽序列的组合,其中一种或多种所述多肽可以与宿主细胞异源。融合多肽和信号序列融合的实例例如如WO2010/121933中所述。
生物聚合物可以是多糖。多糖可以是任何多糖,包括但不限于粘多糖(例如肝素和透明质酸)和含氮多糖(例如几丁质)。在一个优选的选项中,多糖是透明质酸。
编码感兴趣的化合物或编码根据本发明所述感兴趣的化合物的产生中所涉及的化合物的多核苷酸可编码在初级或次级代谢产物,例如有机酸、类胡萝卜素、(β-内酰胺)抗生素和维生素的合成中所涉及的酶。这种代谢产物可视为根据本发明所述的生物化合物。
术语“代谢产物”涵盖初级和次级代谢产物;代谢产物可为任何代谢产物。优选的代谢产物为柠檬酸、葡糖酸、己二酸、富马酸、衣康酸和琥珀酸。
代谢产物可由例如在生物合成或代谢通路中的一个或更多个基因编码。初级代谢产物是与能量代谢、生长和结构相关的、细胞初级或一般代谢的产物。次级代谢产物是次级代谢的产物(见,例如,R.B.Herbert,The Biosynthesis of Secondary Metabolites,Chapman和Hall,New York,1981)。
初级代谢产物可为但不限于氨基酸、脂肪酸、核苷、核苷酸、糖、甘油三酯或维生素。
次级代谢产物可为但不限于生物碱、香豆素、类黄酮、聚酮、奎宁、类固醇、肽或萜。次级代谢产物可为抗生素、拒食素、引诱剂、杀菌剂、杀真菌剂、激素、杀虫剂或杀鼠剂。优选的抗生素为头孢菌素和β-内酰胺。其他优选代谢产物为外代谢产物。外代谢产物的实例为Aurasperone B、Funalenone、Kotanin、Nigragillin、Orlandin、其他萘并-γ-吡喃酮、吡喃黑杆菌素A(Pyranonigrin A)、Tensidol B、伏马菌素B2和赭曲霉素A。
生物化合物也可为选择标记的产物。选择标记为目标多核苷酸的产物,所述产物提供了杀生物剂或病毒抗性、重金属抗性、对营养缺陷型的原营养等。选择标记包括但不限于amdS(乙酰胺酶)、argB(鸟氨酸氨基甲酰转移酶)、bar(草胺膦乙酰转移酶)、hygB(潮霉素磷酸转移酶)、niaD(硝酸还原酶)、pyrG(乳清酸核苷-5'-磷酸脱羧酶)、sC(硫酸腺苷酰转移酶)、trpC(邻氨基苯甲酸合酶)、ble(腐草霉素抗性蛋白)、hyg(潮霉素)、NAT或NTC(诺尔丝菌素)及其等同物。
根据本发明,感兴趣的化合物优选为感兴趣的化合物列表中描述的多肽。
根据本发明的另一实施方式,感兴趣的化合物优选为代谢产物。
根据本发明的宿主细胞可以已经能够产生感兴趣的化合物。也可为突变微生物细胞提供编码多肽的同源或异源核酸构建体,其中多肽可为感兴趣的化合物或在感兴趣的化合物的产生中所涉及的多肽。本领域的技术人员知道如何修饰微生物宿主细胞以致其能够产生感兴趣的化合物。
可将多于一个拷贝的本发明多核苷酸插入微生物宿主细胞中以介导由所述多核苷酸编码的产物的产生。这可以优选地通过将多个拷贝的多核苷酸整合到宿主细胞的基因组中,更优选地通过靶向多核苷酸在前段中定义的高度表达的基因座之一的整合来完成。或者,整合多个拷贝可通过包含可扩增的选择标记基因与本发明的多核苷酸而获得,这样,可以通过在合适选择剂的存在下培养细胞来选择含有扩增拷贝的选择标记基因(因此额外拷贝的多核苷酸)的细胞。为了更多地增加根据本发明的多核苷酸的拷贝数,可以使用如WO98/46772中所述的基因转换技术。
通用定义
在整个本说明书和所附权利要求书中,词语“包括”、“包含”、“含有”、“具有”及其变体应被解释为包含性的。换言之,在上下文允许的情况下,这些词语旨在表达可以包含未具体列举的其他要素或整体。
不使用数量词修饰在本文中用于指一个/种或多于一个/种(即,一个/种或至少一个/种)语法对象。举例来说,“元素”可以表示一个/种元素或多于一个/种元素。
当与数值(例如约10)相关联地使用时,词语“约”或“近似”优选意指该值可以是给定值(10)的±1%。
优选的核苷酸类似物或等效物包含经修饰的骨架。这种骨架的实例包括吗啉代骨架、氨基甲酸酯骨架、硅氧烷骨架、硫化物、亚砜和砜骨架、甲代乙酰和硫代甲酰基骨架、亚甲基甲酰基骨架、核糖乙酰骨架、含烯烃骨架、氨基磺酸酯、磺酸酯和磺酰胺骨架、亚甲基亚氨基和亚甲基肼基骨架、以及酰胺骨架。进一步优选地,骨架中的残基之间的键不包括磷原子,例如由短链烷基或环烷基核苷间键、混合的杂原子和烷基或环烷基核苷间键、或者一个或多个短链杂原子或杂环核苷间键形成的键。
优选的核苷酸类似物或等效物包含具有经修饰的聚酰胺骨架(Nielsen等人(1991)Science 254,1497-1500)的肽核酸(PNA)。基于PNA的分子在碱基对识别方面是DNA分子的真实模仿物。PNA的骨架由通过肽键连接的N-(2-氨基乙基)-甘氨酸单元组成,其中核碱基通过亚甲基羰基键与骨架连接。替代性的骨架包含一碳延伸的吡咯烷PNA单体(Govindaraju和Kumar(2005)Chem.Commun,495–497)。由于PNA分子的骨架不含带电的磷酸根基团,因此PNA-RNA杂合体通常分别比RNA-RNA或RNA-DNA杂合体更稳定(Egholm等(1993)Nature 365,566-568)。
进一步优选的骨架包含吗啉代核苷酸类似物或等效物,其中核糖或脱氧核糖被6元吗啉代环替代。最优选的核苷酸类似物或等效物包含磷二酰胺吗啉代寡聚物(PMO),其中核糖或脱氧核糖被6元吗啉代环替代,并且相邻吗啉代环之间的阴离子磷酸二酯键被非离子磷酸二酰胺键替代。
进一步优选的核苷酸类似物或等效物包含磷酸二酯键中至少一个非桥接氧的取代。这种修饰略微使碱基配对不稳定,但增加了对核酸酶降解的显著抗性。优选的核苷酸类似物或等效物包括硫代磷酸酯,手性硫代磷酸酯,二硫代磷酸酯,磷酸三酯,氨基烷基磷酸三酯,H-膦酸酯,甲基和其它烷基膦酸酯包括3'-亚烷基膦酸酯,5'-亚烷基膦酸酯和手性膦酸酯,次磷酸酯,氨基磷酸酯包括3'-氨基氨基磷酸酯和氨基烷基氨基磷酸酯,硫代氨基磷酸酯,硫代烷基膦酸酯,硫代烷基磷酸三酯,硒代磷酸酯或硼烷磷酸酯。
进一步优选的核苷酸类似物或等效物包含一个或多个在2'、3'和/或5'位被单取代或二取代的糖片段,例如-OH;-F;取代或未取代的、线性或支化的低级(C1-C10)烷基、烯基、炔基、烷芳基、烯丙基、芳基或芳烷基,其可被一个或多个杂原子中断;O-、S-或N-烷基;O-、S-或N-烯基;O-、S-或N-炔基;O-、S-或N-烯丙基;O-烷基-O-烷基、-甲氧基、-氨基丙氧基;氨氧基、甲氧基乙氧基;-二甲基氨基氧基乙氧基;和二甲基氨基乙氧基乙氧基。糖片段可以是吡喃糖或其衍生物,或脱氧吡喃糖或其衍生物,优选核糖或其衍生物,或脱氧核糖或其衍生物。此类优选的衍生糖片段包含锁核酸(LNA),其中2'-碳原子与糖环的3'或4'碳原子相连,从而形成双环糖片段。优选的LNA包含2'-O,4'-C-亚乙基桥接的核酸(Morita等人2001.Nucleic Acid Res Supplement No.1:241-242)。这些取代使得核苷酸类似物或等效物耐RNA酶H和核酸酶并增加了对靶标的亲和性。
在本发明的上下文中,氨基酸-序列或核酸-序列的“序列同一性”或“同一性”在本文中被定义为通过比较序列所确定的两种或更多种氨基酸(肽、多肽或蛋白质)序列或者两种或更多种核酸(核苷酸、寡核苷酸、多核苷酸)序列之间的关系。在本领域中,“同一性”也表示氨基酸或核酸序列之间的序列相关度,这根据情况通过这类序列串之间的匹配确定。在本发明中,与特定序列的序列同一性优选表示在所述特定多肽或多核苷酸序列的全长上的序列同一性。通过将一种肽或多肽的氨基酸序列及其保守氨基酸取代物与第二种肽或多肽的序列进行比较来确定两种氨基酸序列之间的“相似性”。在一个优选的实施方式中,在本文鉴定的整个序列(SEQ ID NO:)上计算同一性或相似性。可以通过已知的方法容易地计算“同一性”和“相似性”,所述方法包括但不限于Computational Molecular Biology,Lesk,A.M.编,Oxford University Press,New York,1988;Biocomputing:Informaticsand Genome Projects,Smith,D.W.编,Academic Press,New York,1993;ComputerAnalysis of Sequence Data,Part I,Griffin,A.M.,和Griffin,H.G.编,Humana Press,New Jersey,1994;Sequence Analysis in Molecular Biology,von Heine,G.,AcademicPress,1987;和Sequence Analysis Primer,Gribskov,M.和Devereux,J.编,M StocktonPress,New York,1991;和Carillo,H.,和Lipman,D.,SIAM J.Applied Math.,48:1073(1988)中所述那些。
确定同一性的优选方法被设计为给出所检测序列之间的最大匹配。确定同一性和相似性的方法被编入公众可用的计算机程序中。确定两个序列之间的同一性和相似性的优选计算机程序方法包括例如GCG程序包(Devereux,J.等人,Nucleic Acids Research 12(1):387(1984))、BestFit、BLASTP、BLASTN和FASTA(Altschul,S.F.等人,J.Mol.Biol.215:403-410(1990))。BLAST X程序可从NCBI和其他来源公开获得(BLAST Manual,Altschul,S.等人,NCBI NLM NIH Bethesda,MD 20894;Altschul,S.等人,J.Mol.Biol.215:403-410(1990))。众所周知的Smith Waterman算法也可用于确定同一性。
用于多肽序列比较的优选参数包括以下:算法:Needleman和Wunsch,J.Mol.Biol.48:443-453(1970);比较矩阵:来自Hentikoff和Hentikoff,Proc.Natl.Acad.Sci.USA.89:10915-10919(1992)的BLOSSUM62;空位罚分:12;和空位长度罚分:4。一个可使用这些参数的程序作为来自位于Madison,WI的Genetics ComputerGroup的“Ogap”程序公开可用。上述参数是氨基酸比较的默认参数(连同末端空位没有罚分)。
用于核酸比较的优选参数包括以下:算法:Needleman和Wunsch,J.Mol.Biol.48:443-453(1970);比较矩阵:匹配=+10,不匹配=0;空位罚分:50;空位长度罚分:3。可从位于Madison,Wis的Genetics Computer Group获得Gap程序。上面给出的是核酸比较的默认参数。
任选地,在确定氨基酸相似性程度时,本领域技术人员很清楚,还可以考虑所谓的“保守”氨基酸取代。保守氨基酸取代是指具有相似侧链的残基的可互换性。例如,具有脂族侧链的一组氨基酸是甘氨酸、丙氨酸、缬氨酸、亮氨酸和异亮氨酸;具有脂族-羟基侧链的一组氨基酸是丝氨酸和苏氨酸;具有含酰胺侧链的一组氨基酸是天冬酰胺和谷氨酰胺;具有芳族侧链的一组氨基酸是苯丙氨酸、酪氨酸和色氨酸;具有碱性侧链的一组氨基酸是赖氨酸、精氨酸和组氨酸;具有含硫侧链的一组氨基酸是半胱氨酸和甲硫氨酸。优选的保守氨基酸取代基是:缬氨酸-亮氨酸-异亮氨酸、苯丙氨酸-酪氨酸、赖氨酸-精氨酸、丙氨酸-缬氨酸和天冬酰胺-谷氨酰胺。本文公开的氨基酸序列的取代变体是其中已经移除了所公开序列中的至少一个残基并在其位置插入了不同残基的那些。优选地,氨基酸改变是保守的。每个天然存在的氨基酸的优选保守取代如下:Ala到ser;Arg到lys;Asn到gln或his;Asp到glu;Cys到ser或ala;Gln到asn;Glu到asp;Gly到pro;His到asn或gln;Ile到leu或val;Leu到ile或val;Lys到arg;gln或glu;Met到leu或ile;Phe到met,leu或tyr;Ser到thr;Thr到ser;Trp到tyr;Tyr到trp或phe;以及Val到ile或leu。
根据本发明的多核苷酸用核苷酸序列来表示。根据本发明的多肽用氨基酸序列来表示。根据本发明的核酸构建体被定义为这样的多核苷酸,其是从天然存在的基因中分离的,或者已被修饰为含有下述核酸片断,所述片断以自然界不存在的方式组合或并置。任选地,根据本发明的核酸构建体中存在的多核苷酸与一种或多种控制序列可操作地相连,所述控制序列指导宿主细胞或无细胞系统中编码产物的产生或表达。
本文所提供的序列信息不应被如此狭义地解释为需要包含错误识别的碱基。本领域技术人员能够识别这种错误识别的碱基并知道如何纠正这种错误。
本发明的所有实施方式,即根据本发明的组合物、调节表达的方法、包含根据本发明的组合物的宿主细胞、产生根据本发明的宿主细胞的方法、根据本发明的宿主细胞和生产根据本发明的感兴趣的化合物的方法优选指宿主细胞,而不是无细胞的体外系统;换句话说,根据本发明的CRISPR-Cas系统优选为宿主细胞系统,而不是无细胞的体外系统。
在本发明的所有实施方式中,即根据本发明的组合物、调节表达的方法、包含根据本发明的组合物的宿主细胞、产生根据本发明的宿主细胞的方法、根据本发明的宿主细胞和生产根据本发明的感兴趣的化合物的方法,宿主细胞优选是微生物细胞,所述微生物宿主细胞优选是原核宿主细胞或真核宿主细胞。当根据本发明的宿主细胞是真核宿主细胞时,宿主细胞可以是或不是哺乳动物宿主细胞;在后一种情况下,根据本发明的真核宿主细胞不是哺乳动物宿主细胞。根据本发明的宿主细胞可以是单倍体、二倍体或多倍体宿主细胞。
根据本发明的宿主细胞可以是原核宿主细胞。优选地,根据本发明的原核宿主细胞是细菌宿主细胞。术语“细菌宿主细胞”包括革兰氏阴性微生物和革兰氏阳性微生物。优选地,根据本发明的细菌宿主细胞来自选自Escherichia、Anabaena、Caulobactert、Gluconobacter、Rhodobacter、Pseudomonas、Paracoccus、Bacillus、Brevibacterium、Corynebacterium、Rhizobium(Sinorhizobium)、Flavobacterium、Klebsiella、Enterobacter、Lactobacillus、Lactococcus、Methylobacterium、Staphylococcus或Streptomyces的属。更优选地,细菌宿主细胞选自B.subtilis、B.amyloliquefaciens、B.licheniformis、B.puntis、B.megaterium、B.halodurans、B.pumilus、G.oxydans、Caulobactert crescentus CB 15、Methylobacterium extorquens、Rhodobactersphaeroides、Pseudomonas zeaxanthinifaciens、Paracoccus denitrificans、Escherichia coli、Corynebacterium glutamicum、Staphylococcus carnosus、Streptomyces lividans、Sinorhizobium melioti和Rhizobium radiobacter。
根据本发明的宿主细胞可以是真核宿主细胞。优选地,根据本发明的真核宿主细胞是哺乳动物、昆虫、植物、真菌或藻类宿主细胞;更优选地,根据本发明的真核宿主细胞是昆虫、植物、真菌或藻类宿主细胞;甚至更优选地,根据本发明的真核宿主细胞是真菌或藻类宿主细胞例如Schizochitrium;甚至更优选地,根据本发明的真核宿主细胞是真菌宿主细胞;甚至更优选地,根据本发明的真核宿主细胞是丝状真菌宿主细胞。优选的哺乳动物宿主细胞选自中国仓鼠卵巢(CHO)细胞、COS细胞、293细胞、PerC6细胞和杂交瘤。优选的昆虫宿主细胞选自Sf9和Sf21细胞及其衍生物。优选的真菌宿主细胞是酵母宿主细胞,优选的酵母宿主细胞来自选自Candida、Hansenula、Issatchenkia、Kluyveromyces、Pichia、Saccharomyces、Schizosaccharomyces,Yarrowia或Zygosaccharomyces的属;更优选地,酵母宿主细胞选自Kluyveromyces lactis、Kluyveromyces lactis NRRL Y-1140、Kluyveromyces marxianus、Kluyveromyces.thermotolerans、Candida krusei、Candidasonorensis、Candida glabrata、Saccharomyces cerevisiae、Saccharomyces cerevisiaeCEN.PK113-7D、Schizosaccharomyces pombe、Hansenula polymorpha、Issatchenkiaorientalis、Yarrowia lipolytica、Yarrowia lipolytica CLIB122,Yarrowialipolytica ML324(保藏号为ATCC18943),Pichia stipidis,Scheffersomyces stipitis和Pichia pastoris。更优选的真菌宿主细胞是丝状真菌细胞。本文所定义的丝状真菌包括Eumycota和Oomycota亚门的所有丝状形式(如Hawksworth等人,在Ainsworth and Bisby'sDictionary of The Fungi,1995年第8版,CAB International,University Press,Cambridge,UK中所定义)。丝状真菌的特征在于由几丁质、纤维素、葡聚糖、壳聚糖、甘露聚糖和其他复合多糖构成的菌丝体壁。通过菌丝伸长而营养生长并且碳分解代谢专性好氧。丝状真菌菌株包括但不限于Acremonium、Agaricus、Aspergillus、Aureobasidium、Chrysosporium、Coprinus、Cryptococcus、Filibasidium、Fusarium、Humicola、Magnaporthe、Mortierella、Mucor、Myceliophthora、Neocallimastix、Neurospora、Paecilomyces、Penicillium、Piromyces、Panerochaete、Pleurotus、Schizophyllum、Talaromyces、Rasamsonia、Thermoascus、Thielavia、Tolypocladium和Trichoderma菌株。根据本发明优选的丝状真菌宿主细胞来自选自Acremonium、Aspergillus、Chrysosporium、Myceliophthora、Penicillium、Talaromyces、Rasamsonia、Thielavia、Fusarium和Trichoderma的属;更优选地,来自选自Aspergillus niger、Acremonium alabamense、Aspergillus awamori、Aspergillus foetidus、Aspergillus sojae、Aspergillusfumigatus、Talaromyces emersonii、Rasamsonia emersonii、Rasamsonia emersoniiCBS393.64、Aspergillus oryzae、Chrysosporium lucknowense、Fusarium oxysporum、Mortierella alpina、Mortierella alpina ATCC 32222、Myceliophthora thermophila、Trichoderma reesei、Thielavia terrestris、Penicillium chrysogenum和P.chrysogenum Wisconsin 54-1255(ATCC28089)的种;甚至更优选地,根据本发明的丝状真菌宿主细胞是Aspergillus niger。当根据本发明的宿主细胞是Aspergillus niger宿主细胞时,宿主细胞优选是CBS 513.88、CBS124.903或其衍生物。
在许多培养物保藏机构,例如美国典型培养物保藏中心(American Type CultureCollection,ATCC)、德国微生物菌种保藏中心(Deutsche Sammlung von Mikroorganismenund Zellkulturen GmbH,DSM)、荷兰微生物菌种保藏中心(Centraalbureau VoorSchimmelcultures,CBS)、美国农业研究专利菌种保藏北区研究中心(AgriculturalResearch Service Patent Culture Collection,Northern Regional Research Center,NRRL)和俄罗斯莫斯科的俄罗斯科学院全俄微生物菌种保藏中心(All-RussianCollection of Microorganisms of Russian Academy of Sciences,俄语缩写VKM,英语缩写RCM),几种丝状真菌菌株易于为公众所用。作为本发明宿主细胞的优选菌株是Aspergillus niger CBS 513.88、CBS124.903、Aspergillus oryzae ATCC 20423、IFO4177、ATCC 1011、CBS205.89、ATCC 9576、ATCC14488-14491、ATCC 11601、ATCC12892、P.chrysogenum CBS 455.95、P.chrysogenum Wisconsin54-1255(ATCC28089)、Penicillium citrinum ATCC 38065、Penicillium chrysogenum P2、Thielaviaterrestris NRRL8126、Rasamsonia emersonii CBS393.64、Talaromyces emersonii CBS124.902、Acremonium chrysogenum ATCC 36225或ATCC 48272、Trichoderma reesei ATCC26921或ATCC 56765或ATCC 26921、Aspergillus sojae ATCC11906、Myceliophthorathermophila C1、Garg 27K、VKM-F 3500D、Chrysosporium lucknowense C1、Garg 27K、VKM-F 3500 D、ATCC44006及其衍生物。
优选地,并且更优选地,当根据本发明所述的微生物宿主细胞为丝状真菌宿主细胞时,根据本发明所述的宿主细胞进一步在其基因组中包含一个或更多个修饰,从而使得如果与亲本宿主细胞相比并且在相同条件下测量,宿主细胞在选自以下的至少一种产物的产生上缺陷:葡糖淀粉酶(glaA)、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶(amyBI和amyBII)、草酸水解酶(oahA)、毒素(优选赭曲霉素(ochratoxin)和/或伏马菌素(fumonisin))、蛋白酶转录调节子prtT、PepA、基因hdfA和/或hdfB编码的产物、非核糖体肽合酶npsE。
草酸水解酶(oahA)是许多宿主细胞中草酸合成通路的组分。oahA缺陷的宿主细胞将草酸缺陷。草酸在许多应用例如食品应用中是不需要的副产物。此外,草酸降低了产生这种组分的宿主细胞的培养基培养的pH,导致产率降低;即草酸缺陷的宿主细胞产率升高。因此,如果根据本发明所述的宿主细胞oahA缺陷是有利的。oahA缺陷宿主细胞和产生所述宿主细胞的优选方法在WO 2000/50576和WO2004/070022中有大量描述。产生oahA缺陷宿主细胞的一个优选方法为WO 2000/50576中描述的破坏重组方法。优选地,根据本发明所述的宿主细胞oahA缺陷。优选地,oahA为真菌oahA。更优选地,oahA为来自Aspergillus的oahA。甚至更优选,oahA为来自Aspergillus niger的oahA。甚至更优选,oahA为来自Aspergillusniger CBS 513.88的oahA。最优选地,oahA包含An10g00820的序列。
prtT为真核细胞中蛋白酶的转录激活子。最近在WO 00/20596、WO 01/68864、WO2006/040312和WO 2007/062936中已经描述了蛋白酶的几种真菌转录激活子。这些转录激活子分离自Aspergillus niger(A.niger)、Aspergillus fumigatus(A.fumigatus)、Penicillium chrysogenum(P.chrysogenum)和Aspergillus oryzae(A.oryzae)。蛋白酶基因的这些转录激活子可用于改进在宿主细胞中产生多肽的方法,其中所述多肽对蛋白酶降解敏感。当根据本发明所述的宿主细胞prtT缺陷时,宿主细胞将产生较少受prtT转录控制的蛋白酶。因此当根据本发明所述的宿主细胞prtT缺陷时有利。prtT缺陷宿主和产生这些宿主的优选方法在WO 01/68864、WO 2006/040312中有大量描述。WO 01/68864和WO 2006/040312描述了破坏prtT编码序列的重组和传统方法。WO 2007/062936描述了蛋白酶启动子中prtT结合位点的破坏。结合位点的破坏阻碍了prtT与结合位点的结合。因此,蛋白酶的转录未经prtT激活并且产生较少蛋白酶。
优选地,根据本发明所述的宿主细胞包含编码prtT的多核苷酸,所述多核苷酸包含修饰,使得当在可比较条件下培养时,与来源的亲本细胞相比,所述宿主细胞在prtT的产生上缺陷。优选地,prtT为真菌prtT。更优选地,prtT为来自Aspergillus的prtT。甚至更优选,prtT为来自Aspergillus niger的prtT。甚至更优选,prtT为来自Aspergillus nigerCBS 513.88的prtT。最优选地,prtT包含An04g06940的序列。
术语“葡糖淀粉酶”(glaA)与术语“淀粉葡萄糖苷酶”相同并且在本文中定义为具有糊精6-α-D-葡聚糖水解酶活性的酶,其催化在1,4-连接的α-D-葡萄糖残基和末端1,4-连接的α-D-葡萄糖残基链中分支点处1,6-α-D-葡糖苷键的内水解。可通过测定对硝基苯酚(paranitrofenol)从底物对硝基苯-α-D-吡喃葡萄糖苷的释放(Sigma),按AGIU/ml测量葡糖淀粉酶活性。这样产生黄色,可使用分光光度计在405nm下测量其吸光度。1AGIU是在pH4.3和60℃下,每分钟由可溶性淀粉底物产生1μmol葡萄糖的酶量。在WO98/46772中可找到所述测定法的更多详情。
优选地,根据本发明所述的宿主细胞包含编码glaA的多核苷酸,所述多核苷酸包含修饰,使得当在可比较条件下培养时,与来源的亲本细胞相比,所述宿主细胞在glaA的产生上缺陷。优选地,glaA为真菌glaA。更优选地,glaA为来自Aspergillus的glaA。甚至更优选,glaA为来自Aspergillus niger的glaA。甚至更优选,glaA为来自Aspergillus nigerCBS 513.88的glaA。最优选地,glaA包含An03g06550的序列。
本文将术语“α-淀粉酶”定义为在水的存在下,催化具有三个或更多个α-1,4-连接的葡萄糖单元的多糖内水解为麦芽-寡糖的1,4-α-D-葡聚糖的葡聚糖水解酶活性。为测定(中性)α-淀粉酶活性,根据供应商的方法使用Megazyme谷类α-淀粉酶试剂盒(Megazyme,CERALPHA α淀粉酶测定试剂盒,目录参考号K-CERA,2000-2001年)。测量的活性基于在过量葡糖淀粉酶和α-葡糖苷酶的存在下,在pH为7.0时,非还原封端对硝基苯麦芽庚糖苷的水解。形成的对硝基苯酚的量是对样品中存在的α-淀粉酶活性的度量。
本文将术语“酸稳定性α-淀粉酶”(amyA)定义为具有α-淀粉酶活性,在酸性pH范围内活性最佳的酶。为测定酸稳定性α-淀粉酶活性,也根据供应商的方法但是在酸性pH下使用Megazyme谷类α-淀粉酶试剂盒(Megazyme,CERALPHA α淀粉酶测定试剂盒,目录参考号K-CERA,2000-2001年)。测量的活性基于在过量葡糖淀粉酶和α-葡糖苷酶的存在下,在4.5的pH下,非还原封端对硝基苯麦芽庚糖苷的水解。形成的对硝基苯酚的量是对样品中存在的酸稳定性α-淀粉酶活性的度量。
优选地,根据本发明所述的宿主细胞包含编码AmyA的多核苷酸,所述多核苷酸包含修饰,其中当在可比较条件下培养时,与来源的亲本细胞相比,所述宿主细胞amyA缺陷。优选地,amyA为真菌amyA。更优选地,amyA为来自Aspergillus的amyA。甚至更优选,amyA为来自Aspergillus niger的amyA。甚至更优选,amyA为来自Aspergillus niger CBS 513.88的amyA。最优选地,amyA包含An11g03340的序列。
本文将术语“中性α-淀粉酶活性”(amy)定义为具有α-淀粉酶活性,在中性pH范围内活性最佳的酶。
优选地,根据本发明所述的宿主细胞包含编码AmyB的多核苷酸,所述多核苷酸包含修饰,其中当在可比较条件下培养时,与来源的亲本细胞相比,所述宿主细胞amyBI和/或amyBII缺陷。更优选地,根据本发明所述的宿主细胞amyBI和amy BII缺陷。优选地,amyB为真菌amyB。更优选地,amyB为来自Aspergillus的amyB。甚至更优选,amyB为来自Aspergillus niger的amyBI。甚至更优选,amyB为来自Aspergillus niger CBS 513.88的amyBI。最优选地,amyBI包含An12g06930的序列。甚至更优选,amyB为来自Aspergillusniger的amyBII。甚至更优选,amyB为来自Aspergillus niger CBS 513.88的amyBII。最优选地,amyBII包含An05g02100的序列。
本文将术语毒素相关多核苷酸定义为编码负责至少一种毒素或毒素中间化合物的生物合成或分泌的化合物或生化通路的基因簇、多个基因、基因或其部分。所述化合物可例如为可以是酶的多肽。
用于产生感兴趣的多肽的宿主细胞的许多宿主细胞,尤其是丝状真菌宿主细胞,包含编码多种毒素生物合成所涉及的酶的基因。例如,环匹阿尼酸、曲酸、3-硝基丙酸和黄曲霉毒素是在例如Aspergillus flavus中形成的已知毒素。类似地,在许多丝状真菌中,例如在Fusarium sp.(例如Fusarium venenatum)和Trichoderma中形成单端孢烯(trichothecene)并且赭曲霉素可由Aspergillus产生。最近,对工业Aspergillus niger宿主菌株基因组的测序揭示了无活性的伏马菌素基因簇(Pel等人,“Genome sequencing andanalysis of the versatile cell factory Aspergillus niger CBS 513.88”.NatBiotechnol.2007年2月;25(2):221-231)。感兴趣的化合物发酵期间这种毒素的形成非常不合需要,因为这些毒素可对操作人员、消费者和环境造成健康危害。因此,毒素缺陷的宿主细胞使得感兴趣的化合物的产生无毒。因为没有毒素必须从产物中去除,所以无毒化合物更易于产生。此外,对化合物的监管批准程序更简单。
优选地,根据本发明所述的宿主细胞包含编码化合物(其可为例如可以是酶的多肽)或生化通路的毒素相关多核苷酸,所述毒素相关多核苷酸包含修饰,其中当在可比较条件下培养时,与来源的亲本细胞相比,所述宿主细胞在所述毒素或毒素中间化合物的产生上缺陷。优选地,毒素或毒素中间化合物为真菌毒素或毒素中间化合物。更优选地,毒素或毒素中间化合物为来自Aspergillus的毒素或毒素中间化合物。甚至更优选,毒素或毒素中间化合物为来自Aspergillus niger的毒素或毒素中间化合物。甚至更优选,毒素或毒素中间化合物为来自Aspergillus niger CBS 513.88的毒素或毒素中间化合物。甚至更优选,毒素或毒素中间化合物为伏马菌素或伏马菌素中间化合物。甚至更优选,毒素或毒素中间化合物为赭曲霉素或赭曲霉素中间化合物。最优选地,毒素或毒素中间化合物为赭曲霉素或伏马菌素或赭曲霉素或伏马菌素中间化合物。
优选地,毒素相关多核苷酸编码真菌毒素或毒素中间化合物的产生中所涉及的化合物(例如其可为可以是酶的多肽)或生化通路。更优选地,所述毒素或毒素中间化合物来自Aspergillus。甚至更优选地,所述毒素或毒素中间化合物来自Aspergillus niger。甚至更优选地,所述毒素或毒素中间化合物来自Aspergillus niger CBS 513.88。甚至更优选,所述毒素或毒素中间化合物是伏马菌素或伏马菌素中间化合物;甚至更优选,伏马菌素B或伏马菌素B中间化合物;甚至更优选,伏马菌素B2或伏马菌素B2中间化合物。优选地,毒素相关多核苷酸包含来自An01g06820至An01g06930的伏马菌素簇的序列;更优选地,毒素相关多核苷酸包含An01g06930的序列。二者择一地或组合地,当毒素或毒素中间化合物是赭曲霉素或赭曲霉素中间化合物时,毒素相关多核苷酸编码赭曲霉素或赭曲霉素中间化合物中所涉及的化合物(例如其可为可以是酶的多肽)或生化通路;优选地,赭曲霉素A或赭曲霉素A中间化合物;更优选地,毒素相关多核苷酸包含来自An15g07880至An15g07930的簇的序列;最优选地,毒素相关多核苷酸包含An15g07910的序列和/或An15g07920的序列。
优选地,根据本发明所述的宿主细胞包含至少一种编码化合物(例如其可为可以是酶的多肽)或生化通路的毒素相关多核苷酸,所述毒素相关多核苷酸包含至少一个修饰,其中当在可比较条件下培养时,与来源的亲本细胞相比,所述宿主细胞在毒素或毒素中间化合物的产生上缺陷。更优选地,根据本发明所述的宿主细胞包含两种毒素相关多核苷酸,所述两种毒素相关多核苷酸各包含至少一个修饰,其中当在可比较条件下培养时,与来源的亲本细胞相比,所述宿主细胞优选在伏马菌素和赭曲霉素的产生上缺陷。甚至更优选,根据本发明所述的突变微生物宿主细胞包含三种或更多种毒素相关多核苷酸,所述三种或更多种毒素相关多核苷酸各包含至少一个修饰,其中当在可比较条件下培养时,与来源的亲本细胞相比,所述宿主细胞优选在伏马菌素、赭曲霉素和至少一种另外的毒素或毒素中间化合物的产生上缺陷。
优选地,根据本发明所述的宿主细胞在其基因组中包含一个或更多个修饰,以导致主要细胞外天冬氨酸蛋白酶PepA产生方面的缺陷。优选地,根据本发明所述的宿主细胞包含编码主要细胞外天冬氨酸蛋白酶PepA的pepA基因的破坏;更优选地,pepA为来自Aspergillus的pepA;甚至更优选,pepA为来自Aspergillus niger的pepA;甚至更优选,pepA为来自Aspergillus niger CBS 513.88的pepA;最优选,pepA包含An14g04710的序列。
优选地,通过使细胞在NHEJ(非同源重组)组分上缺陷来提高多核苷酸靶向整合到根据本发明所述的宿主细胞基因组中预定位点的效率。优选地,根据本发明所述的宿主细胞包含编码含修饰的NHEJ组分的多核苷酸,其中当在相同条件下培养时,与来源的亲本细胞相比,所述宿主细胞在所述NHEJ组分的产生上缺陷。
待修饰的NHEJ组分可为本领域中技术人员已知的任何NHEJ组分。优选的待修饰NHEJ组分选自酵母KU70、KU80、MRE11、RAD50、RAD51、RAD52、XRS2、SIR4、LIG4的丝状真菌同源物的组。更优选的待修饰NHEJ组分为酵母KU70和KU80的丝状真菌同源物,优选hdfA(酵母KU70的同源物)或其同源物和hdfB(酵母KU80的同源物)或其同源物。最优选的待修饰NHEJ组分为KU70或hdfA或其同源物。另一优选的待修饰NHEJ组分为KU80或hdfB或其同源物。另一优选的待修饰NHEJ组分为酵母LIG4的丝状真菌同源物或其同源物。获得这种缺陷NHEJ中所涉组分的宿主细胞的方法为技术人员已知并且在WO2005/095624中有大量描述。优选地,hdfA基因为来自A.niger的hdfA基因,更优选为来自A.niger的根据WO2005/095624的SEQID NO:1的hdfA。在另一优选实施方式中,hdfB基因为来自A.niger的hdfB基因,更优选为来自A.niger的根据WO2005/095624的SEQ ID NO:4的hdfB。
当根据本发明所述的宿主细胞为丝状真菌宿主细胞时,所述宿主细胞优选另外在其基因组中包含一个或更多个修饰,以导致hdf A基因(如WO 2005/095624的SEQ ID NO:3所示)和/或hdfB基因(如WO 2005/095624的SEQ ID NO:6所示)编码的产物产生方面的缺陷。根据本发明所述的宿主细胞优选进一步包含hdfA和/或hdfB基因的破坏。在WO 2005/095624中已经描述了缺陷hdfA和/或hdfB基因编码的产物的丝状真菌宿主细胞。
当根据本发明所述的宿主细胞为丝状真菌宿主细胞时,所述宿主细胞优选进一步在其基因组中包含导致非核糖体肽合酶npsE(优选WO2012/001169的SEQ ID NO:38中所示的npsE)产生缺陷的修饰。在WO2012/001169中已经描述了非核糖体肽合酶npsE产生缺陷的这种宿主细胞(npsE具有WO2012/001169的SEQ ID NO:35中所示的基因组序列,SEQ ID NO:36中所示的编码序列,SEQ ID NO:37中所示的mRNA和SEQ ID NO:38中所示的nrps蛋白质)。
根据本发明的宿主细胞优选进一步包含位于其基因组的修饰,所述修饰导致在产生α-淀粉酶amyC(优选WO2014/013073的SEQ ID NO:4和8中所示的成熟amyC蛋白)方面存在缺陷。在WO2014/013073中已经描述了α-淀粉酶amyC产生缺陷的这种宿主细胞。amyC具有WO2014/013073的SEQ ID NO:1或5中所示的基因组序列、SEQ ID NO:2或6中所示的编码序列、SEQ ID NO:3或7中所示的amyC蛋白以及SEQ ID NO:4和8中所示的成熟amyC蛋白。
根据本发明的宿主细胞优选进一步包含位于其基因组的修饰,所述修饰导致在产生AgsE蛋白(优选WO2014/013074的SEQ ID NO:3中所示或所包含的成熟AgsE蛋白)方面存在缺陷。在WO2014/013073中已经描述了AgsE蛋白产生缺陷的这种宿主细胞。AgsE具有WO2014/013074的SEQ ID NO:1中所示的基因组序列、SEQ ID NO:2中所示的编码序列、SEQID NO:3中所示的AgsE蛋白以及SEQ ID NO:3中所包含的成熟AgsE蛋白。
如果与亲本宿主细胞相比并且在相同条件下测量,选自葡糖淀粉酶(glaA)、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶(amyBI和amyBII)、草酸水解酶(oahA)、毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调节子prtT、PepA、基因hdfA和/或hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC的至少一种产物产生方面的缺陷可以已经在根据本发明所述的宿主细胞所来源的亲本宿主细胞中存在,根据本发明所述的宿主细胞在选自葡糖淀粉酶(glaA)、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶(amyBI和amyBII)、草酸水解酶(oahA)、毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调节子prtT、PepA、基因hdfA和/或hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC的另一产物方面有缺陷。如果与亲本宿主细胞相比并且在相同条件下测量,选自葡糖淀粉酶(glaA)、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶(amyBI和amyBII)、草酸水解酶(oahA)、毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调节子prtT、PepA、基因hdfA和/或hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC、蛋白质AgsE的至少一种产物产生方面的缺陷可以已经在根据本发明所述的宿主细胞所来源的亲本宿主细胞中存在,根据本发明所述的宿主细胞在选自葡糖淀粉酶(glaA)、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶(amyBI和amyBII)、草酸水解酶(oahA)、毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调节子prtT、PepA、基因hdfA和/或hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC、蛋白质AgsE的另一产物方面有缺陷。如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的优选的宿主细胞包含glaA和任选至少另一种选自以下的产物产生方面的缺陷:酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶(amyBI和amyBII)、草酸水解酶(oahA)、毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调节子prtT、PepA、基因hdfA和/或hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC。
如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的进一步优选的宿主细胞包含glaA、PepA和任选至少另一种选自以下的产物产生方面的缺陷:酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶(amyBI和amyBII)、草酸水解酶(oahA)、毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调节子prtT、基因hdfA和/或hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC。
如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的进一步优选的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)和任选至少另一种选自以下的产物产生方面的缺陷:中性α-淀粉酶(amyBI和amyBII)、草酸水解酶(oahA)、毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调节子prtT、基因hdfA和/或hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC。
如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的进一步优选的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和任选至少另一种选自以下的产物产生方面的缺陷:中性α-淀粉酶amyBII、草酸水解酶(oahA)、毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调节子prtT、基因hdfA和/或hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC。
如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的进一步优选的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII和任选至少另一种选自以下的产物产生方面的缺陷:草酸水解酶(oahA)、毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调节子prtT、基因hdfA和/或hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC。
如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的进一步优选的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物和任选至少另一种选自以下的产物产生方面的缺陷:草酸水解酶(oahA)、毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调节子prtT、基因hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC。
如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的进一步优选的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物、草酸水解酶(oahA)和任选至少另一种选自以下的产物产生方面的缺陷:毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调节子prtT、基因hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC。
如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的进一步优选的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物、草酸水解酶(oahA)、赭曲霉素、伏马菌素和任选至少另一种选自以下的产物产生方面的缺陷:蛋白酶转录调节子prtT、基因hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC。
如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的进一步优选的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物、草酸水解酶(oahA)、赭曲霉素、伏马菌素、蛋白酶转录调节子prtT和任选至少另一种选自以下的产物产生方面的缺陷:基因hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC。
如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的进一步优选的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物、草酸水解酶(oahA)、赭曲霉素、伏马菌素、蛋白酶转录调节子prtT、非核糖体肽合酶npsE和任选至少另一种选自以下的产物产生方面的缺陷:基因hdfB编码的产物、淀粉酶amyC。
如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的进一步优选的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物、草酸水解酶(oahA)、赭曲霉素、伏马菌素、蛋白酶转录调节子prtT、淀粉酶amyC和任选至少另一种选自以下的产物产生方面的缺陷:基因hdfB编码的产物、淀粉酶amyC。
如果与亲本宿主细胞相比且在相同条件下测量,根据本发明的进一步优选的宿主细胞包含降低的淀粉酶背景并包含在产生glaA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII方面的缺陷。这种宿主细胞优选还包含在产生KU70或KU80的丝状真菌同源物方面的缺陷。这种宿主细胞优选还包含在产生毒素方面的缺陷。这种宿主细胞优选还包含在产生KU70或KU80的丝状真菌同源物方面的缺陷和在产生毒素方面的缺陷。
如果与亲本宿主细胞相比且在相同条件下测量,根据本发明的进一步优选的宿主细胞包含降低的淀粉酶背景并包含在产生glaA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI、amyBII以及amyC方面的缺陷。这种宿主细胞优选还可包含KU70或KU80的丝状真菌同源物。这种宿主细胞优选还包含在产生毒素方面的缺陷。这种宿主细胞优选还包含在产生KU70或KU80的丝状真菌同源物方面的缺陷和在产生毒素方面的缺陷。
根据本发明的优选的宿主细胞是丝状真菌宿主细胞,如果与亲本宿主细胞相比并且在相同条件下测量,其包含glaA和任选至少另一种选自以下的产物产生方面的缺陷:酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶(amyBI和amyBII)、草酸水解酶(oahA)、毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调节子prtT、PepA、基因hdfA和/或hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC、蛋白质AgsE。
在一个实施方式中,如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的宿主细胞包含glaA、PepA和任选至少另一种选自以下的产物产生方面的缺陷:酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶(amyBI和amyBII)、草酸水解酶(oahA)、毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调节子prtT、基因hdfA和/或hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC、蛋白质AgsE。
在一个实施方式中,如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)和任选至少另一种选自以下的产物产生方面的缺陷:中性α-淀粉酶(amyBI和amyBII)、草酸水解酶(oahA)、毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调节子prtT、基因hdfA和/或hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC、蛋白质AgsE。
在一个实施方式中,如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和任选至少另一种选自以下的产物产生方面的缺陷:中性α-淀粉酶amyBII、草酸水解酶(oahA)、毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调节子prtT、基因hdfA和/或hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC、蛋白质AgsE。
在一个实施方式中,如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII和任选至少另一种选自以下的产物产生方面的缺陷:草酸水解酶(oahA)、毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调节子prtT、基因hdfA和/或hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC、蛋白质AgsE。
在一个实施方式中,如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物和任选至少另一种选自以下的产物产生方面的缺陷:草酸水解酶(oahA)、毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调节子prtT、基因hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC、蛋白质AgsE。
在一个实施方式中,如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物、草酸水解酶(oahA)和任选至少另一种选自以下的产物产生方面的缺陷:毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调节子prtT、基因hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC、蛋白质AgsE。
在一个实施方式中,如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物、草酸水解酶(oahA)、蛋白质AgsE和任选至少另一种选自以下的产物产生方面的缺陷:毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调节子prtT、基因hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC。
在一个实施方式中,如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物、草酸水解酶(oahA)、蛋白质AgsE、毒素(优选赭曲霉素和/或伏马菌素)和任选至少另一种选自以下的产物产生方面的缺陷:蛋白酶转录调节子prtT、基因hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC。
在一个实施方式中,如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物、草酸水解酶(oahA)、蛋白质AgsE、毒素(优选赭曲霉素和/或伏马菌素)、淀粉酶amyC和任选至少另一种选自以下的产物产生方面的缺陷:蛋白酶转录调节子prtT、基因hdfB编码的产物、非核糖体肽合酶npsE。
在一个实施方式中,如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物、毒素(优选赭曲霉素和/或伏马菌素)和任选至少另一种选自以下的产物产生方面的缺陷:草酸水解酶(oahA)、蛋白酶转录调节子prtT、基因hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC、蛋白质AgsE。
在一个实施方式中,如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物、毒素(优选赭曲霉素和/或伏马菌素)、淀粉酶amyC和任选至少另一种选自以下的产物产生方面的缺陷:草酸水解酶(oahA)、蛋白酶转录调节子prtT、基因hdfB编码的产物、非核糖体肽合酶npsE、蛋白质AgsE。
在一个实施方式中,如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物、毒素(优选赭曲霉素和/或伏马菌素)、非核糖体肽合酶npsE和任选至少另一种选自以下的产物产生方面的缺陷:草酸水解酶(oahA)、蛋白酶转录调节子prtT、基因hdfB编码的产物、淀粉酶amyC、蛋白质AgsE。
在一个实施方式中,如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物、毒素(优选赭曲霉素和/或伏马菌素)、蛋白质AgsE和任选至少另一种选自以下的产物产生方面的缺陷:草酸水解酶(oahA)、蛋白酶转录调节子prtT、基因hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC。
在一个实施方式中,如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物、毒素(优选赭曲霉素和/或伏马菌素)、蛋白质AgsE、淀粉酶amyC和任选至少另一种选自以下的产物产生方面的缺陷:草酸水解酶(oahA)、蛋白酶转录调节子prtT、基因hdfB编码的产物、非核糖体肽合酶npsE。
在一个实施方式中,如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物、毒素(优选赭曲霉素和/或伏马菌素)、蛋白质AgsE、非核糖体肽合酶npsE和任选至少另一种选自以下的产物产生方面的缺陷:草酸水解酶(oahA)、蛋白酶转录调节子prtT、基因hdfB编码的产物、淀粉酶amyC。
在一个实施方式中,如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物、毒素(优选赭曲霉素和/或伏马菌素)、淀粉酶amyC、非核糖体肽合酶npsE和任选至少另一种选自以下的产物产生方面的缺陷:草酸水解酶(oahA)、蛋白酶转录调节子prtT、蛋白质AgsE、基因hdfB编码的产物。
在一个实施方式中,如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物、毒素(优选赭曲霉素和/或伏马菌素)、蛋白质AgsE、淀粉酶amyC、非核糖体肽合酶npsE和任选至少另一种选自以下的产物产生方面的缺陷:草酸水解酶(oahA)、蛋白酶转录调节子prtT、基因hdfB编码的产物。
在一个实施方式中,如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物、毒素(优选赭曲霉素和/或伏马菌素)、草酸水解酶(oahA)和任选至少另一种选自以下的产物产生方面的缺陷:蛋白酶转录调节子prtT、基因hdfB编码的产物、非核糖体肽合酶npsE、淀粉酶amyC、蛋白质AgsE。
在一个实施方式中,如果与亲本宿主细胞相比并且在相同条件下测量,根据本发明所述的宿主细胞包含glaA、PepA、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII、基因hdfA编码的产物、毒素(优选赭曲霉素和/或伏马菌素)、草酸水解酶(oahA)、非核糖体肽合酶npsE和任选至少另一种选自以下的产物产生方面的缺陷:蛋白酶转录调节子prtT、基因hdfB编码的产物、淀粉酶amyC、蛋白质AgsE。
如果与亲本宿主细胞相比且在相同条件下测量,根据本发明的进一步优选的宿主细胞包含降低的α-淀粉酶背景并包含在产生酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶amyBI和amyBII和任选的amyC方面的缺陷。这种宿主细胞优选还包含KU70或KU80的丝状真菌同源物。这种宿主细胞优选还包含在产生毒素方面的缺陷。这种宿主细胞优选还包含在产生KU70或KU80的丝状真菌同源物方面的缺陷和在产生毒素方面的缺陷。
当根据本发明所述的宿主细胞为丝状真菌宿主细胞时,所述宿主细胞优选还包含至少两个基本同源的DNA结构域,其适于整合根据本发明所述的多核苷酸或编码感兴趣的化合物的多核苷酸的一个或更多个拷贝,其中改造所述至少两个基本同源DNA结构域中的至少一个以与其来源的基本同源DNA结构域相比,对编码感兴趣的化合物的多核苷酸具有更强的整合偏好,并且其中改造的基本同源DNA结构域所来源的基本同源DNA结构域的基因转换频率比所述至少两个基本同源DNA结构域中的另一个高至少10%。在WO2011/009700中已经描述了这类宿主细胞。本文也将含有这些基本同源DNA结构域的两个或更多个拷贝的菌株称为含两个或更多个扩增子的菌株。除其它之外,van Dijck等,2003,RegulatoryToxicology and Pharmacology 28;27-35:On the safety of a new generation of DSMAspergillus niger enzyme production strains中描述了包含这种扩增子的宿主细胞的实例。在van Dijck等中,描述了包含7个扩增葡糖淀粉酶基因座,即7个扩增子的黑曲霉菌株。根据本发明所述的优选的宿主细胞为丝状真菌宿主细胞,优选黑曲霉宿主细胞,其包含两个或更多个扩增子,优选两个或更多个ΔglaA扩增子,更优选包含2、3、4、5、6、7个ΔglaA扩增子,其中已经改造具有最高基因转换频率的扩增子以与其来源的扩增子相比,对根据本发明所述的多核苷酸或编码感兴趣的化合物的多核苷酸具有更高的整合偏好。扩增子的改造可根据WO2011/009700(其以引用的方式全部并入此处)中描述的任一种方法进行。本文将包含两个或更多个扩增子并且其中已经改造一个扩增子以与其来源的扩增子相比对编码感兴趣的化合物的多核苷酸具有更高的整合偏好的宿主细胞称为包含经改造扩增子的宿主细胞。WO2011/009700中描述的具有经改造扩增子的优选宿主细胞的实例为包含3个ΔglaA扩增子——BamHI截短扩增子、SalI截短扩增子和BglII截短扩增子——的宿主细胞并且其中已经改造BamHI扩增子以与其来源的BamHI扩增子相比,对根据本发明所述的多核苷酸或编码感兴趣的化合物的多核苷酸具有更高的整合偏好。
当根据本发明所述的宿主细胞为丝状真菌宿主细胞时,根据本发明所述的宿主细胞优选还包含Sec61的修饰。优选的SEC61修饰是产生SEC61单向突变体的修饰,即其中从头合成的蛋白质可经由SEC61进入ER,但是蛋白质不能经由SEC61离开ER的突变体。这种修饰在WO2005/123763中有大量描述。在一个优选实施方式中,突变微生物宿主细胞包含如WO2005/123763的SEQ ID NO:3中所示的Sec61中的修饰。最优选地,SEC 61修饰是其中在WO2005/123763的SEQ ID NO:3中,丝氨酸376被色氨酸替代的S376W突变。
修饰(优选在基因组中)在本文中被解释为一种或多种修饰。修饰(优选在根据本发明的宿主细胞的基因组中)可通过以下任一种实现:
a)使亲本宿主细胞经受重组基因操作技术;和/或
b)使亲本宿主细胞经受(传统)诱变;和/或
c)使亲本宿主细胞经受抑制性化合物或组合物。宿主细胞基因组的修饰在本文中被定义为导致宿主细胞基因组中的多核苷酸序列变化的任何事件。
优选地,根据本发明的宿主细胞具有修饰,优选在其基因组中具有修饰,从而导致如果与未经修饰的亲本宿主细胞相比,当在相同条件下分析时,本文所定义的不期望的化合物产生减少或不产生。
可通过本领域技术人员已知的任何方式引入修饰,例如但不限于传统菌株改良、随机诱变然后选择引入修饰。也可通过定点诱变引入修饰。
修饰可通过引入(插入)、取代(替代)或去除(缺失)多核苷酸序列中的一个或更多个核苷酸完成。可实现编码不期望的化合物(例如多肽)的多核苷酸的完全或部分缺失。不期望的化合物可以是本文其他地方列出的任何不期望的化合物;也可以是合成不期望的化合物(例如代谢产物)的生物通路中的蛋白质和/或酶。或者,编码所述不期望的化合物的多核苷酸可以用不编码所述不期望的化合物或编码所述不期望的化合物的部分或完全失活形式的多核苷酸序列部分或完全替代。在另一替代方案中,可将一个或更多个核苷酸插入编码所述不期望的化合物的多核苷酸中,从而导致所述多核苷酸破坏并且由破坏多核苷酸编码的所述不期望的化合物随之而来的部分或完全失活。
在一个实施方式中,根据本发明所述的突变微生物宿主细胞在其基因组中包含选自以下的修饰:
a)编码不期望的化合物的多核苷酸完全或部分缺失;
b)编码不期望的化合物的多核苷酸被不编码所述不期望的化合物或编码所述不期望的化合物的部分或完全失活形式的多核苷酸序列完全或部分替代;
c)通过在多核苷酸序列中插入一个或更多个核苷酸以及由经破坏多核苷酸编码的所述不期望的化合物随之而来的部分或完全失活来破坏编码不期望的化合物的多核苷酸。
这种修饰可例如在编码序列或转录或翻译所述不期望的化合物所需的调控元件中。例如,可插入或去除核苷酸,以便导致终止密码子引入、起始密码子去除或编码序列的开放阅读框变化或移码。编码序列或其调控元件的修饰可通过定点或随机诱变、DNA改组法、DNA重新组装法、基因合成(见例如Young和Dong,(2004),Nucleic Acids Research 32,(7)电子获取http://nar.oupjournals.org/cgi/reprint/32/7/e59或Gupta等(1968),Proc.Natl.Acad.Sci USA,60:1338-1344;Scarpulla等(1982),Anal.Biochem.121:356-365;Stemmer等(1995),Gene 164:49-53)或PCR产生的诱变根据本领域中已知的方法实现。随机诱变程序的实例在本领域中众所周知,例如化学(例如NTG)诱变或物理(例如UV)诱变。定点诱变程序的实例为QuickChangeTM定点诱变试剂盒(Stratagene Cloning Systems,LaJolla,CA)、‘The Altered
Figure BDA0001587231190000921
II体外诱变系统’(Promega Corporation)或通过使用如Gene.1989年4月15日;77(1):51-9.(Ho SN,Hunt HD,Horton RM,Pullen JK,Pease LR“Site-directed mutagenesis by overlap extension using the polymerase chainreaction”)描述的PCR或使用如Molecular Biology:Current Innovations and FutureTrends.(编者A.M.Griffin和H.G.Griffin.ISBN 1-898486-01-8;1995,HorizonScientific Press.PO Box 1,Wymondham,Norfolk,U.K.)描述的PCR的重叠延伸。
优选的修饰方法基于重组遗传操作技术例如部分或完全基因置换或部分或完全基因缺失。
例如,在置换多核苷酸、核酸构建体或表达盒的情况下,可在要置换的靶基因座引入适当DNA序列。适当DNA序列优选存在于克隆载体上。优选的整合性克隆载体包含与多核苷酸同源和/或与要置换的基因座侧翼的多核苷酸有同源性以用于向这个预定基因座靶向整合克隆载体的DNA片段。为了促进靶向整合,优选在转化细胞之前,使克隆载体线性化。优选地,进行线性化以使克隆载体的至少一端,但是优选两端侧翼为与要置换的DNA序列(或侧翼序列)同源的序列。这个过程称为同源重组并且这种技术也可用于实现(部分)基因缺失。
例如,与内源性多核苷酸对应的多核苷酸可由缺陷多核苷酸置换,所述缺陷多核苷酸是不能生成(全功能性)多肽的多核苷酸。通过同源重组,缺陷多核苷酸置换了内源性多核苷酸。可期望的是,缺陷多核苷酸也编码可用于选择其中核酸序列已经被修饰的转化体的标记。
替代性的或与提到的其他技术相结合,可使用基于粘粒在大肠杆菌(E.coli)中体内重组的技术,如A rapid method for efficient gene replacement in thefilamentous fungus Aspergillus nidulans(2000)Chaveroche,M-K.,Ghico,J-M.和d’Enfert C;Nucleic acids Research,第28卷,no.22中所述。
可替代地,可通过已建立的反义技术,使用与多核苷酸的核酸序列互补的核苷酸序列进行修饰,其中所述宿主细胞生成较少或不生成蛋白质,例如本文所定义的和由本文所述多核苷酸编码的具有淀粉酶活性(优选地是α-淀粉酶活性)的多肽。更特别地,可通过引入与多核苷酸的核酸序列互补、可在细胞中转录并且能够与细胞中生成的mRNA杂交的核苷酸序列来减少或消除宿主细胞中多核苷酸的表达。在允许互补反义核苷酸序列与mRNA杂交的条件下,翻译的蛋白质的量由此被减少或消除。在Appl.Environ.Microbiol.2000年2月;66(2):775-82中示出了表达反义RNA的实例。(Characterization of a foldase,protein disulfide isomerase A,in the protein secretory pathway of Aspergillusniger.Ngiam C,Jeenes DJ,Punt PJ,Van Den Hondel CA,Archer DB)或(Zrenner R,Willmitzer L,Sonnewald U.Analysis of the expression of potatouridinediphosphate-glucose pyrophosphorylase and its inhibition by antisenseRNA.Planta.(1993);190(2):247-52.)。
如果与未被修饰的亲本微生物宿主细胞相比并且在相同条件下测量时,导致不期望的化合物产生减少或不产生的修饰优选归因于编码所述不期望的化合物的mRNA产生减少。
可以通过RNA干扰(RNAi)技术(Mouyna等人,2004)获得导致由编码不期望的化合物的多核苷酸转录的mRNA量减少的修饰。在这种方法中,表达将受影响的核苷酸序列的相同有义和反义部分克隆在对方后面且之间有核苷酸间隔物,并且被插入表达载体中。这种分子经转录后,小核苷酸片段的形成将导致将受到影响mRNA的靶向降解。特定mRNA的消除可达到不同程度。WO2008/053019、WO2005/05672A1、WO2005/026356A1、Oliveira等人;Crook等人,2014;和/或Barnes等人中描述的RNA干扰技术可用于这一目的。
可通过不同方法,例如用针对这种不期望的化合物的抗体或化学抑制剂或蛋白抑制剂或物理抑制剂(Tour O.等人,(2003)Nat.Biotech:Genetically targetedchromophore-assisted light inactivation.第21卷no.12:1505-1508)或肽抑制剂或反义分子或RNAi分子(R.S.Kamath_等人,(2003)Nature:Systematic functional analysisof the Caenorhabditis elegans genome using RNAi.第21卷,231-237)获得导致不期望的化合物产生减少或不产生的修饰。
除了以上提到的技术或作为替代方案,也可借助于替代性信号序列(Ramon deLucas,J.,Martinez O,Perez P.,Isabel Lopez,M.,Valenciano,S.and Laborda,F.TheAspergillus nidulans carnitine carrier encoded by the acuH gene isexclusively located in the mitochondria.FEMS Microbiol Lett.2001年7月24日;201(2):193-8.)或滞留信号(Derkx,P.M.和Madrid,S.M.The foldase CYPB is a componentof the secretory pathway of Aspergillus niger and contains the endoplasmicreticulum retention signal HEEL.Mol.Genet.Genomics.2001年12月;266(4):537-545),或通过使不期望的化合物例如多肽靶向能够与参与细胞分泌通路的细胞的膜结构融合的过氧化物酶体从而导致多肽分泌到细胞外(例如WO2006/040340中所述)来抑制不期望的化合物的活性,或使不期望的化合物例如蛋白质重新定位。
可替代地或与以上提到的技术相结合,也可例如通过紫外或化学诱变(Mattern,I.E.,van Noort J.M.,van den Berg,P.,Archer,D.B.,Roberts,I.N.和van den Hondel,C.A.,Isolation and characterization of mutants of Aspergillus niger deficientin extracellular proteases.Mol Gen Genet.1992年8月;234(2):332-6.)或通过使用抑制本文所述不期望的多肽的酶活性的抑制剂(例如野尻霉素,其起到β-葡糖苷酶抑制剂的作用(Carrel F.L.Y.和Canevascini G.Canadian Journal of Microbiology(1991)37(6):459-464;Reese E.T.,Parrish F.W.和Ettlinger M.Carbohydrate Research(1971)381-388))来获得对不期望的化合物产生减少或不产生。
在本发明的一个实施方式中,根据本发明所述的宿主细胞基因组中的修饰是编码不期望的化合物的多核苷酸的至少一个位置处的修饰。
在产生化合物(例如不期望的化合物,例如不期望的多肽和/或酶)方面有缺陷的细胞在本文中被定义为已优选在其基因组中被修饰以导致以下表型特征的突变微生物宿主细胞,其中与未被修饰的亲本宿主细胞相比,在相同条件下分析时,所述细胞:a)产生较少的不期望的化合物或基本不产生不期望的化合物和/或b)产生活性降低或比活性降低的不期望的化合物或没有活性或没有比活性的不期望的化合物和这些可能性中一种或更多种的组合。
优选地,如果与未被修饰的亲本宿主细胞相比并在相同条件下测量时,根据本发明的经修饰的宿主细胞产生少1%的不期望的化合物,至少少5%的不期望的化合物,少至少10%的不期望的化合物,少至少20%的不期望的化合物,少至少30%的不期望的化合物,少至少40%的不期望的化合物,少至少50%的不期望的化合物,少至少60%的不期望的化合物,少至少70%的不期望的化合物,少至少80%的不期望的化合物,少至少90%的不期望的化合物,少至少91%的不期望的化合物,少至少92%的不期望的化合物,少至少93%的不期望的化合物,少至少94%的不期望的化合物,少至少95%的不期望的化合物,少至少96%的不期望的化合物,少至少97%的不期望的化合物,少至少98%的不期望的化合物,少至少99%的不期望的化合物,少至少99.9%的不期望的化合物,或最优选少100%的不期望的化合物。
本文引用的作为现有技术给出的专利文件或其他内容不应被视为承认该文件或内容是已知的,或者其所包含的信息在任何权利要求的优先权日是公知常识的一部分。
本文所提供的序列信息不应被如此狭义地解释为需要包含错误识别的碱基。本领域技术人员能够识别这种错误识别的碱基并知道如何纠正这种错误。
本文所述的每个参考文献的公开内容均通过引用整体并入本文。通过以下非限制性实施方式来阐释本发明:
本发明的一些实施方式
1.一种产生包含一种或多种向导多核苷酸表达盒的载体、优选环状载体的方法,其中所述一种或多种向导多核苷酸表达盒包含编码与一种或多种控制序列可操作地相连的向导多核苷酸的多核苷酸,所述控制序列指导所述向导多核苷酸在宿主细胞中的表达,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且其中所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述方法包括以下步骤:
-提供一种或多种多核苷酸,其中所述一种或多种多核苷酸包含待延伸的多核苷酸序列,其中所述待延伸的多核苷酸序列在待延伸的5’-端和/或3’-端包含向导多核苷酸表达盒的片段;
-进行一个或多个重叠延伸PCR反应,其是通过在每个反应中使所述一种或多种多核苷酸中的一种和两种合适的多核苷酸引物产生一种杂交线性多核苷酸,
其中选择待延伸的一种或多种多核苷酸序列和合适的多核苷酸引物,使得在所述一个或多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体;
-使在所述重叠延伸PCR中获得的一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸进行组装反应,从而产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体,
其中所述组装反应发生在体内。
2.实施方式1所述的方法,其中所述向导多核苷酸是gRNA。
3.根据前述实施方式中任一种所述的方法,其中所述在待延伸的多核苷酸序列的5’-端和/或3’-端的向导多核苷酸表达盒的片段不包含编码向导序列的多核苷酸。
4.根据前述实施方式中任一种所述的方法,其中所述载体、优选环状载体包含两种或更多种向导多核苷酸表达盒,优选地其中所述方法包括以下步骤:
-提供两种或更多种多核苷酸,其中所述两种或更多种多核苷酸包含待延伸的多核苷酸序列,其中所述待延伸的多核苷酸序列在待延伸的5’-端和/或3’-端包含向导多核苷酸表达盒的片段;
-进行两个或更多个重叠延伸PCR反应,其是通过在每个反应中使所述两种或更多种多核苷酸中的一种和两种合适的多核苷酸引物产生一种杂交线性多核苷酸,
其中选择待延伸的两种或更多种多核苷酸序列和合适的多核苷酸引物,使得在所述两个或更多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许两种或更多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体;
-使在所述重叠延伸PCR中获得的两种或更多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸进行组装反应,从而产生包含两种或更多种功能性向导多核苷酸表达盒的载体、优选环状载体,
其中所述组装反应发生在体内。
5.根据实施方式1-3中任一种所述的方法,其中所述载体、优选环状载体包含一种向导多核苷酸表达盒,优选地其中所述方法包括以下步骤:
-提供一种多核苷酸,其中所述多核苷酸包含待延伸的多核苷酸序列,其中所述待延伸的多核苷酸序列在待延伸的5’-端和/或3’-端包含向导多核苷酸表达盒的片段;
-进行一个重叠延伸PCR反应,其是通过在反应中使所述多核苷酸和两种合适的多核苷酸引物产生一种杂交线性多核苷酸,
其中选择待延伸的多核苷酸序列和合适的多核苷酸引物,使得在所述重叠延伸PCR反应中获得的杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体;
-使在所述重叠延伸PCR中获得的杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸进行组装反应,从而产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体,
其中所述组装反应发生在体内。
6.根据实施方式1至5中任一种所述的方法,其中所述“进行一个或多个重叠延伸PCR反应,其是通过在每个反应中使所述一种或多种多核苷酸中的一种和两种合适的多核苷酸引物产生一种杂交线性多核苷酸,
其中选择待延伸的一种或多种多核苷酸序列和合适的多核苷酸引物,使得在所述一个或多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体”包括以下步骤:
a)在每种反应中使所述一种或多种多核苷酸中的一种和一种合适的多核苷酸引物进行重叠延伸PCR反应,其中所述多核苷酸引物的3'-末端含有包含在所述一种或多种多核苷酸中的待延伸的多核苷酸序列的3’-端的互补序列,或者其中所述多核苷酸引物的互补物的3'-末端含有包含在所述一种或多种多核苷酸中的待延伸的多核苷酸序列的互补物的3’-端的互补序列,以产生一种杂交线性多核苷酸,所述杂交线性多核苷酸的序列包含在其3'-末端或其5'-末端与合适引物的多核苷酸序列剪接的待延伸的多核苷酸序列,
b)任选地,使在步骤a)中获得的杂交线性多核苷酸和另一种合适的引物进行第二重叠延伸PCR反应,其中所述多核苷酸引物的3'-末端含有杂交线性多核苷酸的3’-端的互补序列,所述杂交线性多核苷酸的序列包含在其3'-末端或其5'-末端与合适引物的多核苷酸序列剪接的待延伸的多核苷酸序列;或者,其中所述多核苷酸引物的互补物的3'-末端含有杂交线性多核苷酸的互补物的3’-端的互补序列,所述杂交线性多核苷酸的序列包含在其3'-末端或其5'-末端与其他合适引物的多核苷酸序列剪接的待延伸的多核苷酸序列,以产生一种杂交线性多核苷酸,所述杂交线性多核苷酸的序列包含在其3'-末端和其5'-末端与合适引物的多核苷酸序列剪接的待延伸的多核苷酸序列,
其中选择待延伸的一种或多种多核苷酸序列和合适的多核苷酸引物,使得在所述一个或多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体。
7.根据实施方式1至6中任一种所述的方法,其中待延伸的一种或多种多核苷酸序列或另外的线性多核苷酸包含一种或多种选自以下的元件:复制起点或其片段、选择标记或其片段、CAS9表达盒或其片段、供体多核苷酸或其片段。
8.根据实施方式7所述的方法,其中组装后获得的载体、优选环状载体包含一种或多种选自以下的元件:复制起点、选择标记、CAS9表达盒、供体多核苷酸、或一种或多种所述元件的组合。
9.根据实施方式8所述的方法,其中组装后获得的载体、优选环状载体还包含复制起点,优选复制起点和选择标记。
10.根据前述实施方式中任一种所述的方法,其中每个重叠延伸PCR反应中使用的引物的长度为至多100个核苷酸,优选长度为至多80、70、60、50、40、30个核苷酸。
11.根据前述实施方式中任一种所述的方法,其中每个重叠延伸PCR反应中使用的引物的长度为至少30个核苷酸,优选长度为至少40、50、60个核苷酸。
12.一种在体内组装包含一种或多种向导多核苷酸表达盒的载体、优选环状载体的方法,其中所述一种或多种向导多核苷酸表达盒包含编码与一种或多种控制序列可操作地相连的向导多核苷酸的多核苷酸,所述控制序列指导所述向导多核苷酸在宿主细胞中的表达,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述方法包括以下步骤:
-提供一种或多种线性多核苷酸,其中所述一种或多种线性多核苷酸在5'-末端和/或3'-末端包含至少含有向导序列的至少一种向导多核苷酸表达盒或至少一种向导多核苷酸表达盒的片段;
-将所述一种或多种线性多核苷酸和任选的一种或多种另外的线性多核苷酸转化到宿主细胞中;
-允许在所述一种或多种线性多核苷酸和任选的一种或多种另外的线性多核苷酸之间发生同源重组反应,其中所述线性多核苷酸和另外的线性多核苷酸已被选择为包含合适的5'-末端和3'-末端,从而允许所述一种或多种线性多核苷酸和任选的所述一种或多种另外的线性多核苷酸彼此以预定顺序同源重组,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体;
-任选地选择包含载体、优选环状载体的宿主细胞,并且其中所述载体包含一种或多种功能性向导多核苷酸表达盒;
-任选地回收所述载体、优选所述环状载体。
13.一种用于产生包含载体、优选环状载体的重组宿主细胞的方法,其中所述载体包含一种或多种向导多核苷酸表达盒,其中所述一种或多种向导多核苷酸表达盒包含编码与一种或多种控制序列可操作地相连的向导多核苷酸的多核苷酸,所述控制序列指导所述向导多核苷酸在宿主细胞中的表达,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且其中所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述方法包括以下步骤:
-提供一种或多种线性多核苷酸,其中所述一种或多种线性多核苷酸在5'-末端和/或3'-末端包含至少含有所述向导序列的至少一种向导多核苷酸表达盒或至少一种向导多核苷酸表达盒的片段;
-将所述一种或多种线性多核苷酸和任选的一种或多种另外的线性多核苷酸转化到宿主细胞中;
-允许在所述一种或多种线性多核苷酸和任选的一种或多种另外的线性多核苷酸之间发生同源重组反应,其中所述线性多核苷酸和另外的线性多核苷酸已被选择为包含合适的5'-末端和3'-末端,从而允许所述一种或多种线性多核苷酸和任选的所述一种或多种另外的线性多核苷酸彼此以预定顺序同源重组,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体;
-任选地选择包含载体、优选环状载体的宿主细胞,并且其中所述载体包含一种或多种功能性向导多核苷酸表达盒。
14.根据实施方式13所述的产生重组宿主细胞的方法,其还包括以下步骤:
-回收所述载体、优选所述环状载体;
-转化所述载体到第二宿主细胞中;
-任选地分离包含所述载体的第二宿主细胞。
15.一种用于生产包含载体、优选环状载体的重组宿主细胞的方法,其中所述载体包含一种或多种向导多核苷酸表达盒,其中所述一种或多种向导多核苷酸表达盒包含编码与一种或多种控制序列可操作地相连的向导多核苷酸的多核苷酸,所述控制序列指导所述向导多核苷酸在宿主细胞中的表达,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且其中所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述方法包括以下步骤:
-在第一宿主细胞、优选属于S.cerevisiae种的第一宿主细胞中进行根据实施方式10所述的在体内组装包含一种或多种向导多核苷酸表达盒的载体、优选环状载体的方法,其中选择包含所述载体或环状载体的所述第一宿主细胞并回收所述载体或环状载体,其中所述载体或环状载体包含一种或多种功能性向导多核苷酸表达盒,
-转化所述载体、优选所述环状载体到第二宿主细胞中;
-任选地分离包含所述载体或环状载体的第二宿主细胞。
16.根据实施方式12至15中任一种所述的方法,其中所述一种或多种线性多核苷酸是通过以下获得的杂交线性多核苷酸:
-提供一种或多种多核苷酸,其中所述一种或多种多核苷酸包含待延伸的多核苷酸序列,其中所述待延伸的多核苷酸序列在待延伸的5’-端和/或3’-端包含向导多核苷酸表达盒的片段,优选地其中在待延伸的多核苷酸序列的5’-端和/或3’-端的向导多核苷酸表达盒的片段不包含编码向导序列的多核苷酸;
-进行一个或多个重叠延伸PCR反应,其是通过在每种反应中使所述一种或多种多核苷酸中的一种和两种合适的多核苷酸引物产生一种杂交线性多核苷酸进行的,
其中选择一种或多种所述待延伸的多核苷酸序列和合适的多核苷酸引物,使得在所述一个或多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5’-末端和3’-末端,从而允许一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体。
17.根据实施方式16所述的方法,其中所述一种或多种线性多核苷酸是两种或更多种杂交线性多核苷酸,其优选通过以下获得:
-提供两种或更多种多核苷酸,其中所述两种或更多种多核苷酸包含待延伸的多核苷酸序列,其中所述待延伸的多核苷酸序列在待延伸的5’-端和/或3’-端包含向导多核苷酸表达盒的片段,优选地其中在待延伸的多核苷酸序列的5’-端和/或3’-端的向导多核苷酸表达盒的片段不包含编码向导序列的多核苷酸;
-进行两种或更多种重叠延伸PCR反应,所述重叠延伸PCR反应是通过在每种反应中使所述两种或更多种多核苷酸中的一种和两种合适的多核苷酸引物产生一种杂交线性多核苷酸进行的,
其中选择待延伸的两种或更多种多核苷酸序列和合适的多核苷酸引物,使得在所述两种或更多种重叠延伸PCR反应中获得的每种杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5’-末端和3’-末端,从而允许两种或更多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体。
18.根据实施方式16所述的方法,其中所述一种或多种线性多核苷酸是一种杂交线性多核苷酸,其优选通过以下获得:
-提供一种多核苷酸,其中所述多核苷酸包含待延伸的多核苷酸序列,其中所述待延伸的多核苷酸序列在待延伸的5’-端和/或3’-端包含向导多核苷酸表达盒的片段,优选地其中在待延伸的多核苷酸序列的5’-端和/或3’-端的向导多核苷酸表达盒的片段不包含编码向导序列的多核苷酸;
-进行一种重叠延伸PCR反应,其通过在所述反应中使所述多核苷酸和两种合适的多核苷酸引物产生一种杂交线性多核苷酸进行,
其中选择所述待延伸的多核苷酸序列和合适的多核苷酸引物,使得在所述重叠延伸PCR反应中获得的杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许所述杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体。
19.根据实施方式16至18中任一种所述的方法,其中所述“进行一个或多个重叠延伸PCR反应,其是通过在每种反应中使所述一种或多种多核苷酸中的一种和两种合适的多核苷酸引物产生一种杂交线性多核苷酸进行的,
其中选择一种或多种所述待延伸的多核苷酸序列和合适的多核苷酸引物,使得在所述一个或多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5’-末端和3’-末端,从而允许一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体”包括以下步骤:
a)在每种反应中使所述一种或多种多核苷酸中的一种和一种合适的多核苷酸引物进行重叠延伸PCR反应,其中所述多核苷酸引物的3'-末端含有包含在所述一种或多种多核苷酸中的待延伸的多核苷酸序列的3’-端的互补序列,或者其中所述多核苷酸引物的互补物的3'-末端含有包含在所述一种或多种多核苷酸中的待延伸的多核苷酸序列的互补物的3’-端的互补序列,以产生一种杂交线性多核苷酸,所述杂交线性多核苷酸的序列包含在其3'-末端或其5'-末端与合适引物的多核苷酸序列剪接的待延伸的多核苷酸序列,
b)任选地,使在步骤a)中获得的杂交线性多核苷酸和另一种合适的引物进行第二重叠延伸PCR反应,其中所述多核苷酸引物的3'-末端含有杂交线性多核苷酸的3’-端的互补序列,所述杂交线性多核苷酸的序列包含在其3'-末端或其5'-末端与合适引物的多核苷酸序列剪接的待延伸的多核苷酸序列;或者,其中所述多核苷酸引物的互补物的3'-末端含有杂交线性多核苷酸的互补物的3’-端的互补序列,所述杂交线性多核苷酸的序列包含在其3'-末端或其5'-末端与其他合适引物的多核苷酸序列剪接的待延伸的多核苷酸序列,以产生一种杂交线性多核苷酸,所述杂交线性多核苷酸的序列包含在其3'-末端和其5'-末端与合适引物的多核苷酸序列剪接的待延伸的多核苷酸序列,
其中选择一种或多种待延伸的多核苷酸序列和合适的多核苷酸引物,使得在所述一个或多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许一种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的载体、优选环状载体。
20.根据前述实施方式中任一种所述的方法,其中所述组装反应发生在属于S.cerevisiae种的宿主细胞中。
21.根据实施方式15至20中任一种所述的方法,其中所述第二宿主细胞是原核细胞,例如细菌宿主细胞;或真核宿主细胞,优选真菌宿主细胞。
22.根据实施方式21所述的方法,其中所述第二宿主细胞是选自Escherichia、Anabaena、Caulobactert、Gluconobacter、Rhodobacter、Pseudomonas、Paracoccus、Bacillus、Brevibacterium、Corynebacterium、Rhizobium(Sinorhizobium)、Flavobacterium、Klebsiella、Enterobacter、Lactobacillus、Lactococcus、Methylobacterium、Staphylococcus或Streptomyces的原核宿主细胞。
23.根据实施方式21所述的方法,其中所述第二宿主细胞是真菌宿主细胞,更优选丝状真菌宿主细胞,最优选选自Acremonium、Agaricus、Aspergillus、Aureobasidium、Chrysosporium、Coprinus、Cryptococcus、Filibasidium、Fusarium、Humicola、Magnaporthe、Mortierella、Mucor、Myceliophthora、Neocallimastix、Neurospora、Paecilomyces、Penicillium、Piromyces、Panerochaete、Pleurotus、Schizophyllum、Talaromyces、Rasamsonia、Thermoascus、Thielavia、Tolypocladium和Trichoderma的丝状真菌宿主细胞。
24.根据实施方式23所述的方法,其中所述真菌宿主细胞是酵母宿主细胞,优选选自Candida、Hansenula、Issatchenkia、Kluyveromyces、Pichia、Saccharomyces、Schizosaccharomyces、Yarrowia或Zygosaccharomyces的酵母宿主细胞。
25.根据实施方式1至24中任一种所述的方法,其中存在于所述一种或多种待延伸的多核苷酸序列的3'-端的向导多核苷酸表达盒的片段在所述一种或多种多核苷酸中是相同的。
26.根据实施方式1至25中任一种所述的方法,其中存在于所述一种或多种待延伸的多核苷酸序列的5'-端的向导多核苷酸表达盒的片段在所述一种或多种多核苷酸中是相同的。
27.根据实施方式1至26中任一种所述的方法,其中存在于所述一种或多种待延伸的多核苷酸序列的3'-端的向导多核苷酸表达盒的片段包含启动子多核苷酸序列或者由启动子多核苷酸序列组成。
28.根据实施方式1至27中任一种所述的方法,其中存在于所述一种或多种待延伸的多核苷酸序列的5'-端的向导多核苷酸表达盒的片段包含终止子多核苷酸序列或者由终止子多核苷酸序列组成。
29.根据实施方式1至28中任一种所述的方法,其中所述载体、优选所述环状载体包含至少两种或更多种功能性向导多核苷酸表达盒。
30.载体、优选环状载体,其包含一种或多种能够通过实施方式1至12或16至29中任一种所述的方法获得的功能性向导多核苷酸表达盒。
31.包含载体、优选环状载体的重组宿主细胞,所述载体或环状载体包含一种或多种功能性向导多核苷酸表达盒,所述重组宿主细胞能够通过实施方式13-29中任一种所述的方法获得。
32.根据权利要求30所述的载体、优选环状载体或者包含实施方式27所述的包含环状载体的宿主细胞在CRISP-CAS介导的转化中的用途。
33.非天然存在的或工程化的组合物,其包含含有向导多核苷酸和Cas蛋白的CRISPR-Cas系统的来源,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且其中所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述向导序列基本上是宿主细胞基因组中的5’-(N)yPAM-3’多核苷酸序列靶标的(N)y部分的反向互补物,其中y是8-30的整数,其中PAM是原间隔序列邻近基序,其中所述宿主细胞优选是原核生物的或真核生物的,并且其中PAM优选为选自5'-XGG-3'、5'-XGGXG-3'、5'-XXAGAAW-3'、5'-XXXXGATT-3'、5'-XXAGAA-3'、5'-XAAAAC-3'的序列,其中X可以是任何核苷酸或其类似物,优选X可以是任何核苷酸;并且W是A或T,其中所述组合物中的向导多核苷酸和任选地所述组合物中的Cas蛋白包含在根据实施方式30所述的载体、优选环状载体中。
34.一种调节宿主细胞中多核苷酸表达的方法,所述方法包括:使宿主细胞与根据实施方式33所述的组合物接触,其中所述向导多核苷酸指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,优选其中所述宿主细胞包含编码感兴趣的化合物的多核苷酸。
35.一种产生感兴趣的化合物的方法,所述方法包括:在有益于产生所述感兴趣的化合物的条件下培养根据实施方式31所述的重组宿主细胞,并任选地纯化或分离所述感兴趣的化合物。
通过以下实施例进一步阐释本发明:
实施例
所描述的发明组合了引入多个gRNA盒的更直接的方法以及通过将每个新gRNA序列连接到在酵母中有功能的待重组的表达载体的标准组分来产生多重基因组修饰的效率。这些标准DNA片段将带有酵母表达载体(例如2微米,显性抗性或营养缺陷型标记,颜色标记)的组分的序列。
通过重叠延伸PCR将gRNA序列引入DNA片段,其中使用例如长度为60个核苷酸的寡核苷酸引物,在寡核苷酸供应商处不需要额外昂贵的纯化方法。在用两侧侧翼具有各向导序列的四个DNA片段转化并随后在体内重组质粒后,基于营养缺陷型标记或抗生素的回补(通过一个DNA片段上存在标记来促进)和菌落的荧光/着色(通过一个DNA片段上存在颜色标记来促进)来选择正确的转化体。通过菌落PCR、限制性分析和/或靶基因座的测序基于靶向的修饰筛选正确的转化体。
实施例1
构建表达Cas9的戊糖发酵酵母菌株
为了证明使用包含根据本发明的载体的CRISPR-Cas9系统的S.cerevisiae菌株修饰,使用了遗传修饰菌株BIE272(在US20140141473中描述)。由于引入了异源利用通路,该菌株能够发酵己糖(葡萄糖、甘露糖、半乳糖)和戊糖(木糖和阿拉伯糖)两者。在引入根据本发明的4gRNA自组装载体系统(参见下文)之前,修饰BIE272以表达Streptococcuspyogenes Cas9蛋白(DiCarlo等人,2013)。将Cas9表达盒与natMX标记相组合整合在染色体14上的整合基因座上。包含整合基因座侧翼、Cas9表达盒和natMX标记的整合片段的完整序列包含在本文中作为SEQ ID NO 2。
实施例2
用于S.cerevisiae中4gRNA-载体组装的标准生物砖(Biobrick)的描述
为了在S.cerevisiae中表达gRNA序列,使用如前所述的gRNA表达盒(DiCarlo等人,2013)。gRNA表达盒包含SNR52启动子,由向导序列(crRNA;20nt)和结构组分组成的gRNA序列,随后是SUP4终止子。
为了在酵母中组装附加表达的质粒,存在在酵母中复制质粒所需的一些元件,或者可基于其进行选择的一些元件。质粒由4种不同的多核苷酸(下文称为生物砖)组装而成,每种多核苷酸对应于由将在实施例3中所述的重叠延伸PCR反应中延伸的多核苷酸序列组成的多核苷酸。
每种生物砖
·在5'-端末端的侧翼是对应于gRNA的结构组分和SUP4终止子的向导RNA表达盒的片段;
·在3’-端末端的侧翼是对应于用于III型RNA聚合酶转录的SNR52启动子的部分的向导RNA表达盒的片段。
通过用与Alt-RTM CRISPR crRNA序列相似的不包含向导序列的crRNA序列(也称为前间隔子元件)替代结构组分序列来改变生物砖侧翼的5’端/末端,本实施例中所述的组装方法也可以与杂交gRNA平台(如,例如,Alt-RTM CRISPR-Cas9系统(Integrated DNATechnologies,Leuven,Belgium))兼容。在这种情况下,通用的Alt-RTM CRISPR tracrRNA(Integrated DNA technologies,Leuven,Belgium)必须包含在转化中,或者必须是一种生物砖的一部分以形成有功能的Alt-RTM crRNA:tracrRNA复合体。
组装中使用的生物砖(待延伸的多核苷酸序列)包含以下元件:
砖1(ORI-酵母)
为了使质粒保持在酵母中,复制起点(ORI)是必需的。为了在酵母中有效表达gRNA,非常期望导致高拷贝数的所得质粒的ORI。因此,选择2微米(2μ)质粒序列(Broach等人)作为砖1中质粒的元件(SEQ ID NO.3)。
砖2(颜色标记)
为了易于视觉鉴定正确的转化体,可以使用生色蛋白或荧光蛋白。存在许多种生色蛋白或荧光蛋白,例如红色荧光蛋白(RFP)、绿色荧光蛋白(GFP)、mCherry、dsRed等等。对于砖2,选择上游侧翼是S.cerevisiae TDH3启动子且下游侧翼是S.cerevisiae ADH1终止子序列的Dasher GFP(DNA2.0,Palo Alto,CA,USA)的表达盒(SEQ ID NO 4)。
砖3(显性抗性标记或营养缺陷型标记)
为了允许选择转化体,可以使用适合S.cerevisiae的任何合适的标记。
一组标记是营养缺陷型标记。引入或回补编码营养缺陷型标记的基因序列之后,朝向必需的S.cerevisiae构建元件(例如腺嘌呤、亮氨酸、尿嘧啶、组氨酸)的代谢通路中以前缺乏的酶活性。缺点是需要营养缺陷型菌株才能够使用营养缺陷型标记。
可用于原养型菌株中的另一组标记是显性抗性标记(DRM)。将DRM的基因序列转化到宿主细胞之后,产生对生长培养基中添加的化合物(例如抗生素、抗真菌剂)的抗性,而不表达所述基因序列的未转化的宿主细胞则保持敏感并且不会生长。酵母中功能性DRM的例子有例如kanMX、hphMX和natMX(Goldstein&McCusker,1999)。在该实施例中,对于砖3,选择kanMX作为S.cerevisiae中的显性抗性标记(SEQ ID NO 5)。
砖4(细菌ampR/kanR和ORI)
为了实现基于E.coli的质粒扩增以随后用于另一种宿主生物中,可以使用含有细菌选择标记(ampR或kanR)和ORI(例如pUC)的生物砖。在该实施例中,对于砖4,选择kanR基因(一种细菌选择标记)和pUC ORI(SEQ ID NO 6)。
砖1、2、3和4是合成产生的(例如,DNA2.0,Palo Alto,CA,USA),其被用作通过重叠延伸PCR方法引入编码gRNA序列的长20bp的多核苷酸的标准模板。
实施例3
使用4gRNA组装系统缺失BIE272中的HXT基因
在该实施例中,使用4gRNA-载体组装系统缺失BIE272中的4个己糖转运蛋白基因簇(染色体IV上的HXT3-HXT6-HXT7,染色体VIII上的HXT5-HXT1-HXT4,染色体XIII上的HXT2,染色体XII上的GAL2),从而使得该戊糖发酵菌株不能基于戊糖生长,这是因为通过缺失基因hxt1-hxt2-hxt3-hxt4-hxt5-hxt6-hxt7(下文表示为hxt1-7)和gal2(Nijland等人,2014)消除了戊糖摄取能力。在DNA2.0网站(https://www.dna20.com/eCommerce/cas9/ input)上选择用于HXT1(以缺失簇HXT5-HXT1-HXT4簇)、HXT2(以缺失HXT2)、HXT3(以缺失簇HXT3-HXT6-HXT7)和GAL2(以缺失GAL2)的gRNA序列。选择得分为100的向导序列用于实施到4gRNA组装系统中。
通过重叠延伸PCR利用靶向HXT基因的gRNA序列延伸生物砖
通过重叠延伸PCR将编码四种所选gRNA向导序列的20-bp多核苷酸添加到砖1至4(如上文前述,SEQ ID NOs:3-6)中每一种的5'-末端和3'-末端(参见图2的示意图)。四种向导序列的编码序列存在于引物序列中。表1示出了不同的gRNA序列被引入哪种砖。
表1:gRNA序列相对于砖的方向
Figure BDA0001587231190001101
通常,为了利用gRNA序列延伸生物砖,寡核苷酸引物由从5’-端到3’-端方向的以下部分组成(参见图2的示意图):
a)正向引物(与生物砖的5’-端退火)
·紧邻gRNA序列上游的SNR52启动子序列的15个核苷酸
·gRNA序列的20个核苷酸,和
·紧邻gRNA序列下游的结构组分的25个核苷酸,即与寡核苷酸引物退火的模板生物砖的核苷酸
b)反向引物(与生物砖的3’-端退火)
·紧邻gRNA序列下游的gRNA结构组分的15个核苷酸
·gRNA序列的20个核苷酸,和
·紧邻gRNA序列上游的SNR52启动子序列的25个核苷酸,即与寡核苷酸退火的模板生物砖的核苷酸。
表2示出了寡核苷酸引物的不同部分(分别为15nt部分、20nt部分和25nt部分)的序列,表3示出了OE-PCR反应中使用的寡核苷酸引物的完整序列。
表2:本实施例中使用的寡核苷酸引物的标准化设置
Figure BDA0001587231190001111
表3:用于将gRNA序列融合到生物砖以用于HXT基因缺失的寡核苷酸引物
Figure BDA0001587231190001112
使用如表2所示的引物设计,我们设计了正向引物和反向引物,其特异性地包含按照以上所解释的选择的靶向HXT1、HXT2、HXT3和GAL2的gRNA序列(参见SEQ ID NO.7至14)。通过重叠延伸PCR反应,以表1和图2所示的设计,利用gRNA1(HXT1)、gRNA2(HXT2)、gRNA3(HXT3)或gRNA4(GAL2)的gRNA序列延伸砖1、2、3、4。在表4中,给出了正向引物、反向引物和模板生物砖的特定组合。使用Phusion高保真DNA聚合酶(Thermoscientific Landsmeer,荷兰)根据供应商的说明进行PCR反应。选择60℃作为退火温度。随后使用标准PCR纯化试剂盒(Promega)纯化具有表4中列出的SEQ ID NO的所得PCR产物(杂交线性多核苷酸)。在Nanodrop设备(Thermoscientific Landsmeer,荷兰)上测量DNA浓度。通过这种方法,扩增了4种双链DNA产物,其对应于杂交线性多核苷酸(在实施例中标示为延伸的生物砖),是待用于酵母转化和体内组装的4种线性DNA元件(参见图3)。
表4:用于PCR扩增融合到砖1-4的gRNA的引物组合
Figure BDA0001587231190001121
共转化延伸的生物砖和供体DNA片段并在酵母中体内组装4gRNA-载体
为了能够在Cas9-gRNA复合体的靶向之后缺失四个靶向HXT簇,获得了四个供体DNA片段(IDT,Leuven,Belgium)。供体DNA片段SEQ ID NO:19(HXT5-HXT1-HXT4-修复)、SEQID NO:20(HXT2-修复)、SEQ ID NO:21(HXT3-HXT6-HXT7-修复)、SEQ ID NO:22(GAL2-修复)通过同源重组分别促进在H9T1、HXT2、HXT3或GAL2的靶基因座修复由Cas9造成的双链断裂,从而缺失靶HXT基因的编码序列。
在六个单独的转化中,用上文获得的延伸的生物砖(SEQ ID NO:15至18)(每种转化用不同的浓度,即每种延伸的砖31.25ng、62.5ng、125ng、250ng、500ng和1000ng)和供体DNA片段(每种供体DNA片段1000ng;SEQ ID NO:19至22)转化表达Cas9的BIE272菌株(描述于实施例1中)。根据Schiestl和Gietz(Current Genetics(1989),第16卷,339-346)所述的方法进行酵母转化。将1000倍稀释的经转化细胞的悬浮物涂布在补充有200mg/L G418的丰富生长琼脂培养基(YePhM;1%w/v酵母提取物,2%w/v植物蛋白,2%v/v麦芽糖)上。在30℃下生长2-3天后,选择板上出现菌落。转化后,由4种延伸的砖组成的PCR产物必须在S.cerevisiae中以正确的构型组装,因为在每种延伸的生物砖的5'-末端和3-末端存在同源的侧翼区,并且其包含gRNA序列(参见图4和SEQ ID NO:15至18)。在蓝光透照仪上检查板以发现发射GFP的菌落。从35个菌落中选择30个(其在重新划线后保留发射GFP的菌落),并在补充有2%麦芽糖(YNB-麦芽糖)或2%木糖(YNB-木糖)的酵母氮碱(6.7g/L酵母氮碱无氨基酸,Sigma-Aldrich,Zwijndrecht)琼脂(15g/L)培养基和补充有200mg/L G418(YePhM-G418)的丰富生长琼脂培养基(YePhM;1%w/v酵母提取物,2%w/v植物蛋白胨,2%v/v麦芽糖)上重新划线。与未转化的菌株BIE272-Cas9形成对照,能够在YePhM-G418上生长和发射GFP荧光的重新划线的菌落指示延伸的生物砖的成功组装,指示砖3(kanMX)的存在(由于在G418上生长的能力),砖2(GFP)的存在(由于发射的荧光),以及砖1(2μORI)的存在(由于组合的性状:在G418上生长和发射的荧光),这只能通过由2μORI启动的在S.cerevisiae中复制质粒来实现。通过诊断菌落PCR检查重新划线的菌落中HXT基因的预期修饰。30个菌落中有4个显示出在YNB-木糖上的生长受损或不生长,同时保持在YePhM-G418和YNB-麦芽糖上的生长,从而指示通过引入转化的延伸生物砖和供体DNA片段对在木糖上生长的影响。
将在YePhM-G418上生长并发射GFP荧光的30个重新划线菌落的细胞材料样品根据制造商的建议重新悬浮在Y-PERTM(酵母蛋白提取试剂,Life Technologies)中,随后煮制以裂解细胞。使用Phusion高保真DNA聚合酶(Thermoscientific Landsmeer,荷兰)根据供应商的说明进行PCR反应。在PCR反应中使用合适的寡核苷酸引物来显示不同HXT簇的缺失。
在表5中,显示了每种预期修饰的菌落数目。
表5:基于诊断菌落PCR显示HXT基因/簇的特异性缺失的菌落数目
Figure BDA0001587231190001131
Figure BDA0001587231190001141
基于这些结果,可以得出结论:通过在BIE272中使用4gRNA组装系统,能够进行所表达的gRNA序列靶向的基因座(HXT5-HXT1-HXT4、HXT2、HXT3-HXT6-HXT7和GAL2)处的所有预期修饰,指示表达gRNA序列的质粒的成功组装。
实施例4
使用4gRNA-载体组装系统在三个不同的基因座处引入三个共同编码β-胡萝卜素产生通路的表达盒
在该实施例中,使用4gRNA-载体组装系统靶向CEN.PK113-7D中的三个基因间非编码整合基因座(INT1、INT59、YPRCtau3),以整合三个单独的表达盒,包括β-胡萝卜素通路的三个基因(来自Xanthophyllomyces dendrorhous的crtE、crtYB和crtI),其中每个盒靶向不同的整合基因座。在Saccharomyces cerevisiae基因组中成功整合并表达所有三个基因后,成功的转化体将产生有色的类胡萝卜素化合物,从而导致黄色、橙色或红色的转化体(Verwaal等人,2007)。细胞着色是类胡萝卜素产生的结果,其可以通过使用在S.cerevisiae中有功能的启动子和终止子表达crtE、crtYB和crtI这些基因来实现(Verwaal等人,2007)。该实施例表明:通过使用本发明的4gRNA-载体组装方法,三个β-胡萝卜素通路基因表达盒可以同时转化到3个不同的基因座,从而允许在S.cerevisiae的基因组DNA中进行多重基因组工程,进而导致有色转化体,其反映正确编辑的细胞。
构建表达CAS9的CEN.PK113-7D菌株
首先使用LiAc/鲑鱼精(SS)运载体DNA/PEG方法(Gietz和Woods,2002)将含有CAS9盒的载体pCSN061(SEQ ID NO:23,图5中的图示)转化到S.cerevisiae菌株CEN.PK113-7D(MATa URA3 HIS3 LEU2 TRP1 MAL2-8 SUC2)。CEN.PK113-7D菌株可得自EUROSCARF保藏中心(http://www.euroscarf.de,德国法兰克福)或荷兰微生物菌种保藏中心(荷兰乌得勒支,条目号CBS 8340)。van Dijken等人,2000描述了CEN.PK家族菌株的来源。在转化混合物中使用1微克载体pCNS061。将转化混合物涂布在每毫升含有200微克(μg)G418(SigmaAldrich,Zwijndrecht,荷兰)的YPD-琼脂(10g/l酵母提取物,20g/l蛋白胨,20g/l右旋糖,20g/l琼脂)。在30℃下生长2-4天后,转化板上出现菌落。将板上赋予G418抗性的酵母菌落(现称为菌株CSN001)接种在YPD-G418培养基(10g/l酵母提取物,20g/l蛋白胨,20g/l右旋糖,200μg G418(Sigma Aldrich,Zwijndrecht,荷兰)/ml)上。
通过重叠延伸PCR利用向导序列延伸生物砖
在本实施例中,使用带有natMX显性抗性标记的砖3b(SEQ ID NO:24),因为kanMX标记被用于表达来自附加型质粒pCSN061的Cas9(图5)。与实施例3不同,在本实施例中,利用编码所选择的向导序列(在表6和本实施例中标示为gRNA)的20-bp多核苷酸在5’-末端和3’-末端延伸四个砖中的两个(砖1和砖2)。使用表7中给出的引物,利用所选择的gRNA序列分别在5’-末端或3’-末端延伸另外两个砖:砖3b和砖4(见表6)。另一个末端(即砖3b的3’-末端和砖4的5’-末端)未用gRNA序列延伸,而是在每个砖上具有彼此同源的非编码的25个核苷酸序列以促进体内重组。
表6.gRNA序列相对于砖的方向
Figure BDA0001587231190001151
表7.用于将向导序列(或者在砖3b和砖4之间的重叠序列)融合到生物砖以靶向整合基因座INT59、YPRCtau3和INT1的寡核苷酸引物。
Figure BDA0001587231190001152
Figure BDA0001587231190001161
使用如表2所示的引物设计,我们设计了正向引物和反向引物,其特异性地包含靶向INT59、YPRCtau3和INT1基因座的gRNA序列,其被按照以上所解释的选择用于CRISPR/CAS9介导的crtYB、crtI和crtE表达盒的整合。通过重叠延伸PCR反应,以表8中所示的设计,利用gRNA1(INT59)、gRNA2(YPRCtau3)或gRNA3(INT1)的gRNA序列延伸砖1、2、3、4。gRNA4(如图6中所示)的位置被省略。取而代之,将反向50nt引物设计为与紧邻砖3b上的SNR52启动子上游的25nt序列杂交(引物砖3_至4-r,SEQ ID NO:32),并将50nt正向引物设计为与紧邻砖4上的SUP4终止子下游的25nt序列杂交(引物砖4_至3-f,SEQ ID NO:28)。每个引物上剩余的25nt侧翼促进使用砖3b(PCR产物SEQ ID NO:35)和砖4(PCR产物SEQ ID NO:36)作为模板产生的PCR扩增产物之间的50nt重叠。
在表8中,提供了正向引物、反向引物和模板生物砖的特定组合。使用Phusion高保真DNA聚合酶(Thermoscientific Landsmeer,荷兰)根据供应商的说明进行PCR反应。选择60℃作为退火温度。随后使用标准PCR纯化试剂盒(Promega)纯化具有表8中列出的SEQ IDNO的所得PCR产物(杂交线性多核苷酸)。在Nanodrop设备(Thermoscientific Landsmeer,荷兰)上测量DNA浓度。通过这种方法,扩增了4种双链DNA产物,其对应于杂交线性多核苷酸(在实施例中标示为延伸的生物砖),是待用于图7A中所示酵母转化并在体内组装成环状酵母表达载体(参见图7B)从而产生SEQ ID NO:33-36(参见表8)的4种线性DNA元件。
表8:用于PCR扩增融合到砖1、2、3b和4的gRNA的引物组合
Figure BDA0001587231190001162
Figure BDA0001587231190001171
共转化延伸的生物砖和供体DNA片段,并在酵母中体内组装4gRNA-载体且多重整合三个供体DNA表达盒
为了能够在三个不同的整合基因座(INT1、INT59和YPRCtau3)多重整合编码crtE、crtYB和crtI的三个β-胡萝卜素通路基因表达盒,使用CRISPR/CAS9系统与4gRNA-载体组装系统的组合。INT1整合位点位于在染色体XV上的NTR1(YOR071c)和GYP1(YOR070c)之间的非编码区。INT59(在该实施例中命名为INT2)整合位点是位于染色体XI上的SRP40(YKR092C)和PTR2(YKR093W)之间的非编码区。YPRCtau3(在该实施例中命名为INT3)整合位点是位于染色体XVI上的Ty4长末端重复,并且已经被Flagfeldt等人(2009年)描述。
首先,如下所述获得本实施例所需的供体DNA。随后在两个不同的转化实验中使用该供体DNA,这两个转化实验的主要差异在于:转化实验中加入的DNA同源性侧翼序列的长度,如下所述以及图8和图9A和B所示。
供体DNA表达盒序列
通过PCR获得类胡萝卜素基因供体DNA表达盒,其是不同的crtE、crtYB和crtI表达盒,其序列示于SEQ ID NO:47至SEQ ID NO:55(表9),其被用作使用本实施例中所述的方法整合到基因组DNA中的供体DNA表达盒。使用Phusion DNA聚合酶(New England Biolabs,USA)根据制造商的说明,通过PCR产生供体DNA表达盒和侧翼序列的PCR片段。在β-胡萝卜素通路基因的表达盒的情况下,使用DNA2.0(Menlo Park,USA)提供的合成DNA作为PCR反应中的模板,使用表9中所示的特异性正向引物和反向引物组合,其中根据本领域技术人员已知的标准方法进行PCR反应。例如,为了获得SEQ ID NO:47所示的PCR片段,使用DNA2.0提供的合成DNA构建体SEQ ID NO:38作为模板,使用SEQ ID NO:56和SEQ ID NO:57所示的引物序列。通过PCR总共产生了9个不同的含有类胡萝卜素基因表达盒的供体DNA序列,如SEQ IDNO:47;48;49;50;51;52;53;54和55中所示。使用NucleoSpin Gel和PCR Clean-up试剂盒(Machery-Nagel,由Bioké,Leiden,荷兰分销)根据制造商的说明纯化所有供体DNA PCR片段。在Nanodrop设备(Thermoscientific Landsmeer,荷兰)上测量DNA浓度。
转化实验#1(图8,表9)中使用的类胡萝卜素基因表达盒由以下元件构成:在DNA序列的5'位置和3'位置存在约50个碱基对(bp)的侧翼序列,其与期望的基因组整合位点(INT1、INT2或INT3)具有同源性。在本实施例中,INT1是INT1整合位点,INT2是INT59整合位点,INT3是YPRCtau3整合位点。侧翼序列的存在允许将类胡萝卜素表达盒引入基因组DNA。结果,不同的供体DNA片段在不同的期望位置组装到基因组DNA中,如图8所示。启动子序列(其可以是同源的(即来自S.cerevisiae)或异源的(例如来自Kluyveromyces lactis))和来源于S.cerevisiae的终止子序列被用于控制β-胡萝卜素通路基因crtE、crtYB或crtI的表达。如表9中所述,预期启动子具有不同的表达强度,从而导致低、中等或高表达水平的crtE、crtYB或crtI。如PCT/EP2016/050136的实施例9所示,crtE、crtYB和crtI表达盒与低强度启动子的组合产生最低生产水平的总类胡萝卜素,中等强度启动子产生较高生产水平的总类胡萝卜素,强启动子产生最高水平的总类胡萝卜素。如WO2008/000632中所述,针对在S.cerevisiae中表达将crtE、crtYB和crtI核苷酸序列密码子对优化。
表9.转化实验#1和转化实验#2中使用的不同供体DNA表达盒序列的概述。在描述下,指示了以下元件:包含相对的预期表达强度的启动子(低p=低强度启动子,中等p=中等强度启动子,强p=高强度启动子)。ORF名称、crtE、crtYB或crtI,以及终止子序列。该表包括用于通过PCR扩增获得供体DNA表达盒序列的引物的SEQ ID NO。INT1:INT1整合位点。INT2:INT59整合位点。INT3:YPRCtau3整合位点。
Figure BDA0001587231190001181
Figure BDA0001587231190001191
供体DNA侧翼序列
转化实验2(图9,表10)中包含九个与基因组整合位点和供体DNA表达盒具有同源性的供体DNA侧翼序列PCR片段。如下获得供体DNA侧翼序列:使用乙酸锂SDS法(
Figure BDA0001587231190001192
等人,2011)从酵母菌株CEN.PK113-7D(MATa URA3HIS3LEU2TRP1MAL2-8SUC2)中分离基因组gDNA。使用该基因组DNA作为模板,使用表10中所示的特异性正向引物和反向引物组合,以获得用作DNA侧翼序列的供体的PCR片段(包含与基因组DNA的重叠用于基因组整合)。通过PCR使用Phusion DNA聚合酶(New England Biolabs,USA)根据制造商的说明生成供体DNA侧翼序列的PCR片段。例如,为了获得右侧翼(RF)INT1(PCR片段的序列在SEQ ID NO:68中示出),使用从菌株CEN.PK113-7D分离的基因组DNA作为模板,使用SEQ ID NO:77和SEQ IDNO:78中所示的引物序列。例如,为了获得与用于表达crtYB的KlYDR2启动子具有额外同源性的左侧翼(LF)INT2序列(PCR片段的序列在SEQ ID NO:69中示出),使用从菌株CEN.PK113-7D分离的基因组DNA作为模板,使用SEQ ID NO:79和SEQ ID NO:80中所示的引物序列。通过PCR产生六种不同的供体LF DNA侧翼序列,如SEQ ID NO:69;70;71;73;74和75中所示。通过PCR产生三种不同的RF供体DNA侧翼序列,如SEQ ID NO:68;72和76中所示。使用NucleoSpin Gel和PCR Clean-up试剂盒(Machery-Nagel,由Bioké,Leiden,荷兰分销)根据制造商的说明纯化所有供体DNA PCR片段。在Nanodrop设备(ThermoscientificLandsmeer,荷兰)上测量DNA浓度。
供体DNA侧翼序列与供体DNA表达盒序列和整合位点中存在的序列具有同源性,并允许在酵母中在整合位点和供体DNA之间进行体内重组,如图9所示。LF序列在其5’端与INT2或INT3整合位点具有同源性(INT2和INT3序列的部分存在于crtYB或crtI表达盒PCR片段上),并在其3’端与crtYB和crtI表达盒中使用的特异性启动子具有同源性(示于图9中)。RF序列在其5’端与crtE、crtYB或crtI表达盒中使用的特异性终止子具有同源性,并在3’端与INT1、INT2或INT3整合位点具有同源性(INT1、INT2或INT3序列的部分分别存在于crtE、crtYB和crtI表达盒PCR片段上;示于图9中)。
表10.转化实验#2中另外使用的不同供体DNA侧翼序列的概述。与基因组DNA的同源性指示侧翼序列与基因组整合位点的重叠,以碱基对(bp)计。
Figure BDA0001587231190001201
Figure BDA0001587231190001211
转化实验
使以上在“构建表达CAS9的CEN.PK113-7D菌株”下所述的S.cerevisiae菌株CSN001生长并在两个不同的转化实验中用图7中概述的4种线性4gRNA-载体DNA元件(SEQID NO:33,SEQ ID NO:34,SEQ ID NO:35,SEQ ID NO:36)转化。另外,在转化实验#1中,如图8所图示转化9种不同的包含β-胡萝卜素表达盒的供体DNA元件(表10,表11)。另外,在转化实验#2中,如图9所图示转化总共18种供体DNA元件,包括九种不同的β-胡萝卜素表达盒、六种不同的左侧翼和三种不同的右侧翼序列(表10,表11)。供体DNA表达盒PCR片段(参见表9的SEQ ID NO)用于转化实验#1和转化实验#2中。供体DNA侧翼PCR片段(参见表11的SEQ IDNO)仅用于转化实验#2中。在转化实验#2中加入另外的侧翼序列以确定通过包括分开的较大侧翼序列而得到的供体DNA的另外的同源性是否允许更高的基因组编辑效率。
表11.转化实验#1和转化实验#2中使用的供体DNA和4gRNA-载体DNA元件的概述。
Figure BDA0001587231190001212
Figure BDA0001587231190001221
使用LiAc/鲑鱼精(SS)运载体DNA/PEG方法(Gietz和Woods,2002)转化菌株CSN001。在转化实验#1和转化实验#2中包含各200ng的9种β-胡萝卜素通路供体DNA表达盒中的每一种。在转化实验#1和转化实验#2中包含250ng每种4gRNA-载体部分。在转化实验#2中包含100ng9种供体DNA侧翼序列中的每一种。将转化混合物涂布在每ml含有200μg诺尔丝菌素(NatMX,Jena Bioscience,德国)和200μg G418(Sigma Aldrich,Zwijndrecht,荷兰)的YPD-琼脂(10g/l酵母提取物,20g/l蛋白胨,20g/l右旋糖,20g/l琼脂)。在30℃下生长2-4天后,转化板上出现菌落。
转化后,对转化板上的菌落总数进行计数。转化体是着色的和/或未着色的。在着色转化体的情况下,crtE、crtYB和crtI表达盒成功整合到酵母细胞的基因组DNA中,从而使得能够产生类胡萝卜素(Verwaal等人,2007;PCT/EP2016/050136)。在未着色转化体的情况下,crtE、crtYB和crtI表达盒未成功整合到酵母细胞的基因组DNA中。通过将着色转化体的数目除以总转化体的数目来计算成功改造的细胞(即已经将crtE、crtYB和crtI表达盒整合到基因组DNA中的转化体)的百分比。结果如表12所示。
表12.在两个不同转化实验中获得的着色细胞的百分比,所述转化实验涂布在YPD(2%)+G418+NatMX琼脂板(双重选择)上以允许基于含有CAS9的载体和含有向导RNA的载体二者进行选择。
Figure BDA0001587231190001222
基于这些结果,可以得出结论:4gRNA-载体组装系统可用于在不同整合位点处将多个表达盒整合在酵母基因组DNA内,并证明了4gRNA-载体在酵母中成功组装,从而允许表达多个功能性向导RNA。这些结果还证明:包括LF和RF侧翼序列,使供体DNA表达盒与预期的染色体整合位点产生更高的同源性,将基因组编辑效率从37%提高到59%。
这种转化和4gRNA-载体组装系统与不同供体DNA表达盒的转化相结合,还允许在可获得的不同转化体中获得大量种类。因为转化中包含9种不同的供体DNA表达盒,并且由于在表达构建体中使用了不同的启动子,所以β-胡萝卜素通路表达盒能够组合成27种不同的组合,从而导致不同表达水平的crtE、crtYB和crtI(表13)。这导致转化后获得的具有不同的黄色、橙色或红色的转化体(数据未示出),指示整合到转化体的基因组DNA中的表达盒的不同组合,这些不同的转化体预期会产生不同水平的类胡萝卜素。这种方法对于筛选目的是有利的,其中能够针对不同特性筛选大量不同的转化体,例如针对一种或多种感兴趣的化合物的不同生产水平,在这种情况下针对不同的类胡萝卜素生产水平。
表13.转化9种不同的crt表达盒(见表11)时能够产生的27种不同的组合。
Figure BDA0001587231190001231
Figure BDA0001587231190001241
Figure BDA0001587231190001251
实施例5
使用1gRNA载体组装系统来缺失染色体DNA
在该实施例中,使用1gRNA-载体组装系统使GFP表达盒靶向INT1基因座,并实现在INT1基因座缺失约1000个碱基对(1千碱基对(kb))或约10000个碱基对(10kb)的基因组DNA。INT1整合位点位于位于染色体XV上的NTR1(YOR071c)和GYP1(YOR070c)之间的非编码区。
pRN1120(SEQ ID NO:91)是酵母多拷贝载体(2微米),其含有赋予诺尔丝菌素抗性的功能性NatMX标记盒。该载体的骨架基于pRS305(Sikorski和Hieter,1989),其包括功能性2微米ORI序列和功能性NatMX(诺尔丝菌素抗性)标记盒(参见http://www.euroscarf.de)。使用SEQ ID NO:92和SEQ ID NO:93中所示引物,通过PCR从pRN1120骨架中移除SapI限制性位点,使SapI限制性位点从GCTCTTC改变为cCTCTTC。使用Q5定点诱变试剂盒(New England Biolabs,由Bioké,Leiden,荷兰提供,Cat no.E0554S)的KLD酶混合物根据供应商手册进行不含SapI位点的中间PCR片段的重新环化。用EcoRI和XhoI消化所得质粒。通过Gibson组装,将SEQ ID NO:94中提供序列的除了其它之外还含有SNR52启动子、向导RNA结构组分和SUP4终止子序列(Integrated DNA Technologies,Leuven,Belgium)的gBlock加入到pRN1120-SapI骨架中。使用Gibson组装HiFi 1步骤试剂盒(SGi-DNA,LaJolla,CA,USA.Catno.GA1100-50)根据供应商手册进行Gibson组装。产生的质粒被命名为pGRN002(SEQ ID NO:95,图10),其含有SNR52启动子、向导RNA结构组分和SUP4终止子序列,其中可以通过利用SapI位点来克隆/组装向导序列。为了在S.cerevisiae中表达gRNA序列,使用如之前由DiCarlo等人,2013所述的gRNA表达盒。gRNA表达盒包含SNR52启动子,由向导序列组成的gRNA序列,和向导RNA结构组分,随后是SUP4终止子。本实施例中使用的向导序列引导CAS9蛋白至S.cerevisiae的基因组DNA中的INT1位置。
在两个不同的PCR反应中使用载体pGRN002作为模板,所述PCR反应使用表14中所示的寡核苷酸引物并图示在图11中。寡核苷酸引物由从5’-端到3’-端方向的以下部分组成:
a)用于获得PCR片段#1(SEQ ID NO:96)的正向引物:
·紧邻向导序列上游的SNR52启动子序列的10个核苷酸,
·向导序列的20个核苷酸,和
·紧邻向导序列下游的gRNA结构组分的23个核苷酸,pGRN002载体中的寡核苷酸与其退火;
b)用于获得PCR片段#1(SEQ ID NO:97)的反向引物:
·紧邻向导序列下游的gRNA结构组分的10个核苷酸,
·向导序列的20个核苷酸,和
·紧邻向导序列上游的SNR52启动子序列的22个核苷酸,pGRN002载体中的寡核苷酸与其退火;
c)用于获得PCR片段#2(SEQ ID NO:99)的正向引物:
·紧邻向导序列上游的SNR52启动子序列的30个核苷酸,
·向导序列的20个核苷酸,和
·紧邻向导序列下游的gRNA结构组分的23个核苷酸,pGRN002载体中的寡核苷酸与其退火;
d)用于获得PCR片段#2(SEQ ID NO:100)的反向引物:
·紧邻向导序列上游的SNR52启动子序列的22个核苷酸,pGRN002载体中的寡核苷酸与其退火。
在PCR反应中使用Q5DNA聚合酶(
Figure BDA0001587231190001271
高保真2X Master Mix的一部分,NewEngland Biolabs,由Bioké,Leiden,荷兰提供Catno.M0492S),PCR反应根据制造商的说明书进行。
表14.用于PCR扩增的引物组合以获得1gRNA-载体PCR片段#1和PCR片段#2。
Figure BDA0001587231190001272
得到的PCR片段#1在5’-端/末端含有对应于SNR52启动子和向导序列的向导RNA表达盒的部分,在3’-端/末端含有对应于gRNA的结构组分和向导序列的向导RNA表达盒的片段(图12,SEQ ID NO:98)。得到的PCR片段#2在5’-端/末端含有对应于SNR52启动子和向导序列的向导RNA表达盒的部分,在3’-端/末端含有对应于SNR52启动子的向导RNA表达盒的片段(图12)。同源序列的存在允许在S.cerevisiae中进行体内重组,从而产生如图12中所图示的编码功能性向导RNA的环状载体。存在于环状载体上的NatMX标记可用于基于诺尔丝菌素选择转化体。PCR片段#1用于1gRNA-载体组装方法1,其中通过部分SNR52启动子、向导序列和部分向导RNA结构组分序列获得了用于体内重组的同源性。PCR片段#2用于1gRNA-载体组装方法2,其中仅通过部分SNR52启动子序列获得体内重组的同源性。
为了实现缺失酵母基因组DNA中INT1基因座周围约1kb或约10kb,将PCR片段#1或PCR片段#2与供体DNA序列(左侧翼,GFP表达盒,右侧翼,表15和表16)一起转化到菌株CSN001中,菌株CSN001由含有单拷贝KanMX的载体预先表达CAS9(参见实施例4)。示意图示于图13中。使用LiAc/SS运载体DNA/PEG方法(Gietz和Woods,2002)进行转化。在INT1整合位点周围缺失1kb基因组DNA(INT1基因组靶标上游约500bp,下游约500bp)或在INT1整合位点周围缺失10kb基因组DNA(INT1基因组靶标上游约5kb,下游约5kb)预期会导致活的转化体,因为没有从基因组DNA中完全或部分移除必需基因(来源Saccharomyces基因组数据库,http://www.yeastgenome.org/)。
下面举例说明1kb基因组DNA的缺失,并示于图13中:使用如SEQ ID NO:102和SEQID NO:103中所示的寡核苷酸序列,并使用gBlock(SEQ ID NO:104)作为模板(IDT,Leuven,Belgium)来产生与基因组DNA(5’侧翼A)具有450bp同源性的PCR片段A(SEQ ID NO:104)。使用如SEQ ID NO:107和SEQ ID NO:108中所示的寡核苷酸序列,并使用SEQ ID NO:109作为模板(由DNA 2.0,Menlo Park,CA,USA合成的合成DNA盒)来产生含有由S.cerevisiae TDH3启动子和S.cerevisiae ENO1终止子表达的绿色荧光蛋白(GFP)表达盒的PCR片段C(SEQ IDNO:109)。使用如SEQ ID NO:110和SEQ ID NO:111中所示的寡核苷酸序列,并使用从S.cerevisiae菌株CEN.PK113-7D分离的基因组DNA作为模板(根据
Figure BDA0001587231190001281
等人,2011所述的方法分离基因组DNA)来产生与基因组DNA(3'侧翼A)具有581bp同源性的PCR片段D(SEQID NO:112)。通过本领域技术人员已知的方法进行PCR反应。由于连接子序列的存在,PCR片段A的3'部分与PCR片段C的5'部分具有同源性,并且PCR片段D的5'部分与片段C的3'部分具有同源性,这允许同源重组到酵母Saccharomyces cerevisiae的基因组中(参见图13),如WO2013144257A1中所述。因为CAS9靶向基因组DNA中存在的INT1序列,所以引入了双链断裂。同源序列的存在将促进同源重组,从而双链断裂修复且供体DNA序列整合。
下面举例说明10kb基因组DNA的缺失,并示于图13中:使用如SEQ ID NO:105和SEQID NO:103中所示的寡核苷酸序列,并使用gBlock(SEQ ID NO:107)作为模板(IDT,Leuven,Belgium)来产生与基因组DNA(5’侧翼B)具有450bp同源性的PCR片段B(SEQ ID NO:106)。使用如SEQ ID NO:107和SEQ ID NO:108中所示的寡核苷酸序列,并使用SEQ ID NO:109作为模板(由DNA 2.0,Menlo Park,CA,USA合成的合成DNA盒)来产生含有由S.cerevisiae TDH3启动子和S.cerevisiae ENO1终止子表达的绿色荧光蛋白(GFP)表达盒的PCR片段C(SEQ IDNO:109)。使用如SEQ ID NO:113和SEQ ID NO:114中所示的寡核苷酸序列,并使用从S.cerevisiae菌株CEN.PK113-7D分离的基因组DNA作为模板(根据
Figure BDA0001587231190001291
等人,2011所述的方法分离基因组DNA)来产生与基因组DNA(3'侧翼B)具有607bp同源性的PCR片段E(SEQID NO:115)。通过本领域技术人员已知的方法进行PCR反应。由于连接子序列的存在,PCR片段B的3'部分与PCR片段C的5'部分具有同源性,并且PCR片段E的5'部分与片段C的3'部分具有同源性,这允许同源重组到酵母Saccharomyces cerevisiae的基因组中(参见图13),如WO2013144257A1中所述。因为CAS9靶向基因组DNA中存在的INT1序列,所以引入了双链断裂。同源序列的存在将促进同源重组,从而双链断裂修复且供体DNA序列整合。
使用NucleoSpin Gel和PCR Clean-up试剂盒(Machery-Nagel,由Bioké,Leiden,荷兰分销)根据制造商的说明纯化所有供体DNA PCR片段。
表15:用于产生PCR片段(左侧翼(LF)GFP表达盒,右侧翼(RF)),用于缺失INT1整合位点周围的1kb或10kb基因组DNA的PCR引物的概述(参见图13)。
Figure BDA0001587231190001292
Figure BDA0001587231190001301
根据如表16中所示的供体DNA和1gRNA-载体组分的组合,在Saccharomycescerevisiae菌株CSN0001中进行四个转化实验(实施例4)。使用LiAc/SS运载体DNA/PEG方法(Gietz和Woods,2002)进行转化。将转化混合物涂布在每毫升含有200μg G418(SigmaAldrich)和200μg诺尔丝菌素(NatMX,Jena Bioscience,德国)的YPD-琼脂(10g/l酵母提取物,20g/l蛋白胨,20g/l右旋糖,20g/l琼脂)上。KanMX赋予含有表达CAS9的载体pCSN061的转化体以抗性。NatMX赋予含有1gRNA-载体方法1和1gRNA-载体方法2的体内组装环状载体的转化体以抗性。在30℃下生长2-4天后,转化板上出现菌落。
表16:转化实验中包含的PCR片段。
Figure BDA0001587231190001302
Figure BDA0001587231190001311
片段A(5'侧翼A-Con5)、片段C(Con5-GFP表达盒-Con3)和片段D(Con3-3'侧翼A)的转化导致GFP表达盒的引入和约1kb的基因组DNA序列的缺失。片段B(5'侧翼B-Con5)、片段C(Con5-GFP表达盒-Con3)和片段E(Con3-3'侧翼B)的转化导致GFP表达盒的引入和约10kb的基因组DNA序列的缺失。
通过UV光(Qpix 450菌落挑取器–Molecular devices LLC),区分了板上出现的绿色荧光菌落(指示GFP整合)和白色菌落(指示没有GFP整合)。对转化板上的白色和绿色荧光菌落的总数进行计数。在绿色荧光转化体的情况下,供体DNA成功整合到酵母细胞的基因组DNA中。通过将绿色荧光转化体的数目除以总转化体的数目来计算成功改造的细胞(即已经将GFP表达盒和侧翼序列整合到基因组DNA中的转化体)的百分比(表17)。
表17:转化实验的结果。
Figure BDA0001587231190001312
转化实验的结果(表17)表明:图12所示的两种不同的1gRNA-载体方法导致获得GFP荧光菌株,这指示2种1gRNA-载体方法都可用于CRISPR-CAS9介导的基因组工程实验。
该实验清楚地显示:可以通过使用短寡核苷酸引物的OE-PCR和体内重组,以快速、廉价和灵活的方式应用1gRNA系统来创建功能性gRNA表达载体,其中使用已经包含自主复制载体的所有部分和gRNA序列的结构部分以及允许在宿主细胞中表达gRNA的控制序列,但不包含向导序列的标准化基本载体元件。
通过使用利用OE-PCR产生的左侧翼和右侧翼将组装在1gRNA线性载体中或任选地多个gRNA线性载体中的两个片段,这种方法也能够用于产生线性自主复制载体。
参考文献
Aleksenko和Clutterbuck.Fungal Genet.Biol.1997 21:373-397.Autonomousplasmid replication in Aspergillus nidulans:AMA1 and MATE elements.
Bao等人,2015,ACS Synth Biol,第4卷,585-94页.Homology-IntegratedCRISPR-Cas(HI-CRISPR)System for One-Step Multigene Disruption inSaccharomyces cerevisiae.
Barnes等人,siRNA as a molecular tool for use in Aspergillus niger(2008)Biotechnology Letters 30(5):885-890.
Becker和Guarente,In Abelson,J.N.和Simon,M.I.,编,Guide to YeastGenetics and Molecular Biology,Methods in Enzymology,Volume 194,182-187,Academic Press,Inc.,New York.
Beetham PR,Kipp PB,Sawycky XL,Arntzen CJ和May GD.PNAS 1999,96,8774-8778.A tool for functional plant genomics:Chimeric RNA/DNA oligonucleotidescause in vivo gene-specific mutations.
Broach等,1991,Broach,JR.;Pringle,JR.;Jones,EW.,编.The MolecularBiology of the Yeast Saccharomyces.Genome Dynamics,Protein Synthesis andEnergetics.Cold Spring Harbor Laboratory Press;Cold Spring harbor,NewYork.pp.287-331
Burke DT,等人Cloning of large segments of exogenous DNA into yeast bymeans of artificial chromosome vectors.Science 236:806-812,1987
Christianson TW,Sikorski RS,Dante M,Shero JH,Hieter P.Gene.1992 Jan2;110(1):119-22.Multifunctional yeast high-copy-number shuttle vectors.
Crook NC,Schmitz AC,Alper HS.ACS Synth Biol.2014 16;3(5):307-13.Optimization of a yeast RNA interference system for controlling geneexpression and enabling rapid metabolic engineering.
DiCarlo JE,Norville JE,Mali P,Rios X,Aach J,Church GM.Nucleic AcidsRes.2013 Apr;41(7):4336-43.Genome engineering in Saccharomyces cerevisiaeusing CRISPR-Cas systems.
Dong C,Beetham P,Vincent K和Sharp P.2006Plant Cell Rep 25:457-465.Oligonucleotide-directed gene repair in wheat using a transient plasmidrepair assay system.
J.A.Doudna,E.Charpentier Science(2104)346:1258096 DOI:10.1126/science.1258096.The new frontier of genome engineering with CRISPR-Cas9.
Durai S,Mani M,Kandavelou K,Wu J,Porteus M,Chandrasegaran S.NucleicAcids Res 2005 33(18):5978–90.Zinc finger nucleases:custom-designed molecularscissors for genome engineering of plant and mammalian cells.
Finbarr Hayes(2003)."Chapter 1-The Function and Organization ofPlasmids".In Nicola Casali,Andrew Presto.E.Coli Plasmid Vectors:Methods andApplications.Methods in Molecular Biology,Vol.235.Humana Press.pp.1–5.ISBN978-1-58829-151-6.
Flagfeldt DB,Siewers V,Huang L,Nielsen J.Yeast.2009Oct;26(10):545-51.Characterization of chromosomal integration sites for heterologous geneexpression in Saccharomyces cerevisiae.
Gaj T,Gersbach,C和Barbas C.Trends in Biotechnology,2013,Vol.31,No.7397-405.ZFN,TALEN,and CRISPR/Cas-based methods for genome engineering.
Gao Y和Zhao Y.J Integr Plant Biol.2014Apr;56(4):343-9.Self-processingof ribozyme-flanked RNAs into guide RNAs in vitro and in vivo for CRISPR-mediated genome editing.
Gems D.,Johnstone I.L.,Clutterbuck A.J.Gene 1991 98(1):61-67.Anautonomously replicating plasmid transforms Aspergillus nidulans at highfrequency.
Gietz RD,Woods RA.Methods Enzymol.2002;350:87-96.Transformation ofyeast by lithium acetate/single-stranded carrier DNA/polyethylene glycolmethod.
Goldstein,A.L.,和McCusker,J.H.Yeast 1999.15,1541-15.Three newdominant drug resistance cassettes for gene disruption in Saccharomycescerevisiae.
Guilinger JP,Thompson DB,Liu DR.Nat Biotechnol.2014 577–582.Fusion ofcatalytically inactive Cas9to FokI nuclease improves the specificity ofgenome modification.
Güldener,U.,Heck,S.,Fiedler,T.,Beinhauer,J.,和Hegemann,J.H.NucleicAcids Research 1996.24,2519-2524.A new efficient gene disruption cassette forrepeated use in budding yeast.
Heckman K.L.,Pease L.R.Nature Protocols 2007 2(4):924-932,Genesplicing and mutagenesis by PCR-driven overlap extension
Horton R.M.,Hunt H.D.,Ho S.N.,Pullen K.,Pease L.R.Gene 1989 77:61-68,Engineering bybrid genes without the use of restriction enzymes:gene splicingby overlap extension
Horwitz A.A.,Walter J.M.,Schubert M.G.,Kung S.H.,Hawkings K.,PlattD.M.,Hernday A.D.,Mahatdejkul-Meadows T.,Szeto W.,Chandran S.S.,Newman J.D.,Cell Systems 2015 1:1-9,http://dx.doi.org/10.1016/j.cels.2015.02.001.Efficient Multiplexed Integration of Synergistic Allelesand Metabolic Pathways in Yeasts via CRISPR-Cas.
Hsu PD,Lander ES,Zhang F.Cell.2014Jun 5;157(6):1262-78.Developmentand applications of CRISPR-Cas9for genome engineering.
Ito等人,1983,Journal of Bacteriology 153:163.
Jacobs JZ,Ciccaglione KM,Tournier V,Zaratiegui M.Nat Commun.2014 Oct29;5:5344.Implementation of the CRISPR-Cas9system in fission yeast.
Figure BDA0001587231190001361
等人,2015,ACS Synth Biol,http://dx.doi.org/10.1021/acssynbio.5b00007.CasEMBLR:Cas9-Facilitated Multiloci Genomic Integration ofin Vivo Assembled DNA Parts in Saccharomyces cerevisiae.
Figure BDA0001587231190001371
TR,Park J,Arentshorst M,van Welzen AM,Lamers G,Vankuyk PA,Damveld RA,van den Hondel CA,Nielsen KF,Frisvad JC,Ram AF.Fungal GenetBiol.2011May;48(5):544-53.The molecular and genetic basis of conidialpigmentation in Aspergillus niger.
Kleinstiver BP,Pattanayak V,Prew MS,Tsai SQ,Nguyen NT,Zheng Z,JoungJK,Nature.2016Jan 28;529(7587):490-5.高保真CRISPR-Cas9nucleases with nodetectable genome-wide off-target effects.
Kornberg R.Trends in Cell Biology 1999 9(12):M46Eukaryotictranscriptional control.
Kuijpers等人Microbial Cell Factories 2013,12:47.A versatile,efficientstrategy for assembly of multi-fragment expression vectors in Saccharomycescerevisiae using 60 bp synthetic recombination sequences.
Larson,M.H.;Gilbert,L.A.;Wang,X;Lim,W.A.;Weissman,J.S.;Qi,L.S.NatureProtocols 2013 8(11)2180–96.CRISPR interference(CRISPRi)for sequence-specificcontrol of gene expression.
Figure BDA0001587231190001372
M,Kristjuhan K,Kristjuhan A.Biotechniques.2011May;50(5):325-8.Extraction of genomic DNA from yeasts for PCR-based applications.
Mali P,Yang L,Esvelt KM,Aach J,Guell M,DiCarlo JE,Norville JE,ChurchGM.Science.2013Feb 15;339(6121):823-6.RNA-guided human genome engineering viaCas9.
Mans等人,2015,FEMS Yeast Res,volume 15,doi:10.1093/femsyr/fov004.CRISPR/Cas9:a molecular Swiss army knife for simultaneous introductionof multiple genetic modifications in Saccharomyces cerevisiae
Marck C,Kachouri-Lafond R,Lafontaine I,Westhof E,Dujon B,GrosjeanH.Nucleic Acids Res.2006 Apr 5;34(6):1816-35.The RNA polymerase III-dependentfamily of genes in hemiascomycetes:comparative RNomics,decoding strategies,transcription and evolutionary implications.
Mouyna I,Henry C,Doering TL,LatgéJP.FEMS Microbiol Lett.2004 Aug 15;237(2):317-24.Gene silencing with RNA interference in the human pathogenicfungus Aspergillus fumigatus.
Nakamura,Y.等人.Nucl.Acids Res.2000 28:292.Codon usage tabulated fromthe international DNA sequence databases:status for the year 2000.
Nelson CE,Gersbach CA,Nat Biotechnol.2016Mar 10;34(3):298-9.Cas9loosens its grip on off-target sites.
Nijland等人,Engineering of an endogenous hexose transporter into aspecific D-xylose transporter facilitates glucose-xylose co-consumption inSaccharomyces cerevisiae,Biotechnol Biofuels 2014,7,168
Oliveira等人,Efficient cloning system for construction of genesilencing vectors in Aspergillus niger(2008)Appl.Microbiol.and Biotechnol.80(5):917-924.
Ran FA,Hsu PD,Lin CY,Gootenberg JS,Konermann S,Trevino AE,Scott DA,Inoue A,Matoba S,Zhang Y,Zhang F.Cell 2013 154,1380-1389.Double nicking byRNA-guided CRISPR Cas9for enhanced genome editing specificity.
Ran FA,Cong L,Yan WX,Scott DA,Gootenberg JS,Kriz AJ,Zetsche B,ShalemO,Wu X,Makarova KS,Koonin EV,Sharp PA,Zhang F,Nature.2015 Apr 9;520(7546):186-91.In vivo genome editing using Staphylococcus aureus Cas9.
Raymond C.K.,Pownder T.A.,Sexson S.L.Biotechniques 1999,26:134-141.General method for plasmid construction using homologous recombination.
Ryan等人,eLife,2014,3.doi:10.7554/eLife.03703.Selection ofchromosomal DNA libraries using a multiplex CRISPR system
Ryan OW,Skerker JM,Maurer MJ,Li X,Tsai JC,Poddar S,Lee ME,DeLoache W,Dueber JE,Arkin AP,Cate JH.Elife.2014.19;3.03703.
Sambrook&Russell,Molecular Cloning:A Laboratory Manual,第三版,CSHLPress,Cold Spring Harbor,NY,2001;和Ausubel等人,Current Protocols in MolecularBiology,Wiley InterScience,NY,1995
Sander JD,Joung JK.Nat Biotechnol.2014 Apr;32(4):347-55.doi:10.1038/nbt.2842.Epub 2014 Mar 2.CRISPR-Cas systems for editing,regulating andtargeting genomes.
Sikorski RS,Hieter P.Genetics.1989May;122(1):19-27.A system ofshuttle vectors and yeast host strains designed for efficient manipulation ofDNA in Saccharomyces cerevisiae.
Slaymaker IM,Gao L,Zetsche B,Scott DA,Yan WX,Zhang F,Science.2016 Jan1;351(6268):84-8.Rationally engineered Cas9 nucleases with improvedspecificity.
Takahashi S,Nakajima Y,Imaizumi T,Furuta Y,Ohshiro Y,Abe K,Yamada RH,Kera Y.Development of an autonomously replicating linear vector of the yeastCryptococcus humicola by using telomere-like sequence repeats.Appl MicrobiolBiotechnol.2011Feb;89(4):1213-21
Tsai SQ,Wyvekens N,Khayter C,等人Nat Biotechnol.2014 32(6):569–576.Dimeric CRISPR RNA-guided FokI nucleases for highly specific genomeediting.
van Dijken JP,Bauer J,Brambilla L,Duboc P,Francois JM,Gancedo C,Giuseppin ML,Heijnen JJ,Hoare M,Lange HC,Madden EA,Niederberger P,Nielsen J,Parrou JL,Petit T,Porro D,Reuss M,van Riel N,Rizzi M,Steensma HY,Verrips CT,
Figure BDA0001587231190001401
J,Pronk JT.An interlaboratory comparison of physiological andgenetic properties of four Saccharomyces cerevisiae strains.Enzyme MicrobTechnol.2000 Jun 1;26(9-10):706-714.
Verwaal R,Wang J,Meijnen JP,Visser H,Sandmann G,van den Berg JA,vanOoyen AJ.Appl Environ Microbiol.2007Jul;73(13):4342-50.Epub 2007 May 11.High-level production of beta-carotene in Saccharomyces cerevisiae by successivetransformation with carotenogenic genes from Xanthophyllomyces dendrorhous.
Wah,D.A.;J.Bitinaite,Schildkraut,I.,Aggarwal,A.K.Proc Natl Acad SciUSA 1998 95(18):10564–9.Structure of FokI has implications for DNA cleavage.
Zetsche B,Gootenberg JS,Abudayyeh OO,Slaymaker IM,Makarova KS,Essletzbichler P,Volz SE,Joung J,van der Oost J,Regev A,Koonin EV,Zhang F,Cell.2015 Oct 22;163(3):759-71.Cpf1 is a single RNA-guided endonuclease of aclass 2 CRISPR-Cas system.
Zhang G,Kong II,Kim H,Liu J,Cate JH,Jin YS.Appl EnvironMicrobiol.2014 Dec 15;80(24):7694-701.doi:10.1128/AEM.02310-14.Epub 2014 Oct3.Construction of a quadruple auxotrophic mutant of an industrial polyploidySaccharomyces cerevisiae using RNA-guided Cas9 nuclease.
序列表
<110> 帝斯曼知识产权资产管理有限公司
<120> 向导RNA组装载体
<130> 31203-WO-PCT
<160> 119
<170> PatentIn version 3.5
<210> 1
<211> 20
<212> DNA
<213> artificial sequence
<220>
<223> Preferred termination sequence in yeast
<400> 1
tttttttgtt ttttatgtct 20
<210> 2
<211> 7240
<212> DNA
<213> artificial sequence
<220>
<223> polynucleotide sequence to be integrated in the integration locus
on chromosome 14 of S. cerevisiae, comprising the Cas9 expression
cassette and the natMX marker and including the 5'- and 3'-
flanking regions
<400> 2
ttgagcggac gccgaaacgt tgtttttttt ttgctttagt ccagataata accttttata 60
attttctttt tagggaggaa gaccggtcta agctcttaga ggttctcgca tacccaagta 120
aaagctaaga ccgaagcaaa cacgcaggat aattttccgg tttactctca ctgcagcttt 180
agtatagatg cagatctggt attgagagag gggggccgga acgaaaagat tcaggggaga 240
gaaaggcccg ggcgtcgggg aacaaaacca cttttgcaca ccttaatttt ttagctactc 300
tgtttctccg ggcttgtatg gcacataaat aaaattctgc tactttccat tatctggtca 360
tcacttaccg atgtggagag ccttgccctt gaaaaataag ataagacctc cgattagggt 420
atttgaaatt aaccgctgta gaatgaaata aggacgcttg tttgacattt tttagttgct 480
ttctctatct accaccattt gcatagcttc aaaatgtttc tactcctttt ttactcttcc 540
agattttctc ggactccgcg catcgccgta ccacttcaaa acacccaagc acagcatact 600
aaatttcccc tctttcttcc tctagggtgt cgttaattac ccgtactaaa ggtttggaaa 660
agaaaaaaga gaccgcctcg tttctttttc ttcgtcgaaa aaggcaataa aaatttttat 720
cacgtttctt tttcttgaaa attttttttt tgattttttt ctctttcgat gacctcccat 780
tgatatttaa gttaataaac ggtcttcaat ttctcaagtt tcagtttcat ttttcttgtt 840
ctattacaac tttttttact tcttgctcat tagaaagaaa gcatagcaat ctaatctaag 900
ttttctagaa ctagtggatc ccccgggaaa aatggacaag aagtactcca ttgggctcga 960
tatcggcaca aacagcgtcg gttgggccgt cattacggac gagtacaagg tgccgagcaa 1020
aaaattcaaa gttctgggca ataccgatcg ccacagcata aagaagaacc tcattggcgc 1080
cctcctgttc gactccgggg agacggccga agccacgcgg ctcaaaagaa cagcacggcg 1140
cagatatacc cgcagaaaga atcggatctg ctacctgcag gagatcttta gtaatgagat 1200
ggctaaggtg gatgactctt tcttccatag gctggaggag tcctttttgg tggaggagga 1260
taaaaagcac gagcgccacc caatctttgg caatatcgtg gacgaggtgg cgtaccatga 1320
aaagtaccca accatatatc atctgaggaa gaagcttgta gacagtactg ataaggctga 1380
cttgcggttg atctatctcg cgctggcgca tatgatcaaa tttcggggac acttcctcat 1440
cgagggggac ctgaacccag acaacagcga tgtcgacaaa ctctttatcc aactggttca 1500
gacttacaat cagcttttcg aagagaaccc gatcaacgca tccggagttg acgccaaagc 1560
aatcctgagc gctaggctgt ccaaatcccg gcggctcgaa aacctcatcg cacagctccc 1620
tggggagaag aagaacggcc tgtttggtaa tcttatcgcc ctgtcactcg ggctgacccc 1680
caactttaaa tctaacttcg acctggccga agatgccaag cttcaactga gcaaagacac 1740
ctacgatgat gatctcgaca atctgctggc ccagatcggc gaccagtacg cagacctttt 1800
tttggcggca aagaacctgt cagacgccat tctgctgagt gatattctgc gagtgaacac 1860
ggagatcacc aaagctccgc tgagcgctag tatgatcaag cgctatgatg agcaccacca 1920
agacttgact ttgctgaagg cccttgtcag acagcaactg cctgagaagt acaaggaaat 1980
tttcttcgat cagtctaaaa atggctacgc cggatacatt gacggcggag caagccagga 2040
ggaattttac aaatttatta agcccatctt ggaaaaaatg gacggcaccg aggagctgct 2100
ggtaaagctt aacagagaag atctgttgcg caaacagcgc actttcgaca atggaagcat 2160
cccccaccag attcacctgg gcgaactgca cgctatcctc aggcggcaag aggatttcta 2220
cccctttttg aaagataaca gggaaaagat tgagaaaatc ctcacatttc ggatacccta 2280
ctatgtaggc cccctcgccc ggggaaattc cagattcgcg tggatgactc gcaaatcaga 2340
agagaccatc actccctgga acttcgagga agtcgtggat aagggggcct ctgcccagtc 2400
cttcatcgaa aggatgacta actttgataa aaatctgcct aacgaaaagg tgcttcctaa 2460
acactctctg ctgtacgagt acttcacagt ttataacgag ctcaccaagg tcaaatacgt 2520
cacagaaggg atgagaaagc cagcattcct gtctggagag cagaagaaag ctatcgtgga 2580
cctcctcttc aagacgaacc ggaaagttac cgtgaaacag ctcaaagaag actatttcaa 2640
aaagattgaa tgtttcgact ctgttgaaat cagcggagtg gaggatcgct tcaacgcatc 2700
cctgggaacg tatcacgatc tcctgaaaat cattaaagac aaggacttcc tggacaatga 2760
ggagaacgag gacattcttg aggacattgt cctcaccctt acgttgtttg aagataggga 2820
gatgattgaa gaacgcttga aaacttacgc tcatctcttc gacgacaaag tcatgaaaca 2880
gctcaagagg cgccgatata caggatgggg gcggctgtca agaaaactga tcaatgggat 2940
ccgagacaag cagagtggaa agacaatcct ggattttctt aagtccgatg gatttgccaa 3000
ccggaacttc atgcagttga tccatgatga ctctctcacc tttaaggagg acatccagaa 3060
agcacaagtt tctggccagg gggacagtct tcacgagcac atcgctaatc ttgcaggtag 3120
cccagctatc aaaaagggaa tactgcagac cgttaaggtc gtggatgaac tcgtcaaagt 3180
aatgggaagg cataagcccg agaatatcgt tatcgagatg gcccgagaga accaaactac 3240
ccagaaggga cagaagaaca gtagggaaag gatgaagagg attgaagagg gtataaaaga 3300
actggggtcc caaatcctta aggaacaccc agttgaaaac acccagcttc agaatgagaa 3360
gctctacctg tactacctgc agaacggcag ggacatgtac gtggatcagg aactggacat 3420
caatcggctc tccgactacg acgtggatca tatcgtgccc cagtcttttc tcaaagatga 3480
ttctattgat aataaagtgt tgacaagatc cgataaaaat agagggaaga gtgataacgt 3540
cccctcagaa gaagttgtca agaaaatgaa aaattattgg cggcagctgc tgaacgccaa 3600
actgatcaca caacggaagt tcgataatct gactaaggct gaacgaggtg gcctgtctga 3660
gttggataaa gccggcttca tcaaaaggca gcttgttgag acacgccaga tcaccaagca 3720
cgtggcccaa attctcgatt cacgcatgaa caccaagtac gatgaaaatg acaaactgat 3780
tcgagaggtg aaagttatta ctctgaagtc taagctggtc tcagatttca gaaaggactt 3840
tcagttttat aaggtgagag agatcaacaa ttaccaccat gcgcatgatg cctacctgaa 3900
tgcagtggta ggcactgcac ttatcaaaaa atatcccaag cttgaatctg aatttgttta 3960
cggagactat aaagtgtacg atgttaggaa aatgatcgca aagtctgagc aggaaatagg 4020
caaggccacc gctaagtact tcttttacag caatattatg aattttttca agaccgagat 4080
tacactggcc aatggagaga ttcggaagcg accacttatc gaaacaaacg gagaaacagg 4140
agaaatcgtg tgggacaagg gtagggattt cgcgacagtc cggaaggtcc tgtccatgcc 4200
gcaggtgaac atcgttaaaa agaccgaagt acagaccgga ggcttctcca aggaaagtat 4260
cctcccgaaa aggaacagcg acaagctgat cgcacgcaaa aaagattggg accccaagaa 4320
atacggcgga ttcgattctc ctacagtcgc ttacagtgta ctggttgtgg ccaaagtgga 4380
gaaagggaag tctaaaaaac tcaaaagcgt caaggaactg ctgggcatca caatcatgga 4440
gcgatcaagc ttcgaaaaaa accccatcga ctttctcgag gcgaaaggat ataaagaggt 4500
caaaaaagac ctcatcatta agcttcccaa gtactctctc tttgagcttg aaaacggccg 4560
gaaacgaatg ctcgctagtg cgggcgagct gcagaaaggt aacgagctgg cactgccctc 4620
taaatacgtt aatttcttgt atctggccag ccactatgaa aagctcaaag ggtctcccga 4680
agataatgag cagaagcagc tgttcgtgga acaacacaaa cactaccttg atgagatcat 4740
cgagcaaata agcgaattct ccaaaagagt gatcctcgcc gacgctaacc tcgataaggt 4800
gctttctgct tacaataagc acagggataa gcccatcagg gagcaggcag aaaacattat 4860
ccacttgttt actctgacca acttgggcgc gcctgcagcc ttcaagtact tcgacaccac 4920
catagacaga aagcggtaca cctctacaaa ggaggtcctg gacgccacac tgattcatca 4980
gtcaattacg gggctctatg aaacaagaat cgacctctct cagctcggtg gagacagcag 5040
ggctgacccc aagaagaaga ggaaggtgtg atctcttctc gagtcatgta attagttatg 5100
tcacgcttac attcacgccc tccccccaca tccgctctaa ccgaaaagga aggagttaga 5160
caacctgaag tctaggtccc tatttatttt tttatagtta tgttagtatt aagaacgtta 5220
tttatatttc aaatttttct tttttttctg tacagacgcg tgtacgcatg taacattata 5280
ctgaaaacct tgcttgagaa ggttttggga cgctcgaagg ctttaatttg cgggcgtacg 5340
ctgcaggtcg acgaattcta ccgttcgtat aatgtatgct atacgaagtt atagatctgt 5400
ttagcttgcc ttgtccccgc cgggtcaccc ggccagcgac atggaggccc agaataccct 5460
ccttgacagt cttgacgtgc gcagctcagg ggcatgatgt gactgtcgcc cgtacattta 5520
gcccatacat ccccatgtat aatcatttgc atccatacat tttgatggcc gcacggcgcg 5580
aagcaaaaat tacggctcct cgctgcagac ctgcgagcag ggaaacgctc ccctcacaga 5640
cgcgttgaat tgtccccacg ccgcgcccct gtagagaaat ataaaaggtt aggatttgcc 5700
actgaggttc ttctttcata tacttccttt taaaatcttg ctaggataca gttctcacat 5760
cacatccgaa cataaacaac catgggtacc actcttgacg acacggctta ccggtaccgc 5820
accagtgtcc cgggggacgc cgaggccatc gaggcactgg atgggtcctt caccaccgac 5880
accgtcttcc gcgtcaccgc caccggggac ggcttcaccc tgcgggaggt gccggtggac 5940
ccgcccctga ccaaggtgtt ccccgacgac gaatcggacg acgaatcgga cgacggggag 6000
gacggcgacc cggactcccg gacgttcgtc gcgtacgggg acgacggcga cctggcgggc 6060
ttcgtggtcg tctcgtactc cggctggaac cgccggctga ccgtcgagga catcgaggtc 6120
gccccggagc accgggggca cggggtcggg cgcgcgttga tggggctcgc gacggagttc 6180
gcccgcgagc ggggcgccgg gcacctctgg ctggaggtca ccaacgtcaa cgcaccggcg 6240
atccacgcgt accggcggat ggggttcacc ctctgcggcc tggacaccgc cctgtacgac 6300
ggcaccgcct cggacggcga gcaggcgctc tacatgagca tgccctgccc ctaatcagta 6360
ctgacaataa aaagattctt gttttcaaga acttgtcatt tgtatagttt ttttatattg 6420
tagttgttct attttaatca aatgttagcg tgatttatat tttttttcgc ctcgacatca 6480
tctgcccaga tgcgaagtta agtgcgcaga aagtaatatc atgcgtcaat cgtatgtgaa 6540
tgctggtcgc tatactgctg tcgattcgat actaacgccg ccatccagtg tcgaaaacga 6600
gctcataact tcgtataatg tatgctatac gaacggtaga attcgatatc agatccacta 6660
gtggcctcat cttgatttat gtcttgtttg aggagatttc ggataaatat tcttcgaggg 6720
gaaaatgtcg taaaaataaa aacaataaag aaacaaaacg attaaaagaa aaactcaacc 6780
atcctcaaaa gtcctcctct tttttttcac gtgctgcgct gatgtaagca gcaggacatg 6840
gcaggaagaa aatcggagaa ttgtggccgc gacacctgac aaacaatcct caggcaaatg 6900
taaaattgta catgaaaggc tgcgtagtca atgtcttaga aggccggccc gcatgatcca 6960
gaagcagacc ataaaaaaaa taaaaattcg cggtctggca gcaggcataa gatgcatagc 7020
gttatcctaa atgacatcac gatgataaat cctccgccgc atgatgcttt tgatttgcct 7080
aagggcctgc catcgtgctg gctcaaacta ttgagggtca acataccttg aaaatccaag 7140
taaaaggatg gatatcgtta tactaaaagc aacacagaaa aggtccacgt cagttccaca 7200
caataacatt tacgtagtgt tcacgcgaag cagttacatc 7240
<210> 3
<211> 1875
<212> DNA
<213> artificial sequence
<220>
<223> polynucleotide sequence of Brick 1 comprising the 2?plasmid
<400> 3
gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60
ggcaccgagt cggtggtgct ttttttgttt tttatgtctt cgagtcatgt aattagttat 120
gtcgtggcat gctagctccg gattatcgat gataagctgt caaacatgag aattaattcc 180
acggactata gactatacct agtatactcc gtctactgta cgatacactt ccgctcaggt 240
ccttgtcctt taacgaggcc ttaccactct tttgttactc tattgatcca gctcagcaaa 300
ggcagtgtga tctaagattc tatcttcgcg atgtagtaaa actagctaga ccgagaaaga 360
gactagaaat gcaaaaggca cttctacaat ggctgccatc attattatcc gatgtgacgc 420
tgcagcttct caatgatatt cgaatacgct ttgaggagat acagcctaat atccgacaaa 480
ctgttttaca gatttacgat cgtacttgtt acccatcatt gaattttgaa catccgaacc 540
tgggagtttt ccctgaaaca gatagtatat ttgaacctgt ataataatat atagtctagc 600
gctttacgga agacaatgta tgtatttcgg ttcctggaga aactattgca tctattgcat 660
aggtaatctt gcacgtcgca tccccggttc attttctgcg tttccatctt gcacttcaat 720
agcatatctt tgttaacgaa gcatctgtgc ttcattttgt agaacaaaaa tgcaacgcga 780
gagcgctaat ttttcaaaca aagaatctga gctgcatttt tacagaacag aaatgcaacg 840
cgaaagcgct attttaccaa cgaagaatct gtgcttcatt tttgtaaaac aaaaatgcaa 900
cgcgagagcg ctaatttttc aaacaaagaa tctgagctgc atttttacag aacagaaatg 960
caacgcgaga gcgctatttt accaacaaag aatctatact tcttttttgt tctacaaaaa 1020
tgcatcccga gagcgctatt tttctaacaa agcatcttag attacttttt ttctcctttg 1080
tgcgctctat aatgcagtct cttgataact ttttgcactg taggtccgtt aaggttagaa 1140
gaaggctact ttggtgtcta ttttctcttc cataaaaaaa gcctgactcc acttcccgcg 1200
tttactgatt actagcgaag ctgcgggtgc attttttcaa gataaaggca tccccgatta 1260
tattctatac cgatgtggat tgcgcatact ttgtgaacag aaagtgatag cgttgatgat 1320
tcttcattgg tcagaaaatt atgaacggtt tcttctattt tgtctctata tactacgtat 1380
aggaaatgtt tacattttcg tattgttttc gattcactct atgaatagtt cttactacaa 1440
tttttttgtc taaagagtaa tactagagat aaacataaaa aatgtagagg tcgagtttag 1500
atgcaagttc aaggagcgaa aggtggatgg gtaggttata tagggatata gcacagagat 1560
atatagcaaa gagatacttt tgagcaatgt ttgtggaaag cggctgttct ttgaaaagat 1620
aatgtatgat tatgctttca ctcatattta tacagaaact tgatgttttc tttcgagtat 1680
atacaaggtg attacatgta cgtttgaagt acaactctag attttgtagt gccctcttgg 1740
gctagcggta aaggtgcgca ttttttcaca ccctacaatg ttctgttcaa aagattttgg 1800
tcaaacgctg tagaagtgaa agttggtgcg catgtttcgg cgttcgaaac ttctccgcag 1860
tgaaagataa atgat 1875
<210> 4
<211> 2125
<212> DNA
<213> artificial sequence
<220>
<223> polynucleotide sequence of Brick 2 comprising the expression
cassette of Dasher GFP, flanked upstream by the S. cerevisae TDH3
promoter, and flanked downstream by the S. cerevisiae ADH1
terminator sequence
<400> 4
gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60
ggcaccgagt cggtggtgct ttttttgttt tttatgtctt cgagtcatgt aattagttat 120
gtctggccgg atcgatgtac acaaccgact gcacccaaac gaacacaaat cttagcagtg 180
cttagtcaaa aaattagcct tttaattctg ctgtaacccg tacatgccca aaataggggg 240
cgggttacac agaatatata acatcgtagg tgtctgggtg aacagtttat tcctggcatc 300
cactaaatat aatggagccc gctttttaag ctggcatcca gaaaaaaaaa gaatcccagc 360
accaaaatat tgttttcttc accaaccatc agttcatagg tccattctct tagcgcaact 420
acagagaaca ggggcacaaa caggcaaaaa acgggcacaa cctcaatgga gtgatgcaac 480
ctgcctggag taaatgatga cacaaggcaa ttgacccacg catgtatcta tctcattttc 540
ttacaccttc tattaccttc tgctctctct gatttggaaa aagctgaaaa aaaaggttga 600
aaccagttcc ctgaaattat tcccctactt gactaataag tatataaaga cggtaggtat 660
tgattgtaat tctgtaaatc tatttcttaa acttcttaaa ttctactttt atagttagtc 720
ttttttttag ttttaaaaca ccaagaactt agtttcgaat aaacacacat aaacaaacaa 780
aatgaccgca ctaacagaag gagctaaact attcgaaaag gagattcctt acattacaga 840
attagagggt gatgtcgaag gaatgaaatt cattatcaag ggcgagggta ctggtgacgc 900
tactaccggt acgattaaag caaagtacat ctgtacaaca ggtgaccttc ctgttccgtg 960
ggctactctg gtgagcactt tgtcttatgg agttcaatgt tttgctaaat acccttcgca 1020
cattaaagac tttttcaaaa gtgcaatgcc tgagggctat actcaggaga gaacaatatc 1080
tttcgaagga gatggtgtgt ataagactag ggctatggtc acgtatgaaa gaggatccat 1140
ctacaataga gtaactttaa ctggtgaaaa cttcaaaaag gacggtcaca tccttagaaa 1200
gaatgttgcc tttcaatgcc caccatccat cttgtacatt ttgccagaca cagttaacaa 1260
tggtatcaga gttgagttta accaagctta tgacatagag ggtgtcaccg aaaagttggt 1320
tacaaaatgt tcacagatga atcgtcccct ggcaggatca gctgccgtcc atatcccacg 1380
ttaccatcat atcacttatc ataccaagct gtccaaagat cgtgatgaga gaagggatca 1440
catgtgtttg gttgaagtgg taaaggccgt ggatttggat acttaccaag gttgataaag 1500
cgaatttctt atgatttatg atttttatta ttaaataagt tataaaaaaa ataagtgtat 1560
acaaatttta aagtgactct taggttttaa aacgaaaatt cttattcttg agtaactctt 1620
tcctgtaggt caggttgctt tctcaggtat agcatgaggt cgctcttatt gaccacacct 1680
ctaccggcat gccgagcaaa tgcctgcaaa tcgctcccca tttcacccaa ttgtagatat 1740
gctaactcca gcaatgagtt gatgaatctc ggtgtgtatt ttatgtcctc agaggacaac 1800
ctcagaaagc ctgtatgcga agccacaatc ctttccaaca gaccatacta agtgaattct 1860
ttgaaaagat aatgtatgat tatgctttca ctcatattta tacagaaact tgatgttttc 1920
tttcgagtat atacaaggtg attacatgta cgtttgaagt acaactctag attttgtagt 1980
gccctcttgg gctagcggta aaggtgcgca ttttttcaca ccctacaatg ttctgttcaa 2040
aagattttgg tcaaacgctg tagaagtgaa agttggtgcg catgtttcgg cgttcgaaac 2100
ttctccgcag tgaaagataa atgat 2125
<210> 5
<211> 1846
<212> DNA
<213> artificial sequence
<220>
<223> polynucleotide sequence of Brick 3 comprising the dominant
resistance marker KanMX
<400> 5
gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60
ggcaccgagt cggtggtgct ttttttgttt tttatgtctt cgagtcatgt aattagttat 120
gtctgagatc tgtttagctt gcctcgtccc cgccgggtca cccggccagc gacatggagg 180
cccagaatac cctccttgac agtcttgacg tgcgcagctc aggggcatga tgtgactgtc 240
gcccgtacat ttagcccata catccccatg tataatcatt tgcatccata cattttgatg 300
gccgcacggc gcgaagcaaa aattacggct cctcgctgca gacctgcgag cagggaaacg 360
ctcccctcac agacgcgttg aattgtcccc acgccgcgcc cctgtagaga aatataaaag 420
gttaggattt gccactgagg ttcttctttc atatacttcc ttttaaaatc ttgctaggat 480
acagttctca catcacatcc gaacataaac aaccatgggt aaggaaaaga ctcacgtttc 540
gaggccgcga ttaaattcca acatggatgc tgatttatat gggtataaat gggctcgcga 600
taatgtcggg caatcaggtg cgacaatcta tcgattgtat gggaagcccg atgcgccaga 660
gttgtttctg aaacatggca aaggtagcgt tgccaatgat gttacagatg agatggtcag 720
actaaactgg ctgacggaat ttatgcctct tccgaccatc aagcatttta tccgtactcc 780
tgatgatgca tggttactca ccactgcgat ccccggcaaa acagcattcc aggtattaga 840
agaatatcct gattcaggtg aaaatattgt tgatgcgctg gcagtgttcc tgcgccggtt 900
gcattcgatt cctgtttgta attgtccttt taacagcgat cgcgtatttc gtctcgctca 960
ggcgcaatca cgaatgaata acggtttggt tgatgcgagt gattttgatg acgagcgtaa 1020
tggctggcct gttgaacaag tctggaaaga aatgcataag cttttgccat tctcaccgga 1080
ttcagtcgtc actcatggtg atttctcact tgataacctt atttttgacg aggggaaatt 1140
aataggttgt attgatgttg gacgagtcgg aatcgcagac cgataccagg atcttgccat 1200
cctatggaac tgcctcggtg agttttctcc ttcattacag aaacggcttt ttcaaaaata 1260
tggtattgat aatcctgata tgaataaatt gcagtttcat ttgatgctcg atgagttttt 1320
ctaatcagta ctgacaataa aaagattctt gttttcaaga acttgtcatt tgtatagttt 1380
ttttatattg tagttgttct attttaatca aatgttagcg tgatttatat tttttttcgc 1440
ctcgacatca tctgcccaga tgcgaagtta agtgcgcaga aagtaatatc atgcgtcaat 1500
cgtatgtgaa tgctggtcgc tatactgctg tcgattcgat actaacgccg ccatccagtg 1560
tcgaaaacga gctcgaattc tttgaaaaga taatgtatga ttatgctttc actcatattt 1620
atacagaaac ttgatgtttt ctttcgagta tatacaaggt gattacatgt acgtttgaag 1680
tacaactcta gattttgtag tgccctcttg ggctagcggt aaaggtgcgc attttttcac 1740
accctacaat gttctgttca aaagattttg gtcaaacgct gtagaagtga aagttggtgc 1800
gcatgtttcg gcgttcgaaa cttctccgca gtgaaagata aatgat 1846
<210> 6
<211> 2047
<212> DNA
<213> artificial sequence
<220>
<223> polynucleotide sequence of Brick 4 comprising the kanR gene, a
bacterial selection marker, and pUC ORI
<400> 6
gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60
ggcaccgagt cggtggtgct ttttttgttt tttatgtctt cgagtcatgt aattagttat 120
gtctgcgagc ggtatcagct cactcaaagg cggtaatacg gttatccaca gaatcagggg 180
ataacgcagg aaagaacatg tgagcaaaag gccagcaaaa ggccaggaac cgtaaaaagg 240
ccgcgttgct ggcgtttttc cataggctcc gcccccctga cgagcatcac aaaaatcgac 300
gctcaagtca gaggtggcga aacccgacag gactataaag ataccaggcg tttccccctg 360
gaagctccct cgtgcgctct cctgttccga ccctgccgct taccggatac ctgtccgcct 420
ttctcccttc gggaagcgtg gcgctttctc atagctcacg ctgtaggtat ctcagttcgg 480
tgtaggtcgt tcgctccaag ctgggctgtg tgcacgaacc ccccgttcag cccgaccgct 540
gcgccttatc cggtaactat cgtcttgagt ccaacccggt aagacacgac ttatcgccac 600
tggcagcagc cactggtaac aggattagca gagcgaggta tgtaggcggt gctacagagt 660
tcttgaagtg gtgggctaac tacggctaca ctagaagaac agtatttggt atctgcgctc 720
tgctgaagcc agttaccttc ggaaaaagag ttggtagctc ttgatccggc aaacaaacca 780
ccgctggtag cggtggtttt tttgtttgca agcagcagat tacgcgcaga aaaaaaggat 840
ctcaagaaga tcctttgatc ttttctacgg ggtctgacgc tcagtggaac gacgcgcgcg 900
taactcacgt taagggattt tggtcatgag cttgcgccgt cccgtcaagt cagcgtaatg 960
ctctgctttt agaaaaactc atcgagcatc aaatgaaact gcaatttatt catatcagga 1020
ttatcaatac catatttttg aaaaagccgt ttctgtaatg aaggagaaaa ctcaccgagg 1080
cagttccata ggatggcaag atcctggtat cggtctgcga ttccgactcg tccaacatca 1140
atacaaccta ttaatttccc ctcgtcaaaa ataaggttat caagtgagaa atcaccatga 1200
gtgacgactg aatccggtga gaatggcaaa agtttatgca tttctttcca gacttgttca 1260
acaggccagc cattacgctc gtcatcaaaa tcactcgcat caaccaaacc gttattcatt 1320
cgtgattgcg cctgagcgag gcgaaatacg cgatcgctgt taaaaggaca attacaaaca 1380
ggaatcgagt gcaaccggcg caggaacact gccagcgcat caacaatatt ttcacctgaa 1440
tcaggatatt cttctaatac ctggaacgct gtttttccgg ggatcgcagt ggtgagtaac 1500
catgcatcat caggagtacg gataaaatgc ttgatggtcg gaagtggcat aaattccgtc 1560
agccagttta gtctgaccat ctcatctgta acatcattgg caacgctacc tttgccatgt 1620
ttcagaaaca actctggcgc atcgggcttc ccatacaagc gatagattgt cgcacctgat 1680
tgcccgacat tatcgcgagc ccatttatac ccatataaat cagcatccat gttggaattt 1740
aatcgcggcc tcgacgtttc ccgttgaata tggctgaatt ctttgaaaag ataatgtatg 1800
attatgcttt cactcatatt tatacagaaa cttgatgttt tctttcgagt atatacaagg 1860
tgattacatg tacgtttgaa gtacaactct agattttgta gtgccctctt gggctagcgg 1920
taaaggtgcg cattttttca caccctacaa tgttctgttc aaaagatttt ggtcaaacgc 1980
tgtagaagtg aaagttggtg cgcatgtttc ggcgttcgaa acttctccgc agtgaaagat 2040
aaatgat 2047
<210> 7
<211> 60
<212> DNA
<213> artificial sequence
<220>
<223> forward primer gR1-HXT1-f
<400> 7
tgaaagataa atgatgttgt agtcagcgcc tctctgtttt agagctagaa atagcaagtt 60
<210> 8
<211> 60
<212> DNA
<213> artificial sequence
<220>
<223> forward primer gR2-HXT2-f
<400> 8
tgaaagataa atgattgggt taaccttagg acgtcgtttt agagctagaa atagcaagtt 60
<210> 9
<211> 60
<212> DNA
<213> artificial sequence
<220>
<223> forward primer gR3-HXT3-f
<400> 9
tgaaagataa atgatggtgg ctagtatttg tttcggtttt agagctagaa atagcaagtt 60
<210> 10
<211> 60
<212> DNA
<213> artificial sequence
<220>
<223> forward primer gR4-GAL2-f
<400> 10
tgaaagataa atgattctaa ctctgcctgg acggcgtttt agagctagaa atagcaagtt 60
<210> 11
<211> 60
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer gR1-HXT1-r
<400> 11
ttctagctct aaaacagaga ggcgctgact acaacatcat ttatctttca ctgcggagaa 60
<210> 12
<211> 60
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer gR2-HXT2-r
<400> 12
ttctagctct aaaacgacgt cctaaggtta acccaatcat ttatctttca ctgcggagaa 60
<210> 13
<211> 60
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer gR3-HXT3-r
<400> 13
ttctagctct aaaaccgaaa caaatactag ccaccatcat ttatctttca ctgcggagaa 60
<210> 14
<211> 60
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer gR4-GAL2-r
<400> 14
ttctagctct aaaacgccgt ccaggcagag ttagaatcat ttatctttca ctgcggagaa 60
<210> 15
<211> 1945
<212> DNA
<213> artificial sequence
<220>
<223> extended Brick 1
<400> 15
tgaaagataa atgatgttgt agtcagcgcc tctctgtttt agagctagaa atagcaagtt 60
aaaataaggc tagtccgtta tcaacttgaa aaagtggcac cgagtcggtg gtgctttttt 120
tgttttttat gtcttcgagt catgtaatta gttatgtcgt ggcatgctag ctccggatta 180
tcgatgataa gctgtcaaac atgagaatta attccacgga ctatagacta tacctagtat 240
actccgtcta ctgtacgata cacttccgct caggtccttg tcctttaacg aggccttacc 300
actcttttgt tactctattg atccagctca gcaaaggcag tgtgatctaa gattctatct 360
tcgcgatgta gtaaaactag ctagaccgag aaagagacta gaaatgcaaa aggcacttct 420
acaatggctg ccatcattat tatccgatgt gacgctgcag cttctcaatg atattcgaat 480
acgctttgag gagatacagc ctaatatccg acaaactgtt ttacagattt acgatcgtac 540
ttgttaccca tcattgaatt ttgaacatcc gaacctggga gttttccctg aaacagatag 600
tatatttgaa cctgtataat aatatatagt ctagcgcttt acggaagaca atgtatgtat 660
ttcggttcct ggagaaacta ttgcatctat tgcataggta atcttgcacg tcgcatcccc 720
ggttcatttt ctgcgtttcc atcttgcact tcaatagcat atctttgtta acgaagcatc 780
tgtgcttcat tttgtagaac aaaaatgcaa cgcgagagcg ctaatttttc aaacaaagaa 840
tctgagctgc atttttacag aacagaaatg caacgcgaaa gcgctatttt accaacgaag 900
aatctgtgct tcatttttgt aaaacaaaaa tgcaacgcga gagcgctaat ttttcaaaca 960
aagaatctga gctgcatttt tacagaacag aaatgcaacg cgagagcgct attttaccaa 1020
caaagaatct atacttcttt tttgttctac aaaaatgcat cccgagagcg ctatttttct 1080
aacaaagcat cttagattac tttttttctc ctttgtgcgc tctataatgc agtctcttga 1140
taactttttg cactgtaggt ccgttaaggt tagaagaagg ctactttggt gtctattttc 1200
tcttccataa aaaaagcctg actccacttc ccgcgtttac tgattactag cgaagctgcg 1260
ggtgcatttt ttcaagataa aggcatcccc gattatattc tataccgatg tggattgcgc 1320
atactttgtg aacagaaagt gatagcgttg atgattcttc attggtcaga aaattatgaa 1380
cggtttcttc tattttgtct ctatatacta cgtataggaa atgtttacat tttcgtattg 1440
ttttcgattc actctatgaa tagttcttac tacaattttt ttgtctaaag agtaatacta 1500
gagataaaca taaaaaatgt agaggtcgag tttagatgca agttcaagga gcgaaaggtg 1560
gatgggtagg ttatataggg atatagcaca gagatatata gcaaagagat acttttgagc 1620
aatgtttgtg gaaagcggct gttctttgaa aagataatgt atgattatgc tttcactcat 1680
atttatacag aaacttgatg ttttctttcg agtatataca aggtgattac atgtacgttt 1740
gaagtacaac tctagatttt gtagtgccct cttgggctag cggtaaaggt gcgcattttt 1800
tcacacccta caatgttctg ttcaaaagat tttggtcaaa cgctgtagaa gtgaaagttg 1860
gtgcgcatgt ttcggcgttc gaaacttctc cgcagtgaaa gataaatgat tgggttaacc 1920
ttaggacgtc gttttagagc tagaa 1945
<210> 16
<211> 2195
<212> DNA
<213> artificial sequence
<220>
<223> extended Brick 2
<400> 16
tgaaagataa atgattgggt taaccttagg acgtcgtttt agagctagaa atagcaagtt 60
aaaataaggc tagtccgtta tcaacttgaa aaagtggcac cgagtcggtg gtgctttttt 120
tgttttttat gtcttcgagt catgtaatta gttatgtctg gccggatcga tgtacacaac 180
cgactgcacc caaacgaaca caaatcttag cagtgcttag tcaaaaaatt agccttttaa 240
ttctgctgta acccgtacat gcccaaaata gggggcgggt tacacagaat atataacatc 300
gtaggtgtct gggtgaacag tttattcctg gcatccacta aatataatgg agcccgcttt 360
ttaagctggc atccagaaaa aaaaagaatc ccagcaccaa aatattgttt tcttcaccaa 420
ccatcagttc ataggtccat tctcttagcg caactacaga gaacaggggc acaaacaggc 480
aaaaaacggg cacaacctca atggagtgat gcaacctgcc tggagtaaat gatgacacaa 540
ggcaattgac ccacgcatgt atctatctca ttttcttaca ccttctatta ccttctgctc 600
tctctgattt ggaaaaagct gaaaaaaaag gttgaaacca gttccctgaa attattcccc 660
tacttgacta ataagtatat aaagacggta ggtattgatt gtaattctgt aaatctattt 720
cttaaacttc ttaaattcta cttttatagt tagtcttttt tttagtttta aaacaccaag 780
aacttagttt cgaataaaca cacataaaca aacaaaatga ccgcactaac agaaggagct 840
aaactattcg aaaaggagat tccttacatt acagaattag agggtgatgt cgaaggaatg 900
aaattcatta tcaagggcga gggtactggt gacgctacta ccggtacgat taaagcaaag 960
tacatctgta caacaggtga ccttcctgtt ccgtgggcta ctctggtgag cactttgtct 1020
tatggagttc aatgttttgc taaataccct tcgcacatta aagacttttt caaaagtgca 1080
atgcctgagg gctatactca ggagagaaca atatctttcg aaggagatgg tgtgtataag 1140
actagggcta tggtcacgta tgaaagagga tccatctaca atagagtaac tttaactggt 1200
gaaaacttca aaaaggacgg tcacatcctt agaaagaatg ttgcctttca atgcccacca 1260
tccatcttgt acattttgcc agacacagtt aacaatggta tcagagttga gtttaaccaa 1320
gcttatgaca tagagggtgt caccgaaaag ttggttacaa aatgttcaca gatgaatcgt 1380
cccctggcag gatcagctgc cgtccatatc ccacgttacc atcatatcac ttatcatacc 1440
aagctgtcca aagatcgtga tgagagaagg gatcacatgt gtttggttga agtggtaaag 1500
gccgtggatt tggatactta ccaaggttga taaagcgaat ttcttatgat ttatgatttt 1560
tattattaaa taagttataa aaaaaataag tgtatacaaa ttttaaagtg actcttaggt 1620
tttaaaacga aaattcttat tcttgagtaa ctctttcctg taggtcaggt tgctttctca 1680
ggtatagcat gaggtcgctc ttattgacca cacctctacc ggcatgccga gcaaatgcct 1740
gcaaatcgct ccccatttca cccaattgta gatatgctaa ctccagcaat gagttgatga 1800
atctcggtgt gtattttatg tcctcagagg acaacctcag aaagcctgta tgcgaagcca 1860
caatcctttc caacagacca tactaagtga attctttgaa aagataatgt atgattatgc 1920
tttcactcat atttatacag aaacttgatg ttttctttcg agtatataca aggtgattac 1980
atgtacgttt gaagtacaac tctagatttt gtagtgccct cttgggctag cggtaaaggt 2040
gcgcattttt tcacacccta caatgttctg ttcaaaagat tttggtcaaa cgctgtagaa 2100
gtgaaagttg gtgcgcatgt ttcggcgttc gaaacttctc cgcagtgaaa gataaatgat 2160
ggtggctagt atttgtttcg gttttagagc tagaa 2195
<210> 17
<211> 1916
<212> DNA
<213> artificial sequence
<220>
<223> extended Brick 3
<400> 17
tgaaagataa atgatggtgg ctagtatttg tttcggtttt agagctagaa atagcaagtt 60
aaaataaggc tagtccgtta tcaacttgaa aaagtggcac cgagtcggtg gtgctttttt 120
tgttttttat gtcttcgagt catgtaatta gttatgtctg agatctgttt agcttgcctc 180
gtccccgccg ggtcacccgg ccagcgacat ggaggcccag aataccctcc ttgacagtct 240
tgacgtgcgc agctcagggg catgatgtga ctgtcgcccg tacatttagc ccatacatcc 300
ccatgtataa tcatttgcat ccatacattt tgatggccgc acggcgcgaa gcaaaaatta 360
cggctcctcg ctgcagacct gcgagcaggg aaacgctccc ctcacagacg cgttgaattg 420
tccccacgcc gcgcccctgt agagaaatat aaaaggttag gatttgccac tgaggttctt 480
ctttcatata cttcctttta aaatcttgct aggatacagt tctcacatca catccgaaca 540
taaacaacca tgggtaagga aaagactcac gtttcgaggc cgcgattaaa ttccaacatg 600
gatgctgatt tatatgggta taaatgggct cgcgataatg tcgggcaatc aggtgcgaca 660
atctatcgat tgtatgggaa gcccgatgcg ccagagttgt ttctgaaaca tggcaaaggt 720
agcgttgcca atgatgttac agatgagatg gtcagactaa actggctgac ggaatttatg 780
cctcttccga ccatcaagca ttttatccgt actcctgatg atgcatggtt actcaccact 840
gcgatccccg gcaaaacagc attccaggta ttagaagaat atcctgattc aggtgaaaat 900
attgttgatg cgctggcagt gttcctgcgc cggttgcatt cgattcctgt ttgtaattgt 960
ccttttaaca gcgatcgcgt atttcgtctc gctcaggcgc aatcacgaat gaataacggt 1020
ttggttgatg cgagtgattt tgatgacgag cgtaatggct ggcctgttga acaagtctgg 1080
aaagaaatgc ataagctttt gccattctca ccggattcag tcgtcactca tggtgatttc 1140
tcacttgata accttatttt tgacgagggg aaattaatag gttgtattga tgttggacga 1200
gtcggaatcg cagaccgata ccaggatctt gccatcctat ggaactgcct cggtgagttt 1260
tctccttcat tacagaaacg gctttttcaa aaatatggta ttgataatcc tgatatgaat 1320
aaattgcagt ttcatttgat gctcgatgag tttttctaat cagtactgac aataaaaaga 1380
ttcttgtttt caagaacttg tcatttgtat agttttttta tattgtagtt gttctatttt 1440
aatcaaatgt tagcgtgatt tatatttttt ttcgcctcga catcatctgc ccagatgcga 1500
agttaagtgc gcagaaagta atatcatgcg tcaatcgtat gtgaatgctg gtcgctatac 1560
tgctgtcgat tcgatactaa cgccgccatc cagtgtcgaa aacgagctcg aattctttga 1620
aaagataatg tatgattatg ctttcactca tatttataca gaaacttgat gttttctttc 1680
gagtatatac aaggtgatta catgtacgtt tgaagtacaa ctctagattt tgtagtgccc 1740
tcttgggcta gcggtaaagg tgcgcatttt ttcacaccct acaatgttct gttcaaaaga 1800
ttttggtcaa acgctgtaga agtgaaagtt ggtgcgcatg tttcggcgtt cgaaacttct 1860
ccgcagtgaa agataaatga ttctaactct gcctggacgg cgttttagag ctagaa 1916
<210> 18
<211> 2127
<212> DNA
<213> artificial sequence
<220>
<223> extended Brick 4
<400> 18
cgcagtgaaa gataaatgat tctaactctg cctggacggc gttttagagc tagaaatagc 60
aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt ggcaccgagt cggtggtgct 120
ttttttgttt tttatgtctt cgagtcatgt aattagttat gtctgcgagc ggtatcagct 180
cactcaaagg cggtaatacg gttatccaca gaatcagggg ataacgcagg aaagaacatg 240
tgagcaaaag gccagcaaaa ggccaggaac cgtaaaaagg ccgcgttgct ggcgtttttc 300
cataggctcc gcccccctga cgagcatcac aaaaatcgac gctcaagtca gaggtggcga 360
aacccgacag gactataaag ataccaggcg tttccccctg gaagctccct cgtgcgctct 420
cctgttccga ccctgccgct taccggatac ctgtccgcct ttctcccttc gggaagcgtg 480
gcgctttctc atagctcacg ctgtaggtat ctcagttcgg tgtaggtcgt tcgctccaag 540
ctgggctgtg tgcacgaacc ccccgttcag cccgaccgct gcgccttatc cggtaactat 600
cgtcttgagt ccaacccggt aagacacgac ttatcgccac tggcagcagc cactggtaac 660
aggattagca gagcgaggta tgtaggcggt gctacagagt tcttgaagtg gtgggctaac 720
tacggctaca ctagaagaac agtatttggt atctgcgctc tgctgaagcc agttaccttc 780
ggaaaaagag ttggtagctc ttgatccggc aaacaaacca ccgctggtag cggtggtttt 840
tttgtttgca agcagcagat tacgcgcaga aaaaaaggat ctcaagaaga tcctttgatc 900
ttttctacgg ggtctgacgc tcagtggaac gacgcgcgcg taactcacgt taagggattt 960
tggtcatgag cttgcgccgt cccgtcaagt cagcgtaatg ctctgctttt agaaaaactc 1020
atcgagcatc aaatgaaact gcaatttatt catatcagga ttatcaatac catatttttg 1080
aaaaagccgt ttctgtaatg aaggagaaaa ctcaccgagg cagttccata ggatggcaag 1140
atcctggtat cggtctgcga ttccgactcg tccaacatca atacaaccta ttaatttccc 1200
ctcgtcaaaa ataaggttat caagtgagaa atcaccatga gtgacgactg aatccggtga 1260
gaatggcaaa agtttatgca tttctttcca gacttgttca acaggccagc cattacgctc 1320
gtcatcaaaa tcactcgcat caaccaaacc gttattcatt cgtgattgcg cctgagcgag 1380
gcgaaatacg cgatcgctgt taaaaggaca attacaaaca ggaatcgagt gcaaccggcg 1440
caggaacact gccagcgcat caacaatatt ttcacctgaa tcaggatatt cttctaatac 1500
ctggaacgct gtttttccgg ggatcgcagt ggtgagtaac catgcatcat caggagtacg 1560
gataaaatgc ttgatggtcg gaagtggcat aaattccgtc agccagttta gtctgaccat 1620
ctcatctgta acatcattgg caacgctacc tttgccatgt ttcagaaaca actctggcgc 1680
atcgggcttc ccatacaagc gatagattgt cgcacctgat tgcccgacat tatcgcgagc 1740
ccatttatac ccatataaat cagcatccat gttggaattt aatcgcggcc tcgacgtttc 1800
ccgttgaata tggctgaatt ctttgaaaag ataatgtatg attatgcttt cactcatatt 1860
tatacagaaa cttgatgttt tctttcgagt atatacaagg tgattacatg tacgtttgaa 1920
gtacaactct agattttgta gtgccctctt gggctagcgg taaaggtgcg cattttttca 1980
caccctacaa tgttctgttc aaaagatttt ggtcaaacgc tgtagaagtg aaagttggtg 2040
cgcatgtttc ggcgttcgaa acttctccgc agtgaaagat aaatgatgtt gtagtcagcg 2100
cctctctgtt ttagagctag aaatagc 2127
<210> 19
<211> 382
<212> DNA
<213> artificial sequence
<220>
<223> donor DNA used in the CRISPR-CAS9-mediated deletion of genes
HXT5-HXT1-HXT4 in S. cerevisiae strain BIE272
<400> 19
tagtcgaacg gttctccctc taagaataag aaactatcaa aagaaagaga aaagtcgatt 60
gaataatttt tctatatata atatacgcaa acaagattcg ctttcacttt gcaattttac 120
ttcatagctt tgttaaaacc agcaaaaaat attatttttc tagaaaaaag aatatattag 180
aggtaaagaa agatcagtta attaaataat atagacttcc ttcaaggaat aaaaataata 240
tttgatcttc aatttttaac gctttatgaa atatatattt atgatttaat agtttataga 300
taatacttta tcaaactaca attttgaatt atgttttttg tttcatagtt ctggaagagg 360
ttaggaatag gccgaattct cc 382
<210> 20
<211> 468
<212> DNA
<213> artificial sequence
<220>
<223> donor DNA used in the CRISPR-CAS9-mediated deletion of gene HXT2
in S. cerevisiae strain BIE272
<400> 20
cggtacgccg cctaacgata gtaataggcc acgcaactgg cgtggacgac aacaataagt 60
cgcccatttt ttatgttttc aaaacctagc aacccccacc aaacttgtca tcgttcccgg 120
attcacaaat gatataaaaa gcgattacaa ttctacattc taaccagatt tgagatttcc 180
tctttctcaa ttcctcttat attagattat aagaacaaca aattaaatta caaaaagact 240
tataaagcaa catagagatt atacttaaac tagcactgat ttttttaagg ctaatggcta 300
ctaatacttt aatagatgat cttcatactt ttttatttaa cgatttttaa tgatgttttt 360
atttgtacca ctcatttatc tagatttttt taatactgat caaatcttac ggactcgacg 420
ttaaaaagtt cctacatacg tctggtactt gaaacgctgc ttcgaggt 468
<210> 21
<211> 422
<212> DNA
<213> artificial sequence
<220>
<223> donor DNA used in the CRISPR-CAS9-mediated deletion of genes
HXT3-HXT6-HXT7 in S. cerevisiae strain BIE272
<400> 21
gactatatcc ccagagaatt tctccagaag agaagaaaag tcaaagtttt ttttcgcttg 60
ggggttgcat ataaatacag gcgctgtttt atcttcagca tgaatattcc ataattttac 120
ttaatagctt ttcataaata atagaatcac aaacaaaatt tacatctgag ttaaacaatc 180
tttgcgaaca cttttattaa ttcatgatca cgctctaatt tgtgcatttg aaatgtactc 240
taattctaat tttatatttt taatgatatc ttgaaaagta aatacgtttt taatatatac 300
aaaataatac agtttaattt tcaagttttt gatcatttgt tctcagaaag ttgagtggga 360
cggagacaaa gaaactttaa agagaaatgc aaagtgggaa gaagtcagtt gtttaccgac 420
cg 422
<210> 22
<211> 414
<212> DNA
<213> artificial sequence
<220>
<223> donor DNA used in the CRISPR-CAS9-mediated deletion of gene GAL2
in S. cerevisiae strain BIE272
<400> 22
tggagatagg attagttttg tagacatata taaacaatca gtaattggat tgaaaatttg 60
gtgttgtgaa ttgctcttca ttatgcacct tattcaatta tcatcaagaa tagcaatagt 120
taagtaaaca caagattaac ataataaaaa aaataattct ttcataatgg cagttgagga 180
gaacaatatg cctgttgttt cacagcaacc ccaagctggt gaagacgtga cctatcgtta 240
gaagaaattc aagaattatg ggaagaaggt gttttacctt ggaaatctga aggctggatt 300
ccttcatcca gaagaggtaa taattacgat ttagaggatt tacaacatga cgacaaaccg 360
tggtacaagg ccatgctaga ataatgcgtt tgaagtgaga cgctccatca tctc 414
<210> 23
<211> 11742
<212> DNA
<213> artificial sequence
<220>
<223> CAS9 expression vector pCSN061
<400> 23
tcgcgcgttt cggtgatgac ggtgaaaacc tctgacacat gcagctcccg gagacggtca 60
cagcttgtct gtaagcggat gccgggagca gacaagcccg tcagggcgcg tcagcgggtg 120
ttggcgggtg tcggggctgg cttaactatg cggcatcaga gcagattgta ctgagagtgc 180
accataaacg acattactat atatataata taggaagcat ttaatagaca gcatcgtaat 240
atatgtgtac tttgcagtta tgacgccaga tggcagtagt ggaagatatt ctttattgaa 300
aaatagcttg tcaccttacg tacaatcttg atccggagct tttctttttt tgccgattaa 360
gaattaattc ggtcgaaaaa agaaaaggag agggccaaga gggagggcat tggtgactat 420
tgagcacgtg agtatacgtg attaagcaca caaaggcagc ttggagtatg tctgttatta 480
atttcacagg tagttctggt ccattggtga aagtttgcgg cttgcagagc acagaggccg 540
cagaatgtgc tctagattcc gatgctgact tgctgggtat tatatgtgtg cccaatagaa 600
agagaacaat tgacccggtt attgcaagga aaatttcaag tcttgtaaaa gcatataaaa 660
atagttcagg cactccgaaa tacttggttg gcgtgtttcg taatcaacct aaggaggatg 720
ttttggctct ggtcaatgat tacggcattg atatcgtcca actgcatgga gatgagtcgt 780
ggcaagaata ccaagagttc ctcggtttgc cagttattaa aagactcgta tttccaaaag 840
actgcaacat actactcagt gcagcttcac agaaacctca ttcgtttatt cccttgtttg 900
attcagaagc aggtgggaca ggtgaacttt tggattggaa ctcgatttct gactgggttg 960
gaaggcaaga gagccccgaa agcttacatt ttatgttagc tggtggactg acgccagaaa 1020
atgttggtga tgcgcttaga ttaaatggcg ttattggtgt tgatgtaagc ggaggtgtgg 1080
agacaaatgg tgtaaaagac tctaacaaaa tagcaaattt cgtcaaaaat gctaagaaat 1140
aggttattac tgagtagtat ttatttaagt attgtttgtg cacttgccta tgcggtgtga 1200
aataccgcac agatgcgtaa ggagaaaata ccgcatcagg aaattgtaaa cgttaatatt 1260
ttgttaaaat tcgcgttaaa tttttgttaa atcagctcat tttttaacca ataggccgaa 1320
atcggcaaaa tcccttataa atcaaaagaa tagaccgaga tagggttgag tgttgttcca 1380
gtttggaaca agagtccact attaaagaac gtggactcca acgtcaaagg gcgaaaaacc 1440
gtctatcagg gcgatggccc actacgtgaa ccatcaccct aatcaagttt tttggggtcg 1500
aggtgccgta aagcactaaa tcggaaccct aaagggagcc cccgatttag agcttgacgg 1560
ggaaagccgg cgaacgtggc gagaaaggaa gggaagaaag cgaaaggagc gggcgctagg 1620
gcgctggcaa gtgtagcggt cacgctgcgc gtaaccacca cacccgccgc gcttaatgcg 1680
ccgctacagg gcgcgtcgcg ccattcgcca ttcaggctgc gcaactgttg ggaagggcga 1740
tcggtgcggg cctcttcgct attacgccag ctggcgaaag ggggatgtgc tgcaaggcga 1800
ttaagttggg taacgccagg gttttcccag tcacgacgtt gtaaaacgac ggccagtgag 1860
cgcgcgtaat acgactcact atagggcgaa ttgggtacct tttctttttt tgcggtcacc 1920
cccatgtggc ggggaggcag aggagtaggt agagcaacga atcctactat ttatccaaat 1980
tagtctagga actctttttc tagatttttt agatttgagg gcaagcgctg ttaacgactc 2040
agaaatgtaa gcactacgga gtagaacgag aaatccgcca taggtggaaa tcctagcaaa 2100
atcttgctta ccctagctag cctcaggtaa gctagcctta gcctgtcaaa tttttttcaa 2160
aatttggtaa gtttctacta gcaaagcaaa cacggttcaa caaaccgaaa actccactca 2220
ttatacgtgg aaaccgaaac aaaaaaacaa aaaccaaaat actcgccaat gagaaagttg 2280
ctgcgtttct actttcgagg aagaggaact gagaggattg actacgaaag gggcaaaaac 2340
gagtcgtatt ctcccattat tgtctgctac cacgcggtct agtagaataa gcaaccagtc 2400
aacgctaaga caggtaatca aaataccagt ctgctggcta cgggctagtt tttacctctt 2460
ttagaaccca ctgtaaaagt ccgttgtaaa gcccgttctc actgttggcg tttttttttt 2520
tttggtttag tttcttattt ttcatttttt tctttcatga ccaaaaacaa acaaatctcg 2580
cgatttgtac tgcggccact ggggcgtggc caaaaaaatg acaaatttag aaaccttagt 2640
ttctgatttt tcctgttatg aggagatatg ataaaaaata ttactgcttt attgtttttt 2700
ttttatctac tgaaatagag aaacttaccc aaggaggagg caaaaaaaag agtatatata 2760
cagcagctac cattcagatt ttaatatatt cttttctctt cttctacact attattataa 2820
taattttact atattcattt ttagcttaaa acctcataga atattattct tcagtcactc 2880
gcttaaatac ttatcaaaaa tggacaagaa atactctatt ggtttggata tcgggaccaa 2940
ctccgtcggt tgggctgtca tcaccgacga atacaaggtt ccatccaaga aattcaaggt 3000
cttgggtaac actgacagac actctatcaa gaagaatttg atcggtgctt tgttgttcga 3060
ctccggtgaa accgctgaag ctaccagatt gaagcgtacc gctcgtcgta gatacactag 3120
acgtaaaaac cgtatttgtt acttgcaaga aatcttttct aacgaaatgg ccaaggttga 3180
cgactctttc ttccacagat tggaagaatc tttcttggtt gaagaagaca agaagcacga 3240
aagacatcca atcttcggta acatcgttga cgaagttgct taccacgaaa aataccctac 3300
catctaccat ttgagaaaga agttggtcga ttccaccgac aaggctgatt tgagattgat 3360
ctatttggcc ttggctcaca tgatcaagtt cagaggtcac ttcttgattg aaggtgactt 3420
gaacccagac aactctgacg tcgacaaatt gttcatccaa ttggtccaaa cctacaacca 3480
attattcgag gaaaacccaa ttaacgcttc tggtgttgat gctaaggcca tcttatctgc 3540
ccgtttgtcc aagtctagac gtttggaaaa cttgattgct caattgcctg gtgaaaagaa 3600
aaacggtttg ttcggtaact tgatcgcttt gtccttgggt ttgaccccaa acttcaagtc 3660
caacttcgac ttggctgaag atgccaagtt gcaattgtcc aaggacacct acgacgacga 3720
cttagacaac ttgttggctc aaatcggtga ccaatacgcc gacttgttct tggctgccaa 3780
aaacttatct gacgctatct tgttgtctga catcttgaga gttaacactg aaattaccaa 3840
ggctccattg tctgcttcta tgatcaaaag atacgacgaa caccaccaag atctgacttt 3900
gttgaaggct ttggttagac aacaattgcc agaaaagtac aaggaaatct tcttcgacca 3960
atccaaaaat ggttacgccg gttacattga cggtggtgct tctcaggaag aattctacaa 4020
gttcatcaag ccaattttgg aaaagatgga tggtactgaa gaattattgg ttaagttgaa 4080
cagagaagac ttattgagaa agcaacgtac cttcgataac ggttctatcc cacaccaaat 4140
ccacttgggt gaattgcacg ccattttgag aagacaggaa gatttctatc cattcctaaa 4200
ggacaacaga gaaaagatcg aaaagatctt aactttcaga atcccatact acgtcggtcc 4260
attggccaga ggtaattcta gattcgcttg gatgaccaga aagtctgaag aaaccatcac 4320
cccatggaac ttcgaagaag tcgtcgacaa gggtgcttct gcccaatctt tcatcgaaag 4380
aatgaccaac tttgataaga acttgccaaa cgagaaggtc ttgccaaagc actctttgtt 4440
gtacgaatac ttcaccgtct acaacgaatt aaccaaggtt aaatacgtta ctgaaggtat 4500
gagaaagcca gctttcctat ccggtgaaca aaagaaggct attgttgact tgttgtttaa 4560
gaccaacaga aaggtcactg ttaagcaatt gaaggaagac tacttcaaga agattgaatg 4620
tttcgattcc gtcgaaatct ccggtgttga agaccgtttc aatgcttctt tgggcaccta 4680
ccacgatttg ttaaagatca tcaaggacaa ggacttttta gataacgaag aaaacgaaga 4740
catcttggaa gatatcgttt tgaccttgac tcttttcgag gacagagaaa tgattgaaga 4800
gagattgaag acctacgctc acttgttcga cgataaagtt atgaagcaac taaagagaag 4860
aagatacact ggttggggta gattgtccag aaagttgatt aacggtatca gagacaagca 4920
atccggtaag actattttag actttttgaa atccgatggt ttcgctaaca gaaactttat 4980
gcaattgatt cacgacgatt ctttgacttt caaggaagac attcaaaaag cccaagtctc 5040
tggtcaaggt gattctttgc acgaacacat cgctaacttg gctggttctc cagctattaa 5100
gaagggtatc ttacaaaccg tcaaggtcgt tgatgaattg gtcaaagtca tgggtagaca 5160
caagccagaa aatattgtca tcgaaatggc tagagaaaac caaactactc aaaagggtca 5220
aaagaactct agagaacgta tgaagagaat tgaagaaggt atcaaggagt tgggttctca 5280
aattttgaaa gaacacccag tcgaaaacac tcaattacaa aacgaaaagc tatacttgta 5340
ctacttgcaa aacggtcgtg acatgtacgt cgaccaagaa ttggatatca acagattgtc 5400
tgactacgat gtcgatcata tcgtcccaca atcgttcttg aaggacgatt ccattgacaa 5460
caaagttttg actagatctg acaagaacag aggtaagtct gataacgttc catctgaaga 5520
agttgttaag aagatgaaga actactggag acaattgttg aatgctaagt tgatcactca 5580
aagaaagttc gacaacttga ccaaggctga aagaggtggt ttgtccgaat tggacaaagc 5640
cggtttcatc aagagacaat tagtcgaaac tagacaaatc accaagcatg ttgctcaaat 5700
cttggattcc agaatgaaca ctaagtacga tgaaaacgac aaactaatta gagaagttaa 5760
ggtcatcact ttgaagtcta agttggtttc tgacttcaga aaggacttcc aattttacaa 5820
ggtcagagaa atcaacaact accatcacgc tcacgatgcc tacttgaacg ctgttgtcgg 5880
tactgcctta atcaaaaagt acccaaagtt ggaatctgaa ttcgtttacg gtgactacaa 5940
ggtttacgat gttagaaaga tgatcgccaa gtctgaacaa gaaattggta aggccactgc 6000
taagtacttc ttctactcta acatcatgaa ctttttcaag actgaaatca ctttagctaa 6060
cggtgaaatt agaaagcgtc cattgattga aaccaatggt gaaactggtg aaattgtctg 6120
ggacaagggt agagatttcg ctaccgtcag aaaggttttg tctatgccac aagttaacat 6180
cgtcaagaag actgaagttc aaactggtgg tttctctaag gaatccattt tgccaaagag 6240
aaactctgac aagttgattg ctagaaagaa ggactgggat cctaagaagt acggtggttt 6300
cgactctcca actgttgctt actccgtttt ggtcgttgct aaggttgaaa agggtaagtc 6360
taagaagttg aagtctgtta aggaattgtt gggtatcacc atcatggaaa gatcctcctt 6420
cgaaaagaac ccaatcgact ttttggaagc taagggttac aaggaagtca agaaggattt 6480
gatcattaag ttaccaaaat actccttgtt cgaattggaa aacggtagaa agagaatgtt 6540
ggcctccgct ggtgaactac aaaaaggtaa cgaattggct ttaccatcta agtacgttaa 6600
cttcttgtac ttggcttccc actacgaaaa gttgaaaggt tccccagaag acaacgaaca 6660
aaagcaattg tttgttgaac aacacaagca ctacttggat gaaattattg aacaaatctc 6720
cgaattctcc aagagagtca ttttggctga tgctaactta gataaggttt tatccgctta 6780
caacaagcac agagacaaac caatcagaga acaagctgaa aacatcattc atttgttcac 6840
tttaaccaac ttgggtgctc cagctgcttt caaatacttc gacactacca ttgacagaaa 6900
gagatacact tccaccaaag aagttttaga tgctactttg attcaccaat ctattaccgg 6960
tttgtacgaa accagaattg acttgtctca attgggtggt gattccagag ctgatccaaa 7020
gaagaagaga aaggtgtaaa ggagttaaag gcaaagtttt cttttctaga gccgttccca 7080
caaataatta tacgtatatg cttcttttcg tttactatat atctatattt acaagccttt 7140
attcactgat gcaatttgtt tccaaatact tttttggaga tctcataact agatatcatg 7200
atggcgcaac ttggcgctat cttaattact ctggctgcca ggcccgtgta gagggccgca 7260
agaccttctg tacgccatat agtctctaag aacttgaaca agtttctaga cctattgccg 7320
cctttcggat cgctattgtt gcggccgcca gctgaagctt cgtacgctgc aggtcgacga 7380
attctaccgt tcgtataatg tatgctatac gaagttatag atctgtttag cttgcctcgt 7440
ccccgccggg tcacccggcc agcgacatgg aggcccagaa taccctcctt gacagtcttg 7500
acgtgcgcag ctcaggggca tgatgtgact gtcgcccgta catttagccc atacatcccc 7560
atgtataatc atttgcatcc atacattttg atggccgcac ggcgcgaagc aaaaattacg 7620
gctcctcgct gcagacctgc gagcagggaa acgctcccct cacagacgcg ttgaattgtc 7680
cccacgccgc gcccctgtag agaaatataa aaggttagga tttgccactg aggttcttct 7740
ttcatatact tccttttaaa atcttgctag gatacagttc tcacatcaca tccgaacata 7800
aacaaccatg ggtaaggaaa agactcacgt ttcgaggccg cgattaaatt ccaacatgga 7860
tgctgattta tatgggtata aatgggctcg cgataatgtc gggcaatcag gtgcgacaat 7920
ctatcgattg tatgggaagc ccgatgcgcc agagttgttt ctgaaacatg gcaaaggtag 7980
cgttgccaat gatgttacag atgagatggt cagactaaac tggctgacgg aatttatgcc 8040
tcttccgacc atcaagcatt ttatccgtac tcctgatgat gcatggttac tcaccactgc 8100
gatccccggc aaaacagcat tccaggtatt agaagaatat cctgattcag gtgaaaatat 8160
tgttgatgcg ctggcagtgt tcctgcgccg gttgcattcg attcctgttt gtaattgtcc 8220
ttttaacagc gatcgcgtat ttcgtctcgc tcaggcgcaa tcacgaatga ataacggttt 8280
ggttgatgcg agtgattttg atgacgagcg taatggctgg cctgttgaac aagtctggaa 8340
agaaatgcat aagcttttgc cattctcacc ggattcagtc gtcactcatg gtgatttctc 8400
acttgataac cttatttttg acgaggggaa attaataggt tgtattgatg ttggacgagt 8460
cggaatcgca gaccgatacc aggatcttgc catcctatgg aactgcctcg gtgagttttc 8520
tccttcatta cagaaacggc tttttcaaaa atatggtatt gataatcctg atatgaataa 8580
attgcagttt catttgatgc tcgatgagtt tttctaatca gtactgacaa taaaaagatt 8640
cttgttttca agaacttgtc atttgtatag tttttttata ttgtagttgt tctattttaa 8700
tcaaatgtta gcgtgattta tatttttttt cgcctcgaca tcatctgccc agatgcgaag 8760
ttaagtgcgc agaaagtaat atcatgcgtc aatcgtatgt gaatgctggt cgctatactg 8820
ctgtcgattc gatactaacg ccgccatcca gtgtcgaaaa cgagctcata acttcgtata 8880
atgtatgcta tacgaacggt agaattcgaa tcagatccac tagtggccta tgcggccgcc 8940
accgcggtgg agctccagct tttgttccct ttagtgaggg ttaattgcgc gcttggcgta 9000
atcatggtca tagctgtttc ctgtgtgaaa ttgttatccg ctcacaattc cacacaacat 9060
aggagccgga agcataaagt gtaaagcctg gggtgcctaa tgagtgaggt aactcacatt 9120
aattgcgttg cgctcactgc ccgctttcca gtcgggaaac ctgtcgtgcc agctgcatta 9180
atgaatcggc caacgcgcgg ggagaggcgg tttgcgtatt gggcgctctt ccgcttcctc 9240
gctcactgac tcgctgcgct cggtcgttcg gctgcggcga gcggtatcag ctcactcaaa 9300
ggcggtaata cggttatcca cagaatcagg ggataacgca ggaaagaaca tgtgagcaaa 9360
aggccagcaa aaggccagga accgtaaaaa ggccgcgttg ctggcgtttt tccataggct 9420
ccgcccccct gacgagcatc acaaaaatcg acgctcaagt cagaggtggc gaaacccgac 9480
aggactataa agataccagg cgtttccccc tggaagctcc ctcgtgcgct ctcctgttcc 9540
gaccctgccg cttaccggat acctgtccgc ctttctccct tcgggaagcg tggcgctttc 9600
tcatagctca cgctgtaggt atctcagttc ggtgtaggtc gttcgctcca agctgggctg 9660
tgtgcacgaa ccccccgttc agcccgaccg ctgcgcctta tccggtaact atcgtcttga 9720
gtccaacccg gtaagacacg acttatcgcc actggcagca gccactggta acaggattag 9780
cagagcgagg tatgtaggcg gtgctacaga gttcttgaag tggtggccta actacggcta 9840
cactagaagg acagtatttg gtatctgcgc tctgctgaag ccagttacct tcggaaaaag 9900
agttggtagc tcttgatccg gcaaacaaac caccgctggt agcggtggtt tttttgtttg 9960
caagcagcag attacgcgca gaaaaaaagg atctcaagaa gatcctttga tcttttctac 10020
ggggtctgac gctcagtgga acgaaaactc acgttaaggg attttggtca tgagattatc 10080
aaaaaggatc ttcacctaga tccttttaaa ttaaaaatga agttttaaat caatctaaag 10140
tatatatgag taaacttggt ctgacagtta ccaatgctta atcagtgagg cacctatctc 10200
agcgatctgt ctatttcgtt catccatagt tgcctgactc cccgtcgtgt agataactac 10260
gatacgggag ggcttaccat ctggccccag tgctgcaatg ataccgcgag acccacgctc 10320
accggctcca gatttatcag caataaacca gccagccgga agggccgagc gcagaagtgg 10380
tcctgcaact ttatccgcct ccatccagtc tattaattgt tgccgggaag ctagagtaag 10440
tagttcgcca gttaatagtt tgcgcaacgt tgttgccatt gctacaggca tcgtggtgtc 10500
acgctcgtcg tttggtatgg cttcattcag ctccggttcc caacgatcaa ggcgagttac 10560
atgatccccc atgttgtgca aaaaagcggt tagctccttc ggtcctccga tcgttgtcag 10620
aagtaagttg gccgcagtgt tatcactcat ggttatggca gcactgcata attctcttac 10680
tgtcatgcca tccgtaagat gcttttctgt gactggtgag tactcaacca agtcattctg 10740
agaatagtgt atgcggcgac cgagttgctc ttgcccggcg tcaatacggg ataataccgc 10800
gccacatagc agaactttaa aagtgctcat cattggaaaa cgttcttcgg ggcgaaaact 10860
ctcaaggatc ttaccgctgt tgagatccag ttcgatgtaa cccactcgtg cacccaactg 10920
atcttcagca tcttttactt tcaccagcgt ttctgggtga gcaaaaacag gaaggcaaaa 10980
tgccgcaaaa aagggaataa gggcgacacg gaaatgttga atactcatac tcttcctttt 11040
tcaatattat tgaagcattt atcagggtta ttgtctcatg agcggataca tatttgaatg 11100
tatttagaaa aataaacaaa taggggttcc gcgcacattt ccccgaaaag tgccacctgg 11160
gtccttttca tcacgtgcta taaaaataat tataatttaa attttttaat ataaatatat 11220
aaattaaaaa tagaaagtaa aaaaagaaat taaagaaaaa atagtttttg ttttccgaag 11280
atgtaaaaga ctctaggggg atcgccaaca aatactacct tttatcttgc tcttcctgct 11340
ctcaggtatt aatgccgaat tgtttcatct tgtctgtgta gaagaccaca cacgaaaatc 11400
ctgtgatttt acattttact tatcgttaat cgaatgtata tctatttaat ctgcttttct 11460
tgtctaataa atatatatgt aaagtacgct ttttgttgaa attttttaaa cctttgttta 11520
tttttttttc ttcattccgt aactcttcta ccttctttat ttactttcta aaatccaaat 11580
acaaaacata aaaataaata aacacagagt aaattcccaa attattccat cattaaaaga 11640
tacgaggcgc gtgtaagtta caggcaagcg atccgtccta agaaaccatt attatcatga 11700
cattaaccta taaaaatagg cgtatcacga ggccctttcg tc 11742
<210> 24
<211> 1609
<212> DNA
<213> artificial sequence
<220>
<223> Brick 3b (natMX-fragment)
<400> 24
gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60
ggcaccgagt cggtggtgct ttttttgttt tttatgtctt cgagtcatgt aattagttat 120
gtctgagatc tgtttagctt gcctcgtccc cgccgggtca cccggccagc gacatggagg 180
cccagaatac cctccttgac agtcttgacg tgcgcagctc aggggcatga tgtgactgtc 240
gcccgtacat ttagcccata catccccatg tataatcatt tgcatccata cattttgatg 300
gccgcacggc gcgaagcaaa aattacggct cctcgctgca gacctgcgag cagggaaacg 360
ctcccctcac agacgcgttg aattgtcccc acgccgcgcc cctgtagaga aatataaaag 420
gttaggattt gccactgagg ttcttctttc atatacttcc ttttaaaatc ttgctaggat 480
acagttctca catcacatcc gaacataaac aaccatgggt accactcttg acgacacggc 540
ttaccggtac cgcaccagtg tcccggggga cgccgaggcc atcgaggcac tggatgggtc 600
cttcaccacc gacaccgtct tccgcgtcac cgccaccggg gacggcttca ccctgcggga 660
ggtgccggtg gacccgcccc tgaccaaggt gttccccgac gacgaatcgg acgacgaatc 720
ggacgacggg gaggacggcg acccggactc ccggacgttc gtcgcgtacg gggacgacgg 780
cgacctggcg ggcttcgtgg tcgtctcgta ctccggctgg aaccgccggc tgaccgtcga 840
ggacatcgag gtcgccccgg agcaccgggg gcacggggtc gggcgcgcgt tgatggggct 900
cgcgacggag ttcgcccgcg agcggggcgc cgggcacctc tggctggagg tcaccaacgt 960
caacgcaccg gcgatccacg cgtaccggcg gatggggttc accctctgcg gcctggacac 1020
cgccctgtac gacggcaccg cctcggacgg cgagcaggcg ctctacatga gcatgccctg 1080
cccctaatca gtactgacaa taaaaagatt cttgttttca agaacttgtc atttgtatag 1140
tttttttata ttgtagttgt tctattttaa tcaaatgtta gcgtgattta tatttttttt 1200
cgcctcgaca tcatctgccc agatgcgaag ttaagtgcgc agaaagtaat atcatgcgtc 1260
aatcgtatgt gaatgctggt cgctatactg ctgtcgattc gatactaacg ccgccatcca 1320
gtgtcgaaaa cgagctcgaa ttctttgaaa agataatgta tgattatgct ttcactcata 1380
tttatacaga aacttgatgt tttctttcga gtatatacaa ggtgattaca tgtacgtttg 1440
aagtacaact ctagattttg tagtgccctc ttgggctagc ggtaaaggtg cgcatttttt 1500
cacaccctac aatgttctgt tcaaaagatt ttggtcaaac gctgtagaag tgaaagttgg 1560
tgcgcatgtt tcggcgttcg aaacttctcc gcagtgaaag ataaatgat 1609
<210> 25
<211> 61
<212> DNA
<213> artificial sequence
<220>
<223> forward primer g1-INT59-f
<400> 25
tgaaagataa atgatcagaa aactcttagc ttttccgttt tagagctaga aatagcaagt 60
t 61
<210> 26
<211> 61
<212> DNA
<213> artificial sequence
<220>
<223> forward primer g2-YPRc-f
<400> 26
tgaaagataa atgatccaat atggtatgcc gagtctgttt tagagctaga aatagcaagt 60
t 61
<210> 27
<211> 61
<212> DNA
<213> artificial sequence
<220>
<223> forward primer g3-INT1-f
<400> 27
tgaaagataa atgatctatt agaaccaggg aggtccgttt tagagctaga aatagcaagt 60
t 61
<210> 28
<211> 50
<212> DNA
<213> artificial sequence
<220>
<223> forward primer Brick4_to3-f
<400> 28
gccatccagt gtcgaaaacg agctcgcgag cggtatcagc tcactcaaag 50
<210> 29
<211> 61
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer g1-INT59-r
<400> 29
ttctagctct aaaacggaaa agctaagagt tttctgatca tttatctttc actgcggaga 60
a 61
<210> 30
<211> 61
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer g2-YPRc-r
<400> 30
ttctagctct aaaacagact cggcatacca tattggatca tttatctttc actgcggaga 60
a 61
<210> 31
<211> 61
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer g3-INT1-r
<400> 31
ttctagctct aaaacggacc tccctggttc taatagatca tttatctttc actgcggaga 60
a 61
<210> 32
<211> 50
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer Brick 3_to4-r
<400> 32
ctttgagtga gctgataccg ctcgcgagct cgttttcgac actggatggc 50
<210> 33
<211> 1945
<212> DNA
<213> artificial sequence
<220>
<223> extended Brick 1 (Example 4)
<400> 33
tgaaagataa atgatagaaa actcttagct tttccgtttt agagctagaa atagcaagtt 60
aaaataaggc tagtccgtta tcaacttgaa aaagtggcac cgagtcggtg gtgctttttt 120
tgttttttat gtcttcgagt catgtaatta gttatgtcgt ggcatgctag ctccggatta 180
tcgatgataa gctgtcaaac atgagaatta attccacgga ctatagacta tacctagtat 240
actccgtcta ctgtacgata cacttccgct caggtccttg tcctttaacg aggccttacc 300
actcttttgt tactctattg atccagctca gcaaaggcag tgtgatctaa gattctatct 360
tcgcgatgta gtaaaactag ctagaccgag aaagagacta gaaatgcaaa aggcacttct 420
acaatggctg ccatcattat tatccgatgt gacgctgcag cttctcaatg atattcgaat 480
acgctttgag gagatacagc ctaatatccg acaaactgtt ttacagattt acgatcgtac 540
ttgttaccca tcattgaatt ttgaacatcc gaacctggga gttttccctg aaacagatag 600
tatatttgaa cctgtataat aatatatagt ctagcgcttt acggaagaca atgtatgtat 660
ttcggttcct ggagaaacta ttgcatctat tgcataggta atcttgcacg tcgcatcccc 720
ggttcatttt ctgcgtttcc atcttgcact tcaatagcat atctttgtta acgaagcatc 780
tgtgcttcat tttgtagaac aaaaatgcaa cgcgagagcg ctaatttttc aaacaaagaa 840
tctgagctgc atttttacag aacagaaatg caacgcgaaa gcgctatttt accaacgaag 900
aatctgtgct tcatttttgt aaaacaaaaa tgcaacgcga gagcgctaat ttttcaaaca 960
aagaatctga gctgcatttt tacagaacag aaatgcaacg cgagagcgct attttaccaa 1020
caaagaatct atacttcttt tttgttctac aaaaatgcat cccgagagcg ctatttttct 1080
aacaaagcat cttagattac tttttttctc ctttgtgcgc tctataatgc agtctcttga 1140
taactttttg cactgtaggt ccgttaaggt tagaagaagg ctactttggt gtctattttc 1200
tcttccataa aaaaagcctg actccacttc ccgcgtttac tgattactag cgaagctgcg 1260
ggtgcatttt ttcaagataa aggcatcccc gattatattc tataccgatg tggattgcgc 1320
atactttgtg aacagaaagt gatagcgttg atgattcttc attggtcaga aaattatgaa 1380
cggtttcttc tattttgtct ctatatacta cgtataggaa atgtttacat tttcgtattg 1440
ttttcgattc actctatgaa tagttcttac tacaattttt ttgtctaaag agtaatacta 1500
gagataaaca taaaaaatgt agaggtcgag tttagatgca agttcaagga gcgaaaggtg 1560
gatgggtagg ttatataggg atatagcaca gagatatata gcaaagagat acttttgagc 1620
aatgtttgtg gaaagcggct gttctttgaa aagataatgt atgattatgc tttcactcat 1680
atttatacag aaacttgatg ttttctttcg agtatataca aggtgattac atgtacgttt 1740
gaagtacaac tctagatttt gtagtgccct cttgggctag cggtaaaggt gcgcattttt 1800
tcacacccta caatgttctg ttcaaaagat tttggtcaaa cgctgtagaa gtgaaagttg 1860
gtgcgcatgt ttcggcgttc gaaacttctc cgcagtgaaa gataaatgat caatatggta 1920
tgccgagtct gttttagagc tagaa 1945
<210> 34
<211> 2195
<212> DNA
<213> artificial sequence
<220>
<223> extended Brick 2 (Example 4)
<400> 34
tgaaagataa atgatcaata tggtatgccg agtctgtttt agagctagaa atagcaagtt 60
aaaataaggc tagtccgtta tcaacttgaa aaagtggcac cgagtcggtg gtgctttttt 120
tgttttttat gtcttcgagt catgtaatta gttatgtctg gccggatcga tgtacacaac 180
cgactgcacc caaacgaaca caaatcttag cagtgcttag tcaaaaaatt agccttttaa 240
ttctgctgta acccgtacat gcccaaaata gggggcgggt tacacagaat atataacatc 300
gtaggtgtct gggtgaacag tttattcctg gcatccacta aatataatgg agcccgcttt 360
ttaagctggc atccagaaaa aaaaagaatc ccagcaccaa aatattgttt tcttcaccaa 420
ccatcagttc ataggtccat tctcttagcg caactacaga gaacaggggc acaaacaggc 480
aaaaaacggg cacaacctca atggagtgat gcaacctgcc tggagtaaat gatgacacaa 540
ggcaattgac ccacgcatgt atctatctca ttttcttaca ccttctatta ccttctgctc 600
tctctgattt ggaaaaagct gaaaaaaaag gttgaaacca gttccctgaa attattcccc 660
tacttgacta ataagtatat aaagacggta ggtattgatt gtaattctgt aaatctattt 720
cttaaacttc ttaaattcta cttttatagt tagtcttttt tttagtttta aaacaccaag 780
aacttagttt cgaataaaca cacataaaca aacaaaatga ccgcactaac agaaggagct 840
aaactattcg aaaaggagat tccttacatt acagaattag agggtgatgt cgaaggaatg 900
aaattcatta tcaagggcga gggtactggt gacgctacta ccggtacgat taaagcaaag 960
tacatctgta caacaggtga ccttcctgtt ccgtgggcta ctctggtgag cactttgtct 1020
tatggagttc aatgttttgc taaataccct tcgcacatta aagacttttt caaaagtgca 1080
atgcctgagg gctatactca ggagagaaca atatctttcg aaggagatgg tgtgtataag 1140
actagggcta tggtcacgta tgaaagagga tccatctaca atagagtaac tttaactggt 1200
gaaaacttca aaaaggacgg tcacatcctt agaaagaatg ttgcctttca atgcccacca 1260
tccatcttgt acattttgcc agacacagtt aacaatggta tcagagttga gtttaaccaa 1320
gcttatgaca tagagggtgt caccgaaaag ttggttacaa aatgttcaca gatgaatcgt 1380
cccctggcag gatcagctgc cgtccatatc ccacgttacc atcatatcac ttatcatacc 1440
aagctgtcca aagatcgtga tgagagaagg gatcacatgt gtttggttga agtggtaaag 1500
gccgtggatt tggatactta ccaaggttga taaagcgaat ttcttatgat ttatgatttt 1560
tattattaaa taagttataa aaaaaataag tgtatacaaa ttttaaagtg actcttaggt 1620
tttaaaacga aaattcttat tcttgagtaa ctctttcctg taggtcaggt tgctttctca 1680
ggtatagcat gaggtcgctc ttattgacca cacctctacc ggcatgccga gcaaatgcct 1740
gcaaatcgct ccccatttca cccaattgta gatatgctaa ctccagcaat gagttgatga 1800
atctcggtgt gtattttatg tcctcagagg acaacctcag aaagcctgta tgcgaagcca 1860
caatcctttc caacagacca tactaagtga attctttgaa aagataatgt atgattatgc 1920
tttcactcat atttatacag aaacttgatg ttttctttcg agtatataca aggtgattac 1980
atgtacgttt gaagtacaac tctagatttt gtagtgccct cttgggctag cggtaaaggt 2040
gcgcattttt tcacacccta caatgttctg ttcaaaagat tttggtcaaa cgctgtagaa 2100
gtgaaagttg gtgcgcatgt ttcggcgttc gaaacttctc cgcagtgaaa gataaatgat 2160
tattagaacc agggaggtcc gttttagagc tagaa 2195
<210> 35
<211> 1397
<212> DNA
<213> artificial sequence
<220>
<223> extended Brick 3b (Example 4)
<400> 35
tgaaagataa atgattatta gaaccaggga ggtccgtttt agagctagaa atagcaagtt 60
aaaataaggc tagtccgtta tcaacttgaa aaagtggcac cgagtcggtg gtgctttttt 120
tgttttttat gtcttcgagt catgtaatta gttatgtctg agatctgttt agcttgcctc 180
gtccccgccg ggtcacccgg ccagcgacat ggaggcccag aataccctcc ttgacagtct 240
tgacgtgcgc agctcagggg catgatgtga ctgtcgcccg tacatttagc ccatacatcc 300
ccatgtataa tcatttgcat ccatacattt tgatggccgc acggcgcgaa gcaaaaatta 360
cggctcctcg ctgcagacct gcgagcaggg aaacgctccc ctcacagacg cgttgaattg 420
tccccacgcc gcgcccctgt agagaaatat aaaaggttag gatttgccac tgaggttctt 480
ctttcatata cttcctttta aaatcttgct aggatacagt tctcacatca catccgaaca 540
taaacaacca tgggtaccac tcttgacgac acggcttacc ggtaccgcac cagtgtcccg 600
ggggacgccg aggccatcga ggcactggat gggtccttca ccaccgacac cgtcttccgc 660
gtcaccgcca ccggggacgg cttcaccctg cgggaggtgc cggtggaccc gcccctgacc 720
aaggtgttcc ccgacgacga atcggacgac gaatcggacg acggggagga cggcgacccg 780
gactcccgga cgttcgtcgc gtacggggac gacggcgacc tggcgggctt cgtggtcgtc 840
tcgtactccg gctggaaccg ccggctgacc gtcgaggaca tcgaggtcgc cccggagcac 900
cgggggcacg gggtcgggcg cgcgttgatg gggctcgcga cggagttcgc ccgcgagcgg 960
ggcgccgggc acctctggct ggaggtcacc aacgtcaacg caccggcgat ccacgcgtac 1020
cggcggatgg ggttcaccct ctgcggcctg gacaccgccc tgtacgacgg caccgcctcg 1080
gacggcgagc aggcgctcta catgagcatg ccctgcccct aatcagtact gacaataaaa 1140
agattcttgt tttcaagaac ttgtcatttg tatagttttt ttatattgta gttgttctat 1200
tttaatcaaa tgttagcgtg atttatattt tttttcgcct cgacatcatc tgcccagatg 1260
cgaagttaag tgcgcagaaa gtaatatcat gcgtcaatcg tatgtgaatg ctggtcgcta 1320
tactgctgtc gattcgatac taacgccgcc atccagtgtc gaaaacgagc tcgcgagcgg 1380
tatcagctca ctcaaag 1397
<210> 36
<211> 1983
<212> DNA
<213> artificial sequence
<220>
<223> extended Brick 4 (Example 4)
<400> 36
gccatccagt gtcgaaaacg agctcgcgag cggtatcagc tcactcaaag gcggtaatac 60
ggttatccac agaatcaggg gataacgcag gaaagaacat gtgagcaaaa ggccagcaaa 120
aggccaggaa ccgtaaaaag gccgcgttgc tggcgttttt ccataggctc cgcccccctg 180
acgagcatca caaaaatcga cgctcaagtc agaggtggcg aaacccgaca ggactataaa 240
gataccaggc gtttccccct ggaagctccc tcgtgcgctc tcctgttccg accctgccgc 300
ttaccggata cctgtccgcc tttctccctt cgggaagcgt ggcgctttct catagctcac 360
gctgtaggta tctcagttcg gtgtaggtcg ttcgctccaa gctgggctgt gtgcacgaac 420
cccccgttca gcccgaccgc tgcgccttat ccggtaacta tcgtcttgag tccaacccgg 480
taagacacga cttatcgcca ctggcagcag ccactggtaa caggattagc agagcgaggt 540
atgtaggcgg tgctacagag ttcttgaagt ggtgggctaa ctacggctac actagaagaa 600
cagtatttgg tatctgcgct ctgctgaagc cagttacctt cggaaaaaga gttggtagct 660
cttgatccgg caaacaaacc accgctggta gcggtggttt ttttgtttgc aagcagcaga 720
ttacgcgcag aaaaaaagga tctcaagaag atcctttgat cttttctacg gggtctgacg 780
ctcagtggaa cgacgcgcgc gtaactcacg ttaagggatt ttggtcatga gcttgcgccg 840
tcccgtcaag tcagcgtaat gctctgcttt tagaaaaact catcgagcat caaatgaaac 900
tgcaatttat tcatatcagg attatcaata ccatattttt gaaaaagccg tttctgtaat 960
gaaggagaaa actcaccgag gcagttccat aggatggcaa gatcctggta tcggtctgcg 1020
attccgactc gtccaacatc aatacaacct attaatttcc cctcgtcaaa aataaggtta 1080
tcaagtgaga aatcaccatg agtgacgact gaatccggtg agaatggcaa aagtttatgc 1140
atttctttcc agacttgttc aacaggccag ccattacgct cgtcatcaaa atcactcgca 1200
tcaaccaaac cgttattcat tcgtgattgc gcctgagcga ggcgaaatac gcgatcgctg 1260
ttaaaaggac aattacaaac aggaatcgag tgcaaccggc gcaggaacac tgccagcgca 1320
tcaacaatat tttcacctga atcaggatat tcttctaata cctggaacgc tgtttttccg 1380
gggatcgcag tggtgagtaa ccatgcatca tcaggagtac ggataaaatg cttgatggtc 1440
ggaagtggca taaattccgt cagccagttt agtctgacca tctcatctgt aacatcattg 1500
gcaacgctac ctttgccatg tttcagaaac aactctggcg catcgggctt cccatacaag 1560
cgatagattg tcgcacctga ttgcccgaca ttatcgcgag cccatttata cccatataaa 1620
tcagcatcca tgttggaatt taatcgcggc ctcgacgttt cccgttgaat atggctgaat 1680
tctttgaaaa gataatgtat gattatgctt tcactcatat ttatacagaa acttgatgtt 1740
ttctttcgag tatatacaag gtgattacat gtacgtttga agtacaactc tagattttgt 1800
agtgccctct tgggctagcg gtaaaggtgc gcattttttc acaccctaca atgttctgtt 1860
caaaagattt tggtcaaacg ctgtagaagt gaaagttggt gcgcatgttt cggcgttcga 1920
aacttctccg cagtgaaaga taaatgatag aaaactctta gcttttccgt tttagagcta 1980
gaa 1983
<210> 37
<400> 37
000
<210> 38
<211> 2540
<212> DNA
<213> artificial sequence
<220>
<223> con5 - Low p (KlTDH2p) - crtE - ScTDH3t - conA expression
cassette
<400> 38
aagcgacttc caatcgcttt gcatatccag taccacaccc acaggcgttt gtgccgtaaa 60
aactaaaacg agcccccacc aaagaacaaa aaagaaggtg ctgggccccc actttcttcc 120
cttgcacgtg ataggaagat ggctacagaa acaagaagat ggaaatcgaa ggaaagaggg 180
agactggaag ctgtaaaaac tgaaatgaaa aaaaaaaaaa aaaaaaaaaa caagaagctg 240
aaaatggaag actgaaattt gaaaaatggt aaaaaaaaaa aagaaacacg aagctaaaaa 300
cctggattcc attttgagaa gaagcaagaa aggtaagtat ggtaacgacc gtacaggcaa 360
gcgcgaaggc aaatggaaaa gctggagtcc ggaagataat catttcatct tcttttgtta 420
gaacagaaca gtggatgtcc ctcatctcgg taacgtattg tccatgccct agaactctct 480
gtccctaaaa agaggacaaa aacccaatgg tttccccagc ttccagtgga gccaccgatc 540
ccactggaaa ccactggaca ggaagagaaa atcacggact tcctctattg aaggataatt 600
caacactttc accagatccc aaatgtcccg cccctattcc cgtgttccat cacgtaccat 660
aacttaccat ttcatcacgt tctctatggc acactggtac tgcttcgact gctttgcttc 720
atcttctcta tgggccaatg agctaatgag cacaatgtgc tgcgaaataa agggatatct 780
aatttatatt attacattat aatatgtact agtgtggtta ttggtaattg tacttaattt 840
tgatatataa agggtggatc tttttcattt tgaatcagaa ttggaattgc aacttgtctc 900
ttgtcactat tacttaatag taattatatt tcttattaac ctttttttta agtcaaaaca 960
ccaaggacaa gaactactct tcaaaggtat ttcaagttat catacgtgtc acacacgctt 1020
cacagtttca agtaaaaaaa aagaatatta cacaatggac tacgctaaca tcttgactgc 1080
cattcctttg gaattcaccc cacaagatga cattgtcttg ttggaaccat accactactt 1140
aggtaagaac ccaggtaagg aaatcagatc tcaattgatt gaagctttca actactggtt 1200
agatgtcaag aaggaagact tggaagttat ccaaaatgtt gttggtatgt tgcacaccgc 1260
ttctttgttg atggatgatg ttgaagattc ttccgtcttg agaagaggtt ctccagttgc 1320
tcatttgatc tacggtattc cacaaaccat caacactgct aactacgttt acttcttggc 1380
ttaccaagaa atcttcaaat tgcgtccaac tccaattcca atgccagtta tcccaccatc 1440
ttctgcttct ttgcaatctt ctgtctcctc cgcctcctct tcctcttctg cctcctctga 1500
aaacggtggt acctccactc caaactccca aatcccattc tccaaggaca cctacttgga 1560
caaggttatc actgacgaaa tgttgtcttt gcaccgtggt caaggtttgg aattattctg 1620
gagagactct ttgacctgtc catctgaaga agaatacgtc aagatggtct tgggtaagac 1680
cggtggtttg ttcagaattg ctgtcagatt gatgatggcc aagtctgaat gtgacattga 1740
ctttgttcaa ttggttaact tgatttccat ctacttccaa atcagagatg actacatgaa 1800
cttgcaatcc tctgaatacg ctcacaacaa gaacttcgct gaagacttga ctgaaggtaa 1860
gttctccttc ccaaccattc actccattca cgctaaccca tcttccagat tggttatcaa 1920
cactttacaa aagaagtcca cttctccaga aatcttacat cactgtgtca actacatgag 1980
aactgaaacc cactctttcg aatacactca agaagtcttg aacactttat ctggtgcttt 2040
ggaaagagaa ttgggtagat tacaaggtga atttgctgaa gctaactcca agatcgattt 2100
gggtgacgtt gaatctgaag gtagaaccgg taagaacgtc aaattggaag ccatcttgaa 2160
gaaattggct gatatccctc tataaagtga atttacttta aatcttgcat ttaaataaat 2220
tttcttttta tagctttatg acttagtttc aatttatata ctattttaat gacattttcg 2280
attcattgat tgaaagcttt gtgttttttc ttgatgcgct attgcattgt tcttgtcttt 2340
ttcgccacat gtaatatctg tagtagatac ctgatacatt gtggatgctg agtgaaattt 2400
tagttaataa tggaggcgct cttaataatt ttggggatat tggctttttt ttttaaagtt 2460
tacaaatgaa ttttttccgc caggatcctc ttgcccatcg aacgtacaag tactcctctg 2520
ttctctcctt cctttgcttt 2540
<210> 39
<211> 2540
<212> DNA
<213> artificial sequence
<220>
<223> con5 - Med p (KlPGK1p) - crtE - ScTDH3t - conA expression
cassette
<400> 39
aagcgacttc caatcgcttt gcatatccag taccacaccc acaggcgttt gtgcgttcct 60
catcactaga agccgaactg ttgtcttcag tggggattgg ttcgacattt tgccaattgc 120
tgtcgatgta ccctttcaaa gccatgtacc ttaaatcttc atccttggca agtagattca 180
tcgggtgtgt ttgaagtaag aatatttgct tgtttttatg gtatcaaagg tatatgttgt 240
agaagacaat ttccggtaat ccaattgtct gtctgctcag tttagcacat gtatagtacg 300
ttgcacatag tctacaatat tcagcattca gcattcagta tacagcatat ggctaaatga 360
tcacaaatgt gattgatgat ttgacacgac tagaaaagag aacgaaaaag ggaaattcca 420
tgtcacgtgc gttggcacgt gacatggaat atcgaagaaa gaaaaaaaaa acgatctcgt 480
cctagtggaa gcccagagtc tggtcccccc ggagtcttcc caaaacaaga agctgacaca 540
tgttgacaca gaacacccca cagcaaatgc accacgctac gtagatcagg aagcttaact 600
ctagcgacct gtcgctcgcc ccacagaacc tcacccgaga accacacatt acacgccgcc 660
agctcccact atactcatct tgcttccctt aagcgttctc acgattcgtt cgctgccctt 720
cttcaagagt cttctgattc taattctcat tcgaaatcct ctacagttaa tgaattgctt 780
gacatgacat tcattgtctc atggttttgg ctttttggct tttgtctttt aaagctatat 840
caactttaca tataaatata cgtcaaaagg ggattcatta attagaaaat tctctttttc 900
aatagttgct attcattatc aatctattca actcaattgg ttattatttt catctttttg 960
tcatcctaaa ccatcaacaa tatttaaata tatctgttgc tacattaaga gttacttcag 1020
aaataacaaa aaaatcgatc aagaattaat aaaaatggac tacgctaaca tcttgactgc 1080
cattcctttg gaattcaccc cacaagatga cattgtcttg ttggaaccat accactactt 1140
aggtaagaac ccaggtaagg aaatcagatc tcaattgatt gaagctttca actactggtt 1200
agatgtcaag aaggaagact tggaagttat ccaaaatgtt gttggtatgt tgcacaccgc 1260
ttctttgttg atggatgatg ttgaagattc ttccgtcttg agaagaggtt ctccagttgc 1320
tcatttgatc tacggtattc cacaaaccat caacactgct aactacgttt acttcttggc 1380
ttaccaagaa atcttcaaat tgcgtccaac tccaattcca atgccagtta tcccaccatc 1440
ttctgcttct ttgcaatctt ctgtctcctc cgcctcctct tcctcttctg cctcctctga 1500
aaacggtggt acctccactc caaactccca aatcccattc tccaaggaca cctacttgga 1560
caaggttatc actgacgaaa tgttgtcttt gcaccgtggt caaggtttgg aattattctg 1620
gagagactct ttgacctgtc catctgaaga agaatacgtc aagatggtct tgggtaagac 1680
cggtggtttg ttcagaattg ctgtcagatt gatgatggcc aagtctgaat gtgacattga 1740
ctttgttcaa ttggttaact tgatttccat ctacttccaa atcagagatg actacatgaa 1800
cttgcaatcc tctgaatacg ctcacaacaa gaacttcgct gaagacttga ctgaaggtaa 1860
gttctccttc ccaaccattc actccattca cgctaaccca tcttccagat tggttatcaa 1920
cactttacaa aagaagtcca cttctccaga aatcttacat cactgtgtca actacatgag 1980
aactgaaacc cactctttcg aatacactca agaagtcttg aacactttat ctggtgcttt 2040
ggaaagagaa ttgggtagat tacaaggtga atttgctgaa gctaactcca agatcgattt 2100
gggtgacgtt gaatctgaag gtagaaccgg taagaacgtc aaattggaag ccatcttgaa 2160
gaaattggct gatatccctc tataaagtga atttacttta aatcttgcat ttaaataaat 2220
tttcttttta tagctttatg acttagtttc aatttatata ctattttaat gacattttcg 2280
attcattgat tgaaagcttt gtgttttttc ttgatgcgct attgcattgt tcttgtcttt 2340
ttcgccacat gtaatatctg tagtagatac ctgatacatt gtggatgctg agtgaaattt 2400
tagttaataa tggaggcgct cttaataatt ttggggatat tggctttttt ttttaaagtt 2460
tacaaatgaa ttttttccgc caggatcctc ttgcccatcg aacgtacaag tactcctctg 2520
ttctctcctt cctttgcttt 2540
<210> 40
<211> 2140
<212> DNA
<213> artificial sequence
<220>
<223> con5 - Strong p (ScFBA1p) - crtE - ScTDH3t - conA expression
cassette
<400> 40
aagcgacttc caatcgcttt gcatatccag taccacaccc acaggcgttt gtgcctactt 60
ggcttcacat acgttgcata cgtcgatata gataataatg ataatgacag caggattatc 120
gtaatacgta atagttgaaa atctcaaaaa tgtgtgggtc attacgtaaa taatgatagg 180
aatgggattc ttctattttt cctttttcca ttctagcagc cgtcgggaaa acgtggcatc 240
ctctctttcg ggctcaattg gagtcacgct gccgtgagca tcctctcttt ccatatctaa 300
caactgagca cgtaaccaat ggaaaagcat gagcttagcg ttgctccaaa aaagtattgg 360
atggttaata ccatttgtct gttctcttct gactttgact cctcaaaaaa aaaaaatcta 420
caatcaacag atcgcttcaa ttacgccctc acaaaaactt ttttccttct tcttcgccca 480
cgttaaattt tatccctcat gttgtctaac ggatttctgc acttgattta ttataaaaag 540
acaaagacat aatacttctc tatcaatttc agttattgtt cttccttgcg ttattcttct 600
gttcttcttt ttcttttgtc atatataacc ataaccaagt aatacatatt caaaatggac 660
tacgctaaca tcttgactgc cattcctttg gaattcaccc cacaagatga cattgtcttg 720
ttggaaccat accactactt aggtaagaac ccaggtaagg aaatcagatc tcaattgatt 780
gaagctttca actactggtt agatgtcaag aaggaagact tggaagttat ccaaaatgtt 840
gttggtatgt tgcacaccgc ttctttgttg atggatgatg ttgaagattc ttccgtcttg 900
agaagaggtt ctccagttgc tcatttgatc tacggtattc cacaaaccat caacactgct 960
aactacgttt acttcttggc ttaccaagaa atcttcaaat tgcgtccaac tccaattcca 1020
atgccagtta tcccaccatc ttctgcttct ttgcaatctt ctgtctcctc cgcctcctct 1080
tcctcttctg cctcctctga aaacggtggt acctccactc caaactccca aatcccattc 1140
tccaaggaca cctacttgga caaggttatc actgacgaaa tgttgtcttt gcaccgtggt 1200
caaggtttgg aattattctg gagagactct ttgacctgtc catctgaaga agaatacgtc 1260
aagatggtct tgggtaagac cggtggtttg ttcagaattg ctgtcagatt gatgatggcc 1320
aagtctgaat gtgacattga ctttgttcaa ttggttaact tgatttccat ctacttccaa 1380
atcagagatg actacatgaa cttgcaatcc tctgaatacg ctcacaacaa gaacttcgct 1440
gaagacttga ctgaaggtaa gttctccttc ccaaccattc actccattca cgctaaccca 1500
tcttccagat tggttatcaa cactttacaa aagaagtcca cttctccaga aatcttacat 1560
cactgtgtca actacatgag aactgaaacc cactctttcg aatacactca agaagtcttg 1620
aacactttat ctggtgcttt ggaaagagaa ttgggtagat tacaaggtga atttgctgaa 1680
gctaactcca agatcgattt gggtgacgtt gaatctgaag gtagaaccgg taagaacgtc 1740
aaattggaag ccatcttgaa gaaattggct gatatccctc tataaagtga atttacttta 1800
aatcttgcat ttaaataaat tttcttttta tagctttatg acttagtttc aatttatata 1860
ctattttaat gacattttcg attcattgat tgaaagcttt gtgttttttc ttgatgcgct 1920
attgcattgt tcttgtcttt ttcgccacat gtaatatctg tagtagatac ctgatacatt 1980
gtggatgctg agtgaaattt tagttaataa tggaggcgct cttaataatt ttggggatat 2040
tggctttttt ttttaaagtt tacaaatgaa ttttttccgc caggatcctc ttgcccatcg 2100
aacgtacaag tactcctctg ttctctcctt cctttgcttt 2140
<210> 41
<211> 3431
<212> DNA
<213> artificial sequence
<220>
<223> conA - Low p (KlYDRp) - crtYB - ScPDC1t - conB expression
cassette
<400> 41
ttgcccatcg aacgtacaag tactcctctg ttctctcctt cctttgcttt gtgcttttct 60
ttttttgcgg tcacccccat gtggcgggga ggcagaggag taggtagagc aacgaatcct 120
actatttatc caaattagtc taggaactct ttttctagat tttttagatt tgagggcaag 180
cgctgttaac gactcagaaa tgtaagcact acggagtaga acgagaaatc cgccataggt 240
ggaaatccta gcaaaatctt gcttacccta gctagcctca ggtaagctag ccttagcctg 300
tcaaattttt ttcaaaattt ggtaagtttc tactagcaaa gcaaacacgg ttcaacaaac 360
cgaaaactcc actcattata cgtggaaacc gaaacaaaaa aacaaaaacc aaaatactcg 420
ccaatgagaa agttgctgcg tttctacttt cgaggaagag gaactgagag gattgactac 480
gaaaggggca aaaacgagtc gtattctccc attattgtct gctaccacgc ggtctagtag 540
aataagcaac cagtcaacgc taagacaggt aatcaaaata ccagtctgct ggctacgggc 600
tagtttttac ctcttttaga acccactgta aaagtccgtt gtaaagcccg ttctcactgt 660
tggcgttttt ttttttttgg tttagtttct tatttttcat ttttttcttt catgaccaaa 720
aacaaacaaa tctcgcgatt tgtactgcgg ccactggggc gtggccaaaa aaatgacaaa 780
tttagaaacc ttagtttctg atttttcctg ttatgaggag atatgataaa aaatattact 840
gctttattgt ttttttttta tctactgaaa tagagaaact tacccaagga ggaggcaaaa 900
aaaagagtat atatacagca ggtaccattc agattttaat atattctttt ctcttcttct 960
acactattat tataataatt ttactatatt catttttagc ttaaaacctc atagaatatt 1020
attcttcagt cactcgctta aatacttatc aaaaatgacc gctttggctt actaccaaat 1080
ccacttgatc tacactttgc caatcttagg tttgctaggt ttgttgactt ctccaatttt 1140
gaccaaattc gacatctaca agatttctat cttagtcttt attgctttct ctgctaccac 1200
tccatgggac tcctggatca tcagaaacgg tgcctggacc tacccatctg ctgaatctgg 1260
tcaaggtgtt ttcggtacct ttttggatgt cccatacgaa gaatacgcct tctttgttat 1320
ccaaaccgtc atcaccggtt tggtttacgt tttggctacc agacatttgt tgccatcttt 1380
ggctctacca aagacccgtt cttctgcctt gtctctagct ttgaaggctt taatcccatt 1440
gccaatcatc tatttgttca ccgctcatcc atctccatcc ccagatcctt tggttactga 1500
ccactacttc tacatgagag ctttgtcttt gttgatcacc ccaccaacca tgttgttggc 1560
tgctttatct ggtgaatacg ctttcgactg gaaatctggt agagctaagt ccaccattgc 1620
tgccatcatg atcccaactg tctacttgat ctgggttgac tacgttgccg ttggtcaaga 1680
ctcctggtcc atcaacgatg aaaagattgt cggttggaga ttaggtggtg tcttgccaat 1740
tgaagaagct atgttcttct tattgaccaa cttgatgatc gttttgggtt tgtctgcctg 1800
tgaccacact caagccttgt acttgttgca cggtagaact atctacggta acaagaagat 1860
gccatcttct ttcccattaa tcactccacc agttttgtcc ttgttcttct cctccagacc 1920
atactcctcc caaccaaaga gagatttgga attggctgtc aagttgttgg aaaagaagtc 1980
cagatctttc ttcgttgctt ctgccggttt cccatctgaa gtcagagaaa gattggttgg 2040
tttgtacgct ttctgtcgtg tcaccgatga cttgattgac tctccagaag tttcctccaa 2100
cccacacgct accattgaca tggtttccga tttcttgact ttattattcg gtcctccatt 2160
gcacccatct caaccagaca agattttgtc ttctccatta ttaccacctt cccacccatc 2220
cagaccaact ggtatgtacc cattaccacc acctccatct ttgtctccag ctgaattggt 2280
ccaattcttg actgaacgtg tcccagttca ataccacttc gctttcagat tgttggccaa 2340
attgcaaggt ttgattccaa gatacccatt ggatgaatta ttgagaggtt acaccactga 2400
cttgatcttc ccattgtcca ctgaagccgt ccaagctaga aagaccccaa ttgaaactac 2460
tgctgacttg ttggactacg gtttgtgtgt tgccggttct gttgctgaat tgttggtcta 2520
cgtttcctgg gcttccgctc catcccaagt tccagctact attgaagaaa gagaagctgt 2580
tttggtcgcc tctcgtgaaa tgggtaccgc tttgcaattg gtcaacattg ccagagatat 2640
caagggtgac gctactgaag gtagattcta cttgccattg tctttctttg gtttgagaga 2700
tgaatccaaa ttggccattc caactgactg gactgaacca agacctcaag atttcgacaa 2760
attgttgtct ctatctccat cttccacttt accatcctct aacgcttctg aatccttcag 2820
attcgaatgg aagacctact ctttgccatt ggttgcttac gctgaagatt tggctaagca 2880
ctcttacaag ggtattgaca gattaccaac tgaagtccaa gctggtatga gagctgcttg 2940
tgcttcttac ttgttgattg gtcgtgaaat caaggttgtc tggaagggtg atgtcggtga 3000
aagaagaacc gttgctggtt ggagaagagt cagaaaggtt ttgtctgttg tcatgtccgg 3060
ttgggaaggt caataaagcg atttaatctc taattattag ttaaagtttt ataagcattt 3120
ttatgtaacg aaaaataaat tggttcatat tattactgca ctgtcactta ccatggaaag 3180
accagacaag aagttgccga cagtctgttg aattggcctg gttaggctta agtctgggtc 3240
cgcttcttta caaatttgga gaatttctct taaacgatat gtatattctt ttcgttggaa 3300
aagatgtctt ccaaaaaaaa aaccgatgaa ttagtggaac caaggaaaaa aaaagaggta 3360
tccttgatta aggaacacct ccggatcgat gtacacaacc gactgcaccc aaacgaacac 3420
aaatcttagc a 3431
<210> 42
<211> 3431
<212> DNA
<213> artificial sequence
<220>
<223> conA - Med p (KlTEF2p) - crtYB - ScPDC1t - conB expression
cassette
<400> 42
ttgcccatcg aacgtacaag tactcctctg ttctctcctt cctttgcttt gtgcgagcct 60
gtccaagcaa atgccttctc ataaatggtg ccaaagaccc gcaagcccaa agcaattacc 120
ccccaaaaag aaatgatata gtgcaagata cgtatatgac catgacttga ctaggtgaaa 180
cagtgcagaa acagccgcac aaaagcagcc ctaaccctca gagtcgattt tactctttca 240
ggtaataaag cctcgacatc aattttagac agaagccagg ctggcctcga gattatagcc 300
ataggcaagc aagaggagag aaggggaggc cccccatggg gggcctcccc cccgctgtca 360
aggtttggca gaacctagct tcattaggcc actagcccag cctaaaacgt caacgggcag 420
gaggaacact cccacaagac ggcgtagtat tctcgattca taaccatttt ctcaatcgaa 480
ttacacagaa cacaccgtac aaacctctct atcataacta cttaatagtc acacacgtac 540
tcgtctaaat acacatcatc gtcctacaag ttcatcaaag tgttggacag acaactatac 600
cagcatggat ctcttgtatc ggttcttttc tcccgctctc tcgcaataac aatgaacact 660
gggtcaatca tagcctacac aggtgaacag agtagcgttt atacagggtt tatacggtga 720
ttcctacggc aaaaattttt catttctaaa aaaaaaaaga aaaatttttc tttccaacgc 780
tagaaggaaa agaaaaatct aattaaattg atttggtgat tttctgagag ttcccttttt 840
catatatcga attttgaata taaaaggaga tcgaaaaaat ttttctattc aatctgtttt 900
ctggttttat ttgatagttt ttttgtgtat tattattatg gattagtact ggtttatatg 960
ggtttttctg tataacttct ttttatttta gtttgtttaa tcttattttg agttacatta 1020
tagttcccta actgcaagag aagtaacatt aaaaatgacc gctttggctt actaccaaat 1080
ccacttgatc tacactttgc caatcttagg tttgctaggt ttgttgactt ctccaatttt 1140
gaccaaattc gacatctaca agatttctat cttagtcttt attgctttct ctgctaccac 1200
tccatgggac tcctggatca tcagaaacgg tgcctggacc tacccatctg ctgaatctgg 1260
tcaaggtgtt ttcggtacct ttttggatgt cccatacgaa gaatacgcct tctttgttat 1320
ccaaaccgtc atcaccggtt tggtttacgt tttggctacc agacatttgt tgccatcttt 1380
ggctctacca aagacccgtt cttctgcctt gtctctagct ttgaaggctt taatcccatt 1440
gccaatcatc tatttgttca ccgctcatcc atctccatcc ccagatcctt tggttactga 1500
ccactacttc tacatgagag ctttgtcttt gttgatcacc ccaccaacca tgttgttggc 1560
tgctttatct ggtgaatacg ctttcgactg gaaatctggt agagctaagt ccaccattgc 1620
tgccatcatg atcccaactg tctacttgat ctgggttgac tacgttgccg ttggtcaaga 1680
ctcctggtcc atcaacgatg aaaagattgt cggttggaga ttaggtggtg tcttgccaat 1740
tgaagaagct atgttcttct tattgaccaa cttgatgatc gttttgggtt tgtctgcctg 1800
tgaccacact caagccttgt acttgttgca cggtagaact atctacggta acaagaagat 1860
gccatcttct ttcccattaa tcactccacc agttttgtcc ttgttcttct cctccagacc 1920
atactcctcc caaccaaaga gagatttgga attggctgtc aagttgttgg aaaagaagtc 1980
cagatctttc ttcgttgctt ctgccggttt cccatctgaa gtcagagaaa gattggttgg 2040
tttgtacgct ttctgtcgtg tcaccgatga cttgattgac tctccagaag tttcctccaa 2100
cccacacgct accattgaca tggtttccga tttcttgact ttattattcg gtcctccatt 2160
gcacccatct caaccagaca agattttgtc ttctccatta ttaccacctt cccacccatc 2220
cagaccaact ggtatgtacc cattaccacc acctccatct ttgtctccag ctgaattggt 2280
ccaattcttg actgaacgtg tcccagttca ataccacttc gctttcagat tgttggccaa 2340
attgcaaggt ttgattccaa gatacccatt ggatgaatta ttgagaggtt acaccactga 2400
cttgatcttc ccattgtcca ctgaagccgt ccaagctaga aagaccccaa ttgaaactac 2460
tgctgacttg ttggactacg gtttgtgtgt tgccggttct gttgctgaat tgttggtcta 2520
cgtttcctgg gcttccgctc catcccaagt tccagctact attgaagaaa gagaagctgt 2580
tttggtcgcc tctcgtgaaa tgggtaccgc tttgcaattg gtcaacattg ccagagatat 2640
caagggtgac gctactgaag gtagattcta cttgccattg tctttctttg gtttgagaga 2700
tgaatccaaa ttggccattc caactgactg gactgaacca agacctcaag atttcgacaa 2760
attgttgtct ctatctccat cttccacttt accatcctct aacgcttctg aatccttcag 2820
attcgaatgg aagacctact ctttgccatt ggttgcttac gctgaagatt tggctaagca 2880
ctcttacaag ggtattgaca gattaccaac tgaagtccaa gctggtatga gagctgcttg 2940
tgcttcttac ttgttgattg gtcgtgaaat caaggttgtc tggaagggtg atgtcggtga 3000
aagaagaacc gttgctggtt ggagaagagt cagaaaggtt ttgtctgttg tcatgtccgg 3060
ttgggaaggt caataaagcg atttaatctc taattattag ttaaagtttt ataagcattt 3120
ttatgtaacg aaaaataaat tggttcatat tattactgca ctgtcactta ccatggaaag 3180
accagacaag aagttgccga cagtctgttg aattggcctg gttaggctta agtctgggtc 3240
cgcttcttta caaatttgga gaatttctct taaacgatat gtatattctt ttcgttggaa 3300
aagatgtctt ccaaaaaaaa aaccgatgaa ttagtggaac caaggaaaaa aaaagaggta 3360
tccttgatta aggaacacct ccggatcgat gtacacaacc gactgcaccc aaacgaacac 3420
aaatcttagc a 3431
<210> 43
<211> 3031
<212> DNA
<213> artificial sequence
<220>
<223> conA - Strong p (ScTEF1p) - crtYB - ScPDC1t - conB expression
cassette
<400> 43
ttgcccatcg aacgtacaag tactcctctg ttctctcctt cctttgcttt gtgcttggct 60
gataatagcg tataaacaat gcatactttg tacgttcaaa atacaatgca gtagatatat 120
ttatgcatat tacatataat acatatcaca taggaagcaa caggcgcgtt ggacttttaa 180
ttttcgagga ccgcgaatcc ttacatcaca cccaatcccc cacaagtgat cccccacaca 240
ccatagcttc aaaatgtttc tactcctttt ttactcttcc agattttctc ggactccgcg 300
catcgccgta ccacttcaaa acacccaagc acagcatact aaatttcccc tctttcttcc 360
tctagggtgt cgttaattac ccgtactaaa ggtttggaaa agaaaaaaga caccgcctcg 420
tttctttttc ttcgtcgaaa aaggcaataa aaatttttat cacgtttctt tttcttgaaa 480
attttttttt ttgatttttt tctctttcga tgacctccca ttgatattta agttaataaa 540
cggtcttcaa tttctcaagt ttcagtttca tttttcttgt tctattacaa ctttttttac 600
ttcttgctca ttagaaagaa agcatagcaa tctaatctaa gttttaatta caaaatgacc 660
gctttggctt actaccaaat ccacttgatc tacactttgc caatcttagg tttgctaggt 720
ttgttgactt ctccaatttt gaccaaattc gacatctaca agatttctat cttagtcttt 780
attgctttct ctgctaccac tccatgggac tcctggatca tcagaaacgg tgcctggacc 840
tacccatctg ctgaatctgg tcaaggtgtt ttcggtacct ttttggatgt cccatacgaa 900
gaatacgcct tctttgttat ccaaaccgtc atcaccggtt tggtttacgt tttggctacc 960
agacatttgt tgccatcttt ggctctacca aagacccgtt cttctgcctt gtctctagct 1020
ttgaaggctt taatcccatt gccaatcatc tatttgttca ccgctcatcc atctccatcc 1080
ccagatcctt tggttactga ccactacttc tacatgagag ctttgtcttt gttgatcacc 1140
ccaccaacca tgttgttggc tgctttatct ggtgaatacg ctttcgactg gaaatctggt 1200
agagctaagt ccaccattgc tgccatcatg atcccaactg tctacttgat ctgggttgac 1260
tacgttgccg ttggtcaaga ctcctggtcc atcaacgatg aaaagattgt cggttggaga 1320
ttaggtggtg tcttgccaat tgaagaagct atgttcttct tattgaccaa cttgatgatc 1380
gttttgggtt tgtctgcctg tgaccacact caagccttgt acttgttgca cggtagaact 1440
atctacggta acaagaagat gccatcttct ttcccattaa tcactccacc agttttgtcc 1500
ttgttcttct cctccagacc atactcctcc caaccaaaga gagatttgga attggctgtc 1560
aagttgttgg aaaagaagtc cagatctttc ttcgttgctt ctgccggttt cccatctgaa 1620
gtcagagaaa gattggttgg tttgtacgct ttctgtcgtg tcaccgatga cttgattgac 1680
tctccagaag tttcctccaa cccacacgct accattgaca tggtttccga tttcttgact 1740
ttattattcg gtcctccatt gcacccatct caaccagaca agattttgtc ttctccatta 1800
ttaccacctt cccacccatc cagaccaact ggtatgtacc cattaccacc acctccatct 1860
ttgtctccag ctgaattggt ccaattcttg actgaacgtg tcccagttca ataccacttc 1920
gctttcagat tgttggccaa attgcaaggt ttgattccaa gatacccatt ggatgaatta 1980
ttgagaggtt acaccactga cttgatcttc ccattgtcca ctgaagccgt ccaagctaga 2040
aagaccccaa ttgaaactac tgctgacttg ttggactacg gtttgtgtgt tgccggttct 2100
gttgctgaat tgttggtcta cgtttcctgg gcttccgctc catcccaagt tccagctact 2160
attgaagaaa gagaagctgt tttggtcgcc tctcgtgaaa tgggtaccgc tttgcaattg 2220
gtcaacattg ccagagatat caagggtgac gctactgaag gtagattcta cttgccattg 2280
tctttctttg gtttgagaga tgaatccaaa ttggccattc caactgactg gactgaacca 2340
agacctcaag atttcgacaa attgttgtct ctatctccat cttccacttt accatcctct 2400
aacgcttctg aatccttcag attcgaatgg aagacctact ctttgccatt ggttgcttac 2460
gctgaagatt tggctaagca ctcttacaag ggtattgaca gattaccaac tgaagtccaa 2520
gctggtatga gagctgcttg tgcttcttac ttgttgattg gtcgtgaaat caaggttgtc 2580
tggaagggtg atgtcggtga aagaagaacc gttgctggtt ggagaagagt cagaaaggtt 2640
ttgtctgttg tcatgtccgg ttgggaaggt caataaagcg atttaatctc taattattag 2700
ttaaagtttt ataagcattt ttatgtaacg aaaaataaat tggttcatat tattactgca 2760
ctgtcactta ccatggaaag accagacaag aagttgccga cagtctgttg aattggcctg 2820
gttaggctta agtctgggtc cgcttcttta caaatttgga gaatttctct taaacgatat 2880
gtatattctt ttcgttggaa aagatgtctt ccaaaaaaaa aaccgatgaa ttagtggaac 2940
caaggaaaaa aaaagaggta tccttgatta aggaacacct ccggatcgat gtacacaacc 3000
gactgcaccc aaacgaacac aaatcttagc a 3031
<210> 44
<211> 2758
<212> DNA
<213> artificial sequence
<220>
<223> conB - Low p (ScPRE3p) - crtI - ScTAL1t - conC expression
cassette
<400> 44
cggatcgatg tacacaaccg actgcaccca aacgaacaca aatcttagca gtgccaaaca 60
ttaatttgtt ctgcatactt tgaacctttc agaaaataaa aaacattacg cgcatactta 120
ccctgctcgc gaagaagagt aacactaacg cattctatgg gcaattgaag acagtattca 180
gtacaagaca tagtccgttt ccttgagtca attcctatag cattatgaac tagccgcctt 240
taagagtgcc aagctgttca acaccgatca tttttgatga tttggcgttt ttgttatatt 300
gatagatttc ttttgaattt tgtcattttc acttttccac tcgcaacgga atccggtggc 360
aaaaaaggga aaagcattga aatgcaatct ttaacagtat tttaaacaag ttgcgacacg 420
gtgtacaatt acgataagaa ttgctacttc aaagtacaca cagaaagtta acatgaatgg 480
aattcaagtg gacatcaatc gtttgaaaaa gggcgaagtc agtttaggta cctcaatgta 540
tgtatataag aatttttcct cccactttat tgtttctaaa agttcaatga agtaaagtct 600
caattggcct tattactaac taataggtat cttataatca cctaataaaa tagaatgggt 660
aaggaacaag accaagacaa gccaactgcc atcatcgttg gttgtggtat cggtggtatt 720
gctaccgctg ccagattagc taaggaaggt ttccaagtta ccgtctttga aaagaacgac 780
tactccggtg gtagatgttc tttgattgaa agagatggtt acagattcga ccaaggtcca 840
tctttgttgc tattaccaga cttgttcaag caaaccttcg aagatttggg tgaaaagatg 900
gaagactggg ttgatttgat caagtgtgaa ccaaactacg tttgtcactt ccatgatgaa 960
gaaactttca ccttctccac tgacatggct ttattgaaga gagaagtcga aagatttgaa 1020
ggtaaagatg gtttcgacag attcttgtct ttcatccaag aagctcacag acattacgaa 1080
ttggctgttg tccacgtctt gcaaaagaac ttcccaggtt tcgctgcttt cttgagatta 1140
caattcatcg gtcaaatctt agctttgcac ccatttgaat ccatctggac cagagtttgt 1200
cgttacttca agactgacag attgagaaga gtcttctcct ttgccgttat gtacatgggt 1260
caatctccat actctgctcc aggtacctac tccttgttgc aatacactga attgactgaa 1320
ggtatctggt acccaagagg tggtttctgg caagttccaa acactttgtt gcaaatcgtc 1380
aagagaaaca acccatctgc taagttcaac ttcaacgctc cagtttctca agttttgttg 1440
tctccagcta aggacagagc taccggtgtc agattagaat ctggtgaaga acaccacgct 1500
gatgttgtca ttgtcaatgc tgacttggtc tacgcttctg aacatttgat tccagatgat 1560
gctagaaaca agatcggtca attaggtgaa gttaagcgtt cctggtgggc tgatttggtt 1620
ggtggtaaga agttgaaggg ttcttgttct tctttgtctt tctactggtc tatggacaga 1680
atcgttgacg gtttgggtgg tcacaacatc ttcttggctg aagacttcaa gggttccttc 1740
gacaccattt tcgaagaatt gggtttgcca gctgacccat ctttctatgt taacgttcca 1800
tccagaattg acccttctgc tgctccagaa ggtaaggatg ccattgtcat cttagtccca 1860
tgtggtcaca tcgatgcttc caaccctcaa gactacaaca aattggttgc cagagccaga 1920
aagttcgtca tccaaacctt gtctgccaag ttgggtctac cagatttcga aaagatgatt 1980
gttgctgaaa aggttcacga tgctccatcc tgggaaaagg aattcaactt gaaggacggt 2040
tccattttgg gtttggctca caacttcatg caagtcttgg gtttcagacc atccaccaga 2100
cacccaaagt acgacaaatt gttctttgtc ggtgcttcta cccacccagg tactggtgtt 2160
ccaattgtct tggctggtgc caaattgact gctaaccaag ttttggaatc cttcgatcgt 2220
tctccagctc cagatcctaa catgtctttg tctgttccat acggtaagcc attgaaatcc 2280
aacggtactg gtattgactc tcaagtccaa ttgaaattca tggacttgga acgttgggtt 2340
tacctattag tcttgttgat tggtgctgtt atcgccagat ccgtcggtgt cttggccttt 2400
taaaggaagt atctcggaaa tattaattta ggccatgtcc ttatgcacgt ttcttttgat 2460
acttacgggt acatgtacac aagtatatct atatatataa attaatgaaa atcccctatt 2520
tatatatatg actttaacga gacagaacag ttttttattt tttatcctat ttgatgaatg 2580
atacagtttc ttattcacgt gttataccca caccaaatcc aatagcaata ccggccatca 2640
caatcactgt ttcggcagcc cctaagatca gacaaaacat ccggaaccac cttaaatcaa 2700
cgtccctcac gctttccggc atcttccaga ccacagtata tccatccgcc tcctgttg 2758
<210> 45
<211> 2758
<212> DNA
<213> artificial sequence
<220>
<223> conB - Med p (ScACT1p) - crtI - ScTAL1t - conC expression
cassette
<400> 45
cggatcgatg tacacaaccg actgcaccca aacgaacaca aatcttagca gtgcaacata 60
tatacacaat tacagtaaca ataacaagag gacagatact accaaaatgt gtggggaagc 120
gggtaagctg ccacagcaat taatgcacaa catttaacct acattcttcc ttatcggatc 180
ctcaaaaccc ttaaaaacat atgcctcacc ctaacatatt ttccaattaa ccctcaatat 240
ttctctgtca cccggcctct attttccatt ttcttcttta cccgccacgc gtttttttct 300
ttcaaatttt tttcttcttt cttctttttc ttccacgtcc tcttgcataa ataaataaac 360
cgttttgaaa ccaaactcgc ctctctctct cctttttgaa atatttttgg gtttgtttga 420
tcctttcctt cccaatctct cttgtttaat atatattcat ttatatcacg ctctcttttt 480
atcttccttt ttttcctctc tcttgtattc ttccttcccc tttctactca aaccaagaag 540
aaaaagaaaa ggtcaatctt tgttaaagaa taggatcttc tactacatca gcttttagat 600
ttttcacgct tactgctttt ttcttcccaa gatcgaaaat ttactgaatt aacaatgggt 660
aaggaacaag accaagacaa gccaactgcc atcatcgttg gttgtggtat cggtggtatt 720
gctaccgctg ccagattagc taaggaaggt ttccaagtta ccgtctttga aaagaacgac 780
tactccggtg gtagatgttc tttgattgaa agagatggtt acagattcga ccaaggtcca 840
tctttgttgc tattaccaga cttgttcaag caaaccttcg aagatttggg tgaaaagatg 900
gaagactggg ttgatttgat caagtgtgaa ccaaactacg tttgtcactt ccatgatgaa 960
gaaactttca ccttctccac tgacatggct ttattgaaga gagaagtcga aagatttgaa 1020
ggtaaagatg gtttcgacag attcttgtct ttcatccaag aagctcacag acattacgaa 1080
ttggctgttg tccacgtctt gcaaaagaac ttcccaggtt tcgctgcttt cttgagatta 1140
caattcatcg gtcaaatctt agctttgcac ccatttgaat ccatctggac cagagtttgt 1200
cgttacttca agactgacag attgagaaga gtcttctcct ttgccgttat gtacatgggt 1260
caatctccat actctgctcc aggtacctac tccttgttgc aatacactga attgactgaa 1320
ggtatctggt acccaagagg tggtttctgg caagttccaa acactttgtt gcaaatcgtc 1380
aagagaaaca acccatctgc taagttcaac ttcaacgctc cagtttctca agttttgttg 1440
tctccagcta aggacagagc taccggtgtc agattagaat ctggtgaaga acaccacgct 1500
gatgttgtca ttgtcaatgc tgacttggtc tacgcttctg aacatttgat tccagatgat 1560
gctagaaaca agatcggtca attaggtgaa gttaagcgtt cctggtgggc tgatttggtt 1620
ggtggtaaga agttgaaggg ttcttgttct tctttgtctt tctactggtc tatggacaga 1680
atcgttgacg gtttgggtgg tcacaacatc ttcttggctg aagacttcaa gggttccttc 1740
gacaccattt tcgaagaatt gggtttgcca gctgacccat ctttctatgt taacgttcca 1800
tccagaattg acccttctgc tgctccagaa ggtaaggatg ccattgtcat cttagtccca 1860
tgtggtcaca tcgatgcttc caaccctcaa gactacaaca aattggttgc cagagccaga 1920
aagttcgtca tccaaacctt gtctgccaag ttgggtctac cagatttcga aaagatgatt 1980
gttgctgaaa aggttcacga tgctccatcc tgggaaaagg aattcaactt gaaggacggt 2040
tccattttgg gtttggctca caacttcatg caagtcttgg gtttcagacc atccaccaga 2100
cacccaaagt acgacaaatt gttctttgtc ggtgcttcta cccacccagg tactggtgtt 2160
ccaattgtct tggctggtgc caaattgact gctaaccaag ttttggaatc cttcgatcgt 2220
tctccagctc cagatcctaa catgtctttg tctgttccat acggtaagcc attgaaatcc 2280
aacggtactg gtattgactc tcaagtccaa ttgaaattca tggacttgga acgttgggtt 2340
tacctattag tcttgttgat tggtgctgtt atcgccagat ccgtcggtgt cttggccttt 2400
taaaggaagt atctcggaaa tattaattta ggccatgtcc ttatgcacgt ttcttttgat 2460
acttacgggt acatgtacac aagtatatct atatatataa attaatgaaa atcccctatt 2520
tatatatatg actttaacga gacagaacag ttttttattt tttatcctat ttgatgaatg 2580
atacagtttc ttattcacgt gttataccca caccaaatcc aatagcaata ccggccatca 2640
caatcactgt ttcggcagcc cctaagatca gacaaaacat ccggaaccac cttaaatcaa 2700
cgtccctcac gctttccggc atcttccaga ccacagtata tccatccgcc tcctgttg 2758
<210> 46
<211> 3158
<212> DNA
<213> artificial sequence
<220>
<223> conB - Strong p (KlENO1p) - crtI - ScTAL1t - conC expression
cassette
<400> 46
cggatcgatg tacacaaccg actgcaccca aacgaacaca aatcttagca gtgccgtatc 60
cctatctgga ttaacatcac tgccacagat cgaattgcaa gaagccacac ttcacgtgat 120
ccactcgttc atcaggtttg tagcttcatg gcgcaggact tctgatgatg aactatctgg 180
ctcatccgga tggatcacaa ggatggatac cctcagacag tacgtttccg tatggagcga 240
tcttacaaga accaacagtt gatcctatta cttttttttt attttttgtc cctccgggat 300
ggcaagaggg acaaagaaga atcttcgttc ttctttcttg ttctcaactt cccagcttcc 360
gtgtgattac cctccgggac aacagaaaaa ctggcattcg gtatcccggg aatctgctga 420
gaaggaaaga aaacgaaaaa aaaattgtac atttgtgtca cattatgaat tacaggaagt 480
cagaaaacag gcagcacatg tctcgcacat gcatgtccat cagacgagac attatgagac 540
atgcacgcgt gtgagagaca tagcaaaagt ctctccagta cacacagaaa gacacgttca 600
caatccaggc accccacaga gaaaaaaaaa agaagaagcc cggaagctgg cacgccatca 660
tcaaccaccg ctcggtttac acgcatccca actgtctttt ttttctggaa tcctataata 720
actggcatct ggaaatcacg ttgtatgttg caccatagtg actggctgtc tgactagcaa 780
acattgattc cctgattccc atttggctca attttgatga gaaacagttg attgattctt 840
gtcaattttt ttttctttgg accaccacca accaattgac attgaagtac tttcccatga 900
tttgaggtta tataaaagga cgttcaaatc actttcaagg ttaattcagt tttgtcaatt 960
gatttaagtt caattgttaa caaatttaat ttaattcgaa acaaaccaaa ccaattcatt 1020
tgaattaaca aaccaaccca caaaacaaaa aaaaatgggt aaggaacaag accaagacaa 1080
gccaactgcc atcatcgttg gttgtggtat cggtggtatt gctaccgctg ccagattagc 1140
taaggaaggt ttccaagtta ccgtctttga aaagaacgac tactccggtg gtagatgttc 1200
tttgattgaa agagatggtt acagattcga ccaaggtcca tctttgttgc tattaccaga 1260
cttgttcaag caaaccttcg aagatttggg tgaaaagatg gaagactggg ttgatttgat 1320
caagtgtgaa ccaaactacg tttgtcactt ccatgatgaa gaaactttca ccttctccac 1380
tgacatggct ttattgaaga gagaagtcga aagatttgaa ggtaaagatg gtttcgacag 1440
attcttgtct ttcatccaag aagctcacag acattacgaa ttggctgttg tccacgtctt 1500
gcaaaagaac ttcccaggtt tcgctgcttt cttgagatta caattcatcg gtcaaatctt 1560
agctttgcac ccatttgaat ccatctggac cagagtttgt cgttacttca agactgacag 1620
attgagaaga gtcttctcct ttgccgttat gtacatgggt caatctccat actctgctcc 1680
aggtacctac tccttgttgc aatacactga attgactgaa ggtatctggt acccaagagg 1740
tggtttctgg caagttccaa acactttgtt gcaaatcgtc aagagaaaca acccatctgc 1800
taagttcaac ttcaacgctc cagtttctca agttttgttg tctccagcta aggacagagc 1860
taccggtgtc agattagaat ctggtgaaga acaccacgct gatgttgtca ttgtcaatgc 1920
tgacttggtc tacgcttctg aacatttgat tccagatgat gctagaaaca agatcggtca 1980
attaggtgaa gttaagcgtt cctggtgggc tgatttggtt ggtggtaaga agttgaaggg 2040
ttcttgttct tctttgtctt tctactggtc tatggacaga atcgttgacg gtttgggtgg 2100
tcacaacatc ttcttggctg aagacttcaa gggttccttc gacaccattt tcgaagaatt 2160
gggtttgcca gctgacccat ctttctatgt taacgttcca tccagaattg acccttctgc 2220
tgctccagaa ggtaaggatg ccattgtcat cttagtccca tgtggtcaca tcgatgcttc 2280
caaccctcaa gactacaaca aattggttgc cagagccaga aagttcgtca tccaaacctt 2340
gtctgccaag ttgggtctac cagatttcga aaagatgatt gttgctgaaa aggttcacga 2400
tgctccatcc tgggaaaagg aattcaactt gaaggacggt tccattttgg gtttggctca 2460
caacttcatg caagtcttgg gtttcagacc atccaccaga cacccaaagt acgacaaatt 2520
gttctttgtc ggtgcttcta cccacccagg tactggtgtt ccaattgtct tggctggtgc 2580
caaattgact gctaaccaag ttttggaatc cttcgatcgt tctccagctc cagatcctaa 2640
catgtctttg tctgttccat acggtaagcc attgaaatcc aacggtactg gtattgactc 2700
tcaagtccaa ttgaaattca tggacttgga acgttgggtt tacctattag tcttgttgat 2760
tggtgctgtt atcgccagat ccgtcggtgt cttggccttt taaaggaagt atctcggaaa 2820
tattaattta ggccatgtcc ttatgcacgt ttcttttgat acttacgggt acatgtacac 2880
aagtatatct atatatataa attaatgaaa atcccctatt tatatatatg actttaacga 2940
gacagaacag ttttttattt tttatcctat ttgatgaatg atacagtttc ttattcacgt 3000
gttataccca caccaaatcc aatagcaata ccggccatca caatcactgt ttcggcagcc 3060
cctaagatca gacaaaacat ccggaaccac cttaaatcaa cgtccctcac gctttccggc 3120
atcttccaga ccacagtata tccatccgcc tcctgttg 3158
<210> 47
<211> 2534
<212> DNA
<213> artificial sequence
<220>
<223> donor expression cassette sequence with 50 bp LF and RF flanks
(PCR fragment). Homology to INT1 - Low p (KlTDH2p) - crtE -
ScTDH3t - Homology to INT1
<400> 47
catgcctatc cggcggcaac attattactc tggtatacgg gcgtaactcc acgtaaaaac 60
taaaacgagc ccccaccaaa gaacaaaaaa gaaggtgctg ggcccccact ttcttccctt 120
gcacgtgata ggaagatggc tacagaaaca agaagatgga aatcgaagga aagagggaga 180
ctggaagctg taaaaactga aatgaaaaaa aaaaaaaaaa aaaaaaaaca agaagctgaa 240
aatggaagac tgaaatttga aaaatggtaa aaaaaaaaaa gaaacacgaa gctaaaaacc 300
tggattccat tttgagaaga agcaagaaag gtaagtatgg taacgaccgt acaggcaagc 360
gcgaaggcaa atggaaaagc tggagtccgg aagataatca tttcatcttc ttttgttaga 420
acagaacagt ggatgtccct catctcggta acgtattgtc catgccctag aactctctgt 480
ccctaaaaag aggacaaaaa cccaatggtt tccccagctt ccagtggagc caccgatccc 540
actggaaacc actggacagg aagagaaaat cacggacttc ctctattgaa ggataattca 600
acactttcac cagatcccaa atgtcccgcc cctattcccg tgttccatca cgtaccataa 660
cttaccattt catcacgttc tctatggcac actggtactg cttcgactgc tttgcttcat 720
cttctctatg ggccaatgag ctaatgagca caatgtgctg cgaaataaag ggatatctaa 780
tttatattat tacattataa tatgtactag tgtggttatt ggtaattgta cttaattttg 840
atatataaag ggtggatctt tttcattttg aatcagaatt ggaattgcaa cttgtctctt 900
gtcactatta cttaatagta attatatttc ttattaacct tttttttaag tcaaaacacc 960
aaggacaaga actactcttc aaaggtattt caagttatca tacgtgtcac acacgcttca 1020
cagtttcaag taaaaaaaaa gaatattaca caatggacta cgctaacatc ttgactgcca 1080
ttcctttgga attcacccca caagatgaca ttgtcttgtt ggaaccatac cactacttag 1140
gtaagaaccc aggtaaggaa atcagatctc aattgattga agctttcaac tactggttag 1200
atgtcaagaa ggaagacttg gaagttatcc aaaatgttgt tggtatgttg cacaccgctt 1260
ctttgttgat ggatgatgtt gaagattctt ccgtcttgag aagaggttct ccagttgctc 1320
atttgatcta cggtattcca caaaccatca acactgctaa ctacgtttac ttcttggctt 1380
accaagaaat cttcaaattg cgtccaactc caattccaat gccagttatc ccaccatctt 1440
ctgcttcttt gcaatcttct gtctcctccg cctcctcttc ctcttctgcc tcctctgaaa 1500
acggtggtac ctccactcca aactcccaaa tcccattctc caaggacacc tacttggaca 1560
aggttatcac tgacgaaatg ttgtctttgc accgtggtca aggtttggaa ttattctgga 1620
gagactcttt gacctgtcca tctgaagaag aatacgtcaa gatggtcttg ggtaagaccg 1680
gtggtttgtt cagaattgct gtcagattga tgatggccaa gtctgaatgt gacattgact 1740
ttgttcaatt ggttaacttg atttccatct acttccaaat cagagatgac tacatgaact 1800
tgcaatcctc tgaatacgct cacaacaaga acttcgctga agacttgact gaaggtaagt 1860
tctccttccc aaccattcac tccattcacg ctaacccatc ttccagattg gttatcaaca 1920
ctttacaaaa gaagtccact tctccagaaa tcttacatca ctgtgtcaac tacatgagaa 1980
ctgaaaccca ctctttcgaa tacactcaag aagtcttgaa cactttatct ggtgctttgg 2040
aaagagaatt gggtagatta caaggtgaat ttgctgaagc taactccaag atcgatttgg 2100
gtgacgttga atctgaaggt agaaccggta agaacgtcaa attggaagcc atcttgaaga 2160
aattggctga tatccctcta taaagtgaat ttactttaaa tcttgcattt aaataaattt 2220
tctttttata gctttatgac ttagtttcaa tttatatact attttaatga cattttcgat 2280
tcattgattg aaagctttgt gttttttctt gatgcgctat tgcattgttc ttgtcttttt 2340
cgccacatgt aatatctgta gtagatacct gatacattgt ggatgctgag tgaaatttta 2400
gttaataatg gaggcgctct taataatttt ggggatattg gctttttttt ttaaagttta 2460
caaatgaatt ttttccgcca ggatgaagta tggatctttg aaaccctttt attttatttt 2520
acttttttta gaat 2534
<210> 48
<211> 2530
<212> DNA
<213> artificial sequence
<220>
<223> donor expression cassette sequence with 50 bp LF and RF flanks
(PCR fragment). Homology to INT1 - Med p (KlPGK1p) - crtE -
ScTDH3t - Homology to INT1
<400> 48
catgcctatc cggcggcaac attattactc tggtatacgg gcgtaactcc acctcatcac 60
tagaagccga actgttgtct tcagtgggga ttggttcgac attttgccaa ttgctgtcga 120
tgtacccttt caaagccatg taccttaaat cttcatcctt ggcaagtaga ttcatcgggt 180
gtgtttgaag taagaatatt tgcttgtttt tatggtatca aaggtatatg ttgtagaaga 240
caatttccgg taatccaatt gtctgtctgc tcagtttagc acatgtatag tacgttgcac 300
atagtctaca atattcagca ttcagcattc agtatacagc atatggctaa atgatcacaa 360
atgtgattga tgatttgaca cgactagaaa agagaacgaa aaagggaaat tccatgtcac 420
gtgcgttggc acgtgacatg gaatatcgaa gaaagaaaaa aaaaacgatc tcgtcctagt 480
ggaagcccag agtctggtcc ccccggagtc ttcccaaaac aagaagctga cacatgttga 540
cacagaacac cccacagcaa atgcaccacg ctacgtagat caggaagctt aactctagcg 600
acctgtcgct cgccccacag aacctcaccc gagaaccaca cattacacgc cgccagctcc 660
cactatactc atcttgcttc ccttaagcgt tctcacgatt cgttcgctgc ccttcttcaa 720
gagtcttctg attctaattc tcattcgaaa tcctctacag ttaatgaatt gcttgacatg 780
acattcattg tctcatggtt ttggcttttt ggcttttgtc ttttaaagct atatcaactt 840
tacatataaa tatacgtcaa aaggggattc attaattaga aaattctctt tttcaatagt 900
tgctattcat tatcaatcta ttcaactcaa ttggttatta ttttcatctt tttgtcatcc 960
taaaccatca acaatattta aatatatctg ttgctacatt aagagttact tcagaaataa 1020
caaaaaaatc gatcaagaat taataaaaat ggactacgct aacatcttga ctgccattcc 1080
tttggaattc accccacaag atgacattgt cttgttggaa ccataccact acttaggtaa 1140
gaacccaggt aaggaaatca gatctcaatt gattgaagct ttcaactact ggttagatgt 1200
caagaaggaa gacttggaag ttatccaaaa tgttgttggt atgttgcaca ccgcttcttt 1260
gttgatggat gatgttgaag attcttccgt cttgagaaga ggttctccag ttgctcattt 1320
gatctacggt attccacaaa ccatcaacac tgctaactac gtttacttct tggcttacca 1380
agaaatcttc aaattgcgtc caactccaat tccaatgcca gttatcccac catcttctgc 1440
ttctttgcaa tcttctgtct cctccgcctc ctcttcctct tctgcctcct ctgaaaacgg 1500
tggtacctcc actccaaact cccaaatccc attctccaag gacacctact tggacaaggt 1560
tatcactgac gaaatgttgt ctttgcaccg tggtcaaggt ttggaattat tctggagaga 1620
ctctttgacc tgtccatctg aagaagaata cgtcaagatg gtcttgggta agaccggtgg 1680
tttgttcaga attgctgtca gattgatgat ggccaagtct gaatgtgaca ttgactttgt 1740
tcaattggtt aacttgattt ccatctactt ccaaatcaga gatgactaca tgaacttgca 1800
atcctctgaa tacgctcaca acaagaactt cgctgaagac ttgactgaag gtaagttctc 1860
cttcccaacc attcactcca ttcacgctaa cccatcttcc agattggtta tcaacacttt 1920
acaaaagaag tccacttctc cagaaatctt acatcactgt gtcaactaca tgagaactga 1980
aacccactct ttcgaataca ctcaagaagt cttgaacact ttatctggtg ctttggaaag 2040
agaattgggt agattacaag gtgaatttgc tgaagctaac tccaagatcg atttgggtga 2100
cgttgaatct gaaggtagaa ccggtaagaa cgtcaaattg gaagccatct tgaagaaatt 2160
ggctgatatc cctctataaa gtgaatttac tttaaatctt gcatttaaat aaattttctt 2220
tttatagctt tatgacttag tttcaattta tatactattt taatgacatt ttcgattcat 2280
tgattgaaag ctttgtgttt tttcttgatg cgctattgca ttgttcttgt ctttttcgcc 2340
acatgtaata tctgtagtag atacctgata cattgtggat gctgagtgaa attttagtta 2400
ataatggagg cgctcttaat aattttgggg atattggctt ttttttttaa agtttacaaa 2460
tgaatttttt ccgccaggat gaagtatgga tctttgaaac ccttttattt tattttactt 2520
tttttagaat 2530
<210> 49
<211> 2130
<212> DNA
<213> artificial sequence
<220>
<223> donor expression cassette sequence with 50 bp LF and RF flanks
(PCR fragment). Homology to INT1 - Strong p (ScFBA1p) - crtE -
ScTDH3t -Homology to INT1
<400> 49
catgcctatc cggcggcaac attattactc tggtatacgg gcgtaactcc acttggcttc 60
acatacgttg catacgtcga tatagataat aatgataatg acagcaggat tatcgtaata 120
cgtaatagtt gaaaatctca aaaatgtgtg ggtcattacg taaataatga taggaatggg 180
attcttctat ttttcctttt tccattctag cagccgtcgg gaaaacgtgg catcctctct 240
ttcgggctca attggagtca cgctgccgtg agcatcctct ctttccatat ctaacaactg 300
agcacgtaac caatggaaaa gcatgagctt agcgttgctc caaaaaagta ttggatggtt 360
aataccattt gtctgttctc ttctgacttt gactcctcaa aaaaaaaaaa tctacaatca 420
acagatcgct tcaattacgc cctcacaaaa acttttttcc ttcttcttcg cccacgttaa 480
attttatccc tcatgttgtc taacggattt ctgcacttga tttattataa aaagacaaag 540
acataatact tctctatcaa tttcagttat tgttcttcct tgcgttattc ttctgttctt 600
ctttttcttt tgtcatatat aaccataacc aagtaataca tattcaaaat ggactacgct 660
aacatcttga ctgccattcc tttggaattc accccacaag atgacattgt cttgttggaa 720
ccataccact acttaggtaa gaacccaggt aaggaaatca gatctcaatt gattgaagct 780
ttcaactact ggttagatgt caagaaggaa gacttggaag ttatccaaaa tgttgttggt 840
atgttgcaca ccgcttcttt gttgatggat gatgttgaag attcttccgt cttgagaaga 900
ggttctccag ttgctcattt gatctacggt attccacaaa ccatcaacac tgctaactac 960
gtttacttct tggcttacca agaaatcttc aaattgcgtc caactccaat tccaatgcca 1020
gttatcccac catcttctgc ttctttgcaa tcttctgtct cctccgcctc ctcttcctct 1080
tctgcctcct ctgaaaacgg tggtacctcc actccaaact cccaaatccc attctccaag 1140
gacacctact tggacaaggt tatcactgac gaaatgttgt ctttgcaccg tggtcaaggt 1200
ttggaattat tctggagaga ctctttgacc tgtccatctg aagaagaata cgtcaagatg 1260
gtcttgggta agaccggtgg tttgttcaga attgctgtca gattgatgat ggccaagtct 1320
gaatgtgaca ttgactttgt tcaattggtt aacttgattt ccatctactt ccaaatcaga 1380
gatgactaca tgaacttgca atcctctgaa tacgctcaca acaagaactt cgctgaagac 1440
ttgactgaag gtaagttctc cttcccaacc attcactcca ttcacgctaa cccatcttcc 1500
agattggtta tcaacacttt acaaaagaag tccacttctc cagaaatctt acatcactgt 1560
gtcaactaca tgagaactga aacccactct ttcgaataca ctcaagaagt cttgaacact 1620
ttatctggtg ctttggaaag agaattgggt agattacaag gtgaatttgc tgaagctaac 1680
tccaagatcg atttgggtga cgttgaatct gaaggtagaa ccggtaagaa cgtcaaattg 1740
gaagccatct tgaagaaatt ggctgatatc cctctataaa gtgaatttac tttaaatctt 1800
gcatttaaat aaattttctt tttatagctt tatgacttag tttcaattta tatactattt 1860
taatgacatt ttcgattcat tgattgaaag ctttgtgttt tttcttgatg cgctattgca 1920
ttgttcttgt ctttttcgcc acatgtaata tctgtagtag atacctgata cattgtggat 1980
gctgagtgaa attttagtta ataatggagg cgctcttaat aattttgggg atattggctt 2040
ttttttttaa agtttacaaa tgaatttttt ccgccaggat gaagtatgga tctttgaaac 2100
ccttttattt tattttactt tttttagaat 2130
<210> 50
<211> 3428
<212> DNA
<213> artificial sequence
<220>
<223> donor expression cassette sequence with 50 bp LF and RF flanks
(PCR fragment). Homology to INT2 - Low p (KlYDR1p) - crtYB -
ScPDC1t - Homology to INT2
<400> 50
caaaccgcag attgcgtcac ggttctgcgg acgccgttag cccattggtg tcaagttttc 60
tttttttgcg gtcaccccca tgtggcgggg aggcagagga gtaggtagag caacgaatcc 120
tactatttat ccaaattagt ctaggaactc tttttctaga ttttttagat ttgagggcaa 180
gcgctgttaa cgactcagaa atgtaagcac tacggagtag aacgagaaat ccgccatagg 240
tggaaatcct agcaaaatct tgcttaccct agctagcctc aggtaagcta gccttagcct 300
gtcaaatttt tttcaaaatt tggtaagttt ctactagcaa agcaaacacg gttcaacaaa 360
ccgaaaactc cactcattat acgtggaaac cgaaacaaaa aaacaaaaac caaaatactc 420
gccaatgaga aagttgctgc gtttctactt tcgaggaaga ggaactgaga ggattgacta 480
cgaaaggggc aaaaacgagt cgtattctcc cattattgtc tgctaccacg cggtctagta 540
gaataagcaa ccagtcaacg ctaagacagg taatcaaaat accagtctgc tggctacggg 600
ctagttttta cctcttttag aacccactgt aaaagtccgt tgtaaagccc gttctcactg 660
ttggcgtttt tttttttttg gtttagtttc ttatttttca tttttttctt tcatgaccaa 720
aaacaaacaa atctcgcgat ttgtactgcg gccactgggg cgtggccaaa aaaatgacaa 780
atttagaaac cttagtttct gatttttcct gttatgagga gatatgataa aaaatattac 840
tgctttattg tttttttttt atctactgaa atagagaaac ttacccaagg aggaggcaaa 900
aaaaagagta tatatacagc aggtaccatt cagattttaa tatattcttt tctcttcttc 960
tacactatta ttataataat tttactatat tcatttttag cttaaaacct catagaatat 1020
tattcttcag tcactcgctt aaatacttat caaaaatgac cgctttggct tactaccaaa 1080
tccacttgat ctacactttg ccaatcttag gtttgctagg tttgttgact tctccaattt 1140
tgaccaaatt cgacatctac aagatttcta tcttagtctt tattgctttc tctgctacca 1200
ctccatggga ctcctggatc atcagaaacg gtgcctggac ctacccatct gctgaatctg 1260
gtcaaggtgt tttcggtacc tttttggatg tcccatacga agaatacgcc ttctttgtta 1320
tccaaaccgt catcaccggt ttggtttacg ttttggctac cagacatttg ttgccatctt 1380
tggctctacc aaagacccgt tcttctgcct tgtctctagc tttgaaggct ttaatcccat 1440
tgccaatcat ctatttgttc accgctcatc catctccatc cccagatcct ttggttactg 1500
accactactt ctacatgaga gctttgtctt tgttgatcac cccaccaacc atgttgttgg 1560
ctgctttatc tggtgaatac gctttcgact ggaaatctgg tagagctaag tccaccattg 1620
ctgccatcat gatcccaact gtctacttga tctgggttga ctacgttgcc gttggtcaag 1680
actcctggtc catcaacgat gaaaagattg tcggttggag attaggtggt gtcttgccaa 1740
ttgaagaagc tatgttcttc ttattgacca acttgatgat cgttttgggt ttgtctgcct 1800
gtgaccacac tcaagccttg tacttgttgc acggtagaac tatctacggt aacaagaaga 1860
tgccatcttc tttcccatta atcactccac cagttttgtc cttgttcttc tcctccagac 1920
catactcctc ccaaccaaag agagatttgg aattggctgt caagttgttg gaaaagaagt 1980
ccagatcttt cttcgttgct tctgccggtt tcccatctga agtcagagaa agattggttg 2040
gtttgtacgc tttctgtcgt gtcaccgatg acttgattga ctctccagaa gtttcctcca 2100
acccacacgc taccattgac atggtttccg atttcttgac tttattattc ggtcctccat 2160
tgcacccatc tcaaccagac aagattttgt cttctccatt attaccacct tcccacccat 2220
ccagaccaac tggtatgtac ccattaccac cacctccatc tttgtctcca gctgaattgg 2280
tccaattctt gactgaacgt gtcccagttc aataccactt cgctttcaga ttgttggcca 2340
aattgcaagg tttgattcca agatacccat tggatgaatt attgagaggt tacaccactg 2400
acttgatctt cccattgtcc actgaagccg tccaagctag aaagacccca attgaaacta 2460
ctgctgactt gttggactac ggtttgtgtg ttgccggttc tgttgctgaa ttgttggtct 2520
acgtttcctg ggcttccgct ccatcccaag ttccagctac tattgaagaa agagaagctg 2580
ttttggtcgc ctctcgtgaa atgggtaccg ctttgcaatt ggtcaacatt gccagagata 2640
tcaagggtga cgctactgaa ggtagattct acttgccatt gtctttcttt ggtttgagag 2700
atgaatccaa attggccatt ccaactgact ggactgaacc aagacctcaa gatttcgaca 2760
aattgttgtc tctatctcca tcttccactt taccatcctc taacgcttct gaatccttca 2820
gattcgaatg gaagacctac tctttgccat tggttgctta cgctgaagat ttggctaagc 2880
actcttacaa gggtattgac agattaccaa ctgaagtcca agctggtatg agagctgctt 2940
gtgcttctta cttgttgatt ggtcgtgaaa tcaaggttgt ctggaagggt gatgtcggtg 3000
aaagaagaac cgttgctggt tggagaagag tcagaaaggt tttgtctgtt gtcatgtccg 3060
gttgggaagg tcaataaagc gatttaatct ctaattatta gttaaagttt tataagcatt 3120
tttatgtaac gaaaaataaa ttggttcata ttattactgc actgtcactt accatggaaa 3180
gaccagacaa gaagttgccg acagtctgtt gaattggcct ggttaggctt aagtctgggt 3240
ccgcttcttt acaaatttgg agaatttctc ttaaacgata tgtatattct tttcgttgga 3300
aaagatgtct tccaaaaaaa aaaccgatga attagtggaa ccaaggaaaa aaaaagaggt 3360
atccttgatt aaggaacaga acaatactga ttgcgttacc ccaagcttat cccacgtagt 3420
tttgtgtc 3428
<210> 51
<211> 3420
<212> DNA
<213> artificial sequence
<220>
<223> donor expression cassette sequence with 50 bp LF and RF flanks
(PCR fragment). Homology to INT2 - Med p (KlTEF2p) - crtYB -
ScPDC1t - Homology to INT2
<400> 51
cgcagattgc gtcacggttc tgcggacgcc gttagcccat tggtgtcaag cctgtccaag 60
caaatgcctt ctcataaatg gtgccaaaga cccgcaagcc caaagcaatt accccccaaa 120
aagaaatgat atagtgcaag atacgtatat gaccatgact tgactaggtg aaacagtgca 180
gaaacagccg cacaaaagca gccctaaccc tcagagtcga ttttactctt tcaggtaata 240
aagcctcgac atcaatttta gacagaagcc aggctggcct cgagattata gccataggca 300
agcaagagga gagaagggga ggccccccat ggggggcctc ccccccgctg tcaaggtttg 360
gcagaaccta gcttcattag gccactagcc cagcctaaaa cgtcaacggg caggaggaac 420
actcccacaa gacggcgtag tattctcgat tcataaccat tttctcaatc gaattacaca 480
gaacacaccg tacaaacctc tctatcataa ctacttaata gtcacacacg tactcgtcta 540
aatacacatc atcgtcctac aagttcatca aagtgttgga cagacaacta taccagcatg 600
gatctcttgt atcggttctt ttctcccgct ctctcgcaat aacaatgaac actgggtcaa 660
tcatagccta cacaggtgaa cagagtagcg tttatacagg gtttatacgg tgattcctac 720
ggcaaaaatt tttcatttct aaaaaaaaaa agaaaaattt ttctttccaa cgctagaagg 780
aaaagaaaaa tctaattaaa ttgatttggt gattttctga gagttccctt tttcatatat 840
cgaattttga atataaaagg agatcgaaaa aatttttcta ttcaatctgt tttctggttt 900
tatttgatag tttttttgtg tattattatt atggattagt actggtttat atgggttttt 960
ctgtataact tctttttatt ttagtttgtt taatcttatt ttgagttaca ttatagttcc 1020
ctaactgcaa gagaagtaac attaaaaatg accgctttgg cttactacca aatccacttg 1080
atctacactt tgccaatctt aggtttgcta ggtttgttga cttctccaat tttgaccaaa 1140
ttcgacatct acaagatttc tatcttagtc tttattgctt tctctgctac cactccatgg 1200
gactcctgga tcatcagaaa cggtgcctgg acctacccat ctgctgaatc tggtcaaggt 1260
gttttcggta cctttttgga tgtcccatac gaagaatacg ccttctttgt tatccaaacc 1320
gtcatcaccg gtttggttta cgttttggct accagacatt tgttgccatc tttggctcta 1380
ccaaagaccc gttcttctgc cttgtctcta gctttgaagg ctttaatccc attgccaatc 1440
atctatttgt tcaccgctca tccatctcca tccccagatc ctttggttac tgaccactac 1500
ttctacatga gagctttgtc tttgttgatc accccaccaa ccatgttgtt ggctgcttta 1560
tctggtgaat acgctttcga ctggaaatct ggtagagcta agtccaccat tgctgccatc 1620
atgatcccaa ctgtctactt gatctgggtt gactacgttg ccgttggtca agactcctgg 1680
tccatcaacg atgaaaagat tgtcggttgg agattaggtg gtgtcttgcc aattgaagaa 1740
gctatgttct tcttattgac caacttgatg atcgttttgg gtttgtctgc ctgtgaccac 1800
actcaagcct tgtacttgtt gcacggtaga actatctacg gtaacaagaa gatgccatct 1860
tctttcccat taatcactcc accagttttg tccttgttct tctcctccag accatactcc 1920
tcccaaccaa agagagattt ggaattggct gtcaagttgt tggaaaagaa gtccagatct 1980
ttcttcgttg cttctgccgg tttcccatct gaagtcagag aaagattggt tggtttgtac 2040
gctttctgtc gtgtcaccga tgacttgatt gactctccag aagtttcctc caacccacac 2100
gctaccattg acatggtttc cgatttcttg actttattat tcggtcctcc attgcaccca 2160
tctcaaccag acaagatttt gtcttctcca ttattaccac cttcccaccc atccagacca 2220
actggtatgt acccattacc accacctcca tctttgtctc cagctgaatt ggtccaattc 2280
ttgactgaac gtgtcccagt tcaataccac ttcgctttca gattgttggc caaattgcaa 2340
ggtttgattc caagataccc attggatgaa ttattgagag gttacaccac tgacttgatc 2400
ttcccattgt ccactgaagc cgtccaagct agaaagaccc caattgaaac tactgctgac 2460
ttgttggact acggtttgtg tgttgccggt tctgttgctg aattgttggt ctacgtttcc 2520
tgggcttccg ctccatccca agttccagct actattgaag aaagagaagc tgttttggtc 2580
gcctctcgtg aaatgggtac cgctttgcaa ttggtcaaca ttgccagaga tatcaagggt 2640
gacgctactg aaggtagatt ctacttgcca ttgtctttct ttggtttgag agatgaatcc 2700
aaattggcca ttccaactga ctggactgaa ccaagacctc aagatttcga caaattgttg 2760
tctctatctc catcttccac tttaccatcc tctaacgctt ctgaatcctt cagattcgaa 2820
tggaagacct actctttgcc attggttgct tacgctgaag atttggctaa gcactcttac 2880
aagggtattg acagattacc aactgaagtc caagctggta tgagagctgc ttgtgcttct 2940
tacttgttga ttggtcgtga aatcaaggtt gtctggaagg gtgatgtcgg tgaaagaaga 3000
accgttgctg gttggagaag agtcagaaag gttttgtctg ttgtcatgtc cggttgggaa 3060
ggtcaataaa gcgatttaat ctctaattat tagttaaagt tttataagca tttttatgta 3120
acgaaaaata aattggttca tattattact gcactgtcac ttaccatgga aagaccagac 3180
aagaagttgc cgacagtctg ttgaattggc ctggttaggc ttaagtctgg gtccgcttct 3240
ttacaaattt ggagaatttc tcttaaacga tatgtatatt cttttcgttg gaaaagatgt 3300
cttccaaaaa aaaaaccgat gaattagtgg aaccaaggaa aaaaaaagag gtatccttga 3360
ttaaggaaca gaacaatact gattgcgtta ccccaagctt atcccacgta gttttgtgtc 3420
<210> 52
<211> 3025
<212> DNA
<213> artificial sequence
<220>
<223> donor expression cassette sequence with 50 bp LF and RF flanks
(PCR fragment). Homology to INT2 - Strong p (ScTEF1p) - crtYB -
ScPDC1t - Homology to INT2
<400> 52
caaaccgcag attgcgtcac ggttctgcgg acgccgttag cccattggtg tcaaggctga 60
taatagcgta taaacaatgc atactttgta cgttcaaaat acaatgcagt agatatattt 120
atgcatatta catataatac atatcacata ggaagcaaca ggcgcgttgg acttttaatt 180
ttcgaggacc gcgaatcctt acatcacacc caatccccca caagtgatcc cccacacacc 240
atagcttcaa aatgtttcta ctcctttttt actcttccag attttctcgg actccgcgca 300
tcgccgtacc acttcaaaac acccaagcac agcatactaa atttcccctc tttcttcctc 360
tagggtgtcg ttaattaccc gtactaaagg tttggaaaag aaaaaagaca ccgcctcgtt 420
tctttttctt cgtcgaaaaa ggcaataaaa atttttatca cgtttctttt tcttgaaaat 480
tttttttttt gatttttttc tctttcgatg acctcccatt gatatttaag ttaataaacg 540
gtcttcaatt tctcaagttt cagtttcatt tttcttgttc tattacaact ttttttactt 600
cttgctcatt agaaagaaag catagcaatc taatctaagt tttaattaca aaatgaccgc 660
tttggcttac taccaaatcc acttgatcta cactttgcca atcttaggtt tgctaggttt 720
gttgacttct ccaattttga ccaaattcga catctacaag atttctatct tagtctttat 780
tgctttctct gctaccactc catgggactc ctggatcatc agaaacggtg cctggaccta 840
cccatctgct gaatctggtc aaggtgtttt cggtaccttt ttggatgtcc catacgaaga 900
atacgccttc tttgttatcc aaaccgtcat caccggtttg gtttacgttt tggctaccag 960
acatttgttg ccatctttgg ctctaccaaa gacccgttct tctgccttgt ctctagcttt 1020
gaaggcttta atcccattgc caatcatcta tttgttcacc gctcatccat ctccatcccc 1080
agatcctttg gttactgacc actacttcta catgagagct ttgtctttgt tgatcacccc 1140
accaaccatg ttgttggctg ctttatctgg tgaatacgct ttcgactgga aatctggtag 1200
agctaagtcc accattgctg ccatcatgat cccaactgtc tacttgatct gggttgacta 1260
cgttgccgtt ggtcaagact cctggtccat caacgatgaa aagattgtcg gttggagatt 1320
aggtggtgtc ttgccaattg aagaagctat gttcttctta ttgaccaact tgatgatcgt 1380
tttgggtttg tctgcctgtg accacactca agccttgtac ttgttgcacg gtagaactat 1440
ctacggtaac aagaagatgc catcttcttt cccattaatc actccaccag ttttgtcctt 1500
gttcttctcc tccagaccat actcctccca accaaagaga gatttggaat tggctgtcaa 1560
gttgttggaa aagaagtcca gatctttctt cgttgcttct gccggtttcc catctgaagt 1620
cagagaaaga ttggttggtt tgtacgcttt ctgtcgtgtc accgatgact tgattgactc 1680
tccagaagtt tcctccaacc cacacgctac cattgacatg gtttccgatt tcttgacttt 1740
attattcggt cctccattgc acccatctca accagacaag attttgtctt ctccattatt 1800
accaccttcc cacccatcca gaccaactgg tatgtaccca ttaccaccac ctccatcttt 1860
gtctccagct gaattggtcc aattcttgac tgaacgtgtc ccagttcaat accacttcgc 1920
tttcagattg ttggccaaat tgcaaggttt gattccaaga tacccattgg atgaattatt 1980
gagaggttac accactgact tgatcttccc attgtccact gaagccgtcc aagctagaaa 2040
gaccccaatt gaaactactg ctgacttgtt ggactacggt ttgtgtgttg ccggttctgt 2100
tgctgaattg ttggtctacg tttcctgggc ttccgctcca tcccaagttc cagctactat 2160
tgaagaaaga gaagctgttt tggtcgcctc tcgtgaaatg ggtaccgctt tgcaattggt 2220
caacattgcc agagatatca agggtgacgc tactgaaggt agattctact tgccattgtc 2280
tttctttggt ttgagagatg aatccaaatt ggccattcca actgactgga ctgaaccaag 2340
acctcaagat ttcgacaaat tgttgtctct atctccatct tccactttac catcctctaa 2400
cgcttctgaa tccttcagat tcgaatggaa gacctactct ttgccattgg ttgcttacgc 2460
tgaagatttg gctaagcact cttacaaggg tattgacaga ttaccaactg aagtccaagc 2520
tggtatgaga gctgcttgtg cttcttactt gttgattggt cgtgaaatca aggttgtctg 2580
gaagggtgat gtcggtgaaa gaagaaccgt tgctggttgg agaagagtca gaaaggtttt 2640
gtctgttgtc atgtccggtt gggaaggtca ataaagcgat ttaatctcta attattagtt 2700
aaagttttat aagcattttt atgtaacgaa aaataaattg gttcatatta ttactgcact 2760
gtcacttacc atggaaagac cagacaagaa gttgccgaca gtctgttgaa ttggcctggt 2820
taggcttaag tctgggtccg cttctttaca aatttggaga atttctctta aacgatatgt 2880
atattctttt cgttggaaaa gatgtcttcc aaaaaaaaaa ccgatgaatt agtggaacca 2940
aggaaaaaaa aagaggtatc cttgattaag gaacagaaca atactgattg cgttacccca 3000
agcttatccc acgtagtttt gtgtc 3025
<210> 53
<211> 2748
<212> DNA
<213> artificial sequence
<220>
<223> donor expression cassette sequence with 50 bp LF and RF flanks
(PCR fragment). Homology to INT3 - Low p (ScPRE3p) - crtI -
ScTAL1t - Homology to INT3
<400> 53
gtccttgtat ggaagtatca aaggggacgt tcttcacctc cttggaacaa acattaattt 60
gttctgcata ctttgaacct ttcagaaaat aaaaaacatt acgcgcatac ttaccctgct 120
cgcgaagaag agtaacacta acgcattcta tgggcaattg aagacagtat tcagtacaag 180
acatagtccg tttccttgag tcaattccta tagcattatg aactagccgc ctttaagagt 240
gccaagctgt tcaacaccga tcatttttga tgatttggcg tttttgttat attgatagat 300
ttcttttgaa ttttgtcatt ttcacttttc cactcgcaac ggaatccggt ggcaaaaaag 360
ggaaaagcat tgaaatgcaa tctttaacag tattttaaac aagttgcgac acggtgtaca 420
attacgataa gaattgctac ttcaaagtac acacagaaag ttaacatgaa tggaattcaa 480
gtggacatca atcgtttgaa aaagggcgaa gtcagtttag gtacctcaat gtatgtatat 540
aagaattttt cctcccactt tattgtttct aaaagttcaa tgaagtaaag tctcaattgg 600
ccttattact aactaatagg tatcttataa tcacctaata aaatagaatg ggtaaggaac 660
aagaccaaga caagccaact gccatcatcg ttggttgtgg tatcggtggt attgctaccg 720
ctgccagatt agctaaggaa ggtttccaag ttaccgtctt tgaaaagaac gactactccg 780
gtggtagatg ttctttgatt gaaagagatg gttacagatt cgaccaaggt ccatctttgt 840
tgctattacc agacttgttc aagcaaacct tcgaagattt gggtgaaaag atggaagact 900
gggttgattt gatcaagtgt gaaccaaact acgtttgtca cttccatgat gaagaaactt 960
tcaccttctc cactgacatg gctttattga agagagaagt cgaaagattt gaaggtaaag 1020
atggtttcga cagattcttg tctttcatcc aagaagctca cagacattac gaattggctg 1080
ttgtccacgt cttgcaaaag aacttcccag gtttcgctgc tttcttgaga ttacaattca 1140
tcggtcaaat cttagctttg cacccatttg aatccatctg gaccagagtt tgtcgttact 1200
tcaagactga cagattgaga agagtcttct cctttgccgt tatgtacatg ggtcaatctc 1260
catactctgc tccaggtacc tactccttgt tgcaatacac tgaattgact gaaggtatct 1320
ggtacccaag aggtggtttc tggcaagttc caaacacttt gttgcaaatc gtcaagagaa 1380
acaacccatc tgctaagttc aacttcaacg ctccagtttc tcaagttttg ttgtctccag 1440
ctaaggacag agctaccggt gtcagattag aatctggtga agaacaccac gctgatgttg 1500
tcattgtcaa tgctgacttg gtctacgctt ctgaacattt gattccagat gatgctagaa 1560
acaagatcgg tcaattaggt gaagttaagc gttcctggtg ggctgatttg gttggtggta 1620
agaagttgaa gggttcttgt tcttctttgt ctttctactg gtctatggac agaatcgttg 1680
acggtttggg tggtcacaac atcttcttgg ctgaagactt caagggttcc ttcgacacca 1740
ttttcgaaga attgggtttg ccagctgacc catctttcta tgttaacgtt ccatccagaa 1800
ttgacccttc tgctgctcca gaaggtaagg atgccattgt catcttagtc ccatgtggtc 1860
acatcgatgc ttccaaccct caagactaca acaaattggt tgccagagcc agaaagttcg 1920
tcatccaaac cttgtctgcc aagttgggtc taccagattt cgaaaagatg attgttgctg 1980
aaaaggttca cgatgctcca tcctgggaaa aggaattcaa cttgaaggac ggttccattt 2040
tgggtttggc tcacaacttc atgcaagtct tgggtttcag accatccacc agacacccaa 2100
agtacgacaa attgttcttt gtcggtgctt ctacccaccc aggtactggt gttccaattg 2160
tcttggctgg tgccaaattg actgctaacc aagttttgga atccttcgat cgttctccag 2220
ctccagatcc taacatgtct ttgtctgttc catacggtaa gccattgaaa tccaacggta 2280
ctggtattga ctctcaagtc caattgaaat tcatggactt ggaacgttgg gtttacctat 2340
tagtcttgtt gattggtgct gttatcgcca gatccgtcgg tgtcttggcc ttttaaagga 2400
agtatctcgg aaatattaat ttaggccatg tccttatgca cgtttctttt gatacttacg 2460
ggtacatgta cacaagtata tctatatata taaattaatg aaaatcccct atttatatat 2520
atgactttaa cgagacagaa cagtttttta ttttttatcc tatttgatga atgatacagt 2580
ttcttattca cgtgttatac ccacaccaaa tccaatagca ataccggcca tcacaatcac 2640
tgtttcggca gcccctaaga tcagacaaaa catccggaac caccttaaat caacgtcgat 2700
gggacgtcag cactgtactt gtttttgcga ctagattgta aatcattc 2748
<210> 54
<211> 2749
<212> DNA
<213> artificial sequence
<220>
<223> donor expression cassette sequence with 50 bp LF and RF flanks
(PCR fragment). Homology to INT3 - Med p (ScACT1p) - crtI -
ScTAL1t - Homology to INT3
<400> 54
cgtccttgta tggaagtatc aaaggggacg ttcttcacct ccttggaaaa catatataca 60
caattacagt aacaataaca agaggacaga tactaccaaa atgtgtgggg aagcgggtaa 120
gctgccacag caattaatgc acaacattta acctacattc ttccttatcg gatcctcaaa 180
acccttaaaa acatatgcct caccctaaca tattttccaa ttaaccctca atatttctct 240
gtcacccggc ctctattttc cattttcttc tttacccgcc acgcgttttt ttctttcaaa 300
tttttttctt ctttcttctt tttcttccac gtcctcttgc ataaataaat aaaccgtttt 360
gaaaccaaac tcgcctctct ctctcctttt tgaaatattt ttgggtttgt ttgatccttt 420
ccttcccaat ctctcttgtt taatatatat tcatttatat cacgctctct ttttatcttc 480
ctttttttcc tctctcttgt attcttcctt cccctttcta ctcaaaccaa gaagaaaaag 540
aaaaggtcaa tctttgttaa agaataggat cttctactac atcagctttt agatttttca 600
cgcttactgc ttttttcttc ccaagatcga aaatttactg aattaacaat gggtaaggaa 660
caagaccaag acaagccaac tgccatcatc gttggttgtg gtatcggtgg tattgctacc 720
gctgccagat tagctaagga aggtttccaa gttaccgtct ttgaaaagaa cgactactcc 780
ggtggtagat gttctttgat tgaaagagat ggttacagat tcgaccaagg tccatctttg 840
ttgctattac cagacttgtt caagcaaacc ttcgaagatt tgggtgaaaa gatggaagac 900
tgggttgatt tgatcaagtg tgaaccaaac tacgtttgtc acttccatga tgaagaaact 960
ttcaccttct ccactgacat ggctttattg aagagagaag tcgaaagatt tgaaggtaaa 1020
gatggtttcg acagattctt gtctttcatc caagaagctc acagacatta cgaattggct 1080
gttgtccacg tcttgcaaaa gaacttccca ggtttcgctg ctttcttgag attacaattc 1140
atcggtcaaa tcttagcttt gcacccattt gaatccatct ggaccagagt ttgtcgttac 1200
ttcaagactg acagattgag aagagtcttc tcctttgccg ttatgtacat gggtcaatct 1260
ccatactctg ctccaggtac ctactccttg ttgcaataca ctgaattgac tgaaggtatc 1320
tggtacccaa gaggtggttt ctggcaagtt ccaaacactt tgttgcaaat cgtcaagaga 1380
aacaacccat ctgctaagtt caacttcaac gctccagttt ctcaagtttt gttgtctcca 1440
gctaaggaca gagctaccgg tgtcagatta gaatctggtg aagaacacca cgctgatgtt 1500
gtcattgtca atgctgactt ggtctacgct tctgaacatt tgattccaga tgatgctaga 1560
aacaagatcg gtcaattagg tgaagttaag cgttcctggt gggctgattt ggttggtggt 1620
aagaagttga agggttcttg ttcttctttg tctttctact ggtctatgga cagaatcgtt 1680
gacggtttgg gtggtcacaa catcttcttg gctgaagact tcaagggttc cttcgacacc 1740
attttcgaag aattgggttt gccagctgac ccatctttct atgttaacgt tccatccaga 1800
attgaccctt ctgctgctcc agaaggtaag gatgccattg tcatcttagt cccatgtggt 1860
cacatcgatg cttccaaccc tcaagactac aacaaattgg ttgccagagc cagaaagttc 1920
gtcatccaaa ccttgtctgc caagttgggt ctaccagatt tcgaaaagat gattgttgct 1980
gaaaaggttc acgatgctcc atcctgggaa aaggaattca acttgaagga cggttccatt 2040
ttgggtttgg ctcacaactt catgcaagtc ttgggtttca gaccatccac cagacaccca 2100
aagtacgaca aattgttctt tgtcggtgct tctacccacc caggtactgg tgttccaatt 2160
gtcttggctg gtgccaaatt gactgctaac caagttttgg aatccttcga tcgttctcca 2220
gctccagatc ctaacatgtc tttgtctgtt ccatacggta agccattgaa atccaacggt 2280
actggtattg actctcaagt ccaattgaaa ttcatggact tggaacgttg ggtttaccta 2340
ttagtcttgt tgattggtgc tgttatcgcc agatccgtcg gtgtcttggc cttttaaagg 2400
aagtatctcg gaaatattaa tttaggccat gtccttatgc acgtttcttt tgatacttac 2460
gggtacatgt acacaagtat atctatatat ataaattaat gaaaatcccc tatttatata 2520
tatgacttta acgagacaga acagtttttt attttttatc ctatttgatg aatgatacag 2580
tttcttattc acgtgttata cccacaccaa atccaatagc aataccggcc atcacaatca 2640
ctgtttcggc agcccctaag atcagacaaa acatccggaa ccaccttaaa tcaacgtcga 2700
tgggacgtca gcactgtact tgtttttgcg actagattgt aaatcattc 2749
<210> 55
<211> 3149
<212> DNA
<213> artificial sequence
<220>
<223> donor expression cassette sequence with 50 bp LF and RF flanks
(PCR fragment). Homology to INT3 - Strong p (KlENO1p) - crtI -
ScTAL1t - Homology to INT3
<400> 55
cgtccttgta tggaagtatc aaaggggacg ttcttcacct ccttggaacg tatccctatc 60
tggattaaca tcactgccac agatcgaatt gcaagaagcc acacttcacg tgatccactc 120
gttcatcagg tttgtagctt catggcgcag gacttctgat gatgaactat ctggctcatc 180
cggatggatc acaaggatgg ataccctcag acagtacgtt tccgtatgga gcgatcttac 240
aagaaccaac agttgatcct attacttttt ttttattttt tgtccctccg ggatggcaag 300
agggacaaag aagaatcttc gttcttcttt cttgttctca acttcccagc ttccgtgtga 360
ttaccctccg ggacaacaga aaaactggca ttcggtatcc cgggaatctg ctgagaagga 420
aagaaaacga aaaaaaaatt gtacatttgt gtcacattat gaattacagg aagtcagaaa 480
acaggcagca catgtctcgc acatgcatgt ccatcagacg agacattatg agacatgcac 540
gcgtgtgaga gacatagcaa aagtctctcc agtacacaca gaaagacacg ttcacaatcc 600
aggcacccca cagagaaaaa aaaaagaaga agcccggaag ctggcacgcc atcatcaacc 660
accgctcggt ttacacgcat cccaactgtc ttttttttct ggaatcctat aataactggc 720
atctggaaat cacgttgtat gttgcaccat agtgactggc tgtctgacta gcaaacattg 780
attccctgat tcccatttgg ctcaattttg atgagaaaca gttgattgat tcttgtcaat 840
ttttttttct ttggaccacc accaaccaat tgacattgaa gtactttccc atgatttgag 900
gttatataaa aggacgttca aatcactttc aaggttaatt cagttttgtc aattgattta 960
agttcaattg ttaacaaatt taatttaatt cgaaacaaac caaaccaatt catttgaatt 1020
aacaaaccaa cccacaaaac aaaaaaaaat gggtaaggaa caagaccaag acaagccaac 1080
tgccatcatc gttggttgtg gtatcggtgg tattgctacc gctgccagat tagctaagga 1140
aggtttccaa gttaccgtct ttgaaaagaa cgactactcc ggtggtagat gttctttgat 1200
tgaaagagat ggttacagat tcgaccaagg tccatctttg ttgctattac cagacttgtt 1260
caagcaaacc ttcgaagatt tgggtgaaaa gatggaagac tgggttgatt tgatcaagtg 1320
tgaaccaaac tacgtttgtc acttccatga tgaagaaact ttcaccttct ccactgacat 1380
ggctttattg aagagagaag tcgaaagatt tgaaggtaaa gatggtttcg acagattctt 1440
gtctttcatc caagaagctc acagacatta cgaattggct gttgtccacg tcttgcaaaa 1500
gaacttccca ggtttcgctg ctttcttgag attacaattc atcggtcaaa tcttagcttt 1560
gcacccattt gaatccatct ggaccagagt ttgtcgttac ttcaagactg acagattgag 1620
aagagtcttc tcctttgccg ttatgtacat gggtcaatct ccatactctg ctccaggtac 1680
ctactccttg ttgcaataca ctgaattgac tgaaggtatc tggtacccaa gaggtggttt 1740
ctggcaagtt ccaaacactt tgttgcaaat cgtcaagaga aacaacccat ctgctaagtt 1800
caacttcaac gctccagttt ctcaagtttt gttgtctcca gctaaggaca gagctaccgg 1860
tgtcagatta gaatctggtg aagaacacca cgctgatgtt gtcattgtca atgctgactt 1920
ggtctacgct tctgaacatt tgattccaga tgatgctaga aacaagatcg gtcaattagg 1980
tgaagttaag cgttcctggt gggctgattt ggttggtggt aagaagttga agggttcttg 2040
ttcttctttg tctttctact ggtctatgga cagaatcgtt gacggtttgg gtggtcacaa 2100
catcttcttg gctgaagact tcaagggttc cttcgacacc attttcgaag aattgggttt 2160
gccagctgac ccatctttct atgttaacgt tccatccaga attgaccctt ctgctgctcc 2220
agaaggtaag gatgccattg tcatcttagt cccatgtggt cacatcgatg cttccaaccc 2280
tcaagactac aacaaattgg ttgccagagc cagaaagttc gtcatccaaa ccttgtctgc 2340
caagttgggt ctaccagatt tcgaaaagat gattgttgct gaaaaggttc acgatgctcc 2400
atcctgggaa aaggaattca acttgaagga cggttccatt ttgggtttgg ctcacaactt 2460
catgcaagtc ttgggtttca gaccatccac cagacaccca aagtacgaca aattgttctt 2520
tgtcggtgct tctacccacc caggtactgg tgttccaatt gtcttggctg gtgccaaatt 2580
gactgctaac caagttttgg aatccttcga tcgttctcca gctccagatc ctaacatgtc 2640
tttgtctgtt ccatacggta agccattgaa atccaacggt actggtattg actctcaagt 2700
ccaattgaaa ttcatggact tggaacgttg ggtttaccta ttagtcttgt tgattggtgc 2760
tgttatcgcc agatccgtcg gtgtcttggc cttttaaagg aagtatctcg gaaatattaa 2820
tttaggccat gtccttatgc acgtttcttt tgatacttac gggtacatgt acacaagtat 2880
atctatatat ataaattaat gaaaatcccc tatttatata tatgacttta acgagacaga 2940
acagtttttt attttttatc ctatttgatg aatgatacag tttcttattc acgtgttata 3000
cccacaccaa atccaatagc aataccggcc atcacaatca ctgtttcggc agcccctaag 3060
atcagacaaa acatccggaa ccaccttaaa tcaacgtcga tgggacgtca gcactgtact 3120
tgtttttgcg actagattgt aaatcattc 3149
<210> 56
<211> 71
<212> DNA
<213> artificial sequence
<220>
<223> forward primer to obtain SEQ ID NO: 47
<400> 56
catgcctatc cggcggcaac attattactc tggtatacgg gcgtaactcc acgtaaaaac 60
taaaacgagc c 71
<210> 57
<211> 74
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer to obtain SEQ ID NO: 47, 48, 49
<400> 57
attctaaaaa aagtaaaata aaataaaagg gtttcaaaga tccatacttc atcctggcgg 60
aaaaaattca tttg 74
<210> 58
<211> 72
<212> DNA
<213> artificial sequence
<220>
<223> forward primer to obtain SEQ ID NO: 48
<400> 58
catgcctatc cggcggcaac attattactc tggtatacgg gcgtaactcc acctcatcac 60
tagaagccga ac 72
<210> 59
<211> 71
<212> DNA
<213> artificial sequence
<220>
<223> forward primer to obtain SEQ ID NO: 49
<400> 59
catgcctatc cggcggcaac attattactc tggtatacgg gcgtaactcc acttggcttc 60
acatacgttg c 71
<210> 60
<211> 84
<212> DNA
<213> artificial sequence
<220>
<223> forward primer to obtain SEQ ID NO: 50
<400> 60
caaaccgcag attgcgtcac ggttctgcgg acgccgttag cccattggtg tcaagttttc 60
tttttttgcg gtcaccccca tgtg 84
<210> 61
<211> 70
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer to obtain SEQ ID NO: 50, 51, 52
<400> 61
gacacaaaac tacgtgggat aagcttgggg taacgcaatc agtattgttc tgttccttaa 60
tcaaggatac 70
<210> 62
<211> 73
<212> DNA
<213> artificial sequence
<220>
<223> forward primer to obtain SEQ ID NO: 51
<400> 62
cgcagattgc gtcacggttc tgcggacgcc gttagcccat tggtgtcaag cctgtccaag 60
caaatgcctt ctc 73
<210> 63
<211> 80
<212> DNA
<213> artificial sequence
<220>
<223> forward primer to obtain SEQ ID NO: 52
<400> 63
caaaccgcag attgcgtcac ggttctgcgg acgccgttag cccattggtg tcaaggctga 60
taatagcgta taaacaatgc 80
<210> 64
<211> 71
<212> DNA
<213> artificial sequence
<220>
<223> forward primer to obtain SEQ ID NO: 53
<400> 64
gtccttgtat ggaagtatca aaggggacgt tcttcacctc cttggaacaa acattaattt 60
gttctgcata c 71
<210> 65
<211> 72
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer to obtain SEQ ID NO: 53, 54, 55
<400> 65
gaatgattta caatctagtc gcaaaaacaa gtacagtgct gacgtcccat cgacgttgat 60
ttaaggtggt tc 72
<210> 66
<211> 73
<212> DNA
<213> artificial sequence
<220>
<223> forward primer to obtain SEQ ID NO: 54
<400> 66
cgtccttgta tggaagtatc aaaggggacg ttcttcacct ccttggaaaa catatataca 60
caattacagt aac 73
<210> 67
<211> 74
<212> DNA
<213> artificial sequence
<220>
<223> forward primer to obtain SEQ ID NO: 55
<400> 67
cgtccttgta tggaagtatc aaaggggacg ttcttcacct ccttggaacg tatccctatc 60
tggattaaca tcac 74
<210> 68
<211> 584
<212> DNA
<213> artificial sequence
<220>
<223> right flank sequence with overlap ScTDH3t - INT1 3' (part of
donor) - INT1 3' genomic DNA. Homology with INT1 3' genomic DNA
524 bp
<400> 68
aattttgggg atattggctt ttttttttaa agtttacaaa tgaatttttt ccgccaggat 60
gaagtatgga tctttgaaac ccttttattt tattttactt tttttagaat gacctgttcc 120
cgacactatg taagatctag cttttaacat attatggaaa cctgaaatgt aaaatctgaa 180
tttttgtata tgtgtttata tttgggtagt tcttttgagg aaagcatgca tagacttgct 240
gtacgaactt tatgtgactt gtagtgacgc tgtttcatga gactttagcc ctttgaacat 300
attatcatat ctcagcttga aatactatag atttactttt gcagccattt cttggtgctc 360
caaggttgtg cgtatctatt acttaatttc tgtccttgcc aagttttgca gcagggcggt 420
cacaagactc ctctgccgtc attccttagt ccttcgggaa cacacttatt tatgtatttg 480
tattctacaa ttctacggtg cacaagggtt gggcactgtt gagctcagca cgcaactatt 540
gctggcatga agataagatt gatttttgga agaataagct tgtg 584
<210> 69
<211> 372
<212> DNA
<213> artificial sequence
<220>
<223> left flank sequence with overlap KlYDR2p - INT2 5' (part of
donor) - INT2 5' genomic DNA. Homology with INT2 5' genomic DNA
322 bp
<400> 69
cattatatcg aggaaagccc tgcgaacgtg aagtgaaaag gacggttgtc ctttttcctg 60
ttcttcgagg atcctgaaca ggatgtcagt agggcgggcc ttttcttttt attgtgcagg 120
tacgcatgtt tctttgacac aaaatagtct ggattcgcca gccagtggca cttttgatgc 180
catttccacc acagaaaacg tctgagtatt cagccatggg aggggagtgt tgaaagggga 240
gaagcagccc acttctctgt cttgacacaa accgcagatt gcgtcacggt tctgcggacg 300
ccgttagccc attggtgtca agttttcttt ttttgcggtc acccccatgt ggcggggagg 360
cagaggagta gg 372
<210> 70
<211> 372
<212> DNA
<213> artificial sequence
<220>
<223> left flank sequence with overlap KlTEF2p - INT2 5' (part of
donor) - INT2 5' genomic DNA. Homology with INT2 5' genomic DNA
322 bp
<400> 70
cattatatcg aggaaagccc tgcgaacgtg aagtgaaaag gacggttgtc ctttttcctg 60
ttcttcgagg atcctgaaca ggatgtcagt agggcgggcc ttttcttttt attgtgcagg 120
tacgcatgtt tctttgacac aaaatagtct ggattcgcca gccagtggca cttttgatgc 180
catttccacc acagaaaacg tctgagtatt cagccatggg aggggagtgt tgaaagggga 240
gaagcagccc acttctctgt cttgacacaa accgcagatt gcgtcacggt tctgcggacg 300
ccgttagccc attggtgtca agcctgtcca agcaaatgcc ttctcataaa tggtgccaaa 360
gacccgcaag cc 372
<210> 71
<211> 373
<212> DNA
<213> artificial sequence
<220>
<223> left flank sequence with overlap ScTEF1p - INT2 5' (part of
donor) - INT2 5' genomic DNA. Homology with INT2 5' genomic DNA
322 bp
<400> 71
cattatatcg aggaaagccc tgcgaacgtg aagtgaaaag gacggttgtc ctttttcctg 60
ttcttcgagg atcctgaaca ggatgtcagt agggcgggcc ttttcttttt attgtgcagg 120
tacgcatgtt tctttgacac aaaatagtct ggattcgcca gccagtggca cttttgatgc 180
catttccacc acagaaaacg tctgagtatt cagccatggg aggggagtgt tgaaagggga 240
gaagcagccc acttctctgt cttgacacaa accgcagatt gcgtcacggt tctgcggacg 300
ccgttagccc attggtgtca aggctgataa tagcgtataa acaatgcata ctttgtacgt 360
tcaaaataca atg 373
<210> 72
<211> 608
<212> DNA
<213> artificial sequence
<220>
<223> right flank sequence with overlap ScPDC1t - INT2 3' (part of
donor) - INT2 3' genomic DNA. Homology with INT2 3' genomic DNA
524 bp
<400> 72
gaattagtgg aaccaaggaa aaaaaaagag gtatccttga ttaaggaaca gaacaatact 60
gattgcgtta ccccaagctt atcccacgta gttttgtgtc tctttcttgg gctcttggcg 120
gccgtacgca tatagtatac taatgcggta acggctacct cctacgtctg tatcaaaaaa 180
gttcgctctg gtcctatcaa tattttctcc cacacgagga ttctgtggtt ttgcagccac 240
atctacagga tgttgacttt ttgtttgttt acgtagtttg tttcaacgct ttcgaagatg 300
tggcgctggt gcaagtcatc taagttggtt actgataaca aattgtgaca aggatgtagt 360
ggatgcgtag gagaccaaaa tgacatctga cacaaaaaaa agtagataac gaaaacagga 420
caaaggtgtc attttgtttt gccaaggaga attataatct tagtgtgaag atactttcat 480
tagacacata aatttacgtt cgacacactt ttttcttact cctcccctta tcaaggatac 540
ctggttgatt ctacgtcgtc ctcttcactt tggttaattc acctttgccc ttcacctcgt 600
ggtgtgcg 608
<210> 73
<211> 649
<212> DNA
<213> artificial sequence
<220>
<223> left flank sequence with overlap ScPRE3p - INT3 5' (part of
donor) - INT3 5' genomic DNA. Homology with INT3 5' genomic DNA
602 bp
<400> 73
taaaggaggt gcacgcatta tggagaccac tacgatacga tagctgcgtt gttgttgaag 60
gggtttctta aggttgtttt cgttgaaggt aaatattggt cgtttttgtg cagcatattg 120
tcctctagat gcaaactctg caggtccatt tgcagtaaag tgagttgcct ctcgaagaat 180
cattaatttc gtataaccgt cactattaaa gtcagaaaat aaattctgtc gtagacaatg 240
ttaccataat gttcttgtcc attttgcata cactttaaat attcatttga tttctcaggg 300
ttcatgatca taataaattg cgcattcgca aggcggtagt attataatgg ggtccatcat 360
tctgtagcaa gaagttacag tacgctgttc aagcgttaaa caagataagt aatctcgaat 420
gaaacattca tatttcgcat gagccaacat acagttgctg agtaatcttc attgcgctta 480
tttatcggca ttgagattgt aaaggaagta aaacgcattt ttgcagatct gttctcttat 540
gtatttttaa tcgtccttgt atggaagtat caaaggggac gttcttcacc tccttggaac 600
aaacattaat ttgttctgca tactttgaac ctttcagaaa ataaaaaac 649
<210> 74
<211> 648
<212> DNA
<213> artificial sequence
<220>
<223> left flank sequence with overlap ScACT1p - INT3 5' (part of
donor) - INT3 5' genomic DNA. Homology with INT3 5' genomic DNA
602 bp
<400> 74
taaaggaggt gcacgcatta tggagaccac tacgatacga tagctgcgtt gttgttgaag 60
gggtttctta aggttgtttt cgttgaaggt aaatattggt cgtttttgtg cagcatattg 120
tcctctagat gcaaactctg caggtccatt tgcagtaaag tgagttgcct ctcgaagaat 180
cattaatttc gtataaccgt cactattaaa gtcagaaaat aaattctgtc gtagacaatg 240
ttaccataat gttcttgtcc attttgcata cactttaaat attcatttga tttctcaggg 300
ttcatgatca taataaattg cgcattcgca aggcggtagt attataatgg ggtccatcat 360
tctgtagcaa gaagttacag tacgctgttc aagcgttaaa caagataagt aatctcgaat 420
gaaacattca tatttcgcat gagccaacat acagttgctg agtaatcttc attgcgctta 480
tttatcggca ttgagattgt aaaggaagta aaacgcattt ttgcagatct gttctcttat 540
gtatttttaa tcgtccttgt atggaagtat caaaggggac gttcttcacc tccttggaaa 600
acatatatac acaattacag taacaataac aagaggacag atactacc 648
<210> 75
<211> 649
<212> DNA
<213> artificial sequence
<220>
<223> left flank sequence with overlap KlENO1p - INT3 5' (part of
donor) - INT3 5' genomic DNA. Homology with INT3 5' genomic DNA
602 bp
<400> 75
taaaggaggt gcacgcatta tggagaccac tacgatacga tagctgcgtt gttgttgaag 60
gggtttctta aggttgtttt cgttgaaggt aaatattggt cgtttttgtg cagcatattg 120
tcctctagat gcaaactctg caggtccatt tgcagtaaag tgagttgcct ctcgaagaat 180
cattaatttc gtataaccgt cactattaaa gtcagaaaat aaattctgtc gtagacaatg 240
ttaccataat gttcttgtcc attttgcata cactttaaat attcatttga tttctcaggg 300
ttcatgatca taataaattg cgcattcgca aggcggtagt attataatgg ggtccatcat 360
tctgtagcaa gaagttacag tacgctgttc aagcgttaaa caagataagt aatctcgaat 420
gaaacattca tatttcgcat gagccaacat acagttgctg agtaatcttc attgcgctta 480
tttatcggca ttgagattgt aaaggaagta aaacgcattt ttgcagatct gttctcttat 540
gtatttttaa tcgtccttgt atggaagtat caaaggggac gttcttcacc tccttggaac 600
gtatccctat ctggattaac atcactgcca cagatcgaat tgcaagaag 649
<210> 76
<211> 674
<212> DNA
<213> artificial sequence
<220>
<223> right flank RF sequence with overlap ScTAL1t - INT3 3' (part of
donor) - INT3 3' genomic DNA. Homology with INT3 3' genomic DNA
624 bp
<400> 76
gcagccccta agatcagaca aaacatccgg aaccacctta aatcaacgtc gatgggacgt 60
cagcactgta cttgtttttg cgactagatt gtaaatcatt ctttatttaa tctctttctt 120
taactactgc ttaaagtata atttggtccg tagtttaata actatactaa gcgtaacaat 180
gcatactgac attataagcc tgaacattac gagtttaagt tgtatgtagg cgttctgtaa 240
gaggttactg cgtaaattat caacgaatgc attggtgtat ttgcgaaagc tacttctttt 300
aacaagtatt tacataagaa taatggtgat ctgctcaact gatttggtga taactctaac 360
ttttttagca acaatttaaa agataattcg aacatatata acagtaggaa gaatttgtgt 420
acgtcaaatt aagataattt agcattacca aagttattaa cctaaacata aaatatatat 480
gagacacatg tggaaatcgt atgaaacaac tgttatgaaa ctgacaagaa tgaatatata 540
gagtaagctc cgcttgtaaa gaggaatcac ttaagtgtat aaatgtctcg acgattactt 600
tagatccaag attgatgatt gatattactc tgtaatactt aagctctttt aatagctcac 660
tgttgtatta cggg 674
<210> 77
<211> 81
<212> DNA
<213> artificial sequence
<220>
<223> forward primer primer to obtain SEQ ID NO: 68
<400> 77
aattttgggg atattggctt ttttttttaa agtttacaaa tgaatttttt ccgccaggat 60
gaagtatgga tctttgaaac c 81
<210> 78
<211> 24
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer to obtain SEQ ID NO: 68
<400> 78
cacaagctta ttcttccaaa aatc 24
<210> 79
<211> 20
<212> DNA
<213> artificial sequence
<220>
<223> forward primer to obtain SEQ ID NO: 69, 70 ,71
<400> 79
cattatatcg aggaaagccc 20
<210> 80
<211> 71
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer to obtain SEQ ID NO: 69
<400> 80
cctactcctc tgcctccccg ccacatgggg gtgaccgcaa aaaaagaaaa cttgacacca 60
atgggctaac g 71
<210> 81
<211> 71
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer to obtain SEQ ID NO: 70
<400> 81
ggcttgcggg tctttggcac catttatgag aaggcatttg cttggacagg cttgacacca 60
atgggctaac g 71
<210> 82
<211> 72
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer to obtain SEQ ID NO: 71
<400> 82
cattgtattt tgaacgtaca aagtatgcat tgtttatacg ctattatcag ccttgacacc 60
aatgggctaa cg 72
<210> 83
<211> 72
<212> DNA
<213> artificial sequence
<220>
<223> forward primer to obtain SEQ ID NO: 72
<400> 83
gaattagtgg aaccaaggaa aaaaaaagag gtatccttga ttaaggaaca gaacaatact 60
gattgcgtta cc 72
<210> 84
<211> 20
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer to obtain SEQ ID NO: 72
<400> 84
cgcacaccac gaggtgaagg 20
<210> 85
<211> 23
<212> DNA
<213> artificial sequence
<220>
<223> forward primer to obtain SEQ ID NO: 73, 74, 75
<400> 85
taaaggaggt gcacgcatta tgg 23
<210> 86
<211> 72
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer to obtain SEQ ID NO: 73
<400> 86
gttttttatt ttctgaaagg ttcaaagtat gcagaacaaa ttaatgtttg ttccaaggag 60
gtgaagaacg tc 72
<210> 87
<211> 71
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer to obtain SEQ ID NO: 74
<400> 87
ggtagtatct gtcctcttgt tattgttact gtaattgtgt atatatgttt tccaaggagg 60
tgaagaacgt c 71
<210> 88
<211> 72
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer to obtain SEQ ID NO: 75
<400> 88
cttcttgcaa ttcgatctgt ggcagtgatg ttaatccaga tagggatacg ttccaaggag 60
gtgaagaacg tc 72
<210> 89
<211> 71
<212> DNA
<213> artificial sequence
<220>
<223> forward primer to obtain SEQ ID NO: 76
<400> 89
gcagccccta agatcagaca aaacatccgg aaccacctta aatcaacgtc gatgggacgt 60
cagcactgta c 71
<210> 90
<211> 20
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer to obtain SEQ ID NO: 76
<400> 90
cccgtaatac aacagtgagc 20
<210> 91
<211> 5712
<212> DNA
<213> artificial sequence
<220>
<223> vector pRN1120
<400> 91
tcgcgcgttt cggtgatgac ggtgaaaacc tctgacacat gcagctcccg gagacggtca 60
cagcttgtct gtaagcggat gccgggagca gacaagcccg tcagggcgcg tcagcgggtg 120
ttggcgggtg tcggggctgg cttaactatg cggcatcaga gcagattgta ctgagagtgc 180
accatatcga ctacgtcgta aggccgtttc tgacagagta aaattcttga gggaactttc 240
accattatgg gaaatggttc aagaaggtat tgacttaaac tccatcaaat ggtcaggtca 300
ttgagtgttt tttatttgtt gtattttttt ttttttagag aaaatcctcc aatatcaaat 360
taggaatcgt agtttcatga ttttctgtta cacctaactt tttgtgtggt gccctcctcc 420
ttgtcaatat taatgttaaa gtgcaattct ttttccttat cacgttgagc cattagtatc 480
aatttgctta cctgtattcc tttactatcc tcctttttct ccttcttgat aaatgtatgt 540
agattgcgta tatagtttcg tctaccctat gaacatattc cattttgtaa tttcgtgtcg 600
tttctattat gaatttcatt tataaagttt atgtacacct aggatccgtc gacactggat 660
ggcggcgtta gtatcgaatc gacagcagta tagcgaccag cattcacata cgattgacgc 720
atgatattac tttctgcgca cttaacttcg catctgggca gatgatgtcg aggcgaaaaa 780
aaatataaat cacgctaaca tttgattaaa atagaacaac tacaatataa aaaaactata 840
caaatgacaa gttcttgaaa acaagaatct ttttattgtc agtactaggg gcagggcatg 900
ctcatgtaga gcgcctgctc gccgtccgag gcggtgccgt cgtacagggc ggtgtccagg 960
ccgcagaggg tgaaccccat ccgccggtac gcgtggatcg ccggtgcgtt gacgttggtg 1020
acctccagcc agaggtgccc ggcgccccgc tcgcgggcga actccgtcgc gagccccatc 1080
aacgcgcgcc cgaccccgtg cccccggtgc tccggggcga cctcgatgtc ctcgacggtc 1140
agccggcggt tccagccgga gtacgagacg accacgaagc ccgccaggtc gccgtcgtcc 1200
ccgtacgcga cgaacgtccg ggagtccggg tcgccgtcct ccccggcgtc cgattcgtcg 1260
tccgattcgt cgtcggggaa caccttggtc aggggcgggt ccaccggcac ctcccgcagg 1320
gtgaagccgt ccccggtggc ggtgacgcgg aagacggtgt cggtggtgaa ggacccatcc 1380
agtgcctcga tggcctcggc gtcccccggg acactggtgc ggtaccggta agccgtgtcg 1440
tcaagagtgg tcattttaca tggttgttta tgttcggatg tgatgtgaga actgtatcct 1500
agcaagattt taaaaggaag tatatgaaag aagaacctca gtggcaaatc ctaacctttt 1560
atatttctct acaggggcgc ggcgtgggga caattcaacg cgtctgtgag gggagcgttt 1620
ccctgctcgc aggtctgcag cgaggagccg taatttttgc ttcgcgccgt gcggccatca 1680
aaatgtatgg atgcaaatga ttatacatgg ggatgtatgg gctaaatgta cgggcgacag 1740
tcacatcatg cccctgagct gcgcacgtca agactgtcaa ggagggtatt ctgggcctcc 1800
atgtcgctgg ccgggtgacc cggcggggac gaggccttaa gttcgaacgt acgagctccg 1860
gcattgcgaa taccgctttc cacaaacatt gctcaaaagt atctctttgc tatatatctc 1920
tgtgctatat ccctatataa cctacccatc cacctttcgc tccttgaact tgcatctaaa 1980
ctcgacctct acatttttta tgtttatctc tagtattact ctttagacaa aaaaattgta 2040
gtaagaacta ttcatagagt gaatcgaaaa caatacgaaa atgtaaacat ttcctatacg 2100
tagtatatag agacaaaata gaagaaaccg ttcataattt tctgaccaat gaagaatcat 2160
caacgctatc actttctgtt cacaaagtat gcgcaatcca catcggtata gaatataatc 2220
ggggatgcct ttatcttgaa aaaatgcacc cgcagcttcg ctagtaatca gtaaacgcgg 2280
gaagtggagt caggcttttt ttatggaaga gaaaatagac accaaagtag ccttcttcta 2340
accttaacgg acctacagtg caaaaagtta tcaagagact gcattataga gcgcacaaag 2400
gagaaaaaaa gtaatctaag atgctttgtt agaaaaatag cgctctcggg atgcattttt 2460
gtagaacaaa aaagaagtat agattctttg ttggtaaaat agcgctctcg cgttgcattt 2520
ctgttctgta aaaatgcagc tcagattctt tgtttgaaaa attagcgctc tcgcgttgca 2580
tttttgtttt acaaaaatga agcacagatt cttcgttggt aaaatagcgc tttcgcgttg 2640
catttctgtt ctgtaaaaat gcagctcaga ttctttgttt gaaaaattag cgctctcgcg 2700
ttgcattttt gttctacaaa atgaagcaca gatgcttcgt taacaaagat atgctattga 2760
agtgcaagat ggaaacgcag aaaatgaacc ggggatgcga cgtgcaagat tacctatgca 2820
atagatgcaa tagtttctcc aggaaccgaa atacatacat tgtcttccgt aaagcgctag 2880
actatatatt attatacagg ttcaaatata ctatctgttt cagggaaaac tcccaggttc 2940
ggatgttcaa aattcaatga tgggtaacaa gtacgatcgt aaatctgtaa aacagtttgt 3000
cggatattag gctgtatctc ctcaaagcgt attcgaatat cattgagaag ctgcagcgtc 3060
acatcggata ataatgatgg cagccattgt agaagtgcct tttgcatttc tagtctcttt 3120
ctcggtctag ctagttttac tacatcgcga agatagaatc ttagatcaca ctgcctttgc 3180
tgagctggat caatagagta acaaaagagt ggtaaggcct cgttaaagga caaggacctg 3240
agcggaagtg tatcgtacag tagacggagt atactaggta tagtctatag tccgtggaat 3300
taattctcat gtttgacagc ttatcatcga taatccggag ctagcatgcg gccgctctag 3360
aactagtgga tcccccgggc tgcaggaatt cgatatcaag cttatcgata ccgtcgacct 3420
cgaggggggg cccggtaccc agcttttgtt ccctttagtg agggttaatt ccgagcttgg 3480
cgtaatcatg gtcatagctg tttcctgtgt gaaattgtta tccgctcaca attccacaca 3540
acataggagc cggaagcata aagtgtaaag cctggggtgc ctaatgagtg aggtaactca 3600
cattaattgc gttgcgctca ctgcccgctt tccagtcggg aaacctgtcg tgccagctgc 3660
attaatgaat cggccaacgc gcggggagag gcggtttgcg tattgggcgc tcttccgctt 3720
cctcgctcac tgactcgctg cgctcggtcg ttcggctgcg gcgagcggta tcagctcact 3780
caaaggcggt aatacggtta tccacagaat caggggataa cgcaggaaag aacatgtgag 3840
caaaaggcca gcaaaaggcc aggaaccgta aaaaggccgc gttgctggcg tttttccata 3900
ggctcggccc ccctgacgag catcacaaaa atcgacgctc aagtcagagg tggcgaaacc 3960
cgacaggact ataaagatac caggcgttcc cccctggaag ctccctcgtg cgctctcctg 4020
ttccgaccct gccgcttacc ggatacctgt ccgcctttct cccttcggga agcgtggcgc 4080
tttctcaatg ctcacgctgt aggtatctca gttcggtgta ggtcgttcgc tccaagctgg 4140
gctgtgtgca cgaacccccc gttcagcccg accgctgcgc cttatccggt aactatcgtc 4200
ttgagtccaa cccggtaaga cacgacttat cgccactggc agcagccact ggtaacagga 4260
ttagcagagc gaggtatgta ggcggtgcta cagagttctt gaagtggtgg cctaactacg 4320
gctacactag aaggacagta tttggtatct gcgctctgct gaagccagtt accttcggaa 4380
aaagagttgg tagctcttga tccggcaaac aaaccaccgc tggtagcggt ggtttttttg 4440
tttgcaagca gcagattacg cgcagaaaaa aaggatctca agaagatcct ttgatctttt 4500
ctacggggtc tgacgctcag tggaacgaaa actcacgtta agggattttg gtcatgagat 4560
tatcaaaaag gatcttcacc tagatccttt taaattaaaa atgaagtttt aaatcaatct 4620
aaagtatata tgagtaaact tggtctgaca gttaccaatg cttaatcagt gaggcaccta 4680
tctcagcgat ctgtctattt cgttcatcca tagttgcctg actgcccgtc gtgtagataa 4740
ctacgatacg ggagggctta ccatctggcc ccagtgctgc aatgataccg cgagacccac 4800
gctcaccggc tccagattta tcagcaataa accagccagc cggaagggcc gagcgcagaa 4860
gtggtcctgc aactttatcc gcctccatcc agtctattaa ttgttgccgg gaagctagag 4920
taagtagttc gccagttaat agtttgcgca acgttgttgc cattgctaca ggcatcgtgg 4980
tgtcacgctc gtcgtttggt atggcttcat tcagctccgg ttcccaacga tcaaggcgag 5040
ttacatgatc ccccatgttg tgaaaaaaag cggttagctc cttcggtcct ccgatcgttg 5100
tcagaagtaa gttggccgca gtgttatcac tcatggttat ggcagcactg cataattctc 5160
ttactgtcat gccatccgta agatgctttt ctgtgactgg tgagtactca accaagtcat 5220
tctgagaata gtgtatgcgg cgaccgagtt gctcttgccc ggcgtcaata cgggataata 5280
ccgcgccaca tagcagaact ttaaaagtgc tcatcattgg aaaacgttct tcggggcgaa 5340
aactctcaag gatcttaccg ctgttgagat ccagttcgat gtaacccact cgtgcaccca 5400
actgatcttc agcatctttt actttcacca gcgtttctgg gtgagcaaaa acaggaaggc 5460
aaaatgccgc aaaaaaggga ataagggcga cacggaaatg ttgaatactc atactcttcc 5520
tttttcaata ttattgaagc atttatcagg gttattgtct catgagcgga tacatatttg 5580
aatgtattta gaaaaataaa caaatagggg ttccgcgcac atttccccga aaagtgccac 5640
ctgacgtcta agaaaccatt attatcatga cattaaccta taaaaatagg cgtatcacga 5700
ggccctttcg tc 5712
<210> 92
<211> 21
<212> DNA
<213> artificial sequence
<220>
<223> forward primer to remove SapI restriction site in pRN1120
<400> 92
tattgggccc tcttccgctt c 21
<210> 93
<211> 18
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer to remove SapI restriction site in pRN1120
<400> 93
cgcaaaccgc ctctcccc 18
<210> 94
<211> 547
<212> DNA
<213> artificial sequence
<220>
<223> gBlock allowing direct SapI cloning of the guide sequence, part
of vector pGRN002
<400> 94
ggagctagca tgcggccgct ctagaactag tggatccccc gggctgcagg aattctcttt 60
gaaaagataa tgtatgatta tgctttcact catatttata cagaaacttg atgttttctt 120
tcgagtatat acaaggtgat tacatgtacg tttgaagtac aactctagat tttgtagtgc 180
cctcttgggc tagcggtaaa ggtgcgcatt ttttcacacc ctacaatgtt ctgttcaaaa 240
gattttggtc aaacgctgta gaagtgaaag ttggtgcgca tgtttcggcg ttcgaaactt 300
ctccgcagtg aaagataaat gatcagaaga gcctgaggtc gacggtatcg ataagcttga 360
tatcaattcc ccgggggatc cactgctctt ctgttttaga gctagaaata gcaagttaaa 420
ataaggctag tccgttatca acttgaaaaa gtggcaccga gtcggtggtg ctttttttgt 480
tttttatgtc tctcgagggg gggcccggta cccagctttt gttcccttta gtgagggtta 540
attccga 547
<210> 95
<211> 6121
<212> DNA
<213> artificial sequence
<220>
<223> expression vector pGRN002
<400> 95
tcgcgcgttt cggtgatgac ggtgaaaacc tctgacacat gcagctcccg gagacggtca 60
cagcttgtct gtaagcggat gccgggagca gacaagcccg tcagggcgcg tcagcgggtg 120
ttggcgggtg tcggggctgg cttaactatg cggcatcaga gcagattgta ctgagagtgc 180
accatatcga ctacgtcgta aggccgtttc tgacagagta aaattcttga gggaactttc 240
accattatgg gaaatggttc aagaaggtat tgacttaaac tccatcaaat ggtcaggtca 300
ttgagtgttt tttatttgtt gtattttttt ttttttagag aaaatcctcc aatatcaaat 360
taggaatcgt agtttcatga ttttctgtta cacctaactt tttgtgtggt gccctcctcc 420
ttgtcaatat taatgttaaa gtgcaattct ttttccttat cacgttgagc cattagtatc 480
aatttgctta cctgtattcc tttactatcc tcctttttct ccttcttgat aaatgtatgt 540
agattgcgta tatagtttcg tctaccctat gaacatattc cattttgtaa tttcgtgtcg 600
tttctattat gaatttcatt tataaagttt atgtacacct aggatccgtc gacactggat 660
ggcggcgtta gtatcgaatc gacagcagta tagcgaccag cattcacata cgattgacgc 720
atgatattac tttctgcgca cttaacttcg catctgggca gatgatgtcg aggcgaaaaa 780
aaatataaat cacgctaaca tttgattaaa atagaacaac tacaatataa aaaaactata 840
caaatgacaa gttcttgaaa acaagaatct ttttattgtc agtactaggg gcagggcatg 900
ctcatgtaga gcgcctgctc gccgtccgag gcggtgccgt cgtacagggc ggtgtccagg 960
ccgcagaggg tgaaccccat ccgccggtac gcgtggatcg ccggtgcgtt gacgttggtg 1020
acctccagcc agaggtgccc ggcgccccgc tcgcgggcga actccgtcgc gagccccatc 1080
aacgcgcgcc cgaccccgtg cccccggtgc tccggggcga cctcgatgtc ctcgacggtc 1140
agccggcggt tccagccgga gtacgagacg accacgaagc ccgccaggtc gccgtcgtcc 1200
ccgtacgcga cgaacgtccg ggagtccggg tcgccgtcct ccccggcgtc cgattcgtcg 1260
tccgattcgt cgtcggggaa caccttggtc aggggcgggt ccaccggcac ctcccgcagg 1320
gtgaagccgt ccccggtggc ggtgacgcgg aagacggtgt cggtggtgaa ggacccatcc 1380
agtgcctcga tggcctcggc gtcccccggg acactggtgc ggtaccggta agccgtgtcg 1440
tcaagagtgg tcattttaca tggttgttta tgttcggatg tgatgtgaga actgtatcct 1500
agcaagattt taaaaggaag tatatgaaag aagaacctca gtggcaaatc ctaacctttt 1560
atatttctct acaggggcgc ggcgtgggga caattcaacg cgtctgtgag gggagcgttt 1620
ccctgctcgc aggtctgcag cgaggagccg taatttttgc ttcgcgccgt gcggccatca 1680
aaatgtatgg atgcaaatga ttatacatgg ggatgtatgg gctaaatgta cgggcgacag 1740
tcacatcatg cccctgagct gcgcacgtca agactgtcaa ggagggtatt ctgggcctcc 1800
atgtcgctgg ccgggtgacc cggcggggac gaggccttaa gttcgaacgt acgagctccg 1860
gcattgcgaa taccgctttc cacaaacatt gctcaaaagt atctctttgc tatatatctc 1920
tgtgctatat ccctatataa cctacccatc cacctttcgc tccttgaact tgcatctaaa 1980
ctcgacctct acatttttta tgtttatctc tagtattact ctttagacaa aaaaattgta 2040
gtaagaacta ttcatagagt gaatcgaaaa caatacgaaa atgtaaacat ttcctatacg 2100
tagtatatag agacaaaata gaagaaaccg ttcataattt tctgaccaat gaagaatcat 2160
caacgctatc actttctgtt cacaaagtat gcgcaatcca catcggtata gaatataatc 2220
ggggatgcct ttatcttgaa aaaatgcacc cgcagcttcg ctagtaatca gtaaacgcgg 2280
gaagtggagt caggcttttt ttatggaaga gaaaatagac accaaagtag ccttcttcta 2340
accttaacgg acctacagtg caaaaagtta tcaagagact gcattataga gcgcacaaag 2400
gagaaaaaaa gtaatctaag atgctttgtt agaaaaatag cgctctcggg atgcattttt 2460
gtagaacaaa aaagaagtat agattctttg ttggtaaaat agcgctctcg cgttgcattt 2520
ctgttctgta aaaatgcagc tcagattctt tgtttgaaaa attagcgctc tcgcgttgca 2580
tttttgtttt acaaaaatga agcacagatt cttcgttggt aaaatagcgc tttcgcgttg 2640
catttctgtt ctgtaaaaat gcagctcaga ttctttgttt gaaaaattag cgctctcgcg 2700
ttgcattttt gttctacaaa atgaagcaca gatgcttcgt taacaaagat atgctattga 2760
agtgcaagat ggaaacgcag aaaatgaacc ggggatgcga cgtgcaagat tacctatgca 2820
atagatgcaa tagtttctcc aggaaccgaa atacatacat tgtcttccgt aaagcgctag 2880
actatatatt attatacagg ttcaaatata ctatctgttt cagggaaaac tcccaggttc 2940
ggatgttcaa aattcaatga tgggtaacaa gtacgatcgt aaatctgtaa aacagtttgt 3000
cggatattag gctgtatctc ctcaaagcgt attcgaatat cattgagaag ctgcagcgtc 3060
acatcggata ataatgatgg cagccattgt agaagtgcct tttgcatttc tagtctcttt 3120
ctcggtctag ctagttttac tacatcgcga agatagaatc ttagatcaca ctgcctttgc 3180
tgagctggat caatagagta acaaaagagt ggtaaggcct cgttaaagga caaggacctg 3240
agcggaagtg tatcgtacag tagacggagt atactaggta tagtctatag tccgtggaat 3300
taattctcat gtttgacagc ttatcatcga taatccggag ctagcatgcg gccgctctag 3360
aactagtgga tcccccgggc tgcaggaatt ctctttgaaa agataatgta tgattatgct 3420
ttcactcata tttatacaga aacttgatgt tttctttcga gtatatacaa ggtgattaca 3480
tgtacgtttg aagtacaact ctagattttg tagtgccctc ttgggctagc ggtaaaggtg 3540
cgcatttttt cacaccctac aatgttctgt tcaaaagatt ttggtcaaac gctgtagaag 3600
tgaaagttgg tgcgcatgtt tcggcgttcg aaacttctcc gcagtgaaag ataaatgatc 3660
agaagagcct gaggtcgacg gtatcgataa gcttgatatc aattccccgg gggatccact 3720
gctcttctgt tttagagcta gaaatagcaa gttaaaataa ggctagtccg ttatcaactt 3780
gaaaaagtgg caccgagtcg gtggtgcttt ttttgttttt tatgtctctc gagggggggc 3840
ccggtaccca gcttttgttc cctttagtga gggttaattc cgagcttggc gtaatcatgg 3900
tcatagctgt ttcctgtgtg aaattgttat ccgctcacaa ttccacacaa cataggagcc 3960
ggaagcataa agtgtaaagc ctggggtgcc taatgagtga ggtaactcac attaattgcg 4020
ttgcgctcac tgcccgcttt ccagtcggga aacctgtcgt gccagctgca ttaatgaatc 4080
ggccaacgcg cggggagagg cggtttgcgt attgggccct cttccgcttc ctcgctcact 4140
gactcgctgc gctcggtcgt tcggctgcgg cgagcggtat cagctcactc aaaggcggta 4200
atacggttat ccacagaatc aggggataac gcaggaaaga acatgtgagc aaaaggccag 4260
caaaaggcca ggaaccgtaa aaaggccgcg ttgctggcgt ttttccatag gctcggcccc 4320
cctgacgagc atcacaaaaa tcgacgctca agtcagaggt ggcgaaaccc gacaggacta 4380
taaagatacc aggcgttccc ccctggaagc tccctcgtgc gctctcctgt tccgaccctg 4440
ccgcttaccg gatacctgtc cgcctttctc ccttcgggaa gcgtggcgct ttctcaatgc 4500
tcacgctgta ggtatctcag ttcggtgtag gtcgttcgct ccaagctggg ctgtgtgcac 4560
gaaccccccg ttcagcccga ccgctgcgcc ttatccggta actatcgtct tgagtccaac 4620
ccggtaagac acgacttatc gccactggca gcagccactg gtaacaggat tagcagagcg 4680
aggtatgtag gcggtgctac agagttcttg aagtggtggc ctaactacgg ctacactaga 4740
aggacagtat ttggtatctg cgctctgctg aagccagtta ccttcggaaa aagagttggt 4800
agctcttgat ccggcaaaca aaccaccgct ggtagcggtg gtttttttgt ttgcaagcag 4860
cagattacgc gcagaaaaaa aggatctcaa gaagatcctt tgatcttttc tacggggtct 4920
gacgctcagt ggaacgaaaa ctcacgttaa gggattttgg tcatgagatt atcaaaaagg 4980
atcttcacct agatcctttt aaattaaaaa tgaagtttta aatcaatcta aagtatatat 5040
gagtaaactt ggtctgacag ttaccaatgc ttaatcagtg aggcacctat ctcagcgatc 5100
tgtctatttc gttcatccat agttgcctga ctgcccgtcg tgtagataac tacgatacgg 5160
gagggcttac catctggccc cagtgctgca atgataccgc gagacccacg ctcaccggct 5220
ccagatttat cagcaataaa ccagccagcc ggaagggccg agcgcagaag tggtcctgca 5280
actttatccg cctccatcca gtctattaat tgttgccggg aagctagagt aagtagttcg 5340
ccagttaata gtttgcgcaa cgttgttgcc attgctacag gcatcgtggt gtcacgctcg 5400
tcgtttggta tggcttcatt cagctccggt tcccaacgat caaggcgagt tacatgatcc 5460
cccatgttgt gaaaaaaagc ggttagctcc ttcggtcctc cgatcgttgt cagaagtaag 5520
ttggccgcag tgttatcact catggttatg gcagcactgc ataattctct tactgtcatg 5580
ccatccgtaa gatgcttttc tgtgactggt gagtactcaa ccaagtcatt ctgagaatag 5640
tgtatgcggc gaccgagttg ctcttgcccg gcgtcaatac gggataatac cgcgccacat 5700
agcagaactt taaaagtgct catcattgga aaacgttctt cggggcgaaa actctcaagg 5760
atcttaccgc tgttgagatc cagttcgatg taacccactc gtgcacccaa ctgatcttca 5820
gcatctttta ctttcaccag cgtttctggg tgagcaaaaa caggaaggca aaatgccgca 5880
aaaaagggaa taagggcgac acggaaatgt tgaatactca tactcttcct ttttcaatat 5940
tattgaagca tttatcaggg ttattgtctc atgagcggat acatatttga atgtatttag 6000
aaaaataaac aaataggggt tccgcgcaca tttccccgaa aagtgccacc tgacgtctaa 6060
gaaaccatta ttatcatgac attaacctat aaaaataggc gtatcacgag gccctttcgt 6120
c 6121
<210> 96
<211> 53
<212> DNA
<213> artificial sequence
<220>
<223> forward primer approach 1: 30 bp on either side
<400> 96
ataaatgatc tattagaacc agggaggtcc gttttagagc tagaaatagc aag 53
<210> 97
<211> 52
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer approach 1: 30 bp on either side
<400> 97
gctctaaaac ggacctccct ggttctaata gatcatttat ctttcactgc gg 52
<210> 98
<211> 6113
<212> DNA
<213> artificial sequence
<220>
<223> PCR fragment approach 1: 30 bp on eiter side. The fragment was
transformed to yeast allowing reconstitution of a circular vector
by in vivo recombination
<400> 98
ataaatgatc tattagaacc agggaggtcc gttttagagc tagaaatagc aagttaaaat 60
aaggctagtc cgttatcaac ttgaaaaagt ggcaccgagt cggtggtgct ttttttgttt 120
tttatgtctc tcgagggggg gcccggtacc cagcttttgt tccctttagt gagggttaat 180
tccgagcttg gcgtaatcat ggtcatagct gtttcctgtg tgaaattgtt atccgctcac 240
aattccacac aacataggag ccggaagcat aaagtgtaaa gcctggggtg cctaatgagt 300
gaggtaactc acattaattg cgttgcgctc actgcccgct ttccagtcgg gaaacctgtc 360
gtgccagctg cattaatgaa tcggccaacg cgcggggaga ggcggtttgc gtattgggcc 420
ctcttccgct tcctcgctca ctgactcgct gcgctcggtc gttcggctgc ggcgagcggt 480
atcagctcac tcaaaggcgg taatacggtt atccacagaa tcaggggata acgcaggaaa 540
gaacatgtga gcaaaaggcc agcaaaaggc caggaaccgt aaaaaggccg cgttgctggc 600
gtttttccat aggctcggcc cccctgacga gcatcacaaa aatcgacgct caagtcagag 660
gtggcgaaac ccgacaggac tataaagata ccaggcgttc ccccctggaa gctccctcgt 720
gcgctctcct gttccgaccc tgccgcttac cggatacctg tccgcctttc tcccttcggg 780
aagcgtggcg ctttctcaat gctcacgctg taggtatctc agttcggtgt aggtcgttcg 840
ctccaagctg ggctgtgtgc acgaaccccc cgttcagccc gaccgctgcg ccttatccgg 900
taactatcgt cttgagtcca acccggtaag acacgactta tcgccactgg cagcagccac 960
tggtaacagg attagcagag cgaggtatgt aggcggtgct acagagttct tgaagtggtg 1020
gcctaactac ggctacacta gaaggacagt atttggtatc tgcgctctgc tgaagccagt 1080
taccttcgga aaaagagttg gtagctcttg atccggcaaa caaaccaccg ctggtagcgg 1140
tggttttttt gtttgcaagc agcagattac gcgcagaaaa aaaggatctc aagaagatcc 1200
tttgatcttt tctacggggt ctgacgctca gtggaacgaa aactcacgtt aagggatttt 1260
ggtcatgaga ttatcaaaaa ggatcttcac ctagatcctt ttaaattaaa aatgaagttt 1320
taaatcaatc taaagtatat atgagtaaac ttggtctgac agttaccaat gcttaatcag 1380
tgaggcacct atctcagcga tctgtctatt tcgttcatcc atagttgcct gactgcccgt 1440
cgtgtagata actacgatac gggagggctt accatctggc cccagtgctg caatgatacc 1500
gcgagaccca cgctcaccgg ctccagattt atcagcaata aaccagccag ccggaagggc 1560
cgagcgcaga agtggtcctg caactttatc cgcctccatc cagtctatta attgttgccg 1620
ggaagctaga gtaagtagtt cgccagttaa tagtttgcgc aacgttgttg ccattgctac 1680
aggcatcgtg gtgtcacgct cgtcgtttgg tatggcttca ttcagctccg gttcccaacg 1740
atcaaggcga gttacatgat cccccatgtt gtgaaaaaaa gcggttagct ccttcggtcc 1800
tccgatcgtt gtcagaagta agttggccgc agtgttatca ctcatggtta tggcagcact 1860
gcataattct cttactgtca tgccatccgt aagatgcttt tctgtgactg gtgagtactc 1920
aaccaagtca ttctgagaat agtgtatgcg gcgaccgagt tgctcttgcc cggcgtcaat 1980
acgggataat accgcgccac atagcagaac tttaaaagtg ctcatcattg gaaaacgttc 2040
ttcggggcga aaactctcaa ggatcttacc gctgttgaga tccagttcga tgtaacccac 2100
tcgtgcaccc aactgatctt cagcatcttt tactttcacc agcgtttctg ggtgagcaaa 2160
aacaggaagg caaaatgccg caaaaaaggg aataagggcg acacggaaat gttgaatact 2220
catactcttc ctttttcaat attattgaag catttatcag ggttattgtc tcatgagcgg 2280
atacatattt gaatgtattt agaaaaataa acaaataggg gttccgcgca catttccccg 2340
aaaagtgcca cctgacgtct aagaaaccat tattatcatg acattaacct ataaaaatag 2400
gcgtatcacg aggccctttc gtctcgcgcg tttcggtgat gacggtgaaa acctctgaca 2460
catgcagctc ccggagacgg tcacagcttg tctgtaagcg gatgccggga gcagacaagc 2520
ccgtcagggc gcgtcagcgg gtgttggcgg gtgtcggggc tggcttaact atgcggcatc 2580
agagcagatt gtactgagag tgcaccatat cgactacgtc gtaaggccgt ttctgacaga 2640
gtaaaattct tgagggaact ttcaccatta tgggaaatgg ttcaagaagg tattgactta 2700
aactccatca aatggtcagg tcattgagtg ttttttattt gttgtatttt ttttttttta 2760
gagaaaatcc tccaatatca aattaggaat cgtagtttca tgattttctg ttacacctaa 2820
ctttttgtgt ggtgccctcc tccttgtcaa tattaatgtt aaagtgcaat tctttttcct 2880
tatcacgttg agccattagt atcaatttgc ttacctgtat tcctttacta tcctcctttt 2940
tctccttctt gataaatgta tgtagattgc gtatatagtt tcgtctaccc tatgaacata 3000
ttccattttg taatttcgtg tcgtttctat tatgaatttc atttataaag tttatgtaca 3060
cctaggatcc gtcgacactg gatggcggcg ttagtatcga atcgacagca gtatagcgac 3120
cagcattcac atacgattga cgcatgatat tactttctgc gcacttaact tcgcatctgg 3180
gcagatgatg tcgaggcgaa aaaaaatata aatcacgcta acatttgatt aaaatagaac 3240
aactacaata taaaaaaact atacaaatga caagttcttg aaaacaagaa tctttttatt 3300
gtcagtacta ggggcagggc atgctcatgt agagcgcctg ctcgccgtcc gaggcggtgc 3360
cgtcgtacag ggcggtgtcc aggccgcaga gggtgaaccc catccgccgg tacgcgtgga 3420
tcgccggtgc gttgacgttg gtgacctcca gccagaggtg cccggcgccc cgctcgcggg 3480
cgaactccgt cgcgagcccc atcaacgcgc gcccgacccc gtgcccccgg tgctccgggg 3540
cgacctcgat gtcctcgacg gtcagccggc ggttccagcc ggagtacgag acgaccacga 3600
agcccgccag gtcgccgtcg tccccgtacg cgacgaacgt ccgggagtcc gggtcgccgt 3660
cctccccggc gtccgattcg tcgtccgatt cgtcgtcggg gaacaccttg gtcaggggcg 3720
ggtccaccgg cacctcccgc agggtgaagc cgtccccggt ggcggtgacg cggaagacgg 3780
tgtcggtggt gaaggaccca tccagtgcct cgatggcctc ggcgtccccc gggacactgg 3840
tgcggtaccg gtaagccgtg tcgtcaagag tggtcatttt acatggttgt ttatgttcgg 3900
atgtgatgtg agaactgtat cctagcaaga ttttaaaagg aagtatatga aagaagaacc 3960
tcagtggcaa atcctaacct tttatatttc tctacagggg cgcggcgtgg ggacaattca 4020
acgcgtctgt gaggggagcg tttccctgct cgcaggtctg cagcgaggag ccgtaatttt 4080
tgcttcgcgc cgtgcggcca tcaaaatgta tggatgcaaa tgattataca tggggatgta 4140
tgggctaaat gtacgggcga cagtcacatc atgcccctga gctgcgcacg tcaagactgt 4200
caaggagggt attctgggcc tccatgtcgc tggccgggtg acccggcggg gacgaggcct 4260
taagttcgaa cgtacgagct ccggcattgc gaataccgct ttccacaaac attgctcaaa 4320
agtatctctt tgctatatat ctctgtgcta tatccctata taacctaccc atccaccttt 4380
cgctccttga acttgcatct aaactcgacc tctacatttt ttatgtttat ctctagtatt 4440
actctttaga caaaaaaatt gtagtaagaa ctattcatag agtgaatcga aaacaatacg 4500
aaaatgtaaa catttcctat acgtagtata tagagacaaa atagaagaaa ccgttcataa 4560
ttttctgacc aatgaagaat catcaacgct atcactttct gttcacaaag tatgcgcaat 4620
ccacatcggt atagaatata atcggggatg cctttatctt gaaaaaatgc acccgcagct 4680
tcgctagtaa tcagtaaacg cgggaagtgg agtcaggctt tttttatgga agagaaaata 4740
gacaccaaag tagccttctt ctaaccttaa cggacctaca gtgcaaaaag ttatcaagag 4800
actgcattat agagcgcaca aaggagaaaa aaagtaatct aagatgcttt gttagaaaaa 4860
tagcgctctc gggatgcatt tttgtagaac aaaaaagaag tatagattct ttgttggtaa 4920
aatagcgctc tcgcgttgca tttctgttct gtaaaaatgc agctcagatt ctttgtttga 4980
aaaattagcg ctctcgcgtt gcatttttgt tttacaaaaa tgaagcacag attcttcgtt 5040
ggtaaaatag cgctttcgcg ttgcatttct gttctgtaaa aatgcagctc agattctttg 5100
tttgaaaaat tagcgctctc gcgttgcatt tttgttctac aaaatgaagc acagatgctt 5160
cgttaacaaa gatatgctat tgaagtgcaa gatggaaacg cagaaaatga accggggatg 5220
cgacgtgcaa gattacctat gcaatagatg caatagtttc tccaggaacc gaaatacata 5280
cattgtcttc cgtaaagcgc tagactatat attattatac aggttcaaat atactatctg 5340
tttcagggaa aactcccagg ttcggatgtt caaaattcaa tgatgggtaa caagtacgat 5400
cgtaaatctg taaaacagtt tgtcggatat taggctgtat ctcctcaaag cgtattcgaa 5460
tatcattgag aagctgcagc gtcacatcgg ataataatga tggcagccat tgtagaagtg 5520
ccttttgcat ttctagtctc tttctcggtc tagctagttt tactacatcg cgaagataga 5580
atcttagatc acactgcctt tgctgagctg gatcaataga gtaacaaaag agtggtaagg 5640
cctcgttaaa ggacaaggac ctgagcggaa gtgtatcgta cagtagacgg agtatactag 5700
gtatagtcta tagtccgtgg aattaattct catgtttgac agcttatcat cgataatccg 5760
gagctagcat gcggccgctc tagaactagt ggatcccccg ggctgcagga attctctttg 5820
aaaagataat gtatgattat gctttcactc atatttatac agaaacttga tgttttcttt 5880
cgagtatata caaggtgatt acatgtacgt ttgaagtaca actctagatt ttgtagtgcc 5940
ctcttgggct agcggtaaag gtgcgcattt tttcacaccc tacaatgttc tgttcaaaag 6000
attttggtca aacgctgtag aagtgaaagt tggtgcgcat gtttcggcgt tcgaaacttc 6060
tccgcagtga aagataaatg atctattaga accagggagg tccgttttag agc 6113
<210> 99
<211> 73
<212> DNA
<213> artificial sequence
<220>
<223> forward primer approach 1: 50 bp tail on one side
<400> 99
aaacttctcc gcagtgaaag ataaatgatc tattagaacc agggaggtcc gttttagagc 60
tagaaatagc aag 73
<210> 100
<211> 22
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer approach 1: 50 bp tail on one side
<400> 100
gatcatttat ctttcactgc gg 22
<210> 101
<211> 6103
<212> DNA
<213> artificial sequence
<220>
<223> PCR fragment approach 2: 50 bp tail on one side. The fragment was
transformed to yeast allowing reconstitution of a circular vector
by in vivo recombination
<400> 101
aaacttctcc gcagtgaaag ataaatgatc tattagaacc agggaggtcc gttttagagc 60
tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt ggcaccgagt 120
cggtggtgct ttttttgttt tttatgtctc tcgagggggg gcccggtacc cagcttttgt 180
tccctttagt gagggttaat tccgagcttg gcgtaatcat ggtcatagct gtttcctgtg 240
tgaaattgtt atccgctcac aattccacac aacataggag ccggaagcat aaagtgtaaa 300
gcctggggtg cctaatgagt gaggtaactc acattaattg cgttgcgctc actgcccgct 360
ttccagtcgg gaaacctgtc gtgccagctg cattaatgaa tcggccaacg cgcggggaga 420
ggcggtttgc gtattgggcc ctcttccgct tcctcgctca ctgactcgct gcgctcggtc 480
gttcggctgc ggcgagcggt atcagctcac tcaaaggcgg taatacggtt atccacagaa 540
tcaggggata acgcaggaaa gaacatgtga gcaaaaggcc agcaaaaggc caggaaccgt 600
aaaaaggccg cgttgctggc gtttttccat aggctcggcc cccctgacga gcatcacaaa 660
aatcgacgct caagtcagag gtggcgaaac ccgacaggac tataaagata ccaggcgttc 720
ccccctggaa gctccctcgt gcgctctcct gttccgaccc tgccgcttac cggatacctg 780
tccgcctttc tcccttcggg aagcgtggcg ctttctcaat gctcacgctg taggtatctc 840
agttcggtgt aggtcgttcg ctccaagctg ggctgtgtgc acgaaccccc cgttcagccc 900
gaccgctgcg ccttatccgg taactatcgt cttgagtcca acccggtaag acacgactta 960
tcgccactgg cagcagccac tggtaacagg attagcagag cgaggtatgt aggcggtgct 1020
acagagttct tgaagtggtg gcctaactac ggctacacta gaaggacagt atttggtatc 1080
tgcgctctgc tgaagccagt taccttcgga aaaagagttg gtagctcttg atccggcaaa 1140
caaaccaccg ctggtagcgg tggttttttt gtttgcaagc agcagattac gcgcagaaaa 1200
aaaggatctc aagaagatcc tttgatcttt tctacggggt ctgacgctca gtggaacgaa 1260
aactcacgtt aagggatttt ggtcatgaga ttatcaaaaa ggatcttcac ctagatcctt 1320
ttaaattaaa aatgaagttt taaatcaatc taaagtatat atgagtaaac ttggtctgac 1380
agttaccaat gcttaatcag tgaggcacct atctcagcga tctgtctatt tcgttcatcc 1440
atagttgcct gactgcccgt cgtgtagata actacgatac gggagggctt accatctggc 1500
cccagtgctg caatgatacc gcgagaccca cgctcaccgg ctccagattt atcagcaata 1560
aaccagccag ccggaagggc cgagcgcaga agtggtcctg caactttatc cgcctccatc 1620
cagtctatta attgttgccg ggaagctaga gtaagtagtt cgccagttaa tagtttgcgc 1680
aacgttgttg ccattgctac aggcatcgtg gtgtcacgct cgtcgtttgg tatggcttca 1740
ttcagctccg gttcccaacg atcaaggcga gttacatgat cccccatgtt gtgaaaaaaa 1800
gcggttagct ccttcggtcc tccgatcgtt gtcagaagta agttggccgc agtgttatca 1860
ctcatggtta tggcagcact gcataattct cttactgtca tgccatccgt aagatgcttt 1920
tctgtgactg gtgagtactc aaccaagtca ttctgagaat agtgtatgcg gcgaccgagt 1980
tgctcttgcc cggcgtcaat acgggataat accgcgccac atagcagaac tttaaaagtg 2040
ctcatcattg gaaaacgttc ttcggggcga aaactctcaa ggatcttacc gctgttgaga 2100
tccagttcga tgtaacccac tcgtgcaccc aactgatctt cagcatcttt tactttcacc 2160
agcgtttctg ggtgagcaaa aacaggaagg caaaatgccg caaaaaaggg aataagggcg 2220
acacggaaat gttgaatact catactcttc ctttttcaat attattgaag catttatcag 2280
ggttattgtc tcatgagcgg atacatattt gaatgtattt agaaaaataa acaaataggg 2340
gttccgcgca catttccccg aaaagtgcca cctgacgtct aagaaaccat tattatcatg 2400
acattaacct ataaaaatag gcgtatcacg aggccctttc gtctcgcgcg tttcggtgat 2460
gacggtgaaa acctctgaca catgcagctc ccggagacgg tcacagcttg tctgtaagcg 2520
gatgccggga gcagacaagc ccgtcagggc gcgtcagcgg gtgttggcgg gtgtcggggc 2580
tggcttaact atgcggcatc agagcagatt gtactgagag tgcaccatat cgactacgtc 2640
gtaaggccgt ttctgacaga gtaaaattct tgagggaact ttcaccatta tgggaaatgg 2700
ttcaagaagg tattgactta aactccatca aatggtcagg tcattgagtg ttttttattt 2760
gttgtatttt ttttttttta gagaaaatcc tccaatatca aattaggaat cgtagtttca 2820
tgattttctg ttacacctaa ctttttgtgt ggtgccctcc tccttgtcaa tattaatgtt 2880
aaagtgcaat tctttttcct tatcacgttg agccattagt atcaatttgc ttacctgtat 2940
tcctttacta tcctcctttt tctccttctt gataaatgta tgtagattgc gtatatagtt 3000
tcgtctaccc tatgaacata ttccattttg taatttcgtg tcgtttctat tatgaatttc 3060
atttataaag tttatgtaca cctaggatcc gtcgacactg gatggcggcg ttagtatcga 3120
atcgacagca gtatagcgac cagcattcac atacgattga cgcatgatat tactttctgc 3180
gcacttaact tcgcatctgg gcagatgatg tcgaggcgaa aaaaaatata aatcacgcta 3240
acatttgatt aaaatagaac aactacaata taaaaaaact atacaaatga caagttcttg 3300
aaaacaagaa tctttttatt gtcagtacta ggggcagggc atgctcatgt agagcgcctg 3360
ctcgccgtcc gaggcggtgc cgtcgtacag ggcggtgtcc aggccgcaga gggtgaaccc 3420
catccgccgg tacgcgtgga tcgccggtgc gttgacgttg gtgacctcca gccagaggtg 3480
cccggcgccc cgctcgcggg cgaactccgt cgcgagcccc atcaacgcgc gcccgacccc 3540
gtgcccccgg tgctccgggg cgacctcgat gtcctcgacg gtcagccggc ggttccagcc 3600
ggagtacgag acgaccacga agcccgccag gtcgccgtcg tccccgtacg cgacgaacgt 3660
ccgggagtcc gggtcgccgt cctccccggc gtccgattcg tcgtccgatt cgtcgtcggg 3720
gaacaccttg gtcaggggcg ggtccaccgg cacctcccgc agggtgaagc cgtccccggt 3780
ggcggtgacg cggaagacgg tgtcggtggt gaaggaccca tccagtgcct cgatggcctc 3840
ggcgtccccc gggacactgg tgcggtaccg gtaagccgtg tcgtcaagag tggtcatttt 3900
acatggttgt ttatgttcgg atgtgatgtg agaactgtat cctagcaaga ttttaaaagg 3960
aagtatatga aagaagaacc tcagtggcaa atcctaacct tttatatttc tctacagggg 4020
cgcggcgtgg ggacaattca acgcgtctgt gaggggagcg tttccctgct cgcaggtctg 4080
cagcgaggag ccgtaatttt tgcttcgcgc cgtgcggcca tcaaaatgta tggatgcaaa 4140
tgattataca tggggatgta tgggctaaat gtacgggcga cagtcacatc atgcccctga 4200
gctgcgcacg tcaagactgt caaggagggt attctgggcc tccatgtcgc tggccgggtg 4260
acccggcggg gacgaggcct taagttcgaa cgtacgagct ccggcattgc gaataccgct 4320
ttccacaaac attgctcaaa agtatctctt tgctatatat ctctgtgcta tatccctata 4380
taacctaccc atccaccttt cgctccttga acttgcatct aaactcgacc tctacatttt 4440
ttatgtttat ctctagtatt actctttaga caaaaaaatt gtagtaagaa ctattcatag 4500
agtgaatcga aaacaatacg aaaatgtaaa catttcctat acgtagtata tagagacaaa 4560
atagaagaaa ccgttcataa ttttctgacc aatgaagaat catcaacgct atcactttct 4620
gttcacaaag tatgcgcaat ccacatcggt atagaatata atcggggatg cctttatctt 4680
gaaaaaatgc acccgcagct tcgctagtaa tcagtaaacg cgggaagtgg agtcaggctt 4740
tttttatgga agagaaaata gacaccaaag tagccttctt ctaaccttaa cggacctaca 4800
gtgcaaaaag ttatcaagag actgcattat agagcgcaca aaggagaaaa aaagtaatct 4860
aagatgcttt gttagaaaaa tagcgctctc gggatgcatt tttgtagaac aaaaaagaag 4920
tatagattct ttgttggtaa aatagcgctc tcgcgttgca tttctgttct gtaaaaatgc 4980
agctcagatt ctttgtttga aaaattagcg ctctcgcgtt gcatttttgt tttacaaaaa 5040
tgaagcacag attcttcgtt ggtaaaatag cgctttcgcg ttgcatttct gttctgtaaa 5100
aatgcagctc agattctttg tttgaaaaat tagcgctctc gcgttgcatt tttgttctac 5160
aaaatgaagc acagatgctt cgttaacaaa gatatgctat tgaagtgcaa gatggaaacg 5220
cagaaaatga accggggatg cgacgtgcaa gattacctat gcaatagatg caatagtttc 5280
tccaggaacc gaaatacata cattgtcttc cgtaaagcgc tagactatat attattatac 5340
aggttcaaat atactatctg tttcagggaa aactcccagg ttcggatgtt caaaattcaa 5400
tgatgggtaa caagtacgat cgtaaatctg taaaacagtt tgtcggatat taggctgtat 5460
ctcctcaaag cgtattcgaa tatcattgag aagctgcagc gtcacatcgg ataataatga 5520
tggcagccat tgtagaagtg ccttttgcat ttctagtctc tttctcggtc tagctagttt 5580
tactacatcg cgaagataga atcttagatc acactgcctt tgctgagctg gatcaataga 5640
gtaacaaaag agtggtaagg cctcgttaaa ggacaaggac ctgagcggaa gtgtatcgta 5700
cagtagacgg agtatactag gtatagtcta tagtccgtgg aattaattct catgtttgac 5760
agcttatcat cgataatccg gagctagcat gcggccgctc tagaactagt ggatcccccg 5820
ggctgcagga attctctttg aaaagataat gtatgattat gctttcactc atatttatac 5880
agaaacttga tgttttcttt cgagtatata caaggtgatt acatgtacgt ttgaagtaca 5940
actctagatt ttgtagtgcc ctcttgggct agcggtaaag gtgcgcattt tttcacaccc 6000
tacaatgttc tgttcaaaag attttggtca aacgctgtag aagtgaaagt tggtgcgcat 6060
gtttcggcgt tcgaaacttc tccgcagtga aagataaatg atc 6103
<210> 102
<211> 23
<212> DNA
<213> artificial sequence
<220>
<223> forward primer to obtain the 5' flank A - connector 5 sequence to
obtain 1 kB deletion of genomic DNA
<400> 102
cactatagca atctggctat atg 23
<210> 103
<211> 24
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer to obtain the 5' flank A and B - connector 5
sequence to obtain 1 kB deletion of genomic DNA
<400> 103
aaacgcctgt gggtgtggta ctgg 24
<210> 104
<211> 500
<212> DNA
<213> artificial sequence
<220>
<223> fragment A (5' flank A - connector 5) to obtain 1 kB deletion of
genomic DNA
<400> 104
cactatagca atctggctat atgatatgca gaaaatagtg attactgtgc tctttgctgc 60
atcatgcatc atatgtttgg cattctgtcc tgtcagatga atgggcgaaa caattcgggg 120
agctttgttg cgacttggta cccggcaagc cgcgacctat attttgcatt aaacgagttc 180
atcgtggatt tatcgccatg agccttagct tatcaagcct ctcacagaca attaagcaat 240
gaaaaaggta taccatcggc gcagaatggt taactagtgg gttcatactg ctgtgttata 300
gattgttacc taagtgatca ccaaaaaaaa gtgcaaaaag gaaaaaaaaa taagagacag 360
gtaacttcca caagcttatt cttccaaaaa tcaatcttat cttcatgcca gcaatagttg 420
cgtgctgagc tcaacagtgc ccaacccttg aagcgacttc caatcgcttt gcatatccag 480
taccacaccc acaggcgttt 500
<210> 105
<211> 26
<212> DNA
<213> artificial sequence
<220>
<223> forward primer to obtain the 5' flank B - connector 5 sequence to
obtain 10 kB deletion of genomic DNA
<400> 105
caatagtaat tttaaaaaca atgtgc 26
<210> 106
<211> 500
<212> DNA
<213> artificial sequence
<220>
<223> fragment B (5' flank B - connector 5) to obtain 10 kB deletion of
genomic DNA
<400> 106
caatagtaat tttaaaaaca atgtgcttat ccagaaattc cataaggagt agcgcttgga 60
tccctcacct ttttcggtcg cggcagtctt caaaaccttt tttggctcgt catttttttt 120
taactttgcc ttctttgtca cagccatatt ttgcctcgaa cgatcacctt tcatcgtagg 180
ctatccaata gacgtcaaat gccttgctga ccactacaga actgtaatga acttcagcta 240
tttttaacgt atgttattct ataattctat accactattg tcgttttgaa aaatgaaatt 300
tcacttttcg gaagttgtcc gctaagaaca actaagtgat aacagtaaat tttaaaaatg 360
ctttgaaaaa tgggttaagc aaaggttatt tactataact acgtagtgaa cgaaaccata 420
tatctcttaa tttgcagcag ggattttata aagcgacttc caatcgcttt gcatatccag 480
taccacaccc acaggcgttt 500
<210> 107
<211> 22
<212> DNA
<213> artificial sequence
<220>
<223> forward primer to obtain Connector 5 - TDH3p - GFP - ENO1t -
Connector 3 PCR fragment
<400> 107
aagcgacttc caatcgcttt gc 22
<210> 108
<211> 24
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer to obtain Connector 5 - TDH3p - GFP - ENO1t -
Connector 3 PCR fragment
<400> 108
acttagtatg gtctgttgga aagg 24
<210> 109
<211> 1726
<212> DNA
<213> artificial sequence
<220>
<223> fragment C, Connector 5 - TDH3p - GFP - ENO1t - Connector 3
synthetic cassette
<400> 109
aagcgacttc caatcgcttt gcatatccag taccacaccc acaggcgttt gtgcttagtc 60
aaaaaattag ccttttaatt ctgctgtaac ccgtacatgc ccaaaatagg gggcgggtta 120
cacagaatat ataacatcgt aggtgtctgg gtgaacagtt tattcctggc atccactaaa 180
tataatggag cccgcttttt aagctggcat ccagaaaaaa aaagaatccc agcaccaaaa 240
tattgttttc ttcaccaacc atcagttcat aggtccattc tcttagcgca actacagaga 300
acaggggcac aaacaggcaa aaaacgggca caacctcaat ggagtgatgc aacctgcctg 360
gagtaaatga tgacacaagg caattgaccc acgcatgtat ctatctcatt ttcttacacc 420
ttctattacc ttctgctctc tctgatttgg aaaaagctga aaaaaaaggt tgaaaccagt 480
tccctgaaat tattccccta cttgactaat aagtatataa agacggtagg tattgattgt 540
aattctgtaa atctatttct taaacttctt aaattctact tttatagtta gtcttttttt 600
tagttttaaa acaccaagaa cttagtttcg aataaacaca cataaacaaa caaaatgtct 660
aaaggtgaag aattattcac tggtgttgtc ccaattttgg ttgaattaga tggtgatgtt 720
aatggtcaca aattttctgt ctccggtgaa ggtgaaggtg atgctactta cggtaaattg 780
accttaaaat tgatttgtac tactggtaaa ttgccagttc catggccaac cttagtcact 840
actttaggtt atggtttgca atgttttgct agatacccag atcatatgaa acaacatgac 900
tttttcaagt ctgccatgcc agaaggttat gttcaagaaa gaactatttt tttcaaagat 960
gacggtaact acaagaccag agctgaagtc aagtttgaag gtgatacctt agttaataga 1020
atcgaattaa aaggtattga ttttaaagaa gatggtaaca ttttaggtca caaattggaa 1080
tacaactata actctcacaa tgtttacatc actgctgaca aacaaaagaa tggtatcaaa 1140
gctaacttca aaattagaca caacattgaa gatggtggtg ttcaattagc tgaccattat 1200
caacaaaata ctccaattgg tgatggtcca gtcttgttac cagacaacca ttacttatcc 1260
tatcaatctg ccttatccaa agatccaaac gaaaagagag atcacatggt cttgttagaa 1320
tttgttactg ctgctggtat tacccatggt atggatgaat tgtacaaata aaagcttttg 1380
attaagcctt ctagtccaaa aaacacgttt ttttgtcatt tatttcattt tcttagaata 1440
gtttagttta ttcattttat agtcacgaat gttttatgat tctatatagg gttgcaaaca 1500
agcatttttc attttatgtt aaaacaattt caggtttacc ttttattctg cttgtggtga 1560
cgcgtgtatc cgcccgctct tttggtcacc catgtattta attgcataaa taattcttaa 1620
aagtggagct agtctatttc tatttacata cctctcattt ctcatttcct cccctcagaa 1680
agcctgtatg cgaagccaca atcctttcca acagaccata ctaagt 1726
<210> 110
<211> 72
<212> DNA
<213> artificial sequence
<220>
<223> forward primer to obtain the connector 3 - 3' flank A sequence to
obtain 1 kB deletion of genomic DNA
<400> 110
agaaagcctg tatgcgaagc cacaatcctt tccaacagac catactaagt aagcgttgaa 60
gtttcctctt tg 72
<210> 111
<211> 20
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer to obtain the connector 3 - 3' flank A and B
sequence to obtain 1 kB deletion of genomic DNA
<400> 111
tgtcaactgg agagctatcg 20
<210> 112
<211> 581
<212> DNA
<213> artificial sequence
<220>
<223> fragment D (connector 3 - 3' flank A) to obtain 1 kB deletion of
genomic DNA
<400> 112
agaaagcctg tatgcgaagc cacaatcctt tccaacagac catactaagt aagcgttgaa 60
gtttcctctt tgtatatttg agatcttcat tttatcggat tctttgtcat cagacaactt 120
gttgagtggt actaaaggag tgcttttcat catccttttg gtgaacgatt tcaaatacgt 180
tagtgttttc tgagctagtt ttgatcaatt caggtgattc gttatcagaa ctctcaggtt 240
tgtattcgtg tccagttgtg tagcattcgc ctaacgtgta agcacggatt tcttcctcag 300
aaatttcact gtatggaatc atgcccttct ttctcgcttc ttcgtcggta aatgcaccat 360
agtaatcttt gtcatcatgt ctaacagtaa ttttgaatgg gaagaagaca catagccccc 420
agtaaacgaa aaaagaaatc aaaaaggaga agaaagaatc accataaaag aatttaacaa 480
tacctgagtc gtggaaatag ttattgttga cttcccaagc gataccaggt agaccgggag 540
ccataccaca cacccaggca acgatagctc tccagttgac a 581
<210> 113
<211> 71
<212> DNA
<213> artificial sequence
<220>
<223> forward primer to obtain the connector 3 - 3' flank B sequence to
obtain 10 kB deletion of genomic DNA
<400> 113
agaaagcctg tatgcgaagc cacaatcctt tccaacagac catactaagt ctgttgtgac 60
agcatcttgt c 71
<210> 114
<211> 22
<212> DNA
<213> artificial sequence
<220>
<223> reverse primer to obtain the connector 3 - 3' flank B sequence to
obtain 10 kB deletion of genomic DNA
<400> 114
cctagcagta gttgtaatgt gg 22
<210> 115
<211> 607
<212> DNA
<213> artificial sequence
<220>
<223> fragment E (connector 3 - 3' flank B) to obtain 10 kB deletion of
genomic DNA
<400> 115
agaaagcctg tatgcgaagc cacaatcctt tccaacagac catactaagt ctgttgtgac 60
agcatcttgt ctattattta ttggatacgc aaaactcatt tttttaaaat tttttttata 120
atttccttta aataaaaagg ttaaagctgg gaaaaatgca tctaaataat aaactaatga 180
tttagtttcc ctcatttaaa atatctaaga aggacagaac tttgtttggg gtacttaccc 240
ttgagtattt ttagcgatta ttcttggagt tctcagccag aagattaaaa gaatatatgt 300
tactgaatgc agtgtgatac tcaagactaa gtagtcttaa caacaagtta acaagggcgt 360
gtggtctagt ggtatgattc tcgctttggg cgacttcctg actaacagga agacaaagca 420
tgcgagaggc cctgggttca attcccagct cgcccctttt atttttgatt atttatttcc 480
tattggtcgg gtaacagatt ttttttattt ttttcaaggc ccttttgttt tgtaaacaaa 540
gaaatttcac aaagtgagcg tctactaata ttgataatgc catttccaca ttacaactac 600
tgctagg 607
<210> 116
<211> 15
<212> DNA
<213> artificial sequence
<220>
<223> polynucleotide sequence of the first 15 polynucleotides
(nucleotide 1-15) in the forward primers according to SEQ ID NO:
7 to 10
<400> 116
tgaaagataa atgat 15
<210> 117
<211> 25
<212> DNA
<213> artificial sequence
<220>
<223> polynucleotide sequence of the last 25 polynucleotides
(nucleotide 36-60) in the forward primers according to SEQ ID NO:
7 to 10
<400> 117
gttttagagc tagaaatagc aagtt 25
<210> 118
<211> 15
<212> DNA
<213> artificial sequence
<220>
<223> polynucleotide sequence of the first 15 polynucleotides
(nucleotide 1-15) in the reverse primers according to SEQ ID NO:
11 to 14
<400> 118
ttctagctct aaaac 15
<210> 119
<211> 25
<212> DNA
<213> artificial sequence
<220>
<223> polynucleotide sequence of the last 25 polynucleotides
(nucleotide 36-60) in the reverse primers according to SEQ ID NO:
11 to 14
<400> 119
atcatttatc tttcactgcg gagaa 25

Claims (14)

1.一种产生包含两种或多种向导多核苷酸表达盒的环状载体的方法,其中所述两种或多种向导多核苷酸表达盒包含编码与一种或多种控制序列可操作地相连的向导多核苷酸的多核苷酸,所述控制序列指导所述向导多核苷酸在宿主细胞中的表达,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且其中所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述方法包括以下步骤:
-提供两种或多种多核苷酸,其中所述两种或多种多核苷酸包含待延伸的多核苷酸序列,其中所述待延伸的多核苷酸序列在待延伸的5’-端和/或3’-端包含向导多核苷酸表达盒的片段,其中在待延伸的多核苷酸序列的5’-端和/或3’-端的向导多核苷酸表达盒的片段不包含编码向导序列的多核苷酸;
-进行两个或多个重叠延伸PCR反应,其是通过在每个反应中使所述两种或多种多核苷酸中的一种和两种合适的多核苷酸引物产生一种杂交线性多核苷酸进行的,其中至少一种合适的多核苷酸引物包括编码向导序列的多核苷酸,
其中选择待延伸的两种或多种多核苷酸序列和合适的多核苷酸引物,使得在所述两个或多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许所述两种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的环状载体;
-使在所述重叠延伸PCR中获得的两种或多种杂交线性多核苷酸和任选的一种或多种另外的线性多核苷酸进行组装反应,从而产生包含一种或多种功能性向导多核苷酸表达盒的环状载体,
其中所述组装反应发生在体内。
2.根据权利要求1所述的方法,其中所述向导多核苷酸是gRNA。
3.根据权利要求1或2所述的方法,其中所述环状载体包含三种或更多种向导多核苷酸表达盒。
4.根据权利要求1或2所述的方法,其中一种或多种所述待延伸的多核苷酸序列或另外的线性多核苷酸包含一种或多种选自以下的元件:复制起点或其片段、选择标记或其片段、CAS9表达盒或其片段、供体多核苷酸或其片段。
5.根据权利要求4所述的方法,其中组装后获得的环状载体包含一种或多种选自以下的元件:复制起点、选择标记、CAS9表达盒、供体多核苷酸或一种或多种所述元件的组合。
6.一种在体内组装包含两种或多种向导多核苷酸表达盒的环状载体的方法,其中所述两种或多种向导多核苷酸表达盒包含编码与一种或多种控制序列可操作地相连的向导多核苷酸的多核苷酸,所述控制序列指导所述向导多核苷酸在宿主细胞中的表达,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且其中所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述方法包括以下步骤:
-提供一种或多种线性多核苷酸,其中所述一种或多种线性多核苷酸在5'-末端和/或3'-末端包含至少含有向导序列的至少一种向导多核苷酸表达盒或至少一种向导多核苷酸表达盒的片段;
-将所述一种或多种线性多核苷酸和任选的一种或多种另外的线性多核苷酸转化到宿主细胞中;
-允许在所述一种或多种线性多核苷酸和任选的一种或多种另外的线性多核苷酸之间发生同源重组反应,其中所述线性多核苷酸和另外的线性多核苷酸已被选择为包含合适的5'-末端和3'-末端,从而允许所述一种或多种线性多核苷酸和任选的所述一种或多种另外的线性多核苷酸彼此以预定顺序同源重组,以产生包含一种或多种功能性向导多核苷酸表达盒的环状载体;
-选择包含环状载体的宿主细胞,并且其中所述载体包含一种或多种功能性向导多核苷酸表达盒;以及
-回收所述环状载体;
其中所述一种或多种线性多核苷酸是两种或更多种杂交线性多核苷酸,其是通过以下方式获得的:
-提供两种或更多种多核苷酸,其中所述两种或更多种多核苷酸包含待延伸的多核苷酸序列,其中所述待延伸的多核苷酸序列在待延伸的5’-端和/或3’-端包含向导多核苷酸表达盒的片段;
-进行两个或更多个重叠延伸PCR反应,其是通过在每个反应中使所述两种或更多种多核苷酸中的一种和两种合适的多核苷酸引物产生一种杂交线性多核苷酸进行的,其中至少一种合适的多核苷酸引物包括编码向导序列的多核苷酸,
其中选择待延伸的两种或更多种多核苷酸序列和合适的多核苷酸引物,使得在所述两个或更多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许所述两种或更多种杂交线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的环状载体。
7.根据权利要求6所述的方法,其中所述环状载体包含至少三种或更多种功能性向导多核苷酸表达盒。
8.一种用于产生包含环状载体的重组宿主细胞的方法,其中所述载体包含两种或多种向导多核苷酸表达盒,其中所述两种或多种向导多核苷酸表达盒包含编码与一种或多种控制序列可操作地相连的向导多核苷酸的多核苷酸,所述控制序列指导所述向导多核苷酸在宿主细胞中的表达,其中所述向导多核苷酸包含向导序列,所述向导序列基本上是宿主细胞中的靶多核苷酸的反向互补物,并且其中所述向导多核苷酸能够指导Cas蛋白在宿主细胞中的靶多核苷酸处结合以形成CRISPR-Cas复合体,其中所述方法包括以下步骤:
-提供一种或多种线性多核苷酸,其中所述一种或多种线性多核苷酸在5'-末端和/或3'-末端包含至少含有所述向导序列的至少一种向导多核苷酸表达盒或至少一种向导多核苷酸表达盒的片段;
-将所述一种或多种线性多核苷酸和任选的一种或多种另外的线性多核苷酸转化到宿主细胞中;
-允许在所述一种或多种线性多核苷酸和任选的一种或多种另外的线性多核之间发生同源重组反应,其中所述线性多核苷酸和另外的线性多核苷酸已被选择为包含合适的5'-末端和3'-末端,从而允许所述一种或多种线性多核苷酸和任选的所述一种或多种另外的线性多核苷酸彼此以预定顺序同源重组,以产生包含一种或多种功能性向导多核苷酸表达盒的环状载体;
-选择包含环状载体的宿主细胞,并且其中所述载体包含一种或多种功能性向导多核苷酸表达盒,其中所述一种或多种线性多核苷酸是两种或更多种杂交线性多核苷酸,其是通过以下方式获得的:
-提供两种或更多种多核苷酸,其中所述两种或更多种多核苷酸包含待延伸的多核苷酸序列,其中所述待延伸的多核苷酸序列在待延伸的5’-端和/或3’-端包含向导多核苷酸表达盒的片段;
-进行两个或更多个重叠延伸PCR反应,其是通过在每个反应中使所述两种或更多种多核苷酸中的一种和两种合适的多核苷酸引物产生一种杂交线性多核苷酸进行的,其中至少一种合适的多核苷酸引物包括编码向导序列的多核苷酸,
其中选择待延伸的两种或更多种多核苷酸序列和合适的多核苷酸引物,使得在所述两个或更多个重叠延伸PCR反应中获得的每种杂交线性多核苷酸至少包含编码向导序列的多核苷酸以及合适的5'-末端和3'-末端,从而允许所述两种或更多种杂交线性多核苷酸彼此以预定顺序在体内组装,以产生包含一种或多种功能性向导多核苷酸表达盒的环状载体。
9.根据权利要求8所述的产生重组宿主细胞的方法,其还包括以下步骤:
-回收所述环状载体;
-转化所述环状载体到第二宿主细胞中。
10.根据权利要求9所述的方法,其还包括:
-分离包含所述环状载体的第二宿主细胞。
11.根据权利要求8-10中任一项所述的方法,其中所述组装反应发生在属于S.cerevisiae种的宿主细胞中。
12.根据权利要求9至10中任一项所述的方法,其中所述第二宿主细胞是原核细胞或真核宿主细胞。
13.根据权利要求12所述的方法,其中所述原核细胞是细菌宿主细胞或所述真核宿主细胞是真菌宿主细胞。
14.根据权利要求8至10中任一项所述的方法,其中所述环状载体包含至少三种或更多种功能性向导多核苷酸表达盒。
CN201680051156.XA 2015-07-06 2016-07-06 向导rna组装载体 Active CN108026523B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15175444.7 2015-07-06
EP15175444 2015-07-06
PCT/EP2016/066016 WO2017005807A1 (en) 2015-07-06 2016-07-06 Guide rna assembly vector

Publications (2)

Publication Number Publication Date
CN108026523A CN108026523A (zh) 2018-05-11
CN108026523B true CN108026523B (zh) 2021-11-30

Family

ID=53539533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680051156.XA Active CN108026523B (zh) 2015-07-06 2016-07-06 向导rna组装载体

Country Status (5)

Country Link
US (1) US20190055544A1 (zh)
EP (1) EP3320091B1 (zh)
CN (1) CN108026523B (zh)
DK (1) DK3320091T3 (zh)
WO (1) WO2017005807A1 (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10323236B2 (en) 2011-07-22 2019-06-18 President And Fellows Of Harvard College Evaluation and improvement of nuclease cleavage specificity
US9163284B2 (en) 2013-08-09 2015-10-20 President And Fellows Of Harvard College Methods for identifying a target site of a Cas9 nuclease
US9359599B2 (en) 2013-08-22 2016-06-07 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
US9340799B2 (en) 2013-09-06 2016-05-17 President And Fellows Of Harvard College MRNA-sensing switchable gRNAs
US9737604B2 (en) 2013-09-06 2017-08-22 President And Fellows Of Harvard College Use of cationic lipids to deliver CAS9
US9322037B2 (en) 2013-09-06 2016-04-26 President And Fellows Of Harvard College Cas9-FokI fusion proteins and uses thereof
US20150165054A1 (en) 2013-12-12 2015-06-18 President And Fellows Of Harvard College Methods for correcting caspase-9 point mutations
US10077453B2 (en) 2014-07-30 2018-09-18 President And Fellows Of Harvard College CAS9 proteins including ligand-dependent inteins
WO2016110511A1 (en) * 2015-01-06 2016-07-14 Dsm Ip Assets B.V. A crispr-cas system for a lipolytic yeast host cell
US10619170B2 (en) * 2015-01-06 2020-04-14 Dsm Ip Assets B.V. CRISPR-CAS system for a yeast host cell
WO2017070633A2 (en) 2015-10-23 2017-04-27 President And Fellows Of Harvard College Evolved cas9 proteins for gene editing
SG11201900907YA (en) 2016-08-03 2019-02-27 Harvard College Adenosine nucleobase editors and uses thereof
EP3497214B1 (en) 2016-08-09 2023-06-28 President and Fellows of Harvard College Programmable cas9-recombinase fusion proteins and uses thereof
WO2018039438A1 (en) 2016-08-24 2018-03-01 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
CA3039928A1 (en) 2016-10-14 2018-04-19 President And Fellows Of Harvard College Aav delivery of nucleobase editors
WO2018119359A1 (en) 2016-12-23 2018-06-28 President And Fellows Of Harvard College Editing of ccr5 receptor gene to protect against hiv infection
US11898179B2 (en) 2017-03-09 2024-02-13 President And Fellows Of Harvard College Suppression of pain by gene editing
US11542496B2 (en) 2017-03-10 2023-01-03 President And Fellows Of Harvard College Cytosine to guanine base editor
IL306092A (en) 2017-03-23 2023-11-01 Harvard College Nucleic base editors that include nucleic acid programmable DNA binding proteins
US11560566B2 (en) 2017-05-12 2023-01-24 President And Fellows Of Harvard College Aptazyme-embedded guide RNAs for use with CRISPR-Cas9 in genome editing and transcriptional activation
US11732274B2 (en) 2017-07-28 2023-08-22 President And Fellows Of Harvard College Methods and compositions for evolving base editors using phage-assisted continuous evolution (PACE)
US11319532B2 (en) 2017-08-30 2022-05-03 President And Fellows Of Harvard College High efficiency base editors comprising Gam
WO2019079347A1 (en) 2017-10-16 2019-04-25 The Broad Institute, Inc. USES OF BASIC EDITORS ADENOSINE
EP3578658A1 (en) * 2018-06-08 2019-12-11 Johann Wolfgang Goethe-Universität Frankfurt Method for generating a gene editing vector with fixed guide rna pairs
CN109411022A (zh) * 2018-11-07 2019-03-01 宁夏农林科学院农业生物技术研究中心(宁夏农业生物技术重点实验室) 一种基于字符切片技术的含PAM结构gRNA靶向序列筛选方法及应用
AU2020242032A1 (en) 2019-03-19 2021-10-07 Massachusetts Institute Of Technology Methods and compositions for editing nucleotide sequences
US20230159955A1 (en) * 2020-04-16 2023-05-25 Zymergen Inc. Circular-permuted nucleic acids for homology-directed editing
KR20230019843A (ko) 2020-05-08 2023-02-09 더 브로드 인스티튜트, 인코퍼레이티드 표적 이중 가닥 뉴클레오티드 서열의 두 가닥의 동시 편집을 위한 방법 및 조성물

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015095804A1 (en) * 2013-12-19 2015-06-25 Amyris, Inc. Methods for genomic integration

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015095804A1 (en) * 2013-12-19 2015-06-25 Amyris, Inc. Methods for genomic integration

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CRISPR/Cas9: a molecular Swiss army knife for simultaneous introduction of multiple genetic modifications in Saccharomyces cerevisiae;Robert Mans.等;《FEMS Yeast Res.》;20150317;第15卷(第2期);fov004 *
Efficient Multiplexed Integration of Synergistic Alleles and Metabolic Pathways in Yeasts via CRISPR-Cas;Andrew A Horwitz等;《Cell Syst.》;20150312;第1卷(第1期);第88-96页 *
Homology-Integrated CRISPR–Cas (HI-CRISPR) System for One-Step Multigene Disruption in Saccharomyces cerevisiae;Zehua Bao等;《ACS Synth. Biol.》;20140910;第4卷(第5期);第585-594页 *
Multiplex metabolic pathway engineering using CRISPR/Cas9 in Saccharomyces cerevisiae;Tadas Jakočiūnas等;《Metabolic Engineering》;20150128;第28卷;第213-222页 *

Also Published As

Publication number Publication date
DK3320091T3 (da) 2021-02-01
WO2017005807A1 (en) 2017-01-12
EP3320091B1 (en) 2020-11-11
US20190055544A1 (en) 2019-02-21
EP3320091A1 (en) 2018-05-16
CN108026523A (zh) 2018-05-11

Similar Documents

Publication Publication Date Title
CN108026523B (zh) 向导rna组装载体
CN109563505A (zh) 用于真核细胞的组装系统
KR102370675B1 (ko) 표적 핵산의 변형을 위한 개선된 방법
KR102319845B1 (ko) 조류 숙주 세포에 대한 crispr-cas 시스템
CN109715804A (zh) 用于宿主细胞的指导rna表达系统
DK2087106T3 (en) MUTATING DELTA8 DESATURATION GENES CONSTRUCTED BY TARGETED MUTAGENES AND USE THEREOF IN THE MANUFACTURE OF MULTI-Saturated FAT ACIDS
CN101939434B (zh) 用于在大豆中提高种子贮藏油脂的生成和改变脂肪酸谱的来自解脂耶氏酵母的dgat基因
CA2683497C (en) .delta.8 desaturases and their use in making polyunsaturated fatty acids
KR20180043297A (ko) 조작된 내수송/외수송을 가진 미생물 숙주에서 모유 올리고당류의 생산
KR20120099509A (ko) 재조합 숙주 세포에서 육탄당 키나아제의 발현
IL236992A (en) Genetically modified cyanobacteria that produce ethanol
KR102593668B1 (ko) 유도 기질 부재 하의 사상 진균 세포에서의 단백질 생산
DK2443248T3 (en) IMPROVEMENT OF LONG-CHAIN POLYUM Saturated OMEGA-3 AND OMEGA-6 FATTY ACID BIOS SYNTHESIS BY EXPRESSION OF ACYL-CoA LYSOPHOSPHOLIPID ACYL TRANSFERASES
KR20070085665A (ko) 도코사헥사엔산을 생성하는 야로위아 리폴리티카 균주
CN109996874A (zh) 10-甲基硬脂酸的异源性产生
KR20220012327A (ko) 피토칸나비노이드 및 피토칸나비노이드 전구체의 생산을 위한 방법 및 세포
KR20150042856A (ko) 클라빈-유형 알칼로이드의 생산을 위한 유전자 및 방법
KR20120034652A (ko) 유전적으로 변형된 미생물을 발생시키는 방법
CN114181957B (zh) 一种基于病毒加帽酶的稳定t7表达系统及其在真核生物中表达蛋白质的方法
CN115927299A (zh) 增加双链rna产生的方法和组合物
CN115698297A (zh) 多模块生物合成酶基因组合文库的制备方法
CN101802183A (zh) 高保真度限制性内切核酸酶
DK2475679T3 (da) Forbedrede, optimerede stammer af yarrowia lipolytica til fremstilling af højkoncentreret eicosapentaensyre
KR102287880B1 (ko) 세포에서 이중 가닥 dna의 표적 부위를 변형시키기 위한 방법
CN113039278A (zh) 通过指导的内切核酸酶和单链寡核苷酸进行基因组编辑

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant