CN109952373A - 基因组编辑 - Google Patents

基因组编辑 Download PDF

Info

Publication number
CN109952373A
CN109952373A CN201780047013.6A CN201780047013A CN109952373A CN 109952373 A CN109952373 A CN 109952373A CN 201780047013 A CN201780047013 A CN 201780047013A CN 109952373 A CN109952373 A CN 109952373A
Authority
CN
China
Prior art keywords
sequence
nucleic acid
genome
codon
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780047013.6A
Other languages
English (en)
Inventor
J·弗雷登斯
王开航
J·W·钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Research And Innovation Foundation
Original Assignee
British Research And Innovation Foundation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Research And Innovation Foundation filed Critical British Research And Innovation Foundation
Publication of CN109952373A publication Critical patent/CN109952373A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1082Preparation or screening gene libraries by chromosomal integration of polynucleotide sequences, HR-, site-specific-recombination, transposons, viral vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/70Vectors or expression systems specially adapted for E. coli
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/66General methods for inserting a gene into a vector to form a recombinant vector using cleavage and ligation; Use of non-functional linkers or adaptors, e.g. linkers containing the sequence for a restriction endonuclease

Landscapes

  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Plant Pathology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Mycology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Virology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

本发明涉及一种方法,包括:a)提供宿主细胞所述宿主细胞包括附加型复制子,所述附加型复制子包括供体核酸序列,所述宿主细胞还包括靶标核酸,b)提供能够在所述宿主细胞中支持核酸重组的辅助蛋白c)提供能够在所述宿主细胞中支持核酸切除的辅助蛋白和/或RNA其中所述供体核酸序列依次包括:5'‑同源重组序列1‑感兴趣的序列‑同源重组序列2‑3'其中所述感兴趣的序列包括正选择标记d)诱导所述供体核酸序列的切除e)孵育以允许切除的供体核酸和所述靶标核酸之间的重组f)选择已将所述供体核酸掺入所述靶标核酸的重组体。还描述了核酸和细胞。

Description

基因组编辑
技术领域
本发明属于遗传学领域,特别是有效操作和产生有用的重组核酸。
背景技术
基因组的从头设计和合成为理解和工程化生物学提供了强有力的方法。基因组合成有可能加速对同义密码子作用的研究,通过允许将编码异源途径的基因引入基因组来促进代谢工程,促进有义密码子重新分配到新单体以进行非天然聚合物合成,并可能改善生物安全性。
在现有技术中已经实现了Mycoplasma mycoides基因组的体外合成,并核转移到M.capricolum中。更详细地,已经产生了完整的合成基因组。这将Mycoplasma mycoides的合成基因组引入宿主Mycoplasma capricolum。例如,这描述于Gibson等2010(ScienceVol.329,Issue 5987,pp.52-56“Creation of a Bacterial Cell Controlled by aChemically Synthesized Genome”)中。这是一个非常费力的过程,需要将近十年的时间才能完成。这是本领域的一个问题。将这种方法扩展到基因组的彻底重新设计的挑战,是合成基因组的序列必须完整地被耐受,或者不进行基因组替换。
已经开发出允许对基因组进行重复定点诱变的方法,并用于将大肠杆菌中的321TAG密码子编辑至TAA,但需要缺乏DNA修复途径的菌株以促进突变,并且靶向突变伴随着更大的脱靶标突变的数量(355),这显然是一个问题。
此外,基于定点突变的方法不能引入大的插入,并且随着基因组中所需改变的密度和/或数量的增加使得实施将变得越来越麻烦,这是现有技术方法的缺点。
基因组合成具有通过在基因组中引入大的插入和缺失以及引入任何密度和/或数量的突变而从根本上改变基因组的潜力。然而,需要最近报道的酿酒酵母6中分段替换基因组的方法,以及对给定设计失败的精确位置提供反馈的方法,来增加我们操纵和理解基因组编码信息的能力。
本领域的一个问题是转化效率可能是核酸操作中的限制步骤。当尺寸从2kb增加到9kb或更高时尤其如此。超过9kb的线性DNA的转化效率可能严重限制依赖于这一步骤的核酸操作的效率。
本领域的一个问题是,使用已知技术每轮仅可操作几kb的核酸。
本领域的一个问题是重组的低效率和/或靶标核酸内不适当位置的重组会严重阻碍现有技术的核酸操作。
Jiang等人2013(Jiang,W.,Cox,D.,Zhang,F.,Bikard,D.&Marraffini,L.A.RNA-guided editing of bacterial genomes using CRISPR-Cas systems.NatureBiotechnology 31,233–239(2013))中公布了CRISPR-Cas系统。在本文中,重点是尝试通过使用单链DNA(ssDNA)介导的重组工程编辑多个确定的密码子(每个密码子3bp),并通过在这些多个位置使用CRISPR/Cas9切割来消除未编辑的细胞。作者试图精确地改变基因组上的切割位点。Jiang等人不使用附加型复制子来递送其供体核酸。他们使用单链DNA并通过ssDNA重组引入变化,这从根本上将变化的长度限制为几个核苷酸,这是一个问题。
Traver等人2009((Traver,B.E.,Anderson,M.A.E.&Adelman,Z.N.Homingendonucleases catalyze double-stranded DNA breaks and somatic transgeneexcision in Aedes aegypti.Insect Molecular Biology 18,623–633(2009))公开了通过归巢核酸酶删除或切除蚊子中两个切割位点之间的基因组序列,来“双切割”基因组。Traver等人描述了一种真核生物(蚊子)系统。Traver等人描述了删除,但没有任何插入或任何替换。Traver等人不提供供体DNA(如合成DNA)。Traver等人进行的切除本质上受核酸内切酶位置的限制,这也是一个缺点。
细胞中合成基因组的产生受到体内合成DNA替换天然基因组DNA的低效率的限制。
在大肠杆菌中,合成DNA的短区域可以插入基因组或用于在两步过程中替换基因组DNA:i)用携带一段合成DNA的线性双链DNA(dsDNA)转化细胞,偶联有正选择标记,在各个末端侧面接同源区(HR)转到基因组靶标区域,和ii)由同源区介导重组,然后通过正选择标记筛选基因组整合体。由于HR赋予的有限特异性,这种方法(“经典重组”,例如λRed介导的大肠杆菌重组)并不总是导致在靶标基因座处整合。此外,经典重组通常用于插入或替换仅2-3kb的基因组DNA,因为i)难以制备足够量的没有错误的完整、未剪切、长的线性dsDNA,和ii)随着DNA插入的长度增加,这个过程效率迅速下降。因此,虽然可以删除大的基因组区域并且已经产生了大肠杆菌(MDS42)的最小基因组菌株,但是没有报道将长合成DNA作为插入或替换引入基因组的方法。
Sakura等2016(Sakura,Nakade,Sakane,Suzuki amd Yamamoto NatProtoc.2016Jan;11(1):118-33)公开了使用TALEN和CRISPR-Cas9与PITCh系统的MMEJ辅助的基因敲入。该文献公开了制备“敲入”HEK293T细胞和蛙胚胎的方法。Sakura等人不使用附加型复制子。Sakura等人引入的环状载体不能在它们使用的宿主中复制,因此通过细胞分裂很快就会丢失。
本发明试图克服与现有技术相关的问题。
发明内容
在这里,我们报告了将90kb合成DNA单步插入大肠杆菌基因组中,以及用合成DNA单步替换100kb大肠杆菌基因组的方法,并证明该方法可以重复。采用明确定义的同义重新编码规则,我们使用我们的方法合成大肠杆菌基因组的20kb区域,该区域富含必需基因。我们的结果揭示了定义的同义重新编码规则,这些规则在许多必需基因中可以同时耐受。该方法是灵活的并且具有技术益处,即它可以在单轮中在靶标核酸中引入或替换超过100Kb的核酸。
因此,在一个方面,本发明涉及一种方法,包括
a)提供宿主细胞
所述宿主细胞包括附加型复制子,
所述附加型复制子包括供体核酸序列,
所述宿主细胞还包括靶标核酸,
b)提供能够在所述宿主细胞中支持核酸重组的辅助蛋白
c)提供能够在所述宿主细胞中支持核酸切除的辅助蛋白和/或RNA
其中所述供体核酸序列按顺序包括:5'-同源重组序列1-感兴趣的序列-同源重组序列2-3'
其中所述感兴趣的序列包括正选择标记
d)诱导所述供体核酸序列的切除
e)孵育以允许切除的供体核酸和所述靶标核酸之间的重组
f)选择已将所述供体核酸整掺入所述靶标核酸的重组体。
适当地,所述靶标核酸依次包括:5'-同源重组序列1-负选择标记-同源重组序列2-3'。
适当选择已将所述供体核酸掺入所述靶标核酸的重组体,包括选择获得供体核酸的正选择标记和丢失靶标核酸的负选择标记。
适当地选择获得供体核酸的正选择标记和同时丢失靶标核酸的负选择标记。
适当地,所述感兴趣的序列包括正选择标记和负选择标记。
适当地,如上所述的所述方法还包括步骤:
dii)在靶标核酸序列中诱导至少一个双链断裂,其中所述双链断裂在所述同源重组序列1和所述同源重组序列2之间。
适当地,在靶标核酸序列中诱导至少两个双链断裂,其中每个所述双链断裂在所述同源重组序列1和所述同源重组序列2之间。
适当地,所述切除的供体核酸以所述同源重组序列1开始,并以所述同源重组序列2结束。
适当地,所述附加型复制子包括独立于供体核酸序列的负选择标记。
适当地,所述方法包括通过选择独立于供体核酸序列的所述负选择标记的丢失来选择附加型复制子丢失的进一步的步骤。
适当地说,附加型复制子包括:切除切割位点1-供体核酸序列-切除切割位点2。
适当地,所述靶标核酸具有其自身的复制起点,能够在所述宿主细胞内起作用。
适当地,所述游离型复制子是质粒核酸。
适当地,所述靶标核酸是质粒核酸。
适当地,所述附加型复制子是第一质粒核酸,并且所述靶标核酸是第二质粒核酸。
适当地,所述附加型复制子是细菌人工染色体(BAC)。
适当地,所述靶标核酸是细菌人工染色体(BAC)。
适当地,所述附加型复制子是第一细菌人工染色体(BAC),并且所述靶标核酸是第二细菌人工染色体(BAC)。
适当地,所述靶标核酸是宿主细胞基因组。
适当地,负选择标记选自sacB(蔗糖敏感性)或rpsL(S12核糖体蛋白-链霉素敏感性)。
适当地,正选择标记选自CmR(氯霉素抗性)或KanR(卡那霉素抗性)。
适当地,选择重组体的步骤包括对所述正和负标记的顺序选择,或对所述负和正标记的顺序选择。
适当地,选择重组体的步骤包括同时选择所述正和负标记。
适当地,所述能够支持核酸切除的辅助蛋白和/或RNA包括CRISPR/Cas9蛋白/RNA。
适当地,所述能够支持核酸重组的辅助蛋白包括λRed蛋白。
另一方面,本发明涉及组装合成基因组的方法,该方法包括用第一供体核酸序列进行如上所述的步骤,选择与所述第一供体核酸序列邻接的其他供体序列,并且用所述另外的供体核酸序列重复所述步骤,直到合成基因组组装完毕。
另一方面,本发明涉及根据上述方法获得的重组核酸。
另一方面,本发明涉及包括如上所述的重组核酸的宿主细胞。
DOSER是指涉及正标记和丢失负标记的组合选择方法。使用这种“双选择”方案实际上也有助于位点特异性。例如,如果重组事件发生在不适当的位点,则可能导致获得正选择标记。然而,通过同时选择正标记和丢失负标记,即使核酸已经在不适当的位点掺入靶标核酸(从而赋予正标记),这样的分子仍然不会被选择,因为如果他们已经重新组合到不适当的位点,他们将不会同时导致负标记的丢失。因此,除了本身是有用的选择之外,这实际上增加了通过选择不仅获得供体序列而且同时删除了要除去/替换的序列,来协助位点特异性的技术益处。
重组可以立即或非常快速地发生。因此,孵育以允许在切除的供体核酸和所述靶标核酸之间重组的步骤可以是短的。典型的例子是孵育5小时(例如对于REXER/KAISER方案),其有利地允许通过蛋白质降解和/或细胞分裂(包括重组所需的时间)稀释负选择标记。
具体实施方式
在这里,我们报告有效长度独立插入,并用合成DNA替换大肠杆菌基因组DNA,通过CRISPR/Cas9从附加型复制子体内切除双链DNA程序化触发。我们证明了在基因组中插入了90kb的合成DNA,用合成的DNA替换了100kb的基因组DNA,并且重复了该方法,这将使得逐步的基因组再合成。我们使用我们的方法同时重新编码15个基因,包括12个必需基因,使用明确定义的同义重新编码方案,在目标基因组区域引入723个程序化突变。该方法确定了不成功的重新编码方案的失败模式,并且能够识别细胞中成功的同义重新编码方案。密码子的选择对于控制蛋白质表达、折叠和mRNA结构是重要的。我们的结果表明,尽管组合不可能对所有同义重新编码的基因组进行采样组合,但有可能设计出在基因组中必需基因的许多位置起作用的同义重新编码方案。
简而言之,KAISER 2方法包括引入附加型复制子(如BAC),孵育以扩增携带附加型复制子的细胞群,在体内切除供体序列,孵育以允许重组,以及选择获得/丢失适当的选择标记。
简而言之,KAISER 4遵循与KAISER 2相同的程序,但另外将切割(双链DNA断裂)引入靶标核酸,供体核酸(例如合成核酸)将在其中进行重组。
应该注意的是,双链断裂在大肠杆菌中不修复。“不修复”意味着双链断裂的修复是极其罕见的事件。这是因为大肠杆菌中的双链断裂不能自发地重新结合。修复大肠杆菌中双链断裂的唯一方法是重组。
此外,可以选择或可以操纵宿主生物(如大肠杆菌),以抑制天然存在的修复机制,以确保双链修复的不存在或极低的可能性。例如,可以突变或抑制RecBCD系统,条件是存在能够支持宿主细胞中核酸重组的适当的辅助蛋白来代替RecBCD,例如本文所述的λRed蛋白质或其他适当的重组支持蛋白质。例如,在一个实施方案中,RecBCD可以在我们的KAISER方案中被抑制,因为它可以干扰λRed组分,并且降低使用具有短同源区(例如约50bp)的双链DNA(由RecBCD系统降解)重组的效率(由λRed组分执行)。然而,如果使用长同源区(例如约3-5kb),则RecBCD可以作为重组支持蛋白,支持λRed组分。
这些效果中的一些,例如参考图2f示出,图2f示出了与KAISER 2方案相比使用KAISER4方案大大提高的效率。
当然,对技术人员显而易见的是,实际上仅需要单一事件以获得要产生的改变的核酸。然而,如图2f所证明的,增强的效率是非常有益的,并且还允许进行推断,例如,如果没有获得成功的改变的核酸,则强烈推断所引入的合成序列对宿主细胞是有害的或有毒的。对于低效系统,未能获得所需的核酸可能仅仅表明系统中的失败,而本发明的一个优点是如果最终不产生改变的核酸产物,则获得的高效率允许进行有意义的推断。
应当注意,改变核酸的现有技术方法可能涉及在靶标序列中形成双链断裂。例如,经典CRISPR/Cas9涉及通过使用CRISPR/Cas9在针对非重组核酸的选择中引入短合成DNA,以切割未与引入的合成序列重组的靶标序列。然而,与本发明相反,现有技术方法通常在重组已经发生后进行CRISPR/Cas9切割事件。就本发明人所知,在重组事件之前切割靶标序列的任何系统都没有相关的先前公开内容,如本发明中所述。适当地,本发明的切除/切割步骤在本发明方法的单个循环期间,在重组步骤之前进行。适当地,在本发明方法的单个循环期间,在重组步骤之后不进行本发明的切除/切割步骤。
不希望受理论束缚,早期的核酸重组研究提出了两个理论-首先是双链断裂可能会增加重组事件,其次是双链断裂不依赖于重组事件。本领域当前的想法是重组不依赖于双链断裂。本领域的观点是双链断裂不一定导致重组的增加。
非常令人惊讶的是,本发明的方法是有效的。例如,对λRed重组系统的理论理解是它通过单链(ssDNA)阶段起作用。因此,每个期望是该系统应限于最多几kb的置换/插入合成核苷酸序列。然而,非常令人惊讶的是,在本发明的方法中根本没有观察到这种限制。
定义
质粒是指小环状核酸(通常是DNA,最常见的是双链DNA)分子。细胞内的质粒与任何染色体核酸(如DNA)物理分离,并可独立复制。考虑质粒,“小”意味着它们通常不大于10kb。适当地,用于本发明的质粒具有以下遗传元件:宿主细胞的同源复制起点;和至少一个选择标记。
BAC是指细菌人工染色体。适当地,BAC具有以下遗传元件:宿主细胞的同源复制起点;和至少一个选择标记。
YAC表示酵母人工染色体。适当地,YAC具有以下遗传元件:宿主细胞的同源复制起点;和至少一个选择标记。
BAC和质粒的复制起点彼此不同。BAC具有特殊的复制起点,通常使BAC在每个细胞中成为单个拷贝,并帮助BAC保持更大的尺寸(高达数百kb)。质粒具有质粒复制起点,其通常使质粒在每个细胞中具有多拷贝(每个细胞几个拷贝至几百个拷贝),并且通常具有高达约10kb的大小。
本文的核酸适当地是DNA。
同源重组
理论上,可以选择任何核苷酸序列作为同源重组序列的位点。
适当地,同源重组的核苷酸序列是独特的。适当地,独特的意思是在供体序列重组的靶标序列内是独特的。
适当地,同源重组的序列是非重复的。
适当地,同源重组的序列至少为30个核苷酸长度。短至30个核苷酸的同源重组序列可能导致低效率;因此,为了高效率,同源重组序列长度适当地为至少40个核苷酸、适当地至少50个核苷酸、适当地50至100个核苷酸、最适当地50至65个核苷酸。
在靶标序列上选择同源重组的序列并引入供体序列。因此,供体序列上的HR1和HR2显示与靶标序列上的HR1和HR2具有100%的序列同一性。
如上所述,使用λRed重组允许短核苷酸序列用于同源重组。可以使用其他重组支持系统。例如,可以使用RecBCD系统。当使用RecBCD系统时,适当地,“提供能够在所述宿主细胞中支持核酸重组的辅助蛋白”的步骤是诱导或允许在宿主细胞内表达RecBCD系统。
当使用RecBCD系统或其他重组支持系统时,熟练的操作者将注意那些系统对选择用于同源重组的序列的要求。例如,RecBCD系统可能需要更长的同源重组序列,例如3至10kb的长度。
更详细地,RecBCD是天然大肠杆菌重组系统,由RecB、RecC和RecD三个组分组成。这三个亚基构成ATP依赖性解旋酶/核酸酶复合物,其对于转导和缀合过程中的同源重组以及大肠杆菌中双链断裂的修复是必需的。在大肠杆菌DNA中体内诱导双链断裂的研究表明,双链断裂修复(DSBR)可以通过两个重组途径之一进行。两种途径都需要RecBCD和RecA,但一种依赖于解离酶RuvABC,而另一种则不依赖RuvABC而依赖于RecG。recB和recD基因形成操纵子,而recC位于附近但具有其自身的启动子。这三种基因产物形成异源三聚体,也称为核酸外切酶V。如果需要进一步的指导,可以在EcoCyc数据库的“RecBCD”下找到详细信息,例如大肠杆菌菌株K12-MG-1655(Keseler et al.(2013),"EcoCyc:fusing modelorganism databases with systems biology",Nucleic Acids Research 41:D605-12)。
因此,为了支持本发明所需的重组,至少应在宿主细胞中表达RecBCD。
可能还需要RecA;因此,更适当地支持本发明所需的重组,至少应在宿主细胞中表达RecBCD和RecA。最适当地支持本发明所需的重组,应在宿主细胞中表达RecBCD和RecA。
λRed系统的另一种替代方案是RecET系统。RecE和RecT是噬菌体起源的大肠杆菌基因。RecE模仿λRedα,RecT模仿λRedβ(Muyrers,J.P.,Zhang,Y.,Buchholz,F.&Stewart,A.F.RecE/RecT and Redalpha/Redbeta initiate double-stranded break repair byspecifically interacting with their respective partners.Genes Dev.14,1971–1982(2000))。RecET组合和λRedα/β组合表现相当。λRedα和β是进行重组的实际组分,而λRedγ是RecBCD系统的抑制剂。
适当的重组支持由λRed系统提供,例如来自Gene Bridges的市售pRed/ET质粒(来自Gene Bridges GmbH(Im Neuenheimer Feld 584,69120Heidelberg,Germany)的“Quick&Easy E.coli Gene Deletion Kit”)。
该设置中的该系统首先在Datsenko等人2000(Datsenko K.A.&Wanner,B.L.One-step inactivation of chromosomal genes in Escherichia coli K-12using PCR products.Proc.Natl.Acad.Sci.U.S.A.97,6640–6645(2000))中描述。其特此通过引用并入本文,用于λRed系统的细节。
本发明人教导,pRed/ET质粒基于Datsenko等人2000中的pKD46质粒(通过序列同一性判断),因此pKD46质粒可用作模板进行PCR以构建λRed系统。
当所述能够支持核酸重组的辅助蛋白包括λRed蛋白时,适当地在所述宿主细胞中表达以下蛋白:
同源重组序列
为了选择同源重组序列,可以使用以下步骤:
·在要改变的核酸(靶标核酸)序列中的所需位置选择50至100个核苷酸,例如细菌基因组或质粒骨架。
·针对靶标核酸对所选序列进行BLAST搜索。
·考虑所选序列的E值与BLAST搜索中最接近的匹配相比-通常,与靶标核酸中其他位置大于10-20的不需要的靶标位点相比,E值太高;如果发现这种情况,则适当地选择另一种同源重组序列。
采用适当的标准BLAST工具计算HR序列的E值。其中一个在线工具是http://biocyc.org/ECOLI/blast.html。适当地,重点在于通过E值判断给定HR序列的独特性。适当地,不必考虑/计算亲和力。原则上,任何可以与经典重组一起工作的序列都将和本发明更好地工作,例如KAISER。
更详细地,如果HR序列可以与经典重组一起工作,则它们将在本发明中更好地工作。适当地,本发明的HR序列按照与使用λRed系统的经典重组的确切原理和要求进行选择。例如,我们通常设计长度为50-70bp的HR并针对大肠杆菌基因组进行blast,预期值低于10-20(E值,给定序列的独特性的测量;E值越低,序列越独特。可以使用任何合适的计算工具,例如标准BLAST工具来计算HR序列的E值。一个这样的在线工具在http://biocyc.org/ECOLI/blast.html)。没有期望必需要低于10-20E值的值,尽管当然具有较低值的序列在本发明中仍然有用。
E值是给定序列的独特性的度量。因为经典重组仅依赖于同源区的特异性,所以它需要相对严格的E值截止,例如10-20。因为KAISER不仅通过同源区的特异性而且通过同时丢失负选择标记和获得正选择标记来增强基因座特异性,因此KAISER原则上可以耐受较不严格的E值(例如较不严格的同源区)。然而,生成具有严格E值的同源区实际上非常简单,因此适当地使用10-20E值截止。
选择标记
适当的选择标记显示在下表中
双链断裂的切除/引入
应注意,用于切除/引入双链断裂的机制是本发明的重要部分。该系统可以适当地是CRISPR/Cas9系统。然而,产生该功能的其他系统也是已知的,例如基于锌指的方法,和/或基于TALEN的方法,和/或其他方法。
例如,最近发表了三篇关于替代的RNA引导的核酸内切酶作为原始化脓性链球菌CRISPR/Cas9的替代物的论文(Ran,F.A.et al.In vivo genome editing usingStaphylococcus aureus Cas9.Nature 520,186–191(2015);Zetsche,B.et al.Cpf1is asingle RNA-guided endonuclease of a class 2CRISPR-Cas system.Cell 163,759–771(2015);Lee,C.M.,Cradick,T.J.&Bao,G.The Neisseria meningitidis CRISPR-Cas9System Enables Specific Genome Editing in Mammalian Cells.Mol.Ther.24,645–654(2016).)它们都可以用于指导本发明的体内切除,例如在KAISER 2和KAISER 4方案中。这些参考文献通过引用明确地并入本文,特别是用于教导引入本文所用的双链断裂/切除的替代系统。
另一种可用于支持宿主细胞中核酸切除/双链断裂的系统,该系统与如上所述的RNA引导的核酸内切酶完全不同,是归巢核酸内切酶。一个这样的例子是来自大肠杆菌噬菌体RB3的具有30bp识别序列(TATGTATCTTTTGCGTGTACCTTTAACTTC(SEQ ID NO:9))的I-TevIII,其在大肠杆菌基因组中不存在(Eddy,S.R.&Gold,L.The phage T4nrdB intron:adeletion mutant of a version found in the wild.Genes Dev.5,1032–1041(1991);Robbins,J.B.et al.Homing endonuclease I-TevIII:dimerization as a means to adouble-strand break.Nucleic Acids Research 35,1589–1600(2007))。I-TevIII的切割位点非常接近识别序列的5'末端,使其与KAISER 2方案相容,从附加型复制子中切除供体核酸(例如合成DNA)。
CRISPR/Cas9序列
CRISPR和Cas9系统描述于Jiang等人2013(Jiang,W.,Cox,D.,Zhang,F.,Bikard,D.&Marraffini,L.A.RNA-guided editing of bacterial genomes using CRISPR-Cassystems.Nature Biotechnology 31,233–239(2013))。
概括地说,引导RNA是指tracrRNA和spacerRNA之间的单一融合RNA。适当地,恒定tracrRNA和多种不同spacerRNA的组合用于本发明。这些tracrRNA spacerRNA组合可任选地被多种不同的引导RNA替换。在本领域中,引导RNA仅指tracrRNA和spacerRNA作为单个RNA的融合,并不意味着tracrRNA和spacerRNA的双RNA复合物。
PAM代表原间隔相邻基序。这通常是3个核苷酸的基序。典型的引导RNA长度为30个核苷酸。引导RNA通常包括27个核苷酸的靶标序列以及3个核苷酸的PAM序列。
适当地,Jiang等人2013中tracr RNA/spacer RNA的相同CRISPR设置可用于本发明。或者,可以使用单个引导RNA CRISPR设置,例如本领域已知的(参见Le Cong etal.Multiplex genome engineering using CRISPR/Cas systems.Science 339,819–823(2013);Mali,P.et al.RNA-guided human genome engineering via Cas9.Science 339,823–826(2013))。
为了在使用CRISPR/Cas 9时支持切除,适当地,能够支持核酸切除的辅助蛋白包括极少的:Cas9(例如见下文)和RNAseIII(例如rnc,登录号EG10857,来自EcoCyc),以及相关的RNA(spacerRNA引导,tracrRNA(见下文))。
示例性序列如下:
Cas9(SEQ ID NO:10)
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCATTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAAGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
tracrRNA(SEQ ID NO:11)
AAAAAGTTTAAATTAAATCCATAATGATTTGATGATTTCAATAATAGTTTTAATGACCTCCGAAATTAGTTTAATATGCTTTAATTTTTCTTTTTCAAAATATCTCTTCAAAAAATATTACCCAATACTTAATAATAAATAGATTATAACACAAAATTCTTTTAAAAAGTAGTTTATTTTGTTATCATTCTATAGTATTAAGTATTGTTTTATGGCTGATAAATTTCTTTGAATTTCTCCTTGATTATTTGTTATAAAAGTTATAAAATAATCTTGTTGGAACCATTCAAAACAGCATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTTGATACTTCTATTCTACTCTGACTGCAAACCAAAAAAACAAGCGCTTTCAAAACGCTTGTTTTATCATTTTTAGGGAAATTAATCTCTTAATCCTTTT
通过所有实验,Cas9和tracrRNA的实际序列通常保持恒定。spacerRNA序列随着精确的CRISPR/Cas9切割位点而变化。
适当地将Cas9、tracrRNA和spacerRNA一起提供给发生切除的细胞(即宿主细胞)。适当地,所有这三个元素对于有效切除是必需的。
在一个实施方案中,tracrRNA在宿主细胞中组成型表达。Cas9与能够支持核酸重组的辅助蛋白(例如λRedα/β/γ)一起被诱导。通过用表达spacerRNA的小质粒转化细胞,最后将spacerRNA提供给宿主细胞。在这个阶段,当所有三个组件都在细胞中时,发生切除。
在另一个实施方案中,表达Cas9、tracrRNA和spacerRNA的核酸(例如DNA)序列可以一起提供给细胞,而三种组分的实际表达(某些)可以被抑制(未诱导/沉默)。在适当的时间,可以诱导表达,从而诱导切除。
在一个优选的实施方案中,恒定(组成型)表达tracrRNA,诱导Cas9的表达,并最后提供spacerRNA以触发切除。
表达的诱导完全在本领域技术人员的能力范围内。例如,感兴趣的序列(例如Cas9)置于诱导型启动子的控制之下。当需要时诱导该启动子活性。例如,可以使用众所周知的阿拉伯糖(pAra)启动子,其在阿拉伯糖存在下诱导。类似地,技术人员可以根据需要从大量适合组成型表达的众所周知的启动子中选择组成型启动子。如需进一步指导,请参阅下面的示例部分。
如关于操作CRISPR系统所熟知的,spacerRNA的序列对于不同的靶标位点是不同的。选择合适的spacerRNA完全在技术人员的范围内。
如果需要进一步的指导,下面是spacerRNA序列的一个示例:
>Spacers1_2_3_4(SEQ ID NO:12)
tatttcttaataactaaaaatatggtataatactcttaataaatgcagtaatacaggggcttttcaagactgaagtctagctgagacaaatagtgcgattacgaaattttttagacaaaaatagtctacgaggttttagagctatgctgttttgaatggtcccaaaacCGCGGCTTAGCTACGGCTGAGCACGCCCCTgttttagagctatgctgttttgaatggtcccaaaacGTGGGAATAAGGGGTGAGGCTGGCATGCCTgttttagagctatgctgttttgaatggtcccaaaacCGCGAACAAAAATACGCGCCAGGTGAAAATgttttagagctatgctgttttgaatggtcccaaaacCCACTTTGCCCCACAATTTCCCACTGACCGgttttagagctatgctgttttgaatggtcccaaaacttcagcacactgagacttgttgagtt
小写的序列构成实际的spacerRNA基因座的侧翼序列、启动子和直接重复区,其在本文提供的所有示例中保持恒定。大写的序列是在一种特定操作中使用的四种不同的spacerRNA序列(spacer1、2、3和4)。技术人员根据其特定的靶标核酸序列简单地改变大写的spacerRNA序列。
tracrRNA和spacerRNA组合可以单独提供,或者可以作为单个引导RNA提供,其是tracrRNA和spacerRNA的融合体。
应注意,CRISPR系统的不同元件需要不同的基序。对于Cas9,PAM是NGG。更详细地,可以根据操作员的选择使用CRISPR系统的替代实施方式,例如导致替代所用的PAM的实施方式。更详细地,已经证明化脓性链球菌CRISPR/Cas9系统(其天然地将NGG识别为PAM)可以工程化以识别改变的PAM(Kleinstiver,B.P.et al.Engineered CRISPR-Cas9nucleaseswith altered PAM specificities.Nature(2015).doi:10.1038/nature14592)。Ran2015、Zetsche 2015和Lee 2016(见上文)中提到的三种替代的RNA引导的核酸内切酶系统天然具有不同的PAM。归巢核酸内切酶I-TevIII仅具有特异性识别序列且不具有PAM。
本领域技术人员将认识到,如果在本发明中使用CRISPR系统的替代组分,则应使用相应的替代同源PAM序列。这完全在技术工人的范围内。如果需要任何进一步的指导,下表显示了CRISPR系统的替代元件及其PAM序列。
用于控制切除的PAM位点的操作
当操作本发明时,应将靶标序列上的PAM与进入靶标的供体核酸(例如sDNA)上的PAM进行比较,并且如果必要的话进行突变以避免双切除问题(例如,意外地切除包括同源重组序列),如果供体核酸(例如sDNA)和靶标核酸(例如基因组DNA)的PAM序列匹配。本领域技术人员可以按照本文所教导的顺序排列元件,这很容易做到。
KAISER 2和类似方案
更详细地,当操作KAISER 2或类似实施例时,附加型复制子上的供体核酸侧翼的同源区(例如合成DNA)可选地进一步侧接AvrII位点(CCTAGG)。TGG或CCA对应于来自化脓性链球菌的CRISPR/Cas9系统所需的NGG PAM序列(取决于方向),而互补的CCA或TGG构成原间隔区的最后三个核苷酸。原间隔区的最后三个核苷酸和/或NGG PAM中的任何G的任何取代将禁用CRISPR/Cas9识别和/或切割。KAISER 2方案中的两个AvrII位点构成附加型复制子骨架的一部分,可以很容易地避免紧挨靶标核酸(例如宿主基因组)上的同源区的相应末端旁边(平均1个AvrII位点/4kb)。以这种方式,游离型复制子上的两个切割位点(切除位点)可以容易地与KAISER 2方案中靶标核酸(例如基因组)上的同源区的相应末端区分,用于插入和替换。
KAISER 4和类似方案
当通过KAISER 4实施例操作本发明时,需要注意选择驻留在被改变的核酸(靶标核酸)的序列上使用的PAM。原因是供体核酸上的序列(例如引入靶标核酸的DNA)不应与靶标核酸上的PAM匹配。如果它们匹配,那么本发明方法的切除步骤也有可能在不适当的位置引入靶标核酸中的双链断裂。因此,适当地将靶标核酸(例如要添加/插入供体DNA的基因组或质粒或BAC)上的PAM与携带供体核酸的附加型复制子的PAM进行比较。如果发现PAM序列匹配,那么它们应该在被改变的靶标核酸上突变以避免这种可能的问题。这完全在熟练读者的范围内。更详细地,在KAISER 4或类似实施方案中,附加型复制子上的两个切割位点以与KAISER 2方案中相同的方式,与靶标核酸上的同源区的相应末端区分。需要通过寻找NGG基序来识别靶标核酸上同源区内侧的两个额外切割位点,所述NGG基序限定靶标核酸上同源区的边界。靶标核酸同源区内侧的两个额外切割位点的NGG PAM也需要在带有供体核酸的附加型复制子的同源区的相应末端上不存在,以避免“双重切除”。当应用KAISER4方案插入供体核酸(例如合成DNA)时,这可以非常容易地实现,因为插入序列天然不同于靶标核酸(例如基因组)上的切割位点。当供体核酸(例如合成DNA)具有与靶标核酸相似的序列(例如野生型基因组DNA)时,应当在应用KAISER 4方案进行替换时仔细安排。这通过改变供体核酸(例如合成DNA)中的相应NGG和/或紧挨NGG的原间隔区中的最后三个核苷酸来替代实现。以这种方式,我们仅将切割位点标记为靶标核酸(例如基因组)位置。
因此,适当地,供体核酸序列依次包括:5'-切除切割位点-同源重组序列1-感兴趣的序列-同源重组序列2-切除切割位点-3'
在一个实施方案中,可能需要在靶标核酸上诱导切割以帮助选择重组体;这有时被称为“KAISER 3”,因为在该实施方案中适当地存在3个切口-两个在附加型复制子上以切除供体核酸,一个在靶标核酸上以帮助选择。因此,适当地,所述靶标核酸依次包括:5'-同源重组序列1-切割位点-同源重组序列2-3'
适当地,所述靶标核酸依次包括:
a)5'-同源重组序列1-切割位点-同源重组序列2-3'
b)5'-同源重组序列1-正选择标记-同源重组序列2-3',还包括所述同源重组序列1和同源重组序列2之间的切割位点。
c)5'-同源重组序列1-负选择标记-同源重组序列2-3',进一步包括所述同源重组序列1和同源重组序列2之间的切割位点。
d)5'-同源重组序列1-正选择标记-负选择标记-同源重组序列2-3',还包括所述同源重组序列1和同源重组序列2之间的切割位点。
e)5'-同源重组序列1-负选择标记-正选择标记-同源重组序列2-3',还包括所述同源重组序列1和同源重组序列2之间的切割位点。
当在多轮中应用本发明时,第一轮的供体核酸在下一轮中贡献/成为靶标核酸的一部分。因此,适当地,感兴趣的序列可以依次包括:
a)5'-同源重组序列1-切割位点-同源重组序列2-3'
b)5'-同源重组序列1-正选择标记-同源重组序列2-3',还包括所述同源重组序列1和同源重组序列2之间的切割位点。
c)5'-同源重组序列1-负选择标记-同源重组序列2-3',进一步包括所述同源重组序列1和同源重组序列2之间的切割位点。
d)5'-同源重组序列1-正选择标记-负选择标记-同源重组序列2-3',还包括所述同源重组序列1和同源重组序列2之间的切割位点。
e)5'-同源重组序列1-负选择标记-正选择标记-同源重组序列2-3',还包括所述同源重组序列1和同源重组序列2之间的切割位点。
适当地,靶标核酸或感兴趣序列上的切割位点不同于附加型复制子/供体核酸上的切除位点。
所述切割位点可以在所述正/负选择标记之间,或者可以在所述正/负选择标记内。
适当地,所述靶标核酸包括两个这样的切割位点。
适当地,所述切割位点与所述同源重组序列之一相邻。
适当地,所述两个切割位点包括与所述同源重组序列1相邻的第一切割位点,和与所述同源重组序列2相邻的第二切割位点。
适当地,切除位点是由步骤(c)的能够支持核酸切除的辅助蛋白和/或RNA识别的序列。
适当地,附加型复制子/供体序列包括两个所述切除位点;适当地,所述步骤(c)的辅助蛋白和/或RNA与所述切除位点同源。
适当地,所述切除位点或切割位点包括CRISPR/Cas9的原间隔区和PAM同源物;适当地,所述能够支持核酸切除的辅助蛋白和/或RNA包括CRISPR/Cas9和同源RNA。
尺寸限制
本申请中提供的数据表明,效率与合成核酸(例如引入的DNA)的长度无关。因此,不希望受理论束缚,似乎该新发明具有不存在尺寸限制的优点。
在实践中,尺寸限制仅由可以操作的合成核酸的尺寸施加。例如,本领域的当前观点是细菌人工染色体(BAC)对200至300kb的核酸序列有效。BAC复制子通常约为10kb。因此,对于大约310kb的总最大BAC尺寸,允许10kb的复制子,根据本发明,每轮可以掺入大约300kb的合成核酸(如DNA)。
酵母人工染色体(YACs)可以更大。YAC的典型尺寸限制是2到3Mb(兆碱基)。
应用
本发明可用于构建质粒。
本发明可用于操作宿主基因组。
本发明可用于构建人工染色体如BAC。
本发明的一个优点是转化与重组不相关。
本发明的一个优点是可以避免体外操作。本发明的一个优点是核酸操作在体内进行。
当本发明应用于基因组时,适当地,基因组是非人基因组,适当地是非哺乳动物基因组。适当地基因组是原核基因组,适当地是细菌基因组。
本发明特别适用于制备大尺寸核酸构建体。
本发明特别适用于创建高度多样性的文库。在这方面,使用电转化技术可以实现大约108的转化效率。然而,1010或更高的转化效率极具挑战性和/或有问题。根据本发明,可以产生第一半文库并将其转化到第一个宿主细胞(宿主细胞群)中。然后用编码第二半文库的核酸转化该第一半文库。通过使用根据本发明的重组,然后将这两个半文库在体内组合,得到具有1010多样性的文库,其有利地仅需要使用105的转化效率而获得。
根据本发明,提供了一种组合方法,其包括附加型复制子、体内切除和重组。适当地,所述组合方法还包括双选择。
术语“附加体”具有其在本领域中的普通含义,例如可以自主存在或可以与染色体整合的任何附加的染色体外复制遗传元件。
适当地进行切除以产生线性供体核酸。
在相同单个核酸上的相同细胞中有活性的多个复制起点通常不是所希望的。例如当多拷贝附加型核酸(如质粒)携带供体核酸时尤其如此-在这种情况下,显然不希望将质粒复制起点掺入(例如)BAC或宿主基因组中。因此,适当地,所述切除的线性供体核酸不包括复制起点。适当地,靶标核酸序列包括复制起点。
适当地,包括供体序列的附加型复制子的复制起点必须与宿主(例如所有原核生物)相匹配。适当地,包括靶标的附加型复制子和包括供体序列的附加型复制子上的复制起点必须与宿主(例如所有原核生物)匹配。
适当地,包括供体序列的附加型复制子包括原核复制起点。
适当地,包括靶标序列的复制子包括原核复制起点。适当地,包括靶标序列的复制子是附加型复制子并且包括原核复制起点。
适当地,宿主细胞是原核细胞。
适当地合成基因组是合成的原核基因组。
发明的进一步说明
CRISPR/Cas9提供核酸的体内切割。在现有技术中,该系统已用于将单一切割引入靶标核酸中。
在现有技术中,已经使用限制酶系统将单一切割引入靶标核酸中。例如,已经使用限制酶将单个切割成引入质粒,从而使其在体内呈线性。当需要线性核酸时,这通常在重组研究中完成。在现有技术中也已经进行了这种操作以通过切割它们来去除不需要的质粒-线性核酸通常不会在宿主细胞中持续存在并且丢失。
我们首次教导重组与靶标核酸切割的偶联,例如在KAISER 4中完成的。
在一个实施例中,本发明可包括通过常规技术进行的第一重组步骤。这具有允许将对比选择标记物引入靶标位点的优点。
可选地,本发明包括最终重组的最后步骤,其可以通过KAISER技术或通过常规重组来完成。例如,这可能有利于去除已经达到其目的并且不再需要用于进一步轮次的KAISER重组的选择标记。
在一个实施方案中,可以在没有第一次常规同源重组事件的情况下开始和继续KAISER核酸编辑过程-例如,可以使用诸如CRISPR/Cas9的切除机制在预期由重组事件替换的位点切割,从而产生针对切割(而非重组)靶标核酸的选择性压力,即通过双链断裂的负选择。在另一个实施例中,有可能通过靶标序列中的双链断裂使用该负选择以改善用3-DS断裂实施例的选择(用于切除供体核酸的2个DS断裂和靶标核酸上HR1和HR2序列之间的一个DS断裂,总共产生3个DS断裂/切割-这有时称为“KAISER 3”)。
发明人断言,在现有技术中,常规重组从未涉及如本发明所教导的双选择。发明人断言,现有技术中传统的重组仅使用了正选择。
在现有技术中,偶尔会教导使用一个正选择和一个负选择。这种性质的现有技术方法选择正标记的获得。然后重组,重组后,选择负标记的丢失。相反,本发明教导了单个重组事件的正和负选择。
附加型复制子是附加型核酸,其具有能够在所述宿主细胞内起作用的自身复制起点。在现有技术中转染到细胞中用于重组目的的核酸片段(如DNA片段)不是复制子,因为它们不具有所述宿主细胞的复制起点。例如,在一些现有技术设置中,可以将细菌质粒转染到哺乳动物细胞中。该质粒不是该宿主细胞中的复制子,因为它不具有能够在所述宿主细胞内起作用的复制起点。现有技术质粒可能具有的唯一复制起点在细菌细胞中是活性的,而在用于进一步程序转染的宿主细胞中没有活性。
重组支持
本发明的一个优点是不依赖宿主功能。
适当地,重组功能是外源提供的,例如在携带供体核酸(例如合成核酸)的复制子上,以引入靶标核酸中。
适当地重组支持由λRed系统提供。
适当地核酸修复系统(如RecBCD)是失活的。适当地提供RecBCD的λRed抑制剂。
适当地,切除功能由CRISPR/Cas9提供。
宿主细胞
适当地,宿主细胞是原核细胞。适当地,宿主细胞是细菌细胞。在一个实施方案中,适当地,宿主细胞是体外的,即在实验室中。在一个实施例中,适当地,本发明的方法是体外方法。适当地,该方法不在体内实施。适当地,宿主细胞不是活人体或动物体的一部分。适当地,宿主细胞选自下文示例中使用的宿主细胞之一。适当地,宿主细胞可以是任何革兰氏负细菌。适当地,宿主细胞可以是任何大肠杆菌菌株(例如MG1655或BL21),或由其衍生的细胞。
MG1655被认为是大肠杆菌的野生型菌株。该菌株的基因组序列的GenBank ID是U00096(截至申请日期为U00096.3)。BL21在商业上广泛可用。例如,它可以从New EnglandBioLabs(240County Road,Ipswich,MA 01938-2723,USA)购买,目录号为C2530H。最合适的宿主细胞是MDS42,产品号为E-0742,来自ScarabGenomics。
优点
本发明的一个优点是可以操作的核苷酸序列的尺寸使得能够产生整个合成基因组。这有时被称为“GENESIS”。
与Jiang等人2013(其中作者试图精确地改变基因组上的切割位点)相反,本发明涉及改变位点之间的核酸。例如,我们教导在KAISER 4方案中,在基因组上产生的两个切割位点之间替换整个片段。在KAISER 2方案中,我们不需要切割基因组。
本发明可用于在确定的基因组基因座处插入非常长的供体核酸,例如合成DNA(sDNA),并用sDNA来替换非常长的靶标核酸(如基因组DNA(gDNA)),所述sDNA具有100%基因座特异性和与sDNA长度无关的高效率。诸如REXER/KAISER的发明从根本上优于替代技术的经典同源重组。经典重组只能以有限效率和基因座特异性,一次插入/替换几个kbsDNA,而我们已经证明,REXER/KAISER等发明可以非常高效地将100kb或更多的sDNA强力插入/替换到基因组中,是具有高效率和100%基因座特异性的长度无关的方式。
本发明从根本上改变了我们如何调节生物体基因组的方式,这为代谢工程和从头基因组合成开辟了新的可能性。以前,为了代谢工程或基因组合成的目的,在数个100kb范围内的长链sDNA只能在理论上通过潜在的数百个步骤的经典重组引入,这实践上是不可能的,因此从未在商业上进行过。本发明使得这样的任务能够以非常简单、特异和效率的方式常规且稳健地执行。
本发明提供了长度无关的DNA插入和替换,并且能够进行大规模的同义基因组重新编码。
有利的是,本发明可以应用于原核生物,例如大肠杆菌,其分裂非常快(例如每次分裂20分钟)。真核宿主细胞中的已知操作(例如Sakura等2016)使用分裂非常缓慢的宿主细胞(数天到数周来分裂),使用不能在宿主细胞中复制的载体,这使得它们的技术难以或不可能转移到原核细胞中。此外,Sakura等2016使用其真核生物宿主细胞的内源重组机制促进重组,这不能直接转移至原核生物。在本发明中,提供了能够支持核酸重组的辅助蛋白,例如在原核宿主中提供的病毒来源的λRed组分,其缺乏相应的内源重组机制。在Sakura等人中,所有组分瞬时引入宿主中,而本发明提供的组分可以稳定地转化并保持在宿主中。Sakura等人没有描述任何与KAISER 2相当的模式;在KAISER 2中,仅切割包括供体核酸序列(例如包括供体序列的环状载体)的附加型复制子。因此,在一些实施例中,适当地仅切割包括供体核酸序列的附加型复制子。因此,在一些实施例中,适当地不切割靶标序列。此外,外来环状DNA和真核基因组都切割(Sakura等人2016的图2c和图3)。Sakura的教学和本发明之间的根本区别在于Sakura中的外源DNA不是其系统中的附加型复制子。另外,Sakura等人不使用同时双选择来筛选同时的合成DNA的获得和原始基因组序列的丢失。适当地,本发明包括同时筛选供体核酸的感兴趣序列上携带的正选择标记和靶标核酸上选择标记(适当地是负选择标记)的丢失的步骤。
与Traver等人2009相反,其本质上受核酸内切酶的位置限制以进行切除,有利地,本发明通过利用辅助蛋白和/或能够在一系列位点支持切除的RNA(例如CRISPR/Cas9系统),而在关于供体(例如BAC)或靶标(例如基因组)上的切除位置方面非常灵活。
进一步的应用和实施例
一方面,本发明涉及将供体核酸引入靶标核酸的方法,所述方法包括:
提供宿主细胞
所述宿主细胞包括附加型核酸,所述附加型核酸包括供体核酸序列,
所述宿主细胞还包括靶标核酸,
提供能够在所述宿主细胞中支持核酸重组的辅助蛋白
提供能够在所述宿主细胞中支持核酸切除的辅助蛋白
其中所述供体核酸序列依次包括:5'-同源重组序列1-感兴趣的序列-同源重组序列2-3'
其中所述感兴趣的序列包括正选择标记
诱导所述供体核酸序列的切除
孵育以允许切除的供体核酸和所述靶标核酸之间的重组
选择将所述供体核酸掺入所述靶标核酸的重组体。
在广义方面,本发明涉及包括提供宿主细胞的方法,所述宿主细胞包括附加型核酸,所述附加型核酸包括供体核酸序列,所述宿主细胞还包括靶标核酸,提供能够支持所述宿主细胞中的核酸重组的辅助蛋白,提供能够支持所述宿主细胞中核酸切割的辅助蛋白,其中所述供体核酸序列依次包括:5'-同源重组序列1-感兴趣的序列-同源重组序列2-3',其中所述感兴趣的序列包括正选择标记,诱导所述供体核酸序列的切割以产生线性供体核酸,孵育以允许线性供体核酸与所述靶标核酸核酸之间的重组,并选择将所述供体核酸掺入所述靶标核酸中的重组体。
在一个方面,本发明涉及一种方法,该方法还可以指示合成DNA上有问题的区域,其在单个核苷酸分辨率下是有害的。还描述了一种可以容易地修复这些识别出的问题区域的方法。
因此,本发明能够识别和修复合成DNA内的其他有害序列。发明人认为KAISER/REXER是唯一具有此属性的方法。这可用于调试工作人员试图掺入基因组中的合成DNA序列。
在这方面,图10、11和12示出了使用KAISER/REXER重新编码20kb的基因组,识别允许和不允许的重新编码方案。图13(也是图17(扩展数据图9))示出了识别和修复如上所述的这种有害序列(在下面的实施例中称为特异性位置/序列)的能力。
在所附独立和从属权利要求中阐述了进一步的特定和优选方面。从属权利要求的特征可以适当地与独立权利要求的特征组合,并且可以与权利要求中明确阐述的那些之外的相组合。
在设备特征描述为可操作以提供功能的情况下,应当理解,这包括提供该功能的设备特征或者适于或配置为提供该功能的设备特征。
附图说明
现在将参考附图进一步描述本发明的实施例,其中:
图1显示双选择重组(DOSER)增强靶标基因座的重组。a.经典重组和DOSER。经典重组:用具有合成DNA(s.DNA)序列和侧翼为同源区域1(HR1)和同源区域2(HR2)的正选择标记(+,CmR编码氯霉素抗性基因氯霉素乙酰转移酶)的线性双链DNA转化细胞。通过表达正选择标记筛选重组体。DOSER:s.DNA偶联负选择标记-2(sacB,赋予对蔗糖的敏感性)和正选择标记+2(CmR),并且掺入来代替不同的负-1(rpsL,编码必需核糖体蛋白S12并且赋予对链霉素的敏感性)和正+1(KanR,编码卡那霉素抗性基因新霉素磷酸转移酶II)选择标记(其先前引入基因组中)。获得+2和丢失-1的双选择保证了靶标基因组基因座的重组。b.通过仅选择CmR的获得来执行经典重组,而通过同时选择CmR的获得和rpsL的丢失来执行DOSER。挑选来自经典重组和DOSER的多个菌落并通过菌落PCR分析。c.由DOSER分离的所有克隆都掺入在目标基因座上。数据显示三次独立实验的平均值,误差棒代表标准偏差。注:图1a显示了现有技术方法“经典重组”并且不是本发明的一部分。
图2显示了Kai的增强重组(KAISER)(有时称为“REXER”(复制子切除增强重组)):有效、长度无关的合成DNA基因座特异性插入大肠杆菌基因组。a.KAISER 2和KAISER 4,两种版本的KAISER,将DOSER掺入体内切除的来自附加型维持的细菌人工染色体(BAC)的合成dsDNA。在KAISER 2中,BAC中的HR1/HR2侧翼为两个CRISPR原间隔区序列,分别以蓝色和橙色突出显示。在原间隔区指定的位置处的CRISPR/Cas9切割导致在HR1和HR2之间从BAC切除dsDNA,该dsDNA经历λRed介导的重组,导致基因组中HR1和HR2之间的插入。BAC在其骨架中保留了-1的额外拷贝,并且选择-1的丢失确保没有携带BAC的幸存细胞。KAISER 4通过在基因组结合-1/+1盒的侧翼添加两个额外的原间隔区来增强KAISER 2。然后所有四种原间隔区(在BAC和基因组中)靶向于CRISPR/Cas9介导的切割和λRed介导的重组。b.KAISER 2和KAISER 4依赖于CRISPR/Cas9系统和重组。通过KAISER 2和KAISER 4在由rpsL-KanR盒标记的特定基因组基因座处掺入的sacB-CmR,通过卡那霉素抗性的丧失和氯霉素抗性的增加来证实,并且通过菌落PCR证实。对照实验省略间隔区RNA或λRedβ。数据显示三次独立实验的平均值,误差棒代表标准偏差。c.KAISER 2和KAISER 4在靶标基因座上进行100%掺入。数据显示三次独立实验的平均值,误差棒代表标准偏差。如(b)中所述进行实验。d.使用KAISER 2和KAISER 4,将9kb合成DNA有效掺入到大肠杆菌基因组的靶标基因座中。使用KAISER 2和KAISER 4,将偶联有sacB-CmR的合成lux操纵子掺入到用rpsL-KanR标记的基因组基因座(89,061和89,587之间)中。用于KAISER 2的10倍稀释双选择平板和用于KAISER 4的104倍平板用白光成像以显示存活的菌落。每个幸存的菌落都显示出生物发光。通过表型、菌落PCR和DNA测序显示来自KAISER 2和KAISER 4的11个菌落各自是正确的。e.使用KAISER 2和KAISER 4,将90kb合成DNA有效掺入到大肠杆菌基因组靶标基因座中。使用80kb的大肠杆菌MG1655DNA构建90kb的合成DNA,其从MDS42基因组中删除。lux操纵子掺入在该80kb区域的中间,并且一端附有sacB-CmR盒。将90kb构建体携带在BAC上并掺入到与(d)中相同的基因组基因座中;如(d)中所述进行表征。f.用KAISER 2和KAISER 4进行有效的长度无关掺入。每个反应的菌落形成单位(cfu)的数量相对于DOSER、KAISER 2和KAISER 4的掺入合成DNA的长度作图。所有实验均在相同条件下使用相同的双选择平板。DOSER的90kb点反映了这样一个事实,即不可能在体外获得90kb线性dsDNA产物,而不是效率或重组本身。已经确定经典重组效率随着DNA长度而迅速下降。
图3显示通过KAISER 2,用合成DNA有效替换100kb基因组DNA。a.通过KAISER,用lux基因水印标记的100kb DNA替换100kb基因组DNA。该区域中基因的开放阅读框(ORF)由具有两个交替的灰色阴影的框表示,并且每个框的长度按比例缩放至其ORF的长度。lux操纵子的五个基因(粉红色)通过BAC中的100kb间隔开,作为用合成DNA进行基因组替换的水印。完全替换导致所有五个lux基因(lux A、B、C、D、E)稳定转移到基因组中,产生生物发光细胞。部分替换将导致一个或多个勒克斯基因的丧失,从而导致非生物发光细胞。b.使用KAISER 2有效替换整个100kb基因组DNA。KAISER 2和KAISER 4均产生生物发光细胞,如通过将白光图片与双选择平板的发光图片叠加所证明的。来自KAISER2和KAISER 4的生物发光菌落对氯霉素具有抗性并且对卡那霉素敏感,并且基因分型来证实用含有每种水印的序列替换基因组DNA。
图4显示了在富含必需基因的大肠杆菌基因组的20kb区域上测试系统同义密码子重新分配。a.大肠杆菌丝氨酸tRNA的密码子-反密码子相互作用,以及三种重新编码方案(r.s)。线表示密码子反密码子相互作用。灰线表示通过同义重新编码在靶标区域中移除的解码事件。靶标为移除的密码以灰色显示,其替换物以粉红色显示。箭头将靶标为移除的密码子与其替换物连接起来。在全基因组中应用这些重新编码方案之一将允许使用具有CGA反密码子的tRNA将TCG密码子重新分配至新的氨基酸。b.通过复制五个重叠的阅读框序列来设计从89,062到106,507的区域,产生重复区域(d.r.)1-5。然后根据同义重新编码方案(r.s.)1、2或3重新编码基因以产生三个BAC。+2是CmR、-2是sacB、+1是KanR、-1是rpsL,它们用于KAISER 2。c.HR1和HR2之间的序列用粉红色条表示,并且用于替换的每个靶标密码子的位置用红线表示。对于每个重新编码方案,进行10个克隆测序。灰色条表示wt基因组序列,粉红色条表示已用所示方案记录的基因组序列。
图5(扩展数据图1)显示了重复基因组变化,通过KAISER实现基因组逐步交换合成(GENESIS)。a.通过KAISER的重复基因组改变。我们交替使用两个不同的双选择盒-1/+1(rpsL-KanR)和-2/+2(sacB-CmR),其中一个盒标记在基因组上的限定基因座上,另一个盒在BAC上与合成DNA偶联允许一轮KAISER的结果作为下一轮KAISER的模板。b.使用KAISER2和KAISER4,有效地用BAC结合的sacB-CmR替换基因组rpsL-KanR。使用KAISER 2和KAISER 4,将sacB-CmR掺入到用rpsL-KanR标记的基因组基因座(89,061和89,587之间)中。通过表型、菌落PCR和DNA测序显示来自KAISER 2和KAISER 4的11个菌落各自是正确的。c.使用KAISER 2和KAISER 4,用BAC结合的rpsL-KanR有效重复替换基因组sacB-CmR。使用KAISER 2和KAISER 4将rpsL-KanR掺入到来自(b)的克隆的基因组基因座(89,061和89,587之间)。通过表型、菌落PCR和DNA测序显示来自KAISER2和KAISER 4的11个菌落是正确的。(c)的产物可以再次作为(b)的模板。d.基因组逐步交换合成(GENESIS)。借助KAISER单步骤执行100kb合成片段替换野生型片段基因组的能力,以及使用前一步骤的产物作为下一步的模板重复连续KAISER步骤的能力,我们提出基因组逐步交换合成(GENESIS),以大约40个步骤用合成DNA替换整个大肠杆菌基因组。
图6(扩展数据图2)显示通过KAISER,用具有lux基因水印的合成DNA替换100kb基因组DNA。a.通过KAISER,用lux基因水印标记的100kb DNA替换100kb基因组DNA。该区域中基因的开放阅读框(ORF)由具有两个交替的灰色阴影的框表示,每个框的长度缩放至每个ORF的长度。lux操纵子的五个基因(粉红色)通过BAC中的100kb间隔开,作为用合成DNA进行基因组替换的水印。完全替换导致所有五个lux基因(lux A、B、C、D、E)稳定转移到基因组中,产生生物发光细胞。部分替换意味着丢失一个或多个lux基因,导致非生物发光细胞。b.用lux基因水印完全或部分替换100kb基因组DNA。来自KAISER的所有菌落,无论是否生物发光,都对氯霉素具有抗性并对卡那霉素敏感。确认所有生物发光菌落含有全部五个lux水印,这表明用水印合成序列替换了100kb基因组DNA。所有非生物发光菌落都具有第一个(lux A)和最后一个(lux E)水印,但缺少中间至少一个水印(lux B、C、D)。没有非生物发光菌落含有第二个水印(lux B),表明合成DNA中该区域周围潜在有害序列。
图7(扩展数据图3)显示了20kb重新编码区域的选择和重新编码的合成序列的设计。
a.选择20kb的重新编码区域。为了确定最佳候选区域以测试我们的同义重新编码方案,我们重点关注含有大量必需基因的区域以及大量靶标为重新编码的密码子,特别是TCASer和TCGSer以及TAG琥珀。我们首先根据它们在KEIO集合(KEIO collection)中的缺失来识别必需基因,该集合在大肠杆菌中单独识别非必需基因。必需基因的位置被定位于MDS42基因组。然后我们应用滑动窗口方法,其中我们计算MDS42基因组的10kb区域内所有必需基因内的靶标密码子的数量。从基因组序列的前10kb开始,我们重复地将窗口移位100nt并进行密码子分析直至MDS42基因组序列的末端。我们将mraZ识别为对应于细胞分裂操纵子的ftsZ区域,作为我们的滑动窗口方法中跨MDS42基因组的最高得分的20kb区域。b.具有新架构和新解码规则的重新编码合成序列的设计。mraZ到ftsZ区域包括15个基因,其中5个基因在不同的阅读框架中重叠。为了允许每个基因的独立重新编码同时保持重叠内的潜在顺式调节区完整,我们设计了一种新的架构,其中每个重叠ORF的起始密码子上游200nt重复(表示为重复区域,d.r)。我们设计了一个DNA序列,其中在这个新架构中的所有15个基因中实施了重新编码方案1,以及在新架构的序列中实现重新编码方案2或3。从头合成每种方案的DNA,并在酿酒酵母中组装成BAC,以通过KAISER 2用每种方案测试基因组重新编码。
图8(扩展数据图4)显示了同义重新编码的克隆的培养生长。监测由KAISER每次20kb重新编码产生的单个克隆的生长。对于每个克隆,以10分钟的间隔一式三份测量OD600,直至培养饱和。作为对照,MDS42rpsLK43R、MDS42rK和MDS42sC106507(其中sacB-CmR插入在106,507和106,508之间以模拟重新编码的克隆中sacB-CmR的位置)与重新编码的克隆一起生长。最大指数生长速率的计算和比较未表明对照MDS42sC106507与任何测试的重新编码克隆之间的显著差异(双样本t检验,p值>0.01)。误差棒:平均值±标准差。
图9(补充图2)显示通过重复REXER,用230kb的合成DNA替换220kb的基因组。a.REXER对重复基因组的改变。交替使用两个不同的双选择盒-1/+1(rpsL-KanR)和-2/+2(sacB-CmR),其中一个盒标记在基因组上的限定基因座上,另一个盒标记在BAC上偶联合成DNA,允许一轮REXER的产品作为下一轮REXER的模板。b.通过REXER 2和REXER4,用BAC结合的sacB-CmR有效替换基因组rpsL-KanR。通过REXER 2和REXER 4,将sacB-CmR掺入到用rpsL-KanR标记的基因组基因座(89,061和89,587之间)中。通过表型、菌落PCR和DNA测序识别,来自REXER 2的11个菌落和来自REXER 4的11个菌落是正确的。c.通过REXER 2和REXER 4,用BAC结合的rpsL-KanR有效重复替换基因组sacB-CmR。通过REXER 2和REXER 4,将rpsL-KanR掺入到作为来自(b)的克隆的相同基因组基因座(89,061和89,587)中。通过表型、菌落PCR和DNA测序识别,分别来自REXER2和REXER 4的11个菌落是正确的。d.通过REXER重复,用230kb的合成DNA替换220kb的基因组。Lux A、B、C、D、E是lux操纵子的5个基因(图1),hph是潮霉素B磷酸转移酶基因,它赋予对潮霉素B的抗性。e.跟踪REXER轮次的细胞表型。将亲本细胞系(基因组wt)、来自第1轮REXER的两个独立克隆(克隆A和B)和来自第2轮REXER的两个独立克隆(克隆C和D)接种在补充有指示抗生素或蔗糖的LB琼脂上检查不同标记组合的表型。来自第二轮REXER(克隆C和D)的克隆保留了第一轮REXER(克隆A和B)的发光表型,并获得了由hph基因赋予的潮霉素B抗性的新表型。f.跟踪REXER轮次的细胞基因型。使用对第一轮和第二轮REXER中的每种引入的基因组组分特异性或侧翼的引物,对来自(e)的所有五个克隆进行菌落PCR。
图10(补充图3)显示了在富含表达相互作用蛋白的必需基因的大肠杆菌基因组的操纵子中系统和定义的同义密码子重新分配的设计。a.大肠杆菌丝氨酸、亮氨酸和丙氨酸解码盒的密码子-反密码子相互作用,以及同义密码子重新分配的重新编码方案(r.s)。线表示密码子-反密码子相互作用。灰线表示通过同义重新编码在靶标区域中移除的解码事件。靶标为移除的密码以灰色显示(深灰色为预移除,浅灰色为移除后),其替换物以粉红色显示。箭头将靶标为移除的密码连接到由cAi、tAi或t.E确定的最佳匹配替换。在全基因组中应用这些重新编码方案之一将允许从大肠杆菌基因组中完全去除靶标密码子,这将使具有相应反密码子的tRNA冗余。在重新编码的基因组中删除这些冗余的tRNA将消除靶标密码子的自然解码,然后可以重新定义以清楚地编码非天然氨基酸。b.识别富含靶标密码子和必需基因的靶标操纵子。为了识别最佳候选区域以测试我们的同义重新编码方案,我们关注的是包括大量必需基因的区域以及大量靶标为重新编码的密码子。基于它们在KEIO敲除集合中的相应缺失和存在来识别必需和非必需基因。所有基因的位置都映射到MDS42基因组,其中必需基因用黑色,非必需基因用白色。通过将窗口重复移位100nt并从MDS42基因组序列的前10kb到末端进行密码子计数,计算MDS42基因组10kb滑动窗口内所有必需基因中的靶标丝氨酸、亮氨酸或丙氨酸密码子的数量。对于所有靶标密码子(丝氨酸密码子TCG和TCA,亮氨酸密码子TTG和TTA,或丙氨酸密码子GCG和GCA),mraZ至ftsZ区域(红色,对应于细胞分裂操纵子)识别为跨MDS42基因组的最高得分的20kb区域。c.靶标密码子在所选mraZ至ftsZ区域的位置和密度。mraZ到ftsZ区域(从89,062到106,507)通过复制五个重叠的开放阅读框序列进行重构,创建重复区域(dr)1到5,以防止上游重叠开放阅读框的重新编码影响下游开放阅读框重新编码。然后通过每个重新编码方案定义的系统重新编码从头合成重构区域。然后通过每个重新编码方案定义的系统重新编码从头合成重构区域。所有靶标有义密码子的位置(红色,82丝氨酸TCC和TCA密码子、156亮氨酸TTG和TTA密码子、373丙氨酸GCG和GCA密码子),该区域唯一的TAG琥珀终止密码子(murF的终止密码子,靶向重新分配到TAA并用红色着色),dr1至5(粉红色,带有红色轮廓)映射到mraZ到ftsZ区域(背景颜色为灰色)。
图11(补充图4)显示REXER能够在富含表达相互作用蛋白的必需基因的大肠杆菌基因组的操纵子中测试系统和定义的同义密码子重新分配。a.通过REXER,用从头设计和合成的序列将必需的mraZ替换为ftsZ区域。系统地重新编码的mraZ至ftsZ区域的序列是从头设计和合成的,并且根据REXER设计在具有第二双选择盒(-2是sacB,+2是CmR)的BAC上携带。将第一个双选择盒(-1为rpsL,+1为KanR)插入mraZ的大肠杆菌染色体拷贝和上游cra之间。通过同时选择获得+2(获得对氯霉素的抗性)和-1的丢失(丢失对链霉素的敏感性),进行REXER并选择克隆以同时获得合成序列并丢失HR1和HR2之间的原始基因组序列。b.来自丝氨酸r.s.1的16个REXER后克隆的个体重新编码图谱。完全测序来自丝氨酸r.s.1(TCG和TCA至AGT)的16个REXER后克隆的HR1和HR2之间的基因组区域。所有16个克隆在HR1和mraZ之间丢失了第一双选择盒,并获得了ftsZ和HR2之间的第二双选盒,表明在5'和3'末端都有100%的替换。所有克隆都是野生型序列和重新编码序列之间的嵌合体。对于每个克隆,在83个尝试的重新编码位置和d.r.1至5中的每一个处的密码子的同一性识别为(用二进制值重新编码)值1并用红色着色,或野生型值0并用黑色着色。重新编码并且在重构的mraZ到ftsZ区域保持野生型的靶标位置的分布给出了单个克隆的“重新编码图谱”。c.编译的丝氨酸r.1.1的重新编码图谱。将丝氨酸r.s.1的REXER后克隆的个体重新编码图谱组合起来,通过计算在整个区域的每个靶标位置重新编码的克隆的比例,产生丝氨酸r.s.1的编译的重新编码图谱。当给定位置的重新编码比例大于0(红色)时,表示在该位置记录了至少一个测序的克隆。当重新编码部分为零(用黑色着色)时,表明野生型密码子总是保留,并且在这些位置可能不能耐受重新编码的密码子。使用丝氨酸r.s.1,没有单个克隆在所有靶标密码子位置上完全重新编码。编译的重新编码图谱揭示了始终维持野生型序列的单个位置,ftsA中的密码子407。
图12(补充图5)显示了靶标丝氨酸、亮氨酸和丙氨酸密码子的编译重新编码图谱,揭示了定义和系统同义重新编码方案的可行性的显著差异。a.丝氨酸密码子的重新编码图谱。基于来自16个单个克隆的mraZ至ftsZ区域的完整测序,计算由r.s.1至3重新分配的靶标丝氨酸密码子的重新编码图谱。丝氨酸r.s.1(基于cAi)未产生完全重新编码的克隆,并且显示维持野生型序列的单个位置,ftsA中的密码子407。丝氨酸r.s.2(基于tAi)和r.s.3(基于t.E)均产生16个克隆中的14个(88%)完全重新编码。b.靶标亮氨酸密码子的重新编码图谱。亮氨酸r.s.4(基于cAi)、r.s.5(基于tAi)和r.s.6(基于t.E)均未能产生任何完全重新编码的克隆。虽然亮氨酸r.s.4和r.s.5都具有保持野生型序列的长区段,但r.s.6具有相对短得多的无法重新编码区段,跨越d.r.5加上下游的两个靶标密码子位置。c.靶标丙氨酸密码子的重新编码图谱。来自丙氨酸r.s.7(基于cAi)的16个克隆中的12个(75%)在20kb区域的所有374个位置完全重新编码。然而,丙氨酸r.s.8(与tAi和t.E一致)灾难性地失败,没有单个克隆完全重新编码并且有最长的重新编码失败区段。
图13(补充图6)显示了在定义的和系统的同义重新编码中识别和修复有害序列。a.在野生型基因组背景中的ftsA中重新编码密码子407。ftsA密码子位置407处的野生型密码子是丝氨酸密码子TCG,其在来自丝氨酸r.s.1(TCG和TCA至AGT)的所有16个REXER后克隆中保持不变。将ftsA 407从TCG更改为AGT的尝试也在野生型背景中失败,而从TCG到TCT的重新编码在所有20个特征化的REXER后克隆(100%)上起作用。b.将有害的ftsA 407AGT修复为AGC使丝氨酸r.s.1恢复。以红色绘制将ftsA 407为AGT的丝氨酸r.s.1编译重新编码图谱,显示维持野生型序列的单一位置,ftsA中的密码子407。以橙色绘制将ftsA 407AGT改变为AGC(如丝氨酸r.s.2和r.s.3)的丝氨酸r.s.1编译的重新编码图谱,克服了ftsA 407AGT的有害影响。c.在丝氨酸r.s.1背景中将ftsA 407AGT改变为AGC显着改善了在该特定位置从0%到100%的重新编码。d.在丝氨酸r.s.1背景中将ftsA 407AGT改变为AGC显著提高了整个20kb区域中完全重新编码的克隆的比例(从0%到94%,16个克隆中的15个)。e.用ftsA407AGC修复丝氨酸r.s.1产生没有可测量的生长缺陷的克隆。测量来自具有ftsA 407AGC的丝氨酸rs1,来自丝氨酸r.s.2、丝氨酸r.s.3和丙氨酸r.s.7的完全重新编码克隆的倍增时间,并且与野生型MDS42大肠杆菌对照相比,没有显示出可测量的生长缺陷,第二双选择盒掺入在相同的基因组基因座上。
图14(扩展数据图6)显示了基因组逐步交换合成(GENESIS)。在一轮REXER中用合成DNA替换100kb基因组的能力,和通过使用一步产物作为下一步的直接模板来重复REXER的能力,将使基因组逐步交换合成(GENESIS)成为可能,以大约40个步骤用合成DNA替换整个大肠杆菌基因组。
图15(扩展数据图7)显示了该工作中靶标为移除的密码子,和系统替换超过20kb的相互作用和必需基因的定义的同义密码子。a.大肠杆菌基因组中密码子和的反密码子相互作用。28个有义密码子以灰色突出显示,同时还有琥珀终止密码子。这些有义密码子而不是其他有义密码子的全基因组移除,将使得能够删除其所有同源tRNA,而不会消除基因组中解码剩余的一个或多个有义密码子的能力。这对于将有义密码子重新分配到非天然单体是必要的但不充分。由于这些氨基酸的内源性氨酰-tRNA合成酶不识别其同源tRNA的反密码子,因此突出显示了丝氨酸、亮氨酸和丙氨酸密码子盒。这可以通过引入带有同源反密码子的tRNA来促进将这些框内的密码子分配给新的氨基酸,所述同源反密码子不指导内源性合成酶的错误氨酰化。这些考虑使我们专注于丝氨酸、亮氨酸和丙氨酸密码子的重新分配。已经报道了,MDS42基因组中所有64个三联体密码子的总密码子数(GenBank登录号AP012306)、所有已知的通过Watson-Crick碱基配对和摆动的密码子-反密码子相互作用、tRNA反密码子碱基修饰、tRNA基因和体内测量的tRNA相对丰度。该分析识别了来自丝氨酸、亮氨酸和丙氨酸的10个密码子(丝氨酸密码子TCG、TCA、AGT、AGC;亮氨酸密码子CTG、CTA、TTG、TTA;和丙氨酸密码子GCG、GCA)满足密码子-反密码子相互作用和氨酰-tRNA合成酶密码子重新分配的识别标准b.通过在定义的重新编码方案之后将它们重新编码为替代的丝氨酸同义密码子,选择四种丝氨酸密码子(TCG,TCA,AGT,AGC)以三种不同的组合进行全基因组移除。在它们全基因组移除后,所有它们匹配的tRNA(也以灰色突出显示)将在具有重新编码的基因组的新从头设计和合成的大肠杆菌中变得多余,因此可以删除。在删除匹配的tRNA之后,将不再有内源组分来识别和编码这些靶标密码子,然后可以重新引入这些靶标密码子并重新分配以便对u.a.a..进行明确编码。c.以三种不同组合选择四种亮氨酸密码子(CTG、CTA、TTG、TTA)用于全基因组去除,通过使用定义的重新编码方案按照与(b)中四种丝氨酸靶标密码子所讨论的相同逻辑,将它们重新编码为替代的亮氨酸同义密码子。d.选择两个丙氨酸密码子(GCG、GCA)用于全基因组去除,通过使用定义的重新编码方案按照与(b)中四种丝氨酸靶标密码子和(c)中四种亮氨酸靶标密码子所讨论的相同逻辑,将它们重新编码为替代的丙氨酸同义密码子。
图16(扩展数据图8)显示了由REXER生成的20kb的多个单独的重新编码图谱所生成编译重新编码图谱,每个都系统地应用明确定义的重新编码方案。如图3b所示,导出来自不同重新编码方案的16个完全测序克隆的各个重新编码图谱,并编译成如图3c所述的编译重新编码方案。图(a)反映来自r.s.2的数据,(b)来自r.s.3,(c)来自r.s.4,(d)来自r.s.5,(e)来自r.s.6,(f)来自r.s.7,(g)来自r.s.8,(h)来自r.s.1,其中ftsA密码子407从AGT变为AGC(以橙色突出显示)。
图17(扩展数据图9)显示REXER可与单链DNA重组工程结合以修复合成DNA上的短的有害序列。a.使用单链DNA重组工程与REXER组合以修复合成序列内的短的有害区段。设计并合成总长度为90nt的单链寡核苷酸,以将合成序列上ftsA密码子位置407中的AGT的有害序列改变为耐受序列AGC。基于合成序列的反向链设计寡核苷酸序列以结合正向链,其具有位于中间的(从5'末端核酸起45)单核苷酸变化。寡核苷酸5'末端的最后两个核苷酸被硫代磷酸酯骨架取代,以保护寡核苷酸免受非特异性核酸外切酶降解。在REXER实验期间将0.2nmol的寡核苷酸共转化到大肠杆菌中,并且在没有任何修饰的情况下进行正常的REXER程序。b.用REXER+ssDNA重组工程修复合成DNA上的短有害序列。随机挑选来自REXER双选择平板的16个克隆,并使用对ftsA密码子位置407(TCG)的野生型序列或修复序列(AGC)特异的引物,进行单核苷酸多态性(SNP)基因分型。对ftsA密码子位置407(TCG)中的野生型序列特异的引物仅对野生型基因组模板产生437bp的PCR产物,如果野生型序列TCG在该基因组基因座上改变为修复序列AGC,则不产生PCR产物。对ftsA密码子位置407(AGC)中的修复序列特异的引物,将仅产生385bp的修复基因组模板的PCR产物,并且如果野生型序列TCG保留在基因座上则不产生PCR产物。MDS42rpsLK43R/rK用作野生型对照,来自丝氨酸r.s.3的完全重新编码的克隆(具有经验证的ftsA 407AGC)用作正对照。在ftsA密码子位置407处的SNP基因分型识别了用修复序列AGC测试的总共16个克隆中的一个克隆(克隆12,以橙色突出显示),然后在整个20kb重新编码区域中对其进行完全测序并在全部83个靶标密码子位置确认完全重新编码。使用QIAxcel DNA筛选试剂盒在QIAGEN QIAxcel Advanced机器上分析所有PCR产物,QX比对标记15bp/5kb、QX尺寸标记250-4000bp。
图18显示了重组和选择方案的示图。
扩展数据表1显示通过密码子适应指数(cAi)、tRNA适应指数(tAi)和翻译效率(t.E)定义重新编码规则。我们通过识别靶标密码子的最接近匹配来定义靶标丝氨酸密码子的最佳同义替换,通过密码子适应指数(cAi)、tRNA适应指数(tAi),或结合密码子丰度和测量的tRNA浓度估算的第三个度量-翻译效率(tE)来判断(见方法)。该表使用三个编码度量为TCASer和TCGSer(灰色)的同义重新编码分配最接近的替换(粉红色)。粗体数字是给定编码度量中最佳匹配替换的值。
示例
方法
参考一般分子生物学技术,例如Ausubel等人(由Frederick M.Ausubel、RogerBrent、Robert E.Kingston、David D.Moore编辑,由John Wiley&Sons出版的ISBN:047132938X的Short Protocols in Molecular Biology:A Compendium of Methods fromCurrent Protocols in Molecular Biology,和/或Green和Sambrook(由Michael R Green和Joseph Sambrook编写、Cold Spring Harbour Laboratory Press ISBN:978-1-1936113-42-2出版的实验室手册-2012年分子克隆)教导的那些。
构建选择盒、细胞株和质粒
构建了两个双选择盒。-1/+1是负选择标记rpsL(-1)和正选择标记KanR(+1)之间的融合,rpsL编码基本核糖体蛋白S12并且在rpsLK43R基因组背景中赋予对链霉素的敏感性,KanR编码卡那霉素抗性基因新霉素磷酸转移酶II。rpsL-KanR盒表达为来自单个mRNA的两个独立蛋白质,其由来自野生型rpsL启动子的组成型转录驱动。-2/+2是负选择标记sacB(-2)和正选择标记CmR(+2)之间的融合,sacB赋予对蔗糖的敏感性,CmR编码氯霉素抗性基因氯霉素乙酰转移酶。sacB-CmR盒表达为由来自EM7启动子的组成型转录驱动的单个mRNA的两个独立蛋白质。两个选择盒都是从头合成的。
最小基因组大肠杆菌菌株MDS42用作起始菌株15。将K43R突变引入MDS42的rpsL基因,通过经典重组和链霉素抗性选择产生MDS42rpsLK43R。得到的MDS42rpsLK43R在没有rpsL的额外野生型拷贝的情况下对链霉素具有抗性,并且在任何另外的野生型rpsL拷贝存在下对链霉素敏感。然后将-1/+1盒rpsL-KanR插入MDS42rpsLK43R基因组中的89,061和89,587之间,以通过经典重组产生MDS42rK,并使用位于基因组位置89,061和89,587侧翼的引物通过菌落PCR确认。
通过Gibson Assembly,装配多个PCR片段构建pCDFtet_pAraRedCas9_tracrRNA。质粒主链和复制起点来自pCDFDuet-1质粒(来自Addgene),其中壮观霉素抗性标记由来自pBR322质粒(来自New England BioLab)的四环素抗性标记替换。从pRed/ET质粒(来自GeneBridges)PCR扩增araC基因、阿拉伯糖启动子(pAra)和λRed(α/β/γ)基因。Cas9的开放阅读框从pCas9质粒16进行PCR扩增,并置于λRedα的下游,使得λRedγ、λRedβ、λRedα和Cas9表达为来自由pAra驱动的单个mRNA的四个单独蛋白质(在阿拉伯糖存在下)。从pCas9质粒16中PCR扩增具有其内源启动子的tracrRNA,并将其置于araC基因下游的相同方向。通过测序验证完成的pCDFtet_pAraRedCas9_tracrRNA质粒。pCDFtet_pAraRed(Δβ)Cas9_tracrRNA来自pCDFtet_pAraRedCas9_tracrRNA,其通过在λRedβ开放阅读框的第314和第315个核苷酸之间插入GTAC,这导致翻译框架移码并因此使λRedβ失活。
通过Gibson Assembly Master Mix(来自New England BioLab),组装两个PCR片段来构建pMB1amp_Spacer0。从pBR322质粒(来自New England BioLab)PCR扩增pMB1复制起点和氨苄青霉素抗性标记。从pCRISPR16PCR扩增BamHI和EcoRI之间没有功能性间隔RNA(因此命名为0)的CRISPR阵列。通过测序验证完成的pMB1amp_Spacer0。具有两个或四个不同间隔RNA序列的CRISPR阵列用于分别用间隔直接重复序列,指导KAISER 2或KAISER 4在商业上作为合成DNA进行排序并克隆到pMB1amp_Spacer0中,以替换BamHI和EcoRI之间的空CRISPR阵列来产生不同的功能性pMB1amp_Spacers×2或pMB1amp_Spacers×4质粒。最终的pMB1amp_Spacers质粒通过Sanger测序进行序列验证。制备相关形式的pMB1erm_Spacers质粒,用红霉素抗性标记代替pMB1amp_Spacers中的氨苄青霉素抗性标记。
通过组装多个片段构建保持合成DNA的BAC。BAC骨架基于pBeloBAC11(来自NewEngland BioLab),从核苷酸1542至7041,加入双选择盒-2/+2和负选择标记-1,并使用Gibson Assembly Master Mix(来自New England BioLab)组装。另一种安排使用-1/+1与-2耦合。用于保持长合成DNA(20kb或更长)的BAC骨架还掺入酿酒酵母复制着丝粒CEN和选择标记URA3(来自酿酒酵母载体pRS316),用于在酿酒酵母中组装、选择和扩增。合成的DNA总是侧翼为AvrII位点,其也作为PAM和CRISPR/Cas9的原间隔区的一部分,用于指导KAISER 2和KAISER 4中合成DNA的切除。
使用Gibson Assembly将短合成DNA组装到BAC上
通过Gibson Assembly,装配三个PCR片段构建pBAC_HR(89,061)-sC-HR(89,587)_r:第一个片段是侧翼为HR1(89,012-89,061,全部编号根据MG1655参考序列)的2.2kb长-2/+2sacB-CmR盒和HR2(89,587-89,636),并且进一步侧接两个AvrII位点,第二个片段是具有rrnC终止子的-1rpsL基因,第三个片段是从核苷酸1542至7041的pBeloBAC11骨架。在具有18μg/ml氯霉素的LB琼脂平板上筛选成功组装的pBAC_HR(89,061)-sC-HR(89,587)_r,并通过Sanger测序验证序列。使用侧翼为HR1(89,012-89,061)和HR2(89,587-89,636)的rpsL-KanR盒并且进一步侧接两个AvrII位点、-2sacB基因(具有rrnC终止子)和pBeloBAC11骨架,以类似方式构建pBAC_HR(89,061)-rK-HR(89,587)_s。通过在HR1和pBAC_HR(89,061)-sC-HR(89,587)_r中的-2/+2sacB-CmR盒之间插入人工lux操纵子的PCR产物来构建pBAC_HR(89,061)-T5Lux-sC-HR(89,587)_r。人工lux操纵子加上-2/+2sacB-CmR盒的总长度约为9kb。
使用酿酒酵母中的重组将长合成DNA组装到BAC上
通过在酿酒酵母中的体内重组组装长的合成DNA片段(≥20kb)。通过引入酿酒酵母复制着丝粒CEN和URA3选择标记(来自Addgene的酿酒酵母载体pRS316),将pBeloBAC11骨架转化为BAC/YAC穿梭载体。通过在酿酒酵母中的体内重组,从5-16个DNA片段组装保持长合成DNA的BAC/YAC穿梭载体。将DNA片段设计成彼此重叠38-45bp用于重组,并通过PCR或限制性消化产生片段。用酵母裂解酶(zymolyase)消化尿嘧啶营养缺陷型酿酒酵母(菌株BY4741)细胞以获得高感受态的成球细胞,并用60fmol的每种DNA片段转化。将细胞在不含尿嘧啶的琼脂中于30℃恢复3天,然后通过菌落PCR进行基因分型。具有正确组装的BAC/YAC的克隆在不含尿嘧啶的培养基中生长,并通过用酵母裂解酶和SDS处理提取构建体,然后用异丙醇沉淀18
用于20kb基因组重新编码的pBAC_HR(89,061)-20kb-sC-HR(106,508)_r由5个片段组装:URA3-pBAC-HR1(89,061)的7kb PCR片段、sacB-CmR-HR2(106,508)-rpsL-CEN的3.7kb PCR片段和三个合成DNA的AvrII消化的片段(2至9kb)构成对应于MDS42基因组区域89,062至192,743的20kb重新编码序列,其中所有TCASer、TCGSer和TAG琥珀均重新编码为他们的同义密码。在每个20kb合成序列中重新编码总共83个密码子和247个核苷酸。将所有五个片段设计成彼此重叠38bp,用于酿酒酵母中的重组。
用于90kb插入的pBAC_HR(89,061)-90kb/Lux-sC-HR(89,587)_r如上从13个片段组装:URA3-pBAC-HR1(89,061)的7kb PCR片段、sacB-CmR-HR2(106,508)-rpsL-CEN的3.7kbPCR片段,和大肠杆菌DH10b基因组DNA(1,398,251至1,480,230)的8个10kb PCR片段以及lux操纵子。
用于100kb基因组替换的pBAC_HR(89,061)-100kb/Lux-sC-HR(192,744)_r如上从17个片段组装:URA3-pBAC-HR1(89,061)的7kb PCR片段、sacB-CmR-HR2(106,508)-rpsL-CEN的3.7kb PCR片段、大肠杆菌MDS42基因组DNA(89,062至192,743)的10个10kb PCR片段,以及luxA、B、C、D、E基因的5个PCR片段(侧翼为45个bp重叠用于重组)。
经典重组和DOSER方案
使用引物对PCR扩增sacB-CmR盒,其中HR1和HR2相应地附着于5'末端。纯化的线性dsDNA在中间具有sacB-CmR盒,其两端各侧接有HR1和HR2。
在经典重组中,将3μg这种保持sacB-CmR盒的线性dsDNA转化到100μl电感受态MDS42rK细胞中,用pRed/ET质粒预转化并诱导表达λRed组分。将细胞在4ml SOB培养基中于37℃恢复1小时,然后稀释至100ml LB并在37℃下振荡孵育4小时。然后将培养物离心并重悬于4ml LB中,并在含有18μg/ml氯霉素的LB琼脂选择平板上连续稀释。
在DOSER中,将3μg相同的保持sacB-CmR盒的线性dsDNA转化到100μl电感受态MDS42rK细胞中,用pRed/ET质粒预转化并诱导表达λRed组分。将细胞在4ml SOB培养基中于37℃回收1小时,然后稀释至100ml LB并在37℃下振荡孵育4小时。然后将培养物离心并重悬于4ml LB中,并在含有18μg/ml氯霉素和50μg/ml链霉素的LB琼脂选择平板上连续稀释。
使用位于基因组基因座89,061至89,587侧翼的引物对(craf和mraZr)挑选来自经典重组和DOSER的多个菌落用于菌落PCR。来自经典重组的8个菌落中的4个显示出更高的条带,对应于在该定义的基因组基因座处用sacB-CmR替换基因组rpsL-KanR,并且其他4个显示对应于该基因座处的基因组rpsL-KanR的PCR条带。来自DOSER的所有8个菌落显示对应于在该基因座处用基因组sacB-CmR替换rpsL-KanR的PCR条带。来自MDS42rK、MDS42rpsLK43R和Milli-Q过滤水(没有重悬浮菌落)的菌落PCR用作对照。所有PCR产物与NEB 2-Log DNALadder(来自New England BioLab)平行运行。使用QIAGEN PCR纯化柱纯化所有菌落PCR产物,并通过Sanger测序验证序列。
KAISER方案
用pCDFtet_pAraRedCas9_tracrRNA和pBAC_HR(89,061)-sC-HR(89,587)_r双转化MDS42rK细胞,并接种在补充有2%葡萄糖、10μg/ml四环素和18μg/ml氯霉素的LB琼脂平板上。挑取单个菌落并接种到含有10μg/ml四环素和18μg/ml氯霉素的LB培养基中,并在37℃振荡过夜培养。将过夜培养物在含有10μg/ml四环素和18μg/ml氯霉素的LB培养基中稀释至OD600=0.05,并在37℃下振荡生长约3小时直至OD600≈0.3。向培养物中加入阿拉伯糖粉末至终浓度为0.5%,额外将培养物在37℃振荡培养1小时。在OD600≈0.6下收获细胞,并以培养物体积的1/500制备电感受态。
用pCDFtet_pAraRedCas9_tracrRNA和pBAC_HR(89,061)-sC-HR(89,587)_r将3μgpMB1amp_Spacers×2或pMB1amp_Spacers×4质粒电穿孔到预诱导的MDS42rK细胞中。将细胞在4ml SOB培养基中于37℃恢复1小时,然后稀释至100ml含有50μg/ml氨苄青霉素和10μg/ml四环素的LB,并在37℃下振荡培养4小时。将培养物离心并重悬于4ml LB中,并在含有18μg/ml氯霉素和50μg/ml链霉素的LB琼脂选择平板上连续稀释铺展。将平板在37℃孵育过夜,并通过计数平板上的活菌落来计算效率。挑取多个菌落,重悬于Milli-Q过滤水中,并在LB琼脂平板或补充有18μg/ml氯霉素或补充有50μg/ml卡那霉素的LB琼脂平板上排列。使用位于基因组基因座89,061至89,587侧翼的引物对(craf和mraZr)也从重悬的菌落进行菌落-PCR(图5(扩展数据图1a、b))。
将得到的菌落(在基因组基因座89,062至89,586处,用-2/+2sacB-CmR盒替换-1/+1rpsL-KanR盒)在不含氨苄青霉素的LB中孵育,以丢失pMB1erm_Spacers×2或pMB1erm_Spacers×4质粒。用pCDFtet_pAraRedCas9_tracrRNA和pBAC_HR(89,061)-rK-HR(89,587)_s双重转化得到细胞,并在补充有2%葡萄糖、10μg/ml四环素和25μg/ml卡那霉素的LB琼脂平板上筛选。挑取单个菌落并接种到含有10μg/ml四环素和25μg/ml卡那霉素的LB培养基中,并在37℃下培养直至OD600≈0.3。向培养物中加入阿拉伯糖粉末至终浓度为0.5%,并将培养物在37℃下振荡再孵育1小时。在OD600≈0.6下收获细胞,并以培养体积的1/500制备电感受态。将3μgpMB1erm_Spacers×2或pMB1erm_Spacers×4质粒电穿孔到预诱导的细胞中。将细胞在4ml SOB培养基中于37℃恢复1小时,然后稀释至100ml含有100μg/ml红霉素和10μg/ml四环素的LB,并在37℃下振荡培养4小时。将培养物离心并重悬于4ml LB中,并在含有3%蔗糖和25μg/ml卡那霉素的LB琼脂选择平板上连续稀释铺展。将平板在37℃孵育过夜,并通过计数平板上的活菌落来计算效率。挑取多个菌落,重悬于Milli-Q过滤水中,并在LB琼脂平板或补充有18μg/ml氯霉素或50μg/ml卡那霉素的LB琼脂平板上排列。使用位于基因组基因座89,061至89,587侧翼的引物对(craf和mraZr)从重悬的菌落进行菌落PCR(图5(扩展数据图1a、c))。我们在掺入到基因组中的DNA中使用正和负选择标记使得一轮KAISER的结果充当下一轮KAISER的模板(图5(扩展数据图1a))。我们预计这将允许在我们称为基因组逐步交换合成(GENESIS)的过程中的少量步骤中,重复基因组改变和基因组的重新合成(图5(扩展数据图1d))。
pBAC_HR(89,061)-T5Lux-sC-HR(89,587)_r、pBAC_HR(89,061)-90kb/Lux-sC-HR(89,587)_r、pBAC_HR(89,061)-100kb/Lux-sC-HR(192,744)_r和具有匹配的pMB1amp_Spacers×2或pMB1amp_Spacers×4质粒的pBAC_HR(89,061)-20kb-sC-HR(106,508)_r按照相同的方案用于其他KAISER实验中。使用位于基因组基因座侧翼的引物对(craf和mraZr)插入基因组基因座89,061至89,587的lux操纵子和偶联的-2/+2sacB-CmR盒的菌落PCR,产生9kb条带用于成功插入和1.5kb用于MDS42rK对照。对于90kb插入或100kb替换,不能进行整个插入或替换区域侧翼的菌落PCR。相反,使用插入/替换的DNA的5'或3'末端侧翼的引物对,其产生用于正确插入/替换的PCR带,并且没有MDS42rK对照的错误尺寸的带。还使用用于内部水印的引物进行菌落PCR,验证插入/替换的合成DNA的完整性。使用QIAGEN DNeasyBlood&Tissue Kit和在整个区域侧翼的引物对(craf和lpxCr),从纯化的基因组DNA中PCR扩增20kb重新编码的区域(从89,062到106,507)。使用Bio-Rad PCR Kleen Columns纯化20kb PCR产物,并通过Sanger测序完全测序。
选择20kb的重新编码区域
为了识别最佳候选区域来测试我们的同义重新编码方案,我们重点关注含有大量必需基因的区域以及大量靶标为重新编码的密码子,特别是TCASer和TCGSer以及TAG琥珀。我们应用了滑动窗口方法,其中我们计算了MDS42基因组的10千碱基区域内所有必需基因内的靶标密码子的数量。从基因组序列的前10kb开始,我们重复地将窗口移位100nt并进行密码子分析直至MDS42基因组序列的末端。基因必需性是由KEIO集合中的缺少定义的,该集合在大肠杆菌中单独鉴定非必需基因30
选择重新编码规则
我们分析了靶标密码子TCASer和TCGSer的翻译效率,目的是识别对蛋白质翻译影响最小的同义突变。因此,我们使用密码子适应指数(cAi)27和tRNA适应指数(tAi)28,29表征所有丝氨酸密码子。对于cAi,我们使用每个密码子i的相对适应性(表示为cAiwi)作为度量。对于tAi,我们使用Tuller等人28,29的论文的表S2中每个密码子i的相对适应性值(表示为tAiwi)。为了识别我们期望影响蛋白质翻译最少的同义突变,我们将密码子TCASer和TCGSer的cAiwi和tAiwi与所有剩余丝氨酸密码子的值进行比较。我们定义了理想的取代,使得靶标和取代密码子的cAiw和tAiwi的差异最小。比较所有密码子的cAiwi和tAiwi,我们注意到这两个度量没有很好地相关(Pearson’s R2=0.24),并决定提出将整合我们关于每个密码子的翻译效率的假设的第三个度量。特别地,我们推测翻译效率随着同功受体tRNA浓度的增加而成比例地增加,并且随着由相同的同功受体tRNA翻译的竞争密码子数量的增加而成比例地降低。在此基础上,我们将密码子i的翻译效率(t.E)定义如下:
其中密码子i由tRNA j翻译,kij表示密码子i和tRNA j之间的相互作用强度,m表示由tRNA j翻译的每个密码子,kmj表示密码子m和tRNA j之间的相互作用强度。相互作用强度定义在五组中:i)密码子“同源”,所述密码子是反向互补于相应tRNA反密码子以及AUAIle-k2CAUtRNA的密码子,ii)密码子的“G-U/U-G摆动”,其中第三位置的G或U分别与(修饰的)tRNA的U或G作用,iii)密码子的“C/U-xo5U”,其中第三个位置的C或U与tRNA反密码子中的xo5修饰的尿苷相互作用,iv)“C/U-肌苷”,其中密码子中的第三个位置的C或U与tRNA反密码子中的肌苷相互作用(相互作用显示比G-U摆动44弱3-8倍),和v)“A-肌苷”,据报道其第三个位置的密码子A和tRNA反密码子的肌苷存在较弱相互作用45。我们从报导的对大肠杆菌培养物进行的测量中获得了tRNA浓度[tRNAj],表示为总tRNA中tRNA的百分比46。为了确定每个密码子的相对转录组密码子频率q,我们首先计算密码子的绝对转录组频率ri:
ri=∑xgix×tx
其中gix是基因x中密码子i的频率,tx是基因x的转录本丰度,根据经验数据(培养0.5h-1的野生型大肠杆菌的DNA阵列数据)47。最后通过将ri除以所有密码子中r的最大值来将ri转换为qi:
使用三个编码度量,我们通过为TCASer和TCGSer(灰色)的同义重新编码分配最接近的替换(粉红色)来构建扩展数据表1。
生长速率测量和分析
将测定的细菌克隆的甘油原液在不存在抗生素的情况下接种于5mL LB,37℃下振荡过夜孵育。取过夜培养物在深孔预培养板中一式三份以1:100的比例接种1mL LB,然后在37℃下振荡孵育6小时。取预培养板上的每个重复以1:100的比例接种于96孔测量板中的200μL LB。取测量板于M200Pro Plate Reader(Tecan)中,37℃、400rpm振荡孵育16小时。每10分钟对每个孔进行OD600读数。通过从系列稀释的细菌培养物中收集测量值,并将平板读数器数据y用多项式拟合至分光光度计值x:y=2.053x2+2.2x+0.061,来将平板读数器吸光度数据调整为对应于分光光度计读数。在一式三份中计算平均值和标准偏差,并使用Matlab函数图和误差棒表示。
示例1:基因组作为靶标
为了改善在大肠杆菌中经典λRed介导的靶标基因座处重组的掺入,我们首先插入双选择盒-1/+1,即负选择标记(-1,rpsL,编码必需核糖体蛋白S12和赋予对链霉素的敏感性)和正选择标记(+1,KanR,编码卡那霉素抗性基因新霉素磷酸转移酶II)之间的融合到大肠杆菌MDS42rpsLK43R中,其对链霉素不敏感。掺入该盒产生大肠杆菌MDS42rK,其中rpsL-KanR掺入在MDS42rpsLK43R中的89,061和89,587之间。
我们使用含有第二双选择盒-2/+2的合成DNA的PCR产物,所述双选择盒-2/+2是负选择标记(-2,sacB,赋予对蔗糖的敏感性)和正选择标记(+2,CmR,编码氯霉素抗性基因氯霉素乙酰转移酶)之间的融合,用于λRed介导的重组,靶向MDS42rK中rpsL-KanR插入区域(图1a)。选择与氯霉素相关PCR产物的掺入导致在靶标基因座处50%掺入,而同时选择氯霉素抗性和链霉素抗性导致靶标基因座处100%掺入(这是由于PCR产物的掺入和靶标基因座的替换)(图1b、c)。我们将此方法命名为DOSER(双选择重组)(图1)。我们得出结论,在DOSER中使用正和负选择标记可以通过重组显著增加合成DNA在靶基因座上的掺入。我们注意到,对于单次插入,基因组中的负选择标记和插入序列中的正选择标记应该是充足的。然而,我们在掺入到基因组中的DNA中使用正和负选择标记允许一轮重组的结果充当下一轮重组的模板(图5(扩展数据图1a))。我们预期这将允许重复基因组改变,并且结合本文所述的研究,以少量步骤重新合成基因组(图5(扩展数据图1d))。
随着dsDNA长度变化,经典重组方案的效率急剧下降。总效率是线性dsDNA的转化效率和线性dsDNA介导细胞内重组的效率的乘积。我们假设长线性dsDNA的经典重组效率的降低是由于将dsDNA有效递送到细胞中的挑战,因此我们研究了产生用于体内重组的线性dsDNA的途径。
示例2:BAC
我们创建了一种细菌人工染色体(BAC),其中-2/+2盒侧翼为HR1和HR2序列以及Cas9靶标位点(含有原间隔区-PAM序列),并将该BAC转化到表达λRed(α/β/γ)14、Cas916和tracrRNA16的大肠杆菌MDS42rK,产生细胞群,其中每个细胞含有BAC和Cas9系统,准备加入间隔RNA后活化(图2a)。添加质粒,编码靶向BAC靶标位点内的原间隔区16的间隔RNA,并选择对氯霉素(获得+2)和链霉素(从基因组中丢失-1,以及丢失BAC骨架)的抗性获得,导致基因组中HR1和HR2之间的序列以及BAC的HR1和HR2之间的序列的替换(图5(扩展数据图1b))。
基因组替换严格依赖于CRISPR/Cas9系统和λRed重组机制的组分(图2b),并且靶向所需的基因组基因座(图2c)。我们的数据与CRISPR/Cas9介导的BAC中HR1和HR2之间的dsDNA切除一致,并且λRed介导了在基因组中HR1和HR2之间的序列掺入。我们将我们的方法命名为KAISER 2(Kai的增强重组,两次切割)。
为了研究KAISER 2对插入基因组的DNA长度的依赖性,我们创建了在HR1和-2/+2之间插入的9kb或90kb DNA的BAC(图2d、e、f)。9kb插入物包括衍生自发光光杆状菌(Photorhabdus luminescens17)的设计的luxABCDE操纵子,其必需且足以在大肠杆菌中产生生物发光。我们将这种BAC转化到大肠杆菌MDS42rK并实施了KAISER 2方案。关于氯霉素和链霉素选择的所有细胞都将lux操纵子掺入到正确的基因座(89,061和89,587之间),并且是生物发光的(图2d)。此外,虽然DOSER和经典重组的效率从对于2kb插入的104个菌落形成单位(c.f.u.)急剧下降到对于9kb插入的小于10c.f.u.(图2f),而KAISER 2的效率是恒定的,对于2kb或9kb插入都是104c.f.u.。
示例3:非常大的核酸插入
为了通过KAISER 2测试更长DNA的掺入,我们设计了一种新的插入,其中来自P.luminescens的lux操纵子放置在来自大肠杆菌MG1655(1,398,251和1,480,230,先前在创建MDS4215时删除了)的80kb DNA的中间(1,439,005和1,439,006之间)。这导致90kb插入物通过酿酒酵母中的同源重组18组装到HR1和-2/+2之间的BAC中。我们用得到的BAC实现KAISER 2,将90kb的合成DNA掺入到MDS42rK的基因组中。关于氯霉素和链霉素选择的所有细胞都在正确的基因座(在89,061和89,587之间)掺入了lux操纵子,是生物发光的,并且包括整个插入(图2e)。此外,对于90kb插入,KAISER 2的效率保持在104c.f.u.(图2f)。我们得出结论,KAISER 2提供了有效、长度独立地将非常长的合成DNA插入大肠杆菌中的靶标基因组座位的第一途径。
示例4:KAISER 4
接下来我们询问是否可以通过在HR1和HR2之间的基因组中产生双链断裂来改善KAISER 2的总体效率(图2a),导致总共4次切割(BAC中有2次,基因组中有2次)。为了实现这个我们命名为KAISER 4的过程,我们将HR1和HR2之间含有-2/+2的BAC转化到表达λRed(γ/β/α)、Cas9和tracrRNA的大肠杆菌MDS42rK,产生了一个细胞群体,其中每个细胞含有BAC和Cas9系统,准备加入间隔RNA后活化。我们添加了一个编码四个间隔RNA的质粒,两个定向于BAC靶标位点的间隔RNA(如KAISER 2中所示),另外有两个间隔RNA定位于基因组中的HR1和HR2之间,并选择对氯霉素的抗性(获得+2)和链霉素抗性(从基因组中丢失-1,并丧失BAC的骨架)的同时获得。该选择导致基因组中HR1和HR2之间的序列以及BAC的HR1和HR2之间的序列的替换(扩展数据图1b),以及所有四种原间隔区的破坏。KAISER 4产生107c.f.u.,严格依赖于CRISPR Cas9系统和λRed重组机制(图2b),并导致在正确基因座的掺入(图2c)。为了研究KAISER 4的长度依赖性,我们使用KAISER 4策略重复插入9kb和90kb(图2d、e)。KAISER4的效率与长度无关,对于所有掺入,产生的效率是KAISER 2的103倍c.f.u.(图2f)。这些结果表明相对于KAISER2,KAISER 4策略中的基因组切割进一步提高了合成DNA插入效率,并同时保持在正确的基因座插入。
示例5:100Kb插入/替换
接下来,我们证明KAISER 2和KAISER 4允许我们有效地替换100kb的大肠杆菌基因组。我们靶向从mraZ到pyrH的区域(89,062到192,743)进行替换。我们定义了50个核苷酸的HR1序列(从89,012到89,061,紧接着靶标区域的5'),我们将-1/+1选择盒紧接地插入基因组中的HR1(89,061和89,062之间)的3'。我们将基因组中该HR1下游100kb的63nt序列定义为HR2(从192,744到192,806)。
我们为BAC设计了一个插入,用于BAC的HR1和-2/+2之间插入,其中mraZ和pyrH之间的100kb区域通过沿其长度插入来自lux操纵子(luxA、luxB、luxC、luxD和luxE)的单个基因加水印(图3a)。通过在酿酒酵母中的片段组装来组装所需的BAC18。每次反应KAISER 2产生4×103c.f.u.,其中55%是生物发光的,而每次反应KAISER 4产生2×105c.f.u.,其中10%是生物发光的(图3b)。进一步的表征证实了合成操纵子在所有生物发光菌落的期望基因座上的掺入,而非生物发光菌落包括亲本序列的嵌合体和lux水印(图3b,图6(扩展数据图2))。这些结果表明KAISER能够用长合成DNA替换基因组区域。此外,他们揭示了含有lux基因的替换,其可能不是表型沉默的,可以在一小部分克隆中重组。通过映射,合成DNA中始终未转移到基因组的区域,在这种情况下为luxB(图6扩展数据图2)),可以定义为设计的合成DNA中的有害序列。
示例6:重新编码
特定密码子的同义重新编码和从基因组中去除其同源tRNA可以使这些密码子重新分配到新的正交氨酰-tRNA合成酶对,其响应有义密码子指导新的化学结构单元的掺入,并促进非天然聚合物体内合成的遗传密码重新编程9。任意同义重新编码可以改变翻译速度19,20、mRNA折叠7和转录21或翻译22对照元件,导致共翻译折叠23,24和蛋白质表达水平7的改变。在基因组中的所有位置处对给定密码子与所有可能的同义密码进行组合重新编码是不可能的。例如,在基因组中所有(1491)位置的大肠杆菌中最稀有有义密码子(AGG)的同义密码的组合探索将需要探索101042个基因组;超过观察到的宇宙中估计的原子数(1080)。这些考虑突出了发现一般重新编码规则的重要性,这些规则定义了基因组中许多位置允许的同义重新编码。
许多实验已经研究了用同义突变文库重新编码单个基因7,25。然而,没有实验研究同时重新编码必需基因组区域中的许多必需基因的结果(具有明确定义的同义重新编码规则,如明确定义的基因组重新编码所需的)。我们使用KAISER 2来解决这一挑战,并研究同义重新编码规则,如果应用于全基因组,在删除相关tRNA基因后,将创建可分配给非天然单体的密码子。
我们集中于去除丝氨酸密码子,因为它们是三个密码子组(Ala、Leu、Ser)之一,其氨酰基-tRNA合成酶不识别其同源tRNA的反密码子序列,并且其中引入选定丝氨酸反密码子的正交tRNA,不会导致seryl-tRNA合成酶错误氨酰化26。我们识别了靶标丝氨酸密码子,i)当从基因组中移除时能够移除其所有解码tRNA,并且ii)去除这些tRNA不会消除基因组中剩余同义密码子的所有解码;这些是从基因组中去除有义密码子以使其能够明确重新分配的最低标准。
然后我们通过识别靶标密码子最接近的匹配来定义靶标丝氨酸密码子的最佳同义替换,如通过密码子适应指数(cAi)27、tRNA适应指数(tAi)28,29,或我们提出的结合密码子丰度和测量的tRNA浓度的第三个度量(翻译效率,tE)来判断(扩展数据表,方法)。这些考虑导致三种重新编码方案(图4a),其中i)TCG和TCA密码子都被AGT密码子替换(cAi,重新编码方案1),ii)TCG和TCA密码子都被AGC密码子替换(tAi,重新编码方案2)和iii)用AGC密码子替换TCG密码子,用AGT密码子替换TCA密码子(tE,重新编码方案3)。
我们确定了大肠杆菌细胞分裂操纵子(从89,062到106,507)作为测试这些同义重新编码方案的理想靶标,因为它i)富含必需基因(该区域15个基因中的12个是必需的)30,ii)包括表达水平范围31-36的蛋白质,iii)包括膜蛋白37-43,iv)包括几种蛋白质,其表达比例不同且至关重要33,34和v)富含靶标密码子(图7(扩展数据图3a))。我们预计这些特征将确保有害的同义重新编码具有明显的效果,并且基因反映蛋白质组中的表达水平和蛋白质定位的范围,比高度表达的基因(例如核糖体基因)更准确25
感兴趣的20kb区域(从89,062到106,507)包括15个基因,其中5个基因在不同的阅读框中重叠。为了允许每个基因的独立重新编码,同时保持重叠内的潜在顺式调节区完整,我们设计了一种新的架构,其中每个重叠ORF的起始密码子上游200个核苷酸被复制(图4b)。我们设计了一个DNA序列,其中在这个新架构中的所有15个基因中实现了重新编码方案1,以及在新架构序列中实现重新编码方案2或3。总体而言,这三种方案引入了741个核苷酸变化,每个方案有247个核苷酸变化(图4c)。从头合成每种方案的DNA,并在酿酒酵母中组装成BAC,通过KAISER 2用各方案测试基因组重新编码(图4b)。
在KAISER 2重新编码后,我们对来自每个方案的10个独立克隆进行了测序(图4c)。对于方案1,我们观察到野生型基因组DNA和重新编码的DNA之间的嵌合体,与重组介导的交换一致。相反,对于方案2,我们观察到基因组序列完全转化为重新编码的序列,对于方案3,十个克隆中的九个完全重新编码。所有克隆的倍增时间彼此相当并且与大肠杆菌MDS42相当(图8(扩展数据图4)),表明生长速率不受基因组重新编码的影响。我们的数据证明方案2重新编码是允许的,而方案1重新编码不是,即使方案1和方案2重新编码中用于替换的密码子仅相差一个碱基(AGT与AGC),并且由相同的tRNA解码(具有反密码子GCT)分别通过摆动和Watson Crick解码(图4a)。
此外,因为该方法在不允许重新编码靶标区域内的每个密码子时提供嵌合序列,所以它可以提供关于有问题的核苷酸变化的精确基因组位置的信息。实际上,对齐来自方案1的10个嵌合体揭示了保持野生型序列的单个位置,ftsA中的密码子407。该位置的野生型密码子是TCG,并且在方案1中转化为AGT,在方案2和3中转化为AGC。该分析识别了ftsA中密码子407的第三位置的单碱基变化(T至C)作为重新编码失败的共同特征。
另外,应该注意,本发明可以应用于文库制备。参考图18,显示了根据本发明的方案。关于根据本发明的质粒和/或文库的制备,我们参考图18,其显示通过“KAISER 4p”组合2个105多样性的半文库,制备具有1010多样性的文库。
示例1至6的总结
总之,我们已经证明了通过从附加型复制子体内切除,在体内产生供体核酸(如线性合成dsDNA)的方法,以便能够单步骤将90kb合成DNA插入大肠杆菌基因组或用合成DNA替换100kb的大肠杆菌基因组。该方法可以重复,并且能够在不超过40个步骤中用合成DNA替换整个大肠杆菌基因组(图5(扩展数据图1d)),每个步骤花费几天。本发明(例如KAISER)使得定义的解码规则能够首次在基因组中的许多必需基因上同时进行测试。这些实验揭示了可以发现明确定义的同义替换,其可以允许基因组的完全和一致的同义重新编码。
示例7:高效的单步骤替换
综述
以前的工作已经研究了同义密码子选择在大肠杆菌中表达的单个基因中的作用。最初的实验将GFP基因与同义密码子组合编码,并证明蛋白质表达水平在重新编码的基因中变化7。最近,通过经典重组对大肠杆菌核糖体操纵子内的单个基因进行重新编码25。这些实验旨在用同义密码子的随机加权分布一次替换一个基因中的有义密码子(图5(扩展数据图1))。某些密码子靶标为从重新编码的基因中去除,但去除这些密码子不足以实现密码子重新分配(图5(扩展数据图1))。不能单独重新编码12个核糖体基因以移除所有出现的靶标密码子。此外,可以重新编码的菌株具有实质生长缺陷。
因为先前的方法用随机选择的同义密码替换密码子,所以它们没有系统地测试基因内的许多位置上用特定同义密码替换特定靶标密码子的效果,因为需要定义基因内允许和不允许的同义替换的精确规则。此外,由于先前的工作重新编码了单个基因7,25,它不能捕捉操纵子中不同基因中密码子之间的上位相互作用的结果。操纵子内不同基因的密码子之间的上位性将是重要的,因为例如操纵子中的蛋白质(其水平由密码子选择限定)可在精确限定的比例相互作用以实现生物学功能。
在这里,我们赋予大肠杆菌能够有效插入非常长的合成DNA的机制,并用非常长的合成DNA替代基因组DNA。在我们命名为REXER的方法中(通过重组进行增强基因组工程的复制子切除),通过CRISPR/Cas9从附加型复制子中编程体内切除双链DNA,以在精确靶向的基因座上实现λRed介导的重组。我们在单步骤中将90kb的合成DNA插入大肠杆菌基因组中,在单步骤中用合成DNA替换100kb的大肠杆菌基因组,并证明该方法可以重复用于逐步替换较长的基因组区域。用合成DNA替换长区段基因组DNA的能力,使我们能够在包括15个基因(包括参与细胞分裂的12个必需基因)的大肠杆菌基因组中重新编码操纵子。我们使用八种不同的明确定义的同义重新编码规则同时重新编码该操纵子中的所有基因。每个重新编码规则移除每次出现的每个测试的靶标密码子,并用定义的同义密码替换它,在全基因组应用和同源tRNA删除后,能够进行明确的密码子重新分配。使用这种方法,我们同时去除感兴趣区域中所有出现的靶标密码子,导致最多374个位置的靶标密码子移除。我们定义了在许多位置有害并导致耐受不良的重新编码方案的同义替换,并且我们定义了在所有位置允许的相同靶标密码子的其他同义替换。我们的结果揭示了在编码相互作用蛋白的一组基因中,相同靶标密码子的不同同义替换的允许程度间的巨大差异。我们的方法能够识别特殊位置,其中操纵子中所有其他位置所允许的精确密码子替换在此不允许。此外,我们证明特殊位置的替代重新编码可以挽救重新编码方案。
示例7A-100kb替换
接下来,我们证明REXER 2和REXER 4允许我们在单个步骤中有效地替换100kb的大肠杆菌基因组(图3a)。通过在酿酒酵母中的片段组装来装配所需的BAC18。每次反应REXER2产生2×104c.f.u.,其中80%是生物发光的,而每次反应REXER 4产生5×106c.f.u.,其中50%是生物发光的(图3b)。进一步的表征证实了lux基因水印在所有生物发光菌落的期望基因座上的掺入(图3b),而非生物发光菌落包括亲本序列和lux水印的嵌合体。这些结果表明REXER能够用长合成DNA替换基因组区域。此外,他们揭示了含有lux基因的替换,可能不是表型沉默的,可以在一小部分克隆中重组。通过映射,合成DNA中始终未转移到基因组的区域,在这种情况下为luxB,可以定义为设计的合成DNA中的有害序列并且潜在地靶标为修复。
示例7B-重复应用
接下来我们展示了,我们的基因组工程方法可以重复(图5(扩展数据图1a)和图9a(补充图2a)),使得能逐步替换更大的基因组区域。我们首先证明了第一轮REXER创建的基因组引入了正和负选择标记+2和-2,为第二轮REXER(使用包括不同但兼容的正负选择标记的BAC(+1,-1))提供直接模板(图9b、c(补充图2b、c))。第二轮REXER的产物是第三轮REXER(使用与第一轮中使用的相同的标记组合)的模板;因此可以重复该方法(图9a(补充图2b、c))。
示例7C:替换长基因组区域
为了证明REXER可以重复用合成DNA逐步替换基因组DNA的长区域,我们使用了REXER替换mraZ和pyrH之间100kb基因组区域的细胞(图3a,b和图9d(补充图)2d))进行REXER的第二步。第二步引入跨越从frr到mhpT(192,744到376,670)和潮霉素B磷酸转移酶基因(hph,它赋予对潮霉素B的抗性)的124kb合成DNA。在REXER重复后,细胞具有预期的表型和基因型(图9e、f(补充图2e、f)),确认用两步中230kb的合成DNA成功替换220kb的基因组。这与天然重组生产的酿酒酵母中的最大替换(270kb,11步)6相比是有利的。用合成DNA重复地替换基因组的大部分将使得能够用合成DNA逐步替换整个基因组(图14(扩展数据图6))。
示例7D:重新编码-识别耐受不良/不允许的突变
已经建立了用于替换大部分的大肠杆菌基因组的稳健方法,我们使用REXER来经验地定义不允许和耐受不良的同义替换,以及允许的并且可以在基因组中的许多位置实施的同义替换。为了定义用于实验研究的系统,我们i)识别了靶标为去除的密码子,ii)通过识别可以替换靶标密码子的密码子来定义重新编码规则,以及iii)识别用于测试重新编码规则的基因组区域。
我们选择去除的靶标密码子i)当从基因组中移除时能够去除解码它们的所有tRNA,并且ii)去除这些tRNA不会去除基因组中剩余的同义密码子的所有解码;这些是从基因组中去除有义密码子以使其能够明确重新分配的最低标准(图15(扩展数据图7))。我们专注于去除满足这些标准的丝氨酸、亮氨酸和丙氨酸密码子,因为这些是氨酰基-tRNA合成酶不识别其同源tRNA的反密码子序列的三个密码子组。这意味着引入正交tRNA,其指定通常用于编码Ser、Leu或Ala的反密码子,不会导致内源性合成酶对正交tRNA的错误氨酰化26。我们通过识别靶标密码子的最接近匹配来定义靶标密码子的候选同义替换,通过密码子适应指数(cAi)27、tRNA适应指数(tAi)28,29或我们定义的结合了cAi和细胞内tRNA水平的第三个度量(翻译效率,tE)来判断(扩展数据表1,方法)。这些考虑引导我们研究了八种重新编码方案(图10a(补充图3a))。
我们识别了大肠杆菌细胞分裂操纵子(从89,062到106,507)作为测试这些同义重新编码方案的理想靶标,因为它i)富含必需基因(该区域15个基因中的12个是必需的)30,ii)包括在水平范围表达的蛋白质31-36,iii)包括膜蛋白37-43(一类蛋白质,已知共翻译折叠和功能受同义密码子选择影响),iv)包括几种相互作用的蛋白质,其蛋白表达的比例不同且至关重要33,34(这将有利于不同基因中密码子之间的上位相互作用),并且v)富含靶标密码子(图10b(补充图3b),扩展数据表2)。我们预计这些特征将确保基因反映蛋白质组中表达水平和蛋白质定位的范围,比在其他区域更准确,例如核糖体操纵子25,其中含有极少数目标密码子,主要含有高表达基因(扩展数据表2)并且严重偏向于密码子的子集。此外,我们预计这些特征将确保操纵子内的有害同义重新编码具有明显的效果。
我们设计了DNA序列,其中每个重新编码方案同时在所有15个基因中实施。该方案引入了多达374个密码子变化,并且总体上他们研究了1,468个密码子变化和2,347个核苷酸变化的结果(图10c(补充图3c))。从头合成每种方案的DNA,在酿酒酵母中组装成BAC,并通过REXER研究基因组重新编码(图11a(补充图4a))。
在REXER之后,我们对来自每个重新编码方案的16个独立克隆进行了测序。我们在几种情况下观察到野生型基因组DNA和重新编码的DNA之间的嵌合体,与重新编码的序列和野生型基因组之间的重组介导的交换相一致,这些嵌合体定义了重新编码的图谱。我们将各个重新编码的图谱对齐以创建“编译的重新编码图谱”(图11b(补充图4b)),其显示允许同义替换的峰值和平顶以及始终不允许同义替换的沟底或低谷。我们观察到不同同义密码子替换相同密码子的耐受程度存在明显差异(图11b(补充图4b)、图12(补充图5)、图16(扩展数据图8))。
我们首先研究了丝氨酸重新编码方案1-3(图12a(补充图5a))。对于方案1,我们观察到野生型基因组DNA和重新编码的DNA之间的嵌合体,与重组介导的交换一致,并且0%的克隆完全重新编码。与之形成鲜明对比的是,对于方案2和方案3,88%的克隆完全重新编码。相比之下,我们发现所测试的亮氨酸重编码方案(方案4-6)都没有导致完全重新编码,并且对于方案4和5,重新编码灾难性失败,表明在操纵子的许多位点的同义替换具有表型后果(图12b(补充图5b))。最后,我们发现测试的两种丙氨酸重新编码方案(方案7-8)具有显著不同的结果(图12c(补充图5c))。重新编码方案7导致在所有374个位置75%的克隆完全重新编码,而没有克隆被方案8完全重新编码。所有完全重新编码的克隆的倍增时间彼此相当并且与对照大肠杆菌菌株相当(图13(补充图6)),表明生长速率不受基因组重新编码的影响。总的来说,这项工作成功地从单个菌株中的操纵子中移除了跨越20kb的多达374个有义密码子。因此,有义密码子去除的规模远大于先前报道的释放因子2基因(prfB)的规模,其中跨越1.1kb的46个密码子在单个菌株中去除。在先前的工作中,从核糖体基因(rpsA)同时去除的密码子的最大数量是1625
我们的数据揭示了在相互作用的必需基因的操纵子中精确定义的重新编码方案之间的巨大差异。当在单个基因中随机选择同义替换时,不能获得该信息。对于丝氨酸重新编码,允许方案2和3重新编码,而不允许方案1重新编码;即使在方案1和方案2和方案3重新编码中用于替换的密码子仅相差一个碱基(AGT vs AGC),并且分别通过摆动和WatsonCrick解码用相同的tRNA(具有反密码子GCT)解码(图10a(补充图3a))。类似地,对于丙氨酸密码子,允许方案7重新编码,而方案8灾难性地失败。这些重新编码方案的区别仅在于允许和不允许单个碱基(GCT与GCC)的转换来替换GCA。同样,两个新密码子都由同一组tRNA解码(图10a(补充图3a))。cAI、tAi和tE都产生至少一个成功的重新编码,但没有单个度量预测哪个同义重新编码将成功。这些观察结果强调了根据经验确定富含必需基因的操纵子中每个密码子的最佳系统和明确定义的同义重新编码方案的重要性。
将由执行REXER得到的嵌合基因组序列与重新编码方案1对齐显示,大肠杆菌一致地拒绝ftsA的密码子407处的单个密码子突变(TCG至AGT)(图12a(补充图5a))。试图引入ftsA 407TCG到AGT突变(在基因组中的其他位置没有额外的重新编码)失败(图13a(补充图6a))。相反,我们能够将ftsA 407TCG定量重新编码为同义TCT密码子(图13a(补充图6a))。这些结果表明ftsA 407TCG到AGT突变是有害的。
示例7E:测试替代突变和修复编码方案
我们接下来证明了ftsA第407位密码子从AGT到AGC的突变(在重新编码方案2和3中在该位置发现的密码子)足以修复重新编码方案1(图13b、c、d(补充图6b、c、d))。这种突变显著改变了REXER介导的重新编码,将完全重编码序列的比例从0%增加到94%,并将ftsA密码子407的重新编码比例从0%增加到100%(图13b、c、d(补充图6b、c、d))。我们还通过结合单链DNA重组工程与REXER,将该突变成功地引入到重新编码方案1中(图17(扩展数据图9))。大肠杆菌的生长不受成功的重新编码方案的影响(图13e(补充图6e))。这些结果表明,重新编码方案1的主要缺陷是由于在ftsA的位置407处不允许AGT。由于在ftsA的第407位允许TCG、TCT和AGC,但不允许AGT(其在三联体的每个位置与允许的密码子的共享核苷酸),我们得出结论,该密码子的问题在于整个三联体而不在于三联体内的特定核苷酸本身。这些实验举例说明了如何使用REXER来,i)识别基因组中通过其他良好耐受的重新编码方案难以重新编码的特殊位置,以及ii)通过在这些特殊位置引入替代密码子来修复重新编码方案。
总之,我们已经产生了一种方法,可以将大的合成DNA序列编程插入大肠杆菌基因组中,并用合成的DNA替换部分大肠杆菌基因组。该方法结合了线性合成dsDNA盒的创建(通过CRISPR/Cas9从附加型复制子体内切除)、λRed介导的重组与同时的正和负选择,以确保在靶标基因座处的掺入。该方法非常有效,可以重复,并且能够在不超过40个步骤中用合成DNA替换整个大肠杆菌基因组(图14(扩展数据图6)),每个步骤需要几天。可以在单个步骤中插入的DNA的长度超过在天然重组生物中掺入的DNA的长度。由于CRISPR系统和λRed介导的重组在其他生物体中都是活跃的,我们预期该方法可以扩展到大肠杆菌之外并促进其他生物体中的基因组工程。
我们使用八种不同明确定义的同义重新编码规则同时在必需操纵子中重新编码基因。每个重新编码规则移除每次出现的每个测试的目标密码子,并用定义的同义密码替换它,在全基因组应用和同源tRNA删除后,将能够进行明确的密码子重新分配。我们已经定义了在许多位置有害并且导致耐受不良的重新编码方案的同义替换,并且我们还定义了在所有研究位置允许的相同靶密码子的其他同义取代。我们的结果揭示了在编码相互作用蛋白的一组基因中对于相同靶标密码子的不同同义替换的允许程度的显著差异。我们的方法还能够识别和修复“重新编码图谱”内的特殊位置,其中在操纵子中的许多其他位置进行精确的密码子替换在此不允许。此外,我们证明了维持目标密码子移除的特殊位置的替代重新编码可以挽救重新编码方案。我们对许多基因中同时有义密码子去除和同义替换的精确定义方案的研究,使得能够消除那些不能用于基因组重新编码的重新编码方案,以及识别有望用于全基因组应用的重新编码方案。
扩展数据表1.由密码子适应指数(cAi)tRNA适应指数(tAi)和翻译效率(t.E)定义重新编码规则
扩展数据表2.本工作中全部同时重新编码的必需细胞分裂操纵子基因(a)以及先前报道的单独重新编码的核糖体和释放因子2基因(b)的蛋白质功能、定位、表达水平和长度。更详细地说,本工作中全部同时重新编码的必需细胞分裂操纵子基因(a)以及先前报道的单独重新编码的核糖体和释放因子2基因(b)25的蛋白质功能、定位、表达水平(以百万分之一计)和长度(以bp计的ORF长度和以氨基酸计数的肽长度)。还报告了根据不同重新编码方案靶标为移除的密码子数量。表达水平数据来自www.pax-db.org。
参考文献
1.Cello,J.,Paul,A.V.&Wimmer,E.Chemical synthesis of poliovirus cDNA:generation of infectious virus in the absence of natural template.Science297,1016–1018(2002).
2.Chan,L.Y.,Kosuri,S.&Endy,D.Refactoring bacteriophage T7.MolecularSystems Biology 1,2005.0018–E10(2005).
3.Itaya,M.,Tsuge,K.,Koizumi,M.&Fujita,K.Combining two genomes in onecell:stable cloning of the Synechocystis PCC6803genome in the Bacillussubtilis 168genome.Proc.Natl.Acad.Sci.U.S.A.102,15971–15976(2005).
4.Gibson,D.G.et al.Complete chemical synthesis,assembly,and cloningof a Mycoplasma genitalium genome.Science 319,1215–1220(2008).
5.Gibson,D.G.et al.Creation of a Bacterial Cell Controlled by aChemically Synthesized Genome.Science 329,52–56(2010).
6.Annaluru,N.et al.Total synthesis of a functional designereukaryotic chromosome.Science 344,55–58(2014).
7.Kudla,G.,Murray,A.W.,Tollervey,D.&Plotkin,J.B.Coding-sequencedeterminants of gene expression in Escherichia coli.Science 324,255–258(2009).
8.Ro,D.-K.et al.Production of the antimalarial drug precursorartemisinic acid in engineered yeast.Nature 440,940–943(2006).
9.Chin,J.W.Reprogramming the genetic code.Science 336,428–429(2012).
10.Mukai,T.et al.Reassignment of a rare sense codon to a non-canonical amino acid in Escherichia coli.Nucleic Acids Research 43,8111–8122(2015).
11.Mandell,D.J.et al.Biocontainment of genetically modified organismsby synthetic protein design.Nature 518,55–60(2015).
12.Lajoie,M.J.et al.Genomically Recoded Organisms Expand BiologicalFunctions.Science 342,357–360(2013).
13.Wang,H.H.et al.Programming cells by multiplex genome engineeringand accelerated evolution.Nature 460,894–898(2009).
14.Datsenko,K.A.&Wanner,B.L.One-step inactivation of chromosomalgenes in Escherichia coli K-12 using PCR products.Proc.Natl.Acad.Sci.U.S.A.97,6640–6645(2000).
15.Pósfai,G.et al.Emergent properties of reduced-genome Escherichiacoli.Science 312,1044–1046(2006).
16.Jiang,W.,Cox,D.,Zhang,F.,Bikard,D.&Marraffini,L.A.RNA-guidedediting of bacterial genomes using CRISPR-Cas systems.Nature Biotechnology31,233–239(2013).
17.Bryksin,A.V.&Matsumura,I.Rational Design of a Plasmid Origin ThatReplicates Efficiently in Both Gram-Positive and Gram-Negative Bacteria.PLoSONE 5,e13244(2010).
18.Kouprina,N.,Noskov,V.N.&Larionov,V.Selective isolation of largechromosomal regions by transformation-associated recombination cloning forstructural and functional analysis of mammalian genomes.Methods Mol.Biol.349,85–101(2006).
19.M.A.&Pedersen,S.Absolute in vivo translation rates ofindividual codons in Escherichia coli.The two glutamic acid codons GAA andGAG are translated with a threefold difference in rate.Journal of MolecularBiology 222,265–280(1991).
20.Curran,J.F.&Yarus,M.Rates of aminoacyl-tRNA selection at 29 sensecodons in vivo.Journal of Molecular Biology 209,65–77(1989).
21.Cho,B.-K.et al.The transcription unit architecture of theEscherichia coli genome.Nature Biotechnology 27,1043–1049(2009).
22.Li,G.-W.,Oh,E.&Weissman,J.S.The anti-Shine–Dalgarno sequencedrives translational pausing and codon choice in bacteria.Nature 484,538–541(2012).
23.Kimchi-Sarfaty,C.et al.A ‘Silent’Polymorphism in the MDR1 GeneChanges Substrate Specificity.Science 315,525–528(2007).
24.Zhang,G.,Hubalewska,M.&Ignatova,Z.Transient ribosomal attenuationcoordinates protein synthesis and co-translational folding.Nat Struct MolBiol 16,274–280(2009).
25.Lajoie,M.J.et al.Probing the Limits of Genetic Recoding inEssential Genes.Science 342,361–363(2013).
26.Wang,K.et al.Optimized orthogonal translation of unnatural aminoacids enables spontaneous protein double-labelling and FRET.Nature Chemistry6,393–403(2014).
27.Sharp,P.M.&Li,W.H.The codon Adaptation Index--a measure ofdirectional synonymous codon usage bias,and its potentialapplications.Nucleic Acids Research 15,1281–1295(1987).
28.Reis,dos,M.,Savva,R.&Wernisch,L.Solving the riddle of codon usagepreferences:a test for translational selection.Nucleic Acids Research 32,5036–5044(2004).
29.Tuller,T.,Waldman,Y.Y.,Kupiec,M.&Ruppin,E.Translation efficiencyis determined by both codon bias and folding energy.Proceedings of theNational Academy of Sciences 107,3645–3650(2010).
30.Baba,T.et al.Construction of Escherichia coli K-12 in-frame,single-gene knockout mutants:the Keio collection.Molecular Systems Biology 2,2006.0008–11(2006).
31.Pratviel-Sosa,F.,Mengin-Lecreulx,D.&van Heijenoort,J.Over-production,purification and properties of the uridine diphosphate N-acetylmuramoyl-L-alanine:D-glutamate ligase from Escherichiacoli.Eur.J.Biochem.202,1169–1176(1991).
32.Carson,M.J.,Barondess,J.&Beckwith,J.The FtsQ protein ofEscherichia coli:membrane topology,abundance,and cell division phenotypes dueto overproduction and insertion mutations.J Bacteriol 173,2187–2195(1991).
33.Dai,K.&Lutkenhaus,J.The proper ratio of FtsZ to FtsA is requiredfor cell division to occur in Escherichia coli.J Bacteriol 174,6145–6151(1992).
34.Dewar,S.J.,Begg,K.J.&Donachie,W.D.Inhibition of cell divisioninitiation by an imbalance in the ratio of FtsA to FtsZ.J Bacteriol 174,6314–6316(1992).
35.Weiss,D.S.et al.Localization of the Escherichia coli cell divisionprotein Ftsl(PBP3)to the division site and cell pole.Mol Microbiol 25,671–681(1997).
36.Eraso,J.M.et al.The highly conserved MraZ protein is atranscriptional regulator in Escherichia coli.J Bacteriol 196,2053–2066(2014).
37.Geis,A.&Plapp,R.Phospho-N-acetylmuramoyl-pentapeptide-transferaseof Escherichia coli K12.Properties of the membrane-bound and the extractedand partially purified enzyme.Biochim.Biophys.Acta 527,414–424(1978).
38.Pla,J.,Dopazo,A.&Vicente,M.The native form of FtsA,a septalprotein of Escherichia coli,is located in the cytoplasmic membrane.JBacteriol 172,5097–5102(1990).
39.Nguyen-Distèche,M.,Fraipont,C.,Buddelmeijer,N.&Nanninga,N.Thestructure and function of Escherichia coli penicillin-binding protein3.Cell.Mol.Life Sci.54,309–316(1998).
40.Ha,S.,Walker,D.,Shi,Y.&Walker,S.The 1.9 A crystal structure ofEscherichia coli MurG,a membrane-associated glycosyltransferase involved inpeptidoglycan biosynthesis.Protein Sci.9,1045–1052(2000).
41.Urbanus,M.L.et al.Sec-dependent membrane protein insertion:sequential interaction of nascent FtsQ with SecY and YidC.EMBO Rep 2,524–529(2001).
42.Fraipont,C.et al.The integral membrane FtsW protein andpeptidoglycan synthase PBP3 form a subcomplex in Escherichia coli.Annu RevMicrobiol 157,251–259(2011).
43.Khadria,A.S.&Senes,A.The transmembrane domains of the bacterialcell division proteins FtsB and FtsL form a stable high-orderoligomer.Biochemistry 52,7542–7550(2013).
44.Grosjean,H.J.,de Henau,S.&Crothers,D.M.On the physical basis forambiguity in genetic coding interactions.Proc.Natl.Acad.Sci.U.S.A.75,610–614(1978).
45.Curran,J.F.Decoding with the A:I wobble pair isinefficient.Nucleic Acids Research 23,683–688(1995).
46.Dong,H.,Nilsson,L.&Kurland,C.G.Co-variation of tRNA abundance andcodon usage in Escherichia coli at different growth rates.Journal ofMolecular Biology 260,649–663(1996).
47.Ishii,N.et al.Multiple high-throughput analyses monitor theresponse of E.coli to perturbations.Science 316,593–597(2007).
示例7的补充参考文献:
Hutchison,C.A.et al.Design and synthesis of a minimal bacterialgenome.Science 351,aad6253–aad6253(2016).
Itaya,M.,Fujita,K.,Ikeuchi,M.,Koizumi,M.&Tsuge,K.Stable positionalcloning of long continuous DNA in the Bacillus subtilis genome vector.Journalof Biochemistry 134,513–519(2003).
Krishnakumar,R.et al.Simultaneous non-contiguous deletions usinglarge synthetic DNA and site-specific recombinases.Nucleic Acids Research 42,e111–e111(2014)
Quax,T.E.F.et al.Differential translation tunes uneven production ofoperon-encoded proteins.
Cell Rep 4,938–944(2013).
Quax,T.E.F.,Claassens,N.J.,D.&van der Oost,J.Codon Bias as aMeans to Fine-Tune Gene Expression.Mol.Cell 59,149–161(2015).
Li,G.-W.,Burkhardt,D.,Gross,C.&Weissman,J.S.Quantifying absoluteprotein synthesis rates reveals principles underlying allocation of cellularresources.Cell 157,624–635(2014).
Giegé,R.,Sissler,M.&Florentz,C.Universal rules and idiosyncraticfeatures in tRNA identity.
Nucleic Acids Research 26,5017–5035(1998).
Newton,C.R.et al.Analysis of any point mutation in DNA.Theamplification refractory mutation system(ARMS).Nucleic Acids Research 17,2503–2516(1989).
Gallagher,R.R.,Li,Z.,Lewis,A.O.&Isaacs,F.J.Rapid editing andevolution of bacterial genomes using libraries of synthetic DNA.Nat Protoc 9,2301–2316(2014).
尽管本文已经参考附图详细公开了本发明的说明性实施例,但是应该理解,本发明不限于精确的实施例,并且本领域技术人员可以在其中实现各种改变和修改,而不脱离由所附权利要求及其等同物限定的本发明的范围。

Claims (28)

1.一种方法,包括:
a)提供宿主细胞
所述宿主细胞包括附加型复制子,
所述附加型复制子包括供体核酸序列,
所述宿主细胞还包括靶标核酸,
b)提供能够在所述宿主细胞中支持核酸重组的辅助蛋白
c)提供能够在所述宿主细胞中支持核酸切除的辅助蛋白和/或RNA
其中所述供体核酸序列依次包括:5'-同源重组序列1-感兴趣的序列-同源重组序列2-3'
其中所述感兴趣的序列包括正选择标记
d)诱导所述供体核酸序列的切除
e)孵育以允许切除的供体核酸和所述靶标核酸之间的重组
f)选择已将所述供体核酸掺入所述靶标核酸的重组体。
2.根据权利要求1的方法,其中所述靶标核酸依次包括:5'-同源重组序列1-负选择标记-同源重组序列2-3'。
3.根据权利要求2的方法,其中所述选择已将所述供体核酸掺入所述靶标核酸的重组体,包括选择供体核酸的正选择标记的获得和靶标核酸的负选择标记的丢失。
4.根据权利要求3的方法,其中同时选择供体核酸的正选择标记的获得,和靶标核酸的负选择标记的丢失。
5.根据前述权利要求中任一项的方法,其中所述感兴趣的序列包括正选择标记和负选择标记。
6.根据前述任一权利要求所述的方法,还包括步骤
dii)在靶标核酸序列中诱导至少一个双链断裂,其中所述双链断裂在所述同源重组序列1和所述同源重组序列2之间。
7.根据权利要求6的方法,其中在靶核酸序列中诱导至少两个双链断裂,其中每个所述双链断裂在所述同源重组序列1和所述同源重组序列2之间。
8.根据前述权利要求中任一项的方法,其中所述切除的供体核酸开始于所述同源重组序列1,结束于所述同源重组序列2。
9.根据前述权利要求中任一项的方法,其中所述附加型复制子包括独立于供体核酸序列的负选择标记。
10.根据权利要求9的方法,其中所述方法还包括通过选择独立于供体核酸序列的所述负选择标记的缺失,来选择附加型复制子的丢失的步骤。
11.根据前述权利要求中任一项的方法,其中所述附加型复制子依次包括:切除切割位点1-供体核酸序列-切除切割位点2。
12.根据前述权利要求中任一项的方法,其中所述靶标核酸具有能够在所述宿主细胞内起作用的其自身复制起点。
13.根据前述权利要求中任一项的方法,其中所述附加型复制子是质粒核酸。
14.根据前述权利要求中任一项的方法,其中所述靶标核酸是质粒核酸。
15.根据权利要求13或14的方法,其中所述附加型复制子是第一质粒核酸,并且所述靶标核酸是第二质粒核酸。
16.根据前述权利要求中任一项的方法,其中所述附加型复制子是细菌人工染色体(BAC)。
17.根据前述权利要求中任一项的方法,其中所述靶标核酸是细菌人工染色体(BAC)。
18.根据权利要求16或17的方法,其中所述附加型复制子是第一细菌人工染色体(BAC),并且所述靶标核酸是第二细菌人工染色体(BAC)。
19.根据前述权利要求中任一项的方法,其中所述靶标核酸是宿主细胞基因组。
20.根据前述权利要求中任一项的方法,其中所述负选择标记选自sacB(蔗糖敏感性)或rpsL(S12核糖体蛋白-链霉素敏感性)。
21.根据前述权利要求中任一项的方法,其中正选择标记选自CmR(氯霉素抗性)或KanR(卡那霉素抗性)。
22.根据前述权利要求中任一项的方法,其中选择重组体的步骤包括对所述正和负标记的顺序选择,或对所述负和正标记的顺序选择。
23.根据前述权利要求中任一项的方法,其中选择重组体的步骤包括同时选择所述正和负标记。
24.根据前述权利要求中任一项的方法,其中所述能够支持核酸切除的辅助蛋白和/或RNA,包括CRISPR/Cas9蛋白/RNA。
25.根据前述权利要求中任一项的方法,其中所述能够支持核酸重组的辅助蛋白包括λRed蛋白。
26.一种组装合成基因组的方法,包括用第一供体核酸序列进行前述权利要求中任一项的步骤,选择与所述第一供体核酸序列邻接的其它供体序列,并用所述其它供体核酸序列重复所述步骤,直到合成基因组组装完成。
27.根据前述权利要求中任一项获得的重组核酸。
28.包括根据权利要求27的重组核酸的宿主细胞。
CN201780047013.6A 2016-07-29 2017-07-27 基因组编辑 Pending CN109952373A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1613135.1 2016-07-29
GBGB1613135.1A GB201613135D0 (en) 2016-07-29 2016-07-29 Genome editing
PCT/GB2017/052188 WO2018020248A1 (en) 2016-07-29 2017-07-27 Genome editing

Publications (1)

Publication Number Publication Date
CN109952373A true CN109952373A (zh) 2019-06-28

Family

ID=56936709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780047013.6A Pending CN109952373A (zh) 2016-07-29 2017-07-27 基因组编辑

Country Status (7)

Country Link
US (1) US11667933B2 (zh)
EP (1) EP3491127B1 (zh)
JP (1) JP7187435B2 (zh)
CN (1) CN109952373A (zh)
ES (1) ES2904688T3 (zh)
GB (1) GB201613135D0 (zh)
WO (1) WO2018020248A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111518220A (zh) * 2020-05-14 2020-08-11 重庆英茂盛业生物科技有限公司 一种融合蛋白及其设计方法

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013066438A2 (en) 2011-07-22 2013-05-10 President And Fellows Of Harvard College Evaluation and improvement of nuclease cleavage specificity
US20150044192A1 (en) 2013-08-09 2015-02-12 President And Fellows Of Harvard College Methods for identifying a target site of a cas9 nuclease
US9359599B2 (en) 2013-08-22 2016-06-07 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
US9322037B2 (en) 2013-09-06 2016-04-26 President And Fellows Of Harvard College Cas9-FokI fusion proteins and uses thereof
US9526784B2 (en) 2013-09-06 2016-12-27 President And Fellows Of Harvard College Delivery system for functional nucleases
US9340799B2 (en) 2013-09-06 2016-05-17 President And Fellows Of Harvard College MRNA-sensing switchable gRNAs
US9068179B1 (en) 2013-12-12 2015-06-30 President And Fellows Of Harvard College Methods for correcting presenilin point mutations
WO2016022363A2 (en) 2014-07-30 2016-02-11 President And Fellows Of Harvard College Cas9 proteins including ligand-dependent inteins
IL294014B2 (en) 2015-10-23 2024-07-01 Harvard College Nucleobase editors and their uses
GB201613135D0 (en) 2016-07-29 2016-09-14 Medical Res Council Genome editing
CA3032699A1 (en) 2016-08-03 2018-02-08 President And Fellows Of Harvard College Adenosine nucleobase editors and uses thereof
AU2017308889B2 (en) 2016-08-09 2023-11-09 President And Fellows Of Harvard College Programmable Cas9-recombinase fusion proteins and uses thereof
US11542509B2 (en) 2016-08-24 2023-01-03 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
WO2018071868A1 (en) 2016-10-14 2018-04-19 President And Fellows Of Harvard College Aav delivery of nucleobase editors
US10745677B2 (en) 2016-12-23 2020-08-18 President And Fellows Of Harvard College Editing of CCR5 receptor gene to protect against HIV infection
US10726110B2 (en) * 2017-03-01 2020-07-28 Seven Bridges Genomics, Inc. Watermarking for data security in bioinformatic sequence analysis
EP3592853A1 (en) 2017-03-09 2020-01-15 President and Fellows of Harvard College Suppression of pain by gene editing
JP2020510439A (ja) 2017-03-10 2020-04-09 プレジデント アンド フェローズ オブ ハーバード カレッジ シトシンからグアニンへの塩基編集因子
IL269458B2 (en) 2017-03-23 2024-02-01 Harvard College Nucleic base editors that include nucleic acid programmable DNA binding proteins
WO2018209320A1 (en) 2017-05-12 2018-11-15 President And Fellows Of Harvard College Aptazyme-embedded guide rnas for use with crispr-cas9 in genome editing and transcriptional activation
JP2020534795A (ja) 2017-07-28 2020-12-03 プレジデント アンド フェローズ オブ ハーバード カレッジ ファージによって支援される連続的進化(pace)を用いて塩基編集因子を進化させるための方法および組成物
US11319532B2 (en) 2017-08-30 2022-05-03 President And Fellows Of Harvard College High efficiency base editors comprising Gam
US11795443B2 (en) 2017-10-16 2023-10-24 The Broad Institute, Inc. Uses of adenosine base editors
US20200318106A1 (en) * 2017-12-22 2020-10-08 Bio-Rad Laboratories, Inc. Controlling phenotype of organisms with crispr/cas gene targeting
CN109593694B (zh) * 2018-11-07 2022-04-22 华中农业大学 基于Ngpiwi蛋白介导的牛源大肠杆菌基因敲除菌株及其构建方法
DE112020001342T5 (de) 2019-03-19 2022-01-13 President and Fellows of Harvard College Verfahren und Zusammensetzungen zum Editing von Nukleotidsequenzen
GB201906775D0 (en) * 2019-05-14 2019-06-26 Res & Innovation Uk Synthetic genome
DE112021002672T5 (de) 2020-05-08 2023-04-13 President And Fellows Of Harvard College Vefahren und zusammensetzungen zum gleichzeitigen editieren beider stränge einer doppelsträngigen nukleotid-zielsequenz
JP2024521175A (ja) 2021-05-28 2024-05-28 ユナイテッド キングダム リサーチ アンド イノベーション 微生物及びその使用
GB202115820D0 (en) 2021-11-03 2021-12-15 Res & Innovation Uk Methods of editing nucleic acid sequences
WO2023215399A1 (en) * 2022-05-03 2023-11-09 University Of Southern California Assembling synthetic dna constructs from natural dna

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1596306A (zh) * 2001-03-07 2005-03-16 荧合金股份有限公司 用于将dna导入靶细胞的筛选方法
WO2014143381A1 (en) * 2013-03-09 2014-09-18 Agilent Technologies, Inc. Methods of in vivo engineering of large sequences using multiple crispr/cas selections of recombineering events

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201613135D0 (en) 2016-07-29 2016-09-14 Medical Res Council Genome editing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1596306A (zh) * 2001-03-07 2005-03-16 荧合金股份有限公司 用于将dna导入靶细胞的筛选方法
WO2014143381A1 (en) * 2013-03-09 2014-09-18 Agilent Technologies, Inc. Methods of in vivo engineering of large sequences using multiple crispr/cas selections of recombineering events

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KAZUYUKI HOSHIJIMA ET AL.: "Precise editing of the zebrafish genome made simple and efficient", 《DEV CELL》 *
MAMIE Z LI ET AL.: "MAGIC,an in vivo genetic method for the rapid construction of recombinant DNA molecules", 《NAT GENET》 *
吴璐等: "基因组编辑技术研究进展", 《生物技术通报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111518220A (zh) * 2020-05-14 2020-08-11 重庆英茂盛业生物科技有限公司 一种融合蛋白及其设计方法

Also Published As

Publication number Publication date
GB201613135D0 (en) 2016-09-14
EP3491127B1 (en) 2021-11-24
US20200063164A1 (en) 2020-02-27
JP2019525755A (ja) 2019-09-12
EP3491127A1 (en) 2019-06-05
ES2904688T3 (es) 2022-04-05
WO2018020248A1 (en) 2018-02-01
US11667933B2 (en) 2023-06-06
JP7187435B2 (ja) 2022-12-12

Similar Documents

Publication Publication Date Title
CN109952373A (zh) 基因组编辑
Wannier et al. Recombineering and MAGE
Wang et al. Defining synonymous codon compression schemes by genome recoding
Wang et al. An improved recombineering approach by adding RecA to λ red recombination
KR102496984B1 (ko) Crispr 이용의 다중화된 게놈 조작
CN109688820A (zh) 用于生成条形码化组合文库的方法
US20180127759A1 (en) Dynamic genome engineering
US20120315670A1 (en) Compositions and Methods for the Regulation of Multiple Genes of Interest in a Cell
Zhao et al. Adaptive evolution of rhizobial symbiotic compatibility mediated by co-evolved insertion sequences
JP2010539994A5 (zh)
CN103068995A (zh) 直接克隆
Döhlemann et al. A family of single copy repABC-type shuttle vectors stably maintained in the alpha-proteobacterium Sinorhizobium meliloti
Mukai et al. Overcoming the challenges of megabase-sized plasmid construction in Escherichia coli
EP1362110A1 (en) Method for the selection of recombinant clones comprising a sequence encoding an antidote protein to a toxic molecule
Asin-Garcia et al. ReScribe: an unrestrained tool combining multiplex recombineering and minimal-PAM ScCas9 for genome recoding Pseudomonas putida
Sykes et al. Recent advances in genetic tools for Acinetobacter baumannii
Velázquez et al. Targetron-assisted delivery of exogenous DNA sequences into Pseudomonas putida through CRISPR-aided counterselection
Faber et al. Saturation mutagenesis genome engineering of infective φx174 bacteriophage via unamplified oligo pools and golden gate assembly
JP2009524406A (ja) 合成生物学および代謝工学のためのモジュラー型ゲノム
Ye et al. Genomic iterative replacements of large synthetic DNA fragments in Corynebacterium glutamicum
JP5757608B2 (ja) 遺伝子スイッチおよび遺伝子回路の選択方法
Holt et al. Rebuilding microbial genomes
US20050282166A1 (en) Method for the expression of unknown environmental dna into adapted host cells
De La Torre Rewriting the genome of Escherichia coli
WO2023078997A1 (en) Methods of editing nucleic acid sequences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination