CN108738326A - 新型crispr相关转座酶及其用途 - Google Patents

新型crispr相关转座酶及其用途 Download PDF

Info

Publication number
CN108738326A
CN108738326A CN201680079306.8A CN201680079306A CN108738326A CN 108738326 A CN108738326 A CN 108738326A CN 201680079306 A CN201680079306 A CN 201680079306A CN 108738326 A CN108738326 A CN 108738326A
Authority
CN
China
Prior art keywords
nucleic acid
sequence
cell
crispr
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680079306.8A
Other languages
English (en)
Other versions
CN108738326B (zh
Inventor
J·M·奇拓尔
E·纳吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Monsanto Co
Original Assignee
Monsanto Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Monsanto Co filed Critical Monsanto Co
Priority to CN202210458124.9A priority Critical patent/CN115216459B/zh
Publication of CN108738326A publication Critical patent/CN108738326A/zh
Application granted granted Critical
Publication of CN108738326B publication Critical patent/CN108738326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8241Phenotypically and genetically modified plants via recombinant DNA technology
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/80Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Medicinal Chemistry (AREA)
  • Cell Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Breeding Of Plants And Reproduction By Means Of Culturing (AREA)

Abstract

本文提供用于修饰靶标DNA序列的系统、方法和组合物。更特定来说,提供用于用CRISPR相关转座酶编辑真核细胞中的基因组DNA的系统、方法和组合物。也提供编码一种或多种CRISPR相关转座酶的载体和载体系统以及用于设计和使用此类载体的方法。也提供用于鉴定和验证新型CRISPR相关转座酶的方法。

Description

新型CRISPR相关转座酶及其用途
相关申请的交叉引用以及序列表的并入
本申请要求2015年12月29日提交的题为NOVEL RNA-GUIDED DNA NUCLEASES ANDUSES THEREOF的美国临时专利申请号62/272,441的优先权,所述美国临时专利申请整体并入。大小是723,030字节(在MS Windows操作系统中测量)并且于2015年12月16日创建并于2015年12月29日与美国临时专利申请号62/272,441一起提交的文件“61701-0000-US_ST25.txt”中含有的序列表以引用的方式整体并入本文。序列表的计算机可读形式通过电子提交来与本申请一起提交,并且以引用的方式整体并入本申请中。序列表含于名为61701-0000-WO_ST25.txt的文件中,所述文件大小是4,394,235字节(在MS Windows操作系统中测量),并且于2016年12月29日创建。
背景
CRISPR(成簇规律间隔短回文重复序列)是见于细菌和古细菌的基因组中的含有多个短正向重复序列的基因座。CRISPR RNA(crRNA)与CRISPR相关(Cas)效应蛋白缔合以形成识别外来核酸的CRISPR-Cas系统。CRISPR系统是细菌和古细菌的适应性免疫系统的一部分,通过以序列依赖性方式裂解外来DNA来保护它们对抗侵袭性核酸诸如病毒。免疫性通过在CRISPR基因座的近端在两个邻近重复序列之间整合侵袭性DNA的称为间隔子的短片段来获得。CRISPR阵列在后续与侵袭性核酸相遇期间被转录,并且被加工成长度是约40nt的小干扰CRISPR RNA(crRNA),其与反式活化CRISPR RNA(tracrRNA)缔合以将CRISPR相关核酸酶引导至侵袭性核酸。CRISPR/Cas9效应物复合物裂解侵袭性DNA中称为原间隔子的同源性双链DNA序列。裂解的先决条件是在靶标DNA的下游存在保守原间隔子邻近基序(PAM),对于Cas9,所述基序通常具有序列5′-NGG-3′,但较不常见地具有序列NAG。特异性由crRNA中的“种子序列”提供,所述种子序列位于PAM上游约12个碱基,必须能够与靶标序列杂交。Cpf1,一种V型Cas效应蛋白,以与Cas9类似的方式起作用,但Cpf1不需要tracrRNA。
将CRISPR-Cas系统分成两个类别:1类CRISPR系统,再分成I、III和IV型,并且1类系统利用多个Cas蛋白与crRNA一起形成复合物;以及2类CRISPR系统,再分成II和V型,利用单一Cas蛋白与crRNA一起形成能够进行序列特异性基因组修饰的复合物。
概述
若干实施方案涉及一种包含可操作地连接于编码CRISPR相关转座酶的多核苷酸的异源性启动子的重组核酸,其中所述CRISPR相关转座酶包含选自由SEQ ID NO:124-246和275-287组成的组的氨基酸序列或其片段。若干实施方案涉及一种包含可操作地连接于编码CRISPR相关转座酶的多核苷酸的异源性启动子的重组核酸,其中所述CRISPR相关转座酶与包含选自SEQ ID NO:124-246和275-287的氨基酸序列的CRISPR相关转座酶具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的序列同源性或同一性。在一些实施方案中,提供一种包含重组核酸的载体,所述重组核酸包含可操作地连接于编码具有选自由SEQ ID NO:124-246和275-286组成的组的氨基酸序列的CRISPR相关转座酶的异源性启动子的多核苷酸。在一些实施方案中,提供一种包含重组核酸的载体,所述重组核酸包含可操作地连接于编码CRISPR相关转座酶的异源性启动子的多核苷酸,其中所述CRISPR相关转座酶与包含选自SEQ ID NO:124-246和275-287的氨基酸序列的CRISPR相关转座酶具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的序列同源性或同一性。
若干实施方案涉及一种包含可操作地连接于编码CRISPR相关转座酶的多核苷酸的异源性启动子的重组核酸,其中所述多核苷酸包含选自由SEQ ID NO:1-123和604-627组成的组的核酸序列或其片段。若干实施方案涉及一种包含可操作地连接于编码CRISPR相关转座酶的多核苷酸的异源性启动子的重组核酸,其中所述多核苷酸包含选自由SEQ ID NO:2020-2699组成的组的核酸序列或其片段。若干实施方案涉及一种包含可操作地连接于编码CRISPR相关转座酶的多核苷酸的异源性启动子的重组核酸,其中所述多核苷酸包含选自由SEQ ID NO:2700-3379组成的组的核酸序列或其片段。若干实施方案涉及一种包含可操作地连接于编码CRISPR相关转座酶的多核苷酸的异源性启动子的重组核酸,其中所述多核苷酸包含与选自SEQ ID NO:1-123、604-627和2020-3379的序列至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一的序列。若干实施方案涉及一种包含重组核酸的载体,所述重组核酸包含可操作地连接于编码CRISPR相关转座酶的异源性启动子的多核苷酸,其中所述多核苷酸包含选自SEQ ID NO:1-123、604-627和2020-3379的序列。在一些实施方案中,载体包含重组核酸,所述重组核酸包含异可操作地连接于编码CRISPR相关转座酶的异源性启动子的多核苷酸,其中所述多核苷酸包含与选自SEQ IDNO:1-123、604-627和2020-3379的序列具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性的序列。
若干实施方案涉及一种包含重组核酸的细胞,所述重组核酸包含可操作地连接于编码CRISPR相关转座酶的异源性启动子的多核苷酸,其中所述CRISPR相关转座酶包含选自由SEQ ID NO:124-246和275-287组成的组的氨基酸序列或其片段。若干实施方案涉及一种包含重组核酸的细胞,所述重组核酸包含可操作地连接于编码CRISPR相关转座酶的异源性启动子的多核苷酸,其中所述CRISPR相关转座酶与包含选自SEQ ID NO:124-246和275-287的氨基酸序列的CRISPR相关转座酶具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的序列同源性或同一性。在一些实施方案中,重组核酸包含与选自SEQ ID NO:1-123、604-627和2020-3379的核酸序列具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的核酸序列。在一些实施方案中,重组核酸在细胞中短暂表达。在一些实施方案中,将重组核酸整合至细胞的基因组中。在一些实施方案中,将重组核酸整合至细胞的B染色体中。在一些实施方案中,细胞是原核细胞。在一些实施方案中,细胞是真核细胞。在一些实施方案中,真核细胞是植物细胞。在一些实施方案中,真核细胞是藻类细胞。在一些实施方案中,真核细胞是哺乳动物细胞。
在一个方面,本公开提供一种用于对靶标核酸序列进行序列特异性修饰的系统,其包含(a)引导RNA或编码引导RNA的DNA分子,其中所述引导RNA对靶标核酸序列具有特异性,和(b)编码CRISPR相关转座酶的多核苷酸,所述CRISPR相关转座酶包含与选自由SEQ IDNO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列。
在一个方面,本公开提供一种用于修饰细胞中的靶标核酸序列的方法,其包括向所述细胞提供CRISPR相关转座酶或编码所述CRISPR相关转座酶的多核苷酸,所述CRISPR相关转座酶包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列。在一些实施方案中,CRISPR相关转座酶由与选自SEQ ID NO:1-123、604-627和2020-3379的核酸序列具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的核酸序列编码。
在一个方面,本公开提供一种用于对细胞中的靶标核酸序列进行序列特异性修饰的方法,其包括向细胞提供(a)对细胞中的靶标核酸序列具有特异性的引导RNA,和(b)CRISPR相关转座酶或编码所述CRISPR相关转座酶的多核苷酸,所述CRISPR相关转座酶包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列,其中所述靶标核酸序列被修饰。在一些实施方案中,编码CRISPR相关转座酶的多核苷酸包含与选自SEQ ID NO:1-123、604-627和2020-3379的核酸序列具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的核酸序列。
在一方面,本公开提供一种含有靶标核酸序列的真核细胞,所述靶标核酸序列已通过用于对细胞中的靶标核酸序列进行序列特异性修饰的方法来加以序列特异性修饰,所述方法包括向细胞提供(a)对细胞中的靶标核酸序列具有特异性的引导RNA,和(b)CRISPR相关转座酶或编码所述CRISPR相关转座酶的多核苷酸,所述CRISPR相关转座酶包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列,其中所述靶标核酸序列被修饰。在一些实施方案中,编码CRISPR相关转座酶的多核苷酸包含与选自SEQ ID NO:1-123、604-627和2020-3379的核酸序列具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的核酸序列。
在一方面,本公开提供一种选择性调节真核细胞中的至少一个靶标DNA的转录的方法,其包括使所述真核细胞与以下各物接触:(a)引导RNA或编码引导RNA的DNA,其中所述引导RNA进一步包含:(i)包含互补于所述靶标DNA的核苷酸序列的第一区段;和(ii)与CRISPR相关转座酶相互作用的第二区段;和(b)编码所述CRISPR相关转座酶的多核苷酸,其中所述CRISPR相关转座酶包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列,其中组分(a)和(b)位于同一或不同载体上,其中所述引导RNA和所述CRISPR相关转座酶在所述真核细胞中形成复合物,并且其中所述复合物选择性调节所述靶标DNA的转录。在一些实施方案中,编码CRISPR相关转座酶的多核苷酸包含与选自SEQ ID NO:1-123、604-627和2020-3379的核酸序列具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的核酸序列。
若干实施方案涉及一种从细菌基因组鉴定CRISPR相关转座酶的方法。在一些实施方案中,基于它在细菌基因组内与CRISPR基因座的关联来鉴定编码CRISPR相关转座酶的多核苷酸。在某些方面,编码CRISPR相关转座酶的多核苷酸进一步通过在细菌基因组内与Cas1、Cas2、或Cas1和Cas2而非Cas5或Cas3的关联来鉴定。在一些实施方案中,编码CRISPR相关转座酶的多核苷酸与CRISPR基因座位于同一操纵子中。在其他实施方案中,编码CRISPR相关转座酶的多核苷酸位于CRISPR基因座的2.5千碱基内。在一些实施方案中,编码CRISPR相关转座酶的多核苷酸通过与包含表1中标识的序列簇的CRISPR相关转座酶具有至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性来鉴定。在一些实施方案中,细菌基因组选自由以下组成的组:赖氨酸芽孢杆菌属某种(Lysinibacillus sp.)、短芽孢杆菌属某种(Brevibacillussp.)、鞘氨醇杆菌属某种(Sphingobium sp.)、水杆菌属某种(Undibacterium sp.)、芽孢杆菌属某种(Bacillus sp.)、金黄杆菌属某种(Chryseobacterium sp.)、鞘氨醇单胞菌属某种(Sphingomonas sp.)、类芽孢杆菌属某种(Paenibacillus sp.)、链霉菌属某种(Streptomyces sp.)、寡养单胞菌属某种(Stenotrophomonas sp.)和双头菌属某种(Labrys sp.)。在一些实施方案中,细菌基因组选自由以下组成的组:侧孢短芽孢杆菌(Brevibacillus laterosporus);苏云金芽孢杆菌(Bacillus thuringiensis);韦氏芽孢杆菌(Bacillus weihenstephanensis)、巨大芽孢杆菌(Bacillus megaterium)、粪肠球菌(Enterococcus faecalis);短短芽孢杆菌(Brevibacillus brevis);迟钝水杆菌(Undibacterium pigrum);玫瑰色新鞘氨醇杆菌(Novosphingobium rosa);嗜甲氨基双头菌(Lybrys methylaminiphilius);类短短芽孢杆菌(Brevibacillus parabrevis);解硫胺素类芽孢杆菌(Paenibacillus thiaminolyticus);缓病类芽孢杆菌(Paenibacilluslentimorbus);和土地类芽孢杆菌(Paenibacillus terrae)。
若干实施方案涉及一种包含CRISPR相关转座酶的核酸靶向系统,所述CRISPR相关转座酶包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列。在一些实施方案中,核酸靶向系统进一步包含能够与靶标序列杂交的引导RNA。在一些实施方案中,核酸靶向系统进一步包含tracrRNA。在一些实施方案中,核酸靶向系统进一步包含二价阳离子。在一些实施方案中,核酸靶向系统进一步包含Mg2+。在一些实施方案中,使CRISPR相关转座酶的核酸酶活性失活。在一些实施方案中,核酸靶向系统包含具有异源性功能性结构域的CRISPR相关转座酶。
若干实施方案涉及一种使在所选基因组基因座处的重组增强的方法,其包括向植物细胞提供至少一种在第一基因组基因座中引入基因组修饰,由此诱导所述第一基因组基因座与第二基因组基因座之间的重组的核酸靶向系统,其中所述至少一种核酸靶向系统不在所述第二基因组基因座处引入基因组修饰,以及选择至少一个包含所述第一基因组基因座与所述第二基因组基因座之间的重组事件的植物细胞。若干实施方案涉及一种使在所选基因组基因座处的重组增强的方法,其包括向植物细胞提供至少一种在第一基因组基因座和第二基因组基因座处引入基因组修饰,由此诱导所述第一基因组基因座与所述第二基因组基因座之间的重组的核酸靶向系统,以及选择至少一个包含所述第一基因组基因座与所述第二基因组基因座之间的重组事件的植物细胞。若干实施方案涉及一种使在所选基因组基因座处的重组增强的方法,其包括向细胞提供在第一基因组基因座处引入基因组修饰的第一核酸靶向系统和在第二基因组基因座处引入基因组修饰的第二核酸靶向系统,由此诱导所述第一基因组基因座与所述第二基因组基因座之间的重组,以及选择至少一个包含所述第一基因组基因座与所述第二基因组基因座之间的重组事件的子代。在一些实施方案中,第一基因组基因座和第二基因组基因座呈顺式。在一些实施方案中,第一基因组基因座和第二基因组基因座呈反式。在一些实施方案中,第一基因组基因座和第二基因组基因座是同源物。在一些实施方案中,第一基因组基因座和第二基因组基因座是旁系同源物。在一些实施方案中,第一基因组基因座和第二基因组基因座是部分同源物。在一些实施方案中,第一基因组基因座和第二基因组基因座是相同的。在一些实施方案中,第一基因组基因座和第二基因组基因座在同源染色体上。在一些实施方案中,第一基因组基因座和第二基因组基因座在非同源染色体上。在一些实施方案中,第一基因组基因座和第二基因组基因座在部分同源染色体上。在一些实施方案中,第一基因组基因座和第二基因组基因座共有至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性。在一些实施方案中,第一基因组基因座和第二基因组基因座位于同源染色体上。在一些实施方案中,第一基因组基因座和第二基因组基因座位于非同源染色体上。在一些实施方案中,基因组修饰是双链断裂(DSB)。在一些实施方案中,基因组修饰是单链断裂。在一些实施方案中,基因组修饰发生在减数分裂开始时。在一些实施方案中,重组是不对称的。在一些实施方案中,重组是对称的。在一些实施方案中,第一靶标序列和/或第二靶标序列是基因序列。在一些实施方案中,第一靶标序列和/或第二靶标序列在基因间区域内。在一些实施方案中,第一靶标序列在与含有第二靶标序列的基因组基因座的至少约100bp、至少约150bp、至少约200bp、至少约250bp、至少约300bp、至少约350bp、至少约400bp、至少约450bp、至少约500bp、至少约600bp、至少约700bp、至少约800bp、至少约900bp或至少约1000bp同源的基因组基因座中。在一些实施方案中,第一靶标序列在与含有第二靶标序列的基因组基因座的至少约100bp、至少约150bp、至少约200bp、至少约250bp、至少约300bp、至少约350bp、至少约400bp、至少约450bp、至少约500bp、至少约600bp、至少约700bp、至少约800bp、至少约900bp或至少约1000bp同源的基因组基因座中,其中含有所述第一靶标序列的所述基因组基因座和含有所述第二靶标序列的所述基因组基因座在基因组中的相应位置中。在一些实施方案中,第一靶标序列在与含有第二靶标序列的基因组基因座的至少约100bp、至少约150bp、至少约200bp、至少约250bp、至少约300bp、至少约350bp、至少约400bp、至少约450bp、至少约500bp、至少约600bp、至少约700bp、至少约800bp、至少约900bp或至少约1000bp同源的基因组基因座中,其中含有所述第一靶标序列的所述基因组基因座和含有所述第二靶标序列的所述基因组基因座不在基因组中的相应位置中。在一些实施方案中,第一靶标序列与第二靶标序列具有至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性。在一些实施方案中,第一基因组基因座和第二基因组基因座中的一者或多者包含一个或多个独立选自由以下组成的组的基因组区域:基因、一系列串联重复基因、增强子、抑制子、启动子、终止序列、剪接受体序列、剪接供体序列、内含子、外显子、siRNA和数量性状基因座(QTL)。在一些实施方案中,包含第一基因组基因座与第二基因组基因座之间的重组事件的一个植物细胞的子代展现对一种或多种选自以下的疾病的抗性:炭疽秆腐病(Anthracnose Stalk Rot)(禾生刺盘孢(Colletotrichum graminicola))、镰刀菌穗腐病(Fusarium Ear Rot)(轮枝样镰刀菌(Fusarium verticillioides))、镰刀菌秆腐病(Fusarium Stalk Rot)(镰刀菌属某些种(Fusarium spp.))、赤霉菌穗腐病(Gibberella Ear Rot)(串珠赤霉菌(Gibberellamoniliformis))、赤霉菌秆腐病(Gibberella Stalk Rot)(玉米赤霉菌(Gibberellazeae))、戈斯氏枯萎病和叶枯病(Goss's Wilt and Leaf Blight)(密歇根棒形杆菌(Clavibacter michiganensis))、灰色叶斑病(Gray Leaf Spot)(玉蜀黍尾孢菌(Cercospora zeae-maydis)、玉米尾孢菌(C.zeina))、北方玉米叶枯病(Northern CornLeaf Blight)(土耳其凸脐孢菌(Exserohilum turcicum))、猝死综合征(Sudden deathsyndrome)(腐皮镰刀菌大豆专化型(Fusarium solani f.sp.glycines))、亚洲大豆锈病(Asian soybean rust)(豆薯层锈菌(Phakopsora pachyrhizi))、疫霉根茎腐病(Phytophthora root and stem rot)(大豆疫霉(Phytophthora sojae))、根结线虫病(Root-knot Nematode)(根结线虫属某些种(Meloidogyne spp.))、大豆胞囊线虫病(Soybean Cyst Nematode)(大豆异皮线虫(Heterodera glycines))、肾形线虫病(Reniform nematode)(肾形肾状线虫(Rotylenchulus reniformis))、根结线虫病(南方根结线虫(Meloidogyne incognita))、镰刀菌枯萎病(Fusarium wilt)(尖孢镰刀菌萎蔫专化型(Fusarium oxysporurn f.sp.vasinfectum))、轮枝孢菌枯萎病(Verticillium wilt)(大丽轮枝孢菌(Verticillium dahlia))、镰刀菌头枯病(Fusarium head blight)(禾谷镰刀菌(Fusarium graminearum))、镰刀菌苗枯病(Fusarium seedling blight)(镰刀菌属某些种、颖枯壳针孢(Septoria nodorum))、镰刀菌叶疱病(Fusarium Leaf Blotch)(雪腐明梭孢(Monographella nivalis))和茎锈病(Stem Rust)(禾柄锈菌(Puccinia graminis))。在一些实施方案中,植物是玉米植物。在一些实施方案中,植物是大豆植物。在一些实施方案中,植物是棉花植物。在一些实施方案中,植物是小麦植物。在一些实施方案中,植物是高粱植物。在一些实施方案中,植物是卡诺拉油菜(canola)植物。在一些实施方案中,核酸靶向系统包含CRISPR相关转座酶,其包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列。在一些实施方案中,核酸靶向系统进一步包含能够与靶标序列杂交的引导RNA。在一些实施方案中,核酸靶向系统进一步包含tracrRNA。在一些实施方案中,核酸靶向系统进一步包含二价阳离子。在一些实施方案中,核酸靶向系统进一步包含Mg2+。在一些实施方案中,使CRISPR相关转座酶的核酸酶活性失活。在一些实施方案中,核酸靶向系统包含具有异源性功能性结构域的CRISPR相关转座酶。若干实施方案涉及一种通过根据以上提及的方法产生的植物、植物细胞或植物种子。
若干实施方案涉及一种使目标基因组基因座渗入所选种质中的方法,其包括产生包含含有所述目标基因组基因座的第一亲本基因组和含有所述所选种质的第二亲本基因组的植物细胞,向所述植物细胞提供在所述第一亲本基因组中在邻近于所述目标基因组基因座的靶标序列处引入基因组修饰,由此诱导所述第一亲本基因组与所述第二亲本基因组之间的重组的第一核酸靶向系统,以及选择至少一个包含至少一个包含所述所选种质和所述目标基因组基因座的重组染色体的子代。若干实施方案涉及一种使目标基因组基因座渗入所选种质中的方法,其包括产生包含含有所述目标基因组基因座的第一亲本基因组和含有所述所选种质的第二亲本基因组的植物细胞,向所述植物细胞提供在所述第一亲本基因组中在邻近于所述目标基因组基因座的靶标序列处引入基因组修饰,以及在所述第二亲本基因组中在靶标位点处引入基因组修饰,由此诱导所述第一亲本基因组与所述第二亲本基因组之间的重组的第一核酸靶向系统,以及选择至少一个包含至少一个包含所述所选种质和所述目标基因组基因座的重组染色体的子代。若干实施方案涉及一种使目标基因组基因座渗入所选种质中的方法,其包括产生包含含有所述目标基因组基因座的第一亲本基因组和含有所述所选种质的第二亲本基因组的植物细胞,向所述植物细胞提供在所述第一亲本基因组中在邻近于所述目标基因组基因座的靶标序列处引入基因组修饰的第一核酸靶向系统,以及在所述第一亲本基因组中在邻近于所述基因组基因座的第二靶标序列处引入基因组修饰的第二核酸靶向系统,其中所述第二靶标序列与所述第一核酸靶向系统的所述靶标序列处于所述目标基因组基因座的对侧,由此诱导所述第一亲本基因组与所述第二亲本基因组之间的重组,以及选择至少一个包含至少一个包含所述所选种质和所述目标基因组基因座的重组染色体的植物细胞。若干实施方案涉及一种使目标基因组基因座渗入所选种质中的方法,其包括产生包含含有所述目标基因组基因座的第一亲本基因组和含有所述所选种质的第二亲本基因组的植物细胞,向所述植物细胞提供在所述第一亲本基因组中在邻近于所述目标基因组基因座的靶标序列处引入基因组修饰,以及在所述第二亲本基因组中在靶标位点处引入基因组修饰的第一核酸靶向系统,以及进一步向所述植物细胞中引入在所述第一亲本基因组中在邻近于所述基因组基因座的第二靶标序列处引入基因组修饰的第二核酸靶向系统,其中所述第二靶标序列与所述第一核酸靶向系统的所述靶标序列处于所述目标基因组基因座的对侧,由此诱导所述第一亲本基因组与所述第二亲本基因组之间的重组,以及选择至少一个包含至少一个包含所述所选种质和所述目标基因组基因座的重组染色体的植物细胞。在一些实施方案中,第二核酸靶向系统在第二亲本基因组中在靶标序列处引入基因组修饰。在一些实施方案中,重组是不对称的。在一些实施方案中,重组是对称的。在一些实施方案中,目标基因组基因座包含一个或多个独立选自由以下组成的组的基因组区域:基因、一系列串联重复基因、多基因家族、增强子、抑制子、启动子、终止序列、剪接受体序列、剪接供体序列、内含子、外显子、siRNA、编码非编码RNA的序列、微小RNA、转基因和数量性状基因座(QTL)。在一些实施方案中,基因组修饰是双链断裂(DSB)。在一些实施方案中,基因组修饰是单链断裂。在一些实施方案中,基因组修饰是重组酶介导的DNA交换反应。在一些实施方案中,基因组修饰是转座酶介导的DNA交换反应。在一些实施方案中,基因组修饰发生在减数分裂开始时。在一些实施方案中,靶标序列是基因序列。在一些实施方案中,靶标序列在基因间区域内。在一些实施方案中,靶标序列在第一亲本基因组的与第二亲本基因组的基因组基因座的至少约100bp、至少约150bp、至少约200bp、至少约250bp、至少约300bp、至少约350bp、至少约400bp、至少约450bp、至少约500bp、至少约600bp、至少约700bp、至少约800bp、至少约900bp或至少约1000bp同源的基因组基因座中。在一些实施方案中,靶标序列在第一亲本基因组的与第二亲本基因组的基因组基因座的至少约100bp、至少约150bp、至少约200bp、至少约250bp、至少约300bp、至少约350bp、至少约400bp、至少约450bp、至少约500bp、至少约600bp、至少约700bp、至少约800bp、至少约900bp或至少约1000bp同源的基因组基因座中,其中第一亲本基因组的基因组基因座和第二亲本基因组的基因组基因座位于相应位置中。在一些实施方案中,靶标序列在第一亲本基因组的与第二亲本基因组的基因组基因座的至少约100bp、至少约150bp、至少约200bp、至少约250bp、至少约300bp、至少约350bp、至少约400bp、至少约450bp、至少约500bp、至少约600bp、至少约700bp、至少约800bp、至少约900bp或至少约1000bp同源的基因组基因座中,其中第一亲本基因组的基因组基因座和第二亲本基因组的基因组基因座不位于相应位置中,从而导致不对称重组。在一些实施方案中,第一亲本基因组和第二亲本基因组不是性相容的。在一些实施方案中,第一亲本基因组和第二亲本基因组来自不同物种。在一些实施方案中,第一亲本基因组来自普通小麦(Triticum aestivum)(小麦(wheat)),并且第二亲本基因组选自卵穗山羊草(Aegilops ovate)、两芒山羊草(Ae.biuncialis)、三芒山羊草(Ae.triuncialis)、方穗山羊草(Ae.quarrosa)、黑麦(Secale cereal)、野生二粒小麦(Triticum dicoccoides)、二粒小麦(Triticum dicoccum)和杜伦小麦(Triticum durum)。在一些实施方案中,第一亲本基因组选自卵穗山羊草、两芒山羊草、三芒山羊草、方穗山羊草、黑麦、野生二粒小麦、二粒小麦和杜伦小麦,并且第二亲本基因组是普通小麦(小麦)。在一些实施方案中,第一亲本基因组来自陆地棉(Gossypium hirsutum)(棉花(cotton)),并且第二亲本基因组选自斯特提棉(G.sturtii)、戴维森棉(G.davidsonii)、树棉(G.arboretum)和雷蒙德棉(G.raimondii)。在一些实施方案中,第一亲本基因组选自斯特提棉、戴维森棉、树棉和雷蒙德棉,并且第二亲本基因组来自陆地棉(棉花)。在一些实施方案中,第一亲本基因组和/或第二亲本基因组是单倍体。在一些实施方案中,第一亲本基因组和/或第二亲本基因组是二倍体。在一些实施方案中,目标基因组基因座是Rp1疾病抗性基因座。在一些实施方案中,目标基因组基因座是Rpp1疾病抗性基因座。在一些实施方案中,目标基因组基因座是Rps1疾病抗性基因座。在一些实施方案中,目标基因组基因座是Rhg1疾病抗性基因座。在一些实施方案中,目标基因组基因座是Rgh4疾病抗性基因座。在一些实施方案中,植物是玉米植物。在一些实施方案中,植物是大豆植物。在一些实施方案中,植物是棉花植物。在一些实施方案中,植物是小麦植物。在一些实施方案中,植物是高粱植物。在一些实施方案中,植物是卡诺拉油菜植物。在一些实施方案中,核酸靶向系统包含CRISPR相关转座酶,其包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列。在一些实施方案中,核酸靶向系统进一步包含能够与靶标序列杂交的引导RNA。在一些实施方案中,核酸靶向系统进一步包含tracrRNA。在一些实施方案中,核酸靶向系统进一步包含二价阳离子。在一些实施方案中,核酸靶向系统进一步包含Mg2+。在一些实施方案中,使CRISPR相关转座酶的核酸酶活性失活。在一些实施方案中,核酸靶向系统包含具有异源性功能性结构域的CRISPR相关转座酶。若干实施方案涉及一种通过根据以上提及的方法产生的植物、植物细胞或植物种子。
若干实施方案涉及一种移除连锁累赘的方法,其包括产生包含第一亲本基因组和第二亲本基因组的植物细胞,其中所述第一亲本基因组包含顺式连接于不合需要的基因组基因座的目标基因组基因座,向所述细胞提供在所述目标基因组基因座与所述不合需要的基因组基因座之间引入基因组修饰,由此诱导所述第一亲本基因组与所述第二亲本基因组之间的重组以及解除所述目标基因组基因座和所述不合需要的基因座的连接的第一核酸靶向系统,以及选择至少一个包含所述目标基因组基因座的子代。若干实施方案涉及一种移除连锁累赘的方法,其包括产生包含第一亲本基因组和第二亲本基因组的植物细胞,其中所述第一亲本基因组包含顺式连接于不合需要的基因组基因座的目标基因组基因座,向所述细胞提供在所述目标基因组基因座与所述不合需要的基因组基因座之间引入第一基因组修饰,以及在所述不合需要的基因组基因座的与所述第一基因组修饰相对一侧引入第二基因组修饰,由此诱导所述第一亲本基因组与所述第二亲本基因组之间的重组以及移除所述不合需要的基因座,同时维持所述第一亲本基因组的种质在所述第二基因组修饰的远端的第一核酸靶向系统,以及选择至少一个包含所述目标基因组基因座的子代。在一些实施方案中,第二核酸靶向系统在第二亲本基因组中在靶标序列处引入基因组修饰。在一些实施方案中,重组是不对称的。在一些实施方案中,重组是对称的。在一些实施方案中,目标基因组基因座包含一个或多个独立选自由以下组成的组的基因组区域:基因、一系列串联重复基因、多基因家族、增强子、抑制子、启动子、终止序列、剪接受体序列、剪接供体序列、内含子、外显子、siRNA、编码非编码RNA的序列、微小RNA、转基因和数量性状基因座(QTL)。在一些实施方案中,基因组修饰是双链断裂(DSB)。在一些实施方案中,基因组修饰是单链断裂。在一些实施方案中,基因组修饰是重组酶介导的DNA交换反应。在一些实施方案中,基因组修饰是转座酶介导的DNA交换反应。在一些实施方案中,基因组修饰发生在减数分裂开始时。在一些实施方案中,第一亲本基因组和第二亲本基因组不是性相容的。在一些实施方案中,第一亲本基因组和第二亲本基因组来自不同物种。在一些实施方案中,第一亲本基因组来自普通小麦(小麦),并且第二亲本基因组选自卵穗山羊草、两芒山羊草、三芒山羊草、方穗山羊草、黑麦、野生二粒小麦、二粒小麦和杜伦小麦。在一些实施方案中,第一亲本基因组选自卵穗山羊草、两芒山羊草、三芒山羊草、方穗山羊草、黑麦、野生二粒小麦、二粒小麦和杜伦小麦,并且第二亲本基因组是普通小麦(小麦)。在一些实施方案中,第一亲本基因组来自陆地棉(棉花),并且第二亲本基因组选自斯特提棉、戴维森棉、树棉和雷蒙德棉。在一些实施方案中,第一亲本基因组选自斯特提棉、戴维森棉、树棉和雷蒙德棉,并且第二亲本基因组来自陆地棉(棉花)。在一些实施方案中,第一亲本基因组和/或第二亲本基因组是单倍体。在一些实施方案中,第一亲本基因组和/或第二亲本基因组是二倍体。在一些实施方案中,目标基因组基因座是Rp1疾病抗性基因座。在一些实施方案中,目标基因组基因座是Rpp1疾病抗性基因座。在一些实施方案中,目标基因组基因座是Rps1疾病抗性基因座。在一些实施方案中,目标基因组基因座是Rhg1疾病抗性基因座。在一些实施方案中,目标基因组基因座是Rhg4疾病抗性基因座。在一些实施方案中,植物是玉米植物。在一些实施方案中,植物是大豆植物。在一些实施方案中,植物是棉花植物。在一些实施方案中,植物是小麦植物。在一些实施方案中,植物是高粱植物。在一些实施方案中,植物是卡诺拉油菜植物。在一些实施方案中,核酸靶向系统包含CRISPR相关转座酶,其包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列。在一些实施方案中,核酸靶向系统进一步包含能够与靶标序列杂交的引导RNA。在一些实施方案中,核酸靶向系统进一步包含tracrRNA。在一些实施方案中,核酸靶向系统进一步包含二价阳离子。在一些实施方案中,核酸靶向系统进一步包含Mg2+。在一些实施方案中,使CRISPR相关转座酶的核酸酶活性失活。在一些实施方案中,核酸靶向系统包含具有异源性功能性结构域的CRISPR相关转座酶。若干实施方案涉及一种通过根据以上提及的方法产生的植物、植物细胞或植物种子。
若干实施方案涉及一种使处于相斥的基因组基因座相引的方法,其包括产生包含含有第一基因组基因座的第一亲本基因组和含有第二基因组基因座的第二亲本基因组的植物细胞,其中所述第一基因组基因座和所述第二遗传基因座处于相斥,向所述细胞提供邻近于所述第一基因组基因座引入基因组修饰,由此诱导所述第一亲本基因组与所述第二亲本基因组之间的重组的第一核酸靶向系统,以及选择至少一个在同一染色体上包含所述第一基因组基因座和所述第二基因组基因座的植物细胞。在一些实施方案中,第一基因组基因座和第二基因组基因座位于同源染色体。在一些实施方案中,第一亲本基因组和第二亲本基因组不是性相容的。在一些实施方案中,第一亲本基因组和第二亲本基因组来自不同物种。在一些实施方案中,第一目标基因组基因座和/或第二目标基因组基因座包含一个或多个独立选自由以下组成的组的基因组区域:基因、一系列串联重复基因、增强子、抑制子、启动子、终止序列、剪接受体序列、剪接供体序列、内含子、外显子、siRNA和数量性状基因座(QTL)。在一些实施方案中,第一亲本基因组和/或第二亲本基因组是单倍体。在一些实施方案中,第一亲本基因组和/或第二亲本基因组是二倍体。在一些实施方案中,第一亲本基因组来自普通小麦(小麦),并且第二亲本基因组选自卵穗山羊草、两芒山羊草、三芒山羊草、方穗山羊草、黑麦、野生二粒小麦、二粒小麦和杜伦小麦。在一些实施方案中,第一亲本基因组选自卵穗山羊草、两芒山羊草、三芒山羊草、方穗山羊草、黑麦、野生二粒小麦、二粒小麦和杜伦小麦,并且第二亲本基因组是普通小麦(小麦)。在一些实施方案中,第一亲本基因组来自陆地棉(棉花),并且第二亲本基因组选自斯特提棉、戴维森棉、树棉和雷蒙德棉。在一些实施方案中,第一亲本基因组选自斯特提棉、戴维森棉、树棉和雷蒙德棉,并且第二亲本基因组来自陆地棉(棉花)。在一些实施方案中,目标基因组基因座是Rp1疾病抗性基因座。在一些实施方案中,第一目标基因组基因座和/或第二目标基因组基因座是Rpp1疾病抗性基因座。在一些实施方案中,第一目标基因组基因座和/或第二目标基因组基因座是Rps1疾病抗性基因座。在一些实施方案中,第一目标基因组基因座和/或第二目标基因组基因座是Rhg1疾病抗性基因座。在一些实施方案中,第一目标基因组基因座和/或第二目标基因组基因座是Rhg4疾病抗性基因座。在一些实施方案中,第一目标基因组基因座是Rhg1,并且第二目标基因组基因座是Rhg4。在一些实施方案中,植物是玉米植物。在一些实施方案中,植物是大豆植物。在一些实施方案中,植物是棉花植物。在一些实施方案中,植物是小麦植物。在一些实施方案中,植物是高粱植物。在一些实施方案中,植物是卡诺拉油菜植物。在一些实施方案中,核酸靶向系统包含CRISPR相关转座酶,其包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列。在一些实施方案中,核酸靶向系统进一步包含能够与靶标序列杂交的引导RNA。在一些实施方案中,核酸靶向系统进一步包含tracrRNA。在一些实施方案中,核酸靶向系统进一步包含二价阳离子。在一些实施方案中,核酸靶向系统进一步包含Mg2+。在一些实施方案中,使CRISPR相关转座酶的核酸酶活性失活。在一些实施方案中,核酸靶向系统包含具有异源性功能性结构域的CRISPR相关转座酶。若干实施方案涉及一种通过根据以上提及的方法产生的植物、植物细胞或植物种子。
若干实施方案涉及一种产生新的系列的串联重复基因的方法,其包括使细胞与裂解第一系列的串联重复基因中的至少一个靶标序列的核酸靶向系统接触,由此诱导与第二系列的串联重复基因的同源性序列的不对称重组,以及选择至少一个含有新的系列的串联重复基因的子代。在一些实施方案中,第一系列的串联重复基因和第二系列的串联重复基因是相同的。在其他实施方案中,第一系列的串联重复基因和第二系列的串联重复基因是不同的。在一些实施方案中,视重组位点而定,不对称重组产生两个新的系列的串联重复基因。在一些实施方案中,不对称重组导致至少一个串联重复基因的缺失。在一些实施方案中,细胞是植物细胞。在另一实施方案中,植物细胞从选自近交植物或杂交植物的植物获得。在其他实施方案中,细胞是哺乳动物细胞。在一些实施方案中,核酸靶向系统包含CRISPR相关转座酶,其包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列。在一些实施方案中,核酸靶向系统进一步包含能够与靶标序列杂交的引导RNA。在一些实施方案中,核酸靶向系统进一步包含tracrRNA。在一些实施方案中,核酸靶向系统进一步包含二价阳离子。在一些实施方案中,核酸靶向系统进一步包含Mg2+。在一些实施方案中,使CRISPR相关转座酶的核酸酶活性失活。在一些实施方案中,核酸靶向系统包含具有异源性功能性结构域的CRISPR相关转座酶。若干实施方案涉及一种通过根据以上提及的方法产生的植物、植物细胞或植物种子。
附图简述
图1显示CRISPR相关转座酶蛋白质序列SEQ ID NO:228-232的多重序列比对。
图2显示3个CRISPR间隔子序列和5个细菌噬菌体序列的多重序列比对。3个间隔子(间隔子1:SEQ ID NO:2004,间隔子2:SEQ ID NO:2005,间隔子3:SEQ ID NO:2006)来自与第1蛋白质簇中的转座酶相关的CRISPR区域。5个噬菌体序列(KJ920400.1:SEQ ID NO:2007,HE614281.1:SEQ ID NO:2008,HE614282.1:SEQ ID NO:2009,KJ024807.1:SEQ IDNO:2010,NC_029008.1:SEQ ID NO:2011)是间隔子序列相对于噬菌体和病毒基因组序列的数据集进行blast搜索的命中物。矩形框中的保守“TCA”基序是转座酶的推定5’-PAM。
图3显示来自转座酶相关CRISPR区域(SEQ ID NO:662)的CRISPR重复序列1(SEQID NO:2012)和CRISPR重复序列2(SEQ ID NO:2013)的预测茎-环二级结构。重复序列的结构表明单独重复序列足以形成有效引导RNA。
图4显示CRISPR相关转座酶SEQ ID NO:136(DNA:SEQ ID NO:304)的预测蛋白质结构域结构的图解。预测了7个Puf(Pumilio家族RNA结合重复序列)结构域,并且标记为Puf-1至Puf-7。也预测蛋白质含有IS605_ORFB结构域(氨基酸221-336)和Zn_带结构域(氨基酸350-416)。隔裂RuvC I、II和III区域中的保守RuvC催化位点分别由D233、E354和D408指示。
图5显示CRISPR相关转座酶SEQ ID NO:136的具有以下结构域注释的氨基酸序列:对7个Puf结构域Puf-1至Puf-7加下划线并标记;2个pfam结构域IS605_ORFB和Zn_带区域分别用方括号[]和[[]]圈起;并且保守RuvC催化位点D233、E354和D408由箭号指出。
图6显示来自与CRISPR相关转座酶SEQ ID NO:136(DNA:SEQ ID NO:304)相关的CRISPR区域(SEQ ID NO:662)的5个CRISPR重复序列(SEQ ID NO:2012-2016)的多重序列比对。对与共有Puf结合基序(5’-UGUANAUA-3’)一致的保守核苷酸加下划线,并且以粗体显示。
图7显示用以筛选核酸酶活性的基于大肠杆菌的蓝白选择测定的图解。使用具有卡那霉素(kan)选择标记的pUC19(pUC)载体产生的细菌表达质粒用于克隆编码推定转座酶和相关引导RNA的目标区域(ROI)。也产生报道子质粒,其含有编码由可变序列侧接的来自CRISPR区域的间隔子的靶标序列(由NNN间隔子NNN指示)、lacZ报道子基因、氯霉素选择盒(chlor)和低拷贝数细菌启动子(p15a)。将两种质粒共转化至大肠杆菌中,并且存在白色菌落指示由转座酶进行的切割。对从白色菌落回收的质粒的序列分析用于确认核酸酶活性。
图8显示用以验证CRISPR相关转座酶的核酸酶活性的分支杆菌切割测定的图解。用于图7的大肠杆菌蓝白选择的相同表达质粒和报道子质粒用于共转化分支杆菌。归因于分支杆菌中的内源性质粒修复,对LacZ报道子质粒中的双链断裂的修复在修复位点处产生插入和缺失(插入缺失)。LacZ载体中存在插入缺失指示核酸酶活性。针对间隔子盒设计的PCR和/或测序引物用于检测回收报道子质粒中的插入缺失。
图9显示体外切割测定的图解。将包含CRISPR相关转座酶的区域克隆至表达载体中并在大肠杆菌中表达转座酶,并且在体外使纯化蛋白质与DNA靶标一起孵育以达成切割(NNN间隔子NNN)。所得DNA(a)通过凝胶电泳来分析片段长度,以及(b)进行序列分析。
图10显示用于真核细胞的切割测定的图解。将CRISPR相关转座酶和相关引导RNA克隆至载体中以有助于在真核细胞中表达。将表达载体、双链寡聚物(ds寡聚物)和(任选)含有靶标序列的质粒DNA共转化至真核细胞中。用标准分子生物学测定(PCR((TM))、限制片段大小分析或测序)评估对(a)染色体DNA,或(b)引入的质粒模板的核酸酶活性。
图11显示用于验证CRISPR相关转座酶活性的原核生物蓝白选择测定设计的图解。顶行显示用于CRISPR相关转座酶(RGEN)表达的载体的图解。底行显示含有推定靶标序列(NNN间隔子NNN间隔子NNN)和LacZ标记的载体的图解。左侧顶部和底部配对是缺乏靶标序列的对照。中间顶部和底部配对是缺乏CRISPR相关转座酶(RGEN)的对照。右侧顶部和底部配对是用含有CRISPR相关转座酶(RGEN)和靶标序列的相应载体进行的测试测定。
图12显示使用Alpha Screen(Perkin Elmer)技术进行的引导RNA结合测定的图解。这个测定系统使用供体珠粒和受体珠粒,其在紧密邻近时发射可检测荧光信号。使用体外转录制备推定引导RNA(gRNA)。使这些引导RNA序列通过接头序列(SEQ ID NO:3382)连接于侧接序列(侧接物1:SEQ ID NO:3380;侧接物2:SEQ ID NO:3381)。核苷酸序列(侧接物2)结合连接有Alpha链霉亲和素供体珠粒的寡聚物。在大肠杆菌中表达具有His标签的CRISPR相关转座酶。这个His标签(在图中表示为6-His_标签)充当Alpha受体珠粒的结合位点。当CRISPR相关转座酶结合推定引导RNA时,产生可检测荧光信号。
详细描述
除非另外定义,否则本文所用的所有技术和科学术语都具有与由本公开所属领域中的普通技术人员通常理解相同的含义。当以单数形式提供术语时,本发明者也预期通过那个术语的复数形式来描述的本公开的各个方面。当以引用的方式并入本文的参考文献中使用的术语和定义存在分歧时,本申请中使用的术语将具有本文给出的定义。使用的其他技术术语具有它们的在它们所用于的领域中的普通含义,如由各种领域特异性词典所例示,所述词典例如“The American Heritage?Science Dictionary”(American Dictionaries的编者,2011,Houghton Mifflin Harcourt,Boston and New York)、“McGraw-Hill Dictionary of Scientific and Technical Terms”(第6版,2002,McGraw-Hill,New York)或“Oxford Dictionary of Biology”(第6版,2008,Oxford UniversityPress,Oxford and New York)。本发明者不意图限于某一作用机理或模式。对其的提及仅出于说明目的而提供。
除非另外指示,否则本公开的实施采用生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学、植物育种和生物技术的常规技术,所述技术属于本领域的技能。参见Green和Sambrook,MOLECULAR CLONING:A LABORATORY MANUAL,第4版(2012);CURRENTPROTOCOLS IN MOLECULAR BIOLOGY(F.M.Ausubel等人编,(1987));丛书METHODS INENZYMOLOGY(Academic Press,Inc.):PCR 2:A PRACTICAL APPROACH(M.J.MacPherson,B.D.Hames和G.R.Taylor编(1995));Harlow和Lane编(1988)ANTIBODIES,A LABORATORYMANUAL;ANIMAL CELL CULTURE(R.I.Freshney编(1987));RECOMBINANT PROTEINPURIFICATION:PRINCIPLES AND METHODS,18-1142-75,GE Healthcare Life Sciences;C.N.Stewart,A.Touraev,V.Citovsky,T.Tzfira编(2011)PLANT TRANSFORMATIONTECHNOLOGIES(Wiley-Blackwell);以及R.H.Smith(2013)PLANT TISSUECULTURE.TECHNIQUES AND EXPERIMENTS(Academic Press,Inc.)。
本文引用的任何参考文献都以引用的方式整体并入本文。
如本文所用,除非上下文另外明确规定,否则单数形式“一个(种)(a/an)”和“所述(该)(the)”包括复数个(种)指示物。举例来说,术语“一个(种)化合物”或“至少一个(种)化合物”可包括复数个(种)化合物,包括其混合物。因此,举例来说,提及“植物”、“这个(种)植物”或“一个(种)植物”也包括复数个(种)植物;此外,视情形而定,使用术语“植物”也可包括那个植物的在遗传上类似或相同的子代;使用术语“一个(种)核酸”任选包括实际上那个核酸分子的许多拷贝。
如本文所用,术语“约”指示数值包括用于测定数值的方法的固有误差偏差或存在于实验之间的偏差。
如本文所用,术语“CRISPR相关酶”是指在它的天然情形下(例如在细菌基因组中)与CRISPR基因座相关的基因组修饰酶。在一些实施方案中,CRISPR相关酶是CRISPR相关转座酶。
如本文所用,“编码”是指多核苷酸(DNA或RNA)编码多肽的氨基酸,或DNA编码RNA的核苷酸。如本文所用,“编码序列”和“编码区”可互换使用,并且是指编码多肽的多核苷酸。编码区的边界通常由在它的5’末端的翻译起始密码子和在它的3’末端的翻译终止密码子确定。
如本文所用,“内源性”分子是通常在特定发育阶段在特定环境条件下存在于特定细胞中的分子。
如本文所用,“表达盒”是指可或可不可操作地连接于一种或多种表达元件的多核苷酸序列,所述表达元件诸如增强子、启动子、前导序列、内含子、5’非翻译区(UTR)、3’UTR或转录终止序列。在一些实施方案中,表达盒至少包含能够使可操作地连接的第二多核苷酸序列的转录起始的第一多核苷酸序列,以及任选包含可操作地连接于所述第二多核苷酸序列的转录终止序列。
如本文所用,术语“基因”或“基因的”意指基因组序列的对应于遗传单位的可定位区域。基因可包括调控区(诸如启动子、增强子)、5’非翻译区、内含子区域、外显子区域、3’非翻译区、转录区以及可以天然基因或转基因形式存在于植物或哺乳动物基因组中的其他功能性序列区域。视情况而定,术语“靶标基因”可指被靶向以达成结合和/或裂解的基因的全长核苷酸序列,或被靶向以达成结合和/或裂解的基因的一部分的核苷酸序列。靶标基因可为内源性基因或转基因。
如本文所用,术语“基因组基因座”是指染色体上的特定位置。基因组基因座可包含在基因组区域中的单一核苷酸、少许核苷酸、许多核苷酸、基因、基因的一部分、基因簇、多基因家族或基因阵列。
如本文所用,术语“同源性重组”是指在由两个基因组基因座或由供体DNA和靶标位点共有的保守区域处的核苷酸序列的交换。同源性重组包括对称同源性重组和不对称同源性重组。不对称同源性重组也可被称为不等重组。
如本文所用,术语“同一性”在关于核酸使用时描述两个或更多个核苷酸序列之间的类似性程度。两个序列之间的“序列同一性”的百分比可通过以下方式来确定:历经比较窗比较两个最优对准序列,以使所述比较窗中的序列的部分相较于参照序列(其不包含添加或缺失)可包含添加或缺失(空位)以达成两个序列的最优比对。通过以下方式来计算百分比:确定同一核酸碱基或氨基酸残基存在于两个序列中所处的位置的数目以产生匹配位置的数目,用匹配位置的数目除以比较窗中的位置总数,以及用100乘以结果以产生序列同一性百分比。相较于参照序列在每个位置都同一的序列被称为与所述参照序列同一,并且反之亦然。可使用任何适合计算机程序来对两个或更多个序列进行比对。举例来说,一种广泛使用和接受的用于进行序列比对的计算机程序是CLUSTALW v1.6(Thompson等(1994)Nucl.Acids Res.,22:4673-4680)。
如本文所用,“非编码序列”可编码功能性RNA(例如转运RNA、核糖体RNA、微小RNA、Piwi相互作用RNA)、启动子、内含子、mRNA的非翻译区(例如5’非翻译区或3’非翻译区)、假基因、重复序列或可转座元件。非编码序列不编码功能性多肽。
如本文所用,术语“核酸”、“多核苷酸”和“寡核苷酸”可互换使用,并且是指呈线性或环状构象的脱氧核糖核苷酸(DNA)、核糖核苷酸(RNA)及其功能性类似物,诸如互补性DNA(cDNA)。本文提供的核酸分子可为单链或双链。核酸分子包含核苷酸碱基腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、胞嘧啶(C)。在RNA分子中,尿嘧啶(U)替代胸腺嘧啶。本文也提供天然核苷酸碱基的类似物,以及在碱基、糖和/或磷酸部分中加以修饰的核苷酸碱基。符号“N”可用于表示任何核苷酸碱基(例如A、G、C、T或U)。如本文所用,关于核酸分子或核苷酸碱基的“互补”是指A互补于T(或U),以及G互补于C。两个互补性核酸分子能够在适当条件下彼此杂交。在本公开的一方面,如果两个核酸序列彼此具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性,那么它们是同源的。
如本文所用,“可操作地连接”意指可操作地连接的核酸序列展现它们的所需功能。举例来说,在本公开的一方面,提供的DNA启动子序列可使可操作地连接的DNA序列向RNA的转录起始。本文提供的核酸序列可在物理连接或可操作地连接的核酸序列的上游或下游。在一方面,本文提供的第一核酸分子物理连接于且可操作地连接于本文提供的第二核酸分子。在另一方面,本文提供的第一核酸分子既不物理连接于也不可操作地连接于本文提供的第二核酸分子。如本文所用,“上游”意指核酸序列位于连接的核酸序列的5’末端之前。如本文所用,“下游”意指核酸序列位于连接的核酸序列的3’末端之后。
如本文所用,术语“植物”是指植物界的任何光合、真核、单细胞或多细胞生物体,并且包括完整植物或源于植物的细胞或组织培养物,包括以下中的任一者:完整植物、其植物组分或器官(例如叶、茎、根等)、植物组织、种子、植物细胞、原生质体和/或子代。子代植物可来自任何子代,例如F1、F2、F3、F4、F5、F6、F7等。“植物细胞”是植物的生物细胞,其取自植物或通过培养来从取自植物的细胞获得。术语植物涵盖单子叶植物和双子叶植物。本文所述的方法、系统和组合物跨越广泛范围的植物是适用的。本文公开的方法、系统和组合物可用于其中的适合植物包括但不限于谷物和牧草(例如苜蓿、稻米、玉米、小麦、大麦、燕麦、高粱、珍珠粟、指形粟(finger millet)、冷季牧草和百喜草)、油籽作物(例如大豆、油籽芸苔(包括卡诺拉油菜和油籽油菜)、向日葵、花生、亚麻、芝麻和红花)、豆类谷物和牧草(例如菜豆、豇豆、豌豆、蚕豆、扁豆、宽叶菜豆、亚洲菜豆、木豆、野豌豆、鹰嘴豆、羽扇豆、苜蓿和三叶草)、温带水果和坚果(例如苹果、梨、桃子、李子、浆果作物、樱桃、葡萄、橄榄、杏仁和胡桃)、热带和亚热带水果和坚果(例如柑桔,包括酸橙、橙和葡萄柚;香蕉和大蕉、菠萝、番木瓜、芒果、鳄梨、猕猴桃、西番莲果(passionfruit)和柿子)、蔬菜作物(例如茄科植物,包括番茄、茄子和胡椒;蔬菜芸苔;萝卜、胡萝卜、葫芦、葱、芦笋和叶用蔬菜)、甘蔗、块茎(例如甜菜、欧洲萝卜(parsnip)、马铃薯、芜菁、甜薯)以及纤维作物(甘蔗、糖用甜菜、甜叶菊、马铃薯、甜薯、木薯和棉花)、种植作物、观赏植物和草皮草(烟草、咖啡、可可、茶、橡胶树、药用植物、观赏植物和草皮草)以及森林树种。
如本文所用,“植物基因组”是指植物细胞的核基因组、线粒体基因组或质体(例如叶绿体)基因组。在一些实施方案中,植物基因组可包含由雄性贡献的亲本基因组和由雌性贡献的亲本基因组。在一些实施方案中,植物基因组可包含仅一个亲本基因组。
如本文所用,“多核苷酸”是指含有多个核苷酸的核酸分子,并且通常是指“寡核苷酸”(长度是18-25个核苷酸的多核苷酸分子)与具有26个或更多个核苷酸的多核苷酸两者。本公开的各个方面包括组合物,其包括具有18-25个核苷酸的长度的寡核苷酸(例如18聚体、19聚体、20聚体、21聚体、22聚体、23聚体、24聚体或25聚体)、或具有26个或更多个核苷酸的长度的中等长度多核苷酸(例如具有26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、约65、约70、约75、约80、约85、约90、约95、约100、约110、约120、约130、约140、约150、约160、约170、约180、约190、约200、约210、约220、约230、约240、约250、约260、约270、约280、约290或约300个核苷酸的多核苷酸)、或具有大于约300个核苷酸的长度的长多核苷酸(例如具有长度是约300个至约400个之间的核苷酸、约400个至约500个之间的核苷酸、约500个至约600个之间的核苷酸、约600个至约700个之间的核苷酸、约700个至约800个之间的核苷酸、约800个至约900个之间的核苷酸、约900个至约1000个之间的核苷酸、约300个至约500个之间的核苷酸、约300个至约600个之间的核苷酸、约300个至约700个之间的核苷酸、约300个至约800个之间的核苷酸、约300个至约900个之间的核苷酸、或约1000个核苷酸,或甚至长度是大于约1000个核苷酸,例如多达靶标基因的整个长度(包括所述靶标基因的编码部分或非编码部分、或编码部分与非编码部分两者)的多核苷酸)。当多核苷酸是双链时,它的长度可类似地用碱基对来描述。
如本文所用,术语“多肽”、“肽”和“蛋白质”可互换用于指代氨基酸残基的聚合物。所述术语也适用于其中一个或多个氨基酸是相应天然存在的氨基酸的化学类似物或经修饰衍生物的氨基酸聚合物。
如本文所用,“原生质体”是指以下植物细胞:已使用例如机械或酶促手段来将它的保护性细胞壁完全或部分移除,从而产生活体植物的完整生物化学感受态单位,其可使它们的细胞壁重新形成,进行增殖,以及在适当生长条件下再生生长成完整植物。
如本文所用,“启动子”是指位于基因的开放阅读框(或蛋白质编码区)的翻译起始密码子的上游或5',并且涉及于识别和结合RNA聚合酶I、II或III以及其他蛋白质(反式作用性转录因子)以使转录起始的核酸序列。在本文所述的一些实施方案中,启动子是植物启动子。“植物启动子”是在植物细胞中具有功能性的天然或非天然启动子。组成型启动子在整个植物发育中在植物的大多数或所有组织中具有功能性。组织、器官或细胞特异性启动子分别仅或主要在特定组织、器官或细胞类型中表达。并非在给定组织、植物部分或细胞类型中“特异性”表达,相较于植物的其他部分,启动子可显示在植物的一种细胞类型、组织或植物部分中的“增强”表达,即较高水平的表达。在时间上调控的启动子仅或主要在植物发育的某些时期期间或在一天的某些时间具有功能性,如例如在与昼夜节律相关的基因的情况下。诱导型启动子响应于存在例如由化合物(化学诱导剂)达成的内源性或外源性刺激,或响应于环境、激素、化学和/或发育信号而使可操作地连接的DNA序列选择性表达。诱导型启动子或调控启动子包括例如由光、热、应激、洪涝或干旱、植物激素、创伤或化学物质诸如乙醇、茉莉酮酸酯(jasmonate)、水杨酸或安全剂调控的启动子。在一方面,本文提供的启动子是组成型启动子。在另一方面,本文提供的启动子是可调控启动子。在一方面,本文提供的启动子位于目标序列内。在另一方面,本文提供的启动子不位于目标序列内。在植物细胞中具有活性的许多启动子已描述于文献中。所述启动子将包括但不限于在根癌土壤杆菌(Agrobacterium tumefaciens)的Ti质粒上携带的胭脂碱(nopaline)合成酶(NOS)(Ebert等,1987)和章鱼碱(octopine)合成酶(OCS)启动子、花椰菜花叶病毒启动子诸如花椰菜花叶病毒(CaMV)19S(Lawton等,Plant Molecular Biology(1987)9:315-324)和35S启动子(Odell等,Nature(1985)313:810-812)、玄参花叶病毒(FMV)35S启动子(美国专利号6,051,753;5,378,619)以及增强CaMV35S启动子(e35S)。可适用的额外启动子是蔗糖合成酶启动子(Yang和Russell,Proceedings of the National Academy of Sciences,USA(1990)87:4144-4148)、R基因复合物启动子(Chandler等,Plant Cell(1989)1:1175-1183)以及叶绿素a/b结合蛋白基因启动子、PC1SV(美国专利号5,850,019)和AGRtu.nos(GenBank登录号V00087;Depicker等,Journal of Molecular and Applied Genetics(1982)1:561-573;Bevan等,1983)启动子。响应于环境、激素、化学和/或发育信号而得以调控的多种其他植物基因启动子也可用于使异源性基因在植物细胞中表达,所述启动子包括例如由(1)热(Callis等,Plant Physiology,(1988)88:965-968)、(2)光(例如豌豆RbcS-3A启动子,Kuhlemeier等,Plant Cell,(1989)1:471-478;玉米RbcS启动子,Schaffner等,Plant Cell(1991)3:997-1012);(3)激素诸如脱落酸(abscisic acid)(Marcotte等,植物细胞,(1989)1:969-976),(4)创伤(例如Siebertz等,Plant Cell,(1989)961-968);或其他信号或化学物质调控的启动子。组织特异性启动子也是已知的。在一些实施方案中,启动子能够导致足以导致产生有效量的目标基因产物的表达。描述所述启动子的实例包括不限于美国专利号6,437,217(玉米RS81启动子)、美国专利号5,641,876(稻米肌动蛋白(actin)启动子)、美国专利号6,426,446(玉米RS324启动子)、美国专利号6,429,362(玉米PR-1启动子)、美国专利号6,232,526(玉米A3启动子)、美国专利号6,177,611(组成型玉米启动子)、美国专利号5,322,938、5,352,605、5,359,142和5,530,196(35S启动子)、美国专利号6,433,252(玉米L3油脂蛋白(oleosin)启动子)、美国专利号6,429,357(稻米肌动蛋白2启动子以及稻米肌动蛋白2内含子)、美国专利号5,837,848(根特异性启动子)、美国专利号6,294,714(光诱导型启动子)、美国专利号6,140,078(盐诱导型启动子)、美国专利号6,252,138(病原体诱导型启动子)、美国专利号6,175,060(磷缺乏诱导型启动子)、美国专利号6,635,806(γ-薏苡辛(gamma-coixin)启动子)和美国专利申请序列号09/757,089(玉米叶绿体醛缩酶启动子)。在一些实施方案中,可构建启动子杂合物以使转录活性增强(美国专利号5,106,739)。在一些实施方案中,可构建启动子杂合物以使所需转录活性、转录诱导性、转录组织特异性和/或转录发育特异性组合。在植物中起作用的启动子包括但不限于诱导型启动子、病毒性启动子、合成启动子、组成型启动子、在时间上调控的启动子、在空间上调控的启动子和在空间-时间上调控的启动子。组织增强、组织特异性或发育调控的其他启动子在本领域中也是已知的,并且被设想在本公开的实施中具有效用。如果需要,那么用于本公开的提供的核酸分子和转化载体中的启动子可被修饰以影响它们的控制特征。启动子可借助于用操纵子区域进行连接、随机或控制诱变等来获得。此外,启动子可被改变以含有多个“增强子序列”来有助于提高基因表达。
如本文所用,“重组核酸”是指可与见于天然系统中的内源性核酸区分的具有编码序列和/或非编码序列的核酸分子(DNA或RNA)。在一些方面,本文提供的重组核酸用于本文提供的任何组合物、系统或方法中。在一些方面,重组核酸可编码本文提供的任何CRISPR相关转座酶。在一些方面,重组核酸可包含或编码本文提供的任何引导RNA,可用于本文提供的任何组合物、系统或方法中。在一些方面,重组核酸可包含本文提供的任何供体多核苷酸,可用于本文提供的任何组合物、系统或方法中。在一方面,本文提供的载体包含本文提供的任何重组核酸。在另一方面,本文提供的细胞包含本文提供的重组核酸。在另一方面,本文提供的细胞包含本文提供的载体。
如本文所用,术语“重组”是指两个DNA分子交换核苷酸序列所采用的过程。在一些方面,本文提供的组合物、系统或方法促进两个DNA分子之间的重组。在一些实施方案中,重组发生在两组亲本染色体之间。在一些实施方案中,重组发生在两个同源染色体之间。在一些实施方案中,重组发生在非同源染色体之间。在一些实施方案中,重组发生在部分同源染色体之间。在一些实施方案中,重组导致产生新的基因序列、基因数目、基因排列、等位基因或等位基因组合。用于检测重组的许多方法在本领域中是已知的,并且包括但不限于1)表型筛选,2)分子标志物技术诸如通过或Illumina/Infinium技术进行的单核苷酸多态性-SNP分析,3)DNA印迹,和4)测序。
如本文所用,术语“重组事件”是指在两个DNA分子之间进行重组的情况。
如本文所用,术语“重组率”是指重组事件将在两个基因组基因座之间发生的概率。重组率可受许多因素的影响,包括但不限于两个基因组基因座之间的距离、基因座所存在于其中的染色体区域(例如着丝粒区域、端粒区域)、转录活性、染色体倒位的存在和其他因素。用于测量重组的方法包括但不限于在定位群体中进行的连锁分析以及定量技术诸如定量PCR(qPCR)或微滴数字PCR(ddPCR),如本公开中所述。在一些方面,本文提供的组合物、系统或方法使重组率增加。如本文所用,术语“调控元件”意图包括启动子、增强子、内部核糖体进入位点(IRES)和其他表达控制元件(例如转录终止信号,诸如多聚腺苷酸化信号和多聚尿苷酸序列)。所述调控元件例如描述于Goeddel,GENE EXPRESSION TECHNOLOGY:METHODS IN ENZYMOLOGY 185,Academic Press,San Diego,Calif.(1990)中。调控元件包括指导核苷酸序列在许多类型的宿主细胞中进行组成型表达的那些,以及指导核苷酸序列仅在某些宿主细胞中进行表达的那些(例如组织特异性调控序列)。组织特异性启动子可指导主要在所需目标组织诸如分生组织或特定细胞类型(例如花粉)中进行表达。调控元件也可指导以时间依赖性方式,诸如以细胞周期依赖性或发育阶段依赖性方式进行表达,所述表达可或可不也具有组织或细胞类型特异性。术语“调控元件”也涵盖增强子元件,诸如WPRE;CMV增强子;HTLV-I的LTR中的R-U5'区段(Mol.Cell.Biol.,第8卷(1),第466-472页,1988);和SV40增强子。
如本文所用,术语“靶标序列”或“靶标位点”是指由如本文所述的CRISPR相关转座酶修饰的核苷酸序列。靶标序列可为基因序列或非基因序列。在一些方面,本文提供的靶标序列包含基因区域。在其他方面,本文提供的靶标序列包含基因间区域。在另一方面,本文提供的靶标序列包含基因区域与基因间区域两者。在一方面,本文提供的靶标序列包含编码核酸序列。在另一方面,本文提供的靶标序列包含非编码核酸序列。在一方面,本文提供的靶标序列位于启动子中。在另一方面,本文提供的靶标序列包含增强子序列。在另一方面,本文提供的靶标序列包含编码核酸序列与非编码核酸序列两者。在一个方面,本文提供的靶标序列由双链断裂诱导剂诸如如本文所述的CRISPR相关转座酶裂解。
新型CRISPR相关转座酶
本公开提供从各种细菌基因组鉴定的新型CRISPR相关转座酶的多核苷酸序列和氨基酸序列。在一些实施方案中,本文提供的CRISPR相关转座酶包含选自SEQ ID NO:124-246和275-287的氨基酸序列、其片段、其同源物及其直系同源物。术语“直系同源物”和“同源物”在本领域中是熟知的。如本文所述的CRISPR相关转座酶的“同源物”是从相同物种分离的与它是其同源物的蛋白质执行相同或类似功能的蛋白质。同源性蛋白质可但无需是结构相关的,或是仅部分结构相关的。如本文所述的CRISPR相关转座酶的“直系同源物”是从不同物种分离的与它是其直系同源物的蛋白质执行相同或类似功能的蛋白质。直系同源性蛋白质可但无需是结构相关的,或是仅部分结构相关的。同源物和直系同源物可通过同源性建模或结构BLAST来鉴定(Dey F,Cliff Zhang Q,Petrey D,Honig B.Toward a"structural BLAST":using structural relationships to infer function.ProteinSci.2013年4月;22(4):359-66.doi:10.1002/pro.2225.)。在一些实施方案中,如本文所述的新型CRISPR相关转座酶的同源物或直系同源物与包含选自SEQ ID NO:124-246和275-287的氨基酸序列的CRISPR相关转座酶具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的序列同源性或同一性。
在一些实施方案中,本文提供的CRISPR相关转座酶与将CRISPR相关转座酶导向靶标位点的引导RNA形成复合物,在所述靶标位点处,CRISPR相关转座酶在核酸序列中引入单链断裂或双链断裂(DSB)。所靶向核酸序列可为DNA、RNA或DNA/RNA杂合物。引入的DSB可通过非同源性末端接合(NHEJ)来修复,从而产生引入导致框移突变的小型插入或缺失(插入缺失)的较高可能性。或者,当应用同源性依赖性修复(HDR)路径时,具有所需突变的DNA序列可在具有DSB的区域处被取代。在一些实施方案中,包含一个或多个转基因的重组核酸被整合在靶标位点处。
本公开也提供一种包含可操作地连接于编码如本文所述的CRISPR相关转座酶的多核苷酸的异源性启动子的重组核酸。在一些实施方案中,本文提供的CRISPR相关转座酶由包含选自SEQ ID NO:1-123、604-627和2020-3379的序列或其片段的多核苷酸序列编码。在一些实施方案中,本文提供的CRISPR相关转座酶由多核苷酸序列编码,所述多核苷酸序列包含与选自SEQ ID NO:1-123、604-627和2020-3379的序列或其片段具有至少80%同一性、至少81%同一性、至少82%同一性、至少83%同一性、至少84%同一性、至少85%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性或至少99%同一性的序列。在一个方面,本文提供的重组核酸包含一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个异源性启动子可操作地连接于一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个编码CRISPR相关转座酶的多核苷酸。在一些实施方案中,本文提供的重组核酸编码一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个引导RNA。如本文所用,术语“引导RNA”是指包含可通过杂交于靶标序列来将CRISPR酶引导至靶标DNA分子的核苷酸序列的RNA分子。在一个方面,本文提供的引导RNA包含CRISPR RNA(crRNA)。在一个方面,本文提供的引导RNA包含与反式活化CRISPR RNA(tracrRNA)复合的CRISPR RNA(crRNA)。在另一方面,本文提供的引导RNA包括单链引导RNA。在一方面,本文提供的单链引导RNA包含crRNA与tracrRNA两者。
在一些实施方案中,本文提供的重组核酸包含编码引导RNA的多核苷酸。在一方面,本文提供的重组核酸包含一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个编码一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个引导RNA的多核苷酸。在一个方面,本文提供的编码引导RNA的多核苷酸可操作地连接于第二启动子。在一个方面,本文提供的编码引导RNA的多核苷酸可操作地连接于U6snRNA启动子。在一个方面,本文提供的编码引导RNA的多核苷酸可操作地连接于如以引用的方式并入本文的WO20150131101中所述的U6snRNA启动子。在另一方面,本文提供的引导RNA是经分离的RNA。在一方面,本文提供的引导RNA在病毒载体、质粒载体或土壤杆菌属载体中编码。在一方面,本文提供的引导RNA包含crRNA。在一方面,本文提供的引导RNA包含tracrRNA。在另一方面,本文提供的引导RNA包括单链引导RNA。在一方面,本文提供的单链引导RNA包含crRNA与tracrRNA两者。
在一些实施方案中,本文提供的重组核酸包含一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个供体多核苷酸。如本文所用,“供体多核苷酸”是能够使用如本文所述的CRISPR相关转座酶或方法来插入受体细胞的基因组中的多核苷酸分子。在另一方面,本文提供的供体多核苷酸可操作地连接于第二启动子。在另一方面,本文提供的供体多核苷酸包含至少一个启动子。在一方面,本文提供的供体多核苷酸包含一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个转基因。在一方面,本文提供的供体多核苷酸包含一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个编码核酸序列,一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个非编码核酸序列,或一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个编码核酸序列和一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个非编码核酸序列的组合。在一方面,本文提供的供体多核苷酸包含一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个用于模板化编辑的核酸序列。在一些实施方案中,将包含供体多核苷酸的重组核酸与CRISPR相关转座酶于同一载体中向细胞提供。在一些实施方案中,将包含供体多核苷酸的重组核酸独立于CRISPR相关转座酶向细胞提供。在一方面,本文提供的供体多核苷酸在病毒载体、质粒载体或土壤杆菌属载体中编码。
在一些实施方案中,编码CRISPR相关转座酶的多核苷酸来自选自由以下组成的组的细菌的基因组:赖氨酸芽孢杆菌属某种、短芽孢杆菌属某种、鞘氨醇杆菌属某种、水杆菌属某种、芽孢杆菌属某种、金黄杆菌属某种、鞘氨醇单胞菌属某种、类芽孢杆菌属某种、链霉菌属某种、寡养单胞菌属某种和双头菌属某种。在其他实施方案中,编码CRISPR相关转座酶的多核苷酸来自选自由以下组成的组的细菌的基因组:侧孢短芽孢杆菌;苏云金芽孢杆菌;韦氏芽孢杆菌;巨大芽孢杆菌;粪肠球菌;短短芽孢杆菌;迟钝水杆菌;玫瑰色新鞘氨醇杆菌;嗜甲氨基双头菌;类短短芽孢杆菌;解硫胺素类芽孢杆菌;缓病类芽孢杆菌;和土地类芽孢杆菌。在某些方面,编码CRISPR相关转座酶的多核苷酸在细菌基因组内与CRISPR重复基因座关联。在某些方面,编码CRISPR相关转座酶的多核苷酸进一步通过与Cas1、Cas2、或Cas1和Cas2而非Cas5或Cas3关联来在细菌基因组中鉴定。在一些实施方案中,编码CRISPR相关转座酶的多核苷酸与CRISPR基因座位于同一操纵子中。在其他实施方案中,编码CRISPR相关转座酶的多核苷酸位于CRISPR基因座的2.5千碱基内。在另一实施方案中,编码CRISPR相关转座酶的多核苷酸进一步通过存在一个或多个在表5中标识的pfam结构域来鉴定。在一方面,本文提供的编码CRISPR相关转座酶的多核苷酸的特征在于:来自赖氨酸芽孢杆菌属某种、短芽孢杆菌属某种、鞘氨醇杆菌属某种、水杆菌属某种、芽孢杆菌属某种、金黄杆菌属某种、鞘氨醇单胞菌属某种、类芽孢杆菌属某种、链霉菌属某种、寡养单胞菌属某种或双头菌属某种的基因组;来自苏云金芽孢杆菌、短短芽孢杆菌、侧孢短芽孢杆菌、类短短芽孢杆菌、韦氏芽孢杆菌、巨大芽孢杆菌、粪肠球菌、嗜甲氨基双头菌、玫瑰色新鞘氨醇杆菌、解硫胺素类芽孢杆菌、缓病类芽孢杆菌、土地类芽孢杆菌或迟钝水杆菌的基因组;通过与CRISPR重复基因座的关联而与细菌基因组关联;通过与Cas1蛋白、Cas2蛋白、或Cas1蛋白和Cas2蛋白而非Cas3蛋白或Cas5蛋白的关联来在细菌基因组中鉴定;与CRISPR基因座位于同一操纵子中;位于CRISPR基因座的10、25、50、75、100、150、200、250、500、550、600、650、700、750、800、850、900、950、1000、1250、1500、1750、2000、2500、3000、4000、5000、7500或10,000个核苷酸内;是包含编码与选自SEQ ID NO:124-246和275-287的序列具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同一性的蛋白质的序列的多核苷酸;及其任何组合。
本文所述的若干实施方案涉及真核细胞例如植物细胞中的靶向基因组修饰。一些实施方案涉及一种用于裂解包含如本文所述的CRISPR相关转座酶的靶标DNA的组合物及其用途。在一些实施方案中,CRISPR相关转座酶选自由SEQ ID NO:124-246和275-287、其同源物及其直系同源物组成的组。在一些实施方案中,描述一种包含CRISPR相关转座酶和对靶标DNA具有特异性的引导RNA的复合物。在一些实施方案中,复合物进一步包含二价阳离子。在一些实施方案中,CRISPR相关转座酶在与引导RNA复合时实现对靶标DNA的裂解,由此对靶标DNA进行修饰。在一些实施方案中,裂解包括由CRISPR相关转座酶在靶标DNA的位置处裂解一个或两个链。在一些实施方案中,包含CRISPR相关转座酶和引导RNA的复合物的形成导致在靶标序列中或附近(例如在离靶标序列1、2、3、4、5、6、7、8、9、10、20、50个或更多个碱基对内)裂解一个或两个链。在一些实施方案中,裂解导致靶标基因的转录降低。在一些实施方案中,裂解导致两个基因组基因座之间的重组率增加。在一些实施方案中,裂解导致一个或更多个转基因的整合。在一些实施方案中,裂解导致同源转基因序列的整合。在一些实施方案中,裂解导致在靶标序列处或附近插入或缺失核苷酸。在一些实施方案中,经裂解靶标DNA通过与外源性模板多核苷酸的同源性重组来修复。在一些实施方案中,模板多核苷酸包含一个或多个外源性转基因。在一些实施方案中,一个或多个外源性转基因由与裂解位点同源的序列侧接。在一些实施方案中,模板多核苷酸包含与包含靶标序列的核酸序列的至少50bp、至少100bp、至少150bp、至少200bp、至少250bp、至少300bp、至少350bp、至少400bp、至少450bp、至少500bp、至少550bp、至少600bp、至少650bp、至少700bp、至少750bp、至少800bp、至少850bp、至少900bp、至少950bp或至少1,000bp具有至少85%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性或100%同一性的序列。在一些实施方案中,相较于靶标序列,模板多核苷酸包含1、2、3、4、5、6、7、8、9、10个或更多个核苷酸突变。在一些实施方案中,经裂解靶标DNA通过非同源性末端接合(NHEJ)来修复,其中所述修复导致所述靶标DNA的突变,所述突变包括一个或多个核苷酸的插入、缺失或取代。
若干实施方案涉及一种对真核细胞中的所靶向DNA序列进行修饰的方法。在一些实施方案中,方法包括使包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列的CRISPR相关转座酶裂解所靶向DNA序列。在一些实施方案中,与引导RNA复合的CRISPR相关转座酶裂解所靶向DNA序列。在一些实施方案中,方法包括将一种或多种载体递送至所述真核细胞中,其中所述一种或多种载体驱动以下中的一者或多者的表达:CRISPR相关转座酶、引导RNA和供体多核苷酸。
在一方面,本公开提供从细菌基因组鉴定推定CRISPR相关转座酶的方法。在一些实施方案中,方法包括:(a)鉴定大型蛋白质序列(约1,000个氨基酸);(b)这些蛋白质序列与Cas1和Cas2而非Cas5或Cas3一起位于同一操纵子中;和(c)蛋白质在同一操纵子中在CRISPR基因座的<2.5kb内。在一些实施方案中,方法包括:(a)鉴定大型蛋白质序列(约1,000个氨基酸);(b)这些蛋白质序列包含一个或多个如表5中所述的pfam结构域;和(c)蛋白质在同一操纵子中在CRISPR基因座的<2.5kb内。
核酸靶向系统及其组分
本公开提供一种用于对靶标核酸序列进行序列特异性修饰的核酸靶向系统。如本文所用,术语“核酸靶向系统”是指CRISPR相关转座酶的表达中涉及或使CRISPR相关转座酶的活性定向的转录物和其他元件,此可包括编码CRISPR相关转座酶的序列。在一些实施方案中,CRISPR相关转座酶包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列。在一些实施方案中,核酸靶向系统包含充当核酸靶向引导RNA的CRISPR RNA(crRNA)序列。在一些实施方案中,crRNA序列包含如表9中所述的CRISPR重复序列或其一部分。在一些实施方案中,核酸靶向系统包含(在一些系统而非所有系统中)反式活化CRISPR RNA(tracrRNA)序列,或来自CRISPR基因座的其他序列和转录物。在一些系统中,不需要tracrRNA序列。在其他系统中,需要tracrRNA序列。在一些实施方案中,所靶向核酸是DNA或RNA。在其他实施方案中,所靶向核酸是DNA-RNA杂合物或其衍生物。在一些实施方案中,所靶向核酸位于细胞的核或细胞质中。在一些实施方案中,核酸靶向系统进一步包含二价阳离子。在一些实施方案中,核酸靶向系统进一步包含Mg2+。在一些实施方案中,使CRISPR相关转座酶的核酸酶活性失活。在一些实施方案中,核酸靶向系统进一步包含具有异源性功能性结构域的CRISPR相关转座酶。在一些实施方案中,核酸靶向系统在真核细胞中具有功能性。在一些实施方案中,核酸靶向系统在植物细胞中具有功能性。
在一实施方案中,核酸靶向系统包含编码CRISPR相关转座酶的多核苷酸。在另一实施方案中,CRISPR相关转座酶包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同一性的氨基酸序列。在另一实施方案中,编码CRISPR相关转座酶的多核苷酸包含选自由SEQ ID NO:1-123、604-627和2020-3379组成的组的核苷酸序列。在一些实施方案中,核酸靶向系统进一步包含引导RNA或编码引导RNA的DNA分子,其中所述引导RNA包含互补于靶标核酸序列的序列。在一些实施方案中,将引导RNA或编码引导RNA的DNA分子提供在第一核酸分子上,并且将编码CRISPR相关转座酶的多核苷酸提供在第二核酸分子上。在其他实施方案中,将引导RNA或编码引导RNA的DNA分子和编码CRISPR相关转座酶的多核苷酸提供在单一核酸分子上。在一些实施方案中,引导RNA包含表8、9和10中提供的一个或多个crRNA序列的一部分。在一些实施方案中,引导RNA包含表8中提供的一个或多个crRNA序列的CRISPR重复序列。在一些实施方案中,引导RNA包含如表9中所述的CRISPR重复序列。在一些实施方案中,引导RNA包含如表10中所述的CRISPR重复序列。
在一些实施方案中,靶标核酸序列包含编码序列、非编码序列、或编码序列和非编码序列的组合。在一些实施方案中,靶标核酸序列包含内源性基因或转基因。
在一些实施方案中,引导RNA包含crRNA和tracrRNA。在一些实施方案中,引导RNA包括单链引导RNA。在一些实施方案中,引导RNA包括包含crRNA的单链引导RNA。在一些实施方案中,crRNA包含表9和10中提供的crRNA序列的一部分。
在一些实施方案中,本文公开的核酸靶向系统进一步包含供体多核苷酸。在一些实施方案中,供体多核苷酸包含编码序列、非编码序列、或编码序列和非编码序列的组合。在一些实施方案中,供体多核苷酸包含启动子。在一些实施方案中,供体多核苷酸包含调控元件。在一些实施方案中,供体多核苷酸包含一个或多个转基因。
如本文所用,术语“引导RNA”是指与靶标核酸序列具有足够互补性以与所述靶标核酸序列杂交,以及指导CRISPR相关转座酶以序列特异性方式结合所述靶标核酸序列的任何多核苷酸序列。在一些实施方案中,在使用适合比对算法加以最优比对时,互补性程度是约或超过约50%、60%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更大。最优比对可在使用用于比对序列的任何适合算法的情况下确定。
在一些实施方案中,引导RNA包含成熟crRNA。在某些实施方案中,成熟crRNA包含以下、基本上由以下组成或由以下组成:正向重复序列和引导序列或间隔子序列。正向重复序列和间隔子序列的实例可见于表9和10中。crRNA序列的实例可见于表8、9和10中。在某些实施方案中,引导RNA包含以下、基本上由以下组成或由以下组成:连接于引导序列或间隔子序列的正向重复序列。在一些实施方案中,引导RNA序列的长度是是约或超过约5、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、75个或更多个核苷酸。在一些实施方案中,引导RNA序列的长度是小于约75、50、45、40、35、30、25、20、15、12个或更少个核苷酸。在一些实施方案中,引导RNA序列的长度是10-30个核苷酸。在一些实施方案中,引导RNA序列的长度是10-20个核苷酸。可选择引导RNA序列以靶向任何靶标序列。在一些实施方案中,靶标序列是细胞的基因组内的序列。在一些实施方案中,靶标序列在靶标基因组中是独特的。
在一些实施方案中,成熟crRNA包含茎环或最优化茎环结构或最优化二级结构。在一些实施方案中,成熟crRNA在正向重复序列中包含茎环或最优化茎环结构,其中所述茎环或最优化茎环结构对于裂解活性是重要的。在某些实施方案中,成熟crRNA包含单一茎环。在某些实施方案中,正向重复序列包含单一茎环。在某些实施方案中,核酸靶向系统的裂解活性通过引入影响茎环RNA双链体结构的突变来改变。在一些实施方案中,可引入维持茎环的RNA双链体的突变,借此核酸靶向系统的裂解活性得以维持。在其他实施方案中,可引入破坏茎环的RNA双链体结构的突变,借此核酸靶向系统的裂解活性得以完全消除。
引导RNA序列指导核酸靶向系统以序列特异性方式结合靶标核酸序列的能力可通过任何适合测定来评估。举例来说,可诸如通过以下方式来向具有相应靶标核酸序列的宿主细胞提供核酸靶向系统的足以形成核酸靶向复合物的包括CRISPR相关转座酶和待测试的引导序列的组分:用编码所述核酸靶向复合物的所述组分的载体进行转染,随后评估所述靶标核酸序列内的优先靶向(例如裂解)。类似地,可通过以下方式来在体外评估对靶标核酸序列的裂解:提供所述靶标核酸序列、核酸靶向系统的包括CRISPR相关转座酶和/或待测试的引导序列的组分、和不同于所述测试引导序列的对照引导序列,以及在测试引导序列反应与对照引导序列反应之间比较在靶标序列处的结合或裂解率。其他测定是可能的,并且将为本领域技术人员所想到。可选择引导序列,以及因此可选择核酸靶向引导RNA以靶向任何靶标核酸序列。靶标序列可为DNA。靶标序列可为任何RNA序列。在一些实施方案中,靶标序列可为选自由以下组成的组的RNA分子内的序列:信使RNA(mRNA)、前mRNA、核糖体RNA(rRNA)、转运RNA(tRNA)、微小RNA(miRNA)、小干扰RNA(siRNA)、小核RNA(snRNA)、小核仁RNA(snoRNA)、双链RNA(dsRNA)、非编码RNA(ncRNA)、长非编码RNA(lncRNA)和小细胞质RNA(scRNA)。在一些实施方案中,靶标序列可为选自由mRNA、前mRNA和rRNA组成的组的RNA分子内的序列。在一些实施方案中,靶标序列可为选自由ncRNA和lncRNA组成的组的RNA分子内的序列。在一些实施方案中,靶标序列可为mRNA分子或前mRNA分子内的序列。
如本文所用,术语“tracrRNA”包括与crRNA序列具有足够互补性以进行杂交的任何多核苷酸序列。在一些实施方案中,tracrRNA不为核酸靶向系统的裂解活性所需。在其他实施方案中,tracrRNA为核酸靶向系统的裂解活性所需。
在一些实施方案中,本文公开的核酸靶向系统的一个或多个组分在载体中表达或递送。如本文所用,术语“载体”是指能够运送它已与其连接的另一核酸的核酸分子。载体包括但不限于单链、双链或部分双链核酸分子;包含一个或多个游离末端,不包含游离末端(例如环状)的核酸分子;包含DNA、RNA或两者的核酸分子;以及本领域中已知的其他种类的多核苷酸。一种类型的载体是“质粒”,其是指可诸如通过标准分子克隆技术来向其中插入额外DNA区段的环状双链DNA环。另一类型的载体是土壤杆菌属载体。另一类型的载体是病毒载体,其中病毒源性DNA或RNA序列存在于载体中以包装至病毒(例如逆转录病毒、复制缺陷性逆转录病毒、烟草花叶病毒(Tobacco mosaic virus,TMV)、马铃薯X病毒(PVX)和豇豆花叶病毒(Cowpea mosaic virus,CPMV)、烟草花叶病毒(tobamovirus)、双粒病毒(Geminivirus)、腺病毒、复制缺陷性腺病毒和腺相关病毒)中。病毒载体也包括由病毒携带的用于转染至宿主细胞中的多核苷酸。在一些实施方案中,病毒载体可使用土壤杆菌属来递送至植物中。某些载体能够在它们被引入其中的宿主细胞中自主复制。其他载体可在引入宿主细胞中后整合至所述宿主细胞的基因组中,并且由此与宿主基因组一起复制。此外,某些载体能够指导它们所可操作地连接的基因的表达。所述载体在本文中被称为“表达载体”。用于以及导致在真核细胞中进行表达的载体可在本文中称为“真核表达载体”。在重组DNA技术中具有效用的常见表达载体常常呈质粒形式。本领域技术人员应了解,表达载体的设计可取决于诸如对待转化的宿主细胞的选择、所需表达水平等的因素。可将载体引入宿主细胞中以由此产生由如本文所述的核酸编码的转录物、蛋白质或肽,包括融合蛋白或肽(例如成簇规律间隔短回文重复序列(CRISPR)转录物、蛋白质、酶、其突变形式、其融合蛋白等)。
重组表达载体可包含呈适于在宿主细胞中表达核酸的形式的本公开核酸,此意指重组表达载体包括一种或多种可基于待用于表达的宿主细胞加以选择的调控元件,所述调控元件可操作地连接于待表达的核酸序列。
如本文所用,术语“模板核酸”或“供体多核苷酸”可互换使用,并且是指可与CRISPR相关转座酶或其直系同源物或同源物联合用于改变靶标序列的结构的核酸序列,所述CRISPR相关转座酶包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列。在一些实施方案中,模板核酸或供体多核苷酸包含一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个转基因。在一实施方案中,靶标序列被修饰以通常在一个或多个裂解位点处或附近具有模板核酸的序列的一些或全部。在一实施方案中,模板核酸是单链。在一替代性实施方案中,模板核酸是双链。在一实施方案中,模板核酸是DNA,例如双链DNA。在一替代性实施方案中,模板核酸是单链DNA。
在一实施方案中,模板核酸通过参与同源性重组来改变靶标序列的结构。在一实施方案中,模板核酸改变靶标位置的序列。在一实施方案中,模板核酸导致经修饰或非天然存在碱基并入靶标核酸中。
模板序列可经受断裂介导或催化的与靶标序列的重组。在一实施方案中,模板核酸可包括对应于靶标序列上的通过核酸靶向系统介导的裂解事件来裂解的位点的序列。在一实施方案中,模板核酸可包括对应于两个位点的序列,第一位点在靶标序列上,在第一核酸靶向系统介导的事件中被裂解,并且第二位点在靶标序列上,在第二核酸靶向系统介导的事件中被裂解。
在某些实施方案中,模板核酸可包括导致所翻译序列的编码序列中的改变的序列,例如导致在蛋白质产物中一个氨基酸取代另一氨基酸的序列,例如将突变等位基因转变成野生型等位基因,将野生型等位基因转变成突变等位基因,和/或引入终止密码子,插入氨基酸残基,使氨基酸残基缺失,或进行无义突变。在某些实施方案中,模板核酸可包括导致非编码序列中的改变的序列,所述改变例如外显子中或5'或3'非翻译区或非转录区中的改变。所述改变包括调控元件例如启动子、增强子中的改变,以及顺式作用性或反式作用性控制元件中的改变。
与靶标基因中的靶标序列具有同源性的模板核酸可用于改变靶标基因的结构。模板序列可用于改变非所要结构,例如非所要或突变核苷酸。模板核酸可包括当整合时导致以下结果的序列:使正性调控元件的活性降低;使正性调控元件的活性增加;使负性调控元件的活性降低;使负性调控元件的活性增加;使基因的表达降低;使基因的表达增加;使对除草剂的抗性增加;使对疾病的抗性增加;使对昆虫或线虫有害生物的抗性增加;使对非生物应激(例如干旱、氮缺乏)的抗性增加;使对病毒进入的抗性增加;修正突变或改变非所要氨基酸残基;赋予、增加、消除或降低基因产物的生物性质,例如使酶的酶促活性增加,或使基因产物与另一分子相互作用的能力增加。
在一些实施方案中,模板核酸可包括导致以下结果的序列:靶标序列的1、2、3、4、5、6、7、8、9、10、11、12个或更多个核苷酸发生序列变化。在一实施方案中,模板核酸的长度可为20+/-10、30+/-10、40+/-10、50+/-10、60+/-10、70+/-10、80+/-10、90+/-10、100+/-10、110+/-10、120+/-10、130+/-10、140+/-10、150+/-10、160+/-10、170+/-10、180+/-10、190+/-10、200+/-10、210+/-10或220+/-10个核苷酸。在一实施方案中,模板核酸的长度可为30+/-20、40+/-20、50+/-20、60+/-20、70+/-20、80+/-20、90+/-20、100+/-20、110+/-20、120+/-20、130+/-20、140+/-20、150+/-20、160+/-20、170+/-20、180+/-20、190+/-20、200+/-20、210+/-20或220+/-20个核苷酸。在一实施方案中,模板核酸的长度是10至1,000、20至900、30至800、40至700、50至600、50至500、50至400、50至300、50至200、或50至100个核苷酸。
在一些实施方案中,供体核酸包含以下组分:[5'同源臂]-[目标序列]-[3'同源臂]。同源臂提供向染色体中的重组。在一些实施方案中,目标序列将非所需组成部分例如突变或特征替代为目标序列。在一些实施方案中,目标序列包含一个或多个、两个或更多个、三个或更多个、四个或更多个、或五个或更多个转基因。在一实施方案中,同源臂侧接于最远端裂解位点。在一实施方案中,5'同源臂的3'末端是紧接于目标序列的5'末端的位置。在一实施方案中,5'同源臂可从目标序列的5'末端延伸至少10、20、30、40、50、100、200、300、400、500、600、700、800、900、1000、1500或2000个5'核苷酸。在一实施方案中,3'同源臂的5'末端是紧接于目标序列的3'末端的位置。在一实施方案中,3'同源臂可从目标序列的3'末端延伸至少10、20、30、40、50、100、200、300、400、500、600、700、800、900、1000、1500或2000个3'核苷酸。
在某些实施方案中,可使一个或两个同源臂缩短以避免包括某些序列重复组成部分。举例来说,可使5'同源臂缩短以避免序列重复组成部分。在其他实施方案中,可使3'同源臂缩短以避免序列重复组成部分。在一些实施方案中,可使5'同源臂与3'同源臂两者均缩短以避免包括某些序列重复组成部分。
在某些实施方案中,供体核酸可被设计以用作单链寡核苷酸。当使用单链寡核苷酸时,5'同源臂和3'同源臂的长度可在多达约200个碱基的范围内,例如长度是至少25、50、75、100、125、150、175或200个碱基。
在某些实施方案中,核酸靶向系统的组分可进一步包含至少一个或多个核定位信号(NLS)、核输出信号(NES)、功能性结构域、柔性接头、突变、缺失、改变或截短。可使NLS、NES或功能性结构域中的一者或多者有条件地活化或失活。
在一些实施方案中,如本文所述的核酸靶向系统在20℃、21℃、22℃、23℃、24℃、24℃、25℃、26℃、27℃、28℃、29℃、30℃、31℃、32℃、33℃、34℃、35℃、36℃、37℃、38℃、39℃、40℃、41℃、42℃、43℃、44℃、45℃、46℃、47℃、48℃、49℃或50℃下具有功能性。
在某些实施方案中,核酸靶向系统的一个或多个组分被包含在一个或多个载体上以向真核细胞递送。在一些实施方案中,一个或多个载体编码以下中的一者或多者:(i)一种或多种CRISPR相关转座酶,更特定来说,一种或多种包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列的CRISPR相关转座酶;(ii)能够杂交于细胞中的第一靶标序列的第一引导RNA;和(iii)能够杂交于所述细胞中的第二靶标序列的第二引导RNA。不希望受特定理论束缚,第一引导RNA将第一CRISPR相关转座酶导向细胞中的第一靶标序列;第二引导RNA将第二CRISPR相关转座酶导向细胞中的第二靶标序列。各种编码序列(CRISPR相关转座酶、引导RNA)可被包括在单一载体上或在多个载体上。举例来说,有可能在一个载体上编码CRISPR相关转座酶,并且在另一载体上编码各种RNA序列,或在一个载体上编码CRISPR相关转座酶和各种引导RNA,并且在额外载体上编码供体核酸,或采用任何其他排列。在一方面,系统使用总计一种、两种、三种、四种、五种或更多种不同载体。当使用多个载体时,有可能以不等数目来递送它们。
在某些实施方案中,编码引导RNA的重组核酸可以阵列形式设计,以使多个引导RNA序列可被同时释放。在一些实施方案中,一个或多个引导RNA的表达由U6驱动。在一些实施方案中,CRISPR相关转座酶与多个引导RNA复合以介导在多个靶标序列处的基因组编辑。一些实施方案涉及表达1个直至4个或更多个不同引导序列的单一或串联阵列形式;例如多达约20或约30个引导序列。各个别引导序列可靶向不同靶标序列。此可从例如一个嵌合pol3转录物来加工。可使用Pol3启动子,诸如U6或H1启动子。Pol2启动子诸如遍及本文提及的那些。反向末端重复(iTR)序列可侧接于Pol3启动子-gRNA-Pol2启动子-Cas。
在另一实施方案中,创建将短暂表达gRNA和/或CRISPR相关转座酶的构建体,并且将其引入细胞中。在另一实施方案中,载体将产生足量的gRNA和/或CRISPR相关转座酶以使一个或多个所需游离型或基因组靶标位点由如本文所述的核酸靶向系统有效修饰。举例来说,本公开涵盖制备可被轰击、电穿孔、化学转染或通过一些其他手段来跨越植物细胞膜加以输送的载体。这种载体可具有若干适用性质。举例来说,在一个实施方案中,载体可在细菌宿主中复制以使载体可以足量产生和纯化以进行短暂表达。在另一实施方案中,载体可编码药物抗性基因以允许在宿主中选择载体,或载体也可包含表达盒以提供gRNA和/或CRISPR相关转座酶在植物中的表达。在另一实施方案中,表达盒可含有启动子区域、5’非翻译区、用以辅助表达的任选内含子、用以允许轻易引入编码gRNA和/或CRISPR相关转座酶的序列的多克隆位点、和3’UTR。在特定实施方案中,表达盒中的启动子将为来自玉蜀黍属玉米的U6启动子。在其他实施方案中,启动子将为来自玉蜀黍属玉米的嵌合U6启动子。在一些实施方案中,可有益的是在表达盒的一个末端或各个末端包括独特限制位点以允许产生和分离线性表达盒,其可于是不含其他载体元件。在某些实施方案中,非翻译前导序列区域可为植物源性非翻译区。当将表达盒转化或转染至单子叶植物细胞中时,涵盖使用可源于植物的内含子。
在一些实施方案中,如本文所述的重组核酸可包含多个具有不同序列的U6启动子。具有多个具有不同序列的U6启动子的效用在于使通常与序列重复相关的载体稳定性方面的问题最小化。此外,染色体中的高度重复区域可导致遗传不稳定性和沉默。因此,在核酸靶向系统中使用多个U6启动子的另一效用在于促进多个gRNA盒在同一转化构建体中的载体堆积,其中不同gRNA转录物水平将被最大化以高效靶向单一靶标位点。嵌合U6启动子可导致表达水平改进或另外改变的新的功能性形式。
在若干实施方案中,表达载体包含至少一个编码如本文所述的核酸靶向系统的一个或多个组分的表达盒,其可包含启动子。在某些实施方案中,启动子是组成型启动子、组织特异性启动子、发育调控启动子或细胞周期调控启动子。某些涵盖启动子包括仅在种系或生殖细胞中表达的启动子以及其他启动子。所述发育调控启动子具有使核酸靶向系统的表达仅限于其中DNA在后代中遗传的那些细胞的优势。因此,核酸靶向系统介导的遗传修饰(即染色体或游离型dsDNA裂解)仅限于将它们的基因组从一代传递至下一代中涉及的细胞。如果核酸靶向系统的广泛表达具有遗传毒性或具有其他非所要影响,那么这可能是适用的。所述启动子的实例包括编码DNA连接酶、重组酶、复制酶等的基因的启动子。
在一些实施方案中,可将本文所述的重组核酸分子并入任何适合植物转化质粒或载体中。在一些实施方案中,植物转化质粒或载体含有可选择或可筛选标记和如所述的相关调控元件,以及一个或多个由结构基因编码的核酸。
诱导型核酸靶向系统
在一个方面,本公开提供一种非天然存在或工程化的核酸靶向系统,其可包含至少一个开关,其中所述核酸靶向系统的活性通过与至少一种关于所述开关的诱导能量来源接触来控制。在本公开的一实施方案中,可使关于至少一个开关或核酸靶向系统的活性的控制活化、增强、终止或阻遏。与至少一种诱导能量来源的接触可导致第一作用和第二作用。第一作用可为以下中的一者或多者:核输入、核输出、次级组分(诸如效应物分子)的募集、构象变化(蛋白质、DNA或RNA的构象变化)、裂解、释放运载物(诸如笼蔽分子或辅因子)、缔合或解离。第二作用可为以下中的一者或多者:关于至少一个开关或核酸靶向系统的活性的控制的活化、增强、终止或阻遏。在一个实施方案中,第一作用和第二作用可以级联形式发生。
如本申请中详述的控制的各个方面涉及至少一个或多个开关。如本文所用的术语“开关”是指以配合方式起实现变化的作用的系统或一组组分,所述变化涵盖生物功能的所有方面,诸如对那个功能的活化、阻遏、增强或终止。在一个方面,术语开关涵盖基因开关,其包含基因调控蛋白的基本组分和这些蛋白识别的特定DNA序列。在一个方面,开关涉及用于基因调控中的诱导型和阻遏型系统。一般来说,除非存在允许基因表达的某一分子(称为诱导剂),否则诱导型系统可为关闭的。分子被称为“诱导表达”。这发生所采用的方式取决于控制机理以及细胞类型差异。除在抑制基因表达的某一分子(称为辅阻遏物)存在下之外,阻遏型系统是开启的。分子被称为“阻遏表达”。这发生所采用的方式取决于控制机理以及细胞类型差异。如本文所用的术语“诱导型”可涵盖开关的所有方面,而不管涉及的分子机理如何。
在本公开的另一方面,核酸靶向系统可进一步包含至少一个或多个核定位信号(NLS)、核输出信号(NES)、功能性结构域、柔性接头、突变、缺失、改变或截短。可使NLS、NES或功能性结构域中的一者或多者有条件地活化或失活。在另一实施方案中,突变可为以下中的一者或多者:转录因子同源区中的突变、DNA结合结构域中的突变(诸如使碱性螺旋环螺旋的碱性残基突变)、内源性NLS中的突变或内源性NES中的突变。本公开包括诱导能量来源可为热、超声、电磁能量或化学能量来源。
在一些实施方案中,诱导能量来源可为抗生素、小分子、激素、激素衍生物、类固醇或类固醇衍生物。在一些实施方案中,诱导能量来源可为脱落酸(ABA)、水杨酸、多西环素(doxycycline,DOX)、枯茗酸(cumate)、雷帕霉素(rapamycin)、4-羟基他莫昔芬(4-hydroxytamoxifen,4OHT)、雌激素或蜕皮酮(ecdysone)。本公开规定至少一个开关可选自由以下组成的组:基于抗生素的诱导型系统、基于电磁能量的诱导型系统、基于小分子的诱导型系统、基于核受体的诱导型系统和基于激素的诱导型系统。
本发明核酸靶向系统可被设计来以在时间上和在空间上精确的方式调节或改变个别内源性基因的表达。核酸靶向系统可被设计来结合目标基因的启动子序列以改变基因表达。
由本公开涵盖的另一系统是基于亚细胞定位变化的化学诱导型系统。诱导型核酸靶向系统可被工程化来靶向目标基因组基因座,其中将CRISPR相关转座酶分成进一步连接于化学或能量敏感性蛋白质的不同部分的两个融合构建体。在结合化学物质或能量转移至化学或能量敏感性蛋白质后,这个化学或能量敏感性蛋白质将导致CRISPR相关转座酶的任一半部的亚细胞定位发生变化。融合构建体从其中它的活性由于缺乏经重构核酸靶向系统的底物而被螯合的一个亚细胞区室或细胞器向其中存在所述底物的另一亚细胞区室或细胞器中的这个运输将使组分集合并重构功能活性,以及接着与它的所需底物(即哺乳动物核中的基因组DNA)接触并导致靶标基因表达的活化或阻遏。
涵盖其他诱导型系统,诸如但不限于通过重金属、类固醇激素、热激和已开发的其他试剂达成调控。
在特定实施方案中,将本文所述的核酸靶向系统置于通行码杀灭开关的控制下,这是一种当细胞的状况被改变时高效杀灭宿主细胞的机理。在一些实施方案中,这通过引入需要存在IPTG来开启的杂合LacI-GalR家族转录因子(Chan等2015Nature NatureChemical Biology doi:10.1038/nchembio.1979)来确保,此可用于驱动编码对于细胞存活至关重要的酶的基因。通过使对不同化学物质敏感的不同转录因子组合,可产生“密码”。这个系统可用于在空间上和在时间上控制核酸靶向系统诱导的遗传修饰的程度,此可在包括治疗应用的不同领域中具有重要性,并且也可在避免含转基因生物体从它们的预定环境“逃脱”方面具有重要性。
自失活系统
在一些实施方案中,一旦细胞的基因组中的基因的所有拷贝都已被编辑,在那个细胞中继续核酸靶向系统表达即不再必要。在一些实施方案中,在非意图基因组位点处存在脱靶作用等的情况下,持续表达将不合需要。在一些实施方案中,核酸靶向系统的组分的时间限制表达将为适用的。诱导型表达提供一种途径,另一途径可为依赖于在载体自身内使用非编码引导靶标序列的自失活核酸靶向系统。因此,在表达开始之后,核酸靶向系统将导致它的自身破坏,但在破坏完全之前,它将有时间来编辑靶标基因的基因组拷贝。在一些实施方案中,自失活核酸靶向系统包括靶向CRISPR相关转座酶的编码序列,或靶向一个或多个互补于以下中的一者或多者中存在的独特序列的非编码引导靶标序列的额外RNA(即引导RNA):(a)在驱动非编码RNA组成部分的表达的启动子内,(b)在驱动CRISPR相关转座酶的表达的启动子内,(c)在CRISPR相关转座酶编码序列中的ATG翻译起始密码子的100bp内,(d)在病毒递送载体的反向末端重复序列(iTR)内。
在一些实施方案中,一个或多个引导RNA可通过载体来递送,所述载体例如单独载体或编码CRISPR相关转座酶的同一载体。当由单独载体提供时,以CRISPR相关转座酶表达为目标的引导RNA可依序或同时施用。当依序施用时,以CRISPR相关转座酶表达为目标的引导RNA可在意图进行基因编辑或基因组工程化的引导RNA之后递送。这个时期可为数分钟的时期(例如5分钟、10分钟、20分钟、30分钟、45分钟、60分钟)。这个时期可为数小时的时期(例如2小时、4小时、6小时、8小时、12小时、24小时)。这个时期可为数天的时期(例如2天、3天、4天、7天)。这个时期可为数周的时期(例如2周、3周、4周)。这个时期可为数月的时期(例如2个月、4个月、8个月、12个月)。这个时期可为数年的时期(2年、3年、4年)。在一些实施方案中,CRISPR相关转座酶与能够杂交于第一靶标诸如基因组基因座或目标基因座的第一引导RNA缔合,并且执行核酸靶向系统的所需一种或多种功能(例如基因工程化);并且随后,CRISPR相关转座酶可接着与能够杂交于编码CRISPR相关转座酶的至少一部分的序列的第二引导RNA缔合。当引导RNA靶向编码CRISPR相关转座酶的表达的序列时,转座酶变得受妨碍,并且系统变得自失活。在一些实施方案中,通过例如粒子轰击、脂质体转染、纳米粒子、微囊泡来施加的以CRISPR相关转座酶表达为目标的引导RNA可依序或同时施用。类似地,自失活可用于使一个或多个用于靶向一个或多个靶标的引导RNA失活。
在一些方面,提供单一引导RNA,其能够杂交于在起始密码子的下游的序列,由此在一段时期之后,存在CRISPR相关转座酶表达丧失。在一些方面,提供一个或多个引导RNA,其能够杂交于编码核酸靶向系统的一个或多个组分的多核苷酸的一个或多个编码区或非编码区,借此在一段时期之后,存在核酸靶向系统的一个或多个组分或在一些情况下所有组分的失活。在一些方面,并且不受限制地,细胞可包含多种CRISPR相关酶,其中第一CRISPR相关酶靶向一个或多个待编辑的基因组基因座,并且第二CRISPR相关酶靶向编码核酸靶向系统的一个或多个组分的多核苷酸。在一些实施方案中,第一CRISPR相关酶和第二CRISPR相关酶独立地选自由Cas9、Cpf1、Ncc1和CRISPR相关转座酶组成的组。
对CRISPR相关转座酶的修饰
在一实施方案中,编码本文公开的CRISPR相关转座酶或其直系同源物或同源物的一个或多个核酸分子可针对在真核细胞中表达加以密码子优化。在一些实施方案中,编码本文公开的CRISPR相关转座酶或其直系同源物或同源物的一个或多个核酸分子可针对在植物细胞中表达加以密码子优化。编码CRISPR相关转座酶的一个或多个密码子优化核酸分子的实例提供于表12中。在一些实施方案中,核酸分子可包含一个或多个选自SEQ ID NO:2020-2699的序列。在一些实施方案中,核酸分子可包含一个或多个选自SEQ ID NO:2700-3379的序列。一个或多个核酸分子可为工程化的或非天然存在的。术语“非天然存在”或“工程化”可互换使用,并且指示涉及人工。所述术语在涉及核酸分子或多肽时意指核酸分子或多肽至少大致上不含至少一种它们在自然界中与其天然相伴以及如它们在自然界中与其一起所见的其他组分。本文所述的核酸靶向系统是非天然存在的。
在一些实施方案中,本文公开的CRISPR相关转座酶或其直系同源物或同源物可包含一个或多个突变(因此,编码所述CRISPR相关转座酶的一个或多个核酸分子可具有一个或多个突变)。突变可为人工引入突变,并且可能包括但不限于催化结构域中的一个或多个突变。关于CRISPR相关转座酶的催化结构域的实例可包括但不限于RuvC I、RuvC II、RuvCIII和IS605_ORFB结构域。
在一些实施方案中,本文公开的CRISPR相关转座酶或其直系同源物或同源物可用作融合于或可操作地连接于功能性结构域的通用核酸结合蛋白。功能性结构域的实例可包括但不限于PvuII、MutH、TevI、FokI、AlwI、MlyI、SbfI、SdaI、StsI、CleDORF、Clo051、Pept071、重组酶、转座酶、甲基酶、翻译起始子、翻译活化子、翻译阻遏物、核酸酶(特别是核糖核酸酶)、剪接体、珠粒、光诱导型/控制型结构域或化学诱导型/控制型结构域。FokI核酸酶结构域需要二聚化来使DNA裂解,因此,具有Fok1功能性结构域的CRISPR相关转座酶为结合裂解位点的相对DNA链所需。
在一些实施方案中,未修饰CRISPR相关转座酶可具有裂解活性。在一些实施方案中,CRISPR相关转座酶在靶标序列的位置处或在靶标序列附近,诸如在靶标序列内和/或在靶标序列的互补序列内或在与靶标序列相关的序列处,指导对一个或两个核酸(DNA或RNA)链的裂解。在一些实施方案中,CRISPR相关转座酶可在离靶标序列的首个或末个核苷酸约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500个或更多个碱基对内指导对一个或两个DNA或RNA链的裂解。在一些实施方案中,裂解可为交错的,即产生粘性末端。在一些实施方案中,裂解是交错切割,伴有5'突出部分。在一些实施方案中,裂解是交错切割,伴有具有1至5个核苷酸、4或5个核苷酸的5'突出部分。在一些实施方案中,载体编码可关于相应野生型酶加以突变的CRISPR相关转座酶,以致突变CRISPR相关转座酶缺乏裂解含有靶标序列的靶标多核苷酸的一个或两个DNA或RNA链的能力。作为另一实例,可使CRISPR相关转座酶的两个或更多个催化结构域(例如RuvC I、RuvC II、RuvC III或IS605_ORFB结构域)突变以产生实质上缺乏全部DNA裂解活性的突变CRISPR相关转座酶。在一些实施方案中,当突变CRISPR相关转座酶的裂解活性是酶的非突变形式的核酸裂解活性的约至多25%、10%、5%、1%、0.1%、0.01%或更小时,CRISPR相关转座酶可被视为实质上缺乏全部裂解活性;实例可为当相较于非突变CRISPR相关转座酶,突变CRISPR相关转座酶的核酸裂解活性可忽略时。
靶标序列
如本文所用,术语“靶标多核苷酸”或“靶标序列”是指存在于多核苷酸中的由CRISPR相关转座酶所针对的核苷酸序列。在一些实施方案中,靶标多核苷酸或靶标序列在基因中。在这个情形下,术语“基因”意指基因组序列的对应于遗传单位的可定位区域,其包括调控区(诸如启动子、增强子)、5’非翻译区、内含子区域、3’非翻译区、转录区以及可以天然基因或转基因形式存在于植物基因组中的其他功能性序列区域。视情况而定,术语靶标序列或靶标基因可指被靶向以达成抑制的基因或基因产物的全长核苷酸序列,或被靶向以达成抑制的基因或基因产物的一部分的核苷酸序列。
如本文所述的核酸靶向系统的靶标多核苷酸可为对于原核或真核细胞来说是内源性或外源性的任何多核苷酸。举例来说,靶标多核苷酸可为存在于真核细胞的核中的多核苷酸。靶标多核苷酸可为编码基因产物(例如蛋白质)的序列,或非编码序列(例如调控多核苷酸或垃圾DNA),或两者组合。
靶标多核苷酸的实例包括与信号传导生物化学路径相关的序列,例如信号传导生物化学路径相关基因或多核苷酸。靶标多核苷酸的实例包括编码提供对除草剂的耐受性的蛋白质的基因,所述除草剂诸如5-烯醇丙酮酰基莽草酸-3-磷酸合成酶(EPSPS)、草甘膦(glyphosate)氧化还原酶(GOX)、草甘膦脱羧酶、草甘膦-N-乙酰基转移酶(GAT)、麦草畏(dicamba)单加氧酶、膦丝菌素(phosphinothricin)乙酰基转移酶、2,2-二氯丙酸脱卤素酶、乙酰羟酸合成酶、乙酰乳酸合成酶(ALS)、卤代芳基腈水解酶、乙酰基-辅酶A羧化酶、二氢蝶呤(dihydropteroate)合成酶、八氢番茄红素(phytoene)去饱和酶、原卟啉原(Protoporphyrinogen)氧化酶(PPO)、原卟啉(protoporphyrin)IX加氧酶、羟基苯基丙酮酸二加氧酶、对氨基苯甲酸合成酶、谷氨酰胺合成酶、纤维素合成酶、β-微管蛋白、4-羟基苯基丙酮酸二加氧酶(HPPD)和丝氨酸羟甲基转移酶。靶标多核苷酸的实例包括与疾病抗性基因座相关的多核苷酸。如本文所用,术语“疾病抗性基因座”是指植物中与疾病或病原体抗性相关的基因组区域。疾病抗性基因座可包含编码一种或多种对植物赋予对至少一种疾病或病原体的抗性的蛋白质的一个或多个基因、基因家族、基因阵列或QTL。在一个实施方案中,疾病抗性基因座包含一个或多个NBS-LRR疾病抗性基因,也被称为NB-LRR基因、R基因、LRR基因。在另一实施方案中,疾病抗性基因座包含一个或多个PRR疾病抗性基因。疾病抗性基因座可涵盖已知会赋予病原体抗性的特定基因、基因簇、基因阵列和/或基因家族,例如Rp1或Rpp1或Rps1。在另一实施方案中,疾病抗性基因座包括Rgh1基因座。在另一实施方案中,疾病抗性基因座包括Rgh4基因座。或者,疾病抗性基因座可涵盖然而赋予疾病抗性的实际基因/要素组成是未知的基因组区域。靶标多核苷酸的实例包括编码品质性状的多核苷酸,诸如棕色中脉(bmr)基因、蜡质(waxy)基因、白色(white)基因、Fad2、Fad3。
在不希望受理论束缚下,据信靶标序列应与PAM(原间隔子邻近基序)相关联;所述PAM即由CRISPR相关转座酶识别的短序列。视所用CRISPR相关转座酶而定,PAM的确切序列和长度要求有差异,但PAM通常是邻近于靶标序列的2-5个碱基对。在一些实施方案中,PAM在靶标序列的5’。在一些实施方案中,PAM在靶标序列的3’。PAM序列的实例在以下实施例2中给出,并且熟练人士将能够鉴定供与给定CRISPR相关转座酶一起使用的其他PAM序列。此外,对PAM相互作用(PI)结构域的工程化可允许对PAM特异性编程,改进靶标位点识别保真度,以及增加CRISPR相关转座酶的多用性。
CRISPR相关转座酶的用途
在一方面,本公开提供一种用于对细胞中的靶标核酸序列进行序列特异性修饰的方法,其包括向细胞提供一种或多种CRISPR相关转座酶。在一些实施方案中,一种或多种CRISPR相关转座酶通过在细胞中表达编码一种或多种CRISPR相关转座酶的重组DNA分子来提供。在一些实施方案中,一种或多种CRISPR相关转座酶通过使细胞与包含一种或多种CRISPR相关转座酶或编码一种或多种CRISPR相关转座酶的重组DNA分子的组合物接触来提供。在一些实施方案中,一种或多种CRISPR相关转座酶通过使细胞与包含一种或多种编码一种或多种CRISPR相关转座酶的RNA分子的组合物接触来提供。在一些实施方案中,方法进一步包括向细胞提供能够杂交于靶标核酸序列的引导RNA。在一些实施方案中,引导RNA通过在细胞中表达编码引导RNA的重组DNA分子来提供。在一些实施方案中,引导RNA通过使细胞与包含引导RNA或编码引导RNA的重组DNA分子的组合物接触来提供。在一些实施方案中,使引导RNA与CRISPR相关转座酶复合,并且向细胞提供。用于向植物细胞提供RNA的方法和组合物在本领域中是已知的。参见例如PCTUS2016035500、PCTUS2016035435和WO2011112570,其以引用的方式并入本文。
在一方面,本公开提供一种如本文讨论的方法,其中细胞是真核细胞。在一方面,本公开提供一种如本文讨论的方法,其中细胞是哺乳动物细胞。在一方面,本公开提供一种如本文讨论的方法,其中细胞是非人真核生物细胞。在一方面,本公开提供一种如本文讨论的方法,其中非人真核生物细胞是非人哺乳动物细胞。在一方面,本公开提供一种如本文讨论的方法,其中非人哺乳动物细胞可为灵长类动物、牛科动物、羊科动物、猪科动物、犬科动物、啮齿动物、兔科动物细胞,诸如猴、母牛、绵羊、猪、狗、兔、大鼠或小鼠细胞。在一方面,本公开提供一种如本文讨论的方法,其中细胞可为非哺乳动物真核细胞,诸如家禽(例如鸡)、有脊椎鱼(例如鲑鱼、罗非鱼)或甲壳类动物(例如蚝、蛤、龙虾、小虾)细胞。
在一方面,本公开提供一种如本文讨论的方法,其中真核细胞是植物细胞。植物细胞可来自单子叶植物或双子叶植物或作物或谷物植物,诸如木薯、玉米、高粱、苜蓿、棉花、大豆、卡诺拉油菜、小麦、燕麦或稻米。植物细胞也可来自藻类、树木或生产植物、果实或蔬菜(例如树木,诸如柑桔树,例如橙树、葡萄柚树或柠檬树;桃子树或油桃树;苹果树或梨树;坚果树,诸如杏仁树或胡桃树或阿月浑子(pistachio)树;茄属植物;芸苔属(Brassica)植物;莴苣属(Lactuca)植物;菠菜属(Spinacia)植物;辣椒属(Capsicum)植物;棉花、烟草、芦笋、鳄梨、番木瓜、木薯、胡萝卜、卷心菜、西兰花、花椰菜、番茄、茄子、胡椒、莴苣、菠菜、草莓、马铃薯、南瓜小果(squash)、甜瓜、蓝莓、树莓、黑莓、葡萄、咖啡、可可等)。
在另一方面,本公开提供一种离体或在体内对细胞汇集物中的基因组中的基因进行功能性筛选的方法,其包括施用或表达包含多种引导RNA的文库,并且其中筛选进一步包括使用如本文所述的CRISPR相关转座酶。在一些实施方案中,CRISPR相关转座酶被修饰以包含异源性功能性结构域。在一方面,本公开提供一种用于筛选基因组的方法,其包括在体内向细胞施用或在细胞中表达文库。在一方面,本公开提供一种如本文讨论的方法,其进一步包括向细胞施用或在细胞中表达活化剂。在一方面,本公开提供一种如本文讨论的方法,其中使活化剂连接于如本文所述的CRISPR相关转座酶。在一方面,本公开提供一种如本文讨论的方法,其中使活化剂连接于CRISPR相关转座酶的N末端或C末端。在一方面,本公开提供一种如本文讨论的方法,其中使活化剂连接于gRNA环。在一方面,本公开提供一种如本文讨论的方法,其进一步包括向细胞施用或在细胞中表达阻遏物。在一方面,本公开提供一种如本文讨论的方法,其中筛选包括实现和检测基因活化、基因抑制、或所靶向基因座中的裂解。
在一方面,本公开提供高效中靶活性,并且使脱靶活性最小化。在一方面,本公开提供由如本文所述的CRISPR相关转座酶达成的高效中靶裂解,并且使由所述CRISPR相关转座酶达成的脱靶裂解最小化。在一方面,本公开提供CRISPR相关转座酶在基因座处的引导RNA特异性结合,而无DNA裂解。在一方面,本公开提供CRISPR相关转座酶在基因组基因座处高效的由引导RNA指导的中靶结合,并且使所述CRISPR相关转座酶的脱靶结合最小化。因此,在一方面,本公开提供靶标特异性基因调控。在一方面,本公开提供使用一种或多种CRISPR相关转座酶达成的对多个靶标的正交活化和/或抑制和/或裂解。
在一方面,本公开提供一种如本文讨论的方法,其包括递送一种或多种CRISPR相关转座酶或编码一种或多种CRISPR相关转座酶的核酸分子,其中所述一个或多个核酸分子可操作地连接于一个或多个调控序列,并且在体内表达。在一方面,本公开提供一种如本文讨论的方法,其中一种或多种CRISPR相关转座酶在细胞中的表达是通过以下来达成:慢病毒、腺病毒、AAV、双粒病毒、烟草脆裂病毒(Tobacco Rattle Virus,TRV)、马铃薯X病毒(PVX)、中国番茄黄化曲叶病毒(TYLCCV)、菜豆金黄花叶病毒(Begomovirus)、大麦条纹花叶病毒(BSMV)、建兰花叶病毒(CymMV)、水稻东格鲁杆状病毒(Rice tungro bacilliformvirus,RTBV)、花椰菜花叶病毒(CaMV)、芜菁黄化花叶病毒(TYMV)、卷心菜曲叶病毒(CbLCV)、苹果潜伏性球状病毒(ALSV)、黄瓜花叶病毒(CMV)、棉花皱叶病毒(CLCrV)、非洲木薯花叶病毒(ACMV)、豌豆早褐病毒(PEBV)、甜菜曲顶病毒(BCTV)或土壤杆菌属。在一方面,本公开提供一种如本文讨论的方法,其中一种或多种CRISPR相关转座酶的递送是通过粒子、纳米粒子、脂质或细胞渗透肽(CPP)来达成。
在一方面,本公开提供一种包含CRISPR相关转座酶和引导RNA(gRNA)的核酸靶向系统,所述引导RNA包含能够杂交于细胞中的目标基因组基因座中的靶标序列的引导序列,其中所述gRNA结合所述CRISPR相关转座酶。
在一个方面,本公开提供一种用于改变或更改基因产物的表达的方法。方法可包括向细胞中引入和表达编码CRISPR相关转座酶的DNA分子,借此所述CRISPR相关转座酶裂解所述细胞的基因组中的产物靶标序列,借此基因产物的表达得以改变。本公开进一步包括CRISPR相关转座酶针对在真核细胞中表达加以密码子优化。在一实施方案中,真核细胞是植物细胞。在本公开的另一实施方案中,基因产物的表达被降低。
在一方面,本公开提供经改变细胞和那些细胞的子代,以及由所述细胞制备的产物。本公开的CRISPR相关转座酶和核酸靶向系统用于产生包含经修饰靶标基因座的细胞。在一些实施方案中,方法可包括使核酸靶向复合物结合靶标DNA或RNA以实现对所述靶标DNA或RNA的裂解,由此修饰所述靶标DNA或RNA,其中所述核酸靶向复合物包含CRISPR相关转座酶。在一个方面,本公开提供一种修复细胞中的遗传基因座的方法。在另一方面,本公开提供一种改变真核细胞中的DNA或RNA的表达的方法。在一些实施方案中,方法包括使核酸靶向复合物结合DNA或RNA,以使所述结合导致所述DNA或RNA的表达增加或降低;其中所述核酸靶向复合物包含CRISPR相关转座酶。类似考虑事项和条件如上适用于对靶标DNA或RNA进行修饰的方法。实际上,这些取样、培养和再引入选项跨越本公开的各个方面都适用。在一方面,本公开提供对真核细胞中的靶标DNA或RNA进行修饰的方法,所述方法可为体内、离体或体外方法。在一些实施方案中,方法包括从植物对细胞或细胞群体取样,以及对所述一个或多个细胞进行修饰。培养可离体发生在任何阶段。所述细胞可为不限于植物细胞、动物细胞、酵母细胞、任何生物体的特定细胞类型,包括原生质体、体细胞、生殖细胞、单倍体细胞、干细胞、免疫细胞、T细胞、B细胞、树突细胞、心血管细胞、上皮细胞、干细胞等。细胞可根据本公开加以修饰以例如以视用途而定可增加或降低的控制量产生基因产物,和/或加以突变。在某些实施方案中,细胞的遗传基因座被修复。一个或多个细胞可甚至被再引入非人动物或植物中。对于再引入的细胞,可优选的是细胞是干细胞。
在一方面,本公开提供短暂包含核酸靶向系统或其组分的细胞。举例来说,向细胞短暂提供CRISPR相关转座酶以及任选短暂提供引导RNA,并且使遗传基因座改变,继之以核酸靶向系统的一个或多个组分的量的下降。随后,已获得CRISPR相关转座酶介导的遗传改变的细胞、细胞的子代和包含细胞的生物体包含减少量的一个或多个核酸靶向系统组分,或不再含有或包含一个或多个核酸靶向系统组分。
基因编辑或改变靶标基因座
在一些实施方案中,一个链中的双链断裂或单链断裂足够接近于靶标序列以致发生模板修复。在一实施方案中,距离不超过10、20、50、100、150、200、250、300、350或400个核苷酸。在不希望受特定理论束缚下,据信断裂应足够接近于靶标序列以致断裂处于在末端切除期间经受核酸外切酶介导的移除的区域内。
在一实施方案中,包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列的CRISPR相关转座酶或其直系同源物或同源物诱导双链断裂以达成诱导HDR介导的修复的目的,其中裂解位点在远离靶标序列0-200bp(例如0至175、0至150、0至125、0至100、0至75、0至50、0至25、25至200、25至175、25至150、25至125、25至100、25至75、25至50、50至200、50至175、50至150、50至125、50至100、50至75、75至200、75至175、75至150、75至125、75至100bp)之间。在一实施方案中,裂解位点在远离靶标序列0-100bp(例如0至75、0至50、0至25、25至100、25至75、25至50、50至100、50至75或75至100bp)之间。
在一些实施方案中,同源臂延伸至少远至其中可发生末端切除的区域,例如以允许经切除单链突出部分发现供体模板内的互补性区域。在一些实施方案中,总长度受限于诸如质粒大小或病毒包装限度的参数。同源臂长度的实例包括至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950或1000个核苷酸。
如本文所用的靶标序列是指由包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列的CRISPR相关转座酶或其直系同源物或同源物修饰的核酸序列。在一些实施方案中,CRISPR相关转座酶由引导RNA导向靶标序列。靶标序列可通过由CRISPR相关转座酶达成的裂解以及对所述靶标序列的修复来修饰。在一实施方案中,对靶标序列的修复可导致添加或缺失一个或多个核苷酸。在一些实施方案中,靶标序列可包含一个或多个通过模板核酸的并入来改变的核苷酸。
在某些实施方案中,CRISPR相关转座酶诱导的非同源性末端接合(NHEJ)可用于进行靶标基因特异性敲除。CRISPR相关转座酶诱导的NHEJ也可用于移除(例如缺失)目标基因中的序列。通常,NHEJ通过将两个末端接合在一起来修复DNA中的双链断裂;然而,通常,仅当完全如同它们由双链断裂所形成的那样的两个可相容末端被完美连接时,原始序列才被恢复。双链断裂的DNA末端经常是酶促加工的对象,从而导致在末端再接合之前在一个或两个链处添加或移除核苷酸。这导致在DNA序列中在NHEJ修复的位点处存在插入和/或缺失(插入缺失)突变。这些突变的三分之二通常改变阅读框,因此,产生非功能性蛋白质。另外,维持阅读框,但插入或缺失大量序列的突变可破坏蛋白质的功能性。这依赖于基因座,因为相比于蛋白质的非关键区域中的突变,关键功能性结构域中的突变的可耐受性可能较小。由NHEJ产生的插入缺失突变在自然界中不可预测;然而,在给定断裂位点处,某些插入缺失序列占优势,并且在群体中过度表现,这可能归因于具有微同源性的小区域。缺失的长度可广泛变化;最通常在1-50bp范围内,但它们可易于大于50bp,例如它们可易于达到大于约100-200bp。插入倾向于较短,并且常常紧靠在断裂位点周围包括序列的短重复。然而,有可能获得大型插入,并且在这些情况下,插入序列已常常被追溯至基因组的其他区域或细胞中存在的质粒DNA。
因为NHEJ是一种诱变过程,所以它也可用于使小序列基序缺失,只要不需要产生特定最终序列即可。如果以在短靶标序列附近的双链断裂为目标,那么由NHEJ修复引起的缺失突变常常跨越并且因此移除非所要核苷酸。对于缺失较大DNA区段,引入两个双链断裂(在序列的每侧上各一个)可导致在末端之间的NHEJ,伴有对整个间插序列的移除。这两种途径均可用于使特定DNA序列缺失;然而,NHEJ的易出错性质可还在修复位点处产生插入缺失突变。
双链裂解CRISPR相关转座酶与单链裂解CRISPR相关转座酶两者或其直系同源物或同源物可在本文所述的方法和组合物中用于产生NHEJ介导的插入缺失。靶向某一基因,例如编码区,例如目标基因的早期编码区的NHEJ介导的插入缺失可用于敲除目标基因(即消除目标基因的表达)。举例来说,目标基因的早期编码区包括紧接在转录起始位点之后,在编码序列的第一外显子内,或在转录起始位点的500bp内(例如小于500、450、400、350、300、250、200、150、100或50bp)的序列。
全基因组敲除筛选
本文所述的CRISPR相关转座酶和核酸靶向系统可用于进行功能性基因组筛选。在一些实施方案中,基因组筛选可利用基于引导RNA的全基因组文库。所述筛选和文库可提供确定在特定生物过程中,基因的功能,涉及的细胞路径基因,以及任何基因表达改变可如何产生结果。在一些实施方案中,CRISPR相关转座酶包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列或其直系同源物或同源物。
在一些实施方案中,全基因组文库可包含如本文所述的多种引导RNA,其包含能够靶向真核细胞的群体中的多个基因组基因座中的多个靶标序列的引导序列。细胞群体可为植物细胞的群体。基因组基因座中的靶标序列可为非编码序列。非编码序列可为内含子、调控序列、剪接位点、3'UTR、5'UTR或多聚腺苷酸化信号。一种或多种基因产物的基因功能可通过所述靶向来改变。靶向可导致基因功能敲除。对基因产物的靶向可包括超过一个引导RNA。基因产物可由2、3、4、5、6、7、8、9或10个引导RNA靶向。靶向可关于约100个或更多个序列。靶向可关于约1000个或更多个序列。靶向可关于约20,000个或更多个序列。靶向可关于整个基因组。靶向可关于集中在相关或合乎需要路径上的一组靶标序列。路径可为免疫路径。路径可为细胞分裂路径。
本公开的一个方面包括一种可包含多种引导RNA的全基因组文库,所述引导RNA可包含能够靶向多个基因组基因座中的多个靶标序列的引导序列,其中所述靶向导致基因功能敲除。这个文库可潜在包含靶向生物体的基因组中的各个和每个基因的引导RNA。在一些实施方案中,生物体是植物。
在本公开的一些实施方案中,生物体是真核生物(包括哺乳动物,包括人)或非人真核生物或非人动物或非人哺乳动物。在一些实施方案中,生物体是非人动物,并且可为节肢动物例如昆虫,或可为线虫。在本公开的一些方法中,生物体是植物。在本公开的一些方法中,生物体或受试者是藻类,包括微藻,或是真菌。
功能性改变和筛选
在另一方面,本公开提供一种对基因进行功能性评估和筛选的方法。若干实施方案涉及本公开的CRISPR相关转座酶用以精确递送功能性结构域,活化或阻遏基因,或通过精确改变特定目标基因座上的甲基化位点来改变表观遗传状态的用途,其通过提供包含与选自由SEQ ID NO:124-246和275-297组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列的CRISPR相关转座酶来达成,其中所述CRISPR相关转座酶被修饰以包含异源性功能性结构域。在一方面,本公开提供一种如本文讨论的方法,其进一步包括向宿主施用或在宿主中表达活化剂。在一方面,本公开提供一种如本文讨论的方法,其中使活化剂连接于CRISPR相关转座酶。在一方面,本公开提供一种如本文讨论的方法,其中使活化剂连接于CRISPR相关转座酶的N末端或C末端。在一方面,本公开提供一种如本文讨论的方法,其中筛选包括实现和检测基因活化、基因抑制、或基因座中的裂解。
在一方面,本公开提供一种如本文讨论的方法,其中宿主是真核细胞。在一方面,本公开提供一种如本文讨论的方法,其中宿主是哺乳动物细胞。在一方面,本公开提供一种如本文讨论的方法,其中宿主是非人真核生物。在一方面,本公开提供一种如本文讨论的方法,其中非人真核生物是植物。
使用核酸靶向系统来修饰细胞或生物体的方法
在一些实施方案中,本公开包括一种对细胞或生物体进行修饰的方法。细胞可为原核细胞或真核细胞。细胞可为哺乳动物细胞。哺乳动物细胞可为非人灵长类动物、牛科动物、猪科动物、啮齿动物或小鼠细胞。细胞可为非哺乳动物真核细胞,诸如家禽、鱼或小虾细胞。细胞也可为植物细胞。植物细胞可来自作物植物,诸如木薯、大豆、玉米、棉花、苜蓿、卡诺拉油菜、高粱、小麦或稻米。植物细胞也可来自藻类、树木或蔬菜。通过本公开引入细胞中的修饰可使得细胞和细胞的子代得以改变以达成生物产品的生产改进,所述产品诸如抗体、油、纤维、淀粉、酒精或其他所需细胞输出物。通过本公开引入细胞中的修饰可使得细胞和细胞的子代包括使产生的生物产品变化的改变。
核酸靶向系统可包含一种或多种不同载体。在本公开的一方面,CRISPR相关转座酶针对在所需细胞类型优先是真核细胞优选是植物细胞中表达加以密码子优化。
核酸靶向系统及其组分的递送
通过本公开和本领域中的知识,核酸靶向系统,具体来说是本文所述的新型系统,或其组分或其核酸分子(包括例如HDR模板)或编码或提供其组分的核酸分子可通过本文一般以及详细描述的递送系统来递送。
CRISPR相关转座酶例如由选自SEQ ID NO:1-123、604-627和2020-3379的多核苷酸序列编码的那些,和/或任何本发明RNA例如引导RNA,可使用任何适合载体例如质粒或病毒载体来递送,诸如根癌土壤杆菌的Ti质粒、双粒病毒、烟草脆裂病毒(TRV)、马铃薯X病毒(PVX)、中国番茄黄化曲叶病毒(TYLCCV)、菜豆金黄花叶病毒、大麦条纹花叶病毒(BSMV)、建兰花叶病毒(CymMV)、水稻东格鲁杆状病毒(RTBV)、花椰菜花叶病毒(CaMV)、芜菁黄化花叶病毒(TYMV)、卷心菜曲叶病毒(CbLCV)、苹果潜伏性球状病毒(ALSV)、黄瓜花叶病毒(CMV)、棉花皱叶病毒(CLCrV)、非洲木薯花叶病毒(ACMV)、豌豆早褐病毒(PEBV)、甜菜曲顶病毒(BCTV)、腺相关病毒(AAV)、慢病毒、腺病毒或其他病毒载体类型或其组合。编码CRISPR相关转座酶的多核苷酸可被包装至一种或多种载体例如质粒或病毒载体中。在一些实施方案中,通过例如粒子轰击、土壤杆菌属感染或其他递送方法来将载体例如质粒或病毒载体递送至目标组织中。所述递送可通过单次剂量或多次剂量来达成。本领域技术人员了解本文待递送的实际剂量可视多种因素而定极大变化,所述因素诸如载体选择、靶标细胞、生物体、或组织、待处理的受试者的总体状况、所寻求的转化/修饰程度、施用途径、施用模式、所寻求的转化/修饰类型等。
这种剂量可进一步含有例如载体(水、盐水、乙醇、甘油、乳糖、蔗糖、磷酸钙、明胶、右旋糖酐、琼脂、果胶、花生油、芝麻油等)、稀释剂、药学上可接受的载体(例如磷酸盐缓冲盐水)、药学上可接受的赋形剂和/或本领域中已知的其他化合物。剂量可进一步含有一种或多种药学上可接受的盐,诸如像矿物酸盐,诸如盐酸盐、氢溴酸盐、磷酸盐、硫酸盐等;以及有机酸的盐,诸如乙酸盐、丙酸盐、丙二酸盐、苯甲酸盐等。另外,本文中也可存在辅助物质,诸如湿润剂或乳化剂、pH缓冲物质、凝胶或胶凝物质、调味剂、着色剂、微球体、聚合物、混悬剂等。此外,也可存在一种或多种其他常规药物成分,诸如防腐剂、保湿剂、混悬剂、表面活性剂、抗氧化剂、防结块剂、填充剂、螯合剂、包覆剂、化学稳定剂等,尤其是如果剂型是可复原形式。适合成分包括微晶纤维素、羧甲基纤维素钠、聚山梨醇酯80、苯基乙醇、氯丁醇、山梨酸钾、山梨酸、二氧化硫、没食子酸丙酯(propyl gallate)、对羟基苯甲酸酯、乙基香兰素(ethyl vanillin)、甘油、苯酚、对氯酚、明胶、白蛋白及其组合。对药学上可接受的赋形剂的彻底讨论可在以引用的方式并入本文的REMINGTON'S PHARMACEUTICAL SCIENCES(Mack Pub.Co.,N.J.1991)中获得。
在本文中的一实施方案中,递送是通过质粒来达成。在所述质粒组合物的情况下,剂量应是质粒的足以引发响应的量。举例来说,质粒组合物中的质粒DNA的适合量可为约0.1至约2mg,或约1μg至约10μg。本公开的质粒将通常包含以下中的一者或多者:(i)启动子;(ii)可操作地连接于所述启动子的编码CRISPR相关转座酶的序列;(iii)可选择标记;(iv)复制起点;和(v)在(ii)的下游且可操作地连接于(ii)的转录终止子。质粒也可编码引导RNA和/或tracrRNA,但这些中的一者或多者可改为在不同载体上编码。
在一些实施方案中,本公开的RNA分子于脂质体或脂质转染制剂等中递送,并且可通过为本领域技术人员熟知的方法制备。所述方法例如描述于以引用的方式并入本文的美国专利号5,593,972、5,589,466、5,580,859和9,121,022中。特定旨在增强和改进siRNA向哺乳动物细胞中的递送的递送系统已被开发(参见例如Shen等FEBS Let.2003,539:111-114;Xia等,Nat.Biotech.2002,20:1006-1010;Reich等,Mol.Vision.2003,9:210-216;Sorensen等,J.Mol.Biol.2003,327:761-766;Lewis等,Nat.Gen.2002,32:107-108以及Simeoni等,NAR 2003,31,11:2717-2724),并且可应用于本公开。
在一些实施方案中,RNA递送是体内递送。有可能使用脂质体或纳米粒子将编码CRISPR相关转座酶的RNA分子和引导RNA递送至细胞中。因此,CRISPR相关转座酶的递送和/或本公开的RNA的递送可以RNA形式,并且通过微囊泡、脂质体或一种或多种粒子来达成。举例来说,可将编码CRISPR相关转座酶的mRNA包装至脂质体粒子中以进行体内递送。脂质体转染试剂诸如来自Life Technologies的转脂胺和其他在售试剂可将RNA分子有效递送至肝中。
递送RNA的手段也包括通过粒子(Cho,S.,Goldberg,M.,Son,S.,Xu,Q.,Yang,F.,Mei,Y.,Bogatyrev,S.,Langer,R.和Anderson,D.,Lipid-like nanoparticles for smallinterfering RNA delivery to endothelial cells,Advanced Functional Materials,19:3112-3118,2010)或外体((Schroeder,A.,Levins,C.,Cortez,C.,Langer,R.和Anderson,D.,Lipid-based nanotherapeutics for siRNA delivery,Journal ofInternal Medicine,267:9-21,2010,PMID:20059641)来递送RNA。实际上,已显示外体特别适用于递送作为与CRISPR系统具有一些相似的系统的siRNA。举例来说,El-Andaloussi S等人("Exosome-mediated delivery of siRNA in vitro and in vivo."NatProtoc.2012年12月;7(12):2112-26.doi:10.1038/nprot.2012.131.2012年11月15日电子出版)描述外体如何是有前景的用于跨越不同生物屏障进行药物递送的工具,以及如何可被利用来在体外和在体内递送siRNA。
若干实施方案涉及使NHEJ或HR效率增强。NHEJ效率可通过共同表达末端加工酶诸如Trex2来增强(Dumitrache等Genetics.2011年8月;188(4):787-797)。优选的是HR效率通过短暂抑制NHEJ机构诸如Ku70和Ku86来增加。HR效率也可通过共同表达原核或真核同源性重组酶诸如RecBCD、RecA来增加。
粒子递送系统和/或制剂
已知若干类型的粒子递送系统和/或制剂适用于不同范围的应用中。一般来说,粒子定义为就它的输送和性质而言表现为整体单位的小物体。粒子进一步根据直径加以分类。粗粒子涵盖在2,500与10,000纳米之间的范围。精细粒子的尺寸在100与2,500纳米之间。超细粒子或纳米粒子的尺寸通常在1与100纳米之间。100nm界限的基础是以下事实:将粒子与大块物质相区分的新型性质通常在不足100nm的临界长度尺度下显现。
如本文所用,粒子递送系统/制剂定义为包括本公开的粒子的任何生物递送系统/制剂。本公开的粒子是具有小于100微米(μm)的最大尺寸(例如直径)的任何实体。在一些实施方案中,本发明粒子具有小于10μm的最大尺寸。在一些实施方案中,本发明粒子具有小于2000纳米(nm)的最大尺寸。在一些实施方案中,本发明粒子具有小于1000纳米(nm)的最大尺寸。在一些实施方案中,本发明粒子具有小于900nm、800nm、700nm、600nm、500nm、400nm、300nm、200nm或100nm的最大尺寸。通常,本发明粒子具有500nm或更小的最大尺寸(例如直径)。在一些实施方案中,本发明粒子具有250nm或更小的最大尺寸(例如直径)。在一些实施方案中,本发明粒子具有200nm或更小的最大尺寸(例如直径)。在一些实施方案中,本发明粒子具有150nm或更小的最大尺寸(例如直径)。在一些实施方案中,本发明粒子具有100nm或更小的最大尺寸(例如直径)。例如具有50nm或更小的最大尺寸的较小粒子用于本公开的一些实施方案中。在一些实施方案中,本发明粒子具有在25nm与200nm之间的范围内的最大尺寸。
在本公开的范围内的粒子递送系统可以任何形式提供,包括但不限于固体、半固体、乳液或胶体粒子。因此,任何本文所述的递送系统,包括但不限于例如基于脂质的系统、脂质体、胶束、微囊泡、外体或基因枪,都可作为在本公开的范围内的粒子递送系统提供。
本公开涉及核酸靶向系统的通过至少一种纳米粒子复合物来递送的至少一个组分,例如CRISPR相关转座酶、gRNA。在一些方面,本公开提供包括将一种或多种多核苷酸,诸如一种或多种如本文所述的载体、一种或多种其转录物和/或一种或多种从其转录的蛋白质递送至宿主细胞中的方法。在一些方面,本公开进一步提供通过所述方法产生的细胞,以及包含所述细胞或由所述细胞产生的植物。在一些实施方案中,将与引导RNA组合(并且任选与引导RNA复合)的CRISPR相关转座酶递送至细胞中。常规基于病毒和非病毒的基因转移方法可用于在植物细胞或靶标组织中引入核酸。所述方法可用于向所培养的细胞或宿主生物体中的细胞施用编码核酸靶向系统的组分的核酸。非病毒载体递送系统包括DNA质粒、RNA(例如本文所述的载体的转录物)、裸核酸和与递送载体诸如脂质体复合的核酸。病毒载体递送系统包括DNA和RNA病毒,在递送至细胞中之后,其具有游离或整合的基因组。
在一些实施方案中,一种或多种本文所述的载体用于产生非人转基因动物或转基因植物。在一些实施方案中,转基因动物是哺乳动物,诸如小鼠、大鼠或兔。用于产生转基因动物和植物的方法在本领域中是已知的,并且通常以诸如本文所述的细胞转染方法开始。在一个方面,本公开提供对真核细胞中的靶标多核苷酸进行修饰的方法。在一些实施方案中,方法包括使CRISPR相关转座酶实现对所述靶标多核苷酸的裂解,由此修饰靶标多核苷酸。
在植物中使用核酸靶向系统
本文公开的核酸靶向系统可与作物基因组学中的新近进步联合使用。本文所述的系统可用于进行高效和有成本效益的植物基因或基因组询问或编辑或操作。核酸靶向系统可关于植物用于定点整合(SDI)或基因编辑(GE)或任何近反向育种或反向育种技术中。利用本文所述的核酸靶向系统的各个方面可类似于CRISPR-Cas(例如CRISPR-Cas9)系统在植物中的使用,并且提及亚利桑那大学(University of Arizona)网站“CRISPR-PLANT”(http://www.genome.arizona.edu/crispr/)(由宾夕法尼亚州立大学(Penn State)和AGI支持)。
用于使用如本文所述的核酸靶向系统进行基因组编辑的方法可用于对基本上任何植物赋予所需性状。可使用本公开的核酸构建体和以上提及的各种转化方法来工程化广泛多种植物和植物细胞系统以获得本文所述的所需生理和农艺学特征。
在一些实施方案中,引入编码核酸靶向系统的组分的多核苷酸以达成稳定整合至植物细胞的基因组中。在这些实施方案中,对转化载体或表达系统的设计可视何时、何地以及在什么条件下表达引导RNA和/或CRISPR相关转座酶而调整。
在一些实施方案中,在植物、植物组织或植物细胞中短暂表达编码核酸靶向系统的组分的多核苷酸。在这些实施方案中,核酸靶向系统可确保仅当CRISPR相关转座酶存在于细胞中时对靶标基因进行修饰,以使基因组修饰可进一步得以控制。因为CRISPR相关转座酶的表达是短暂的,所以从所述植物细胞再生的植物通常不含有外来DNA。在特定实施方案中,CRISPR相关转座酶由植物细胞稳定表达,并且短暂表达引导RNA。在特定实施方案中,CRISPR相关转座酶由植物细胞稳定表达,并且引导RNA通过任何本文所述的方法来直接向植物细胞提供。
编码核酸靶向系统的组分的一个或多个DNA构建体以及当适用时模板序列可通过多种常规技术来引入植物、植物部分或植物细胞中。
在特定实施方案中,核酸靶向系统组分可使用植物病毒载体来引入植物细胞中。在一些实施方案中,病毒载体是来自DNA病毒的载体。举例来说,双粒病毒(例如卷心菜曲叶病毒、菜豆黄矮病毒、小麦矮缩病毒、番茄曲叶病毒、玉米条纹毒病、烟草曲叶病毒或番茄金色花叶病毒)或纳米病毒(例如蚕豆坏死黄化病毒)。在一些实施方案中,病毒载体是来自RNA病毒的载体。举例来说,烟草脆裂病毒(tobravirus)(例如烟草脆裂病毒(tobaccorattle virus)、烟草花叶病毒)、马铃薯x病毒(potexvirus)(例如马铃薯X病毒(potatovirus X))、或大麦病毒(hordeivirus)(例如大麦条纹花叶病毒)。植物病毒的复制基因组是非整合型载体。
本文所述的方法通常导致产生相较于野生型植物,包含一种或多种合乎需要的性状的植物。在一些实施方案中,所得植物、植物细胞或植物部分是包含并入植物的全部或部分细胞的基因组中的外源性DNA序列的转基因植物。在其他实施方案中,获得非转基因遗传修饰植物、植物部分或细胞,因为无外源性DNA序列并入植物的任何植物细胞的基因组中。在所述实施方案中,植物是非转基因的。当仅确保对内源性基因的修饰并且不在植物基因组中引入或维持外来基因时;所得遗传修饰植物不含有非天然基因。
在一些实施方案中,使核酸靶向系统靶向叶绿体。在一些实施方案中,靶向可通过存在N末端延伸部分称为叶绿体转运肽(CTP)或质体转运肽来实现。
参考文献
Bland C,et al.CRISPR Recognition Tool(CRT):a tool for automaticdetection of clustered regularly interspaced palindromic repeats.BMCBioinformatics.2007 Jun 18;8(1):209.
Chen and Zhao,Nucleic Acids Research,2005 33:e154.
Edgar RC.Search and clustering orders of magnitude faster thanBLAST.Bioinformatics.
2010 Oct 1;26(19):2460-1.
Eddy,S.R.,HMMER3 beta test:User’s Guide,Version 3.0b3;November 2009,at the web site hmmer.org.
Geissmann,Q.PLoS One 8,2013.
Guo et al.,J.Mol Biol.2010 400(1):96-107.
Kapitonov et al.ISC,a Novel Group of Bacterial and Archaeal DNATransposons That Encode Cas9 Homologs.,J Bacteriol.2016 Mar 1;198(5):797-807.
Karvelis et al.Genome Biology(2015)16∶253.
Kleinstiver,et al.,Nature 2015 523:481-485.
Shmakov et al.Molecular Cell(2015)60:1-13.
Wang et al.(Restriction-ligation-free(RLF)cloning:a high-throughputcloning method by in vivo homologous recombination of PCR products.2015Genet.Mol.Res.,14,12306-12315.
Yin,P.et al.Structural basis for the modular recognition of single-stranded RNA by PPR proteins.2013 Nature 504,168-171.
Zetsche et al.Cell,2015 163:759-771.
Zhang and Muench et al.A Nucleolar PUF RNA-binding Protein withSpecificity for a Unique RNA Sequence.J Biol Chem.2015 Dec 11;290(50):30108-18.
Zhu et al.Journal of Genetics and Genomics 43(2016)25-36.
以下实施例尽管指示本发明的实施方案,但仅出于说明目的而提供,并且不应用于限制本发明。
实施例
实施例1:鉴定编码CRISPR相关转座酶的细菌序列。
许多编码转座酶的序列基于它们与CRISPR(重复元件)基因座的紧密邻近性而加以鉴定。编码转座酶的多核苷酸序列通过生物信息学搜索来自以下的细菌基因组加以鉴定:赖氨酸芽孢杆菌属某种、短芽孢杆菌属某种、鞘氨醇杆菌属某种、水杆菌属某种、芽孢杆菌属某种、金黄杆菌属某种、鞘氨醇单胞菌属某种、双头菌属某种、侧孢短芽孢杆菌、苏云金芽孢杆菌、韦氏芽孢杆菌、巨大芽孢杆菌、粪肠球菌、短短芽孢杆菌、迟钝水杆菌、玫瑰色新鞘氨醇杆菌、嗜甲氨基双头菌、类短短芽孢杆菌、类芽孢杆菌属某种、解硫胺素类芽孢杆菌、缓病类芽孢杆菌、土地类芽孢杆菌、链霉菌属某种和寡养单胞菌属某种。
完成了使用CRISPR识别工具v1.1对15980个细菌基因组的CRISPR序列的搜索(Bland,2007;网址:room220.com/crt)。由这个搜索,鉴定20467个CRISPR基因座,其中在注释为推定转座酶的编码区的2kb内鉴定622个CRISPR基因座。通过排除与已知Cas蛋白相关;在编码区内出现;或来源于不合需要的细菌菌株的基因座来将CRISPR基因座进一步优先考虑以及缩窄为521个独特基因座。优先考虑导致鉴定123种具有至少300个氨基酸(由核苷酸序列SEQ ID NO:1–123编码)的独特CRISPR相关转座酶蛋白(SEQ ID NO:124–246)。
使用USEARCH工具在50%序列同一性截断值下(Edgar,2010)将转座酶蛋白质序列(SEQ ID NO:124–246)进行比对,并且鉴定12个序列比对簇,如表1中所示。从12个序列比对簇,选择23个转座酶蛋白以代表蛋白质多样性,并且相应相关CRISPR阵列多核苷酸序列提供于表2中。
可将各簇中的转座酶蛋白质序列比对以进一步显示它们之间的序列类似性,并且关于第4簇(SEQ ID NO:228–231)的一个实例提供于图1中。第4簇中蛋白质序列之间的序列同一性百分数呈现于表3中。表中的各单元格显示相应行中的转座酶蛋白(查询序列)相较于相应列中的转座酶蛋白(主题序列)的除以查询序列的总长度的同一性百分比,并且括号中的数字是在查询序列与主题序列之间同一的残基的总数。如可由表3和图1所见,第4簇中的这些转座酶的蛋白质序列之间的同一性百分比在约86%至约98%同一性的范围内。
表1.在123个转座酶之中鉴定的序列簇。
表2.被选择来代表跨越12个簇的蛋白质多样性的转座酶和相关CRISPR阵列。
表3.簇ID4中的各转座酶蛋白的蛋白质序列的同一性百分比比较。
由如本文所述的多核苷酸序列编码的转座酶蛋白质序列也可被设计或选择来具有一个或多个已知在化学上和/或在结构上具有保守性的氨基酸取代(例如用具有类似化学或物理性质诸如疏水性、极性、电荷、位阻效应、酸/碱化学性质、类似侧链基团诸如羟基、巯基、氨基等的另一氨基酸替代一个氨基酸)以避免或最小化对蛋白质的可能影响它的功能的结构变化。保守性氨基酸取代的实例呈现于表4中。由如本文所述的多核苷酸序列编码的转座酶蛋白质序列可包括由于涉及一个或多个氨基酸的一个或多个缺失和/或插入而与具有SEQ ID NO:124-246或类似序列的CRISPR相关转座酶的那些蛋白质序列有一个或多个氨基酸差异的蛋白质,并且也可基于已知转座酶蛋白质序列以及它们的保守氨基酸残基和结构域加以设计或选择。氨基酸突变可以单一氨基酸取代形式或与一种或多种其他突变诸如一种或多种其他氨基酸取代、缺失或添加组合在蛋白质中产生。突变可通过为本领域技术人员所知的任何方法来产生。
表4:氨基酸取代。
残基 保守性取代 残基 保守性取代
Ala Ser Leu Ile;Val
Arg Lys Lys Arg;Gln
Asn Gln;His Met Leu;Ile
Asp Glu Phe Met;Leu;Tyr
Gln Asn Ser Thr;Gly
Cys Ser Thr Ser;Val
Glu Asp Trp Tyr
Gly Pro Tyr Trp;Phe
His Asn;Gln Val Ile;Leu
Ile Leu;Val
额外CRISPR相关转座酶通过使用与以上所述相同的生物信息学程序来进一步鉴定,其中对搜索准则进行以下变化。在初始搜索参数中,选择是300个氨基酸或更长且在CRISPR基因座的2kb内的转座酶。在这轮中,如果它们在CRISPR基因座的2.2kb内,那么选择额外转座酶,而无论蛋白质长度如何。鉴定总计13个额外转座酶蛋白质,即SEQ ID NO:275-287。
实施例2:对所鉴定CRISPR相关转座酶的序列分析
所鉴定的136个编码CRISPR相关转座酶的序列的Pfam注释呈现于表5中。关于各蛋白质,指示结构域ID(例如PUF、OrfB_IS605或OrfB_Zn_带),接着依次是结构域E值、pfam结构域坐标(起点和终点)和端点坐标符号。对于各对查询物和靶标端点坐标,端点坐标符号具有以下含义:在内部结束的比对两端由“..”表示;比对两端与查询物的末端齐平并且靶标由“[]”表示;其中仅左端或右端是齐平/全长分别由“[.”或“.]”表示(Eddy,2009;网站hmmer.org)。
表5.转座酶(SEQ ID NO:124-246、275-287)的Pfam注释。
蛋白质分簇
使用USEARCH工具在50%序列同一性截断值下(Edgar,2010)将CRISPR相关转座酶蛋白质序列(SEQ ID NO:124-246、275-287)进行比对,并且鉴定13个序列比对簇,如表6中所示。大多数所鉴定转座酶属于第1簇,并且表5中的Pfam注释指示第1簇成员蛋白质包含OrfB_IS605、OrfB_Zn_带和Puf结构域。
表6.对于SEQ ID NO:124-246、275-287鉴定的蛋白质序列比对簇。
编码转座酶的多核苷酸序列
对于转座酶蛋白SEQ ID NO:124-246、275-287,也鉴定了相应多核苷酸编码区,参见表7。单一蛋白质序列可由一个或多个不同核苷酸序列编码,因为序列从不同细菌物种或菌株鉴定。举例来说,对于蛋白质SEQ ID NO:127,相应DNA序列是SEQ ID NO:4、288、289、290和291。
表7.蛋白质序列SEQ ID NO:124-246、275-287以及相应编码区的相应DNA序列。
与转座酶相关的CRISPR序列
鉴定与转座酶相关的CRISPR序列,参见表8。各CRISPR序列包括基因组序列的从CRISPR区域的上游5’末端与下游3’末端两者延伸的50个核苷酸(例外之处是SEQ ID NO:816,其在5’末端不含有额外50个核苷酸)。对于一些转座酶,鉴定了多个相关CRISPR序列,例如多核苷酸序列(SEQ ID NO:559,其编码蛋白质序列SEQ ID NO:201)与两个CRISPR序列–SEQ ID NO:987和988相关。另外,单一CRISPR序列可与两个或更多个转座酶蛋白编码区相关,例如多核苷酸序列SEQ ID NO:98和SEQ ID NO:16与同一CRISPR序列SEQ ID NO:679相关。这也对于以下各对多核苷酸观察到:SEQ ID NO:99和9均与CRISPR序列SEQ ID NO:647相关,SEQ ID NO:100和301均与CRISPR序列SEQ ID NO:647相关,SEQ ID NO:595和11均与CRISPR序列SEQ ID NO:653相关,SEQ ID NO:596和302均与CRISPR序列SEQ ID NO:651相关,并且SEQ ID NO:597和303均与CRISPR序列SEQ ID NO:654相关。
表8.与转座酶(SEQ ID NO:124-246、275-287)相关的CRISPR序列。
CRIPSR重复序列和间隔子在各CRISPR序列内的坐标
使用生物信息学分析鉴定重复序列和间隔子在各CRIPSR序列内的位置。对于关于各转座酶加以选择的代表性CRISPR序列,使用CRISPR识别工具(Bland,2007)鉴定CRISPR区域的重复序列和间隔子序列,接着手动检查序列以调整重复序列和间隔子序列。关于各转座酶(SEQ ID NO:124-246、275-287)加以选择的代表性CRISPR序列的经整理重复序列和间隔子序列坐标提供于表9中。
表9.关于各转座酶(SEQ ID NO:124-246、275-287)的代表性CRISPR序列加以鉴定的重复序列和间隔子坐标。
预测转座酶的PAM基序和引导RNA
表9中所列的经整理间隔子序列用于针对噬菌体和病毒基因组序列的数据集进行的blast搜索中。病毒基因组数据集从ENA(欧洲核苷酸档案库(European NucleotideArchive))下载。噬菌体基因组数据集从ENA、NCBI(美国国家生物技术信息中心(NationalCenter for Biotechnology Information))和Actinobacteriophage(网页phagesdb.org)数据库下载。选择在从查询间隔子序列的5’起点或3’末端开始的20bp内是100%同一的命中物,并且使用clustalw与间隔子序列比对。作为一实例,搜索与第1簇蛋白质相关的间隔子序列(间隔子1,SEQ ID NO:2004;间隔子2,SEQ ID NO:2005,间隔子3,SEQ ID NO:2006),并且与噬菌体序列匹配物(KJ920400_1,SEQ ID NO:2007;HE614281_1SEQ ID NO:2009;KJ024807_1,SEQ ID NO:2010;NC_029008.1_1,SEQ ID NO:2011)比对,如图2中所示。这个比对表明核苷酸三联体5’-TCA-3’的PAM基序存在于间隔子的5’末端。另外,核苷酸三联体5’-TTA-3’的PAM基序可能是第1簇蛋白质的替代性5’PAM;预测核苷酸三联体5’-CCT-3’的PAM基序是第3簇蛋白质的5’PAM,并且预测核苷酸三联体5’-CCA-3’或5’-CCT-3’或5’-ACA-3’的PAM基序是第11簇的5’PAM。
对于至少一个与各转座酶相关的经整理重复序列,进行分析以预测二级结构。所有预测结构都显示在茎的长度方面具有差异的茎环结构,其中大多数重复序列具有≥5bp的茎长度。作为一实例,图3显示与转座酶(PRT:SEQ ID NO:136;DNA:SEQ ID NO:304)相关的第一和第二重复序列(SEQ ID NO:2012和2013)的预测二级结构。CRISPR重复序列的预测二级结构说明重复序列能够形成发夹环结构,从而表明单独重复序列足以形成有效引导RNA。
转座酶的引导RNA序列可被设计来包含至少一个相关重复序列(R)和至少一个相关间隔子序列(S),包括但不限于各种组合和各种定向,诸如R+S、R+S的反义序列、S+R、以及S+R的反义序列。举例来说,在表10中,一对重复序列和间隔子序列被选作各转座酶的代表,并且构建并列出潜在引导RNA序列。引导RNA序列也可基于重复序列和间隔子序列的片段来产生。引导RNA序列可被设计来包含至少20个来自间隔子序列的核苷酸。本领域技术人员将能够使用关于本文公开的转座酶加以鉴定的CRISPR重复序列和间隔子来设计各种引导RNA。
表10.关于转座酶预测的引导RNA序列。
蛋白质结构域分析
第1簇成员(104个独特蛋白质),包括CRISPR相关转座酶SEQ ID NO:136(DNA:SEQID NO:304),全都具有中心OrfB_IS605(插入元件605)和C末端OrfB_Zn_带结构域。此外,大多数成员(102个独特蛋白质)也包含Puf结构域。插入元件(IS)605或TnpB含有隔裂RuvC核酸内切酶结构域,并且被视为是Cpf1和C2C1蛋白的祖先(Kapitonov,2016)。RuvC结构域提供这些酶的核酸内切酶活性。含有Zn带结构域的蛋白质被认为会结合DNA。基于与文献中所述的隔裂RuvC区域的序列比对来分析CRISPR相关转座酶中RuvC催化结构域的存在。使用CRISPR相关转座酶SEQ ID NO:136(DNA:SEQ ID NO:304)作为一实例,鉴定了具有保守催化“D”氨基酸(位置233和408)的RuvC I和RuvC III区域以及具有保守“E”氨基酸(位置354)的RuvC II区域,并且这三个保守残基在图4中指示。
已报道真核RNA结合蛋白中的Puf结构域(Pumilio家族RNA结合重复序列)。它们通常但不始终以8个串联重复出现,并且结合至序列特异性8bp RNA结合基序。各Puf结构域与在它之前的短螺旋形成螺旋发夹(Yin,2013)。各结构域结合至共有结合位点–5’-UGUANAUA-3’中的8个核苷酸中的一者(Zhang和Muench,2015)。除Pfam分析之外,蛋白质结构预测软件PSIPRED用于预测螺旋结构以及鉴定额外Puf结构域。对于CRISPR相关转座酶SEQ ID NO:136(DNA:SEQ ID NO:304),鉴定了七个推定Puf结构域,并且将它们的结构域结构相对于OrfB_IS605和OrfB_Zn_带结构域以及RuvC活性位点概述于图4中。这个CRISPR相关转座酶的结构域注释和序列进一步描述于图5中,其中对各Puf结构域序列加下划线,并且两个Pfam结构域-IS605和Zn带分别用方括号[]和双方括号[[]]圈起。
因为已知Puf结构域会结合高度保守的共有RNA序列(5’-UGUANAUA-3’),所以搜索与转座酶(SEQ ID NO:124-246、275-287)相关的CRISPR重复序列中共有Puf结合基序的存在。如图6中对于CRISPR相关转座酶SEQ ID NO:136(DNA:SEQ ID NO:304)所描绘,在相关CRISPR重复序列之间进行的序列比对显示与Puf结合基序类似的高度保守基序。在CRISPR相关转座酶SEQ ID NO:136(DNA:SEQ ID NO:304)的情况下观察的共有Puf基序在根据第1簇中的其他成员的重复序列之间也高度保守。所鉴定的蛋白质结构域结构和推定Puf结合基序表明CRISPR相关转座酶SEQ ID NO:136(DNA:SEQ ID NO:304)是具有RNA和DNA结合活性的核酸酶。
实施例3
进行高通量测定以确定所鉴定CRISPR相关转座酶是否(a)具有RNA引导的DNA核酸酶活性,以及(b)鉴定相关PAM基序。这个测定通常可适用于RNA引导的核酸内切酶(RNA-Guided EndoNuclease,RGEN)蛋白,其是指(1)包括内切核苷酸活性,以及(2)与能够将RGEN引导至特定DNA靶标位点以达成酶促活性的非编码RNA物质相关的DNA修饰酶。除核酸内切酶活性之外,这些酶中的许多可具有其他功能,其包括但不限于转座酶、拓扑异构酶、重组酶和解离酶。
将包括编码由SEQ ID NO:124-246、275-287表示的CRISPR相关转座酶和在它的天然基因组环境中相关的RNA物质的DNA序列在内的细菌基因组目标区域(ROI)克隆至细菌表达质粒中。也构造各RGEN系统的另一LacZ报道子质粒,其包括在与各个转座酶相关的CRISPR阵列中鉴定的一个或多个间隔子序列。各LacZ报道子质粒中的一个或多个间隔子序列在两端由12个核苷酸的随机化序列侧接。LacZ报道子质粒含有低拷贝复制起点和不同于编码CRISPR相关转座酶的质粒的可选择标记的可选择标记以允许选择共转化体。
将ROI表达质粒和LacZ报道子质粒共转化至大肠杆菌(E.coli)中。在表达ROI元件(CRISPR相关转座酶和相关引导RNA)后,以及当LacZ报道子质粒的可变区包括在CRISPR相关转座酶的间隔子的5’或3’的功能性PAM时,DNA核酸酶活性将在报道子质粒中引入双链断裂(DSB),从而导致细胞内LacZ报道子质粒拷贝数的降低。报道子质粒的降低通过所得细菌菌落的表型变化来检测。具体来说,在无核酸酶活性的正常菌落的情况下,菌落是深蓝色的且较大。相比之下,在具有CRISPR相关转座酶对报道子质粒有活性的菌落的情况下,菌落较小且在颜色方面是淡蓝色或白色。这个测定设计说明于图7中。这个测定鉴定CRISPR相关转座酶系统,其中初始核酸内切酶裂解不继之以断裂末端的后续再连接,因此线性化报道子质粒由细菌内源性核酸酶消除。对于具有额外功能诸如转座酶活性的RNA引导的核酸酶(RGEN),额外突变可在报道子质粒再连接之前引入,因此,可选择标记和报道子基因可不受影响。在这些后述情况下,对从存活菌落回收的报道子质粒的高通量测序将揭示额外突变。
断裂质粒DNA由大肠杆菌中的宿主源性内源性核酸酶消除,此有助于上述蓝白选择,并且说明于图7A中。然而,另一组原核生物,即分支杆菌属某些种,携带称为非同源性末端接合的不同DNA修复机理,其将以易出错方式使经切割质粒愈合(图8)。这个机理可用于通过以下方式来鉴定有效CRISPR相关转座酶系统:通过PCR扩增来检测在靶标位点处的短寡核苷酸整合或点突变和/或对用表达质粒和报道子质粒共转化的存活分支杆菌菌落的回收报道子质粒测序。这个测定用作蓝白选择测定的替代方案。
实施例4
用包含异源性启动子可操作地连接于编码选自SEQ ID NO:124–246、275-287的CRISPR相关转座酶中的一者的序列以及编码RNA引导物的序列的表达载体转化真核细胞,所述RNA引导物包含靶向所述真核细胞的内源性基因组序列的序列。与引导RNA复合的CRISPR相关转座酶在靶标位点处裂解基因组DNA,并且通过不当修复来产生插入缺失突变。通过测序来检测突变。
实施例5
用包含异源性启动子可操作地连接于编码选自SEQ ID NO:124–246、275-287的CRISPR相关转座酶的序列以及编码RNA引导物的序列的表达载体转化真核细胞,所述RNA引导物包含靶向所述细胞的内源性序列的序列。进一步向细胞提供包含外源性转基因或用于模板化编辑的序列的供体多核苷酸。与引导RNA复合的CRISPR相关转座酶在靶标位点处裂解基因组DNA,并且供体多核苷酸通过非同源性末端接合或同源性重组来并入。通过对跨越染色体-寡聚物接合部的扩增子测序来检测整合(例如图10)。
实施例6:体外切割测定
将编码由SEQ ID NO:124-246和275-287编码的CRISPR相关转座酶蛋白中的一者的序列克隆至细菌表达质粒中,将所述表达质粒转化至大肠杆菌中,收集细菌,制备细菌裂解物,并且从所述细菌裂解物纯化酶。将包括与转座酶相关的CRISPR组分的相应基因组目标区域(ROI)克隆至高拷贝质粒中,将所述质粒转化至大肠杆菌中,并且通过对细菌裂解物进行RNA测序来鉴定在ROI构建体上编码的与目标转座酶相关的RNA组分。合成这些RNA组分,并且在体外使转座酶蛋白和合成RNA组分组合,将所得转座酶/RNA复合物添加至携带间隔子序列的合成DNA片段中,如图9中所示。收集DNA片段以进行测序来确定切割。
实施例7:确定和验证RNA引导的DNA核酸酶的PAM基序
将包括编码由SEQ ID NO:124-246和275-287表示的CRISPR相关转座酶以及在它的天然基因组环境中与目标转座酶相关的相关CRISPR RNA组分的DNA序列中的一者的细菌基因组目标区域(ROI)克隆至第一细菌表达质粒中,所述表达质粒包含第一抗生素抗性基因诸如卡那霉素(kanamycin)抗性(Kan)。构建包含第二抗生素抗性基因例如四环素(tetracycline)或氯霉素(chloramphenicol)抗性基因的第二细菌质粒,以使所述质粒含有在5’和3’均由12bp的随机选择的核苷酸(N)侧接的间隔子。将两种质粒转化至大肠杆菌中,并且涂铺在以下两种板上:(1)含有具有单一抗生素以选择第一质粒的培养基;和(2)含有用于针对第一质粒与第二质粒两者进行选择的抗生素。从在两组板上生长的细菌制备质粒DNA,对具有侧接N序列的间隔子进行PCR扩增,并且对PCR扩增子进行深度测序以鉴定从文库消减的序列。对应于消减序列的这些序列对应于由共转化的相应CRISPR相关转座酶识别的PAM基序。
或者,可凭经验检查CRISPR相关转座酶的PAM偏好,并且通过使用依赖于随核酸酶-引导RNA复合物而变化对含有随机化PAM的质粒文库(3’PAM或5’PAM文库)进行体外裂解的方法来确定(Karvelis,2015;Shmakov,2015)。使用在间隔子靶标的上游或下游的由七个随机化核苷酸组成的合成寡核苷酸(ssDNA)构建随机化PAM质粒文库。例如通过向体外合成反应提供克林诺酶(Klenow enzyme),使随机化ssDNA寡聚物通过在体外退火至短引物以及合成第二链而成为双链(dsDNA)。使用任何标准分子生物学克隆方法,将dsDNA产物装配至线性化pUC19质粒中。用克隆产物转化大肠杆菌,收集并汇合若干细菌菌落。使用质粒Maxi试剂盒收集质粒DNA。将汇合文库共转化至具有CRISPR相关转座酶基因座的大肠杆菌中。在转化之后,将细胞涂铺,并且用抗生素进行选择。在生长16小时之后,收集>4×106个细胞,并且使用 Maxi试剂盒提取质粒DNA。扩增靶标PAM区域,并且使用Illumina 以单端150个循环进行测序。将对应于PAM与非PAM两者的序列克隆至pUC19载体中。用PAM质粒转化具有包含CRISPR相关转座酶基因座的质粒或pACYC184对照质粒的感受态大肠杆菌,并且将其涂铺在补充有氨苄青霉素(ampicillin)和氯霉素的LB琼脂板上。在18小时之后,用OpenCFU(Geissmann,2013)对菌落计数。
实施例8:使用蓝白选择验证CRISPR相关转座酶的RNA引导的DNA核酸酶活性
进行表型测定以确定本文鉴定的CRISPR相关转座酶是否具有RNA引导的DNA核酸酶活性。这个测定的设计基本上如实施例3中所详述。将包含编码CRISPR相关转座酶SEQ IDNO:136和在它的天然基因组环境中相关的CRISPR RNA物质的DNA序列(SEQ ID NO:304)的细菌基因组目标区域(ROI)(SEQ ID NO:2019)克隆至质粒中。也构造另一‘报道子’质粒,其包含在CRISPR阵列(SEQ ID NO:662)中鉴定的两个间隔子序列(SEQ ID NO:2017和2018)。一个或多个间隔子在两端由12个可变核苷酸(在图11中描绘为’NNN’)侧接。报道子构建体具有低拷贝复制起点(pAcyc184)和不同于包含CRISPR相关转座酶的质粒的可选择标记(卡那霉素抗性)的可选择标记(氯霉素抗性)以允许选择共转化体。报道子质粒也携带提供蓝白选择的LacZ盒。将ROI和报道子质粒共转化至大肠杆菌中。CRISPR相关转座酶的DNA核酸酶活性导致双链断裂(DSB),从而产生线性化报道子质粒。线性化报道子质粒在大肠杆菌中被完全降解,此被认为是DNA修复的唯一可能结果。然而,存在导致线性化质粒再环化的替代性DNA修复机理的分子证据正在积累。在不受特定理论束缚下,这些重排可通过具有同源性的短轨迹(tracks)之间的重组来发生,如由Wang(2015)所证明。或者,线性质粒与环状质粒之间的短同源性也可导致重组,从而产生嵌合质粒。由对报道子构建体的靶向裂解获得的这些新变体中的一些将消除报道子基因(LacZ),同时保留氯霉素抗性基因,这将在蓝色菌落的‘海洋’中产生稀疏氯霉素抗性白色菌落。如图11中所描绘构造两个阴性对照,其中ROI(对照RGEN(-))或报道子区域(对照报道子(-))不存在于它们的载体骨架中。共转化两种质粒在750个蓝色菌落之中产生21个白色菌落,而在缺乏包含CRISPR相关转座酶的ROI或报道子区域的阴性对照中的任一者的情况下未见白色菌落,如表11中所示。这些结果表明CRISPR相关转座酶SEQ ID NO:136使报道子质粒消除或突变。对于分子分析,从10个白色菌落分离质粒。在(1)未经受转化的报道子质粒的汇集物中,(2)在从明显未受转座酶影响的2个蓝色菌落分离的质粒中,以及(3)在从10个白色菌落分离的质粒中,扩增报道子质粒的包括两个间隔子和它们的侧接可变区的区域(569bp)。尽管从阴性对照(以上所列的质粒来源1和2)获得具有预期大小的强烈条带,但在10个白色菌落中的9个中检测到仅微弱条带。这表明对白色菌落中的报道子质粒的靶向降解。由10个白色菌落中的1个-6号菌落获得的扩增子在强度方面与对照类似,此表明相应质粒通过保持报道子区域的替代性机理来修复。对扩增子的测序揭示在阴性对照中无突变。测序也尝试在所有10个白色菌落中进行,但仅在保留大量报道子质粒的6号菌落中成功。在6号菌落中的这个质粒的两个间隔子中均鉴定出了点突变,其可能已来源于不完美DNA修复。所述突变未见于当在转化之前测序时的报道子质粒汇集物中,或经受转化但可能由于可变PAM区域中的不相容性而明显未受转座酶影响的随机选择的蓝色菌落中。
表11.用于蓝白选择测定的测试的CRISPR相关转座酶SEQ ID NO:136。
实施例9:使用2质粒或3质粒选择系统验证RNA引导的核酸内切酶活性
细菌选择系统先前被开发以通过使DNA裂解事件与细胞存活相关联来研究归巢核酸内切酶的性质(Chen和Zhao,2005)。Chen和Zhao的2质粒系统由‘报道子质粒’(p11-LacY-wtx1)和诱导型蛋白质表达载体(pTrc-I-SceI)组成。这个系统已用于使FokI核酸酶结构域的体内切割效率和特异性增加(Guo,2010)。它也已用于改变RNA引导的核酸内切酶Cas9的PAM特异性(Kleinstiver,2015)。该测定可被修改成使RNA引导的核酸内切酶DNA裂解与宿主细胞的存活联结的高度灵敏性选择系统。构造三种质粒–pNuc-I-SceI、pCut-I-SceI和pGuide以实现2-质粒(pNuc和pCut)选择系统,或更灵活的3-质粒选择系统。蛋白质表达载体pNuc-I-SceI使用强力P-tac启动子。另一改进是在pNuc-I-SceI骨架中并入lacI基因(lac阻遏物),以使质粒可在非lacIq宿主中起良好作用。pNuc-I-SceI源于pACYC-Duet1质粒(Novagen),并且具有P15a-ori和氯霉素(Cm)抗性基因。pNuc似乎在大肠杆菌中在无毒低水平下以足以切割具有I-SceI限制位点的质粒的量表达I-SceI兆核酸酶。pNuc-I-SceI具有独特NdeI和NotI位点,其允许用其他基因或操纵子对I-SceI编码区进行容易替换。用BamHI和NotI切割质粒允许克隆含有多个ORF、CRISPR基因座或其他序列的1-9kb基因组区域,其中蛋白质从ORF的表达将起源于天然启动子等。
报道子质粒pCut-I-SceI含有在处于良好调控的P-ara表达单元之后的高度毒性的ccdB基因,其在它的未诱导状态下在使得含有pCut的细胞是健康的低水平下表达ccdB水平。pCut-I-SceI含有赋予羧苄青霉素(carbenicillin)抗性的盒。将0.2%阿拉伯糖添加至生长培养基中会诱导ccdB表达达到导致对携带质粒的细胞的3-4个对数杀灭的水平。pCut-I-SceI也含有紧靠ccdB基因的下游的‘切割位点’。在pCut-I-SceI中,‘切割位点’是含有I-SceI兆核酸酶的18bp识别序列的约50bp序列。侧接于切割位点的区域含有允许序列被其他所需序列替换的独特限制位点,所述其他所需序列诸如含有简并核苷酸(即N=A或C或G或T)的切割位点序列文库。表达在它的‘切割位点’中切割pCut的核酸内切酶会解除对在阿拉伯糖的情况下生长的敏感性归因于pCut的快速体内降解和丧失阿拉伯糖诱导型ccdB基因。该系统可被精细调谐以选择核酸内切酶的识别序列变体即‘动力学变体’(Guo,2010),或研究DNA裂解的体内最佳温度。
当制备含有pCut-I-SceI的感受态BW25141大肠杆菌并用pNuc-I-SceI转化,以及用(空)pACYC-Duet1并行转化,并且使其恢复约2.5小时时,在无抗生素下,在添加或不添加IPTG(以进一步诱导I-SceI从P-tac启动子表达)下,可将细胞的等分试样涂铺在LB+25ug/ml氯霉素(Cm)琼脂板上(以确定pNuc构建体的转化效率)以及LB+25ug/ml Cm+0.2%阿拉伯糖板上。视大肠杆菌的稀释度和感受性而定,相较于在LB+25ug/ml Cm板上的>1000cfu,用(空)pACYC-Duet1转化的大肠杆菌在LB+25ug/ml Cm+0.2%阿拉伯糖板上产生0-1个菌落形成单位(cfu)。相比之下,相较于在LB+Cm板上的>500cfu,用pNuc-I-SceI转化的大肠杆菌在LB+Cm+阿拉伯糖板上产生30至>100cfu。与pNuc类似的质粒已由其他人用于共表达RNA引导的核酸内切酶以及它们的引导RNA或CRISPR基因座(Zetsche,2015)。这个系统的使用单独第三质粒pGuide来共表达引导RNA的修改形式使选择系统的灵活性增加。选择含有CDF-ori和壮观霉素-r基因的pCDF-Duet1骨架(Novagen),并且将合成DNA J23119(由Zetsche 2015使用的合成组成型大肠杆菌启动子)插入约2.2kB pCDF骨架中以创建pGuide质粒。将与目标CRISPR相关转座酶例如CRISPR相关转座酶SEQ ID NO:136(DNA:SEQ ID NO:304)相关的引导RNA插入pCDF骨架中以创建pGuide-转座酶质粒。
2-质粒和3-质粒系统用于确定选自SEQ ID NO:124-246和275-287的CRISPR相关转座酶蛋白的RNA引导的核酸酶活性。使用CRISPR相关转座酶SEQ ID NO:136作为一实例,将转座酶编码区(SEQ ID NO:304)替代I-SceI组分来克隆至pNuc-I-SceI质粒中以创建pNuc-RGEN PRT:SEQ ID NO:136(DNA:SEQ ID NO:304)质粒。将RGEN PRT:SEQ ID NO:136(DNA:SEQ ID NO:304)‘切割位点’(在两端由8个可变核苷酸侧接的两个间隔子SEQ ID NO:2017和2018)替代I-SceI切割位点来克隆至pCut-I-SceI质粒中以创建pCut-RGEN PRT:SEQID NO:136(DNA:SEQ ID NO:304)质粒。通过将非RGEN PRT:SEQ ID NO:136(DNA:SEQ IDNO:304)‘切割位点’(例如Cas9切割位点)并入pCut-I-SceI质粒中来产生pCut对照质粒。
在上述2-质粒测定中,用pCut-RGEN PRT:SEQ ID NO:136(DNA:SEQ ID NO:304)质粒测试pNuc-RGEN PRT:SEQ ID NO:136(DNA:SEQ ID NO:304)质粒以确定为RNA引导的核酸酶活性所需的最小基因组片段。可用pCut-RGEN PRT:SEQ ID NO:136(DNA:SEQ ID NO:304)质粒和pGuide质粒进一步测试pNUC-RGEN PRT:SEQ ID NO:136(DNA:SEQ ID NO:304)质粒以确定相关CRISPR基因座是否为CRISPR相关转座酶的核酸酶活性所需。pCut对照质粒用于证明CRISPR相关转座酶介导的裂解的特异性。
实施例10:片段长度测定
这个实施例描述用于高通量检测选自SEQ ID NO:124-246和275-287的CRISPR相关转座酶蛋白的靶向核酸内切酶活性的体外测定。使携带伴有或不伴有引导RNA(或整个CRISPR基因座)的CRISPR相关转座酶的表达载体的大肠杆菌细胞裂解以制备全细胞裂解物,基本上如实施例6中所述。将携带CRISPR相关转座酶的预测靶标位点的荧光末端标记PCR扩增子添加至裂解物中,并且在孵育之后,裂解物中存在的CRISPR相关转座酶裂解荧光末端标记的PCR扩增子。荧光片段可通过高通量DNA长度分析(例如在ABI3700仪器(Lifetechnologies)上)来检测和确定大小以确定DNA切割的程度和切割位点在DNA片段中的位置。
实施例11:RNA结合测定
这个实施例描述用于评估选自SEQ ID NO:124-246和275-287的转座酶蛋白是否与源于它的相关CRISPR阵列的引导RNA序列缔合的测定。这个测定中采用的技术是AlphaScreen(Perkin Elmer)。这个测定系统使用供体珠粒和受体珠粒,其在紧密邻近时发射可检测荧光信号。在这个测定中,使用体外转录制备若干引导RNA。使这些引导RNA序列通过接头序列(SEQ ID NO:3382)连接于侧接序列(侧接物1:SEQ ID NO:3380;侧接物2:SEQ IDNO:3381)(图10)。核苷酸序列(侧接物2)结合至附接有Alpha链霉亲和素(Streptavidin)供体珠粒的寡聚物。在大肠杆菌中表达具有His标签的CRISPR相关转座酶,所述His标签充当Alpha受体珠粒的结合位点。作为图12中说明的一实例,当CRISPR相关转座酶SEQ ID NO:136(与受体珠粒一起)结合至它的预测引导RNA(与供体珠粒一起)时,产生可检测荧光信号。对于这个实验,在IPTG诱导型大肠杆菌菌株中表达CRISPR相关转座酶SEQ ID NO:136(DNA:SEQ ID NO:304),并且将裂解物应用于测定以寻找信号。为首先验证这个测定,使纯化的His-Cas9与它的gRNA(SEQ ID NO:3383)混合。如果该测定在这些条件下起作用,那么将它用含有所表达的His-Cas9的细菌裂解物进一步测试以更密切模拟RGEN CRISPR相关转座酶实验的条件。如果从Cas9裂解物测量到可检测信号,那么将该测定相对于其相应的引导RNA来应用于CRISPR相关转座酶裂解物。使用表8中对于SEQ ID NO:136公开的CRISPR重复序列和间隔子,许多推定引导RNA序列(SEQ ID NO:3384–3402)被设计来在CRISPR相关转座酶SEQ ID NO:136的结合测定中加以测试。在这些引导RNA之中,通过将突变引入这两个引导RNA中包含的天然CRISPR重复序列和间隔子序列中来将这两条序列(SEQ ID NO:3401和3402)设计成阴性对照。
实施例12:使用CRISPR相关转座酶在植物中进行基因组编辑
测试由SEQ ID NO:124-246和275-287表示的CRISPR相关转座酶对植物中的基因组DNA的位点特异性裂解。为证明这个活性,创建载体以表达转座酶蛋白和相关引导RNA。举例来说,创建载体以表达CRISPR相关转座酶蛋白SEQ ID NO:136和它的相关引导RNA。由SEQID NO:124-246和275-287表示的CRISPR相关转座酶的针对玉米和大豆加以密码子优化的开放阅读框列于表12中。启动子诸如玉米泛素2启动子用于驱动CRISPR相关转座酶在植物中的表达。将核定位信号(例如单分型SV40)添加至CRISPR相关转座酶的N末端,并且将双分型核质蛋白核定位信号(BiNLS)包括在C末端以有助于核定位。为验证所用核定位信号的有效性,用转座酶-GFP融合蛋白构建体转化玉米原生质体,并且观察到核定位荧光。玉米U6snRNA启动子可用于在玉米中产生sgRNA(以引用的方式并入本文的WO2015131101;Zhu,2016)。如实施例7中所述鉴定CRISPR相关转座酶的PAM序列,并且由CRISPR相关转座酶识别的原间隔子序列可用于使用由Zhu(2016)所述的途径,以最少脱靶切割来鉴定玉米基因组内的sgRNA特异性靶标位点。出于在玉米中进行靶向基因破坏的目的,位于前两个外显子中的靶标位点是良好候选者,因为在编码序列开始时发生的突变更可能破坏蛋白质的功能。
为测试CRISPR相关转座酶用于玉米内源性基因编辑的活性,进行原生质体短暂测定以检测工程化的CRISPR-转座酶系统的功能。为增加转化效率,产生具有sgRNA表达盒与转座酶表达盒两者的二元质粒,接着转化至玉米原生质体中。从培养24小时的经转化原生质体提取基因组DNA并制备涵盖靶标位点的扩增子以进行测序(例如Illumina深度测序),并且可观察靶向基因组编辑。
表12.CRISPR相关转座酶的针对玉米和大豆加以密码子优化的开放阅读框。
为测试CRISPR相关转座酶在稳定表达株系中的突变效率,选择在玉米短暂测定中验证的靶标位点。接着通过根癌土壤杆菌来将具有sgRNA和所选靶标位点以及转座酶的一个或多个构建体转化至玉米不成熟胚胎中。分析T0转基因株系,并且基于免疫印迹分析来鉴定转座酶阳性株系。SURVEYOR测定可用于确定编辑是否被引入靶标位点中(Zhu,2016)。为详细分析编辑效率和由CRISPR相关转座酶引入的突变类型,可对转座酶阳性T0代植物的涵盖靶标位点的PCR扩增子进行深度测序。如上在这个实施例中所述的实验设计和测定也可适合于对CRISPR相关转座酶进行编程和测试以达成在大豆、小麦、卡诺拉油菜、棉花、番茄或其他植物和蔬菜中的基因组编辑。

Claims (46)

1.一种重组核酸,其包含可操作地连接于编码具有选自由SEQ ID NO:124-246和275-287组成的组的氨基酸序列的CRISPR相关转座酶的多核苷酸的异源性启动子。
2.如权利要求1所述的重组核酸,其中所述CRISPR相关转座酶:
a.来自选自由以下组成的组的细菌:赖氨酸芽孢杆菌属某种、短芽孢杆菌属某种、鞘氨醇杆菌属某种、水杆菌属某种、芽孢杆菌属某种、金黄杆菌属某种、鞘氨醇单胞菌属某种、双头菌属某种、类芽孢杆菌属某种、链霉菌属某种和寡养单胞菌属某种;
b.来自选自由以下组成的组的细菌:短短芽孢杆菌、侧孢短芽孢杆菌、类短短芽孢杆菌、巨大芽孢杆菌、苏云金芽孢杆菌、韦氏芽孢杆菌、粪肠球菌、迟钝水杆菌、玫瑰色新鞘氨醇杆菌、嗜甲氨基双头菌、解硫胺素类芽孢杆菌、缓病类芽孢杆菌和土地类芽孢杆菌;
c.在细菌基因组中与CRISPR基因座关联;
d.与CRISPR基因座位于同一操纵子中;
e.位于CRISPR基因座的2.5千碱基内;
f.由与选自由SEQ ID NO:1-123、604-627和2020-3379组成的组的序列具有至少90%同一性的核苷酸序列编码;或
g.(a)、(b)、(c)、(d)、(e)和(f)的任何组合。
3.如权利要求1所述的重组核酸,其进一步包含至少一个编码能够与靶标序列杂交的引导RNA的多核苷酸,其中所述引导RNA与所述CRISPR相关转座酶形成复合物。
4.如权利要求3所述的重组核酸,其中所述至少一个编码引导RNA的多核苷酸可操作地连接于第二启动子。
5.如权利要求1所述的重组核酸,其进一步包含至少一个编码供体多核苷酸的多核苷酸。
6.如权利要求5所述的重组核酸,其中所述至少一个编码供体多核苷酸的多核苷酸可操作地连接于第二启动子。
7.如权利要求1所述的重组核酸,其中编码所述CRISPR相关转座酶的所述多核苷酸进一步编码至少一个核定位信号(NLS)。
8.一种载体,其包含如权利要求1-7中任一项所述的重组核酸。
9.一种真核细胞,其包含如权利要求1-7中任一项所述的重组核酸。
10.一种用于对靶标核酸序列进行序列特异性修饰的非天然存在的系统,其包含(a)一个或多个引导RNA或编码所述一个或多个引导RNA的DNA分子,其中所述一个或多个引导RNA能够与所述靶标核酸序列杂交,和(b)具有选自由SEQ ID NO:124-246和275-287组成的组的氨基酸序列的CRISPR相关转座酶或编码所述CRISPR相关转座酶的多核苷酸,其中所述一个或多个引导RNA和所述CRISPR相关转座酶不一起天然存在。
11.如权利要求10所述的系统,其中编码所述CRISPR相关转座酶的所述多核苷酸包含与选自由SEQ ID NO:1-123、604-627和2020-3379组成的组的核苷酸序列具有至少90%同一性的核苷酸序列。
12.如权利要求10-11中任一项所述的系统,其中所述靶标核酸序列包含编码核酸序列、非编码核酸序列、或编码核酸序列和非编码核酸序列的组合。
13.如权利要求10-12中任一项所述的系统,其中所述靶标核酸序列包含内源性基因或转基因。
14.如权利要求10-13中任一项所述的系统,其中所述系统包含二价阳离子。
15.如权利要求10-14中任一项所述的系统,其中(a)所述引导RNA或编码所述引导RNA的DNA分子提供在第一核酸分子上,并且编码所述CRISPR相关转座酶的所述多核苷酸提供在第二核酸分子上,或(b)所述引导RNA或编码引导RNA的DNA分子和编码所述CRISPR相关转座酶的所述多核苷酸提供在单一核酸分子上。
16.如权利要求10所述的系统,其中所述引导RNA呈经分离的RNA的形式,或在载体中编码,并且其中所述载体是病毒载体、质粒载体或土壤杆菌属载体。
17.如权利要求10-16中任一项所述的系统,其进一步包含供体多核苷酸。
18.如权利要求17所述的系统,其中所述供体多核苷酸包含编码核酸序列、非编码核酸序列、或编码核酸序列和非编码核酸序列的组合。
19.如权利要求17所述的系统,其中所述供体多核苷酸包含启动子。
20.如权利要求17所述的系统,其中所述供体多核苷酸包含一个或多个转基因。
21.如权利要求10-20中任一项所述的系统,其中所述CRISPR相关转座酶包含一个或多个核定位信号。
22.如权利要求10-21中任一项所述的系统,其中所述靶标序列在细胞内。
23.如权利要求22所述的系统,其中所述细胞是真核细胞。
24.如权利要求23所述的系统,其中所述真核细胞是植物细胞。
25.一种用于对细胞中的靶标核酸序列进行序列特异性修饰的方法,其包括向包含所述靶标核酸序列的细胞提供如权利要求10-24中任一项所述的系统。
26.如权利要求25所述的方法,其中所述细胞是植物细胞。
27.一种用于对细胞中的靶标核酸序列进行序列特异性修饰的方法,其包括向所述细胞提供包含选自由SEQ ID NO:124-246和275-287组成的组的氨基酸序列的CRISPR相关转座酶,借此所述靶标核酸序列被修饰。
28.如权利要求27所述的方法,其进一步包括能够与所述CRISPR相关转座酶缔合以及与所述靶标核酸序列杂交的引导RNA。
29.如权利要求28所述的方法,其中:
(a)所述引导RNA通过在所述细胞中表达编码所述引导RNA的重组DNA分子来提供;
(b)所述CRISPR相关转座酶通过在所述细胞中表达编码所述CRISPR相关转座酶的重组DNA分子来提供;或
(c)(a)与(b)两者。
30.如权利要求28所述的方法,其中:
(a)所述引导RNA通过使所述细胞与包含所述引导RNA或编码所述引导RNA的重组DNA分子的组合物接触来提供;
(b)所述CRISPR相关转座酶通过使所述细胞与包含所述CRISPR相关转座酶或编码所述CRISPR相关转座酶的重组DNA分子的组合物接触来提供;或
(c)使所述CRISPR相关转座酶与所述引导RNA复合,以粒子形式向所述细胞提供。
31.如权利要求27所述的方法,其中所述CRISPR相关转座酶包含一个或多个核定位信号。
32.如权利要求29或30所述的方法,其中编码所述CRISPR相关转座酶的所述重组DNA分子包含与选自由SEQ ID NO:1-124、604-627和2020-3379组成的组的核苷酸序列具有至少90%同一性的核苷酸序列。
33.如权利要求27-32中任一项所述的方法,其中所述靶标核酸序列包含编码核酸序列、非编码核酸序列、或编码核酸序列和非编码核酸序列的组合。
34.如权利要求27-32中任一项所述的方法,其中所述靶标核酸序列包含
(a)所述细胞或所述细胞中的细胞器的内源性核基因;或(b)所述细胞的内源性细胞器基因;或(c)所述细胞的转基因。
35.如权利要求27-34中任一项所述的方法,其进一步包括向所述细胞提供供体多核苷酸。
36.如权利要求35所述的方法,其中所述供体多核苷酸包含编码核酸序列、非编码核酸序列、或编码核酸序列和非编码核酸序列的组合。
37.如权利要求35所述的方法,其中所述供体多核苷酸包含启动子。
38.如权利要求27-37中任一项所述的方法,其中所述细胞是真核细胞。
39.如权利要求38所述的方法,其中所述真核细胞是植物细胞或动物细胞。
40.一种含有靶标核酸序列的真核细胞,所述靶标核酸序列已通过如权利要求27-39中任一项所述的方法来加以序列特异性修饰。
41.一种选择性调节真核细胞中的至少一个靶标DNA的转录的方法,其包括使所述真核细胞与以下各物接触:
(a)引导RNA或编码所述引导RNA的DNA,其中所述引导RNA进一步包含:
(i)第一区段,其包含互补于所述靶标DNA的核苷酸序列;
(ii)第二区段,其与CRISPR相关转座酶相互作用;和
(b)包含选自由SEQ ID NO:124-246和275-287组成的组的氨基酸序列的CRISPR相关转座酶或编码所述CRISPR相关转座酶的DNA,
其中所述引导RNA和所述CRISPR相关转座酶在所述真核细胞中形成复合物,并且其中所述复合物选择性调节所述靶标DNA的转录。
42.如权利要求41所述的方法,其中所述真核细胞是动物细胞或植物细胞。
43.如权利要求41所述的方法,其中所述靶标DNA是启动子。
44.如权利要求41所述的方法,其中所述靶标DNA是编码核酸序列。
45.如权利要求41所述的方法,其中所述引导RNA或编码引导RNA的所述DNA是单链引导RNA。
46.如权利要求41所述的方法,其中所述靶标DNA选自由核靶标DNA、线粒体靶标DNA和质体靶标DNA组成的组。
CN201680079306.8A 2015-12-29 2016-12-29 新型crispr相关转座酶及其用途 Active CN108738326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210458124.9A CN115216459B (zh) 2015-12-29 2016-12-29 新型crispr相关转座酶及其用途

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562272441P 2015-12-29 2015-12-29
US62/272,441 2015-12-29
PCT/US2016/069221 WO2017117395A1 (en) 2015-12-29 2016-12-29 Novel crispr-associated transposases and uses thereof

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202210458124.9A Division CN115216459B (zh) 2015-12-29 2016-12-29 新型crispr相关转座酶及其用途

Publications (2)

Publication Number Publication Date
CN108738326A true CN108738326A (zh) 2018-11-02
CN108738326B CN108738326B (zh) 2022-05-06

Family

ID=59225716

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201680079306.8A Active CN108738326B (zh) 2015-12-29 2016-12-29 新型crispr相关转座酶及其用途
CN202210458124.9A Active CN115216459B (zh) 2015-12-29 2016-12-29 新型crispr相关转座酶及其用途

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202210458124.9A Active CN115216459B (zh) 2015-12-29 2016-12-29 新型crispr相关转座酶及其用途

Country Status (6)

Country Link
US (2) US10995327B2 (zh)
EP (4) EP4159847A1 (zh)
CN (2) CN108738326B (zh)
AU (2) AU2016380351B2 (zh)
CA (1) CA3009190A1 (zh)
WO (1) WO2017117395A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110066852A (zh) * 2019-05-29 2019-07-30 复旦大学 一种在哺乳动物细胞中检测CRISPR/Cas PAM序列的方法和系统
CN113795587A (zh) * 2019-03-07 2021-12-14 纽约市哥伦比亚大学理事会 使用Tn7样转座子进行RNA引导的DNA整合
CN116056564A (zh) * 2020-09-10 2023-05-02 孟山都技术公司 利用减数分裂和种系启动子增加基因编辑和定点整合事件
CN116355878A (zh) * 2023-02-28 2023-06-30 华中农业大学 新型TnpB编程性核酸酶及其应用

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3613852A3 (en) 2011-07-22 2020-04-22 President and Fellows of Harvard College Evaluation and improvement of nuclease cleavage specificity
US20150044192A1 (en) 2013-08-09 2015-02-12 President And Fellows Of Harvard College Methods for identifying a target site of a cas9 nuclease
US9359599B2 (en) 2013-08-22 2016-06-07 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
US9737604B2 (en) 2013-09-06 2017-08-22 President And Fellows Of Harvard College Use of cationic lipids to deliver CAS9
US9322037B2 (en) 2013-09-06 2016-04-26 President And Fellows Of Harvard College Cas9-FokI fusion proteins and uses thereof
US9228207B2 (en) 2013-09-06 2016-01-05 President And Fellows Of Harvard College Switchable gRNAs comprising aptamers
US9068179B1 (en) 2013-12-12 2015-06-30 President And Fellows Of Harvard College Methods for correcting presenilin point mutations
AU2015298571B2 (en) 2014-07-30 2020-09-03 President And Fellows Of Harvard College Cas9 proteins including ligand-dependent inteins
CN108513575A (zh) 2015-10-23 2018-09-07 哈佛大学的校长及成员们 核碱基编辑器及其用途
CA3009190A1 (en) * 2015-12-29 2017-07-06 Monsanto Technology Llc Novel crispr-associated transposases and uses thereof
WO2018027078A1 (en) 2016-08-03 2018-02-08 President And Fellows Of Harard College Adenosine nucleobase editors and uses thereof
CA3033327A1 (en) 2016-08-09 2018-02-15 President And Fellows Of Harvard College Programmable cas9-recombinase fusion proteins and uses thereof
WO2018039438A1 (en) 2016-08-24 2018-03-01 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
KR20240007715A (ko) 2016-10-14 2024-01-16 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 핵염기 에디터의 aav 전달
US10745677B2 (en) 2016-12-23 2020-08-18 President And Fellows Of Harvard College Editing of CCR5 receptor gene to protect against HIV infection
EP3592853A1 (en) 2017-03-09 2020-01-15 President and Fellows of Harvard College Suppression of pain by gene editing
JP2020510439A (ja) 2017-03-10 2020-04-09 プレジデント アンド フェローズ オブ ハーバード カレッジ シトシンからグアニンへの塩基編集因子
SG11201908658TA (en) 2017-03-23 2019-10-30 Harvard College Nucleobase editors comprising nucleic acid programmable dna binding proteins
US11560566B2 (en) 2017-05-12 2023-01-24 President And Fellows Of Harvard College Aptazyme-embedded guide RNAs for use with CRISPR-Cas9 in genome editing and transcriptional activation
US11732274B2 (en) 2017-07-28 2023-08-22 President And Fellows Of Harvard College Methods and compositions for evolving base editors using phage-assisted continuous evolution (PACE)
US11319532B2 (en) 2017-08-30 2022-05-03 President And Fellows Of Harvard College High efficiency base editors comprising Gam
CN111757937A (zh) 2017-10-16 2020-10-09 布罗德研究所股份有限公司 腺苷碱基编辑器的用途
CN111727251A (zh) 2017-11-21 2020-09-29 克里斯珀医疗股份公司 用于治疗常染色体显性色素性视网膜炎的材料和方法
CN113462672A (zh) * 2018-11-15 2021-10-01 中国农业大学 CRISPR-Cas12j酶和系统
EP3894550A4 (en) 2018-12-14 2023-01-04 Pioneer Hi-Bred International, Inc. NEW CRISPR-CAS SYSTEMS FOR GENOME EDITING
CN109852635A (zh) * 2019-03-01 2019-06-07 安徽华明太合生物工程有限公司 一种快速检测基因编辑有效性的方法
EP4219700A1 (en) * 2019-03-07 2023-08-02 The Regents of the University of California Crispr-cas effector polypeptides and methods of use thereof
CN114040971A (zh) * 2019-03-07 2022-02-11 加利福尼亚大学董事会 CRISPR-Cas效应子多肽及其使用方法
DE112020001342T5 (de) 2019-03-19 2022-01-13 President and Fellows of Harvard College Verfahren und Zusammensetzungen zum Editing von Nukleotidsequenzen
AU2020325199A1 (en) * 2019-08-07 2022-03-03 Monsanto Technology Llc Cast-mediated DNA targeting in plants
JP2023508731A (ja) * 2019-12-30 2023-03-03 ライフエディット セラピューティクス,インコーポレイティド Rna誘導ヌクレアーゼ、その活性断片および多様体、ならびに使用方法
EP4085145A4 (en) * 2019-12-30 2024-02-21 The Broad Institute Inc. GUIDED EXCISION-TRANSPOSITION SYSTEMS
WO2021142109A1 (en) * 2020-01-07 2021-07-15 The Trustees Of Columbia University In The City Of New York Transposition-based diagnostics methods and devices
CN113249400A (zh) * 2020-02-10 2021-08-13 中国科学院分子植物科学卓越创新中心 一种在细菌染色体中快速多拷贝整合目的基因的方法
EP4146804A1 (en) 2020-05-08 2023-03-15 The Broad Institute Inc. Methods and compositions for simultaneous editing of both strands of a target double-stranded nucleotide sequence
WO2022128812A1 (en) 2020-12-17 2022-06-23 Basf Se Spore compositions, production and uses thereof
WO2023122805A1 (en) 2021-12-20 2023-06-29 Vestaron Corporation Sorbitol driven selection pressure method
WO2023118068A1 (en) 2021-12-23 2023-06-29 Bayer Aktiengesellschaft Novel small type v rna programmable endonuclease systems
WO2023237587A1 (en) 2022-06-10 2023-12-14 Bayer Aktiengesellschaft Novel small type v rna programmable endonuclease systems
WO2024026406A2 (en) 2022-07-29 2024-02-01 Vestaron Corporation Next Generation ACTX Peptides

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150197759A1 (en) * 2014-01-14 2015-07-16 Lam Therapeutics, Inc. Mutagenesis methods
CN105331607A (zh) * 2015-10-19 2016-02-17 芜湖医诺生物技术有限公司 嗜热链球菌CRISPR-Cas9系统识别的人CCR5基因的靶序列和sgRNA及其应用
WO2016197355A1 (zh) * 2015-06-11 2016-12-15 深圳市第二人民医院 CRISPR-Cas9特异性敲除猪SALL1基因的方法及用于特异性靶向SALL1基因的sgRNA

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5352605A (en) 1983-01-17 1994-10-04 Monsanto Company Chimeric genes for transforming plant cells using viral promoters
US5322938A (en) 1987-01-13 1994-06-21 Monsanto Company DNA sequence for enhancing the efficiency of transcription
US5359142A (en) 1987-01-13 1994-10-25 Monsanto Company Method for enhanced expression of a protein
US5703055A (en) 1989-03-21 1997-12-30 Wisconsin Alumni Research Foundation Generation of antibodies through lipid mediated DNA delivery
US5106739A (en) 1989-04-18 1992-04-21 Calgene, Inc. CaMv 355 enhanced mannopine synthase promoter and method for using same
US6051753A (en) 1989-09-07 2000-04-18 Calgene, Inc. Figwort mosaic virus promoter and uses
EP0426641B1 (en) 1989-10-31 2000-09-13 Monsanto Company Promoter for transgenic plants
US5641876A (en) 1990-01-05 1997-06-24 Cornell Research Foundation, Inc. Rice actin gene and promoter
US5837848A (en) 1990-03-16 1998-11-17 Zeneca Limited Root-specific promoter
US5593972A (en) 1993-01-26 1997-01-14 The Wistar Institute Genetic immunization
US5850019A (en) 1996-08-06 1998-12-15 University Of Kentucky Research Foundation Promoter (FLt) for the full-length transcript of peanut chlorotic streak caulimovirus (PCLSV) and expression of chimeric genes in plants
WO1998010080A1 (en) 1996-09-05 1998-03-12 Unilever N.V. Salt-inducible promoter derivable from a lactic acid bacterium, and its use in a lactic acid bacterium for production of a desired protein
HUP0000922A3 (en) 1997-01-20 2002-03-28 Plant Genetic Systems Nv Pathogen-induced plant promoters
US5922564A (en) 1997-02-24 1999-07-13 Performance Plants, Inc. Phosphate-deficiency inducible promoter
CA2315549A1 (en) 1998-02-26 1999-09-02 Pioneer Hi-Bred International, Inc. Family of maize pr-1 genes and promoters
AU762993C (en) 1998-02-26 2004-06-10 Pioneer Hi-Bred International, Inc. Constitutive maize promoters
US6635806B1 (en) 1998-05-14 2003-10-21 Dekalb Genetics Corporation Methods and compositions for expression of transgenes in plants
US6307123B1 (en) 1998-05-18 2001-10-23 Dekalb Genetics Corporation Methods and compositions for transgene identification
JP2000083680A (ja) 1998-07-16 2000-03-28 Nippon Paper Industries Co Ltd 光誘導型プロモ―タ―の制御下に置かれた不定芽再分化遺伝子を選抜マ―カ―遺伝子とする植物への遺伝子導入方法及びこれに用いる植物への遺伝子導入用ベクタ―
US6194636B1 (en) 1999-05-14 2001-02-27 Dekalb Genetics Corp. Maize RS324 promoter and methods for use thereof
US6429357B1 (en) 1999-05-14 2002-08-06 Dekalb Genetics Corp. Rice actin 2 promoter and intron and methods for use thereof
US6207879B1 (en) 1999-05-14 2001-03-27 Dekalb Genetics Corporation Maize RS81 promoter and methods for use thereof
US6232526B1 (en) 1999-05-14 2001-05-15 Dekalb Genetics Corp. Maize A3 promoter and methods for use thereof
US7151204B2 (en) 2001-01-09 2006-12-19 Monsanto Technology Llc Maize chloroplast aldolase promoter compositions and methods for use thereof
US20130047297A1 (en) 2010-03-08 2013-02-21 Robert D. Sammons Polynucleotide molecules for gene regulation in plants
US9873907B2 (en) * 2013-05-29 2018-01-23 Agilent Technologies, Inc. Method for fragmenting genomic DNA using CAS9
CN106232803A (zh) 2014-02-27 2016-12-14 孟山都技术公司 用于定点基因组修饰的组合物和方法
WO2015148680A1 (en) * 2014-03-25 2015-10-01 Ginkgo Bioworks, Inc. Methods and genetic systems for cell engineering
CN107750125A (zh) 2015-06-02 2018-03-02 孟山都技术有限公司 用于将多核苷酸递送至植物中的组合物和方法
WO2016196782A1 (en) 2015-06-03 2016-12-08 Monsanto Technology Llc Methods and compositions for introducing nucleic acids into plants
US9790490B2 (en) * 2015-06-18 2017-10-17 The Broad Institute Inc. CRISPR enzymes and systems
CA3009190A1 (en) * 2015-12-29 2017-07-06 Monsanto Technology Llc Novel crispr-associated transposases and uses thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150197759A1 (en) * 2014-01-14 2015-07-16 Lam Therapeutics, Inc. Mutagenesis methods
WO2016197355A1 (zh) * 2015-06-11 2016-12-15 深圳市第二人民医院 CRISPR-Cas9特异性敲除猪SALL1基因的方法及用于特异性靶向SALL1基因的sgRNA
CN105331607A (zh) * 2015-10-19 2016-02-17 芜湖医诺生物技术有限公司 嗜热链球菌CRISPR-Cas9系统识别的人CCR5基因的靶序列和sgRNA及其应用

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113795587A (zh) * 2019-03-07 2021-12-14 纽约市哥伦比亚大学理事会 使用Tn7样转座子进行RNA引导的DNA整合
CN110066852A (zh) * 2019-05-29 2019-07-30 复旦大学 一种在哺乳动物细胞中检测CRISPR/Cas PAM序列的方法和系统
CN110066852B (zh) * 2019-05-29 2022-07-22 复旦大学 一种在哺乳动物细胞中检测CRISPR/Cas PAM序列的方法和系统
CN116056564A (zh) * 2020-09-10 2023-05-02 孟山都技术公司 利用减数分裂和种系启动子增加基因编辑和定点整合事件
US11981900B2 (en) 2020-09-10 2024-05-14 Monsanto Technology Llc Increasing gene editing and site-directed integration events utilizing meiotic and germline promoters
CN116355878A (zh) * 2023-02-28 2023-06-30 华中农业大学 新型TnpB编程性核酸酶及其应用
CN116355878B (zh) * 2023-02-28 2024-04-26 华中农业大学 新型TnpB编程性核酸酶及其应用

Also Published As

Publication number Publication date
EP3397757A4 (en) 2019-08-28
CA3009190A1 (en) 2017-07-06
AU2016380351A1 (en) 2018-07-05
CN115216459B (zh) 2024-06-28
US10995327B2 (en) 2021-05-04
AU2016380351B2 (en) 2023-04-06
US12006521B2 (en) 2024-06-11
EP4159849A1 (en) 2023-04-05
EP3397757A1 (en) 2018-11-07
EP4159847A1 (en) 2023-04-05
CN108738326B (zh) 2022-05-06
CN115216459A (zh) 2022-10-21
WO2017117395A1 (en) 2017-07-06
US20210380956A1 (en) 2021-12-09
AU2023204276A1 (en) 2023-07-27
US20190093090A1 (en) 2019-03-28
EP4159848A1 (en) 2023-04-05

Similar Documents

Publication Publication Date Title
CN108738326A (zh) 新型crispr相关转座酶及其用途
US20230340441A1 (en) Novel rna-guided dna nucleases and uses thereof
JP7239266B2 (ja) 一過性遺伝子発現により植物を正確に改変するための方法
KR102677877B1 (ko) 이중나선 dna의 표적화된 변형 방법
CN108473981B (zh) 工程化靶向核酸的核酸
CN105916371A (zh) 提高的植物中的蛋白质表达
KR20230021743A (ko) 이형접합 cenh3 외떡잎식물 및 반수체 유도 및 동시 게놈 편집을 위한 이의 사용 방법
CN106414742A (zh) 玉米调节元件及其用途
CN102131932A (zh) 人工植物微染色体
US20220356484A1 (en) Genetic modification of plants
US20200347389A1 (en) Compositions and methods for generating diversity at targeted nucleic acid sequences
Vichyavichien Analysis of SLKED Gene Expression in CRISPR/Cas9-Mediated Gene Knockouts in Tomato (Micro-Tom)
Vichyavichien Analysis of SLKED gene expression in CRISPR/Cas9-mediated
OA21074A (en) Heterozygous CENH3 monocots and methods of use thereof for haploid induction and simultaneous genome editing.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant